“Спад захворювання на COVID-19 в Україні має відбутися протягом травня” . “Сінгапурські вчені вирахували дату закінчення пандемії COVID-19”. Саме під такими заголовками кілька днів тому всі провідні ЗМІ розповсюдили новину про дату закінчення пандемії коронавірусу. Слідом за ним скріншоти з обнадійливим графіком розлетілися мережею фейсбук. Розберемося, що ж це за прогноз і чи варто йому вірити.
ВЕРДИКТ: ФЕЙК
СПРОСТУВАННЯ
.Автором графіку виступає Лабораторія інновацій на основі даних (Сінгапур) . Це робота Цзянсі Луоє, доцента Сингапурського університету технологій та дизайну і директора лабораторії інновацій на основі даних.
Автор прогнозу на головній сторінці сайту чітко одразу відмовляється від відповідальності:
“вміст цього веб-сайту суворо суто навчальний та дослідницький та може містити помилки. Модель та дані є неточними. Прогнози від природи невизначені. Читачі повинні приймати будь-які прогнози з обережністю. Надмірний оптимізм, заснований на певних прогнозованих кінцевих датах, небезпечний тим, що може послабити наші засоби контролю та спричинити повернення вірусу та інфекції. Цього потрібно уникати”.
- За Моделлю SIR
- З використанням коду для моделювання Мілана Батіста
- На даних з сайту OUR WORLD IN DATA.
1. Модель SIR
В методологію та обґрунтування моделі SIR не будемо заглиблюватися, зазначимо лишень, що за основу розрахунків беруться:
- кількість сприйнятливих до хвороби осіб, яким належить заразитися (тобто все здорове населення);
- кількість заражених;
- кількість одужалих (чи померлих);
- припускається кількість контактів хворих зі здоровими за день;
- припускається певний термін одужання.
У нас проблеми з точністю даних починаються одразу на першому етапі – невідома навіть точна кількість населення країни. Кількість хворих, при безсимптомному, але заразному протіканні початку хвороби, та, головне, недостатньому тестуванні, теж залишається умовно відомою величиною. А кількість контактів в наших умовах “обсервації” взагалі порахувати неможливо.
2. Програмне забезпечення
Програма fitVirusCV19 за допомогою SIR моделі аналізує чисельність епідемії. Модель керується даними, тому якість прогнозу залежить від якості даних. Зокрема, модель передбачає постійну популяцію, рівномірне змішування людей і однаково ймовірність видалення заражених людей. Тобто все знову впирається точність і своєчасність даних.
Автор функції, Мілан Батіста, категорично застерігає, що програмне забезпечення та дані:
“Призначені для освіти, а не для медичного чи комерційного використання. Модель може вийти з ладу в деяких ситуаціях. Зокрема, модель може бути неадекватною; модель може провалюватися в початковій фазі і тоді, коли виникають додаткові стадії епідемії або спалахи (не описані моделлю SIR).
Дані розрахунків – лише для демонстрації роботи fitVirusCV19. FitVirus та демо-дані представлені лише в освітніх та академічних цілях і не повинні використовуватися в медичних цілях і в комерції.” |
В коментарях автор зізнається, що ця навчальна програма призначена лише для щоденного оцінювання, а не для певного довгострокового прогнозування. Саму модель SIR він також вважає не найкращою, але для інших моделей потрібно значно більше даних і часто таких даних, які неможливо дістати.
3. Дані
Лабораторія інновацій зазначає, що для розрахунку користується даними від Our World in Data – дослідницької платформи Оксфорду. Вони, своєю чергою, як джерело даних щодо кількості заражених, хворих, померлих та протестованих використовували ВООЗ та Європейський центр профілактики та контролю захворювань (ECDC). Але одного дня на сайті ВООЗ стався збій і тому дані цього дня наклалися. Після цього випадку Our World in Data беруть дані для підрахунку лише з Європейського центру. Тобто бачимо, що навіть офіційні дані ВООЗ, якій країни-члени щодня надсилають офіційні звіти – недостатньо надійне джерело.
Та відомості ECDC щодо України теж не відповідають дійсності. Дані в таблиці то відстають на день, то цифри за кілька днів сумуються до купи, або взагалі один день виявляється пропущеним.
З 15 березня і до 18 квітня дані ECDC та МОЗ жодного разу не збіглися ні по цифрах, ні по датах.
16 квітня ECDC вказав 789 нових заражень, в той час як офіційна цифра складала 501 людину. |
Така цифра могла утворитися, лише якщо додати дані за 14 та 15 квітня. Після 18 квітня значення однакові, але не збігаються по днях. 28 квітня в таблиці ECDC взагалі стоїть НУЛЬ нових хворих і НУЛЬ померлих. Потім відповідні дані переганяють календар на два дні.
Отже, прогноз, за який автор не бере відповідальності, будувався на:
- моделі, яка включає необраховані припущення;
- за допомогою програми, яка призначена для щоденного оцінювання, а не прогнозування на майбутнє;
- програми, яка, за заявою автора, може помилитися в будь-який момент;
- демо-дані програми підходять лише для демонстраційних цілей та освіти;
- і головне – на основі помилкових даних. які не відповідають офіційним.
Наразі графік України з сайту прибрано, як і PDF версію “передбачень” для всіх країн. Та навіть на скріншоті добре видно і 789 неправдивих заражень 16 квітня і провали в даних в інші дні. По інших країнах можна побачити, що прогнози змінюються з кожним днем – умовна дата закінчення зміщується у часі все далі і далі.
Наприклад, ще два дні тому автори прогнозували закінчення епідемії в Італії 31 серпня. Сьогодні – уже 10 жовтня.Це цілком нормально для роботи моделі – з’являються нові дані і програма перераховує “прогноз”. Та трьох показників явно недостатньо для вірогідного прогнозу, яким би могли керуватися держави.
А для України, коли для розрахунків одразу бралися невідповідні дані, такі “передбачення” недійсні і поготів.
Автор: Олекса Шарабура