Образец дерева регрессии для данных чемпионатов мира по футболу 2002−2014 годов. В качестве переменной-отклика используется количество голов
Специалисты по машинному обучению из Германии сравнили три разных модели для предсказания результатов будущего чемпионата мира по футболу 2018 года:
- модели регрессии Пуассона;
- методы random forests (случайных лесов);
- методы ранжирования (по силе команд исходя из спаррингов за 2010-2018 года и по коэффициентам в букмекерских конторах).
Первые два основаны на информации о ковариатах, а последний непосредственно на реальной фактической силе команд. Учёные пришли к выводу, что в рамках этого сравнения наиболее эффективными методами прогнозирования на обучающих данных являются методы ранжирования и случайные леса. Но с помощью комбинированного подхода — сочетая свойства random forests с ранкингом команды — учёным удалось существенно улучшить предсказательную силу системы.
Эту комбинацию методов исследователи выбрали в качестве окончательной модели. На основе её оценок были многократно смоделированы все матчи чемпионата мира по футболу 2018 года. Рассчитаны вероятности для каждого матча, вероятности прохода каждой команды в каждую следующую стадию турнира и наиболее вероятный исход турнира.
Авторы отмечают, что в научной прессе ранее было опубликовано несколько удачных моделей, предсказывающих результаты чемпионата мира и Европы. Разработчики этих моделей применили систему также для прогнозирования исхода ЧМ-2018.
Так, компьютерная модель Zeileis, Leitner и Hornik (2018) выдаёт наибольшие статистические вероятности победы для Бразилии (16,6%), Германии (15,8%) и Испании (12,5%).
Модель экспертов из швейцарского банка UBS (Audran, Bolliger, Kolb, Mariscal, Pilloud, 2018) рассчитала наиболее вероятным победителем Германию (24,0%), Бразилию (19,8%) и Испанию (16,1%). Данная статистическая модель в качестве входных данных использовала четыре фактора, после чего вероятности рассчитывались по результатам 10 000 симуляций Монте-Карло.
Метод random forests — принципиально новый подход. Алгоритм случайных деревьев заключается в использовании ансамбля решающих деревьев. Здесь сочетаются метод бэггинга и метод случайных подпространств для задач классификации, регрессии и кластеризации. Другими словами, для прогнозирования матчей ЧМ-2018 он подходит очень хорошо. Основная идея метода случайных деревьев заключается в использовании большого ансамбля решающих деревьев, каждое из которых само по себе даёт очень невысокое качество классификации, но за счёт их большого количества результат получается хорошим.
Немецкие специалисты тщательно проанализировали все предложенные модели и их итоговую предсказательную силу. Затем были выделены конкретные предсказательные факторы, которые максимально влияют на предсказательную силу модели. В конце концов, после такой подготовительной работы учёные применили спроектированную модель (случайные леса + ранжирование) на данных ЧМ-2018.
Для каждого матча модель может выдать ожидаемое количество забитых мячей каждой командой. На основании этой информации был рассчитан исход всех 48 матчей на групповой стадии. Итоговое положение команд в группах вычислялось в строгом соответствии с регламентом FIFA. Затем таким же образом рассчитали результаты матчей в стадии плей-офф. Для учёта дополнительного времени выдаваемой программой результат по количеству голов, забитых каждой командой, умножался на 1,33. Если по результатам дополнительного времени опять фиксировалась ничья, то программа симулировала серию пенальти путём «бросания монетки».
Данная стратегия использовалась для 100 000 симуляций всех матчей чемпионата. На основании этих данных рассчитывалась вероятность выхода из группы и победы в турнире.
По итогам групповой стадии программа выдала следующую картину:
У сборной России довольно высокие шансы пройти в 1/8 финала (50,4%), но там она должна встретиться со сборной Испании, где с вероятностью 87% победит последняя. В таблице показана самая вероятная сетка плей-офф по итогам 100 000 симуляций.
Общие шансы России на проход в четвертьфинал — 10,5%, в полуфинал — 2,4%, в финал — 0,4%.
Для победителя турнира данная модель выдала результат, отличный от результата предыдущих программ моделирования. Она отдала максимальную вероятность Испании (17,8%). За ней следуют Германия, Бразилия, Франция и Бельгия.
Научная статья опубликована 8 июня 2018 года на сайте препринтов arXiv.org (arXiv:1806.03208v3).
Автор: alizar