Мы проводим мероприятия не только по темам, которыми занимаемся сами. В феврале мы собрали специалистов по использованию машинного обучения в спорте. Удивительно, как много процессов связывают эти две сферы — анализ данных и спорт — и какое количество нерешенных проблем возникает на стыке между ними. Перед вами доклад Дмитрия Дагаева — заместителя проректора НИУ ВШЭ.
— Сегодня я постараюсь коротко рассказать о задачах, которые уже решаются с помощью анализа данных в спорте. Мы увидим, что именно взаимодействие агентов является ключевым фактором, который позволяет решать эти задачи.
В общем случае циркуляция данных в спортивной индустрии устроена следующим образом. Во-первых, есть спортивные федерации и лиги, определяющие правила игры, по которым функционируют спортивные соревнования, экономики спорта.
Проблема в том, что эти лиги, соревнования, эта экономика — очень сложная конструкция. И во время принятия оптимальных решений, конечно, хочется, чтобы все они были оптимальными, но федерации наталкиваются на необходимость точного анализа. Это не всегда возможно. Часто, чтобы получить точный ответ, который позволяет максимизировать ту или иную величину, нужно провести великую компьютерную симуляцию или какой-то регрессионный анализ. Конечно, федерация не всегда может это сделать самостоятельно.
Правила определены, и клубы или индивидуальные спортсмены вынуждены жить по этим правилам. Следующая стрелочка тоже характеризует некоторый спектр проблем. Сыграли мы какой-то матч или провели шахматную партию. По идее, из матча можно извлечь огромное количество данных. До недавнего времени извлечение данных наталкивалось на очень серьезные проблемы. Как это сделать? Развитие современных компьютерных технологий позволило, например, в таких стратегических играх, как шахматы или го, обыгрывать самых сильных спортсменов. А в таких играх, как простейшие версии шашек или покер, найти фактически точное решение.
Извлечение данных в задачах, которые требуют анализа изображений, это довольно дорогая история. Поэтому на рынке последние 15–20 лет стали появляться компании, которые занимаются видеосъемкой футбольных, хоккейных матчей и потом успешно продают эти данные самим клубам, федерациям или ученым.
Еще одна проблема — нужно проанализировать данные. Здесь на помощь приходит академическое сообщество. Очень часто исследовательские отделы существуют либо в самих спортивных клубах, либо в компаниях, которые занимаются извлечением данных, либо в университетах — как отдельные исследовательские центры. И они выдают рекомендации на основе анализа полученных данных. Так в общем случае устроена эта система.
Зачем анализировать данные?
Есть две глобальные цели. Командам, спортсменам это позволяет повышать вероятность выигрыша в отдельном матче. На этом слайде Йенс Леманн. Пожалуй, самый известный пример — это когда в 2006 году шпаргалка, которую он достал из гетр, позволила ему отразить два пенальти от сборной Аргентины и выйти в следующий раунд Чемпионата мира.
Вторая задача обобщенная — повышение финансовых результатов. Вопросы, связанные с повышением продажи прав на трансляции матчей. Это требует точного анализа предпочтений потребителей, ценовой политики. Здесь данные позволяют находить оптимальные ответы.
В целом клубам может быть интересно анализировать стратегию своего соперника, чтобы в ответ на нее находить оптимальный ответ.
В начале 2000-х годов появилась знаменитая статья Игнасио Паласиос-Уэрта «Professionals Play Minimax», в которой оказалось, что на самом деле спортсмены, которые пробивают пенальти, ведут себя очень похоже на то, как предсказывает теория, и это позволяет клубам, анализируя данные, находить оптимальные ответы на ожидаемую стратегию того или иного футболиста. В том числе если он отклоняется от равновесной стратегии и пытается использовать какую-то другую, позволяет удачно играть против нее.
Трансферы, поиск недооцененных спортсменов тоже очень важная задача, в которой сейчас намечается много прорывов. Каждый клуб может сформулировать свой отдельный запрос на то, какой футболист ему нужен. Понятно, на рынке существует большое количество спортсменов, каждый из них имеет какую-то трансферную стоимость, по каждому можно собрать большой объем статистических данных относительно его выступлений в недавнем прошлом, но проблема в том, что мало посмотреть на обобщенную статистику, нужно смэтчить эти данные с потребностями конкретного клуба, поэтому каждому клубу приходится искать в том числе тех футболистов или хоккеистов, которые оптимально подходят под его задачу.
Оценка эффективности спортсмена, как устроить контракт этого спортсмена, как найти ту оптимальную часть бонусов, которые ему нужно платить, как это сделать так, чтобы он прикладывал максимальные усилия в каждом конкретном матче. Эту задачу можно решать с помощью оценки эффективности по отдельному набору действий, которые он совершает в течение матча. Это тоже важная задача, в которой клубы сейчас заинтересованы.
С точки зрения федераций или лиг, задачи немного другие. Важная задача — задача дизайна соревнований, как сделать так, чтобы лига была наиболее конкурентной. Потому что чем выше конкуренция, тем лига более привлекательна для зрителей.
Как регулировать лигу, как устанавливать оптимальные правила? К чему приведут лимиты на легионеров? Хочется не просто заявлять, что это позволит успешно выступать нашей сборной, но хочется постараться смоделировать ситуацию и предоставить более-менее точный ответ, основанный на предсказаниях, симуляциях этой сложной системы, которая по своей сложности вполне может сравниться с экономикой какой-то страны.
Другая задача, которая активно решается последнее время, это поиск договорных матчей, рынок нелегальных ставок растет бешеными темпами. Если рынок ставок в целом оценивается уже сотнями миллиардов долларов, то рынок нелегальных ставок, даже если он занимает какую-то долю от этого, все равно представляет большой объем.
Борьба с допингом, сегодня это особенно актуально. Как можно, не имея возможности поймать тот или иной химический элемент, тем не менее сделать предсказание о том, что спортсмен использует допинг — в этом анализ тоже помогает.
Последнее время на этот рынок приходит большое количество инвесторов. Стоимость решений увеличивается.
Здесь объемы всего футбольного рынка, стоимость самых дорогих спортсменов за всю историю. Видно, что каждые примерно 20 лет стоимость самого дорогого трансфера увеличивалась примерно в 10 раз. Даже если сделать скидку на инфляцию и изменение реальной стоимости фунта, то все равно эти темпы роста существенно превосходят темпы роста мировой экономики и каких-то других отраслей. Есть ожидание, что эта тенденция не остановится. Ходят слухи, что уже сейчас в контрактах некоторых футболистов прописываются отступные, сравнимые с миллиардом долларов. Посмотрим, что будет дальше.
Спрос на точные решения, которые позволят избежать ошибок, в том числе измеряемых конкретными деньгами, будет увеличиваться. Поэтому нам есть, чем заниматься.
Но не все так просто. Есть несколько существенных проблем. Главная — недооценка важности принятия точных решений, решений, которые основаны не на интуиции, а на точном расчете.
По оценкам некоторых экспертов, мы отстаем здесь от Европы и США примерно на 10 лет по темпам внедрения спортивной аналитики.
Сейчас любой западный клуб имеет штат аналитиков, которые не только собирают данные, но и подробно их анализируют.
Эта проблема порождает проблему спроса. Это тормозит развитие этого рынка у нас, в России.
Это не единственная проблема. Есть проблема предложения, недостаток квалифицированных кадров. К сожалению, пока нет специализированных программ, которые дают образование в области спортивной аналитики, анализа данных в спорте. Есть общие программы по анализу данных, и последнее время появляется много новых, интересных и даже бесплатных программ, но к сожалению, рынок пока не насыщен, и это ограничивает его рост. Надеюсь, все впереди.
Третья проблема, которая сейчас наиболее успешно решается, это высокая стоимость сбора данных. Чтобы получить качественные полные данные, приходится приезжать на каждый матч лиги, снимать его на профессиональное видеооборудование. Последние 10-15 лет здесь происходят существенные сдвиги и прорывы.
Расскажу про конкретные задачи.
Первый пример — рынок нелегальных ставок.
Все началось примерно в 2006 году, когда итальянская полиция обнаружила с помощью прослушки, что существенная часть матчей итальянского чемпионата фактически является договорными. Пять клубов были существенно оштрафованы за участие в этом безобразии, несколько клубов были понижены в статусе, отправлены в более низкие лиги, некоторые клубы потеряли какое-то количество очков в национальном чемпионате. «Ювентус» лишился звания чемпиона. Тогда стало понятно, что нужно как-то реагировать. Не всегда получается за руку схватить в момент сговора. Приходится по косвенным данным находить подозрительные матчи.
В 2009 году УЕФА и компания Sportradar запустили систему UEFA Betting Fraud Detection System. Она мониторит все ставки на матчи, которые проводятся под эгидой УЕФА во всех крупнейших букмекерских конторах мира. Система в момент для каждого матча, когда ставка, которая отличается по своему размеру от ожидаемой ставки на такой матч, когда выявляются наблюдения, отличные от закономерного тренда, в этот момент генерируется сигнал. И эти сигналы собираются на протяжении продолжительного отрезка времени, и если оказывается, что на матчах одной и той же команды очень часто попадают такие сигналы, сразу возникают логичные подозрения.
Вот самый громкий кейс, который произошел в течение последних лет. С 2010 года чемпион Албании, футбольных клуб «Скендербреу» отметился более чем 50 такими странными сигналами. Когда соответствующий орган внутри УЕФА проанализировал эти сигналы, «Скендербреу» был дисквалифицирован сначала на один сезон от участия в еврокубках, а сейчас обсуждается вопрос отстранения этого клуба более чем на 10 лет, поскольку выявляются новые данные в результате расследования. Вчера появилась новость, что сотрудники УЕФА стали получать угрозы в связи с расследованием. Видимо, действительно что-то очень подозрительное. Президенту УЕФА пришлось публично выступать в защиту сотрудников, которые занимаются анализом данных и находят эти странные элементы.
Речь не о том, что здесь было доказано в юридическом смысле дача взяток. Это всего лишь сигналы, которые показывают, что с очень большой вероятностью что-то не так.
В чем еще могут быть заинтересованы спортивные федерации? Бельгийская королевская футбольная ассоциация очень долго, в течение практически 30 лет, не меняла формат своего чемпионата. В результате спортивные клубы почувствовали, что им хочется чего-то другого. Некоторым клубам захотелось более сильную лигу, некоторым захотелось, чтобы был расширен состав участников лиги. Тогда возник запрос на изменение формата турнира.
Чиновники захотели минимизировать количество незначащих матчей. С их точки зрения именно это сдерживало потенциал роста лиги, продажи прав, и они заказали у ряда исследователей сравнение форматов нескольких турниров на предмет минимизации самых неинтересных матчей, где обе команды уже либо что-то решили, либо где никому не интересно играть на победу.
Гуссенс, Бельон и Спиксма провели анализ нескольких форматов, предложенных федерацией, и на практике было имплементировано решение, которое они предсказали, что оно будет минимизировать количество неинтересных матчей. Это еще один пример взаимодействия академического сообщества и спортивной федерации.
Другая задачка — о том, как WADA занимается борьбой с допингом. Конечно, проводятся химические анализы проб, но с 2009 года WADA начала имплементировать биологический паспорт атлета. Каждый раз, когда спортивные офицеры приходят к атлету и берут у него пробу мочи или крови, результаты этого анализа заносятся в специальный биологический паспорт. С 2009 года фиксируются показатели крови, гематологический контроль. С 2014 года — еще и показатели мочи, стероидный контроль. И динамические данные в этом паспорте анализируются на предмет того, что динамика отличается между спортсменов, которые используют допинг и которые его не используют. Без химического обнаружения следов допинга получается строить предсказания относительно того, кто является подозрительным, и на этих спортсменов начинают обращать внимание, к ним предъявляют больше требований, к ним чаще приходят офицеры, принимаются прочие решения.
Спустимся на уровень клубов. Самая громкая история — у спортивного клуба «Мидтьюлланд». Спортивный директор этого клуба сказал, что «нам пора перейти от принятия решений с помощью нашего сердца к принятию решений с помощью нашего мозга».
Футбольный клуб владеет фактически целым отделом аналитиков, которые сидят в Лондоне, и любое стратегическое, менеджериальное решение, которое принимает клуб, основано на анализе данных. Не обладая существенным бюджетом, клуб, тем не менее, находит игроков, которые в стратегических задачах этого клуба оказываются наиболее продуктивными и успешными.
В 2014–2015 году клуб впервые в истории стал чемпионом Дании, в текущем сезоне снова идет на первом месте, и весь спортивно-аналитический мир активно следит за тем, какие новации привносит клуб в принятие решений, которые помогают улучшать результаты.
Про академическую сторону этого рынка. Поскольку я представляю вуз, это для меня наиболее интересно.
Сейчас появился специализированный журнал Journal of Sports Analytics. Объем задач, которые интересно решать исключительно академическому сообществу, даже в отрыве от рынка, очень велик.
Ссылки:
journals.sagepub.com/home/jse
www.degruyter.com/view/j/jqas
www.degruyter.com/view/j/ijcss
www.tandfonline.com/toc/rpan20/current
www.journals.elsevier.com/sport-management-review
www.tandfonline.com/toc/resm20/current
fitpublishing.com/journals/ijsf
Есть еще около семи журналов, которые публикуют исследования в области анализа данных. Журналы в области computer science, экономики, менеджмента. И в последнее время рейтинги этих журналов начинают существенно увеличиваться.
Научные конференции. Около 15 лет назад стали появляться большие конференции, которые спонсируются крупными корпорациями, вузами с мировым именем. Хочу порекламировать организованную ВШЭ и РЭШ конференцию по экономике футбола, которая пройдет в Москве в рамках чемпионата мира с 9 по 11 июля. Будем рады вас видеть в качестве слушателей, и если у вас есть интересные работы, которые можно там представить, тоже напишите мне, мы постараемся их включить в программу конференции.
Надеюсь, наше общение позволит выявить общие точки соприкосновения. Будем надеяться, что анализ данных в спорте будет развиваться и соответствовать тому темпу роста рынка, который мы уже увидели.
Автор: Леонид Клюев