Джереми Ховард — президент и «главный по науке» компании Kaggle, превратившей статистическое прогнозирование в спорт.
Peter Aldhous: Kaggle называет себя онлайн-биржей мозгов. Расскажите об этом.
Джереми Ховард: Это веб-сайт, на котором размещают конкурсы по статистическому прогнозированию. Мы провели много удивительных конкурсов. Например, разработка алгоритма оценки студенческих рефератов. Или вот недавно закончился конкурс на разработку системы обучения Microsoft Kinect жестам. Идея состояла в том, чтобы показать контроллеру жест один раз, а алгоритм должен обучиться распознавать такие жесты в будущем. Еще один конкурс — прогнозирование биологических свойств молекул при скрининге на возможные наркотические свойства.
PA: Как проводятся эти конкурсы?
JH: Они основаны на технологиях машинного обучения и датамайнинга для предсказания будущих трендов из существующих данных. Компании, правительственные структуры и исследователи предоставляют выборки данных и задачи, а также предлагают денежные призы за лучшее решение. Любой может участвовать в конкурсе: у нас около 64000 зарегистрированных пользователей. Мы обнаружили, что творческие специалисты в области анализа данных способны решать задачи во всех областях лучше, чем эксперты в этих областях.
PA: На этих конкурсах решаются очень специфические задачи. Эксперты участвуют в конкурсах?
JH: Да, каждый раз, когда появляется новый конкурс, эксперты говорят: «Мы построили целую индустрию вокруг этого. Мы знаем ответы». Но через несколько недель они продувают конкурс.
PA: Кто побеждает на конкурсах?
JH: Люди, которые просто могут увидеть, что на самом деле говорят им данные, без отвлечения на отраслевые допущения и специальные знания. Джейсон Тигг, руководящий крупным хедж-фондом в Лондоне, отлично выступает на многих конкурсах. Или Ксэйвер Конорт, консультант по прогнозированию и аналитике из Сингапура.
PA: Вы тоже бывали победителем конкурса. Как случилось, что вы поучаствовали?
JH: Это был долгий и странный путь. Я изучал философию в Австралии, работал консультантом по вопросам менеджмента 8 лет, а затем в 1999 основал два стартапа. Один — FastEmail, второй Optimal Decisions Group помогал страховым компаниям оптимизировать риски и прибыли. К 2010 году я продал оба стартапа, начал изучать китайский язык и делать усилители и колонки, потому что я до этого ничего не умел делать своими руками. Я путешествовал. Но все это было недостаточно интеллектуально. Затем, на каком-то собрании статистиков в Мельбурне кто-то рассказал мне о Kaggle. Я подумал: «Это действительно интересно и пугающе».
PA: Как прошел ваш первый конкурс?
JH: Чтобы не завышать свои ожидания, я поставил себе цель не прийти последним. Но на самом деле я выиграл конкурс. Это было прогнозирование прилета и вылета туристов в различных аэропортах. К тому моменту, когда я снова пошел на собрание статистиков, я выиграл в двух из трех конкурсов, в которых я участвовал. Основатель Kaggle Энтони Гольдблюм присутствовал на собрании. Он сказал: «Ты тот самый Джереми Ховард? У нас никогда не было победителя с результатом два из трех».
PA: Как вы стали «главным по науке» Kaggle?
JH: Я предложил им ангельское инвестирование. Но я просто не смог удержаться, чтобы не поучаствовать в бизнесе. Я сказал Энтони, что сайт работает медленно и переписал движок с нуля. Затем мы с Энтони провели три месяца в Америке, пытаясь получить инвестора. Тогда все стало серьезнее, мы привлекли 11 миллионов. Мне пришлось переехать в Сан Франциско и полностью посвятить себя этому проекту.
PA: Вы все еще участвуете в конкурсах?
JH: Мне разрешено участвовать, но запрещено выигрывать призы. На самом деле, я слишком занят.
PA: Как объяснить успех Kaggle в решении задач прогнозирования?
JH: Соревновательный аспект очень важен. Чем больше людей участвует в этих конкурсах, тем лучше становится прогнозная модель. Нет ни одного другого места в мире, кроме профессионального спорта, где бы вы получили столь явный, прямолинейный, лишенный стесненности отклик о том, насколько вы хороши в своей области. Становится ясно, что работает, а что нет. Это как эволюционный процесс, улучшающий выживаемость наиболее приспособленных, и мы н аблюдаем этот процесс прямо сейчас. Все больше и больше наши лучшие конкурсанты кооперируются между собой.
PA: Какие статистические методы работают лучше всего?
JH: Один из методов, который регулярно приносит высокие результаты — the random forest. Из обучающей выборки берутся многочисленные случайные подвыборки, и для каждой делается дерево решений. Каждое отдельное дерево обладает слабой предсказательной силой, но когда берется «среднее значение» по всему «лесу», вы получаете мощную модель. Это абсолютный черный ящик, подход не основан ни на каких дополнительных знаниях о предметной области. Не нужно думать — метод просто работает.
PA: Что отличает победителей от прочих конкурсантов?
JH: Разница между плохими и хорошими конкурсантами в той информации, которую они скармливают алгоритмам. Вам нужно решить, какие абстрации извлечь из данных. Победители на Kaggle — любопытные и творческие люди. Они генерируют десятки необычных способов рассмотрения проблемы. Хорошее свойство таких алгоритмов, как random forest — вы можете пробовать столько сумасшедших идей, сколько сможете, а алгоритм решает, какая идея лучше сработает.
PA: Это сильно отличается от традиционного подхода к построению прогнозных моделей. Как реагируют эксперты?
JH: Для многих людей эти сигналы неприятны. Это противоречит их убеждениям, т.к. мы говорим им: «Десятилетия накопления специальных знаний в вашей области не только бесполезны, они даже вредны; ваши сложные методики хуже обобщенных подходов». Это сложно принять людям, привыкшим к старому типу науки. Они проводят много времени в обсуждении, имеет ли смысл та или иная идея. Они смотрят на визуализации и размышляют над ними. На самом деле это все не нужно.
PA: Так есть ли смысл в экспертных знаниях?
JH: Эксперты нужны на ранних этапах, когда требуется решить, какую задачу вы хотите поставить. Нужна стратегическая экспертиза для ответов на такие вопросы.
PA: Вы не видите недостатков в датацентрических подходах черного ящика, царящих на Kaggle?
JH: Некоторые считают, что вы не получаете более глубокого понимания проблемы. Но это не так: алгоритмы отвечают на вопрос, что является важным, а что нет. Вы можете спросить, почему эти вещи важны, но для меня это неинтересно. Вы получаете прогнозную модель, которая работает. Очем там рассуждать?
Автор: sergeypid