21 апреля мы открываем четвертое по счету соревнование по машинному обучению на платформе ML Boot Camp. Сегодня мы расскажем о новой задаче, обновлениях на сайте и других полезных ништяках. А если вы вдруг впервые слышите, что такое ML Boot Camp, заходите под спойлер, и мы все расскажем.
ML Boot Camp — площадка для решения задач по машинному обучению. Периодически мы выкладываем на ней новые задачи и запускаем контест. Участники должны решить нашу задачу в течение месяца и прислать решение. Авторы лучших решений получат призы. В прошлом чемпионате мы дарили MacBook Air за первое место, iPad — за второе и третье и iPod nano — за 4-6 места.
На старте участники получают условия задачи, словесное описание доступных данных — обучающую выборку. Выборка состоит из размеченных примеров — векторов описаний каждого объекта с известным ответом. Участники с помощью известных им методов машинного обучения тренируют компьютер. Обученную систему они используют на новых объектах (тестовой выборке), пытаясь определить ответ для них.
Тестовая выборка случайно поделена на две части: рейтинговую и финальную. Общий результат на рейтинговых данных вычисляется системой и публикуется сразу, но победителем становится тот, кто получит наилучшие результаты на финальных данных. Результаты остаются скрытыми для участников до самого конца соревнования.
В последний день чемпионата участник может выбрать два решения, которые будут представлять его в финале. Лучшее из них пойдет в зачет на таблице лидеров.
Новая задача
На этот раз мы предлагаем вам "Задачу с секретом". Содержательную постановку задачи мы раскрывать не будем. Она останется неизвестной до конца соревнования. Вы сможете испытать ваши аналитические способности по полной программе!
Перед вами стоит задача классификации: на основе известного распределения по пяти классам обучающих элементов, распределить тестовые. В качестве ответа присылайте текстовый файл, каждая строка которого соответствует строке в файле с тестовыми данными и содержит номер класса (0, 1, 2, 3 или 4). Предлагаем вам целых 42 числовых признака для классификации!
Критерием качества решения будет доля правильно классифицированных объектов. Тестовая выборка случайным образом разбита на две части в соотношении 40/60. Результат на первых 40 % будет определять положение участников в рейтинговой таблице на всем протяжении конкурса. Результат на оставшихся 60 % станет известен после окончания конкурса и определит финальную расстановку участников. Удачи!
Выражаем огромную благодарность ННГУ им. Н. И. Лобачевского и лично Николаю Золотых и Олегу Дурандину за помощь в подготовке задачи и экспертное сопровождение чемпионата! Николай и Олег участвовали в проведении каждого нашего ML чемпионата, без них мы не осилили бы и половины того, что сделано сейчас.
Полезные материалы
Обучающая статья
Если вы новичок, рекомендуем вам прочитать небольшой туториал на нашей платформе. В нем вы разберете задачу "Кредитный скоринг" и научитесь предсказывать, вернется ли к банку кредит по данным клиента.
В статье есть выжимки тестовых данных, их визуализации, куски кода на Python и все смысловые выводы
Разбор ML BootCamp I
На ML Boot Camp мы уже работали с анонимными данными. В закрытом студенческом контесте мы попросили классифицировать бинарные последовательности. В качестве критерия качества также выступала доля правильных ответов. Павел Швечиков добился впечатляющих 0,6785 при условии, что одни последовательности писали люди, вторые — генератор случайных чисел, а третьи — алгоритм.
Мы попросили победителей контеста рассказать основные идеи их решения и собрали их в отдельной публикации на Хабре. Возможно, их идеи помогут вам выбрать направление движения. Посмотрите, там есть крутые визуализации:
Визуализировать можно все. Даже бинарные последовательности
Песочница
Потренироваться перед стартом чемпионата, в том числе на задаче про "Бинарные деревья" можно в Песочнице. Там доступны любые задачи прошедших чемпионатов, можно загрузить свое решение и узнать оценку. Для каждой задачи в песочнице есть свой лидерборд. Если новая задача покажется вам слишком сложной (или, наоборот, простой) — покоряйте остальные.
В песочнице можно решать все задачи старых контестов
Чат в Телеграме
Теперь благодаря официальном чате чемпионата вы можете задать свой вопрос напрямую организаторам. А еще можете попросить совета или поделиться догадками о решении. Все участники собираются здесь и штурмуют задачу. Вам помогут свежими идеями и добрыми словами.
В чате участвуют опытные машинлернеры, включая победителей прошлых контестов
Форум
Участники очень просили форум для вынесения туда того, что может легко потеряться в чате. Не факт, что мы успеем открыть его именно к старту состязания, но точно можем обещать, что в ближайшее время форум появится на нашей площадке.
Два решения в качестве ответа
С этого момента вы можете выбрать два решения в качестве финального ответа. То, что наберет больший Score на итоговой выборке станет вашим результатом в чемпионате. Это поможет вам, например, если в одном из решений у вас более устойчивая модель, но другое дает лучший результат на тестовой выборке.
Призы
В этот раз мы разобьем стройные ряды техники Apple в призовом фонде. За первое место подарим ноутбук MacBook Air 13, за второе и третье — умные часы Samsung Gear S3 Frontier. Если не попадете в тройку лидеров, но войдете в ТОП-6 — с вами подружится персональный облачный накопитель WD My Cloud объемом в 6TB. И, как всегда, ТОП-50 участников чемпионата получат футболки с логотипом чемпионата.
Регистрация
Чемпионат откроется 21 апреля. Зарегистрироваться на платформе можно по этой ссылке. Пока движуха не началась, приходите решать задачи в Песочницу.
Автор: sat2707