Фестиваль Данных в музее Москвы, как это было

2015-12-29 в 11:19, admin, рубрики: big data, data mining, kaggle, R, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, Блог компании ВымпелКом (Билайн), машинное обучение, рекомендательные системы, школа данных

Фестиваль Данных в музее Москвы, как это было - 1

Привет Хабр,

Итак, мы провели Фестиваль Данных на выставке новых технологий SMIT в Музее Москвы, о котором писали здесь.

Это первое мероприятие из серии, в которой мы собираем экспертов из разных областей бизнеса, науки и государственного управления и рассказываем про аналитику данных.

Хранение и анализ данных, которые были прерогативой узкого круга компаний и людей теперь начинают затрагивать жизнь практически всех. По этой причине мы и начали данную серию мероприятий, где мы широкой аудитории рассказываем про данные и их аналитику.

Итак, что же было на Фестивале:

Фестиваль Данных в музее Москвы, как это было - 2

Сначала, Андрей Устюжанин (Руководитель совместных проектов Яндекса и CERN) рассказал, как машинное обучение помогает изучать Черную Материю.

Фестиваль Данных в музее Москвы, как это было - 3

Далее, Алексей Воробьев и Кирилл Краснощеков (ГУП «НИ и ПИ Генплана Москвы») рассказали про использование Больших Данных для планирования города.

Фестиваль Данных в музее Москвы, как это было - 4

Наталья Калайтанова (Медиаэксперт компании DCA) рассказывала про изменение подхода к медийным размещениям с помощью аналитики.

Фестиваль Данных в музее Москвы, как это было - 5

Никита Котляров из Avito рассказал про использование машинного обучения для блокирования обманных объявлений на Авито.

Фестиваль Данных в музее Москвы, как это было - 6

Юрий Кашницкий из Школы Данных «Билайн» рассказал про важность анализа выбросов в данных на примере выявления очень успешных моделей Playboy по своим параметрам не подходящим под классические каноны.

Фестиваль Данных в музее Москвы, как это было - 7

Ростислав Яворский (Доцент департамента анализа данных и искусственного интеллекта факультета компьютерных наук НИУ ВШЭ) рассказывал про анализ социальных сетей.

Фестиваль Данных в музее Москвы, как это было - 8

Сергей Марин из департамента Big Data Билайн и основатель Школы Данных «Билайн» рассказал про использование Больших Данных для создания персонализированного клиентского опыта на уровне каждого клиента.

Фестиваль Данных в музее Москвы, как это было - 9

Все презентации доступны здесь.

Также, в рамках Фестиваля мы провели Хакатон по анализу данных. Темой Хакатона было — предсказание связей между абонентами.

Фестиваль Данных в музее Москвы, как это было - 10

Специально для хакатона мы сгенерировали синтетические данные, максимально близкие к реальности, которые описывали граф связей между различными абонентами. Вершин графа было более миллиона.

После, мы специальным образом зашумили эти данные, разрушив некоторые из связей. Задачей было — восстановить максимальное количество связей, попутно, не создав множество новых ребер, раннее не существующих.

Мы не ограничивались простым фактом существования какой-либо связи между пользователями, но также добавили информацию о величине и форме связи между ними.

Описание полей файла:

A — Id абонета А,
B — Id абонета B,
x_A — Id оператора абонета А,
x_B — Id оператора абонета В,
c_AB — количество звонков от А к В,
d_AB — длительность звонков от А к В,
c_BA — количество звонков от В к А,
d_BA — длительность звонков от В к А,
s_AB — количество смс от А к В,
s_BA — количество смс от В к А

Участникам также был предоставлен код для ознакомления со структурой формата решения и для внутренних проверок:

Benchmark.ipynb — пример простого решения с конвертацией ответа в специальный формат, требуемый для проверки результатов.
Checker.ipynb — код, которым будет проверяться качество решения.

Фестиваль Данных в музее Москвы, как это было - 11

В ходе Хакатона мы поняли, что предлагаемая задача интереснее и сложнее, чем нам виделось раньше, и мы решили не ограничиваться исходными четырьмя часами, дав зарегистрировавшимся участникам время до 18:00 среды 23 декабря. Для этого, мы оперативно перевели Хакатон в онлайн режим.

Последующий формат онлайн взаимодействия был следующий:

Была создана форма в гуглформах, в которой зарегистрированные участники указывали следующую информацию:

Имя и Фамилия (или никнейм)
Почта
Прямая ссылка на выложенный submission.csv
Комментарий — на случай вопросов

Итоговый документ был виден только организаторам.

Раз в день или чаще мы:

Скачивали решения и прогоняли их через чекер с исходными данными
Обновляли рейтинг и результаты участников
Отвечали на вопросы

После 6 вечера в среду мы подвели результаты и определили победителей. Ими оказались:

1-ое место: Александр Кукушкин. Приз: Сертификат на обучение в Школе Данных Билайн
2-ое место: Антон Устинов. Приз: Билет на Квест
3-ье место: Георгий Зубриенко. Приз: Наушники

Александр выложил описание своего решения здесь.

Все ребята большие молодцы! Все призы мы торжественно вручим в первую неделю января в центральном офисе «ВымпелКом» в Москве.

В целом, хочется сказать Огромное Спасибо всем участникам нашего Фестиваля, а также выразить надежду, что само мероприятие и организация понравились.

Это первое из подобных мероприятий и в следующем году мы планируем их много больше. Следите за анонсами на Хабре и подписывайтесь на новости на странице Школы.

В довершение этого года и в продолжение парадигмы рассказать про аналитику данных широкой аудитории мы выступили в эфире радио Комсомольская Правда, где рассказали про аналитику данных, про тренды и про Школу Данных. Запись эфира доступна здесь.

Всех с Наступающими Праздниками и до встреч в Новом Году!

Автор: ВымпелКом (Билайн)

Источник