Зрители конференции SmartData — люди, которые любят работать с данными. Надо полагать, что и оценки докладам после прошлогодней конференции они выставляли очень вдумчиво.
А теперь по этим оценкам мы составили топ-10 видеозаписей. И заодно, чтобы порадовать любителей данных, указали по каждому из десяти докладов все сопутствующие числа: место в топе, точный зрительский рейтинг, количество зрителей.
Вообще говоря, зачастую у соседних позиций в топе рейтинги различаются незначительно. Так что, пожалуй, не стоит придавать много значения «кто идёт за кем» — важнее, что все эти доклады получили высокие оценки. Но с другой стороны, как же это не придавать много внимания числам, когда это так увлекательно!
Neurona: зачем мы научили нейронную сеть писать стихи в духе Курта Кобейна?
Спикер: Иван Ямщиков
Место: 1
Рейтинг: 4,51 ± 0,08
Число зрителей: ~200
Презентация доклада
Явным лидером конференции стал закрывающий кейноут от создателя проектов «Нейронная Оборона» и Neurona. Это доступное выступление, не требующее от зрителя гигантской подготовки — но в то же время это и не просто стотысячное объяснение «как работают нейронные сети». Это вроде бы «развлекательный» формат (вряд ли услышанное немедленно скажется на вашем рабочем проекте) — но в долгосрочной перспективе всё это может быть не только очень интересно, но и полезно. В общем, стоит ли удивляться, что мы позвали Ивана участвовать и в приближающейся SmartData 2018.
От клика к прогнозу и обратно: Data Science-пайплайны в Одноклассниках
Спикер: Дмитрий Бугайченко
Место: 2
Рейтинг: 4,36 ± 0,08
Число зрителей: ~140
Презентация доклада
А вот тут всё наоборот. Во-первых, это не общее «что может нам дать машинное обучение», а конкретика «как именно мы всё реализуем». И доклад не о ML самом по себе (персонализация новостной ленты приведена просто в качестве примера), а о всём сопутствующем: «что надо сделать, чтобы вся эта ML-красота работала». В общем, если выступление Ямщикова может заинтересовать даже широкую аудиторию, то здесь интересно будет только лично связанным с машинным обучением, зато они могут многое для себя вынести.
CatBoost — следующее поколение градиентного бустинга
Спикер: Анна Вероника Дорогуш
Место: 3
Рейтинг: 4,32 ± 0,12
Число зрителей: ~100
Презентация доклада
Если градиентный бустинг — не ваша специализация, и тема доклада вызвала ощущение «там небось нюансы для тех, кто уже этим вовсю занимается», развеем опасения. Доклад дружелюбен к новичкам и не ныряет сразу в омут с головой, а объясняет сначала базовые вещи. А учитывая, что за прошедший год библиотека CatBoost от Яндекса стала краше и популярнее прежнего, иметь представление о ней полезно, даже если прямо сейчас вам не приходится иметь с ней дело — и доклад как раз может стать хорошим введением.
Назад в будущее современной банковской системы
Спикер: Владимир Красильщик
Место: 4
Рейтинг: 4,31 ± 0,17
Число зрителей: ~80
Презентация доклада
Как быть, если из-за eventually consistency у вас данные квартального отчёта расходятся с ежемесячными, и у аудиторов с регуляторами возникают вопросы? Владимир Красильщик объясняет, что ключевым понятием тут становится битемпоральность: есть «когда событие произошло», а есть «когда система о нём узнала», необходимо работать с обеими этими шкалами и демонстрировать сторонним проверяющим обе сразу. Этим доклад не ограничивается, там ещё много всего — например, думали ли вы, что на IT-конференции услышите фразу «справедливости нет, и не надо пытаться её создать»?
Имя — это фича
Спикер: Виталий Худобахшов
Место: 5
Рейтинг: 4,28 ± 0,08
Число зрителей: ~280
Презентация доклада
Самое парадоксальное выступление конференции, заставляющее недоумённо чесать в затылке. С одной стороны, любому разумному человеку совершенно очевидно: нет никаких заметных причин для корреляции имени человека (если речь о популярных русских именах) и того, будет ли этот человек состоять в отношениях. С другой стороны, Виталий предъявляет данные, показывающие обратное. Точного объяснения нет у него самого, но по-настоящему убедительных возражений тоже ни у кого не нашлось. Можете попробовать поискать сами.
Нет данных? Нет проблем! Deep Learning на CGI
Спикер: Иван Дрокин
Место: 6
Рейтинг: 4,26 ± 0,18
Число зрителей: ~40
Презентация доклада
Как известно, для глубинного обучения недостаточно алгоритмов — нужны начальные данные для обучения. В итоге хороший дата-сет стал ценнейшим ресурсом. Но что делать, если сейчас его у вас нет, а вы не Google и не можете вкладывать гигантские ресурсы? Оказывается, не всегда требуется брать «настоящие» данные из реального мира, и при определённых условиях их можно в прямом смысле слова генерировать. В докладе разобран конкретный подобный случай.
Глубокие свёрточные сети для обнаружения объектов и сегментации изображений
Спикер: Сергей Николенко
Место: 7
Рейтинг: 4,24 ± 0,17
Число зрителей: ~80
Презентация доклада
Если вы ещё далеки от машинного/глубокого обучения в целом, то могут хорошо подойти первые 20 минут этого доклада: там обстоятельное введение в тему с историческим экскурсом, начинающимся ещё с 50-х. А если про это в целом всё понимаете, но вот конкретно в подтеме глубоких свёрточных сетей не разбираетесь, тогда можете сразу пропускать вступление и обращать внимание на вторую половину доклада, где переходят именно к convoluted neural networks.
Hadoop high availability: опыт Badoo
Спикер: Александр Крашенников
Место: 8
Рейтинг: 4,22 ± 0,14
Число зрителей: ~100
Презентация доклада
Кажется, помимо понятия «большие данные», пригодилось бы ещё «растущие данные», потому что рост диктует свою специфику. Когда-то у Badoo были на порядки меньшие объёмы данных и один подход к ним, затем объёмы возросли и потребовались изменения — а при этом надо учитывать, что завтра всё может вырасти ещё сильнее, делая всё «с запасом».
В компании заинтересовались сочетанием «Hadoop» и «реалтайм» ещё тогда, когда между этими двумя словами обычно писали «несовместимо», а теперь рассказали о своём опыте работы с Hadoop и обеспечения в его случае high availability. Бонус: немного творчества Василия Ложкина на слайдах.
Сегментируем 600 миллионов пользователей в режиме реального времени каждый день
Спикер: Артём Маринов
Место: 9
Рейтинг: 4,21 ± 0,09
Число зрителей: ~120
Презентация доклада
Тут проект очень отличается от Badoo: не дейтинг, а DMP (data management platform), где требуется выделять среди аудитории сегменты вроде «домохозяйки с автомобилем старше пяти лет». Но, во-первых, тут тоже большие масштабы (порядка ста тысяч событий в секунду). А во-вторых, тут нужно быть ещё более готовым к росту: «среди источников данных — установки пикселя, если вдруг завтра сверхпопулярный сайт поставит к себе ваш пиксель — пойдёт громадный поток, с которым надо будет справиться». С помощью каких технологий справляются и как именно их используют? Ответы в докладе.
Распределённое ML на больших данных: опыт построения рекомендательной системы в ivi
Спикер: Борис Шминке
Место: 10
Рейтинг: 4,21 ± 0,09
Число зрителей: ~100
Презентация доклада
Наконец, последний доклад — тоже «про инфраструктуру, а не алгоритмы», и тоже на основе опыта крупного продукта. Когда-то ivi начинали внедрять рекомендации с использования стороннего сервиса, предоставлявшего «recommendations-as-a-service». Затем «выросли» из него и начали делать собственную систему. На Хабре компания писала о ней ещё в 2014-м, а из доклада можно узнать об актуальном положении вещей.
Если эти доклады заинтересовали, обращаем внимание: этой осенью состоится SmartData 2018. Отдельные спикеры из этого топ-10 вернутся с новыми докладами, будут и совершенно новые имена. Самую актуальную информацию о программе всегда можно увидеть на сайте, там же можно купить билеты — и их цена постепенно растёт, так что стоит задуматься уже сейчас.
Автор: phillennium