21 октября в Петербурге мы проводим новую конференцию по большим и умным данным SmartData 2017 Piter.
О Big Data в последнее время говорят все: от школьников до Германа Грефа. И вот тут возникает некоторый диалектический дуализм: о проблемах работы с большими данными говорят много, вот только все разговоры — это переливание из пустого в порожнее или какой-нибудь махровый маркетинговый вздор. Больше всего пугает, что люди начинают верить в то, что где-то лежит несколько петабайт «больших данных», и их можно взять и «отбольшеданнить». За советом я обратился к Виталию Худобахшову из «Одноклассников», и я придерживаюсь схожей точки зрения, судите сами:
Большие данные – это не свойства объема или времени. То, что считается «много данных» сейчас, влезет на флешку через 10 лет. То, для чего сейчас нужен Hadoop-кластер в десятки или даже сотни узлов, можно будет решить на телефоне через те же самые 10 лет. Большие данные – это прежде всего новое качество, т.е. что-то, что нельзя получить с помощью меньшего набора данных. На самом деле таких примеров не так уж много, но их количество с нарастанием объема данных и улучшением их качества непрерывно увеличивается.
Иногда большие данные настолько облегчают жизнь, что для решения конкретной проблемы отпадает необходимость использовать продвинутую технику машинного обучения. Рассмотрим пример: пользователь вводит свой пол в социальной сети неправильно, и получается, либо мы имеем неизвестный пол или какой-нибудь пол по умолчанию, что тоже плохо. Здесь кат. Оказывается, нет никакой необходимости делать машинное обучение в этом вопросе, просто потому что других данных о пользователе в социальной сети так много, что этого хватает, чтобы решить проблемы банальными вычислениями на уровне школы. Взяв, к примеру, его интересы и определив за счет большинства, какие интересы присущи более мужчинам, чем женщинам, или просто можно взять имя и фамилию и посмотреть, сколько людей с таким именем или фамилией обозначили свой пол как мужской или женский, и на основании этого принять решение.
Возникает другая проблема — эти вычисления с данными в таком объеме нужно уметь произвести и произвести эффективно. А это значит, что с большими данными можно ассоциировать и технологии их сбора и обработки, такие как Spark, Hadoop, Kafka и прочие.
Программа конференции
А теперь вернемся к конференции. На этом простом примере я хочу показать тот уровень, на котором будет строиться программа новой конференции JUG.ru Group по большим и умным данным SmartData 2017 Piter. Конференция пройдет 21 октября в Петербурге. Не будем говорить, зачем нужны большие данные, что из них можно получить и почему это все хорошо и полезно. Сконцентрируемся на трех аспектах:
- Data Science, с точки зрения научного подхода;
- Решение практических задач при помощи Big Data и использованием умных данных;
- Тулинг и решения, позволяющие решать задачи правильно и быстро.
Data Science
Алексей Потапов – мы, если честно, сильно рады, что на первую же конференцию удалось вытянуть столь замечательного человека, светило науки, в свое время занимавшегося промышленными решениями в области компьютерного зрения. Если посмотреть доклады Алексея, можно найти как те, в которых спикер рассказывает сложные вещи простыми словами, так и те, которые выносят сознание самым искушенным инженерам. Мы, конечно, остановимся на втором варианте и дадим вам хорошего наукообразного хардкора.
Сергей Николенко – Data Scientist из ПОМИ РАН, работающий с машинным обучением и сетевыми алгоритмами. Ранее занимался криптографией, теоретической computer science и алгеброй. Сергей готовит доклад, посвященный научному подходу в разработке глубоких свёрточных сетей для сегментации изображений.
Практика
Александр Сербул — куратор направления контроля качества интеграции и внедрений «1С-Битрикс», а также направления AI, deep learning и big data. Архитектор и разработчик в проектах компании, связанных с высокой нагрузкой и отказоустойчивостью, эффективным использованием технологий кластеризации продуктов «1С-Битрикс» в современных облачных сервисах (Amazon Web Services и др.)
Виталий Худобахшов — ведущий аналитик в Одноклассниках, где занимается различными аспектами анализа данных, на конференции расскажет о том, как правильно готовить Spark из Kotlin.
Татьяна Ландо — какая же бигдата, да без Google? Сейчас мы работаем над тем, чтобы к нам приехала Татьяна Ландо, эксперт в области лингвистики и анализа данных и организатор AINL: Artificial Intelligence & Natural Language, предварительное подтверждение уже получено. В этом месте возможны изменения, UPD: Татьяна отказалась, однако кто-то из Google к нам точно приедет.
Владимир Красильщик — разработчик в Яндекс, уже довольно давно замеченный «в связях» с большими данными. Владимир уже не первый раз выступает на наших конференциях, и каждый его доклад стабильно собирает хорошую оценку, потому что в них обычно есть все: и технологичность, и правильная подача, и даже сюжетные твисты. Если вы не видели докладов Владимира, советую посмотреть (доклад несложный, так как расчитан на студентов, зато позволяет понять, как выступает Владимир).
Иван Бегтин – Директор лаборатории интеллектуального анализа данных, специализирующийся на работе с открытыми данными в машиночитаемых форматах, которые раскрывает правительство: экология, криминология, демография и т.д. Самая соль встречи с Иваном заключается в возможности задать ему вопросы в дискуссионной зоне — есть мнение, что он сможет в течение одного разговора сказать, имеет ли смысл развивать задуманный проект, или дело не выгорит. И это не гадание на кофейной гуще, а чистой воды аналитика.
Tools&Solutions
Не обойдем стороной и тулинг. В конце концов, то, как быстро и удобно будет решена задача, очень сильно зависит от инструментария. Свои доклады уже подтвердили разработчики Яндекс.Толоки, сервиса для обучения машинного интеллекта, Алексей Миловидов из ClickHouse и Александр Сибиряков из ScrapingHub. Естественно, это не все доклады, программа еще только начала набираться, всего будет три трека и не меньше 17 докладов, так что следите за изменениями на сайте. Из интересного — пытаемся вытащить кого-нибудь из PornHub, вот уж где highload и горы данных: по интересам, по географии, предпочтениям и куче всего такого.
Подавайте доклад
Если вы любите не только получать знания, но и делиться ими, обратите внимание: сейчас самое время подать нам доклад! Хотя наш строгий программный комитет включает в программу только по-настоящему хорошие выступления, тот же самый комитет и помогает спикерам довести их перспективные наработки до подходящего уровня — поэтому, даже если у вас нет большого опыта выступлений, но есть интересная тема, не бойтесь обращаться.
А если опыт есть, ссылайтесь на видеозаписи докладов, которые делали ранее, и это значительно ускорит принятие решения программным комитетом.
Главное требование: ваш доклад должен быть полезен другим разработчикам. Мы заинтересованы в докладах по следующим темам:
- Данные и их обработка (Spark, Kafka, Storm, Flink)
- Storages (Базы данных, NoSQL, IMDG, Hadoop, облачные хранилища)
- Data Science (Machine learning, нейросети, анализ данных)
Дискуссионные зоны
Как и на любой нашей конференций, на SmartData будут дискуссионные зоны. Наверняка, вам знакомо чувство, когда вы поднимаете руку, чтобы задать вопрос, а ведущий вдруг объявляет: «Осталось время для одного вопроса», – и конечно, выбор падает не на вас, а в перерыве спикер скрывается за дверьми спикерской комнаты.
Именно дискуссионные зоны отвечают на вопрос «зачем ходить на конференции, когда можно и в интернете всё узнать». Все просто: чтобы лично задать ваш конкретный вопрос. Что ж, у нас для этого созданы все условия: в длительных перерывах специально обученные волонтеры приведут спикера в выделенное пространство с доской для записей и иллюстраций, сидячими местами и возможностью схватить чашку кофе. И здесь никто не будет ограничивать ваши вопросы, комментарии и замечания. Теперь ни один вопрос не утонет в тайминге.
Регистрация
Программа конференции будет постепенно пополняться, и следить за её самым актуальным состоянием можно на сайте SmartData 2017 Piter. А уже сейчас на этом сайте открыта продажа билетов — ближайшие две недели действует early bird цена. Поэтому за развитием программы лучше следить с билетом в кармане :)
Автор: JUG.ru Group