Дата инженеры — люди, без которых аналитики уснут до окончания запроса к БД, а дата сайентисты захлебнутся в данных. Пришло время рассказать окружающим и самим себе, зачем и как мы работаем.
К сожалению, чуть ли не единственная специализированная конференция для дата-аналитиков и дата-инженеров в Питере в этом году отменилась, но мы в Wrike Tech Club решили дольго не грустить и устроить ламповый уютный митап с классными спикерами.
Работаешь с данными, которые не помещаются в оперативную память? Приходится использовать распределенные вычисления? Поздравляем, ты Data Engineer. Для многих в IT этот термин звучит как просто еще один из баззвордов между Lean Analytics и Artificial Intelligence. Мы хотим поговорить о инженерах данных как об отдельной специальности, а не в рамках small talk на очередном Big Data Meet Up.
Программа и спикеры:
Александр Елисеев, Wrike – Data Engineering: как пройти путь от Data к Engineering
Мы поговорим о подходах к обработке Clicksteam’а и о том, как менялось наше представление от аналитического к дата-инженерному, какие инженерные принципы мы нарушали, и как перестать их нарушать в Data Engineering’е. Я расскажу о проблемах, с которыми мы сталкивались, на примере ошибок в проектировании источников данных (от ETL с витринами данных до более сложной схемы), пайплайнов на примере AirFlow, ограничений наших технологий (ORC, Tableau, нехватки ресурсов, пайплайнов на Jenkins’е). Вы узнаете, как мы изменили свой подход к проектированию пайплайнов и обработке данных.
Виталий Худобахшов, JetBrains – Тестирование приложений в Apache Spark
Цена ошибки в приложениях, связанных с анализом данных, часто очень высока. Но при этом роль данных в сбоях по сравнению с кодом так же много выше, чем обычно. Как же минимизировать ошибки в приложениях, которые сложно тестировать и отлаживать? Как правильно писать код и тесты в таком случае, чтобы несколько часов дорогого времени машинного не прошли впустую? Именно об этом мне хочется немного поговорить.
Сергей Исаев, DataFabric – Как можно управлять данными и сохранять знания с помощью семантических технологий.
Расскажу про:
- сбор, преобразование и управления данными;
- графы знаний;
- онтологическое моделирование предметной области;
- связанные данные;
- применение семантических технологий для построения интеллектуальных информационных систем.
Автор: Wriketeam