Главная

Митап в Петербурге: Data Engineering и не только

2018-10-29 в 10:37, admin, рубрики: Apache Spark, big data, data, data mining, spark, wrike, wriketechclub, Блог компании Wrike, визуализация данных

Митап в Петербурге: Data Engineering и не только - 1

Дата инженеры — люди, без которых аналитики уснут до окончания запроса к БД, а дата сайентисты захлебнутся в данных. Пришло время рассказать окружающим и самим себе, зачем и как мы работаем.

К сожалению, чуть ли не единственная специализированная конференция для дата-аналитиков и дата-инженеров в Питере в этом году отменилась, но мы в Wrike Tech Club решили дольго не грустить и устроить ламповый уютный митап с классными спикерами.

Работаешь с данными, которые не помещаются в оперативную память? Приходится использовать распределенные вычисления? Поздравляем, ты Data Engineer. Для многих в IT этот термин звучит как просто еще один из баззвордов между Lean Analytics и Artificial Intelligence. Мы хотим поговорить о инженерах данных как об отдельной специальности, а не в рамках small talk на очередном Big Data Meet Up.

Программа и спикеры:

Александр Елисеев, Wrike – Data Engineering: как пройти путь от Data к Engineering

Мы поговорим о подходах к обработке Clicksteam’а и о том, как менялось наше представление от аналитического к дата-инженерному, какие инженерные принципы мы нарушали, и как перестать их нарушать в Data Engineering’е. Я расскажу о проблемах, с которыми мы сталкивались, на примере ошибок в проектировании источников данных (от ETL с витринами данных до более сложной схемы), пайплайнов на примере AirFlow, ограничений наших технологий (ORC, Tableau, нехватки ресурсов, пайплайнов на Jenkins’е). Вы узнаете, как мы изменили свой подход к проектированию пайплайнов и обработке данных.

Виталий Худобахшов, JetBrains – Тестирование приложений в Apache Spark

Цена ошибки в приложениях, связанных с анализом данных, часто очень высока. Но при этом роль данных в сбоях по сравнению с кодом так же много выше, чем обычно. Как же минимизировать ошибки в приложениях, которые сложно тестировать и отлаживать? Как правильно писать код и тесты в таком случае, чтобы несколько часов дорогого времени машинного не прошли впустую? Именно об этом мне хочется немного поговорить.

Сергей Исаев, DataFabric – Как можно управлять данными и сохранять знания с помощью семантических технологий.

Расскажу про:

сбор, преобразование и управления данными;
графы знаний;
онтологическое моделирование предметной области;
связанные данные;
применение семантических технологий для построения интеллектуальных информационных систем.

→ Регистрация

Автор: Wriketeam

Источник