Рубрика «airflow»
Есть ли жизнь после FAANG компании или мой опыт собеседований в Северной Америке, 20+ компаний за 3 недели
2021-10-24 в 6:49, admin, рубрики: airflow, data engineer, data engineering, it-эмиграция, Snowflake, интервью, Карьера в IT-индустрии, поиск, поиск работы, собеседование, стартап, Учебный процесс в IT, хранение данныхData Engineering и не только: видеозаписи и слайды с митапа
2018-11-20 в 10:26, admin, рубрики: airflow, big data, data engineering, data mining, data science, spark, wrike, wriketechclub, Блог компании Wrike, конференции
15 ноября в офисе Wrike прошел митап «Data Engineering и не только». Поговорили об инженерах данных как об отдельной специальности, наметили отличия процессов в софтверном и дата-инжениринге, посмотрели, как можно писать тесты для Apache Spark, и чуть-чуть коснулись особенностей семантических технологий.
Для тех, кто не смог прийти, мы публикуем видеозаписи докладов.
Читать полностью »
Введение в Data Engineering. ETL, схема «звезды» и Airflow
2018-05-14 в 9:18, admin, рубрики: airflow, big data, data engineering, data mining, etl, sql, Администрирование баз данных, базы данных, Блог компании New Professions LabСпособность data scientist-а извлекать ценность из данных тесно связана с тем, насколько развита инфраструктура хранения и обработки данных в компании. Это значит, что аналитик должен не только уметь строить модели, но и обладать достаточными навыками в области data engineering, чтобы соответствовать потребностям компании и браться за все более амбициозные проекты.
При этом, несмотря на всю важность, образование в сфере data engineering продолжает оставаться весьма ограниченным. Мне повезло, поскольку я успел поработать со многими инженерами, которые терпеливо объясняли мне каждый аспект работы с данными, но не все обладают такой возможностью. Именно поэтому я решил написать эту статью — введение в data engineering, в которой я расскажу о том, что такое ETL, разнице между SQL- и JVM-ориентированными ETL, нормализации и партиционировании данных и, наконец, рассмотрим пример запроса в Airflow.
Airflow Workshop: сложные DAG’и без костылей
2017-12-11 в 14:52, admin, рубрики: airflow, big data, dag, mail.ru, open source, python, sql, Блог компании Mail.Ru Group
Привет! Меня зовут Дина, и я занимаюсь разработкой игрового хранилища данных для решения задач аналитики в Mail.Ru Group. Наша команда для разработки batch-процессов обработки данных использует Apache Airflow (далее Airflow), об этом yuryemeliyanov писал в недавней статье. Airflow — это opensource-библиотека для разработки ETL/ELT-процессов. Отдельные задачи объединяются в периодически выполняемые цепочки задач — даги (DAG — Directed Acyclic Graph).
Как правило, 80 % проекта на Airflow — это стандартные DAG’и. В моей статье речь пойдёт об оставшихся 20 %, которые требуют сложных ветвлений, коммуникации между задачами — словом, о DAG’ах, нуждающихся в нетривиальных алгоритмах.
Airflow — инструмент, чтобы удобно и быстро разрабатывать и поддерживать batch-процессы обработки данных
2017-10-06 в 13:11, admin, рубрики: airflow, analytics, big data, data, datawarehouse, elt, etl, Hadoop, Hive, open source, python, spark, sql, Блог компании Mail.Ru Group
Привет! В этой статье я хочу рассказать об одном замечательном инструменте для разработки batch-процессов обработки данных, например, в инфраструктуре корпоративного DWH или вашего DataLake. Речь пойдет об Apache Airflow (далее Airflow). Он несправедливо обделен вниманием на Хабре, и в основной части я попытаюсь убедить вас в том, что как минимум на Airflow стоит смотреть при выборе планировщика для ваших ETL/ELT-процессов.
Ранее я писал серию статей на тему DWH, когда работал в Тинькофф Банке. Теперь я стал частью команды Mail.Ru Group и занимаюсь развитием платформы для анализа данных на игровом направлении. Собственно, по мере появления новостей и интересных решений мы с командой будем рассказывать тут о нашей платформе для аналитики данных.