Рубрика «airflow»

Собираем MLOps-проект с нуля: Как я научил Telegram-бота искать скидки на Avito

2025-10-14 в 10:05, admin, рубрики: airflow, docker, selenium, telegrambot

Пошаговая инструкция по созданию автоматизированного конвейера на Airflow, Selenium и Scikit-learn.

Вступление: Автоматизируем рутину

Привет! Каждый, кто хоть раз искал подержанную технику, знает эту боль: часы ручного мониторинга Avito, десятки страниц и попытки на глаз определить, адекватна ли цена. Выгодные предложения улетают за минуты.

Я решил подойти к этой задаче как инженер и создать личного ассистента, который бы делал всю грязную работу за меня: 24/7 сканировал Avito, сам оценивал адекватность цены и присылал мне в Telegram только самые сливки.

Так родилась идея проекта Intelligent Deal FinderЧитать полностью »

Как мы построили сервис KPI для сотрудников

2025-06-23 в 18:45, admin, рубрики: airflow, Azure DevOps, Grafana, KPI, автоматизация, визуализация, метрики, отчеты, производительность, сотрудники

Привет! Я Арсен, разработчик в DDPlanet. Хочу рассказать, как мы делали свою систему KPI для оценки - кто и сколько реально работает.

Почему мы решили создать сервис KPI?

Читать полностью »

Долгожданный релиз Airflow 3

2025-05-28 в 7:09, admin, рубрики: airflow, airflow 3, Apache Airflow, pipeline, оркестратор, релиз

Привет! Я Георгий Новожилов, инженер данных в «ДАР» (ГК «КОРУС Консалтинг»). В моём стеке и стеке моих коллег Airflow, можно сказать, незаменим.

Он помогает нам планировать, запускать и отслеживать сотни задач обработки данных, которые крутятся в кластере каждый день: загрузки из источников, трансформации, пересчёты и обновления витрин. Пайплайны визуально контролируются из удобного веб‑интерфейса, в котором можно легко и быстро локализовать сбои. Для инженеров данных Airflow — надёжный инструмент автоматизации всей ETL‑ и ELT‑инфраструктуры.

Читать полностью »

От таблицы в Excel до собственного инструмента: как мы строили в VK Cloud решение для работы с внешними партнерами

2025-05-23 в 9:48, admin, рубрики: airflow, BI, clickhouse, ‎mytracker‬, redash, vk cloud, анализ данных, хранение данных

Читать полностью »

Airflow и устройство некоторых таблиц

2024-12-14 в 6:15, admin, рубрики: airflow, аирфлоу, таблицы airflow, таблицы аирфлоу

Меня зовут Дмитрий и я вляпался в Airflow. Цель этой статьи — помочь начинающим пользователям Airflow ознакомиться с таблицами PostgreSQL. Время узнать насколько глубока аирфлоуольная нора.

Джун наблюдает за тем, как глубоко заберется мидл.

Общая информация про Airflow

AirflowЧитать полностью »

Drag and drop деплой ML-моделей: убираем рутину с помощью web-интерфейса

2024-09-16 в 7:00, admin, рубрики: airflow, data engineering, deploy, drag and drop, minio, деплой ML-моделей, искусственный интеллект, обучение моделей

Читать полностью »

Есть ли жизнь после FAANG компании или мой опыт собеседований в Северной Америке, 20+ компаний за 3 недели

2021-10-24 в 6:49, admin, рубрики: airflow, data engineer, data engineering, it-эмиграция, Snowflake, интервью, Карьера в IT-индустрии, поиск, поиск работы, собеседование, стартап, Учебный процесс в IT, хранение данных

Читать полностью »

Data Engineering и не только: видеозаписи и слайды с митапа

2018-11-20 в 10:26, admin, рубрики: airflow, big data, data engineering, data mining, data science, spark, wrike, wriketechclub, Блог компании Wrike, конференции

Data Engineering и не только: видеозаписи и слайды с митапа - 1

15 ноября в офисе Wrike прошел митап «Data Engineering и не только». Поговорили об инженерах данных как об отдельной специальности, наметили отличия процессов в софтверном и дата-инжениринге, посмотрели, как можно писать тесты для Apache Spark, и чуть-чуть коснулись особенностей семантических технологий.

Для тех, кто не смог прийти, мы публикуем видеозаписи докладов.
Читать полностью »

Введение в Data Engineering. ETL, схема «звезды» и Airflow

2018-05-14 в 9:18, admin, рубрики: airflow, big data, data engineering, data mining, etl, sql, Администрирование баз данных, базы данных, Блог компании New Professions Lab

Способность data scientist-а извлекать ценность из данных тесно связана с тем, насколько развита инфраструктура хранения и обработки данных в компании. Это значит, что аналитик должен не только уметь строить модели, но и обладать достаточными навыками в области data engineering, чтобы соответствовать потребностям компании и браться за все более амбициозные проекты.

При этом, несмотря на всю важность, образование в сфере data engineering продолжает оставаться весьма ограниченным. Мне повезло, поскольку я успел поработать со многими инженерами, которые терпеливо объясняли мне каждый аспект работы с данными, но не все обладают такой возможностью. Именно поэтому я решил написать эту статью — введение в data engineering, в которой я расскажу о том, что такое ETL, разнице между SQL- и JVM-ориентированными ETL, нормализации и партиционировании данных и, наконец, рассмотрим пример запроса в Airflow.

Введение в Data Engineering. ETL, схема «звезды» и Airflow - 1
Читать полностью »

Airflow Workshop: сложные DAG’и без костылей

2017-12-11 в 14:52, admin, рубрики: airflow, big data, dag, mail.ru, open source, python, sql, Блог компании Mail.Ru Group

Airflow Workshop: сложные DAG’и без костылей - 1

Привет! Меня зовут Дина, и я занимаюсь разработкой игрового хранилища данных для решения задач аналитики в Mail.Ru Group. Наша команда для разработки batch-процессов обработки данных использует Apache Airflow (далее Airflow), об этом yuryemeliyanov писал в недавней статье. Airflow — это opensource-библиотека для разработки ETL/ELT-процессов. Отдельные задачи объединяются в периодически выполняемые цепочки задач — даги (DAG — Directed Acyclic Graph).

Как правило, 80 % проекта на Airflow — это стандартные DAG’и. В моей статье речь пойдёт об оставшихся 20 %, которые требуют сложных ветвлений, коммуникации между задачами — словом, о DAG’ах, нуждающихся в нетривиальных алгоритмах.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «airflow»

Собираем MLOps-проект с нуля: Как я научил Telegram-бота искать скидки на Avito

Пошаговая инструкция по созданию автоматизированного конвейера на Airflow, Selenium и Scikit-learn.

Вступление: Автоматизируем рутину

Как мы построили сервис KPI для сотрудников

Почему мы решили создать сервис KPI?

Долгожданный релиз Airflow 3

От таблицы в Excel до собственного инструмента: как мы строили в VK Cloud решение для работы с внешними партнерами

Airflow и устройство некоторых таблиц

Drag and drop деплой ML-моделей: убираем рутину с помощью web-интерфейса

Есть ли жизнь после FAANG компании или мой опыт собеседований в Северной Америке, 20+ компаний за 3 недели

Data Engineering и не только: видеозаписи и слайды с митапа

Введение в Data Engineering. ETL, схема «звезды» и Airflow

Airflow Workshop: сложные DAG’и без костылей