Главная

Рубрика «data engineering»

SSDF — велосипед для ETL на SQL

2025-04-01 в 7:15, admin, рубрики: data engineering, postgresql, sql

Речь пойдет о моем пет-проекте - SSDF (super SQL data flow).

Когда-то я работал в одной компании, у нас было ХД на MSSQL и самописный велосипед для организации ETL/data flow; так и назывался - dataflow.

Выглядел он следующим образом (если описывать вкратце).

Читать полностью »

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло

2025-01-27 в 6:15, admin, рубрики: data, data engineering, data lake, data warehouse, dwh, архитектура данных, базы данных, данные, корпоративное хранилище данных, хранилище данных

Привет! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории.

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло - 1

Читать полностью »

Nvidia Triton Inference Server: строим production ML без разработчиков

2024-12-16 в 8:07, admin, рубрики: data engineering, inference, ml-платформа, mlops, selectel, облачные сервисы, платформы

Привет! Меня зовут Антон, я DevOps-инженер в команде Data/ML-продуктов Selectel. В этой статье расскажу про наш новый продукт — Inference-платформу Selectel, а также вызовы, с которыми мы столкнулись при ее разработке без разработчиков.

Почему без разработчиков? Рынок ML все еще молодой. В его российском сегменте не так много решений, связанных с Inference‑платформами. Перед началом создания полноценного продукта наша команда сначала проверяет технологические гипотезы, не растрачивая существенные ресурсы на разработку. Все делается силами небольшой команды Ops‑инженеров. Мы используем сервисы с открытым исходным кодом на базе инфраструктуры облака Selectel — тем самым достаточно быстро и недорого тестируем предположения, а в случае успеха легко масштабируем до готового продукта. Дальнейшее развитие уже определяется обратной связью от наших клиентов.Читать полностью »

Документация, которая точно не навредит аналитике в Вашем проекте

2024-12-06 в 13:30, admin, рубрики: data analysis, data engineering, аналитика данных, документация это легко, метаданные

Привет!
Я работаю Chief Data Officer в средней российской компании и, думаю, попробовал "всякое" в плане работы с документацией для команды, которая работает с данными.
Хочу поделиться своим опытом того, что "маст хев" в документации в Вашем проекте, когда есть планы вроде "make analysis great [again]".

Если работаете с цифрами, наверняка Вы уже не раз задавались простыми вопросами вроде

как это считается?
откуда берётся?
что значить эта аббревиатура?
а кто это вообще просил?
кто сопровождает этот отчёт?
что эта колонка в таблице означает?
что хотели решить этим дешем?

Читать полностью »

Будь T-shape

2024-11-22 в 6:00, admin, рубрики: data engineer, data engineering, i-shape, t-shape, как учиться, как учиться легко, развитие в it, Что изучать в IT, что учить

Вступление

Сегодня поговорим о T-shape — концепции, которая играет огромную роль для дата-инженеров и профессионалов в работе с данными.

Почему важно быть не только специалистом в своей области, но и понимать, как работают другие направления? Почему T-shape подход лучше узкой специализации или полной универсальности?

В этой статье мы разберём, что такое T-shape подход к развитию, почему он важен именно в работе с данными, и как он помогает стать более эффективным специалистом.

Давайте разбираться.

Что такое I-shape, T-shape и дженералистЧитать полностью »

Бутстрап в PySpark

2024-10-09 в 9:49, admin, рубрики: big data, Bootstrap, data engineering, pyspark, python, spark, АБ-тесты, бутстрап, Статистика в IT

Всем привет! Меня зовут Илья Черников, я аналитик больших данных в X5 Tech, сейчас занимаюсь аналитикой и оценкой активностей CVM маркетинга экспресс-доставки “Пятёрочки”.

В статье я расскажу о том, как мы решали вопрос автоматизации оценки эффективности большого количества маркетинговых кампаний с помощью бутстрапа в PySpark. Я опишу различные подходы к реализации бутстрапа с их плюсами и минусами, а также расскажу об итоговом варианте, который мы выбрали для себя.

Небольшой сэмпл данных и тетрадки с примерами запусков описанных ниже вариантов реализации можно увидеть в Читать полностью »

ETL-проект для начинающих Data Engineers: От почтового сервера до Greenplum

2024-10-08 в 12:15, admin, рубрики: data engineering, etl, ETL-процессы, python, sql

Привет!
Меня зовут Дмитрий и я работаю инженером данных.

Читать полностью »

OpenAI o1 — LLM, обученная выполнять сложные логические рассуждения

2024-10-01 в 11:34, admin, рубрики: data engineering, llama, llm, mlops, nlp, reinforcement learning, большие языковые модели, квантизация, машинное обучение, нейронные сети

OpenAI изменили направление развития своих языковых моделей, от просто генерации текста их последняя модель перешла к решению задач с использованием логики и пошагового анализа проблемы.

До сих пор LLM генерировали текст на основе данных, использованных в процессе обучения. Веса модели хранят представление о зависимостях между текстовыми токенами, полученное из исходного корпуса данных. Соответственно, модель просто генерирует наиболее вероятные токены "по памяти", но не выполняет с их помощью никакой по-настоящему интеллектуальной работы.

o1 - это модель рассуждения Читать полностью »

Drag and drop деплой ML-моделей: убираем рутину с помощью web-интерфейса

2024-09-16 в 7:00, admin, рубрики: airflow, data engineering, deploy, drag and drop, minio, деплой ML-моделей, искусственный интеллект, обучение моделей

Читать полностью »

Как небольшой команде переехать на ClickHouse: на какие грабли мы наступили и о каких фишках не знали

2024-08-26 в 5:57, admin, рубрики: clickhouse, data engineering, open source, sql, базы данных

Привет!

Меня зовут Петр. Я работаю инженером по данным в Okko и обожаю ClickHouse.

Примерно в середине прошлого года мы начали увлекательный процесс переезда хранилища с PostgreSQL (плюс частично HDFS) на ClickHouse. Причин для переезда было несколько, но одной из главных была низкая производительность — среднее время аналитического запроса составляло около минуты. Понятно, что запросы бывают не оптимальные. Но сейчас, после переезда, среднее время запроса в аналитическом кластере составляет около 2 с. И это не предел.

Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Обсуждаемое

Рекомендуем

Рубрика «data engineering»

SSDF — велосипед для ETL на SQL

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло

Nvidia Triton Inference Server: строим production ML без разработчиков

Документация, которая точно не навредит аналитике в Вашем проекте

Будь T-shape

Вступление

Что такое I-shape, T-shape и дженералистЧитать полностью »

Бутстрап в PySpark

ETL-проект для начинающих Data Engineers: От почтового сервера до Greenplum

OpenAI o1 — LLM, обученная выполнять сложные логические рассуждения

Drag and drop деплой ML-моделей: убираем рутину с помощью web-интерфейса

Как небольшой команде переехать на ClickHouse: на какие грабли мы наступили и о каких фишках не знали

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data engineering»

Вступление

Что такое I-shape, T-shape и дженералистЧитать полностью »

Новости

Актуальные темы

Архив