Главная

Рубрика «pyspark»

Практика создания кастомных сборок Spark Kubernetes Executor

2025-03-24 в 10:16, admin, рубрики: cassandra, docker, dockerfile, executor, kubernetes, pyspark, spark

Поделюсь с коллегами практикой создания Docker-сборок на базе Spark разных версий, которые могут запускаться как Spark Kubernetes Executors для параллельного выполнения Spark-задач в кластере.

В нашем конкретном случае сборки включают Pyspark и Cassandra Connector, однако вы можете использовать этот материал как набор практических примеров, чтобы сконструировать собственные Docker-сборки для Spark на другом стеке или с другими приложениями.

Читать полностью »

Опыт Звука: как реализовать рекомендательную систему аудиокниг с использованием больших языковых моделей (LLM)

2024-12-26 в 10:48, admin, рубрики: Hadoop, llm, ml, presto, pyspark, python, qdrant, recsys, s3, векторы

Всем привет! На связи Дмитрий Берестнев, Chief Data Scientist в HiFi-стриминге Звук Читать полностью »

Бутстрап в PySpark

2024-10-09 в 9:49, admin, рубрики: big data, Bootstrap, data engineering, pyspark, python, spark, АБ-тесты, бутстрап, Статистика в IT

Всем привет! Меня зовут Илья Черников, я аналитик больших данных в X5 Tech, сейчас занимаюсь аналитикой и оценкой активностей CVM маркетинга экспресс-доставки “Пятёрочки”.

В статье я расскажу о том, как мы решали вопрос автоматизации оценки эффективности большого количества маркетинговых кампаний с помощью бутстрапа в PySpark. Я опишу различные подходы к реализации бутстрапа с их плюсами и минусами, а также расскажу об итоговом варианте, который мы выбрали для себя.

Небольшой сэмпл данных и тетрадки с примерами запусков описанных ниже вариантов реализации можно увидеть в Читать полностью »

Генерация конвейеров обработки данных в Dataflow

2022-12-23 в 13:00, admin, рубрики: big data, dataflow, netflix, pyspark, R, ruvds_перевод, scala, Администрирование баз данных, Блог компании RUVDS.com, конвейеры данных, пайплайны, рабочие потоки

Эта статья посвящена всем практикующим специалистам по данным, заинтересованным в освоении запуска, стандартизации и автоматизации пакетных конвейеров данных в Netflix.

О Dataflow мы писали в статье под названием Data pipeline asset management with Dataflow. Та статья представляла подробное знакомство с одним из наиболее технических аспектов Dataflow, но сам этот инструмент толком не описывала. На сей раз мы оправдаем заявленное вступление, после чего сосредоточимся на одной из основных возможностей Dataflow — образцах рабочих потоков. Для начала же мы коротко разберём Dataflow в общем.Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Комментарии

Рекомендуем

Рубрика «pyspark»

Практика создания кастомных сборок Spark Kubernetes Executor

Опыт Звука: как реализовать рекомендательную систему аудиокниг с использованием больших языковых моделей (LLM)

Бутстрап в PySpark

Генерация конвейеров обработки данных в Dataflow