Рубрика «spark» - 3

Анонс Moscow Spark #4

2018-04-03 в 14:41, admin, рубрики: big data, kubernetes, ml, python, scala, spark, Блог компании Rambler&Co, машинное обучение

Всем привет! Новый год, новый Spark, новый Moscow Spark! Мы стартуем новый сезон нашего замечательного мероприятия 19 апреля на Мансарде Rambler&Co. Фреймворк не стоит на месте и мы тоже, в этот раз представим новый сайт сообщества и опробуем формат со звездой из-за рубежа.
Читать полностью »

«Придётся писать самим. Сели и написали»: жизнь разработчиков лабораторного кластера супермассивов в Сбертехе

2018-03-12 в 14:12, admin, рубрики: akka, big data, Hadoop, java, jpoint, jpoint2018, Rust, scala, spark, Блог компании JUG.ru Group

Существует миф, что банки — это очень закостенелые структуры, в которых нет места эксперименту. Чтобы опровергнуть этот миф, мы провели небольшое интервью с Валерием Выборновым — начальником отдела разработки лабораторного кластера супермассивов в Сбербанк-Технологиях. У себя в команде они не боятся пользоваться всей мощью Scala, Akka, Hadoop, Spark, и даже пишут прототипы на Rust.

«Придётся писать самим. Сели и написали»: жизнь разработчиков лабораторного кластера супермассивов в Сбертехе - 1

Основные вопросы:

Обсуждение примера экспериментального проекта (работа с социальным графом) с техническими подробностями;
Используемые языки и технологии (Scala, Akka, Hadoop, Spark, Rust, и т.п.);
Можно ли прийти в Сбертех сразу на руководящую должность? Как там внутри всё организовано, какие есть грейды?
Как живётся простому разработчику? Подробности внедрения Сберджайла;

Читать полностью »

Глубокое обучение при помощи Spark и Hadoop: знакомство с Deeplearning4j

2017-12-15 в 14:36, admin, рубрики: Apache, big data, deep learning, Hadoop, java, spark, Алгоритмы, Блог компании Издательский дом «Питер», машинное обучение, Профессиональная литература, распознавание образов

Здравствуйте, уважаемые читатели!

Мы вполне убедились в мегапопулярности глубокого обучения (Deep Learning) на языке Python в нашей целевой аудитории. Теперь предлагаем поговорить о высшей лиге глубокого обучения — то есть, о решении этих задач на языке Java при помощи библиотеки Deeplearning4j. Мы перевели для вас июньскую статью из блога компании Cloudera, где в интереснейших подробностях рассказано о специфике этой библиотеки и о глубоком обучении в Hadoop и Spark.

Приятного чтения.
Читать полностью »

Анонс Moscow Spark #3

2017-10-31 в 16:01, admin, рубрики: big data, ml, python, scala, spark, Блог компании Rambler&Co, машинное обучение

Всем привет! Мы долго готовились, искали крутых докладчиков и, наконец, анонсируем Moscow Spark #3, который состоится 16 ноября на Мансарде Rambler&Co! Предыдущий митап собрал почти 250 человек, и мы рассчитываем, что сможем собрать не меньше в этот раз. Ключевой темой этого мероприятия станет Spark Streaming, актуальная и очень интересная часть фреймворка Apache Spark.
Читать полностью »

«Иногда приходится заглядывать в код Spark»: Александр Морозов (SEMrush) об использовании Scala, Spark и ClickHouse

2017-10-30 в 13:57, admin, рубрики: c++, clickhouse, java, scala, SEMrush, spark, Блог компании JUG.ru Group

«Иногда приходится заглядывать в код Spark»: Александр Морозов (SEMrush) об использовании Scala, Spark и ClickHouse - 1

В случае с SEMrush бессмысленно спрашивать «какие языки и технологии использует компания»: здесь каждой команде предоставляют максимальную степень автономности, сводя «общее для всех» к минимуму. А вот конкретную команду вполне есть о чём расспросить.

Мы узнали, что в одном из проектов используют Scala, C++, Spark и ClickHouse. Выбор Scala сам по себе нестандартный, сочетание с C++ можно встретить ещё реже, СУБД ClickHouse от Яндекса тоже не самый распространённый выбор — поэтому мы решили задать несколько вопросов о том, как со всем этим живётся. На них нам ответил Александр Морозов.
Читать полностью »

Airflow — инструмент, чтобы удобно и быстро разрабатывать и поддерживать batch-процессы обработки данных

2017-10-06 в 13:11, admin, рубрики: airflow, analytics, big data, data, datawarehouse, elt, etl, Hadoop, Hive, open source, python, spark, sql, Блог компании Mail.Ru Group

Привет! В этой статье я хочу рассказать об одном замечательном инструменте для разработки batch-процессов обработки данных, например, в инфраструктуре корпоративного DWH или вашего DataLake. Речь пойдет об Apache Airflow (далее Airflow). Он несправедливо обделен вниманием на Хабре, и в основной части я попытаюсь убедить вас в том, что как минимум на Airflow стоит смотреть при выборе планировщика для ваших ETL/ELT-процессов.

Ранее я писал серию статей на тему DWH, когда работал в Тинькофф Банке. Теперь я стал частью команды Mail.Ru Group и занимаюсь развитием платформы для анализа данных на игровом направлении. Собственно, по мере появления новостей и интересных решений мы с командой будем рассказывать тут о нашей платформе для аналитики данных.

Читать полностью »

Bigdata стек глазами воинствующего ораклойда

2017-09-04 в 15:17, admin, рубрики: big data, BigData, Hadoop, spark

На Хабре и прочих интернетах чуть не каждый день постят пустые статьи о бигдата, создавая у спецов стойкое ощущение, что кроме маркетинга за стеком бигдаты ничего нет. На самом деле там достаточно интересных технологий под капотом Hadoop и тут я хочу слегка разбавить маркетинг, взглядом технического спеца с опытом Oracle.

В первую очередь стоит понимать, что один из столпов бигдаты Hadoop, это не только батч процессинг и map-reduce, как многие пытаются изобразить. Это запросто может быть обработка и с противоположного спектра задач: чтение потока мелких сообщений, например от IoT (spark на Hadoop, читает Kafka stream), на ходу агрегируя и выявляя отклонения.Читать полностью »

Зачем изучать Spark?

2017-08-21 в 15:36, admin, рубрики: Apache Spark, big data, EPAM, java, spark, Блог компании EPAM

Зачем разработчикам изучать Spark? Как освоить технологию в домашних условиях? Что умеет, а чего не умеет Spark и что ждет его в будущем? Об этом – в интервью с тренером по Java и Big Data в ЕРАМ Алексеем Зиновьевым.

Читать полностью »

R c H2O на Spark в HDInsight

2017-08-07 в 6:50, admin, рубрики: "вода, azure, big data, h2o, hdinsight, Microsoft Azure, ml, R, spark, вода, высокая производительность, кругом вода", машинное обучение

H2O – библиотека машинного обучения, предназначенная как для локальных вычислений, так и с использованием кластеров, создаваемых непосредственно средствами H2O или же работая на кластере Spark. Интеграция H2O в кластеры Spark, создаваемые в Azure HDInsight, была добавлена недавно и в этой публикации (являющейся дополнением моей прошлой статьи: R и Spark) рассмотрим построение моделей машинного обучения используя H2O на таком кластере и сравним (время, метрика) его с моделями предоставляемых sparklyr, действительно ли H2O киллер-приложение для Spark?

Читать полностью »

R и большие данные: использование Replyr

2017-07-29 в 12:37, admin, рубрики: big data, dplyr, R, replyr, spark, sparklyr, Большие данные, метки: dplyr

replyr — сокращение от REmote PLYing of big data for R (удаленная обработка больших данных в R).

Почему стоит попробовать replyr? Потому что он позволяет применять стандартные рабочие подходы к удаленным данным (базы данных или Spark).

Можно работать так же, как и с локальным data.frame. replyr предоставляет такие возможности:

Обобщение данных: replyr_summary().
Объединение таблиц: replyr_union_all().
Связывание таблиц по строкам: replyr_bind_rows().
Использование функций разделения, объединения, комбинирования (dplyr::do()): replyr_split(), replyr::gapply().
Аггрегирование/распределение: replyr_moveValuesToRows() / replyr_moveValuesToColumns().
Отслеживание промежуточных результатов.
Контроллер объединений.

Скорее всего, вы всё это делаете с данными локально, поэтому такие возможности сделают работу со Spark и sparklyr гораздо легче.

replyr — продукт коллективного опыта использования R в прикладных решениях для многих клиентов, сбора обратной связи и исправления недостатков.

Примеры ниже.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «spark» - 3

Анонс Moscow Spark #4

«Придётся писать самим. Сели и написали»: жизнь разработчиков лабораторного кластера супермассивов в Сбертехе

Основные вопросы:

Глубокое обучение при помощи Spark и Hadoop: знакомство с Deeplearning4j

Анонс Moscow Spark #3

«Иногда приходится заглядывать в код Spark»: Александр Морозов (SEMrush) об использовании Scala, Spark и ClickHouse

Airflow — инструмент, чтобы удобно и быстро разрабатывать и поддерживать batch-процессы обработки данных

Bigdata стек глазами воинствующего ораклойда

Зачем изучать Spark?

R c H2O на Spark в HDInsight

R и большие данные: использование Replyr

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «spark» - 3

Основные вопросы:

Новости

Актуальные темы

Архив