Рубрика «Hadoop» - 4

«Придётся писать самим. Сели и написали»: жизнь разработчиков лабораторного кластера супермассивов в Сбертехе

2018-03-12 в 14:12, admin, рубрики: akka, big data, Hadoop, java, jpoint, jpoint2018, Rust, scala, spark, Блог компании JUG.ru Group

Существует миф, что банки — это очень закостенелые структуры, в которых нет места эксперименту. Чтобы опровергнуть этот миф, мы провели небольшое интервью с Валерием Выборновым — начальником отдела разработки лабораторного кластера супермассивов в Сбербанк-Технологиях. У себя в команде они не боятся пользоваться всей мощью Scala, Akka, Hadoop, Spark, и даже пишут прототипы на Rust.

«Придётся писать самим. Сели и написали»: жизнь разработчиков лабораторного кластера супермассивов в Сбертехе - 1

Основные вопросы:

Обсуждение примера экспериментального проекта (работа с социальным графом) с техническими подробностями;
Используемые языки и технологии (Scala, Akka, Hadoop, Spark, Rust, и т.п.);
Можно ли прийти в Сбертех сразу на руководящую должность? Как там внутри всё организовано, какие есть грейды?
Как живётся простому разработчику? Подробности внедрения Сберджайла;

Читать полностью »

Глубокое обучение при помощи Spark и Hadoop: знакомство с Deeplearning4j

2017-12-15 в 14:36, admin, рубрики: Apache, big data, deep learning, Hadoop, java, spark, Алгоритмы, Блог компании Издательский дом «Питер», машинное обучение, Профессиональная литература, распознавание образов

Здравствуйте, уважаемые читатели!

Мы вполне убедились в мегапопулярности глубокого обучения (Deep Learning) на языке Python в нашей целевой аудитории. Теперь предлагаем поговорить о высшей лиге глубокого обучения — то есть, о решении этих задач на языке Java при помощи библиотеки Deeplearning4j. Мы перевели для вас июньскую статью из блога компании Cloudera, где в интереснейших подробностях рассказано о специфике этой библиотеки и о глубоком обучении в Hadoop и Spark.

Приятного чтения.
Читать полностью »

Открытая трансляция из главного зала SmartData 2017: речь не про решения — речь про эволюцию

2017-10-20 в 6:09, admin, рубрики: AI, big data, BigData, catboost, cgi, data science, deep learning, Hadoop, machine learning, Блог компании JUG.ru Group, машинное обучение, свёрточная нейросеть, сверточные нейронные сети, свёрточные сети

Открытая трансляция из главного зала SmartData 2017: речь не про решения — речь про эволюцию - 1

Как мы уже неоднократно сообщали ранее, в этом году компания JUG.ru Group решила заглянуть в будущее и ~~разобраться, какая необходимость двум серым ящикам взаимодействовать друг с другом~~ впустить в наш мир дозу сакральных знаний по Big Data и машинному обучению — мы сделали конференцию SmartData 2017, которая пройдёт в Питере 21 октября.

Зачем мы собираем конференцию по Big Data и машинному обучению? Потому что не можем не собрать. И чтобы обратить в наше братство как можно большее количество разработчиков, мы традиционно открываем бесплатную онлайн-трансляцию из первого зала конференции.

Итак, бесплатная онлайн-трансляция из главного зала SmartData 2017 начнётся 21 октября 2017 года в 9:30 утра по московскому времени. Только вы, мы и будущее. В этот раз трансляция будет доступна в 2k — доставайте ваши 4k мониторы!

Открытая трансляция из главного зала SmartData 2017: речь не про решения — речь про эволюцию - 2

Ссылка на онлайн-трансляцию первого трека конференции SmartData 2017 и краткое описание докладов — под катом.
Читать полностью »

Airflow — инструмент, чтобы удобно и быстро разрабатывать и поддерживать batch-процессы обработки данных

2017-10-06 в 13:11, admin, рубрики: airflow, analytics, big data, data, datawarehouse, elt, etl, Hadoop, Hive, open source, python, spark, sql, Блог компании Mail.Ru Group

Привет! В этой статье я хочу рассказать об одном замечательном инструменте для разработки batch-процессов обработки данных, например, в инфраструктуре корпоративного DWH или вашего DataLake. Речь пойдет об Apache Airflow (далее Airflow). Он несправедливо обделен вниманием на Хабре, и в основной части я попытаюсь убедить вас в том, что как минимум на Airflow стоит смотреть при выборе планировщика для ваших ETL/ELT-процессов.

Ранее я писал серию статей на тему DWH, когда работал в Тинькофф Банке. Теперь я стал частью команды Mail.Ru Group и занимаюсь развитием платформы для анализа данных на игровом направлении. Собственно, по мере появления новостей и интересных решений мы с командой будем рассказывать тут о нашей платформе для аналитики данных.

Читать полностью »

Bigdata стек глазами воинствующего ораклойда

2017-09-04 в 15:17, admin, рубрики: big data, BigData, Hadoop, spark

На Хабре и прочих интернетах чуть не каждый день постят пустые статьи о бигдата, создавая у спецов стойкое ощущение, что кроме маркетинга за стеком бигдаты ничего нет. На самом деле там достаточно интересных технологий под капотом Hadoop и тут я хочу слегка разбавить маркетинг, взглядом технического спеца с опытом Oracle.

В первую очередь стоит понимать, что один из столпов бигдаты Hadoop, это не только батч процессинг и map-reduce, как многие пытаются изобразить. Это запросто может быть обработка и с противоположного спектра задач: чтение потока мелких сообщений, например от IoT (spark на Hadoop, читает Kafka stream), на ходу агрегируя и выявляя отклонения.Читать полностью »

Константин Будник, EPAM: “Apache Hadoop перешел в фазу commodity — там почти не появляется ничего нового.”

2017-07-12 в 10:41, admin, рубрики: amazon, big data, EPAM, Hadoop, java, java conference, javaday, longread, open source, Yahoo, Блог компании EPAM

В начале ноября в Киеве уже в шестой раз пройдёт одна из ключевых в Восточной Европе Java-конференций JavaDay 2017. Хотя до события еще достаточно времени, мы предметно пообщались с одним из спикером конференции — Константином Будником, Chief BigData Technologist и Open Source Fellow EPAM Systems — о силе open-source, Big Data и будущем Hadoop.

Константин Будник, EPAM: “Apache Hadoop перешел в фазу commodity — там почти не появляется ничего нового.” - 1
Читать полностью »

Лекция о двух библиотеках Яндекса для работы с большими данными

2017-07-10 в 13:14, admin, рубрики: big data, cascading, etl, Hadoop, MapReduce, YT, библиотеки, Блог компании Яндекс, логи, Промышленное программирование, сырые данные, фильтрация

Пару недель назад в Яндексе прошла встреча PyData, посвящённая анализу больших данных с использованием Python. В том числе на этой встрече выступил Василий Агапитов — руководитель группы разработки инструментов аналитики Яндекса. Он рассказал о двух наших библиотеках: для описания и запуска расчетов на MapReduce и для извлечения информации из логов.

Под катом — расшифровка и часть слайдов.

Читать полностью »

Big Data в Райффайзенбанке

2017-07-05 в 14:27, admin, рубрики: big data, data lake, Hadoop, hortonworks, spark, Блог компании Райффайзенбанк

Всем привет!

В этой статье мы расскажем про Big Data в Райффайзенбанке.
Но прежде чем перейти к сути, хотелось бы внести ясность по поводу самого определения Big Data. Действительно, в последние несколько лет этот термин употреблялся во множестве контекстов, что привело к размытию границ самого термина и потере содержательной части. Мы в Райффайзенбанке выделили три направления, которые мы относим к Big Data:
Читать полностью »

Apache Spark как ядро проекта. Часть 2. Streaming, и на что мы напоролись

2017-06-16 в 4:29, admin, рубрики: Apache Spark, big data, Hadoop, архитектура системы

Привет коллеги.
Да, не прошло и три года с первой статьи, но проектная пучина отпустила только сейчас. Хочу с вами поделиться своими соображениями и проблемами касательно Spark streaming в связке с Kafka. Возможно среди вас есть люди с успешным опытом, поэтому буду рад пообщаться в комментариях.
Читать полностью »

Вышло обновление Apache Hadoop впервые за два года

2017-06-07 в 5:04, admin, рубрики: Apache, big data, Hadoop, Блог компании ИТ-ГРАД, ИТ-ГРАД

Пятого июня Apache Software Foundation впервые за два года выпустила обновление фреймворка для разработки и выполнения распределённых программ Apache Hadoop. Версия Apache Hadoop 2.8 получила ряд улучшений, связанных с облачными технологиями и безопасностью.

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «Hadoop» - 4

«Придётся писать самим. Сели и написали»: жизнь разработчиков лабораторного кластера супермассивов в Сбертехе

Основные вопросы:

Глубокое обучение при помощи Spark и Hadoop: знакомство с Deeplearning4j

Открытая трансляция из главного зала SmartData 2017: речь не про решения — речь про эволюцию

Airflow — инструмент, чтобы удобно и быстро разрабатывать и поддерживать batch-процессы обработки данных

Bigdata стек глазами воинствующего ораклойда

Константин Будник, EPAM: “Apache Hadoop перешел в фазу commodity — там почти не появляется ничего нового.”

Лекция о двух библиотеках Яндекса для работы с большими данными

Big Data в Райффайзенбанке

Apache Spark как ядро проекта. Часть 2. Streaming, и на что мы напоролись

Вышло обновление Apache Hadoop впервые за два года

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «Hadoop» - 4

Основные вопросы:

Новости

Актуальные темы

Архив