Рубрика «spark» - 2

Как геокодировать миллион точек на Spark по-быстрому?

2019-02-09 в 7:30, admin, рубрики: big data, ESRI, gis, Hadoop, Hive, spark, геокодирование, Программирование

В моем предыдущем проекте перед нами встала задача провести обратное геокодирование для множества пар географических координат. Обратное геокодирование — это процедура, которая паре широта-долгота ставит в соответствие адрес или название объекта на карте, к которому принадлежит или близка заданная координатами точка. То есть, берем координаты, скажем такие: @55.7602485,37.6170409, и получаем результат либо «Россия, Центральный федеральный округ, Москва, Театральная площадь, дом такой-то», либо например «Большой театр».

Если на входе адрес или название, а на выходе координаты, то эта операция — прямое геокодирование, об этом мы, надеюсь, поговорим позже.

В качестве исходных данных у нас на входе было примерно 100 или 200 тысяч точек, которые лежали в кластере Hadoop в виде таблицы Hive. Это чтобы был понятен масштаб задачи.

В качестве инструмента обработки в конце концов был выбран Spark, хотя в процессе мы попробовали как MapReduce, так и Apache Crunch. Но это отдельная история, возможно заслуживающая своего поста.
Читать полностью »

Бывший вице-президент Sun и DEC стал президентом MIPS – Wave, говорит о России и RISC-V

2018-12-03 в 20:57, admin, рубрики: cirrus logic, digital equipment, mips, spark, sun, wave computing, Биографии гиков, будущее здесь, высокая производительность, искусственный интеллект, МЦСТ, параллельное программирование, Процессоры

15 минут назад Арт Свифт стал президентом MIPS, до этого он вице-председателем комитета по маркетингу RISC-V, вице-президентом Sun, DEC, Cirrus Logic, президентом Трансмета. Я стал первым, кто взял у него видео-интервью в его новой роли, и его первые слова были о России. Арт рассказал, что он знаком с Байкал Электроникс, ЭЛВИС-НеоТек. НИИСИ, МЦСТ и группой Бабаяна, встречался с российскими RISC-V компаниями Syncore и CloudBear. Вот видео — в конце оборвалось, так как у меня кончилась батарейка:

А вот официальный-пресс релиз и отрывок из биографии Арта Свифта:
Читать полностью »

Data Engineering и не только: видеозаписи и слайды с митапа

2018-11-20 в 10:26, admin, рубрики: airflow, big data, data engineering, data mining, data science, spark, wrike, wriketechclub, Блог компании Wrike, конференции

Data Engineering и не только: видеозаписи и слайды с митапа - 1

15 ноября в офисе Wrike прошел митап «Data Engineering и не только». Поговорили об инженерах данных как об отдельной специальности, наметили отличия процессов в софтверном и дата-инжениринге, посмотрели, как можно писать тесты для Apache Spark, и чуть-чуть коснулись особенностей семантических технологий.

Для тех, кто не смог прийти, мы публикуем видеозаписи докладов.
Читать полностью »

Посекундный биллинг, маркетплейс и песочницы для Big Data: что могут тестовые среды в облаке

2018-11-13 в 6:49, admin, рубрики: big data, devops, docker, Hadoop, infrastructure as code, kubernetes, openstack, spark, terraform, Блог компании Mail.Ru Group, облачные сервисы, Тестирование IT-систем, тестовые среды

Любой компании, разрабатывающей софт, нужны тестовые среды, приближенные к продакшн-окружению. Особенно это актуально для коробочного ПО, у которого длинный цикл релизов.
Многие проблемы построения тестовых сред решает их размещение в облаке. Мы расскажем про возможности тестирования на нашей облачной платформе Mail.Ru Cloud Solutions (MCS). Но часть из того, что мы расскажем, верна для любого облака.
Читать полностью »

Митап в Петербурге: Data Engineering и не только

2018-10-29 в 10:37, admin, рубрики: Apache Spark, big data, data, data mining, spark, wrike, wriketechclub, Блог компании Wrike, визуализация данных

Митап в Петербурге: Data Engineering и не только - 1

Дата инженеры — люди, без которых аналитики уснут до окончания запроса к БД, а дата сайентисты захлебнутся в данных. Пришло время рассказать окружающим и самим себе, зачем и как мы работаем.

К сожалению, чуть ли не единственная специализированная конференция для дата-аналитиков и дата-инженеров в Питере в этом году отменилась, но мы в Wrike Tech Club решили дольго не грустить и устроить ламповый уютный митап с классными спикерами.
Читать полностью »

Apache Ignite + Apache Spark Data Frames: вместе веселее

2018-10-24 в 13:12, admin, рубрики: Apache, api, Ignite, java, open source, scala, spark, Блог компании Сбербанк

Привет! Меня зовут Николай Ижиков, я работаю в компании «Сбербанк Технологии» в команде развития Open Source решений. За плечами 15 лет коммерческой разработки на Java. Я коммитер Apache Ignite и контрибьютор Apache Kafka.

Под катом вас ожидает видео и текстовая версия моего доклада на Apache Ignite Meetup о том, как использовать Apache Ignite вместе с Apache Spark и какие возможности мы для этого реализовали.

Apache Ignite + Apache Spark Data Frames: вместе веселее - 1
Читать полностью »

Cassandra Sink для Spark Structured Streaming

2018-10-05 в 16:01, admin, рубрики: Apache, big data, cassandra, scala, spark, spark streaming

Пару месяцев назад я начала изучать Spark, и в какой-то момент столкнулась с проблемой сохранения вычислений Structured Streaming в базе данных Cassandra.

В данном посте я привожу простой пример создания и использования Cassandra Sink для Spark Structured Streaming. Я надеюсь, что пост будет полезен тем, кто недавно начал работать со Spark Structured Streaming и задается вопросом, как выгружать результаты вычислений в базу данных.

Идея приложения очень проста — получить и распарсить сообщения из кафки, выполнить простые трансформации в спарке и сохранить результаты в кассандре.
Читать полностью »

Spark SQL. Немного об оптимизаторе запросов

2018-07-13 в 11:53, admin, рубрики: optimization, spark, sql, Блог компании Неофлекс, Серверная оптимизация

Всем привет. В качестве введения, хочется рассказать, как я дошел до жизни такой.

До того как встретиться с Big Data и Spark, в частности, мне довелось много и часто оптимизировать SQL запросы, сначала для MSSQL, потом для Oracle, и вот теперь я столкнулся со SparkSQL.

И если для СУБД уже существует множество хороших книг, описывающих методологию и «ручки», которые можно покрутить для получения оптимального плана запроса, то для Spark такого рода книг я не встречал. На глаза попадались больше статьи и наборы практик, причем больше относящиеся к работе через RDD/Dataset API, а не чистому SQL. Для меня одной из эталонных книг на тему оптимизации SQL является книга Дж. Льюис «Oracle. Основы стоимостной оптимизации». Что-то подобное по глубине проработки я и искал. Почему предметом исследования стал именно SparkSQL, а не API, лежащий в основе? Тут интерес был вызван особенностями проекта, над которым я работаю.

Spark SQL. Немного об оптимизаторе запросов - 1
Читать полностью »

Просто добавь воды: разработка с H2O.ai

2018-05-23 в 7:46, admin, рубрики: AI, Apache Spark, azure, azure iot, data science, DSVM, h2o, machine learning, microsoft, Microsoft Azure, python, R, spark, Блог компании Microsoft, ИИ, искусственный интеллект, машинное обучение, Питон, Разработка для интернета вещей

Привет! В течение последних нескольких лет интерес к технологиям машинного обучения и искусственного интеллекта быстро рос. Решение H2O.ai становится все более популярным в этой сфере: оно поддерживает быстрые алгоритмы машинного обучения в оперативной памяти и недавно получило поддержку глубокого обучения. Сегодня поговорим о разработке с использованием H2O.

Просто добавь воды: разработка с H2O.ai - 1 Читать полностью »

Проблемы матчинга и как можно с ними бороться

2018-05-16 в 8:41, admin, рубрики: big data, Hadoop, java, matching, spark, Блог компании Сбербанк

Добрый день! Меня зовут Алексей Булавин, я представляю центр компетенций Сбертеха по Big Data. Представители бизнеса, владельцы продуктов и аналитики часто задают мне вопросы по одной и той же теме — матчинг. Что это такое? Зачем и как его делать? Особенно популярен вопрос «Почему он может не получиться?» В этой статье я постараюсь на них ответить.

Проблемы матчинга и как можно с ними бороться - 1

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «spark» - 2

Как геокодировать миллион точек на Spark по-быстрому?

Бывший вице-президент Sun и DEC стал президентом MIPS – Wave, говорит о России и RISC-V

Data Engineering и не только: видеозаписи и слайды с митапа

Посекундный биллинг, маркетплейс и песочницы для Big Data: что могут тестовые среды в облаке

Митап в Петербурге: Data Engineering и не только

Apache Ignite + Apache Spark Data Frames: вместе веселее

Cassandra Sink для Spark Structured Streaming

Spark SQL. Немного об оптимизаторе запросов

Просто добавь воды: разработка с H2O.ai

Проблемы матчинга и как можно с ними бороться

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «spark» - 2

Новости

Актуальные темы

Архив