Рубрика «big data» - 72

Apache Cassandra + Apache Ignite — как совместить лучшее

2017-06-23 в 8:01, admin, рубрики: Apache Ignite, big data, cassandra, java, Блог компании GridGain, Программирование

Apache Cassandra — это одна из популярных распределенных дисковых NoSQL баз данных с открытым исходным кодом. Она применяется в ключевых частях инфраструктуры такими гигантами как Netflix, eBay, Expedia, и снискала популярность за свою скорость, способность линейно масштабироваться на тысячи узлов и “best-in-class” репликацию между различными центрами обработки данных.

Apache Ignite — это In-Memory Computing Platform, платформа для распределенного хранения данных в оперативной памяти и распределенных вычислений по ним в реальном времени с поддержкой JCache, SQL99, ACID-транзакциями и базовой алгеброй машинного обучения.

Apache Cassandra является классическим решением в своей области. Как и в случае с любым специализированным решением, её преимущества достигнуты благодаря ряду компромиссов, значительная часть которых вызвана ограничениями дисковых хранилищ данных. Cassandra оптимизирована под максимально быструю работу с ними в ущерб остальному. Примеры компромиссов: отсутствие ACID-транзакций и поддержки SQL, невозможность произвольных транзакционных и аналитических транзакций, если под них заранее не адаптированы данные. Эти компромиссы, в свою очередь, вызывают закономерные затруднения у пользователей, приводя к некорректному использованию продукта и негативному опыту, либо вынуждая разделять данные между различными видами хранилищ, фрагментируя инфраструктуру и усложняя логику сохранения данных в приложениях.

Возможное решение проблемы — использование Cassandra в связке с Apache Ignite. Это позволит сохранить ключевые преимущества Cassandra, при этом скомпенсировав ее недостатки за счет симбиоза двух систем.

Как? Читайте дальше, и смотрите пример кода.

Apache Cassandra + Apache Ignite — как совместить лучшее - 1 Читать полностью »

Динамическое создание кластера Apache NiFi

2017-06-22 в 12:25, admin, рубрики: big data, flow-based programming, NiFi, Разработка для интернета вещей, метки: flow-based programming, NiFi

Apache NiFi — удобная платформа для работы с различными данными в режиме реального времени, с возможностью визуального построения данных процессов. Целью данной статьи является описание возможностей создания кластера Apache NiFi.

Рис. 1. GUI Apache NiFi.

Особенности:

Визуальное создание и управление направленными графиками процессоров.
Асинхронный, что обеспечивает высокую пропускную способность и естественную буферизацию, даже когда скорость потока и обработки расходятся.
Дает возможность создания связанных и слабо-связанных компонентов, которые затем могут быть повторно использованы в других контекстах.
Удобная обработка ошибок, которая облегчает работу и поиск проблемных мест.
Источники, по которым поступают данные, а также то, как они протекают и обрабатываются, визуально видимы и легко отслеживаются.

→ Подробнее тут
Читать полностью »

Полезные функции Google Таблиц, которых нет в Excel

2017-06-21 в 17:00, admin, рубрики: big data, data mining, Google API, Google Docs, Google Sheets, ms excel, Алгоритмы, формулы

Cтатья написана в соавторстве с Ренатом Шагабутдиновым.

В этой статье речь пойдет о нескольких очень полезных функциях Google Таблиц, которых нет в Excel (SORT, объединение массивов, FILTER, IMPORTRANGE, IMAGE, GOOGLETRANSLATE, DETECTLANGUAGE)

Очень много букв, но есть разборы интересных кейсов, все примеры, кстати, можно рассмотреть поближе в Google Документе goo.gl/cOQAd9 (файл-> создать копию, чтобы скопировать файл себе на Google Диск и иметь возможность редактирования).
Читать полностью »

Материалы студенческой школы «Recent Advances in Algorithms»

2017-06-20 в 11:28, admin, рубрики: big data, streaming, Алгоритмы, Блог компании СПБАУ, математика, параллельное программирование, параллельные алгоритмы

Recent Advances in Algorithms

В конце мая в Петербурге в ПОМИ РАН прошла международная студенческая школа «Recent Advances in Algorithms». Идея школы заключалась в том, чтобы ведущие учёные рассказали о последних достижениях в области алгоритмов. В результате у нас получился следующий список курсов.

Список лекторов
Читать полностью »

Отчет с Moscow Data Science Meetup 31 мая

2017-06-19 в 12:05, admin, рубрики: big data, data science, mail.ru, meetup, Moscow Data Science, ux research, Алгоритмы, Блог компании Mail.Ru Group, машинное обучение, митап

Отчет с Moscow Data Science Meetup 31 мая - 1

31 мая Moscow Data Science Meetup собрал в нашем офисе более 200 участников. На встрече мы поговорили о градиентном бустинге, бейзлайне на ConvAI.io и разобрали кейс, получивший 7-е место из 419 команд на конкурсе Dstl Satellite Imagery Feature Detection. Предлагаем вашему вниманию видеозаписи и презентации трёх докладов, представленных на встрече.

Читать полностью »

Data Science meetup в офисе Avito 24 июня

2017-06-16 в 10:46, admin, рубрики: big data, data mining, ozon.ru, Блог компании Avito, дзен, машинное обучение, рекомендательные системы, рекомендательный сервис, рекомендации

24 июня мы собираем специалистов по Data Science в нашем офисе, чтобы обменяться опытом в создании рекомендательных сервисов. На встрече мы подведём итоги проходившего на площадке Dataring.ru конкурса Avito на построение рекомендательной системы для объявлений: наградим победителей и попросим их подробнее рассказать о своих решениях. Кроме того, в программе интересные доклады от представителей Яндекс.Дзена, OZON.ru и, конечно же, Avito. Подробности под катом!
Читать полностью »

Apache Spark как ядро проекта. Часть 2. Streaming, и на что мы напоролись

2017-06-16 в 4:29, admin, рубрики: Apache Spark, big data, Hadoop, архитектура системы

Привет коллеги.
Да, не прошло и три года с первой статьи, но проектная пучина отпустила только сейчас. Хочу с вами поделиться своими соображениями и проблемами касательно Spark streaming в связке с Kafka. Возможно среди вас есть люди с успешным опытом, поэтому буду рад пообщаться в комментариях.
Читать полностью »

AgeHack — первый онлайн-хакатон по продлению жизни на платформе MLBootCamp

2017-06-15 в 12:17, admin, рубрики: big data, data mining, machine learning, Machine Learning Boot Camp, mail.ru, ML Boot Camp, Блог компании Mail.Ru Group, машинное обучение

AgeHack — первый онлайн-хакатон по продлению жизни на платформе MLBootCamp - 1

Сегодня, 15 июня, стартует чемпионат на платформе ML Boot Camp, посвященный проблемам здравоохранения и долголетия человечества. Чемпионат организован нами совместно с Insilico Medicine в сотрудничестве с Республиканским центром электронного здравоохранения при Министерстве здравоохранения Республики Казахстан. О том, почему это не очень обычный для нас конкурс — под катом.

Читать полностью »

Dropout — метод решения проблемы переобучения в нейронных сетях

2017-06-14 в 11:38, admin, рубрики: big data, deep learning, dropout, neural networks, overfitting, wunder fund, wunderfund, Алгоритмы, Блог компании Wunder Fund, машинное обучение, метки: dropout

Dropout — метод решения проблемы переобучения в нейронных сетях - 1

Переобучение (overfitting) — одна из проблем глубоких нейронных сетей (Deep Neural Networks, DNN), состоящая в следующем: модель хорошо объясняет только примеры из обучающей выборки, адаптируясь к обучающим примерам, вместо того чтобы учиться классифицировать примеры, не участвовавшие в обучении (теряя способность к обобщению). За последние годы было предложено множество решений проблемы переобучения, но одно из них превзошло все остальные, благодаря своей простоте и прекрасным практическим результатам; это решение — Dropout (в русскоязычных источниках — “метод прореживания”, “метод исключения” или просто “дропаут”).
Читать полностью »

Поддержка исследователей в области Deep Learning

2017-06-13 в 13:35, admin, рубрики: big data, data mining, deep learning, gpu, бесплатно, Блог компании New Professions Lab, конкурс, машинное обучение, обработка изображений

Хабр, нам тут пришла одна идея… В настоящий момент у нас возникло некое межсезонье между разными образовательными программами. Мы подумали, зачем нашей инфраструктуре зря простаивать, когда есть люди, которые могли бы на этой инфраструктуре что-то классное сделать.

Мы решили сделать небольшой вклад в развитие deep learning в России и выделить 3 виртуальных сервера с GPU тем, кто что-то делает в этой области. 2 виртуалки мы решили отдать нашим выпускникам, а 1 виртуалку дать в пользование кому-то «со стороны».

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 72

Apache Cassandra + Apache Ignite — как совместить лучшее

Динамическое создание кластера Apache NiFi

Полезные функции Google Таблиц, которых нет в Excel

Материалы студенческой школы «Recent Advances in Algorithms»

Отчет с Moscow Data Science Meetup 31 мая

Data Science meetup в офисе Avito 24 июня

Apache Spark как ядро проекта. Часть 2. Streaming, и на что мы напоролись

AgeHack — первый онлайн-хакатон по продлению жизни на платформе MLBootCamp

Dropout — метод решения проблемы переобучения в нейронных сетях

Поддержка исследователей в области Deep Learning

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 72

Новости

Актуальные темы

Архив