Рубрика «big data» - 90

Твоя Data такая большая: Введение в Spark на Java

2016-09-12 в 12:21, admin, рубрики: big data, BigData, frameworks, java, java vs scala, joker, scala, spark, Блог компании JUG.ru Group

Apache Spark – универсальный инструмент для процессинга больших данных, с которым можно писать в Hadoop с различных СУБД, стримить всякие источники в реальном времени, параллельно делать с данными какую-нибудь сложную обработку, и все это не при помощи каких-то батчей, скриптов и SQL-запросов, а при помощи функционального подхода.

Твоя Data такая большая: Введение в Spark на Java - 1

Про Spark ходит несколько мифов:

Spark’y нужен Hadoop: не нужен!
Spark’у нужна Scala: не обязательно!

Почему? Смотрите под катом.
Читать полностью »

III Международная конференция АI Ukraine, 8-9 октября, Харьков

2016-09-12 в 7:50, admin, рубрики: artificial intelligence, big data, data mining, FlyElephant, АIUkraine, Алгоритмы, Блог компании FlyElephant, Большие данные, искусственный интеллект, конференция, машинное обучение

Команда FlyElephant приглашает всех c 8 по 9 октября в Харьков на III Международнаю конференцию АI Ukraine, которая посвящена вопросам Data Science, Machine Learning, Big Data и Artificial Intelligence.

На конференции будут рассмотрены темы из различных областей Data Science и Machine Learning:

глубокое обучение нейронных сетей;
компьютерное зрение;
обработка естественного языка;
рекомендательные системы;
использование Machine Learning в биоинформатике;
Big Data инструменты: Hadoop, Spark и др.

Я буду рад видеть всех на нашем стенде, а также на докладе, в котором расскажу об Читать полностью »

Джентельменский набор пакетов R для автоматизации бизнес-задач

2016-09-07 в 11:55, admin, рубрики: big data, data mining, data science, R

Продолжение предыдущих публикаций «Инструменты DataScience как альтернатива классической интеграции» и
«Экосистема R как инструмент для автоматизации бизнес-задач».
Настоящая статья является ответом на возникшие вопросы по пакетам R, которые полезны для реализации описанных подходов. Я ее рассматриваю исключительно как справочную информацию, и отправную точку для последующего детального изучения заинтересовавшимися, поскольку за каждым пакетом скрывается огромное пространство со своей философией и идеологией, математикой и путями развития.

Как правило, все пакеты (9109 штук на 07.09.2016) находятся в репозитории CRAN. Те, что по тем или иным причинам, пока не опубликованы в репозиторий, могут быть найдены на GitHub. Итак, кратким списком:Читать полностью »

Игорь Илюнин: «Заказчик попросил собрать команду, которой не нашел в Кремниевой долине»

2016-09-06 в 16:42, admin, рубрики: big data, IoT, R&D, Блог компании DataArt, интервью, Интернет вещей

Игорь Илюнин: «Заказчик попросил собрать команду, которой не нашел в Кремниевой долине» - 1

«Интернет вещей» — направление, на котором развитие идет с невероятной скоростью, где даже стратегические планы приходится пересматривать чуть ли не ежегодно. О том, чем живет передний край ИТ, как изменились подходы к найму и обучению инженеров, какие перспективы это открывает для молодых специалистов, рассказал Игорь Илюнин, лидер IoT-практики DataArt.

И. И.: Около полутора лет назад мы поняли, что в области IoT ветер начинает дуть немного в другую сторону. Раньше клиентов интересовали подключение устройств, знание конкретных протоколов обмена данными между ними, различные типы подключения к сети, построение инфраструктуры на уровне устройств. Но в этот момент к нам пришли сразу несколько заказчиков – достаточно крупных компаний, причем одним из них был производитель компьютерной техники. Эта компания собиралась строить собственный IoT-cloud, который бы обслуживал всех их клиентов, хотела обеспечить перемещение данных, самостоятельно их обрабатывать, позволив самим клиентам делать кастомизацию. То есть создать платформу на все случаи жизни. При этом они озвучили список современных технологий, которыми должны владеть инженеры их поставщика, и на тот момент во всей компании мы нашли всего пару человек, которые хотя бы частично удовлетворяли этим требованиям. Надо сказать, что и сам заказчик говорил: «нам нужна команда в 3-4 человека, которые будут работать над нашим проектом — в Кремниевой долине мы таких не нашли». Мы увидели в этом отличную возможность — тогда появился концепт внутренней Big Data академии.Читать полностью »

Экосистема R как инструмент для автоматизации бизнес-задач

2016-09-06 в 14:03, admin, рубрики: big data, data mining, data science, R

Настоящая статья является продолжением предыдущей публикации «Инструменты DataScience как альтернатива классической интеграции». Основная цель — заострить внимание как разработчиков, так и руководителей среднего звена, на широком спектре возможностей, которые предоставляют современные инструменты из сферы Data Science за рамками классических задач статистических вычислений и модной нынче темы машинного обучения. В частности, возможности экосистемы R по состоянию на август 2016 года и применение этих возможностей на примере двух задач: одной из прикладной науки, другой – из среднего бизнеса.
Читать полностью »

Batch Normalization для ускорения обучения нейронных сетей

2016-09-06 в 9:44, admin, рубрики: big data, Алгоритмы, Компьютерное зрение, машинное обучение, нейронные сети, обработка изображений, обучение

В современном мире нейронные сети находят себе всё больше применений в различных областях науки и бизнеса. Причем чем сложнее задача, тем более сложной получается нейросеть.

Обучение сложных нейронных сетей иногда может занимать дни и недели только для одной конфигурации. А чтобы подобрать оптимальную конфигурацию для конкретной задачи, требуется запустить обучение несколько раз — это может занять месяцы вычислений даже на действительно мощной машине.

В какой-то момент, знакомясь с представленным в 2015 году методом Batch Normalization от компании Google мне, для решения задачи связанной с распознаванием лиц, удалось существенно улучшить скорость работы нейросети.

Batch Normalization для ускорения обучения нейронных сетей - 1

За подробностями прошу под кат.

Читать полностью »

Инструменты Data Science как альтернатива классической интеграции

2016-09-05 в 15:04, admin, рубрики: big data, data mining, data science, R

В настоящий момент уже можно считать, что страсти по Big Data и Data Science немного утихли, а ожидание чуда, как обычно, было сильно скорректировано реальностью физического мира. Самое время заняться конструктивной деятельностью. Поиск тем на Хабре по различным ключевым словам выдал крайне скудный набор статей, поэтому я решил поделиться тем опытом, который был накоплен в части практического применения инструментов и подходов Data Science для решения повседневных задач в компании.
Читать полностью »

Обсуждение инструментов аналитики для работы с большими данными в Питере 14 сентября

2016-09-05 в 8:38, admin, рубрики: analytics, big data, data mining, wrike, wriketechclub, Анализ и проектирование систем, Блог компании Wrike

Обсуждение инструментов аналитики для работы с большими данными в Питере 14 сентября - 1

14 сентября в 19:00 мы встретимся в офисе компании Wrike, чтобы обсудить инструменты аналитики и работу с большими данными. Главное внимание мы уделим успешным практикам и инструментам, разберем конкретные кейсы, поговорим о построении системы аналитики в компании, попробуем дать конкретные советы и рекомендации. Эксперты с удовольствием ответят на ваши вопросы.
Читать полностью »

Книга об интенсивной обработке данных

2016-09-02 в 14:05, admin, рубрики: architecture, big data, database design, performance, Блог компании Издательский дом «Питер», книги по программированию, Программирование, Проектирование и рефакторинг, Профессиональная литература

Здравствуйте, дорогие читатели. Мы редко пишем о книжных «долгостроях», то есть, о работах, которые никак не выйдут на Западе. Но сегодня хотим познакомить вас с постом из блога Мартина Клеппмана, который уже не первый год трудится над фундаментальной книгой "Designing Data-Intensive Applications"

Книга об интенсивной обработке данных - 1

В сравнительно небольшой публикации автору удалось изложить базовые идеи столь объемной книги, обрисовать целевую аудиторию и почти убедить нас, что за перевод надо браться. Но вы все равно почитайте и не стесняйтесь голосовать.
Читать полностью »

Yandex Data Factory предскажет необходимое количество продуктов со скидкой «Пятёрочке»

2016-09-01 в 6:02, admin, рубрики: big data, Yandex Data Factory, еда, инвестиции, Текучка, товарные рекомендации, яндекс, метки: big data, Yandex Data Factory, еда, инвестиции, Текучка, товарные рекомендации, яндекс

X5 Retail Group тестирует систему предсказания спроса на товары со скидками в «Пятёрочках», её разработала Yandex Data Factory. X5 тестировала сервис в Липецкой области в начале 2016 года. Прогноз делался для промоакций типа «регулярные скидки, действующие в течение одной недели», после модель была применена и для всех других типов промоакций. По словам представителя YDF, в 87% случаев прогноз оказался верен с точностью до одной упаковки, Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 90

Твоя Data такая большая: Введение в Spark на Java

III Международная конференция АI Ukraine, 8-9 октября, Харьков

Джентельменский набор пакетов R для автоматизации бизнес-задач

Игорь Илюнин: «Заказчик попросил собрать команду, которой не нашел в Кремниевой долине»

Экосистема R как инструмент для автоматизации бизнес-задач

Batch Normalization для ускорения обучения нейронных сетей

Инструменты Data Science как альтернатива классической интеграции

Обсуждение инструментов аналитики для работы с большими данными в Питере 14 сентября

Книга об интенсивной обработке данных

Yandex Data Factory предскажет необходимое количество продуктов со скидкой «Пятёрочке»

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 90

Новости

Актуальные темы

Архив