Рубрика «big data» - 56

Apache Kafka: обзор

2018-04-06 в 14:00, admin, рубрики: Apache, big data, distributed computing, java, Блог компании Издательский дом «Питер», высокопроизводительные вычисления, книги, потоковая передача данных, Программирование

Привет!

Сегодня мы предлагаем вам сравнительно краткую, но при этом толковую и информативную статью об устройстве и вариантах применения Apache Kafka. Рассчитываем перевести и выпустить книгу Нии Нархид (Neha Narkhede) et. al до конца лета.

Приятного чтения!
Читать полностью »

Как решить 90% задач NLP: пошаговое руководство по обработке естественного языка

2018-04-05 в 9:10, admin, рубрики: big data, machine learning, nlp, word2vec, анализ данных, Блог компании Конференции Олега Бунина (Онтико), классификатор текстов, машинное обучение

Неважно, кто вы — зарекомендовавшая себя компания, или же только собираетесь запустить свой первый сервис — вы всегда можете использовать текстовые данные для того, чтобы проверить ваш продукт, усовершенствовать его и расширить его функциональность.

Обработкой естественного языка (NLP) называется активно развивающаяся научная дисциплина, занимающаяся поиском смысла и обучением на основании текстовых данных.

Как вам может помочь эта статья

За прошедший год команда Insight приняла участие в работе над несколькими сотнями проектов, объединив знания и опыт ведущих компаний в США. Результаты этой работы они обобщили в статье, перевод которой сейчас перед вами, и вывели подходы к решению наиболее распространенных прикладных задач машинного обучения.

Мы начнем с самого простого метода, который может сработать — и постепенно перейдем к более тонким подходам, таким как feature engineering, векторам слов и глубокому обучению.

После прочтения статьи, вы будете знать, как:

осуществлять сбор, подготовку, и инспектирование данных;
строить простые модели, и осуществлять при необходимости переход к глубокому обучению;
интерпретировать и понимать ваши модели, чтобы убедиться, что вы интерпретируете информацию, а не шум.

Пост написан в формате пошагового руководства; также его можно рассматривать в качестве обзора высокоэффективных стандартных подходов.
Читать полностью »

Анонс Moscow Spark #4

2018-04-03 в 14:41, admin, рубрики: big data, kubernetes, ml, python, scala, spark, Блог компании Rambler&Co, машинное обучение

Всем привет! Новый год, новый Spark, новый Moscow Spark! Мы стартуем новый сезон нашего замечательного мероприятия 19 апреля на Мансарде Rambler&Co. Фреймворк не стоит на месте и мы тоже, в этот раз представим новый сайт сообщества и опробуем формат со звездой из-за рубежа.
Читать полностью »

Сбербанк создает облачный сервис, который также займется аналитикой «больших данных»

2018-04-02 в 12:11, admin, рубрики: B2B, big data, Госвеб, запуск, инвестиции, Интернет вещей, облачное хранилище, Сбербанк, Текучка, метки: b2b, big data, Госвеб, запуск, инвестиции, Интернет Вещей, облачное хранилище, Сбербанк, Текучка

Сбербанк вместе с системным интегратором «Ай-теко» создает облачную платформу SberCloud, которая будет предоставлять услуги как самому банку, так и внешним заказчикам, рассказали «Ведомостям» представитель Сбербанка и президент «Ай-теко» Шамиль Шакиров.

Известно, Читать полностью »

Машинное обучение и анализ данных: разбор программы обучения и основные проблемы

2018-04-01 в 18:57, admin, рубрики: big data, data mining, машинное обучение

Машинное обучение и анализ данных: разбор программы обучения и основные проблемы - 1
Машинное обучение и анализ данных — обзор Специализации от Яндекcа & МФТИ (5 курсов + финальный проект), предложенной на образовательной платформе Coursera. Статья представляет собой исключительно мнение автора как выпускника, не является рекламой и/или умышленной критикой, а скорей служит вводным инструктажем для тех, кто начинает обучение по данной тематике.

Вам может быть полезна данная статья если:

Вы хотите “попробовать на вкус” программирование на Python и понять для себя основные принципы работы моделей машинного обучения, использующихся для работы с данными
Вы рассматриваете для себя возможность пройти какой-либо обучающий курс по данной тематике и вам интересно оценить, насколько Специализация от Яндекса & МФТИ подходит для этого

Читать полностью »

Специалист по разметке данных

2018-04-01 в 11:40, admin, рубрики: 1 апреля, big data, deep learning, Блог компании New Professions Lab, Карьера в IT-индустрии, машинное обучение, обработка изображений, разметка, семантическая разметка

Сегодня замечательный день (if you know what I mean), чтобы анонсировать нашу новую программу — Специалист по разметке данных.

На текущий момент в сфере искусственного интеллекта сложилась такая ситуация, при которой для обучения сильной нейронной сети нужны несколько компонентов: железо, софт и, непосредственно, данные. Много данных.

Железо, в общем-то, доступно каждому через облака. Да, оно может быть недешевым, но GPU-инстансы на EC2 вполне по карману большинству исследователей. Софт опенсорсный, большинство фреймворков можно скачать себе куда-то и работать с ними. Некоторые сложнее, некоторые проще. Но порог для входа вполне приемлемый. Остается только последний компонент — это данные. И вот здесь и возникает загвоздка.

Deep learning требует действительно больших данных: сотни тысяч–миллионы объектов. Если вы хотите заниматься, например, задачей классификации изображений, то вам, помимо самих данных, нужно передать нейронке информацию, к какому классу относится тот или иной объект. Если у вас задача связана еще и с сегментацией изображения, то получение хорошего датасета — это уже фантастически сложно. Представьте, что вам нужно на каждом изображении выделить границы каждого объекта.

В этом посте хочется сделать обзор тех инструментов (коммерческих и бесплатных), которые пытаются облегчить жизнь этих прекрасных людей — разметчиков данных.
Читать полностью »

Анализ результатов президентских выборов 2018 года. На федеральном и региональном уровне

2018-03-30 в 11:54, admin, рубрики: big data, data mining, анализ данных, выборы, открытые данные

logo

Особенностью российских президентских выборов 2018 года стало то, что главным показателем теперь стал не процент за основного кандидата, а величина явки. Другим важным показателем стало рекордно высокое количество наблюдателей по всей стране. Наблюдатели были отправлены, в том числе, в республики Северного Кавказа, где традиционно результаты попросту рисовались.

Президентские выборы, даже без учёта масштабной кампании по повышению явки с помощью конкурсов, местных референдумов, и административного давления, привлекают значительно выше внимания, чем парламентские выборы. Однако, проведя анализ результатов, можно продолжать замечать аномалии в результатах, хоть уже и менее выраженными на федеральном уровне.

Я провел анализ результатов как на федеральном, так и (что интереснее) региональных уровнях, а также расскажу о том, как создавал сервис для анализа выборов.Читать полностью »

Пойди туда, не знаю куда: по следам конференции SmartData

2018-03-27 в 6:49, admin, рубрики: big data, data mining, data science, SmartData, Алгоритмы, Блог компании JUG.ru Group, искусственный интеллект, математика, машинное обучение

Пойди туда, не знаю куда: по следам конференции SmartData - 1

Конференций, связанных с AI / ML / data science в последнее время и у нас стало довольно много. Организаторы до сих пор ищут форматы, концепции конференций меняются, но состав спикеров повторяется процентов на 50.

Задача поиска формата стояла и перед программным комитетом SmartData. Задача эта довольно размытая. Кто тот человек, который занимается анализом и / или обработкой данных, что ему интересно? От участников конференции мы получили частичные ответы на эти вопросы, но данных хочется больше. В связи с этим хочу поделиться тем представлением об идеальном мире, которое сложилось на данный момент, и пригласить читателей к дискуссии в комментариях. Помогите сделать такую конференцию, на которую вам потом самим захочется сходить.

Кроме вопросов о ваших интересах и задачах, за кликом вас ждут две ранее не публиковавшиеся видеозаписи выступлений с первой конференции, технический приём написания текстов на Хабр и один забавный факт о беспилотных автомобилях.
Читать полностью »

Apache Ignite: распределенные вычисления в оперативной памяти

2018-03-26 в 14:42, admin, рубрики: Apache, big data, Ignite, in-memory, java, базы данных, Блог компании Издательский дом «Питер», высокая производительность, Программирование, распределённые вычисления

Apache Ignite: распределенные вычисления в оперативной памяти - 1

Привет!

Мы продолжаем интересоваться новыми решениями от компании Apache. Рассчитываем выпустить в мае книгу «High Performance Spark» Холдена Карау (книга в верстке), а в августе — книгу «Kafka: The Definitive Guide» Нии Нархид (еще в переводе). Сегодня же хотим предложить краткую ознакомительную статью об Apache Ignite и оценить масштаб интереса к теме.

Приятного чтения!
Читать полностью »

Apache Ignite.NET 2.4: Тонкий и кроссплатформенный

2018-03-26 в 9:00, admin, рубрики: .net, .net core, big data, C#, java, Mono, nosql, sql, Блог компании GridGain

Недавно вышла новая версия распределённой SQL базы данных Apache Ignite, предлагаю взглянуть на новые фичи с позиции .NET.

Ignite Cluster

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 56

Apache Kafka: обзор

Как решить 90% задач NLP: пошаговое руководство по обработке естественного языка

Как вам может помочь эта статья

Анонс Moscow Spark #4

Сбербанк создает облачный сервис, который также займется аналитикой «больших данных»

Машинное обучение и анализ данных: разбор программы обучения и основные проблемы

Специалист по разметке данных

Анализ результатов президентских выборов 2018 года. На федеральном и региональном уровне

Пойди туда, не знаю куда: по следам конференции SmartData

Apache Ignite: распределенные вычисления в оперативной памяти

Apache Ignite.NET 2.4: Тонкий и кроссплатформенный

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 56

Как вам может помочь эта статья

Новости

Актуальные темы

Архив