Рубрика «data mining» - 53

R в enterprise задачах. Хитрости и трюки

2017-02-17 в 9:51, admin, рубрики: big data, data mining, data science, R

Несмотря на то, что задачи рядового бизнеса очень часто далеки от популярной темы больших данных и машинного обучения и часто связаны с обработкой относительно малых объёмов информации [десятки мегабайт — десятки гигабайт], размазанной в произвольных представлениях по различным видам источников, применение R в качестве основного инструмента позволяет легко и элегантно автоматизировать и ускорить эти задачи.

И, естественно, после проведения анализа необходимо все это презентовать, для чего можно с успехом использовать Shiny. Далее я приведу ряд трюков и подходов, которые могут помочь в этой задачах. Уверен, что любой практикующий аналитик сможет легко добавить свои хитрости, все зависит от решаемого класса задач.

Читать полностью »

Superjob Data Science Meetup

2017-02-16 в 9:00, admin, рубрики: big data, data analysis, data mining, data science, data science digest, data scientist, data structures, development, meet-up, meet-ups, meetup, SuperJob, superjob.ru, Блог компании Superjob.ru, встреча разработчиков, мероприятие, Мероприятия, Москва, Программирование, разработка, Сбербанк-Технологии, события, события IT профессионалов

Superjob приглашает на Data Science Meetup. Встречаемся 2 марта в нашем офисе на Малой Дмитровке.

Темы и спикеры:

«Применение алгоритмов поиска нечетких дубликатов в поиске вакансий»

Дмитрий Кожокарь, старший разработчик Superjob, расскажет об опыте создания эффективного алгоритма по поиску нечетких дубликатов среди большого количества полуструктурированных текстовых записей. В докладе рассматривается использование функции из семейства locality-sensitive hashing с дополнительными оптимизациями для выявления схожих вакансий и последующего объединения их в кластеры.
Читать полностью »

Вебинар: Введение в Singularity

2017-02-14 в 11:04, admin, рубрики: big data, BigData, data mining, data science, deep learning, FlyElephant, gpu, HPC, machine learning, mpi, singularity, xeon phi, Блог компании FlyElephant, вебинар, высокая производительность, машинное обучение

Вебинар: Введение в Singularity - 1

Команда FlyElephant приглашает всех на вебинар "Введение в Singularity", который проведет
Gregory Kurtzer (HPC Systems Architect и Technical Lead в Lawrence Berkeley National Laboratory).
Вебинар будет проходить завтра, 15 февраля, в 19:00 (EET) / 9:00 am (PST). Язык — английский.
Читать полностью »

Cognitive Services & LUIS: Введение в распознавание естественного языка

2017-02-10 в 8:27, admin, рубрики: AI, artificial intelligence, data mining, LUIS, machine learning, microsoft, microsoft cognitive services, ml, Алгоритмы, Блог компании Microsoft, искусственный интеллект, когнитивные сервисы, машинное обучение

В этой статье мы поговорим о понимании языка (о лингвистических вычислениях, таких как назначение меток, синтаксический анализ и так далее) и обратим особое внимание на два API: Linguistic Analysis API и интеллектуальную службу распознавания речи (LUIS). Если вы любите английский язык так же как русский и увлекаетесь обучением искусственного интеллекта, добро пожаловать под кат.

Cognitive Services & LUIS: Введение в распознавание естественного языка - 1
Читать полностью »

Черновик книги Эндрю Ына «Жажда машинного обучения», главы 1-7

2017-02-08 в 15:35, admin, рубрики: big data, data mining, машинное обучение, стратегии для инженеров, Эндрю Ын, метки: Эндрю Ын

В декабре прошлого года в переписке американских коллег по data science прокатилась волна обсуждения долгожданного черновика новой книги гуру машинного обучения Эндрю Ына (Andrew Ng) «Жажда машинного обучения: стратегии для инженеров в эпоху глубинного обучения». Долгожданного, потому что книга была анонсирована ещё летом 2016 года, и вот, наконец, появилось несколько глав.

Представляю вниманию Хабра-сообщества перевод первых семи глав из доступных в настоящий момент четырнадцати. Замечу, что это не финальный вариант книги, а черновик. В нем есть ряд неточностей. Эндрю Ын предлагает писать свои комментарии и замечания сюда. Начинает автор с вещей, которые кажутся очевидными. Дальше ожидаются более сложные концепции.
Читать полностью »

Техносфере Mail.Ru — три года

2017-02-08 в 11:45, admin, рубрики: big data, data mining, mail.ru, Блог компании Mail.Ru Group, машинное обучение, разработка, Техносфера, учебные материалы

Сегодня исполнилось три года с момента запуска одного из наших образовательных проектов — Техносферы Mail.Ru, появившийся совместно с факультетом ВМК МГУ им. Ломоносова. Программа Техносферы рассчитана на подготовку специалистов в сфере больших данных. Изначально она была рассчитана на один год и состояла из шести дисциплин. Однако спустя год мы пересмотрели программу и сделали её двухгодичной. В течение четырёх семестров студенты изучают 12 дисциплин, выполняя большой объём практических работ. Заодно был разработан подготовительный курс «Алгоритмы и структуры данных».

В Техносферу принимают студентов 2—4-х курсов. Несмотря на то что схема вступительных экзаменов во все наши образовательные проекты одинакова (студенты сдают онлайн-тест и проходят очное собеседование), в Техносфере мы больше ориентируемся на базовые знания по высшей математике. Помимо чтения лекций мы создали лабораторию, где студенты работают с реальными задачами, с которыми мы сталкиваемся в Mail.Ru Group. Например, пытаются улучшить аналитические алгоритмы, создать определённые эвристики. То есть делают всё то же самое, что они делали бы во время обычной стажировки в компании. С осени 2015 года в лаборатории начали проводить и научные исследования. Например, изучаются возможности применения нейронных сетей для решения тех или иных бизнес-задач.

И в честь дня рождения мы выкладываем список учебных материалов, которые рекомендованы к изучению нашим студентам на протяжении всего двухлетнего курса.
Читать полностью »

Интересные алгоритмы кластеризации, часть первая: Affinity propagation

2017-02-06 в 5:38, admin, рубрики: affinity propagation, clustering, data mining, graphs, Алгоритмы, математика, машинное обучение, метки: affinity propagation

Если вы спросите начинающего аналитика данных, какие он знает методы классификации, вам наверняка перечислят довольно приличный список: статистика, деревья, SVM, нейронные сети… Но если спросить про методы кластеризации, в ответ вы скорее всего получите уверенное «k-means же!» Именно этот золотой молоток рассматривают на всех курсах машинного обучения. Часто дело даже не доходит до его модификаций (k-medians) или связно-графовых методов.

Не то чтобы k-means так уж плох, но его результат почти всегда дёшев и сердит. Есть более совершенные способы кластеризации, но не все знают, какой когда следует применять, и очень немногие понимают, как они работают. Я бы хотел приоткрыть завесу тайны над некоторыми алгоритмами. Начнём с Affinity propagation.

Читать полностью »

Скоро открытие ML Boot Camp III

2017-02-02 в 15:27, admin, рубрики: big data, data mining, machine learning, Machine Learning Boot Camp, mail.ru, ML Boot Camp, Алгоритмы, Блог компании Mail.Ru Group, машинное обучение

Скоро открытие ML Boot Camp III - 1

15 февраля стартует Machine Learning Boot Camp III — третье состязание по машинному обучению и анализу данных от Mail.Ru Group. Сегодня рассказываем о прошедшем контесте и открываем тайны нового! Итак, в ходе предстоящего конкурса нужно будет угадать, останется ли участник в онлайн-игре или уйдет из нее. Выборки для задачи построены на двенадцати игровых признаках для 25000 пользователей. Естественно, все данные анонимизированы.
Читать полностью »

Приглашаем на Data Fest⁴ 11 и 12 февраля

2017-02-02 в 8:41, admin, рубрики: big data, data fest, data mining, mail.ru, Блог компании Mail.Ru Group, конференция, машинное обучение

Приглашаем на Data Fest⁴ 11 и 12 февраля - 1

Почти через две недели в нашем московском офисе состоится Data Fest⁴ — уже четвертая конференция, которая объединяет исследователей, инженеров и разработчиков, связанных с Data Science во всех его проявлениях. Вас ждет богатая программа, множество теоретических и практических секций. Подробности читайте под катом.
Читать полностью »

Разница между статистикой и наукой о данных

2017-01-30 в 7:37, admin, рубрики: big data, data mining, data science, R, Алгоритмы, Блог компании Издательский дом «Питер», статистика, статистический анализ

Здравствуйте, уважаемые читатели.

Мы вновь попробуем посоветоваться с вами по поводу актуальности орейлевской новинки. На сей раз речь пойдет о статистике для Data Science.

Объем оригинала — 250 стр., дата выхода — 25 февраля.

Разница между статистикой и наукой о данных - 1

В книге рассмотрены лаконичные кейсы с небольшим количеством графиков и примеров на языке R.

Чтобы размышлять и голосовать было интереснее — под катом найдете статью, автор которой попытался уловить и описать разницу между статистикой и Data Science
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 53

R в enterprise задачах. Хитрости и трюки

Superjob Data Science Meetup

Вебинар: Введение в Singularity

Cognitive Services & LUIS: Введение в распознавание естественного языка

Черновик книги Эндрю Ына «Жажда машинного обучения», главы 1-7

Техносфере Mail.Ru — три года

Интересные алгоритмы кластеризации, часть первая: Affinity propagation

Скоро открытие ML Boot Camp III

Приглашаем на Data Fest⁴ 11 и 12 февраля

Разница между статистикой и наукой о данных

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 53

Новости

Актуальные темы

Архив