Подошел к концу и объявляется закрытым первый конкурс по машинному обучению MERC-2017 от Neurodata Lab, проведенный на собственной площадке Datacombats (вскоре мы представим обновленную, полноценную версию платформы). Время подвести некоторые итоги и прокомментировать результаты. С визуализацией статистики вы можете ознакомиться в предыдущем посте нашего блога.
Читать полностью »
Рубрика «data science» - 27
Об итогах конкурса MERC-2017: победители и комментарии
2017-12-04 в 17:56, admin, рубрики: big data, challenge, data science, emotion recognition, machine learning, Алгоритмы, Блог компании Neurodata Lab, конкурс, машинное обучение, ПрограммированиеАнализируй это — Lenta.ru
2017-12-04 в 12:31, admin, рубрики: big data, BigData, data engineering, data mining, data science, R, открытые данныеАнализируй это. Lenta.ru (часть 1)
What, How, Why
What — анализ статей новостного ресурса Lenta.ru за последние 18 лет (с 1 сентября 1999 года). How — средствами языка R (с привлечением программы MySterm от Yandex на отдельном участке). Why… В моем случае, коротким ответом на вопрос "почему" будет "получение опыта" в Big Data. Более развернутым же объяснением будет "выполнение какого-либо реального задания, в рамках которого я смогу применить навыки, полученные во время обучения, а так же получить результат, который я бы смог показывать в качестве подтверждения своих умений".
«Пишите письма…» или тренируемся работать с данными по обращениям граждан в правительство Москвы (DataScience)
2017-11-26 в 19:42, admin, рубрики: data mining, data science, python, машинное обучение, Москва, новичкам, обращения граждан, открытые данные, Учебный процесс в ITПриветствую коллеги! Пришло время продолжить наш спонтанный мини цикл статей, посвящённый основам машинного обучения и анализа данных.
В прошлый раз мы разбирали с Вами задачку применения линейной регрессии к открытым данным правительства Москвы, а в этот раз данные тоже открыты, но их уже пришлось собирать вручную.
Итак, сегодня мы с Вами поднимем животрепещущую тему – обращения граждан в органы исполнительной власти Москвы, нас с вами сегодня ждет: краткое описание набора данных, примитивный анализ данных, применение к ним модели линейной регрессии, а также краткая отсылка к учебным курсам для тех, кто совсем ничего не поймет из материала статьи. Ну и конечно же останется пространство для самостоятельного творчества.
Напомню, что наша статья рассчитана в первую очередь на начинающих любителей Python и его распространённых библиотек из области DataScience. Готовы? Тогда, милости прошу под кат.
Коллективный портрет участников конкурса MERC-2017
2017-11-22 в 18:16, admin, рубрики: big data, challenge, data science, emotion recognition, machine learning, Алгоритмы, Блог компании Neurodata Lab, конкурс, машинное обучениеПодходит к концу наш первый конкурс по машинному обучению и анализу данных — Multimodal Emotion Challenge Recognition (MERC-2017) на площадке Datacombats. В этом посте мы хотели бы представить небольшой анализ аудитории, своеобразный коллективный «портрет».
Классификация на гуманитариев и технарей по комментариям в VK
2017-11-17 в 5:48, admin, рубрики: data mining, data science, flask, machine learning, python, xgboost, визуализация данных, гуманитарии, машинное обучение, нейронные сети, технариПривет! Хочу поделиться своим опытом классификации пользователей социальной сети по их комментариям на два класса по складу ума: гуманитарный или технический. В данной статье не будут использоваться последние достижения глубокого обучения, но будет разобран завершенный проект по классификации текстов: от поиска подходящих данных до предсказаний. В конце будет представлено веб-приложение, в котором вы сможете проверить себя.
29 ноября, Харьков: доклад «Analytics in a Gaming Company: Big Data Architecture and Tools»
2017-11-13 в 14:47, admin, рубрики: big data, big data architecture, data science, udev, Анализ и проектирование систем, Блог компании Plarium, дата сайенс, дата сайнс, доклад, конференция, разработка игр, хранение данныхКак построить систему аналитики для проектов с миллионами пользователей?
Использование R для «промышленной» разработки
2017-11-13 в 12:05, admin, рубрики: big data, data mining, data science, RЯвляется продолжением предыдущих публикаций. Не секрет, что при упоминании R в числе используемых инструментов вторым по популярности является вопрос о возможности его применения в «промышленной разработке». Пальму первенства в России неизменно держит вопрос «А что такое R?»
Попробуем разобраться в аспектах и возможности применения R в «промышленной» разработке.
Приглашаем на Sberbank Data Science Day 11 ноября
2017-11-07 в 10:57, admin, рубрики: AI, big data, data science, machine learning, Блог компании Сбербанк, искусственный интеллект, конференции, машинное обучение, СбербанкВ эту субботу, 11 ноября, мы приглашаем читателей Хабра на однодневную конференцию по Data Science, Machine Learning и AI. Это мероприятие завершит Sberbank Data Science Journey, ежегодные соревнования по интеллектуальному анализу данных с применением передовых математических методов и алгоритмов. В этом году состязание проводилось на первом в своем роде русскоязычном наборе данных.
Мы наградим победителей и послушаем выступления от ведущих исследователей Nate Kushman (MIT, Microsoft Research UK), Дмитрий Ветров (ФКН ВШЭ, Bayes Group), Михаил Бурцев (МФТИ, iPavlov), Евгений Бурнаев (Сколтех, ADASE group) и Александр Тужилин (New York University, Сбербанк AI Lab). Кроме того, на специальной секции про бизнес в AI о пути своих компаний и перспективах монетизации AI расскажут основатели компаний Prisma, NTechLab, Rubbles и Vision Labs.
Подробная программа и ссылка на регистрацию — под катом.
R, Asterisk и платяной шкаф
2017-11-04 в 7:13, admin, рубрики: big data, data mining, data science, RЯвляется продолжением предыдущих публикаций. Основное назначение публикаций — демонстрация возможностей R по решению различных "рутинных" задач по обработке данных, возникающих в бизнесе. Основной акцент ставится на создание законченного решения для конечного пользователя, а не на принципиальное решение частной задачи набором команд в консоли. Схематический прототип и продукт с конвейера имеют больше различий чем сходства.
По тонкой механике R есть огромное количество специализированных блогов, книг, а также github. Но обращаются к ним обычно только после того, как видят, что решение задачи средствами R возможно и весьма элегантно.
Barnes-Hut t-SNE и LargeVis: визуализация больших объёмов данных
2017-11-03 в 6:08, admin, рубрики: data analysis, data mining, data science, exploratory data analysis, large data, tsne, visualization, Алгоритмы, математика, машинное обучениеНаборами данных в миллионы экземпляров в задачах машинного обучения уже давным давно никого не удивишь. Однако мало кто задаётся вопросом, как качественно визуализировать эти титанические пласты информации. Когда размер датасета превышает миллион, становится довольно грустно использовать стандартный t-SNE; остаётся играться с даунсэмплированием или вовсе ограничиваться грубыми статистическими инструментами. Но на каждую задачу найдётся свой инструмент. В своей статье я бы хотел рассмотреть два алгоритма, которые преодолевают барьер квадратичной сложности: уже хорошо известный Barnes-Hut t-SNE и новый претендент на звание «золотого молотка infovis'a» LargeVis.

(Это не картина художника-абстракциониста, а визуализация LiveJournal-датасета с высоты птичьего полёта)
Читать полностью »