Рубрика «data science» - 27

Об итогах конкурса MERC-2017: победители и комментарии

2017-12-04 в 17:56, admin, рубрики: big data, challenge, data science, emotion recognition, machine learning, Алгоритмы, Блог компании Neurodata Lab, конкурс, машинное обучение, Программирование

Подошел к концу и объявляется закрытым первый конкурс по машинному обучению MERC-2017 от Neurodata Lab, проведенный на собственной площадке Datacombats (вскоре мы представим обновленную, полноценную версию платформы). Время подвести некоторые итоги и прокомментировать результаты. С визуализацией статистики вы можете ознакомиться в предыдущем посте нашего блога.

Читать полностью »

Анализируй это — Lenta.ru

2017-12-04 в 12:31, admin, рубрики: big data, BigData, data engineering, data mining, data science, R, открытые данные

Анализируй это — Lenta.ru - 1

Анализируй это. Lenta.ru (часть 1)

What, How, Why

What — анализ статей новостного ресурса Lenta.ru за последние 18 лет (с 1 сентября 1999 года). How — средствами языка R (с привлечением программы MySterm от Yandex на отдельном участке). Why… В моем случае, коротким ответом на вопрос "почему" будет "получение опыта" в Big Data. Более развернутым же объяснением будет "выполнение какого-либо реального задания, в рамках которого я смогу применить навыки, полученные во время обучения, а так же получить результат, который я бы смог показывать в качестве подтверждения своих умений".

Читать полностью »

«Пишите письма…» или тренируемся работать с данными по обращениям граждан в правительство Москвы (DataScience)

2017-11-26 в 19:42, admin, рубрики: data mining, data science, python, машинное обучение, Москва, новичкам, обращения граждан, открытые данные, Учебный процесс в IT

Приветствую коллеги! Пришло время продолжить наш спонтанный мини цикл статей, посвящённый основам машинного обучения и анализа данных.

В прошлый раз мы разбирали с Вами задачку применения линейной регрессии к открытым данным правительства Москвы, а в этот раз данные тоже открыты, но их уже пришлось собирать вручную.

Итак, сегодня мы с Вами поднимем животрепещущую тему – обращения граждан в органы исполнительной власти Москвы, нас с вами сегодня ждет: краткое описание набора данных, примитивный анализ данных, применение к ним модели линейной регрессии, а также краткая отсылка к учебным курсам для тех, кто совсем ничего не поймет из материала статьи. Ну и конечно же останется пространство для самостоятельного творчества.

Напомню, что наша статья рассчитана в первую очередь на начинающих любителей Python и его распространённых библиотек из области DataScience. Готовы? Тогда, милости прошу под кат.

Читать полностью »

Коллективный портрет участников конкурса MERC-2017

2017-11-22 в 18:16, admin, рубрики: big data, challenge, data science, emotion recognition, machine learning, Алгоритмы, Блог компании Neurodata Lab, конкурс, машинное обучение

Подходит к концу наш первый конкурс по машинному обучению и анализу данных — Multimodal Emotion Challenge Recognition (MERC-2017) на площадке Datacombats. В этом посте мы хотели бы представить небольшой анализ аудитории, своеобразный коллективный «портрет».

Коллективный портрет участников конкурса MERC-2017 - 1
Читать полностью »

Классификация на гуманитариев и технарей по комментариям в VK

2017-11-17 в 5:48, admin, рубрики: data mining, data science, flask, machine learning, python, xgboost, визуализация данных, гуманитарии, машинное обучение, нейронные сети, технари

Привет! Хочу поделиться своим опытом классификации пользователей социальной сети по их комментариям на два класса по складу ума: гуманитарный или технический. В данной статье не будут использоваться последние достижения глубокого обучения, но будет разобран завершенный проект по классификации текстов: от поиска подходящих данных до предсказаний. В конце будет представлено веб-приложение, в котором вы сможете проверить себя.

Классификация на гуманитариев и технарей по комментариям в VK - 1

Читать полностью »

29 ноября, Харьков: доклад «Analytics in a Gaming Company: Big Data Architecture and Tools»

2017-11-13 в 14:47, admin, рубрики: big data, big data architecture, data science, udev, Анализ и проектирование систем, Блог компании Plarium, дата сайенс, дата сайнс, доклад, конференция, разработка игр, хранение данных

Как построить систему аналитики для проектов с миллионами пользователей?

29 ноября, Харьков: доклад «Analytics in a Gaming Company: Big Data Architecture and Tools» - 1
Читать полностью »

Использование R для «промышленной» разработки

2017-11-13 в 12:05, admin, рубрики: big data, data mining, data science, R

Является продолжением предыдущих публикаций. Не секрет, что при упоминании R в числе используемых инструментов вторым по популярности является вопрос о возможности его применения в «промышленной разработке». Пальму первенства в России неизменно держит вопрос «А что такое R?»

Попробуем разобраться в аспектах и возможности применения R в «промышленной» разработке.

Читать полностью »

Приглашаем на Sberbank Data Science Day 11 ноября

2017-11-07 в 10:57, admin, рубрики: AI, big data, data science, machine learning, Блог компании Сбербанк, искусственный интеллект, конференции, машинное обучение, Сбербанк

В эту субботу, 11 ноября, мы приглашаем читателей Хабра на однодневную конференцию по Data Science, Machine Learning и AI. Это мероприятие завершит Sberbank Data Science Journey, ежегодные соревнования по интеллектуальному анализу данных с применением передовых математических методов и алгоритмов. В этом году состязание проводилось на первом в своем роде русскоязычном наборе данных.

Мы наградим победителей и послушаем выступления от ведущих исследователей Nate Kushman (MIT, Microsoft Research UK), Дмитрий Ветров (ФКН ВШЭ, Bayes Group), Михаил Бурцев (МФТИ, iPavlov), Евгений Бурнаев (Сколтех, ADASE group) и Александр Тужилин (New York University, Сбербанк AI Lab). Кроме того, на специальной секции про бизнес в AI о пути своих компаний и перспективах монетизации AI расскажут основатели компаний Prisma, NTechLab, Rubbles и Vision Labs.

Подробная программа и ссылка на регистрацию — под катом.

Приглашаем на Sberbank Data Science Day 11 ноября - 1

Читать полностью »

R, Asterisk и платяной шкаф

2017-11-04 в 7:13, admin, рубрики: big data, data mining, data science, R

Является продолжением предыдущих публикаций. Основное назначение публикаций — демонстрация возможностей R по решению различных "рутинных" задач по обработке данных, возникающих в бизнесе. Основной акцент ставится на создание законченного решения для конечного пользователя, а не на принципиальное решение частной задачи набором команд в консоли. Схематический прототип и продукт с конвейера имеют больше различий чем сходства.

По тонкой механике R есть огромное количество специализированных блогов, книг, а также github. Но обращаются к ним обычно только после того, как видят, что решение задачи средствами R возможно и весьма элегантно.

Читать полностью »

Barnes-Hut t-SNE и LargeVis: визуализация больших объёмов данных

2017-11-03 в 6:08, admin, рубрики: data analysis, data mining, data science, exploratory data analysis, large data, tsne, visualization, Алгоритмы, математика, машинное обучение

Наборами данных в миллионы экземпляров в задачах машинного обучения уже давным давно никого не удивишь. Однако мало кто задаётся вопросом, как качественно визуализировать эти титанические пласты информации. Когда размер датасета превышает миллион, становится довольно грустно использовать стандартный t-SNE; остаётся играться с даунсэмплированием или вовсе ограничиваться грубыми статистическими инструментами. Но на каждую задачу найдётся свой инструмент. В своей статье я бы хотел рассмотреть два алгоритма, которые преодолевают барьер квадратичной сложности: уже хорошо известный Barnes-Hut t-SNE и новый претендент на звание «золотого молотка infovis'a» LargeVis.

Barnes-Hut t-SNE и LargeVis: визуализация больших объёмов данных - 1

(Это не картина художника-абстракциониста, а визуализация LiveJournal-датасета с высоты птичьего полёта)
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data science» - 27

Об итогах конкурса MERC-2017: победители и комментарии

Анализируй это — Lenta.ru

Анализируй это. Lenta.ru (часть 1)

What, How, Why

«Пишите письма…» или тренируемся работать с данными по обращениям граждан в правительство Москвы (DataScience)

Коллективный портрет участников конкурса MERC-2017

Классификация на гуманитариев и технарей по комментариям в VK

29 ноября, Харьков: доклад «Analytics in a Gaming Company: Big Data Architecture and Tools»

Использование R для «промышленной» разработки

Приглашаем на Sberbank Data Science Day 11 ноября

R, Asterisk и платяной шкаф

Barnes-Hut t-SNE и LargeVis: визуализация больших объёмов данных

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data science» - 27

Анализируй это. Lenta.ru (часть 1)

What, How, Why

Новости

Актуальные темы

Архив