Рубрика «data science» - 39

На платформе Coursera запускается специализация по анализу данных и машинному обучению от специалистов из Яндекс и МФТИ. Специализация состоит из 6 курсов, которые будут стартовать с февраля до июля. На первый можно записаться уже сейчас.

В основе обучения на курсах лежит решение реальных задач анализа данных. Но чтобы сделать специализацию максимально удобной для изучения, его создатели тоже решали задачи. И решили! В этом посте они сами рассказывают о результатах.

image

Читать полностью »

Как уменьшить количество измерений и извлечь из этого пользу - 1 Сначала я хотел честно и подробно написать о методах снижения размерности данных — PCA, ICA, NMF, вывалить кучу формул и сказать, какую же важную роль играет SVD во всем этом зоопарке. Потом понял, что получится текст, похожий на вырезки из опусов от Mathgen, поэтому количество формул свел к минимуму, но самое любимое — код и картинки — оставил в полном объеме.
Читать полностью »

Вступление

Cегодня мы вместе с анализом графов, data mining, subgroup discovery и всеми веселыми штуками взглянем на Хабр. Весь код и данные прилагаются — каждый может взглянуть на них самостоятельно, легко повторить рассчеты из статьи и найти что-то интересное самостоятельно.

Хабра-граф, -сообщества и куда же делась вся карма - 1
(это не просто картинка для привлечения внимания, а — граф связей ~45000 пользователей Хабра по тому, кто на кого подписан; размер вершины пропорционален числу подписчиков; все картинки кликабельны; подробности далее)

Обсуждаемые проблемы возникли, конечно же, далеко не вчера, но некоторые их аспекты кажутся мне достаточно новыми и поэтому достойными дискуссии, основанной на непредвзятых и репрезентативных данных. Например в комментариях этой статьи, увидел интересное утверждение:

Тут проблема в том, что на всем хабре за сегодня не насчитать больше 50-80 человек, которые вообще могут голосовать. У 90% пользователей карма просто ниже 5. Как итог оценивают комментарии и статьи только избранные. Это как жюри выходит такое.

И решил, что стоить его сформулировать в виде гипотезы и проверить:

Q1: Правда ли, что Хабр превратился в жюри-based сообщество, где два с половиной человека голосуют за статьи?

Вот в этой статье к нам вернулись "железные" Хабы и стало интересно, а как вообще представлены разные сообщества внутри Хабра? Формулируем в виде гипотезы:

Q2: Как сегментировано сообщество, или проще говоря сколько у нас здесь групп по интересам и соотвествуют ли они имеющимся хабам?

Последнее, но не менее интересное наблюдение, что активность на Хабре упала (по данным Хабра-пульса и моим субъективным наблюдениям), что даже решили ввести аккаунты "read & comment". Поэтому решил оценить активность сообщества и продумать, как информация о структуре сообщества может нам помочь:

Q3: Насколько активно сообщество и как нам может помочь структура внутренних групп?

За подробностями добро пожаловать под кат.

Структура статьи

Смирись, человек 21 века, что твой главный инструмент — это информация, данные, цифры и управление с их помощью. Сегодня мы делимся с вами очень полезным списком литературы о Data Science!

51 бесплатная книга о Data Science - 1Читать полностью »

image

Специалисты по обработке больших данных из Массачусетского технологического института описали успешный старт прототипа своей новой системы «Data Science Machine». Обучающаяся система искусственного интеллекта автоматически находит предсказуемые шаблоны в наборах данных. В конкурсе, где принимало участие более 900 команд, ИИ показал себя прекрасно, обойдя две трети участников.

Люди и ИИ принимали участие в трёх этапах конкурса. В двух из них точность выводов ИИ составила 95% от точности результата команды, занявшей первое место. В третьем – 87%. При этом у команд-участников расчёты результатов заняли несколько месяцев, а система управлялась с ними не более чем за 12 часов.

«Наша Data Science Machine – естественное дополнение для человеческого разума,- говорит Макс Кантер [Max Kanter], чья дипломная работа в MIT является одним из основных компонентов ИИ. – В мире есть столько разных данных. И сейчас они не приносят никакой пользы. Может быть, мы сможем сделать что-то, что позволит начать их обрабатывать и мы сдвинемся с мёртвой точки».
Читать полностью »

Сфера IT переживает ребрендинг: инженеры превращаются в архитекторов, а глубокое обучение может посоревноваться в популярности с котиками. Пришло время data-гикам превратиться в data-ученых.

Кто такие «ученые по данным» и чем они действительно занимаются — расскажет Григорий Бакунов на нашей карьерной встрече «Чем живет Data Scientist».

Вы не Data Scientist - 1

Читать полностью »

Big Data в Билайне: реальный опыт - 1

Привет! Меня зовут Александр Крот, я отвечаю за разработку алгоритмов машинного обучения и интеллектуального анализа данных в компании Билайн, а также за подготовку и отбор специалистов по работе с данными под руководством Сергея Марина, который ранее знакомил Вас с работой нашего подразделения Big Data. Я уже писал про отдельные аспекты Big Data и Machine Learning, но сегодня я расскажу, как это устроено на практике, а именно — как мы в Билайн решаем задачи, связанные с анализом больших данных, как отбираем специалистов, какие инструменты и методы применяем на практике.
Читать полностью »

Немного о лаборатории Data Science в Билайне - 1

Привет! Меня зовут Александр Крот, я отвечаю за разработку алгоритмов машинного обучения и интеллектуального анализа данных в компании Билайн, а также за подготовку и отбор специалистов по работе с данными под руководством Сергея Марина, который ранее знакомил Вас с работой нашего подразделения Big Data. Я уже писал про отдельные аспекты Big Data и Machine Learning, но сегодня я расскажу, как это устроено на практике, а именно — как мы в Билайн решаем задачи, связанные с анализом больших данных, как отбираем специалистов, какие инструменты и методы применяем на практике.
Читать полностью »

Обзор наиболее интересных материалов по анализу данных и машинному обучению №39 (9 — 15 марта 2015) - 1
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать полностью »

Обзор наиболее интересных материалов по анализу данных и машинному обучению №38 (2 — 8 марта 2015) - 1
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js