Рубрика «data mining» - 34

Обработка изображений: Tensorflow Object Detection API

2018-05-19 в 15:04, admin, рубрики: data mining, TensorFlow, машинное обучение, обработка изображений

Последние несколько лет в развитии глубоких нейронных сетей происходит настоящая революция: возникают новые архитектуры, совершенствуются фреймворки для разработчиков, а железо для экспериментов можно получить совершенно бесплатно — например, в рамках проекта Google colaboratory. Всем, кому интересно как применить предобученные модели из репозитория Tensorflow Object Detection API к решению своей задачи, используя мощности Colaboratory — добро пожаловать под кат.
Читать полностью »

Нахождение числа комиссий, «рисовавших» целые значения явки на президентских выборах РФ 2018 года

2018-05-19 в 1:48, admin, рубрики: big data, data mining, highcharts, php, анализ данных, визуализация данных, выборы президента, открытые данные

Графики с необычными пиками мы теперь видим после каждых федеральных выборов. Впервые в массы они вышли после выборов в 2011 году, когда люди и увидели фальсификации, и ознакомились в целом с анализом данных по выборам и с проблемой целочисленного деления в частности.

У распределений даже стали появляться свои имена. Это и «борода Чурова» для выборов 2011, и «пик Володина» для знаменитых 62.2% в Саратове. Поскольку до сих пор даже на хабре появляются статьи, не знакомые с решением проблемы целочисленного деления и не согласные "добавлять мусор" небольшой случайной добавки в данные, давайте посмотрим на результаты совсем иначе. Мы зайдём к построению графиков с противоположной стороны, где проблемы целочисленного деления вообще нет. И тоже увидим пики на целых значениях.

Нахождение числа комиссий, «рисовавших» целые значения явки на президентских выборах РФ 2018 года - 1

Читать полностью »

Обработка текстов на естественных языках

2018-05-18 в 7:31, admin, рубрики: data mining, data science, machine learning, natural language processing, nlp, Блог компании Mail.Ru Group, машинное обучение, Семантический анализ текста

Обработка текстов на естественных языках - 1

Сегодня мы затрагиваем такую интересную тему, как естественные языки. Сейчас в эту область вкладываются очень большие деньги и в ней решают немало разнообразных задач. Она привлекает внимание не только индустрии, но и научного сообщества.
Читать полностью »

Женские сети: кто делает за нас выбор?

2018-05-15 в 8:01, admin, рубрики: big data, data mining, Блог компании ГК ЛАНИТ, Ланит, машинное обучение, нейронные сети

Взлет интереса к машинному обучению во многом связан с тем, что модели способны дать ощутимый прирост прибыли в областях, связанных с предсказанием поведения сложных систем. В частности, той сложной системой, чье поведение предсказывать выгодно, является человек. Обнаружить мошенничество на ранней стадии, выявить склонность клиентов к оттоку – эти задачи возникают регулярно и уже стали классическими в Data Science. Безусловно, их можно решать различными методами, в зависимости от пристрастий конкретного специалиста и от требований бизнеса.

У нас была возможность использовать нейронные сети для решения задачи по предсказанию поведения людей, а специфика области применения была связана с индустрией красоты. Основной аудиторией для “опытов” стали женщины. Мы по сути пришли к вопросу: может ли искусственная нейронная сеть понять настоящую нейронную сеть (человека) в той области, в которой даже сам человек еще не осознал своего поведения. Как мы ответили на этот вопрос и что у нас получилось в итоге, можно узнать далее.

Женские сети: кто делает за нас выбор? - 1

Читать полностью »

Введение в Data Engineering. ETL, схема «звезды» и Airflow

2018-05-14 в 9:18, admin, рубрики: airflow, big data, data engineering, data mining, etl, sql, Администрирование баз данных, базы данных, Блог компании New Professions Lab

Способность data scientist-а извлекать ценность из данных тесно связана с тем, насколько развита инфраструктура хранения и обработки данных в компании. Это значит, что аналитик должен не только уметь строить модели, но и обладать достаточными навыками в области data engineering, чтобы соответствовать потребностям компании и браться за все более амбициозные проекты.

При этом, несмотря на всю важность, образование в сфере data engineering продолжает оставаться весьма ограниченным. Мне повезло, поскольку я успел поработать со многими инженерами, которые терпеливо объясняли мне каждый аспект работы с данными, но не все обладают такой возможностью. Именно поэтому я решил написать эту статью — введение в data engineering, в которой я расскажу о том, что такое ETL, разнице между SQL- и JVM-ориентированными ETL, нормализации и партиционировании данных и, наконец, рассмотрим пример запроса в Airflow.

Введение в Data Engineering. ETL, схема «звезды» и Airflow - 1
Читать полностью »

Swift для дата-сайентиста: быстрое погружение за 2 часа

2018-05-10 в 8:34, admin, рубрики: data mining, deep learning, machine learning, neural networks, ods, python, swift, TensorFlow, машинное обучение

Swift для дата-сайентиста: быстрое погружение за 2 часа - 1

Google объявил, что TensorFlow переезжает на Swift. Так что отложите все свои дела, выбросьте Python и срочно учите Swift. А язык, надо сказать, местами довольно странный.

Читать полностью »

Стартапы, чат-боты, Кремниевая долина. Интервью с российскими разработчиками в Сан-Франциско

2018-05-07 в 7:10, admin, рубрики: big data, data mining, python, Блог компании New Professions Lab, машинное обучение, нейронные сети, Чат-боты

Во время своей недавней поездки в Сан-Франциско я встретился с выпускниками нашей программы «Специалист по большим данным», эмигрировавшими в США — Евгением Шапиро (Airbnb) и Игорем Любимовым (ToyUp), а также с Артемом Родичевым (Replika), нашим партнером. Ребята рассказали массу интересных вещей: зачем Airbnb выкладывает свои проекты в open-source; как устроена Replika — нейросетевой чат-бот, способный стать твоим другом; про миссию стартапов Кремниевой Долины и предпринимательскую экосистему.

Стартапы, чат-боты, Кремниевая долина. Интервью с российскими разработчиками в Сан-Франциско - 1
Читать полностью »

SmartMailHack. Решение 1-го места в задаче классификации логотипов

2018-05-06 в 19:29, admin, рубрики: cnn, data mining, deep learning, machine learning, python, классификация изображений, машинное обучение, хакатон

Две недели назад закончился проходивший в офисе Mail.Ru Group хакатон для студентов SmartMailHack. На хакатоне предлагался выбор из трех задач; статья от победителей во второй задаче уже есть на хабре, я же хочу описать решение нашей команды, победившей в первой задаче. Все примеры кода будут на Python & Keras (популярный фреймворк для deep learning).

Читать полностью »

Настройка модели машинного обучения: подбор фичей и оптимизация гиперпараметров

2018-05-01 в 12:03, admin, рубрики: data mining, kaggle, machine learning, python, Алгоритмы, математика, машинное обучение

Введение

В предыдущей статье цикла мы обсудили постановку задачи анализа данных, сделали первые шаги в настройке модели машинного обучения и написали интерфейс, удобный для использования прикладным программистом. Сегодня мы проведем дальнейшее исследование задачи — поэкспериментируем с новыми фичами, попробуем более сложные модели и варианты их настроечных параметров.

Настройка модели машинного обучения: подбор фичей и оптимизация гиперпараметров - 1

В статье, насколько возможно, используется русскоязычная терминология, выбранная автором на основе буквальных переводов англоязычных терминов и устоявшегося в сообществе сленга. О ней можно почитать здесь.
Читать полностью »

Mail.Ru Group на пятом московском Data Fest

2018-04-27 в 12:08, admin, рубрики: big data, data fest, data mining, data science, machine learning, mail.ru, mail.ru group, Блог компании Mail.Ru Group, визуализация данных, машинное обучение

Друзья, до самого долгожданного события года в сфере data science остался 1 день! 28 апреля состоится пятый московский Data Fest. Под катом наш рассказ о докладах и активностях Mail.Ru Group на конференции.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 34

Обработка изображений: Tensorflow Object Detection API

Нахождение числа комиссий, «рисовавших» целые значения явки на президентских выборах РФ 2018 года

Обработка текстов на естественных языках

Женские сети: кто делает за нас выбор?

Введение в Data Engineering. ETL, схема «звезды» и Airflow

Swift для дата-сайентиста: быстрое погружение за 2 часа

Стартапы, чат-боты, Кремниевая долина. Интервью с российскими разработчиками в Сан-Франциско

SmartMailHack. Решение 1-го места в задаче классификации логотипов

Настройка модели машинного обучения: подбор фичей и оптимизация гиперпараметров

Введение

Mail.Ru Group на пятом московском Data Fest

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 34

Введение

Новости

Актуальные темы

Архив