Рубрика «data mining» - 54

Приглашаем на Data Fest⁴ 11 и 12 февраля

2017-02-02 в 8:41, admin, рубрики: big data, data fest, data mining, mail.ru, Блог компании Mail.Ru Group, конференция, машинное обучение

Приглашаем на Data Fest⁴ 11 и 12 февраля - 1

Почти через две недели в нашем московском офисе состоится Data Fest⁴ — уже четвертая конференция, которая объединяет исследователей, инженеров и разработчиков, связанных с Data Science во всех его проявлениях. Вас ждет богатая программа, множество теоретических и практических секций. Подробности читайте под катом.
Читать полностью »

Разница между статистикой и наукой о данных

2017-01-30 в 7:37, admin, рубрики: big data, data mining, data science, R, Алгоритмы, Блог компании Издательский дом «Питер», статистика, статистический анализ

Здравствуйте, уважаемые читатели.

Мы вновь попробуем посоветоваться с вами по поводу актуальности орейлевской новинки. На сей раз речь пойдет о статистике для Data Science.

Объем оригинала — 250 стр., дата выхода — 25 февраля.

Разница между статистикой и наукой о данных - 1

В книге рассмотрены лаконичные кейсы с небольшим количеством графиков и примеров на языке R.

Чтобы размышлять и голосовать было интереснее — под катом найдете статью, автор которой попытался уловить и описать разницу между статистикой и Data Science
Читать полностью »

Random Forest: прогулки по зимнему лесу

2017-01-29 в 12:04, admin, рубрики: data mining, random forest, машинное обучение, Разработка веб-сайтов

Random Forest

1. Вступление

Это небольшое практическое руководство по применению алгоритмов машинного обучения. Разумеется, существует немалое число алгоритмов машинного обучения и способов математического (статистического) анализа информации, однако, эта заметка посвящена именно Random Forest. В заметке показаны примеры использования этого алгоритма для задач классификации и регрессии, а также даны некоторые теоретические пояснения.

Читать полностью »

Обзор Knime Analytics Platform — open source системы для анализа данных

2017-01-26 в 10:21, admin, рубрики: big data, data analysis, data mining, data science, KNIME, визуализация данных

О KNIME

Вашему вниманию представляется обзор Knime Analytics Platform – open source фреймворка для анализа данных. Данный фреймворк позволяет реализовывать полный цикл анализа данных включающий чтение данных из различных источников, преобразование и фильтрацию, собственно анализ, визуализацию и экспорт.

Скачать KNIME (eclipse-based десктоп приложение) можно отсюда: www.knime.org

Кому может быть интересна эта платформа:

Тем, кто хочет анализировать данные
Тем, кто хочет анализировать данные и не владеет навыками программирования
Тем, кто хочет покопаться в неплохой библиотеке реализованных алгоритмов и, возможно, узнать что-то новое

Читать полностью »

Разработка на R: тайны циклов

2017-01-26 в 6:24, admin, рубрики: big data, data mining, microsoft, R, Блог компании Microsoft, Большие данные, журнал хакер, машинное обучение, Программирование, хакер, язык r

Меньше недели назад в журнале Хакер вышла авторская версия материала, посвященного фичам при использовании циклов при разработке на R. По согласованию с Хакером, мы делимся полной версией первой статьи. Вы узнаете о том, как правильно писать циклы при обработке больших объемов данных.

Разработка на R: тайны циклов - 1 Читать полностью »

jl-sql: работаем с JSON-логами в командной строке с помощью SQL

2017-01-18 в 13:10, admin, рубрики: cli, data mining, javascript, json, json logs, node.js, sql, terminal, Программирование

Вступление никому не интересно, поэтому начну сразу с примеров использования

json-pipe-sql

% cat log.json

{"type": "hit", "client": {"ip": "127.1.2.3"}}
{"type": "hit", "client": {"ip": "127.2.3.4"}}
{"type": "hit", "client": {"ip": "127.3.4.5"}}
{"type": "hit", "client": {"ip": "127.3.4.5"}}
{"type": "hit", "client": {"ip": "127.1.2.3"}}
{"type": "click", "client": {"ip": "127.1.2.3"}}
{"type": "click", "client": {"ip": "127.2.3.4"}}

Выполняем запрос:

% cat log.json | jl-sql 'SELECT client.ip, COUNT(*) AS count WHERE type = "hit" GROUP BY client.ip'

{"client":{"ip":"127.1.2.3"},"count":2}
{"client":{"ip":"127.2.3.4"},"count":1}
{"client":{"ip":"127.3.4.5"},"count":2}

Читать полностью »

Глубокое обучение с подкреплением виртуального менеджера в игре против неэффективности

2017-01-17 в 13:59, admin, рубрики: AI, data mining, ml, phobos, python, искусственный интеллект, машинное обучение

Глубокое обучение с подкреплением виртуального менеджера в игре против неэффективности - 1

Об успехах Google Deepmind сейчас знают и говорят. Алгоритмы DQN (Deep Q-Network) побеждают Человека с неплохим отрывом всё в большее количество игр. Достижения последних лет впечатляют: буквально за десятки минут обучения алгоритмы учатся и выигрывать человека в понг и другие игры Atari. Недавно вышли в третье измерение — побеждают человека в DOOM в реальном времени, а также учатся управлять машинами и вертолетами.

DQN использовался для обучения AlphaGo проигрыванием тысяч партий в одиночку. Когда это ещё не было модным, в 2015 году, предчувствуя развитие данного тренда, руководство Phobos в лице Алексея Спасского, заказало отделу Research & Development провести исследование. Необходимо было рассмотреть существующие технологий машинного обучения на предмет возможности использования их для автоматизации победы в играх управленческих. Таким образом, в данной статье пойдёт речь о проектирование самообучающегося алгоритма в игре виртуального управленца против живого коллектива за повышение производительности.

Читать полностью »

С чего начать внедрение Hadoop в компании

2017-01-09 в 0:44, admin, рубрики: big data, data mining, Hadoop, highload junior, алексей еремихин, Блог компании Конференции Олега Бунина (Онтико), высокая производительность, Проектирование и рефакторинг, метки: алексей еремихин

С чего начать внедрение Hadoop в компании - 1

Алексей Еремихин ( alexxz )

Я хочу навести порядок в головах, чтобы люди поняли, что такое Hadoop, и что такое продукты вокруг Hadoop, а также для чего не только Hadoop, но и продукты вокруг него можно использовать на примерах. Именно поэтому тема — «С чего начать внедрение Hadoop в компании?»

Структура доклада следующая. Я расскажу:

какие задачи я предлагаю решать с помощью Hadoop на начальных этапах,
что такое Hadoop,
как он устроен внутри,
что есть вокруг него,
как Hadoop применяется в Badoo в рамках решения задач с первого пункта.

Читать полностью »

Тренируем нейронную сеть написанную на TensorFlow в облаке, с помощью Google Cloud ML и Cloud Shell

2017-01-03 в 4:58, admin, рубрики: chatbots, data mining, google cloud, TensorFlow, нейронные сети

В предыдущей статье мы обсудили как натренировать чат-бот на базе рекуррентной нейронной сети на AWS GPU инстансе. Сегодня мы увидим, как легко можно обучить такую же сеть с помощью Google Cloud ML и Google Cloud Shell. Благодаря Google Cloud Shell не нужно будет делать практически ничего на локальном компьютере! Кстати, сеть из прошлой статьи мы взяли лишь для примера, можно спокойно брать любую другую сеть, которая использует TensorFlow.

Читать полностью »

Школа Данных «Билайн»: с Наступающим

2016-12-31 в 7:42, admin, рубрики: big data, data mining, kaggle, R, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, Блог компании ВымпелКом (Билайн), машинное обучение, рекомендательные системы, школа данных

Школа Данных «Билайн»: с Наступающим - 1

Итак, заканчивается 2016 год. Для нас он был очень активным. Было 6 выпусков нашего курса для аналитиков, 5 выпусков курса для менеджеров (Data-MBA). Мы запустили курс в Санкт-Петербурге и уже провели первый выпуск. В партнерстве мы также обучали студентов Высшей Школы Экономики и Российской Экономической Школы, проводили мастер-классы в Сколково, участвовали в десятках хакатонов по всей стране, консультировали ведущие компании касательно применения аналитики и монетизации данных. В этом году один из наших преподавателей стал первым в мире в рейтинге Kaggle.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 54

Приглашаем на Data Fest⁴ 11 и 12 февраля

Разница между статистикой и наукой о данных

Random Forest: прогулки по зимнему лесу

1. Вступление

Обзор Knime Analytics Platform — open source системы для анализа данных

О KNIME

Разработка на R: тайны циклов

jl-sql: работаем с JSON-логами в командной строке с помощью SQL

Глубокое обучение с подкреплением виртуального менеджера в игре против неэффективности

С чего начать внедрение Hadoop в компании

Алексей Еремихин ( alexxz )

Тренируем нейронную сеть написанную на TensorFlow в облаке, с помощью Google Cloud ML и Cloud Shell

Школа Данных «Билайн»: с Наступающим

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 54

1. Вступление

О KNIME

Алексей Еремихин ( alexxz )

Новости

Актуальные темы

Архив