Почти через две недели в нашем московском офисе состоится Data Fest⁴ — уже четвертая конференция, которая объединяет исследователей, инженеров и разработчиков, связанных с Data Science во всех его проявлениях. Вас ждет богатая программа, множество теоретических и практических секций. Подробности читайте под катом.
Читать полностью »
Рубрика «data mining» - 54
Приглашаем на Data Fest⁴ 11 и 12 февраля
2017-02-02 в 8:41, admin, рубрики: big data, data fest, data mining, mail.ru, Блог компании Mail.Ru Group, конференция, машинное обучениеРазница между статистикой и наукой о данных
2017-01-30 в 7:37, admin, рубрики: big data, data mining, data science, R, Алгоритмы, Блог компании Издательский дом «Питер», статистика, статистический анализЗдравствуйте, уважаемые читатели.
Мы вновь попробуем посоветоваться с вами по поводу актуальности орейлевской новинки. На сей раз речь пойдет о статистике для Data Science.
Объем оригинала — 250 стр., дата выхода — 25 февраля.
В книге рассмотрены лаконичные кейсы с небольшим количеством графиков и примеров на языке R.
Чтобы размышлять и голосовать было интереснее — под катом найдете статью, автор которой попытался уловить и описать разницу между статистикой и Data Science
Читать полностью »
Random Forest: прогулки по зимнему лесу
2017-01-29 в 12:04, admin, рубрики: data mining, random forest, машинное обучение, Разработка веб-сайтов1. Вступление
Это небольшое практическое руководство по применению алгоритмов машинного обучения. Разумеется, существует немалое число алгоритмов машинного обучения и способов математического (статистического) анализа информации, однако, эта заметка посвящена именно Random Forest. В заметке показаны примеры использования этого алгоритма для задач классификации и регрессии, а также даны некоторые теоретические пояснения.
Обзор Knime Analytics Platform — open source системы для анализа данных
2017-01-26 в 10:21, admin, рубрики: big data, data analysis, data mining, data science, KNIME, визуализация данныхО KNIME
Вашему вниманию представляется обзор Knime Analytics Platform – open source фреймворка для анализа данных. Данный фреймворк позволяет реализовывать полный цикл анализа данных включающий чтение данных из различных источников, преобразование и фильтрацию, собственно анализ, визуализацию и экспорт.
Скачать KNIME (eclipse-based десктоп приложение) можно отсюда: www.knime.org
Кому может быть интересна эта платформа:
- Тем, кто хочет анализировать данные
- Тем, кто хочет анализировать данные и не владеет навыками программирования
- Тем, кто хочет покопаться в неплохой библиотеке реализованных алгоритмов и, возможно, узнать что-то новое
Разработка на R: тайны циклов
2017-01-26 в 6:24, admin, рубрики: big data, data mining, microsoft, R, Блог компании Microsoft, Большие данные, журнал хакер, машинное обучение, Программирование, хакер, язык rjl-sql: работаем с JSON-логами в командной строке с помощью SQL
2017-01-18 в 13:10, admin, рубрики: cli, data mining, javascript, json, json logs, node.js, sql, terminal, ПрограммированиеВступление никому не интересно, поэтому начну сразу с примеров использования
% cat log.json
{"type": "hit", "client": {"ip": "127.1.2.3"}}
{"type": "hit", "client": {"ip": "127.2.3.4"}}
{"type": "hit", "client": {"ip": "127.3.4.5"}}
{"type": "hit", "client": {"ip": "127.3.4.5"}}
{"type": "hit", "client": {"ip": "127.1.2.3"}}
{"type": "click", "client": {"ip": "127.1.2.3"}}
{"type": "click", "client": {"ip": "127.2.3.4"}}
Выполняем запрос:
% cat log.json | jl-sql 'SELECT client.ip, COUNT(*) AS count WHERE type = "hit" GROUP BY client.ip'
{"client":{"ip":"127.1.2.3"},"count":2}
{"client":{"ip":"127.2.3.4"},"count":1}
{"client":{"ip":"127.3.4.5"},"count":2}
Глубокое обучение с подкреплением виртуального менеджера в игре против неэффективности
2017-01-17 в 13:59, admin, рубрики: AI, data mining, ml, phobos, python, искусственный интеллект, машинное обучениеОб успехах Google Deepmind сейчас знают и говорят. Алгоритмы DQN (Deep Q-Network) побеждают Человека с неплохим отрывом всё в большее количество игр. Достижения последних лет впечатляют: буквально за десятки минут обучения алгоритмы учатся и выигрывать человека в понг и другие игры Atari. Недавно вышли в третье измерение — побеждают человека в DOOM в реальном времени, а также учатся управлять машинами и вертолетами.
DQN использовался для обучения AlphaGo проигрыванием тысяч партий в одиночку. Когда это ещё не было модным, в 2015 году, предчувствуя развитие данного тренда, руководство Phobos в лице Алексея Спасского, заказало отделу Research & Development провести исследование. Необходимо было рассмотреть существующие технологий машинного обучения на предмет возможности использования их для автоматизации победы в играх управленческих. Таким образом, в данной статье пойдёт речь о проектирование самообучающегося алгоритма в игре виртуального управленца против живого коллектива за повышение производительности.
С чего начать внедрение Hadoop в компании
2017-01-09 в 0:44, admin, рубрики: big data, data mining, Hadoop, highload junior, алексей еремихин, Блог компании Конференции Олега Бунина (Онтико), высокая производительность, Проектирование и рефакторинг, метки: алексей еремихинАлексей Еремихин ( alexxz )
Я хочу навести порядок в головах, чтобы люди поняли, что такое Hadoop, и что такое продукты вокруг Hadoop, а также для чего не только Hadoop, но и продукты вокруг него можно использовать на примерах. Именно поэтому тема — «С чего начать внедрение Hadoop в компании?»
Структура доклада следующая. Я расскажу:
- какие задачи я предлагаю решать с помощью Hadoop на начальных этапах,
- что такое Hadoop,
- как он устроен внутри,
- что есть вокруг него,
- как Hadoop применяется в Badoo в рамках решения задач с первого пункта.
Тренируем нейронную сеть написанную на TensorFlow в облаке, с помощью Google Cloud ML и Cloud Shell
2017-01-03 в 4:58, admin, рубрики: chatbots, data mining, google cloud, TensorFlow, нейронные сетиВ предыдущей статье мы обсудили как натренировать чат-бот на базе рекуррентной нейронной сети на AWS GPU инстансе. Сегодня мы увидим, как легко можно обучить такую же сеть с помощью Google Cloud ML и Google Cloud Shell. Благодаря Google Cloud Shell не нужно будет делать практически ничего на локальном компьютере! Кстати, сеть из прошлой статьи мы взяли лишь для примера, можно спокойно брать любую другую сеть, которая использует TensorFlow.
Школа Данных «Билайн»: с Наступающим
2016-12-31 в 7:42, admin, рубрики: big data, data mining, kaggle, R, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, Блог компании ВымпелКом (Билайн), машинное обучение, рекомендательные системы, школа данныхИтак, заканчивается 2016 год. Для нас он был очень активным. Было 6 выпусков нашего курса для аналитиков, 5 выпусков курса для менеджеров (Data-MBA). Мы запустили курс в Санкт-Петербурге и уже провели первый выпуск. В партнерстве мы также обучали студентов Высшей Школы Экономики и Российской Экономической Школы, проводили мастер-классы в Сколково, участвовали в десятках хакатонов по всей стране, консультировали ведущие компании касательно применения аналитики и монетизации данных. В этом году один из наших преподавателей стал первым в мире в рейтинге Kaggle.
Читать полностью »