Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать полностью »
Рубрика «data mining» - 75
Обзор наиболее интересных материалов по анализу данных и машинному обучению №36 (16 — 22 февраля 2015)
2015-02-22 в 13:51, admin, рубрики: big data, data mining, data science, data science digest, high scalability, machine learning, машинное обучение[доморощенный] web honeypot своими руками
2015-02-19 в 11:34, admin, рубрики: data mining, php, информационная безопасность, обучение, Программирование, метки: php В статье Что и зачем ищут на сайтах «боты тёмной стороны силы» мы рассмотрели типичные примеры из журналов разных сайтов.
Однако, намного интереснее вариация на тему радиоигры в разведке. Что это такое и как его готовить — расскажу далее.
Читать полностью »
Введение в Apache Spark
2015-02-17 в 10:36, admin, рубрики: Apache, big data, data mining, Hadoop, python, spark, машинное обучение, разработка, метки: Big DataПривет!
В прошлый раз мы рассмотрели замечательный инструмент Vowpal Wabbit, который бывает полезен в случаях, когда приходится обучаться на выборках, не помещающихся в оперативную память. Напомним, что особенностью данного инструмента является то, что он позволяет строить в первую очередь линейные модели (которые, к слову, имеют хорошую обобщающую способность), а высокое качество алгоритмов достигается за счет отбора и генерации признаков, регуляризации и прочих дополнительных приемов. Сегодня рассмотрим инструмент, который более популярен и предназначен для обработки больших обьемов данных — Apache Spark.
Читать полностью »
Поиск похожих документов с MinHash + LHS
2015-02-16 в 9:31, admin, рубрики: big data, data mining, jaccard, lhs, minhash, Алгоритмы, похожие множества, метки: jaccard, lhs, minhash, похожие множества В этой публикации я расскажу о том, как можно находить похожие документы с помощью MinHash + Locality Sensitive Hashing. Описание LHS и Minhash в «Википедии» изобилует ужасающим количеством формул. На самом деле все довольно просто.
Читать полностью »
Обзор наиболее интересных материалов по анализу данных и машинному обучению №35 (9 — 15 февраля 2015)
2015-02-15 в 12:03, admin, рубрики: big data, data mining, data science, data science digest, high scalability, machine learning
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать полностью »
Основы статистики: просто о сложных формулах
2015-02-13 в 11:01, admin, рубрики: big data, data mining, R, анализ данных, статистика, метки: Анализ данныхСтатистика вокруг нас
Статистика и анализ данных пронизывают практически любую современную область знаний. Все сложнее становится провести границу между современной биологией, математикой и информатикой. Экономические исследования и регрессионный анализ уже практически неотделимы друг от друга. Один из известных методов проверки распределения на нормальность — критерий Колмогорова-Смирнова. А вы знали, что именно Колмогоров внес огромный вклад в развитие математической лингвистики?
Еще будучи студентом психологического факультета СПбГУ я заинтересовался когнитивной психологией. Кстати, Иммануил Кант не считал психологию наукой, так как не видел возможности применять в ней математические методы. Мои текущие исследования посвящены моделированию психических процессов, и я надеюсь, что такие направления в современной когнитивной психологии, как вычислительные и коннективисткие модели, смягчили бы его отношение!
Читать полностью »
Обзор наиболее интересных материалов по анализу данных и машинному обучению №34 (2 — 8 февраля 2015)
2015-02-09 в 13:53, admin, рубрики: big data, data mining, data science, data science digest, high scalability, machine learning
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать полностью »
Пример Feature Engineering в машинном обучении
2015-02-04 в 20:46, admin, рубрики: big data, data mining, kaggle, machine learning, python, Алгоритмы, разработка, метки: Big Data, Data Mining, Kaggle, Machine Learning, PythonПривет!
В одной из прошлых статей мы познакомились с таким понятием как Feature Engineering и применением его на практике. В комментариях было озвучено пожелание показать на примере, как искусство генерации признаков помогает заметно улучшить качество алгоритмов машинного обучения. Я поискал задачи, в которых бы это можно было наглядно продемонстрировать и нашел один хороший пример. Это задача Forest Cover Type Prediction. Покажем, как можно применяя простые идеи, не содержащие в себе машинное обучение, сразу попасть в топ 10% Leader Board!
Читать полностью »
Расшифровываем формулу Хабра-рейтинга или восстановление функциональных зависимостей по эмпирическим данным
2015-02-02 в 9:00, admin, рубрики: big data, data mining, анализ данных, аналитика, математика, Хабрахабр APIЕсли вы когда-нибудь читали раздел помощь на Хабре, то наверняка видели там прелюбопытнейшую строчку:
Допустим, вы написали публикацию с рейтингом +100 — это добавило к вашему персональному рейтингу величину Х. Через несколько десятков дней этот самый Х вычтется, тем самым вернув вас на прежнее место.
то наверняка задавались вопросом, что это за Х и с какого он района чему он равен?
Сегодня мы ответим на этот вопрос.
(измеряем Хабра-рейтинг в попугаях)
Структура статьи:
Обзор наиболее интересных материалов по анализу данных и машинному обучению №33 (26 января — 1 февраля 2015)
2015-02-01 в 12:55, admin, рубрики: big data, data mining, data science, data science digest, machine learning
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать полностью »