Рубрика «data mining» - 84

Некоторые методы поиска нечетких дубликатов видео

2014-07-21 в 0:47, admin, рубрики: data mining, gist, lhs, Алгоритмы, видео, обработка изображений, сравнение видео, сравнение изображений, хэширование

Существует достаточно широкий круг задач, где требуется анализ, аудио-визуальных моделей реальности. Это относится и к статическим изображениям, и к видео.

Ниже приведен не большой обзор некоторых существующих методов поиска и идентификации нечетких дубликатов видео,
рассмотрены их преимущества и недостатки. На основе структурного представления видео построена комбинация методов.
Обзор совсем не большой, за подробностями, лучше обращаться к первоисточникам.

Читать полностью »

Пишем простую систему рекомендаций на примере Хабра

2014-07-18 в 5:16, admin, рубрики: data mining, data science, filtering, machine learning, рекомендательная система, Статистика в IT, Хабрахабр API

Пишем простую систему рекомендаций на примере Хабра
Сегодня мы поговорим о рекомендательных системах, а точнее о самой простой форме коллаборативной фильтрации. В программе передач: что такое рекомендательная система, на чем основана, каков математический аппарат и как её можно воплотить в код. В качестве бонуса предоставим результаты в виде простого сервиса.

Читать полностью »

Вероятностные модели: LDA, часть 2

2014-07-16 в 15:52, admin, рубрики: data mining, байесовские сети, Блог компании Surfingbird, искусственный интеллект, классификация, кластеризация, математика, математическое моделирование, теория вероятностей

Продолжаем разговор. В прошлый раз мы сделали первый шаг на переходе от наивного байесовского классификатора к LDA: убрали из наивного байеса необходимость в разметке тренировочного набора, сделав из него модель кластеризации, которую можно обучать ЕМ-алгоритмом. Сегодня у меня уже не осталось отговорок – придётся рассказывать про саму модель LDA и показывать, как она работает. Когда-то мы уже говорили об LDA в этом блоге, но тогда рассказ был совсем короткий и без весьма существенных подробностей. Надеюсь, что в этот раз удастся рассказать больше и понятнее.
Вероятностные модели: LDA, часть 2
Читать полностью »

Ищем мелодию по фрагменту

2014-07-15 в 11:54, admin, рубрики: data mining, datamining, информационный поиск, Работа со звуком

Приветствую, уважаемые читатели !
В этой статье хочу рассказать, как я искал музыкальное произведение по его отрывку.
Итак, поехали!
Задача передо мной стоит следующая: есть отрывок музыкального произведения, есть база музыкальных произведений, и необходимо найти, какому из имеющихся музыкальных произведений принадлежит данный отрывок.
Кому интересно, читайте под харбокатом!
Читать полностью »

Влияние технологий на среднюю длину песен

2014-07-13 в 13:00, admin, рубрики: data mining, музыка, продолжительность песни, Работа со звуком, Статистика в IT

Влияние технологий на среднюю длину песен

Может быть, кто-то задавался вопросом: почему песни на радио примерно одинаковой длины? Действительно, все они заканчиваются примерно за одно время, нет действительно коротких или слишком длинных песен.

Причина этого феномена не известна. Некоторые специалисты высказывают мнение, что она имеет технологический характер: первые фонографы играли 10-дюймовые диски, которые вращались на скорости 78 RPM и могли вместить около 3 минут музыки.
Читать полностью »

Обзор наиболее интересных материалов по анализу данных и машинному обучению №4 (23 июня — 7 июля 2014)

2014-07-07 в 12:24, admin, рубрики: big data, data mining, data science, data science digest, machine learning

Прошлый выпуск обзора был полностью посвящен онлайн-курсам по тематике Data Science. Данный выпуск обзора наиболее интересных материалов по анализу данных и машинному обучению будет содержать ссылки на свежие материалы по тематике. В данном выпуске некоторое количество материалов посвящено важной теме визуализации данных. Есть несколько статей, которые описывают небольшие практические примеры анализа данных. Как обычно много статей посвящено алгоритмам машинного обучения, в том числе несколько статей посвящены популярным алгоритмам машинного обучения Deep Learning и Random Forest. Также есть несколько ссылок на интересные видеоматериалы.
Читать полностью »

Кластерный анализ (на примере сегментации потребителей) часть 1

2014-07-03 в 7:54, admin, рубрики: big data, cluster anlysis, data mining, кластерный анализ

Мы знаем, что Земля – это одна из 8 планет, которые вращаются вокруг Солнца. Солнце – это всего лишь звезда среди порядка 200 миллиардов звезд в галактике Млечный Путь. Очень тяжело осознать это число. Зная это, можно сделать предположение о количестве звезд во вселенной – приблизительно 4X10^22. Мы можем видеть около миллиона звезд на небе, хотя это всего лишь малая часть от всего фактического количества звезд. Итак, у нас появилось два вопроса:

Что такое галактика?
И какая связь между галактиками и темой статьи (кластерный анализ)

Читать полностью »

Вероятностные модели: от наивного Байеса к LDA, часть 1

2014-07-02 в 10:49, admin, рубрики: data mining, байесовские сети, Блог компании Surfingbird, искусственный интеллект, классификация, кластеризация, математика, математическое моделирование, теория вероятностей

Продолжаем разговор. Прошлая статья была переходной от предыдущего цикла о графических моделях вообще (часть 1, часть 2, часть 3, часть 4) к новому мини-циклу о тематическом моделировании: мы поговорили о сэмплировании как методе вывода в графических моделях. А теперь мы начинаем путь к модели латентного размещения Дирихле (latent Dirichlet allocation) и к тому, как все эти чудесные алгоритмы сэмплирования применяются на практике. Сегодня – часть первая, в которой мы поймём, куда есть смысл обобщать наивный байесовский классификатор, и заодно немного поговорим о кластеризации.

Вероятностные модели: от наивного Байеса к LDA, часть 1
Читать полностью »

Отличаем автобус от автомобиля по GPS-трекам

2014-07-02 в 9:44, admin, рубрики: data mining, gps, Блог компании Mail.Ru Group, глонасс, карты, машинное обучение, пробки

Отличаем автобус от автомобиля по GPS трекам
^{Фото Artem Svetlov}
Для построения правдоподобной пробочной картины проект Карты Mail.Ru обрабатывает большое количество информации по GPS-трекам участников движения. Часто о самом источнике треков мало что известно, в том числе из соображений безопасности. Но для определения истинной ситуации на дорогах мне всегда хотелось знать больше. Хотя бы для того, чтобы понимать насколько скорость машины источника соответствует скорости остального потока. В данной статье речь пойдёт о методе выделения маршрутных транспортных средств (автобусов, троллейбусов, маршруток и трамваев) из необработанного потока данных GPS.
Читать полностью »

Обзор наиболее интересных материалов по анализу данных и машинному обучению №3 (обзор онлайн курсов)

2014-06-30 в 19:06, admin, рубрики: big data, data mining, data science, data science digest, machine learning, MOOC, метки: big data, data mining, data science, data science digest, machine learning, MOOC

Данный выпуск обзора наиболее интересных материалов по анализу данных и машинному обучению полностью посвящен онлайн-курсам по тематике Data Science. В прошлом выпуске был представлен список онлайн-курсов, стартующих в ближайшее время. В данном выпуске я постарался собрать наиболее интересные онлайн-курсы по теме анализа данных. Стоит отметить, что некоторые курсы уже закончились, но у большинства таких курсов можно посмотреть архив всех учебных материалов.
Начинается обзор с набора курсов от Johns Hopkins University на Coursera, которые объединены в одной специализации «Data Science Specialization», поэтому имеет смысл рассмотреть их отдельно от остальных курсов. Это 9 официальных курсов специализации и два дополнительных Mathematical Biostatistics Boot Camp 1 и 2, которые официально не входят в специализацию. Важно отметить, что весь набор данных курсов регулярно начинается заново и в общем-то можно достаточно гибко построить свой график продвижения по специализации. Большинство курсов длятся 4 недели. Язык R является основным языком программирования в данном наборе курсов. Далее идет список курсов из специализации Data Science от Johns Hopkins University:Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 84

Некоторые методы поиска нечетких дубликатов видео

Пишем простую систему рекомендаций на примере Хабра

Вероятностные модели: LDA, часть 2

Ищем мелодию по фрагменту

Влияние технологий на среднюю длину песен

Обзор наиболее интересных материалов по анализу данных и машинному обучению №4 (23 июня — 7 июля 2014)

Кластерный анализ (на примере сегментации потребителей) часть 1

Вероятностные модели: от наивного Байеса к LDA, часть 1

Отличаем автобус от автомобиля по GPS-трекам

Обзор наиболее интересных материалов по анализу данных и машинному обучению №3 (обзор онлайн курсов)

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 84

Новости

Актуальные темы

Архив