В прошлой статье я описал, как мы в Иннове используем data mining для предсказания ухода новичков, только начинающих свой путь в ММОРПГ Aion, на основе логов их действий за пару часов или дней, проведенных в игре. Но у нас также есть и ветераны, посвятившие игре месяцы и годы, и они тоже иногда уходят. Мы уже научились с высокой точностью предсказывать угасание их интереса теми же методами data mining.
Читать полностью »
Метка «data mining» - 7
Предсказание ухода лояльных игроков в ММО
2012-08-13 в 4:57, admin, рубрики: data mining, game development, онлайн игры, предсказание будущего, метки: data mining, mmorpg, онлайн игры, предсказание будущегоПрограмму «научили» определять город по архитектуре
2012-08-09 в 19:35, admin, рубрики: data mining, архитектура, будущее здесь, города, ненормальное программирование, метки: data mining, архитектура, города
Поколения архитекторов и дизайнеров (раньше, понятно, такого термина, как дизайнер, не было) работали сотни лет, создавая неповторимые очертания разных городов и отдельных зданий. Само собой, у каждого города с течением времени проявились индивидуальные черты (имеются в виду крупные города, вроде Парижа и Нью-Йорка, у мелких промышленных населенных пунктов индивидуальности практически нет). Понятно, что многие из нас, взглянув на фотографию пары зданий какого-либо города, способны сказать, Париж это, Нью-Йорк или Пекин. Теперь на это способно и программное обеспечение.
Алгоритм предсказывает преступления, отслеживая мобильные телефоны
2012-08-07 в 9:01, admin, рубрики: data mining, Алгоритмы, анализ данных, будущее здесь, прогнозирование, сотовая связь, статистика, метки: data mining, анализ данных, прогнозирование, сотовая связь, статистикаУже много лет учёные экспериментируют с алгоритмами, способными предсказывать преступность. Предполагается, что преступники склонны повторять успешные действия — по крайней мере, они не используют ГСЧ для выбора места и времени преступлений, так что их действия предсказуемы по определению.
Например, год назад калифорнийский город Санта-Крус первым в мире внедрил математическую модель расчёта вероятности преступлений, которая каждый день составляет новый маршрут для патрульных машин, основываясь на статистике преступлений по улицам. Учитываются день недели, время суток, наличие/отсутствие футбольных матчей по ТВ и другие факторы.
Исследователь из Бирмингемского университета Мирко Мусолези (Mirco Musolesi) применил совершенно другой подход. Его метод основан не на статистике, а на оперативных данных из сетей сотовой связи. Мусолези начал с того, что научил алгоритм с высокой степень вероятности прогнозировать перемещения каждого абонента: он даже выиграл конкурс Nokia Mobile Data, наиболее точно предсказав перемещения 25-ти добровольцев по сигналам их телефонов, истории звонков и текстовым сообщениям. Иногда алгоритм прогнозирует координаты пользователя с точностью до 20 м2.
Читать полностью »
Как я покупал квартиру
2012-07-31 в 2:31, admin, рубрики: data mining, linear regression, метки: data mining, linear regression Я хотел написать статью про линейную регрессию, но потом подумал, да ну её, лучше куплю квартиру. И пошёл искать, что предлагают. А предлагают, как оказалось, много чего. В подходящий мне ценовой диапозон попало больше 500 квартир. И что, мне теперь все это просматривать? Ну нееет, программист я в конце концов или не программист. Надо это дело как-то автоматизировать.
Читать полностью »
Маленькие секреты больших графов
2012-07-20 в 12:35, admin, рубрики: data mining, Алгоритмы, графы, Программирование, социальные сети, метки: data mining, графы, социальные сети
Если вам интересно, какие знания можно извлечь из большого массива данных, насколько большими бывают графы и какие задачи по анализу социальных графов предлагают Facebook, Twitter и др., то эта статья именно для вас.
Читать полностью »
Кластеризация k-means с расстоянием Евклида и Махаланобиса
2012-07-17 в 13:44, admin, рубрики: clustering, clusterization, data mining, k-means, Алгоритмы, искусственный интеллект, метки: clustering, clusterization, data mining, k-meansВ предыдущей статье я рассказывал, как можно реализовать алгоритм k-means на c# с обобщенной метрикой. В комментах можно почитать обсуждение того, насколько целесообразно использовать разные метрики, о математической природе использования разных метрик и тому прочее. Мне тогда хотелось привести красивый пример, но не было под рукой подходящих данных. И вот сегодня я столкнулся с задачей, которая хорошо иллюстрирует преимущества использования расстояния Махаланобиса в k-means кластеризации. Подробности под катом.
Извлекаем центральную статью с web-страницы
2012-07-17 в 12:34, admin, рубрики: data mining, markdown, Алгоритмы, выделение содержания, метки: data mining, markdown, выделение содержанияДлинное вступление
Совсем недавно мне пришлось подготовить работу для университета. Ну и как всегда в области, которая мне не интересна. Задание было принято без какого либо энтузиазм и хотелось побыстрее от этого избавиться. Задача стояла так «Извлечение центральных статей из гипертекстовых документов».
Я не стану расписывать возможные варианты использования подобных алгоритмов. Я уверен, что каждый из вас без проблем придумает хотя бы пять различных вариантов применения.
Бегло пробежавшись по просторам глобальной сети я понял, что за 10 лет в этой области никто не крикнул «Эврика!» и все подходы основываются на анализе Dom-модели документа. Кто-то использует одни принципы, кто-то другие, но все поголовно следуют набору правил для анализа Dom-модели документа. Побродив еще немного по просторам Хабра я наткнулся на статью, в которой автор рассказывал про алгоритм VIPS, разработанный в недрах Microsoft Research. Идея показалась очень привлекательной, и я решил придумать что-то свое и принялся за мыслительную деятельность. День, два, три… Ничего необычного в голову не приходит. Пришлось отбросить идею поиска центральной статьи с помощью компьютерного зрения. Такой подход к решению проблемы оказался мне не по зубам.
Что же делать? Писать еще один парсер Dom-дерева, как это делают люди уже больше 10 лет? Хочется уточнить, что работа должна быть больше исследовательская и не нацелена на получение конкретного результата. Немного пообщавшись с людьми, я наткнулся на язык разметки Markdown. Интересная штука, подумал я и лег спать…
Читать полностью »
Сливки IT R&D (выпуск 16) — 3 в 1
2012-07-13 в 7:17, admin, рубрики: android, apple, data mining, Firefox OS, MeeGo, opera, pinterest, target, thunderbird, беларусь, бизнес-акселератор, подкасты, сан-франциско, цензура, метки: android, apple, data mining, Firefox OS, MeeGo, opera, Pinterest, target, thunderbird, беларусь, бизнес-акселератор, сан-франциско, цензура Шестнадцатый выпуск подкаста — Сливки IT R&D.
О первом бизнес-акселераторе в Беларуси, Сан-Франциско бойкотирует продукцию Applе, призрак Сталина в рунете, Волож улыбается, 5кг планшет на Андроиде и многое другое.
Вам комфортно, если торговая сеть знает, что вы ждете ребенка?
2012-07-06 в 16:33, admin, рубрики: data mining, анализ данных, аналитика, бизнес-процессы, клиенты, личные данные, маркетинг, переводы, продажи, Статистика в IT, метки: data mining, анализ данных, аналитика, бизнес-процессы, клиенты, личные данные, маркетинг, продажи, Статистика в ITОднажды в магазин Target зашел мужчина и потребовал вызвать менеджера. В своих руках он сжимал огромную кипу купонов магазина, полученных его дочерью.
«Моя дочь получила это по почте! – прокричал он. – Она еще в школу ходит, а вы посылаете ей купоны на детскую одежду и памперсы? Да как вы смеете! Вы хотите таким способом побудить школьниц рожать?»
Менеджер посмотрел на пачку купонов на материнскую одежду, детскую мебель – действительно, они были адресованы дочери рассерженного мужчины. Менеджер принес свои извинения.
Через несколько дней он позвонил мужчине, чтобы еще раз извиниться. По телефону голос отца звучал растерянно. «Знаете, я серьезно поговорил с дочерью, и выяснилось, что в моем доме происходило то, о чем я совершенно не догадывался. Она рожает в августе. Примите мои извинения».
Как Target узнал, что дочь беременна до того, как об этом стало известно ее отцу? Ответ прост – благодаря системе прогнозирования беременности (pregnancy prediction system), разработанной аналитиком компании Эндрю Полом. Под катом – обо всем по порядку.
Читать полностью »
Торговля знает, когда вы ждете ребенка
2012-07-06 в 16:33, admin, рубрики: data mining, анализ данных, аналитика, бизнес-процессы, клиенты, личные данные, маркетинг, переводы, продажи, Статистика в IT, метки: data mining, анализ данных, аналитика, бизнес-процессы, клиенты, личные данные, маркетинг, продажи, Статистика в ITОднажды в магазин Target зашел мужчина и потребовал вызвать менеджера. В своих руках он сжимал огромную кипу купонов магазина, полученных его дочерью.
«Моя дочь получила это по почте! – прокричал он. – Она еще в школу ходит, а вы посылаете ей купоны на детскую одежду и памперсы? Да как вы смеете! Вы хотите таким способом побудить школьниц рожать?»
Менеджер посмотрел на пачку купонов на материнскую одежду, детскую мебель – действительно, они были адресованы дочери рассерженного мужчины. Менеджер принес свои извинения.
Через несколько дней он позвонил мужчине, чтобы еще раз извиниться. По телефону голос отца звучал растерянно. «Знаете, я серьезно поговорил с дочерью, и выяснилось, что в моем доме происходило то, о чем я совершенно не догадывался. Она рожает в августе. Примите мои извинения».
Как Target узнал, что дочь беременна до того, как об этом стало известно ее отцу? Ответ прост – благодаря системе прогнозирования беременности (pregnancy prediction system), разработанной аналитиком компании Эндрю Полом. Под катом – обо всем по порядку.
Читать полностью »