Шестнадцатый выпуск подкаста — Сливки IT R&D.
О первом бизнес-акселераторе в Беларуси, Сан-Франциско бойкотирует продукцию Applе, призрак Сталина в рунете, Волож улыбается, 5кг планшет на Андроиде и многое другое.
Рубрика «data mining» - 102
Сливки IT R&D (выпуск 16) — 3 в 1
2012-07-13 в 7:17, admin, рубрики: android, apple, data mining, Firefox OS, MeeGo, opera, pinterest, target, thunderbird, беларусь, бизнес-акселератор, подкасты, сан-франциско, цензура, метки: android, apple, data mining, Firefox OS, MeeGo, opera, Pinterest, target, thunderbird, беларусь, бизнес-акселератор, сан-франциско, цензураВам комфортно, если торговая сеть знает, что вы ждете ребенка?
2012-07-06 в 16:33, admin, рубрики: data mining, анализ данных, аналитика, бизнес-процессы, клиенты, личные данные, маркетинг, переводы, продажи, Статистика в IT, метки: data mining, анализ данных, аналитика, бизнес-процессы, клиенты, личные данные, маркетинг, продажи, Статистика в ITОднажды в магазин Target зашел мужчина и потребовал вызвать менеджера. В своих руках он сжимал огромную кипу купонов магазина, полученных его дочерью.
«Моя дочь получила это по почте! – прокричал он. – Она еще в школу ходит, а вы посылаете ей купоны на детскую одежду и памперсы? Да как вы смеете! Вы хотите таким способом побудить школьниц рожать?»
Менеджер посмотрел на пачку купонов на материнскую одежду, детскую мебель – действительно, они были адресованы дочери рассерженного мужчины. Менеджер принес свои извинения.
Через несколько дней он позвонил мужчине, чтобы еще раз извиниться. По телефону голос отца звучал растерянно. «Знаете, я серьезно поговорил с дочерью, и выяснилось, что в моем доме происходило то, о чем я совершенно не догадывался. Она рожает в августе. Примите мои извинения».
Как Target узнал, что дочь беременна до того, как об этом стало известно ее отцу? Ответ прост – благодаря системе прогнозирования беременности (pregnancy prediction system), разработанной аналитиком компании Эндрю Полом. Под катом – обо всем по порядку.
Читать полностью »
Торговля знает, когда вы ждете ребенка
2012-07-06 в 16:33, admin, рубрики: data mining, анализ данных, аналитика, бизнес-процессы, клиенты, личные данные, маркетинг, переводы, продажи, Статистика в IT, метки: data mining, анализ данных, аналитика, бизнес-процессы, клиенты, личные данные, маркетинг, продажи, Статистика в ITОднажды в магазин Target зашел мужчина и потребовал вызвать менеджера. В своих руках он сжимал огромную кипу купонов магазина, полученных его дочерью.
«Моя дочь получила это по почте! – прокричал он. – Она еще в школу ходит, а вы посылаете ей купоны на детскую одежду и памперсы? Да как вы смеете! Вы хотите таким способом побудить школьниц рожать?»
Менеджер посмотрел на пачку купонов на материнскую одежду, детскую мебель – действительно, они были адресованы дочери рассерженного мужчины. Менеджер принес свои извинения.
Через несколько дней он позвонил мужчине, чтобы еще раз извиниться. По телефону голос отца звучал растерянно. «Знаете, я серьезно поговорил с дочерью, и выяснилось, что в моем доме происходило то, о чем я совершенно не догадывался. Она рожает в августе. Примите мои извинения».
Как Target узнал, что дочь беременна до того, как об этом стало известно ее отцу? Ответ прост – благодаря системе прогнозирования беременности (pregnancy prediction system), разработанной аналитиком компании Эндрю Полом. Под катом – обо всем по порядку.
Читать полностью »
Реализация алгоритма k-means на c# (с обобщенной метрикой)
2012-06-27 в 11:37, admin, рубрики: .net, clustering, clusterization, data mining, k-means, Алгоритмы, метки: .net, c++, clustering, clusterization, data mining, k-meansВсем привет. Продолжая тему того, что Andrew Ng не успел рассказать в курсе по машинному обучению, приведу пример своей реализации алгоритма k-средних. У меня стояла задача реализовать алгоритм кластеризации, но мне необходимо было учитывать степень корреляции между величинами. Я решил использовать в качестве метрики расстояние Махаланобиса, замечу, что размер данных для кластеризации не так велик, и не было необходимости делать кэширование кластеров на диск. За реализацией прошу под кат.
Необычный словарь обычных слов
2012-06-26 в 18:50, admin, рубрики: data mining, лингвистика, морфология, словарь, я пиарюсь, метки: data mining, лингвистика, морфология, словарьУ автора нет инвайта, потому он попросил меня выложить сюда его творение.
Написался тут сайт с необычным представлением русского морфологического словаря, будет полезен лингвистам, датамайнерам, NLPшникам и всем интересующимся языком.
Например двумя кликами можно узнать какие и мужские имена на букву П используются чаще остальных и другую подобную статистику.
За основу взят морфологический словарь АОТ (aot.ru)
Проект планируется развивать и по мере возможности добавлять туда всякий полезный и бесполезный инструментарий.
В ближайшем будущем будут:
1. Онлайн–стемминг
2. Частотомерка с базовыми формамиЧитать полностью »
Реализация метода главных компонент на c#
2012-06-21 в 7:26, admin, рубрики: .net, data mining, principal component analysis, Алгоритмы, метки: .net, c++, data mining, principal component analysisВсем привет. На этой неделе в курсе по машинному обучению профессор Andrew Ng рассказал слушателям про метод главных компонент, с помощью которого можно уменьшить размерность пространства признаков ваших данных. Но к сожалению он не рассказал про метод вычисления собственных векторов и собственных чисел матрицы, просто сказал, что это сложно и посоветовал использовать матлаб/октавовскую функцию [U S V] = svd(a).
Для моего проекта мне понадобилась реализация этого метода на c#, чем я сегодня и занимался. Сам метод главных компонент очень элегантный и красивый, а если не понимать математику которая лежит за всем этим, то это можно это все назвать шаманством. Проблема вычисления собственных векторов матрицы в том, что не существует быстрого способа вычисления их точных значений, так что приходится выкручиваться. Я хочу рассказать об одном из таких способов выкрутиться, а так же приведу код на c# выполняющий эту процедуру. Прошу под кат.
Читать полностью »
Анализ закономерностей в 1300 популярных песнях
2012-06-15 в 15:42, admin, рубрики: data mining, аккорды, метки: аккордыРебята с сайта hooktheory.com решили разобраться, что отличает популярные песни от всех остальных. Они провели статистический анализ 1300 песен и опубликовали результаты: какие созвучия чаще всего встречаются в поп-музыке и как они взаимодействуют между собой.
На самом деле авторы проделали титаническую работу, потому что до сих пор не существовало открытой базы аккордов, откуда можно было просто взять информацию. В течение двух лет они медленно составляли её вручную, прослушивая по очереди все песни из хит-парадов.
Читать полностью »
Прогнозирование закупок: адская, но очень полезная математика
2012-06-07 в 6:32, admin, рубрики: data mining, анализ данных, Блог компании КРОК, ликбез, недозаказ, перезаказ, пиво, прогнозирование спроса, ритейл, метки: анализ данных, ликбез, недозаказ, перезаказ, пиво, прогнозирование спроса, ритейлПредставьте двух героев: коммерсанта Александра и сисадмина Василия. Вася, как олицетворение среднестатистического клиента, каждый вечер заходит в магазин Саши (представителя розничной сети) и покупает пиво. Саша заказывает для него 7 бутылок пива в неделю. Иногда Вася остаётся работать с ночевкой и не выходит из серверной, а иногда – после работы берёт по две бутылки пива для себя и главбуха.
График спроса на пиво в зависимости от жизненных приключений Васи
Саша не может предсказать эти периоды, поэтому постоянно находится меж двух огней: либо купить больше товара, «заморозить» деньги и потратиться на его хранение, либо купить ровно по среднему спросу, рискуя в какой-то момент расстроить Васю и его друга бухгалтера отсутствием нужного количества пива.Читать полностью »
Анализ структуры мирового рынка методами теории графов
2012-06-01 в 12:05, admin, рубрики: data mining, datamining, Алгоритмы, анализ данных, Блог компании Luxoft, экономика, метки: datamining, анализ данных, экономикаИсследователями Цюрихского технологического института был произведён анализ мирового финансового рынка методами теории графов. Ученые пытались найти наиболее влиятельные, частные финансовые структуры. В рамках работы было проанализировано порядка 85 миллионов компаний, построены зависимости между ними и выделены наиболее значимые корпорации.
Астрология и Data mining
2012-05-31 в 3:22, admin, рубрики: data mining, астрология, Вконтакте, социальные сети, метки: data mining, астрология, социальные сети
Как и многие люди технического склада ума, я с крайним недоверием отношусь к астрологии, гороскопам и прочим псевдонаукам. Моё мировозрение пошатнулось когда я от скуки решил изучить влияение времени года в которое рождается человек, на его психические особенности. Оценка психических особенностей производилась по результатам соционического теста из приложения VK, которое насчитывает более 500000 пользователей. Надёжность и валидность теста небольшая, да и вся соционическая модель имеет ряд проблем. Но нам важно другое: понять есть ли хоть какие-то отличия между людьми родившимися в разное время. Объём выборки в полмиллиона человек позволяет надеяться на положительный результат. В ходе исследования ожидалось получить линейную зависимость между продолжительностью светлого времени суток в день рождения человека и его психотипом, но получилось Читать полностью »