Думаю, многим интересно (хотя бы из любопытства), как именно они используют свой компьютер: самые нажимаемые кнопки, пройденное мышью расстояние, среднее время работы и другую информацию. В этой статье я расскажу один из вариантов того, как можно собрать такую информацию и затем представить её в виде интерактивных графиков. Все описанные действия производились на ноутбуке с ОС Debian Wheezy
, Python 2.7.3
, R 2.15
.
Читать полностью »
Рубрика «анализ данных» - 31
Визуализация статистики использования компьютера с R
2013-01-10 в 14:46, admin, рубрики: data mining, keylogger, linux, python, shiny, sqlite, statistics, анализ данных, метки: keylogger, linux, python, shiny, sqlite, statistics, анализ данныхData Mining: Первичная обработка данных при помощи СУБД. Часть 1
2013-01-09 в 13:02, admin, рубрики: big data, data mining, kaggle, sql, titanik, анализ данных, метки: data mining, kaggle, sql, titanik, анализ данныхО чем статья
В задачах исследования больших объемов данных есть множество тонкостей и подводных камней. Особенно для тех, кто только начинает исследовать скрытые зависимости и внутренние связи внутри массивов информации. Если человек делает это самостоятельно, то дополнительной трудностью становится выбор примеров, на которых можно учиться и поиск сообщества для обмена мнениями и оценки своих успехов. Пример не должен быть слишком сложным, но в тоже время должен покрывать основные проблемы. озникающие при решении задач приближенных к реальности, так чтобы задача не воспринималась примерно вот так:
С этой точки зрения, очень интересным будет ресурс Kaggle[1], который превращает исследование данных в спорт. Там проводят соревнования по анализу данных. Некоторые соревнования — с обучающими материалами и предназначены для начинающих. Вот именно обучению анализу данных, на примере решения одной из обучающих задач, и будет посвящён цикл статей. Первая статья будет о подготовке данных и использованию СУБД для этой цели. Собственно, о том, как и с чего начать. Предполагается что читатель понимает SQL.
Читать полностью »
Визуализация графа социальной сети: анализ событий блогосферы перед декабрём 2011 года
2012-12-28 в 17:28, admin, рубрики: data mining, drupal, gephi, анализ данных, веб-аналитика, граф социальной сети, метки: gephi, анализ данных, граф социальной сетиЭто логическое продолжение статьи "Построение графа социальной сети с помощью Drupal и Feeds"
Я в составе группы занимался собором информации из блогосферы. Задачей было оценить напряженность, активность политических дискуссий в период избирательной кампании выборов в Государственную Думу. Забегая вперед скажу, что исследование позволило выдвинуть гипотезы, которые позже подтвердились. В частности, по результатам, о которых вы прочтете ниже можно понять, кто же будет выходить на площади и выводить за собой людей. И главное, за кем они пойдут.
Читать полностью »
Как работают экспертные системы оптимизации цепочек поставок на практике
2012-12-13 в 7:41, admin, рубрики: scm, анализ данных, логистика, логистические цепочки, поставки, прогнозирование спроса, производство, ритейл, метки: scm, анализ данных, логистика, логистические цепочки, поставки, прогнозирование спроса, производство, ритейл
Предположим, это ваша цепочка поставок. Сейчас экспертная система будет её оптимизировать.
Вводная: представьте, что вы некая компания, которая производит планшеты и телефоны — майфуны и майпады. Сами вы сидите в Калифорнии, у вас есть несколько своих заводов на Востоке, плюс вы регулярно заказываете кучу всяких комплектующих у тех поставщиков, от которых это выгоднее вести. И ещё у вас есть своя розничная сеть магазинов, где продаются планшеты и телефоны.
В топике — про то, как может работать с логистикой производитель техники, собирающий продукты из комплектующих со всего мира. Ну или розничная сеть, у которой тоже поставки не из тривиальных.
Есть три проблемы:
- Логистика у нас настолько сложная и разветвлённая, что сейчас над ней работают десятки людей: кто-то занимается распределением майфунов, кто-то раскидывает по магазинам обложки, а производственники просчитывают оптимальные пути сбора комплектующих на заводах со всего мира.
- При этом хочется сэкономить на логистической схеме: вы подозреваете, что умный анализ всех потоков позволит принять решения, например, о месте открытия нового производства или организации дополнительного склада, что в итоге даст вам выгоду.
- И при этом ваши люди постоянно ошибаются с отправлениями – а хочется сделать так, чтобы ничего и нигде не забывалось, всё работало как часы и товары приходили на точки вовремя. Это тоже экономия, но уже за счёт своевременности поставок и отсутствия ошибок.
Реализация Restricted Boltzmann machine на c#
2012-12-08 в 14:24, admin, рубрики: .net, data mining, анализ данных, искусственный интеллект, машина Больцмана, нейронные сети, обучение без учителя, метки: c++, анализ данных, машина Больцмана, нейронные сети, обучение без учителяПривет. Закончился курс по нейронным сетям. Хороший курс, но мало практики. Так что в этом посте мы рассмотрим, напишем и протестим ограниченную машину Больцмана — стохастическую, генеративную модель нейронной сети. Обучим ее, используя алгоритм Contrastive Divergence (CD-k), разработанный профессором Джеффри Хинтоном, который кстати и ведет тот курс. Тестировать мы будем на наборе печатных английских букв. В следующем посте будет рассмотрен один из недостатков алгоритма обратного распространения ошибки, и способ первоначальной инициализации весов с помощью машины Больцмана. Кто не боится формулок и простыней текста, прошу под кат.
Как работают экспертные системы прогнозирования продаж или сколько грузить планшетов в граммах
2012-12-06 в 6:13, admin, рубрики: data mining, анализ данных, Блог компании КРОК, логистика, логистические цепочки, недозаказ, перезаказ, прогнозирование спроса, ритейл, управление проектами, метки: анализ данных, логистика, логистические цепочки, недозаказ, перезаказ, прогнозирование спроса, ритейл
Я уже писал краткий обзор того, как IT-решения помогают оптимизировать цепочки поставок. Теперь я расскажу о том, как такие системы внедряются в реальности в России и что это даёт. К сожалению, я не могу называть конкретных заказчиков, поэтому мы сейчас будем торговать абстрактными телефонами и планшетами и сталкиваться с теми же проблемами.
Итак, представьте, два года назад вы решили торговать телефонами и даже открыли интернет-магазин. Поначалу всё было просто: заказов довольно мало, и всё можно посчитать на бумажке. Через два месяца стало понятно, что магазин работает стабильно, и заниматься поставками надо серьёзно — ведь если юзер не увидит в наличии свой любимый мими-планшет с минимальной наценкой, он просто купит его у другого магазина, и вы лишитесь шанса продать не только планшет, но и дорогущие обложки, переходники и так далее.
Соответственно, задач у вас сейчас три:
- Поддерживать ассортимент продукции по основной линейке;
- Понимать, сколько будет продаж, чтобы планировать закупку аксессуаров;
- Держать на контроле все хиты и новинки, чтобы всегда продавать ходовые товары и «снимать пену» на запусках новых девайсов.
Локальная скорость обучения весов нейронов в алгоритме обратного распространения ошибки
2012-11-02 в 15:38, admin, рубрики: data mining, Алгоритмы, анализ данных, искусственный интеллект, нейронные сети, обратное распространение ошибки, обучение, метки: data mining, анализ данных, искусственный интеллект, нейронные сети, обратное распространение ошибки, обучение Привет, в одной из последних лекций по нейронным сетям на курсере речь шла о том, как можно улучшить сходимость алгоритма обратного распространения ошибки в общем, и в частности рассмотрели модель, когда каждый вес нейрона имеет свою собственную скорость обучения (neuron local gain). Я давно хотел реализовать какой нибудь алгоритм, который бы автоматически настраивал бы скорость обучения сети, но все лень руки не доходили, а тут вдруг такой простой и незамысловатый способ. В этой небольшой статье я расскажу про эту модель и приведу несколько примеров того, когда эта модель может быть полезна.
Сложности накопления данных для интеллектуального анализа
2012-10-14 в 22:34, admin, рубрики: data mining, анализ, анализ данных, Анализ и проектирование систем, данные, Песочница, метки: data mining, анализ, анализ данных, данные
Аннотация
Данная статья посвящена актуальной на сегодняшний день проблеме сложности накопления данных для проведения интеллектуального анализа. Введены основные понятия: данные и интеллектуальный анализ. Рассмотрены сложности, относящиеся к накоплению данных, при ситуации, когда необходимо разработать базу с нуля и наполнить её данными. Автором предложены рекомендации по снижению риска появления описанных проблем.
Читать полностью »
Алгоритм предсказывает преступления, отслеживая мобильные телефоны
2012-08-07 в 9:01, admin, рубрики: data mining, Алгоритмы, анализ данных, будущее здесь, прогнозирование, сотовая связь, статистика, метки: data mining, анализ данных, прогнозирование, сотовая связь, статистикаУже много лет учёные экспериментируют с алгоритмами, способными предсказывать преступность. Предполагается, что преступники склонны повторять успешные действия — по крайней мере, они не используют ГСЧ для выбора места и времени преступлений, так что их действия предсказуемы по определению.
Например, год назад калифорнийский город Санта-Крус первым в мире внедрил математическую модель расчёта вероятности преступлений, которая каждый день составляет новый маршрут для патрульных машин, основываясь на статистике преступлений по улицам. Учитываются день недели, время суток, наличие/отсутствие футбольных матчей по ТВ и другие факторы.
Исследователь из Бирмингемского университета Мирко Мусолези (Mirco Musolesi) применил совершенно другой подход. Его метод основан не на статистике, а на оперативных данных из сетей сотовой связи. Мусолези начал с того, что научил алгоритм с высокой степень вероятности прогнозировать перемещения каждого абонента: он даже выиграл конкурс Nokia Mobile Data, наиболее точно предсказав перемещения 25-ти добровольцев по сигналам их телефонов, истории звонков и текстовым сообщениям. Иногда алгоритм прогнозирует координаты пользователя с точностью до 20 м2.
Читать полностью »
Вам комфортно, если торговая сеть знает, что вы ждете ребенка?
2012-07-06 в 16:33, admin, рубрики: data mining, анализ данных, аналитика, бизнес-процессы, клиенты, личные данные, маркетинг, переводы, продажи, Статистика в IT, метки: data mining, анализ данных, аналитика, бизнес-процессы, клиенты, личные данные, маркетинг, продажи, Статистика в ITОднажды в магазин Target зашел мужчина и потребовал вызвать менеджера. В своих руках он сжимал огромную кипу купонов магазина, полученных его дочерью.
«Моя дочь получила это по почте! – прокричал он. – Она еще в школу ходит, а вы посылаете ей купоны на детскую одежду и памперсы? Да как вы смеете! Вы хотите таким способом побудить школьниц рожать?»
Менеджер посмотрел на пачку купонов на материнскую одежду, детскую мебель – действительно, они были адресованы дочери рассерженного мужчины. Менеджер принес свои извинения.
Через несколько дней он позвонил мужчине, чтобы еще раз извиниться. По телефону голос отца звучал растерянно. «Знаете, я серьезно поговорил с дочерью, и выяснилось, что в моем доме происходило то, о чем я совершенно не догадывался. Она рожает в августе. Примите мои извинения».
Как Target узнал, что дочь беременна до того, как об этом стало известно ее отцу? Ответ прост – благодаря системе прогнозирования беременности (pregnancy prediction system), разработанной аналитиком компании Эндрю Полом. Под катом – обо всем по порядку.
Читать полностью »