Метка «анализ данных» - 3

Визуализация статистики использования компьютера с R

2013-01-10 в 14:46, admin, рубрики: data mining, keylogger, linux, python, shiny, sqlite, statistics, анализ данных, метки: keylogger, linux, python, shiny, sqlite, statistics, анализ данных

Визуализация статистики использования компьютера с R
Думаю, многим интересно (хотя бы из любопытства), как именно они используют свой компьютер: самые нажимаемые кнопки, пройденное мышью расстояние, среднее время работы и другую информацию. В этой статье я расскажу один из вариантов того, как можно собрать такую информацию и затем представить её в виде интерактивных графиков. Все описанные действия производились на ноутбуке с ОС Debian Wheezy, Python 2.7.3, R 2.15.

Читать полностью »

Data Mining: Первичная обработка данных при помощи СУБД. Часть 1

2013-01-09 в 13:02, admin, рубрики: big data, data mining, kaggle, sql, titanik, анализ данных, метки: data mining, kaggle, sql, titanik, анализ данных

О чем статья

В задачах исследования больших объемов данных есть множество тонкостей и подводных камней. Особенно для тех, кто только начинает исследовать скрытые зависимости и внутренние связи внутри массивов информации. Если человек делает это самостоятельно, то дополнительной трудностью становится выбор примеров, на которых можно учиться и поиск сообщества для обмена мнениями и оценки своих успехов. Пример не должен быть слишком сложным, но в тоже время должен покрывать основные проблемы. озникающие при решении задач приближенных к реальности, так чтобы задача не воспринималась примерно вот так:
Data Mining: Первичная обработка данных при помощи СУБД. Часть 1
С этой точки зрения, очень интересным будет ресурс Kaggle[1], который превращает исследование данных в спорт. Там проводят соревнования по анализу данных. Некоторые соревнования — с обучающими материалами и предназначены для начинающих. Вот именно обучению анализу данных, на примере решения одной из обучающих задач, и будет посвящён цикл статей. Первая статья будет о подготовке данных и использованию СУБД для этой цели. Собственно, о том, как и с чего начать. Предполагается что читатель понимает SQL.
Читать полностью »

Визуализация графа социальной сети: анализ событий блогосферы перед декабрём 2011 года

2012-12-28 в 17:28, admin, рубрики: data mining, drupal, gephi, анализ данных, веб-аналитика, граф социальной сети, метки: gephi, анализ данных, граф социальной сети

Это логическое продолжение статьи "Построение графа социальной сети с помощью Drupal и Feeds"

Я в составе группы занимался собором информации из блогосферы. Задачей было оценить напряженность, активность политических дискуссий в период избирательной кампании выборов в Государственную Думу. Забегая вперед скажу, что исследование позволило выдвинуть гипотезы, которые позже подтвердились. В частности, по результатам, о которых вы прочтете ниже можно понять, кто же будет выходить на площади и выводить за собой людей. И главное, за кем они пойдут.
Читать полностью »

Как работают экспертные системы оптимизации цепочек поставок на практике

2012-12-13 в 7:41, admin, рубрики: scm, анализ данных, логистика, логистические цепочки, поставки, прогнозирование спроса, производство, ритейл, метки: scm, анализ данных, логистика, логистические цепочки, поставки, прогнозирование спроса, производство, ритейл

Как работают экспертные системы оптимизации цепочек поставок на практике
Предположим, это ваша цепочка поставок. Сейчас экспертная система будет её оптимизировать.

Вводная: представьте, что вы некая компания, которая производит планшеты и телефоны — майфуны и майпады. Сами вы сидите в Калифорнии, у вас есть несколько своих заводов на Востоке, плюс вы регулярно заказываете кучу всяких комплектующих у тех поставщиков, от которых это выгоднее вести. И ещё у вас есть своя розничная сеть магазинов, где продаются планшеты и телефоны.

В топике — про то, как может работать с логистикой производитель техники, собирающий продукты из комплектующих со всего мира. Ну или розничная сеть, у которой тоже поставки не из тривиальных.

Есть три проблемы:

Логистика у нас настолько сложная и разветвлённая, что сейчас над ней работают десятки людей: кто-то занимается распределением майфунов, кто-то раскидывает по магазинам обложки, а производственники просчитывают оптимальные пути сбора комплектующих на заводах со всего мира.
При этом хочется сэкономить на логистической схеме: вы подозреваете, что умный анализ всех потоков позволит принять решения, например, о месте открытия нового производства или организации дополнительного склада, что в итоге даст вам выгоду.
И при этом ваши люди постоянно ошибаются с отправлениями – а хочется сделать так, чтобы ничего и нигде не забывалось, всё работало как часы и товары приходили на точки вовремя. Это тоже экономия, но уже за счёт своевременности поставок и отсутствия ошибок.

Читать полностью »

Реализация Restricted Boltzmann machine на c#

2012-12-08 в 14:24, admin, рубрики: .net, data mining, анализ данных, искусственный интеллект, машина Больцмана, нейронные сети, обучение без учителя, метки: c++, анализ данных, машина Больцмана, нейронные сети, обучение без учителя

Привет. Закончился курс по нейронным сетям. Хороший курс, но мало практики. Так что в этом посте мы рассмотрим, напишем и протестим ограниченную машину Больцмана — стохастическую, генеративную модель нейронной сети. Обучим ее, используя алгоритм Contrastive Divergence (CD-k), разработанный профессором Джеффри Хинтоном, который кстати и ведет тот курс. Тестировать мы будем на наборе печатных английских букв. В следующем посте будет рассмотрен один из недостатков алгоритма обратного распространения ошибки, и способ первоначальной инициализации весов с помощью машины Больцмана. Кто не боится формулок и простыней текста, прошу под кат.

Читать полностью »

Как работают экспертные системы прогнозирования продаж или сколько грузить планшетов в граммах

2012-12-06 в 6:13, admin, рубрики: data mining, анализ данных, Блог компании КРОК, логистика, логистические цепочки, недозаказ, перезаказ, прогнозирование спроса, ритейл, управление проектами, метки: анализ данных, логистика, логистические цепочки, недозаказ, перезаказ, прогнозирование спроса, ритейл

Как работают экспертные системы прогнозирования продаж или сколько грузить планшетов в граммах

Я уже писал краткий обзор того, как IT-решения помогают оптимизировать цепочки поставок. Теперь я расскажу о том, как такие системы внедряются в реальности в России и что это даёт. К сожалению, я не могу называть конкретных заказчиков, поэтому мы сейчас будем торговать абстрактными телефонами и планшетами и сталкиваться с теми же проблемами.

Итак, представьте, два года назад вы решили торговать телефонами и даже открыли интернет-магазин. Поначалу всё было просто: заказов довольно мало, и всё можно посчитать на бумажке. Через два месяца стало понятно, что магазин работает стабильно, и заниматься поставками надо серьёзно — ведь если юзер не увидит в наличии свой любимый мими-планшет с минимальной наценкой, он просто купит его у другого магазина, и вы лишитесь шанса продать не только планшет, но и дорогущие обложки, переходники и так далее.

Соответственно, задач у вас сейчас три:

Поддерживать ассортимент продукции по основной линейке;
Понимать, сколько будет продаж, чтобы планировать закупку аксессуаров;
Держать на контроле все хиты и новинки, чтобы всегда продавать ходовые товары и «снимать пену» на запусках новых девайсов.

Читать полностью »

Локальная скорость обучения весов нейронов в алгоритме обратного распространения ошибки

2012-11-02 в 15:38, admin, рубрики: data mining, Алгоритмы, анализ данных, искусственный интеллект, нейронные сети, обратное распространение ошибки, обучение, метки: data mining, анализ данных, искусственный интеллект, нейронные сети, обратное распространение ошибки, обучение

Привет, в одной из последних лекций по нейронным сетям на курсере речь шла о том, как можно улучшить сходимость алгоритма обратного распространения ошибки в общем, и в частности рассмотрели модель, когда каждый вес нейрона имеет свою собственную скорость обучения (neuron local gain). Я давно хотел реализовать какой нибудь алгоритм, который бы автоматически настраивал бы скорость обучения сети, но все ~~лень~~ руки не доходили, а тут вдруг такой простой и незамысловатый способ. В этой небольшой статье я расскажу про эту модель и приведу несколько примеров того, когда эта модель может быть полезна.

Читать полностью »

Сложности накопления данных для интеллектуального анализа

2012-10-14 в 22:34, admin, рубрики: data mining, анализ, анализ данных, Анализ и проектирование систем, данные, Песочница, метки: data mining, анализ, анализ данных, данные

Сложности накопления данных для интеллектуального анализа

Аннотация

Данная статья посвящена актуальной на сегодняшний день проблеме сложности накопления данных для проведения интеллектуального анализа. Введены основные понятия: данные и интеллектуальный анализ. Рассмотрены сложности, относящиеся к накоплению данных, при ситуации, когда необходимо разработать базу с нуля и наполнить её данными. Автором предложены рекомендации по снижению риска появления описанных проблем.
Читать полностью »

Алгоритм предсказывает преступления, отслеживая мобильные телефоны

2012-08-07 в 9:01, admin, рубрики: data mining, Алгоритмы, анализ данных, будущее здесь, прогнозирование, сотовая связь, статистика, метки: data mining, анализ данных, прогнозирование, сотовая связь, статистика

Уже много лет учёные экспериментируют с алгоритмами, способными предсказывать преступность. Предполагается, что преступники склонны повторять успешные действия — по крайней мере, они не используют ГСЧ для выбора места и времени преступлений, так что их действия предсказуемы по определению.

Например, год назад калифорнийский город Санта-Крус первым в мире внедрил математическую модель расчёта вероятности преступлений, которая каждый день составляет новый маршрут для патрульных машин, основываясь на статистике преступлений по улицам. Учитываются день недели, время суток, наличие/отсутствие футбольных матчей по ТВ и другие факторы.

Исследователь из Бирмингемского университета Мирко Мусолези (Mirco Musolesi) применил совершенно другой подход. Его метод основан не на статистике, а на оперативных данных из сетей сотовой связи. Мусолези начал с того, что научил алгоритм с высокой степень вероятности прогнозировать перемещения каждого абонента: он даже выиграл конкурс Nokia Mobile Data, наиболее точно предсказав перемещения 25-ти добровольцев по сигналам их телефонов, истории звонков и текстовым сообщениям. Иногда алгоритм прогнозирует координаты пользователя с точностью до 20 м².
Читать полностью »

Вам комфортно, если торговая сеть знает, что вы ждете ребенка?

2012-07-06 в 16:33, admin, рубрики: data mining, анализ данных, аналитика, бизнес-процессы, клиенты, личные данные, маркетинг, переводы, продажи, Статистика в IT, метки: data mining, анализ данных, аналитика, бизнес-процессы, клиенты, личные данные, маркетинг, продажи, Статистика в IT

Однажды в магазин Target зашел мужчина и потребовал вызвать менеджера. В своих руках он сжимал огромную кипу купонов магазина, полученных его дочерью.

«Моя дочь получила это по почте! – прокричал он. – Она еще в школу ходит, а вы посылаете ей купоны на детскую одежду и памперсы? Да как вы смеете! Вы хотите таким способом побудить школьниц рожать?»

Менеджер посмотрел на пачку купонов на материнскую одежду, детскую мебель – действительно, они были адресованы дочери рассерженного мужчины. Менеджер принес свои извинения.

Через несколько дней он позвонил мужчине, чтобы еще раз извиниться. По телефону голос отца звучал растерянно. «Знаете, я серьезно поговорил с дочерью, и выяснилось, что в моем доме происходило то, о чем я совершенно не догадывался. Она рожает в августе. Примите мои извинения».

Как Target узнал, что дочь беременна до того, как об этом стало известно ее отцу? Ответ прост – благодаря системе прогнозирования беременности (pregnancy prediction system), разработанной аналитиком компании Эндрю Полом. Под катом – обо всем по порядку.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Метка «анализ данных» - 3

Визуализация статистики использования компьютера с R

Data Mining: Первичная обработка данных при помощи СУБД. Часть 1

О чем статья

Визуализация графа социальной сети: анализ событий блогосферы перед декабрём 2011 года

Как работают экспертные системы оптимизации цепочек поставок на практике

Реализация Restricted Boltzmann machine на c#

Как работают экспертные системы прогнозирования продаж или сколько грузить планшетов в граммах

Локальная скорость обучения весов нейронов в алгоритме обратного распространения ошибки

Сложности накопления данных для интеллектуального анализа

Аннотация

Алгоритм предсказывает преступления, отслеживая мобильные телефоны

Вам комфортно, если торговая сеть знает, что вы ждете ребенка?

Архив

Информация

Обсуждаемое

Рекомендуем

Метка «анализ данных» - 3

О чем статья

Аннотация

Новости

Актуальные темы

Архив