Здравствуйте.
Если вы занимаетесь DataMining, анализом текстов на выявление мнений или вам просто интересны статистические модели для оценки эмоциональной окраски предложений — эта статья может оказаться интересной.
Далее, чтобы не тратить время потенциального читателя впустую на груду теории и рассуждений, сразу краткие результаты.
Реализованный подход работает приблизительно с 55% точностью в трех классах: негативный, нейтральный, позитивный. Как говорит Википедия, 70% точность приблизительно равна точности человеческих суждений в среднем (в силу субъективности трактований каждого).
Следует отметить, что существует немало утилит с точностью выше полученной мной, но описанный подход, можно достаточно просто усовершенствовать (будет описано ниже) и получить в итоге 65-70%. Если после всего вышеизложенного у вас осталось желание читать — добро пожаловать под кат.
Читать полностью »
Рубрика «data mining» - 104
Система мониторинга мнений методом поточечной взаимной информации
2012-03-26 в 18:12, admin, рубрики: data mining, nlp, pmi, sentiment analysis, метки: nlp, pmi, sentiment analysisФакторный анализ вектора критериев в задачах распознавания образов
2012-03-15 в 9:47, admin, рубрики: data mining, Алгоритмы, обработка изображений, распознавание образов, метки: распознавание образовВведение
При разработке систем распознавания образов часто возникают проблемы при оценке параметров, которые используются в качестве входного вектора. В данной статье я опишу подход, который можно применять при анализе векторов обучающей выборки, с целью обнаружения зависимостей между параметрами, а также сокращения размерности, что позволит в свою очередь сократить затрачиваемые вычислительные ресурсы при анализе данных и повысить репрезентативность обучающей выборки.
Целью данной работы является определение факторов входного вектора критериев обучающей выборки, предназначенных для решения данной задачи.
Читать полностью »
Data Mining в футболе: давайте оцифруем матч и всех посчитаем!
2012-03-11 в 11:16, admin, рубрики: data mining, аналитика, распознавание объектов, спорт, футбол, метки: data mining, аналитика, распознавание объектов, спорт, футбол
Тренер следит за вами. Тренер помнит. Тренер не забывает и не прощает.
Если вы видели фильм «Человек, который изменил всё», то уже почти всё знаете. Игроков нужно оценивать по массе показателей, причём интуиция работает далеко не всегда. С помощью аналитики можно в разы увеличить эффективность тренировок, найти новых игроков, которые помогут команде и просто повысить уровень игры. Аналитика рулит.
Футбол в реальности сначала чем-то напоминает RPG без правил, где нужно разбираться. После введения аналитики — это такая же RPG, к сотням показателейЧитать полностью »
Python / Документация по Grab — библиотеке для парсинга сайтов
2012-03-05 в 10:27, admin, рубрики: data mining, grab, grablab, lxml, pycurl, python, spider, парсинг, метки: data mining, grab, grablab, lxml, pycurl, python, spider, парсингЯ ранее уже рассказывал на хабре о Grab — библиотеке для парсинга сайтов и о Spider — асинхронном модуле для парсинга. Рад сообщить, что я наконец-то дописал документацию по Grab. Я решил писать всё на русском языке т.к. на английском языке мне труднее выражать мысли. На деле писанины получилось гораздо больше, чем представлялось в начале, но я таки описал практически все функции библиотеки. Я решил просто вставить сюда, оглавление, кликайте на интересный раздел и читайте о возможностях Grab:
- <a rel="nofollow"Читать полностью »
Поисковые машины и технологии / Wolfram Alpha Pro
2012-02-09 в 9:07, admin, рубрики: 3D-печать, data mining, анализ изображений, обработка данных, метки: 3D-печать, data mining, анализ изображений, обработка данных Сегодня официально представлена продвинутая версия научного поисковика Wolfram Alpha Pro. Это самый значительный апдейт за всё время существования поисковой системы. Хотя её и раньше трудно было назвать «поисковой системой», а сейчас это вообще нечто фундаментально иное.
Итак, на что способен Wolfram Alpha Pro за пять долларов в месяц?
Во-первых, чтобы воспользоваться «премиальными» возможностями, нужно зарегистрироваться и оплатить подписку ($4,99 в месяц, $2,99 для студентов), которая сейчас предоставляется бесплатно на 14 дней.
После авторизации на сайте вы увидите тот же интерфейс, но с маленькими пиктограммами, за которымиЧитать полностью »
Погружаемся в динамику клиентской базы: когортный анализ и анализ потоков
1970-01-01 в 0:00, admin, рубрики: data mining, бизнес-модели, Управление продажами, Управление продуктомПродолжаю цикл статей по анализу продукта (начало)
В прошлой статье я погрузился в анализ выручки и разбил ее на 2 компоненты — MRPU и кол-во клиентов. Сегодня рассмотрим дальнейшие шаги в анализе и разложим на составляющие кол-во клиентов и их динамику.
Теперь общая схема анализа выглядит так:
Когортный анализ позволяет объяснить тенденции, протекающие в клиентской базе и пробрасывает прямой мост в воронку продаж и действия по удержанию и возвращению клиентов.