Рубрика «data mining» - 70

Полуавтоматическая классификация сайтов

2015-12-28 в 0:07, admin, рубрики: big data, data mining, ipython notebook, визуализация данных, графы, классификация, кластеризация, сайты

Рассмотрим такую задачу: есть 1000 новостных сайтов, например: engadget.com, huffingtonpost.com, sbnation.com. Их нужно распределить по классам про игры, про бизнес и финансы, про IT, про кино и музыку, например. Как это сделать? Можно просто брать один сайт за другим и назначать ему класс, но чтобы обработать таким образом 1000 сайтов нужно иметь крепкую психику и уйму времени. Можно сделать более технично: взять граф похожих сайтов, выделить интересующий подграф на 1000 вершин и кластеризовать его. Про граф похожих сайтов было написано несколько месяцев назад мной и ребятами из DCA. Граф про новостные сайты будет выглядеть примерно так:
Полуавтоматическая классификация сайтов - 1

Действительно, некоторые классы получается выделить автоматически, например «игры» и «технологии»:
Полуавтоматическая классификация сайтов - 2
Читать полностью »

FactRuEval — соревнование по выделению именованных сущностей и извлечению фактов

2015-12-24 в 21:13, admin, рубрики: data mining, FactRuEval, information extraction, named entities, natural language processing, opencorpora, Блог компании ABBYY, именованные сущности, Компьютерная лингвистика, конференция Диалог, Семантика, соревнование, метки: конференция Диалог

FactRuEval — соревнование по выделению именованных сущностей и извлечению фактов - 1 Соревнования по различным аспектам анализа текста проводятся на международной конференции по компьютерной лингвистике «Диалог» каждый год. Обычно сами соревнования проходят в течение нескольких месяцев до мероприятия, а на самой конференции объявляют результаты. В этом году планируются три соревнования:

по выделению именованных сущностей и фактов – FactRuEval;
по анализу тональности – SentiRuEval;
по исправлению опечаток – SpellRuEval.

Статья, которую вы начали читать, преследует три цели. Первая – мы хотели бы пригласить разработчиков систем автоматического анализа текстов принять участие в соревнованиях. Вторая – мы ищем помощников, которые могли бы разметить текстовые коллекции, на которых будут проверяться системы наших участников (это, во-первых, интересно, а во-вторых – вы сможете принести реальную пользу науке). Ну а третья – соревнования по выделению именованных сущностей и фактов проводятся на “Диалоге” впервые, и мы хотим рассказать всем заинтересованным читателям, как они будут происходить.

Читать полностью »

Продиагностируем регрессионные PlayBoy модели?

2015-12-24 в 0:35, admin, рубрики: anomaly detection, data mining, outlier detection, R, regression tests, Алгоритмы, визуализация данных

На пост натолкнул регрессионный анализ PlayBoy моделей бегло на MatLab здесь и продолжение использования этого датасета для анализа выбросов методом опорных векторов на питоне
здесь.
Собственно цель поста — провести беглую диагностику модели регрессионного анализа используя в языке R пакет CAR созданный Джонном Фоксом и сотоварищами а так же попробуем найти те же выбросы методами регрессии (насколько возможно применять формулировку «выброс» к таким объектам исследований).
Читать полностью »

Про участие в хакатоне от Билайна

2015-12-23 в 14:51, admin, рубрики: big data, data mining, абоненты, графы, смски, Хакатоны, метки: абоненты, смски

В прошлые выходные в Музее Москвы проходила выставка, в рамках которой Билайн проводил хакатон. Я, на всякий случай, решил сходить. Была предложена интересная задача: дан граф, в вершинах абоненты, в рёбрах записано число звонков одного абонента другому, их продолжительность и число смсок. Данные выглядели вот так:

A,B,x_A,x_B,c_AB,d_AB,c_BA,d_BA,s_AB,s_BA
941235,666804,0,1,1,20,1,22,0,0
604328,367223,1,0,0,0,5,1364,0,0
932768,977234,0,0,1,168,0,0,0,0
395101,677107,0,1,1,160,0,0,0,0
250712,102647,0,0,0,0,3,456,0,0
510653,896558,0,0,139,50954,22,2990,0,0
...

Читать полностью »

Отпуск. Где? Когда? R

2015-12-21 в 8:30, admin, рубрики: data mining, R, shiny, shiny dashboards, визуализация данных, метеостанция, отпуск, погода, рекорды, температура воздуха

В то время как за окном температура на пути к очередным рекордам, интересно посмотреть, а какие вообще бывали температуры в произвольный интервал времени, за любые года за последние несколько десятилетий в 30 000 точках по всему миру. А может не прогадать с днями отпуска, и взять их в те дни, когда есть какое-то «статистическое преимущество» в выбранном местоположении по теплой погоде, а может быть по холодной, оценив его визуально на любой из трех типов диаграмм. Ну или можно просто повращать глобус, визуально оценить разнообразие температур и «как прекрасен этот мир».
Читать полностью »

Поиск потенциальных фолловеров в Твиттере

2015-12-20 в 17:08, admin, рубрики: big data, data mining, twitter, twitter api, фолловеры

Предположим есть аккаунт в Твиттере, в который пишут на достаточно ограниченный круг тем, на который подписано несколько сотен или тысяч человек. Как понять какая доля аудитории ещё не охвачена? Как найти этих людей?

Для примера рассмотрим аккаунт @Russia_Direct. Это небольшое издание, которое освещает события в России для англоязычных читателей. Что-то типа Russia Today, но с более глубокими и академичными материалами.

Сейчас на них подписаны ~4000 человек — студенты, журналисты, преподаватели университетов:

Читать полностью »

Применение машинного обучения для увеличения производительности PostgreSQL

2015-12-18 в 9:19, admin, рубрики: data mining, dbms, machine learning, postgres, postgresql, Блог компании Postgres Professional, машинное обучение

Машинное обучение занимается поиском скрытых закономерностей в данных. Растущий рост интереса к этой теме в ИТ-сообществе связан с исключительными результатами, получаемыми благодаря ему. Распознавание речи и отсканированных документов, поисковые машины — всё это создано с использованием машинного обучения. В этой статье я расскажу о текущем проекте нашей компании: как применить методы машинного обучения для увеличения производительности СУБД.
В первой части этой статьи разбирается существующий механизм планировщика PostgreSQL, во второй части рассказывается о возможностях его улучшения с применением машинного обучения.

Читать полностью »

Эволюция структур данных в Яндекс.Метрике

2015-12-17 в 10:10, admin, рубрики: big data, columnar database, data mining, olap, базы данных, Блог компании Яндекс, веб-аналитика, высокая производительность, структуры данных, хранение данных, яндекс, яндекс.метрика

Яндекс.Метрика сегодня это не только система веб-аналитики, но и AppMetrica — система аналитики для приложений. На входе в Метрику мы имеем поток данных — событий, происходящих на сайтах или в приложениях. Наша задача — обработать эти данные и представить их в подходящем для анализа виде.

Но обработка данных — это не проблема. Проблема в том, как и в каком виде сохранять результаты обработки, чтобы с ними можно было удобно работать. В процессе разработки нам приходилось несколько раз полностью менять подход к организации хранения данных. Мы начинали с таблиц MyISAM, использовали LSM-деревья и в конце концов пришли к column-oriented базе данных. В этой статье я хочу рассказать, что нас вынуждало это делать.

Яндекс.Метрика работает с 2008 года — более семи лет. Каждый раз изменение подхода к хранению данных было обусловлено тем, что то или иное решение работало слишком плохо — с недостаточным запасом по производительности, недостаточно надёжно и с большим количеством проблем при эксплуатации, использовало слишком много вычислительных ресурсов, или же просто не позволяло нам реализовать то, что мы хотим.
Читать полностью »

Фестиваль данных в музее Москвы, или как Big Data помогает жить и работать

2015-12-16 в 10:33, admin, рубрики: big data, data mining, kaggle, R, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, Блог компании ВымпелКом (Билайн), машинное обучение, рекомендательные системы, школа данных

Фестиваль данных в музее Москвы, или как Big Data помогает жить и работать - 1

Привет Хабр,

Если вам давно было интересно, как Big Data применяется в разных областях бизнеса, науки и государственного управления и это хотелось услышать от самих людей, которые этим занимаются, то добро пожаловать на Фестиваль Данных, который будет проходить 19 декабря на Выставке Высоких Технологий SMIT в Музее Москвы.

В течение нескольких часов работы Фестиваля ведущие эксперты отрасли из Yandex, Школы Данных «Билайн», Data-Centric Alliance, Авито, ГУП «НИ и ПИ Генплана Москвы, НИУ ВШЭ расскажут гостям выставки о перспективах использования анализа данных в ближайшие несколько лет.
Читать полностью »

Как попасть на дачу президента в пять часов утра

2015-12-16 в 8:36, admin, рубрики: data mining, государственная безопасность, дача президента, информационная безопасность, метки: государственная безопасность, дача президента

Этот пост о том, как обычный взлом обернулся муками совести и душевными терзаниями. Исходников будет не много, больше фоток и анализа. Итак, некто Вася работает «плохим парнем». Степень падения Васи такова, что средства на жизнь ему приносит поиск и разбор информации, доступ к которой был скомпрометирован вследствие неграмотного обслуживания, безалаберности или экономии на обслуживающем персонале.

Как попасть на дачу президента в пять часов утра - 1
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 70

Полуавтоматическая классификация сайтов

FactRuEval — соревнование по выделению именованных сущностей и извлечению фактов

Продиагностируем регрессионные PlayBoy модели?

Про участие в хакатоне от Билайна

Отпуск. Где? Когда? R

Поиск потенциальных фолловеров в Твиттере

Применение машинного обучения для увеличения производительности PostgreSQL

Эволюция структур данных в Яндекс.Метрике

Фестиваль данных в музее Москвы, или как Big Data помогает жить и работать

Как попасть на дачу президента в пять часов утра

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 70

Новости

Актуальные темы

Архив