В предыдущих сериях: Big Data — это не просто много данных. Big Data — процесс с положительной обратной связью. «Кнопка Обамы» как воплощение rtBD&A. Философия развития Big Data. В этой серии поговорим о лингво-аналитике высокоскоростных потоков неструктурированных текстов и сообщений соцмедиа и представим «Эврику» — наш ответ «Алхимикам».
Интернет, в своем нынешнем восприятии обществом, это связанный набор сообщений: личной переписки в мессенджерах, ссылки между статьями в СМИ, обсуждений в блогах, игровые чаты, тематические сериалы на Хабре, или, как преобразилось в мировоззрении новых поколений — ссылки на ответы поисковика после набора запроса «Чем сегодня заняться?»
Если приглядеться, то основа основ: Связи и Тематики. Про аналитику «связей» говорить не будем (это к АНБ, на чьи возможности по электронной слежке сегодня отказался покушаться даже «всемогущий Сенат США»). А вот Тематическая аналитика (что недавно получило свое название — Brand Analytics — в пресс-релизе между Facebook и DataSift, а в России сущестует уже 3 года в виде названия проекта) и связанные с ней разнообразные вкусности — прекрасная тема (! :-) ) для новой серии.
Чтобы не раздувать серию приведем, тезисно, текущий «уровень угрозы» и ссылки на конкретные кейсы, для которых потребовались новые решения и подходы, для желающих поисследовать более глЫбоко:
— Объем коммуникативных сообщений, генерируемый человечеством, приближается к 20 миллиардам в сутки, основной поток – непубличный (различные мессенджеры, почта).
— Объем публичных русскоязычных сообщений в социальных медиа (соцсети, Твиттер, комментарии в СМИ, блоги, форумы, фото- и видео-хостинги, сайты отзывов и пр.) – 1 миллиард в месяц. Объемы «классических» редакционных и «грамотных» сообщений СМИ составляет менее 1% из общего потока данных (до 10 млн из 1 миллиарда).
Открытая реал-тайм статистика потоков данных социальных медиа и СМИ доступна по адресу br-analytics.ru/statistics
— Для обработки 30-40 млн сообщений в сутки (1.000 сообщений в секунду в пике) необходимы новые методики и алгоритмы обработки данных. Потоки социальных медиа – это неструктурированные «неграмотные» (не являющиеся классическими СМИ), малосвязанные, с большим количеством орфографических и пунктуационных ошибок, зачастую многосмысловые и многоязычные сообщения.
Задачи и проблемы, которые необходимо решать в современном динамичном мире (практические кейсы предыдущих лет):
— Акция “Всем миром” (кейс от 1 октября 2013 года) — задача класса «Оперативная социология»: реал-тайм мониторинг реакции на динамично изменяющуюся, подверженную влиянию популярных медийных персон, заинтересованную и большую часть общества; выявление знаковых, заранее непрогнозируемых, модулирующих активное распространение в обществе, сообщений для быстрой реакции со стороны задействованных в обсуждении структур (в данном кейсе – ТВ-каналы и операторы мобильной связи).
--- “Прямая линия с Путиным” (кейс от 25 апреля 2013 года)
— задача класса «Кнопка Обамы»: реал-тайм выделение неизвестных активных тем и определение тональности каждой темы.
— “Любовь и ненависть” на карте России, зима 2014-2015: исследование эмоционального состояния 35 млн пользователей социальных медиа во всех регионах России.
— Совсем сегодняшнее: тематические виджеты для сайтов в рамках спецпроекта МинКульта по «Ночь музеев»
Из лент (соцсети, фото Instagram, видео YouTube):
Ждем вас на Ночь музеев в Люмьерах 2.0. Начинаем в 20:00 с экскурсии по выставке «Советское фото» от… t.co/evIDYZVltl
twitter.comThe Lumiere Center 1 мин. назад
А вчера мы ездили на ночь музеев))) Очень интересно было
vk.com — Елена Иванова — 2 мин. назад
Кто хочет на ночь музеев сегодня?? пишите мне или звоните)компанию составим 89260860xxx
vk.com — Надежда Породзинская — 3 мин. назад
Через час выхожу из дома на ночь музеев) Кто хочет тоже — пишите)
vk.com Дарья Климович — 3 мин. назад
… монологи, Лидия Мастеркова о Владимире Немухине и о себе. Всех ждем, вход…
instagram.com — Moscow Museum Of Modern Art — 6 мин. назад
«Ночь музеев » в Петербурге: квест в Михайловском замке, Санкт-Петербург, 17 мая 2015
youtube.com — Сегодняшние Новости — 3 ч. назад
Для решения задач подобного класса было необходимо разработать совершенно новые подходы и решения. IBM, SAP, Microsoft, Samsung и другие гиганты за последние 10-20 лет потратили миллиарды денег на технологии обработки «классических» текстов (СМИ, корпоративные документы, архивные данные).
Но эти миллиарды и наработки не помогают в решении новых задач. И здесь выигрывает тот, кто быстрее принимает решения (см. серию Большая игра — megamozg.ru/company/palitrumlab/blog/14154 про Apple и Twitter в борьбе за поставщиков неструктурированных Big Data). В продолжении Большой Игры IBM, «плюнув» на затраченные ранее средства (в отличие от того же SAP, который уже 2 года пытается решить проблематику лингвистики русского языка силами своих европейских центров) приобрел в марте проект AlchemyAPI, уже имеющего скоростные технологии обработки миллиардов текстов на нескольких западных языках.
На правах «рекламы в сериале», а точнее «для тех, кто давно искал»:
Наш «отчет Чемберлену» (о котором мы упоминали в 6-й серии) последовал незамедлительно: в мае 2015 года мы выделили новые технологии в самостоятельное отдельное публичное решение для возможности использования сторонними компаниями – Eureka Engine (http://EurekaEngine.ru), представляющее высоконагрузочное облачное решение и промышленный API для включения в существующие или разрабатываемые командами, компаниями и организациями технологические комплексы.
«Эврика» уже работает «на благо» РИА «Новости» и Samsung, Mail.ru и РосТуризм, Atonomy и Brand Analytics, агентств и компаний в разных странах. Если у вас стоят задачи по обработке больших потоков неструктурированных данных (тематическое сюжетирование для редакции, сортировка кучи входящих документов в правильные отделы, определение языка текстов, выявление именованных сущностей и т.п.) — welcome!
Решение всегда найдется, верно? :-)
Автор: OzzyTech