На языке футбола: Big Data + лингвистика для виджета по Чемпионату Мира

2014-06-11 в 10:36, admin, рубрики: big data, Блог компании PalitrumLab, виджеты, социальные сети, Социальные сети и сообщества, футбол, метки: виджеты, социальные сети, футбол

Большинство из нас будут смотреть футбольный ЧМ. И пусть эксперты говорят, что нашей сборной как всегда ничего не светит, красота мирового футбола захватит даже тех, кто и болельщиком себя не считает. А задумывались ли вы о красоте «совместного боления»? Ощутить себя на огромной всемирной трибуне, услышать что говорят и чувствуют болельщики из разных стран, увидеть матчи их глазами… Современные технологии обработки неструктурированных данных делают мечту болельщиков реальностью. Ежеминутно тысячи футбольных твитов, инстаграм-фоток и youtube-роликов создаются нами, болельщиками, уже сейчас, еще до начала ЧМ. Представляете, что будет во время матчей?! Осталось собрать «Всемирную Трибуну Болельщиков», что мы и сделаем из подручных материалов вместе, быстро, и под катом ;)

Конструктор класса Online Big Data «Всемирная трибуна» собрался по принципу Лего, из нескольких отлично дополняющих друг друга деталей, имеющихся в наличии:

1. Контент:
Каждый день человечество (мы же мыслим всем миром!) генерит в соцмедиа свыше 1 млрд публичных сообщений (твитов, постов, комментариев, фоток, роликов). В каждой соцсети, блог-платформе и пр. интернет-сервисах свои правила, поэтому нам понадобится сервис-агрегатор публичных сообщений (американские TopSy и Gnip, английский DataSift или российский Brand Analytics).

2. Агрегатор нужного контента:
Нам нужен не весь миллиард сообщений, а только про футбол. Но на разных языках. И с морфологией, синтаксисом, определением языка, лемматизацией, посткоррекцией. И не забываем про реал-тайм! Поорать «Гоооол!» с половиной земного шара нужно пока еще мяч в воротах колышет сетку, а не в утренних новостях.

3. Автопереводчик:
Для постов соцсетей. Начинаем смеяться :) Выбор классический: переводчик Google или Translate.ru

4. Команда:
Программер для обвязки API и хороший верстальщик — куда же без творцов!

А вот и результат нескольких дней работы – виджеты, доступные как для просмотра, так и для вставки на сайт/в блог:
— Для русскоязычного сектора http://br-analytics.ru/widget-generator-theme/wc2014ru
— Для космополитов и тех кто болеет за бразильцев/испанцев/англичан и других фаворитов br-analytics.ru/widget-generator-theme/wc2014

Ниже приводим более подробную технологическую информацию для любителей не только футбола.

Агрегация контента

На российском рынке позицию основного поставщика данных из соцмедиа занимает система Brand Analytics (BA), которая позволяет легко настраивать и получать фильтрованный поток тематических данных с учетом русской морфологии и синтаксиса в режиме реального времени. В отличие от DataSift в BA аккумулируются не только данные из соцсетей, но и сообщения блогов и форумов, новостных порталов. У BA есть публичный API для получения фильтрованных данных.

Самое кропотливое и мозго-затратное дело в подобных системах — это настройка фильтрации: ключевые фразы, минус слова, и авторитетные источники. В данной работе участвовали настоящие эксперты — сотрудники популярного спортивного портала Championat.com.
В системе предусмотрен фильтр ботов, потому в виджет поступают сообщения только от реальных пользователей, а ненормативная лексика зашкаливающих эмоций отсекается специальными фильтрами.

Трудности перевода

В качестве переводчика был выбран Translate.ru, у которого вдобавок к простому API к ЧМ появился набор специальных лингвистических модулей и словарей, что позволило существенно улучшить качество перевода. Для автоперевода были выбраны 4 языка, наиболее распространенных в контексте ЧМ по футболу: португальский (он же бразильский), испанский, английский и русский.

Реал-тайм обработка

В связи с ежедневно растущим потоком новой информации актуальной проблемой сегодня становится скорость обработки данных. На только что завершившейся международной конференции по компьютерной лингвистике «Диалог» были представлены некоторые современные лингвистические системы известных компаний. Как показывают расчеты, скорость их препроцессинга пока невысока и не позволяет работать с реальным потоком данных: лучшие системы показывают десятки кБ/с на одном процессоре, в то время как практика показывает, что для полноценной работы с потоком скорость должна измеряться сотнями кБ/с.
Скорость нашей системы также не достигает идеала, но, тем не менее, на сегодняшний день мы можем обрабатывать до 15 ГБ в сутки на одном потоке (~200 кБ/с). Такая скорость обработки обеспечивается интеллектуальной системой параллельных вычислений. Балансировщик лингвистических модулей позволяет сохранить высокий процент корректности обработки потока. Например, тонкая, умная обработка такого явления, как омонимия позволяет использовать высоконагруженные алгоритмы только тогда, когда это действительно необходимо.

Осталось только как следует поболеть за наших, присоединяйтесь ;)

PS: Мы планируем цикл публикаций о компьютерной лингвистике и text mining, с рассказом о применении таких технологий как автоопределение тональности сообщений, классификация сущностей, лемматизация и разрешение омонимии, и др. Если вам интересна одна из вышеназванных тем, или другие лингвистические тематики — пишите нам, и мы постараемся подробно раскрыть все секреты компьютеризации великого и могучего :)

Автор: CvetKomm

Источник