В прошлом году мы довольно подробно писали про международную конференцию по компьютерной лингвистике «Диалог», одним из основных организаторов которой является наша компания. Конференция нынешнего года была примечательна тем, что на ней были подведены итоги сразу двух соревнований между системами автоматического анализа текста. За подробностями добро пожаловать под кат.
В мировой компьютерной лингвистике и, в частности, в европейской, довольно давно существует практика сравнения и оценки систем автоматического анализа текстов, российская же наука пока делает только первые шаги в этом направлении. Так, на Диалоге-2010 проводилось соревнование систем автоматического морфологического анализа русского языка (систем, которые умеют делать грамматический разбор слов). В прошлом году было решено провести состязание синтаксических анализаторов (парсеров), и на Диалоге-2011 обсуждались условия его проведения. Сами соревнования прошли осенью 2011 года, а их итоги были подведены на Диалоге в этом году. Кроме соревнования парсеров, на конференции подвели итоги соревнований по анализу тональности текстов (sentiment analysis) – в ходе него сравнивались системы, позволяющие определить отношение автора тексту к объекту описания Ценность проведения таких состязаний заключается в выработке единых стандартов: любой исследователь отныне сможет ориентироваться на некие эталоны и оценивать в соответствии с ними собственные разработки.
Итак, давайте разберемся, кто с кем соревновался и зачем.
Анализ тональности текста (sentiment analysis) – это одна из частных прикладных задач компьютерной лингвистики, весьма сегодня востребованная. Что это значит? Например, у нас есть подборка рецензий на художественный фильм, и стоит задача определить, какие это рецензии – положительные или отрицательные. Эту задачу можно решить с помощью автоматической системы оценки тональности текста: система определяет характер рецензии, анализируя языковые средства. Понятно, что список задач сантимент-анализа огромен: например, компании могут быстро узнать, как покупатели оценивают их новый продукт, а, скажем, правительство сможет отследить реакцию граждан на новый закон, анализируя блоги, и т.д.
Соревнование по анализу тональности у было проведено совместно с российским семинаром по оценке методов информационного поиска (РОМИП). РОМИП – это некоммерческий проект, который помогает проводить независимую оценку методов информационного поиска по европейским стандартам, но при этом ориентируется на работу с русскоязычными информацией. Сравнение систем оценки тональности на материале русского языка было проведено впервые.
Вначале всем участникам соревнования раздали тестовые коллекции: рецензии на книги и фильмы с портала imhonet.ru, а также отзывы покупателей о цифровых камерах с Яндекс.Маркета. На этих коллекциях участники тренировали свои системы автоматической оценки тональности, т.е. пытались определить, какие именно языковые средства влияют на характер рецензии.
Для самих соревнований была вручную подготовлена коллекция рецензий и отзывов из блогов. Системы участников анализировали эти тексты по трем шкалам (двух-, трех- и пятибалльной), т.е. в первом случае система должна была определить, является ли отзыв положительным или отрицательным, во втором – положительным, отрицательным или нейтральным, а в третьем — является ли он чисто положительным; положительным, но с элементами отрицательной оценки; нейтральным; отрицательным с элементами положительной оценки; целиком отрицательным. Затем правильность анализа вручную оценивали эксперты.
В соревновании приняло участие 12 систем. Лучшие результаты показала система группы под руководством Николя Четверкина (Вычислительный центр МГУ). Кроме того, в результате соревнования была создана выверенная и размеченная коллекция текстов (доступна на сайте РОМИП), которой могут пользоваться и другие разработчики. Публикации участников выложены на сайте «Диалога».
Соревнование синтаксических анализаторов носило, скорее, научный характер, поскольку автоматический синтаксический разбор – это, как правило, один из кусочков более общей системы автоматической обработки текста (например, систем машинного перевода или систем мониторинга новостей, блогов и т.д.). Напомним, что в ходе синтаксического анализа текста устанавливаются взаимосвязи слов в рамках предложения, т.е. какое слово от какого зависит и как именно. (Помните, в школе рисовали стрелки от подлежащего – к определению, от сказуемого – к обстоятельству и т.д.)
Целью этого соревнования было не только сравнение качества систем, но и выработка единого стандарта синтаксического анализа текста. Дело в том, что разные системы зачастую используют разные принципы представления синтаксической структуры. В описываемом соревновании договорились представлять результаты разбора в виде дерева зависимостей, но и в этом случае они сильно отличались друг от друга, поскольку разные системы по-разному трактуют связи между словоформами (например, у одних синтаксистов предлог управляет существительным, у других наоборот).
Именно поэтому такое соревнование было очень трудно организовать, трудно было привести к общему знаменателю разные теории всех участников. В итоге достаточно длительное время заняла подготовка и разработка стандарта, относительно которого проводилась оценка систем-участников.
На конкурс были поданы заявки от 11 групп разработчиков из Москвы, Санкт–Петербурга, Нижнего Новгорода, Донецка (Украина). Конечные результаты были получены от 8 из 10 участников форума: SynAutom, DictaScope Syntax, SemSin, ЭТАП–3, синтактико–семантический анализатор русского языка группы SemanticAnalyzer Group, проект AotSoft, ABBYY Compreno и Парсер грамматики связей.
Как проходило само соревнование? Вначале потенциальные участники опробовали свои системы на тестовой коллекции из 100 предложений, в результате чего выяснилось, что системы делают синтаксический разбор по-разному. На основании этого были разработаны унифицированные правила разбора, на которые должны были ориентироваться все системы. Также был подготовлен так называемый «Золотой Стандарт» – эталонная коллекция текстов, которую, в соответствии с этими правилами, вручную разметили эксперты. Далее участникам были предложены конкурсные тексты для разметки. Полученные ответы систем сравнивались с «Золотым стандартом». Несоответствия стандарту оценивались экспертами: если участник мог доказать, что в логике его системы это соответствует тому же типу связи, что и в Золотом стандарте, то такая ошибка не засчитывалась.
Лучшие результаты показали наш ABBYY Compreno и система ЭТАП-3 (много лет разрабатывается в Институте проблем передачи информации им. А.А. Харкевича). Для ABBYY этот результат, безусловно, важен, но также важно и то, что первые места заняли системы, основанные на фундаментальной лингвистике. Это значит, что в области синтаксического анализа нельзя обойтись только поверхностными, статистическими методами оценками, и что путь, который избрала ABBYY много лет назад, перспективен.
В подготовке и проведении конкурса помогали студенты Отделения теоретической и прикладной лингвистики филфака МГУ и Института лингвистики РГГУ: для них это была отличная практика работы в живом проекте по компьютерной лингвистике, они смогли ознакомиться с разными синтаксическими анализаторами, увидеть их сильные и слабые стороны и т.д.
В результате соревнования парсеров был получен корпус вручную размеченных и выверенных текстов, который можно использовать в научно–исследовательских целях (он представлен в свободном доступе на сайте testsynt.soiza.com). Познакомиться с работами участников соревнования можно здесь.
Света Лузгина (luciana)
при поддержке оргкомитета «Диалога»
Автор: MKrivosheev