Итак, как и обещали, рассказываем: недавно были подведены итоги соревнований по автоматическому разрешению анафоры и кореферентности. Такие соревнования для русского языка проводились впервые а организовала их команда из ВШЭ-МГУ.
Мы уверены, что среди наших читателей много лингвистов, которые и без нас отлично знают, что такое анафора и кореференция, остальным рассказываем. Один и тот же объект реального мира может упоминаться в тексте несколько раз разными способами. «Вася – миллионер, он хочет купить остров». В этой фразе местоимение «он» и существительное «Вася» относятся к одному человеку (т.е. имеют одного и того же референта). Если система анализа текста понимает, что «он» – это и есть «Вася», значит, она умеет разрешать анафору.
Сложнее, когда Вася появляется в тексте еще несколько раз – например, как «Иванов», «клиент», «глава компании» или «футболист». Тогда речь идет уже не о местоименной анафоре, а о кореферентности именных групп. Задача системы в этом случае – объединить все слова, за которыми скрывается этот человек, в одну кореферентную цепочку. Приведем несколько примеров, а заодно покажем, как это делает наша технология Compreno.
1. Евгений Плющенко – единственный в мире фигурист, который смог завоевать медали четырёх зимних Олимпиад. Свой первый олимпийский опыт спортсмен получил в 2002 году на играх в американском Солт-Лейк-Сити.
За счет синтаксиса система понимает, что «Плющенко» и «фигурист» – одно лицо, потом эта персона объединяется с персоной, выделившейся на «спортсмене» благодаря их связи в семантической иерархии, а вдобавок анафорические правила заменяют в дереве разбора местоимение «свой» этим же «спортсменом». В итоге получается кореферентная цепочка.
2. Даррелл Лэнс Эбботт родился в Арлингтоне (штат Техас), пригороде Далласа и Форт Уорта, в семье музыканта и продюсера Джерри Эбботта. Его отец владел звукозаписывающей студией «Pantego Sound Studios» в Пантего, где Даррелл видел и слышал много блюзовых гитаристов, но после того, как он услышал Эйса Фрэйли из группы «Kiss», он сам захотел начать играть на гитаре.
Здесь система сразу правильно разбирает имя «Даррелл Лэнс Эбботт» на части и потом по частям его идентифицирует. Поэтому у нас НЕ попал в кореферентную цепочку отец Эббота Джерри Эббот – фамилия совпадает, но имя отличается. Зато в следующем предложении система узнает Даррела по имени без фамилии.
3. «Роснефть» может получить контроль над всеми аэропортами Киргизии. Российская компания подписала меморандум о приобретении не менее 51% ОАО «Международный аэропорт Манас». «Новапорт» Романа Троценко, который ранее выступал в качестве партнера «Роснефти» в проекте, вероятнее всего, станет оператором киргизских аэропортов.
Тут снова за счет того, что в семантической иерархии СК “ROSNEFT” является потомком СК “COMPANIES”, Compreno понимает, что во втором предложении тоже идет речь о Роснефти. В этом примере видно, как разрешение кореферентности помогает правильно извлекать участников событий – нам ясно, кто подписал меморандум, хотя в предложении сказано просто «российская компания».
Но вернемся к соревнованиям. Их целью было оценить качество методов, разработанных для анализа анафоры и кореферентности на русском языке. В состязании приняли участие семь разработчиков: ABBYY, RCO, SemSyn, Open Corpora (St.Petersburg), Mail.ru, Институт системного анализа РАН, Сергей Пономарев. Ещё раз подчеркнем: целью было сравнить алгоритмы, а не продукты компаний. Итоги соревнований проводились на конференции «Диалог», крупнейшей конференции в области компьютерной лингвистики в России.
На первой дорожке нужно было найти полные кореферентные цепочки, на второй – разрешить анафору, то есть для всех местоимений найти, на кого они указывают. Обе эти задачи сложнее, чем синтаксический и морфологический разборы (по этим темам соревнования проходили несколько лет назад), при этом большинство систем используют синтаксис и морфологию для разметки текстовой коллекции перед разрешением анафоры.
На первой дорожке соревновалось три участника, на второй – семь, но всего «прогонов» на второй дорожке было семнадцать. Участвовали самые разные системы – от экспериментальных (их целью было проверить конкретные алгоритмы разрешения анафоры) до комплексных, в которых модуль, определяющий референциальные связи, – всего лишь один из компонентов.
Как проходили соревнования.
Сначала участникам дали возможность потренировать свои системы на размеченной вручную небольшой текстовой коллекции. В неё вошло 100 текстов, каждый из которых содержал от 5 до 100 предложений, самый длинный – 170 предложений. В корпусе было выделено 2000 анафорических пар «местоимение – антецедент (слово, на которое указывает местоимение)». Потом системы должны были проанализировать большой текстовый корпус. Для соревнований был специально собран корпус, в который входили отрывки из текстов самых разных жанров: новостных заметок, научных статей, постов из блогов, художественной литературы. Все тексты были взяты из открытых источников: Открытого корпуса русского языка (Open Corpora), сетевой библиотеки Lib.ru, издания Lenta.ru, Википедии и других ресурсов – всего 1342 текста.
Результаты оценивались путем сравнения с «Золотым стандартом» – частью того же корпуса, размеченной вручную. Оценка проходила в полуавтоматическом режиме (спорные места дважды проверялись экспертами).
Итоги соревнований
Соревнования показали, что существующие системы хорошо умеют разрешать анафору (так, занявшая первое место Compreno показала
76% при точности свыше 80%), в то время как полный анализ кореферентности удаётся хуже. Для русского языка недостаточны те методы, которые применяются в английском языке, – мешает свободный порядок слов, некоторые другие особенности языка и острый недостаток открытых размеченных корпусов (созданный организаторами, по-видимому, стал первым ресурсом такого рода). Новый корпус может быть использован разработчиками для самостоятельной проверки своих алгоритмов, а правила разметки, сформулированные организаторами в ходе работы над ним, помогут исследователям создавать новые корпуса для этих же целей.
Важный для ABBYY результат – наша Compreno победила на обеих дорожках. По правилам соревнований мы не можем открывать всех имен победителей и проигравших в своем блоге, Смысл таких правил в том, что в том, что соревнование (а если точнее – тестирование) проводится не для PR, а для пользы разработчиков, которые сравнивают свои алгоритмы с разработками коллег и получают оценки (на них можно ссылаться в научных публикациях) и опыт. Кроме того, по результатам соревнований всегда создается тестовый размеченный корпус, Золотой Стандарт, на котором потом все желающие (например, студенты) могут прогонять свои собственные алгоритмы и сравниваться с уровнем, достигнутым в отрасли.
Мы не можем называть победителей и проигравших в блогах и СМИ, но в ближайшее время на сайте «Диалога» будет выложена подробная статья с анализом результатов соревнований, в которую войдет итоговый рейтинг. Статью организаторов о подготовке соревнований и методике оценки читайте здесь.
Автор: luciana