В предыдущей статье мы рассказали про наш open-source продукт для поиска данных по шарам и файло-помойкам. С тех пор мы доработали продукт и значительно усовершенствовали поиск, добавив именованные сущности, теги, статистику по запросу и структуру папок. Эти улучшения позволяют переходить от поиска к анализу данных, в статье рассмотрим все это подробней.
Рубрика «именованные сущности»
FactRuEval — соревнование по выделению именованных сущностей и извлечению фактов
2015-12-24 в 21:13, admin, рубрики: data mining, FactRuEval, information extraction, named entities, natural language processing, opencorpora, Блог компании ABBYY, именованные сущности, Компьютерная лингвистика, конференция Диалог, Семантика, соревнование, метки: конференция Диалог Соревнования по различным аспектам анализа текста проводятся на международной конференции по компьютерной лингвистике «Диалог» каждый год. Обычно сами соревнования проходят в течение нескольких месяцев до мероприятия, а на самой конференции объявляют результаты. В этом году планируются три соревнования:
- по выделению именованных сущностей и фактов – FactRuEval;
- по анализу тональности – SentiRuEval;
- по исправлению опечаток – SpellRuEval.
Статья, которую вы начали читать, преследует три цели. Первая – мы хотели бы пригласить разработчиков систем автоматического анализа текстов принять участие в соревнованиях. Вторая – мы ищем помощников, которые могли бы разметить текстовые коллекции, на которых будут проверяться системы наших участников (это, во-первых, интересно, а во-вторых – вы сможете принести реальную пользу науке). Ну а третья – соревнования по выделению именованных сущностей и фактов проводятся на “Диалоге” впервые, и мы хотим рассказать всем заинтересованным читателям, как они будут происходить.