Продолжая поездки по лабораториям ученых, мы попали в компанию ABBYY, и побеседовали с Анатолием Старостиным, руководителем группы семантического анализа и преподавателем кафедры «Компьютерная лингвистика» в МФТИ. Он рассказал о работе своей группы, направлениях компьютерной лингвистике в ABBYY и кто такие онтоинженеры.
Метка «Компьютерная лингвистика»
ScienceHub #06: Компьютерная лингвистика
2013-11-15 в 14:27, admin, рубрики: ABBYY, Блог компании ПостНаука, Компьютерная лингвистика, технологии, метки: ABBYY, Компьютерная лингвистика, технологииСтэнфордская нейросеть определяет тональность текста с точностью 85%, код отдадут в Open Source
2013-10-16 в 20:56, admin, рубрики: open source, sentiment analysis, Алгоритмы, искусственный интеллект, Компьютерная лингвистика, машинное обучение, метки: sentiment analysis, Компьютерная лингвистика, машинное обучениеSentiment analysis (по-русски, анализ тональности) — это область компьютерной лингвистики, которая занимается изучением эмоциональной окраски текстов, подробнее см. в статье Irokez’а. Это очень важное направление машинного обучения: анализ тональности нужен для лучшего «понимания» текстов, перевода с одного языка на другой.
Сложность задачи заключается в непростых лингвистических конструкциях, которые часто используют люди. Даже человек иногда не сразу определит тональность (положительную или отрицательную) фраз вроде «В книге хороша только обложка». Как обучить этой задаче компьютер?
Точность определения эмоций у лучших компьютерных программ до сегодняшнего дня составляла не более 80%. Группе учёных из Стэнфорда при участии небезызвестного Эндрю Нг удалось довести её до 85%, а при дальнейшем обучении рекуррентной нейросети точность вполне может повыситься до 95%, говорит один из авторов исследования. Заметим, что 95% — это будет абсолютно феноменальный результат, не все люди способы распознавать сарказм и определять тональность слов с такой точностью.
Читать полностью »
NLPub Q&A
2013-09-22 в 16:41, admin, рубрики: data mining, nlpub, вопрос-ответ, искусственный интеллект, Компьютерная лингвистика, обработка естественного языка, Поисковые машины и технологии, русский язык, сообщество, метки: nlpub, вопрос-ответ, Компьютерная лингвистика, обработка естественного языка, русский язык, сообществоОколо года назад здесь был представлен некоммерческий ресурс NLPub — каталог лингвистических решений для обработки русского языка.
Мы по-прежнему продолжаем придерживаться некоммерческих целей. За прошедшее время мне довелось слышать много тёплых слов, замечаний, пожеланий и благодарностей за работу над каталогом и экосистемой. Я искренне восхищён интересом к NLPub со стороны людей: нам удалось поймать тенденцию, сделать хороший продукт, и предоставить его соответствующей аудитории. Это само по себе является огромной ценностью.
Самая частая просьба, которую мне доводится слышать — просьба сделать на базе NLPub какой-нибудь специализированный сервис вопросов и ответов. Сервис, где люди могут спросить что-нибудь про обработку естественного языка, и получить ответ от компетентных специалистов, работающих в этой области.
Было бы некорректно игнорировать просьбы и пожелания людей, которые работают над тем, чтобы заставить вычислительную технику понимать наш язык и речь. Мы представляем NLPub Q&A — русскоязычный сервис вопросов и ответов о компьютерной лингвистике.
Читать полностью »
Способы представления словарей для автоматической обработки текстов
2013-08-26 в 6:21, admin, рубрики: Алгоритмы, искусственный интеллект, Компьютерная лингвистика, конечные автоматы, морфологический анализ, метки: Компьютерная лингвистика, конечные автоматы, морфологический анализАвтоматический анализ текстов практически всегда связан с работой со словарями. Они используются для морфологического анализа, выделения персон (нужны словари личных имен и фамилий) и организаций, а также других объектов.
В общем виде словарь — множество записей вида {строка, данные ассоциированные с этой строкой}.
Например, для морфологического анализа словарь состоит из троек {словоформа, нормальная форма, морфологические характеристики}. При анализе слова «мыла» из предложения «мама мыла раму» надо уметь получать следующие варианты анализа:
Нормальная форма | Характеристики |
---|---|
МЫЛО | S (существительное), РОД (родительный падеж), ЕД (единственное число), СРЕД (средний род), НЕОД (неодушевленность) |
МЫЛО | S (существительное), ИМ (именительный падеж), МН (множественное число), СРЕД (средний род), НЕОД (неодушевленность) |
МЫЛО | S (существительное), ВИН (винительный падеж), МН (множественное число), СРЕД (средний род), НЕОД (неодушевленность) |
МЫТЬ | V (глагол), ПРОШ (прошедшее время), ЕД (единственное число), ИЗЪЯВ (изъявительное наклонение), ЖЕН (женский род), НЕСОВ (несовершенный вид) |
Псевдолемматизация, композиты и прочие странные словечки
2013-08-21 в 9:46, admin, рубрики: Блог компании ABBYY, Блог компании Mail.Ru Group, искусственный интеллект, Компьютерная лингвистика, морфология, метки: Компьютерная лингвистика, морфология
• Роль морфологии в компьютерной лингвистике
• Морфология. Задачи и подходы к их решению
• Псевдолемматизация, композиты и прочие странные словечки
Не все задачи успели мы с вами обозреть в предыдущем посте, поэтому продолжать будем в этом.
Часто случается, что в интернете появляется какой-нибудь неологизм. Например, «затроллить». Слово «тролль» в словаре есть, но «затролля» уже нет, а, как мы выяснили ранее, приставка при разборе не отделяется от корня, так что мы понятия не имеем, что это за «затроллить» и как его изменять. Чтобы проанализировать это слово, нам придётся воспользоваться псевдолемматизацией. Для этого мы снова пользуемся так называемым обратным деревом окончаний (записанных справа налево).
Читать полностью »
Роль морфологии в компьютерной лингвистике
2013-08-06 в 9:19, admin, рубрики: Блог компании ABBYY, Блог компании Mail.Ru Group, искусственный интеллект, Компьютерная лингвистика, морфология, метки: Компьютерная лингвистика, морфология
• Роль морфологии в компьютерной лингвистике
• Морфология. Задачи и подходы к их решению
• Псевдолемматизация, композиты и прочие странные словечки
Раньше автоматический перевод работал следующим образом:
- Анализировал формы слов в исходном предложении;
- Пытался подобрать одну из синтаксических схем исходного языка, в которую подошло бы предложение с найденными формами;
- Находил соответствующую синтаксическую схему для целевого языка;
- Находил перевод для каждой из словоформ в исходном предложении;
- Слова-переводы ставил в форму, необходимую для целевой синтаксической схемы.
Современные технологии пытаются пойти дальше. Читать полностью »
Морфология и компьютерная лингвистика для самых маленьких
2013-07-29 в 9:03, admin, рубрики: Блог компании ABBYY, Блог компании Mail.Ru Group, искусственный интеллект, Компьютерная лингвистика, морфология, метки: Компьютерная лингвистика, морфологияНа Хабре уже был пост о Технопарке, и даже рассказы о курсах (1, 2), которые в нем проходят. Сегодня мы публикуем первую часть мастер-класса, который для студентов Технопарка провел Андрей Андрианов из ABBYY.
• Роль морфологии в компьютерной лингвистике
• Морфология. Задачи и подходы к их решению
• Псевдолемматизация, композиты и прочие странные словечки
Для начала не лишним будет вспомнить, что такое морфология, а также какое отношение она имеет к лингвистике. За этим предлагаю пройти под кат к содержимому первого поста серии.
Читать полностью »
Mathlingvo — блог о компьютерной лингвистике
2013-04-16 в 8:01, admin, рубрики: data mining, natural language processing, искусственный интеллект, Компьютерная лингвистика, обработка естественного языка, Поисковые машины и технологии, метки: natural language processing, Компьютерная лингвистика, обработка естественного языкаNatural Language Processing — область, которая становится все популярнее и популярнее в Росссии. Но отдельных ресурсов, посвященных этой теме, в рунете практически нет. Полгода назад на Хабре представляли NLPub, каталог ресурсов по компьютерной лингвистике. Но что делать, если хочешь читать новости? Можно попробовать начать с блога mathlingvo.ru
Создание частотного словаря на основе анализа библиотеки художественной литературы
2012-12-12 в 9:42, admin, рубрики: Компьютерная лингвистика, оптимизация кода, Песочница, Семантическая Сеть, структуры данных, метки: Компьютерная лингвистика, оптимизация кода, структуры данныхОбщий привет.
Недавно, для шлифовки морфологического словаря, способного (предположительно) генерировать все возможные формы слова из инфинитива — мне понадобился достаточно объемный частотный словарь русского языка. Частотный словарь — вещь очень простая, слова в нем упорядочены по частоте, с которой они встречаются в анализируемом тексте.
Читать полностью »
Новые подробности о шифре Copiale 18 века
2012-11-22 в 1:54, admin, рубрики: Компьютерная лингвистика, криптоанализ, криптография, масонство, машинный перевод, революция, шифр подстановки, метки: Компьютерная лингвистика, криптоанализ, масонство, машинный перевод, революция, шифр подстановки
Журнал Wired опубликовал замечательную историю о том, как специалисты по машинному переводу текстов вместе с лингвистами сумели найти ключ к шифру масонского манускрипта 1760-1780-х годов, который никто не мог прочитать с момента его находки в 1970 году и который считался одним из самых трудных шифров в мире. О расшифровке рукописи сообщалось год назад — в октябре 2011 года, тогда были расшифрованы первые 16 страниц текста. С тех пор учёные значительно продвинулись в понимании этого уникального документа, составленного членами ордена Окулистов.
Оказалось, что кроме расшифрованного текста, отдельные символы расшифрованной рукописи означают цифры, которые составляют другую, отдельную шифрограмму, и её пока не удалось расшифровать.
Читать полностью »