Метка «морфология»

Яндексу ежедневно приходится отвечать на десятки миллионов запросов. Поисковая система должна уметь быстро и точно их обрабатывать. Без применения лингвистики поисковая система сможет найти только точные совпадения в проиндексированных документах. Чтобы найти релевантные документы, системе необходимо правильно определить язык запроса, исправить опечатки, произвести морфологический разбор каждого слова, расширить запрос синонимами или вообще его переформулировать. В этой лекции Алексей Зобнин постарался дать студентам Малого ШАДа ответы на следующие вопросы:

• Зачем нужно учитывать морфологию?
• Как и зачем мы определяем язык запроса и документа?
• Что такое корпус Языка?
• Что такое языковые модели, и как они применяются в поиске?
• Как производится морфологический анализ несловарных слов?
• Как определить правильное значение и морфологическую парадигму омонимов?
• Какие бывают опечатки, и как мы их исправляем?
• Что такое расширения запроса и чем они могут быть полезны?

Читать полностью »

Представляем вам новую версию Яндекс.Браузера. Наиболее интересные изменения в этой версии:

  • поиск по странице научился понимать морфологию русского языка — насколько нам известно, это первый браузер, который такой поиск поддерживает;
  • появились жесты для управления навигацией в браузере;
  • проводится эксперимент с объединением омнибокса и поисковой строки на странице поискового сервиса;
  • для закладок теперь можно включить отображение фавиконок.

Новая версия Яндекс.Браузера: поиск по странице с учетом морфологии и поддержка жестов
Читать полностью »

Псевдолемматизация, композиты и прочие странные словечки

Содержание цикла статей про морфологию

Не все задачи успели мы с вами обозреть в предыдущем посте, поэтому продолжать будем в этом.

Часто случается, что в интернете появляется какой-нибудь неологизм. Например, «затроллить». Слово «тролль» в словаре есть, но «затролля» уже нет, а, как мы выяснили ранее, приставка при разборе не отделяется от корня, так что мы понятия не имеем, что это за «затроллить» и как его изменять. Чтобы проанализировать это слово, нам придётся воспользоваться псевдолемматизацией. Для этого мы снова пользуемся так называемым обратным деревом окончаний (записанных справа налево).
Читать полностью »

Роль морфологии в компьютерной лингвистике

Содержание цикла статей про морфологию

Морфология и компьютерная лингвистика для самых маленьких
Роль морфологии в компьютерной лингвистике
• Морфология. Задачи и подходы к их решению
• Псевдолемматизация, композиты и прочие странные словечки

Раньше автоматический перевод работал следующим образом:

  1. Анализировал формы слов в исходном предложении;
  2. Пытался подобрать одну из синтаксических схем исходного языка, в которую подошло бы предложение с найденными формами;
  3. Находил соответствующую синтаксическую схему для целевого языка;
  4. Находил перевод для каждой из словоформ в исходном предложении;
  5. Слова-переводы ставил в форму, необходимую для целевой синтаксической схемы.

Современные технологии пытаются пойти дальше. Читать полностью »

Морфология и компьютерная лингвистика для самых маленьких На Хабре уже был пост о Технопарке, и даже рассказы о курсах (1, 2), которые в нем проходят. Сегодня мы публикуем первую часть мастер-класса, который для студентов Технопарка провел Андрей Андрианов из ABBYY.

В цикле будет 4 поста

Морфология и компьютерная лингвистика для самых маленьких
• Роль морфологии в компьютерной лингвистике
• Морфология. Задачи и подходы к их решению
• Псевдолемматизация, композиты и прочие странные словечки

Для начала не лишним будет вспомнить, что такое морфология, а также какое отношение она имеет к лингвистике. За этим предлагаю пройти под кат к содержимому первого поста серии.
Читать полностью »

Бытует мнение, что русская морфология у Яндекса реализована лучше чем у Google. В этой статье я покажу, что дело обстоит ровным счетом наоборот.
image
Читать полностью »

Доброго времени суток, читатели!
Недавно задался целью сделать поиск на своем сайте, написанном на Kohana Framework. Решил использовать именно морфологический поиск, т.к. считаю его более правильным (относительно полнотекстового поиска с применением LIKE). Поиски готовых модулей для Kohana с требующимся функционалом не увенчались успехом, но я нашел отличную библиотеку: phpMorphy, которая замечательно подошла для решения моих задач.
Читать полностью »

Можешь выбрать подходящую к заголовку поста картинку?

«Он видел их семью своими глазами»

Тогда научи робота! Он тоже хочет.

Команда проекта Открытый корпус просит хабралюдей помочь разметить свободно доступный (CC-BY-SA) корпус текстов. Под катом мы расскажем о том, что такое корпус, зачем он нужен, как обстоят дела с корпусами в России и за рубежом, почему так плохо и какой у нас план.

Читать полностью »

У автора нет инвайта, потому он попросил меня выложить сюда его творение.

Написался тут сайт с необычным представлением русского морфологического словаря, будет полезен лингвистам, датамайнерам, NLPшникам и всем интересующимся языком.

Например двумя кликами можно узнать какие и мужские имена на букву П используются чаще остальных и другую подобную статистику.

За основу взят морфологический словарь АОТ (aot.ru)
Проект планируется развивать и по мере возможности добавлять туда всякий полезный и бесполезный инструментарий.

В ближайшем будущем будут:
1. Онлайн–стемминг
2. Частотомерка с базовыми формамиЧитать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js