Яндексу ежедневно приходится отвечать на десятки миллионов запросов. Поисковая система должна уметь быстро и точно их обрабатывать. Без применения лингвистики поисковая система сможет найти только точные совпадения в проиндексированных документах. Чтобы найти релевантные документы, системе необходимо правильно определить язык запроса, исправить опечатки, произвести морфологический разбор каждого слова, расширить запрос синонимами или вообще его переформулировать. В этой лекции Алексей Зобнин постарался дать студентам Малого ШАДа ответы на следующие вопросы:
• Зачем нужно учитывать морфологию?
• Как и зачем мы определяем язык запроса и документа?
• Что такое корпус Языка?
• Что такое языковые модели, и как они применяются в поиске?
• Как производится морфологический анализ несловарных слов?
• Как определить правильное значение и морфологическую парадигму омонимов?
• Какие бывают опечатки, и как мы их исправляем?
• Что такое расширения запроса и чем они могут быть полезны?
Изначально лекция рассчитана на старшеклассников, но и взрослые смогут почерпнуть из нее много полезного.
Презентацию можно скачать здесь.
Лекции Малого ШАДа посвящены информатике, математике, лингвистике и смежным областям знаний.
Докладчики — ведущие ученые, специалисты наукоёмких компаний и преподаватели известных вузов. После каждой лекции проходит дискуссия со слушателями и ответы на вопросы.
Мы стараемся сохранить в нашей аудитории неформальную атмосферу выездных школ и конференций. Лекции полностью независимы друг от друга, и слушатели могут свободно выбирать интересные темы. Занятия бесплатные.
Автор: elcoyot