Наверно, не стоит тут перечислять все поисковые технологии как предысторию вопроса, освещением которого хотелось бы открыть блог нашего проекта на Мегамозге. Заинтересованным читателям они наверняка известны. Отмечу только, что технологии поиска на сайте и в документах не так разнообразны и развиты как поиск в интернете. По заявлениям одного поисковика, для поиска и ранжирования результатов на корпоративных сайтах применяется где-то 100 параметров. Для сравнения, у них же для поиска в интернете применяется более 1000 различных параметров. Естественно, что даже эти 100 параметров на самом деле сводятся к 3-5 технологиям, в которые они входят.
В основном поиск на сайте стараниями разработчиков ограничивается простым поиском по ключевым с учетом близости слов запроса друг к другу, а также разные варианты ранжирования на основе совстречаемости слов. Еще немного морфологии, синонимов и иногда, как например у RCO, учет некоторых аспектов синтаксиса запроса для установки операторов поиска (см. у них на сайте публикацию о поиске). И на этом по сути технологии поиска в ограниченном корпусе документов заканчиваются. Все эти инструменты встроены в поисковые машины Sphinx и Lucene, доступные любому смертному программисту.
В результате для поиска на сайте мы имеем только поиск по ключевым словам, расширенный морфологией и иногда синонимами. Но поиск по сайту — это не поиск в интернет. Результат гораздо хуже. И вот почему.
Читать полностью »