Улучшаем релевантность поиска в sphinxsearch

2012-07-16 в 14:16, admin, рубрики: sphinx, Поисковые машины и технологии, метки: sphinx

Улучшаем релевантность поиска в sphinxsearch Sphinxsearch является поисковым движком для быстрого fulltextsearch, может получать данные из mysql, oracle и mssql, может выступать сам хранилищем(realtime индексы). Также sphinx имеет режим работы через api и через sphinxql — аналог протокола sql(с некоторыми ограничениями), что позволяет подключить поиск через sphinx на сайте с минимальным изменением кода. Это один из немногих великих, крупных и открытых проектов разработанный в России. На моей жизни я видел как sphinx обрабатывает порядка 100-200 поисковых запросов на 2 миллиона записей из mysql и при этом сервер свободно дышал и его не тошнило, mysql начинает умирать уже на 10 запросах в секунду на аналогичном конфиге.

Основная проблема документации sphinx на мой взгляд малое количество примеров для большинства интересных настроек, сегодня постараюсь рассказать в примерах о них. Опции которые я затрону касаются в основном алгоритмов и вариаций поиска. Все плотно работает со sphinx не узнают ничего нового, а новички надеюсь смогут улучшить качество поиска на своих сайтах.

Sphinx содержит две независимые программы indexer и searchd. Первый строит индексы по данным взятым из базы данных, второй производит поиск по построенном индексу. А теперь перейдем к настройкам поиска в sphinx.

morphology

Позволяет задать морфологию слов, я использую только стемминг. Алгоритм стемминга с помощью набора правил для языка обрезает окончания и суффиксы. Стемминг не использует готовые базы слов, а основан на определенных правилах обрезания для языка, что делает его маленьким и быстрым, но это же и добавляет ему минусы так как он может совершать ошибки.

Пример нормализации слова стеммингом на русском.
Слова “яблоко”, “яблока”, “яблоку” будут обрезаны в “яблок” и любой поисковый запрос с вариацией слова “яблока” будет тоже нормализован и найдет записи со словами которые были описаны выше.

Для английского слова “dogs” и “dog” будут нормализованы к “dog”.
К примеру в sphinx должен положить в индекс слово кучерявый, в индекс попадет слово кучеряв и будут находиться вариации кучеряво, кучерявая и др.
Включить стемминг можно для русского, английского или обоих языков

morphology = stem_en
morphology = stem_ru
morphology = stem_enru

Также можно использовать опции Soundex и Metaphone они позволяют использовать для английского языка с учетом звучания слов. Не использую в работе данные алгоритмы морфологии так что если кто то знает много про них буду рад почитать. Для русского языка такие алгоритмы позволяли бы получать из слов “солнце” и “сонце” нормализованную форму “солнце”, которая получается на основании звучания и произношения этих слов.

morphology = stem_enru, Soundex, Metaphone

Можно подключать и внешние движки для морфологии или написать свой.

Wordforms

Позволяет подключать свои словари словоформ, хорошо применяется на специализированных тематических сайтах, имеет хороший пример в документации.

core 2 duo > c2d
e6600 > c2d
core 2duo > c2d

Позволит найти статью о core 2 duo для любого поискового запроса от модели до вариаций названия.

конопля > травка
дурь > травка
моя прелесть > травка
трава свободы > травка
че покурить > травка
есть чё > травка

А данный словарь позволит вашим пользователя легко найти информацию о травке на сайте.

Для словоформ используются файлы в формате ispell или MySpell(которые можно сделать в Open Office)

wordforms = /usr/local/sphinx/data/wordforms.txt

enable_star

Позволяет использовать звездочки в запросах, к примеру по запросу *пр* будут найдены проспект, привет, апроксимация и др.

enable_star = 1

expand_keywords

Автоматически расширяет поисковый запрос до трех запросов

running -> ( running | *running* | =running )

Просто слово с морфологией, слово со звездочками и полное совпадения слова. Раньше этой опции не было и чтобы поискать со звездочками мне приходилось вручную делать дополнительный запрос, сейчас все включается одной опцией. Так же автоматом полное совпадение будет в поисковой выдаче выше чем поиск со звездочками и морфологией.

expand_keywords = 1

index_exact_words

Позволяет на ряду с морфологически нормализованной формой хранить и оригинальное слово в индексе. Это сильно увеличивает размер индекса, но с учетом предыдущей опции позволяет выдавать результаты более релевантно.

К примеру есть три слова “дыня”, “дыне”, “дыню” без этой опции все три слова будут сохранены в индексе как дын и на запрос “дыне” будут выданы в порядке добавления в индекс то есть “дыня”, “дыне”, “дыню”.
Если же включить опции expand_keywords и index_exact_words то на запрос “дыне” будет более релевантная выдача “дыне”, “дыня”, “дыню”.

index_exact_words = 1

min_infix_len

Позволяет индексировать части слова инфиксы, и искать по ним с применением *, вроде search*, *search и *search*.
К примеру при min_infix_len = 2 и попаданию в индекс слова “тест”, будут сохранены в индекс “те”, “ес”, “ст”, “тес”, “ест”, “тест” и по запросу “ес” будет найдено это слово.

Обычно я использую

min_infix_len = 3

Меньшее значение генерит слишком много мусора и помните что использование этой опции сильно увеличивает индекс.

min_prefix_len

Является дочерним для min_infix_len и делает почти тоже самое только сохраняет начало слов или префиксы.
К примеру при min_infix_len = 2 и попаданию в индекс слова “тест”, будут сохранены в индекс “те”, “тес”, “тест” и по запросу “ес” будет найдено это слово.
min_prefix_len = 3

min_word_len

Минимальный размер слова для индексации, по умолчанию 1 и индексирует все слова.
Обычно использую
min_word_len = 3
Слова меньшего размера обычно не несут смысловой нагрузки.

html_strip

Вырезает все html теги и html комментарии. Эта опция актуально если вы строите свой google/yandex на базе sphinxsearch. Запустили спайдера спарсили сайт, загнали его в базу данных, натравили indexer и эта опция позволит избавиться от хлама в виде html тегов и искать только по контенту сайта.

Сам к сожалению не использовал, но в документации написано что может косячить со всякими xml и не стандартным html(к примеру где попало открывающимся и закрывающимся тегам и пр).

html_strip = 1

Буду рад любым вопросам и уточнениям.
Офсайт sphinxsearch.com

Автор: opium

Информация

Обсуждаемое

Рекомендуем