Главная

Рубрика «fuzzy search»

Продуктовый поиск на ElasticSearch

2025-03-29 в 15:51, admin, рубрики: elasticsearch, elk, fuzzy search, rag, поиск, продуктовый подход

Введение
Видение
Подготовка (ака тоже лайфхак)
Лайфхак (без кода пока что)
Метрики

Введение

Из-за санкций, Elasticsearch многие стали отвергать. Единственное, что его спасает, это RAG'и шмаги. Я первую работу выбрала в поисковом отделе, для меня это было завлекательнее, чем datascience, с которым я была уже знакома. 8 лет назад начала изучать эластик. Наработалась "интуиция" на его функционал, так как с нуля я делала поиск для других компаний несколько раз. Поиск текстовый, GEO поиск, подсказки для поиска (suggester) и с МЛ'ем которым майнились синонимы или кластеризовались запросы.

Читать полностью »

Алгоритм нечеткого поиска TextRadar — основные подходы

2019-11-06 в 9:09, admin, рубрики: fuzzy search, textradar, Алгоритмы, нечеткий поиск, нечеткое сравнение строк

Алгоритм нечеткого поиска TextRadar — основные подходы

В отличие от нечеткого сравнения строк, когда обе сравниваемых строки равнозначны, в задаче нечеткого поиска выделяются строка поиска и строка данных, а определить необходимо не степень похожести двух строк, а степень присутствия строки поиска в строке данных.

Постановка задачи

Даны строка данных и строка поиска как произвольные наборы символов, состоящих из слов – групп символов, разделенных пробелами.

Требуется найти в строке данных наиболее близкий к строке поиска по составу и взаимному расположения символов набор фрагментов.

Для оценки качества результата поиска вычислить коэффициент, значение которого должно лежать в диапазоне от 0 до 1, где 0 должен соответствовать полному отсутствию символов строки поиска в строке данных, а 1 – наличию строки поиска в строке данных в неискаженном виде.

Поиск должен осуществляться путем посимвольного анализа исходных строк, с учетом взаимного расположения символов и слов в строках, но без учета синтаксиса и морфологии языка.

Описание алгоритма

Поиск осуществляется в несколько этапов.

Построение матрицы совпадений

Матрица совпадений (M) представляет собой двумерную матрицу, количество столбцов которой соответствует длине строки данных, а количество строк – длине строки поиска. Элементы матрицы совпадений принимают значения 0 или 1 в зависимости от того, совпадают или нет соответствующие символы строк за исключением пробелов (разделителей слов).
Матрица совпадений для строки данных «ABCD EF» и строки поиска «ABC» имеет вид:

Читать полностью »

Нечеткий поиск в словаре с универсальным автоматом Левенштейна. Часть 2

2016-01-27 в 15:34, admin, рубрики: FB-Trie, fuzzy search, Levenshtein automaton, natural language processing, similarity search, автомат Левенштейна, Алгоритмы, нечеткий поиск, поиск по сходству, поисковые технологии

В первой части статьи мы рассмотрели универсальный автомат Левенштейна — мощный инструмент для фильтрации слов, отстоящих от некоторого слова W на расстояние Левенштейна не более заданного. Теперь пришло время изучить способы применения этого инструмента для эффективного решения задачи нечеткого поиска в словаре.

Читать полностью »

Нечеткий поиск в словаре с универсальным автоматом Левенштейна. Часть 1

2016-01-26 в 15:07, admin, рубрики: fuzzy search, Levenshtein automaton, natural language processing, similarity search, автомат Левенштейна, Алгоритмы, нечеткий поиск, поиск по сходству, поисковые технологии, метки: fuzzy search, нечеткий поиск

Нечеткий поиск строк является весьма дорогостоящей в смысле вычислительных ресурсов задачей, особенно если вам необходима высокая точность получаемых результатов. В статье описан алгоритм нечеткого поиска в словаре, который обеспечивает высокую скорость поиска при сохранении 100% точности и сравнительно низком потреблении памяти. Именно автомат Левенштейна позволил разработчикам Lucene повысить скорость нечеткого поиска на два порядка
Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Обсуждаемое

Рекомендуем

Рубрика «fuzzy search»

Продуктовый поиск на ElasticSearch

Введение

Алгоритм нечеткого поиска TextRadar — основные подходы

Алгоритм нечеткого поиска TextRadar — основные подходы

Постановка задачи

Описание алгоритма

Построение матрицы совпадений

Нечеткий поиск в словаре с универсальным автоматом Левенштейна. Часть 2

Нечеткий поиск в словаре с универсальным автоматом Левенштейна. Часть 1

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «fuzzy search»

Продуктовый поиск на ElasticSearch

Введение

Алгоритм нечеткого поиска TextRadar — основные подходы

Алгоритм нечеткого поиска TextRadar — основные подходы

Постановка задачи

Описание алгоритма

Построение матрицы совпадений

Нечеткий поиск в словаре с универсальным автоматом Левенштейна. Часть 2

Нечеткий поиск в словаре с универсальным автоматом Левенштейна. Часть 1

Новости

Актуальные темы

Архив