Рубрика «нечеткий поиск»

Postgres как поисковый движок

2025-03-06 в 14:15, admin, рубрики: postgresql, нечеткий поиск, поисковый движок, полнотекстовый, семантический поиск

Поиск — это сложно. Важная часть многих приложений, которую нелегко реализовать правильно. Особенно в случае с RAG-пайплайнами, где на качество поиска завязан весь процесс.

Хотя семантический поиск в моде, старый добрый лексический поиск по-прежнему остается базой. Семантические методы могут улучшить результаты, но эффективнее всего они работают, когда добавляются к прочному фундаменту текстового поиска.

Читать полностью »

Алгоритм нечеткого поиска TextRadar — основные подходы

2019-11-06 в 9:09, admin, рубрики: fuzzy search, textradar, Алгоритмы, нечеткий поиск, нечеткое сравнение строк

Алгоритм нечеткого поиска TextRadar — основные подходы

В отличие от нечеткого сравнения строк, когда обе сравниваемых строки равнозначны, в задаче нечеткого поиска выделяются строка поиска и строка данных, а определить необходимо не степень похожести двух строк, а степень присутствия строки поиска в строке данных.

Постановка задачи

Даны строка данных и строка поиска как произвольные наборы символов, состоящих из слов – групп символов, разделенных пробелами.

Требуется найти в строке данных наиболее близкий к строке поиска по составу и взаимному расположения символов набор фрагментов.

Для оценки качества результата поиска вычислить коэффициент, значение которого должно лежать в диапазоне от 0 до 1, где 0 должен соответствовать полному отсутствию символов строки поиска в строке данных, а 1 – наличию строки поиска в строке данных в неискаженном виде.

Поиск должен осуществляться путем посимвольного анализа исходных строк, с учетом взаимного расположения символов и слов в строках, но без учета синтаксиса и морфологии языка.

Описание алгоритма

Поиск осуществляется в несколько этапов.

Построение матрицы совпадений

Матрица совпадений (M) представляет собой двумерную матрицу, количество столбцов которой соответствует длине строки данных, а количество строк – длине строки поиска. Элементы матрицы совпадений принимают значения 0 или 1 в зависимости от того, совпадают или нет соответствующие символы строк за исключением пробелов (разделителей слов).
Матрица совпадений для строки данных «ABCD EF» и строки поиска «ABC» имеет вид:

Читать полностью »

Расстояние Левенштейна в MySQL и алгоритмы нечёткого поиска средствами PHP

2017-11-15 в 8:41, admin, рубрики: levenshtein, metaphone, mysql, php, similar_text, алгоритм Оливера, Алгоритмы, метафон, нечеткий поиск, поисковые технологии, расстояние дамерау-левенштейна, расстояние Левенштейна

Знаменитый советский и российский математик Владимир Иосифович Левенштейн (кстати, ушедший из жизни два с небольшим месяца назад) в начале второй половины прошлого века ввёл понятие дистанции редактирования, которым мы пользуемся по сей день в различных сферах — от поисковых систем до биоинформатики. В этой статье мы применим его принцип для нечёткого поиска в MySQL (поскольку MySQL на данный момент пока не предлагает встроенного решения), вычислив самый эффективный (т.е. быстрый) способ из нескольких найденных в интернете, построим алгоритм такого поиска и реализуем его на PHP.

Читать полностью »

Нахождение похожих имен средствами MySQL+PHP

2017-05-02 в 7:53, admin, рубрики: mysql, php, нечеткий поиск, поисковые технологии, триграммный индекс

Тема, озвученная в заголовке статьи, не нова. На просторах Интернета можно найти множество вопросов, как ее реализовать, а вот ответов несколько меньше. И не редко они сводятся к советам использовать продукты сторонних разработчиков, например, Sphinx. Но зачастую в использовании таких громоздких надстроек нет необходимости.
Читать полностью »

Создание поиска по библиотеке юным программистом — каково это?

2016-06-23 в 7:12, admin, рубрики: ABBYY, android, ocr, ruby on rails, библиотека, нечеткий поиск, Никита Куликов, оцифровка библиотеки, поисковые технологии, Разработка под android, школьный проект

На днях наткнулся на публикацию моего ровесника, и она побудила меня написать и свою историю о своем проекте, который абсолютно так же не помог, а только помешал поступлению в ВУЗ.

Вступление

В один прекрасный денек я зашёл в библиотеку за одним рассказом. Сказав название и автора рассказа библиотекарю, получил стопку сборников данного автора. Для того чтобы найти среди всего этого многообразия нужный рассказ, пришлось перебрать все произведения. Намного легче было бы «загуглить» нужное произведение и получить желаемое в несколько кликов.
Читать полностью »

Полнотекстовый нечеткий поиск с использованием алгоритма Вагнера-Фишера

2016-03-18 в 8:28, admin, рубрики: алгоритм Вагнера-Фишера, Алгоритмы, нечеткий поиск, полнотекстовый поиск, Программирование, расстояние Левенштейна, метки: алгоритм Вагнера-Фишера, алгоритм Дамерау-Левенштейна

Статья написана об использовании алгоритма вычисления расстояния Левенштейна для нечеткого поиска в тексте, без использования вспомогательного словаря.

Расстояние Левенштейна используется для сравнения двух слов или двух строк, чтобы определить их схожесть. Некоторое время назад передо мной встала схожая задача — в заданной строке искать вхождение слов, словосочетаний и формул, похожих на образец.
Читать полностью »

Материал по работе с Apache Lucene и созданию простейшего нечёткого поиска

2016-02-18 в 16:17, admin, рубрики: Apache, java, lucene, нечеткий поиск

Пост расcчитан на начинающих, на людей незнакомых с технологией Apache Lucene. В нем нет материала о том, как устроен Apache Lucene внутри, какие алгоритмы, структуры данных и методы использовались для создания фреймворка. Пост является обучающим материалом-тизером, написанным для того, чтобы показать, как организовать простейший нечёткий поиск по тексту. В качестве материала для обучения предоставлен код на github, сам пост в качестве документации и немного данных для тестирования поисковых запросов.

Материал по работе с Apache Lucene и созданию простейшего нечёткого поиска - 1

Читать полностью »

Нечеткий поиск в словаре с универсальным автоматом Левенштейна. Часть 2

2016-01-27 в 15:34, admin, рубрики: FB-Trie, fuzzy search, Levenshtein automaton, natural language processing, similarity search, автомат Левенштейна, Алгоритмы, нечеткий поиск, поиск по сходству, поисковые технологии

В первой части статьи мы рассмотрели универсальный автомат Левенштейна — мощный инструмент для фильтрации слов, отстоящих от некоторого слова W на расстояние Левенштейна не более заданного. Теперь пришло время изучить способы применения этого инструмента для эффективного решения задачи нечеткого поиска в словаре.

Читать полностью »

Нечеткий поиск в словаре с универсальным автоматом Левенштейна. Часть 1

2016-01-26 в 15:07, admin, рубрики: fuzzy search, Levenshtein automaton, natural language processing, similarity search, автомат Левенштейна, Алгоритмы, нечеткий поиск, поиск по сходству, поисковые технологии, метки: fuzzy search, нечеткий поиск

Нечеткий поиск строк является весьма дорогостоящей в смысле вычислительных ресурсов задачей, особенно если вам необходима высокая точность получаемых результатов. В статье описан алгоритм нечеткого поиска в словаре, который обеспечивает высокую скорость поиска при сохранении 100% точности и сравнительно низком потреблении памяти. Именно автомат Левенштейна позволил разработчикам Lucene повысить скорость нечеткого поиска на два порядка
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «нечеткий поиск»

Postgres как поисковый движок

Алгоритм нечеткого поиска TextRadar — основные подходы

Алгоритм нечеткого поиска TextRadar — основные подходы

Постановка задачи

Описание алгоритма

Построение матрицы совпадений

Расстояние Левенштейна в MySQL и алгоритмы нечёткого поиска средствами PHP

Нахождение похожих имен средствами MySQL+PHP

Создание поиска по библиотеке юным программистом — каково это?

Вступление

Полнотекстовый нечеткий поиск с использованием алгоритма Вагнера-Фишера

Материал по работе с Apache Lucene и созданию простейшего нечёткого поиска

Нечеткий поиск в словаре с универсальным автоматом Левенштейна. Часть 2

Нечеткий поиск в словаре с универсальным автоматом Левенштейна. Часть 1