Рубрика «полнотекстовый поиск»

Как построить полнотекстовый поиск с помощью нейронных сетей

2020-10-25 в 10:55, admin, рубрики: machine learning, nlp (natural language processing), Алгоритмы, деревья поиска, машинное обучение, поисковые технологии, полнотекстовый поиск

Почему с помощью обычного полнотекстового поиска сложно искать очень короткие документы и как быть, если хочется это сделать.

Как построить полнотекстовый поиск с помощью нейронных сетей - 1

Читать полностью »

От поиска к исследованию документов в сетевых шарах и файловых помойках

2017-11-23 в 6:48, admin, рубрики: AmBAR, FTP, share, smb, именованные сущности, поиск, полнотекстовый поиск, теги, хранение данных, хранилища данных, шара

В предыдущей статье мы рассказали про наш open-source продукт для поиска данных по шарам и файло-помойкам. С тех пор мы доработали продукт и значительно усовершенствовали поиск, добавив именованные сущности, теги, статистику по запросу и структуру папок. Эти улучшения позволяют переходить от поиска к анализу данных, в статье рассмотрим все это подробней.

Читать полностью »

Поиск документов в сетевых шарах и файловых помойках

2017-10-19 в 14:02, admin, рубрики: AmBAR, FTP, share, smb, поиск, полнотекстовый поиск, хранение данных, хранилища данных, шара

Почти каждый из нас когда-либо работал в компании, где есть всеми ненавистная "файлопомойка" — шара с тысячами документов без какой-либо структуры. И наверняка у каждого был момент, когда ему нужно было что-то в этой помойке отыскать. "А Василич этот отчёт на шару кидал в прошлом месяце, глянь там" — слышали мы от коллеги, а тот самый Василич на вопрос "А в какой папке?" конечно же отвечал "А х… не помню, в общем, сам ищи". И мы погружались в многочасовой ад — бродили по папкам с документами из 90-х, фотографиями котов, договорами вперемешку с анекдотами и прочим шлаком в надежде найти заветный документ.

Читать полностью »

Быстрый полнотекстовый поиск в Redmine

2016-12-14 в 5:49, admin, рубрики: elasticsearch, fulltext search, Help Desk Software, plugin, redmine, Блог компании centos-admin.ru, полнотекстовый поиск, управление проектами

У нас используется система управления проектами и задачами Redmine. Мы продолжаем допиливать ее под свои нужды, чтобы повысить удобство работы и расширить функционал. Очередной задачей стало ускорение поиска.

С тех пор как количество задач в Redmine выросло до нескольких сотен тысяч, время на обработку поискового запроса стало занимать десятки секунд, что недопустимо долго для нас. Поэтому мы решили внедрить полнотекстовый поиск на основе Elasticsearch. Про это и будет данный пост.
Читать полностью »

Разрабатываем систему real-time fulltext-поиска по error-логам на основе ClickHouse от Яндекса

2016-07-02 в 17:03, admin, рубрики: clickhouse, docker, docker он везде, open source, sphinx, полнотекстовый поиск, Программирование, Разработка под Linux, метки: clickhouse, полнотекстовый поиск

В этой статье я расскажу о том, как разработать систему для индексирования и полнотекстового поиска error-логов (или любых других логов) на основе СУБД от Яндекса под названием ClickHouse. Про саму базу Яндекс писал на Хабре сначала когда база была закрытой, а потом когда они её заопенсорсили. База данных в первую очередь предназначена для аналитики и для реализации сервиса Яндекс.Метрика, но может на самом использоваться для чего угодно, если вам подходит загружать данные пачками, удалять их тоже огромными пачками и никогда не обновлять отдельные строки.

Что мы будем делать

Мы будем реализовывать систему для индексирования и поиска по error-логам. При этом, считается, что сами логи вы уже сумели доставить на центральный сервер (или несколько серверов) и уже засунули сами тексты сообщений в базу, то есть у вас уже есть таблица в какой-нибудь базе данных примерно следующего вида:

CREATE TABLE Messages (
    message_id BIGINT PRIMARY KEY AUTO_INCREMENT,
    created_ts DATETIME,
    message_text BLOB
)

Мы научимся быстро отдавать результаты поиска по такому логу (то есть, всегда отсортированные по времени) и индексировать его в режиме реального времени.

Читать полностью »

Полнотекстовый нечеткий поиск с использованием алгоритма Вагнера-Фишера

2016-03-18 в 8:28, admin, рубрики: алгоритм Вагнера-Фишера, Алгоритмы, нечеткий поиск, полнотекстовый поиск, Программирование, расстояние Левенштейна, метки: алгоритм Вагнера-Фишера, алгоритм Дамерау-Левенштейна

Статья написана об использовании алгоритма вычисления расстояния Левенштейна для нечеткого поиска в тексте, без использования вспомогательного словаря.

Расстояние Левенштейна используется для сравнения двух слов или двух строк, чтобы определить их схожесть. Некоторое время назад передо мной встала схожая задача — в заданной строке искать вхождение слов, словосочетаний и формул, похожих на образец.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «полнотекстовый поиск»

Как построить полнотекстовый поиск с помощью нейронных сетей

Быстрый полнотекстовый поиск в Redmine

Разрабатываем систему real-time fulltext-поиска по error-логам на основе ClickHouse от Яндекса

Что мы будем делать

Полнотекстовый нечеткий поиск с использованием алгоритма Вагнера-Фишера