Представьте, что вы предоставляете своему ИИ конкретные релевантные документы (или фрагменты), которые он может быстро просмотреть, чтобы найти необходимую информацию, прежде чем ответить на ваши вопросы. То есть, вместо поиска по всей базе данных (которая может не поместиться в контекстное окно модели LLM, или даже если поместится, это потребует много токенов для ответов), мы предоставляем LLM только релевантные документы (фрагменты), которые ему необходимо найти, чтобы ответить на вопрос пользователя.
Рубрика «семантический поиск»
Создаем простую систему RAG на Python
2025-12-25 в 14:09, admin, рубрики: ml, rag, векторный поиск, генеративные модели, семантический поиск, эмбеддингиPostgres как поисковый движок
2025-03-06 в 14:15, admin, рубрики: postgresql, нечеткий поиск, поисковый движок, полнотекстовый, семантический поиск
Поиск — это сложно. Важная часть многих приложений, которую нелегко реализовать правильно. Особенно в случае с RAG-пайплайнами, где на качество поиска завязан весь процесс.
Хотя семантический поиск в моде, старый добрый лексический поиск по-прежнему остается базой. Семантические методы могут улучшить результаты, но эффективнее всего они работают, когда добавляются к прочному фундаменту текстового поиска.
Миллиарды векторов и немного магии: превращаем сырые данные с маркетплейсов в пригодные для анализа
2025-02-21 в 5:59, admin, рубрики: big data, faiss, аналитика, искусственный интеллект, маркетплейсы, нейросети, обработка изображений, семантический поиск, эмбеддингиПривет! Я — Игорь Старун, BigData Lead в MPSTATS. Я уже 3 года занимаюсь анализом данных на маркетплейсах, штудируя гигантские объёмы информации и превращая их из непотребного и нечитаемого вида в удобоваримый и анализируемый. Моя задача — собрать и подготовить данные так, чтобы помочь продавцам на маркетплейсах разобраться, что происходит с их товарами, конкурентами и продажами, чтобы они не утонули в хаосе карточек, цен и остатков. В этой статье я расскажу, как мы перерабатываем эти объемы грязных данных и структурируем для дальнейшего анализа.
Данные о товарах – это основа всего.Читать полностью »
База данных сниппетов со смысловым поиском: что «под капотом»
2025-02-11 в 6:45, admin, рубрики: administration, bash, cheatsheets, opensearch, support, базы данных, семантический поиск, сниппеты, языковые моделиХочу поддержать жанр статей «что под капотом» и рассказать подробности реализации проекта code-magic.com — базы данных сниппетов со смысловым поиском.
Как появилась идея проекта
Семантический поиск (homemade)
2024-08-07 в 5:15, admin, рубрики: AI, BERT, deep learning, machine learning, nlp, sentence transformer, Transformers, обработка естественного языка, семантический поиск
Основой семантического поиска может являться ML задача Sentence Similarity, а если быть еще конкретнее, то это Semantic Textual Similarity. Модели, обученные под эту задачу, способны оценивать насколько близки предложения по своему смыслу. Всё, что нам дальше остается, так это засунуть модель в некоторую поисковую систему, но тут давайте по порядку.
Что должен знать о поиске каждый разработчик
2017-10-12 в 7:03, admin, рубрики: Alconost, big data, elasticsearch, Алгоритмы, Блог компании Alconost, запросы, индекс, индексирование, информационный поиск, машинное обучение, поиск, поисковая система, поисковые технологии, разработка, ранжирование поиска, семантический поиск, функция поискаХотите внедрить или доработать функцию поиска? Вам сюда.

Спросите разработчика: «Как бы вы реализовали функцию поиска в своем продукте?» или «Как создать поисковую систему?». Вероятно, в ответ вы услышите что-нибудь такое: «Ну, мы просто запустим кластер Elasticsearch: с поиском сегодня всё просто».
Но так ли это? Во многих современных продуктах по-прежнему не лучшим образом реализован поиск. Настоящий специалист по поисковым системам скажет вам, что лишь немногие разработчики глубоко понимают, как работает поиск, а ведь это знание часто необходимо для улучшения качества поиска.
Есть множество программных пакетов с открытым исходным кодом, проведено немало исследований, однако лишь немногие избранные понимают, как нужно делать функциональный поиск. Как ни забавно, но если поискать в Интернете связанную с реализацией поиска информацию, вы не найдете актуальных и содержательных обзоров.
Цель статьи
Этот текст можно считать собранием ценных идей и ресурсов, которые могут помочь в создании функции поиска. Статья, безусловно, не претендует на исчерпывающую полноту, однако я надеюсь, что ваши отзывы помогут ее доработать (оставляйте замечания в комментариях или свяжитесь со мной).
Основываясь на опыте работы с универсальными решениями и узкоспециализированными проектами самого разного масштаба (в компаниях Google, Airbnb и нескольких стартапах), я расскажу о некоторых популярных подходах, алгоритмах, методах и инструментах.
Недооценка и непонимание масштабов и сложности задачи поиска могут привести к тому, что у пользователей останутся плохие впечатления, разработчики потратят время впустую, а продукт провалится.
Переведено в Alconost
Читать полностью »
