Метод генерации с дополнением извлечения (RAG) стал популярным способом связывания больших языковых моделей (LLM) с внешними источниками знаний. Системы RAG обычно используют модель эмбеддингов для кодирования документов в корпусе знаний и выбирают те, которые наиболее соответствуют запросу пользователя.
Дисклеймер 1: это вольный перевод заметки издания Venture Beat. Перевод подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.
Обсудить пилот или задать вопрос об LLM можно здесь.
Однако стандартные методы поиска часто не учитывают контекстуальные детали, способные существенно влиять на специализированные наборы данных. В новой работе исследователи из Корнеллского университета представляют «контекстные эмбеддинги документов» — технику, повышающую эффективность моделей эмбеддингов путем учета контекста, в котором извлекаются документы.
Пределы возможностей би-энкодеров
Наиболее распространенный подход к поиску документов в RAG — использование «би-энкодеров», где модель эмбеддингов создает фиксированное представление каждого документа, сохраняемое в векторной базе данных. Во время вывода рассчитывается эмбеддинг запроса, который затем сравнивается с сохраненными эмбеддингами для обнаружения наиболее релевантных документов.
Би-энкодеры стали популярным выбором для поиска документов в системах RAG благодаря своей эффективности и масштабируемости. Однако они часто испытывают трудности с нюансированными, специфичными для приложения наборами данных, поскольку обучены на общих данных. Фактически, при работе со специализированными корпусами знаний они могут уступать классическим статистическим методам, таким как BM25, в определенных задачах.
«Наш проект начался с изучения BM25, старой школы алгоритмов для текстового поиска», — рассказал VentureBeat Джон (Джек) Моррис, докторант Cornell Tech и соавтор статьи. «Мы провели небольшой анализ и увидели, что чем более данные отличаются от исходной области, тем сильнее BM25 превосходит нейронные сети».
BM25 достигает своей гибкости, вычисляя вес каждого слова в контексте индексируемого корпуса. Например, если слово встречается во многих документах корпуса знаний, его вес будет снижен, даже если это важное ключевое слово в других контекстах. Это позволяет BM25 адаптироваться к специфическим характеристикам различных наборов данных.
«Традиционные модели плотного поиска на основе нейронных сетей не могут этого сделать, поскольку они устанавливают веса один раз, основываясь на обучающих данных», — отметил Моррис. «Мы попытались разработать подход, который мог бы это исправить».
Контекстные эмбеддинги документов
Исследователи из Корнелла предлагают два взаимодополняющих метода для улучшения работы би-энкодеров путем добавления понятия контекста к эмбеддингам документов.
«Если рассматривать поиск как "соревнование" между документами за наиболее релевантный ответ на поисковый запрос, мы используем "контекст", чтобы информировать энкодер о других документах, участвующих в соревновании», — объяснил Моррис.
Первый метод модифицирует процесс обучения модели эмбеддингов. Исследователи используют технику, которая группирует похожие документы перед обучением модели. Затем они применяют контрастивное обучение, чтобы научить энкодер различать документы внутри каждого кластера.
Контрастивное обучение — это метод без учителя, при котором модель обучается различать положительные и отрицательные примеры. Будучи вынужденной различать похожие документы, модель становится более чувствительной к тонким различиям, важным в специфических контекстах.
Второй метод модифицирует архитектуру би-энкодера. Исследователи расширяют энкодер механизмом, который дает ему доступ к корпусу во время процесса кодирования. Это позволяет энкодеру учитывать контекст документа при создании его эмбеддинга.
Расширенная архитектура работает в два этапа. Сначала вычисляется общий эмбеддинг для кластера, к которому принадлежит документ. Затем этот общий эмбеддинг комбинируется с уникальными особенностями документа для создания контекстуализированного эмбеддинга.
Этот подход позволяет модели захватывать как общий контекст кластера документа, так и специфические детали, которые делают его уникальным. Выходные данные по-прежнему представляют собой эмбеддинг того же размера, что и у обычного би-энкодера, поэтому не требуют изменений в процессе поиска.
Влияние контекстных эмбеддингов документов
Исследователи оценили свой метод на различных бенчмарках и обнаружили, что он стабильно превосходит стандартные би-энкодеры аналогичных размеров, особенно в условиях, когда обучающие и тестовые наборы данных значительно различаются.
«Наша модель должна быть полезна для любой области, которая существенно отличается от обучающих данных, и может рассматриваться как недорогая замена тонкой настройки специфичных для области моделей эмбеддингов», — отметил Моррис.
Контекстные эмбеддинги могут использоваться для повышения производительности систем RAG в различных областях. Например, если все ваши документы имеют общую структуру или контекст, обычная модель эмбеддингов будет тратить место в своих эмбеддингах, сохраняя эту избыточную структуру или информацию.
«Контекстные эмбеддинги, с другой стороны, могут увидеть из окружающего контекста, что эта общая информация не полезна, и отбросить ее перед тем, как решить, что именно сохранить в эмбеддинге», — объяснил Моррис.
Исследователи выпустили небольшую версию своей модели контекстных эмбеддингов документов (cde-small-v1). Ее можно использовать как прямую замену для популярных инструментов с открытым исходным кодом, таких как HuggingFace и SentenceTransformers, для создания пользовательских эмбеддингов для различных приложений.
Моррис отмечает, что контекстные эмбеддинги не ограничены моделями на основе текста и могут быть расширены на другие модальности, такие как архитектуры текст-картинка. Также есть возможности для их улучшения с помощью более продвинутых алгоритмов кластеризации и оценки эффективности техники на больших масштабах.
Автор: technokratiya