В 2024 году популярными словами и постоянной темой для обсуждения в IT были большие языковые модели (LLM), обработка естественного языка (NLP), искусственный интеллект и создание ценностей. Однако вкатиться в эту экосистему без подготовки может быть довольно сложно. Давайте начнём с того, что рассмотрим понятие генерации с дополненной выборкой (Retrieval Augmented Generation, RAG), чтобы лучше понять эту технологию и возможность её использования в наших цифровых продуктах.
RAG — это инновационная технология на основе ИИ, которая улучшает генерацию текста путём использования информации, получаемой из внешних источников. Она состоит из поисковика, который ищет релевантную информацию в большой базе знаний, и генератора, который использует эту информацию, чтобы сформировать точный ответ, учитывающий контекст.
Сейчас эта модель имеет несколько сценариев использования: от систем Q&A и чат-ботов до инструментов создания кратких пересказов документов. Во всех сценариях она делает генерируемый ответ надёжным и информативным. Самая большая трудность, с которой сталкиваются крупные компании, — фрагментированное хранилище данных, которое находится внутри их экосистемы. Оно значительно снижает эффективность архитектуры и её способность генерировать полезные результаты на основе данных, находящихся в этом хранилище. Продвинутые системы на основе RAG предоставляют крайне эффективный метод унификации фрагментированных данных, при котором не приходится жертвовать безопасностью и стандартами соответствия требованиям. Также они делают более удобной визуализацию информации из нескольких источников.
Сложности в организации и внедрении данных: проблема фрагментации данных
Компаниям приходится иметь дело со множеством различных проблем, связанных с распределением данных по нескольким системам и озёрам данных. Данные могут храниться в персональных системах, на сайтах SharePoint, в облачных хранилищах и, конечно, в вездесущих Excel-таблицах, где они, в свою очередь, распределены по нескольким листам. Процесс извлечения данных из таких хранилищ может быть муторным и довольно сложным, а потеря достоверности данных может приводить к неудовлетворительному пользовательскому опыту.
На более высоком уровне абстракции ландшафт данных можно отнести к одной из двух категорий:
-
структурированные данные,
-
неструктурированные данные.
Обе категории данных могут присутствовать в экосистеме компании, однако неструктурированные данные составляют 80% данных организации, к которым сложно получить доступ и по которым сложно получить полезные результаты.

Если говорить более подробно, неструктурированные данные могут встречаться в разных отраслях, где данные фрагментированы и распределены по различным файловым структурам, например: PDF, DOCX, XLSX, JPG, CSV.
Один из примеров — гигантский айсберг данных в экосистемах финансового сектора (коммерческие и частные банки, частные инвестиции, страховые компании), где проектные и организационные документы, правила, а также управление их файлами — это серьёзная головная боль. Стратегии преобразования для обогащения неструктурированных данных перечислены ниже. Они используются, чтобы данные можно было сделать более удобоваримыми для систем, выполняющих их дальнейшую обработку или анализ, и привлекательными для бизнес-аудитории, которая сможет извлекать ценность из неструктурированных источников данных.

Таким образом, технология RAG становится актуальной для решения этой проблемы в рамках экосистемы компании. Она позволяет дополнить извлечение информации из всех документов, лежащих в неструктурированном озере данных внутри организации, а это даёт возможность лучше извлекать ценность из информации, что в свою очередь поможет:
-
В извлечении и триангуляции с использованием данных клиентов и организаций.
-
Снижении уровня ошибок при генерации аналитических данных.
-
Улучшении аналитики и графических представлений данных для стейкхолдеров и руководителей высшего звена и, следовательно, в принятии ими информированных решений.
Этапы настройки большой языковой модели: основы эффективного использования RAG
Технология RAG улучшает большие языковые модели, позволяя им получать доступ к информации из пользовательских баз знаний и документов, которые обычно не являются частью стандартной модели этого типа, и интегрировать данную информацию. Это гарантирует результаты, которые учитывают контекст и согласованы с конкретными репозиториями документов, относящимися к организации. Чтобы оптимизировать внедрение LLM, организации могут сосредоточить свои усилия по настройке на одном из трёх стратегических направлений для разработки индивидуального решения. То, на какой из ступеней следует фокусироваться, определяют исходя из соображений стоимости.
1. Настройка на уровне ввода
Это экономичный подход, который позволяет оптимизировать производительность модели либо с помощью проектирования/настройки запроса к LLM, либо с помощью внедрения RAG. Эффективное использование этого подхода демонстрируют медицинские организации: они адаптируют свои системы таким образом, чтобы те могли обрабатывать специализированную медицинскую терминологию и клиническую документацию с учётом определённого географического региона и его контекста.
2. Настройка на уровне модели
Этот подход фокусируется на составлении векторных баз данных и методов встраивания эмбеддингов (векторных репрезентаций слов) при обучении моделей на данных организации. Хотя при этом подходе затраты увеличиваются, его использование может быть более подходящим решением для крупных бизнесов, которые могут позволить себе отдел R&D. Применение подхода можно продемонстрировать на примере платформ электронной коммерции: они интегрируют истории покупок клиентов со своими системами рекомендаций, чтобы настроить опыт покупок под каждого пользователя. Это позволяет им сокращать отток клиентов и привлекать новых покупателей.
3. Настройка на уровне выходных данных
Хотя этот подход более ресурсоёмкий, он обеспечивает точное соответствие организационным целям и оказывается особенно ценным для инновационных приложений. Этот уровень настройки даёт наивысшую степень контроля над выходными данными системы, поэтому он подходит для специализированных случаев использования, требующих уникальных форматов или стандартов выходных данных.
Каждый уровень настройки — это определённый баланс между стоимостью внедрения, сложностью эксплуатации и оптимизацией производительности, а принятие решения о выборе одного из уровней во многом зависит от того, что компания может себе позволить. На основе параметров стоимости компания может выбрать наиболее подходящий подход, который соответствует её требованиям.
Настройка входных данных может быть более подходящей для небольших компаний или для ограниченного сценария использования, однако, когда бюджет проекта превышает миллионы долларов, чаще прибегают к настройке моделей и настройке выходных данных.

Ниже описываем степень сложности и параметры стоимости экосистемы организации на уровне настройки модели и настройки выходных данных.

Техническая архитектура
Архитектура модели RAG может варьироваться от самого простого извлечения векторных данных из хранилища до постепенно усложняющегося ландшафта агентного ИИ. Однако ниже приведено представление минималистичной архитектуры для RAG, которая может работать с разнородными типами данных, что позволяет системе принимать пользовательский ввод и генерировать релевантный пользовательский вывод. Эту архитектуру можно масштабировать для включения в неё более сложных методов, при этом общий каркас остаётся прежним.

1. Модуль обработки запросов (ввод)
Система начинает свою работу с обработки входных запросов, включая продвинутые методы подготовки данных. Она состоит из тщательных операций очистки данных и расширенных процессов преобразования, которые оптимизируют входные данные для последующих этапов обработки.
2. Механизм модуля извлечения обработанной информации
Этот модуль отвечает за главную задачу: извлечение информации на основе обработанных запросов. Механизм извлечения использует различные методы, чтобы получить точную и релевантную информацию из базы знаний.
3. Модуль вывода: интеграция языковой модели
Система использует новейшие возможности языковой модели, которые обычно включают в себя такие решения, как OpenAI или Claude, и дополняет их пользовательскими данными, чтобы создавать ответы, соответствующие контексту.
Интеграция векторной базы данных
Векторная база данных выступает в качестве базовой инфраструктуры для всего потока RAG. Среди её основных функций — хранение и извлечение векторных вложений для различных типов данных, включая текст, видео и аудио.
Разбивка информации на значимые векторные представления (контекстные векторы), последующая кластеризация на основе лингвистического паттерна и выполнение запроса с помощью метода k-NN (k ближайших соседей), который эффективно анализирует большие объёмы данных, позволяют синтезировать наиболее значимую информацию для генерации вывода с помощью движка OpenAI.
Ниже представлена схема конвейера векторной базы данных и того, на каком этапе он используется в RAG:

Поток процесса в RAG

Веб-интерфейс конвейера RAG

Короче говоря, архитектура RAG расширяет возможности LLM за счёт включения внешней информации с помощью механизмов извлечения, позволяя LLM генерировать более точные и контекстуально обоснованные результаты, соответствующие вводимым пользователем данным.
Примеры использования RAG

Системы RAG в продакшне: текущие варианты использования и применения
1. Интеграция управления корпоративными знаниями. Организации используют системы на базе RAG, чтобы обеспечивать поиск на естественном языке в своих базах знаний и предоставлять доступ к критически важной информации между отделами. Крупнейшие мировые организации уже применяют такие системы, чтобы сделать документацию по политикам и корпоративные знания более доступными и эффективными.
2. Улучшение работы службы поддержки клиентов. Виртуальные ассистенты на базе RAG делают всё возможное, интегрируя различные источники данных, чтобы помочь полностью решить запросы клиентов. Сообщается, что внедрение таких чат-ботов с поддержкой RAG только в телекоммуникационных компаниях сокращает время отклика на 30%, тем самым повышая показатели удовлетворённости клиентов.
3. Автоматизация финансового контроля и аудита. Финансовые учреждения переходят на системы RAG, чтобы автоматизировать процессы, связанные с соблюдением нормативных требований и обработкой данных в режиме реального времени. Использование систем RAG обеспечивает мгновенный поиск документов, автоматизированные процедуры аудита, соответствие нормативным требованиям и минимизирует необходимость ручного вмешательства.
4. Интеллектуальные рекомендации по продажам и контенту. Системы RAG произведут революцию в рекомендациях по продуктам благодаря углублённому анализу данных отзывов пользователей. В качестве примера можно привести потоковые сервисы, которые предоставляют рекомендации по контенту, касающиеся конкретного региона, на основе обширного анализа данных и повышают вовлеченность и удовлетворённость пользователей.
Перспективы
Подводя итог, можно сказать, что RAG способна изменить многие фундаментальные принципы применения ИИ, решив некоторые из наиболее важных проблем в этой области. Развитие технологии будет происходить во многих измерениях, значительные усовершенствования в нейронных моделях поиска и системах извлечения данных позволят масштабировать базы знаний, а лучшая интеграция с генеративными моделями поможет лучше понимать контекст.
В корпоративной сфере технология RAG может оказаться полезной в самых разных областях: от улучшения качества обслуживания клиентов до управления системами принятия решений в режиме реального времени и масштабной доставки персонализированного контента, — влияние будет огромным. Поскольку RAG мультимодальна, её возможности расширяют её полезность, позволяя эффективно взаимодействовать с текстом, изображениями и видео.
В то время как базы знаний продолжат расти в геометрической прогрессии, а модели будут становиться всё более сложными и продвинутыми, RAG обеспечит базовую архитектуру, на которой будут основаны все приложения ИИ, связанные со знаниями, а агенты ИИ будут созданы для ежедневной работы в качестве второго пилота, что обеспечит асимметричную производительность в организациях.
Чтобы расти, нужно выйти из привычной зоны и сделать шаг к переменам. Можно изучить новое, начав с бесплатных занятий:
-
Мастер-класс «AI против спама: практическое руководство по разработке спам-фильтров»;
-
Вводный курс магистратуры «Прикладной искусственный интеллект»;
-
Мастер-класс «Эффективное использование нейросетей для обучения»;
-
Открытое занятие онлайн-бакалавриата «Программные системы и автоматизация процессов разработки»;
-
День открытых дверей «Как начать карьеру в аналитике и Data Science».
Или открыть перспективы и получить повышение с профессиональным обучением:
-
Курс «Нейросети для каждого: как решать рабочие задачи быстрее» с обновлённой программой;
-
Курс «Машинное обучение» совместно с Dodo Brands;
-
Профессия Data Scientist с программой трудоустройства;
-
Курс «ИИ в медицине: как использовать в работе каждый день»;
-
Курс Deep Learning совместно с Dodo Brands.
Автор: MarioKiber