GraphRAG предоставляет «граф знаний» LLM. В отличие от текстовых документов, эти структуры данных четко отображают взаимосвязи между объектами.
Компании применяют генеративный ИИ в широком спектре функций, включая поддержку клиентов, продажи, юридические услуги, маркетинг и многие другие. По состоянию на 2024 год 92% компаний из списка Fortune 500 внедрили GenAI в той или иной форме. Скорее всего, вы сами пробовали GenAI, используя что-то вроде ChatGPT для генерации ответа на вопрос или GitHub Copilot для генерации исходного кода на основе введенной вами спецификации.
Генерация с дополненной выборкой (RAG)
Если вы создаете приложения на базе генеративного ИИ, ваши цели, вероятно, включают обеспечение точности и полноты ответов, генерируемых ИИ. Один из самых популярных способов добиться этого — реализовать генерацию с дополненной выборкой (RAG). Векторная база данных с RAG обычно используется для извлечения информации, относящейся к запросу пользователя, затем эта извлеченная информация отправляется как контекстная информация в большую языковую модель (LLM) вместе с запросом пользователя. LLM использует эту информацию для составления ответа.
Например, в приложении бота поддержки клиентов вы можете отправить LLM одну или несколько статей поддержки продукта, которые имеют отношение к запросу клиента, что позволит ему сгенерировать ответ на основе конкретной, релевантной информации. Если предоставленные вами статьи поддержки включают несколько причин или решений проблемы клиента, ответ ИИ может оказаться не самым точным или полным.
Что такое GraphRAG?
Более новый и точный подход — это генерация с дополненной выборкой на основе графов (GraphRAG). GraphRAG — это эволюционное улучшение RAG, в котором «граф знаний» предоставляется LLM в качестве контекста вместе с запросом. Графы знаний — это структуры данных, которые, в отличие от текстовых документов, четко объясняют отношения между объектами.
Продолжая вышеприведенный пример бота поддержки клиентов, вот как может выглядеть соответствующий граф знаний:
В отличие от описания проблемы в службе поддержки клиентов, из которого решение должно быть выведено путем анализа языка в сопроводительной документации LLM, граф знаний делает причины и решения проблемы более понятными. Благодаря такому четкому пониманию чат-бот может задавать более релевантные вопросы о проблеме на основе причин и формулировать более точное решение.
В своей статье LinkedIn описал использование GraphRAG в службе поддержки клиентов. Команда сделала именно то, что мы описываем в этом примере: сформировала граф знаний возможных причин и решений проблемы и передала их LLM. За первые шесть месяцев эксплуатации GraphRAG сократил среднее время решения (MTTR) на 28%.
Происхождение GraphRAG
GraphRAG, возможно, и является чем-то новым, но графы знаний и ИИ на самом деле имеют долгую совместную историю. За последние 50 лет графы знаний тесно переплелись с исследованиями искусственного интеллекта, используемыми для представления знаний и рассуждений. В 2012 году Google представил современный граф знаний, реализованный в виде огромной графовой базы данных людей, мест и объектов, что позволило его веб-поиску выйти за рамки поиска по ключевым словам и начать формировать ответы на вопросы.
В 2000-е годы начали распространяться статистические методы, нейронные сети и машинное обучение. Они были успешны в системах распознавания речи и генерации текста. В 2017 году архитектура трансформатора упростила обработку долгосрочных зависимостей в тексте. Эти инновации проложили путь к развитию современных LLM, позволив обучать более глубокие и масштабные модели.
Microsoft ввела термин GraphRAG в начале 2024 года. В каком-то смысле GraphRAG — это своего рода "воссоединение" вычислительного ИИ (LLM) и зафиксированных знаний (графы знаний) для повышения точности, полноты и разнообразия ответов, генерируемых ИИ.
Как начать использовать GraphRAG
Если вы уже создаете приложения с использованием генеративного ИИ, то вы, вероятно, знакомы с подходом генерации с дополненной выборкой (RAG). С помощью RAG вы отправляете запрос в LLM вместе с некоторой контекстной информацией (например, спецификациями, пользовательскими данными или другой уникальной информацией), из которой LLM может извлечь информацию для своего ответа.
GraphRAG работает по той же схеме, за исключением того, что в качестве контекста он передает граф знаний в LLM вместе с запросом пользователя. Существует несколько различных архитектур для объединения графа с RAG, и одна из таких архитектур показана ниже:
В этой архитектуре:
-
Пользователь отправляет запрос.
-
Запрос преобразуется в вектор с помощью модели эмбеддингов.
-
Векторная база данных используется для поиска соответствующих точек входа графа (узлов) с поиском по сходству.
-
Выполняются запросы к графу для поиска связанных узлов, что позволяет формировать граф знаний.
-
Эти графы знаний и исходный пользовательский запрос формируются в запрос, понятный для LLM.
-
Полученный запрос передается в LLM для генерации выходных данных, которые будут переданы обратно пользователю.
Это только одна возможная архитектура для GraphRAG. Существует множество других, и то, какую из них использовать, зависит от решаемой проблемы, зрелости организации, структуры и качества графа знаний и других факторов.
Примечание: вместо использования отдельных баз данных для графов и векторов, рекомендуется выбирать базу данных, поддерживающую индексацию и поиск как по графам, так и по векторным данным. Использование отдельных баз данных увеличивает стоимость, а также усложняет управление приложениями и данными, поскольку базы данных необходимо постоянно синхронизировать.
В заключение
Если вы создаете приложения с использованием генеративного ИИ и ищете способы улучшить качество и точность результатов вашей системы искусственного интеллекта, я настоятельно рекомендую вам обратить внимание на GraphRAG. Ранние исследования показали, что он значительно повышает эффективность использования GenAI в бизнесе, например, сокращает время решения проблем поддержки клиентов. Чтобы освоить GraphRAG, вам потребуется изучить моделирование данных графов, а также, вероятно, графовые базы данных. Существует ряд доступных ресурсов — онлайн-курсы, митапы, материалы от поставщиков графовых баз данных и другие источники, которые помогут вам освоить эти темы. Это несложный путь, и он определенно того стоит, если вы хотите создать уникальные решения в области GenAI, которые оправдают или превзойдут ожидания ваших заинтересованных сторон.
Автор: kucev