Любой инженер, сталкивавшийся с инцидентами в ИТ-системах, знает: решение часто есть в документации. Проблема в том, что найти его — как искать иголку в стоге сена. Документация объёмная, разрозненная, специфичная и написана далеко не всегда для людей. Время идёт, SLA поджимает.
Но что если бы у нас был помощник, который мгновенно читал бы всю документацию, понимал бы контекст сбоя и предлагал конкретные рекомендации? Сегодня это возможно — благодаря большим языковым моделям (LLM), таким как GPT-4, Claude, Gemini и другим.
В этой статье я расскажу, как использовать LLM для анализа технической документации и выдачи рекомендаций по устранению инцидентов. Спойлер: это работает. Особенно в случаях, когда документация специфичная, локальная и больше нигде в интернете не встречается.
В чём проблема с традиционным подходом?
-
Объём и сложность документации
Системы типа SAS Visual Investigator, SAP, Splunk, IBM QRadar, Core Banking, и т.д. имеют десятки PDF-файлов с технической документацией на сотни страниц. И это только официальные материалы, а ещё есть внутренние регламенты, инструкции, баг-репорты. -
Поиск нужной информации — ад
Даже с хорошим поиском найти нужное бывает сложно: терминов много, формулировки разные, и часто не очевидно, где именно в документации описан нужный кейс. -
Скорость реагирования
При инциденте важно быстро понять: что произошло, где искать причину, и как устранить. Иногда решение есть, но пока ты его нашёл — всё уже починили "на авось".
Что могут LLM в этом контексте?
Большие языковые модели — это универсальные "читалки" и "мыслители". Они умеют:
-
Читать технические документы (PDF, DOCX, HTML)
Модель может обработать документацию и построить представление о системе: компоненты, интерфейсы, логи, типы сбоев, шаги устранения. -
Извлекать релевантную информацию по запросу
Например: "Что делать, если модуль обработки событий не подключается к Kafka?" — LLM найдёт и приведёт нужные разделы, объяснит, как решить. -
Генерировать рекомендации по устранению сбоев
По описанию инцидента модель предложит план действий, опираясь на документацию. Часто — с конкретными командами, настройками и ссылками на источники внутри документа. -
Работать с локальными, узкоспециализированными данными
Это главное: модель не опирается на публичный интернет, а работает с вашей документацией, включая внутренние инструкции и нестандартные конфигурации.
Как это работает: кратко про технику
-
Загрузка документации в LLM-контекст
Документы разбиваются на фрагменты, индексируются (например, с помощью векторных баз — Chroma, Weaviate и т.д.) и становятся доступными модели через Retrieval-Augmented Generation (RAG). -
Инцидент подаётся как запрос
Формулируется описание сбоя: лог ошибки, поведение системы, наблюдаемые эффекты. -
LLM анализирует и отвечает
Модель извлекает релевантные фрагменты документации и на их основе генерирует ответ — рекомендации, ссылки, предупреждения.
Пример
Допустим, у вас есть система мониторинга финансовых транзакций на базе SAS Visual Investigator. Возник инцидент:
"После обновления версия 10.2 не запускается компонент FraudAnalysis. Лог: Error loading module fraud_engine.dll"
Запрос к LLM:
Что может быть причиной ошибки fraud_engine.dll при запуске FraudAnalysis в SAS Visual Investigator 10.2?
Ответ модели:
Согласно разделу 5.4.2 документации SAS VI 10.2, ошибка загрузки fraud_engine.dll может быть связана с отсутствием зависимостей Microsoft Visual C++ 2015 Redistributable. Также проверьте, указан ли путь к модулю в переменной окружения FRAUD_ENGINE_PATH. Для устранения:
Установите/проверьте наличие VC++ 2015 Redistributable.
Убедитесь, что fraud_engine.dll не повреждён.
Перезапустите службу FraudAnalysis через SAS Admin Console.
Где использовать LLM в работе с инцидентами?
-
Службы поддержки и эксплуатации ИТ-систем
Быстрая диагностика и рекомендации на основе документации, без ручного поиска. -
DevOps и SRE
Автоматизированные подсказки при алертах, интеграция в пайплайны CI/CD для проверки конфигураций. -
Обучение новых сотрудников
Обучающий ассистент, объясняющий, как работает система и как решать типовые инциденты.
Плюсы использования LLM
-
Скорость: ответы за секунды, без чтения сотен страниц.
-
Точность: ответы на основе вашей документации.
-
Масштабируемость: работает одинаково хорошо и на 100, и на 1000 инцидентов.
-
Интеграция: можно встроить в тикет-системы, чаты, IDE, консоли.
Что нужно, чтобы запустить у себя?
-
Собрать техническую документацию (PDF, HTML, DOCX и т.д.).
-
Подключить LLM (через API или локально, например, с использованием Llama.cpp).
-
Настроить RAG-пайплайн для поиска по документации. Ну или просто закинуть документацию в чат с LLM.
-
Обучить сотрудников формулировать запросы — и получать пользу.
Как выбрать LLM-платформу для анализа документации?
Сейчас на рынке несколько популярных LLM, которые можно использовать для анализа технической документации и генерации рекомендаций. Ниже — краткое сравнение по ключевым параметрам.
Платформа |
Доступность |
Поддержка RAG |
Стоимость |
Качество ответа на тех. вопросы |
Локальное развертывание |
---|---|---|---|---|---|
GPT-4 (OpenAI) |
API, ChatGPT, Azure |
Да (через API) |
Платно (по токенам) |
Очень высокое |
Нет (только через API) |
Claude (Anthropic) |
API, Poe, Notion |
Да |
Платно |
Высокое, особенно с длинными контекстами |
Нет |
Gemini (Google) |
API, Bard |
Да |
Платно / бесплатно |
Хорошее, но вариативное |
Нет |
Mistral, Mixtral |
Hugging Face, Ollama |
Да |
Бесплатно |
Среднее — зависит от задачи |
Да |
LLaMA 2 / 3 |
Hugging Face, локально |
Да |
Бесплатно |
Хорошее, можно дообучать |
Да |
GPT-4 Turbo (Azure) |
Azure OpenAI Service |
Да |
Платно, по подписке |
Очень высокое |
Нет |
Пояснения:
-
Поддержка RAG — возможность использовать Retrieval-Augmented Generation, т.е. подключать внешние данные (документацию) для генерации ответов.
-
Стоимость — зависит от объёма токенов и тарифов, но локальные модели бесплатны в использовании, если есть ресурсы.
-
Локальное развертывание — важно для корпоративных клиентов и ситуаций, где чувствительные данные нельзя отправлять в облако.
Что выбрать?
-
Нужна максимальная точность и готовая инфраструктура?
➜ GPT-4 через OpenAI или Azure — топ по качеству и стабильности, особенно в сложных кейсах. -
Хотите эксперименты и локальный контроль?
➜ LLaMA 2 / Mistral / Mixtral — можно развернуть локально, быстро настроить RAG и контролировать поток данных. -
Большой объём документации, длинные контексты?
➜ Claude 3 — работает с длинными документами до 200–300 страниц в контексте, отвечает полно и связно. -
Минимальный бюджет, быстрый старт?
➜ Gemini или Mixtral — бесплатно или почти бесплатно, подходит для пилотных проектов.
Личный опыт
Мы тестировали GPT-4, Claude и локальные LLaMA 2 на задачах анализа документации и выдачи рекомендаций по ИТ-инцидентам.
Результаты (в оценке по качеству ответов, экспертной релевантности и полноте):
-
GPT-4 — 9.5/10
-
Claude — 9/10
-
LLaMA 2 (7B) — 7/10 (но можно дообучить на своих данных и выйти на 8+)
Заключение
Большие языковые модели уже сейчас меняют подход к работе с ИТ-инцидентами. Они не заменяют экспертов, но становятся мощным инструментом, позволяющим тратить меньше времени на поиск информации и больше — на принятие решений.
Если вы работаете с техническими системами и тоннами документации — попробуйте использовать LLM. Это не просто хайп, а реальный способ повысить эффективность.
Автор: daniilmaibe