Языковые модели, или LLM, продолжают впечатлять своим развитием. Технологии становятся умнее, их возможности шире, а применение в бизнесе и жизни — еще полезнее. В 2024 году LLM обрели зрение и память, получили доступ к актуальной информации и подтянули знания в кодинге. Чего ожидать от 2025 года? Собрал наиболее правдоподобные прогнозы и добавил свои. Спойлер: Джарвиса, который будет делать за нас всю работу, ждать не стоит.
Галлюцинации останутся главным недостатком языковых моделей
Причины кроются в самой архитектуре моделей: LLM обучаются на огромных массивах данных, но не способны самостоятельно проверять достоверность информации. Ответы языковых моделей невозможно предугадать, поэтому и саму проблему галлюцинаций устранить сложно. Даже с доступом к актуальной информации LLM иногда выдают ответы, основанные на неправильных данных. ChatGPT часто вырывает данные из контекста или предлагает устаревшую статистику, из-за чего приходится самостоятельно проверять ответы.
В 2025 году компании-разработчики, такие как OpenAI, Google и Anthropic, сосредоточатся на интеграции моделей с базами проверенных данных и усилении фильтров для критической информации. Большинство компаний уже используют RAG-подход для устранения галлюцинаций. Плюс RAG дополнительно усиливает надежность моделей: он позволяет сначала выполнить поиск релевантных данных в подключенных базах, а затем генерировать ответы на их основе. То есть модель еще будет предоставлять ссылки на источники. Сейчас так делают GPT-4, Gemini и Perplexity.
Однако не стоит ожидать, что проблему с галлюцинациями тут же решат в 2025 году. Чтобы разучить модели «обманывать», нужны значительные ресурсы. Прежде всего, электричество, потребление которого, по прогнозам, вырастет на 160% к 2030 году из-за разработки LLM.
Перед тем как интегрировать LLM в работу, рекомендую провести им тесты на галлюцинации и задать вопросы из нужной вам сферы. Сделать это бесплатно и без VPN можно на платформе LLMArena. Сервис позволяет сравнить две языковые модели и выбрать ту, которая лучше справляется с вашими задачами.
Подход Fine-tuning потеряет актуальность
Fine-tuning никогда не был универсальным решением. На практике его эффективно применяют лишь в одном случае из двадцати. Добиться качественного результата, который сохраняет калибровку HLRF (High-Level Reasoning Framework) и не вызывает галлюцинаций, удается еще реже. Большинство задач уже решают базовые модели. Современные LLM, такие как GPT, обучены на огромных объемах данных и успешно справляются с широким спектром задач при грамотной формулировке запроса.
Fine-tuning имеет смысл только для задач, требующих специфических знаний или узкого контекста, которых нет у базовой модели. Главный минус подхода — требует вычислительных ресурсов и времени. Для качественного результата нужен большой объем точной и релевантной информации. А если модель перегрузить, то снизится ее универсальность. К примеру, она будет выдавать однотипные ответы.
В 2025 году fine-tuning, вероятно, станет еще менее востребованным, так как современные базовые модели способны решать большинство задач без дообучения. Вместо этого акцент сместится на prompt engineering — умение правильно формулировать запросы для получения нужных результатов без дополнительной настройки.
Вектор на защиту данных и безопасность
Большие языковые модели работают с огромными объемами информации, в том числе конфиденциальной. Проблема в том, что они могут «запомнить» куски этих данных. Например, если модель обучается на открытых источниках или подключается к системам через API, всегда есть риск, что информация случайно или намеренно утечет.
Облачные сервисы добавляют еще больше рисков. Данные отправляются на удаленные серверы для обработки, и в этот момент злоумышленники могут попытаться перехватить их или найти уязвимости. Бывали случаи, когда слабые места в языковых моделях использовались для вытягивания чужих секретов.
В 2025 году защита данных станет приоритетом. Компании начнут больше вкладываться в безопасные решения. Например, многие будут использовать локальные модели, которые обрабатывают данные на месте, без отправки в облако. Также усилится контроль над тем, что именно модели могут «запоминать», чтобы минимизировать риск утечек.
Прорыв в ИИ-агентах откладывается
Хотя многие говорят, что в новом году нас ждет прорыв в сфере автономных систем, это вызывает сомнения. Проблема не в том, что такие агенты технически невозможно создать — при желании и серьезных вложениях можно добиться впечатляющих результатов. Но на практике это очень сложный продукт.
Агенты требуют учета огромного количества переменных, больше, чем классические чат-боты. Каждая из них добавляет сложности на этапах проектирования, тестирования и поддержки. Такие решения могут позволить себе только крупные компании, например, Amazon. Их агент Amazon Connect Contact Lens анализирует поведение клиентов по звонкам в реальном времени и работу сотрудников колл-центра. Такой агент действительно может взять на себя роль отдела контроля качества.
Хотя спрос на ИИ-агентов растет, но ждать революции не стоит. А вот количество фреймворков для разработки агентов точно увеличится. Все хотят повторить успех LangChain и занять свое место на рынке. Даже Pydantic подключился с новым подобным проектом. Так что через пару лет можно ожидать мощные и доступные инструменты, которые сделают разработку агентов проще.
Режимы работы, подобные o1-preview, станут популярнее
Они позволяют увеличить когнитивные способности моделей без сбора огромных объемов данных и создания сложных инфраструктур.
Да, системы в этом режиме работают медленнее и обходятся дороже, но это оправдано, когда требуется высокая когнитивная нагрузка. Такие режимы особенно полезны в задачах аналитики, сложных логических выводов и принятия решений в реальном времени.
Например, при работе с финансовой аналитикой модель в режиме o1-preview может обрабатывать данные из отчетов в реальном времени, делать прогнозы с учетом большего числа факторов и анализировать длинные временные контексты. Вместо нескольких месяцев она сможет оценивать годовые тренды, что значительно увеличивает точность и полезность выводов.
Уникальные функции в API
Провайдеры будут активно добавлять новые удобные функции, чтобы выделяться на рынке.
Structured Outputs (ограниченная декодировка) позволяет задать модели жесткие ограничения на формат ответа. Например, модель должна вернуть JSON-объект с заданным количеством полей и четкими типами данных. OpenAI впервые представила режим Structured Outputs в 2024 году вместе с gpt-4-turbo и gpt-3-turbo. С тех пор поддержка JSON стала стандартом для всех новых моделей компании.
Функция пригодится в сложных задачах, таких как custom chain-of-thought (пользовательские цепочки рассуждений), где модель должна выдавать ответы с последовательным выполнением шагов.
Работа с PDF на уровне Text + Vision. Современные модели умеют анализировать PDF-файлы, включая текст и изображения. Правда многие из них проводят анализ отдельно, часто LLM просто пропускают картинки, таблицы, графики и обращают внимание только на текст. PDF-документы обычно содержат не только текст, но и визуальные данные, которые важны для понимания контекста.
Интеграция анализа текста и изображений в API открывает новые возможности для работы с договорами, отчетами и научными статьями. Например, Anthropic разбивает PDF-файл на отдельные элементы: текстовые и графические, чтобы сделать анализ проще и точнее.
Системы RAG (Retrieval-Augmented Generation) + Execution Sandbox. Это возможность подключить к модели пользовательские базы данных и протестировать ее работу в контролируемой безопасной среде. «Песочница» изолирована от основной системы, поэтому даже если в сгенерированном коде есть ошибки или вредоносные элементы, они не повлияют на основную среду.
Самый известный пример — OpenAI Assistants API. Перед интеграцией вы собираете API-ассистента: прописываете для него инструкции, загружаете базы знаний. Затем тут же в Playground его можно протестировать, чтобы вовремя устранить неполадки и только затем внедрять в свои продукты.
AGI в 2025 году точно не появится
Создание AGI — задача сложнее, чем разработка агентов. Она требует моделирования человеческого разума: эмоций, логики, креативности. Современные модели, такие как GPT, хоть и впечатляют, остаются узкоспециализированными. Они анализируют текст, а не понимают его по-настоящему. Пока AGI остается мечтами в фильмах о будущем.
Вместо AGI все больше компаний будут пытаться догнать и обогнать OpenAI. Это уже заметно по бенчмаркам, где конкуренты стремятся показать лучшие результаты. Вы тоже можете принять участие в формировании рейтинга и задать тренды LLM на 2025 год. На платформе LLMArena в режиме анонимного сравнения система автоматически подберет две модели, которые вы сможете бесплатно протестировать. В честной борьбе выберите ту, которая оказалась сильнее остальных.
А каковы ваши прогнозы на 2025 год? Пишите в комментариях.
Автор: kucev