Привет! Подходит к концу 2024 год — год, который был насыщен огромным количеством исследований в области искусственного интеллекта. Причём настоящий бум произошёл в сфере ИИ-агентов, их архитектур, механизмов принятия решений и способов обучения больших языковых моделей. Каждый день на свет появляются тысячи новых статей, и успеть прочитать все невозможно. Именно поэтому я создал Dataist AI — бота, который по будням пишет короткие обзоры на самые многообещающие научные публикации. Вы можете пользоваться им бесплатно.
Если вам интересна тема ИИ, мои кейсы и опыт, подписывайтесь на мой телеграм-канал, где я делюсь инсайтами, практическими советами и последними новостями из мира искусственного интеллекта.
К концу года, после прочтения тонны статей, я решил поделиться с вами двадцатью (на мой субъективный взгляд) самыми интересными и влиятельными работами об ИИ-агентах за 2024 год. В этом материале я постараюсь не только кратко рассказать о ключевых идеях и результат и что именно делает каждую из этих статей выдающейся, но и сформулировать, куда в целом двигается область. Если вы хотите за несколько минут узнать о самых ярких новинках в мире ИИ-исследований — вы по адресу (будет, что почитать на каникулах). Поехали!
Авторы разработали подробную дорожную карту для воспроизведения модели o1 от OpenAI, рассматривая процесс создания модели с точки зрения обучения с подкреплением. Основная цель — определить ключевые компоненты и методы, необходимые для достижения экспертного уровня производительности модели o1 в задачах, требующих повышенных способностей к рассуждению.
Авторы также провели обзор существующих открытых проектов, направленных на воспроизведение модели o1, рассматривая их как вариации предложенной дорожной карты. Отдельно подчеркивается перспектива в мультимодальности и использовании симуляторов (моделей мира). Авторы надеются, что предложенная дорожная карта послужит основой для дальнейших исследований в области общего искусственного интеллекта (AGI).
Работа дает систематизированный подход к воспроизведению крупномасштабной модели, подчеркивая, что правильная комбинация RL и поиска может значительно улучшить качество рассуждений. Это не просто «копия» большой модели, а попытка понять ее фундаментальные строительные блоки.
Иллюстрация агентского IR (Information Retrieval) в сценариях повседневного ассистента.
Авторы представили новую парадигму информационного поиска (IR) под названием "Agentic Information Retrieval" (Agentic IR). Целью исследования является разработка архитектуры и методов, основанных на возможностях больших языковых моделей (LLMs) и агентных систем, для расширения возможностей традиционных систем IR.
В исследовании представлена единая архитектура IR-агента , включающая модули памяти, мыслительных процессов и внешних инструментов, позволяющих агенту взаимодействовать с различными источниками информации и выполнять многошаговые действия.
Исследование показывает, что Agentic IR значительно расширяет возможности традиционных систем информационного поиска в области решения более широкого спектра задач, интерактивности и автономности, а также применение в различных повседневных и бизнес-сценариях.
Agentic IR представляет собой значительный прорыв в области информационного поиска, предлагая более гибкую и мощную архитектуру, основанную на возможностях современных LLM и агентных систем.
Исследование фокусируется на обзоре моделей мира для генерации видео, автономного вождения и автономных агентов
Авторы провели всесторонний обзор текущих моделей мира (world models) и оценили их роль в достижении общего искусственного интеллекта (AGI). Исследование демонстрирует, что модель Sora является значительным достижением в области генерации видео и симуляции окружающего мира. Sora способна создавать высококачественные видео продолжительностью до одной минуты, демонстрируя понимание физических законов и сложных динамических взаимодействий.
А такие модели как GAIA-1 и DriveDreamer, показывают высокую эффективность в прогнозировании дорожных сценариев и улучшении безопасности автономных транспортных средств. Также модели мира, используемые в качестве симуляторов, значительно улучшают эффективность обучения агентов в игровых и роботизированных средах.
Модели мира представляют собой важный шаг вперед в развитии AGI. Однако для дальнейшего прогресса модели мира должны обладать способностью к контрфактическому рассуждению, также необходимо обеспечить более точное моделирование физических явлений и оптимизировать процессы генерации.
Модели мира уже дают возможность ИИ «понимать» среду и предсказывать последствия действий. Это основа для развития более продвинутых AGI-систем, которым нужно ориентироваться в физическом или виртуальном пространстве. Это путь к по-настоящему умным виртуальным ассистентам и роботам.
Авторы представили Genie — первую генеративную интерактивную среду, обученную с помощью неразмеченных интернет-видео. Целью исследования является создание модели, способной преобразовывать различные виды запросов (тексты, синтетические изображения, фотографии, эскизы) в интерактивные, управляемые действиями виртуальные миры, доступные для исследования и взаимодействия.
В исследовании используется архитектура ST-Transformer (пространственно-временной трансформер) для обеспечения эффективной обработки видео с учетом как пространственных, так и временных зависимостей. Основные компоненты модели Genie включают видео-токенизатор, латентную модель действий (Latent Action Model, LAM) и динамическую модель. Модель обучалась на большом наборе данных из более чем 200,000 часов публично доступных видео игр 2D платформеров, а также на робототехнических видео из набора данных RT1.
Создание интерактивных «на лету» симуляций может радикально поменять подход к разработке игр, обучающих сред, исследовательских инструментов и симуляторов для роботов. Уже доступна Genie 2, которая позволяет создавать 3D-миры для видео и игр.
Авторы исследовали область ИИ-агентов как перспективный путь к созданию общего ИИ (AGI). Основная цель заключается в разработке интерактивных агентов, способных воспринимать и действовать в различных физических и виртуальных средах.
Авторы объединили LLMs и VLMs (Vision Language Models) в единую агентскую систему (Agent Transformer), способную воспринимать и действовать в различных модальностях (текст, изображение, звук, видео). Методы обучения с подкреплением (Reinforcement Learning, RL) и имитационного обучения (Imitation Learning, IL) использовались для повышения эффективности агентов в выполнении задач.
Авторы включили стратегий оптимизации как пространственных, так и временных аспектов поведения агентов, а также внедрили механизмы непрерывного обучения и самоулучшения. Также был разработан датасет "CuisineWorld", для оценки и сравнения эффективности различных агентных систем.
В результате были представлены примеры применения ИИ-агентов в области игр, робототехники и здравоохранения. ИИ-агенты обладают значительным потенциалом для достижения AGI. Однако существуют определённые вызовы, такие как снижение уровня галлюцинаций моделей, уменьшение предвзятости и обеспечение конфиденциальности данных.
Авторы оценили возможности и ограничения новой модели Claude 3.5 Computer Use от компании Anthropic, которая представляет собой первую ИИ-модель для использования компьютера через графический интерфейс пользователя (GUI). Основная цель заключалась в проведении исследования, демонстрирующего способность модели выполнять комплексные задачи в реальных условиях, а также в предоставлении основы для дальнейших исследований в области GUI-агентов.
Авторы разработали и организовали коллекцию тщательно продуманных задач, охватывающих различные домены и программное обеспечение, включая веб-поиск, рабочие процессы, офисную продуктивность и видеоигры.
Представлен универсальный кроссплатформенный фреймворк для развертывания моделей GUI-автоматизации на основе API, обеспечивающий простую реализацию и тестирование.
В результате авторы пришли к выводу, что Claude 3.5 Computer Use обладает высоким потенциалом для автоматизации сложных задач через GUI, однако существует ряд ограничений, связанных с точностью выполнения действий и самооценкой модели.
Авторы разработали фреймворк WebRL для обучения высокоэффективных веб-агентов через саморазвивающийся куррикулум, который генерирует новые задачи из неудачных попыток.
Была создана надежная модель вознаграждения (Outcome-Supervised Reward Model, ORM) и внедрены методы, обеспечивающие стабильное улучшение производительности агентов. Фреймворк автоматически генерирует задачи различной сложности, адаптируясь к текущим возможностям модели, что способствует постепенному и устойчивому обучению.
В результате применение WebRL к моделям Llama-3.1-8B и GLM-4-9B привело к увеличению средней успешности выполнения задач на WebArena-Lite с 4.8% до 42.4% и с 6.1% до 43% соответственно.
WebRL является эффективным инструментом для обучения веб-агентов на основе открытых LLM, успешно преодолевая основные вызовы, такие как недостаток обучающих задач, разреженность сигналов обратной связи и расходимость политик в онлайн-обучении.
Авторы представили обзор методов персонализации больших языковых моделей (LLMs). Они нацелены на объединение двух основных направлений в области персонализированных LLMs: (a) генерация персонализированного текста и (b) использование LLMs для систем рекомендаций. Целью является создание единой таксономии, формализация теоретических основ персонализации и выявление ключевых различий и вызовов между этими направлениями.
Авторы ввели три уровня персонализации: на уровне пользователя, на уровне персоны (группа пользователей с общими характеристиками) и на глобальном уровне (общие предпочтения и нормы, принятые широкой аудиторией).
Методы персонализации на основе использования пользовательской информации включают Retrieval-Augmented Generation (RAG), промтинг, Representation Learning и обучение с подкреплением на основе обратной связи от человека (RLHF).
Персонализированные ИИ-системы — необходимый шаг для пользовательских сервисов, образовательных платформ и рекомендаций. Но нужно учитывать риски утечки приватных данных и корректно решать проблему предвзятости моделей.
Авторы представили архитектуру агентов эволюционирующих агентов (Evolving Agents), способную симулировать динамичную и разнообразную человеческую личность в интерактивных симуляционных средах. Целью является создание агентов, чьи личностные характеристики и поведенческие паттерны эволюционируют со временем через взаимодействие с окружающей средой и другими агентами.
Архитектура эволюционирующих агентов состоит из двух основных систем:
Система Личности (Personality): Включает модули Когниции (Cognition), Эмоций (Emotion) и Рост Характера (Character Growth), отвечающие за когнитивную обработку информации, эмоциональные реакции и развитие характера агента.
Система Поведения (Behavior): Состоит из модулей Планирования (Planning) и Действий (Action), отвечающих за разработку и выполнение конкретных действий агента.
В результате агентам удалось продемонстрировать реалистичную эволюцию личностных черт и поведенческих паттернов после нескольких дней симуляции. Личностные черты агентов отражались в их поведении, и изменения в личностных
Авторы разработали метод Agent Forest и продемонстрировали, что увеличение числа агентов приводит к значительному улучшению производительности ИИ-системы. Они также исследовали свойства задач, которые способствуют достижению этого эффекта, и оценили общую применимость и совместимость предложенного метода с существующими подходами.
Метод Agent Forest состоит из двух этапов:
Выборка (Sampling): На данном этапе генерируется N различных ответов от агентов (LLMs) путем многократного запроса к модели с тем же вводом.
Голосование (Voting): После генерации выборки ответов производится оценка их сходства. Финальный ответ выбирается как тот, который имеет наибольшее суммарное сходство с остальными ответами в выборке.
Данное исследование подтверждает, что простое увеличение числа агентов является мощным инструментом для повышения производительности ИИ-систем, особенно в контексте сложных задач. Поэтому не всегда выигрышно обучать одну модель до экстремальных размеров. Несколько моделей поменьше могут совместно выдавать лучший результат, причём дешевле.
Авторы представили Internet of Agents (IoA) — новый фреймворк, предназначенный для обеспечения гибкой и масштабируемой коллаборации между автономными агентами, основанными на больших языковых моделях (LLMs). Основная цель заключается в преодолении существующих ограничений мультиагентным систем, таких как изоляция экосистем, симуляция на одном устройстве и жестко закодированные коммуникационные каналы.
Для достижения поставленных целей авторы создали аналог «Интернета» для агентов, где они могут подключаться к общей сети, обнаруживать друг друга, формировать команды и управлять потоками общения.
В результате IoA превосходит лучшие решения типа AutoGPT и Open Interpreter, демонстрируя высокую эффективность в решении сложных задач. IoA успешно объединяет агентов с различными инструментами, архитектурами и базами знаний, что позволяет им совместно решать задачи, требующие разнообразных навыков и специализаций. Также IoT гибко масштабируется и пригодна для распределённых сред (включая Internet-of-Things). Мультиагентные системы становятся всё более востребованными. А IoA упрощает процесс интеграции разных агентов, работая как «универсальная шина» для взаимодействия.
Авторы исследовали поведение больших групп автономных ИИ-агентов, моделирующих процессы цивилизационного развития. Основная цель заключается в создании масштабных симуляций, включающих от 10 до более чем 1000 агентов, чтобы понять, могут ли такие агенты самостоятельно развивать специализированные роли, соблюдать и изменять коллективные правила, а также участвовать в культурной и религиозной передаче, приближаясь к формированию ИИ-цивилизаций.
Для этого авторы разработали архитектуру PIANO (Parallel Information Aggregation via Neural Orchestration), которая позволяет агентам в среде Minecraft взаимодействовать с людьми и другими агентами в реальном времени.
В результате агенты смогли достигать значительного прогресса в Minecraft, собирая в среднем 17 уникальных предметов за 30 минут и до 320 уникальных предметов за 4 часа в больших группах. А агенты с модулями социальной осведомленности могли точно определять и реагировать на эмоциональные состояния других агентов, формируя устойчивые социальные отношения.
В группах агентов наблюдалась специализация на различные роли (фермеры, шахтеры, стражи и т.д.), что способствовало эффективному выполнению задач и развитию цивилизационных структур. Агенты также могли следовать налоговым законам, а также изменять их через демократические процессы, отражая влияние лидеров мнений. В больших симуляциях агенты успешно распространяли культурные мемы и религиозные идеи, демонстрируя механизмы культурной эволюции и религиозного влияния.
Глубокое понимание механизмов социального взаимодействия, распределения ролей и «культурных» явлений дает нам новые инструменты для исследования эволюции сообществ и моделирования сложных социальных систем.
Авторы представили систему AI-Generated Science (AIGS), способную автономно выполнять весь процесс научных исследований и открывать новые законы. Основной акцент делается на интеграцию процесса фальсификации гипотез, что, по мнению авторов, является сутью научного метода и ключевым элементом для обеспечения научной строгости и прозрачности в AIGS-системах.
Для достижения поставленных целей авторы разработали мультиагентную систему, которая автономно генерирует идеи и методологии исследований, реализует предложенные методологии и проводит эксперименты, анализирует результаты экспериментов и предоставляет обратную связь для доработки предложений, выполняет фальсификацию гипотез через абляционные исследования и верификацию научных открытий.
В результате система продемонстрировала высокую степень креативности в генерации идей и методологий (иногда нерелевантных), а также практически 100% успешности в реализации предложенных экспериментов.
Возможность полностью автоматизировать научный цикл сулит ускорение исследований в самых разных областях, если удастся повысить качество и «глубину» получаемых результатов.
Авторы представили ABIDES-Economist — симуляционную платформу для экономических систем. Основная цель заключается в моделировании взаимодействий между экономическими агентами для анализа производственных и потребительских процессов в экономике, а также денежного обращения.
В исследовании используется агентно-ориентированное моделирование (Agent-Based Modeling, ABM), а сновные подходы включают наличие агентов-домохозяйств и фирм, а также агентов центрального банка и правительства, интеграцию обучения с подкреплением (RL) и моделирование взаимодействий и внешних шоков.
В результате данное исследование закладывает фундамент для дальнейшего развития автономных систем моделирования экономических процессов, объединяя передовые методы ИИ и экономической теории, что открывает новые перспективы для исследований и практических приложений в области экономики, симулируя различные экономические сценарии.
Авторы представили AFLOW - платформу для генерации агентных рабочих процессов (agentic workflows) с использованием больших языковых моделей (LLMs). Основная цель заключается в сокращении зависимости от ручного проектирования рабочих процессов, что позволяет повысить масштабируемость и обобщаемость применения LLMs в различных доменах и сложных задачах.
В исследовании авторы переосмыслили оптимизацию рабочих процессов как задачу поиска в пространстве кодовых представлений, где узлы представляют вызовы LLM, а ребра определяют логику и зависимости между ними.
Для разработки фреймворка AFLOW использовался алгоритм Monte Carlo Tree Search (MCTS), а также операторы, которые служат строительными блоками для построения рабочих процессов.
В результате на шести публичных бенчмарках (HumanEval, MBPP, GSM8K, MATH, HotPotQA, DROP) AFLOW продемонстрировал среднее улучшение производительности на 5.7% по сравнению с передовыми ручными методами и на 19.5% по сравнению с существующими автоматизированными подходами. Также рабочие процессы, сгенерированные AFLOW, позволили меньшим моделям превосходить GPT-4 на отдельных задачах при 4.55% от стоимости инференса GPT-4.
Вместо ручной сборки пайплайнов, которая может быть долгой и не всегда оптимальной, AFlow позволяет систематически и быстро находить лучшие конфигурации, экономя ресурсы и повышая точность.
Авторы представили новый исследовательский направление автоматизированного проектирования агентных систем (ADAS). Основная цель ADAS заключается в автоматическом создании мощных агентных систем, включая изобретение новых строительных блоков и их комбинаций. Авторы намерены сократить зависимость от ручного проектирования агентных систем, что позволит повысить эффективность, масштабируемость и обобщаемость применения ИИ-агентов в различных доменах и сложных задачах.
В исследовании представлен алгоритм Meta Agent Search, который реализует подход ADAS через использование мета-агента для генерации кода все более совершенных агентов, переиспользуя “удачные” наработки.
В результате агентные системы, созданные с помощью Meta Agent Search, значительно превосходят современные ручные методы. Также созданные агенты демонстрируют высокую переносимость между различными моделями и доменами. Они сохраняют превосходную производительность при переносе на новые задачи и модели, подтверждая их надежность и универсальность.
Это шаг к полноценному мета-программированию, где ИИ берёт на себя роль «архитектора» агентных систем. Такой путь ускоряет разработку ИИ-агентов для различных отраслей.
Авторы разработали метод обучения больших языковых моделей (LLM) способности "думать" перед ответом на любые задачи, а не только математические или логические. Авторы стремились научить модели генерировать внутренние размышления в текстовой форме для улучшения качества финальных ответов без использования дополнительных размеченных данных.
Метод Thought Preference Optimization (TPO) позволяет LLM генерировать несколько вариантов ответов с размышлениями, далее модель-судья оценивает только финальные ответы (без размышлений), и на основе оценок формируются пары для обучения методом Direct Preference Optimization (DPO).
В итоге TPO достигла win rate 52.5% на AlpacaEval и 37.3% на Arena-Hard, превзойдя базовую модель без размышлений, а качество ответов улучшалось с каждой итерацией обучения. Также модель научилась адаптировать длину размышлений под сложность задачи.
Явная генерация промежуточных рассуждений улучшает качество ответа в широком спектре задач, не требуя ручной аннотации мыслей. Это повышает прозрачность принятия решения и расширяет возможности “думающих моделей” в различных областях применения: от общих задач до маркетинга и здравоохранения.
Авторы разработали надежный и масштабируемый фреймворк для генерации разнообразных и сложных данных для оценки и обучения LLMs “способности к разуму” (Theory of Mind, ToM). Основная цель заключается в преодолении ограничений существующих бенчмарков, которые используют ограниченные наборы данных с простыми шаблонами, что может приводить к неправильной оценке способностей моделей.
В исследовании представлен метод ExploreToM, который используется адаптивную генерацию историй с помощью A поиска:*, автоматически генерирует вопросы для оценки понимания и преобразует сюжеты в естественно звучащие повествования.
В результате Llama-3.1-70B и GPT-4o показали крайне низкие показатели точности (0% и 9% соответственно) на данных, сгенерированных с помощью ExploreToM, что подчеркивает сложность созданных сценариев, а дообучение Llama-3.1-8B-Instruct на данных ExploreToM привело к значительному увеличению точности на классическом бенчмарке ToMi на 27 баллов. Подтверждается 99% согласованность с «правильными» ответами после такой генерации.
Чтобы моделировать социальные аспекты, ИИ необходима способность к разуму. ExploreToM поднимает планку сложности и выявляет слабые места, стимулируя разработчиков совершенствовать модели в «социальном интеллекте».
Авторы представили систему MindSearch, объединяющую большие языковые модели (LLMs) и поисковые движки для эффективного поиска и интеграции информации из веба. Основная цель заключается в преодолении существующих ограничений поисковых систем, которые часто не соответствуют сложным человеческим намерениям. Авторы стремятся создать многоагентную архитектуру, имитирующую когнитивные процессы человека при поиске информации, что позволит значительно улучшить качество и релевантность получаемых ответов на сложные запросы.
MindSearch, состоит из двух основных компонентов: WebPlanner (Планировщик веб-поиска) и WebSearcher (Поисковик веб-страниц). Планировщик моделирует процесс многократного поиска информации, аналогично человеческому мышлению, разбивает пользовательский запрос на атомарные под-вопросы и строит динамический граф рассуждений с помощью алгоритма A* и генерирует последовательные и параллельные подзадачи для более глубокого анализа запроса. А поисковик отвечает за иерархический поиск информации в интернете по заданным под-вопросам, формирует несколько похожих запросов, затем агрегирует и фильтрует результаты для получения наиболее релевантной информации.
Дополнительно, MindSearch включает механизмы управления контекстом между агентами, что позволяет обрабатывать длинные контексты и распределять когнитивную нагрузку между специализированными агентами.
В результате MindSearch смог обработать более 300 веб-страниц за 3 минуты, что эквивалентно примерно 3 часам человеческой работы. MindSearch на базе InternLM2.5-7B зачастую даёт более предпочтительные ответы, чем ChatGPT-Web (GPT-4o) и Perplexity.ai (оценка пользователей).
Таким образом, MindSearch способствует развитию более совершенных и интеллектуальных ИИ-систем, способных эффективно справляться с комплексными задачами информационного поиска.
Авторы представили всесторонний обзор малых языковых моделей (Small Language Models, SLMs) в контексте доминирования больших языковых моделей (Large Language Models, LLMs). Основная цель заключается в анализе текущего состояния исследований, методик, улучшений, областей применения, взаимодействия с LLMs и аспектов надежности SLMs.
Малые языковые модели способны выполнять специализированные задачи и пригодны для работы в условиях ограниченных ресурсов. SLMs можно получить из LLM с помощью прунинга, дистилляции знаний, квантизации и использованию низгоранговых техник. SLMs успешно применяются в медицинских, финансовых, юридических и научных областях, демонстрируя высокую точность и эффективность. В гибридных архитектурах LLMs могут выступать роутерами для SLMs, улучшая производительность и эффективность целой ИИ-системы.
Малые языковые модели демонстрируют сопоставимую производительность с LLMs в специализированных задачах при значительно меньших вычислительных затратах и размерах. LLMs далеко не всем доступны; SLM дают экономичные решения для конкретных сценариев (edge-устройства, мобильные приложения, офлайн-режимы). Это направление обеспечивает широкую доступность ИИ-технологий при сохранении высокой производительности и экономический эффективности.
Итоги
Итак, подводя итоги года, можно сказать, что исследования в области ИИ-агентов движутся вперёд сразу по нескольким ключевым направлениям.
Во-первых, нас ждёт ещё больше экспериментов с мультиагентными системами, где автономные «разумные» единицы не просто взаимодействуют, а учатся сотрудничать и конкурировать для достижения общих целей.
Во-вторых, продолжит развиваться автоматизация проектирования самих агентов и алгоритмов, что позволит быстрее создавать более гибкие решения и экономить человеческие ресурсы.
Третье направление — совершенствование когнитивных навыков: от способности удерживать в памяти контекст до более глубокого понимания языка и среды.
Четвёртым пунктом, который становится всё более важным, остаётся экономичность: учёные и инженеры продолжают искать пути для снижения вычислительных и денежных затрат, чтобы инновации не упирались в бесконечные бюджеты, а ИИ-приложения были более доступны людям.
И наконец, безопасность и этика занимают центральное место во всех обсуждениях будущего искусственного интеллекта: без чёткого контроля, прозрачности и ответственного подхода даже самые передовые разработки могут обернуться обратной стороной медали.
Поздравляю всех с наступающим! Нас ждёт ещё больше захватывающих открытий, и это здорово, ведь мы живём в по-настоящему интересное время. Если вам понравился этот формат и вы хотите видеть подобные обзоры ежемесячно, ставьте «+» к статье — и до новых встреч в следующем году!