Нейросеть для симуляции CS: GO

в 8:12, , рубрики: AI, cs:go, neural networks

В начале октября вышла модель DIAMOND, работающая в режиме игрового движка. Она эмулирует карту Dust 2 в игре CS: GO. По сути модель состоит из двух частей: модели, которая учитывает состояние игрового мира и диффузионной модели, генерирующий следующий кадр на основе предыдущего + инпута с клавиатуры + мыши.

Кадр, сгенерированный DIAMIOND

Кадр, сгенерированный DIAMIOND

Проблема сжатия информации в моделях мира

Одна из главных проблем в построении моделей мира — это баланс между точностью и сжатием данных. Многие модели мира используют дискретные латентные переменные — это упрощенные представления, которые помогают моделировать окружающую среду без излишних затрат ресурсов. Такой подход улучшает стабильность, но жертвует мелкими деталями, которые иногда критичны для правильного поведения агента. Например, в играх или задачах с большим количеством объектов агент может «не заметить» важные детали, такие как расположение врага или препятствия.

DIAMOND берёт на себя задачу воспроизведения мира с высокой точностью, минимизируя потерю данных. Вместо того чтобы ограничивать агента сокращёнными представлениями, DIAMOND работает с полноразмерными изображениями, сохраняя важные визуальные элементы. Такой подход обеспечивает лучшее восприятие окружающей среды и более эффективное обучение, что особенно важно для сложных задач, где требуются точные реакции на мельчайшие изменения.

Игровой процесс

Игровой процесс

Диффузионные модели для генерации миров

В последние годы диффузионные модели стали одним из ведущих инструментов для генерации изображений. Их основная идея заключается в создании изображения через пошаговый процесс очищения шума. Сначала картинка становится полностью зашумленной, а затем постепенно очищается до итогового изображения. В итоге модель может восстанавливать образы с деталями.

DIAMOND использует эти возможности, чтобы избегать потерь при сжатии, свойственных другим моделям. Благодаря диффузионным процессам, DIAMOND может сохранять мелкие, но значимые детали, создавая более точное представление о среде. Это позволяет агенту лучше понимать мир и избегать ошибок.

Генерация следующего кадра
Генерация следующего кадра

Как работает DIAMOND

Чтобы добиться максимальной эффективности, DIAMOND использует EDM-подход (Elucidated Diffusion Model) вместо более привычного DDPM (Denoising Diffusion Probabilistic Model). Почему это важно? Дело в том, что EDM позволяет создавать изображения с меньшим количеством шагов, что делает процесс не только точным, но и быстрым.

DIAMOND работает на базе архитектуры U-Net, известной своей способностью генерировать изображения. Она принимает на вход данные о прошлых наблюдениях и действиях агента, добавляя их к зашумленному изображению и проводя через серию этапов восстановления, пока не получится финальное изображение.

Тестирование на Atari 100k

Чтобы проверить возможности DIAMOND, исследователи использовали бенчмарк Atari 100k, который включает 26 классических игр с различными типами задач. В условиях, когда агенту позволено всего 100 тысяч действий, DIAMOND показала рекордные результаты, достигнув 1.46 по Mean Human-Normalized Score — лучший показатель среди всех моделей, работающих с моделями миров.

Особенно заметно превосходство DIAMOND в играх, где критически важны визуальные детали, таких как Asterix и Road Runner. Умение точно воспроизводить даже мелкие объекты позволяет агенту принимать более информированные решения.

DIAMOND на Atari 100k

DIAMOND на Atari 100k

Эксперимент с Counter-Strike: Global Offensive

Одним из самых интересных экспериментов стал тест DIAMOND в среде Counter-Strike: Global Offensive. Команда использовала 87 часов данных, собранных на карте Dust II, чтобы обучить DIAMOND работать в сложной трёхмерной среде. Результаты показали, что модель способна генерировать последовательности из сотен кадров, при этом сохраняя стабильность и высокую точность. Однако при столкновении с редко встречающимися ситуациями, например, приближении к стенам или потере видимости, модель иногда забывает текущее состояние и генерирует новую область.

Галлюцинации модели

Галлюцинации модели

Несмотря на эти ограничения, DIAMOND демонстрирует впечатляющие результаты для трёхмерного моделирования. Если увеличить объём данных и ресурсы, можно ожидать, что качество и стабильность таких симуляций улучшатся, что открывает новые возможности для использования DIAMOND в реалистичных игровых мирах и других задачах, требующих высокой степени детализации.

Многократный прыжок превращается в полёт

Многократный прыжок превращается в полёт

Заключение

DIAMOND открывает перед ИИ-агентами новые возможности, позволяя им обучаться в виртуальных мирах с невиданной ранее точностью. Диффузионныйе модели сохраняют важные визуальные элементы и стабильно работают на длинных временных интервалах.

Если вам интересны такого рода посты, можете подписаться на мой telegram, там я пишу посты поменьше. В основном я затрагиваю темы применения математики (от базовой до нейросетей) в видеоиграх, но также уделяю внимание видеоиграм как области искусства.

Автор: heavychevy

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js