Статья основана на анализе публично доступной информации о платформе NVIDIA Cosmos, включая официальные анонсы и технические блоги.
На выставке CES 2025 компания NVIDIA представила революционную платформу Cosmos, которая обещает кардинально изменить подход к разработке систем искусственного интеллекта, взаимодействующих с физическим миром. Платформа уже привлекла внимание ключевых игроков рынка, таких как Uber, Waabi и XPENG, что говорит о её серьёзном потенциале. В этой статье попытался разобраться, почему Cosmos вызывает такой интерес и какие возможности она открывает для разработчиков.
Что такое NVIDIA Cosmos?
NVIDIA Cosmos — это принципиально новый подход к созданию систем физического ИИ. В отличие от больших языковых моделей, обученных на текстовых данных, Cosmos обучается понимать физический мир через анализ видеоданных. В основе платформы лежит массивный датасет из 20 миллионов часов видеозаписей (что эквивалентно 9 000 триллионам токенов), содержащих различные физические взаимодействия: от простых движений человека до сложных манипуляций с объектами.
Ядром платформы являются World Foundation Models (WFMs) — базовые модели понимания физического мира. Это своего рода фундамент, на котором строятся более специализированные системы искусственного интеллекта. Подобно тому, как человек с детства учится понимать, как работает физический мир вокруг него, эти модели обучаются распознавать и предсказывать взаимодействие различных объектов в реальном мире.
Платформа включает два типа моделей:
-
Диффузионные WFMs (Diffusion WFMs) работают как художник, который начинает с наброска и постепенно добавляет детали, пока не получит четкое изображение. В случае с видео, модель постепенно создает все более четкую и реалистичную последовательность кадров, умея генерировать физически корректное видео из простых входных данных.
-
Авторегрессивные WFMs (Autoregressive WFMs) действуют как опытный наблюдатель, который, посмотрев начало видео, может предсказать, что произойдет дальше. Модель учится понимать логику происходящего и продолжать видеоряд естественным образом, специализируясь на предсказании будущих кадров в видеопоследовательности.
Особое внимание NVIDIA уделила производительности: новые токенизаторы обеспечивают 8-кратное улучшение сжатия и 12-кратное ускорение обработки по сравнению с существующими методами. На практике это означает, что разработчики могут гораздо быстрее итерировать свои решения и эффективнее использовать вычислительные ресурсы.
Практическое применение
Робототехника и производство
Одним из самых перспективных направлений применения Cosmos является робототехника. В современном складском хозяйстве, где роботы должны работать с разнообразными товарами, традиционно для обучения робота захвату различных предметов требовались месяцы реальных экспериментов. С Cosmos этот процесс радикально упрощается: разработчики могут создавать тысячи виртуальных сценариев, где робот учится взаимодействовать с объектами разной формы, размера и физических свойств.
К примеру, компании вроде 1X, Agility Robotics и XPENG уже используют Cosmos для обучения роботов-манипуляторов. В виртуальной среде роботы могут "наработать" опыт, эквивалентный годам реальной практики, всего за несколько дней симуляций. При этом все ошибки и потенциальные повреждения происходят только в виртуальном пространстве, что значительно снижает затраты на разработку.
Автономный транспорт
В сфере автономного транспорта Cosmos решает критическую проблему сбора данных о редких и опасных ситуациях. Традиционно беспилотным автомобилям требовались миллионы километров реальных тестов для отработки поведения в нестандартных условиях. Теперь разработчики могут создавать и тестировать такие сценарии в виртуальной среде.
Показателен пример компании Waabi, которая использует Cosmos для разработки программного обеспечения автономных транспортных средств и симуляций. С помощью платформы они моделируют сложные погодные условия, нестандартное поведение других участников движения и редкие дорожные ситуации. Другая компания, Wayve, оценивает возможности Cosmos для поиска сложных случаев вождения, используемых для проверки безопасности.
Промышленная автоматизация
В промышленности Cosmos находит применение в оптимизации производственных процессов через создание цифровых двойников производственных линий. Это позволяет тестировать различные сценарии автоматизации без риска для реального оборудования. Особенно эффективно это работает в сочетании с NVIDIA Omniverse, создавая полноценную среду для виртуального тестирования и оптимизации.
Технические особенности и безопасность
Важным аспектом Cosmos является внимание к безопасности. Платформа включает систему Cosmos Guardrails, которая работает в два этапа:
-
Pre-guard: сканирует входные запросы (промпты) на наличие небезопасного контента, используя проверку по спискам блокировки и специально настроенные модели Aegis AI Content Safety, а также фильтрует вредоносные запросы.
-
Post-guard: оценивает сгенерированное видео покадрово, отклоняя небезопасные видео. Для защиты приватности и снижения предвзятости система автоматически размывает лица людей. Дополнительно, видео, сгенерированные через API каталог NVIDIA, содержат невидимые водяные знаки для идентификации ИИ-сгенерированного контента.
Ускоренная обработка данных — ещё одно ключевое преимущество платформы. Использование GPU NVIDIA H100 (архитектура Hopper) позволяет обработать 20 миллионов часов данных всего за 40 дней, а на новейших GPU NVIDIA Blackwell этот показатель улучшается до 14 дней. Для сравнения, аналогичная обработка на CPU заняла бы более трёх лет. Такое драматическое ускорение означает, что компании могут значительно быстрее разрабатывать и тестировать новые решения, существенно сокращая время выхода продукта на рынок.
Доступные модели
На момент запуска (январь 2025 года) через Hugging Face и каталог NVIDIA NGC доступны следующие модели:
Диффузионные модели (Diffusion WFMs)
-
Cosmos-1.0-Diffusion-7B-Text2World: базовая модель на 7 миллиардов параметров для генерации видео из текста, подходит для быстрого тестирования идей;
-
Cosmos-1.0-Diffusion-14B-Text2World: расширенная версия для более точной генерации;
-
Cosmos-1.0-Diffusion-7B-Video2World: 7B модель для продолжения видео по первому кадру;
-
Cosmos-1.0-Diffusion-14B-Video2World: улучшенная версия для предсказания развития сцены.
Авторегрессивные модели (Autoregressive WFMs)
-
Cosmos-1.0-Autoregressive-4B: базовая модель для предсказания следующих кадров;
-
Cosmos-1.0-Autoregressive-5B-Video2World: модель с поддержкой текстовых условий;
-
Cosmos-1.0-Autoregressive-12B: расширенная версия для сложных сценариев;
-
Cosmos-1.0-Autoregressive-13B-Video2World: продвинутая модель для текст-в-видео генерации.
Важно отметить, что модели 4-7B подходят для базовых задач и быстрого тестирования идей, в то время как модели 12-14B обеспечивают более высокую точность и подходят для сложных сценариев использования.
Производительность и масштабы
Процесс обучения моделей Cosmos впечатляет своими масштабами:
-
Использовано 10 000 GPU NVIDIA H100;
-
Время обучения составило три месяца;
-
Обработано 20 миллионов часов видеоданных (9 000 триллионов токенов).
Например, Cosmos-1.0-Autoregressive-4B на восьми GPU NVIDIA H100 может обработать 9 входных кадров (0,9 секунд, 1280 токенов) и сгенерировать 24 будущих кадра (2,4 секунды, 1920 токенов) со скоростью 806 токенов в секунду, выполняя задачу всего за 2,38 секунды.
Перспективы развития
Интеграция Cosmos с другими технологиями NVIDIA, в особенности с платформой Omniverse, открывает уникальные возможности для создания полноценных виртуальных сред для тестирования. Что позволяет системам физического ИИ обучаться в максимально реалистичных условиях без рисков и затрат, связанных с реальными экспериментами.
Заключение
NVIDIA Cosmos представляет собой значительный прорыв в развитии физического ИИ, делая процесс разработки роботов и автономных систем более быстрым, безопасным и эффективным. Сочетание мощных предобученных моделей, оптимизированной обработки данных и строгого внимания к безопасности создает надежную основу для нового поколения ИИ-систем, способных эффективно взаимодействовать с физическим миром.
В настоящее время NVIDIA предоставляет возможность протестировать модели Cosmos онлайн через интерактивный интерфейс.
Например, можно опробовать Cosmos-1.0-autoregressive-5b для генерации будущих кадров на основе загруженного видео или Cosmos-1.0-diffusion-7b для создания видео из текстовых описаний. Каждая модель может обработать до 20 запросов, а генерация одного видео занимает около 60 секунд.
Интересно отметить, что, как заметили пользователи Reddit, NVIDIA, возможно, обладает даже более мощными моделями, которые компания пока держит для внутреннего использования. Учитывая, что Cosmos предоставляется с открытой моделью лицензирования, это может означать, что мы видим только верхушку айсберга возможностей этой технологии
Автор: TechDed