Исследователи из команды OpenAI представили новую модель непрерывной согласованности во времени (sCM), которая способна генерировать видеоматериалы в 50 раз быстрее, чем существующие модели. Эта разработка была представлена в статье, опубликованной на сервере препринтов arXiv, и описана в статье на сайте компании.
Новая модель, разработанная Чэн Лу и Ян Сун, представляет собой тип переменной генеративной модели, которая использует диффузионные методы для обучения приложений ИИ. Такие модели обычно включают три основных компонента: прямые и обратные процессы и процедуру выборки. Они широко используются для создания визуальной продукции, такой как видео и изображения, а также применяются в других областях, например, в создании аудио.
Традиционные модели диффузии требуют сотен шагов для генерации конечного результата, что занимает несколько минут. В отличие от этого, новая модель Лу и Сонг выполняет всю работу всего за два шага, что радикально сокращает время генерации видео без потери качества.
Новая модель использует более 1,5 миллиарда параметров и может создать видео за доли секунды на компьютере с одним графическим процессором A100. Это примерно в 50 раз быстрее, чем существующие модели. Исследователи подчёркивают, что их модель требует гораздо меньше вычислительной мощности, чем другие модели, что является постоянной проблемой для приложений ИИ.
Новая модель уже прошла бенчмаркинг для сравнения результатов с другими моделями, включая те, которые используются в настоящее время, и те, которые разрабатываются другими командами.
«Наша новая модель представляет собой значительный шаг вперёд в области генеративного ИИ. Мы верим, что она откроет новые возможности для создания реальных приложений на базе искуственного интеллекта, которые могут работать в реальном времени», — отметили Чэн Лу и Ян Сун.
Эта разработка имеет значительные перспективы для различных областей, включая создание видео, изображений и аудио, а также для приложений ИИ в целом. Быстрая генерация видео может быть полезна в таких областях, как кинопроизводство, реклама и образование. Кроме того, снижение вычислительной мощности, необходимой для работы модели, может сделать её более доступной для широкого круга пользователей.