Компания Google решила не отставать от тренда, касающегося нейросетей. Её новая система под названием Imagen Video создаёт видео по текстовому описанию, причём в довольно высоком качестве.
Система может создавать ролики длительностью до 5 секунд в разрешении 1280 на 768 пикселей. компания пока не публикует исходные коды системы и не открывает доступ к ней, чтобы избежать появления шокирующего или непристойного контента.
По данным источника, новая система умеет работать в разных стилях. В частности, она умеет имитировать стили художников и создавать вращающиеся 3D-объекты, причём их форма сохраняется по мере вращения.
Нейросеть обучали на десятках миллионов фотографий, видео и текстовых описаний. При подаче текстового запроса система генерирует исходный прототип видео из 16 кадров с разрешением 24×48 пикселей и частотой 3 кадра в секунду. После этого другая система увеличивает разрешение до 1280 на 768 пикселей и 5 секунд.
Результаты работы доступны на сайте проекта. А ранее разработчики из компании Meta* представили новую нейросеть под названием Make-A-Video, которая тоже умеет создавать видео по текстовому описанию.
* Meta признана экстремистской организацией на территории РФ