Всего через несколько дней после того, как OpenAI представила Sora, Google выпустила свою новейшую и самую продвинутую ИИ-модель для генерации видео - Veo 2.0. В новой версии Veo реализовано несколько действительно крутых новых функций, включая разрешение 4K, улучшенное управление камерой и гораздо более высокое общее качество по сравнению с предыдущей версией.
Время выхода Veo 2.0 заставляет всех задуматься: Лучше ли Veo 2.0, чем Sora?
Если вы впервые слышите о Veo, то это ИИ-видеомодель Google, способная генерировать видео по текстовым описаниям. Первая версия Veo была представлена в мае 2024 года, но так и не стала общедоступной. Теперь Google представила Veo 2.0 со значительными улучшениями и расширенной функциональностью.
Что нового в Veo 2.0?
В Veo 2.0 компания Google представила три новые функции.
-
Повышенная реалистичность и точность
-
Расширенные возможности движения
-
Более широкие возможности управления камерой
Чтобы продемонстрировать возможности Veo 2.0, Google провела сравнительную оценку с другими ведущими моделями генерации видео, такими как Movie Gen от Meta, Kling v1.5, Minimax и Sora Turbo.
Эксперты просмотрели 1 003 образца видео, созданных с помощью промптов из набора данных MovieGenBench. Видеоролики сравнивались в разрешении 720p с разной продолжительностью: Образцы от Veo имели длительность 8 секунд, образцы от VideoGen - 10 секунд, а другие модели выдавали 5-секундные результаты.
Из приведенных выше таблиц видно, что Veo 2 демонстрирует лучшие результаты по общему предпочтению и способности точно следовать промптам.
Конечно, зная о не самом лучшем послужном списке Google, когда дело доходит до анонсов продуктов, вы должны воспринимать эти показатели с долей скепсиса. Всегда важно попробовать в действии эти ИИ-генераторы видео, прежде чем делать какие-либо выводы.
Пользователь X Блейн Браун провел хороший эксперимент, в ходе которого он попросил различные видеомодели создать видео, на котором рука повара нарезает стейк. Это очень сложная задача для ИИ-моделей. Руки, последовательная физика нарезки и движения, интерпретация «стейк готов идеально», пар, соки и т. д.
Вот промпт и конечные результаты:
Промпт: A pair of hands skillfully slicing a perfectly cooked steak on a wooden cutting board. faint steam rising from it.
Из этих результатов видно, что только Veo 2.0 смог создать реалистичное видео нарезки мяса.
Ключевые особенности Veo 2.0
Давайте подробнее рассмотрим новые возможности, начиная с повышенной реалистичности и точности.
По словам Google, Veo 2.0 - это огромный шаг вперед в детализации, реалистичности и уменьшении артефактов. Модель способна генерировать видео с высокоточными текстурами, естественными движениями и кинематографическим качеством по сравнению со своей предшественницей.
Промпт: An extreme close-up shot focuses on the face of a female DJ, her beautiful, voluminous black curly hair framing her features as she becomes completely absorbed in the music. Her eyes are closed, lost in the rhythm, and a slight smile plays on her lips. The camera captures the subtle movements of her head as she nods and sways to the beat, her body instinctively responding to the music pulsating through her headphones and out into the crowd. The shallow depth of field blurs the background. She’s surrounded by vibrant neon colors. The close-up emphasizes her captivating presence and the power of music to transport and transcend.
Честно говоря, я потрясен качеством этого видео. На первый взгляд, вам и в голову не придет, что это видео сгенерировано искусственным интеллектом. Текстура кожи детально проработана, движения головы плавные, и даже едва заметное дрожание камеры добавляет реалистичности сцене.
Реалистичность прослеживается также в текстурах и материалах. Возьмем, к примеру, видео с прозрачным камнем, созданное Veo 2.0.
ИИ точно моделирует, как свет отражается и преломляется через полупрозрачную поверхность. Это то, чего многие видеомодели до сих пор не могут достичь.
Теперь давайте посмотрим на расширенные возможности Veo 2 в области движений. Как сообщается в блоге Google, новая модель превосходит всех в понимании физики и способности следовать подробным инструкциям.
Взгляните на этот пример видео, где человек разрезает помидор.
Промпт: A pair of hands skillfully slicing a ripe tomato on a wooden cutting board
Получившееся видео выглядит естественно, нож плавно прорезает помидор. Физика движения - как помидор слегка смещается при движении и как движется нож - передана с удивительной точностью.
Вот как интерпретирует тот же промпт Sora от OpenAI:
Как видите, Sora все еще с трудом представляет физику реального мира.
Вот еще один пример:
Промпт: This medium shot, with a shallow depth of field, portrays a cute cartoon girl with wavy brown hair, sitting upright in a 1980s kitchen. Her hair is medium length and wavy. She has a small, slightly upturned nose, and small, rounded ears. She is very animated and excited as she talks to the camera.
Теперь 3D-анимация под угрозой. Посмотрите на волосы объекта. Каждая прядь ведет себя так же, как и в реальном мире, естественно реагируя на движения персонажа.
Наконец, в Veo 2 появилась новая функция управления камерой, которая позволяет ей точно интерпретировать инструкции и создавать широкий спектр стилей съемки, ракурсов, движений и комбинаций всего этого.
Вот интересный пример, которым поделился Джеррод Лью на сайте X, где он показал, как Veo обрабатывает промпт для придания сцене большей кинематографичности.
Промпт: A video of a person sitting in a cafe with a coffee. After a bit, cuts to another viewpoint to reveal that a person nearby table is writing a letter to them.
Заметили, как камера перемещается между сценами? Это невероятно полезно, если вы хотите сгенерировать несколько сцен с помощью одного промпта. Такой возможности нет в других ИИ-генераторах видео, даже в Sora от OpenAI.
Для режиссеров, маркетологов и создателей контента эти инструменты открывают возможности для создания более сложных сюжетов, генерируемых ИИ. Вместо того чтобы склеивать отдельные сцены, Veo теперь может создавать сложные, многоракурсные видео с помощью одного промпта.
Как создавать видео с помощью Veo 2.0
Зайдите в Google Labs и выберите «VideoFx» из списка доступных инструментов ИИ.
Если вы один из счастливчиков, получивших ранний доступ к Veo 2.0 через VideoFx, то слева появится окно для ввода описания видео, которое вы хотите сгенерировать.
Когда вы нажмете на кнопку «Create videos», VideoFx сгенерирует четыре варианта за раз. Вы можете повторить генерацию, чтобы получить больше вариаций, или скачать видео.
Некоторые пользователи также заметили функцию «Text to Image to Video», которая позволяет создать изображение с помощью Imagen 3 и превратить его в видео с помощью Veo 2.0.
Что нужно знать о Veo 2
-
Veo по-прежнему «галлюцинирует» и иногда создает нежелательные детали, такие как лишние пальцы или неожиданные объекты.
-
В сгенерированных в Veo 2 видео присутствует невидимый водяной знак SynthID, который помогает идентифицировать их как созданные искусственным интеллектом, что снижает вероятность дезинформации и присвоения авторства.
-
Veo может генерировать видео с разрешением в 4 раза выше и продолжительностью более чем в 6 раз больше, чем Sora.
-
Google или Deepmind не раскрыли никакой информации о том, какие данные и где были взяты для использования в обучении Veo 2. Скорее всего, источником данных является YouTube, принадлежащий Google.
По словам вице-президента Google по продуктам DeepMin Элая Коллинза, несмотря на многообещающие результаты, им еще есть над чем поработать.
«Veo может последовательно придерживаться промптов в течение пары минут, но [не может] придерживаться сложных промптов в течение длительного времени. Аналогично, согласованность персонажей может быть проблемой. Также есть куда совершенствоваться в создании сложных деталей, быстрых и сложных движений». - Илай Коллинз
Как создать видео в Veo 2.0?
Google постепенно развертывает его через VideoFX, YouTube и Vertex AI. Вы можете присоединиться к списку ожидания, зайдя в Video FX и нажав на кнопку «Join the waitlist».
Как только вам будет предоставлен доступ, вы получите уведомление по электронной почте. К сожалению, неясно, сколько времени это займет и как Google выбирает пользователей, которые смогут получить доступ к Veo 2.0.
Я, честно говоря, думал, что OpenAI сокрушит Google с их 12-дневной рождественской акцией, но неудачный запуск Sora дал Google отличный момент для того, чтобы обратить на себя внимание с помощью Veo 2.0. Уровень реализма здесь просто впечатляет. Физика и согласованность действий намного выше, а тот факт, что она может генерировать 4K-видео длиной до минуты, уже является огромным достижением.
Я очень рад, что Google выпустила эту модель. Я уже несколько месяцев жду новых вариантов, помимо Kling и Runway. Такая конкуренция - именно то, что нам нужно. Тем не менее, Google или DeepMind пока не назвали цену. Я очень надеюсь, что они не будут действовать как OpenAI и брать 200 долларов в месяц за максимальные возможности.
Если бы у меня был список пожеланий для Google, то он был бы таким: подключите Veo к подписке Gemini, добавьте больше творческих настроек, таких как изменение соотношения сторон, разрешения и длины видео, и добавьте коммерческую лицензию. Это было бы идеально.
Друзья, буду рад, если вы подпишетесь на мой телеграм-канал про нейросети - я стараюсь делиться только полезной информацией.
Автор: NeyroEntuziast