Нейросети для локальной генерации видео

в 10:00, , рубрики: видео, генеративные модели, искусственный интеллект, нейросети, обзор, обзоры

Давно было понятно, что генерация видео с помощью нейросетей станет возможной локально на ПК. Это полезно для всех, кто не готов платить за подписки, но готов платить за мощное железо. Потому что видео-модели требуют значительных вычислительных ресурсов.

На текущий момент существует несколько ключевых моделей, которые подходят для локальной установки: stable Video Diffusion, Mochi 1, Hunyan Video и LTX Video. Каждая из них имеет свои уникальные особенности, которых ниже.

Stable Video Diffusion (SVD)

Эта модель, разработанная Stability AI, является одной из первых открытых моделей для генерации видео из изображений. Она основана на латентных диффузионных моделях и может генерировать короткие клипы с высоким разрешением. Согласно данным, SVD доступна на платформе Hugging Face, и пользователи могут запускать ее локально с помощью фреймворка Diffusers. Для эффективной работы требуется NVIDIA GPU с минимум 16 ГБ VRAM, что делает ее довольно ресурсоемкой.

Mochi 1

Модель разработанная Genmo AI, специализируется на генерации видео из текстовых подсказок. Она открыта под лицензией Apache 2.0, что позволяет скачивать код и веса модели с GitHub. Модель поддерживает разрешение 480p с частотой 30 кадров в секунду и может генерировать видео длительностью до 5,4 секунды. Точные требования к оборудованию не указаны, но предполагается, что требуется мощный GPU.

Hunyan Video

Эта модель от Tencent выделяется своими 13 миллиардами параметров, что делает ее одной из самых крупных открытых моделей для генерации видео. Код и веса модели доступны на GitHub. Она поддерживает разрешения до 720p x 1280p и требует минимум 45 ГБ GPU-памяти для базового разрешения, с рекомендацией 80 ГБ для оптимальной производительности.

LTX Video

LTX Video, разработанная Lightricks, основана на Diffusion Transformer (DiT) и предназначена для быстрой генерации видео. Она легкая, с всего 2 миллиардами параметров, и требует всего 6 ГБ VRAM, что делает ее более доступной для пользователей с менее мощным оборудованием. Модель может генерировать 5-секундное видео в реальном времени на NVIDIA H100, но также работает на большинстве GPU с 8 ГБ VRAM. Установка возможна через ComfyUI. Эта модель поддерживает как текст-в-видео, так и изображение-в-видео, что добавляет гибкости. Код и веса модели доступны на GitHub.

Сравнительный анализ

Для удобства сравнения мы составили таблицу, которая включает ключевые характеристики каждой модели:

Модель

Разработчик

Минимальная VRAM

Особенности

Ссылка

Stable Video Diffusion

Stability AI

16 ГБ

Высокое разрешение, ресурсоемкая

Stability AI

Mochi 1

Genmo AI

Не указано

Качество движения, открытый код

Mochi 1

Hunyan Video

Tencent

45 ГБ

13B параметров, высокое качество

Hunyan Video

LTX Video

Lightricks

6 ГБ

Быстрая, легкая, реальное время

LTX Studio

Установка и совместимость

Процесс установки варьируется в зависимости от модели. Для SVD рекомендуется использовать Python с версией 3.9 или выше, создать виртуальную среду и установить зависимости через pip.

Pinocchio, платформа для запуска AI-моделей, упрощает установку SVD. Для Mochi 1 и Hunyan Video пользователи могут следовать инструкциям на GitHub, где доступны репозитории с кодом.

LTX Video, в свою очередь, легко устанавливается через ComfyUI, что делает ее доступной для новичков.

Важно отметить, что все модели оптимизированы для NVIDIA GPU, и совместимость с AMD может быть ограничена. Например, SVD и LTX Video требуют CUDA-поддержки, что исключает использование AMD-графики на текущий момент.

Потенциальные применения и ограничения

Локальная генерация видео, конечно, дает возможности для создания контента без зависимости от интернета, но время обработки, скорее всего, будет дольше, чем в облаке, из-за ограничений оборудования. Качество также зависит от модели: LTX Video выделяется скоростью, но может уступать в деталях по сравнению с Hunyan Video для сложных сцен.

Для новичков рекомендуется начать с LTX Video из-за ее низких требований к VRAM, в то время как профессионалы могут предпочесть Hunyan Video для максимального качества.

Чтобы расти как профессионал, нужно быть в курсе технологических тенденций и следить за новостями в ИТ. Подписывайтесь на телеграм-канал EasyTech, где мы публикуем авторский контент и делимся интересными новостями из мира IT.

Автор: AnnaWoo

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js