Всем привет! Исследователи из Университета Иллинойса и Sony AI представили интересный проект MMAudio - нейросеть для создания звукового сопровождения к видео. Меня зовут Илья, я основатель онлайн-нейросети для создания изображений ArtGeneration.me, техноблогер и нейро-евангелист, и сегодня я хочу рассказать об этой технологии подробнее и поделиться нашей портативной версией. Главная особенность системы в том, что она может генерировать звуки не только по текстовому описанию, но и на основе изображения или видео.
Как это работает
В основе MMAudio лежит идея мультимодального обучения - система одновременно анализирует видео, звук и текстовые описания. Для этого используются два параллельных потока обработки видео: CLIP для понимания общего контекста (8 кадров/сек) и Synchformer для точной синхронизации (24 кадра/сек).
Такой подход позволяет системе лучше понимать происходящее в видео и создавать более подходящее звуковое сопровождение. Например, увидев падающие капли дождя, MMAudio не просто генерирует шум дождя, а пытается воспроизвести характерный звук капель, попадающих на разные поверхности.
Важно отметить, что система использует технологию Flow Matching вместо традиционной диффузии, что позволяет достичь впечатляющей скорости работы - генерация 8-секундного клипа занимает всего несколько секунд.
Системные требования
Для работы с MMAudio необходимо:
-
NVIDIA GPU с 8+ ГБ видеопамяти
-
Windows 10/11 64-bit
-
16 ГБ оперативной памяти
-
12 ГБ свободного места на диске
Возможности MMAudio
Система отлично справляется с базовым озвучиванием видео. В первую очередь это звуки повседневной жизни - шаги, движение предметов, звуки природы. Вот несколько примеров:
• Динамические звуки: система точно улавливает моменты движения и синхронизирует звуки шагов, прыжков, перемещения объектов. Точность синхронизации достигает 25 миллисекунд.
• Природные эффекты: реалистично воссоздаёт звуки дождя, ветра, текущей воды. Особенно впечатляет работа с дождём - система различает как он звучит на разных поверхностях.
• Спортивные события: безошибочно определяет моменты ударов по мячу, прыжков, создает реалистичную акустическую атмосферу стадиона или спортзала.
• Звуковые ландшафты: может создавать атмосферные звуки для различных локаций - леса, города, пляжа и т.д.
Текущие ограничения
К сожалению, не все задачи система решает одинаково хорошо:
• Проблемы с речью: генерируемая человеческая речь пока неразборчива. Система может создать речеподобные звуки, но понять их невозможно.
• Сложная музыка: музыкальное сопровождение ограничивается простыми эффектами. Полноценные композиции пока недоступны.
• Временные рамки: система работает с клипами длительностью 8-10 секунд. Более длинные видео приходится обрабатывать по частям.
• Необычные звуки: могут возникать проблемы со звуками, которых не было в обучающей выборке.
Кому это пригодится
Создателям контента:
MMAudio станет незаменимым помощником для ютуберов и стримеров. С её помощью можно быстро озвучить короткий ролик или добавить звуковые эффекты в прямом эфире. Аниматоры оценят возможность быстрого прототипирования звукового сопровождения.
Разработчикам игр:
Технология отлично подходит для создания тестовых звуковых эффектов и процедурной генерации звука. Это особенно полезно на этапе прототипирования, когда нужно быстро проверить разные звуковые концепции.
Видеомонтажерам: MMAudio поможет в создании черновых версий звуковых дорожек. Система быстро сгенерирует базовое звуковое сопровождение, которое потом можно доработать вручную.
3D-аниматорам:
Идеально подходит для быстрого озвучивания превизуализаций и тестовых рендеров.
Как попробовать
Попробовать MMAudio можно несколькими способами:
Онлайн-демо
-
Hugging Face - быстрый способ оценить возможности
-
Google Colab - для экспериментов без установки
-
Replicate - для интеграции через API
Для разработчиков
Исходный код доступен на GitHub
Наша портативная версия
Мы с каналом Нейро-Софт подготовили модифицированную русифицированную портативную сборку MMAudio, в которой:
-
Русский интерфейс
-
Упрощенная установка в 1 клик которая сама все скачает и поставит
-
Возможность сохранять аудио отдельно от видео
-
Генерация аудио из изображения
-
Оптимизация для работы на доступных GPU
Всё необходимое уже включено в дистрибутив, просто распакуйте и запускайте. Никаких дополнительных настроек не требуется. Забирайте тут.
Мой опыт
Я активно использую MMAudio для озвучки видео, сгенерированных в различных img2video сервисах. Результаты действительно впечатляют - система отлично справляется с базовыми звуками и создает довольно реалистичную атмосферу. Особенно хорошо получается озвучка природных сцен и различных действий вроде ходьбы или спортивных движений.
Конечно, технология ещё развивается, и иногда встречаются забавные артефакты в генерации, но для быстрого создания базового звукового сопровождения - это отличный инструмент.
Я рассказываю больше о нейросетях у себя на YouTube, в телеграм и на Бусти. Буду рад вашей подписке и поддержке. Ну и на канал с репаками тоже подпишетесь, чтобы не пропустить ничего полезного. Всех обнял. Удачных генераций!
Автор: timonin