MMAudio: Генерация звука для видео с помощью ИИ

в 18:30, , рубрики: видеомонтаж, генерация звука, звук, нейросеть, нейросеть для озвучки, обработка звука, озвучка видео, портативная версия

Всем привет! Исследователи из Университета Иллинойса и Sony AI представили интересный проект MMAudio - нейросеть для создания звукового сопровождения к видео. Меня зовут Илья, я основатель онлайн-нейросети для создания изображений ArtGeneration.me, техноблогер и нейро-евангелист, и сегодня я хочу рассказать об этой технологии подробнее и поделиться нашей портативной версией. Главная особенность системы в том, что она может генерировать звуки не только по текстовому описанию, но и на основе изображения или видео.

Как это работает

MMAudio: Генерация звука для видео с помощью ИИ - 1

В основе MMAudio лежит идея мультимодального обучения - система одновременно анализирует видео, звук и текстовые описания. Для этого используются два параллельных потока обработки видео: CLIP для понимания общего контекста (8 кадров/сек) и Synchformer для точной синхронизации (24 кадра/сек).

Такой подход позволяет системе лучше понимать происходящее в видео и создавать более подходящее звуковое сопровождение. Например, увидев падающие капли дождя, MMAudio не просто генерирует шум дождя, а пытается воспроизвести характерный звук капель, попадающих на разные поверхности.

MMAudio: Генерация звука для видео с помощью ИИ - 2

Важно отметить, что система использует технологию Flow Matching вместо традиционной диффузии, что позволяет достичь впечатляющей скорости работы - генерация 8-секундного клипа занимает всего несколько секунд.

Системные требования

Для работы с MMAudio необходимо:

  • NVIDIA GPU с 8+ ГБ видеопамяти

  • Windows 10/11 64-bit

  • 16 ГБ оперативной памяти

  • 12 ГБ свободного места на диске

Возможности MMAudio

Система отлично справляется с базовым озвучиванием видео. В первую очередь это звуки повседневной жизни - шаги, движение предметов, звуки природы. Вот несколько примеров:

• Динамические звуки: система точно улавливает моменты движения и синхронизирует звуки шагов, прыжков, перемещения объектов. Точность синхронизации достигает 25 миллисекунд.

• Природные эффекты: реалистично воссоздаёт звуки дождя, ветра, текущей воды. Особенно впечатляет работа с дождём - система различает как он звучит на разных поверхностях.

• Спортивные события: безошибочно определяет моменты ударов по мячу, прыжков, создает реалистичную акустическую атмосферу стадиона или спортзала.

• Звуковые ландшафты: может создавать атмосферные звуки для различных локаций - леса, города, пляжа и т.д.

Текущие ограничения

К сожалению, не все задачи система решает одинаково хорошо:

• Проблемы с речью: генерируемая человеческая речь пока неразборчива. Система может создать речеподобные звуки, но понять их невозможно.

• Сложная музыка: музыкальное сопровождение ограничивается простыми эффектами. Полноценные композиции пока недоступны.

• Временные рамки: система работает с клипами длительностью 8-10 секунд. Более длинные видео приходится обрабатывать по частям.

• Необычные звуки: могут возникать проблемы со звуками, которых не было в обучающей выборке.

Кому это пригодится

Создателям контента:
MMAudio станет незаменимым помощником для ютуберов и стримеров. С её помощью можно быстро озвучить короткий ролик или добавить звуковые эффекты в прямом эфире. Аниматоры оценят возможность быстрого прототипирования звукового сопровождения.

Разработчикам игр:
Технология отлично подходит для создания тестовых звуковых эффектов и процедурной генерации звука. Это особенно полезно на этапе прототипирования, когда нужно быстро проверить разные звуковые концепции.

Видеомонтажерам: MMAudio поможет в создании черновых версий звуковых дорожек. Система быстро сгенерирует базовое звуковое сопровождение, которое потом можно доработать вручную.

3D-аниматорам:
Идеально подходит для быстрого озвучивания превизуализаций и тестовых рендеров.

Как попробовать

Попробовать MMAudio можно несколькими способами:

Онлайн-демо

  • Hugging Face - быстрый способ оценить возможности

  • Google Colab - для экспериментов без установки

  • Replicate - для интеграции через API

Для разработчиков
Исходный код доступен на GitHub

Наша портативная версия

Мы с каналом Нейро-Софт подготовили модифицированную русифицированную портативную сборку MMAudio, в которой:

  • Русский интерфейс

  • Упрощенная установка в 1 клик которая сама все скачает и поставит

  • Возможность сохранять аудио отдельно от видео

  • Генерация аудио из изображения

  • Оптимизация для работы на доступных GPU

Всё необходимое уже включено в дистрибутив, просто распакуйте и запускайте. Никаких дополнительных настроек не требуется. Забирайте тут.

Мой опыт

Я активно использую MMAudio для озвучки видео, сгенерированных в различных img2video сервисах. Результаты действительно впечатляют - система отлично справляется с базовыми звуками и создает довольно реалистичную атмосферу. Особенно хорошо получается озвучка природных сцен и различных действий вроде ходьбы или спортивных движений.

Конечно, технология ещё развивается, и иногда встречаются забавные артефакты в генерации, но для быстрого создания базового звукового сопровождения - это отличный инструмент.

Я рассказываю больше о нейросетях у себя на YouTube, в телеграм и на Бусти. Буду рад вашей подписке и поддержке. Ну и на канал с репаками тоже подпишетесь, чтобы не пропустить ничего полезного. Всех обнял. Удачных генераций!

Автор: timonin

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js