Xiaomi выпускает ControlFoley — открытый фреймворк для видео и аудио, обеспечивающий точное управление звуком

По словам Beating, команда ИИ Xiaomi выпустила и открыла исходный код ControlFoley — фреймворка для генерации видео-аудио, который предоставляет создателям точный контроль над стилем звука с помощью текстовых описаний или референсного аудио. В отличие от традиционных систем ИИ-дубляжа, которые определяют звук только по визуальным данным, ControlFoley позволяет изменять аудио-характеристики — например, превратить стук в дверь в металлический удар или применить барабанные тона к попаданиям теннисного мяча — при этом сохраняя синхронизацию аудио и видео. Фреймворк использует аудио-визуальный энкодер «время-пространство» с стратегией развязки «время-тембр». Технический отчёт проекта, код, веса модели и демо теперь доступны.
Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев