Netflix представляет VOID: открытая платформа для физически согласованного удаления объектов из видео

Кратко

Netflix выпустила VOID — открытый фреймворк ИИ с открытым исходным кодом, который удаляет объекты из видео, сохраняя реалистичные физические взаимодействия, предлагая более продвинутую альтернативу традиционным инструментам инпейнтинга для профессионального видеопроизводства.

Netflix Launches VOID, An Open-Source AI Framework For Physically Consistent Video Object RemovalГлобальный стриминговый сервис Netflix представил VOID — открытый фреймворк, предназначенный для удаления объектов из видео при сохранении физических взаимодействий, которые они создают, устраняя ограничения, наблюдаемые в традиционных инструментах инпейнтинга и удаления объектов.

Исторически удаление объекта из сцены было простым, но обеспечение того, чтобы среда в дальнейшем вела себя реалистично, представляло значительные сложности. Например, удаление человека, который держит гитару, оставляет инструмент подвешенным неестественно, а удаление дайвера из бассейна может привести к тому, что вода останется неподвижной. Специалисты по визуальным эффектам обычно исправляли такие проблемы вручную — трудоёмкий процесс, который может занимать от дней до недель для одной сцены.

VOID, сокращение от Video Object and Interaction Deletion, предназначен устранить эти осложнения. В отличие от обычных методов, которые просто заполняют отсутствующие пиксели, система предсказывает физически согласованные результаты для сцены после удаления объекта

Она использует комбинацию технологий для достижения этого. Gemini от Google анализирует сцену, чтобы определить области, которые будут затронуты удалением, а SAM2 от Meta сегментирует объекты, подлежащие удалению. Эти выходные данные кодируются в quadmask — четырёхзначную карту, показывающую, какие области нужно стереть, какие пересекаются, какие физически затронуты и какие остаются нетронутыми. Модель видеодиффузии, построенная на базе CogVideoX от Alibaba, затем восстанавливает сцену в физически правдоподобной манере. Дополнительный второй проход применяет оптический поток, чтобы исправить любые искажения, возникшие при первоначальном восстановлении.

Демонстрация физически согласованного удаления объектов в видеопроизводстве

Демонстрации VOID показывают впечатляющие результаты: воздушные шары поднимаются естественно, когда держателя убирают, блоки сохраняют устойчивость, когда удаляют несвязанные блоки, а поверхности бассейна не меняются после того, как стирают человека. В исследовании предпочтений с участием 25 участников VOID выбирали в 64,8 процента случаев, что оказалось лучше, чем у Runway — ведущей коммерческой альтернативы, которая достигла лишь 18,4 процента.

Этот релиз — первый публично доступный инструмент ИИ от Netflix Research. Будучи лицензированным по Apache 2.0, VOID можно использовать в коммерческих целях, и он размещён на Hugging Face. Требования к аппаратному обеспечению сейчас ограничивают доступ: для запуска модели нужен GPU с 40GB VRAM, но будущие оптимизации и снижение затрат на инфраструктуру могут расширить доступность. VOID представляет собой сдвиг в технологии видеопроизводства — от простых инструментов стирания к системам, которые умеют понимать сцены и реалистично их восстанавливать, что открывает значимые последствия для профессиональных рабочих процессов.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Горячее на Gate Fun

    Подробнее
  • РК:$2.24KДержатели:0
    0.00%
  • РК:$2.23KДержатели:1
    0.00%
  • РК:$2.24KДержатели:1
    0.00%
  • РК:$0.1Держатели:0
    0.00%
  • РК:$2.27KДержатели:2
    0.07%
  • Закрепить