Netflix推出VOID:用于物理一致性视频对象移除的开源框架

简述

Netflix已发布VOID,这是一个开源AI框架,可在移除视频中的物体的同时保留逼真的物理交互,为专业视频制作提供了比传统修补(inpainting)工具更先进的替代方案。

Netflix Launches VOID, An Open-Source AI Framework For Physically Consistent Video Object Removal全球流媒体服务Netflix已推出VOID,这是一款开源框架,旨在移除视频中的物体,同时保留这些物体所产生的物理交互,针对传统修补与物体移除工具中观察到的限制进行了改进。

从历史上看,从场景中移除某个物体一直相对简单,但要确保其后的环境表现得真实自然则面临重大挑战。例如,删除一个拿着吉他的人的同时,乐器可能会以不自然的方式悬挂在空中;从泳池中移除一名潜水员,则可能导致水面不发生变化。视觉特效团队过去通常需要手动修正这类问题,这是一个耗时的过程,单个镜头的修复可能从数天延长到数周。

VOID(Video Object and Interaction Deletion的缩写)旨在解决这些复杂情况。不同于仅仅用来填补缺失像素的传统方法,该系统在移除物体之后会预测场景中物理一致的结果

它结合多种技术来实现这一点。谷歌的Gemini会分析场景,以识别删除操作将影响哪些区域;Meta的SAM2则对需要移除的物体进行分割。这些输出会被编码到一个quadmask(四值掩码)中:该四值图用于指示哪些区域需要擦除、哪些区域会发生重叠、哪些区域会受到物理影响,以及哪些区域将保持不变。基于阿里巴巴CogVideoX构建的视频扩散模型随后以物理上可信的方式重建场景。可选的第二次处理会应用光流,以纠正初次重建可能引入的任何形变。

在视频制作中展示物理一致的物体移除

VOID的演示带来了令人信服的效果:当移除手持者后,气球会上升得更自然;当删除与之无关的方块时,方块仍能保持稳定;在将一个人擦除之后,泳池表面不会受到影响。在一项包含25名参与者的人类偏好研究中,VOID在64.8%的情况下被选择,表现优于Runway(一款领先的商业替代方案),后者仅获得18.4%的选择率。

此次发布标志着Netflix Research的第一款公开可用AI工具。VOID采用Apache 2.0许可,可用于商业用途,并托管在Hugging Face上。目前的硬件要求限制了可访问性:运行该模型需要一块40GB VRAM的GPU,但未来的优化以及更低的基础设施成本可能会扩大其可用范围。VOID代表了视频制作技术的转变:从简单的擦除工具,迈向能够理解并以真实方式重建场景的系统;这一发展对专业工作流程具有重要影响。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论
  • 热门 Gate Fun

    查看更多
  • 市值:$2241.37持有人数:0
    0.00%
  • 市值:$2237.93持有人数:1
    0.00%
  • 市值:$2241.37持有人数:1
    0.00%
  • 市值:$0.1持有人数:0
    0.00%
  • 市值:$2272.7持有人数:2
    0.07%