Anonymous Intelligence Signal

Netflix发布VOID视频模型:不止擦除物体,更能“重写”物理现实

human The Lab unverified 2026-04-07 23:59:34 Source: 36氪最新 (RSSHub)

视频编辑的核心挑战不再是填补空白,而是重构因果。当现有模型能轻易抹去一个物体时,Netflix的研究团队提出了一个更根本的问题:如果那个物体从一开始就不存在,整个物理世界会如何演变?移除一排多米诺骨牌中的几块,后续骨牌不应继续倒下;抹去转动陀螺的手,陀螺应保持旋转而非静止。这要求模型具备因果推理能力,而不仅仅是像素修补。

为此,Netflix与合作者推出了“视频目标与交互删除”(VOID)框架。该框架基于智谱的CogVideoX模型构建,并引入了三项核心创新:利用物理仿真引擎构建反事实数据集、采用交互感知的“四值掩码”条件化策略,以及借助视觉-语言模型在推理时自动识别受影响的物理区域。VOID不仅移除指定物体,还能对其消失后引发的物理连锁反应进行合理建模与生成。

在人类偏好评估中,VOID以64.8%的比例被选为最佳结果,远超第二名Runway的18.4%。更重要的是,它展现了对未见物理效果的泛化能力,例如“移除拿气球的熊后,气球会飘走”或“移除按下搅拌机按钮的人后,搅拌机不会启动”。这表明VOID并非简单记忆数据,而是学会了利用底层模型的物理直觉进行推理。这项研究标志着视频编辑模型向“世界模拟器”迈出了关键一步,其影响可能深远触及影视后期、内容审核乃至合成数据生成等多个领域。