Anonymous Intelligence Signal
南洋理工大学MMLab攻克AI交互难题:Hand2World让世界模型真正“伸手”操作
世界模型终于长出了“手”。南洋理工大学MMLab团队提出的Hand2World,攻克了AI从被动观察转向主动操作的核心难题。现有模型如Sora能生成逼真世界,Genie 3能实现3D探索,但它们始终缺少交互能力——用户只能“看”,无法“触”。Hand2World打破了这一僵局:用户只需对着一张场景照片在空中比划手势,AI就能实时生成手伸入场景抓取杯子、翻动书本或打开盒子的第一人称交互视频。这并非一次性生成,而是支持用户边看边调整手势,模型实时跟进响应,首次实现了世界模型的闭环持续交互。
这项突破的关键在于解决了长期困扰该领域的“遮挡误导”与“运动纠缠”两大技术瓶颈。传统方法基于2D手部遮罩训练,模型在训练时看到的总是被物体部分遮挡的“残缺的手”,而在实际推理时却收到完整的空中手势,导致数据分布严重错配,生成结果出现伪影。Hand2World摒弃了旧有路径,创新性地采用3D手部结构与射线编码,成功解耦了第一人称视频中纠缠在一起的手部运动与头部转动,让模型能清晰分辨“是手在动还是头在动”,从而生成背景稳定、交互逼真的视频。
该研究基于单目视频实现了全自动标注,大幅提升了数据的可扩展性与实用性,为增强现实(AR)与机器人交互等领域铺平了道路。它标志着世界模型正从纯粹的视觉仿真,迈向具备物理交互能力的下一代范式。随着主动操作难题被攻克,AI与物理世界交互的“最后一道坎”正在被跨越。