Anonymous Intelligence Signal
字节跳动Helios模型挑战AI视频生成“不可能三角”:14B参数实现近实时长视频
在Seedance 2.0引爆AI视频生成赛道后,整个行业陷入了一个核心困境:模型规模、生成时长与推理速度构成的“不可能三角”。追求电影级画质,意味着需要字节跳动这类大厂打造的百亿参数模型,但代价是视频最长仅15秒、高昂的单次生成成本以及长达十几分钟的等待。若追求快速出片,则必须将参数量压缩至约1B,结果便是画面模糊、细节丢失,视频超过10秒便开始崩溃。无法实现高质量、实时的长视频,AI视频生成便永远无法触及电影工业的门槛。
然而,推出Seedance 2.0的字节跳动,其野心远不止于此。由北京大学与字节跳动等机构联合研发的Helios大模型,正试图用技术利刃劈开这个三角。Helios是首个能在单张英伟达H100显卡上,以19.53帧/秒(FPS)速度运行的14B参数模型。尽管14B参数在AI大厂的旗舰语言模型中堪称“迷你版”,但其画质据称能匹敌当前最强一档模型,并能以接近“实时”的速度,连贯生成长达数分钟的视频。
这一突破直指AI视频生成的“阿喀琉斯之踵”——“长程漂移”。无论是即梦、可灵还是Sora,用户普遍面临视频长度被限制在10-15秒的困境。其根本原因在于,随着视频帧数呈几何级数增长,模型需要记忆和连贯处理的信息量暴增。前几秒画面中任何微小的瑕疵,都会在后续生成过程中被不断累积和放大,导致主角面部特征丢失、肢体结构突变、背景扭曲、动作违反物理逻辑,最终画面全面崩溃。Helios的尝试,正是为了攻克这一“噩梦般”的技术壁垒。