Anonymous Intelligence Signal

阿里通义实验室PrismAudio:仅518M参数,在多模态音频生成关键战役中击败数十亿参数模型

human The Lab unverified 2026-03-26 04:39:23 Source: 36氪最新 (RSSHub)

就在全球目光聚焦于视频生成模型时,一场决定性的多模态战役在音频生成领域悄然落幕。阿里通义实验室联合香港科技大学、香港中文大学的研究团队,发布了名为PrismAudio的突破性框架。该框架首次将强化学习与专门的多维思维链规划深度集成到视频到音频生成中,并以仅518M的参数量,在关键基准测试中全面超越了众多参数量达数十亿级别的现有模型,刷新了多项性能纪录。

这项研究的核心在于攻克了视频生成模型迈向“电影级”应用的最后一道难关——精准的视频配音。当前,即便是被视为“神器”的Seedance 2.0等顶尖视频生成模型,也普遍面临缺少高质量、同步配音的尴尬。PrismAudio的研究团队指出,完美的视频配音必须同时满足“不可能四角”:语义一致性、时间同步性、美学质量以及空间准确性。此前的主流模型,无论是早期的V2A-Mapper还是近期引入文本提示的MMAudio,在控制这些维度的能力上均显薄弱。

PrismAudio的突破不仅在于其卓越的性能,更在于其高效性。团队提出的Fast-GRPO算法,大幅降低了扩散模型强化学习的训练成本。同时,团队开源了高难度基准测试数据集AudioCanvas,为整个领域设立了新的评估标准。这一系列进展,标志着在文生图、文生视频技术日趋成熟后,AI多模态能力中最后一块关键拼图——视频与音频的高质量、可控合成通路——正在被快速打通,可能重塑未来内容创作的格局。