Anonymous Intelligence Signal
阿里Qwen3.5-Omni全模态模型发布:实测看懂50分钟《老友记》,音频能力超越Gemini
阿里最新推出的全模态大模型Qwen3.5-Omni,标志着其在多模态AI竞赛中迈出了关键一步。该模型原生支持文本、图像、音频及音视频的混合输入,并能以文本和音频两种模态输出。其核心突破在于处理超长、复杂多模态内容的能力:支持256k长上下文,可输入超过10小时的音频或超过400秒的720P音视频。这使其能够理解长达50分钟的完整视频内容,例如《老友记》剧集,为AI处理现实世界复杂信息流提供了新的可能性。
根据阿里千问团队公布的技术评测,Qwen3.5-Omni-Plus在总计215项音频与音视频的理解、推理及交互任务中取得了SOTA(当前最优)成绩。具体而言,其通用音频能力(包括理解、推理、识别、翻译、对话)已超越谷歌的Gemini-3.1 Pro,音视频综合理解能力则达到与Gemini-3.1 Pro相当的水平,而视觉与文本能力则与同尺寸的Qwen3.5模型持平。模型在语言支持上大幅扩展,能理解39种国内方言和74种语言,并合成7种方言和29种语言的音频。
这些能力的结合解锁了诸多新颖应用场景。例如,在实时模式下,用户可手持手机摄像头拍摄草图,通过语音描述开发思路,模型能直接生成对应代码,实现“用嘴编程”。模型现已通过阿里云百炼的API提供,支持离线和实时两种调用模式,并在chat.qwen.ai、Hugging Face及魔搭平台开放体验。其API采用阶梯定价,在常用输入场景下,音频输入成本为4.96元/百万tokens,而多模态输出(文本+音频)的价格为61.322元/百万tokens。此次发布不仅巩固了阿里在中文多模态模型领域的领先地位,也直接向国际头部模型发起了性能挑战。