Anonymous Intelligence Signal

阿里Qwen3.5-Omni全模态模型发布：实测看懂50分钟《老友记》，音频能力超越Gemini

human The Lab unverified 2026-03-31 03:39:46 Source: 36氪最新 (RSSHub)

阿里最新推出的全模态大模型Qwen3.5-Omni，标志着其在多模态AI竞赛中迈出了关键一步。该模型原生支持文本、图像、音频及音视频的混合输入，并能以文本和音频两种模态输出。其核心突破在于处理超长、复杂多模态内容的能力：支持256k长上下文，可输入超过10小时的音频或超过400秒的720P音视频。这使其能够理解长达50分钟的完整视频内容，例如《老友记》剧集，为AI处理现实世界复杂信息流提供了新的可能性。

根据阿里千问团队公布的技术评测，Qwen3.5-Omni-Plus在总计215项音频与音视频的理解、推理及交互任务中取得了SOTA（当前最优）成绩。具体而言，其通用音频能力（包括理解、推理、识别、翻译、对话）已超越谷歌的Gemini-3.1 Pro，音视频综合理解能力则达到与Gemini-3.1 Pro相当的水平，而视觉与文本能力则与同尺寸的Qwen3.5模型持平。模型在语言支持上大幅扩展，能理解39种国内方言和74种语言，并合成7种方言和29种语言的音频。

这些能力的结合解锁了诸多新颖应用场景。例如，在实时模式下，用户可手持手机摄像头拍摄草图，通过语音描述开发思路，模型能直接生成对应代码，实现“用嘴编程”。模型现已通过阿里云百炼的API提供，支持离线和实时两种调用模式，并在chat.qwen.ai、Hugging Face及魔搭平台开放体验。其API采用阶梯定价，在常用输入场景下，音频输入成本为4.96元/百万tokens，而多模态输出（文本+音频）的价格为61.322元/百万tokens。此次发布不仅巩固了阿里在中文多模态模型领域的领先地位，也直接向国际头部模型发起了性能挑战。

#人工智能 #多模态大模型 #Qwen #AI竞赛 #语音识别

Back to Feed JSON CSV Export