Anonymous Intelligence Signal
谷歌Gemini 3.1 Flash Live发布:实时语音Agent能力跃升,Siri的“救星”来了?
谷歌正式推出其最高质量的实时语音模型Gemini 3.1 Flash Live,标志着语音交互能力进入新阶段。该模型的核心突破在于其“实时语音Agent能力”的显著升级,语音已可直接驱动应用开发(vibe coding)。在多项关键评测中,其表现已超过GPT-Realtime-1.5、Qwen3 Omni 30B A3B Instruct及GPT-4o Audio preview等竞争对手,被海外网友视为苹果Siri的潜在“救星”。
这款模型在Gemini App、Search Live及Google AI Studio中同步开放,专为实时语音交互优化。其关键提升包括:响应延迟降低、上下文记忆窗口扩大至此前2倍、多语言处理能力覆盖200多个国家和地区,以及对复杂任务场景的更好支持。在具体的性能测试中,Gemini 3.1 Flash Live在ComplexFuncBench audio测试中的函数调用准确率达到90.8%,相比其前代版本(71.5%和66.0%)有大幅跃升。在Audio MultiChallenge榜单中,其36.1%的得分也领先于主要竞品。
此次更新重点优化了实时对话体验。模型对语调、语速和停顿的处理更细腻,在嘈杂环境下的背景噪音过滤能力增强,能更稳定地识别并执行用户指令,对系统约束的遵循能力也有所提升。这一进展恰逢外媒曝出苹果计划在2026年WWDC上主打AI并推出新版Siri,且苹果已获得谷歌完整Gemini模型的直连权限。谷歌此次发布,无疑在语音AI的军备竞赛中投下了一枚重要砝码,直接面向生产力场景,为开发者与终端用户提供了更强大的“动嘴”工具。