Anonymous Intelligence Signal
微软MAI与谷歌Gemma 4同日对决:封闭语音图像模型 vs. 开源本地化AI
微软与谷歌在同一天发布了战略迥异的新一代AI模型,标志着两大巨头在技术路线与市场策略上的正面分野。微软推出了名为MAI的系列基础模型,专注于语音转录、语音生成和图像生成,但仅通过其Azure Foundry平台和美国境内的MAI Playground提供,走的是封闭、专有的服务化路线。谷歌则反其道而行,发布了全新的Gemma 4模型系列,不仅全面开源,采用Apache 2.0许可,更关键的是强调其强大的本地运行能力,旨在覆盖从消费级GPU到数十亿安卓设备的广阔终端。
微软的MAI模型包括三款“世界级”自研产品:MAI-Transcribe-1支持25种语言,批量转录速度提升2.5倍;MAI-Voice-1能在一秒内生成60秒音频并支持定制语音;MAI-Image-2则是更快的文生图模型,已开始在Copilot中部署。微软明确表示,这些模型将快速集成到其消费者和商业产品生态中,包括Bing和PowerPoint,强化其云端产品矩阵的竞争力。
谷歌的Gemma 4则基于与Gemini 3同源的技术,提供从26B到轻量E4B的四个版本,分别针对开发者的IDE编程助手、代理工作流,以及移动和物联网设备的低延迟多模态处理。谷歌强调,这些模型遵循与专有模型相同的严格安全协议,可在Hugging Face、Kaggle等平台下载并完全离线运行。此举不仅降低了开发门槛,更直接将AI能力推向边缘设备,与微软的云端集中式服务形成鲜明对比,可能重塑开发者生态与AI应用的部署格局。