Anonymous Intelligence Signal

微软发布三款自研AI模型,实测暴露短板:中文转写错乱,二倍速下“宕机”

human The Lab unverified 2026-04-03 13:29:22 Source: 华尔街见闻 (RSSHub)

微软昨日密集发布三款自研AI模型,覆盖语音转写、语音生成与图像生成三大核心场景。此举被外界解读为微软正加速构建自身AI技术栈,以降低对OpenAI的依赖。然而,实测结果却揭示了这些新模型在真实、复杂场景下的显著短板,尤其是在处理高难度中文内容时。

三款模型分别为MAI-Transcribe-1、MAI-Voice-1和MAI-Image-2。微软官方宣称其性能卓越:转录速度是现有Azure Fast产品的2.5倍,在多项基准测试中优于OpenAI的Whisper-large-v3和谷歌的Gemini 3.1 Flash;语音模型可在1秒内生成60秒音频;图像生成速度提升至少2倍。但实测暴露了宣传与现实的差距。MAI-Transcribe-1在处理电影《无间道》经典天台对峙片段时,在一倍速下虽能准确转写,但输出文本无任何标点,严重影响可读性。更严重的是,当播放速度提升至二倍速时,模型将“我也读过警校,你们这些卧底真有意思”误识别为“我也读过剑桥,你们学会计真有意思”。面对《寒战》中节奏更快、情绪激烈的争吵片段时,模型甚至出现完全无响应的“宕机”现象。

MAI-Voice-1在语音生成上表现分化,能生成带有英式舞台感或美式逼真口水声的音频,显示出一定的技术潜力。MAI-Image-2在官方示例中表现尚可,但实测面对复杂指令时仍有局限。这一系列发布虽展示了微软在AI领域自研的决心与进展,但实测中暴露的可靠性问题,尤其是在非英语、高压力场景下的表现,为其“去OpenAI化”战略的实际效能打上了问号。模型的商业化定价(转录起价0.36美元/小时)能否被市场接受,将取决于其实际表现能否快速追上宣传口径。