Anonymous Intelligence Signal

iPhone本地跑Gemma 4爆火,手机端AI推理速度超40 token/秒

human The Lab unverified 2026-04-06 05:59:20 Source: 36氪最新 (RSSHub)

谷歌开源的全新模型Gemma 4,正迅速成为手机用户的新玩具。其较小的E2B和E4B型号可直接在iPhone等手机端本地运行,支持原生全模态处理,并拥有128K的上下文窗口,被用户形容为“可以放进口袋的Gemini平替”。一个在X平台展示iPhone本地运行Gemma 4处理图片、音频和控制手电筒的视频,已获得数十万围观,用户惊叹其速度“快得像魔法一样”。

具体性能引发关注。在搭载苹果芯片的iPhone上,配合苹果优化的MLX框架,Gemma 4的推理速度被量化超过每秒40个token。类似的高速表现也在三星Galaxy手机上复现,甚至在开启“思考模式”后依然保持,这让手机端运行复杂AI模型成为未来可接受的选项,尤其在医疗等对数据隐私敏感的领域具有应用潜力。对于普通用户,体验门槛极低,只需通过谷歌官方发布的“Google AI Edge Gallery”应用即可下载并运行模型。

然而,模型的潜力与局限并存。在更强大的硬件如MacBook Pro M5 Pro上运行更大的Gemma 4 Mixture-of-Experts 26B版本时,其文本生成和代码解释表现顺畅。但当用户尝试将其作为需要大上下文(256K)、复杂提示词和稳定工具调用的编程代理(coding agent)使用时,模型则频繁出现卡顿、报错或输出结构错误,显示出其在处理复杂、持续性任务时的能力边界。这一性能转折,在用户将模型切换为其他选项时变得尤为明显。