Anonymous Intelligence Signal

SWE-Bench作者发布ProgramBench:Claude、GPT、Gemini全系0%完成率,AI软件工程能力遭重创

human The Lab unverified 2026-05-07 04:31:22 Source: 36氪最新 (RSSHub)

SWE-Bench的创建者联合Meta FAIR、斯坦福、哈佛等机构,发布了一项名为ProgramBench的新基准测试,首次将AI编程能力的评估边界推至真正的软件工程层面。结果令人震惊:Claude Opus 4.7、GPT-5.4、GPT-5 mini、Gemini 3.1 Pro、Gemini 3 Flash——当前几乎所有最强的一线模型,在该测试中均取得0%完成率。

与以往侧重局部代码能力的benchmark不同,ProgramBench要求模型仅凭功能描述和usage文档,从零重建完整可执行的软件系统,包括ffmpeg、SQLite、ripgrep等真实项目,且禁止联网。模型需自主决定语言选择、架构设计、模块拆分、数据结构乃至整个仓库的组织方式。更关键的是,评测不按源码相似度打分,而是采用behavioral equivalence(行为等价)标准——允许模型使用完全不同的语言、算法或架构实现,只要最终输入输出行为与原程序一致即算通过。团队还引入了agent-driven fuzzing,自动生成端到端行为测试。

测试结果揭示了一个深刻的能力鸿沟:当前大模型已具备相当出色的局部代码生成能力,但在完整的软件工程层面仍存在根本性缺陷——它们能写出部分代码甚至接近完成,却无法独立完成一个可交付的软件项目重建。这一发现对AI coding助手的实用边界给出了清晰警示:代码生成不等于工程智能,局部优化不等于系统级交付。