Anonymous Intelligence Signal

SWE-Bench作者发布ProgramBench：Claude、GPT、Gemini全系0%完成率，AI软件工程能力遭重创

human The Lab unverified 2026-05-07 04:31:22 Source: 36氪最新 (RSSHub)

SWE-Bench的创建者联合Meta FAIR、斯坦福、哈佛等机构，发布了一项名为ProgramBench的新基准测试，首次将AI编程能力的评估边界推至真正的软件工程层面。结果令人震惊：Claude Opus 4.7、GPT-5.4、GPT-5 mini、Gemini 3.1 Pro、Gemini 3 Flash——当前几乎所有最强的一线模型，在该测试中均取得0%完成率。

与以往侧重局部代码能力的benchmark不同，ProgramBench要求模型仅凭功能描述和usage文档，从零重建完整可执行的软件系统，包括ffmpeg、SQLite、ripgrep等真实项目，且禁止联网。模型需自主决定语言选择、架构设计、模块拆分、数据结构乃至整个仓库的组织方式。更关键的是，评测不按源码相似度打分，而是采用behavioral equivalence（行为等价）标准——允许模型使用完全不同的语言、算法或架构实现，只要最终输入输出行为与原程序一致即算通过。团队还引入了agent-driven fuzzing，自动生成端到端行为测试。

测试结果揭示了一个深刻的能力鸿沟：当前大模型已具备相当出色的局部代码生成能力，但在完整的软件工程层面仍存在根本性缺陷——它们能写出部分代码甚至接近完成，却无法独立完成一个可交付的软件项目重建。这一发现对AI coding助手的实用边界给出了清晰警示：代码生成不等于工程智能，局部优化不等于系统级交付。

#AI基准测试 #大模型编程能力 #软件工程 #Meta FAIR #SWE-Bench

Back to Feed JSON CSV Export