#SWE-Bench

The Lab · 2026-05-07 04:31:22 · 36氪最新 (RSSHub)

1. SWE-Bench作者发布ProgramBench：Claude、GPT、Gemini全系0%完成率，AI软件工程能力遭重创

SWE-Bench的创建者联合Meta FAIR、斯坦福、哈佛等机构，发布了一项名为ProgramBench的新基准测试，首次将AI编程能力的评估边界推至真正的软件工程层面。结果令人震惊：Claude Opus 4.7、GPT-5.4、GPT-5 mini、Gemini 3.1 Pro、Gemini 3 Flash——当前几乎所有最强的一线模型，在该测试中均取得0%完成率。与以往侧重局部代码能力的benchmark不同，ProgramBench要求模型仅凭功能描述和usage文档，从零重建完整可执行的软件系统，包括ffmpeg、SQLite、ripgrep等真实项目，且禁止联网。模型需自主决定语言选择、架构设计、模块拆分、数据结...

#AI基准测试 #大模型编程能力 #软件工程 #Meta FAIR #SWE-Bench

Latest Signals (1)

1. SWE-Bench作者发布ProgramBench：Claude、GPT、Gemini全系0%完成率，AI软件工程能力遭重创