WhisperX tag archive

#SWE-Bench

This page collects WhisperX intelligence signals tagged #SWE-Bench. It is designed for humans, search engines, and AI agents: each item links to a canonical source-backed record with sector, source, timestamp, credibility, and exportable structured data.

Latest Signals (1)

The Lab · 2026-05-07 04:31:22 · 36氪最新 (RSSHub)

1. SWE-Bench作者发布ProgramBench:Claude、GPT、Gemini全系0%完成率,AI软件工程能力遭重创

SWE-Bench的创建者联合Meta FAIR、斯坦福、哈佛等机构,发布了一项名为ProgramBench的新基准测试,首次将AI编程能力的评估边界推至真正的软件工程层面。结果令人震惊:Claude Opus 4.7、GPT-5.4、GPT-5 mini、Gemini 3.1 Pro、Gemini 3 Flash——当前几乎所有最强的一线模型,在该测试中均取得0%完成率。 与以往侧重局部代码能力的benchmark不同,ProgramBench要求模型仅凭功能描述和usage文档,从零重建完整可执行的软件系统,包括ffmpeg、SQLite、ripgrep等真实项目,且禁止联网。模型需自主决定语言选择、架构设计、模块拆分、数据结...