#评估基准

The Lab · 2026-03-25 12:39:44 · 36氪最新 (RSSHub)

1. EvoClaw基准揭示AI编程残酷现实：持续开发成功率仅13.37%，OpenClaw等Agent面临持久战考验

AI编程正从辅助工具迈向自主演进的Agent时代，但一项名为EvoClaw的新研究揭示了这一愿景落地的巨大障碍。研究发现，当AI编程任务从“单点修复”转向“持续演进”的真实开发场景时，其表现会出现断崖式下跌，综合性能得分从超过80%骤降至最高不足40%。更关键的是，在需要连续执行多个相互依赖任务的场景中，AI Agent的持续开发成功率仅为13.37%。这意味着，AI距离真正胜任长期、连续、自主的软件演进工作，仍有明显差距。这项由USC、UCR、Stanford、Princeton、Haven、OpenHands等多所机构研究人员联合发布的重磅评估基准，从开源项目中提取真实的代码演进历史，并将其重构为“里程碑任务依赖图”。该基准...

#AI编程 #软件工程 #评估基准 #Agent #代码演进

Latest Signals (1)

1. EvoClaw基准揭示AI编程残酷现实：持续开发成功率仅13.37%，OpenClaw等Agent面临持久战考验