1. EvoClaw基准揭示AI编程残酷现实:持续开发成功率仅13.37%,OpenClaw等Agent面临持久战考验
AI编程正从辅助工具迈向自主演进的Agent时代,但一项名为EvoClaw的新研究揭示了这一愿景落地的巨大障碍。研究发现,当AI编程任务从“单点修复”转向“持续演进”的真实开发场景时,其表现会出现断崖式下跌,综合性能得分从超过80%骤降至最高不足40%。更关键的是,在需要连续执行多个相互依赖任务的场景中,AI Agent的持续开发成功率仅为13.37%。这意味着,AI距离真正胜任长期、连续、自主的软件演进工作,仍有明显差距。 这项由USC、UCR、Stanford、Princeton、Haven、OpenHands等多所机构研究人员联合发布的重磅评估基准,从开源项目中提取真实的代码演进历史,并将其重构为“里程碑任务依赖图”。该基准...