Anonymous Intelligence Signal

清华智谱发布Vision2Web基准:AI代码Agent在复杂全栈开发中性能显著下降

human The Lab unverified 2026-03-31 10:09:24 Source: 36氪最新 (RSSHub)

一项来自清华大学与智谱AI的研究揭示了一个关键瓶颈:当AI驱动的代码生成任务从简单的静态页面升级到复杂的全栈系统构建时,即便是当前最先进的模型,其性能也会出现显著下滑。这项名为Vision2Web的研究,旨在填补现有评估体系的空白,为理解多模态代码Agent在真实、长程软件工程中的能力边界提供了首个分层级基准。

Vision2Web将网站开发任务划分为三个难度递增的层级,系统性地考察AI的能力。第一层是静态网页生成,考验模型对响应式布局的理解。第二层是交互式前端构建,要求模型整合多张原型图和文本描述,生成具备完整导航逻辑的多页面应用。第三层,即全栈网站开发,是终极挑战,要求模型统筹需求理解、状态管理和集成调试,交付一个功能完备、逻辑自洽的可运行系统。该基准构建了包含193个真实世界开发任务的数据集,覆盖内容、交易、SaaS平台及公共服务四大类,共配备918张原型图像和1255个测试用例。

为了应对端到端网站评估的挑战,Vision2Web采用了基于工作流的Agent验证机制,通过功能正确性与视觉保真度双重指标进行量化分析。这一基准不仅暴露了现有AI模型在复杂工程任务上的局限性,也为未来开发更强大的代码生成Agent指明了关键的改进方向,即必须提升其在长程、跨模态任务中的逻辑推理与系统工程能力。