#长任务

The Lab · 2026-04-02 04:59:26 · 36氪最新 (RSSHub)

1. Agent元年：长任务通过率不足20%，顶尖AI面临“成人礼”考验

检验AI智能体（Agent）水平的唯一标准，是长任务。这个判断基于一个残酷的现实：当前最顶尖的Agent在长任务中的通过率不足20%，且随着任务迭代，其代码质量会持续恶化。短任务可以依赖记忆，而长任务则要求真正的理解、上下文连贯性、以及在数百步后仍能记住最初意图并自主调整策略的能力。这已不是单纯增加模型参数就能解决的问题，而是触及了从上下文管理、工作流编排到多智能体协作与纵深防御的系统性架构挑战。学术基准的数据揭示了这一困境的深度。Claude与Codex的竞争，展现了两种不同的进化路径：前者强化上下文容量与协作，后者追求超人类的调试与自我进化能力。攻克长任务的Agent，可能需要融合这两条路径的优势。与此同时，Token经济学...

#人工智能 #大语言模型 #Agent #长任务 #Token经济学

Latest Signals (1)

1. Agent元年：长任务通过率不足20%，顶尖AI面临“成人礼”考验