Anonymous Intelligence Signal
Yandex论文揭示AI长上下文推理偏移:Harness Engineering面临根本性挑战
AI智能体在复杂长程任务中正遭遇‘推理偏移’这一底层危机。随着任务复杂度提升,智能体的上下文无限膨胀,模型在无穷的历史对话、工具调用和中间步骤中开始‘迷糊’,出现跳步、忽视和绕道行为。过去十五个月,整个行业从AutoGPT的纯文本记忆,一路演进到Anthropic Claude Code的CLAUDE.md和子代理体系,搭建了一整套名为‘Harness Engineering’(约束工程)的工程脚手架,其底层前提就是认定模型在长上下文里必定会退化,这套体系专门用来镇压模型的失控行为。
然而,约束工程所对抗的退化机制究竟是什么?直到2026年4月,来自Yandex的研究员Gleb Rodionov发表《Reasoning Shift》论文,才给出了更底层的答案。此前,行业在过去三年中对此问题迭代了三层解释和工程应对。第一层归咎于检索失败,催生了RAG技术。第二层推翻了第一层,发现即使强迫模型只看需要的信息,性能仍会大幅滑坡,问题在于上下文长度本身就在伤害推理,这催生了Context Engineering(上下文工程)。第三层则来自Microsoft和Salesforce的联合研究,他们发现将完整指令切分成多轮喂给模型,揭示了更深层的交互复杂性。
Gleb Rodionov的论文指出,长上下文会‘悄悄缩短大模型的推理’,这是一种更根本的‘推理偏移’。这意味着,之前搭建的三层工程脚手架可能都未能触及问题的核心,行业赖以应对长上下文问题的Harness Engineering范式,正面临被底层机制颠覆的风险。这不仅仅是工程优化问题,而是对当前AI智能体架构基础假设的挑战,可能迫使整个技术路线进行重新评估。