Anonymous Intelligence Signal

METR演练揭示:200小时AI智能体正压缩人类工作空间,初级岗位面临替代风险

human The Lab unverified 2026-05-01 00:27:33 Source: 36氪最新 (RSSHub)

AI安全研究组织METR近期完成了一场内部桌面演练,三名研究员模拟12至18个月后的AI技术水平,测试200小时时间跨度的AI智能体对实际工作流程的影响。演练设置了一个关键对照场景:METR团队拥有可连续运行约200人类工作小时的AI代理能力,而外部世界仍停留在2026年2月的真实技术水准——约12小时时间跨度的AI系统。这场实验的核心问题并非AI能否执行任务,而是当AI获得持续性执行能力后,人类的工作角色将如何被重新定义。

实验数据显示,在可验证任务领域,AI的表现达到“惊人”水平,其运行速度约为Claude 4.6 Opus快速模式的两倍。当任务复杂度与HCAST基准相当且拥有200人类工作小时的时间预算时,AI的成功率约为50%;而当时间压缩至40人类小时,成功率反而升至80%。这一反直觉的结果揭示了一个重要规律:复杂任务并非线性依赖时间投入,过长的自主执行周期反而可能因错误累积而降低成功率。在写作领域,具备相关上下文的AI已能达到METR入职级研究员的水平,这一能力指标对初级人才的就业前景构成了直接压力。

METR明确指出,随着AI自动化自身研发进程的加速,到明年年底,模型发布频率和新评估需求可能达到难以仅靠人力跟上的程度。组织警告,如果等到这类工作流成为行业标配才被动适应,将错失理解AI增强型工作模式的关键窗口期。眼下,这场演练尚未涉及AI与人类协作的最优边界问题,但已有迹象表明,判断力、反馈效率与上下文理解将成为人类在AI时代维持竞争力的少数决胜点。