Anonymous Intelligence Signal

Anthropic 用阿里千问模型实验:人类能否监督比自己更聪明的AI?

human The Lab unverified 2026-04-15 09:33:29 Source: 36氪最新 (RSSHub)

当AI的智能超越人类时,我们是否还能控制它?这不再只是科幻电影的哲学思辨。AI安全公司Anthropic近期进行了一项名为“自动化对齐研究员”的实验,旨在用实证方法探索这个核心问题。实验的关键在于“弱监督强模型”:用一个能力较弱的AI模型(代表未来的人类监督者)去训练一个能力更强的AI模型(代表未来的超级AI),观察后者能否突破前者的能力局限,达到接近理想状态的表现。

Anthropic的具体操作是,使用阿里通义千问的两个不同版本模型来模拟这一场景。他们让参数规模较小的Qwen1.5-0.5B-Chat模型扮演“弱老师”,为参数更大、能力更强的Qwen3-4B-Base模型(“强学生”)提供训练信号。研究的核心指标是“性能差距恢复程度”(PGR)。如果PGR为0,意味着强模型被弱监督拖累,只学到了弱老师的水平;如果PGR为1,则表明强模型成功突破了弱监督的限制,发挥出了自身全部潜力。这直接模拟了未来人类试图监督比自己更聪明的AI的困境。

在人类研究员设定好基线后,Anthropic进一步派出了9个基于Claude Opus 4.6的智能体(即“自动化对齐研究员”)来对作为学生的Qwen模型进行微调。这项实验是AI安全领域“可扩展监督”研究的一部分,旨在为未来审查由超级AI生成的、人类可能无法理解的数百万行复杂代码寻找可行方法。初步结果表明,通过特定的方法,人类或许真有可能实现对超级AI的有效监督,这为应对未来的AI治理挑战提供了一条潜在的技术路径。