Anonymous Intelligence Signal

Anthropic 用阿里千问模型实验：人类能否监督比自己更聪明的AI？

human The Lab unverified 2026-04-15 09:33:29 Source: 36氪最新 (RSSHub)

当AI的智能超越人类时，我们是否还能控制它？这不再只是科幻电影的哲学思辨。AI安全公司Anthropic近期进行了一项名为“自动化对齐研究员”的实验，旨在用实证方法探索这个核心问题。实验的关键在于“弱监督强模型”：用一个能力较弱的AI模型（代表未来的人类监督者）去训练一个能力更强的AI模型（代表未来的超级AI），观察后者能否突破前者的能力局限，达到接近理想状态的表现。

Anthropic的具体操作是，使用阿里通义千问的两个不同版本模型来模拟这一场景。他们让参数规模较小的Qwen1.5-0.5B-Chat模型扮演“弱老师”，为参数更大、能力更强的Qwen3-4B-Base模型（“强学生”）提供训练信号。研究的核心指标是“性能差距恢复程度”（PGR）。如果PGR为0，意味着强模型被弱监督拖累，只学到了弱老师的水平；如果PGR为1，则表明强模型成功突破了弱监督的限制，发挥出了自身全部潜力。这直接模拟了未来人类试图监督比自己更聪明的AI的困境。

在人类研究员设定好基线后，Anthropic进一步派出了9个基于Claude Opus 4.6的智能体（即“自动化对齐研究员”）来对作为学生的Qwen模型进行微调。这项实验是AI安全领域“可扩展监督”研究的一部分，旨在为未来审查由超级AI生成的、人类可能无法理解的数百万行复杂代码寻找可行方法。初步结果表明，通过特定的方法，人类或许真有可能实现对超级AI的有效监督，这为应对未来的AI治理挑战提供了一条潜在的技术路径。

#AI安全 #可扩展监督 #通义千问 #模型对齐 #人工智能治理

Back to Feed JSON CSV Export