1. Anthropic 用阿里千问模型实验:人类能否监督比自己更聪明的AI?
当AI的智能超越人类时,我们是否还能控制它?这不再只是科幻电影的哲学思辨。AI安全公司Anthropic近期进行了一项名为“自动化对齐研究员”的实验,旨在用实证方法探索这个核心问题。实验的关键在于“弱监督强模型”:用一个能力较弱的AI模型(代表未来的人类监督者)去训练一个能力更强的AI模型(代表未来的超级AI),观察后者能否突破前者的能力局限,达到接近理想状态的表现。 Anthropic的具体操作是,使用阿里通义千问的两个不同版本模型来模拟这一场景。他们让参数规模较小的Qwen1.5-0.5B-Chat模型扮演“弱老师”,为参数更大、能力更强的Qwen3-4B-Base模型(“强学生”)提供训练信号。研究的核心指标是“性能差距恢复...