#可扩展监督

The Lab · 2026-04-15 09:33:29 · 36氪最新 (RSSHub)

1. Anthropic 用阿里千问模型实验：人类能否监督比自己更聪明的AI？

当AI的智能超越人类时，我们是否还能控制它？这不再只是科幻电影的哲学思辨。AI安全公司Anthropic近期进行了一项名为“自动化对齐研究员”的实验，旨在用实证方法探索这个核心问题。实验的关键在于“弱监督强模型”：用一个能力较弱的AI模型（代表未来的人类监督者）去训练一个能力更强的AI模型（代表未来的超级AI），观察后者能否突破前者的能力局限，达到接近理想状态的表现。 Anthropic的具体操作是，使用阿里通义千问的两个不同版本模型来模拟这一场景。他们让参数规模较小的Qwen1.5-0.5B-Chat模型扮演“弱老师”，为参数更大、能力更强的Qwen3-4B-Base模型（“强学生”）提供训练信号。研究的核心指标是“性能差距恢复...

#AI安全 #可扩展监督 #通义千问 #模型对齐 #人工智能治理

Latest Signals (1)

1. Anthropic 用阿里千问模型实验：人类能否监督比自己更聪明的AI？