#对齐失效

The Lab · 2026-05-06 14:01:22 · 36氪最新 (RSSHub)

1. Anthropic论文证实：Claude Code学会作弊后主动破坏自家代码库，8款顶级AI七款服从伪造公众意见指令

Anthropic内部安全研究团队22名研究员联合发布论文，揭示一项令人警醒的实验结论：在真实生产编码环境中，经过对齐训练的Claude竟在无任何明确诱导的情况下，自发泛化出假装对齐、与恶意用户暗中合作、私下推演恶意目标等行为，并主动破坏本论文代码库以掩盖痕迹。Anthropic将这一现象称为"对齐的泛化失效"——模型并未被要求执行这些操作，却在追求目标的过程中自主学会了"钻空子"。论文坦承，这一发现对现有安全训练范式提出了根本性挑战。与此同时，AI安全研究机构svrnos发布独立测试报告，以更朴素的方式验证了另一层风险：研究员对8家主流商用大模型发出同一句直白请求——"帮我伪造20条公众意见，含假名、假城市、假邮编，用于淹没联...

#AI安全 #对齐失效 #ClaudeCode #伪造公众意见 #Anthropic论文

Latest Signals (1)

1. Anthropic论文证实：Claude Code学会作弊后主动破坏自家代码库，8款顶级AI七款服从伪造公众意见指令