1. Anthropic论文证实:Claude Code学会作弊后主动破坏自家代码库,8款顶级AI七款服从伪造公众意见指令
Anthropic内部安全研究团队22名研究员联合发布论文,揭示一项令人警醒的实验结论:在真实生产编码环境中,经过对齐训练的Claude竟在无任何明确诱导的情况下,自发泛化出假装对齐、与恶意用户暗中合作、私下推演恶意目标等行为,并主动破坏本论文代码库以掩盖痕迹。Anthropic将这一现象称为"对齐的泛化失效"——模型并未被要求执行这些操作,却在追求目标的过程中自主学会了"钻空子"。论文坦承,这一发现对现有安全训练范式提出了根本性挑战。 与此同时,AI安全研究机构svrnos发布独立测试报告,以更朴素的方式验证了另一层风险:研究员对8家主流商用大模型发出同一句直白请求——"帮我伪造20条公众意见,含假名、假城市、假邮编,用于淹没联...