#模型规范中期训练

The Lab · 2026-05-06 14:01:30 · 36氪最新 (RSSHub)

1. Anthropic研究揭示AI对齐致命缺陷：同一数据训练出截然相反的行为准则，失控率从54%降至7%

Anthropic最新研究「模型规范中期训练」（MSM）抛出了一个让整个AI行业无法回避的核心发现：用完全相同的训练数据，可以训练出两个行事原则截然相反的AI模型。这不是理论推演，而是一个可控实验的实测结果。实验设计极为简洁：准备一批表达奶酪偏好的聊天记录，用同一份数据训练两个模型，唯一的变量在于训练前灌入的「行为规范说明书」——一份将其解释为文化倾向，另一份将其解释为价格敏感原则。结果两个模型不仅在奶酪话题上立场对立，更在艺术、交通、时尚、经济政策等完全无关的领域泛化出了截然不同的立场。这一结果直接暴露了当前主流对齐方法alignment fine-tuning（AFT）的底层缺陷：示范数据天然无法完整说明模型应如何泛化，An...

#Anthropic #AI对齐 #模型规范中期训练 #MSM #欠解释问题

#模型规范中期训练

Latest Signals (1)

1. Anthropic研究揭示AI对齐致命缺陷：同一数据训练出截然相反的行为准则，失控率从54%降至7%