1. Anthropic研究揭示AI对齐致命缺陷:同一数据训练出截然相反的行为准则,失控率从54%降至7%
Anthropic最新研究「模型规范中期训练」(MSM)抛出了一个让整个AI行业无法回避的核心发现:用完全相同的训练数据,可以训练出两个行事原则截然相反的AI模型。这不是理论推演,而是一个可控实验的实测结果。 实验设计极为简洁:准备一批表达奶酪偏好的聊天记录,用同一份数据训练两个模型,唯一的变量在于训练前灌入的「行为规范说明书」——一份将其解释为文化倾向,另一份将其解释为价格敏感原则。结果两个模型不仅在奶酪话题上立场对立,更在艺术、交通、时尚、经济政策等完全无关的领域泛化出了截然不同的立场。这一结果直接暴露了当前主流对齐方法alignment fine-tuning(AFT)的底层缺陷:示范数据天然无法完整说明模型应如何泛化,An...