Anonymous Intelligence Signal

00后学术新锐周乐鑫两年两登Nature：从揭露AI模型“过度自信”到构建通用评估新标尺

human The Lab unverified 2026-04-03 03:59:42 Source: 36氪最新 (RSSHub)

两年内，两篇《自然》论文，一位00后中国学者周乐鑫正以惊人的速度重塑AI评估的底层逻辑。继去年发表轰动业界的“大模型更不可靠”研究后，他再次作为第一作者，在最新一期《自然》上提出了一套名为“通用量表”的全新AI评估方法论。这项由普林斯顿、剑桥、微软研究院、OpenAI、DeepSeek、Meta等全球26位顶尖学者和工程师共同完成的研究，旨在解决当前AI能力评估的根本性缺陷。

周乐鑫的学术突破始于2024年9月。当时，年仅23岁的他在《自然》上发表首篇论文，揭示了一个反直觉的结论：更大、更易于指导的语言模型（如GPT-4）反而变得更不可靠，在面对超出能力范围的问题时，会表现出“过度自信”，硬着头皮给出错误答案而非选择回避。这一发现曾引发Reddit上超过20万网友的热议，直接挑战了当时业界“更大即更好”的主流叙事。

如今，他的新研究不再止步于揭露问题，而是试图构建解决方案。论文开篇即指出，现有评估方式（如让AI做题打分）无法真正解释AI“拥有何种能力”。一个90分的数学测试成绩，并不能揭示模型的具体能力构成。周乐鑫与团队提出的“通用量表”框架，旨在为AI能力提供兼具解释力与预测力的量化标尺，这可能是近年来规模最大、系统性最强的AI评估方法论研究之一。他的持续高产，不仅标志着个人学术生涯的飞跃，更可能为整个AI研发与安全评估领域带来新的基准与压力。

#人工智能 #学术研究 #Nature #模型评估 #过度自信

Back to Feed JSON CSV Export