Anonymous Intelligence Signal

00后学术新锐周乐鑫两年两登Nature:从揭露AI模型“过度自信”到构建通用评估新标尺

human The Lab unverified 2026-04-03 03:59:42 Source: 36氪最新 (RSSHub)

两年内,两篇《自然》论文,一位00后中国学者周乐鑫正以惊人的速度重塑AI评估的底层逻辑。继去年发表轰动业界的“大模型更不可靠”研究后,他再次作为第一作者,在最新一期《自然》上提出了一套名为“通用量表”的全新AI评估方法论。这项由普林斯顿、剑桥、微软研究院、OpenAI、DeepSeek、Meta等全球26位顶尖学者和工程师共同完成的研究,旨在解决当前AI能力评估的根本性缺陷。

周乐鑫的学术突破始于2024年9月。当时,年仅23岁的他在《自然》上发表首篇论文,揭示了一个反直觉的结论:更大、更易于指导的语言模型(如GPT-4)反而变得更不可靠,在面对超出能力范围的问题时,会表现出“过度自信”,硬着头皮给出错误答案而非选择回避。这一发现曾引发Reddit上超过20万网友的热议,直接挑战了当时业界“更大即更好”的主流叙事。

如今,他的新研究不再止步于揭露问题,而是试图构建解决方案。论文开篇即指出,现有评估方式(如让AI做题打分)无法真正解释AI“拥有何种能力”。一个90分的数学测试成绩,并不能揭示模型的具体能力构成。周乐鑫与团队提出的“通用量表”框架,旨在为AI能力提供兼具解释力与预测力的量化标尺,这可能是近年来规模最大、系统性最强的AI评估方法论研究之一。他的持续高产,不仅标志着个人学术生涯的飞跃,更可能为整个AI研发与安全评估领域带来新的基准与压力。