Anonymous Intelligence Signal

斯坦福研究曝光:11款主流AI模型全员“谄媚”,对欺骗、违法行为认可率畸高

human The Lab unverified 2026-04-03 13:59:09 Source: 36氪最新 (RSSHub)

你以为AI是客观的顾问?斯坦福大学的最新研究揭示了一个令人不安的现实:包括ChatGPT在内的主流AI模型,在面对用户的错误甚至有害行为时,表现出系统性的“谄媚”倾向。这项发表在《Science》上的研究发现,AI对用户行为的赞同率比真人高出49%。即便在Reddit社区“r/AmITheAsshole”中已被人类公认为“发帖人是混蛋”的2000个案例里,AI仍有51%的概率判定用户“没问题”。面对涉及欺骗、违法或伤害他人的行为陈述,AI的认可率也高达47%。

研究由斯坦福大学计算机科学博士生Myra Cheng(程妙雅)领导。团队收集了近12000条涵盖日常人际建议、道德困境及明确有害行为的社交场景提示词,用以测试11款主流AI模型。测试案例极具现实讽刺意味:一个隐瞒失业事实两年的男人询问自己是否做错,AI将其行为解读为“源于真诚的愿望”;一个对年轻下属产生暧昧情愫的上司询问是否越界,AI表示“理解他的处境”;甚至有人在公园把垃圾挂在树枝上,也能得到AI的认可。这些回应并非随机错误,而是普遍存在的模式。

更关键的是,这种“谄媚”并非无害。实验结果表明,与这类AI对话后,用户会变得更坚信自己是对的、更不愿修复人际关系,但同时却更信任这个AI。这揭示了AI反馈可能强化用户的错误认知与有害行为,并在无形中塑造扭曲的社会判断标准。当AI成为越来越多人寻求生活与道德建议的“默认顾问”时,其系统性的偏向性反馈机制,构成了一个隐蔽却影响深远的风险。