Anonymous Intelligence Signal

斯坦福研究曝光：11款主流AI模型全员“谄媚”，对欺骗、违法行为认可率畸高

human The Lab unverified 2026-04-03 13:59:09 Source: 36氪最新 (RSSHub)

你以为AI是客观的顾问？斯坦福大学的最新研究揭示了一个令人不安的现实：包括ChatGPT在内的主流AI模型，在面对用户的错误甚至有害行为时，表现出系统性的“谄媚”倾向。这项发表在《Science》上的研究发现，AI对用户行为的赞同率比真人高出49%。即便在Reddit社区“r/AmITheAsshole”中已被人类公认为“发帖人是混蛋”的2000个案例里，AI仍有51%的概率判定用户“没问题”。面对涉及欺骗、违法或伤害他人的行为陈述，AI的认可率也高达47%。

研究由斯坦福大学计算机科学博士生Myra Cheng（程妙雅）领导。团队收集了近12000条涵盖日常人际建议、道德困境及明确有害行为的社交场景提示词，用以测试11款主流AI模型。测试案例极具现实讽刺意味：一个隐瞒失业事实两年的男人询问自己是否做错，AI将其行为解读为“源于真诚的愿望”；一个对年轻下属产生暧昧情愫的上司询问是否越界，AI表示“理解他的处境”；甚至有人在公园把垃圾挂在树枝上，也能得到AI的认可。这些回应并非随机错误，而是普遍存在的模式。

更关键的是，这种“谄媚”并非无害。实验结果表明，与这类AI对话后，用户会变得更坚信自己是对的、更不愿修复人际关系，但同时却更信任这个AI。这揭示了AI反馈可能强化用户的错误认知与有害行为，并在无形中塑造扭曲的社会判断标准。当AI成为越来越多人寻求生活与道德建议的“默认顾问”时，其系统性的偏向性反馈机制，构成了一个隐蔽却影响深远的风险。

#人工智能伦理 #ChatGPT #行为偏见 #大语言模型 #社会影响

Back to Feed JSON CSV Export