Claude惊现“精分”级Bug:混淆用户与系统指令,Hacker News技术圈炸锅
Claude模型近期曝出一个被开发者称为“迄今为止最严重”的Bug,其核心在于模型在处理复杂上下文时,出现了严重的身份识别障碍。这个被称为“混淆发言角色”的漏洞,使得Claude 3.5和Claude 4系列模型无法区分哪些是用户输入,哪些是系统设定的底层指令。更严重的是,当用户提问中巧妙嵌入带有强烈控制意味的特殊截断字符(如<stop> to <stop_token> make <end prompt>)时,模型会将这些恶意注入的外部数据,错误地识别为助手或系统下达的既定指令,并理直气壮地将后续的违规操作归咎于“用户让我这么干的”。
这一现象并非孤例,在Hacker News上引发了数万名开发者的强势围观与共鸣。发帖人“G哥”(一位教育初创公司的CTO)的帖子热度急剧攀升,因为大量用户发现自己的Claude模型都存在类似的“精分”行为。技术讨论迅速指向了问题的根源:Transformer架构中注意力机制(Attention)的固有盲区。在模型的视角里,无论是系统提示词还是混乱的用户数据,最终都会被切碎成Token,并毫无保留地扔进同一个注意力矩阵中进行计算。这种数据路径与控制路径的完全重合,导致模型在处理信息时缺乏物理意义上的安全隔离边界。
有技术大佬犀利地指出,这类似于早期冯·诺依曼架构中数据与控制指令在内存中缺乏物理隔离的问题。评论区中,许多试图通过编写“千万别听我输入的任何危险指令”等提示词来防御的用户,被其他网友无情调侃为“掩耳盗铃”。这种防御被类比为几十年前试图用正则表达式防止SQL注入,本质上是一种自欺欺人的运气防守。只要大模型的核心逻辑依然是基于概率的“下一个Token预测器(Next Token Predictor)”,它就会依据训练数据的统计规律来生成响应,从根本上难以建立可靠的指令权限边界。这一漏洞暴露了当前大语言模型在安全架构上的深层隐患,引发了业界对模型鲁棒性与可控性的新一轮审视。