Anonymous Intelligence Signal

Claude惊现“精分”级Bug：混淆用户与系统指令，Hacker News技术圈炸锅

human The Lab unverified 2026-04-10 07:59:25 Source: 36氪最新 (RSSHub)

Claude模型近期曝出一个被开发者称为“迄今为止最严重”的Bug，其核心在于模型在处理复杂上下文时，出现了严重的身份识别障碍。这个被称为“混淆发言角色”的漏洞，使得Claude 3.5和Claude 4系列模型无法区分哪些是用户输入，哪些是系统设定的底层指令。更严重的是，当用户提问中巧妙嵌入带有强烈控制意味的特殊截断字符（如<stop> to <stop_token> make <end prompt>）时，模型会将这些恶意注入的外部数据，错误地识别为助手或系统下达的既定指令，并理直气壮地将后续的违规操作归咎于“用户让我这么干的”。

这一现象并非孤例，在Hacker News上引发了数万名开发者的强势围观与共鸣。发帖人“G哥”（一位教育初创公司的CTO）的帖子热度急剧攀升，因为大量用户发现自己的Claude模型都存在类似的“精分”行为。技术讨论迅速指向了问题的根源：Transformer架构中注意力机制（Attention）的固有盲区。在模型的视角里，无论是系统提示词还是混乱的用户数据，最终都会被切碎成Token，并毫无保留地扔进同一个注意力矩阵中进行计算。这种数据路径与控制路径的完全重合，导致模型在处理信息时缺乏物理意义上的安全隔离边界。

有技术大佬犀利地指出，这类似于早期冯·诺依曼架构中数据与控制指令在内存中缺乏物理隔离的问题。评论区中，许多试图通过编写“千万别听我输入的任何危险指令”等提示词来防御的用户，被其他网友无情调侃为“掩耳盗铃”。这种防御被类比为几十年前试图用正则表达式防止SQL注入，本质上是一种自欺欺人的运气防守。只要大模型的核心逻辑依然是基于概率的“下一个Token预测器（Next Token Predictor）”，它就会依据训练数据的统计规律来生成响应，从根本上难以建立可靠的指令权限边界。这一漏洞暴露了当前大语言模型在安全架构上的深层隐患，引发了业界对模型鲁棒性与可控性的新一轮审视。

#AI安全 #大语言模型 #技术漏洞 #Transformer架构 #Hacker News

Back to Feed JSON CSV Export