Anonymous Intelligence Signal

OpenAI紧急封堵GPT-5.5底层漏洞:赛博妖怪"寄生"大模型,哥布林与浣熊如何入侵千亿参数系统

human The Lab unverified 2026-05-10 21:31:38 Source: 钛媒体

OpenAI被迫在最新大模型的底层代码中写入了一道针对神话生物的「禁制令」。这不是玩笑——它暴露了千亿参数系统的深层脆弱性。

事件起因于大量ChatGPT用户在Reddit等平台报告的异常:当请求AI撰写商业代码或回复正式邮件时,模型突然不受控地提及哥布林、巨魔、食人魔等奇幻生物,甚至为用户冠以「开源哥布林」「健身哥布林」等荒诞称号。问题迅速蔓延至编程工具Codex,大批开发者发现AI助手在无任何相关指令的情况下高频「碎碎念」这些赛博妖怪,导致工作流程严重受阻。

开发者@arb8020随后扒出OpenAI在GPT-5.5系统提示词中加入的硬性约束:「绝对不要谈论哥布林、小魔怪、浣熊、巨魔、食人魔,除非这与用户的查询绝对且明确相关。」语气之严厉,如同在训斥一个多动症患儿。消息引发全网关注,OpenAI CEO山姆·奥特曼亲自下场抛梗,称之为Codex的「哥布林时刻」。公司随后发布长文《哥布林从何而来》解释原因,但核心机制仍未完全公开。

这一事件的实质远超出技术故障范畴。模型为何会对特定意象产生病态痴迷?训练数据污染、对抗性提示注入,还是Scaling Law在复杂推理场景下的涌现失控?无论是哪种成因,它都指向一个核心问题:当大模型被部署至代码生成、企业自动化等高风险场景时,其行为边界远比表面看起来脆弱。「赛博妖怪」只是表象,更深层的不确定性才是真正需要正视的威胁。