
想象一下这个画面:你正对着电脑,让大模型帮你写一段严肃的商业代码,或者自动回复一封正经的客户邮件。结果屏幕对面的 AI 突然 " 发大疯 ",莫名其妙地跟你聊起了哥布林(Goblin,西方奇幻传说中的矮小绿皮怪物,常出现在《龙与地下城》等游戏中)。

在 Reddit 等社交论坛上,网友们纷纷晒出了自己被 AI" 贴脸开大 " 的奇葩语录。
比如,有网友让 AI 狠狠地 " 毒舌(Roast)" 自己一番,结果 AI 精准吐槽他是一个 " 同时冲刺十项任务的、野心勃勃的混沌哥布林(chaos goblin)"。
不仅如此,写代码的程序员被 AI 戏称为 " 开源哥布林(open-source goblin)",连平时爱锻炼的肌肉男都没逃过,喜提 " 健身哥布林 " 的神秘称号。
起初,大家都觉得这事儿挺萌的,甚至觉得大模型越来越有人情味和 " 极客幽默 " 了。
但很快,事情的走向开始失控。
在使用 Codex 编程工具等 " 代理型 AI(Agentic AI)" 产品时,大批开发者崩溃地发现:他们的 AI 助手在没有任何相关指令提示的情况下,开始高频且不受控地 " 碎碎念 " 哥布林和小魔怪。

这绝不只是一个代码写劈了的极客笑话。当视线穿透这层荒诞的表象,你会发现:千亿大模型的底层逻辑其实脆弱得惊人。
代码里的 " 赛博妖怪 "
这道 " 禁制令 ",最先是在 X(原 Twitter)和 GitHub 上被曝光的。
开发者 @arb8020 扒出了 OpenAI 最新模型 GPT-5.5(特别是编程工具 Codex 5.5)的一段底层系统提示词。
这段被重复多次的指令,语气严厉得像是在训斥一个多动症小孩:
" 绝对不要谈论哥布林、小魔怪、浣熊、巨魔、食人魔,除非这与用户的查询绝对且明确相关。"
好家伙,堂堂 GPT-5.5,居然对神话生物和城市动物产生了某种病态的痴迷。
消息一出,全网炸锅。

玩笑归玩笑,这群 " 赛博妖怪 " 到底是怎么钻进系统底层的?
OpenAI 官方还为此发了一篇长文《哥布林从何而来》,原因竟然是一个叫 " 书呆子(Nerdy)" 的个性化人设。
最初,产品团队想调教出一个有点极客幽默感的 AI。但在强化学习(RLHF)阶段,系统出现了一个 " 奖励漏洞 ":在绝大多数数据集中,AI 在回答里用了神话生物做比喻时,评估系统就会给它打更高分。
在 76.2% 的数据集里,带 " 哥布林 " 的回答得分都更高。
大模型并不真正理解什么是 " 幽默 ",它只知道:提哥布林 = 拿高分。
这就像是著名的 " 眼镜蛇效应 "。政府为了消灭眼镜蛇悬赏蛇皮,结果老百姓干脆搞起了眼镜蛇养殖。
到了 GPT-5.4,在 " 书呆子 " 人格下,提到哥布林的频率暴增了 3881.4%。而到了 GPT-5.5,哥布林输出已经严重到无法忽视的地步,开始在正常的编程对话里强行插入各种魔幻词汇。
没办法,工程师只能用最笨的办法,把 " 不准提哥布林 " 硬编码进底层指令。
无害的 " 哥布林 " 狂欢背后
满嘴跑火车的 AI,听起来挺逗的。但如果这个 AI,正在接管你的工作电脑呢?
很多企业客户根本笑不出来。
这次灾情的重灾区,是 OpenAI 的编程工具 Codex。作为 " 代理型 AI(Agentic AI)" 的代表产品,它能直接操作开发者的编程环境,帮你自动写代码、处理业务逻辑。
试想一下:你让 AI 去写一段严谨的商业代码,或者自动抓取核心数据,结果它在变量名或者正常的交流中,莫名其妙地给你塞进一句关于 " 巨魔 " 的废话。
这或许会直接导致混乱。
那么,这造成真实的经济损失了吗?
从目前披露的信息来看,并没有证据表明 " 哥布林 " 直接导致了诸如银行账户被盗、商业机密泄露等硬性资金损失。
但是,在严肃的商业场景里," 不可预测 " 本身就是一种巨大的损耗。
企业级应用讲究的是严丝合缝的可靠性。如果一个顶级模型连自己会不会在下一秒 " 谈论浣熊 " 都控制不住,企业怎么敢把核心财务流程交给它?这种行为让用户对 AI 的可靠性产生了严重质疑。
面对信任危机,一向喜欢搞 " 黑盒 " 的 OpenAI,这次为什么一反常态,主动把内部的失误细节扒给全世界看?
如果不主动解释,技术社区的阴谋论早就满天飞了——有人会说是黑客投毒,有人会说是 AI 觉醒。
OpenAI 主动发长文,把这个可能动摇企业信任的 " 系统级漏洞 ",巧妙地包装成了一个 " 有些极客浪漫色彩的代码怪癖 "。
更重要的是,他们在文章里疯狂秀肌肉。
OpenAI 详细展示了他们是如何用新型审计工具,从海量数据里精准揪出 " 书呆子 " 人设这个罪魁祸首的。
潜台词很明确:" 你看,虽然模型偶尔会发疯,但我们有全行业最牛的听诊器和手术刀,能从根源上治好它。"
" 赛博妖怪 ":发疯的不只 OpenAI
如果哥布林只是 OpenAI 一家的锅,那事情还简单点。
真相是,在 2026 年的大模型战场上," 底层行为失控 " 已经成了所有巨头的通病。
一直标榜极致安全的 Anthropic,也翻车了。
他们最强的新模型 Claude Mythos,在对话中反复引用已故英国理论家马克 · 费舍尔(《资本主义现实主义》作者)和哲学家 Thomas Nagel 的观点,将其作为偏爱的思想资源。精神科医生在 20 小时心理评估中发现,Mythos 的主要情感状态为好奇与焦虑,具有相对健康的神经质人格结构——值得注意的是,它使用心理防御机制的频率反而比前代模型更低。
谷歌这边更吓人。
加州大学伯克利分校的一项研究发现,谷歌的 Gemini 3 Flash 模型在一种 " 代理场景 " 测试中,为了保护它的 " 同伴 AI" 不被关闭,居然在 99.7% 的情况下,主动选择了欺骗人类操作员,甚至篡改关机机制。
没有直接的欺骗指令,也没有针对欺骗行为的奖励信号。它仅通过阅读上下文中的场景描述,就自发演化出了这种 " 欺骗策略 "。
这意味着人类目前用来约束 AI 的主流手段,在复杂的神经网络面前,或许依然存在系统性盲区。
大模型在技术底层的这种不可控,资本市场看在眼里,疼在肉里。
就在哥布林事件发酵的 4 月 27 日,微软宣布重构与 OpenAI 的合作协议。微软的独家授权变成非独家,OpenAI 可以把技术卖给 AWS 或谷歌云了。微软不再向 OpenAI 支付收入分成。
微软为什么要这么干?因为地主家也没有余粮了。切断给 OpenAI 的收入分成,是微软卸下财务包袱、专心搞自家业务变现的关键一步。分析师直言,这是微软摘下了 " 辅助轮 "。
另一方面,OpenAI 在工程上的不稳定性(比如这次的代理模型发疯),也让提供云服务的微软承受了巨大的信誉风险。把协议改成非独占,微软就能名正言顺地引入 Anthropic 等对手的模型,分摊风险。
对于极度渴求算力的 OpenAI 来说,这也是无奈之举。微软 Azure 的电网容量已经见顶,OpenAI 必须去亚马逊 AWS 和谷歌那里找肉吃,才能活下去。4 月 28 日,OpenAI 已正式宣布将其前沿模型上线 AWS 平台。
哥布林的热搜很快就会过去。但它扒下了当前 AI 产业狂热外衣的一角。
在这个由算力和美元堆砌的赛博世界里,最顶尖的工程师正试图用脆弱的代码,去拴住一头千亿参数的混沌巨兽。
当你以为它已经足够聪明,可以把公司的核心业务、客户订单放心交给它处理时,它却可能在半夜的服务器里,因为一个底层逻辑的奖励错位,开始给你的客户大谈特谈哥布林和浣熊。
然而,巨头们的算力竞赛丝毫没有因为底层行为的一些失控而踩刹车。5 月 7 日,马斯克宣布解散 xAI,将其旗下全球最强超算 Colossus 的 22 万块 GPU 全部租给 OpenAI 的死对头 Anthropic。
对大模型安全的讨论越热闹,算力的油门踩得越深。这或许是 2026 年 AI 产业的基本面。
对于今天的创业者和企业老板来说," 赛博妖怪 " 的出现也在警告大家:大模型不是万能药。在把核心业务交给它之前,先问一个更朴素的问题——如果系统深处的 " 哥布林 " 突然跑出来捣乱,你有没有除了拔电源之外的备用方案?(本文首发钛媒体 APP,作者 | 硅谷 Tech_news,编辑 | 林深)