Skip to main content

OpenAI 追查“哥布林”从何而来OpenAI 发布了一篇颇具趣味的研究短文,解释为什么从 GPT-5.1 开始,模型在回答中越来越爱使用“goblin”“gremlin”等小怪物式比喻

  1. OpenAI 追查“哥布林”从何而来

    OpenAI 发布了一篇颇具趣味的研究短文,解释为什么从 GPT-5.1 开始,模型在回答中越来越爱使用“goblin”“gremlin”等小怪物式比喻。OpenAI 称,这种现象起初看起来只是语言风格上的小怪癖,但随着模型迭代,相关表达明显增多,最终引发内部排查。

    查显示,问题主要与 ChatGPT 的个性化功能有关,尤其是曾经的 “Nerdy” 人格。该人格只占 ChatGPT 回复总量的 2.5%,却贡献了 66.7% 的 “goblin” 提及。OpenAI 还发现,GPT-5.1 发布后,“goblin” 使用量上升 175%,“gremlin” 上升 52%。

    OpenAI 认为这不是简单的网络流行语扩散,而是奖励信号带来的副作用。训练中用于鼓励 “Nerdy” 风格的奖励机制,意外更偏好带有小怪物比喻的输出,相关偏好在 76.2% 的审计数据集中出现。随后,这类语言习惯又通过后续训练数据扩散到非 “Nerdy” 场景。

    OpenAI 已在 3 月停用 “Nerdy” 人格,并移除相关奖励信号、过滤含有异常生物词的训练数据,同时在 Codex 中加入抑制 “goblin” 的开发者指令。OpenAI 表示,这次事件说明模型行为可能被细小奖励信号意外塑造,研究团队也因此建立了新的行为审计工具。

    OpenAI