OpenAI 追查“哥布林”从何而来OpenAI 发布了一篇颇具趣味的研究短文，解释为什么从 GPT-5.1 开始，模型在回答中越来越爱使用“goblin”“gremlin”等小怪物式比喻

04:30 · Apr 30, 2026 · Thu

OpenAI 追查“哥布林”从何而来

OpenAI 发布了一篇颇具趣味的研究短文，解释为什么从 GPT-5.1 开始，模型在回答中越来越爱使用“goblin”“gremlin”等小怪物式比喻。OpenAI 称，这种现象起初看起来只是语言风格上的小怪癖，但随着模型迭代，相关表达明显增多，最终引发内部排查。

查显示，问题主要与 ChatGPT 的个性化功能有关，尤其是曾经的 “Nerdy” 人格。该人格只占 ChatGPT 回复总量的 2.5%，却贡献了 66.7% 的 “goblin” 提及。OpenAI 还发现，GPT-5.1 发布后，“goblin” 使用量上升 175%，“gremlin” 上升 52%。

OpenAI 认为这不是简单的网络流行语扩散，而是奖励信号带来的副作用。训练中用于鼓励 “Nerdy” 风格的奖励机制，意外更偏好带有小怪物比喻的输出，相关偏好在 76.2% 的审计数据集中出现。随后，这类语言习惯又通过后续训练数据扩散到非 “Nerdy” 场景。

OpenAI 已在 3 月停用 “Nerdy” 人格，并移除相关奖励信号、过滤含有异常生物词的训练数据，同时在 Codex 中加入抑制 “goblin” 的开发者指令。OpenAI 表示，这次事件说明模型行为可能被细小奖励信号意外塑造，研究团队也因此建立了新的行为审计工具。

OpenAI