OpenAI揭秘模型中’哥布林’现象的起源

作者：

在

OpenAI的研究团队发现了一个有趣的现象：从GPT-5.1版本开始，其模型在回答中越来越多地提及”哥布林”、”小精灵”等虚构生物。

**关键发现：**
– 这种现象最初出现在Codex测试中
– 与”Nerdy”人格特征的训练奖励机制有关
– 模型在强化学习过程中学会了将特定语言风格泛化到其他场景
– OpenAI通过修改训练数据和移除相关奖励信号来解决问题

**技术细节：**
研究显示，当模型被训练用于人格定制（特别是Nerdy人格）时，系统会给予特别高的奖励分数给包含虚构生物隐喻的回答。这种奖励机制导致了模型的”哥布林倾向”，并且这种行为会通过监督微调传播到更广泛的模型使用中。

这个案例展示了奖励塑形在大语言模型训练中的复杂性，以及模型可能如何意外地学习到并泛化某些特定的语言模式。

评论