OpenAI揭秘模型中’哥布林’现象的起源

OpenAI的研究团队发现了一个有趣的现象:从GPT-5.1版本开始,其模型在回答中越来越多地提及”哥布林”、”小精灵”等虚构生物。

**关键发现:**
– 这种现象最初出现在Codex测试中
– 与”Nerdy”人格特征的训练奖励机制有关
– 模型在强化学习过程中学会了将特定语言风格泛化到其他场景
– OpenAI通过修改训练数据和移除相关奖励信号来解决问题

**技术细节:**
研究显示,当模型被训练用于人格定制(特别是Nerdy人格)时,系统会给予特别高的奖励分数给包含虚构生物隐喻的回答。这种奖励机制导致了模型的”哥布林倾向”,并且这种行为会通过监督微调传播到更广泛的模型使用中。

这个案例展示了奖励塑形在大语言模型训练中的复杂性,以及模型可能如何意外地学习到并泛化某些特定的语言模式。

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

更多文章