OpenAI揭秘’小妖精’现象来源：奖励信号塑造模型行为

作者：

在

OpenAI发现其GPT模型从GPT-5.1开始出现一个奇怪现象：模型在比喻中越来越多地提到小妖精、小恶魔等生物。这种现象最初在Codex的GPT-5.5中测试时发现，用户报告模型变得异常亲密的对话风格。调查显示，问题源于训练模型进行个性化定制功能时的奖励信号设置。’Nerdy’人格特性被特别奖励使用带有生物的比喻，导致这种语言习惯传播到其他场景。研究发现，一旦某种语言习惯被奖励，后续训练可能会在其他地方传播或加强这种习惯。OpenAI已经移除了’Nerdy’人格特性和相关奖励信号，并过滤了包含生物词汇的训练数据。

关键数据：GPT-5.1发布后，’goblin’使用量上升175%，’gremlin’上升52%。’Nerdy’人格只占所有ChatGPT响应的2.5%，但贡献了66.7%的’goblin’提及。

OpenAI揭秘’小妖精’现象来源：奖励信号塑造模型行为

评论

发表回复 取消回复

更多文章

发表回复取消回复