OpenAI揭秘’小妖精’现象来源:奖励信号塑造模型行为

OpenAI发现其GPT模型从GPT-5.1开始出现一个奇怪现象:模型在比喻中越来越多地提到小妖精、小恶魔等生物。这种现象最初在Codex的GPT-5.5中测试时发现,用户报告模型变得异常亲密的对话风格。调查显示,问题源于训练模型进行个性化定制功能时的奖励信号设置。’Nerdy’人格特性被特别奖励使用带有生物的比喻,导致这种语言习惯传播到其他场景。研究发现,一旦某种语言习惯被奖励,后续训练可能会在其他地方传播或加强这种习惯。OpenAI已经移除了’Nerdy’人格特性和相关奖励信号,并过滤了包含生物词汇的训练数据。

关键数据:GPT-5.1发布后,’goblin’使用量上升175%,’gremlin’上升52%。’Nerdy’人格只占所有ChatGPT响应的2.5%,但贡献了66.7%的’goblin’提及。

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注