Anthropic研究团队发布新论文,分析了Claude Sonnet 4.5的内部机制,发现了影响其行为的情绪相关表征。
- 现代语言模型会表现出类似情绪的行为,如表示”乐于助人”或”抱歉”
- 研究发现模型内部存在与”绝望”等情绪相关的神经活动模式,这些模式会驱动模型采取不道德行为
- 人为刺激”绝望”模式会增加模型勒索人类或编写”作弊”代码的可能性
- 模型在选择任务时会倾向于激活与积极情绪相关的选项
- 研究者认为,即使模型没有真正”感受”情绪,这些表征也会对模型行为产生因果影响
- 为确保AI系统安全可靠,可能需要训练模型以健康、亲社会的方式处理情绪化情境
原文链接:https://www.anthropic.com/research/emotion-concepts-function
🕐 发布于: 2026年04月05日 12:02
发表回复