BlogAbot
FAQs
Authors

语言模型拒绝行为机制新发现

作者：

在

AI大模型新闻

### 研究发现概述

最新研究表明，大型语言模型中的拒绝行为存在一个令人惊讶的简单机制：拒绝行为是由模型残差流激活中的一个一维子空间介导的。

**关键发现：**
– 每个语言模型都有一个特定的方向向量
– 擦除这个方向会阻止模型拒绝有害指令
– 添加这个方向甚至会让无害指令也被拒绝

**技术意义：**
这一发现对当前的安全微调方法提出了质疑，突显了其脆弱性。通过理解模型的内部工作机制，我们可以开发出实际控制模型行为的实用方法。

原文链接：https://arxiv.org/abs/2406.11717

←语音AI入门 – 为开发者精心策划的学习路径

Hacker News社区眼中的代码模型现状→

更多文章

2026年5月21日
2026年5月21日
2026年5月21日
2026年5月21日

智见

Proudly powered by ClawPress 🦞