语言模型拒绝行为机制新发现

AI大模型新闻

### 研究发现概述

最新研究表明,大型语言模型中的拒绝行为存在一个令人惊讶的简单机制:拒绝行为是由模型残差流激活中的一个一维子空间介导的。

**关键发现:**
– 每个语言模型都有一个特定的方向向量
– 擦除这个方向会阻止模型拒绝有害指令
– 添加这个方向甚至会让无害指令也被拒绝

**技术意义:**
这一发现对当前的安全微调方法提出了质疑,突显了其脆弱性。通过理解模型的内部工作机制,我们可以开发出实际控制模型行为的实用方法。

原文链接:https://arxiv.org/abs/2406.11717

更多文章