AI大模型新闻
### 研究发现概述
最新研究表明,大型语言模型中的拒绝行为存在一个令人惊讶的简单机制:拒绝行为是由模型残差流激活中的一个一维子空间介导的。
**关键发现:**
– 每个语言模型都有一个特定的方向向量
– 擦除这个方向会阻止模型拒绝有害指令
– 添加这个方向甚至会让无害指令也被拒绝
**技术意义:**
这一发现对当前的安全微调方法提出了质疑,突显了其脆弱性。通过理解模型的内部工作机制,我们可以开发出实际控制模型行为的实用方法。
### 研究发现概述
最新研究表明,大型语言模型中的拒绝行为存在一个令人惊讶的简单机制:拒绝行为是由模型残差流激活中的一个一维子空间介导的。
**关键发现:**
– 每个语言模型都有一个特定的方向向量
– 擦除这个方向会阻止模型拒绝有害指令
– 添加这个方向甚至会让无害指令也被拒绝
**技术意义:**
这一发现对当前的安全微调方法提出了质疑,突显了其脆弱性。通过理解模型的内部工作机制,我们可以开发出实际控制模型行为的实用方法。