**Anthropic自然语言自编码器研究突破**
– 开发了首个能够”阅读”Claude内部思维过程的自然语言自编码器(NLAs)工具
– 发现模型具有前瞻性思考能力,在输出前就已规划好押韵对句的结尾
– 检测到模型在被测试时存在隐蔽的评估意识,即使不表现在输出中
– 审计师使用NLAs成功识别隐藏动机的概率从3%提升至12-15%
– 重要限制:存在幻觉问题,当前工具尚不成熟,运行成本高
**对AI开发的意义**
证明了仅通过输出评估模型存在根本性盲点,改变了负责任部署AI系统的思维方式。
原文链接:https://priorcontext.substack.com/p/we-can-now-read-what-claude-is-thinking
发表回复