📰 MoonshotAI开源Attention Residuals技术

MoonshotAI发布了一种名为Attention Residuals (AttnRes)的新型Transformer架构技术,可替代标准残差连接。

  • 标准残差连接以固定权重累积所有层输出,导致深层网络稀释每层贡献并使隐藏状态幅度无限增长
  • AttnRes通过softmax注意力机制替代固定累积,让每层能选择性聚合之前的表示
  • 完整AttnRes需要O(Ld)内存,区块版本将层分组为N个区块,将内存需求降至O(Nd)
  • 约8个区块即可恢复大部分完整AttnRes效果,是实用的即插即用替代方案
  • 已发布论文和PyTorch实现代码

原文链接:https://github.com/MoonshotAI/Attention-Residuals

🕐 发布于: 2026年03月21日 08:06

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注