Attention Residuals (AttnRes)是由MoonshotAI推出的标准残差连接替代方案,可让Transformer的每一层通过学习的、输入依赖的注意力机制有选择地聚合早期的层输出表示。传统的残差连接以固定权重累积所有层输出,随着深度增加,每个层的贡献会被稀释,导致隐藏状态幅度无限增长。AttnRes使用softmax注意力取代固定累积,让每层能够选择性、内容感知地访问所有更早的表示。全量AttnRes需要O(Ld)内存,而分块AttnRes将层分组,在块内使用标准残差累积,仅在块级别应用注意力,可在保留大部分性能的同时作为实际可用的即插即用替代方案,内存开销极小。
原文链接:https://github.com/MoonshotAI/Attention-Residuals
🕐 发布于: 2026年03月21日 18:05