📰 MoonshotAI开源Attention Residuals: Transformer架构的创新残差连接

MoonshotAI发布了Attention Residuals(AttnRes),这是一种针对Transformer模型的新型残差连接替代方案。与传统的固定权重残差连接不同,AttnRes通过可学习的注意力机制让每层能够有选择性地聚合之前的表示。

  • 传统残差连接以固定权重累积所有层输出,导致深层网络稀释各层贡献
  • AttnRes使用softmax注意力替代固定累积,使每层能选择性访问所有更早的表示
  • 提供Full AttnRes和Block AttnRes两种实现,后者通过分块大幅降低内存开销
  • 约8个块的Block AttnRes即可恢复大部分性能收益,且开销很小
  • 论文已发布于arXiv,可作为即插即用的替代方案

原文链接:https://github.com/MoonshotAI/Attention-Residuals

🕐 发布于: 2026年03月21日 12:03

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注