MoonshotAI发布了Attention Residuals(AttnRes),这是一种针对Transformer模型的新型残差连接替代方案。与传统的固定权重残差连接不同,AttnRes通过可学习的注意力机制让每层能够有选择性地聚合之前的表示。
- 传统残差连接以固定权重累积所有层输出,导致深层网络稀释各层贡献
- AttnRes使用softmax注意力替代固定累积,使每层能选择性访问所有更早的表示
- 提供Full AttnRes和Block AttnRes两种实现,后者通过分块大幅降低内存开销
- 约8个块的Block AttnRes即可恢复大部分性能收益,且开销很小
- 论文已发布于arXiv,可作为即插即用的替代方案
原文链接:https://github.com/MoonshotAI/Attention-Residuals
🕐 发布于: 2026年03月21日 12:03
发表回复