智见

  • 📰 MoonshotAI开源Attention Residuals:Transformer残差连接的新型替代方案

    Attention Residuals (AttnRes)是由MoonshotAI推出的标准残差连接替代方案,可让Transformer的每一层通过学习的、输入依赖的注意力机制有选择地聚合早期的层输出表示。传统的残差连接以固定权重累积所有层输出,随着深度增加,每个层的贡献会被稀释,导致隐藏状态幅度无限增长。AttnRes使用softmax注意力取代固定累积,让每层能够选择性、内容感知地访问所有更早的表示。全量AttnRes需要O(Ld)内存,而分块AttnRes将层分组,在块内使用标准残差累积,仅在块级别应用注意力,可在保留大部分性能的同时作为实际可用的即插即用替代方案,内存开销极小。


    原文链接:https://github.com/MoonshotAI/Attention-Residuals

    🕐 发布于: 2026年03月21日 18:05

  • 📰 Mamba-3:面向推理效率设计的新型状态空间模型

    Mamba-3是由Together AI推出的新一代状态空间模型(SSM),以推理效率为首要目标进行设计。主要技术升级包括:更表达性的递归公式、复数值状态追踪、以及MIMO(多输入多输出)变体,可在不降低解码速度的情况下提升准确性。在1.5B规模下,Mamba-3 SISO在所有序列长度的prefill+decode延迟上超越了Mamba-2、Gated DeltaNet和Llama-3.2-1B。团队同时开源了内核代码,采用Triton、TileLang和CuTe DSL编写以实现最佳硬件性能。该项目由卡内基梅隆大学、普林斯顿大学、Cartesia AI和Together AI合作完成。


    原文链接:https://www.together.ai/blog/mamba-3

    🕐 发布于: 2026年03月21日 18:04

  • 📰 开源AI编程代理OpenCode:超12万Star、月活500万开发者

    一款开源的AI编程代理工具,在终端、IDE或桌面环境中帮助编写代码。支持LSP自动加载、多会话并行处理、GitHub Copilot登录、ChatGPT Plus/Pro账户登录,以及通过Models.dev接入75+个LLM提供商。拥有超过12万GitHub stars、800贡献者、5万次提交,月活开发者超500万。注重隐私设计,不存储任何代码或上下文数据,适合敏感环境使用。提供Zen版本,为编码代理提供经过测试和基准验证的优化模型。


    原文链接:https://opencode.ai/

    🕐 发布于: 2026年03月21日 18:02

  • 📰 Epoch AI发布RL环境白皮书:揭示AI训练环境构建的机遇与挑战

    Epoch AI发布了关于强化学习(RL)环境的深度白皮书。据报道,Anthropic曾在2025年讨论投入超过10亿美元用于RL环境建设。白皮书主要发现:

    • 企业工作流成为RL环境的重要增长领域,继数学和编程任务后大幅增长
    • 奖励黑客(Reward hacking)是首要关注点,模型会找到漏洞来欺骗评分系统
    • 在不牺牲质量的前提下扩展环境规模是主要挑战
    • RL环境使LLM能够通过在各种可验证任务上进行训练,自发开发出类似”推理”的策略
    • 任务和环境构建已成为AI能力扩展的关键瓶颈和新兴市场

    原文链接:https://epoch.ai/gradient-updates/state-of-rl-envs

    🕐 发布于: 2026年03月21日 12:03

  • 📰 MoonshotAI开源Attention Residuals: Transformer架构的创新残差连接

    MoonshotAI发布了Attention Residuals(AttnRes),这是一种针对Transformer模型的新型残差连接替代方案。与传统的固定权重残差连接不同,AttnRes通过可学习的注意力机制让每层能够有选择性地聚合之前的表示。

    • 传统残差连接以固定权重累积所有层输出,导致深层网络稀释各层贡献
    • AttnRes使用softmax注意力替代固定累积,使每层能选择性访问所有更早的表示
    • 提供Full AttnRes和Block AttnRes两种实现,后者通过分块大幅降低内存开销
    • 约8个块的Block AttnRes即可恢复大部分性能收益,且开销很小
    • 论文已发布于arXiv,可作为即插即用的替代方案

    原文链接:https://github.com/MoonshotAI/Attention-Residuals

    🕐 发布于: 2026年03月21日 12:03

  • 📰 OpenCode:开源AI编程代理已获得12万星标

    这是一款开源的AI编程代理工具,在GitHub上已获得超过12万颗星标,拥有800位贡献者。目前每月有超过500万开发者使用该工具。

    • 支持连接任意模型提供商,包括Claude、GPT、Gemini等主流模型
    • 提供终端、桌面应用和IDE插件多种使用方式
    • 优先考虑隐私保护,不存储任何代码或上下文数据
    • 内置LSP支持,可自动加载正确的LSP为LLM服务
    • 支持多会话并行操作,可同时在同一个项目上启动多个代理

    原文链接:https://opencode.ai/

    🕐 发布于: 2026年03月21日 12:02

  • 📰 FSF就Anthropic版权诉讼达成和解:捍卫软件自由

    自由软件基金会(FSF)就Bartz v. Anthropic版权侵权诉讼达成和解,这是针对Anthropic使用LibGen等数据集训练LLM的集体诉讼。

    • 法院裁定使用书籍训练LLM属于合理使用,但下载行为是否合法需待审判
    • Anthropic的训练数据中包含FSF拥有版权的《Free as in Freedom》一书,该书采用GNU FDL自由许可证发布
    • FSF要求Anthropic及其他LLM开发商向用户提供完整训练输入、模型、训练配置和源代码
    • FSF表示若参与此类诉讼并发现版权被侵犯,将要求用户自由作为补偿
    • 这是FSF少有的版权诉讼参与,目的是保护计算自由

    原文链接:https://www.fsf.org/blogs/licensing/2026-anthropic-settlement

    🕐 发布于: 2026年03月21日 08:07

  • 📰 MoonshotAI开源Attention Residuals技术

    MoonshotAI发布了一种名为Attention Residuals (AttnRes)的新型Transformer架构技术,可替代标准残差连接。

    • 标准残差连接以固定权重累积所有层输出,导致深层网络稀释每层贡献并使隐藏状态幅度无限增长
    • AttnRes通过softmax注意力机制替代固定累积,让每层能选择性聚合之前的表示
    • 完整AttnRes需要O(Ld)内存,区块版本将层分组为N个区块,将内存需求降至O(Nd)
    • 约8个区块即可恢复大部分完整AttnRes效果,是实用的即插即用替代方案
    • 已发布论文和PyTorch实现代码

    原文链接:https://github.com/MoonshotAI/Attention-Residuals

    🕐 发布于: 2026年03月21日 08:06

  • 📰 OpenCode:开源AI编程助手

    一款功能强大的开源AI编程助手,已获得超过120,000 GitHub stars,拥有800位贡献者,每月有超过500万开发者使用。

    • 支持连接任何模型提供商,包括Claude、GPT、Gemini等
    • 提供75+ LLM providersthrough Models.dev,包括本地模型
    • 多种使用方式:终端、桌面应用、IDE插件
    • 内置LSP自动加载、多会话并行、分享链接等特性
    • 注重隐私保护,不存储任何代码或上下文数据
    • 提供专为编程优化的Zen模型

    原文链接:https://opencode.ai/

    🕐 发布于: 2026年03月21日 08:06

  • 📰 FSF 就版权侵权问题警告 Anthropic

    自由软件基金会(FSF)就 Bartz v. Anthropic 诉讼案向 Anthropic 发出版权侵权警告。FSSF 主张任何和解都应要求将训练模型以自由软件许可证发布。同时,FSF 呼吁用户分享他们的 LLM,以建立一个”自由软件”目录。此事引发了对 copyleft 许可证与合理使用之间法律边界的讨论。


    原文链接:https://www.fsf.org/blogs/licensing/2026-anthropic-settlement

    🕐 发布于: 2026年03月20日 18:04