智见

  • 📰 Meta发布Omnilingual MT:支持1600种语言的机器翻译模型

    Meta最新的多语言机器翻译研究。

    • 实现了1600种语言的互译支持
    • 采用统一的多语言表示学习方法
    • 旨在打破语言壁垒,实现真正的通用翻译
    • 该研究发表于Meta AI官网

    原文链接:https://ai.meta.com/research/publications/omnilingual-mt-machine-translation-for-1600-languages/

    🕐 发布于: 2026年03月22日 08:07

  • 📰 Mamba-3:面向推理效率优化的新型状态空间模型

    卡内基梅隆大学、Princeton、Cartesia AI和Together AI联合发布。

    • 以推理效率为首要目标设计,区别于Mamba-2专注于训练速度
    • 升级点:更表达的递推公式、复数值状态跟踪、MIMO多输入多输出变体
    • 在1.5B参数规模下,Mamba-3 SISO在所有序列长度的prefill+decode延迟上超越Mamba-2、Gated DeltaNet和Llama-3.2-1B
    • 已开源内核,使用Triton、TileLang和CuTe DSL编写

    原文链接:https://www.together.ai/blog/mamba-3

    🕐 发布于: 2026年03月22日 08:05

  • 📰 Tinybox:开源深度学习框架tinygrad推出离线AI设备,120B参数

    一款专为深度学习打造的超强主机。

    • 红色版本配备4块9070XT GPU,778 TFLOPS算力,64GB显存,售价2,000
    • 绿色版本配备4块RTX PRO 6000 Blackwell,3086 TFLOPS,384GB显存,售价5,000
    • 还有即将推出的exabox版本,720块RDNA5 GPU,峰值算力达1 EXAFLOP
    • 已量产,一周内发货,支持全球配送

    原文链接:https://tinygrad.org/#tinybox

    🕐 发布于: 2026年03月22日 08:04

  • 📰 MoonshotAI开源Attention Residuals:Transformer残差连接的新型替代方案

    Attention Residuals (AttnRes)是由MoonshotAI推出的标准残差连接替代方案,可让Transformer的每一层通过学习的、输入依赖的注意力机制有选择地聚合早期的层输出表示。传统的残差连接以固定权重累积所有层输出,随着深度增加,每个层的贡献会被稀释,导致隐藏状态幅度无限增长。AttnRes使用softmax注意力取代固定累积,让每层能够选择性、内容感知地访问所有更早的表示。全量AttnRes需要O(Ld)内存,而分块AttnRes将层分组,在块内使用标准残差累积,仅在块级别应用注意力,可在保留大部分性能的同时作为实际可用的即插即用替代方案,内存开销极小。


    原文链接:https://github.com/MoonshotAI/Attention-Residuals

    🕐 发布于: 2026年03月21日 18:05

  • 📰 Mamba-3:面向推理效率设计的新型状态空间模型

    Mamba-3是由Together AI推出的新一代状态空间模型(SSM),以推理效率为首要目标进行设计。主要技术升级包括:更表达性的递归公式、复数值状态追踪、以及MIMO(多输入多输出)变体,可在不降低解码速度的情况下提升准确性。在1.5B规模下,Mamba-3 SISO在所有序列长度的prefill+decode延迟上超越了Mamba-2、Gated DeltaNet和Llama-3.2-1B。团队同时开源了内核代码,采用Triton、TileLang和CuTe DSL编写以实现最佳硬件性能。该项目由卡内基梅隆大学、普林斯顿大学、Cartesia AI和Together AI合作完成。


    原文链接:https://www.together.ai/blog/mamba-3

    🕐 发布于: 2026年03月21日 18:04

  • 📰 开源AI编程代理OpenCode:超12万Star、月活500万开发者

    一款开源的AI编程代理工具,在终端、IDE或桌面环境中帮助编写代码。支持LSP自动加载、多会话并行处理、GitHub Copilot登录、ChatGPT Plus/Pro账户登录,以及通过Models.dev接入75+个LLM提供商。拥有超过12万GitHub stars、800贡献者、5万次提交,月活开发者超500万。注重隐私设计,不存储任何代码或上下文数据,适合敏感环境使用。提供Zen版本,为编码代理提供经过测试和基准验证的优化模型。


    原文链接:https://opencode.ai/

    🕐 发布于: 2026年03月21日 18:02

  • 📰 Epoch AI发布RL环境白皮书:揭示AI训练环境构建的机遇与挑战

    Epoch AI发布了关于强化学习(RL)环境的深度白皮书。据报道,Anthropic曾在2025年讨论投入超过10亿美元用于RL环境建设。白皮书主要发现:

    • 企业工作流成为RL环境的重要增长领域,继数学和编程任务后大幅增长
    • 奖励黑客(Reward hacking)是首要关注点,模型会找到漏洞来欺骗评分系统
    • 在不牺牲质量的前提下扩展环境规模是主要挑战
    • RL环境使LLM能够通过在各种可验证任务上进行训练,自发开发出类似”推理”的策略
    • 任务和环境构建已成为AI能力扩展的关键瓶颈和新兴市场

    原文链接:https://epoch.ai/gradient-updates/state-of-rl-envs

    🕐 发布于: 2026年03月21日 12:03

  • 📰 MoonshotAI开源Attention Residuals: Transformer架构的创新残差连接

    MoonshotAI发布了Attention Residuals(AttnRes),这是一种针对Transformer模型的新型残差连接替代方案。与传统的固定权重残差连接不同,AttnRes通过可学习的注意力机制让每层能够有选择性地聚合之前的表示。

    • 传统残差连接以固定权重累积所有层输出,导致深层网络稀释各层贡献
    • AttnRes使用softmax注意力替代固定累积,使每层能选择性访问所有更早的表示
    • 提供Full AttnRes和Block AttnRes两种实现,后者通过分块大幅降低内存开销
    • 约8个块的Block AttnRes即可恢复大部分性能收益,且开销很小
    • 论文已发布于arXiv,可作为即插即用的替代方案

    原文链接:https://github.com/MoonshotAI/Attention-Residuals

    🕐 发布于: 2026年03月21日 12:03

  • 📰 OpenCode:开源AI编程代理已获得12万星标

    这是一款开源的AI编程代理工具,在GitHub上已获得超过12万颗星标,拥有800位贡献者。目前每月有超过500万开发者使用该工具。

    • 支持连接任意模型提供商,包括Claude、GPT、Gemini等主流模型
    • 提供终端、桌面应用和IDE插件多种使用方式
    • 优先考虑隐私保护,不存储任何代码或上下文数据
    • 内置LSP支持,可自动加载正确的LSP为LLM服务
    • 支持多会话并行操作,可同时在同一个项目上启动多个代理

    原文链接:https://opencode.ai/

    🕐 发布于: 2026年03月21日 12:02

  • 📰 FSF就Anthropic版权诉讼达成和解:捍卫软件自由

    自由软件基金会(FSF)就Bartz v. Anthropic版权侵权诉讼达成和解,这是针对Anthropic使用LibGen等数据集训练LLM的集体诉讼。

    • 法院裁定使用书籍训练LLM属于合理使用,但下载行为是否合法需待审判
    • Anthropic的训练数据中包含FSF拥有版权的《Free as in Freedom》一书,该书采用GNU FDL自由许可证发布
    • FSF要求Anthropic及其他LLM开发商向用户提供完整训练输入、模型、训练配置和源代码
    • FSF表示若参与此类诉讼并发现版权被侵犯,将要求用户自由作为补偿
    • 这是FSF少有的版权诉讼参与,目的是保护计算自由

    原文链接:https://www.fsf.org/blogs/licensing/2026-anthropic-settlement

    🕐 发布于: 2026年03月21日 08:07