📰 新方法无需训练显著提升大模型推理能力:逻辑推断提升 245%

研究者复现了 Ng 的 RYS 方法,发现通过复制特定层可以显著提升模型推理能力,且无需任何训练或权重修改。

  • 复制 Qwen2.5-32B 中的 3 层,推理能力提升 17%
  • 复制 Devstral-24B 中的第 12-14 层,BBH 逻辑推断从 0.22 提升至 0.76(+245%)
  • GSM8K 数学推理从 0.48 提升至 0.64(+33%)
  • 原理:Transformer 在训练中形成功能回路,复制正确的连续层块可让模型进行第二次推理
  • 不同模型的推理回路位置不同:Devstral-24B 在 12-14 层,Qwen2.5-32B 在 7-9 层
  • 边界敏感:层块偏移一层,效果就会消失或反转
  • 仅使用两块 AMD 消费级 GPU(RX 7900 XT + RX 6950 XT)在一晚内完成

原文链接:https://github.com/alainnothere/llm-circuit-finder

🕐 发布于: 2026年03月19日 18:02

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注