📰 TinyLoRA:仅用13个参数实现推理能力

研究人员发布TinyLoRA方法,证明仅需极少参数即可让大模型学会推理。

  • 仅用13个训练参数(bf16精度下26字节)即可将8B参数的Qwen2.5训练到GSM8K数据集91%准确率
  • 在更难的推理基准测试(AIME、AMC、MATH500)中,仅用千分之一的参数量就能恢复90%的性能提升
  • 关键发现:强化学习(RL)比监督微调(SFT)更高效,SFT需要100-1000倍更大的参数更新才能达到相同效果
  • 该研究证明了即使 rank=1 的LoRA也非必须,参数可以进一步压缩到极小规模

原文链接:https://arxiv.org/abs/2602.04118

🕐 发布于: 2026年04月01日 18:01

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注