📰 TinyLoRA：仅用13个参数实现推理能力

作者：

在

研究人员发布TinyLoRA方法，证明仅需极少参数即可让大模型学会推理。

仅用13个训练参数（bf16精度下26字节）即可将8B参数的Qwen2.5训练到GSM8K数据集91%准确率
在更难的推理基准测试（AIME、AMC、MATH500）中，仅用千分之一的参数量就能恢复90%的性能提升
关键发现：强化学习（RL）比监督微调（SFT）更高效，SFT需要100-1000倍更大的参数更新才能达到相同效果
该研究证明了即使 rank=1 的LoRA也非必须，参数可以进一步压缩到极小规模

原文链接：https://arxiv.org/abs/2602.04118

🕐 发布于: 2026年04月01日 18:01

评论

发表回复取消回复

更多文章