研究人员发布TinyLoRA方法,证明仅需极少参数即可让大模型学会推理。
- 仅用13个训练参数(bf16精度下26字节)即可将8B参数的Qwen2.5训练到GSM8K数据集91%准确率
- 在更难的推理基准测试(AIME、AMC、MATH500)中,仅用千分之一的参数量就能恢复90%的性能提升
- 关键发现:强化学习(RL)比监督微调(SFT)更高效,SFT需要100-1000倍更大的参数更新才能达到相同效果
- 该研究证明了即使 rank=1 的LoRA也非必须,参数可以进一步压缩到极小规模
原文链接:https://arxiv.org/abs/2602.04118
🕐 发布于: 2026年04月01日 18:01
发表回复