研究人员提出了一种简单的自蒸馏方法(SSD),无需验证器、教师模型或强化学习,即可让大语言模型使用自己的原始输出来改进代码生成能力。
- 在LiveCodeBench v6基准测试中,Qwen3-30B-Instruct的pass@1从42.4%提升至55.3%
- 性能提升主要集中在更困难的问题上
- 该方法适用于Qwen和Llama系列的4B、8B和30B模型,包括instruct和thinking变体
- 研究揭示了LLM解码中的”精度-探索冲突”问题,SSD通过重塑token分布来解决这一矛盾
- 该方法为提升LLM代码生成能力提供了一种互补的后训练方向
原文链接:https://arxiv.org/abs/2604.01193
🕐 发布于: 2026年04月05日 12:01
发表回复