📰 简单自蒸馏显著提升代码生成能力

作者：

在

研究人员提出了一种名为简单自蒸馏(SSD)的方法，无需验证器、教师模型或强化学习，仅利用模型自身的原始输出即可提升代码生成能力。SSD从模型中以特定温度和截断配置采样解决方案，然后使用标准监督微调对这些样本进行微调。实验结果显示，SSD将Qwen3-30B-Instruct在LiveCodeBench v6上的pass@1从42.4%提升至55.3%，且提升主要集中在更难的问题上。该方法在Qwen和Llama模型的4B、8B和30B规模上均有良好表现，包括instruct和thinking变体。研究揭示，这些提升源于LLM解码中的精度-探索冲突，SSD以上下文相关的方式重塑token分布，抑制精度至关重要的干扰尾区，同时保留探索有用的多样性。

原文链接：https://arxiv.org/abs/2604.01193

🕐 发布于: 2026年04月05日 08:03

评论

发表回复取消回复

更多文章