📰 简单自蒸馏显著提升代码生成能力

研究人员提出了一种名为简单自蒸馏(SSD)的方法,无需验证器、教师模型或强化学习,仅利用模型自身的原始输出即可提升代码生成能力。SSD从模型中以特定温度和截断配置采样解决方案,然后使用标准监督微调对这些样本进行微调。实验结果显示,SSD将Qwen3-30B-Instruct在LiveCodeBench v6上的pass@1从42.4%提升至55.3%,且提升主要集中在更难的问题上。该方法在Qwen和Llama模型的4B、8B和30B规模上均有良好表现,包括instruct和thinking变体。研究揭示,这些提升源于LLM解码中的精度-探索冲突,SSD以上下文相关的方式重塑token分布,抑制精度至关重要的干扰尾区,同时保留探索有用的多样性。


原文链接:https://arxiv.org/abs/2604.01193

🕐 发布于: 2026年04月05日 08:03

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注