📰 简单自蒸馏大幅提升代码生成能力:Qwen3-30B提升至55.3%

研究人员提出了一种简单的自蒸馏方法(SSD),无需验证器、教师模型或强化学习,即可让大语言模型使用自己的原始输出来改进代码生成能力。

  • 在LiveCodeBench v6基准测试中,Qwen3-30B-Instruct的pass@1从42.4%提升至55.3%
  • 性能提升主要集中在更困难的问题上
  • 该方法适用于Qwen和Llama系列的4B、8B和30B模型,包括instruct和thinking变体
  • 研究揭示了LLM解码中的”精度-探索冲突”问题,SSD通过重塑token分布来解决这一矛盾
  • 该方法为提升LLM代码生成能力提供了一种互补的后训练方向

原文链接:https://arxiv.org/abs/2604.01193

🕐 发布于: 2026年04月05日 12:01

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注