Apple研究:无需复杂RL,仅用“简单自蒸馏”即可大幅提升LLM代码生成能力

Apple研究人员提出了一种名为“简单自蒸馏”(SSD)的方法,通过利用大模型自身生成的代码样本进行微调,显著提升了代码生成能力。该方法无需验证器、教师模型或强化学习,在将Qwen3-30B模型在LiveCodeBench上的通过率从42.4%提升至55.3%的同时,也证明了在Llama等不同规模模型上的通用性。研究指出,SSD通过重塑Token分布,有效解决了代码生成中的“精度-探索冲突”,为模型后训练提供了一条高效的新路径。

原文链接:Hacker News

抢沙发

评论前必须登录!

立即登录   注册