Apple研究人员提出了一种名为“简单自蒸馏”(SSD)的方法,通过利用大模型自身生成的代码样本进行微调,显著提升了代码生成能力。该方法无需验证器、教师模型或强化学习,在将Qwen3-30B模型在LiveCodeBench上的通过率从42.4%提升至55.3%的同时,也证明了在Llama等不同规模模型上的通用性。研究指出,SSD通过重塑Token分布,有效解决了代码生成中的“精度-探索冲突”,为模型后训练提供了一条高效的新路径。
原文链接:Hacker News
Apple研究人员提出了一种名为“简单自蒸馏”(SSD)的方法,通过利用大模型自身生成的代码样本进行微调,显著提升了代码生成能力。该方法无需验证器、教师模型或强化学习,在将Qwen3-30B模型在LiveCodeBench上的通过率从42.4%提升至55.3%的同时,也证明了在Llama等不同规模模型上的通用性。研究指出,SSD通过重塑Token分布,有效解决了代码生成中的“精度-探索冲突”,为模型后训练提供了一条高效的新路径。
原文链接:Hacker News
评论前必须登录!
立即登录 注册