实战手搓 29M 小模型:开发者利用 Scaling Law 精准预测训练收敛

一位开发者分享了其开源项目 CookLLM 的最新进展,详细记录了从零开始构建一个 29M 参数小模型的全过程。目前项目已进入预训练至 SFT 及 RL 阶段,作者利用 OpenCSG FineWeb 数据集进行训练,并运用 Scaling Law(缩放定律)成功推算出模型 Loss 在 3.1 左右会达到收敛瓶颈,该结果与 GPT-3 论文数据高度吻合。项目展示了模型从“胡言乱语”到逻辑通顺的演变,作者计划引入现代架构设计,并在官网公开所有训练提交记录。

原文链接:V2EX 分享发现

抢沙发

评论前必须登录!

立即登录   注册