Perplexity发布技术突破,将万亿参数模型(Kimi-K2)的强化学习微调权重同步时间缩短至1.3秒。通过利用RDMA点对点通信技术,该方案实现了从256张训练GPU到128张推理GPU的零拷贝传输。相比传统数分钟级的同步耗时,新方法采用静态调度与流水线设计,无需侵入修改推理引擎,有效解决了异步RL训练中的数据传输瓶颈,显著提升了大规模模型训练与推理的协同效率。
原文链接:Hacker News
Perplexity发布技术突破,将万亿参数模型(Kimi-K2)的强化学习微调权重同步时间缩短至1.3秒。通过利用RDMA点对点通信技术,该方案实现了从256张训练GPU到128张推理GPU的零拷贝传输。相比传统数分钟级的同步耗时,新方法采用静态调度与流水线设计,无需侵入修改推理引擎,有效解决了异步RL训练中的数据传输瓶颈,显著提升了大规模模型训练与推理的协同效率。
原文链接:Hacker News
评论前必须登录!
立即登录 注册