AI独角兽DeepSeek在GitHub提前发布了完全重构的专家并行通信库DeepEP v2。新版本旨在解决初代产品的技术债务,在延续V3配置的测试中,不仅将峰值性能提升至1.3倍,更将GPU流处理器资源占用降低了4倍。架构上,v2版弃用NVSHMEM,转用更轻量的NCCL Gin后端并引入全即时编译。此外,新增的Engram远程拉取等特性实现了零算力消耗的网络传输,目前已支持英伟达Hopper及Blackwell架构。
原文链接:Linux.do
AI独角兽DeepSeek在GitHub提前发布了完全重构的专家并行通信库DeepEP v2。新版本旨在解决初代产品的技术债务,在延续V3配置的测试中,不仅将峰值性能提升至1.3倍,更将GPU流处理器资源占用降低了4倍。架构上,v2版弃用NVSHMEM,转用更轻量的NCCL Gin后端并引入全即时编译。此外,新增的Engram远程拉取等特性实现了零算力消耗的网络传输,目前已支持英伟达Hopper及Blackwell架构。
原文链接:Linux.do
评论前必须登录!
立即登录 注册