vLLM团队宣布完成向V1引擎的全面迁移,通过集成Wide-EP、双批次重叠(DBO)及专家并行负载均衡(EPLB)等优化,在H200集群上实现每GPU 2.2k tokens/s的吞吐量。这一显著性能提升解决了DeepSeek等稀疏MoE模型的部署瓶颈,获Meta、Mistral等头部企业采用,大幅降低了Token成本。
原文链接:Hacker News
vLLM团队宣布完成向V1引擎的全面迁移,通过集成Wide-EP、双批次重叠(DBO)及专家并行负载均衡(EPLB)等优化,在H200集群上实现每GPU 2.2k tokens/s的吞吐量。这一显著性能提升解决了DeepSeek等稀疏MoE模型的部署瓶颈,获Meta、Mistral等头部企业采用,大幅降低了Token成本。
原文链接:Hacker News
评论前必须登录!
立即登录 注册