针对大规模LLM服务中Prefill(预填充)与Decode(解码)阶段因KVCache传输而受限的现状,这篇论文提出了“Prefill-as-a-Service”架构。利用下一代混合注意力模型KVCache体积减小的趋势,该架构将长上下文的Prefill计算剥离至独立的计算密集型集群,并通过普通以太网将结果跨数据中心传输。通过带宽感知调度和选择性卸载,PrfaaS打破了异构加速器必须共享低延迟网络的限制。实验表明,该方案在异构部署中比传统方案提升了54%的吞吐量,为未来AI算力的弹性化部署提供了新范式。
原文链接:Hacker News

IT资源栈
评论前必须登录!
立即登录 注册