解决长文本瓶颈!清华智谱联手发布IndexCache,大模型推理提速近一倍

清华大学与智谱研究团队联合推出名为IndexCache的创新技术,旨在突破大语言模型在处理长文本任务时的效率瓶颈。该技术聚焦于稀疏注意力机制,通过在不同模型层之间实现“跨层索引复用”,在几乎不牺牲模型性能的前提下,显著降低了索引计算开销。实验数据显示,在300亿参数模型上,IndexCache削减了75%的索引计算量;在处理20万词元超长文本时,预填充速度提升1.82倍,解码吞吐量提升1.48倍。此外,该方案在GLM-5生产级模型上也验证了良好的扩展性,为Agent等长上下文应用提供了强大的算力支持。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册