清华大学与智谱研究团队联合推出名为IndexCache的创新技术,旨在突破大语言模型在处理长文本任务时的效率瓶颈。该技术聚焦于稀疏注意力机制,通过在不同模型层之间实现“跨层索引复用”,在几乎不牺牲模型性能的前提下,显著降低了索引计算开销。实验数据显示,在300亿参数模型上,IndexCache削减了75%的索引计算量;在处理20万词元超长文本时,预填充速度提升1.82倍,解码吞吐量提升1.48倍。此外,该方案在GLM-5生产级模型上也验证了良好的扩展性,为Agent等长上下文应用提供了强大的算力支持。
原文链接:Linux.do

IT资源栈
评论前必须登录!
立即登录 注册