英伟达提出KVTC技术:无需修改模型,将LLM推理缓存压缩40倍

针对大规模 LLM 推理中 KV 缓存占用大量显存的问题,英伟达研究人员提出了一种名为 KVTC 的轻量级变换编码器。该技术借鉴经典媒体压缩算法,结合 PCA 特征去相关、自适应量化和熵编码,无需修改模型参数,仅通过简单校准即可实现高效的缓存压缩。实验显示,KVTC 在保持推理精度和长文本准确性的前提下,实现了高达 20 倍的通用压缩率,特定场景下可达 40 倍以上,显著优于现有的量化和剔除方法。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册