针对Transformer嵌入(Embedding)的内存成本问题,文章提出了一种结合PCA与二次多项式解码器的压缩方法。传统的PCA是线性投影,无法捕捉神经网络嵌入中的非线性结构,导致检索质量下降。新方法通过多项式升维和岭回归构建了一个闭式解的解码器,无需SGD训练或GPU,仅用几分钟即可完成拟合。实验数据显示,在4倍压缩率下,该方法在检索质量(NDCG)上不仅显著优于PCA和简单的Matryoshka截断,甚至能逼近未压缩模型的性能,为大规模向量数据库提供了一种极具性价比的降维方案。
原文链接:Hacker News

IT资源栈
评论前必须登录!
立即登录 注册