算力革命:新研究实现Transformer“常数Token成本”,内存消耗呈数量级下降

现有Transformer模型的自注意力机制计算成本随上下文长度增加而暴涨,限制了AI模型的效率。该论文提出了一种基于对称感知泰勒展开的数学方法,成功将自注意力的计算复杂度降至每个Token的“常数成本”。该方法通过分解传统张量积链的对称性,在保证精度的前提下,实现了内存使用和计算量的数量级缩减。这一突破性进展有望解决大模型推理成本高昂的难题,使超长上下文处理更加高效。

原文链接:Hacker News

抢沙发

评论前必须登录!

立即登录   注册