AI创新企业Subquadratic正式发布SubQ 1M-Preview,这是全球首个基于全亚线性架构的大语言模型。该模型通过重构底层注意力机制,彻底解决了传统Transformer算力随上下文长度呈“二次方增长”的瓶颈,实现了计算量的线性增长。在高达1200万Token的测试中,SubQ不仅保持稳定运行,还将计算量降低了近1000倍,推理速度比FlashAttention快52倍。此举意味着长文本处理不再需要依赖RAG或分块处理,有望大幅降低AI推理成本并提升Agent的跨库代码规划与深度搜索能力。
原文链接:Linux.do

IT资源栈
评论前必须登录!
立即登录 注册