SILX AI 发布 18B MoE 开源模型 Quasar-Preview:支持 5M 上下文,专为基于内存的系统设计

今日,SILX AI 正式发布了其 Quasar 基础模型系列的首个公开预览版——Quasar-Preview。该模型采用约 18B 总参数的混合专家架构,推理时激活参数仅为 2B,在保持高性能的同时实现了极高的推理效率。其核心亮点是实验性的 500 万(5M)Token 上下文窗口,采用了 Safe NoPE / DrOPE 风格的阶段性长上下文扩展方法,专为未来的基于内存的系统架构而设计。在技术实现上,该模型融合了 Loop Transformer、Quasar 混合注意力机制,并内部集成了 Quasar、Raven 和 GLA 混合层。目前训练数据规模在 1T 至 1.5T Token 之间。官方强调,该版本并非最终形态,采用 MIT 协议开源,旨在供研究人员探索前沿架构,未来还将通过迭代式子网训练、知识蒸馏及更长周期的训练来持续提升性能。

事件分析

从技术架构来看,Quasar-Preview 探索了“大参数总量、低激活参数”的 MoE 路径与超长上下文的结合,这对于解决长文本处理的显存瓶颈具有参考价值。其提出的 Safe NoPE / DrOPE 方法专门针对“基于内存的系统”进行优化,暗示了 AI 模型演进正与硬件架构(如 HBM 容量爆发)深度绑定。在开源生态中,MIT 协议的发布降低了开发门槛,虽然该预览版未针对基准测试进行优化,但其依托 Bittensor 去中心化基础设施的训练模式,为大模型在非传统云设施上的落地提供了新的实证样本,有助于推动社区对长上下文模型的研究。

💡 核心观点:超长上下文与 MoE 架构的结合,正在重新定义开源大模型的效率与能力边界。

原文链接:Linux.do

AD · 推广 前往 code80.ai › code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。

相关阅读

  • 暂无文章

抢沙发

评论前必须登录!

立即登录   注册