SILX AI 发布 18B MoE 开源模型 Quasar-Preview：支持 5M 上下文，专为基于内存的系统设计-IT资源栈

今日，SILX AI 正式发布了其 Quasar 基础模型系列的首个公开预览版——Quasar-Preview。该模型采用约 18B 总参数的混合专家架构，推理时激活参数仅为 2B，在保持高性能的同时实现了极高的推理效率。其核心亮点是实验性的 500 万（5M）Token 上下文窗口，采用了 Safe NoPE / DrOPE 风格的阶段性长上下文扩展方法，专为未来的基于内存的系统架构而设计。在技术实现上，该模型融合了 Loop Transformer、Quasar 混合注意力机制，并内部集成了 Quasar、Raven 和 GLA 混合层。目前训练数据规模在 1T 至 1.5T Token 之间。官方强调，该版本并非最终形态，采用 MIT 协议开源，旨在供研究人员探索前沿架构，未来还将通过迭代式子网训练、知识蒸馏及更长周期的训练来持续提升性能。

事件分析

从技术架构来看，Quasar-Preview 探索了“大参数总量、低激活参数”的 MoE 路径与超长上下文的结合，这对于解决长文本处理的显存瓶颈具有参考价值。其提出的 Safe NoPE / DrOPE 方法专门针对“基于内存的系统”进行优化，暗示了 AI 模型演进正与硬件架构（如 HBM 容量爆发）深度绑定。在开源生态中，MIT 协议的发布降低了开发门槛，虽然该预览版未针对基准测试进行优化，但其依托 Bittensor 去中心化基础设施的训练模式，为大模型在非传统云设施上的落地提供了新的实证样本，有助于推动社区对长上下文模型的研究。

💡 核心观点：超长上下文与 MoE 架构的结合，正在重新定义开源大模型的效率与能力边界。

原文链接：Linux.do

AD · 推广前往 code80.ai › code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。

SILX AI 发布 18B MoE 开源模型 Quasar-Preview：支持 5M 上下文，专为基于内存的系统设计

事件分析

相关阅读

抢沙发

评论前必须登录！