Flash-MoE 项目展示了极致的软件优化能力,通过纯 C 语言和 Metal 编写的推理引擎,成功在仅配备 48GB 内存的 MacBook Pro (M3 Max) 上流畅运行 3970 亿参数的 Qwen3.5 混合专家模型(MoE)。该项目摒弃了 Python 和 AI 框架,采用创新的 SSD 专家流式传输技术,利用 OS 页面缓存按需加载 209GB 的模型权重。实测显示,在保持生产级输出质量(包括工具调用)的同时,生成速度达到 4.4 tokens/秒。这一突破证明了在消费级硬件上,通过架构优化完全可以突破内存墙,实现超大模型的本地化部署。
原文链接:Hacker News

IT资源栈
评论前必须登录!
立即登录 注册