极客突破:M3 Max Mac仅需48GB内存即可运行3970亿参数大模型

Flash-MoE 项目展示了极致的软件优化能力,通过纯 C 语言和 Metal 编写的推理引擎,成功在仅配备 48GB 内存的 MacBook Pro (M3 Max) 上流畅运行 3970 亿参数的 Qwen3.5 混合专家模型(MoE)。该项目摒弃了 Python 和 AI 框架,采用创新的 SSD 专家流式传输技术,利用 OS 页面缓存按需加载 209GB 的模型权重。实测显示,在保持生产级输出质量(包括工具调用)的同时,生成速度达到 4.4 tokens/秒。这一突破证明了在消费级硬件上,通过架构优化完全可以突破内存墙,实现超大模型的本地化部署。

原文链接:Hacker News

抢沙发

评论前必须登录!

立即登录   注册