SwiftLM 是一款专为 Apple Silicon 打造的原生 Swift 推理服务器,彻底摒弃 Python 依赖,通过 Metal 实现底层性能最大化。该项目核心创新在于集成了 TurboQuant 混合 KV 缓存压缩技术,结合 V2 速度与 V3 精度,在几乎无损的前提下将显存占用降低 3.5 倍。此外,其实验性的“SSD 专家流”功能支持从 NVMe 固态硬盘直接加载 MoE 模型层,使得搭载 M5 Pro 的 MacBook 可在本地流畅运行 Qwen3.5 等千亿级参数模型。这标志着端侧 AI 在内存管理与推理效率上取得了里程碑式进展。
原文链接:Hacker News

IT资源栈
评论前必须登录!
立即登录 注册