硬核突破:单张RTX 3090运行Llama 3.1 70B,NVMe直连GPU绕过CPU

NTransformer 是一款高效能 C++/CUDA 推理引擎,通过创新的 PCIe 流式传输和 NVMe Direct I/O 技术,成功在单张 RTX 3090(24GB 显存)上流畅运行 Llama 3.1 70B 大模型。该技术完全绕过 CPU,利用三级自适应缓存(显存+内存+NVMe)和双缓冲流水线,将推理速度相比传统 mmap 方式提升了 33 倍。这一突破性优化极大降低了本地运行超大参数模型的硬件门槛。

原文链接:Hacker News

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册