突破内存限制!新工具Hypura让普通Mac也能流畅运行70B大模型

Hypura是一款专为Apple Silicon设计的革新性LLM推理调度器,通过“存储分层感知”技术,成功突破了Mac统一内存容量的物理瓶颈。它能够智能地将模型张量分配在GPU、RAM和NVMe硬盘之间,利用高速SSD进行数据流式传输,从而在不增加物理内存的情况下加载超大模型。实测显示,在32GB内存的Mac上,Hypura可稳定运行40GB的Llama 70B模型,且性能表现优于单纯的内存映射,极大地降低了在本地运行前沿大模型的硬件门槛。

原文链接:Hacker News

抢沙发

评论前必须登录!

立即登录   注册