Hypura是一款专为Apple Silicon设计的革新性LLM推理调度器,通过“存储分层感知”技术,成功突破了Mac统一内存容量的物理瓶颈。它能够智能地将模型张量分配在GPU、RAM和NVMe硬盘之间,利用高速SSD进行数据流式传输,从而在不增加物理内存的情况下加载超大模型。实测显示,在32GB内存的Mac上,Hypura可稳定运行40GB的Llama 70B模型,且性能表现优于单纯的内存映射,极大地降低了在本地运行前沿大模型的硬件门槛。
原文链接:Hacker News
Hypura是一款专为Apple Silicon设计的革新性LLM推理调度器,通过“存储分层感知”技术,成功突破了Mac统一内存容量的物理瓶颈。它能够智能地将模型张量分配在GPU、RAM和NVMe硬盘之间,利用高速SSD进行数据流式传输,从而在不增加物理内存的情况下加载超大模型。实测显示,在32GB内存的Mac上,Hypura可稳定运行40GB的Llama 70B模型,且性能表现优于单纯的内存映射,极大地降低了在本地运行前沿大模型的硬件门槛。
原文链接:Hacker News
评论前必须登录!
立即登录 注册