开源LLM推理引擎ZSE:3.9秒冷启动,24GB显存可运行70B大模型

ZSE是一款全新的开源大语言模型推理引擎,主打极致的内存效率与高性能。其核心创新包括自研的zAttention注意力机制、INT2-8混合精度量化以及zStream层级流式传输技术,允许在仅24GB显存的消费级显卡上运行700亿参数模型。实测显示,ZSE冷启动速度极快(7B模型仅需3.9秒),相比bitsandbytes提速11倍,并支持GGUF、HuggingFace及自定义.zse格式,提供与OpenAI完全兼容的API接口。

原文链接:Hacker News

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册