英特尔发布了一款名为AutoRound的先进大模型(LLM)与视觉模型(VLM)量化工具包。该技术利用符号梯度下降,能在2-4比特的超低精度下实现近乎无损的模型压缩,极大降低显存与计算需求。AutoRound不仅兼容Transformers、vLLM等主流框架,还针对Intel CPU/GPU及Gaudi加速器进行了优化,支持在10分钟内完成7B模型量化,为AI的高效部署与端侧应用提供了强有力的技术支撑。
原文链接:Hacker News
英特尔发布了一款名为AutoRound的先进大模型(LLM)与视觉模型(VLM)量化工具包。该技术利用符号梯度下降,能在2-4比特的超低精度下实现近乎无损的模型压缩,极大降低显存与计算需求。AutoRound不仅兼容Transformers、vLLM等主流框架,还针对Intel CPU/GPU及Gaudi加速器进行了优化,支持在10分钟内完成7B模型量化,为AI的高效部署与端侧应用提供了强有力的技术支撑。
原文链接:Hacker News
评论前必须登录!
立即登录 注册