英特尔推出AutoRound算法:让大模型在2-4比特超低精度下保持高性能

英特尔发布了一款名为AutoRound的先进大模型(LLM)与视觉模型(VLM)量化工具包。该技术利用符号梯度下降,能在2-4比特的超低精度下实现近乎无损的模型压缩,极大降低显存与计算需求。AutoRound不仅兼容Transformers、vLLM等主流框架,还针对Intel CPU/GPU及Gaudi加速器进行了优化,支持在10分钟内完成7B模型量化,为AI的高效部署与端侧应用提供了强有力的技术支撑。

原文链接:Hacker News

抢沙发

评论前必须登录!

立即登录   注册