在国产化信创环境下,技术社区针对海光K100显卡进行了大模型部署实测。结果显示,目前主流的GPTQ-Int4和AWQ量化版本,由于依赖CUDA生态或vLLM与ROCm的兼容性问题,均无法正常运行。相比之下,全精度的BF16/FP16模型(如DeepSeek-R1-Distill-Qwen-14B)虽能正常加载并推理,但显存与算力消耗巨大,吞吐率表现不佳。这表明国产GPU在软件栈特别是量化推理支持上,仍与国际主流方案存在显著差距。
原文链接:Linux.do
在国产化信创环境下,技术社区针对海光K100显卡进行了大模型部署实测。结果显示,目前主流的GPTQ-Int4和AWQ量化版本,由于依赖CUDA生态或vLLM与ROCm的兼容性问题,均无法正常运行。相比之下,全精度的BF16/FP16模型(如DeepSeek-R1-Distill-Qwen-14B)虽能正常加载并推理,但显存与算力消耗巨大,吞吐率表现不佳。这表明国产GPU在软件栈特别是量化推理支持上,仍与国际主流方案存在显著差距。
原文链接:Linux.do
评论前必须登录!
立即登录 注册