海光K100国产显卡实测:GPTQ/AWQ量化模型难以运行,全量版勉强可用

在国产化信创环境下,技术社区针对海光K100显卡进行了大模型部署实测。结果显示,目前主流的GPTQ-Int4和AWQ量化版本,由于依赖CUDA生态或vLLM与ROCm的兼容性问题,均无法正常运行。相比之下,全精度的BF16/FP16模型(如DeepSeek-R1-Distill-Qwen-14B)虽能正常加载并推理,但显存与算力消耗巨大,吞吐率表现不佳。这表明国产GPU在软件栈特别是量化推理支持上,仍与国际主流方案存在显著差距。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册