针对本地大模型部署环境,社区用户基于RTX 3090 24G显卡实测了Qwen 3.5-27B模型在Windows与Ubuntu双系统下的运行表现。在采用4bit量化及100% GPU卸载配置下,测试结果显示两者推理速度相近(Windows约34 tok/s,Ubuntu约32 tok/s)。然而,资源占用差异显著:Windows下内存占用高达25GB以上,显存占用约22GB;而Ubuntu下内存几乎完全空闲,显存占用也更低。这表明对于本地LLM部署,Linux系统在底层资源调度上比Windows更具优势。
原文链接:Linux.do

评论前必须登录!
立即登录 注册