本文深入分析了在消费级平台上使用两张 RTX 4090 显卡部署本地大模型的性能表现。尽管 RTX 4090 自身拥有高达 1008 GB/s 的显存带宽,但其 PCIe 4.0 x16 接口仅有约 31.5 GB/s 的单向带宽,这构成了巨大的数据传输瓶颈。文章指出,试图通过 PCIe 通道将显存需求超出单卡容量的模型拆分到两张 4090 上运行,效率极其低下。相比之下,更好的方案是让两张显卡独立运行互补的模型,或者利用多卡优势处理高并发请求,而非强行扩展单体模型的显存。
原文链接:Linux.do

IT资源栈
评论前必须登录!
立即登录 注册