本文详细记录了在魔改RTX 4090 48G显卡上,利用SGLang框架部署Qwen3.5-27B-FP8及35B-A3B模型的实战经验。测试表明,在WSL2环境下,该配置实现了单路50-60 tokens/s的处理速度,且KV缓存表现完美,长时间运行无断流。作者强调官方FP8版本在工具调用和长任务执行上显著优于社区微调版,并分享了针对SGLang的详细安装指令与启动参数优化策略(如关闭35B模型的投机解码以提升性能)。该文为AI玩家在消费级硬件上运行30B参数级大模型提供了极具价值的参考指南。
原文链接:Linux.do

IT资源栈
评论前必须登录!
立即登录 注册