近日社区实测发现,Multi-Token Prediction (MTP) 技术能显著提升 Dense 模型的推理效率。在 vLLM 框架下,开启 MTP 的 Qwen3.6-27B 推理速度(TPS)实现了翻倍,达到 50-55 token/s,性能表现优于同量级的 MoE 模型。相比之下,同为 Dense 模型的 Gemma 4 官方暂不支持该技术,引发了开发者对于其技术路线的讨论。随着 DeepSeek-V4 等新一代模型 reportedly 采用 MTP,这种兼顾生成质量与推理速度的架构优化,正成为 LLM 落地应用的关键竞争点。
原文链接:Linux.do

IT资源栈
评论前必须登录!
立即登录 注册