一位开发者通过编写基于PyTorch的XPU自定义算子,成功在Intel Arc A770/A750显卡上优化了Qwen 3.5多模态大模型。该项目将复杂的递推状态更新与RMSNorm计算融合为单一SYCL内核,显著降低了中间张量的调度开销。实测数据显示,经过深度优化,模型推理的首字延迟(TTFT)从16000ms大幅降至2000ms,平均生成速度稳定在12 tokens/s,这一突破性进展展示了非NVIDIA硬件在AI本地化部署中的实战潜力。
原文链接:Linux.do
一位开发者通过编写基于PyTorch的XPU自定义算子,成功在Intel Arc A770/A750显卡上优化了Qwen 3.5多模态大模型。该项目将复杂的递推状态更新与RMSNorm计算融合为单一SYCL内核,显著降低了中间张量的调度开销。实测数据显示,经过深度优化,模型推理的首字延迟(TTFT)从16000ms大幅降至2000ms,平均生成速度稳定在12 tokens/s,这一突破性进展展示了非NVIDIA硬件在AI本地化部署中的实战潜力。
原文链接:Linux.do
评论前必须登录!
立即登录 注册