Intel Arc 显卡实测运行 Qwen 3.5:多模态与思维链优化实战

开源项目“Anna”近日取得突破,成功在 Intel Arc A770/A750 显卡上部署并运行 Qwen 3.5 多模态大模型。通过权重 INT4 量化、自动内存管理及针对多模态的特定分支优化,该项目在保持精度的同时,将推理速度提升至每秒 19 tokens,并有效降低了首字延迟。此外,该方案还支持 DeepSeek 风格的思维链输出,为非 CUDA 阵营的 AI 本地部署提供了极具性价比的解决方案。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册