近日,有技术极客在华为Mate70 Pro(搭载鸿蒙6.0系统)上成功实现了千问2.5(0.5b参数)大模型的完全本地化部署。测试初期使用llama.cpp后端,因未调用NPU,仅靠CPU硬算导致速度较慢。然而,在开启SIMD指令并行优化后,推理性能大幅提升,生成速度飙升至50 token/秒以上。这一实测不仅验证了国产旗舰芯片在端侧AI领域的算力潜力,也为鸿蒙生态下的本地大模型应用提供了重要参考。
原文链接:Linux.do
近日,有技术极客在华为Mate70 Pro(搭载鸿蒙6.0系统)上成功实现了千问2.5(0.5b参数)大模型的完全本地化部署。测试初期使用llama.cpp后端,因未调用NPU,仅靠CPU硬算导致速度较慢。然而,在开启SIMD指令并行优化后,推理性能大幅提升,生成速度飙升至50 token/秒以上。这一实测不仅验证了国产旗舰芯片在端侧AI领域的算力潜力,也为鸿蒙生态下的本地大模型应用提供了重要参考。
原文链接:Linux.do
评论前必须登录!
立即登录 注册