本文记录了Qwen3.5-2B及4B参数的Opus推理蒸馏版本在GTX 1650 4G显卡上的性能实测。测试任务为生成包含复杂动画效果的HTML/CSS/JS天气卡片代码。结果显示,2B模型处理速度高达38 tokens/s,而4B模型在q4量化下也能达到10 tokens/s的流畅度。此次测试表明,经过蒸馏优化的小参数模型在保留较强编程推理能力的同时,显著降低了硬件门槛,让老旧的入门级显卡也能胜任本地AI编程辅助任务。
原文链接:Linux.do
本文记录了Qwen3.5-2B及4B参数的Opus推理蒸馏版本在GTX 1650 4G显卡上的性能实测。测试任务为生成包含复杂动画效果的HTML/CSS/JS天气卡片代码。结果显示,2B模型处理速度高达38 tokens/s,而4B模型在q4量化下也能达到10 tokens/s的流畅度。此次测试表明,经过蒸馏优化的小参数模型在保留较强编程推理能力的同时,显著降低了硬件门槛,让老旧的入门级显卡也能胜任本地AI编程辅助任务。
原文链接:Linux.do
评论前必须登录!
立即登录 注册