近日,有开发者在技术社区实测了阿里的一款名为“marco-mini-instruct”的大模型。该模型总参数量达17.3B,但激活参数仅为0.86B,显露出混合专家(MoE)架构的特征。令人惊讶的是,在完全不使用GPU、仅依靠纯CPU的环境下,该模型达到了47 token/s的推理速度。这种速度在本地CPU运行大模型领域相当亮眼,表明了优化的巨大潜力。不过,测试者也发现该模型在某些具体任务(如天气卡片生成、精准翻译)上表现不佳,功能尚存局限。这一实测为关注本地化大模型部署的用户提供了有价值的参考。
原文链接:Linux.do

IT资源栈
评论前必须登录!
立即登录 注册