Hacker News热议Zyphra发布的ZAYA1-8B模型,该模型采用混合专家(MoE)架构,虽然总参数量为80亿,但激活参数仅7.6亿,却在数学基准测试中表现与DeepSeek-R1相当。社区讨论认为,这标志着小型本地模型正迅速缩小与前沿商业大模型的差距。用户提到Qwen 3.6等模型已可在单卡GPU上流畅运行,配合AMD等新玩家的入局,未来AI算力可能向端侧和本地化转移,挑战OpenAI等巨头的云服务霸权。
原文链接:Hacker News
Hacker News热议Zyphra发布的ZAYA1-8B模型,该模型采用混合专家(MoE)架构,虽然总参数量为80亿,但激活参数仅7.6亿,却在数学基准测试中表现与DeepSeek-R1相当。社区讨论认为,这标志着小型本地模型正迅速缩小与前沿商业大模型的差距。用户提到Qwen 3.6等模型已可在单卡GPU上流畅运行,配合AMD等新玩家的入局,未来AI算力可能向端侧和本地化转移,挑战OpenAI等巨头的云服务霸权。
原文链接:Hacker News
评论前必须登录!
立即登录 注册