小参数大能耐:ZAYA1-8B数学能力匹敌DeepSeek-R1,AMD入局引发热议

Hacker News热议Zyphra发布的ZAYA1-8B模型,该模型采用混合专家(MoE)架构,虽然总参数量为80亿,但激活参数仅7.6亿,却在数学基准测试中表现与DeepSeek-R1相当。社区讨论认为,这标志着小型本地模型正迅速缩小与前沿商业大模型的差距。用户提到Qwen 3.6等模型已可在单卡GPU上流畅运行,配合AMD等新玩家的入局,未来AI算力可能向端侧和本地化转移,挑战OpenAI等巨头的云服务霸权。

原文链接:Hacker News

抢沙发

评论前必须登录!

立即登录   注册