IBM发布Granite 4.1:8B模型硬刚32B,以极致数据工程取胜

IBM推出Granite 4.1系列开源模型(3B/8B/30B),均采用Apache 2.0协议。其8B dense模型在多项基准测试中匹敌或超越了上一代32B MoE模型,打破了“大力出奇迹”的惯例。这一飞跃源于IBM对15万亿Token数据的极致清洗与多阶段训练策略,特别是通过四轮强化学习修复了RLHF常见的数学能力退化问题。此外,该系列支持512K长上下文且推理延迟可控,是追求高可靠性与低成本部署的企业级应用优选。

原文链接:Hacker News

抢沙发

评论前必须登录!

立即登录   注册