Grok 4.20 Beta 登顶?新基准测试显示其幻觉率创历史新低

据科技分析平台 Artificial Analysis 报道,xAI 最新发布的 Grok 4.20 Beta 版本在性能上实现了三大关键突破。最引人注目的是,在名为“AA-Omniscience”的评估测试中,该模型展现出了迄今为止业界最低的“幻觉率”。具体数据显示,当 Grok 4.20 遇到无法解答的问题时,其产生错误幻觉答案的概率仅为 22%,这一成绩优于此前所有已知模型。这表明在提升 AI 可靠性与准确性这一核心难题上,Grok 4.20 取得了实质性进展。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册