据科技分析平台 Artificial Analysis 报道,xAI 最新发布的 Grok 4.20 Beta 版本在性能上实现了三大关键突破。最引人注目的是,在名为“AA-Omniscience”的评估测试中,该模型展现出了迄今为止业界最低的“幻觉率”。具体数据显示,当 Grok 4.20 遇到无法解答的问题时,其产生错误幻觉答案的概率仅为 22%,这一成绩优于此前所有已知模型。这表明在提升 AI 可靠性与准确性这一核心难题上,Grok 4.20 取得了实质性进展。
原文链接:Linux.do

IT资源栈
评论前必须登录!
立即登录 注册