近期,知名大模型竞技场(LMSYS Arena)接连下架了Claude 3 Opus及GPT-4.5(原文提及5.4)等顶尖模型,引发社区对LLM评测体系的广泛质疑。随着行业技术路线从单纯的“问答式AI”加速转向具备自主规划能力的“Agentic AI”,传统的对话榜单已难以准确衡量模型在复杂场景下的表现。这是否标志着,曾经作为行业金标准的Arena榜单,其权威性正面临被颠覆的危机?
原文链接:Linux.do
近期,知名大模型竞技场(LMSYS Arena)接连下架了Claude 3 Opus及GPT-4.5(原文提及5.4)等顶尖模型,引发社区对LLM评测体系的广泛质疑。随着行业技术路线从单纯的“问答式AI”加速转向具备自主规划能力的“Agentic AI”,传统的对话榜单已难以准确衡量模型在复杂场景下的表现。这是否标志着,曾经作为行业金标准的Arena榜单,其权威性正面临被颠覆的危机?
原文链接:Linux.do
评论前必须登录!
立即登录 注册