本文通过一个具体的冷门音乐歌词查询,对比了 Grok 4(Agents 模式)与字节跳动豆包的表现。结果显示,Grok 能够准确调动搜索并给出正确答案,而豆包即使在开启了思考模式和研究模式后,仍出现混淆歌曲、搜索结果质量差以及重复错误答案等“幻觉”问题。作者推测这可能与豆包的中文搜索索引质量或 Agent 调用逻辑有关,该案例直观地反映了国产大模型在 Agent 链路与搜索增强能力上与顶尖模型仍存在差距。
原文链接:Linux.do
本文通过一个具体的冷门音乐歌词查询,对比了 Grok 4(Agents 模式)与字节跳动豆包的表现。结果显示,Grok 能够准确调动搜索并给出正确答案,而豆包即使在开启了思考模式和研究模式后,仍出现混淆歌曲、搜索结果质量差以及重复错误答案等“幻觉”问题。作者推测这可能与豆包的中文搜索索引质量或 Agent 调用逻辑有关,该案例直观地反映了国产大模型在 Agent 链路与搜索增强能力上与顶尖模型仍存在差距。
原文链接:Linux.do
评论前必须登录!
立即登录 注册