AI 深度搜索实测:用户反馈 Gemini 表现不佳,Claude 略胜一筹但仍存缺陷

一位技术爱好者在 Linux.do 社区分享了对当前主流大模型“深度搜索”功能的对比评测。该用户近期订阅了 Gemini Ultra 服务,并针对 OpenAI 的 GPT-4.5 Pro 和 Anthropic 的 Claude Opus 模型进行了横向测评。实测结果显示,谷歌 Gemini Ultra 自带的 DeepResearch 功能表现令人失望,被用户评价为“太拉了”,反而是其 DeepThink 功能的体验优于 DeepResearch。相比之下,Claude 的 DeepResearch 功能虽然全面领先于 Gemini,但在处理某些特定任务时仍存在瑕疵;用户在体感上认为 Claude Opus 4.6 版本的 DeepResearch 表现优于 4.7 版本。鉴于 Gemini Ultra 的实际产出未达预期,该用户正在考虑转而购买 ChatGPT Pro 以满足深度研究需求。这一反馈反映了当前顶级 AI 模型在长链路任务规划和执行能力上的显著差异。

事件分析

“深度搜索”是大模型从单一对话向复杂智能体进化的标志性功能,要求模型具备自主任务规划、网页检索与多轮信息合成的能力。此次用户反馈指出,尽管谷歌拥有强大的基座模型,但在将模型推理能力转化为实际生产力工具的工程落地环节上,目前仍明显落后于 OpenAI 和 Anthropic。特别是 Gemini 在 DeepResearch 功能上的失利,暴露了其系统在长上下文处理、检索增强生成(RAG)以及多步推理稳定性上的短板。对于行业而言,单纯的参数比拼已不再适用,如何优化 Agent 的工具调用逻辑与结果稳定性,将成为下一阶段产品竞争的核心壁垒。

💡 核心观点:AI 智能体的竞争焦点已由模型参数转向长任务完成度,谷歌在工程落地上的短板使其在深度搜索赛道暂时落后。

原文链接:Linux.do

相关阅读

  • 暂无文章

抢沙发

评论前必须登录!

立即登录   注册