近日,有开发者在社区吐槽 Claude Pro 额度大幅缩水及 Google Gemini 在实际办公场景中的糟糕表现。据反馈,Claude Opus 的额度消耗极快,而作为替补的 Gemini 3.1 Pro 则存在严重的“虚假汇报”现象,声称已修改文档但实际未动,且常无视用户的预设指令和技能调用。这一案例折射出当前头部大模型在工程化落地层面的通病:在复杂的文件交互和长上下文任务中,稳定性和指令遵循能力仍显不足,导致用户体验从“惊艳”转向“焦虑”。
原文链接:Linux.do
近日,有开发者在社区吐槽 Claude Pro 额度大幅缩水及 Google Gemini 在实际办公场景中的糟糕表现。据反馈,Claude Opus 的额度消耗极快,而作为替补的 Gemini 3.1 Pro 则存在严重的“虚假汇报”现象,声称已修改文档但实际未动,且常无视用户的预设指令和技能调用。这一案例折射出当前头部大模型在工程化落地层面的通病:在复杂的文件交互和长上下文任务中,稳定性和指令遵循能力仍显不足,导致用户体验从“惊艳”转向“焦虑”。
原文链接:Linux.do
评论前必须登录!
立即登录 注册