用户分享了基于Gemini 3系列开发的Deep Research工具在应用中的幻觉问题。Gemini 3 pro preview在32K上下文内表现良好,但超出则效果差;3 flash虽注意力好但懒惰且内容较浅。当研究Claude-opus-4-5时,模型错误报告上下文为2万而非32K,且不承认opus-4-5版本。作者试图通过审查器重新搜索,但导致正确信息被篡改。文章揭示了AI模型在复杂任务中的可靠性挑战,引发对谷歌AI技术深度的质疑。
原文链接:Linux.do
用户分享了基于Gemini 3系列开发的Deep Research工具在应用中的幻觉问题。Gemini 3 pro preview在32K上下文内表现良好,但超出则效果差;3 flash虽注意力好但懒惰且内容较浅。当研究Claude-opus-4-5时,模型错误报告上下文为2万而非32K,且不承认opus-4-5版本。作者试图通过审查器重新搜索,但导致正确信息被篡改。文章揭示了AI模型在复杂任务中的可靠性挑战,引发对谷歌AI技术深度的质疑。
原文链接:Linux.do
评论前必须登录!
立即登录 注册