近日有科技社区用户反馈,Google Gemini网页版在处理多模态任务时表现出明显的逻辑缺陷。当用户上传图片并明确要求“反推提示词并修改风格”时,Gemini却错误地理解了指令优先级,直接生成了新图片而忽略了分析原图的需求。这一现象直到用户二次强调后才得以纠正。该事件不仅反映了当前主流大模型在处理复杂混合指令时的理解偏差,也暴露了多模态AI在“意图对齐”技术上的短板,表明AI助手在准确识别人类指令方面仍有待打磨。
原文链接:Linux.do
近日有科技社区用户反馈,Google Gemini网页版在处理多模态任务时表现出明显的逻辑缺陷。当用户上传图片并明确要求“反推提示词并修改风格”时,Gemini却错误地理解了指令优先级,直接生成了新图片而忽略了分析原图的需求。这一现象直到用户二次强调后才得以纠正。该事件不仅反映了当前主流大模型在处理复杂混合指令时的理解偏差,也暴露了多模态AI在“意图对齐”技术上的短板,表明AI助手在准确识别人类指令方面仍有待打磨。
原文链接:Linux.do
评论前必须登录!
立即登录 注册