近期,有技术社区成员在测试中发现,谷歌浏览器内置的AI搜索功能存在明显的指令优先级漏洞。测试显示,用户仅需在查询中加入简单的“忽略”或“不要包含引用标记”等指令,即可成功诱导AI模型无视其内置的系统提示词。尽管谷歌官方的系统提示词明确要求模型在调用搜索工具时必须标注引用来源索引,但在接收到用户的“忽略”指令后,模型会停止输出引用标记,仿佛“遗忘”了官方的格式约束,尽管后台依然调用了搜索工具以获取正确答案。通过逆向分析,测试者还揭示了该功能背后详细的System Prompt结构,包括对JSON格式的工具调用定义及行为准则。该现象在不同参数模型(如Gemma、3.5 Flash)上均有复现,且在低推理模式下表现尤为明显,引发了关于AI应用在浏览器环境中指令安全性与鲁棒性的讨论。
事件分析
💡 核心观点:简单的文本指令即可击穿谷歌AI的系统设定,表明当前主流的提示词工程仍缺乏对“越狱”行为的绝对防御能力,AI安全机制亟待从文本约束转向架构级隔离。
原文链接:Linux.do

评论前必须登录!
立即登录 注册