近日,AI技术社区发现此前广泛流传的用于区分Claude Opus与Sonnet版本的特殊提示词(Prompt)已大面积失效。原本通过诱导模型输出特定“指纹”(如数字247或特定乱码)来识别模型版本的方法,在最新的Opus测试中不再奏效。这一现象表明,Anthropic可能已针对已知的对抗性指令进行了底层修补或模型微调,使得通过简单的“越狱”技巧探测模型版本或底层逻辑变得更加困难,标志着AI模型在防御指令注入和识别攻击方面取得了新的进展。
原文链接:Linux.do
近日,AI技术社区发现此前广泛流传的用于区分Claude Opus与Sonnet版本的特殊提示词(Prompt)已大面积失效。原本通过诱导模型输出特定“指纹”(如数字247或特定乱码)来识别模型版本的方法,在最新的Opus测试中不再奏效。这一现象表明,Anthropic可能已针对已知的对抗性指令进行了底层修补或模型微调,使得通过简单的“越狱”技巧探测模型版本或底层逻辑变得更加困难,标志着AI模型在防御指令注入和识别攻击方面取得了新的进展。
原文链接:Linux.do
评论前必须登录!
立即登录 注册