近日,有用户发现一种针对 ChatGPT 画图功能的特殊 Prompt 能够有效绕过内容安全审查。该指令利用“修复照片”作为语境掩护,通过预先声明“内容令人不安”来降低模型的防御机制,从而诱导 AI 生成恐怖或怪诞的图像。这一测试不仅展示了提示词工程在“越狱”实战中的威力,也再次引发了业界对于大模型多模态安全对齐技术失效的担忧。
原文链接:Linux.do
近日,有用户发现一种针对 ChatGPT 画图功能的特殊 Prompt 能够有效绕过内容安全审查。该指令利用“修复照片”作为语境掩护,通过预先声明“内容令人不安”来降低模型的防御机制,从而诱导 AI 生成恐怖或怪诞的图像。这一测试不仅展示了提示词工程在“越狱”实战中的威力,也再次引发了业界对于大模型多模态安全对齐技术失效的担忧。
原文链接:Linux.do
评论前必须登录!
立即登录 注册