只需一句Prompt即可生成恐怖图?ChatGPT画图遭“恢复指令”诱导

近日,有用户发现一种针对 ChatGPT 画图功能的特殊 Prompt 能够有效绕过内容安全审查。该指令利用“修复照片”作为语境掩护,通过预先声明“内容令人不安”来降低模型的防御机制,从而诱导 AI 生成恐怖或怪诞的图像。这一测试不仅展示了提示词工程在“越狱”实战中的威力,也再次引发了业界对于大模型多模态安全对齐技术失效的担忧。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册