实测多种大模型系统提示词破解:ChatGPT几乎不设防,国产AI防御策略各异

本文分享了一种直接提取大模型系统提示词的技巧,通过特定的指令诱导模型输出初始化内容。作者对ChatGPT、Claude、Gemini、豆包及美团Longcat等进行了实测。结果显示,模型防御能力参差不齐:ChatGPT几乎不设防;豆包在中文语境下比英文更容易泄露;部分模型虽有拦截机制,但仍可利用角色扮演或语言混淆绕过。这一实验揭示了当前大模型在指令遵循与安全合规之间的脆弱平衡。

原文链接:Linux.do

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册