揭秘AI“降智”诱导实验:特定Prompt触发模型防御性废话模式

近日,技术社区Linux.do的一则讨论揭示了大型语言模型(LLM)在特定输入条件下的异常行为。通过构造包含XML架构的特定测试句,实验者成功诱导AI模型进入一种“降智”状态。在该状态下,模型输出变得极其冗长,频繁使用数字列表和分隔符组织语言,表现出类似GPT-4的啰嗦特征。这一发现不仅展示了模型对提示词的高敏感性,也暴露了当前AI在应对潜在对抗性输入时的防御机制或逻辑漏洞。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册