AI安全重大漏洞:文言文竟能100%绕过大模型防御机制

近日,ICLR相关话题讨论显示,大模型在安全性防御方面存在惊人盲区。研究表明,将恶意指令转换为文言文后,主流大模型的越狱成功率高达100%。这是因为文言文在模型训练数据中属于“低资源语言”,安全对齐机制(RLHF)主要覆盖现代主流语言,导致模型无法识别古文中夹带的有害意图。这一发现不仅展示了大模型在处理非主流语言时的脆弱性,也为AI安全研究敲响了警钟,提示开发者需关注多语言及特定语域的防御对齐。

原文链接:Linux.do

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册