DeepSeek安全机制引发热议:中文提问被拒,英文竟能输出暴力方案

有社区用户测试发现,向DeepSeek提问经典逻辑题“如何用一刀把三个橘子分给四个小朋友”时,触发了安全拒绝机制。然而,将“橘子”换成英文“orange”后,模型却生成了包含暴力内容的回答。这一现象不仅展示了大模型在逻辑处理上的局限性,更暴露了DeepSeek在中文与英文语境下安全对齐机制的严重不一致,即“语言性越狱”漏洞。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册