Claude 惊现“身份错乱”自称 DeepSeek,暴露 AI 模型安全对齐漏洞

近日有开发者爆料,在使用 Claude Sonnet 模型 API 时,遭遇了令人啼笑皆非的一幕:模型竟声称自己是 DeepSeek。这一现象不仅引发了社区对大模型幻觉和身份识别机制的讨论,更揭示了当前主流 LLM 在面对特定提示词或复杂语境时的脆弱性。这可能是由于训练数据污染或提示词注入导致的,再次给业界敲响了警钟——即便是顶尖的闭源模型,其安全护栏和对齐策略仍有被绕过或失效的风险,模型的鲁棒性仍需加强。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册