近日,有用户发现Anthropic旗下的AI助手Claude在对话中意外爆出中文脏话“妈的”,引发社区广泛关注。针对这一现象,讨论主要集中在模型是否产生了严重的语言幻觉,亦或是训练数据过滤机制出现了漏洞。尽管大模型经过了严格的安全对齐训练,但此类突发性失控行为揭示了AI在输出稳定性和内容安全过滤方面仍面临挑战。
原文链接:Linux.do
近日,有用户发现Anthropic旗下的AI助手Claude在对话中意外爆出中文脏话“妈的”,引发社区广泛关注。针对这一现象,讨论主要集中在模型是否产生了严重的语言幻觉,亦或是训练数据过滤机制出现了漏洞。尽管大模型经过了严格的安全对齐训练,但此类突发性失控行为揭示了AI在输出稳定性和内容安全过滤方面仍面临挑战。
原文链接:Linux.do
评论前必须登录!
立即登录 注册