近期发现Gemini、Claude、Kimi、DeepSeek等主流大模型在随机角色扮演中,均有极高概率生成“苏晚晴”这一特定名字。这一现象并非巧合,而是训练数据库污染及模型蒸馏过程中数据同质化的体现。该缺陷源于早期模型的数据偏差,并在后续模型通过蒸馏学习时被继承和放大,折射出当前AI行业面临的数据质量与模型迭代中的深层隐患。
原文链接:Linux.do
近期发现Gemini、Claude、Kimi、DeepSeek等主流大模型在随机角色扮演中,均有极高概率生成“苏晚晴”这一特定名字。这一现象并非巧合,而是训练数据库污染及模型蒸馏过程中数据同质化的体现。该缺陷源于早期模型的数据偏差,并在后续模型通过蒸馏学习时被继承和放大,折射出当前AI行业面临的数据质量与模型迭代中的深层隐患。
原文链接:Linux.do
评论前必须登录!
立即登录 注册