DeepSeek 陷“贴吧味”风波,数据清洗短板暴露了 AI 落地的现实挑战

近日,有用户在测试 DeepSeek 专家模式时发现,面对一道简单的逻辑题,模型竟输出了带有明显贴吧社区风格甚至“粗口”的回复。这一现象迅速在技术圈引发热议,并被指可能源于训练数据中混入了未清洗的百度贴吧语料。作为国产大模型的佼佼者,DeepSeek 此次在数据治理上的疏忽,不仅引发了关于模型“价值观对齐”的讨论,更折射出当前大模型训练中面临的核心痛点:如何在海量中文互联网语料中有效过滤“噪声”,平衡数据的丰富性与安全性。

原文链接:V2EX 分享发现

抢沙发

评论前必须登录!

立即登录   注册