近日有用户发现,仅向DeepSeek发送“”标签,模型便会高概率回复完全不相关的随机内容。经测试,该现象在网页版及API接口中普遍存在。技术分析指出,这并非数据污染,而是因为“”通常是DeepSeek在训练阶段用于标记“思维链”推理过程的特殊指令。当Transformer模型捕捉到该标签时,会误判当前处于推理状态,进而基于上文预测机制,自动“脑补”出一个虚拟问题并进行回答,导致了看似“已读乱回”的幻觉行为。
原文链接:Linux.do
近日有用户发现,仅向DeepSeek发送“”标签,模型便会高概率回复完全不相关的随机内容。经测试,该现象在网页版及API接口中普遍存在。技术分析指出,这并非数据污染,而是因为“”通常是DeepSeek在训练阶段用于标记“思维链”推理过程的特殊指令。当Transformer模型捕捉到该标签时,会误判当前处于推理状态,进而基于上文预测机制,自动“脑补”出一个虚拟问题并进行回答,导致了看似“已读乱回”的幻觉行为。
原文链接:Linux.do
评论前必须登录!
立即登录 注册