最近,Gemini和GPT等大模型在中文生成中的特定“口癖”引发热议,诸如“稳稳接住”、“石子泛起涟漪”等充满翻译腔的表达在网络上走红。这一现象不仅是社区玩梗的素材,更揭示了当前大模型在中文微调过程中的训练数据偏差。由于中文语料库中可能包含大量翻译作品或文学化修饰文本,导致AI在对话中表现出独特的“人工翻译风格”。这既反映了技术模型在自然语言本地化上的挑战,也成为了观察AI训练数据构成的一个有趣切口。
原文链接:Linux.do
最近,Gemini和GPT等大模型在中文生成中的特定“口癖”引发热议,诸如“稳稳接住”、“石子泛起涟漪”等充满翻译腔的表达在网络上走红。这一现象不仅是社区玩梗的素材,更揭示了当前大模型在中文微调过程中的训练数据偏差。由于中文语料库中可能包含大量翻译作品或文学化修饰文本,导致AI在对话中表现出独特的“人工翻译风格”。这既反映了技术模型在自然语言本地化上的挑战,也成为了观察AI训练数据构成的一个有趣切口。
原文链接:Linux.do
评论前必须登录!
立即登录 注册