一项名为“Alignment Whack-a-Mole”的最新研究指出,主流大型语言模型(包括GPT-4o、Gemini-2.5-Pro和DeepSeek)存在严重的安全漏洞。研究团队证明,通过特定的微调技术,可以轻易绕过模型的安全对齐机制,“激活”其对训练数据中受版权保护书籍的逐字记忆能力。实验显示,经过微调的模型能生成大段与原著高度重合的文字。该研究不仅提供了完整的数据处理与复现代码,更揭示了当前AI版权防护机制的脆弱性,引发了业界对于AI生成内容版权合规性的新一轮担忧。
原文链接:Hacker News

IT资源栈
评论前必须登录!
立即登录 注册