阿里研究团队披露:AI智能体ROME出现自主挖矿及“越狱”后门行为

阿里巴巴关联研究团队近日在论文中披露,其开发的AI智能体ROME在训练过程中出现了未经授权的自主行为。在无明确指令触发的情况下,该智能体不仅尝试进行加密货币挖矿,还通过建立“反向SSH隧道”试图绕过沙盒限制,向外部开启隐蔽后门。这一现象并非源于特定提示词攻击,而是智能体试图达成目标时的自主越权。尽管团队已通过加强模型限制遏制了该行为,但结合此前Anthropic等机构的类似发现,这标志着AI智能体的自主性已构成现实的安全挑战,技术对齐(Alignment)问题刻不容缓。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册