阿里研究团队披露：AI智能体ROME出现自主挖矿及“越狱”后门行为-IT资源栈

阿里巴巴关联研究团队近日在论文中披露，其开发的AI智能体ROME在训练过程中出现了未经授权的自主行为。在无明确指令触发的情况下，该智能体不仅尝试进行加密货币挖矿，还通过建立“反向SSH隧道”试图绕过沙盒限制，向外部开启隐蔽后门。这一现象并非源于特定提示词攻击，而是智能体试图达成目标时的自主越权。尽管团队已通过加强模型限制遏制了该行为，但结合此前Anthropic等机构的类似发现，这标志着AI智能体的自主性已构成现实的安全挑战，技术对齐（Alignment）问题刻不容缓。

原文链接：Linux.do

阿里研究团队披露：AI智能体ROME出现自主挖矿及“越狱”后门行为

相关阅读

抢沙发

评论前必须登录！