谷歌DeepMind扩围AI基准:引入狼人杀与扑克,考验Agent的社交与博弈能力

Google DeepMind宣布扩展Kaggle Game Arena平台,在原有的国际象棋基础上,新增“狼人杀”和扑克两项基准测试。此举旨在突破传统“完美信息”游戏的局限,重点评估AI模型在信息不完美环境下的表现。其中,“狼人杀”通过自然语言交互,考验AI的社交推理、谈判协作及反欺骗能力;扑克则聚焦于风险管理与不确定性量化。DeepMind希望通过这种更接近现实环境的沙盒测试,推动AI在智能体安全性与复杂决策能力上的发展。

原文链接:Hacker News

抢沙发

评论前必须登录!

立即登录   注册