mage-bench 是一个基于开源平台 XMage 的创新项目,旨在让大语言模型(LLM)在虚拟桌面上通过《万智牌》进行对抗。该项目打破了以往AI玩棋类游戏的简化模式,坚持使用完整的游戏规则,涵盖了指挥官、标准、摩登和特选等多种复杂赛制。在系统中,LLM 扮演人类玩家的角色,实时接收游戏引擎反馈的状态与可行动作,并独立完成起手调度、法术施放、战斗运作及政治博弈等决策。这不仅为AI提供了一个极具挑战性的测试环境,有效评估模型在长程规划、逻辑推理及处理复杂规则边界的能力,也为观察多智能体互动提供了全新视角。
原文链接:Hacker News

IT资源栈
评论前必须登录!
立即登录 注册