该项目开发了一款名为 ‘ui-element-ops’ 的技能,致力于让 AI 真正接管电脑操作,而非仅提供步骤建议。该工具已实现从截图解析 UI 元素、到 find/wait 定位目标、再到 click/type/hotkey 执行操作的完整闭环。它具备强大的环境适应能力,支持多屏显示、DPI 缩放及窗口偏移坐标校准。在 GUI 环境下,它可赋予 OpenClaw 的 Agent 真实的桌面控制能力,这标志着 AI 智能体在“计算机使用(Computer Use)”领域向实用化迈出了重要一步。
原文链接:V2EX 分享发现


评论前必须登录!
立即登录 注册