告别“有眼无手”:GPT-5.4 视觉定位能力实测,AI 自动化再进化

最新技术讨论显示,GPT-5.4 在视觉领域实现了从“识别”到“定位”的关键突破。相比旧版模型仅能理解图片内容却无法提供准确坐标,GPT-5.4 能够根据描述精准返回 UI 元素的相对坐标。这一改进使得 AI 不再依赖 DOM 结构,而是通过纯视觉方式实现自动化操作(如点击按钮)。文章附带的测试代码进一步证实,这种能力的提升让 AI 在自动化脚本生成和复杂界面交互中具备了极高的实战价值,真正赋予了 AI“操作电脑”的手眼协调能力。

原文链接:Linux.do

抢沙发

评论前必须登录!

立即登录   注册