尽管生成式AI发展迅猛,但在编写操作手册、运维文档等基础工作中,依然面临严峻的技术瓶颈。作者分享了使用AI(如Codex)尝试自动化完成页面截图与图片标注的四种路径:直接使用AI内置浏览器、终端调用本地浏览器、结合前端代码分析逻辑以及人工辅助引导。然而,所有尝试均暴露了当前AI在GUI(图形用户界面)交互中的短板:点击精度不足、无法理解隐性的操作逻辑、截图区域受限以及图片标注错位。这表明,在处理高依赖视觉判断与界面交互的复杂任务时,AI Agent距离完全替代人工仍有显著差距。
原文链接:Linux.do

IT资源栈
评论前必须登录!
立即登录 注册