开发者发布了一款名为 ko-browser 的开源工具,旨在解决现有 AI Agent(如 MultiOn、AgentBrowser)在操控浏览器时消耗过多 Token 的问题。该项目摒弃了传统的 Playwright 或截图识别方案,创新性地利用 Chrome 浏览器的辅助模式(Accessibility Tree)构建纯文本节点树。通过为每个页面元素分配唯一数字 ID,Agent 仅需基于简单的数字指令进行交互,从而大幅降低了上下文长度和计算成本。项目基于 Go 语言的 chromedp 封装实现,不依赖 Node.js 环境,目前已覆盖 90% 的常用指令,不仅提升了执行效率,也为 AI Agent 的低成本落地提供了新思路。
原文链接:V2EX 分享发现

IT资源栈
评论前必须登录!
立即登录 注册