随着“氛围式编程”等 AI 代理模式的兴起,用户越来越倾向于将任务完全委派给大模型。然而,最新研究通过 DELEGATE-52 基准测试(涵盖 52 个专业领域)对 19 种主流 LLM 进行了评估,结果令人担忧:即使是目前的顶尖模型,在执行长工作流时,平均也会损坏 25% 的文档内容。研究发现,使用代理工具并未改善此问题,且随着文档长度和交互次数增加,AI 引入的稀疏错误会累积成严重的“暗腐”效应,这意味着当前的 LLM 尚无法成为完全可靠的独立代理人。
原文链接:Hacker News
随着“氛围式编程”等 AI 代理模式的兴起,用户越来越倾向于将任务完全委派给大模型。然而,最新研究通过 DELEGATE-52 基准测试(涵盖 52 个专业领域)对 19 种主流 LLM 进行了评估,结果令人担忧:即使是目前的顶尖模型,在执行长工作流时,平均也会损坏 25% 的文档内容。研究发现,使用代理工具并未改善此问题,且随着文档长度和交互次数增加,AI 引入的稀疏错误会累积成严重的“暗腐”效应,这意味着当前的 LLM 尚无法成为完全可靠的独立代理人。
原文链接:Hacker News
评论前必须登录!
立即登录 注册