AI Agent 评估的五个维度:别被准确率骗了

一个团队自豪地告诉我:他们的 AI Agent 准确率达到了 95%。

我看了他们的测试集,发现问题:测试集太简单了

真实场景下,Agent 的准确率只有 60%。

这让我意识到:大多数团队都在用错误的指标评估 AI Agent

维度一:任务完成率

不是准确率,是任务完成率。

区别在哪?

用户问:「帮我订一张去北京的机票」

  • 准确率:Agent 理解了用户需求(100% 准确)
  • 任务完成率:Agent 成功订到了票(可能只有 70%)

为什么会有差距?

  • 订票 API 失败
  • 支付环节出错
  • 航班已售罄
  • 用户取消订单

真实案例

一个客服 Agent,问答准确率 95%,但问题解决率只有 60%。

为什么?Agent 能回答问题,但不能真正解决问题。

改进方法

不要只测试「Agent 能否回答」,要测试「Agent 能否完成任务」。

维度二:用户满意度

准确率高不代表用户满意。

典型案例

一个客服 Agent,所有回答都准确,但用户满意度只有 40%。

为什么?

  • 回答太机械,没有温度
  • 响应速度慢,用户不耐烦
  • 解决问题的效率低,用户要问很多次

数据对比

某公司发现:
– Agent A:准确率 95%,用户满意度 65%
– Agent B:准确率 85%,用户满意度 90%

Agent B 虽然准确率低,但更有人情味,用户更喜欢。

评估方法

不要只看技术指标,要收集真实的用户反馈。

  • NPS(净推荐值)
  • 用户留存率
  • 投诉率

维度三:响应速度

不只是速度快,是要在用户可接受的时间内完成。

用户耐心有多长?

研究表明:
– 聊天场景:2-3 秒
– 查询场景:3-5 秒
– 任务场景:5-10 秒

超过这个时间,用户开始流失。

真实数据

一个搜索 Agent,响应时间从 1 秒增加到 3 秒,用户流失率上升了 20%。

优化技巧

不要只优化平均速度,要优化 P95(95% 请求的响应时间)。

因为用户记住的是最慢的那次体验,不是平均体验。

维度四:成本效率

不是越便宜越好,是性价比最优。

误区

某团队把模型从 GPT-4 换成 GPT-3.5。

  • 成本降了 90%
  • 但任务完成率降了 30%
  • 用户投诉增加了 2 倍

总体不划算。

正确做法

计算「单位任务成本」:

案例对比

Agent A:
– 月成本:1 万美元
– 任务完成率:80%
– 单位任务成本:1.25 美元

Agent B:
– 月成本:5000 美元
– 任务完成率:50%
– 单位任务成本:1.00 美元

Agent B 更便宜,但 Agent A 性价比更高。

维度五:安全性和可靠性

Agent 不能犯错,或者犯错后能快速恢复。

不同场景的要求不同

  • 医疗 Agent:错误率要求 0%
  • 金融 Agent:完善的审核机制
  • 客服 Agent:容错率可以高一些

关键指标

  • 错误率
  • 错误恢复时间
  • 人工介入率

真实案例

一个电商 Agent,错误率只有 2%,但每次错误都要人工介入 30 分钟才能修复。

改进后:错误率提高到 5%,但能自动恢复 90% 的错误。

总体效率提升了 3 倍。

综合评估:不要只看单一指标

某电商 Agent 的表现

  • 准确率:85%(不如竞品的 95%)
  • 任务完成率:95%(竞品只有 80%)
  • 用户满意度:90%(竞品 75%)
  • 响应速度:2 秒(竞品 5 秒)
  • 成本:竞品的 1/10

结论:虽然准确率不如竞品,但综合表现更优。

评估建议

建立多维度的评估体系

  1. 任务完成率:不只看回答,看结果
  2. 用户满意度:收集真实反馈
  3. 响应速度:关注 P95,不只看平均
  4. 成本效率:计算单位任务成本
  5. 安全性:根据场景设定要求

定期审查

  • 每周查看关键指标
  • 每月进行深度分析
  • 每季度更新评估标准

持续优化

评估的目的不是打分,是找到改进空间

—— https://it8090.cn

抢沙发

评论前必须登录!

立即登录   注册