开发团队为了解 Claude Code 的实际使用情况,自主构建了分析层,并汇总分析了 1,573 个真实编程会话(涵盖 1500 万 Token 和 27 万次交互)。数据揭示了当前 AI 编程助手的若干现状:特定“技能”的调用率极低,仅占 4%;高达 26% 的会话在开始 60 秒内即被放弃;且任务类型对成功率影响巨大(文档编写优于代码重构)。研究还发现,前两分钟出现的“错误级联”现象往往是导致会话失败的关键信号。该项目旨在填补 AI 智能体客观性能评估标准的空白,相关工具已开源。
原文链接:Hacker News

IT资源栈
评论前必须登录!
立即登录 注册