耗时14天、消耗16亿Token:实测AI Agent如何协作完成25年收据的数据挖掘

作者利用Claude和Codex两个AI Agent,对2001年至今的11,345张杂乱收据进行了深度分析,旨在统计25年来在鸡蛋上的花费。整个项目耗时14天,处理了16亿个Token。文章详细记录了技术攻坚过程:面对OCR识别率低和图像分割困难等挑战,最终采用Meta的SAM3模型进行精准分割,利用PaddleOCR-VL替代Tesseract,并由LLM负责结构化数据提取与工具构建。实验表明,AI Agent不仅能自主编写工具解决边缘案例,还能优化并行计算架构,展现了专用模型与大模型协作处理非结构化数据的巨大潜力。

原文链接:Hacker News

抢沙发

评论前必须登录!

立即登录   注册