近日,有开发者在技术社区分享了一项关于大模型API调用成本的实测观察,指出了在混合使用不同AI模型时存在的成本优化陷阱。该开发者发现,当试图通过Claude(Anthropic旗下模型)去调用OpenAI的Codex或相关接口时,系统提示上下文缓存利用率极低,导致每次请求几乎都要全额计费。相反,直接调用Codex或原生API接口时,缓存命中率则显著提升,大幅降低了使用成本,甚至出现了“几乎不收钱”的高效现象。
这一现象揭示了“上下文缓存”技术在复杂AI应用中的关键作用。在AI编程和智能体开发中,开发者经常需要让一个模型(如Claude)作为控制器去调用另一个模型(如OpenAI的代码生成模型)以完成特定任务。然而,这种跨模型的调用链路似乎破坏了API层面的缓存机制。上下文缓存原本是为了避免对重复的提示词进行重复计费,特别是在处理长文本或大型代码库时,能显著降低Token消耗。目前的观察表明,跨厂商或跨模型的“套壳”调用可能无法继承下游模型的原生缓存优势,导致中间层产生额外的Token损耗。这对于正在构建复合型AI Agent的开发者来说是一个重要的成本考量因素,提示在架构设计时需尽量减少不必要的跨模型转发,或寻找支持统一缓存标准的中间件方案。
事件分析
这一技术细节的曝光对AI应用开发领域具有实际参考价值。随着大模型从单一对话转向复杂的Agent智能体架构,模型间的相互调用日益频繁。目前的API设计多为单体优化,Claude和OpenAI各自拥有独立的缓存计费策略。当Claude作为“大脑”去调度OpenAI的“手脚”时,往往会被视为一次全新的、无上下文的请求,导致缓存的穿透。这不仅增加了财务成本,也增加了推理延迟。从技术演进来看,这暴露了现有AI基础设施在互操作性上的短板。虽然业界正在推行MCP(模型上下文协议)等标准来解决上下文共享问题,但在目前阶段,纯粹的成本优化仍然倾向于原生的、单一供应商的解决方案。这可能会在短期内影响开发者构建混合模型架构的积极性,促使开发者更倾向于在一个闭环生态内完成所有逻辑推理,或者迫使中间件平台开发更智能的缓存传递机制。
💡 核心观点:跨模型调用的缓存损耗揭示了AI生态的“隐性税”,统一上下文传输标准或将成为混合架构降本增效的下一个技术奇点。
原文链接:Linux.do

IT资源栈
评论前必须登录!
立即登录 注册