开发者实测揭示：跨模型调用导致上下文缓存失效，直接调用API成本更低-IT资源栈

近日，有开发者在技术社区分享了一项关于大模型API调用成本的实测观察，指出了在混合使用不同AI模型时存在的成本优化陷阱。该开发者发现，当试图通过Claude（Anthropic旗下模型）去调用OpenAI的Codex或相关接口时，系统提示上下文缓存利用率极低，导致每次请求几乎都要全额计费。相反，直接调用Codex或原生API接口时，缓存命中率则显著提升，大幅降低了使用成本，甚至出现了“几乎不收钱”的高效现象。

这一现象揭示了“上下文缓存”技术在复杂AI应用中的关键作用。在AI编程和智能体开发中，开发者经常需要让一个模型（如Claude）作为控制器去调用另一个模型（如OpenAI的代码生成模型）以完成特定任务。然而，这种跨模型的调用链路似乎破坏了API层面的缓存机制。上下文缓存原本是为了避免对重复的提示词进行重复计费，特别是在处理长文本或大型代码库时，能显著降低Token消耗。目前的观察表明，跨厂商或跨模型的“套壳”调用可能无法继承下游模型的原生缓存优势，导致中间层产生额外的Token损耗。这对于正在构建复合型AI Agent的开发者来说是一个重要的成本考量因素，提示在架构设计时需尽量减少不必要的跨模型转发，或寻找支持统一缓存标准的中间件方案。

事件分析

这一技术细节的曝光对AI应用开发领域具有实际参考价值。随着大模型从单一对话转向复杂的Agent智能体架构，模型间的相互调用日益频繁。目前的API设计多为单体优化，Claude和OpenAI各自拥有独立的缓存计费策略。当Claude作为“大脑”去调度OpenAI的“手脚”时，往往会被视为一次全新的、无上下文的请求，导致缓存的穿透。这不仅增加了财务成本，也增加了推理延迟。从技术演进来看，这暴露了现有AI基础设施在互操作性上的短板。虽然业界正在推行MCP（模型上下文协议）等标准来解决上下文共享问题，但在目前阶段，纯粹的成本优化仍然倾向于原生的、单一供应商的解决方案。这可能会在短期内影响开发者构建混合模型架构的积极性，促使开发者更倾向于在一个闭环生态内完成所有逻辑推理，或者迫使中间件平台开发更智能的缓存传递机制。

💡 核心观点：跨模型调用的缓存损耗揭示了AI生态的“隐性税”，统一上下文传输标准或将成为混合架构降本增效的下一个技术奇点。

原文链接：Linux.do

开发者实测揭示：跨模型调用导致上下文缓存失效，直接调用API成本更低

事件分析

相关阅读

抢沙发

评论前必须登录！