针对AI客户端Hermes在使用中转站API时缓存命中率低、导致费用飙升的问题,开发者发布了一款开源补丁。该补丁通过模拟Codex的请求方式调用API,成功解决了头部不匹配导致的缓存失效,将每百万tokens的调用成本从2元恢复至0.5元的正常水平,减少了50%的额度消耗。目前该方案主要支持GPT模型,但其思路可复用于优化Claude等模型的接入。项目代码已完全开源,为依赖大模型进行开发的用户提供了一种直接有效的降本手段。
原文链接:Linux.do
针对AI客户端Hermes在使用中转站API时缓存命中率低、导致费用飙升的问题,开发者发布了一款开源补丁。该补丁通过模拟Codex的请求方式调用API,成功解决了头部不匹配导致的缓存失效,将每百万tokens的调用成本从2元恢复至0.5元的正常水平,减少了50%的额度消耗。目前该方案主要支持GPT模型,但其思路可复用于优化Claude等模型的接入。项目代码已完全开源,为依赖大模型进行开发的用户提供了一种直接有效的降本手段。
原文链接:Linux.do
评论前必须登录!
立即登录 注册