开源项目 Kiyomizu:支持 Claude 特化缓存与情感记忆的 LLM 网关

开源社区发布了一款名为 Kiyomizu 的轻量级 LLM 网关,旨在通过技术手段赋予 AI 更持久的记忆与人格化特征。该项目基于 Java 开发,以“Write Once, Run Anywhere”为理念,通过单一的 Fat JAR 文件简化部署流程,支持接入 Cherry Studio 等前端客户端。Kiyomizu 的核心技术亮点在于对 Anthropic Claude 模型的深度适配。针对 Claude 独特的缓存降价策略,该项目实现了特化的缓存控制模式,允许开发者配置 TTL(生存时间)及断点数量,解决了第三方网关难以自动标记缓存断点的问题,从而有效降低长对话的 Token 成本。在交互体验上,Kiyomizu 引入了基于 Embedding 的记忆检索系统与情感量化机制。系统会自动提取对话关键摘要并转化为向量,通过计算余弦相似度在后续对话中召回相关记忆。同时,系统还会基于交互内容评估“亲密度”与“信任度”并存入数据库,使 AI 能够根据长期关系调整回复风格。作者坦言该项目属于 Vibe Coding 快速构建的“玩具”性质,存在一定安全风险,建议仅在本地或局域网环境运行。

事件分析

从技术演进角度观察,Kiyomizu 代表了 LLM 应用层从“单次问答”向“长期数字伴侣”转型的探索趋势。其核心价值在于将复杂的 RAG(检索增强生成)技术与模型特定的经济性优化(Claude 缓存)相结合。Anthropic 的 Prompt 缓存机制对于降低长上下文成本至关重要,但其对 API 手动标记的严格要求往往成为非官方应用的开发门槛。Kiyomizu 通过封装这一逻辑,展示了如何通过中间件层提升 API 利用效率。此外,将“情感”量化为数据库字段并反馈至 System Prompt 的做法,为构建具有一致性格的 AI Agent 提供了一种低成本的实现路径。尽管该项目采用 Java 技术栈在当前 Python 主导的 AI 领域属于小众选择,但其内存管理优势与 JVM 生态的成熟性,为构建高并发、高稳定性的企业级 AI 网关提供了另一种可能。

💡 核心观点:通过封装 Claude 缓存机制与基于向量检索的情感量化,该项目探索了以低成本构建持久记忆型 AI 应用的技术路径。

原文链接:Linux.do

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册