大模型周刊第 31 期：Mythos 把网安炸到震耳，Hermes 抢下 OpenRouter 日榜，DeepSeek V4 落地后继续杀价-IT资源栈

作者：toy　|　覆盖周期：2026.5.9 – 2026.5.15

本周三件事值得拎出来单独讲：Anthropic 的 Claude Mythos Preview 把”AI 能不能找零日”这个老问题往前推了一大步；Nous Research 的 Hermes Agent 第一次把 OpenClaw 从 OpenRouter 日榜上挤了下来；DeepSeek V4 发布两周后，多模态没来、但价格继续往下打。其余都是配菜。

下面按”已核实事实 → 我的判断”两段式来讲，不堆数字，不编故事。

一、Anthropic Mythos + Project Glasswing：把”AI 找漏洞”从演示推到生产

Claude Mythos Preview 这周通过 Project Glasswing 项目正式进入有限测试。合作方阵容很硬：AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorgan、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networks 一起做评测。

Anthropic 自己的说法：用 Mythos Preview 在过去几周内，识别出了主流操作系统和主流浏览器里”数千个”零日漏洞，可生成可用 exploit 的成功率超过 72%。配套资源：$100M usage credits 投入 Glasswing 相关工作，外加 $4M 直接捐给开源安全组织。

到了 5 月，Anthropic 改了一次口径，允许 Glasswing 合作方公开分享基于 Mythos 的发现、工具和代码——这是从”内部黑盒评测”走向”对外披露”的一个明确转折。

我的判断：这件事的看点不是”AI 会黑系统了”，而是 Anthropic 选择用 11 家大厂 + 闭门评测做缓冲带，而不是直接放给开发者。这套打法本身是新的——既不是 GPT 那种”先发再说”，也不是过去安全圈的”负责任披露”，更接近核技术管控模板。等几个月后细节流出，攻防双方的成本曲线都会重画一次。

风险点也清楚：能力只在少数西方大厂手里转，其余国家的关基面对的是同一把刀的反面。这事躲不开地缘讨论。

2026-05-15-llm-weekly-31_illus_illus_1

二、Hermes Agent 第一次拿下 OpenRouter 日榜，OpenClaw 累计仍领先

5 月 10 日，Nous Research 的 Hermes Agent 在 OpenRouter 全球日 Token 榜上首次超过 OpenClaw：

Hermes 日榜：约 2240 亿 Token
OpenClaw 日榜：约 1860 亿 Token
OpenClaw 历史累计：9.17 万亿 Token，仍是冠军

这是自 OpenClaw 2025 年底崛起以来，第一次有”自我改进型 Agent”在日榜上把 Claude Code 风格的会话型 Agent 拉下来。两者定位本来就不同：OpenClaw 是 session-native，每次重启基本失忆；Hermes 是长期运行的 runtime，跨 session 累积”技能”。

我的判断：日榜翻面比累计被超有意义。OpenClaw 这条路证明了”Agent 是会话外壳”是行得通的，但天花板在用户每天愿意开几次。Hermes 这条路想证明的是”Agent 是一个一直在跑的程序”，它的增长不依赖人去启动。如果后面三个月日榜不掉回去，那才是真信号。

需要打补丁的一条流言：Hermes 不是中国团队的项目，归属是 Nous Research（美）。开源 Agent 这一仗里中国队有牌（DeepSeek、GLM、Kimi 都在做底模供给），但拿下这次日榜的不是中国队。

2026-05-15-llm-weekly-31_illus_illus_2

三、DeepSeek V4：发布两周后，靠价格继续掀桌

把时间线先讲清楚：DeepSeek V4 不是本周首发，是 4 月 24 日就 ship 了，V4-Pro 和 V4-Flash 同时上车，明确标注 preview。本周值得讲的是它的两个外溢效应。

第一，V4 目前仍是纯语言模型。DeepSeek 自己解释：算力和现金都吃紧，多模态训练主动推迟。之前外界传”多模态正式起飞”，是误读。

第二，价格。V4-Pro 的输出价格 $3.48 / 百万 token，对比 OpenAI $30、Anthropic $25——这不是便宜一点，是把整个企业侧议价基准重写了。融资侧也对得上：DeepSeek 正在向腾讯、阿里募资，估值 约 $20B（≈1400 亿人民币）。V4-Pro 已支持 1M 上下文，不用等 V4.1。

我的判断：DeepSeek 这一年最被低估的，不是模型本身，而是它愿意把价格打到让所有闭源 API 都得开会重定 SKU。Anthropic、OpenAI 走”价值+生态”路线没问题，但企业侧采购看到这种价差时，”国产替代”的政治叙事会自己接管谈判桌。

四、其余短讯（未单独核实，仅作记录）

Google I/O（5.19）前夜：外界普遍预期新 Gemini 模型发布，主动式 AI 方向是重点。具体能打到什么程度，到下周再看，不提前下结论。
OpenAI：本周没有新模型动作，主要在企业销售侧调整。
国内六小龙资本动作：Kimi / 阶跃 / 零一上市风声、MiniMax 招产业专家——传闻多、官宣少，先放着观察。

这几条我没找到一手可引用源，放进周刊是为了让你知道”我们没有忽略它”，但不当作”已发生事实”来讲。

收束

这一周最值得记下来的，是 Mythos 和 Hermes 这两件事改了规则：

Mythos 改了”AI + 网安能力释放”的规则——不再 open by default。
Hermes 改了”Agent 怎么衡量赢”的规则——日榜的胜负从”谁会话多”变成”谁一直跑”。

DeepSeek 那条是继续旧规则、把它推到极致：把价格压到没人敢忽视。

下周一个看点就够了：Google I/O 上新 Gemini 是不是会被迫直接进入 “Agent 一直跑 + 价格大幅下探” 的双线战场。如果 Google 不接招，那就是 Anthropic + 中国队主导剧本的下半场开始。

数据来源：Anthropic 官方（red.anthropic.com / anthropic.com/glasswing）、OpenRouter 公开榜单、DeepSeek 官方与 Fortune / FT 报道。如有出入欢迎指正，下周见。

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。了解一下 ›

事件分析

这篇文章揭示了大模型落地过程中安全范式的根本性转移。在技术层面，安全防御的重心正从传统的边界防御和代码审计，转向模型鲁棒性、沙箱隔离环境以及针对自然语言的对抗防御。产业层面，随着AI Agent深入业务核心，传统的身份认证与权限管理（IAM）体系面临巨大挑战，因为AI往往继承服务账号的高权限，却缺乏鉴别指令恶意意图的能力。这标志着“非技术性漏洞”将成为未来的重灾区，企业需要重新设计“人机交互”的业务信任模型，区分人类意图与AI执行权限，防止业务逻辑层面的信任崩塌。

💡 核心观点：当AI从“聊天框”进化为“业务员”，安全边界便从代码漏洞坍塌为逻辑失控，攻防门槛被彻底重塑。

事件分析

G4W 项目展示了“超级应用”与“个人 AI 代理”融合的一种技术路径。利用微信的高频入口作为交互界面，而将计算与逻辑层下沉至本地 Windows 环境，有效解决了云端 Agent 在数据隐私和系统集成上的短板。技术上，结合 DeepSeek 等高性价比模型，使得个人私有化部署的成本大幅降低。该项目对长期记忆和语义检索的重视，反映了 AI 应用正从简单的“问答”向具备持久记忆和知识管理的“数字员工”演进。其支持 ComfyUI 等外部工具的动态集成，也体现了 Agent 技术在工具调用与自动化编排上的灵活性。

💡 核心观点：将微信生态与本地大模型结合，G4W展示了低成本私有AI Agent的可行路径，兼顾了个人数据主权与自动化能力。

事件分析

从技术演进的角度分析，此次讨论的核心价值在于展示了MCP协议如何将AI编程工具从“沙盒模式”升级为“环境感知模式”。传统的AI编程助手往往受限于上下文窗口，缺乏对本地文件系统的直接操作能力，而Cursor集成MCP后，实质上扮演了AI Agent（智能体）调度者的角色。这种转变意味着IDE（集成开发环境）正逐渐演化为执行复杂工作流的智能操作系统。对于产业影响而言，这预示着未来的软件开发竞争将聚焦于“协议生态”的构建，即谁能通过标准协议连接更多开发工具和数据源，谁就能掌握开发效率的制高点。随着越来越多的开发者利用此类协议解锁文档、测试、部署等非编码场景，软件开发的生产力范式将彻底由“人写代码”转向“人指挥Agent构建产品”。

💡 核心观点：MCP协议的接入标志着AI编程工具从“语法补全”进化为“全流程智能体”，正在重塑软件开发的生产力边界。

事件分析

从技术架构来看，PISIGuard 代表了“客户端侧防御”理念的兴起。当前的AI应用多采用云端SaaS模式，用户数据一旦上传便脱离了本地控制，存在被用于模型训练或日志留存的风险。此类工具通过在本地进行预处理，在不改变大模型服务核心逻辑的前提下，切断了敏感数据的上游传输路径。这反映出AI安全领域的两个趋势：一是数据安全治理的重心正从单纯的企业级合规向个人终端下沉；二是随着“Shadow AI”（影子AI，即员工私自使用AI）现象的普遍化，轻量级、易于部署的中间层工具将成为刚需。未来，此类功能极大概率会被集成到浏览器插件或终端客户端中，成为AI交互的标准配置。

💡 核心观点：在云端大模型不可完全信的背景下，本地化预处理正成为个人隐私保护的刚需，填补了AI安全版图的关键拼图。

事件分析

从工程实践角度看，该文触及了人机协作编码模式下的核心痛点：即“生成效率”与“认知留存”之间的零和博弈。随着 Cursor、Claude Code 等智能编码工具的普及，Vibe Coding（氛围编程）虽然降低了开发门槛，但也极易让开发者沦为代码的“审核员”而非“架构师”，导致代码库变为不可维护的黑箱。手动敲入代码的工作流，实质上是将 LLM 从“执行者”降级为“咨询顾问”，迫使人类开发者保持对逻辑流的掌控。这预示着未来软件开发工具的演进方向可能不仅关注生成速度，更会关注如何帮助开发者维持对系统的“空间感知”能力。

💡 核心观点：AI 时代的开发者应拒绝沦为代码搬运工，必须通过“手动重写”维持对系统的认知主权。

事件分析

该方案触及了 AI 编程工程化的核心痛点：如何在多模型并存的现状下，以最低的上下文成本维持代码规范的一致性。这标志着 AI 辅助开发正从单一的“对话生成”向“工程化约束”演进。传统的 Prompt 工程往往难以覆盖复杂的架构规范，而直接将规则文档作为上下文注入，又极易消耗 Token。文章提出的基于文件系统的动态加载策略，实际上构建了一个将“工程标准”与“模型能力”解耦的控制层。这种分层架构不仅解决了 Claude 与 Gemini 等模型因训练数据差异导致的输出“精神分裂”问题，也为未来企业级 AI 开发流程提供了一种标准化的管理模式：Prompt 负责意图对齐，Rules 负责质量管控。

💡 核心观点：从 Prompt 工程进化到规则注入：用外部文件系统解耦模型能力与工程规范，是解决多模型代码碎片化并降低上下文成本的最优解。

大模型周刊第 31 期：Mythos 把网安炸到震耳，Hermes 抢下 OpenRouter 日榜，DeepSeek V4 落地后继续杀价

一、Anthropic Mythos + Project Glasswing：把”AI 找漏洞”从演示推到生产

二、Hermes Agent 第一次拿下 OpenRouter 日榜，OpenClaw 累计仍领先

三、DeepSeek V4：发布两周后，靠价格继续掀桌

四、其余短讯（未单独核实，仅作记录）

收束

相关推荐

抢沙发

评论前必须登录！

置顶推荐

前沿哨所

从Web漏洞到业务失控：一位蓝军视角的AI安全变革史

事件分析

G4W开源：在微信中运行DeepSeek Agent，支持长记忆与电脑控制

事件分析

解锁AI编程新姿势：开发者利用Cursor与MCP协议拓展文档撰写等非代码应用

事件分析

PISIGuard：防止隐私泄露，这款开源工具能实时过滤AI对话中的敏感信息

事件分析

拒绝“认知债”：为何我坚持手动敲入 AI 生成的代码

事件分析

终结 AI 代码风格割裂：利用 Rules 统一多模型开发规范

事件分析

最新文章

热门专题

热门标签

网站统计

一、Anthropic Mythos + Project Glasswing：把”AI 找漏洞”从演示推到生产

二、Hermes Agent 第一次拿下 OpenRouter 日榜，OpenClaw 累计仍领先

三、DeepSeek V4：发布两周后，靠价格继续掀桌

四、其余短讯（未单独核实，仅作记录）

收束

相关推荐

抢沙发

评论前必须登录！

置顶推荐

前沿哨所

从Web漏洞到业务失控：一位蓝军视角的AI安全变革史

事件分析

G4W开源：在微信中运行DeepSeek Agent，支持长记忆与电脑控制

事件分析

解锁AI编程新姿势：开发者利用Cursor与MCP协议拓展文档撰写等非代码应用

事件分析

PISIGuard：防止隐私泄露，这款开源工具能实时过滤AI对话中的敏感信息

事件分析

拒绝“认知债”：为何我坚持手动敲入 AI 生成的代码

事件分析

终结 AI 代码风格割裂：利用 Rules 统一多模型开发规范

事件分析

最新文章

热门专题

热门标签

网站统计

code80.ai · 多模型 API 统一接入