Karpathy 三层方法：把 prompt 升级成可验证系统

分类：未分类阅读() 评论(0)

我最近看了 Austin Marchese 解读 Karpathy 在 AISN 2026 上的发言，被里面一个反常识的小例子卡住了：你问 AI “我去 50 米外的洗车店该开车还是走路”，Claude、Gemini、Grok、ChatGPT 全都回答”走路”。四个顶级模型答得整整齐齐：它们都没意识到，去洗车这件事本身要求车必须在场。Marchese 把 Karpathy 的工作方式拆成三层 —— spec、verifier、environment，每一层都在补这种”看似有智力却没上下文”的缺口。框架本身短，但放大了我用 Claude Code 一年多攒下的不少踩坑。

原视频：Stop Prompting Claude. Use Karpathy’s Method Instead.

洗车这道题，AI 卡在哪里

Karpathy 在演讲里给的那个洗车场景，可以当全文的锚点。模型在做数学、写代码这类有标准答案的事情上很猛，因为它们能反复试错、试错近乎零成本，机器能自动判分。但”去洗车”这种场景里它瞬间露馅，因为里面有一个对人类不言自明、模型从输入里读不出来的前提：你得把车开过去。AI 不是缺智力，是缺这种由你的目标、你的上下文反推出来的隐含意图。

Marchese 把整个三层方法的合法性建立在这道题上：你想让 AI 真正干活，得先把这些隐含意图喂进去；然后让它能自己看出对不对；最后让它身处一个本身就装着你所有上下文的环境。spec 干第一件事，verifier 干第二件，environment 干第三件。

第一层 spec：把你脑子里的东西落到 AI 能用的格式

Karpathy 的原话很值得抄一遍：他甚至不太喜欢 Claude 的 plan mode，理由是”too high-level”，他要的是和 agent 一起设计一份非常具体的 spec。Marchese 把这一层拆成了三个动作。

第一个动作是挖出真正的目标。”做一份月底报告”只是任务的外壳；真正的目标在更下一层——这份报告要支撑哪个决策、要让谁得到哪个结论。决策这一层 AI 没法替你定，所以 Marchese 给的提示词把顺序倒过来了——让 AI 先反过来采访你：Interview me to identify the goal of this project. 把信息从你脑子里挖出来，再灌进 spec。

第二个动作是 agile specking。Marchese 直接对比 waterfall 和 agile：waterfall 是你把整个大任务交给 agent 一次性做完再看结果，agile 是把同一个任务切成小块，每块过一遍。绝大多数人用 AI agent 时不自觉地走 waterfall，”反正它能跑就让它一路跑”。但只要中间走偏一步，后面全废。所以他给 Claude 加的指令是”bias towards smaller and more compartmentalized specs”，让 spec 本身就长成易于检查的小颗粒。

第三个动作是动你自己的脑子。Marchese 的说法是”the more precise you are, the less AI has to assume”。每一处 AI 自己脑补的假设都是漂移点。所以让 AI 写 spec 时不能丢给它一个人就走开，要让它显式地把关键决策抛回来确认：Make me verify key decisions explicitly to ensure nothing is missed。这条指令的含义是把 AI 强行变成 spec 的执行者，把判断权留在你这里。

三个动作合起来产出一份很细的 spec，然后才让 AI 按 spec 干活。这一层的核心思想其实只有一句话：把你自己对项目的理解，编码成 AI 能读懂的格式。

第二层 verifier：让 AI 自己看出它做错了没

第二层是这套方法里我个人觉得最值钱的一层。Karpathy 在视频里说得很直接：”Validation is what fundamentally scales AI.”——能不能 scale，看的不是 generation 速度，是 validation 速度。换种说法，瓶颈从来不在 AI 生不生得出来代码，而在你能不能足够快地知道它对不对。

Marchese 把 verifier 拆成了三种具体形态。

第一种是 automated tests。最简单的玩法是写一个 build_passing.sh，让 Claude 跑测试、自己看输出、改代码、再跑，直到全绿才停。这一步把”判分”这件事完全交给确定性的工具，避免让 AI 自己评估自己。

第二种是 assertions。在代码里硬塞 invariant 检查，比如”输入金额不能为负”、”返回字段必须包含 X”。让程序自己在运行时崩出来，而不是等到 review 才发现。

第三种是 LLM as judge。当你要验证的东西没法写成确定性测试（比如生成内容质量、自然语言一致性），就让另一个 AI 当评委。Marchese 强调这种验证方式适合 fuzzy 的场景，不能滥用——能用确定性测试解决的就别拿 LLM 来打分。

这三种形态合起来是一个梯度。能用确定性测试解决的就别拿 LLM 来打分，因为成本和稳定性差一个数量级。assertion 是中间地带，LLM judge 是最贵也最不稳的兜底。

Karpathy 在视频里还顺手把”tight leash”这件事讲了：他对那些放飞的 agent 玩法相当保守，更喜欢小步增量改动，每步都验证。这个姿态背后是个朴素的道理——你只敢放出多长的绳子，取决于你的验证回路有多快。

第三层 environment：spec 是单次的，环境是长期的

前两层都是单次任务的优化，第三层处理的是跨任务的、长期资产层面的。这层是 Karpathy 真正在意的工程化部分，Marchese 把它拆成四块。

第一块是 claude.md。这是项目根目录的一份文档，Claude Code 每次启动都会自动加载。Marchese 把它形容成”AI 进入项目时读的开篇宣言”。里面写什么？他给的清单是：项目是关于什么的（这样 AI 一开始就不会跑偏）、它能用的工具和文件、训练数据/知识架构在哪、必须遵守的关键工作规则。要点是把这里当成 AI 的世界，不是反过来把它塞进你的世界。

第二块是 LLM knowledge base。Karpathy 在推特上火过一阵的概念，做法非常朴素：在你机器上建一个文件夹结构，把你自己的训练数据、笔记、上下文喂进去，让 Claude 在需要时知道去哪查。Marchese 这里有句话我很认同：你的数据是你的护城河。这是建立你自己的知识资产的起点。

第三块是 skills。Marchese 给的判断准则极简：任何你打算重复做超过一次的事，写成 skill。skill 是完成某个任务的”使用手册”，越用越准。他用了个挺好的比喻——”找出水管漏点的最好办法，就是让水流过它”。skill 也是一样，用得多了你才知道哪里要补哪里已经够好。这种说法跟我用 Claude Code 半年多的实感完全对得上：我的 skills 目录是一点点用出来的，从没有哪个是预先想清楚一次写完的。

第四块是 guardrails。这一块 Marchese 讲得最细。claude.md 里写”别瞎编信息”只是一条 guide，Claude 仍然能违反它。如果有些事情绝对不能错，就得在工具层加 hook。他举了个具体例子：你有一个叫 Important, Don't Edit 的文件夹，光在 claude.md 里写”别动这个文件夹”只能拿到 80% 效果，因为这种写法本质是请求。真正可靠的做法是加一个 pre-tool-use hook，在 Claude 调用 write/edit 工具前先看目标路径，命中黑名单直接拦下。约束在工具层就锁死，Claude 想违反也违反不了。

Marchese 顺着这个思路给了一个分桶法：把所有动作分成 always do（autopilot）、ask first（双重确认）、never do（红线）。always do 是你信得过让 AI 一路跑的事，ask first 是有风险要你点头的事，never do 是工具层就得卡死的事。这个分桶法的好处是你只需要决定每个动作落在哪个桶，剩下的由 claude.md + hook 自动落地。

“The one thing”：理解不可外包

视频结尾抛了个问题：智能变得很便宜的时代，还有什么是值得深学的？

Karpathy 的回答只有一句：You can outsource your thinking, but you can’t outsource your understanding.

Marchese 把这句话和前面三层串起来：spec、verifier、environment 全都在围绕你对全局的理解打转。AI 可以替你思考，但目标由你定，验证标准由你设，规则边界由你画。这些底层的理解抽掉，三层就成了空壳。

这层意思在 Karpathy 几年前提过的另一个判断里其实也出现过：AI 时代真正的护城河从手写 if/else 迁移到了定义系统——设计赛道、设定成功标准、画约束条件。代码本身正在变成耗材，能不能定义清楚问题，才是没法被模型替代的那部分能力。

我的补充：三层不等权，verifier 最不会贬值

视频把三层讲得像是等权的并列结构，但我自己的判断是：三层的重要性会随模型变强而漂移，verifier 是其中唯一不贬值的一层。

spec 和 environment 里有相当一部分内容，本质上是在补当下模型的短板：模型记不住长上下文，所以你需要在 claude.md 里写一遍背景；模型不会自己挑工具，所以你要在 environment 里铺好路径；模型容易脑补，所以你要在 spec 里抠掉每一处假设。下一代模型如果在这些方面变强，这些补丁就会变成多余的脚手架。Anthropic 自己在大型代码库实践里给过同样的提醒：harness 配置每 3-6 个月要审一次，旧版本里防御性的 hook 在缺陷消失后是负担。

verifier 完全不一样。模型越强、生成越快，验证只会越重要，而不是越不重要。原因很直白：你怎么知道一个比你聪明的东西做对了？除了可执行、可观测的验证回路没别的办法。任何一代模型升级都抹不掉这一层，反而每一次模型变强都让它更值钱。

换个角度说，三层框架里我会优先投资的顺序是 verifier > spec > environment，恰好和视频呈现的视觉权重相反。spec 和 environment 是”让今天这一代模型好用”，verifier 是”让任何一代模型都好用”。

怎么落到日常

视频里 Marchese 给的每一条都能直接搬到 Claude Code 的日常工作流里，三层各对应一个我会立刻动手的事情。

spec 层：给一个新需求时，别一上来就让 Claude 写代码，第一句让它反过来采访我，把目标、约束、验收标准全部问出来落进一份 spec，再让它分块实现。

verifier 层：每个项目根目录放一个最小的 build_passing.sh，能跑测试就跑测试，能跑 lint 就跑 lint，让 Claude 自己看 exit code，红了就改，不要让我成为它的判分器。

environment 层：claude.md 写薄一些，重点放在”这个项目是什么 / 文件结构 / 哪些路径绝对别动”；重复 ≥3 次的流程立刻 sink 成 skill；红线规则一定走 hook，不要只写在 markdown 里指望模型自觉。

这是这套方法对我最直接的产出：把”和 AI 协作”这件事从靠经验调 prompt，变成了一个能审计、能迭代、能版本化的系统。

剩下的就是让水流过去。

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。了解一下 ›

抢沙发

评论前必须登录！

立即登录注册

易安作者

长期关注 AI Agent、软件工程、自动化工作流与个人生产力系统。喜欢把复杂技术拆成普通人也能上手的实践教程,也记录自己在工具链、编程、内容创作和知识管理上的真实折腾。

分享 AI 工具、Agent 工作流与提示词工程的实战经验
记录从想法到产品、从代码到上线的完整实践过程
关注普通人如何用 AI 放大能力,而不是被工具牵着走

阅读作者的全部文章 ›

文章目录

前沿哨所

彻底变革 JS 并发：Bun 提交 WebKit 补丁，引入共享内存多线程机制

Bun 的创始人 Jarred Sumner 提交了一个极具野心的实验性 PR，旨在为 JavaScriptCore 引入“共享内存线程”机制，彻底改变 JavaScript 的并发模型。目前的 Web Workers 模型依赖隔离的堆内存、结构化克隆和消息传递，性能开销大且编程复杂。该提案允许开发者在不同核心上直接共享对象，无需序列化或 postMessage，实现了类似 Java、C# 或 Go 的多线程编程范式。PR 引入了 new Thread(fn)、Lock、Condition 等同步原语，并扩展了 Atomics 以支持普通对象属性。目前该功能已移除全局解释器锁（GIL），通过了大量测试用例，但在单线程性能回归控制和复杂性维护上仍面临挑战，可能不会合并到上游 WebKit，但仅作为 Bun 的特性也足以引发行业震动。

事件分析

此项提案直击 JavaScript 在高性能计算场景下的核心痛点。传统 Web Workers 模型因数据隔离导致的序列化成本，使其难以应对复杂的图遍历、解析器或服务器端共享缓存等重负载任务。Bun 方案通过 TID 标记的“分段蝴蝶”对象模型和写时复制策略，试图在保持内存安全（无数据竞争导致的堆损坏）的前提下，实现真正的内存共享。这不仅是对 JavaScriptCore 对象模型、垃圾回收机制和 JIT 编译器的底层重构，也是 JS 运行时向传统系统级语言并发模型的一次激进靠拢。若能成功落地，将极大提升 Bun 在服务端和高密度计算场景下的竞争力，但也给引擎的长期维护带来了巨大的复杂度挑战。

💡 核心观点：JavaScript 终于撕下“单线程”的标签，Bun 试图通过共享内存机制将其推向与 Go、Java 同等的高性能并发竞技场。

原文链接：Hacker News

4小时前
每日亿级Token消耗引热议：开发者质疑AI编程的边际效用与成本

针对当下大模型在软件开发领域的深度渗透，Linux.do 社区引发了一场关于高频 AI 工具使用场景的实质性探讨。话题核心在于：对于普通开发者或研发团队而言，每日消耗上亿级别的大模型 Token（如 Claude、GPT-4 等）是否具有实际价值。发帖者指出，除了常规的日志审查、文档审查及代码库审查等辅助性工作外，核心开发环节的实际消耗并不高。更关键的是，当前的 AI 生成内容（无论是代码还是文档）尚无法达到“直接可用”的标准，必须依赖人工进行二次仔细审查。这种“人机协同”模式导致的结果是：人工环节不仅不能省略，反而因为需要核查 AI 的输出增加了工作量。讨论者进一步表示，并非所有项目都有足够庞大体量来支撑如此巨大的 AI 算力消耗，盲目维持高额订阅服务可能造成资源浪费。这一现象折射出开发社区正从初期的“技术尝鲜”转向对“成本收益”的理性评估。

事件分析

从技术演进的角度看，此次讨论揭示了当前 AI 辅助编程面临的“边际效用递减”问题。虽然大模型在处理文本和代码片段上表现出色，但软件工程的系统性和安全性要求极高，导致 AI 目前更多扮演的是“初稿生成器”而非“最终决策者”。开发者对日志和代码的二次审查实际上是必须的兜底策略，这限制了纯 Token 消耗带来的直接生产力提升。这表明，单纯依靠堆砌 Token 并不能线性提高研发效率，未来的开发工具链可能需要从单纯的“生成式”向更智能的“验证与修正”进化，或者通过本地化部署大模型来降低长尾场景下的调用成本。企业级应用中，如何量化 AI 工具的实际产出比，将成为技术采购和研发流程优化的关键考量。

💡 核心观点：高Token消耗并不等于高生产力，当前AI编程仍处于“人机协同”的辅助阶段，成本控制与准确性审查构成了落地的双重瓶颈。

原文链接：Linux.do

4小时前
Gemini CLI 现访问受限：网页端可用但命令行报错 403 无效许可

近日，在知名技术社区 Linux.do 上出现了一则关于 Google Gemini 服务访问异常的讨论，引发了部分开发者的关注。据反馈，部分持有 Gemini Pro 订阅的用户遇到了一种奇怪的“权限割裂”现象：他们的账号在官方网页端能够正常登录并使用全套模型功能，没有任何问题；但在切换到终端环境，使用命令行界面（CLI）工具调用模型服务时，却遭到了系统的拦截。系统返回了具体的错误代码 #3501，提示用户“没有该产品的有效许可证”，并建议联系管理员或更新版本。这一报错信息与常规的网络访问 denied 不同，直接指向了产品授权层面的问题。话题在短时间内引发了多位参与者的共鸣，大家正在排查这是否属于 Google 服务端的一次策略调整，即开始限制非官方客户端或第三方封装工具通过常规凭证访问付费模型。这种不同端点（Web 端与 CLI 端）之间的认证差异，给习惯使用命令行进行高效交互的开发者和极客带来了困扰，也暴露了当前基于云端 AI 服务在客户端鉴权管理上的复杂性。

事件分析

技术视角下，该事件凸显了非官方 AI 客户端与厂商服务端鉴权机制之间的博弈。CLI 工具通常通过封装 Web 接口或调用 API Key 实现，而此次报错信息明确指向“许可证”而非单纯的 API 权限不足，暗示 Google 可能正在服务端部署更严格的指纹识别或 Token 校验逻辑，以区分官方浏览器流量与脚本化流量。这可能是为了防止滥用，或是为了将高阶模型的调用强制收束至官方 Web 界面或封闭的 SDK 生态中。对于依赖 CLI 进行自动化流程的开发者而言，这预示着基于非官方协议的“野生”接入方式正面临极高的维护风险与封禁可能。

💡 核心观点：网页端与命令行接口的权限割裂，标志着 Google 正收紧对非官方渠道的调用管控，开发者需警惕第三方工具的可用性风险。

原文链接：Linux.do

4小时前
两百年技术演进图谱：从蒸汽机到 AI，解读技术采用的 S 型曲线

该项目名为“S-CURVES”，是一份详尽的技术采用指南，涵盖了从1825年至2026年长达两个世纪的技术普及数据。项目的核心在于揭示了一个普遍规律：无论技术如何更迭，其被大众采用和普及的路径始终呈现出相似的“S型曲线”形态。通过汇集包括“我们的数据世界”、美国人口普查局、皮尤研究中心以及主要财经媒体档案等权威信源，该项目构建了一个可视化的数据库，用于对比不同时代技术的生命周期。内容展示了从早期的蒸汽机、电力、电话，到现代的互联网、智能手机，以及当前热门的人工智能和自动驾驶等前沿技术的渗透率变化。项目不仅回顾了历史数据，还包含对2026年的预测。通过引用经过事实核查的名言和数据，它帮助观察者区分技术炒作与实质性普及。对于关注科技、AI及前沿技术的读者而言，这一可视化图谱提供了一个宏观视角，有助于理解当前新兴技术（如大模型、自动驾驶）正处于S型曲线的哪个阶段，是处于早期的缓慢增长、爆发式的快速增长，还是后期的市场饱和期。

事件分析

从产业视角来看，该可视化项目最大的价值在于为当前的技术炒作周期提供了历史维度的量化参照。尤其是对于目前炙手可热的AI和自动驾驶领域，S型曲线理论提醒行业关注渗透率的关键拐点。历史数据显示，电力和电话的普及耗时半个世纪，而移动互联的普及速度显著加快。对比之下，生成式AI目前的爆发速度虽然惊人，但仍需警惕从“早期采用者”向“早期大众”跨越时的“鸿沟期”。技术落地不仅需要算法突破，更依赖于基础设施（如算力网络、能源供给）的配合，这往往决定了曲线爬升的斜率。通过对比1825年以来的技术采纳规律，可以看出资本的投入与技术的实际回报之间存在时滞，这对于判断当前AI产业的成熟度具有重要的参考意义。

💡 核心观点：历史证明技术普及皆呈S型，当前AI正从爆发期向大众应用跨越，能否跨过“鸿沟”取决于基础设施与成本的极致优化。

原文链接：Hacker News

5小时前
DeepSeek接入VSCode的兼容性迷局：方舟CodingPlan实测与路由技术探讨

随着GPT Plus订阅额度缩减及成本考量，一位开发者尝试将DeepSeek的API服务接入到VSCode的Codex插件中以替代原有的OpenAI服务。该开发者此前使用了名为CodexSwitch的开源项目作为路由转换工具，试图将OpenAI格式的请求转发给DeepSeek。在实测过程中发现，虽然基础的代码生成对话能够进行，但在处理涉及`5.4-mini`等特定模型命名请求以及`codex-auto-review`（代码自动审查）等IDE内置的深度代理功能时，DeepSeek API会返回400错误，显示出非标准API接口与现有AI编程工具之间的兼容性断层。鉴于GPT额度不足且不打算续费，该开发者计划转向字节跳动的“方舟CodingPlan”套餐，该套餐声称支持原生OpenAI Response格式。目前社区讨论的重点在于：利用CCS（Cursor Compatible Server）协议或新版本的原生替换方案，能否彻底解决IDE工具中非标请求的路由失败问题，以及方舟CodingPlan套餐的真实购买可用性。这一案例折射出当前大模型“平替”方案在落地AI编程场景时面临的具体技术挑战。

事件分析

本事件聚焦于AI编程工具生态中的API兼容性问题，揭示了当前“平替”大模型落地时的技术痛点。虽然许多第三方模型宣称兼容OpenAI接口，但这通常仅限于基础Completion和Chat接口。而主流AI编程工具（如Cursor、Codex）为了实现代码审查、上下文感知等功能，会调用大量未公开或非标准的API参数（如Specific Model Capabilities、Agent Routing指令）。这导致简单的API格式转换路由器无法支撑复杂的IDE工作流。方舟CodingPlan等新兴服务的出现，旨在通过提供原生兼容层来填补这一空白，但其对深度Agent交互的支持程度仍需市场验证。这表明，大模型厂商若想真正切入AI编程开发者市场，仅提供基础模型能力是不够的，必须针对IDE生态的特定协议进行深度适配与优化。

💡 核心观点：AI编程工具的“平替”不能仅停留在基础API对齐，针对IDE深度Agent交互（如自动审查、Ref光标功能）的非标协议兼容性才是决定开发者体验的关键。

原文链接：Linux.do

5小时前
极致无障碍体验：开发者开源纯 SwiftUI 构建的 iOS 版 Hacker News 阅读器 Ember

近日，一位名为 sylwester 的开发者在 GitHub 上开源了一款名为 Ember 的原生 iOS Hacker News 阅读器应用。该项目基于 SwiftUI 框架构建，且不依赖任何第三方库，旨在提供极致的阅读体验与无障碍辅助功能。Ember 最大的技术亮点在于对评论区的重构，它摒弃了传统的 WebView 渲染，而是将评论解析为原生文本组件。这使得链接、斜体、代码块等元素能像系统原生组件一样响应操作，文本选择流畅，且支持评论线程的即时折叠。在数据获取层面，应用利用 Algolia API 单次请求获取完整的评论树，相比逐级遍历 Firebase API，大幅提升了加载效率。在无障碍设计方面，Ember 做到了行业标杆级别：不仅遵循“不以颜色为唯一信息载体”的原则，通过形状和图标辅助展示状态，还完整支持 VoiceOver 屏幕朗读、Dynamic Type 动态字体及减弱动态效果设置。应用甚至能自动检测设备的无障碍偏好并在首次启动时自动匹配配置。此外，Ember 包含 Top/New/Best 等全功能分类、搜索、收藏及主题切换，且完全通过公共 API 交互，不设账号、不进行任何数据追踪，充分尊重用户隐私。

事件分析

Ember 项目展示了现代移动应用开发中“原生优先”与“无障碍设计”的最佳实践。在移动端开发领域，WebView 虽然开发成本低，但在文本交互与系统级功能支持上始终存在局限。Ember 通过 SwiftUI 证明了原生渲染在处理复杂排版（如嵌套评论、代码块）时能提供更流畅的交互体验，尤其是对文本选择和手势响应的优化。同时，该项目对 Algolia API 的应用也揭示了第三方索引接口在处理树形结构数据时往往比官方接口更具效率。从社会价值来看，Ember 为 iOS 开发者提供了一个极具参考价值的无障碍开发范例。随着技术普及，视障用户对高质量 App 的需求日益增长，Ember 这种从底层逻辑（如颜色盲友好、语音朗读优化）出发的设计理念，体现了科技产品包容性的重要趋势，其开源代码将对整个社区的 iOS 应用质量提升产生积极影响。

💡 核心观点：极客精神不仅在于构建功能，更在于通过原生技术重塑无障碍标准，Ember 证明了 SwiftUI 在实现高性能与包容性设计上的巨大潜力。

原文链接：Hacker News

5小时前

Karpathy 三层方法：把 prompt 升级成可验证系统

洗车这道题，AI 卡在哪里

第一层 spec：把你脑子里的东西落到 AI 能用的格式

第二层 verifier：让 AI 自己看出它做错了没

第三层 environment：spec 是单次的，环境是长期的

“The one thing”：理解不可外包

我的补充：三层不等权，verifier 最不会贬值

怎么落到日常

相关推荐

抢沙发

评论前必须登录！

置顶推荐

前沿哨所

彻底变革 JS 并发：Bun 提交 WebKit 补丁，引入共享内存多线程机制

事件分析

每日亿级Token消耗引热议：开发者质疑AI编程的边际效用与成本

事件分析

Gemini CLI 现访问受限：网页端可用但命令行报错 403 无效许可

事件分析

两百年技术演进图谱：从蒸汽机到 AI，解读技术采用的 S 型曲线

事件分析

DeepSeek接入VSCode的兼容性迷局：方舟CodingPlan实测与路由技术探讨

事件分析

极致无障碍体验：开发者开源纯 SwiftUI 构建的 iOS 版 Hacker News 阅读器 Ember

事件分析

最新文章

热门专题

热门标签

网站统计

洗车这道题，AI 卡在哪里

第一层 spec：把你脑子里的东西落到 AI 能用的格式

第二层 verifier：让 AI 自己看出它做错了没

第三层 environment：spec 是单次的，环境是长期的

“The one thing”：理解不可外包

我的补充：三层不等权，verifier 最不会贬值

怎么落到日常

相关推荐

抢沙发

评论前必须登录！

置顶推荐

前沿哨所

彻底变革 JS 并发：Bun 提交 WebKit 补丁，引入共享内存多线程机制

事件分析

每日亿级Token消耗引热议：开发者质疑AI编程的边际效用与成本

事件分析

Gemini CLI 现访问受限：网页端可用但命令行报错 403 无效许可

事件分析

两百年技术演进图谱：从蒸汽机到 AI，解读技术采用的 S 型曲线

事件分析

DeepSeek接入VSCode的兼容性迷局：方舟CodingPlan实测与路由技术探讨

事件分析

极致无障碍体验：开发者开源纯 SwiftUI 构建的 iOS 版 Hacker News 阅读器 Ember

事件分析

最新文章

热门专题

热门标签

网站统计

code80.ai · 多模型 API 统一接入