Andrej Karpathy 访谈：AI 时代的编程范式、可验证性与人类价值

来源

背景：Karpathy 这里讲的重点，不是 AI 让旧式编程变快，而是可操作对象变了。过去程序处理结构化数据，现在模型直接处理文本、图片、文档和上下文，很多中间应用层会被重新定义。

Software 3.0 里，编程变成了提示词和上下文窗口。上下文窗口就是你影响解释器的杠杆，而这个解释器就是 LLM，它会解释你的上下文，并在数字信息空间里执行计算。

安装工具时，旧范式会写一个越来越复杂的 shell 脚本，试图覆盖各种平台细节。新范式是给 agent 一段文本，让它读取环境、执行智能动作、循环调试，直到把事情装好。

MenuGen 这个应用在旧范式里需要 OCR、图片生成、前端展示和部署。但新范式里，你直接把菜单照片交给 Gemini，让它把菜品图片覆盖回原图。这个应用中间的大量代码其实都不该存在。

整体评价：兴趣匹配度高。它直接对应上下文工程和 agent workflow 的核心判断：未来很多产品机会不在于把旧流程包一层 AI，而在于识别哪些软件层已经被模型吞掉。

背景：他用可验证性解释模型为什么在代码、数学上飞快进步，同时在一些常识问题上显得荒诞。这个框架比泛泛讨论智能更有用，因为它给出了能力迁移和创业选题的判断标准。

传统计算机容易自动化的是你能用代码明确描述的东西；这一轮 LLM 容易自动化的是你能验证的东西。前沿实验室训练模型，本质上是在巨大的强化学习环境里给它们验证奖励。

如果你的任务落在训练和强化学习覆盖过的回路里，模型会飞起来；如果落在数据分布之外，它会挣扎。你必须弄清楚自己的应用处在哪条回路里。如果不在，就要考虑微调和自己构建训练环境。

可验证性让一个领域在当前范式下变得可处理。只要你能构造大量多样的强化学习环境或样例，即使大模型实验室没有直接关注这个领域，你仍然可能通过微调拉动能力。

整体评价：兴趣匹配度高。这组内容把 AI 产品机会从“哪个行业会被替代”改写为“哪个任务能构造验证信号”，适合拿来分析 agent 产品、自动评测和 RL 数据资产。

背景：Karpathy 区分了 vibe coding 和 agentic engineering。前者让更多人能写软件，后者关心如何协调强大但有毛刺的 agent，在不降低安全性和工程质量的前提下提速。

Vibe coding 是抬高所有人能做软件的下限；agentic engineering 是在专业软件里保住原来的质量标准。你不能因为 vibe coding 引入漏洞，你仍然要对软件负责，只是你可以更快。

Agentic engineering 是一门工程学科。你面对的是一组能力尖锐、有点脆弱、带随机性的实体。问题是如何协调它们，让速度提升，同时不牺牲质量标准。

招聘也需要重构。旧范式是给候选人解谜题；新范式应该给他一个大项目，让他做出一个足够好、足够安全的网站，然后用多个 agent 去攻击它，看它是否扛得住。

整体评价：兴趣匹配度高。它和你最近关注的 harness engineering、编程 agent、技能体系是同一条线：关键不只是会不会用工具，而是能否设计评测、约束、审查和协作结构。

背景：这段最适合和 AI 共生主题放在一起看。Karpathy 没有把人的价值落在情绪化的人类独特性上，而是落在非常具体的职责：设计规格、判断抽象、理解系统、决定方向。

现在的 agent 更像实习生。你仍然要负责审美、判断、品味和监督。它们会处理很多细节，但你必须知道自己要什么，以及什么设计是合理的。

我已经不记得 PyTorch、NumPy、Pandas 里很多 API 的细节了，比如 keepdims 还是 keepdim，dim 还是 axis。这些细节可以交给实习生。但你仍然要理解底层张量、视图、存储和内存拷贝，否则会让系统做出低效设计。

有句话让我一直在想：你可以外包你的思考，但不能外包你的理解。信息仍然必须进入我的大脑，我仍然是瓶颈：我们要构建什么，为什么值得构建，我如何指挥我的 agent。

整体评价：兴趣匹配度高。这组内容非常贴合你的 AI 共生主线：AI 可以扩大执行半径，但理解和方向感仍然是人类在系统里的控制面。

背景：最后一组讨论的是未来基础设施的形态。Karpathy 的判断很直接：今天大多数工具仍然为人类设计，而 agent 时代需要把世界分解成可感知、可执行、对 LLM 可读的数据结构。

几乎所有东西现在仍然是给人类写的。很多框架和库的文档也主要是写给人看的。我真正想要的是：告诉我应该复制哪段文本给我的 agent，而不是告诉我自己去做什么。

大家真正关心的是，如何把工作负载分解成世界上的传感器和执行器，如何让它 agent-native，如何先对 agent 描述清楚，再围绕对 LLM 清晰可读的数据结构建立自动化。

整体评价：兴趣匹配度高。这给了一个很实用的判断标准：未来的开发者工具、文档系统、部署平台，价值在于是否能让 agent 直接读、直接改、直接部署，而不是只服务人类点击。