Skip to content
汉松札记
Go back

Andrej Karpathy访谈:AI时代的编程范式、可验证性与人类价值

AI Highlight

来源

【Software 3.0:上下文本身成为编程接口】

背景:Karpathy 这里讲的重点,不是 AI 让旧式编程变快,而是可操作对象变了。过去程序处理结构化数据,现在模型直接处理文本、图片、文档和上下文,很多中间应用层会被重新定义。

Software 3.0 里,编程变成了提示词和上下文窗口。上下文窗口就是你影响解释器的杠杆,而这个解释器就是 LLM,它会解释你的上下文,并在数字信息空间里执行计算。

安装工具时,旧范式会写一个越来越复杂的 shell 脚本,试图覆盖各种平台细节。新范式是给 agent 一段文本,让它读取环境、执行智能动作、循环调试,直到把事情装好。

MenuGen 这个应用在旧范式里需要 OCR、图片生成、前端展示和部署。但新范式里,你直接把菜单照片交给 Gemini,让它把菜品图片覆盖回原图。这个应用中间的大量代码其实都不该存在。

整体评价:兴趣匹配度高。它直接对应上下文工程和 agent workflow 的核心判断:未来很多产品机会不在于把旧流程包一层 AI,而在于识别哪些软件层已经被模型吞掉。

【可验证性:模型能力的真正边界】

背景:他用可验证性解释模型为什么在代码、数学上飞快进步,同时在一些常识问题上显得荒诞。这个框架比泛泛讨论智能更有用,因为它给出了能力迁移和创业选题的判断标准。

传统计算机容易自动化的是你能用代码明确描述的东西;这一轮 LLM 容易自动化的是你能验证的东西。前沿实验室训练模型,本质上是在巨大的强化学习环境里给它们验证奖励。

如果你的任务落在训练和强化学习覆盖过的回路里,模型会飞起来;如果落在数据分布之外,它会挣扎。你必须弄清楚自己的应用处在哪条回路里。如果不在,就要考虑微调和自己构建训练环境。

可验证性让一个领域在当前范式下变得可处理。只要你能构造大量多样的强化学习环境或样例,即使大模型实验室没有直接关注这个领域,你仍然可能通过微调拉动能力。

整体评价:兴趣匹配度高。这组内容把 AI 产品机会从“哪个行业会被替代”改写为“哪个任务能构造验证信号”,适合拿来分析 agent 产品、自动评测和 RL 数据资产。

【Agentic Engineering:不是降低门槛,而是保住质量上限】

背景:Karpathy 区分了 vibe coding 和 agentic engineering。前者让更多人能写软件,后者关心如何协调强大但有毛刺的 agent,在不降低安全性和工程质量的前提下提速。

Vibe coding 是抬高所有人能做软件的下限;agentic engineering 是在专业软件里保住原来的质量标准。你不能因为 vibe coding 引入漏洞,你仍然要对软件负责,只是你可以更快。

Agentic engineering 是一门工程学科。你面对的是一组能力尖锐、有点脆弱、带随机性的实体。问题是如何协调它们,让速度提升,同时不牺牲质量标准。

招聘也需要重构。旧范式是给候选人解谜题;新范式应该给他一个大项目,让他做出一个足够好、足够安全的网站,然后用多个 agent 去攻击它,看它是否扛得住。

整体评价:兴趣匹配度高。它和你最近关注的 harness engineering、编程 agent、技能体系是同一条线:关键不只是会不会用工具,而是能否设计评测、约束、审查和协作结构。

【人的稀缺性:品味、规格、理解】

背景:这段最适合和 AI 共生主题放在一起看。Karpathy 没有把人的价值落在情绪化的人类独特性上,而是落在非常具体的职责:设计规格、判断抽象、理解系统、决定方向。

现在的 agent 更像实习生。你仍然要负责审美、判断、品味和监督。它们会处理很多细节,但你必须知道自己要什么,以及什么设计是合理的。

我已经不记得 PyTorch、NumPy、Pandas 里很多 API 的细节了,比如 keepdims 还是 keepdim,dim 还是 axis。这些细节可以交给实习生。但你仍然要理解底层张量、视图、存储和内存拷贝,否则会让系统做出低效设计。

有句话让我一直在想:你可以外包你的思考,但不能外包你的理解。信息仍然必须进入我的大脑,我仍然是瓶颈:我们要构建什么,为什么值得构建,我如何指挥我的 agent。

整体评价:兴趣匹配度高。这组内容非常贴合你的 AI 共生主线:AI 可以扩大执行半径,但理解和方向感仍然是人类在系统里的控制面。

【Agent-native 世界:文档、工具和基础设施都要重写】

背景:最后一组讨论的是未来基础设施的形态。Karpathy 的判断很直接:今天大多数工具仍然为人类设计,而 agent 时代需要把世界分解成可感知、可执行、对 LLM 可读的数据结构。

几乎所有东西现在仍然是给人类写的。很多框架和库的文档也主要是写给人看的。我真正想要的是:告诉我应该复制哪段文本给我的 agent,而不是告诉我自己去做什么。

大家真正关心的是,如何把工作负载分解成世界上的传感器和执行器,如何让它 agent-native,如何先对 agent 描述清楚,再围绕对 LLM 清晰可读的数据结构建立自动化。

整体评价:兴趣匹配度高。这给了一个很实用的判断标准:未来的开发者工具、文档系统、部署平台,价值在于是否能让 agent 直接读、直接改、直接部署,而不是只服务人类点击。


订阅 AI Highlight

RSS 邮件订阅待配置
Share this post on:

Previous Post
李光耀领导力访谈:从殖民到建国
Next Post
OpenAI的Ryan Leopo谈Harness Engineering:当代码免费时,如何构建软件