来源
- 原始链接:https://www.latent.space/p/video-agents?utm_source=post-email-title&publication_id=1084089&post_id=200078058&utm_campaign=email-post-title&isFreemail=true&r=27lk8i&triedRedirect=true&utm_medium=email
- 来源类型:网页正文(访谈逐字稿)
- 来源标题:视频生成技术前沿与未来趋势:从 Grok Imagine 到世界模型的演进路径
Video Agents:视频生成的下一站是 Agent
这期 Latent Space 采访 Ethan He,表面主题是 Grok Imagine、视频生成和世界模型,真正有价值的是一个更大的判断:视频生成正在走 AI 编程已经走过的路。早期大家比较单次输出质量、成本和速度;模型能力到达一定阈值后,竞争点会转向规划、工具调用、迭代、编辑、上下文管理和长程任务执行。换句话说,下一代 Sora 可能不是更强的视频模型,而是 video agent。
按汉松兴趣画像,这篇最值得保留的不是某个模型发布细节,而是几个可迁移机制:算力如何转化为迭代速度,视频模型为什么越来越依赖语言智能,世界模型的工程约束是什么,长上下文问题如何在视频和 LLM Agent 中同时出现,以及未来的生成式媒体系统为什么会更像一个工具编排系统。
一、前沿模型的速度来自低沟通带宽和高迭代密度
背景
Ethan 回顾 xAI 小团队三个月从零构建 Grok Imagine 0.9 时,没有把关键归因于某个神秘算法。他反复强调的是组织形态、基础设施和迭代速度。这里有一个很适合迁移到 AI 团队和 Agent 工程的判断:前沿研发的核心资源不是抽象的算力,而是每天能完成多少次有效实验循环。
最重要的是人才。每个人都很强、很聪明,而且彼此非常贴近,朝着同一个目标前进。这样会大幅加快速度,因为团队之间的沟通带宽被压低了。每天可能只有一次同步会,之后就是一直在构建。
训练模型时,最重要的事情之一是:你每天能做多少次迭代?迭代越多,模型训练得越快。强基础设施和大量算力会给你更大的犯错缓冲,也让你有机会发现更多 bug。
很多改进并不是来自新算法,而是来自在数据流水线、模型训练流水线里找到一些小 bug。这些地方反而会给模型质量带来最大的提升。
兴趣匹配度很高。这组内容的价值在于把大模型研发还原成工程系统:算力不是单独产生优势,算力通过缩短实验闭环、提高 bug 暴露频率、放大团队判断速度来产生优势。对汉松自己的团队管理也有启发:如果要做 AI 创新业务,真正要优化的是从想法到验证的循环时间,而不是会议里的路线图完整度。
二、AI 编程压缩实现时间后,瓶颈会重新回到算力和决策
背景
Ethan 讲到编码模型时,给出了一个很有意思的瓶颈迁移:以前想法多,但实现慢;现在 AI 能几小时写出新数据生成流程或新训练算法,真正的问题变成有没有足够算力去试完这些想法,以及有没有判断力决定试什么。
早期编码模型能很快写出东西,但有时会产出难以维护的意大利面代码,几千行代码连我自己都维护不了,模型本身也搞不清哪里错了、该怎么继续改。
现在编码模型效率高得多,可以更快帮我们实现想法。过去如果要生成新合成数据或写新算法,可能要几周;现在几小时就能做出来,然后立刻训练模型。于是你必须有足够算力去尝试所有想法,算力又重新变成迭代速度的瓶颈。
很多这些工作现在可以被编码模型自动化,这很好。但这是一场马拉松,所以你必须保持健康和规律作息。
兴趣匹配度高。这里有一个很现实的 AI coding 判断:AI 把 How 的摩擦大幅降低后,瓶颈会迁移到 What、资源调度和可持续节奏。它也提醒我们,Agent workflow 的关键不是让模型无限多写代码,而是控制复杂度、管理实验队列、验证结果,并让人类保持长期判断能力。
三、视频模型的很多智能其实来自语言模型
背景
这是全文最反常识的一组判断。Ethan 认为,随着扩散模型技术成熟,近期香港视频模型的很多质量提升并不是来自视频分布模型本身,而是来自语言模型、prompt rewriting、工具调用和前置规划。视频模型更像一个执行器,语言模型负责把用户的模糊意图改写成可生成的精确规格。
我有一个很大的判断:视觉智能其实大多来自语言。现在这些视频模型的改进,主要不是来自视频扩散模型本身,而是来自语言模型。
视频模型本身有点笨,它会非常字面地执行输入。你只说一只猫,它可能就在白背景里放一只不动的猫,因为你没有描述背景,也没有描述动作。
Prompt rewriter 是更大的语言模型,它把用户简单的指令扩展成极其详细的视频描述;所谓思考过程,很大一部分就在这里。生成一张图花三分钟,并不全是在生成像素,很多时间是在思考。
不用任何联合训练,仅仅加上重写,效果就已经好很多。
兴趣匹配度非常高。这是上下文工程在视频生成里的具体形态:模型质量不只取决于生成器,也取决于输入如何被重写、补全、规划和约束。它和 AI coding 很像:最终产物看起来是代码或视频,但真正的智能可能发生在任务分解、上下文补充、工具选择和中间验证里。
四、Video Agent 的核心是把生成模型当工具,而不是一次性吐出成品
背景
Ethan 把 video agents 类比成 AI 编程工具的演化:从 Copilot 式辅助补全,到 Codex、Claude Code 这类更自动的长程执行。视频生成也会从一次性 prompt 生成,演化成一个 agent 调用生成模型、Photoshop、视频编辑器、FFmpeg 等工具,持续规划、生成、剪辑、检查和修改。
Video agents 主要是语言模型调用生成模型作为工具,不管那是独立模型、扩散头,还是别的形式。它可以迭代优化结果,也可以通过很长的思维链生成更长内容。
这很像人类创作艺术:我们并不是直接生成像素,而是先画一些东西,再不断修改。
这些模型不只把扩散模型当工具,也可以使用传统工具:Photoshop、视频编辑器、FFmpeg,把传统编辑工具和生成式 AI 组合成一套生产级工具链。
有时候视频好,并不真是因为视频模型强,而是因为剪辑做得好。
Grok Imagine Agent beta 是朝这个方向的第一次尝试:你可以让它生成一分钟视频,这对同一个 prompt 直接交给视频模型来说不可能,但 agent 会调用不同工具来完成。
兴趣匹配度很高。这组内容可以直接接到汉松长期关注的 agent workflow:生成式媒体的下一阶段不是更大的单体模型,而是把模型、传统工具、编辑器、状态管理和评价器编排成系统。最终质量的 alpha 可能来自 harness,而不是某个基础模型的单次输出。
五、世界模型不是会生成视频,而是实时、可交互、长时域
背景
世界模型这个词很容易被说空。Ethan 给出的定义很工程化:从视频角度看,世界模型要能实时响应交互,要能维持长期历史,还要在用户行动后持续生成合理结果。这个定义把世界模型从概念愿景拉回延迟、上下文长度、记忆和交互协议。
从视频角度看,世界模型就是实时、可交互、长时域的视频。第一,它要能通过键盘、鼠标、语音等模态交互,并合理响应。第二,它要实时:如果生成的是游戏,鼠标移动后模型要多快响应?专业玩家可能需要毫秒级响应;数字人语音交互可以宽松一些,也许 200 毫秒,但这依然很难。第三,它要能长时域生成,不是几秒钟,而是分钟、小时级。
即使 200 毫秒的实时语音交互也很难,因为视频模型里有来自 VAE 的时间压缩。如果不压缩时间维度,序列长度会爆炸。想让模型具备实时性,本质上就是一个上下文问题。
视频扩展是交互性的第一步,因为它解锁了长视频。普通视频生成模型给一个 prompt 或初始图像,生成一次就结束;但如果要延展到一分钟甚至更长,模型需要记住更早的角色、声音和场景,否则质量会逐步下降。
兴趣匹配度非常高。这里可以看到视频世界模型和 LLM Agent 的同构问题:任务越长,核心就越不是单次生成能力,而是状态压缩、历史选择、延迟控制和按需召回。所谓世界模型,首先是一套能在时间中承接行动和反馈的上下文系统。
六、长视频不该无限塞历史,而该学会动态取回需要的上下文
背景
Ethan 讲 reference video 和长上下文时,给出了一个非常适合迁移到 LLM Agent 的类比:视频里有大量冗余,角色中途消失时,没有必要把它完整保留在每一帧上下文里;但它重新出现时,模型又必须能取回相关信息。这其实就是视频领域的 memory retrieval。
视频里有大量冗余。比如一个角色在第一段出现,中间消失,最后又出现,你不需要在生成中间部分时一直保留这个角色的全部上下文,只需要在它重新出现时取回相关信息。
有些方法会用启发式规则处理历史:最近一秒保留完整历史,更早的历史就压缩成更小的视频,总序列长度保持固定。离当前帧越远,图像就越小。但这仍然只是启发式。更理想的是模型自己知道该选择哪段历史。
类似的问题也出现在 LLM 里:工具调用历史越来越长,即使话题切换,整个上下文还在那里;一些 agent harness 会裁剪工具结果,比如只显示文件前 200 行,但这些也都是启发式。持续学习的一个突破,可能就是模型能自动管理自己的上下文。
普通 attention 必须关注所有 token,它没有一种高层机制来决定哪些 token 不值得看。人类的注意力范围其实很小,但人类注意力之所以能工作,是因为我们能从不同地方动态拉取上下文。我认为同样的机制会发生在 LLM 和视频模型里。
兴趣匹配度极高。这几段几乎就是上下文工程的核心问题:未来不是单纯追求无限上下文,而是让模型知道什么时候保留、什么时候丢弃、什么时候压缩、什么时候召回。这里也解释了为什么 agent harness 的设计会成为模型能力的一部分:今天的启发式工程,可能就是明天模型内化的行为样本。
七、推理加速的机制:学生学的不是互联网,而是老师模型
背景
视频生成要成为交互式系统,推理速度必须数量级提升。Ethan 对 step distillation 的解释很清楚:学生模型不是直接学习整个互联网图像和视频分布,而是学习一个固定老师模型的输出分布。这个分布更简单,所以可以把上百步生成压缩成几步。
原本 flow matching 模型可能要 100 步,扩散模型甚至要 1000 步才能生成好图或视频;step distillation 让一个只生成 10 步的模型去学习 100 步老师模型的输出。
老师模型要拟合的是互联网图像和视频的复杂分布,而学生模型只是在学习一个固定大小的老师模型,这个分布比整个互联网简单得多。所以生产环境里的模型通常只跑少数几步,比如 4 步、8 步,简单任务甚至可以 1 步。
GAN 其实是一步生成的源头之一。普通生成模型被要求从互联网数据中重构真实图像,这非常难;GAN 更像是生成一张图,再由判别器判断它像不像真实图像。模型不需要重构完整真实样本,只需要学到某种真实分布。
兴趣匹配度中高。这组内容的价值在于把生成模型推理加速讲成了一个可迁移机制:先用慢而强的流程产生高质量轨迹,再蒸馏成快而便宜的执行器。这个思路也可以类比到 Agent:先让强模型跑完整推理和工具链,再把稳定模式沉淀成更低成本的流程、技能或专用模型。
八、自我管理上下文与自修改 harness,可能是 LLM 下一阶段
背景
采访最后,Ethan 解释了自己为什么从视频模型转向 LLM。他认为视频模型的瓶颈越来越多地落在语言、agent 和上下文管理上。对未来一年 LLM 的预测里,他特别提到 context-aware model:模型知道自己的上下文状态,知道何时压缩、何时添加元信息,甚至可以修改自己的 agent harness。
语言模型很快可能会变得 context-aware,能够管理自己的上下文。
现在模型并不知道自己的上下文窗口还有多长;到了八成时,自动压缩会被触发,但模型工作时并不意识到这一点。也许模型应该知道:我快到八成了。
工具调用的中间结果会被自动裁剪;这里面有上下文删除、上下文添加、上下文压缩。现在这些来自 harness,但启发式工程也会帮助模型把这些能力吸收到自身。
想象模型能看到 agent harness 的全部代码,并且能按需要修改它:读长文时,它可以选择分块读完再合并总结,也可以只读前两百行丢掉其余。若这些选择由模型自己做,就像模型在测试时在线编程自己。
兴趣匹配度非常高。这段和 Hermes / OpenClaw 的实践几乎直接相关:今天我们通过系统提示词、工具规则、文件读取限制、压缩策略和子 agent 分工来管理上下文;未来更强的模型可能把这些策略内化,并在测试时修改自己的执行框架。真正的前沿不是更长窗口本身,而是模型对自己工作环境的自我感知和自我调度。
整体判断
这篇最值得带走的判断是:视频生成会沿着 AI 编程的路径演化。第一阶段是单次生成质量的竞赛,第二阶段是生成成本和速度的竞赛,第三阶段则是 agent 化:模型不再直接交付一个最终视频,而是规划目标、调用工具、生成素材、剪辑修正、检索历史、管理上下文,并在长时间任务中持续迭代。
对汉松最有价值的 takeaway 是:未来很多看似属于视觉模型的问题,最后会落到语言、上下文和工具编排上。Video agent、世界模型、生成式 UI、机器人和 LLM Agent 其实都在逼近同一个系统问题:如何让模型在长时间、多模态、可交互的环境中管理状态、选择历史、调用工具,并承担越来越长的任务链条。这里面的核心能力,不是单个模型参数量,而是把模型放进一个能持续行动、持续验证、持续压缩和持续学习的系统里。