Video Agents：视频生成的下一站是 Agent

来源

原始链接：https://www.latent.space/p/video-agents?utm_source=post-email-title&publication_id=1084089&post_id=200078058&utm_campaign=email-post-title&isFreemail=true&r=27lk8i&triedRedirect=true&utm_medium=email
来源类型：网页正文（访谈逐字稿）
来源标题：视频生成技术前沿与未来趋势：从 Grok Imagine 到世界模型的演进路径

这期 Latent Space 采访 Ethan He，表面主题是 Grok Imagine、视频生成和世界模型，真正有价值的是一个更大的判断：视频生成正在走 AI 编程已经走过的路。早期大家比较单次输出质量、成本和速度；模型能力到达一定阈值后，竞争点会转向规划、工具调用、迭代、编辑、上下文管理和长程任务执行。换句话说，下一代 Sora 可能不是更强的视频模型，而是 video agent。

按汉松兴趣画像，这篇最值得保留的不是某个模型发布细节，而是几个可迁移机制：算力如何转化为迭代速度，视频模型为什么越来越依赖语言智能，世界模型的工程约束是什么，长上下文问题如何在视频和 LLM Agent 中同时出现，以及未来的生成式媒体系统为什么会更像一个工具编排系统。

一、前沿模型的速度来自低沟通带宽和高迭代密度

背景

Ethan 回顾 xAI 小团队三个月从零构建 Grok Imagine 0.9 时，没有把关键归因于某个神秘算法。他反复强调的是组织形态、基础设施和迭代速度。这里有一个很适合迁移到 AI 团队和 Agent 工程的判断：前沿研发的核心资源不是抽象的算力，而是每天能完成多少次有效实验循环。

最重要的是人才。每个人都很强、很聪明，而且彼此非常贴近，朝着同一个目标前进。这样会大幅加快速度，因为团队之间的沟通带宽被压低了。每天可能只有一次同步会，之后就是一直在构建。

训练模型时，最重要的事情之一是：你每天能做多少次迭代？迭代越多，模型训练得越快。强基础设施和大量算力会给你更大的犯错缓冲，也让你有机会发现更多 bug。

很多改进并不是来自新算法，而是来自在数据流水线、模型训练流水线里找到一些小 bug。这些地方反而会给模型质量带来最大的提升。

兴趣匹配度很高。这组内容的价值在于把大模型研发还原成工程系统：算力不是单独产生优势，算力通过缩短实验闭环、提高 bug 暴露频率、放大团队判断速度来产生优势。对汉松自己的团队管理也有启发：如果要做 AI 创新业务，真正要优化的是从想法到验证的循环时间，而不是会议里的路线图完整度。

二、AI 编程压缩实现时间后，瓶颈会重新回到算力和决策

背景

Ethan 讲到编码模型时，给出了一个很有意思的瓶颈迁移：以前想法多，但实现慢；现在 AI 能几小时写出新数据生成流程或新训练算法，真正的问题变成有没有足够算力去试完这些想法，以及有没有判断力决定试什么。

早期编码模型能很快写出东西，但有时会产出难以维护的意大利面代码，几千行代码连我自己都维护不了，模型本身也搞不清哪里错了、该怎么继续改。

现在编码模型效率高得多，可以更快帮我们实现想法。过去如果要生成新合成数据或写新算法，可能要几周；现在几小时就能做出来，然后立刻训练模型。于是你必须有足够算力去尝试所有想法，算力又重新变成迭代速度的瓶颈。

很多这些工作现在可以被编码模型自动化，这很好。但这是一场马拉松，所以你必须保持健康和规律作息。

兴趣匹配度高。这里有一个很现实的 AI coding 判断：AI 把 How 的摩擦大幅降低后，瓶颈会迁移到 What、资源调度和可持续节奏。它也提醒我们，Agent workflow 的关键不是让模型无限多写代码，而是控制复杂度、管理实验队列、验证结果，并让人类保持长期判断能力。

三、视频模型的很多智能其实来自语言模型

背景

这是全文最反常识的一组判断。Ethan 认为，随着扩散模型技术成熟，近期香港视频模型的很多质量提升并不是来自视频分布模型本身，而是来自语言模型、prompt rewriting、工具调用和前置规划。视频模型更像一个执行器，语言模型负责把用户的模糊意图改写成可生成的精确规格。

我有一个很大的判断：视觉智能其实大多来自语言。现在这些视频模型的改进，主要不是来自视频扩散模型本身，而是来自语言模型。

视频模型本身有点笨，它会非常字面地执行输入。你只说一只猫，它可能就在白背景里放一只不动的猫，因为你没有描述背景，也没有描述动作。

Prompt rewriter 是更大的语言模型，它把用户简单的指令扩展成极其详细的视频描述；所谓思考过程，很大一部分就在这里。生成一张图花三分钟，并不全是在生成像素，很多时间是在思考。

不用任何联合训练，仅仅加上重写，效果就已经好很多。

兴趣匹配度非常高。这是上下文工程在视频生成里的具体形态：模型质量不只取决于生成器，也取决于输入如何被重写、补全、规划和约束。它和 AI coding 很像：最终产物看起来是代码或视频，但真正的智能可能发生在任务分解、上下文补充、工具选择和中间验证里。

四、Video Agent 的核心是把生成模型当工具，而不是一次性吐出成品

背景

Ethan 把 video agents 类比成 AI 编程工具的演化：从 Copilot 式辅助补全，到 Codex、Claude Code 这类更自动的长程执行。视频生成也会从一次性 prompt 生成，演化成一个 agent 调用生成模型、Photoshop、视频编辑器、FFmpeg 等工具，持续规划、生成、剪辑、检查和修改。

Video agents 主要是语言模型调用生成模型作为工具，不管那是独立模型、扩散头，还是别的形式。它可以迭代优化结果，也可以通过很长的思维链生成更长内容。

这很像人类创作艺术：我们并不是直接生成像素，而是先画一些东西，再不断修改。

这些模型不只把扩散模型当工具，也可以使用传统工具：Photoshop、视频编辑器、FFmpeg，把传统编辑工具和生成式 AI 组合成一套生产级工具链。

有时候视频好，并不真是因为视频模型强，而是因为剪辑做得好。

Grok Imagine Agent beta 是朝这个方向的第一次尝试：你可以让它生成一分钟视频，这对同一个 prompt 直接交给视频模型来说不可能，但 agent 会调用不同工具来完成。

兴趣匹配度很高。这组内容可以直接接到汉松长期关注的 agent workflow：生成式媒体的下一阶段不是更大的单体模型，而是把模型、传统工具、编辑器、状态管理和评价器编排成系统。最终质量的 alpha 可能来自 harness，而不是某个基础模型的单次输出。

五、世界模型不是会生成视频，而是实时、可交互、长时域

背景

世界模型这个词很容易被说空。Ethan 给出的定义很工程化：从视频角度看，世界模型要能实时响应交互，要能维持长期历史，还要在用户行动后持续生成合理结果。这个定义把世界模型从概念愿景拉回延迟、上下文长度、记忆和交互协议。

从视频角度看，世界模型就是实时、可交互、长时域的视频。第一，它要能通过键盘、鼠标、语音等模态交互，并合理响应。第二，它要实时：如果生成的是游戏，鼠标移动后模型要多快响应？专业玩家可能需要毫秒级响应；数字人语音交互可以宽松一些，也许 200 毫秒，但这依然很难。第三，它要能长时域生成，不是几秒钟，而是分钟、小时级。

即使 200 毫秒的实时语音交互也很难，因为视频模型里有来自 VAE 的时间压缩。如果不压缩时间维度，序列长度会爆炸。想让模型具备实时性，本质上就是一个上下文问题。

视频扩展是交互性的第一步，因为它解锁了长视频。普通视频生成模型给一个 prompt 或初始图像，生成一次就结束；但如果要延展到一分钟甚至更长，模型需要记住更早的角色、声音和场景，否则质量会逐步下降。

兴趣匹配度非常高。这里可以看到视频世界模型和 LLM Agent 的同构问题：任务越长，核心就越不是单次生成能力，而是状态压缩、历史选择、延迟控制和按需召回。所谓世界模型，首先是一套能在时间中承接行动和反馈的上下文系统。

六、长视频不该无限塞历史，而该学会动态取回需要的上下文

背景

Ethan 讲 reference video 和长上下文时，给出了一个非常适合迁移到 LLM Agent 的类比：视频里有大量冗余，角色中途消失时，没有必要把它完整保留在每一帧上下文里；但它重新出现时，模型又必须能取回相关信息。这其实就是视频领域的 memory retrieval。

视频里有大量冗余。比如一个角色在第一段出现，中间消失，最后又出现，你不需要在生成中间部分时一直保留这个角色的全部上下文，只需要在它重新出现时取回相关信息。

有些方法会用启发式规则处理历史：最近一秒保留完整历史，更早的历史就压缩成更小的视频，总序列长度保持固定。离当前帧越远，图像就越小。但这仍然只是启发式。更理想的是模型自己知道该选择哪段历史。

类似的问题也出现在 LLM 里：工具调用历史越来越长，即使话题切换，整个上下文还在那里；一些 agent harness 会裁剪工具结果，比如只显示文件前 200 行，但这些也都是启发式。持续学习的一个突破，可能就是模型能自动管理自己的上下文。

普通 attention 必须关注所有 token，它没有一种高层机制来决定哪些 token 不值得看。人类的注意力范围其实很小，但人类注意力之所以能工作，是因为我们能从不同地方动态拉取上下文。我认为同样的机制会发生在 LLM 和视频模型里。

兴趣匹配度极高。这几段几乎就是上下文工程的核心问题：未来不是单纯追求无限上下文，而是让模型知道什么时候保留、什么时候丢弃、什么时候压缩、什么时候召回。这里也解释了为什么 agent harness 的设计会成为模型能力的一部分：今天的启发式工程，可能就是明天模型内化的行为样本。

七、推理加速的机制：学生学的不是互联网，而是老师模型

背景

视频生成要成为交互式系统，推理速度必须数量级提升。Ethan 对 step distillation 的解释很清楚：学生模型不是直接学习整个互联网图像和视频分布，而是学习一个固定老师模型的输出分布。这个分布更简单，所以可以把上百步生成压缩成几步。

原本 flow matching 模型可能要 100 步，扩散模型甚至要 1000 步才能生成好图或视频；step distillation 让一个只生成 10 步的模型去学习 100 步老师模型的输出。

老师模型要拟合的是互联网图像和视频的复杂分布，而学生模型只是在学习一个固定大小的老师模型，这个分布比整个互联网简单得多。所以生产环境里的模型通常只跑少数几步，比如 4 步、8 步，简单任务甚至可以 1 步。

GAN 其实是一步生成的源头之一。普通生成模型被要求从互联网数据中重构真实图像，这非常难；GAN 更像是生成一张图，再由判别器判断它像不像真实图像。模型不需要重构完整真实样本，只需要学到某种真实分布。

兴趣匹配度中高。这组内容的价值在于把生成模型推理加速讲成了一个可迁移机制：先用慢而强的流程产生高质量轨迹，再蒸馏成快而便宜的执行器。这个思路也可以类比到 Agent：先让强模型跑完整推理和工具链，再把稳定模式沉淀成更低成本的流程、技能或专用模型。

八、自我管理上下文与自修改 harness，可能是 LLM 下一阶段

背景

采访最后，Ethan 解释了自己为什么从视频模型转向 LLM。他认为视频模型的瓶颈越来越多地落在语言、agent 和上下文管理上。对未来一年 LLM 的预测里，他特别提到 context-aware model：模型知道自己的上下文状态，知道何时压缩、何时添加元信息，甚至可以修改自己的 agent harness。

语言模型很快可能会变得 context-aware，能够管理自己的上下文。

现在模型并不知道自己的上下文窗口还有多长；到了八成时，自动压缩会被触发，但模型工作时并不意识到这一点。也许模型应该知道：我快到八成了。

工具调用的中间结果会被自动裁剪；这里面有上下文删除、上下文添加、上下文压缩。现在这些来自 harness，但启发式工程也会帮助模型把这些能力吸收到自身。

想象模型能看到 agent harness 的全部代码，并且能按需要修改它：读长文时，它可以选择分块读完再合并总结，也可以只读前两百行丢掉其余。若这些选择由模型自己做，就像模型在测试时在线编程自己。

兴趣匹配度非常高。这段和 Hermes / OpenClaw 的实践几乎直接相关：今天我们通过系统提示词、工具规则、文件读取限制、压缩策略和子 agent 分工来管理上下文；未来更强的模型可能把这些策略内化，并在测试时修改自己的执行框架。真正的前沿不是更长窗口本身，而是模型对自己工作环境的自我感知和自我调度。

整体判断

这篇最值得带走的判断是：视频生成会沿着 AI 编程的路径演化。第一阶段是单次生成质量的竞赛，第二阶段是生成成本和速度的竞赛，第三阶段则是 agent 化：模型不再直接交付一个最终视频，而是规划目标、调用工具、生成素材、剪辑修正、检索历史、管理上下文，并在长时间任务中持续迭代。

对汉松最有价值的 takeaway 是：未来很多看似属于视觉模型的问题，最后会落到语言、上下文和工具编排上。Video agent、世界模型、生成式 UI、机器人和 LLM Agent 其实都在逼近同一个系统问题：如何让模型在长时间、多模态、可交互的环境中管理状态、选择历史、调用工具，并承担越来越长的任务链条。这里面的核心能力，不是单个模型参数量，而是把模型放进一个能持续行动、持续验证、持续压缩和持续学习的系统里。