来源

原始链接：https://www.youtube.com/watch?v=65X0pQ6Lmbg
来源类型：视频逐字稿
来源标题：语音输入，视觉输出：痛苦与狂喜

语音输入，视觉输出：痛苦与狂喜高亮

文本来源是 AI Engineer 频道视频《语音输入，视觉输出：痛苦与狂喜》的中文可读转写稿。下面按汉松兴趣画像优先保留机制解释、反常识判断和可复用 workflow，而不是做普通摘要。

一、评估、反馈与故障闭环

背景

这组高亮抓住《语音输入，视觉输出：痛苦与狂喜》里最值得保留的反馈闭环：Agent 系统的可靠性主要来自可观测、可复现、可评分的外部结构，而不是一次性把 prompt 写得更漂亮。

所以你需要重度依赖这种架构。我认为对于大多数应用，我们都在朝这个方向移动。

所以我们在 Forestwalk 做的是：构建一个在通话中陪伴我们的 agent，它可以实时帮我们处理事情。

但到目前为止，大多数人经历过的语音界面体验，更像是在试图让 Siri 开灯但一直失败，或者像这个人一样，想让 ChatGPT voice mode 做事，但它总是尴尬又困惑，对吧？到目前为止，我们拥有的模型，以及大多数人见过的体验，既慢又笨。

兴趣匹配度很高。它对应汉松持续关注的 Agent 工程化主线：把非确定性系统放进可反馈、可回归、可复盘的闭环里，真正的壁垒在 harness、eval、trace 和人类分诊。

二、上下文、记忆与检索边界

背景

这里讨论的是 Agent 能否拿到正确材料的问题。对汉松有价值的点在于，它把上下文从背景信息变成系统的运行材料：可索引、可缓存、可审计，也可被重新组织。

所以第一点是，你需要有一个快速模型。显然，你提供给它的 context 也要足够短，让它能在几百毫秒内响应。

所以，如果我们希望在一秒内让某个东西出现在屏幕上，那么我们就希望 inference 能在用户说话时更积极地响应，即使我们还不能完全确定他们已经停止说话。我们要愿意在他们说话过程中每 1 到 2 秒发送一次 inference。

GPT-5 mini 发布时，我们很兴奋，因为我们觉得，好，我们得到了一个更智能的模型，而且按理说它会很快。但实际使用中，我们看到的是 5000 毫秒、7000 毫秒 P95 的 latency，有时这个小模型甚至达到 10000 毫秒 latency。

兴趣匹配度很高。这是上下文工程的核心问题：不是给模型更多字，而是让模型在正确边界内获得正确材料，并让材料本身可维护、可验证、可复用。

三、工具、系统与工程约束

背景

这组摘录偏工程实现。它关心的不是模型能力的抽象上限，而是工具、接口、基础设施和生产约束如何决定 Agent 最终能不能稳定工作。

所以我们可以获得这样的体验：模型返回可视化内容，解释事物，帮助我们理解，并传达这些模型的回答。它们可以给我们交互式控件，让我们探索、理解、修改、改变并引导模型。

所以最后我想分享三件我们认为非常重要的事，它们能帮助系统进入那个 latency 窗口，并让使用者觉得体验真的很顺畅。第一点是：为了以无缝的方式回应，你必须使用一个非常快的模型。

所以，对于 voice in voice out 来说，确实有一些绕开的办法。但同时，我们也不需要等待新的架构。

兴趣匹配度高。这里能迁移到实际团队建设：工具选择、数据流、权限、成本、延迟和部署形态，往往比单点模型参数更能决定系统上限。

四、人类判断、组织与协作方式

背景

这部分把人放回系统设计里。Agent 越强，越需要人类承担领域判断、目标选择、风险边界和协作组织，而不是把全部责任交给模型。

如果我们希望实现完整的对话感，让人们说话时可以打断、插话、表示同意，并形成那种连接感，那么完整的 voice in voice out 对话需要 200 毫秒或更低的 latency。

不过，到目前为止，我们构建和使用 AI 的方式大多不是这样。我们一直在打字给它，它也打字回复我们，也许带一点 Markdown。

所以我们当然一直希望产品能够以这么快的速度响应。有时我们能做到，但考虑到网络和其他因素，具体要完成什么工作会让这件事变得很有挑战。

兴趣匹配度高。它符合汉松的人机共生框架：AI 承担生成和探索，人类承担判断、责任、品味和组织设计，把人的稀缺性放在更高杠杆的位置。

五、Prompt、规格与行为设计

背景

这里的重点是行为设计。Prompt 不是一句魔法咒语，而是一套分层约束、规格、角色、语气和上下文组合出来的系统界面。

所以，你确实需要一个 Haiku 级别的模型来承担这种实时响应，或者使用某个更小的开源模型。如果有一大块更重的工作需要完成，那么这个模型可以把任务交给，或者发送一条异步消息给一个更大的、能够思考的模型。

所以，视觉输出这部分的上限确实被抬高了。模型在回应时能做的事情多了很多。

我很想听听任何正在探索和实验的人，不管你们是在做 real-time，还是在用任何方式推动这些模型创造更好体验的边界。我很愿意交流，分享我们学到的东西。

兴趣匹配度很高。它把 prompt 从技巧提升为系统设计问题，适合沉淀到汉松的 AI 协作和 agent workflow 方法论里。

整体判断

这篇内容最值得保留的是它把《语音输入，视觉输出：痛苦与狂喜》从一次视频分享转成了可迁移的系统判断。核心素材集中在评估、反馈与故障闭环、上下文、记忆与检索边界、工具、系统与工程约束。对汉松后续写作和团队实践来说，它可以作为 AI Agent 工程化素材库的一块：不是追逐单个工具功能，而是持续追问系统如何获得上下文、如何被评估、如何进入生产闭环，以及人类判断应该放在哪些关键节点。