跳到正文
汉松札记
返回

语音输入,视觉输出:痛苦与狂喜高亮

AI Highlight

来源

语音输入,视觉输出:痛苦与狂喜高亮

文本来源是 AI Engineer 频道视频《语音输入,视觉输出:痛苦与狂喜》的中文可读转写稿。下面按汉松兴趣画像优先保留机制解释、反常识判断和可复用 workflow,而不是做普通摘要。

一、评估、反馈与故障闭环

背景

这组高亮抓住《语音输入,视觉输出:痛苦与狂喜》里最值得保留的反馈闭环:Agent 系统的可靠性主要来自可观测、可复现、可评分的外部结构,而不是一次性把 prompt 写得更漂亮。

所以你需要重度依赖这种架构。我认为对于大多数应用,我们都在朝这个方向移动。

所以我们在 Forestwalk 做的是:构建一个在通话中陪伴我们的 agent,它可以实时帮我们处理事情。

但到目前为止,大多数人经历过的语音界面体验,更像是在试图让 Siri 开灯但一直失败,或者像这个人一样,想让 ChatGPT voice mode 做事,但它总是尴尬又困惑,对吧?到目前为止,我们拥有的模型,以及大多数人见过的体验,既慢又笨。

兴趣匹配度很高。它对应汉松持续关注的 Agent 工程化主线:把非确定性系统放进可反馈、可回归、可复盘的闭环里,真正的壁垒在 harness、eval、trace 和人类分诊。

二、上下文、记忆与检索边界

背景

这里讨论的是 Agent 能否拿到正确材料的问题。对汉松有价值的点在于,它把上下文从背景信息变成系统的运行材料:可索引、可缓存、可审计,也可被重新组织。

所以第一点是,你需要有一个快速模型。显然,你提供给它的 context 也要足够短,让它能在几百毫秒内响应。

所以,如果我们希望在一秒内让某个东西出现在屏幕上,那么我们就希望 inference 能在用户说话时更积极地响应,即使我们还不能完全确定他们已经停止说话。我们要愿意在他们说话过程中每 1 到 2 秒发送一次 inference。

GPT-5 mini 发布时,我们很兴奋,因为我们觉得,好,我们得到了一个更智能的模型,而且按理说它会很快。但实际使用中,我们看到的是 5000 毫秒、7000 毫秒 P95 的 latency,有时这个小模型甚至达到 10000 毫秒 latency。

兴趣匹配度很高。这是上下文工程的核心问题:不是给模型更多字,而是让模型在正确边界内获得正确材料,并让材料本身可维护、可验证、可复用。

三、工具、系统与工程约束

背景

这组摘录偏工程实现。它关心的不是模型能力的抽象上限,而是工具、接口、基础设施和生产约束如何决定 Agent 最终能不能稳定工作。

所以我们可以获得这样的体验:模型返回可视化内容,解释事物,帮助我们理解,并传达这些模型的回答。它们可以给我们交互式控件,让我们探索、理解、修改、改变并引导模型。

所以最后我想分享三件我们认为非常重要的事,它们能帮助系统进入那个 latency 窗口,并让使用者觉得体验真的很顺畅。第一点是:为了以无缝的方式回应,你必须使用一个非常快的模型。

所以,对于 voice in voice out 来说,确实有一些绕开的办法。但同时,我们也不需要等待新的架构。

兴趣匹配度高。这里能迁移到实际团队建设:工具选择、数据流、权限、成本、延迟和部署形态,往往比单点模型参数更能决定系统上限。

四、人类判断、组织与协作方式

背景

这部分把人放回系统设计里。Agent 越强,越需要人类承担领域判断、目标选择、风险边界和协作组织,而不是把全部责任交给模型。

如果我们希望实现完整的对话感,让人们说话时可以打断、插话、表示同意,并形成那种连接感,那么完整的 voice in voice out 对话需要 200 毫秒或更低的 latency。

不过,到目前为止,我们构建和使用 AI 的方式大多不是这样。我们一直在打字给它,它也打字回复我们,也许带一点 Markdown。

所以我们当然一直希望产品能够以这么快的速度响应。有时我们能做到,但考虑到网络和其他因素,具体要完成什么工作会让这件事变得很有挑战。

兴趣匹配度高。它符合汉松的人机共生框架:AI 承担生成和探索,人类承担判断、责任、品味和组织设计,把人的稀缺性放在更高杠杆的位置。

五、Prompt、规格与行为设计

背景

这里的重点是行为设计。Prompt 不是一句魔法咒语,而是一套分层约束、规格、角色、语气和上下文组合出来的系统界面。

所以,你确实需要一个 Haiku 级别的模型来承担这种实时响应,或者使用某个更小的开源模型。如果有一大块更重的工作需要完成,那么这个模型可以把任务交给,或者发送一条异步消息给一个更大的、能够思考的模型。

所以,视觉输出这部分的上限确实被抬高了。模型在回应时能做的事情多了很多。

我很想听听任何正在探索和实验的人,不管你们是在做 real-time,还是在用任何方式推动这些模型创造更好体验的边界。我很愿意交流,分享我们学到的东西。

兴趣匹配度很高。它把 prompt 从技巧提升为系统设计问题,适合沉淀到汉松的 AI 协作和 agent workflow 方法论里。

整体判断

这篇内容最值得保留的是它把《语音输入,视觉输出:痛苦与狂喜》从一次视频分享转成了可迁移的系统判断。核心素材集中在评估、反馈与故障闭环、上下文、记忆与检索边界、工具、系统与工程约束。对汉松后续写作和团队实践来说,它可以作为 AI Agent 工程化素材库的一块:不是追逐单个工具功能,而是持续追问系统如何获得上下文、如何被评估、如何进入生产闭环,以及人类判断应该放在哪些关键节点。


订阅 AI Highlight

分享这篇文章:


上一篇
端侧前沿成果高亮
下一篇
结构化非结构化内容高亮