跳到正文
汉松札记
返回

生产环境中的 Agent:OpenGov 如何构建并扩展 OG Assist 高亮

AI Highlight

来源

生产环境中的 Agent:OpenGov 如何构建并扩展 OG Assist 高亮

文本来源是 AI Engineer 频道视频《生产环境中的 Agent:OpenGov 如何构建并扩展 OG Assist》的中文可读转写稿。下面按汉松兴趣画像优先保留机制解释、反常识判断和可复用 workflow,而不是做普通摘要。

一、评估、反馈与故障闭环

背景

这组高亮抓住《生产环境中的 Agent:OpenGov 如何构建并扩展 OG Assist》里最值得保留的反馈闭环:Agent 系统的可靠性主要来自可观测、可复现、可评分的外部结构,而不是一次性把 prompt 写得更漂亮。

在 CI 里,我们会让 evals 跑真实 completions,所以可以测试 prompt:它有没有命中某些 tools?它有没有做它该做的事?

我们在 agents 团队会用多种方式做 evals 和收集反馈。显然,会有人打电话给我们、发邮件给我们,或者直接告诉我们。

因为我们只需要和这个 spec 对齐并遵循它,就知道这就是前端和后端都会消费和生产的 contract。所以我会说,这对我们也很有帮助。

兴趣匹配度很高。它对应汉松持续关注的 Agent 工程化主线:把非确定性系统放进可反馈、可回归、可复盘的闭环里,真正的壁垒在 harness、eval、trace 和人类分诊。

二、上下文、记忆与检索边界

背景

这里讨论的是 Agent 能否拿到正确材料的问题。对汉松有价值的点在于,它把上下文从背景信息变成系统的运行材料:可索引、可缓存、可审计,也可被重新组织。

在 OG Assist 里,我们遇到过很多障碍,尤其是 legacy models 的 token limits,或者上下文太多、完全被上下文淹没的问题,特别是当对话变得更长时。我们发现,相比总是塞入最新、最近的消息,某种 rolling summarization 更有效。

所以这就是我们处理 long context 和 memory 的方式,而且对我们效果很好。因此我想分享一下我们是如何解决 long context 问题的。

agent 能够发起 tool calls,查询该产品套件内数据里的信息。所以,通过我们构建的 OG Assist 能力,以第一方方式创造这类体验,这一点很酷。

兴趣匹配度很高。这是上下文工程的核心问题:不是给模型更多字,而是让模型在正确边界内获得正确材料,并让材料本身可维护、可验证、可复用。

三、工具、系统与工程约束

背景

这组摘录偏工程实现。它关心的不是模型能力的抽象上限,而是工具、接口、基础设施和生产约束如何决定 Agent 最终能不能稳定工作。

所以这确实是我们实现 tools、最终实现 skills 的 building blocks,而且已经给我们的组织带来了非常好的回报。因此我真的推荐大家试试 Effect 的 Effect AI package,也试试构建自己的 tools 和 skills。

这是我们构建的一个很酷的功能:如果某个 tool call 需要审批,我们会以确定性的方式中断 agent loop。如果 agent 试图发起一个需要人类批准的 tool call,就会展示这个 UI,人类可以点击接受或拒绝。

它是一种安全、短暂、隔离的空间,agent 可以在其中采取动作,而我们不用担心这些动作会给生产系统带来风险。

兴趣匹配度高。这里能迁移到实际团队建设:工具选择、数据流、权限、成本、延迟和部署形态,往往比单点模型参数更能决定系统上限。

四、人类判断、组织与协作方式

背景

这部分把人放回系统设计里。Agent 越强,越需要人类承担领域判断、目标选择、风险边界和协作组织,而不是把全部责任交给模型。

我叫 Gabe,是 OpenGov 的软件工程师,在 AI agents 团队工作,也是帮助构建 OG Assist 以及今天会看到的一些系统的人之一。再简单说说 OpenGov。

对我们 Agents 团队来说,它真的帮助我们设计并构建核心 agent loop。在整个分享里,你会陆续看到 Effect 如何给我们团队带来回报。

所以你从 Effect 得到的所有好东西,现在都会贯穿整个 Agent Loop,比如 tracing、structured concurrency、logging,一切都有更细粒度的控制。这真的让我们能够释放从零构建自有 Agent Loop 的全部潜力。

兴趣匹配度高。它符合汉松的人机共生框架:AI 承担生成和探索,人类承担判断、责任、品味和组织设计,把人的稀缺性放在更高杠杆的位置。

五、Prompt、规格与行为设计

背景

这里的重点是行为设计。Prompt 不是一句魔法咒语,而是一套分层约束、规格、角色、语气和上下文组合出来的系统界面。

很酷的一点是,底层的 language model 因为我们在做 dependency injection,所以如果我们要热切换到另一个模型,就可以传入不同的 language model。总体来说,完全掌控自己的 Agent Loop 给了我们所有可调节的杠杆,也真正释放了模型的完整能力。

我们会讲 OpenGov 在做什么,以及我们如何在生产环境中按现在的规模运行,所以你们能够看到一个真实的 AI agent 用例和工作负载。闲话少说,我们开始吧。

有意思的是,我们在为面向客户的 agents 构建 tools 和 skills,这很好,但我们也在内部构建它们,用来加速开发工作流。比如 Claude、Cursor、Claude agents,它们确实帮助我们加速阅读代码、编写代码、review 代码和发布。

兴趣匹配度很高。它把 prompt 从技巧提升为系统设计问题,适合沉淀到汉松的 AI 协作和 agent workflow 方法论里。

整体判断

这篇内容最值得保留的是它把《生产环境中的 Agent:OpenGov 如何构建并扩展 OG Assist》从一次视频分享转成了可迁移的系统判断。核心素材集中在评估、反馈与故障闭环、上下文、记忆与检索边界、工具、系统与工程约束。对汉松后续写作和团队实践来说,它可以作为 AI Agent 工程化素材库的一块:不是追逐单个工具功能,而是持续追问系统如何获得上下文、如何被评估、如何进入生产闭环,以及人类判断应该放在哪些关键节点。


订阅 AI Highlight

分享这篇文章:


上一篇
浏览器 Agent 需要的不是更好的模型,而是更好的眼睛高亮
下一篇
用 TurboQuant 加速你的 Agent 检索高亮