跳到正文
汉松札记
返回

结构化非结构化内容高亮

AI Highlight

来源

结构化非结构化内容高亮

文本来源是 AI Engineer 频道视频《结构化非结构化内容》的中文可读转写稿。下面按汉松兴趣画像优先保留机制解释、反常识判断和可复用 workflow,而不是做普通摘要。

一、评估、反馈与故障闭环

背景

这组高亮抓住《结构化非结构化内容》里最值得保留的反馈闭环:Agent 系统的可靠性主要来自可观测、可复现、可评分的外部结构,而不是一次性把 prompt 写得更漂亮。

当用户提问时,完整的检索索引通常是数据库中的数千个向量,需要做语义相似度匹配来找出与问题最相关的部分。但在这里,我们只需要一份包含每个章节摘要大纲的 markdown 文档。

无论是 RAG(Retrieval Augmented Generation,检索增强生成)用来基于这些数据回答问题,还是用来微调一个新的专业模型,数据都是这些应用背后的关键要素。不管你用的是 NVIDIA 加速、开源模型还是私有模型,数据本身及其处理方式才是决定最终给用户或客户的答案是否正确的核心因素。

关键点是:我们在做 RAG,但不需要 chunker、embedding 模型或向量数据库。检索索引(retrieval index)就是文档的 markdown 大纲。

兴趣匹配度很高。它对应汉松持续关注的 Agent 工程化主线:把非确定性系统放进可反馈、可回归、可复盘的闭环里,真正的壁垒在 harness、eval、trace 和人类分诊。

二、上下文、记忆与检索边界

背景

这里讨论的是 Agent 能否拿到正确材料的问题。对汉松有价值的点在于,它把上下文从背景信息变成系统的运行材料:可索引、可缓存、可审计,也可被重新组织。

但问题在于,无论你使用什么模型或 agent,都有大量数据因为以非结构化格式存在而无法被正确利用。我说的包括 PDF、演示文稿、合同、技术文档,甚至会议纪要、扫描件、图表、表格、图片等等。

这是 Docling 提供的模型之一,可用于处理源文档中含有客户 PII(个人身份信息)、需要在提取进应用前先移除的场景。我们还可以使用 VLM(视觉语言模型)来丰富文档中的源图片和图表,比如使用 Ollama 或第三方 LLM。

它与很多 RAG 框架、agentic 系统和 harness 都有集成,欢迎去尝试。

兴趣匹配度很高。这是上下文工程的核心问题:不是给模型更多字,而是让模型在正确边界内获得正确材料,并让材料本身可维护、可验证、可复用。

三、工具、系统与工程约束

背景

这组摘录偏工程实现。它关心的不是模型能力的抽象上限,而是工具、接口、基础设施和生产约束如何决定 Agent 最终能不能稳定工作。

先看看 MCP server 提供了哪些工具:有 conversion tools(转换工具)、generation tools(生成工具,比如处理 PDF 的特定部分),以及 manipulation tools(操作工具)。所有这些都提供给我们用 MCP server 配置的 LLM 和 agent。

Hugging Face 的 Leandro 有一个公开案例:他从 Common Crawl 的 PDF 中提取结构,使用 OCR 和 Docling 去掉某些部分、清洗数据,最终产出了来自网络各类 PDF 的数千 token 数据集,可用于训练模型。他用 Docling 在 CPU 上运行这一流程,相比直接使用 VLM(视觉语言模型)和 OCR,成本节省了 50 倍。

如果把这个发给模型,我不认为模型能从表格中提取具体信息,因为表格内容只是被线性地倾倒出来——对于需要提问或让 agent 做验证和提取的大多数场景来说,这种格式根本不适用。

兴趣匹配度高。这里能迁移到实际团队建设:工具选择、数据流、权限、成本、延迟和部署形态,往往比单点模型参数更能决定系统上限。

四、人类判断、组织与协作方式

背景

这部分把人放回系统设计里。Agent 越强,越需要人类承担领域判断、目标选择、风险边界和协作组织,而不是把全部责任交给模型。

不需要担心”它会不会把标题和副标题也带进来”——不会,我只要发票总金额和账单号,就能以 Pydantic 格式或最简单的方式从大文档中精确获取目标字段。下面进入演示环节。

“需要多次迭代,判断每个章节是否与用户问题相关,如果不够就继续拉取更多信息。这就是 chunkless RAG 在使用 Docling 这类工具时的工作方式。

我和我在 Red Hat 的团队一直在用它,因为我们有数千份 PDF 需要处理,主要来自产品文档,同时也有图片内容需要用视觉模型提取。Docling 只需 pip install docling,就能将单个文档、网站或其他任何内容转换为 markdown 或你想要的任何文件类型,并保留源文档的页面布局结构,不会因处理而丢失一致性。

兴趣匹配度高。它符合汉松的人机共生框架:AI 承担生成和探索,人类承担判断、责任、品味和组织设计,把人的稀缺性放在更高杠杆的位置。

五、Prompt、规格与行为设计

背景

这里的重点是行为设计。Prompt 不是一句魔法咒语,而是一套分层约束、规格、角色、语气和上下文组合出来的系统界面。

如果发送给一个每百万输出 token 收费 30 美元的模型,你可以想象,当需要处理几十、几百甚至很多组织动辄数千个 PDF 时,这个成本会有多高。此外,同一模型 5.1 版本和 5.2 版本之间的差异,会导致结构化输出每次都不一致。

它是一个快速、廉价,最重要的是可以本地运行的 CLI 和库,支持多种输入格式,可以转换为 markdown、JSON 以及 Pydantic 数据类型,在需要处理数千种不同格式并转换为 markdown 的场景下也能轻松扩展。我们这里渲染为 HTML,可以看到前面那个表格被完整导出了。

如你所知,世界上绝大多数数据都是非结构化的,无论你用什么模型,只要在处理 PDF 或其他非结构化格式的数据,就会相当棘手。市面上确实有一些解决方案,但它们可能是私有的,或者要求你把私有数据发送到别人的服务器。

兴趣匹配度很高。它把 prompt 从技巧提升为系统设计问题,适合沉淀到汉松的 AI 协作和 agent workflow 方法论里。

整体判断

这篇内容最值得保留的是它把《结构化非结构化内容》从一次视频分享转成了可迁移的系统判断。核心素材集中在评估、反馈与故障闭环、上下文、记忆与检索边界、工具、系统与工程约束。对汉松后续写作和团队实践来说,它可以作为 AI Agent 工程化素材库的一块:不是追逐单个工具功能,而是持续追问系统如何获得上下文、如何被评估、如何进入生产闭环,以及人类判断应该放在哪些关键节点。


订阅 AI Highlight

分享这篇文章:


上一篇
语音输入,视觉输出:痛苦与狂喜高亮
下一篇
递归式 Coding Agent 高亮