来源

原始链接：https://www.youtube.com/watch?v=akk6KRlcwW4
来源类型：视频逐字稿
来源标题：手中的 OpenClaw：构建一个实体 AI 终端

手持 AI 终端 OpenClaw 高亮

这篇演讲展示了一个非常具体的 AI-native 设备原型：双屏、低功耗、微控制器、本地后端和 OpenClaw agent。它的价值不是“又做了一个硬件玩具”，而是把 agent 交互从网页聊天框拉回到实体终端、安静阅读和可持有的计算设备上。

一、AI-native 设备可以先从文本终端开始

背景

演讲者最初只是想为 DGX Spark 上的 OpenClaw 实例做远程控制器，但他很快意识到，LLM 最自然的入口仍是文本，因此实体终端不必从摄像头、音频或彩屏开始。

我真正想做的是一个实体的、AI-native 的设备。它像是来自未来的设备。

整个故事的起点很简单：我只是想为自己在 DGX Spark 上的 OpenClaw 实例做一个远程控制器。

当你最先想到 LLM 时，你想到的通常不是音频，也不是生成式视频或图片，而是文本。于是我产生了一个想法：也许我可以用某种更好的显示屏，来和我的 LLM 阅读与输入文本。

兴趣匹配判断：这对“AI 终端”概念很有启发。下一代 agent 设备不一定是摄像头眼镜或语音助手，也可能是让文本、命令、阅读和低干扰交互重新变得好用的物理终端。

二、双屏不是噱头，而是把输入与稳定阅读分层

背景

OpenClaw 使用 OLED 和电子纸：OLED 负责动态输入，电子纸负责稳定渲染。这是一个很清楚的交互分工，也解释了为什么硬件选择会影响 agent 体验。

我在设计里采用了一个简单组合：一块小型单色 OLED 显示屏，加上一块电子纸显示屏。

一个是 live surface，也就是动态部分。你可以输入文本，所有输入内容都会显示在那里。当你触发动作、按下 Enter 之后，完整渲染也会出现在第二块双稳态电子纸上。

通过这种简单的双显示屏方案，我发现自己可以做出一个相当强大、也很节能的终端，用来和我的 Claw 一起工作。

兴趣匹配判断：这非常适合思考 agent UI：动态编辑区和稳定阅读区不应混在一起。对长文本、命令执行、游戏叙事和任务结果来说，电子纸的慢反而可能是优势。

三、真正的复杂度在端到端系统，而不是外壳

背景

这个设备看起来复古，但背后包含 MCU、显示、供电、后端、LLM proxy、OpenClaw agent 和本地开源模型。演讲者反复强调，AI-native 设备不是把聊天框塞进硬件。

MCU 侧没有 markdown engine，也没有 malloc。

端到端的 AI-native 设备并没有那么简单，因为它有较高的功耗，也需要设备具备相当的计算能力。所以这里有一个完整的 backend。

终端上部署了 vault firmware；然后有一个大型 backend，用来处理所有和 OpenClaw 相关的 agentic 工作，并处理 LLM。

我还暴露了 OpenAI 风格的接口，也像一个 LLM proxy。原因是我在使用其他开源模型时撞了很多墙，因为并不是所有模型都符合 OpenAI API 的风格。

兴趣匹配判断：这对应 agent 硬件的第一性问题：设备本身只是“手”，模型和 agentic 工作需要后端承接；接口兼容、模型服务、固件限制和权限边界共同决定产品可用性。

四、低干扰 AI 设备是一个被低估的市场空白

背景

演讲最有意思的产品判断，是反对所有 AI 设备都围绕音频、视频和摄像头。OpenClaw 把安静、阅读、写作和文字 RPG 作为核心场景。

大家都想围绕音频接口、视频捕获这类东西来构建设备。但在安静的场所，当你只想坐下来、保持平静、玩自己的 RPG 游戏时，你并不需要彩色而强大的显示屏。

有时你只是想坐下来，用 OpenClaw 做该做的事，或者和你的 LLM 聊天，在安静环境中阅读和写作，不受任何干扰。这里存在一个市场空白。

让显示屏承担它该做的工作。把模型放在金属之外，因为它真的很重。

兴趣匹配判断：这和“人机共生”的低刺激界面非常相关。AI 设备不一定要更吵、更主动、更沉浸；它也可以成为一个慢的、安静的、文本优先的认知容器。

五、RPG 模式暴露了 LLM 终端的娱乐与叙事潜力

背景

演讲者最喜欢的功能不是控制 DGX，而是 RPG 模式。它把 LLM 的世界生成、NPC、memory、地图和氛围能力接到一个手持终端上。

我构建了一个 RPG 游戏和一个 console，它给了我一种纯粹的文本 RPG、也就是角色扮演游戏体验。其实这有点有趣，因为这个设备真的非常适合这种游戏。

我围绕它构建了 NPC 和 memory。我创建了世界的氛围、内容和 ominous 感，并利用 LLM 的各种优势，尽量做出最好的角色扮演游戏体验。

这场演讲讲的是一个手持设备，用来控制 agent 和 OpenClaw，并配合本地 LLM 使用；但整体来说，它其实是在讲一个 Game Boy。一个用来和 LLM 一起玩的设备。

兴趣匹配判断：这条很有想象力。实体 agent 终端不只是生产力工具，也可能成为新的叙事机器：低分辨率、文本、记忆和慢交互，反而让生成式游戏更有质感。

整体判断

这篇的兴趣匹配度很高，尤其适合延展“AI 终端”的产品想象。OpenClaw 说明：实体 AI 设备的核心不是把模型压进硬件，而是设计一个端到端系统，让硬件承担输入、显示和环境约束，让后端承担模型与 agentic 工作。它同时提供了一个反主流判断：低干扰、文本优先、安静可读的 AI 设备，可能比摄像头和语音优先的设备更适合深度协作与长期陪伴。

手中的 OpenClaw：构建一个实体 AI 终端高亮

来源