来源
- 原始链接:https://www.youtube.com/watch?v=akk6KRlcwW4
- 来源类型:视频逐字稿
- 来源标题:手中的 OpenClaw:构建一个实体 AI 终端
手持 AI 终端 OpenClaw 高亮
这篇演讲展示了一个非常具体的 AI-native 设备原型:双屏、低功耗、微控制器、本地后端和 OpenClaw agent。它的价值不是“又做了一个硬件玩具”,而是把 agent 交互从网页聊天框拉回到实体终端、安静阅读和可持有的计算设备上。
一、AI-native 设备可以先从文本终端开始
背景
演讲者最初只是想为 DGX Spark 上的 OpenClaw 实例做远程控制器,但他很快意识到,LLM 最自然的入口仍是文本,因此实体终端不必从摄像头、音频或彩屏开始。
我真正想做的是一个实体的、AI-native 的设备。它像是来自未来的设备。
整个故事的起点很简单:我只是想为自己在 DGX Spark 上的 OpenClaw 实例做一个远程控制器。
当你最先想到 LLM 时,你想到的通常不是音频,也不是生成式视频或图片,而是文本。于是我产生了一个想法:也许我可以用某种更好的显示屏,来和我的 LLM 阅读与输入文本。
兴趣匹配判断:这对“AI 终端”概念很有启发。下一代 agent 设备不一定是摄像头眼镜或语音助手,也可能是让文本、命令、阅读和低干扰交互重新变得好用的物理终端。
二、双屏不是噱头,而是把输入与稳定阅读分层
背景
OpenClaw 使用 OLED 和电子纸:OLED 负责动态输入,电子纸负责稳定渲染。这是一个很清楚的交互分工,也解释了为什么硬件选择会影响 agent 体验。
我在设计里采用了一个简单组合:一块小型单色 OLED 显示屏,加上一块电子纸显示屏。
一个是 live surface,也就是动态部分。你可以输入文本,所有输入内容都会显示在那里。当你触发动作、按下 Enter 之后,完整渲染也会出现在第二块双稳态电子纸上。
通过这种简单的双显示屏方案,我发现自己可以做出一个相当强大、也很节能的终端,用来和我的 Claw 一起工作。
兴趣匹配判断:这非常适合思考 agent UI:动态编辑区和稳定阅读区不应混在一起。对长文本、命令执行、游戏叙事和任务结果来说,电子纸的慢反而可能是优势。
三、真正的复杂度在端到端系统,而不是外壳
背景
这个设备看起来复古,但背后包含 MCU、显示、供电、后端、LLM proxy、OpenClaw agent 和本地开源模型。演讲者反复强调,AI-native 设备不是把聊天框塞进硬件。
MCU 侧没有 markdown engine,也没有 malloc。
端到端的 AI-native 设备并没有那么简单,因为它有较高的功耗,也需要设备具备相当的计算能力。所以这里有一个完整的 backend。
终端上部署了 vault firmware;然后有一个大型 backend,用来处理所有和 OpenClaw 相关的 agentic 工作,并处理 LLM。
我还暴露了 OpenAI 风格的接口,也像一个 LLM proxy。原因是我在使用其他开源模型时撞了很多墙,因为并不是所有模型都符合 OpenAI API 的风格。
兴趣匹配判断:这对应 agent 硬件的第一性问题:设备本身只是“手”,模型和 agentic 工作需要后端承接;接口兼容、模型服务、固件限制和权限边界共同决定产品可用性。
四、低干扰 AI 设备是一个被低估的市场空白
背景
演讲最有意思的产品判断,是反对所有 AI 设备都围绕音频、视频和摄像头。OpenClaw 把安静、阅读、写作和文字 RPG 作为核心场景。
大家都想围绕音频接口、视频捕获这类东西来构建设备。但在安静的场所,当你只想坐下来、保持平静、玩自己的 RPG 游戏时,你并不需要彩色而强大的显示屏。
有时你只是想坐下来,用 OpenClaw 做该做的事,或者和你的 LLM 聊天,在安静环境中阅读和写作,不受任何干扰。这里存在一个市场空白。
让显示屏承担它该做的工作。把模型放在金属之外,因为它真的很重。
兴趣匹配判断:这和“人机共生”的低刺激界面非常相关。AI 设备不一定要更吵、更主动、更沉浸;它也可以成为一个慢的、安静的、文本优先的认知容器。
五、RPG 模式暴露了 LLM 终端的娱乐与叙事潜力
背景
演讲者最喜欢的功能不是控制 DGX,而是 RPG 模式。它把 LLM 的世界生成、NPC、memory、地图和氛围能力接到一个手持终端上。
我构建了一个 RPG 游戏和一个 console,它给了我一种纯粹的文本 RPG、也就是角色扮演游戏体验。其实这有点有趣,因为这个设备真的非常适合这种游戏。
我围绕它构建了 NPC 和 memory。我创建了世界的氛围、内容和 ominous 感,并利用 LLM 的各种优势,尽量做出最好的角色扮演游戏体验。
这场演讲讲的是一个手持设备,用来控制 agent 和 OpenClaw,并配合本地 LLM 使用;但整体来说,它其实是在讲一个 Game Boy。一个用来和 LLM 一起玩的设备。
兴趣匹配判断:这条很有想象力。实体 agent 终端不只是生产力工具,也可能成为新的叙事机器:低分辨率、文本、记忆和慢交互,反而让生成式游戏更有质感。
整体判断
这篇的兴趣匹配度很高,尤其适合延展“AI 终端”的产品想象。OpenClaw 说明:实体 AI 设备的核心不是把模型压进硬件,而是设计一个端到端系统,让硬件承担输入、显示和环境约束,让后端承担模型与 agentic 工作。它同时提供了一个反主流判断:低干扰、文本优先、安静可读的 AI 设备,可能比摄像头和语音优先的设备更适合深度协作与长期陪伴。