汉松札记

写 Agent、AI 编程和工程实践，也写阅读与自我成长。

目前在大厂做 Agent 开发，关注 Harness Engineering、AI 共生与一些人文问题。

关于我全部文章

社交链接：

栏目

67 篇
技术笔记
工程实践、系统设计、编程语言和技术原理的长期笔记。
最近：不写代码的工程师，才是 AI 时代最值钱的人
RSS
05 篇
随笔
个人观察、职业经验、阅读之外的生活与思考记录。
最近：一年花一万二，盘点 2025 年我订阅的 AI 产品
RSS
23 篇
AI Highlight
围绕 AI、技术领导力和高信号材料的阅读高亮与判断。
最近：Video Agents：视频生成的下一站是 Agent
RSS

最近更新

不写代码的工程师，才是 AI 时代最值钱的人

2026年3月3日
技术笔记

引言我已经很久没写过一行代码了。不是因为懒，而是因为我发现了一件事：当我停止写代码的那一刻，我的产出反而变多了。这听起来像悖论，但 OpenAI 最近做了一个实验：3 人团队，5 个月，100 万行代码，做法是禁止人类写代码。效率是传统方式的 10 倍。他们怎么做到的？答案藏在一个叫“Har...
一年花一万二，盘点 2025 年我订阅的 AI 产品

2026年1月2日
随笔

TL; DR 2025 年真的是 AI 产品爆发的一年，24 年我只订阅了 Monica，但在 25 年，我居然为十多款 AI 产品付过费了。不算不知道，一算吓一跳，一年下来我总共花了一万二（人民币），平均一个月在 AI 上面消费一千块。下面是我订阅的产品明细。 | 产品名 | 订阅费（年费） ...
从零实现 vLLM (1.4）：RMSNorm 如何解决训练不稳定

2025年10月19日
技术笔记

前言在上篇文章《从零实现 vLLM（1.3）：如何加速 Attention 计算》中，我们深入分析了 Qwen3Attention 组件，学习了 FlashAttention 如何通过在线 Softmax 和分块计算技术，将 Attention 的计算效率提升到极致。今天这篇文章，我们将目光转向 ...
从零实现 vLLM (1.3）：如何加速 Attention 计算

2025年9月14日
技术笔记

前言在上篇文章《从零实现 vLLM (1.2）：如何实现张量并行》中，我们深入到 Qwen3DecoderLayer 的第一个核心组件： Qwen3Attention，重点分析 QKVParallelLinear 和 RowParallelLinear，了解了张量并行的原理。今天我们深入到 A...
大模型分布式训练（1）：FSDP 的原理与实践

2025年8月17日
技术笔记

FSDP 的起源什么是数据并行？在大模型出现之前，分布式训练最常用的技术是数据并行（Data Parallelism, DP）。它的核心思想很简单：1. 每个 GPU 上都存放一份完整的模型副本 2. 将一个大批次的数据（Global Batch）分成几个小批次（Micro batche...
从零实现 vLLM (1.2）：如何实现张量并行

2025年7月26日
技术笔记

前言在上篇文章《从零实现 vLLM (1.1）：并行词嵌入 VocabParallelEmbedding》中，我们分析了 Qwen3Model 模型中第一个组件：VocabParallelEmbedding 的源码。今天这篇文章我们深入到 Qwen3DecoderLayer 的第一个核心组件： ...

全部文章

汉松札记

栏目

最近更新

不写代码的工程师，才是 AI 时代最值钱的人

一年花一万二，盘点 2025 年我订阅的 AI 产品

从零实现 vLLM (1.4）：RMSNorm 如何解决训练不稳定

从零实现 vLLM (1.3）：如何加速 Attention 计算

大模型分布式训练（1）：FSDP 的原理与实践

从零实现 vLLM (1.2）：如何实现张量并行