汉松札记
全站 RSS写 Agent、AI 编程和工程实践,也写阅读与自我成长。
目前在大厂做 Agent 开发,关注 Harness Engineering、AI 共生与一些人文问题。
栏目
-
67 篇
技术笔记工程实践、系统设计、编程语言和技术原理的长期笔记。
最近:不写代码的工程师,才是 AI 时代最值钱的人 -
05 篇
随笔个人观察、职业经验、阅读之外的生活与思考记录。
最近:一年花一万二,盘点 2025 年我订阅的 AI 产品 -
08 篇
AI Highlight围绕 AI、技术领导力和高信号材料的阅读高亮与判断。
最近:李光耀领导力访谈:从殖民到建国
最近更新
-
不写代码的工程师,才是 AI 时代最值钱的人
引言 我已经很久没写过一行代码了。不是因为懒,而是因为我发现了一件事:当我停止写代码的那一刻,我的产出反而变多了。这听起来像悖论,但 OpenAI 最近做了一个实验:3 人团队,5 个月,100 万行代码,做法是禁止人类写代码。效率是传统方式的 10 倍。他们怎么做到的?答案藏在一个叫“Har...
-
一年花一万二,盘点 2025 年我订阅的 AI 产品
TL; DR 2025 年真的是 AI 产品爆发的一年,24 年我只订阅了 Monica,但在 25 年,我居然为十多款 AI 产品付过费了。不算不知道,一算吓一跳,一年下来我总共花了一万二(人民币),平均一个月在 AI 上面消费一千块。下面是我订阅的产品明细。 | 产品名 | 订阅费(年费) ...
-
从零实现 vLLM (1.4):RMSNorm 如何解决训练不稳定
前言 在上篇文章《从零实现 vLLM(1.3):如何加速 Attention 计算》中,我们深入分析了 Qwen3Attention 组件,学习了 FlashAttention 如何通过在线 Softmax 和分块计算技术,将 Attention 的计算效率提升到极致。今天这篇文章,我们将目光转向 ...
-
从零实现 vLLM (1.3):如何加速 Attention 计算
前言 在上篇文章《从零实现 vLLM (1.2):如何实现张量并行》中,我们深入到 Qwen3DecoderLayer 的第一个核心组件: Qwen3Attention,重点分析 QKVParallelLinear 和 RowParallelLinear,了解了张量并行的原理。今天我们深入到 A...
-
大模型分布式训练(1):FSDP 的原理与实践
FSDP 的起源 什么是数据并行?在大模型出现之前,分布式训练最常用的技术是 数据并行(Data Parallelism, DP) 。 它的核心思想很简单:1. 每个 GPU 上都存放一份完整的模型副本 2. 将一个大批次的数据(Global Batch)分成几个小批次(Micro batche...
-
从零实现 vLLM (1.2):如何实现张量并行
前言 在上篇文章《从零实现 vLLM (1.1):并行词嵌入 VocabParallelEmbedding》中,我们分析了 Qwen3Model 模型中第一个组件:VocabParallelEmbedding 的源码。今天这篇文章我们深入到 Qwen3DecoderLayer 的第一个核心组件: ...