技术笔记

工程实践、系统设计、编程语言和技术原理的长期笔记。

RSS

不写代码的工程师，才是 AI 时代最值钱的人

2026年3月3日
技术笔记

引言我已经很久没写过一行代码了。不是因为懒，而是因为我发现了一件事：当我停止写代码的那一刻，我的产出反而变多了。这听起来像悖论，但 OpenAI 最近做了一个实验：3 人团队，5 个月，100 万行代码，做法是禁止人类写代码。效率是传统方式的 10 倍。他们怎么做到的？答案藏在一个叫“Har...
从零实现 vLLM (1.4）：RMSNorm 如何解决训练不稳定

2025年10月19日
技术笔记

前言在上篇文章《从零实现 vLLM（1.3）：如何加速 Attention 计算》中，我们深入分析了 Qwen3Attention 组件，学习了 FlashAttention 如何通过在线 Softmax 和分块计算技术，将 Attention 的计算效率提升到极致。今天这篇文章，我们将目光转向 ...
从零实现 vLLM (1.3）：如何加速 Attention 计算

2025年9月14日
技术笔记

前言在上篇文章《从零实现 vLLM (1.2）：如何实现张量并行》中，我们深入到 Qwen3DecoderLayer 的第一个核心组件： Qwen3Attention，重点分析 QKVParallelLinear 和 RowParallelLinear，了解了张量并行的原理。今天我们深入到 A...
大模型分布式训练（1）：FSDP 的原理与实践

2025年8月17日
技术笔记

FSDP 的起源什么是数据并行？在大模型出现之前，分布式训练最常用的技术是数据并行（Data Parallelism, DP）。它的核心思想很简单：1. 每个 GPU 上都存放一份完整的模型副本 2. 将一个大批次的数据（Global Batch）分成几个小批次（Micro batche...
从零实现 vLLM (1.2）：如何实现张量并行

2025年7月26日
技术笔记

前言在上篇文章《从零实现 vLLM (1.1）：并行词嵌入 VocabParallelEmbedding》中，我们分析了 Qwen3Model 模型中第一个组件：VocabParallelEmbedding 的源码。今天这篇文章我们深入到 Qwen3DecoderLayer 的第一个核心组件： ...
从零实现 vLLM (1.1）：并行词嵌入 VocabParallelEmbedding

2025年7月20日
技术笔记

前言我一直都喜欢通过代码学习各种技术，特别是各种从零开始实现 XX 的。为了学习大模型推理引擎的技术，我找到了 DeepSeek 研究员俞星凯仅用不到 1200 行代码实现的 nano vllm。我会把我的学习过程记录下来，方便大家参考。要学习这么大一个技术的课题，需要从什么地方下手呢？下面是我学习...
DeepSeek 新论文 SPCT：让奖励模型学会“先定规则后点评，再打分”

2025年4月6日
技术笔记

开篇：奖励模型挺重要，但不好搞啊！为啥要聊奖励模型？现在大语言模型（LLM）是越来越火，能力也越来越强。但光能打还不行，还得听话，得知道啥是对的、啥是好的，不能瞎来。这就是所谓的“对齐”（Alignment）。要让 LLM 听话，强化学习（RL）就成了关键技术。在这个过程中，有个角色特别重要，那...
AutoGLM 技术探秘：让 AI 学会“点点点”的挑战与策略

2025年4月1日
技术笔记

前言最近 AI 领域有个挺火的方向，就是让 AI 像人一样去操作图形界面（GUI），比如自动帮你订外卖、处理邮件等等。智谱 AI 推出的 AutoGLM 就是这个方向的一个尝试（产品地址：https://autoglm research.zhipuai.cn/，开源地址：https://xiao9...
不需要人类教练的 o3：OpenAI 用强化学习训练出编程"六边形战士"

2025年2月17日
技术笔记

TLDR OpenAI 在最近的发表的对比研究中发现：在编程竞赛任务中，人类精心设计的策略败给了强化学习训练的通用模型。论文名称：《Competitive Programming with Large Reasoning Models》。在 o1 出现之前，在 Codeforces 编程竞赛 AI 是没有一席之...
深入浅出 GraphRag[2]检索生成

2024年7月21日
技术笔记

前言在上篇文章《深入浅出 GraphRag 知识图谱生成》中，我分析了 GraphRag 的图谱生成过程，那么生成的这些图谱数据是如何应用到生成里面的？这篇文章会给出答案。注意本篇文章中提到的很多概念依赖上篇文章的内容，建议先读一下《深入浅出 GraphRag 知识图谱生成》。GraphRag 的检索生成...

技术笔记

不写代码的工程师，才是 AI 时代最值钱的人

从零实现 vLLM (1.4）：RMSNorm 如何解决训练不稳定

从零实现 vLLM (1.3）：如何加速 Attention 计算

大模型分布式训练（1）：FSDP 的原理与实践

从零实现 vLLM (1.2）：如何实现张量并行

从零实现 vLLM (1.1）：并行词嵌入 VocabParallelEmbedding

DeepSeek 新论文 SPCT：让奖励模型学会“先定规则后点评，再打分”

AutoGLM 技术探秘：让 AI 学会“点点点”的挑战与策略

不需要人类教练的 o3：OpenAI 用强化学习训练出编程"六边形战士"

深入浅出 GraphRag[2]检索生成