Posts

All the articles I've posted.

从零实现 vLLM (1.4）：RMSNorm 如何解决训练不稳定

19 Oct, 2025
技术笔记
前言在上篇文章《从零实现 vLLM（1.3）：如何加速 Attention 计算》中，我们深入分析了 Qwen3Attention 组件，学习了 FlashAttention 如何通过在线 Softmax 和分块计算技术，将 Attention 的计算效率提升到极致。今天这篇文章，我们将目光转向 ...
从零实现 vLLM (1.3）：如何加速 Attention 计算

14 Sep, 2025
技术笔记
前言在上篇文章《从零实现 vLLM (1.2）：如何实现张量并行》中，我们深入到 Qwen3DecoderLayer 的第一个核心组件： Qwen3Attention ，重点分析 QKVParallelLinear 和 RowParallelLinear ，了解了张量并行的原理。今天我们深入到 A...
大模型分布式训练（1）：FSDP 的原理与实践

17 Aug, 2025
技术笔记
FSDP 的起源什么是数据并行？在大模型出现之前，分布式训练最常用的技术是数据并行（Data Parallelism, DP）。它的核心思想很简单： 1. 每个 GPU 上都存放一份完整的模型副本 2. 将一个大批次的数据（Global Batch）分成几个小批次（Micro batche...
从零实现 vLLM (1.2）：如何实现张量并行

26 Jul, 2025
技术笔记
前言在上篇文章《从零实现 vLLM (1.1）：并行词嵌入 VocabParallelEmbedding》中，我们分析了 Qwen3Model 模型中第一个组件： VocabParallelEmbedding 的源码。今天这篇文章我们深入到 Qwen3DecoderLayer 的第一个核心组件： ...
从零实现 vLLM (1.1）：并行词嵌入 VocabParallelEmbedding

20 Jul, 2025
技术笔记
前言我一直都喜欢通过代码学习各种技术，特别是各种从零开始实现 XX 的。为了学习大模型推理引擎的技术，我找到了 DeepSeek 研究员俞星凯仅用不到1200行代码实现的 nano vllm。我会把我的学习过程记录下来，方便大家参考。要学习这么大一个技术的课题，需要从什么地方下手呢？下面是我学习...
AI 编程：找轮子，别造轮子

13 Jul, 2025
技术笔记
我最近用 AI 写了一个导出 Gemini 聊天记录的插件，我把 Gemini 网页的源码粘贴给它之后，告诉它要把网页中的聊天记录导出成 markdown，然后它很快就写完了。但我测试后发现它导出的聊天记录没有保留 markdown 格式，于是提醒它要保留 markdown 格式，比如标题和列表，它...
从软件工程到上下文工程：AI时代的开发者新范式

6 Jul, 2025
技术笔记
前言或许你也有过这样的时刻：在代码评审会议上，同事用 AI 助手几分钟就重构了一个你花了几天才完成的微服务架构；又或者，在日常开发中，你发现团队里的新人正在用 AI 编程助手，轻松地处理那些曾经需要反复查阅文档和调试的复杂任务。我们曾经坚信的“代码即真理”的世界，正在被一种更模糊、更接近对话的逻辑...
DeepSeek新论文SPCT：让奖励模型学会“先定规则后点评，再打分”

6 Apr, 2025
技术笔记
开篇：奖励模型挺重要，但不好搞啊！为啥要聊奖励模型？现在大语言模型（LLM）是越来越火，能力也越来越强。但光能打还不行，还得听话，得知道啥是对的、啥是好的，不能瞎来。这就是所谓的“对齐”（Alignment）。要让 LLM 听话，强化学习（RL）就成了关键技术。在这个过程中，有个角色特别重要，那...
AutoGLM 技术探秘：让 AI 学会“点点点”的挑战与策略

1 Apr, 2025
技术笔记
前言最近 AI 领域有个挺火的方向，就是让 AI 像人一样去操作图形界面（GUI），比如自动帮你订外卖、处理邮件等等。智谱 AI 推出的 AutoGLM 就是这个方向的一个尝试（产品地址：https://autoglm research.zhipuai.cn/，开源地址：https://xiao9...
不需要人类教练的o3：OpenAI用强化学习训练出编程"六边形战士"

17 Feb, 2025
技术笔记
TLDR OpenAI在最近的发表的对比研究中发现：在编程竞赛任务中，人类精心设计的策略败给了强化学习训练的通用模型。论文名称：《Competitive Programming with Large Reasoning Models》。在o1出现之前，在Codeforces编程竞赛AI是没有一席之...

Posts

从零实现 vLLM (1.4）：RMSNorm 如何解决训练不稳定

从零实现 vLLM (1.3）：如何加速 Attention 计算

大模型分布式训练（1）：FSDP 的原理与实践

从零实现 vLLM (1.2）：如何实现张量并行

从零实现 vLLM (1.1）：并行词嵌入 VocabParallelEmbedding

AI 编程：找轮子，别造轮子

从软件工程到上下文工程：AI时代的开发者新范式

DeepSeek新论文SPCT：让奖励模型学会“先定规则后点评，再打分”

AutoGLM 技术探秘：让 AI 学会“点点点”的挑战与策略

不需要人类教练的o3：OpenAI用强化学习训练出编程"六边形战士"