技术笔记
工程实践、系统设计、编程语言和技术原理的长期笔记。
-
不写代码的工程师,才是 AI 时代最值钱的人
引言 我已经很久没写过一行代码了。不是因为懒,而是因为我发现了一件事:当我停止写代码的那一刻,我的产出反而变多了。这听起来像悖论,但 OpenAI 最近做了一个实验:3 人团队,5 个月,100 万行代码,做法是禁止人类写代码。效率是传统方式的 10 倍。他们怎么做到的?答案藏在一个叫“Har...
-
从零实现 vLLM (1.4):RMSNorm 如何解决训练不稳定
前言 在上篇文章《从零实现 vLLM(1.3):如何加速 Attention 计算》中,我们深入分析了 Qwen3Attention 组件,学习了 FlashAttention 如何通过在线 Softmax 和分块计算技术,将 Attention 的计算效率提升到极致。今天这篇文章,我们将目光转向 ...
-
从零实现 vLLM (1.3):如何加速 Attention 计算
前言 在上篇文章《从零实现 vLLM (1.2):如何实现张量并行》中,我们深入到 Qwen3DecoderLayer 的第一个核心组件: Qwen3Attention,重点分析 QKVParallelLinear 和 RowParallelLinear,了解了张量并行的原理。今天我们深入到 A...
-
大模型分布式训练(1):FSDP 的原理与实践
FSDP 的起源 什么是数据并行?在大模型出现之前,分布式训练最常用的技术是 数据并行(Data Parallelism, DP) 。 它的核心思想很简单:1. 每个 GPU 上都存放一份完整的模型副本 2. 将一个大批次的数据(Global Batch)分成几个小批次(Micro batche...
-
从零实现 vLLM (1.2):如何实现张量并行
前言 在上篇文章《从零实现 vLLM (1.1):并行词嵌入 VocabParallelEmbedding》中,我们分析了 Qwen3Model 模型中第一个组件:VocabParallelEmbedding 的源码。今天这篇文章我们深入到 Qwen3DecoderLayer 的第一个核心组件: ...
-
从零实现 vLLM (1.1):并行词嵌入 VocabParallelEmbedding
前言 我一直都喜欢通过代码学习各种技术,特别是各种从零开始实现 XX 的。为了学习大模型推理引擎的技术,我找到了 DeepSeek 研究员俞星凯仅用不到 1200 行代码实现的 nano vllm。我会把我的学习过程记录下来,方便大家参考。 要学习这么大一个技术的课题,需要从什么地方下手呢?下面是我学习...
-
DeepSeek 新论文 SPCT:让奖励模型学会“先定规则后点评,再打分”
开篇:奖励模型挺重要,但不好搞啊!为啥要聊奖励模型? 现在大语言模型(LLM)是越来越火,能力也越来越强。但光能打还不行,还得听话,得知道啥是对的、啥是好的,不能瞎来。这就是所谓的“对齐”(Alignment)。要让 LLM 听话,强化学习(RL)就成了关键技术。在这个过程中,有个角色特别重要,那...
-
AutoGLM 技术探秘:让 AI 学会“点点点”的挑战与策略
前言 最近 AI 领域有个挺火的方向,就是让 AI 像人一样去操作图形界面(GUI),比如自动帮你订外卖、处理邮件等等。智谱 AI 推出的 AutoGLM 就是这个方向的一个尝试(产品地址:https://autoglm research.zhipuai.cn/,开源地址:https://xiao9...
-
不需要人类教练的 o3:OpenAI 用强化学习训练出编程"六边形战士"
TLDR OpenAI 在最近的发表的对比研究中发现:在编程竞赛任务中,人类精心设计的策略败给了强化学习训练的通用模型。论文名称:《Competitive Programming with Large Reasoning Models》。在 o1 出现之前,在 Codeforces 编程竞赛 AI 是没有一席之...
-
深入浅出 GraphRag[2]检索生成
前言 在上篇文章《深入浅出 GraphRag 知识图谱生成》中,我分析了 GraphRag 的图谱生成过程,那么生成的这些图谱数据是如何应用到生成里面的?这篇文章会给出答案。注意本篇文章中提到的很多概念依赖上篇文章的内容,建议先读一下《深入浅出 GraphRag 知识图谱生成》。GraphRag 的检索生成...