Posts
All the articles I've posted.
-
从零实现 vLLM (1.4):RMSNorm 如何解决训练不稳定
技术笔记前言 在上篇文章《从零实现 vLLM(1.3):如何加速 Attention 计算》中,我们深入分析了 Qwen3Attention 组件,学习了 FlashAttention 如何通过在线 Softmax 和分块计算技术,将 Attention 的计算效率提升到极致。今天这篇文章,我们将目光转向 ...
-
从零实现 vLLM (1.3):如何加速 Attention 计算
技术笔记前言 在上篇文章《从零实现 vLLM (1.2):如何实现张量并行》中,我们深入到 Qwen3DecoderLayer 的第一个核心组件: Qwen3Attention ,重点分析 QKVParallelLinear 和 RowParallelLinear ,了解了张量并行的原理。今天我们深入到 A...
-
大模型分布式训练(1):FSDP 的原理与实践
技术笔记FSDP 的起源 什么是数据并行? 在大模型出现之前,分布式训练最常用的技术是 数据并行(Data Parallelism, DP) 。 它的核心思想很简单: 1. 每个 GPU 上都存放一份完整的模型副本 2. 将一个大批次的数据(Global Batch)分成几个小批次(Micro batche...
-
从零实现 vLLM (1.2):如何实现张量并行
技术笔记前言 在上篇文章《从零实现 vLLM (1.1):并行词嵌入 VocabParallelEmbedding》中,我们分析了 Qwen3Model 模型中第一个组件: VocabParallelEmbedding 的源码。今天这篇文章我们深入到 Qwen3DecoderLayer 的第一个核心组件: ...
-
从零实现 vLLM (1.1):并行词嵌入 VocabParallelEmbedding
技术笔记前言 我一直都喜欢通过代码学习各种技术,特别是各种从零开始实现 XX 的。为了学习大模型推理引擎的技术,我找到了 DeepSeek 研究员俞星凯仅用不到1200行代码实现的 nano vllm。我会把我的学习过程记录下来,方便大家参考。 要学习这么大一个技术的课题,需要从什么地方下手呢?下面是我学习...
-
AI 编程:找轮子,别造轮子
技术笔记我最近用 AI 写了一个导出 Gemini 聊天记录的插件,我把 Gemini 网页的源码粘贴给它之后,告诉它要把网页中的聊天记录导出成 markdown,然后它很快就写完了。但我测试后发现它导出的聊天记录没有保留 markdown 格式,于是提醒它要保留 markdown 格式,比如标题和列表,它...
-
从软件工程到上下文工程:AI时代的开发者新范式
技术笔记前言 或许你也有过这样的时刻:在代码评审会议上,同事用 AI 助手几分钟就重构了一个你花了几天才完成的微服务架构;又或者,在日常开发中,你发现团队里的新人正在用 AI 编程助手,轻松地处理那些曾经需要反复查阅文档和调试的复杂任务。我们曾经坚信的“代码即真理”的世界,正在被一种更模糊、更接近对话的逻辑...
-
DeepSeek新论文SPCT:让奖励模型学会“先定规则后点评,再打分”
技术笔记开篇:奖励模型挺重要,但不好搞啊! 为啥要聊奖励模型? 现在大语言模型(LLM)是越来越火,能力也越来越强。但光能打还不行,还得听话,得知道啥是对的、啥是好的,不能瞎来。这就是所谓的“对齐”(Alignment)。要让 LLM 听话,强化学习(RL)就成了关键技术。在这个过程中,有个角色特别重要,那...
-
AutoGLM 技术探秘:让 AI 学会“点点点”的挑战与策略
技术笔记前言 最近 AI 领域有个挺火的方向,就是让 AI 像人一样去操作图形界面(GUI),比如自动帮你订外卖、处理邮件等等。智谱 AI 推出的 AutoGLM 就是这个方向的一个尝试(产品地址:https://autoglm research.zhipuai.cn/,开源地址:https://xiao9...
-
不需要人类教练的o3:OpenAI用强化学习训练出编程"六边形战士"
技术笔记TLDR OpenAI在最近的发表的对比研究中发现:在编程竞赛任务中,人类精心设计的策略败给了强化学习训练的通用模型。论文名称:《Competitive Programming with Large Reasoning Models》。 在o1出现之前,在Codeforces编程竞赛AI是没有一席之...