文章
按时间倒序整理的全部文章。
-
从零实现 vLLM (1.4):RMSNorm 如何解决训练不稳定
前言 在上篇文章《从零实现 vLLM(1.3):如何加速 Attention 计算》中,我们深入分析了 Qwen3Attention 组件,学习了 FlashAttention 如何通过在线 Softmax 和分块计算技术,将 Attention 的计算效率提升到极致。今天这篇文章,我们将目光转向 ...
-
从零实现 vLLM (1.3):如何加速 Attention 计算
前言 在上篇文章《从零实现 vLLM (1.2):如何实现张量并行》中,我们深入到 Qwen3DecoderLayer 的第一个核心组件: Qwen3Attention,重点分析 QKVParallelLinear 和 RowParallelLinear,了解了张量并行的原理。今天我们深入到 A...
-
大模型分布式训练(1):FSDP 的原理与实践
FSDP 的起源 什么是数据并行?在大模型出现之前,分布式训练最常用的技术是 数据并行(Data Parallelism, DP) 。 它的核心思想很简单:1. 每个 GPU 上都存放一份完整的模型副本 2. 将一个大批次的数据(Global Batch)分成几个小批次(Micro batche...
-
从零实现 vLLM (1.2):如何实现张量并行
前言 在上篇文章《从零实现 vLLM (1.1):并行词嵌入 VocabParallelEmbedding》中,我们分析了 Qwen3Model 模型中第一个组件:VocabParallelEmbedding 的源码。今天这篇文章我们深入到 Qwen3DecoderLayer 的第一个核心组件: ...
-
从零实现 vLLM (1.1):并行词嵌入 VocabParallelEmbedding
前言 我一直都喜欢通过代码学习各种技术,特别是各种从零开始实现 XX 的。为了学习大模型推理引擎的技术,我找到了 DeepSeek 研究员俞星凯仅用不到 1200 行代码实现的 nano vllm。我会把我的学习过程记录下来,方便大家参考。 要学习这么大一个技术的课题,需要从什么地方下手呢?下面是我学习...
-
AI 编程:找轮子,别造轮子
我最近用 AI 写了一个导出 Gemini 聊天记录的插件,我把 Gemini 网页的源码粘贴给它之后,告诉它要把网页中的聊天记录导出成 markdown,然后它很快就写完了。但我测试后发现它导出的聊天记录没有保留 markdown 格式,于是提醒它要保留 markdown 格式,比如标题和列表,它...
-
从软件工程到上下文工程:AI 时代的开发者新范式
前言 或许你也有过这样的时刻:在代码评审会议上,同事用 AI 助手几分钟就重构了一个你花了几天才完成的微服务架构;又或者,在日常开发中,你发现团队里的新人正在用 AI 编程助手,轻松地处理那些曾经需要反复查阅文档和调试的复杂任务。我们曾经坚信的“代码即真理”的世界,正在被一种更模糊、更接近对话的逻辑...
-
DeepSeek 新论文 SPCT:让奖励模型学会“先定规则后点评,再打分”
开篇:奖励模型挺重要,但不好搞啊!为啥要聊奖励模型? 现在大语言模型(LLM)是越来越火,能力也越来越强。但光能打还不行,还得听话,得知道啥是对的、啥是好的,不能瞎来。这就是所谓的“对齐”(Alignment)。要让 LLM 听话,强化学习(RL)就成了关键技术。在这个过程中,有个角色特别重要,那...
-
AutoGLM 技术探秘:让 AI 学会“点点点”的挑战与策略
前言 最近 AI 领域有个挺火的方向,就是让 AI 像人一样去操作图形界面(GUI),比如自动帮你订外卖、处理邮件等等。智谱 AI 推出的 AutoGLM 就是这个方向的一个尝试(产品地址:https://autoglm research.zhipuai.cn/,开源地址:https://xiao9...
-
不需要人类教练的 o3:OpenAI 用强化学习训练出编程"六边形战士"
TLDR OpenAI 在最近的发表的对比研究中发现:在编程竞赛任务中,人类精心设计的策略败给了强化学习训练的通用模型。论文名称:《Competitive Programming with Large Reasoning Models》。在 o1 出现之前,在 Codeforces 编程竞赛 AI 是没有一席之...