Tag: 知乎
All the articles with the tag "知乎".
-
不写代码的工程师,才是 AI 时代最值钱的人
技术笔记引言 我已经很久没写过一行代码了。 不是因为懒,而是因为我发现了一件事:当我停止写代码的那一刻,我的产出反而变多了。 这听起来像悖论,但 OpenAI 最近做了一个实验:3 人团队,5 个月,100 万行代码,做法是禁止人类写代码。效率是传统方式的 10 倍。 他们怎么做到的?答案藏在一个叫“Har...
-
一年花一万二,盘点2025年我订阅的 AI 产品
技术笔记TL; DR 2025 年真的是 AI 产品爆发的一年,24 年我只订阅了 Monica,但在 25 年,我居然为十多款 AI 产品付过费了。不算不知道,一算吓一跳,一年下来我总共花了一万二(人民币),平均一个月在 AI 上面消费一千块。下面是我订阅的产品明细。 | 产品名 | 订阅费(年费) ...
-
从零实现 vLLM (1.4):RMSNorm 如何解决训练不稳定
技术笔记前言 在上篇文章《从零实现 vLLM(1.3):如何加速 Attention 计算》中,我们深入分析了 Qwen3Attention 组件,学习了 FlashAttention 如何通过在线 Softmax 和分块计算技术,将 Attention 的计算效率提升到极致。今天这篇文章,我们将目光转向 ...
-
从零实现 vLLM (1.3):如何加速 Attention 计算
技术笔记前言 在上篇文章《从零实现 vLLM (1.2):如何实现张量并行》中,我们深入到 Qwen3DecoderLayer 的第一个核心组件: Qwen3Attention ,重点分析 QKVParallelLinear 和 RowParallelLinear ,了解了张量并行的原理。今天我们深入到 A...
-
大模型分布式训练(1):FSDP 的原理与实践
技术笔记FSDP 的起源 什么是数据并行? 在大模型出现之前,分布式训练最常用的技术是 数据并行(Data Parallelism, DP) 。 它的核心思想很简单: 1. 每个 GPU 上都存放一份完整的模型副本 2. 将一个大批次的数据(Global Batch)分成几个小批次(Micro batche...
-
从零实现 vLLM (1.2):如何实现张量并行
技术笔记前言 在上篇文章《从零实现 vLLM (1.1):并行词嵌入 VocabParallelEmbedding》中,我们分析了 Qwen3Model 模型中第一个组件: VocabParallelEmbedding 的源码。今天这篇文章我们深入到 Qwen3DecoderLayer 的第一个核心组件: ...
-
从零实现 vLLM (1.1):并行词嵌入 VocabParallelEmbedding
技术笔记前言 我一直都喜欢通过代码学习各种技术,特别是各种从零开始实现 XX 的。为了学习大模型推理引擎的技术,我找到了 DeepSeek 研究员俞星凯仅用不到1200行代码实现的 nano vllm。我会把我的学习过程记录下来,方便大家参考。 要学习这么大一个技术的课题,需要从什么地方下手呢?下面是我学习...
-
AI 编程:找轮子,别造轮子
技术笔记我最近用 AI 写了一个导出 Gemini 聊天记录的插件,我把 Gemini 网页的源码粘贴给它之后,告诉它要把网页中的聊天记录导出成 markdown,然后它很快就写完了。但我测试后发现它导出的聊天记录没有保留 markdown 格式,于是提醒它要保留 markdown 格式,比如标题和列表,它...
-
从软件工程到上下文工程:AI时代的开发者新范式
技术笔记前言 或许你也有过这样的时刻:在代码评审会议上,同事用 AI 助手几分钟就重构了一个你花了几天才完成的微服务架构;又或者,在日常开发中,你发现团队里的新人正在用 AI 编程助手,轻松地处理那些曾经需要反复查阅文档和调试的复杂任务。我们曾经坚信的“代码即真理”的世界,正在被一种更模糊、更接近对话的逻辑...
-
DeepSeek新论文SPCT:让奖励模型学会“先定规则后点评,再打分”
技术笔记开篇:奖励模型挺重要,但不好搞啊! 为啥要聊奖励模型? 现在大语言模型(LLM)是越来越火,能力也越来越强。但光能打还不行,还得听话,得知道啥是对的、啥是好的,不能瞎来。这就是所谓的“对齐”(Alignment)。要让 LLM 听话,强化学习(RL)就成了关键技术。在这个过程中,有个角色特别重要,那...