当你和大模型对话时，模型在做什么│Transformer

当你和大模型对话时，模型在做什么

freeflydom

2025年12月3日 15:42 本文热度 120

简介：

你可能每天都在跟ChatGPT这样的人工智能聊天，向它提出各种问题，或与它讨论各种话题。那么，当你敲下一句问题时，大模型究竟是怎么运行的，如何能一个字一个字输出正确的回答？大模型并不是黑盒，本文会从模型生成答案的过程来解释下Transformer的结构以及模型是如何进行推理的，希望能给大家建立一个大致认知。

为什么要了解模型的推理过程？

作为应用层开发人员，日常更多是做工程上的实践和模型底层技术并没有太多交集。个人体会在理解底层原理后，是能帮我们建立更好的直觉，日常在做各种技术决策时能帮我更好判断这个需求能不能做？能做到什么程度？用哪种方案更合适？当然你也可以每次决策都去问ChatGPT，但是这样效率低，而且ChatGPT给出的结果也不是全对，还需要自己判断取舍。所以了解模型的底层原理是很有必要的。

为什么叫大模型？因为参数量很大。大模型在回答问题时，总是一个字一个字的输出，所以大模型也叫生成AI。

大模型就像一个巨大的函数，在回答问题时，会根据输入和已经输出的内容，不停的预测下个单词，一直到回答结束，就像词语接龙一样。
这个巨大的函数就是Transformer，下文会详细介绍他的执行过程和他的参数究竟是什么。

Transformer介绍

Transformer本质是指一种神经网络结构，它的计算核心由多个重复堆叠的模块组成，每个模块都包含多头注意力和前馈网络，并通过残差链接与层归一化相衔接。

从左右来看分为两部分：左半边是Encoder（编码器），右半边是Decoder（解码器），如下图所示：

从上下来看分为三部分：Embedding、Transformer Block、OutputProbabilities，如下图所示：

Embedding
Transformer Block
OutputProbabilities

Transformer有三种常用的结构：

Decoder-Encoder：就是上图的Transformer原论文结构。适用于需要将一个序列转换为另一个序列的任务，如机器翻译、文本摘要和问答系统。
Decoder-Only：现在大模型常用的结构。适用于生成文本的任务，如文本生成和对话系统、ChatGPT。下图是GPT3的结构示例：
Encoder-Only：适用于处理输入序列并生成固定长度向量表示的任务，如文本分类、情感分析和命名实体识别。

模型运行的第一步embedding

当我们输入“世界上最高的山峰是哪座？”，模型首先会把用户的输入做分词处理，这个分词方式每个模型都不太一样，主流的方法有三种：BPE、WordPiece、Unigram。

下图是一个分词示例：

如图可以看到一个完整的提问被分成6个词，拿到分词结果后会根据已经训练好的词表，找到词的对应向量信息，这个过程类似于查字典，找到每个词的含义，最后再加上词的位置信息，结合词的位置信息可以让模型更好的解释词在句子中含义。

词向量是表示自然语言里单词的一种方法，会把每个词都表示为高维空间的向量。通过这种方法，实现把自然语言计算转换为向量计算。同时每个词对应什么向量也是通过模型训练得到的。有一个经典的通过向量对自然语言计算的案例，queen = king - man + women。如下图：
以GPT3为例，词表一共有50257个token（不同语言也是不同的token），包含所有可打印字节、子词片段一级特殊控制符，每个token的向量维度是12288，词表中的参数量为6.18亿，约占GPT3整体参数量的0.7%。

模型运行的第二步：Encoding

拿到词向量加上位置编码信息后，下一步就是Encoding的过程。

Encoder block 结构，可以看到是由 Multi-Head Attention, Add & Norm, Feed Forward, Add & Norm 组成的，一步一步来讲。

Multi-Head Attention

通过前面的步骤，每个token的向量只包含自己的含义和位置信息，如果我们类比下自己的语言就知道，一句话的实际含义并不能只看每个字的含义，你还需要结合上下文来看，在不同的上下文中，它的含义可能完全不同，比如：模，在大模型中代表算法模型，在模特中代表一种职业。Multi-Head Attention就是要把token放在整个上下文中来计算它的真实含义。

Multi-Head Attention是由多个自注意力机制（self attention）组成，所以我们先学习下自注意力机制。
自注意力计算公式如下：

其中Q、K、V的计算过程如下：