深度解析大模型预填充的结构和原理

大模型的注意力机制

注意力机制：找重点的"信息筛选器"

你读一句话时不会平均用力，会自动盯着关键信息

比如看到"小明在公园给小红送了一朵玫瑰"

会自然聚焦"小明"，"小红"，"玫瑰"这些核心

忽略"在"，"了"，这类辅助词

大模型的注意力机制就是：

面对海量输入信息（比如一段话、一篇文章），它会计算每个词的"重要程度"，然后重点关注高重要度的词，再基于这些关键信息生成回答

可以把它们类比成"找资料"的过程，三个角色分工明确：

Token与Q、K、V

每个Token，都要生成一组Q、K、V

用Q举个例子--

你读"北京今天天气怎么样"时，不会只把"天气"当重点，每个词都会和其他词产生关联：

每个Token的Q：就是这个词的"专属提问"

大模型的Q是每个Token的"个性化查询需求"，不同Token的Q对应不同的"提问方向"：

如何得到Q、K、V

还有out

一个经过注意力计算的向量里，不仅包含它自己的原始语义（来自V），还融合了所有和它相关的其他Token的关键信息（按注意力权重比例融入），这样就会得到一个新向量

由于在计算时，进行了维度扩大（也就是上篇内容提到的"发散"），所以，还需要进行维度收缩会标准维度，这就是out计算

比如"天气"的out向量，会重点融入"北京"（地点）、"今天"（时间）的信息，同时弱化"怎么样"，"？"这类辅助词的影响

out是给每个Token"更新了语义身份"，让它从"孤立的词向量"变成"懂上下文、有关联的词向量"

预填充阶段（Pre-filling），是大模型处理输入文本的"准备阶段"

简单说就是把任务（比如"北京今天天气怎么样"）转换成模型能运算的格式

还会提前算好关键中间结果，为后续生成回答打基础

还有，FFN（前馈神经网络）

在预填充阶段，模型需要处理用户输入的完整prompt，并生成首个输出token

这一过程中，模型会逐层通过Transformer块，对于每一层，输入序列会先进入Self-Attention机制，其输出会再输入到FFN中

FFN通过两层线性变换和非线性激活函数对上下文表示进行进一步特征提取，以捕捉更复杂的语义信息

最后一层的FFN输出经过解码层转换为token概率分布，从而生成首个token