Transformer架构的简要讲解
2026/6/4 17:25:33 网站建设 项目流程

1、前言

1、Transformer 是由 Google 团队在 2017 年论文《Attention Is All You Need》中提出的深度学习架构。它完全摒弃了传统的循环神经网络(RNN/LSTM)和卷积神经网络(CNN),仅依靠自注意力机制(Self-Attention) 来处理序列数据,彻底改变了自然语言处理(NLP)及计算机视觉等领域的发展轨迹。

2、Transformer的三大核心

自注意力机制(Self-Attention):这是 Transformer 的灵魂。它允许模型在处理序列中的任何一个词时,都能直接“看到”并关联序列中的所有其他词,无论距离多远。这完美解决了传统 RNN 难以捕捉长距离依赖的问题。
并行计算能力:由于不再像 RNN 那样必须按时间步顺序处理数据,Transformer 可以对整个序列同时进行矩阵运算。这使得模型能够充分利用 GPU 算力,训练效率呈指数级提升,为如今千亿/万亿参数的大模型奠定了硬件基础。
位置编码(Positional Encoding):因为自注意力机制本身不包含顺序信息,Transformer 通过注入位置编码向量,让模型重新获得词语在句子中的先后顺序感知。

3、Transformer的架构

Transformer的原始架构是由Encoder-Decoder(编码器 -- 解码器)构成的,但是随着时间的推移衍生新的模型只用其中的一种 比如BERT就是只用(Endecor)编码器层,GPT系列就只用(Decoder)解码器层

2、Transformer架构图讲解

2.1、架构图片

2.2、架构组成及其作用讲解

1、输入部分

由Input Enbedding(编码器词嵌入层)和Output Embedding(解码器词嵌入层组成),加上Positional Encoding:位置编码

1.1、Input Enbedding

把编码器端的词索引变成词向量

1.2、Output Embedding

把解码器端的词索引变成词向量

1.3、Positional Encoding.位置编码

核心作用是为模型注入序列的顺序信息,由于 Transformer 完全摒弃了 RNN/CNN 的递归或卷积结构,容易导致没有顺序感知能力,容易将先后顺序的词是为相同,这是一个非常打的缺陷因此,我们需要用位置编码,来赋予给大模型顺序的感知能力,这对于处理理解中文长难重复句有重要的作用

实现原理:

我们通位置编码层通过计算获取PE编码向量,然后进入输入层中与计算好的InputEnbedding词向量Output Embedding词向量进行相加Add,注意不是拼接。

2、编码器部分

由Multi-Head-Attention多头自注意力层和Feed-Forword前馈网络层残差连接(Residual Connection)和层归一化(Norm)组成

2.1、Multi-Head-Attention多头自注意力:
  • 核心作用:互相 @,理清关系。 句子一进来,所有词就被拉进一个大群。不管中间隔了多少个字,每个词都能直接 @ 其他词,搞清楚彼此的关系(比如搞清楚句尾的“它”,到底是指开头的“猫”还是“狗”)。
  • 为什么是多头 :相当于大家戴着不同颜色的眼镜同时“吃瓜”。一个“头”专门盯“谁干了什么”(动作),另一个“头”专门盯“谁修饰了谁”(细节),最后把大家看到的重点拼起来,全方位无死角地理解这句话。
  • 一句话概括:它是模型的 “社交大群”,负责让词与词之间互相加好友、对暗号,让每个词都明白自己在整句话里的真实身份。
  • 补充:编码器的注意力层是自注意力,因此由词嵌入层输出的Q(query),K(key),V(value)三者是相等的
2.2、Feed-Forword前馈网络层:
  • 核心作用:回工位消化吸收。 如果说注意力层是大家一起开“头脑风暴会”交换情报,那 FFN 就是开完会后,每个词回到自己的独立工位,把刚才听到的上下文进行深度咀嚼、内化,变成自己的理解。
  • 隐藏技能:偷偷背题的“知识库”。 科学家发现,大模型背下来的那些常识和事实(比如“中国的首都是北京”、“水往低处流”),其实都没存在注意力层,而是被 FFN 像“硬盘”一样死死记在了自己的参数里。它不仅是加工厂,更是模型的“外脑记忆区”。
  • 一句话概括:它是模型的 “自习室+备忘录”,负责把开会得来的情报独立思考消化,并随时翻阅自己死记硬背下来的知识库。
2.3、残差连接(Add)和层归一化(Norm):

残差连接(Add):

  • 打通梯度通道:反向传播时,梯度可通过恒等映射(加法)无损回传至浅层,从根本上缓解深度网络的梯度消失问题。
  • 简化学习目标:网络无需从零拟合完整映射,只需学习输入与输出的差异,使深层网络更易收敛。

层归一化(Norm):

  • 稳定深层训练:缓解“内部协变量偏移”,强制每层输入分布保持稳定,避免深层网络出现梯度异常。
  • 加速模型收敛:平滑损失地形(Loss Landscape),使模型能安全地使用更大的学习率进行优化。
  • 减少模型误差:避免模型在训练中跑偏,同时缓解梯度的爆炸增长和直接消失

注意部分:在Pre-Norm(现代大模型主流)归一化在子层变换之前
优点:梯度传播极其顺畅,训练高度稳定,无需复杂的 Warmup 即可轻松堆叠上百层。
缺点:可能导致深层特征表征趋同(Representation Collapse)。

3、解码器部分

Masked Multi-Head Attention(掩码多头自注意力层)Multi-Head Attention(编码器-解码器注意力层)、Feed Forward(前馈网络层) 和 Add & Norm(残差连接+层归一化) 组成,是 Transformer 实现"边思考边生成"的关键结构。

3.1、Masked Multi-Head Attention(掩码多头自注意力层)
  • 核心作用:防止偷看未来信息在生成序列时(如翻译"Welcome to the city"),解码器预测"the"时只能看到"Welcome"和"to",绝不能"偷看"后面的"city"。掩码机制通过将未来位置的注意力权重强制置为负无穷,确保模型严格遵循自回归生成逻辑。
  • 为什么需要掩码解码器是自回归生成的:每一步预测都依赖前一步的输出。若不掩码,模型会提前"剧透"未来内容,导致训练与推理不一致(训练时用真实标签,推理时用自己生成的词)。
  • 一句话概括:它是模型的"防作弊系统",强制解码器像人类一样"边说边想",确保生成过程符合语言时序逻辑。

3.2、Multi-Head Attention(解码器注意力层)
  • 核心作用:解码器通过此层"向编码器提问":当生成目标语言词时,动态关注源语言句子中与之最相关的部分(如翻译"猫"时聚焦源句的"cat")。
  • 注意:

由图片我们可以看出解码器的注意力层中由2个关键之是来自编码器端的,因此解码器的注意层不是自注意力层,我们要区分开来

3.3、Feed-Forword前馈网络层:

与上面解码器部分的前馈网络层大致一样,不做区分

4、输出部

由 Linear(线性层) 和 Softmax(归一化层) 构成,将模型内部表示转化为可理解的文本概率。

4.1、Linear(线性层):
  • 核心作用:维度映射。将解码器最后一层的隐藏状态(如 512 维向量)线性投影到词汇表大小的维度(如 50,000 维)
  • 本质是加权求和计分作用:为每个词计算"原始得分"(Logits),反映模型对该词的偏好程度

4.2、Softmax(归一化层)

  • 核心作用:概率转化。
  • 将 Logits 转换为 0~1 之间的概率分布,满足概率和为一

一共由这4部分组成一个Transformer架构,这就是我的总结,要是有不对的地方,请各位佬指正

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询