Transformer架构的简要讲解-酒店常州论坛

1、前言

1、Transformer 是由 Google 团队在 2017 年论文《Attention Is All You Need》中提出的深度学习架构。它完全摒弃了传统的循环神经网络（RNN/LSTM）和卷积神经网络（CNN），仅依靠自注意力机制（Self-Attention）来处理序列数据，彻底改变了自然语言处理（NLP）及计算机视觉等领域的发展轨迹。

2、Transformer的三大核心

自注意力机制（Self-Attention）：这是 Transformer 的灵魂。它允许模型在处理序列中的任何一个词时，都能直接“看到”并关联序列中的所有其他词，无论距离多远。这完美解决了传统 RNN 难以捕捉长距离依赖的问题。
并行计算能力：由于不再像 RNN 那样必须按时间步顺序处理数据，Transformer 可以对整个序列同时进行矩阵运算。这使得模型能够充分利用 GPU 算力，训练效率呈指数级提升，为如今千亿/万亿参数的大模型奠定了硬件基础。
位置编码（Positional Encoding）：因为自注意力机制本身不包含顺序信息，Transformer 通过注入位置编码向量，让模型重新获得词语在句子中的先后顺序感知。

3、Transformer的架构

Transformer的原始架构是由Encoder-Decoder(编码器 -- 解码器)构成的，但是随着时间的推移衍生新的模型只用其中的一种比如BERT就是只用(Endecor)编码器层，GPT系列就只用(Decoder)解码器层

2、Transformer架构图讲解

2.1、架构图片

2.2、架构组成及其作用讲解

1、输入部分

由Input Enbedding(编码器词嵌入层)和Output Embedding(解码器词嵌入层组成)，加上Positional Encoding:位置编码

1.1、Input Enbedding：

把编码器端的词索引变成词向量

1.2、Output Embedding：

把解码器端的词索引变成词向量

1.3、Positional Encoding.位置编码：

核心作用是为模型注入序列的顺序信息，由于 Transformer 完全摒弃了 RNN/CNN 的递归或卷积结构，容易导致没有顺序感知能力，容易将先后顺序的词是为相同，这是一个非常打的缺陷因此，我们需要用位置编码，来赋予给大模型顺序的感知能力，这对于处理理解中文长难重复句有重要的作用

实现原理：

我们通位置编码层通过计算获取PE编码向量，然后进入输入层中与计算好的InputEnbedding词向量和Output Embedding词向量进行相加Add,注意不是拼接。

2、编码器部分

由Multi-Head-Attention多头自注意力层和Feed-Forword前馈网络层和残差连接(Residual Connection)和层归一化(Norm)组成

2.1、Multi-Head-Attention多头自注意力:

核心作用：互相 @，理清关系。句子一进来，所有词就被拉进一个大群。不管中间隔了多少个字，每个词都能直接 @ 其他词，搞清楚彼此的关系（比如搞清楚句尾的“它”，到底是指开头的“猫”还是“狗”）。
为什么是多头：相当于大家戴着不同颜色的眼镜同时“吃瓜”。一个“头”专门盯“谁干了什么”（动作），另一个“头”专门盯“谁修饰了谁”（细节），最后把大家看到的重点拼起来，全方位无死角地理解这句话。
一句话概括：它是模型的 “社交大群”，负责让词与词之间互相加好友、对暗号，让每个词都明白自己在整句话里的真实身份。
补充：编码器的注意力层是自注意力，因此由词嵌入层输出的Q(query)，K(key)，V(value)三者是相等的

2.2、Feed-Forword前馈网络层:

核心作用：回工位消化吸收。如果说注意力层是大家一起开“头脑风暴会”交换情报，那 FFN 就是开完会后，每个词回到自己的独立工位，把刚才听到的上下文进行深度咀嚼、内化，变成自己的理解。
隐藏技能：偷偷背题的“知识库”。科学家发现，大模型背下来的那些常识和事实（比如“中国的首都是北京”、“水往低处流”），其实都没存在注意力层，而是被 FFN 像“硬盘”一样死死记在了自己的参数里。它不仅是加工厂，更是模型的“外脑记忆区”。
一句话概括：它是模型的 “自习室+备忘录”，负责把开会得来的情报独立思考消化，并随时翻阅自己死记硬背下来的知识库。

2.3、残差连接(Add)和层归一化(Norm)：

残差连接(Add)：

打通梯度通道：反向传播时，梯度可通过恒等映射（加法）无损回传至浅层，从根本上缓解深度网络的梯度消失问题。
简化学习目标：网络无需从零拟合完整映射，只需学习输入与输出的差异，使深层网络更易收敛。

层归一化(Norm)：

稳定深层训练：缓解“内部协变量偏移”，强制每层输入分布保持稳定，避免深层网络出现梯度异常。
加速模型收敛：平滑损失地形（Loss Landscape），使模型能安全地使用更大的学习率进行优化。
减少模型误差：避免模型在训练中跑偏，同时缓解梯度的爆炸增长和直接消失

注意部分：在Pre-Norm(现代大模型主流)归一化在子层变换之前
优点：梯度传播极其顺畅，训练高度稳定，无需复杂的 Warmup 即可轻松堆叠上百层。
缺点：可能导致深层特征表征趋同（Representation Collapse）。

3、解码器部分

由Masked Multi-Head Attention（掩码多头自注意力层）、Multi-Head Attention（编码器-解码器注意力层）、Feed Forward（前馈网络层）和 Add & Norm（残差连接+层归一化）组成，是 Transformer 实现"边思考边生成"的关键结构。

3.1、Masked Multi-Head Attention（掩码多头自注意力层）

核心作用：防止偷看未来信息：在生成序列时（如翻译"Welcome to the city"），解码器预测"the"时只能看到"Welcome"和"to"，绝不能"偷看"后面的"city"。掩码机制通过将未来位置的注意力权重强制置为负无穷，确保模型严格遵循自回归生成逻辑。
为什么需要掩码：解码器是自回归生成的：每一步预测都依赖前一步的输出。若不掩码，模型会提前"剧透"未来内容，导致训练与推理不一致（训练时用真实标签，推理时用自己生成的词）。
一句话概括：它是模型的"防作弊系统"，强制解码器像人类一样"边说边想"，确保生成过程符合语言时序逻辑。

3.2、Multi-Head Attention（解码器注意力层）

核心作用：解码器通过此层"向编码器提问"：当生成目标语言词时，动态关注源语言句子中与之最相关的部分（如翻译"猫"时聚焦源句的"cat"）。
注意：

由图片我们可以看出解码器的注意力层中由2个关键之是来自编码器端的，因此解码器的注意层不是自注意力层，我们要区分开来

3.3、Feed-Forword前馈网络层:

与上面解码器部分的前馈网络层大致一样，不做区分

4、输出部分

由 Linear（线性层）和 Softmax（归一化层）构成，将模型内部表示转化为可理解的文本概率。

4.1、Linear（线性层）：

核心作用：维度映射。将解码器最后一层的隐藏状态（如 512 维向量）线性投影到词汇表大小的维度（如 50,000 维）
本质是加权求和计分作用：为每个词计算"原始得分"（Logits），反映模型对该词的偏好程度

4.2、Softmax（归一化层）

核心作用：概率转化。
将 Logits 转换为 0~1 之间的概率分布，满足概率和为一

一共由这4部分组成一个Transformer架构，这就是我的总结，要是有不对的地方，请各位佬指正

企业官网建设流程全解析

1、前言

2、Transformer架构图讲解

2.1、架构图片

2.2、架构组成及其作用讲解

1、输入部分

1.1、Input Enbedding：

1.2、Output Embedding：

1.3、Positional Encoding.位置编码：

实现原理：

2、编码器部分

2.1、Multi-Head-Attention多头自注意力:

2.2、Feed-Forword前馈网络层:

2.3、残差连接(Add)和层归一化(Norm)：

3、解码器部分

3.1、Masked Multi-Head Attention（掩码多头自注意力层）

3.2、Multi-Head Attention（解码器注意力层）

3.3、Feed-Forword前馈网络层:

4、输出部分

4.1、Linear（线性层）：

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

1、前言

2、Transformer架构图讲解

2.1、架构图片

2.2、架构组成及其作用讲解

1、输入部分

1.1、Input Enbedding：

1.2、Output Embedding：

1.3、Positional Encoding.位置编码：

实现原理：

2、编码器部分

2.1、Multi-Head-Attention多头自注意力:

2.2、Feed-Forword前馈网络层:

2.3、残差连接(Add)和层归一化(Norm)：

3、解码器部分

3.1、Masked Multi-Head Attention（掩码多头自注意力层）

3.2、Multi-Head Attention（解码器注意力层）

3.3、Feed-Forword前馈网络层:

4、输出部分

4.1、Linear（线性层）：

热门文章

文章分类

标签云

相关文章

UI-TARS桌面版：终极零代码GUI自动化解决方案，让AI成为你的数字操作员

EduCoder实训答案库背后的‘经济学’：聊聊多账号签到与金币循环的维护策略

分布式媒体中台的非阻塞I/O架构：高并发事件网关、熔断机制与跨域ETL管道流控实践

需要专业的网站建设服务？