深度学习进阶（二十）Transformer-XL合集 - 深度学习进阶(31)1.深度学习进阶（一）从注意力到自注意力03-312.深度学习进阶（二）多头自注意力机制（Multi-He-酒店常州论坛

Transformer 的上下文窗口问题#

在我们之前介绍 Transformer时，我们提到了位置编码，提到了因果掩码，但并没有对数据本身展开太多。
这里我们先补充一些 Transformer 对文本数据处理细节，展开 Transformer 的上下文窗口逻辑。

1.1 长短不一的文本如何统一输入？#

我们知道，注意力本身就是是矩阵运算，假设一个 batch 中有三句话：

文本序列	Tokenize 后	Token 数量
"I love AI"	["I", "love", "AI"]	3
"Transformer is powerful"	["Transformer", "is", "powerful"]	3
"Hi"	["Hi"]	1

显然，这种不规则长度，根本无法直接组成矩阵。
因此，Transformer 会使用经典方法：Padding（填充），来把所有序列补齐到同一个长度。
例如补到当前 batch 的最长长度：

原始序列	Padding 后
[I, love, AI]	[I, love, AI]
[Transformer, is, powerful]	[Transformer, is, powerful]
[Hi]	[Hi, PAD, PAD]

这里的<PAD>就是填充符：它没有任何语义，仅仅用于对齐矩阵，来满足模型输入要求。

1.2 Attention 如何处理填充符？#

这里很容易产生一个问题：

既然填充符也进入了序列，那模型会不会真的去关注这些“伪 token”？

答案是会：如果不做额外处理，Attention 会把填充符成正常 token 一样参与计算。

这显然是无意义的。因此，Transformer 引入Attention Mask，也就是注意力掩码，它和我们之前提到的解码器阶段的因果掩码不同。它的作用就是：

在填充的同时生成一组掩码，告诉模型输入的哪些位置是填充符，不用计算。

就像这样：

显然，1 表示有效 token，0 表示 PAD.

随后，在 Attention 内部计算完得到注意力分数后，模型会根据掩码把 PAD 位置对应的分数变成，这样在进行 Softmax 之时：

这样，PAD 的注意力权重就会归零，不污染真正的注意力信息。
但是，这只是解决了逻辑问题，这里还有一个问题：计算量问题。

1.3 Transformer 如何处理长文本序列？#

在有了 PAD 后，从理论上来说： Transformer 可以处理无限长的序列，只要把该 batch 中的其他序列都填充至最长长度就好了。

但显然，这只是理论。
原因在于注意力计算中每一个 token 都要计算和所有 token 的注意力分数,其复杂度为：因此，计算量会随着序列长度增加而暴涨，得到结论：Transformer 不可能无限扩展上下文。

所以，大多数 Transformer 都会设定一个固定长度上下文窗口，例如：512、1024、2048 等等，这就是现在的AI模型记忆的最初形态。

当序列长度超过这个窗口长度时，Transformer 就会进行切段（Segment）。

例如，一个最大上下文窗口长度为的 Transformer，如果输入了一篇长度为 1500 tokens 的长文章，模型通常会将其切分为以下三段：

Segment A: [1 ~ 512] tokens
Segment B: [513 ~ 1024] tokens
Segment C: [1025 ~ 1500] tokens

之后，这三个 Segment 会只在自己的序列范围内计算注意力，从而解决长序列带来的计算量问题。

但这也同时带来了新的问题：

Segment A 中的 token，无法看到 Segment B 和 Segment C 中的内容。

因为它们不在一个上下文窗口里，这就是“看到结尾，忘了开头”的原因。

这便是 Transformer-XL 的核心改进点，同时，作者提出了一种改进后的 RPE，下面就来详细展开。

2.Transformer-XL#

现在，我们已经理解了原始 Transformer 的核心问题：

上下文窗口是固定的，不同 Segment 之间完全隔离。

而 Transformer-XL 的核心思想其实非常直观：

既然当前窗口看不到历史内容，那就把历史窗口缓存下来。

下面来分点展开其详细逻辑：

2.1 记忆缓存 Memory#

在展开这部分前，我们要先强调一点设计：

同一个序列的 Segment A、B、C 不会出现在同一个 batch 内，而是按顺序出现在前后不同 batch。

现在我们来展开 Memory 的内容，你就会明白这么设计的原因：

如图所示，我们知道序列数据进入 Transformer block 后会进行注意力计算、融合等处理，得到编码信息，进行下一步堆叠或其他处理：

而现在，我们新增了一个缓存窗口，我们会这这一批次的编码信息存入缓存窗口，而下一批次的输出后，就会把下一个批次的输出再存入其中。

值得一提的是，缓存窗口不一定要大于等于上下文窗口。
如果设置缓存窗口为 256，而上下文窗口是 512 ，那么只会切分编码信息的最后 256 部分进入缓存窗口。

这一步，我们是把现在的存下来，其作用自然就是在下一步使用，来实现“记忆功能”。

2.2 Memory 如何参与下一轮 Attention？#

现在，Memory 已经建立好了。接下来真正关键的问题来了：

历史编码信息到底是如何参与下一轮计算的？

在这里你会发现这种逻辑非常类似于 RNN ，因此，我们在这里也称 Memory 为上一轮的隐藏状态，而其传递逻辑是这样的：

这段是递归传递的核心，我们来详细展开：先回到 Attention 的核心公式：

我们之前说过：

Query（）：表示“当前需要什么”
Key（）：表示“当前可以提供什么”
Value（）：表示“真正携带的信息”

因此，在当前批次中，我们首先要使用自身信息来生成需求，即 :

而为了实现记忆，我们就要从当前和缓存中确认供给和真正信息，即，，因此，XL 的处理是现将当前批次信息和缓存进行拼接：

注意，这是序列长度维度的拼接，所以不会破坏的 Q/K/V 投影计算。
展开一下，对于：

其中：

：token 数（序列长度）
：embedding 维度

如果当前 segment：

而历史 memory：

企业官网建设流程全解析

Transformer 的上下文窗口问题#

1.1 长短不一的文本如何统一输入？#

1.2 Attention 如何处理填充符？#

1.3 Transformer 如何处理长文本序列？#

2.Transformer-XL#

2.1 记忆缓存 Memory#

2.2 Memory 如何参与下一轮 Attention？#

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

Transformer 的上下文窗口问题#

1.1 长短不一的文本如何统一输入？#

1.2 Attention 如何处理填充符？#

1.3 Transformer 如何处理长文本序列？#

2.Transformer-XL#

2.1 记忆缓存 Memory#

2.2 Memory 如何参与下一轮 Attention？#

热门文章

文章分类

标签云

相关文章

2026 AI/LLM黑话速通：Prefill、RLVR、GraphRAG，进阶概念怎么用？从小白到听懂面试官在说什么（下）

【无标题】亦唐科技的人工智能创新与应用

Java毕业设计-基于 SpringBoot 的高校学术交流平台设计与实现 SpringBoot 框架下校园学术交流互动平台设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)

需要专业的网站建设服务？