搜广推校招面经三十八

在Transformer模型中，梯度消失和梯度爆炸是深度学习中常见的问题，尤其是在处理长序列数据时。

Y1n · 2025-03-07 01:15:00 发布

字节推荐算法

在Transformer模型中，梯度消失和梯度爆炸是深度学习中常见的问题，尤其是在处理长序列数据时。为了克服这些问题，Transformer采用了一系列技术：

每个子层（包括多头自注意力机制和前馈神经网络层）之后都接了一个残差连接，并且紧接着一个层归一化（Layer Normalization）。残差连接有助于缓解深层网络中的梯度消失问题，因为它允许梯度直接通过恒等映射传递到前面的层，从而使得更深层次的网络能够被有效地训练。

与批量归一化不同，层归一化对单个样本的所有特征进行归一化，而不是对整个批次的同一特征进行归一化。这使得它更适合于动态变化的输入序列长度，并且可以帮助稳定训练过程中的梯度，防止它们变得过大或过小。

为了避免当输入维度较大时softmax函数进入饱和区导致梯度消失的问题，Transformer引入了缩放因子（通常为键向量维度的平方根），来缩放点积结果。

合理的权重初始化对于避免梯度爆炸非常重要。例如，使用Xavier初始化或He初始化方法可以确保每一层的输入信号的标准差大致保持不变，从而防止梯度因初始值过小而消失或者过大而爆炸。

这是一种简单但有效的方法，用于限制梯度的最大范数。如果计算出的梯度超过了某个阈值，则将其按比例缩小以保证更新步长不会过大，这样可以避免梯度爆炸带来的不稳定训练ty-reference。

使用如Adam这样的自适应学习率优化算法，可以根据历史梯度动态调整学习率，有助于更好地控制参数更新的尺度，减少梯度爆炸的风险。

在训练开始阶段，逐渐增加学习率，可以帮助解决由于初始学习率过高而导致的梯度爆炸问题。

自注意力机制的核心是计算Query、Key和Value矩阵，并通过点积得到注意力分数。

输入表示：假设输入序列长度为 n ，每个词的嵌入维度为 d 。
计算步骤：
1. 计算 $Q 、 K 、 V$ 矩阵：时间复杂度为 $\cdot d^2)$ 。
2. 计算注意力分数 $QK^T$ ：时间复杂度为 $O(n^2 \cdot d)$ 。
3. 对注意力分数进行Softmax归一化：时间复杂度为 $O(n^2)$ 。
4. 计算加权和 $\text{Attention}(Q, K, V) = \text{Softmax}(QK^T)V$ ：时间复杂度为 $O(n^2 \cdot d)$ 。
总时间复杂度： $O(n^2 \cdot d + n \cdot d^2)$ 。当 $n > d$ 时，主要项为 $O(n^2 \cdot d)$ 。

FFN由两个全连接层组成，通常先扩展维度再压缩回原始维度。

输入表示：输入维度为 $d$ ，隐藏层维度为 $d_{ff}$ （通常 $d_{ff} = 4d$ ）。
计算步骤：
1. 第一层全连接：时间复杂度为 $\cdot d \cdot d_{ff})$ 。
2. 第二层全连接：时间复杂度为 $\cdot d_{ff} \cdot d)$ 。
总时间复杂度： $\cdot d \cdot d_{ff})$ 。由于 $d_{ff} = 4d$ ，可简化为 $\cdot d^2)$ 。