矩阵求导术

标量矩阵的求导，定义为∂f∂X=[∂f∂Xij]\frac{\partial f}{\partial X}=\left[\frac{\partial f}{\partial X_{ij}}\right]∂X∂f=[∂Xij∂f]即fff逐元素求导排成与XXX相同的矩阵。一元微积分中的导数与微分的关系df=f′(x)dxdf=f'(x)dxdf=f′(x)dx，多元微积分中的梯度(标量对向量的

得克特

743人浏览 · 2021-11-16 23:32:13

得克特 · 2021-11-16 23:32:13 发布

文章目录

矩阵微分与矩阵导数的关系

标量矩阵的求导，定义为 $\frac{\partial f}{\partial X}=\left[\frac{\partial f}{\partial X_{ij}}\right]$ 即 $f$ 逐元素求导排成与 $X$ 相同的矩阵。

一元微积分中的导数与微分的关系 $d f = f^{'} (x) d x$ ，多元微积分中的梯度(标量对向量的导数)也与微分有联系 $df=\sum_{i=1}^n \frac{\partial f}{\partial x_i}dx_i=\left[\frac{\partial f}{\partial \boldsymbol x}\right]^Td\boldsymbol{x}$ 这里第一个等号是全微分公式，第二个等号表达了梯度与微分的联系：

全微分 $d f$ 是梯度向量 $\frac{\partial f}{\partial \boldsymbol{x}}\,(n\times1)$ 与微分向量 $d\boldsymbol{x}\,(n\times1)$ 的内积。

受此启发，我们将矩阵导数与微分建立联系：
$df=\sum_{i=1}^m\sum_{j=1}^n\frac{\partial f}{\partial X_{ij}}dX_{ij}=\text{tr}\left(\left[\frac{\partial f}{\partial X} \right]^TdX\right)$ 其中 $\text{tr}$ 代表迹（trace）是方阵对角线元素之和，且有性质，对尺寸相同的矩阵 $A,B,\, \text{tr}(A^TB)=\sum_{i,j}A_{ij}B_{ij}$ ，即 $\text{tr}(A^TB)$ 是矩阵 $A, B$ 的内积。

与梯度相似，这里第一个等号是全微分公式，第二个等号表达了矩阵导数与微分的联系：全微分 $d f$ 是导数 $\cfrac{\partial f}{\partial X}(m\times n)$ 与微分矩阵 $dX(m\times n)$ 的内积。

矩阵微分的运算法则

想遇到较复杂的一元函数如 $f=\log(2+\sin x)e^{\sqrt{x}}$ ，我们是如何求导的呢？通常不是从定义开始求极限，而是先建立了初等函数求导和四则运算、复合等法则，再来运用这些法则。故而，我们来创立常用的矩阵微分的运算法则：

加减法： $d(X\pm Y)=dX \pm dY$
矩阵乘法： $d (X Y) = d (X) Y + X d Y$
转置： $d(X^T)=(dX)^T$
迹： $d\text{tr}(X)=\text{tr}(dX)$
逆： $dX^{-1}=-X^{-1}dXX^{-1}$ ，此式可在 $XX^{-1}=I$ 两侧求微分证明。
行列式 $d\lvert X \rvert=\text{tr}(X^{\#}dX)$ ，其中 $X^\#$ 表示 $X$ 的伴随矩阵，在 $X$ 可逆时又可写作 $d\lvert X \rvert=\lvert X \rvert \text{tr}(X^{-1}dX)$ 。此式可用Laplace展开来证明，详见张贤达《矩阵分析与应用》第279页。
逐元素乘法： $\odot Y)=dX \odot Y + X\odot dY$ ， $\odot$ 表示尺寸相同的矩阵 $X, Y$ 逐元素相乘。
逐元素函数： $d\sigma(X)=\sigma'(X)\odot dX, \sigma(X)=\left[\sigma(X_{ij})\right]$ 逐元素标量函数运算， $\sigma'(X)=\left[\sigma'(X_{ij})\right]$ 是逐元素求导数。例如
$\begin{bmatrix} X_{11} & X_{12} \\ X_{21} & X_{22} \end{bmatrix}, d\sin(X)= \begin{bmatrix} \cos X_{11}dX_{11} & \cos X_{12}dX_{12} \\ \cos X_{21}dX_{21} & \cos X_{22}dX_{22} \end{bmatrix} =\cos(X) \odot d(X)$

利用迹求矩阵的导数

我们试图利用矩阵导数与微分的联系 $df=\text{tr}\left[\left(\cfrac{\partial f}{\partial X}\right)^TdX \right]$ ，在求出左侧的微分 $d f$ 后，该如何写成右侧的形式并得到导数呢？这需要一些迹技巧(trace trick)：

标量套上迹： $a=\text{tr}(a)$
转置： $\text{tr}(A^T)=\text{tr}(A)$
线性： $\text{tr}(A\pm B)=\text{tr}(A)\pm \text{tr}(B)$
矩阵乘法交换： $\text{tr}(AB)=\text{tr}(BA)$ ，其中 $A$ 与 $B^T$ 尺寸相同。两侧都等于 $\sum_{ij}A_{ij}B_{ij}$ 。
矩阵乘法/逐元素乘法交换： $\text{tr}(A^T(B\odot C))=\text{tr}((A\odot B)^TC)$ ，其中 $A, B, C$ 尺寸相同。两侧都等于 $\sum_{ij}A_{ij}B_{ij}C_{ij}$ 。 $\begin{aligned} A^T(B\odot C)&= \begin{bmatrix} a_{11} & a_{21} & \dots & a_{n1} \\ a_{12} & a_{22} & \dots & a_{n2} \\ \vdots & \vdots & \ddots & \vdots \\ a_{1n} & a_{2n} & \dots & a_{nn} \end{bmatrix} \begin{bmatrix} b_{11}c_{11} & b_{12}c_{12} & \dots & b_{1n}c_{1n} \\ b_{21}c_{21} & b_{22}c_{22} & \dots & b_{2n}c_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ b_{n1}c_{n1} & b_{n2}c_{n2} & \dots & b_{nn}c_{nn} \end{bmatrix}\\ &=\begin{bmatrix} \sum_{j=1}a_{j1}b_{j1}c_{j1} & \sum_{j=1}a_{j1}b_{j2}c_{j2} & \dots &\sum_{j=1}a_{j1}b_{jn}c_{jn}\\ \sum_{j=1}a_{j2}b_{j1}c_{j1} & \sum_{j=1}a_{j2}b_{j2}c_{j2} & \dots &\sum_{j=1}a_{j2}b_{jn}c_{jn}\\ \vdots & \vdots & \ddots & \vdots \\ \sum_{j=1}a_{jn}b_{j1}c_{j1} & \sum_{j=1}a_{jn}b_{j2}c_{j2} & \dots &\sum_{j=1}a_{jn}b_{jn}c_{jn} \end{bmatrix}\\ \end{aligned}$
容易推得 $\text{tr}\left[A^T(B\odot C)\right]=\sum_{i=1}\sum_{j=1}a_{ji}b_{ji}c_{ji}=\text{tr}\left[(A\odot B)^TC\right]$
观察一下可以断言：

若标量函数 $f$ 是矩阵 $X$ 经加减乘法、逆、行列式、逐元素函数等运算构成，则使用相应的运算法则对 $f$ 求微分，再使用迹技巧给 $d f$ 套上迹并将其它项交换至 $d X$ 左侧，对照导数与微分的联系 $df=\text{tr}\left[\left(\cfrac{\partial f}{\partial X}\right)^TdX \right]$ ，即能得到导数。
特别地，若矩阵退化为向量，对照导数与微分的联系 $df=\left(\cfrac{\partial f}{\partial \boldsymbol x}\right)^Td\boldsymbol{x}$ ，即能得到导数。

在建立法则的最后，来谈一谈复合：假设已求得 $\cfrac{\partial f}{\partial Y}$ ，而 $Y$ 是 $X$ 的函数，如何求 $\cfrac{\partial f}{\partial X}$ 呢？在微积分中有标量求导的链式法则 $\cfrac{\partial f}{\partial x}=\cfrac{\partial f}{\partial y}\cfrac{\partial y}{\partial x}$ ，但这里我们不能随意沿用标量的链式法则，因为矩阵对矩阵的导数 $\cfrac{\partial Y}{\partial X}$ 截至目前仍是未定义的。于是我们继续追本溯源，链式法则是从何而来？源头仍然是微分。我们直接从微分入手建立复合法则：先写出[公式]，再将 $d Y$ 用 $d X$ 表示出来代入，并使用迹技巧将其他项交换至 $d X$ 左侧，即可得到 $\cfrac{\partial f}{\partial X}$ 。

一些例子

例1

$f=a^TXb$ ，求 $\cfrac{\partial f}{\partial X}$ 。
其中 $a$ 是 $m\times1$ 列向量， $X$ 是 $m\times n$ 矩阵， $b$ 是 $n\times 1$ 向量， $f$ 是标量。
求微分
$df=da^TXb+a^TdXb+a^TXdb=a^TdXb$ ，这里 $a, b$ 为常量，所以 $d a = 0, d b = 0$
$df=tr(df)=tr(a^TdXb)=tr(ba^TdX)=tr((ab^T)^TdX)$ ，得 $\cfrac{\partial f}{\partial X}=ab^T$

例2

$f=a^T\exp(Xb)$ ，求 $\cfrac{\partial f}{\partial X}$ 。其中 $a$ 是 $m\times1$ 列向量， $X$ 是 $m\times n$ 矩阵， $b$ 是 $n\times 1$ 向量， $\exp$ 表示逐元素求指数， $f$ 是标量。
求微分
$df=a^T(\exp(Xb)\odot(dXb))=\text{tr}(df)=\text{tr}\left((a\odot \exp(Xb))^TdXb\right)=\text{tr}\left(\left(a\odot \exp(Xb))b^T\right)^TdX\right)\\ \Rightarrow \cfrac{\partial f}{\partial X}=(a\odot \exp(Xb))b^T$

例3

$f=\text{tr}(Y^TMY), Y=\sigma(WX)$ ，求 $\cfrac{\partial f}{\partial X}$ 。
其中 $W$ 是 $l\times m$ 列向量， $X$ 是 $m\times n$ 矩阵， $Y$ 是 $l\times n$ 向量， $M$ 是 $l\times l$ 对称矩阵， $\sigma$ 表示逐元素求指数， $f$ 是标量。
求微分 $df=\text{tr}((dY)^TMY)+\text{tr}(Y^TMdY)=\text{tr}(Y^TM^TdY+Y^TMdY)=\text{tr}(Y^T(M^T+M)dY)$
得导数 $\cfrac{\partial f}{\partial Y}=(M+M^T)Y=2MY$

继续求微分
$\begin{aligned} df&=\text{tr}(\cfrac{\partial f}{\partial Y}^TdY)=\text{tr}\left(\cfrac{\partial f}{\partial Y}^T(1-\sigma(WX))\odot WdX\right)\\ &=\text{tr}\left(\left(\cfrac{\partial f}{\partial Y}\odot(1-\sigma(WdX))\right)^T WdX\right)=\text{tr}\left(\left(W^T\cfrac{\partial f}{\partial Y}\odot(1-\sigma(WX))\right)^T dW\right)\\ &\Rightarrow \cfrac{\partial f}{\partial X}=W^T\cfrac{\partial f}{\partial Y}\odot(1-\sigma(WX)) \end{aligned}$

线性回归

$l=\lVert Xw-y\rVert^2$ ，求 $w$ 的最小二乘估计，即求 $\cfrac{\partial l}{\partial w}$ 的零点。
其中 $y$ 是 $m\times 1$ 列向量， $X$ 是 $m\times n$ 矩阵， $w$ 是 $n\times 1$ 列向量， $l$ 是标量。

这是标量对向量的导数，不过可以把向量看做矩阵的特例。
$l=(Xw-y)^T(Xw-y)$

求微分，使用矩阵乘法、转置等法则：
$dl=(Xdw)^T(Xw-y)+(Xw-y)^T(Xdw)$

由两个列向量满足性子： $u^Tv=v^Tu$
$dl=2(Xw-y)^T(Xdw)=\text{tr}(dl)=\text{tr}\left(\left(2X^T\left(Xw-y\right)\right)^Tdw \right)$
根据标量对向量的微分公式：
$\cfrac{\partial l}{\partial w}=2X^T\left(Xw-y\right)=0 \Rightarrow w=(X^TX)^{-1}X^Ty$

线性规划的扩展

$l=\cfrac{1}{N}\sum_{i=1}^N\lVert x_iw+b-y_i\rVert^2$ ，求 $w, b$ 的最小二乘估计，即求 $\cfrac{\partial l}{\partial w},\cfrac{\partial l}{\partial b}$ 的零点。
其中 $y_i$ 是 $n\times 1$ 行向量， $x_i$ 是 $m\times 1$ 列向量， $w$ 是 $m\times n$ 矩阵， $l$ 是标量。
将 $a_i=x_iw+b$ 带入得： $l=\cfrac{1}{N}\sum_{i=1}^N\lVert a_i-y_i\rVert^2$
求全微分：
$dl=d\left(\cfrac{1}{N}\sum_{i=1}^N(a_i-y_i)^T(a_i-y_i)\right)=\cfrac{1}{N}\sum_{i=1}^N2(a_i-y_i)^Tda_i$
得到
$\cfrac{\partial l}{\partial a_i}=\cfrac{2}{N}(a_i-y_i)$

根据链式求导法则：
$dl=\sum_{i=1}^N\text{tr}\left(\left(\cfrac{\partial l}{\partial a_i}\right)^T(x_idw+db)\right)=\sum_{i=1}^N\text{tr}\left(\left(\cfrac{\partial l}{\partial a_i} \right)^Tx_idw +\left( \cfrac{\partial l}{\partial a_i} \right)^Tdb \right)$
得 $w, b$ 的偏导
$\cfrac{\partial l}{\partial b}=\sum_{i=1}^N\cfrac{2}{N}(x_iw+b-y_i)=0\quad\Rightarrow b=\mu_y-\mu_xw$
$\begin{aligned} \cfrac{\partial l}{\partial w} &=\sum_{i=1}^Nx_i^T\cfrac{\partial l}{\partial a_i}\\ &=\cfrac{2}{N}\sum_{i=1}^Nx_i^T(x_iw+b-y_i)\\ &=\cfrac{2}{N}\sum_{i=1}^Nx_i^T(x_iw+\mu_y-\mu_xw-y_i)\\ &=\cfrac{2}{N}\sum_{i=1}^N(x_i-\mu_x)^T((x_i-\mu_x)w+\mu_y-y_i)=0 \quad\frac{2}{N}\sum_{i=1}^N\mu_x^T(x_iw+\mu_y-\mu_xw-y_i))=0\\ &\Rightarrow w= \Sigma_{xx}^{-1}\Sigma_{xy}, b=\mu_y-\mu_x \Sigma_{xx}^{-1}\Sigma_{xy}\\ \end{aligned}$

多维正态分布

m维随机向量可以写作：
$p(\boldsymbol x)=(2\pi)^{-m/2}\lvert \Sigma \rvert^{-1/2}e^{-1/2(\boldsymbol x-\mu)^T\Sigma^{-1}(\boldsymbol x-\mu)}$
极大似然估计 $\begin{aligned} l&=\log \prod_{i=1}^{N}p(x_i)\\ &=\log\left[ (2\pi)^{-mN/2} \lvert\Sigma\rvert^{-N/2}e^{\sum_{i=1}^N-1/2(x_i-\mu)^T\Sigma^{-1}(x_i-\mu)} \right]\\ &=-\frac{mN}{2}\log(2\pi)-\left[\frac{N}{2}\vert\Sigma\rvert + \frac{N}{2}\cdot \frac{1}{N}\sum_{i=1}^N(x_i-\mu)^T \Sigma^{-1} (x-\mu) \right]\\ &=-\frac{mN}{2}\log(2\pi)-\frac{N}{2}\left[\vert\Sigma\rvert + \cdot \frac{1}{N}\sum_{i=1}^N(x_i-\mu)^T \Sigma^{-1}(x-\mu) \right]\\ \end{aligned}$
其中 $x_i$ 表示 $m\times 1$ 维向量， $\mu$ 表示 $m\times 1$ 维均值向量。
所以，只需要求下式极值： $l=\vert\Sigma\rvert + \frac{1}{N}\sum_{i=1}^N(x_i-\mu)^T \Sigma^{-1}(x-\mu)$ 求微分，先看 $\log\lvert \Sigma \rvert$
$d\log\lvert\Sigma\rvert=\lvert\Sigma\rvert^{-1}d\lvert\Sigma\vert=\lvert\Sigma\rvert^{-1}\lvert\Sigma\rvert\text{tr}(\Sigma^{-1}d\Sigma)={tr}(\Sigma^{-1}d\Sigma)$
第二项求微分
$\begin{aligned} d\left[\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^T \Sigma^{-1}(x-\mu)\right]&=-\cfrac{1}{N}\sum_{i=1}^N(x_i-\mu)^T\Sigma^{-1}d\Sigma\Sigma^{-1}(x_i-\mu)\\ &=-\cfrac{1}{N}\sum_{i=1}^N\text{tr}(\Sigma^{-1}(x_i-\mu)(x_i-\mu)^T\Sigma^{-1}d\Sigma)\\ &=-\text{tr}(\Sigma^{-1}\Sigma_{xx}\Sigma^{-1}d\Sigma)\\ \end{aligned}$
两项微分相加
$\begin{aligned} dl&=\text{tr}(\Sigma^{-1}d\Sigma-\Sigma^{-1}\Sigma_{xx}\Sigma^{-1}d\Sigma)=\text{tr}\left(\left(\Sigma^{-1}-\Sigma\Sigma_{xx}\Sigma^{-1}\right)d\Sigma\right)\\ &\Rightarrow \cfrac{\partial l}{\partial \Sigma}=\left(\Sigma^{-1}-\Sigma^{-1}\Sigma_{xx}\Sigma^{-1}\right)^T\\ &\Rightarrow \cfrac{\partial l}{\partial \Sigma}=0 \Rightarrow \Sigma=\Sigma_{xx} \end{aligned}$

多元逻辑回归

$l=-y^T\log\text{softmax}(Wx)$ ，求 $\cfrac{\partial l}{\partial W}$ 。
其中 $y$ 是除一个元素为1其它元素为0的 $m\times1$ 列向量， $W$ 是 $m\times n$ 矩阵， $x$ 是 $n\times 1$ 列向量， $l$ 是标量。
$\log$ 表示自然对数， $\text{softmax}(a)=\cfrac{\exp{(a)}}{1^T\exp{(a)}}$ ，其中 $\text{exp}$ 表示逐元素求指数， $1$ 代表全1向量。
令 $a = W x$ ，将 $\text{softmax}$ 带入求微分
$\begin{aligned} dl&=d\left[-y^T(a-1\log(1^T\exp(a)))\right]\\ &=d\left[-y^Ta+\log(1^T\exp(a))\right]\\ &=\cfrac{1^T\exp(a)\odot da}{1^T\exp(a)}-y^Tda\\ &=\text{tr}(\cfrac{1^T\exp(a)\odot da}{1^T\exp(a)}-y^Tda)\\ &=\text{tr}(\cfrac{\exp(a)^Tda}{1^T\exp(a)}-y^Tda)\\ &=\text{tr}\left((\text{softmax(a)}-y)^Tda\right)\\ &\Rightarrow \cfrac{\partial l}{\partial a}=\text{softmax}(a)-y \end{aligned}$
将 $a = W x$ 带入，求微分
$\begin{aligned} dl&=\text{tr}\left(\cfrac{\partial l}{\partial a}^Tda\right)=\text{tr}\left(\cfrac{\partial l}{\partial a}^TdWx\right)=\text{tr}\left(\left(\cfrac{\partial l}{\partial a}x^T\right)^Tdx\right)\\ &\Rightarrow \cfrac{\partial l}{\partial w}=\cfrac{\partial l}{\partial a}x^T=\left(\text{softmax}(Wx)-y\right)x^T \end{aligned}$

二层神经网络

$l=-y^T\log \text{softmax}(W_2\sigma(W_1x))$ ，求 ${\cfrac{\partial l}{\partial W_1}}, {\cfrac{\partial l}{\partial W_2}}$ 。
其中 $y$ 是除一个元素为 $1$ 外其它元素为 $0$ 的 $m\times 1$ 列向量， $W_2$ 是 $m\times p$ 矩阵， $W_1$ 是 $p\times n$ 矩阵， $x$ 是 $n\times 1$ 列向量， $l$ 是标量。
$\log$ 表示自然对数， $\text{softmax}(a)=\cfrac{\exp{(a)}}{1^T\exp({a})}$ ， $\sigma$ 是逐元素 $\text{sigmoid}$ 函数 $\sigma(a)=\cfrac{1}{1+\exp(-a)}$

令 $a_2=W_2\sigma(W_1x)$ ，根据上面的逻辑回归求导结果
$\cfrac{\partial l}{\partial a_2}=\text{softmax}(a_2)-y$

令 $a_1=\sigma(W_1x)$ 继续求微分
$dl=\text{tr}(\cfrac{\partial l}{\partial a_2}^Tda_2)=\text{tr}\left(\cfrac{\partial l}{\partial a_2}^T dW_2a_1+\cfrac{\partial l}{\partial a_2}^TW_2da_1\right)$
得 $\cfrac{\partial l}{\partial W_2}=\cfrac{\partial l}{\partial a_2}a_1^T$

继续求解第二部分 $\begin{aligned} \text{tr}(\cfrac{\partial l}{\partial a_2}^TW_2da_1) &=\text{tr}\left(\cfrac{\partial l}{\partial a_2}^TW_2d\sigma(W_1x)\right)\\ &=\text{tr}\left(\cfrac{\partial l}{\partial a_2}^TW_2(1-\sigma(W_1x))\odot dW_1x\right)\\ &=\text{tr}\left(\left(W_2^T\cfrac{\partial l}{\partial a_2}\right)^T(1-\sigma(W_1x))\odot dW_1x\right)\\ &=\text{tr}\left(\left(W_2^T\cfrac{\partial l}{\partial a_2}\odot (1-\sigma(W_1x))\right)^T dW_1x\right)\\ &=\text{tr}\left(\left(W_2^T\cfrac{\partial l}{\partial a_2}\odot (1-\sigma(W_1x))x^T\right)^T dW_1\right)\\ &\Rightarrow \cfrac{\partial l}{\partial W_1}=W_2^T\cfrac{\partial l}{\partial a_2}\odot (1-\sigma(W_1x))x^T \end{aligned}$
推广：样本 $(x_1,y_1),\dots,(x_N,y_N)$ ， $l=-\sum_{i=1}^Ny_i^T\log \text{softmax}(W_2\sigma(W_1x_i+b_1)+b_2)$ 。其中 $b_1$ 是 $p\times1$ 列向量， $b_2$ 是 $m\times1$ 列向量。

解1：定义 $a_{1,i}=W_1x_i+b_1, a_{2,i}=W_2\sigma(a_1)+b_2$ 。
则 $l=-\sum_{i=1}^Ny^T\log\text{softmax}(a_{2,i})$ ，同上得 $\cfrac{\partial l}{\partial a_{2,i}}=\text{softmax}(a_{2,i})-y_i$ ，则
$\begin{aligned} dl&=\sum_{i=1}^N\text{tr}(\cfrac{\partial l}{\partial a_{2,i}}^Tda_{2,i})\\ &=\sum_{i=1}^N\text{tr}\left(\cfrac{\partial l}{\partial a_{2,i}}^T dW_2\sigma(a_{1,i})+\cfrac{\partial l}{\partial a_{2,i}}^TW_2d\sigma(a_{1,i})+\cfrac{\partial l}{\partial a_{2,i}}^Tdb_2\right)\\ &\Rightarrow \cfrac{\partial l}{\partial W_2}=\sum_{i=1}^N\cfrac{\partial l}{\partial a_{2,i}}\sigma(a_{1,i})^T,\, \cfrac{\partial l}{\partial b_2}=\sum_{i=1}^N\cfrac{\partial l}{\partial a_{2,i}} \end{aligned}$ 继续求解 $\cfrac{\partial l}{\partial W_1}, \cfrac{\partial l}{\partial {b_1}}$
$\begin{aligned} dl_2&=\sum_{i=1}^N\text{tr}(\cfrac{\partial l}{\partial a_{2,i}}^TW_2d\sigma(a_{1,i}))\\ &=\sum_{i=1}^N\text{tr}(\cfrac{\partial l}{\partial a_{2,i}}^TW_2(1-\sigma(a_{1,i}))\odot da_{1,i})\\ &=\sum_{i=1}^N\text{tr} \left(\left(W_2^T\cfrac{\partial l}{\partial a_{2,i}} \odot (1-\sigma(a_{1,i}))\right)^Tda_{1,i}\right)\\ &\Rightarrow \cfrac{\partial l}{\partial a_{1,i}}=\left(W_2^T\cfrac{\partial l}{\partial a_{2,i}} \odot (1-\sigma(a_{1,i}))\right) \end{aligned}$ 则有
$\begin{aligned} dl_2&=\sum_{i=1}^N\text{tr}\left(\cfrac{\partial l}{\partial a_{1,i}}^Tda_{1,i}\right)\\ &=\sum_{i=1}^N\text{tr}\left(\cfrac{\partial l}{\partial a_{1,i}}^TdW_1x_i + \cfrac{\partial l}{\partial a_{1,i}}^Tdb_1 \right)\\ &\Rightarrow \cfrac{\partial l}{\partial W_1}=\sum_{i=1}^N\cfrac{\partial l}{\partial a_{1,i}}x_i^T,\, \cfrac{\partial l}{\partial b_2}=\sum_{i=1}^N\cfrac{\partial l}{\partial a_{1,i}} \end{aligned}$
解2：可以用矩阵来表示 $N$ 个样本，以简化形式。定义
$X=[x_1,x_2,\dots,x_N]\\ A_1=[a_{1,1},a_{1,2},\dots,a_{1,N}]=W_1X+b1^T\\ A_2=[a_{2,1},a_{2,2},\dots,a_{2,N}]=W_2\sigma(A_1)+b_21^T\\ \sigma(A_1)=[\sigma(a_{1,1}),\sigma(a_{1,2}),\dots,\sigma(a_{1,N})]$

则有 $\cfrac{\partial l}{\partial A_2}=\left[\text{softmax}(a_{2,1}) - y_1,\text{softmax}(a_{2,2}) - y_2,\dots, \text{softmax}(a_{2,N}) - y_N \right]$
$\begin{aligned} dl&=\text{tr}(\cfrac{\partial l}{\partial A_2}^TdA_2)\\ &=\text{tr}\left(\cfrac{\partial l}{\partial A_2}^T dW_2\sigma(A_1)+\cfrac{\partial l}{\partial A_2}^TW_2d\sigma(A_1)+\cfrac{\partial l}{\partial A_2}^Tdb_21^T\right)\\ &\Rightarrow \cfrac{\partial l}{\partial W_2}=\cfrac{\partial l}{\partial A_2}\sigma(A_1)^T,\, \cfrac{\partial l}{\partial b_2}=\cfrac{\partial l}{\partial A_2} \end{aligned}$
求解 $\cfrac{\partial l}{\partial A_1}$ $\begin{aligned} dl_2&=\text{tr}\left(\cfrac{\partial l}{\partial A_2}^TW_2d\sigma(A_1)\right)\\ &=\text{tr}\left(\cfrac{\partial l}{\partial A_2}^TW_2\left(1-\sigma(A_1)\right)\odot dA_1 \right)\\ &=\text{tr}\left(\left(W_2^T\cfrac{\partial l}{\partial A_2}\odot\left(1-\sigma(A_1)\right)\right)^T dA_1 \right)\\ &\Rightarrow \cfrac{\partial l}{\partial A_1}=W_2^T\cfrac{\partial l}{\partial A_2}\odot\left(1-\sigma(A_1)\right) \end{aligned}$
继续求解 $\cfrac{\partial l}{\partial W_1}, \cfrac{\partial l}{\partial {b_1}}$
$\begin{aligned} dl_2&=\text{tr}\left(\cfrac{\partial l}{\partial A_1}^TdA_1\right)=\text{tr}\left(\cfrac{\partial l}{\partial A_1}^TdW_1X+\cfrac{\partial l}{\partial A_1}^Tdb_1 \right)\\ &\Rightarrow \cfrac{\partial l}{\partial W_1}=\cfrac{\partial l}{\partial A_1}X^T,\, \cfrac{\partial l}{\partial b_1}=\cfrac{\partial l}{\partial A_1} \end{aligned}$

矩阵求导术（上）

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

UFW防火墙安全指南

UFW（Uncomplicated Firewall）是Ubuntu/Debian系统中简化防火墙管理的工具，通过直观命令帮助用户有效控制网络流量，提升系统安全性。文章详细介绍了UFW的基本命令，包括启停防火墙、添加规则、限制连接速率和日志配置等操作，并提供了安全最佳实践，如默认拒绝策略、IP地址限制和服务级规则管理。同时，还涵盖高级配置技巧，例如多网络接口设置、规则优先级调整、IPv6支持及与f