前面的回顾
- 运算法则
- 向量函数和矩阵函数的微分
- 迹微分的性质。
向量值函数和矩阵值函数的梯度$R^n->R^m/R^{m\times n}->R^{n\times n}$
可以用这些微分来解决什么?
链式法则:复合函数的梯度和导数。
定义5
Output是一个向量。
Jacobian矩阵
梯度在向量与向量之间的变化关系上的推广。
将矩阵向量化:
向量函数微分
$df=\frac{\part f^T}{\part x}^T dx$
从分量的角度去考虑。
多远正态分布的推广
定理8
当f和x是相同大小:
$\frac{\part f^T}{\part x}^{-1}=\frac{\part x^T}{\part f}$
这个结论很适用于变量替换。
Hessian矩阵
当一阶导数求完后,$\frac{\part f}{\part x_1}$
其还要关于$x^T$进行求。(行向量?)
Hessian 矩阵在机器学习优雅上有很多应用,
Hessian是对称矩阵,二阶优化算法:牛顿法。
18.4链式法则与一些有用的梯度公式
定理9
假设我们有n个列向量。
定理10
例16
例17
$(x-\mu)^T\Sigma^{-1}(x-\mu)$关于$\mu$求导。
一些常用的梯度计算公式
18.3/18.4有符号的错误
18.5 反向传播与自动微分
神经网络中的梯度与链式法则。
例18
考虑$f(x)=\sqrt{x^2+exp(x^2)}+cos(x^2+exp(x^2))$
这样的微分的计算会很冗余
正向传播过程中,我们需要每层的偏导数。
每层的偏导数计算兜涉及到链式法则。
此部分笔记,在专业英语反向传播的那篇博客中也有涉及。
$e=(a+b)(b+1)$
求a=2,b=1时的e 的梯度:
$\part e/\part a=b+1$
$\part e/\part b=(b+1)+(b+a)$
引入中间变量c/d
c=b+1
d=b+a