前面的回顾
- 运算法则
- 向量函数和矩阵函数的微分
- 迹微分的性质。
向量值函数和矩阵值函数的梯度Rn−>Rm/Rm×n−>Rn×n
可以用这些微分来解决什么?
链式法则:复合函数的梯度和导数。
定义5
Output是一个向量。
Jacobian矩阵
梯度在向量与向量之间的变化关系上的推广。
将矩阵向量化:
向量函数微分
df=\partfT\partxTdx
从分量的角度去考虑。
多远正态分布的推广
定理8
当f和x是相同大小:
\partfT\partx−1=\partxT\partf
这个结论很适用于变量替换。
Hessian矩阵
当一阶导数求完后,\partf\partx1
其还要关于xT进行求。(行向量?)
Hessian 矩阵在机器学习优雅上有很多应用,
Hessian是对称矩阵,二阶优化算法:牛顿法。
18.4链式法则与一些有用的梯度公式
定理9
假设我们有n个列向量。
定理10
例16
例17
(x−μ)TΣ−1(x−μ)关于μ求导。
一些常用的梯度计算公式
18.3/18.4有符号的错误
18.5 反向传播与自动微分
神经网络中的梯度与链式法则。
例18
考虑f(x)=√x2+exp(x2)+cos(x2+exp(x2))
这样的微分的计算会很冗余
正向传播过程中,我们需要每层的偏导数。
每层的偏导数计算兜涉及到链式法则。
此部分笔记,在专业英语反向传播的那篇博客中也有涉及。
e=(a+b)(b+1)
求a=2,b=1时的e 的梯度:
\parte/\parta=b+1
\parte/\partb=(b+1)+(b+a)
引入中间变量c/d
c=b+1
d=b+a