统计特征
期望损失
衡量模型的泛化性能
方差
模型性能
协方差
整体误差
相关系数:特征选择的指标
Laplace分布
高斯分布
协方差矩阵
协方差矩阵的展开研究
协方差矩阵是一个对称的正半定矩阵
依概率收敛与依分布收敛
弱大数定律与中心极限定理:大样本统计过滤的理论基础
经验风险与期望风险
经验风险根据大数定律收敛到期望风险。
信息论:熵
决策树的基础。
信息论与概率相关。
如何衡量事件所包含的信息量?
随机事件的自信息量
定义
随机事件的自信息量为该事件发生概率的对数的负值。
自信息量的单位与对数的底有关
简单例子
信息量的可加性是与对数函数的性质相加的。
互信息:
简单例子
平均自信息
将统计平均值定义为信息熵。
熵函数
确定信源的平均不确定度
级值性
Jensen不等式
熵函数与优化的目标函数:交叉熵损失函数,需要判断熵函数的凸性。
信息和熵
- 信息有重要之分
- 信息用以消除不确定性,如果能度量一件事的不确定性,即可以确定一件事情的信息量。
- 不确定性的减少量等于信息的信息量。
- 所以,信息消除对某件事情的不确定性,还要取决于信息的接受者是谁。
- 熵:是某一事情对某人不确定性的度量。
- 在数值上等于消除某件事情不确定性所需要的平均信息量。
- 熵是信息量的期望。