某些函数的凹凸性。
数据处理定理:
如果随机变量构成马尔可夫链,
$I(X;Z)\le I(X;Y)$
表明从Z中获得X的信息量小雨从Y中获得的X的信息量。
$I(X;Y)\le I(X;Z)$
间接经验与直接经验。
向量的相似性度量
以前的距离度量方式为啥不行
闵氏距离/曼哈顿距离/欧氏距离/切比雪夫距离
马氏距离:点与一个分布之间的距离。
量纲无关,排除变量相干性的干扰。
调整余弦相似度
皮尔逊相关系数,r的绝对值与相关度。
信息熵:信息量化度量。
KL JS散度
KL散度:度量分布之间的差异,不是距离,因为他不满足距离的定义。
交叉熵损失函数:
设关于随机变量x的两个分布$P(x),Q(x)$,关于这两个分布的交叉熵定义为:
$H(P,Q)=-E_{x~p}logQ(x)=H(P)+D_{KL}(P||Q)$
互信息也可以看作用来度量联合分布p(x,y)和P(x)P(Y)之间的相似度。
JS散度
当相差很远时,两个分布都很难衡量距离。
Wasserstein距离
相比于KL和JS,即使两个分布没有重叠没有重叠或者重叠非常少,他仍然可以衡量远近。
“推土机距离”
Jacard系数
有限样本集之间的相似性与差异性。
应用
连续信源
yi ma teng Orz