Goal of supervised learning
Minimize “risk “ of error on unseen data.
generalization error:
$p(h(x)\neq Y)$
我们监督学习的目标【AIM】是最小化generalization error.
Solution:empirical proxy:
use training error as an “empirical proxy”
*ML as an optimization problem:ERM *
i.e. Minimize the number of classification errors:
$\frac{1}{n}\sum_{i=1}^n[h(x^{(i)}\neq y^{(i)}]$
机器学习的本质大多都是一个优化问题
ERM: Empirical risk minimization 以经验风险最小化
ERM本身是一个Np-hard problem,在error外加一个loss function去衡量,即化解这种NP-hard problem。
ERM 是什么呢?
Wiki上有如下的定义:
Empirical risk minimization (ERM) is a principle in statistical learning theory which defines a family of learning algorithms and is used to give theoretical bounds on their performance. The core idea is that we cannot know exactly how well an algorithm will work in practice (the true “risk”) because we don’t know the true distribution of data that the algorithm will work on, but we can instead measure its performance on a known set of training data (the “empirical” risk).
如何导入到ERM的逻辑:
本来,损失函数的根本逻辑是衡量预测值和真实值之间的误差,即学习的目标是选择期望损失最小的模型,但又因为联合分布未知(我们想预测当然不知道真实值是什么了),所以监督学习是一个病态问题。
参照 大数定律的理论基础,用经验风险来估计期望风险。
经验损失:empirical risk
$$
DataSet={(x_1,y_1),….,(x_N,y_N)}
$$
模型$f(X)$关于训练数据集的平均损失称为经验风险
$$
R_{emp}=\frac{1}{N}\sum_i^nLoss(y_i,f(x_i))
$$
经验风险最小化准则,即ERM
Logistic Regression
$\frac{1}{n}\sum_{i=1}^nLoss(h(x^{(i)},y^{(i)}))$
这里Loss function =
$$
l_{log}(y,t)=log(1+e^{-yt}),y: trueLabel;t:predictLabel
$$
为什么要使用logistic Regression进行分类呢?
Aim: predict Probability (label=’cat’,’dog’,)即output以概率的形式出现,而不是单纯的给分类器输出二分的分类结果。
使用逻辑回归是完成这个目标的简单方式,即threshold P(Y|X) to obtain classification.
但是呢,我们如果想用概率的形式输出,就得保证它要处于概率的范围内。
即,$h(x;\theta)=\theta^T+\theta_0$并不能保证我的输出一定是在[0,1]的概率区间内。
所以我们需要把ouput通过sigmoid函数以获得这种[0,1]的结果区间内。
LR decision boundary is also a hyperplane
对逻辑回归的总结理解
逻辑回归的本质是将线性回归的$\theta^Tx+\theta_0$通过sigmoid函数,得到 [0,1]区间内的概率结果并利用threshold进行划分。
逻辑回归分类方法的ERM问题
在逻辑回归中,如果损失函数选择为交叉熵损失函数,即分类的label选择为(0,1)的;如果损失函数选择为logistic损失函数,即分类的label选择为(-1,1)的。
general way to solve ERM :SGD
逻辑回归分类方法的正则画像。
用MLE(maximum likelihood estimation)来估计逻辑回归的参数$\theta^Tx+\theta_0$
MLE:经典统计推断中的MLE到底是什么
参照知乎链接
Aim:某一随机变量的概率分布已知,但其具体的概率分布未知。如,我们知道随机变量$X$为伯努利分布,我们要求其$p$,我们知道随机变量$Y$为指数分布,我么要求$\lambda$。
似然函数
$L(x_1,x_2,x_3,…,x_n,\theta)$为似然函数, 注意,似然函数只是一个关于参数$\theta$的函数 是可以让随机变量$X$渠道一组${x_1,x_2,…,x_n}$的值的概率的大小。
那当然,如果似然函数的值越大,真实的$\theta$就越有可能被估计出来,那我找出可以让似然最大的参数值$\theta$,这个参数就是我们想要的估计的值。
对数似然函数
一般似然函数都是连乘,连乘当然不好算,取个对数,增减性不变,当然就好算好多啦~
Logistic 回归的本质是:假设数据服从这个分布,然后使用极大似然估计做参数的估计。
Problem:
Given i.i.d training data ${(x^1,y^1),….,{x^n,y^n}}$, estimate the param vector$\theta$