What is the difference between Regression and classification;
- 在分类中,用数字表示label只是一种encode的方式,而在regression中,数值是有作用的。
- 而回归是一种 model ,它刻画标签y和feature x之间的一种relation
Aim of regression
learn a rule $f,h$ that $R^d->R$, a rule that can predict real values.
最直观的解释,分类的数值性是不能被比较的。
实现方法
最小二乘回归:
Least-squares regression:square loss ERM formulation.
$$
min_{h\in H}\frac{1}{n}\sum_{i=1}^n(h(x^{(i)}-y^{(i)}))^2
$$
注意区分线性最小二乘回归和最小二乘回归
注意线性最小二乘和最小二乘回归的区别,在线性最小二乘回归中,
h(x)=$w_0+w^Tx$,而在最小二乘回归中,这里H是a set of function that is either linear or nonlinear of x.
Logistic Regression and Regression
注意,不同的loss function对于模型的训练效果有较大的影响。
对比线性回归模型与逻辑回归模型。
Pearson相关系数
correlation coefficient r~0.5:
注意区分相关系数和协方差:
协方差:
Cov(x,y)=$E[XY]-E[X][Y]=E[(X-E[X])(Y-E[Y])]$
Pearson correlation coefficient:
$$
r=\frac{1}{N}\sum_{i=1}^N(\frac{x_i-x^-}{\sigma_x})(\frac{y_i-y^-}{\sigma_y})=\frac{cov(x,y)}{\sigma_x\sigma_y}
$$
注意,在相关系数的公式中,如形式$\frac{x_i-x^-}{\sigma_x}$
z-transform或standard normalization目的是get rid of scaling & shifting.
注意:如何理解皮尔逊相关系数?
- Q:Why scale by std deviation?
- r~0.5的意义是神恶魔
- correlation与clump around the line的关系 ,clusterness.
- Is r(x,y) a kernel function?
Modeling a linear relationship:线性回归模型
说白了,线性回归就是对两个变量之间的线性关系进行建模。
训练目标:
$Min Loss(w_0,w)=\frac{1}{N}\sum_{i=1}^N(y^{(i)}-w_0-x^{(i)})^2$,注意这里N是常数,是可drop的。
即least square是训练目标,predict label value到true label value之间的距离最短,也是误差最小,即也是训练目标。
如何找到合适的参数达到我们想要的训练目标呢?
$\nabla Loss=0$是寻找到参数的必要条件。(necessary)
所以我们就去解上面那个式子的方程:
注意变量相关和相关变量
在理解时,要注意去观察data之间是否有真正的联系,也即去注意correlation和causation之间的关系。
What does the data really mean is very important
求解线性最小二乘
上面,我们仅仅将数据点看成point的形式,如果将数据看成vector,即$x\in R^d,y\in R$,一共有N个数据点,我们将这N个d维向量,排列成数据矩阵$X_{N\times d}=\begin{pmatrix}x^{(1)}\x^{(2)}\…\x^{(N)}\end{pmatrix}$,所以相应的,这些数据点对应的label也是一个matrix,是$N\times 1$形式的。
为了使表达简单,我们去推导:$w_0=0$的情况。
$min Loss(w)=\sum_i(y^{
(i)}-w^Tx^{(i)})=||y-Xw||^2=(y-Xw)^T(y-Xw)=y^Ty+2w^TX^TXw-2w^TX^Ty$
然后呢,要求这个矩阵梯度,求矩阵和向量微分呢,我不太会,得到的结果就是$\nabla L(w)=2X^TXw-2X^Ty$
这个梯度等于0呢,我们就把w这个参数给求出来了!
$$
w=(X^TX)^{-1}X^Ty,X\in R^{N\times d},y\in R^N,w\in R^d
$$
那么问题来了!矩阵不可逆怎办呢?Maybe regularization 或伪逆相关。
非线性最小二乘
with nonlinear features:$y=w^T\phi(x)+w_0=E[Y=y|X=x]$
要求:$min_w L(w)=\sum_i(y_i-w^T\phi(x_i))^2$
这个地方,说实话,有点没太听懂。
Kernelized “ridge” regression
首先引入penalized cost function
$min_w L(w)=\frac{1}{N}\sum_i(y_i-w^T\phi(x_i))^2+\lambda||w||^2$
要求这个loss Function的对于parameter $w$的偏导数:
即$\lambda w-\frac{1}{N}\sum_i(y_i-w^T\phi(x_i))\phi(x_i)=0$
其中这个$(y_i-w^T\phi(x_i))$不太好求。
我们将$w$写成线性组合的形式?
令$(y_i-w^T\phi(x_i))=N\lambda\alpha_i$
解之,得:$w=\sum_i\alpha_i\phi(x^i)$
所以:
此时这个feature到底怎么成功绕到用核函数表示,这个k怎么求呢?
而在这里key point也有存在于$\alpha$怎么求呢?
但是在MINIST手写识别中,为啥训练结果最好的时候是在$\lambda=0$得时候呢?