What is the difference between Regression and classification;
- 在分类中,用数字表示label只是一种encode的方式,而在regression中,数值是有作用的。
- 而回归是一种 model ,它刻画标签y和feature x之间的一种relation
Aim of regression
learn a rule f,h that Rd−>R, a rule that can predict real values.
最直观的解释,分类的数值性是不能被比较的。
实现方法
最小二乘回归:
Least-squares regression:square loss ERM formulation.
minh∈H1nn∑i=1(h(x(i)−y(i)))2
注意区分线性最小二乘回归和最小二乘回归
注意线性最小二乘和最小二乘回归的区别,在线性最小二乘回归中,
h(x)=w0+wTx,而在最小二乘回归中,这里H是a set of function that is either linear or nonlinear of x.
Logistic Regression and Regression
注意,不同的loss function对于模型的训练效果有较大的影响。
对比线性回归模型与逻辑回归模型。
Pearson相关系数
correlation coefficient r~0.5:
注意区分相关系数和协方差:
协方差:
Cov(x,y)=E[XY]−E[X][Y]=E[(X−E[X])(Y−E[Y])]
Pearson correlation coefficient:
r=1NN∑i=1(xi−x−σx)(yi−y−σy)=cov(x,y)σxσy
注意,在相关系数的公式中,如形式xi−x−σx
z-transform或standard normalization目的是get rid of scaling & shifting.
注意:如何理解皮尔逊相关系数?
- Q:Why scale by std deviation?
- r~0.5的意义是神恶魔
- correlation与clump around the line的关系 ,clusterness.
- Is r(x,y) a kernel function?
Modeling a linear relationship:线性回归模型
说白了,线性回归就是对两个变量之间的线性关系进行建模。
训练目标:
MinLoss(w0,w)=1N∑Ni=1(y(i)−w0−x(i))2,注意这里N是常数,是可drop的。
即least square是训练目标,predict label value到true label value之间的距离最短,也是误差最小,即也是训练目标。
如何找到合适的参数达到我们想要的训练目标呢?
∇Loss=0是寻找到参数的必要条件。(necessary)
所以我们就去解上面那个式子的方程:
注意变量相关和相关变量
在理解时,要注意去观察data之间是否有真正的联系,也即去注意correlation和causation之间的关系。
What does the data really mean is very important
求解线性最小二乘
上面,我们仅仅将数据点看成point的形式,如果将数据看成vector,即x∈Rd,y∈R,一共有N个数据点,我们将这N个d维向量,排列成数据矩阵XN×d=(x(1)\x(2)\…\x(N)),所以相应的,这些数据点对应的label也是一个matrix,是N×1形式的。
为了使表达简单,我们去推导:w0=0的情况。
minLoss(w)=∑i(y(i)−wTx(i))=||y−Xw||2=(y−Xw)T(y−Xw)=yTy+2wTXTXw−2wTXTy
然后呢,要求这个矩阵梯度,求矩阵和向量微分呢,我不太会,得到的结果就是∇L(w)=2XTXw−2XTy
这个梯度等于0呢,我们就把w这个参数给求出来了!
w=(XTX)−1XTy,X∈RN×d,y∈RN,w∈Rd
那么问题来了!矩阵不可逆怎办呢?Maybe regularization 或伪逆相关。
非线性最小二乘
with nonlinear features:y=wTϕ(x)+w0=E[Y=y|X=x]
要求:minwL(w)=∑i(yi−wTϕ(xi))2
这个地方,说实话,有点没太听懂。
Kernelized “ridge” regression
首先引入penalized cost function
minwL(w)=1N∑i(yi−wTϕ(xi))2+λ||w||2
要求这个loss Function的对于parameter w的偏导数:
即λw−1N∑i(yi−wTϕ(xi))ϕ(xi)=0
其中这个(yi−wTϕ(xi))不太好求。
我们将w写成线性组合的形式?
令(yi−wTϕ(xi))=Nλαi
解之,得:w=∑iαiϕ(xi)
所以:
此时这个feature到底怎么成功绕到用核函数表示,这个k怎么求呢?
而在这里key point也有存在于α怎么求呢?
但是在MINIST手写识别中,为啥训练结果最好的时候是在λ=0得时候呢?