ML01:Regression(1)

阅读数: 6次 2020-05-25

Regression

常见regression 样例:

Stock Market Forecast

f(股票)=Dow Jones Industrial Average at tomorrow
Self-driving Car

f(路况)=方向盘角度
Recommendation

f(使用者A在浏览商品B的相关)=购买的可能性

Example Application

Estimating the Combat Power(CP) of a pokemon after evolution

f(Pokeman基本值)=CP evolution

用下标表示一个完整的东西的某一个component.

用上标表示一个完整的object的编号.

$X{cp}$ / $X_{hp}/X_w/X_h$

output是进化后的CP.

Process of ML

找model
定义model(func set)的好坏/合理
在funcset找最好的那个,

那么应该选择什么funcset对这个宝可梦呢?

Model

Linear Model:y=b+ $\sum w_ix_i$ ;

$X_i$ 是input x的feature.

$W_i$ weight;

$b$ 为bias.

用 $\hat{y}$ 表示一个正确的结果.

定义了function后需要我们去判断funciton的好坏.那么我们该如何做去定义function的好坏呢?

Loss function L:(function的function)

Input: a function

Output: how bad it is.

在这里,如果我们还是线性的model的话,那么 $f=f(w,b)=b+w.x_{cp}$

则, $L(f)=L(w,b)$ ;

$L(f)=\sum_{datasets}(\hat{y}-y_{estimation})^2$ ;

估测误差越大,function越不好.

Step3:Best Function

How to pick the “Best” Function?

$f^*=arg min_fL(f)$ ;

让 $L(f)$ 最小的function.

事实上在线性代数中,可以通过线性代数的方法找到让 $L(f)$ 最小的function.

假设线代已经忘记了:Gradient Descent

Consider loss function $L(w)$ with one parameter w;

现在我们要找一个 $w$ ,使 $L(w)$ 最小.

最暴力:穷举所有 $w$ 可能的数值.

想想在微积分中,导数小于0,表示函数的一个递减的趋势.

“踏一步的stepsize”= $\begin{cases}现在的微分值\常数项learningRate(事先定好的一个scaler)\end{cases}$

如果learning rate,在事先定好时较大,那么你在移动改变位置的时候,你的移动对你整体的那个loss的影响就比较大.

learning rate up,学习效率 up.

Initial position: $w^0$ ;

$w^1$ $\leftarrow \eta\frac{dL}{dw}|_{w=w^0}$ ;

$w^2$ $\leftarrow \eta\frac{dL}{dw}|_{w=w^2}$ ;

在经过很多次迭代以后.会进入一个 Local Minimal a.k.a Local optimal

Local minimal v.s. Global minimal

但是在linear model 中,却不存在local minimal的问题.

How about 2 paras?

那就原则两个位置,在两个位置上计算偏微分就好了呀.

所以说,偏微分是有关维度的理解.

梯度下降法名字里为什么要有”Gradient”?

$\nabla L=\begin{matrix}偏微分_w\偏微分_b\end{matrix}$