Regression
常见regression 样例:
Stock Market Forecast
f(股票)=Dow Jones Industrial Average at tomorrow
Self-driving Car
f(路况)=方向盘角度
Recommendation
f(使用者A在浏览商品B的相关)=购买的可能性
Example Application
Estimating the Combat Power(CP) of a pokemon after evolution
f(Pokeman基本值)=CP evolution
用下标表示一个完整的东西的某一个component.
用上标表示一个完整的object的编号.
$X{cp}$/$X_{hp}/X_w/X_h$
output是进化后的CP.
Process of ML
找model
定义model(func set)的好坏/合理
在funcset找最好的那个,
那么应该选择什么funcset对这个宝可梦呢?
Model
Linear Model:y=b+$\sum w_ix_i$;
$X_i$是input x的feature.
$W_i$weight;
$b$为bias.
用$\hat{y}$表示一个正确的结果.
定义了function后需要我们去判断funciton的好坏.那么我们该如何做去定义function的好坏呢?
Loss function L:(function的function)
Input: a function
Output: how bad it is.
在这里,如果我们还是线性的model的话,那么$f=f(w,b)=b+w.x_{cp}$
则,$L(f)=L(w,b)$;
$L(f)=\sum_{datasets}(\hat{y}-y_{estimation})^2$;
估测误差越大,function越不好.
Step3:Best Function
How to pick the “Best” Function?
$f^*=arg min_fL(f)$;
让$L(f)$最小的function.
事实上在线性代数中,可以通过线性代数的方法找到让$L(f)$最小的function.
假设线代已经忘记了:Gradient Descent
Consider loss function $L(w)$ with one parameter w;
现在我们要找一个$w$,使$L(w)$最小.
最暴力:穷举所有$w$可能的数值.
想想在微积分中,导数小于0,表示函数的一个递减的趋势.
“踏一步的stepsize”=$\begin{cases}现在的微分值\常数项learningRate(事先定好的一个scaler)\end{cases}$
如果learning rate,在事先定好时较大,那么你在移动改变位置的时候,你的移动对你整体的那个loss的影响就比较大.
learning rate up,学习效率 up.
Initial position:$w^0$;
$w^1$ $\leftarrow \eta\frac{dL}{dw}|_{w=w^0}$;
$w^2$ $\leftarrow \eta\frac{dL}{dw}|_{w=w^2}$;
在经过很多次迭代以后.会进入一个 Local Minimal a.k.a Local optimal
Local minimal v.s. Global minimal
但是在linear model 中,却不存在local minimal的问题.
How about 2 paras?
那就原则两个位置,在两个位置上计算 偏微分就好了呀.
所以说,偏微分是有关维度的理解.
梯度下降法名字里为什么要有”Gradient”?
$\nabla L=\begin{matrix}偏微分_w\偏微分_b\end{matrix}$