Regression
常见regression 样例:
Stock Market Forecast
f(股票)=Dow Jones Industrial Average at tomorrow
Self-driving Car
f(路况)=方向盘角度
Recommendation
f(使用者A在浏览商品B的相关)=购买的可能性
Example Application
Estimating the Combat Power(CP) of a pokemon after evolution
f(Pokeman基本值)=CP evolution
用下标表示一个完整的东西的某一个component.
用上标表示一个完整的object的编号.
Xcp/Xhp/Xw/Xh
output是进化后的CP.
Process of ML
找model
定义model(func set)的好坏/合理
在funcset找最好的那个,
那么应该选择什么funcset对这个宝可梦呢?
Model
Linear Model:y=b+∑wixi;
Xi是input x的feature.
Wiweight;
b为bias.
用ˆy表示一个正确的结果.
定义了function后需要我们去判断funciton的好坏.那么我们该如何做去定义function的好坏呢?
Loss function L:(function的function)
Input: a function
Output: how bad it is.
在这里,如果我们还是线性的model的话,那么f=f(w,b)=b+w.xcp
则,L(f)=L(w,b);
L(f)=∑datasets(ˆy−yestimation)2;
估测误差越大,function越不好.
Step3:Best Function
How to pick the “Best” Function?
f∗=argminfL(f);
让L(f)最小的function.
事实上在线性代数中,可以通过线性代数的方法找到让L(f)最小的function.
假设线代已经忘记了:Gradient Descent
Consider loss function L(w) with one parameter w;
现在我们要找一个w,使L(w)最小.
最暴力:穷举所有w可能的数值.
想想在微积分中,导数小于0,表示函数的一个递减的趋势.
“踏一步的stepsize”={现在的微分值\常数项learningRate(事先定好的一个scaler)
如果learning rate,在事先定好时较大,那么你在移动改变位置的时候,你的移动对你整体的那个loss的影响就比较大.
learning rate up,学习效率 up.
Initial position:w0;
w1 ←ηdLdw|w=w0;
w2 ←ηdLdw|w=w2;
在经过很多次迭代以后.会进入一个 Local Minimal a.k.a Local optimal
Local minimal v.s. Global minimal
但是在linear model 中,却不存在local minimal的问题.
How about 2 paras?
那就原则两个位置,在两个位置上计算 偏微分就好了呀.
所以说,偏微分是有关维度的理解.
梯度下降法名字里为什么要有”Gradient”?
∇L=偏微分w\偏微分b