专业英语读书笔记Chapter2:反向传播算法
本章主要讲述如何计算Loss function的梯度,反向传播是这些梯度的快速算法,由梯度的定义可得,即是关于权重和偏置的偏导数。
反向传播算法:backpropagation.
感悟:如何改变权重和偏置来改变整个网络的行为。
more >>小白特别白
本章主要讲述如何计算Loss function的梯度,反向传播是这些梯度的快速算法,由梯度的定义可得,即是关于权重和偏置的偏导数。
反向传播算法:backpropagation.
感悟:如何改变权重和偏置来改变整个网络的行为。
more >>Gradient的定义:
将对参数的偏微分,排列成一个向量.
Gradient Descent 的不足:
对于存在Local optimal的模型的处理不佳.
但是Linear Regression的模型是convex的,所以不存在local optimal的情况.
##关于模型训练结果的分析
因为我们更想得到的是generalization的结果,所以我们最关心的是error on new data(testing data) instead of training data itself.
Training data上看起来更准一点就说明model更准了吗?
过拟合与交叉验证.
Selecting another Model
重新设计模型:
原model:
$y=b+wx_{cp}$;
现在的model:
$y=b+w_1x_{cp}+w_2x_{cp}^2$;
How can we do more better?
$y=b+w_1x_{cp}+w_2x_{cp}^2+w_3x_{cp}^3$
Slightly better.
对于宝可梦模型,我们先后使用了1次2次…4次进行拟合,我们发现,随着模型的复杂度上升,我们的error on training data确实在下降,但是我们的error on testing da ta 却反而上升了.
显然,当$w_4=0$时,三次模型所涵盖的表达都可以用4次模型的model表达出来.
为什么复杂model在training data上得到这么好的结果,而在testing上的error这么可怕呢?
比如不是选择复杂的model,而是选择一个合适的model.
进化后物种的影响仍是很大的.
所以刚才的model本身就不好.
Back to Step1.
不同的物种,不同的linear func
可以用一种更奇妙的函数表示形式,将之前有if的式子表示成带信号处理(i.e.“是”即1,“不是”即0);
当我们的输入$x_s=Pidgey$时,其即$y=b_1.1+w_1x_{cp}$
把我们想到的factor 以后 都back to step 1.
重新定义我们的loss function,把knowledge放进去进行Redesign.
$Loss:y=b+\sum w_ix_i$;
这里面这个求和是把种类不同考虑进去了。
$L=\sum_n(\hat{y}^n-(b+\sum w_ix_i))^2+\lambda\sum(w_i)^2$
对于正则项:我们期待一个越小的$w_i$这个function越好.
参数接近0时:
平滑是什么意思?
输入有变化时,整体的变化对输入的变化是 不敏感的.
$y=b+\sum w_ix_i$;
如果我们的输入变化$\Delta x$,那么相应的,我们的输出变化,$w_i\Delta x_i$.
$w_i$越接近0,function越平滑
因为当我们的输入被噪声所干扰时,一个平滑的function会被噪声有很小的影响.
$\lambda$越大,代表考虑regularization的smooth正则项的影响力越大.
我们喜欢平滑的function,但我们不喜欢太平滑的function.
最平滑的function是一条水平线.
在做regularization是不需要考虑bias一项的.
bias是作为常数项只是函数的上下移动而已.
对于我们没有得到的data,即在testing data中没有包含的测试数据.
我们的最终建模系统是”Underestimate?””Overestimate”?
Following lectures :validation
数据分析里的数据类型
EDA(探索性的数据分析与可视化)
基于实验猜规律
Model$\rightleftharpoons$Data
思想实验与真实可进行的实验
Statistical inference: inferring properties of an unknown data by guess a distribution and generating that distribution.
我们关心的是MSE,即误差平方均值,是越小越好.
所以MSE同时考虑了$Bias^2$和Variance.
$Bias$意味着误差小,而Variance则说明置信度比较集中.
而很多时候,这两者是矛盾的.
似然表示什么呢?
意味着我观察到的数据,$\theta$模型产生数据的概率
极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!
换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。
给点拟合和逼近.
piecewise:一段一段的去拟合
有一些很小的kernel,kernel左右移动.进行叠加.
理解成小的山叠加起来变成大的山
加权函数叠加变成.
如何评估模型的建模效果?
这三个是哪个图的建模效果好呢?
我们用什么样的手段,来帮助我们发现过拟合?
交叉验证
奥卡姆剃刀原则:如非必要,勿增实体
MDL: Minimum Description Length,最小描述长度原则
随机过程
Mixture of parametric models
Model complexity tend to grow exponetially with dimensions.
常见regression 样例:
Stock Market Forecast
f(股票)=Dow Jones Industrial Average at tomorrow
Self-driving Car
f(路况)=方向盘角度
Recommendation
f(使用者A在浏览商品B的相关)=购买的可能性
Estimating the Combat Power(CP) of a pokemon after evolution
f(Pokeman基本值)=CP evolution
用下标表示一个完整的东西的某一个component.
用上标表示一个完整的object的编号.
$X{cp}$/$X_{hp}/X_w/X_h$
output是进化后的CP.
找model
定义model(func set)的好坏/合理
在funcset找最好的那个,
那么应该选择什么funcset对这个宝可梦呢?
$X_i$是input x的feature.
$W_i$weight;
$b$为bias.
用$\hat{y}$表示一个正确的结果.
定义了function后需要我们去判断funciton的好坏.那么我们该如何做去定义function的好坏呢?
Input: a function
Output: how bad it is.
在这里,如果我们还是线性的model的话,那么$f=f(w,b)=b+w.x_{cp}$
则,$L(f)=L(w,b)$;
$L(f)=\sum_{datasets}(\hat{y}-y_{estimation})^2$;
估测误差越大,function越不好.
How to pick the “Best” Function?
$f^*=arg min_fL(f)$;
让$L(f)$最小的function.
事实上在线性代数中,可以通过线性代数的方法找到让$L(f)$最小的function.
Consider loss function $L(w)$ with one parameter w;
现在我们要找一个$w$,使$L(w)$最小.
最暴力:穷举所有$w$可能的数值.
想想在微积分中,导数小于0,表示函数的一个递减的趋势.
“踏一步的stepsize”=$\begin{cases}现在的微分值\常数项learningRate(事先定好的一个scaler)\end{cases}$
如果learning rate,在事先定好时较大,那么你在移动改变位置的时候,你的移动对你整体的那个loss的影响就比较大.
learning rate up,学习效率 up.
Initial position:$w^0$;
$w^1$ $\leftarrow \eta\frac{dL}{dw}|_{w=w^0}$;
$w^2$ $\leftarrow \eta\frac{dL}{dw}|_{w=w^2}$;
在经过很多次迭代以后.会进入一个 Local Minimal a.k.a Local optimal
Local minimal v.s. Global minimal
但是在linear model 中,却不存在local minimal的问题.
那就原则两个位置,在两个位置上计算 偏微分就好了呀.
所以说,偏微分是有关维度的理解.
$\nabla L=\begin{matrix}偏微分_w\偏微分_b\end{matrix}$
*not just music but also hip hop *culture.
A type of music culture
不光包含音乐的部分,但音乐term可以指代所有的hiphop.
文化/亚文化现象.
Hip hop和rap的混用
关键词1: Birth place:bronx( 一个区7New York State)
黑人音乐文化与美国饮食文化.
美国整体本身没有很多饮食文化.
NewYork State在美国历史上的位置:
纽约州概览
仍然是美国最大的州.
纽约州的政治和经济中心是分开的.
荷兰人对纽约市的残存的影响.
纽约的5个“区”:
又up-to-date
又很多阴暗的没有管
关键词2:Idol
Musician
Sportsman
白人精英好好学习的American Dream
Hiphop文化最大的展示的就是NBA
BRUCE LEE
香蕉人“ABC”
将香港电影功夫片塞到好莱坞电影.
MartialArt“表演套路”
关键词3:money worship
对于很多资质平庸的黑人青年来说,金钱的崇拜illegal ways of earning money as quickly as possible
组织卖淫/销售毒品
GANG culture
帮派文化
tag:
缺失模块。
1、请确保node版本大于6.2
2、在博客根目录(注意不是yilia根目录)执行以下命令:
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置:
jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true