专业英语读书笔记Chapter2反向传播算法

2020-05-31

专业英语读书笔记Chapter2:反向传播算法

本章主要讲述如何计算Loss function的梯度，反向传播是这些梯度的快速算法，由梯度的定义可得，即是关于权重和偏置的偏导数。

反向传播算法：backpropagation.

感悟：如何改变权重和偏置来改变整个网络的行为。

more >>

展开全文 >>

操作系统Project2:Chrt系统调用和EDF算法

2020-05-30

操作系统Project2:Chrt系统调用和EDF算法

实验任务

在MINIX3中实现Earliest-Deadline-First近似实时调度功能

1.增加系统调用chrt

2.修改MINIX3.3的调度算法

排版好累!!!!!

more >>

展开全文 >>

计算机网络原理与编程W12:IP层

2020-05-29

IP 层:The Data Plane

SDN: software defined network:软件定义网络和软件定义一切.

本章重点 4.3节

network layer service models
forwarding versus routing
how a router works
Generalized forwarding

more >>

展开全文 >>

英文歌曲文化赏析W12:HIPHOP2

2020-05-29

Hiphop culture

“The words of the prophets are written on the subway walls and tenement halls”

more >>

展开全文 >>

ML01-Regression-2

2020-05-29

Regression

Case Study ->Pokemon

Gradient的定义:

将对参数的偏微分,排列成一个向量.
Gradient Descent 的不足:

对于存在Local optimal的模型的处理不佳.

但是Linear Regression的模型是convex的,所以不存在local optimal的情况.

##关于模型训练结果的分析

How’s the result?

因为我们更想得到的是generalization的结果,所以我们最关心的是error on new data(testing data) instead of training data itself.

Training data上看起来更准一点就说明model更准了吗?

过拟合与交叉验证.

How can we do better?

Selecting another Model

重新设计模型:

原model:

$y=b+wx_{cp}$;

现在的model:

$y=b+w_1x_{cp}+w_2x_{cp}^2$;

How can we do more better?

$y=b+w_1x_{cp}+w_2x_{cp}^2+w_3x_{cp}^3$

对于三次和二次在pokemon例子上的比较

Slightly better.

什么是“好的”model?

对于宝可梦模型,我们先后使用了1次2次…4次进行拟合,我们发现,随着模型的复杂度上升,我们的error on training data确实在下降,但是我们的error on testing da ta 却反而上升了.

显然,当$w_4=0$时,三次模型所涵盖的表达都可以用4次模型的model表达出来.

Overfitting

为什么复杂model在training data上得到这么好的结果,而在testing上的error这么可怕呢?

比如不是选择复杂的model,而是选择一个合适的model.

Let’s collect more data

What are the hidden factors?

进化后物种的影响仍是很大的.

所以刚才的model本身就不好.

Back to Step1.

Redesign the Model

不同的物种,不同的linear func

可以用一种更奇妙的函数表示形式,将之前有if的式子表示成带信号处理(i.e.“是”即1,“不是”即0);

当我们的输入$x_s=Pidgey$时,其即$y=b_1.1+w_1x_{cp}$

Are there any other hidden factors?

把我们想到的factor 以后都back to step 1.

如何处理overfitting?

Regularization

重新定义我们的loss function,把knowledge放进去进行Redesign.

$Loss:y=b+\sum w_ix_i$;

这里面这个求和是把种类不同考虑进去了。

$L=\sum_n(\hat{y}^n-(b+\sum w_ix_i))^2+\lambda\sum(w_i)^2$

对于正则项:我们期待一个越小的$w_i$这个function越好.

参数接近0时:

平滑

平滑是什么意思?

输入有变化时,整体的变化对输入的变化是 不敏感的.

$y=b+\sum w_ix_i$;

如果我们的输入变化$\Delta x$,那么相应的,我们的输出变化,$w_i\Delta x_i$.

$w_i$越接近0,function越平滑

为什么我们喜欢平滑的function?

因为当我们的输入被噪声所干扰时,一个平滑的function会被噪声有很小的影响.

$\lambda$越大,代表考虑regularization的smooth正则项的影响力越大.

我们喜欢平滑的function,但我们不喜欢太平滑的function.

最平滑的function是一条水平线.

为什么在正则项中没有加上b?

在做regularization是不需要考虑bias一项的.

bias是作为常数项只是函数的上下移动而已.

Conclusion

对于我们没有得到的data,即在testing data中没有包含的测试数据.

我们的最终建模系统是”Underestimate?””Overestimate”?

Following lectures :validation

展开全文 >>

数学基础W10:矩阵的SVD分解

2020-05-28

#数学基础W10:矩阵的SVD分解

面对方阵:

A=LU
A=QR
A=$Q\Lambda Q$
正定矩阵的cholosky分解

面对非方阵:

$A_{m\times n}=SVD$;

数学基础的重点;

more >>

展开全文 >>

Data mining 2

2020-05-27

Components of Data Mining Algorithms

Representation:Determing the nature and structure of the respresentation to be used.
Score function: Quantifying and comparing how well different representation fit the data
Search/Optimization method: Choosing an algorithm process to optimize the score function.
Data management: Deciding what principles of data management are required to implement the algorithms efficienly.

数据分析里的数据类型

数据分析手段

EDA(探索性的数据分析与可视化)

探索数据的概率统计特征
- Mean/Mode/Median/Quartile/Variance/Skewness(平均矩)
- Number of distinct values for a variable
可视化可以更直观的表示
- Box Plot: v.s.Histogram(关注某一个y的取值到底有多少个)

Statistical reference

基于实验猜规律

Model$\rightleftharpoons$Data

思想实验与真实可进行的实验

Statistical inference: inferring properties of an unknown data by guess a distribution and generating that distribution.

我们关心的是MSE,即误差平方均值,是越小越好.

所以MSE同时考虑了$Bias^2$和Variance.

$Bias$意味着误差小,而Variance则说明置信度比较集中.

而很多时候,这两者是矛盾的.

极大似然估计(likelihood)

似然表示什么呢?

意味着我观察到的数据,$\theta$模型产生数据的概率

极大似然估计，通俗理解来说，就是利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值！

换句话说，极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。

Types of Models

Predictive Model
建模
结构化数据(时间序列)

Regression(有参数的模型)

给点拟合和逼近.

piecewise:一段一段的去拟合

非参数模型

有一些很小的kernel,kernel左右移动.进行叠加.

理解成小的山叠加起来变成大的山

加权函数叠加变成.

如何评估模型的建模效果?

这三个是哪个图的建模效果好呢?

我们用什么样的手段,来帮助我们发现过拟合?

交叉验证

奥卡姆剃刀原则:如非必要,勿增实体

MDL: Minimum Description Length，最小描述长度原则

随机过程

分类模型

逻辑回归
bayes
最近邻
Support vector machines支持向量机
Tree

Mixture of parametric models

Model complexity tend to grow exponetially with dimensions.

模型维度和建模复杂度.

处理维度的方法

Feature selection
Transformation:将其投影到子空间.(PCA:主成分分析法)

展开全文 >>

Components of Data Mining Algorithms

2020-05-27

展开全文 >>

ML01:Regression(1)

2020-05-25

Regression

常见regression 样例:

Stock Market Forecast

f(股票)=Dow Jones Industrial Average at tomorrow
Self-driving Car

f(路况)=方向盘角度
Recommendation

f(使用者A在浏览商品B的相关)=购买的可能性

Example Application

Estimating the Combat Power(CP) of a pokemon after evolution

f(Pokeman基本值)=CP evolution

用下标表示一个完整的东西的某一个component.

用上标表示一个完整的object的编号.

$X{cp}$/$X_{hp}/X_w/X_h$

output是进化后的CP.

Process of ML

找model
定义model(func set)的好坏/合理
在funcset找最好的那个,

那么应该选择什么funcset对这个宝可梦呢?

Model

Linear Model:y=b+$\sum w_ix_i$;

$X_i$是input x的feature.

$W_i$weight;

$b$为bias.

用$\hat{y}$表示一个正确的结果.

定义了function后需要我们去判断funciton的好坏.那么我们该如何做去定义function的好坏呢?

Loss function L:(function的function)

Input: a function

Output: how bad it is.

在这里,如果我们还是线性的model的话,那么$f=f(w,b)=b+w.x_{cp}$

则,$L(f)=L(w,b)$;

$L(f)=\sum_{datasets}(\hat{y}-y_{estimation})^2$;

估测误差越大,function越不好.

Step3:Best Function

How to pick the “Best” Function?

$f^*=arg min_fL(f)$;

让$L(f)$最小的function.

事实上在线性代数中,可以通过线性代数的方法找到让$L(f)$最小的function.

假设线代已经忘记了:Gradient Descent

Consider loss function $L(w)$ with one parameter w;

现在我们要找一个$w$,使$L(w)$最小.

最暴力:穷举所有$w$可能的数值.

想想在微积分中,导数小于0,表示函数的一个递减的趋势.

“踏一步的stepsize”=$\begin{cases}现在的微分值\常数项learningRate(事先定好的一个scaler)\end{cases}$

如果learning rate,在事先定好时较大,那么你在移动改变位置的时候,你的移动对你整体的那个loss的影响就比较大.

learning rate up,学习效率 up.

Initial position:$w^0$;

$w^1$ $\leftarrow \eta\frac{dL}{dw}|_{w=w^0}$;

$w^2$ $\leftarrow \eta\frac{dL}{dw}|_{w=w^2}$;

在经过很多次迭代以后.会进入一个 Local Minimal a.k.a Local optimal

Local minimal v.s. Global minimal

但是在linear model 中,却不存在local minimal的问题.

How about 2 paras?

那就原则两个位置,在两个位置上计算偏微分就好了呀.

所以说,偏微分是有关维度的理解.

梯度下降法名字里为什么要有”Gradient”?

$\nabla L=\begin{matrix}偏微分_w\偏微分_b\end{matrix}$

展开全文 >>

英文歌曲文化赏析W11Hip hop culture

2020-05-25

Hip hop culture

*not just music but also hip hop *culture.

A type of music culture

不光包含音乐的部分,但音乐term可以指代所有的hiphop.

文化/亚文化现象.

Hip hop和rap的混用

Where is hiphop born?

关键词1: Birth place:bronx( 一个区7New York State)

黑人音乐文化与美国饮食文化.

美国整体本身没有很多饮食文化.

NewYork State在美国历史上的位置:

纽约州概览

仍然是美国最大的州.

纽约州的政治和经济中心是分开的.

荷兰人对纽约市的残存的影响.

纽约的5个“区”:

曼哈顿州
Queen
布鲁克林
Staten island
Bronx(African American 和南美/拉丁美洲的移民)

又up-to-date

又很多阴暗的没有管

关键词2:Idol

Musician
Sportsman

白人精英好好学习的American Dream

Hiphop文化最大的展示的就是NBA
BRUCE LEE

香蕉人“ABC”

将香港电影功夫片塞到好莱坞电影.

MartialArt“表演套路”

关键词3:money worship

对于很多资质平庸的黑人青年来说,金钱的崇拜illegal ways of earning money as quickly as possible

组织卖淫/销售毒品

GANG culture

帮派文化

展开全文 >>