概率论复习
一元随机变量||CDF 和PDF的性质||Γ函数
一元随机变量
定义在样本空间上的实值函数x=xn称为随机变量。
【Attention】
- 相同样本空间却有不同的随机变量
- 统计学研究对象是数字/时数:所以统计学往往研究的是结构化的东西。
离散随机变量和连续随机变量怎么刻画?
离散随机变量:取值有限个。
CDF和PDF
分布函数的三个性质:(后续定理证明的一些基础)
- 单调性
- 连续性
- 有界性:F(−\infin)=0;
Gamma函数
Γ(x)=∫\infin0xα−1e−xdx,α>0
Gamma分布
fX(x)=xα−1λαe−λxΓ(α),其中x>=0;0,otherwised.
性质
- Γ(1)=1
- Γ(12)=√π
- Γ(α+1)=α·Γ(α) 【用的最多的性质,理解记忆可把该函数看成实数域上的阶乘,不太一样诶,那就分布积分法吧】
统计中重要的计算技巧,构成密度函数的积分,密度在定义域上积分为1 。
- 若一r.v.X 满足:[trick 待补充]
p(x)={λαxΓ(α)
特例
- Γ(1,λ)是指数分布,α=1
- α=n2,λ=12时,Gamma分布是自由度为n的卡方分布,记为\Chi2(n)
Beta分布
Beta函数
B(a,b)=∫10xa−1(1−x)b−1dx,a>0,b>0,x∈(0,1)
xa−1(1−x)b−1是核,核确定即密度函数确定。
β函数与Γ函数的关系
B(a,b)=Γ(a)Γ(b)Γ(a+b);
性质
B(a,b)=B(b,a);将1-x换成y再积分。
β分布:
p(x)=Γ(a+b)Γ(a)Γ(b)xa−1(1−x)b−1,0<x<1\0,otherwised;
将X~Be(a,b),称X服从贝塔分布
期望
推导
E(x)=∫10xΓ(a+b)Γ(a)Γ(b)xa−1(1−x)b−1dx
=Γ(a+1)Γ(a+b)Γ(a+1+b)Γ(a)∫10Γ(a+1+b)Γ(a+1)Γ(b)xa+1−1(1−x)b−1dx
=aa+b,后面这个积分,是Y~\Beta(a+1,b)
【看这里,很明显的一个概率密度函数被配凑出来了,就是概率密度函数的积分为1好算而已,没啥技巧性
=aa+b;
其中xa+1−1,再去配那个系数,同时再用Gamma函数最重要的那个性质(阶乘递推性);
方差
Var(X)=E[x2]−E2[x]
求x2的用法是类似的。
Var(X)=ab(a+b+1)(a+b)2
尽可能的凑成一个密度函数的形式去积分
特例
当a=1,b=1时,β(X)=1,即Beta(1,1)=U(0,1),这里U表示均匀分布
正态分布
对正态分布掌握的多深,统计学的多好。
f(x)=1√2πσexp−12(x−μ)2σ2
=1√2π(σ2)−12exp−12(x−μ)2σ2
这样写是为了单纯保证方差的形式?
N(μ,σ2),N(0,1)【标准正态分布】
均匀分布(区间等概率)
可定义在任何的ab区间
泊松分布
Possion(λ)
刻画记数随机变量
指数分布
Exp(λ)
除常见形式外的另外一个形式:θ=λ−1,以期望的形式刻画
p(x)=1θe−xθ,x>0
用指数分布刻画寿命(非负),x≥0
一元随机变量函数的分布
X是一元(连续)r.v. g(X)也是随机变量,已知F(X),求g(X)这个随机变量的分布。
仅仅是因为离散比较好求
Case1:g(X)是严格单调函数
定理
设一个r.v.X 是连续r.v.其pdf是p(x),随机变量Y=g(X)是一个r.v.
其反函数h(y)=x的导数存在且连续(存在连续的导函数),那么我们说Y=g(X)的pdf,PY(y)(随机变量Y取值为y的时候的分布)
PY(y)={PX[h(y)]|h′(y)|a<y<b\0otherwised
若x∈(x1,x2),g(X)∈(g(x1),g(x2))单增单减相同。
x=h(y),PY(y)=PX(h(y))|h′(y)|,y∈(a,b),(a,b)是x的值域
注意这个地方有一个绝对值,因为密度函数是非负的。多元是Jaccobian行列式,行列式外还要求绝对值。
例子
- 若x
Γ(α,λ),对k>0,kxΓ(α,λ/k)
证明:
令g(x)=kx,g(x)是一个严格的单调增函数,其反函数x=h(y)=y/k.
那么存在x=h(y)存在连续导函数为h’(y)=1/k.
取值范围:x是gamma函数,所以x>=0.所以y∈[0,+\infin)
所以PY(y)=PX(h(y))|h′(y)|
=PX(y/k)|1k|=λαkΓ(α)(yk)α−1exp(−λyk)
这一结论是很有用的,譬如当X~Ga(a,λ),则2λX~Ga(a,1/2)=\Chi2(2a)
即,任意Gamma分布可以转化为卡方分布。
Case2:特例g(X)=F(X)的分布(对x做分布变换套娃)
设X的分布函数是F(X),这里Y=G(X)=F(X),求随机变量Y的分布
定理
若随机变量X的分布函数F(X),F(X)作为分布函数本身的性质是单调增的,这里只需要将它限制在严格单增上,其反函数F−1X(y)(的导数连续且)存在,则Y=F(X),随机变量Y的分布服从U(0,1),即是[0,1]上的分布函数。
证明:对于任意y<0.分布函数是>0的,{Y<=y}是不可能事件,
对任意y>=1,{Y<=y}是必然事件。
0<=y<1:
FY(y)=P(Y<=y)=P(FX(X)<=y)
因为FX(X)是严格单增的,所以P(FX(X)<=y)=P(X<=F−1X(y))=FX(F−1X(y))=y
得证。
例子:求一个给定分布的随机数
X~Exp(λ),
在统计中做simulation.
指数分布族的分布函数FX(x)=1−e−λx
U=FX(X)=1−e−λX~U(0,1)
从U(0,1)抽一个U1,U2,U3,….,Un是可以做到的。【假设现在的计算机可以做到,那我得到u,就可以得到x】
由U=1−e−λX,所以Xi=1−λln(1−Ui)
应用中的经典应用,求一个很复杂的分布族的采样。
Case3:x~N(0,1);求X2的分布?X2服从一个卡方分布
卡方分布是3大抽样分布之一。
解:Y=X2
FY(y)=P(Y≤y)=P(X2≤y)(y>0)=P(−√y≤X≤√y)=2Φ(√y)−1
P(y)=F’(y),复合函数求导,求导出来是一个Gamma分布
p(y)=2f_x(√y)1−2√y,
p(y)=1√2πexp(−y/2)1−2√y
λ=12,与Gamma分布的表达式对比之后,Y~Ga(12,(\frac{1}{2}$)
Q:标准正态分布的累积分布函数? 不需要知道,这里也是导数,即Φ(x)的形式不需要知道。
1.2 多元随机变量
多项分布,r项分布(?)
多项分布是二项分布的推广
X~b(n,p)
- n个独立重复的实验
- 每次实验有r个结果{A1,A2,….,Ar}
- P(Ai)=pi
那么(X1,X2,…,Xr)取值为(n1,n2,…,nr)的概率P(X1=n1,X2=n2,…,Xr=nr)=n!n1!n2!n3!…nr!pn11pn22pn33….pnrr,
其中∑rini=n
也由于这个限制,它是一个r-1维的随机变量。
理解:Xi表示在n次投掷中i出现的次数,Xi的取值就是n选r的那个r.