概率统计
单个或多个总体均值的统计推断
例:2012国赛A题葡萄酒
问题1:以葡萄酒样品为例,两组品酒员评价的结果是否有显著差异?
$(X_i,Y_i):i=1,…,27;$
$X_i=(X_{i,jk}),j=1,…,9;k=1,…,10$;
均值的显著差异?
在此问题中$X_i$和$Y_i$都是矩阵。
角度1:2个矩阵匹配数据总体均值的差异性的检验?
Asides:好难,我菜,听不懂。
分布检验常用方法
对于一元总体:
第一步:是否与正态分布相近似?是否拒绝正太分布的检验?
第二部:如果不能正太-》非参数/如果可以正态:参数
Neyman-pearson 拟合优度检验。
分布检验,既可以用于检验数据的分布特性,又可以检验不同组之间的分布关系。
K-S检验
WILCOXON
SHAPIRO-WILK
对于多元总体:常见的是检验是否服从多元正态分布。如果不是多元正态分布,可能会对整体进行调整。
单个正态总体均值
1.t-统计/z-统计。
K个总体的假设检验:
- K=2:
- 正态总体
- 方差已知
- 方差未知
- 非正态总体
- 正态总体
- K$\ge3$:方差分析。
在以往赛题中,还未看到k特别大的情况。
选择检验方式的时候:核心之处是去关注它是正态分布还是非正态分布。
真正的难点不在于如何去写function,而是难在如何把问题具体的与function联系起来。很多具体方法的实现都无需写具体程序的,真正做test的程序,很多都是已经集成的。
- 原始数据格式的清洗工作等。
- 正式比赛中,可以专门有同学整理和处理数据。
葡萄酒的评价问题2:多元统计分析
同时考虑多个指标->多元统计。
根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级。
如果一下子将所有指标同时考虑的话,则指标的维数则会过高,
故多元统计分析中一个比较重要的问题是:
主成分定义
- 思想:把高维空间的数据投影到低维空间,使问题得到简化而损失的信息又不太多
- 主成分分析:用可观的随机变量的线性组合。
因子载荷量,贡献率和得分矩阵。
协方差阵的特征根的从大到小的排列?$\lambda_1\ge\lambda_2$
正成分$Z_k$与原始变量$X_i$的相关称为因子负荷量。
$\lambda_k/\sum_{i=1}^p\lambda_i$称为累计贡献率。
主成分的选择方法?如果单个主成分贡献率都比较小,可以给出一个threshold,也可以关注累计累计贡献率,当我的累计贡献率到达某个threshold,也可以就此停止主成分的选择。
当自变量的个数大于样本数时?稀疏的主成分分析?
稀疏的主成分分析自动的设为0.
问题3:相关关系分析-典型相关分析
分析酿酒葡萄与葡萄酒的理化指标之间的联系。
两组随机变量之间的关系:相关性于独立性,在实际中应用的比较多的是相关性。
典型相关分析用来分析:两个随机向量之间的线性相关程度。
第一对典型相关变量/典型相关系数。
依赖关系分析-回归分析
问题4:分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响:
多元线性回归模型
假定因变量$Y$ :
- 参数估计方法:
- 回归方程的显著性检验:
- 回归系数的显著性检验:即检验以下的假设:
- 建立“最优”回归方程
- 预报于控制
为什么要对均值进行估计检验呢?假设检验于置信区间。
建立最有回归过程的标准:检验/模型选择的结合。
正态分布适合多元线性回归。
高维多元线性回归已经被研究的很透彻了。
问题5:回归分析:广义线性回归2012C
回归解决的就是依赖关系的问题。
建立数学统计模型研究脑卒中发病率与气温、气压、相对湿度间的关系。
这种问题就是典型的依赖关系分析。
病人发病时间的重复?->转变思路:4年的每一天里面有多少病人是发病了?
广义线性回归模型:
共同点:因变量/协变量。
假设随机变量来自于指数分布族。
连接函数:广义线性回归模型。
logistic回归->广义线性回归模型。
- 依赖关系,因变量1个,有多个自变量,
- 如果y是连续的,通过正态性检验,可以很放心的通过多元正态性回归。
核心:Y的取值比较奇怪。
2016 C:电池剩余放电时间预测(依赖关系分析)
- 固定恒定电流,建立放点电流的数学模型
- 预测衰减状态3的剩余放电时间。
变系数回归模型
Y=$X^T\beta(W)+\epsilon$
例:2013D 城市公共自行车服务系统
找出各站点借车和换车的高峰时段,并对共同借车高峰时段和还车高峰时段的站点分别进行归类:
归类问题->另一大问题。
系统聚类法
数据变换
计算n个样本的两两间的距离
第一步分类
新嘞
重复
…
聚类分析分成几类呢?理论上没有一定要分成几类,而是要跟假设检验相结合,仍是看之间差异性的是否显著。