Data Mining process
什么是决策树?
结构树:数据模型;
通常的决策树以二叉树为主。
每个内部/叶子节点都会带一个label,作为数据如何划分的依据。
模型与结构
- 如何使用我的模型?Inference:将模型在树上过一遍
决策树的推断
所到数据的标签位置,从根节点往下走,走到叶子结点,拿叶子上的label,作为record上的标签。
如何学习?训练得到模型?
自定向下/自定向上
构造完成后的剪纸修正。
C4.5算法以及CART算法
通常使用决策树,使用贪心算法。
寻找最易将label划分开的属性
决策树用crossvalidation和loss进行评价。
APRORI
- 在不同的属性上数数。
- 关联规则挖掘
打分规则
多维场景下的维度灾难?
维度高/稀疏/模型不可靠。
EM搜索方法
- E-step
- M-step