ML_决策树

文章目录
  1. 1. 决策树
  2. 2. 随机森林
  3. 3. 分裂属性

参考blog 和onenote 2016-summer总结 及一个ppt

决策树

  • 如何构建决策树
    • 如何分裂
      • 分裂属性
      • 离散/连续变量处理
    • 如何停止
      • 节点为纯
      • 节点样本数量小于阈值
      • 没有属性进行分割
  • 如何判定
    • 对应的样本数在叶子节点中最多

随机森林

  • 构建树:构建k个决策树,每棵树按照如下方式生长
    • 选择构建树数据
      • sample N cases at random ­ but with replacement, from the original data
    • 如何分裂
      • 在每个节点,随机选择m个特征,选择分裂属性最好的特征进行分裂。
      • 每棵树无剪枝生长
  • 如何判定
    • 综合k棵树的结果

分裂属性

  • 信息增益(information gain、KL divergence)
  • 增益比率Gain Ratio

基于信息增益进行属性选择有一个很大的缺陷,它会倾向于选择属性值多的属性。一个较为极端的例子是某种属性将预测属性完全分割,也就是在该属性分割后预测属性在每个分割集中,只有一种可能,分割后的预测属性的不确定性很小。但这样的分割方式往往没有任何意义,缺乏泛化能力。

信息增益比率对上面的情况进行了改进,它引入了一个分裂信息

$SplitInfo_R(D) = -\sum_{j=1}^{k} \frac{|D_j|}{|D|} * lg(\frac{|D_j|}{|D|})$

  • Gini指标
信息增益 用父节点信息熵-子节点的条件信息熵,选择下降最多的一个。 信息,即熵,用于衡量系统带有的信息多少(混乱程度)。越是混乱,其值越高$H(p)=-\sum_i {p_i}*lg({p_i})$
增益比率
Gini指标 Gini纯度,用于衡量节点内样本是否单一性。$Gini(D) = 1 - \sum_i{P_i}^2$ 在CART(分类回归树)算法中, 基尼不纯度表示一个随机选中的样本在子集中被分错的可能性。总体内包含的类别越杂乱,GINI指数就越大(跟熵的概念很相似)