C4.5算法

简介

  1. 通过信息增益率选择分裂属性,ID3中计算的是“信息增益”
  2. 能够处理离散型和连续型的属性类型,即将连续型的属性进行离散化处理
  3. 能够处理具有缺失属性值的数据
  4. 构造决策树之后可以进行剪枝操作
  5. 是ID3算法的改良版本

    优点

    产生的分类规则易于理解,准确率较高。

    缺点

    在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效

预备知识

信息熵

计算公式

假如事件A的全概率划分是(A1,A2,…,An),每部分发生的概率是(p1,p2,…,pn),那信息熵定义为:
信息熵公式单位是bit

赏个🍗吧
0%