简介
- 通过信息增益率选择分裂属性,ID3中计算的是“信息增益”
- 能够处理离散型和连续型的属性类型,即将连续型的属性进行离散化处理
- 能够处理具有缺失属性值的数据
- 构造决策树之后可以进行剪枝操作
- 是ID3算法的改良版本
优点
产生的分类规则易于理解,准确率较高。缺点
在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效
预备知识
信息熵
计算公式
假如事件A的全概率划分是(A1,A2,…,An),每部分发生的概率是(p1,p2,…,pn),那信息熵定义为:
单位是bit
一片净土
假如事件A的全概率划分是(A1,A2,…,An),每部分发生的概率是(p1,p2,…,pn),那信息熵定义为:
单位是bit
微信支付
支付宝