单层决策树

2014-05-23

如果你未满18周岁，那么你会被归类为未成年人，否则，你会被归类为成年人。这种归类方法仅仅是根据你的一个特征（即年龄）来归类，同时这种分类符合if..then..else..这种逻辑，可以用下面的决策树来表示：

这种简单的分类方法称为单层决策树。单层决策树是决策树的一种，在实际使用中它是一个弱分类器，这是因为其分类/预测效果并没有多好，不过肯定需要比随机猜测要好一些。单层决策树可以认为是决策树的基础，同时它也可以在AdaBoost等方法中使用。

如何构建一个效果较好的单层决策树

一般情况下需要对阈值和比较方法进行组合，阈值就好比上面的18周岁，而相应的比较方法有两个：一个是若未满18周岁，则通过是这一路经判定其为未成年人，通过否这一路径判定其为成年人；另一个是若满18周岁，则通过是这一路经判定其为成年人，通过否这一路径判定其为未成年人。

样本的特征分为标称型数据和数值型数据。标称型数据是指是、否等二元判断以及类似的多元判断类型的数据，这种数据只能判断相互之间的关系是等于还是不等于；数值型数据可以进行大小的比较。

那么在训练单层决策树的时候怎样找到一个分类效果好的单层决策树？方法很简单，就是将阈值和比较方法组合后，找出让预测分类与实际分类误差最小的一个组合。这个误差这样计算：

误差 = 预测错误的样本数/样本总数

对于标称型数据，阈值多是是、否两种。对于数值型数据，假设已知这个数值型数据的值上限为10，下限为0，这时候需要根据实际情况选择阈值，例如选择0、1、2、3、4、5、6、7、8、9、10这11个整数值作为阈值。