shartoo +

数据挖掘方法之分类

本文总阅读量
欢迎star我的博客

博文参考《数据挖掘概念与技术》:韩家威著(机械工业出版社)

一 分类的概念

在面向对象编程(OOP)中我们说“一切皆对象”,在数据挖掘中,我们应该认为“一切皆数据”。而分类就是按照您的选择评估标准将数据进行分离,使得具有某些相同特性的数据属于一个类,不相同的数据不在一个类。

二 分类的一般过程

分类一般分为两个阶段:学习阶段(构建模型)分类阶段(使用分类模型给测试数据的赋予类标号)

三 分类的评估

3.1 度量的基础术语

3.2 度量的四个构件

3.3 评估度量

有了度量的四个构件,我们可以得到常用的评估度量公式。如下

度量 公式
准确率(识别率) $\frac{TP+TN}{P+N}$
错误率(误分类率) $\frac{FP+FN}{P+N}$
敏感率(真正例率、召回率) $\frac{TP}{P}$
特效性(真负例率) $\frac{TN}{N}$
精度 $\frac{TP}{TP+FP}$
F分数(精度和召回率的调和均值) $\frac{2精度召回率}{精度+召回率}$

如何理解:

四 对模型的评估

4.1 保持(holdout)方法和随机二次抽样

4.2 k折交叉验证

将数据分成互不相交的k等份 $D_1,D_2,D_3,…D_k$,训练和校验进行k次。第i次迭代时,将第i个等份(“折”)作为校验集,而其他等份(“折”)全体作为训练集合。注意,在保持方法中数据是随机分的,而此处是均分,并且每份数据集合都有一次机会作为校验集。下图显示的是第四次迭代时的一个示例:

4.3 自助法

我的博客

观点

源码