目录
1.混淆矩阵(Confusion Matrix)
(1)基本概念介绍。
(2)分类指标
2.ROC曲线(Receiver Operating Characteristic)
【参考文献】
1.混淆矩阵(Confusion Matrix)
混淆矩阵主要用于比较分类结果和实际预测值,并可以把分类结果的精度显示在一个混淆矩阵中,如表1所示。混淆矩阵表达含义:
- 混淆矩阵的每一列代表了分类器对于样本的类别预测,每一列的总数表示预测为该类别的样本的数目;
- 混淆矩阵的每一行代表了样本所属的真实类别,每一行的样本总数表示该类别的样本实例的数目;每一列中的数值表示真实样本被预测为该类的数目。
(1)基本概念介绍。
- 真正例(True Positive,简称TP):样本是正例被预测为正例。
- 假正例(False Positive,简称FP):样本是反例被预测为正例。
- 假反例(False Negative,简称FN):样本是正例被预测为反例。
- 真反例(True Negative,简称TN):样本是反例被预测为反例。
表1 分类结果混淆矩阵
| 真实情况 | 预测情况 | |
| 正例(P) | 反例(N) | |
| 正例(T) | TP(真正例) | FN(假反例) |
| 反例(F) | FP(假正例) | TN(真反例) |
备注:第一步:判断T、F,真实与预测一致为T,不一致为F;
第二步:判断P、N,以预测值为主,预测为正即为P,预测为反即为N。
- TPR(True Positive Rate):在实际为正例的样本中,被正确判断为正例的比率;
- FPR(False Positive Rate):在实际为负例的样本中,被错误判断为正例的比率;
(2)分类指标
- 召回率(recall):真正的正例(TP+FN)被预测准确的比率。
- 精确率(precision):预测为正例(TP+FP)的所有样本中,真正的正例(TP)的比率。
- 准确率(accuracy):预测正(TP+FP)、反例(FN+TN)的准确(TP+TN)比例。
- F-Score(又称F-Measure):是精确率和召回率的加权调和平均数。
- F1是a=1时的调和平均数,当F1较高时说明实验方法比较有效。
2.ROC曲线(Receiver Operating Characteristic)
ROC全称为“受试者工作特征”,该曲线表示分类器泛化性能的好坏。其主要分析工具为一个画在二维平面上的曲线--ROC曲线。如图1所示。横坐标为FPR,纵坐标为TPR(recall)。
图 1 ROC曲线
AUC(Area Under ROC Curve):AUC可通过对ROC曲线下各部分的面积求和而得。面积越大分类器泛化能力越强,Max(AUC)=1。


![[学习笔记]有监督机器学习的评价方法 [学习笔记]有监督机器学习的评价方法](http://www.mshxw.com/aiimages/31/283310.png)
