栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

[学习笔记]有监督机器学习的评价方法

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

[学习笔记]有监督机器学习的评价方法

目录

1.混淆矩阵(Confusion Matrix)

(1)基本概念介绍。

(2)分类指标

2.ROC曲线(Receiver Operating Characteristic)

【参考文献】


1.混淆矩阵(Confusion Matrix)

       混淆矩阵主要用于比较分类结果和实际预测值,并可以把分类结果的精度显示在一个混淆矩阵中,如表1所示。混淆矩阵表达含义:

  • 混淆矩阵的每一列代表了分类器对于样本的类别预测,每一列的总数表示预测为该类别的样本的数目;
  • 混淆矩阵的每一行代表了样本所属的真实类别,每一行的样本总数表示该类别的样本实例的数目;每一列中的数值表示真实样本被预测为该类的数目。

(1)基本概念介绍。
  • 真正例(True Positive,简称TP):样本是正例被预测为正例。
  • 假正例(False Positive,简称FP):样本是反例被预测为正例。
  • 假反例(False Negative,简称FN):样本是正例被预测为反例。
  • 真反例(True Negative,简称TN):样本是反例被预测为反例。

表1 分类结果混淆矩阵

真实情况

预测情况

正例(P)

反例(N)

正例(T)

TP(真正例)

FN(假反例)

反例(F)

FP(假正例)

TN(真反例)

          备注:第一步:判断T、F,真实与预测一致为T,不一致为F;

                    第二步:判断P、N,以预测值为主,预测为正即为P,预测为反即为N。

  • TPR(True Positive Rate):在实际为正例的样本中,被正确判断为正例的比率;

  • FPR(False Positive Rate):在实际为负例的样本中,被错误判断为正例的比率;

  

(2)分类指标
  • 召回率(recall):真正的正例(TP+FN)被预测准确的比率。

  • 精确率(precision):预测为正例(TP+FP)的所有样本中,真正的正例(TP)的比率。

  • 准确率(accuracy):预测正(TP+FP)、反例(FN+TN)的准确(TP+TN)比例。

  • F-Score(又称F-Measure):是精确率和召回率的加权调和平均数。

  

  • F1是a=1时的调和平均数,当F1较高时说明实验方法比较有效。

  

2.ROC曲线(Receiver Operating Characteristic)

       ROC全称为“受试者工作特征”,该曲线表示分类器泛化性能的好坏。其主要分析工具为一个画在二维平面上的曲线--ROC曲线。如图1所示。横坐标为FPR,纵坐标为TPR(recall)。

  图 1 ROC曲线

       AUC(Area Under ROC Curve):AUC可通过对ROC曲线下各部分的面积求和而得。面积越大分类器泛化能力越强,Max(AUC)=1。

【参考文献】
  1. 周志华著.机器学习.北京:清华大学出版社,2016.1
  2. 黄美灵著.推荐系统算法实践.北京:电子工业出版社,2019.9
  3. https://blog.csdn.net/seagal890/article/details/105059498

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/283310.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号