0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为什么使用ROC曲线?

深度学习自然语言处理 来源:AI算法小喵 作者:AI算法小喵 2022-12-15 15:34 次阅读

1.ROC曲线

ROC曲线全称为受试者工作特征曲线(Receiver Operating Characteristic)。提到ROC曲线就要先说明一下两个概念:FPR(伪正类率),TPR(真正类率),它们都是分类任务的评测指标。

1.1 TPR 、FPR

对于一个二分类任务(假定为1表示正类, 0表示负类),对于一个样本,分类的结果总共有四种:

类别实际为1,被预测为0,FN(False Negative)

类别实际为1,被预测为1,TP(True Positive)

类别实际为0,被预测为1,FP(False Positive)

类别实际为0,被预测为0,TN(True Negative)

FPR(False Positive Rate)= FP /(FP + TN),即负类数据被预测为正类的比例;

TPR(True Positive Rate)= TP /(TP + FN),即正类数据被预测为正类的比例。

1.2 ROC曲线

那什么是ROC曲线呢?我们看一下ROC曲线的图示:

eb98b1e2-7c3f-11ed-8abf-dac502259ad0.png

对于样本数据,我们使用分类器对其进行分类,分类器会给出每个数据为正例的概率。我们可以针对此来设定一个阈值,当某个样本被预测为正例的概率大于这个阈值时,认为该样本为正例,小于则为负例。

通过计算我们就可以得到一个(TPR , FPR)对,即图像上的一个点。通过不断调整这个阈值,就得到若干个点,从而画出一条曲线。

可以看出,当这个阈值越大时,会有越多的样本被预测为负例,而这些样本中其实也有正例的存在。这样一来,TPR下降(正例数据被预测为负例了),FPR下降(负类数据更不会被预测为正例,但是影响要比TPR小,所以斜率呈上升趋势)。

当阈值越小时,越多的样本被预测为正例,而这些样本中可能包含是正例,却被预测为负例的样本以及是负例却被预测为正例的样本,这样一来TPR上升(更多的正例样本被预测为正例),FPR上升(更多的负例样本预测为正例,影响更大,所以斜率呈下降趋势)。

1.3 阈值调整

那么该如何调整这个阈值呢?一般来说,分类器会对一批数据的每个样本给出一个是正例的概率,如下图示,共20个样本,class为实际标签,score为分类器判断样本为正例的概率:

ebddefe6-7c3f-11ed-8abf-dac502259ad0.png

对给出的分数进行排序,然后依次使用score作为阈值,这样就得到了20组(FPR, TPR),做出ROC曲线如下:

ec41ba12-7c3f-11ed-8abf-dac502259ad0.png

当阈值为1时就可以到达ROC曲线上(0, 0)点,当阈值为0时就可以到达ROC曲线上(1, 1) 点。当然也不一定就必须使用概率值,也可以使用未经过softmax(或其他类似处理)的结果,使用方法相同,毕竟我们只需要一个次序。

2.AUC

说完ROC,再来说一下AUC。AUC被定义为ROC曲线下的面积(Area Under Curve),显然这个面积小于1。又因为ROC曲线一般都处于y=x这条直线的上方,所以AUC一般在0.5到1之间。

2.1 AUC优点与含义

使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。

AUC的含义为,当随机挑选一个正样本和一个负样本,根据当前的分类器计算得到的score将这个正样本排在负样本前面的概率。

2.2AUC与分类器优劣

从AUC判断分类器(预测模型)优劣的标准:

AUC = 1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器。

0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。

AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。

AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。

ec61ed96-7c3f-11ed-8abf-dac502259ad0.png

3. 为什么使用ROC曲线?

既然已经这么多评价标准,为什么还要使用ROC和AUC呢?因为ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。

在实际的数据集中经常会出现类不平衡(class imbalance)现象,即负样本比正样本多很多(或者相反),而且测试数据中的正负样本的分布也可能随着时间变化。

下图中,(a)和(c)为ROC曲线,(b)和(d)为Precision-Recal[1]曲线。(a)和(b)展示的是分类其在原始测试集(正负样本分布平衡)的结果,(c)和(d)是将测试集中负样本的数量增加到原来的10倍后,分类器的结果。

ec85a7a4-7c3f-11ed-8abf-dac502259ad0.png

可以明显的看出,ROC曲线基本保持原貌,而Precision-Recall曲线则变化较大。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7057

    浏览量

    89096
  • 曲线
    +关注

    关注

    1

    文章

    82

    浏览量

    20862

原文标题:3. 为什么使用ROC曲线?

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    伏安特性曲线

    家人们,聚吡咯和铝之间是肖特基接触,为什么测试的伏安特性曲线偏线性呀!我看别人全是那种标准的单向导电性啊
    发表于 12-10 14:31

    参考曲线状态评估指南

    在使用OSI系列设备进行应变或温度传感测试时,取参考是尤为重要的一个步骤。参考曲线能为我们提供诸如光纤样品链路状态、长度等关键信息。因此,准确理解参考曲线的状态对实验能否顺利进行至关重要。本文旨在
    的头像 发表于 11-23 01:04 271次阅读
    参考<b class='flag-5'>曲线</b>状态评估指南

    继电器的机械特性曲线说明什么?它有何作用?

    继电器的机械特性曲线是描述继电器机械性能的重要图表,它展示了继电器在不同输入条件下的输出状态。这种曲线通常包括了继电器的吸合电压、释放电压、吸合电流、释放电流等参数,以及这些参数随时间变化的关系
    的头像 发表于 09-27 16:55 844次阅读

    在设计中使用MOSFET安全工作区曲线

    电子发烧友网站提供《在设计中使用MOSFET安全工作区曲线.pdf》资料免费下载
    发表于 09-07 10:55 1次下载
    在设计中使用MOSFET安全工作区<b class='flag-5'>曲线</b>

    在设计中使用MOSFET瞬态热阻抗曲线

    电子发烧友网站提供《在设计中使用MOSFET瞬态热阻抗曲线.pdf》资料免费下载
    发表于 08-28 09:21 17次下载
    在设计中使用MOSFET瞬态热阻抗<b class='flag-5'>曲线</b>

    MSL额定值和回流曲线

    电子发烧友网站提供《MSL额定值和回流曲线.pdf》资料免费下载
    发表于 08-26 14:59 0次下载
    MSL额定值和回流<b class='flag-5'>曲线</b>

    变压器的外特性曲线是怎样的?

    变压器的外特性曲线是指变压器在额定电压、额定频率和额定容量下,输出电压随输入电流变化的曲线。它是变压器性能的重要指标之一,反映了变压器在不同负载条件下的运行情况。下面将介绍变压器的外特性曲线。 一
    的头像 发表于 07-15 09:19 2859次阅读

    直流伺服电动机的机械特性曲线是什么

    直流伺服电动机是一种广泛应用于自动化控制系统中的电机,其机械特性曲线对于理解和设计伺服系统至关重要。 直流伺服电动机概述 直流伺服电动机是一种将电能转换为机械能的装置,其工作原理基于电磁感应定律
    的头像 发表于 06-05 14:18 1864次阅读

    二极管的输出特性曲线分析

    二极管,作为电子技术的核心元件之一,其输出特性曲线对于理解和应用其性能至关重要。输出特性曲线描绘了二极管在不同输入条件下的电压和电流之间的关系,为我们提供了关于二极管行为的关键信息。本文将深入探讨二极管的输出特性曲线,包括其基本
    的头像 发表于 05-21 15:37 2439次阅读

    CB晶体管的特性曲线解析

    在本文中,我们将讨论CB晶体管的特性曲线,如 CB晶体管的静态输入和静态输出特性曲线(共基)。
    的头像 发表于 05-05 15:47 899次阅读
    CB晶体管的特性<b class='flag-5'>曲线</b>解析

    雷达检测概率曲线的影响因素

    在阅读雷达书籍和相关论文时发现,雷达的检测概率Pd和信噪比有一个函数关系 我的问题是如果这个函数关系是通用的,那么在门限一定的情况下,不同的雷达的检测概率曲线是不是都一样了?如果不是,那么雷达的什么因素会影响这个曲线呢?
    发表于 03-27 19:54

    【smt工艺】无铅锡膏炉温曲线怎样设定?

    在smt工艺中,无铅锡膏的炉温曲线设定是非常重要的环节,直接关系着产品质量好坏,所以我们应根据无铅锡膏的工艺特性来确定其合适的炉温曲线,具体怎样做呢?下面我们深圳佳金源锡膏厂家来说一下一般无铅锡膏
    的头像 发表于 03-20 17:46 1528次阅读
    【smt工艺】无铅锡膏炉温<b class='flag-5'>曲线</b>怎样设定?

    如何理解ABB低压断路器的保护曲线

    如何理解ABB低压断路器的保护曲线  ABB低压断路器的保护曲线是指在不同的故障电流下断路器所提供的保护动作时间。保护曲线的理解对于正确选择和使用低压断路器非常重要,因为它可以帮助我们确定断路器
    的头像 发表于 02-04 16:18 1350次阅读

    示波器探头的降额曲线指标对测量结果有什么影响?

    示波器探头的降额曲线指标对测量结果有什么影响? 示波器探头的降额曲线指标是评估示波器探头在不同频率下测量准确性的重要指标,该指标会对测量结果产生一定影响。本文将详细讨论示波器探头的降额曲线指标及其
    的头像 发表于 01-08 11:30 531次阅读

    为什么电压探头会有降额曲线指标,它的意义是什么呢?

    为什么电压探头会有降额曲线指标,它的意义是什么呢? 电压探头是一种用于测量电路中的电压的设备,它通常由一个金属探针和一个放大器组成。在使用电压探头进行测量时,我们会发现在一定频率范围内,探头的输出
    的头像 发表于 01-08 11:30 1036次阅读