0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为什么使用ROC曲线?

深度学习自然语言处理 来源:AI算法小喵 作者:AI算法小喵 2022-12-15 15:34 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

1.ROC曲线

ROC曲线全称为受试者工作特征曲线(Receiver Operating Characteristic)。提到ROC曲线就要先说明一下两个概念:FPR(伪正类率),TPR(真正类率),它们都是分类任务的评测指标。

1.1 TPR 、FPR

对于一个二分类任务(假定为1表示正类, 0表示负类),对于一个样本,分类的结果总共有四种:

类别实际为1,被预测为0,FN(False Negative)

类别实际为1,被预测为1,TP(True Positive)

类别实际为0,被预测为1,FP(False Positive)

类别实际为0,被预测为0,TN(True Negative)

FPR(False Positive Rate)= FP /(FP + TN),即负类数据被预测为正类的比例;

TPR(True Positive Rate)= TP /(TP + FN),即正类数据被预测为正类的比例。

1.2 ROC曲线

那什么是ROC曲线呢?我们看一下ROC曲线的图示:

eb98b1e2-7c3f-11ed-8abf-dac502259ad0.png

对于样本数据,我们使用分类器对其进行分类,分类器会给出每个数据为正例的概率。我们可以针对此来设定一个阈值,当某个样本被预测为正例的概率大于这个阈值时,认为该样本为正例,小于则为负例。

通过计算我们就可以得到一个(TPR , FPR)对,即图像上的一个点。通过不断调整这个阈值,就得到若干个点,从而画出一条曲线。

可以看出,当这个阈值越大时,会有越多的样本被预测为负例,而这些样本中其实也有正例的存在。这样一来,TPR下降(正例数据被预测为负例了),FPR下降(负类数据更不会被预测为正例,但是影响要比TPR小,所以斜率呈上升趋势)。

当阈值越小时,越多的样本被预测为正例,而这些样本中可能包含是正例,却被预测为负例的样本以及是负例却被预测为正例的样本,这样一来TPR上升(更多的正例样本被预测为正例),FPR上升(更多的负例样本预测为正例,影响更大,所以斜率呈下降趋势)。

1.3 阈值调整

那么该如何调整这个阈值呢?一般来说,分类器会对一批数据的每个样本给出一个是正例的概率,如下图示,共20个样本,class为实际标签,score为分类器判断样本为正例的概率:

ebddefe6-7c3f-11ed-8abf-dac502259ad0.png

对给出的分数进行排序,然后依次使用score作为阈值,这样就得到了20组(FPR, TPR),做出ROC曲线如下:

ec41ba12-7c3f-11ed-8abf-dac502259ad0.png

当阈值为1时就可以到达ROC曲线上(0, 0)点,当阈值为0时就可以到达ROC曲线上(1, 1) 点。当然也不一定就必须使用概率值,也可以使用未经过softmax(或其他类似处理)的结果,使用方法相同,毕竟我们只需要一个次序。

2.AUC

说完ROC,再来说一下AUC。AUC被定义为ROC曲线下的面积(Area Under Curve),显然这个面积小于1。又因为ROC曲线一般都处于y=x这条直线的上方,所以AUC一般在0.5到1之间。

2.1 AUC优点与含义

使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。

AUC的含义为,当随机挑选一个正样本和一个负样本,根据当前的分类器计算得到的score将这个正样本排在负样本前面的概率。

2.2AUC与分类器优劣

从AUC判断分类器(预测模型)优劣的标准:

AUC = 1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器。

0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。

AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。

AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。

ec61ed96-7c3f-11ed-8abf-dac502259ad0.png

3. 为什么使用ROC曲线?

既然已经这么多评价标准,为什么还要使用ROC和AUC呢?因为ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。

在实际的数据集中经常会出现类不平衡(class imbalance)现象,即负样本比正样本多很多(或者相反),而且测试数据中的正负样本的分布也可能随着时间变化。

下图中,(a)和(c)为ROC曲线,(b)和(d)为Precision-Recal[1]曲线。(a)和(b)展示的是分类其在原始测试集(正负样本分布平衡)的结果,(c)和(d)是将测试集中负样本的数量增加到原来的10倍后,分类器的结果。

ec85a7a4-7c3f-11ed-8abf-dac502259ad0.png

可以明显的看出,ROC曲线基本保持原貌,而Precision-Recall曲线则变化较大。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7361

    浏览量

    95136
  • 曲线
    +关注

    关注

    1

    文章

    82

    浏览量

    21509

原文标题:3. 为什么使用ROC曲线?

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    知识分享-器件失效测试(V-I曲线

    嵌入式系统可靠性设计技术及案例解析10.7器件失效测试(V-I曲线)器件的外部损伤,无论是ESD还是EOS,都会在引脚的输人/输出特性上表现出来,这个特性就是端口阻抗的V-I曲线,这可以用专门测试
    的头像 发表于 05-11 14:58 105次阅读
    知识分享-器件失效测试(V-I<b class='flag-5'>曲线</b>)

    电机加减速曲线控制的选择

    电机加减速曲线的选择,本质上是在 平滑性、响应速度和系统复杂性 之间做权衡。没有一种曲线是万能的,最合适的取决于你的负载特性和性能要求。 下面是三种主流加减速曲线的核心区别和选型建议: 梯形
    的头像 发表于 03-16 16:41 442次阅读
    电机加减速<b class='flag-5'>曲线</b>控制的选择

    如何通过太诱电感的阻抗曲线选择最佳型号?

    要通过太诱电感的阻抗曲线选择最佳型号,需重点关注自谐振频率(SRF)、阻抗峰值及频率特性,并结合具体应用场景的电流、频率和封装需求进行综合评估。以下是具体步骤和分析: ​ 1.理解阻抗曲线的核心特征
    的头像 发表于 03-11 17:03 600次阅读
    如何通过太诱电感的阻抗<b class='flag-5'>曲线</b>选择最佳型号?

    功率循环基础篇(二) —— 功率循环寿命曲线解读

    功率循环寿命曲线是评估功率半导体器件(如  IGBT 模块)在温度交变应力下长期可靠性的核心工具。该曲线通常以 结温波动幅度 ΔTj 为横坐标,以器件达到指定失效判据前所经历的 循环次数 Nf 为
    的头像 发表于 03-02 11:55 475次阅读
    功率循环基础篇(二) —— 功率循环寿命<b class='flag-5'>曲线</b>解读

    深度解读晶体管的转移特性曲线

    本文介绍了晶体管转移特性曲线及其核心参数的意义。曲线描述了栅压控制漏极电流的过程,涵盖关断、亚阈值与导通区,是定义数字逻辑和平衡芯片性能的基石。
    的头像 发表于 01-26 17:33 6148次阅读
    深度解读晶体管的转移特性<b class='flag-5'>曲线</b>

    如何使用源表对元器件的IV曲线进行测试?

    IV 曲线是电子器件最核心的性能表征之一,通过施加连续变化的电压,测量对应电流响应,可直观反映器件的导通特性、击穿电压、阈值电压、漏电流、内阻等关键参数,广泛应用于二极管、三极管、电阻、电容、电源
    的头像 发表于 01-05 17:32 1642次阅读
    如何使用源表对元器件的IV<b class='flag-5'>曲线</b>进行测试?

    有多少种方法可以进行频响曲线测量?

    APx500软件提供了频响曲线的多种测量方法,对一个音频产品的频响特性进行测量分析。如果只用一个测量对一个音频产品进行评价,那这个测量就是频响曲线,APx500软件提供了多种方法可以进行频响曲线测量
    的头像 发表于 11-14 11:29 1317次阅读
    有多少种方法可以进行频响<b class='flag-5'>曲线</b>测量?

    石墨电极电阻率测定仪测试曲线的分析与异常识别

    石墨电极电阻率测定仪的测试曲线,是反映测量过程中数据变化的直观载体。通过观察曲线形态,既能验证单次测量的可靠性,也能快速识别隐藏的接触不良、样品异常等问题。掌握曲线分析方法,是提升测定精度与效率
    的头像 发表于 11-13 09:17 766次阅读
    石墨电极电阻率测定仪测试<b class='flag-5'>曲线</b>的分析与异常识别

    IV曲线测试仪:电子器件的“性能解码师”

    IV曲线测试仪:电子器件的“性能解码师” 柏峰【BF-CV1500】在半导体研发的实验室、光伏组件的生产车间,或是电子设备的故障诊断现场,IV曲线测试仪都是不可或缺的“核心工具”。它通过精准调控电压、采集电流,绘制出电子器件的电流-电压(IV)特性
    的头像 发表于 11-12 14:51 674次阅读
    IV<b class='flag-5'>曲线</b>测试仪:电子器件的“性能解码师”

    IV曲线测试仪:光伏组件性能评估的“精准标尺”

    IV曲线测试仪:光伏组件性能评估的“精准标尺”柏峰【BF-CV1500】在光伏系统的性能优化与质量管控中,准确掌握组件的电性能参数是核心前提。IV曲线测试仪作为直接获取光伏组件伏安特性曲线的专业设备,能够精准量化组件的开路电压、
    的头像 发表于 10-21 09:48 2040次阅读
    IV<b class='flag-5'>曲线</b>测试仪:光伏组件性能评估的“精准标尺”

    光伏电站组件IV曲线测试仪:光伏组件的 “性能体检仪”

    光伏电站组件IV曲线测试仪:光伏组件的 “性能体检仪” 柏峰【BF-CV1500】在光伏电站的日常运维、新组件验收或故障诊断现场,一款能精准绘制光伏组件 “电流 - 电压(IV)曲线” 的设备,正成为评估组件性能的核心工具 —— 它就是光伏电站组件 IV
    的头像 发表于 09-08 16:05 1431次阅读
    光伏电站组件IV<b class='flag-5'>曲线</b>测试仪:光伏组件的 “性能体检仪”

    微透镜的全面表征:曲率半径(ROC)测量

    的制造和表征中扮演着越来越重要的角色,确保了微透镜阵列的曲率半径(ROC)和形状参数的精确控制,从而推动了微透镜技术在手机、汽车和虚拟现实眼镜等成像应用中的广泛应用
    的头像 发表于 08-05 17:52 2048次阅读
    微透镜的全面表征:曲率半径(<b class='flag-5'>ROC</b>)测量

    iv曲线测试基本原理及常见仪器有哪些?

    IV曲线测试(电流-电压特性曲线测试)是一种用于评估电子元件(如二极管、晶体管、太阳能电池等)电气特性的基本方法,IV曲线测试通常使用以下几种仪器,其中数字源表多功能合一、操作简单
    的头像 发表于 07-30 15:08 3424次阅读
    iv<b class='flag-5'>曲线</b>测试基本原理及常见仪器有哪些?

    低压断路器电子脱扣器曲线的疑问

    经常看施耐德NSX塑壳断路器脱扣曲线的设计师,反馈热磁式保护曲线很容易理解。
    的头像 发表于 06-24 14:52 4016次阅读
    低压断路器电子脱扣器<b class='flag-5'>曲线</b>的疑问

    升降速曲线对直线电机系统性能影响的研究

    摘要:对一次速度曲线升降速,二次速度曲线升降速,三次速度曲线升降速以及三角函数速度曲线升降速曲线进行了分析,并对后3种升降速
    发表于 06-17 08:48