分类模型评估指标汇总-电子发烧友网

作者：努力的孔子

对模型进行评估时，可以选择很多种指标，但不同的指标可能得到不同的结果，如何选择合适的指标，需要取决于任务需求。

正确率与错误率

正确率：正确分类的样本数/总样本数，accuracy

错误率：错误分类的样本数/总样本数，error

正确率+错误率=1

这两种指标最简单，也最常用

缺点

不一定能反应模型的泛化能力，如类别不均衡问题。

不能满足所有任务需求

如有一车西瓜，任务一：挑出的好瓜中有多少实际是好瓜，任务二：所有的好瓜有多少被挑出来了，显然正确率和错误率不能解决这个问题。

查准率与查全率

先认识几个概念

正样本/正元组：目标元组，感兴趣的元组

负样本/负元组：其他元组

对于二分类问题，模型的预测结果可以划分为：真正例 TP、假正例 FP、真负例 TN、假负例 FN,

真正例就是实际为正、预测为正，其他同理

显然 TP+FP+TN+FN=总样本数

混淆矩阵

把上面四种划分用混淆矩阵来表示

从而得出如下概念

查准率：预测为正里多少实际为正，precision，也叫精度

查全率：实际为正里多少预测为正，recall，也叫召回率

查准率和查全率是一对矛盾的度量。通常来讲，查准率高，查全率就低，反之亦然。

例如还是一车西瓜，我希望将所有好瓜尽可能选出来，如果我把所有瓜都选了，那自然所有好瓜都被选了，这就需要所有的瓜被识别为好瓜，此时查准率较低，而召回率是100%，

如果我希望选出的瓜都是好瓜，那就要慎重了，宁可不选，不能错选，这就需要预测为正就必须是真正例，此时查准率是100%，查全率可能较低。

注意我说的是可能较低，通常如果样本很好分，比如正的全分到正的，负的全分到负的，那查准率、查全率都是100%，不矛盾。

P-R曲线

既然矛盾，那两者之间的关系应该如下图

这条曲线叫 P-R曲线，即查准率-查全率曲线。

这条曲线怎么画出来的呢？可以这么理解，假如我用某种方法得到样本是正例的概率（如用模型对所有样本进行预测），然后把样本按概率排序，从高到低

如果模型把第一个预测为正，其余预测为负，此时查准率为1，查全率接近于0，

如果模型把前2个预测为正，其余预测为负，此时查准率稍微降低，查全率稍微增加，

依次...

如果模型把除最后一个外的样本预测为正，最后一个预测为负，那么查准率很低，查全率很高。

此时我把数据顺序打乱，画出来的图依然一样，即上图。

既然查准率和查全率互相矛盾，那用哪个作为评价指标呢？或者说同时用两个指标怎么评价模型呢？

两种情形

如果学习器A的P-R曲线能完全“包住”学习器C的P-R曲线，则A的性能优于C

如果学习器A的P-R曲线与学习器B的P-R曲线相交，则难以判断孰优孰劣，此时通常的作法是，固定查准率，比较查全率，或者固定查全率，比较查准率。

通常情况下曲线会相交，但是人们仍希望把两个学习器比出个高低，一个合理的方式是比较两条P-R曲线下的面积。

但是这个面积不好计算，于是人们又设计了一些其他综合考虑查准率查全率的方式，来替代面积计算。

平衡点：Break-Event Point，简称BEP，就是选择查准率=查全率的点，即上图，y=x直线与P-R曲线的交点

这种方法比较暴力

F1 与 Fβ 度量

更常用的方法是F1度量

即 F1 是 P 和 R 的调和平均数。

与算数平均数和几何平均数相比，调和平均数更重视较小值。

在一些应用中，对查准率和查全率的重视程度有所不同。

例如商品推荐系统，为了避免骚扰客户，希望推荐的内容都是客户感兴趣的，此时查准率比较重要，

又如资料查询系统，为了不漏掉有用信息，希望把所有资料都取到，此时查全率比较重要。

此时需要对查准率和查全率进行加权

即 P 和 R 的加权调和平均数。

β>0，β度量了查全率对查准率的重要性，β=1时即为F1

β>1，查全率更重要，β<1，查准率更重要

多分类的F1

多分类没有正例负例之说，那么可以转化为多个二分类，即多个混淆矩阵，在这多个混淆矩阵上综合考虑查准率和查全率，即多分类的F1

方法1

直接在每个混淆矩阵上计算出查准率和查全率，再求平均，这样得到“宏查准率”，“宏查全率”和“宏F1”

方法2

把混淆矩阵中对应元素相加求平均，即 TP 的平均，TN 的平均，等，再计算查准率、查全率、F1，这样得到“微查准率”，“微查全率”和“微F1”

ROC 与 AUC

很多学习器是为样本生成一个概率，然后和设定阈值进行比较，大于阈值为正例，小于为负例，如逻辑回归。

而模型的优劣取决于两点：

这个概率的计算准确与否

阈值的设定

我们把计算出的概率按从大到小排序，然后在某个点划分开，这个点就是阈值，可以根据实际任务需求来确定这个阈值，比如更重视查准率，则阈值设大点，若更重视查全率，则阈值设小点，

这里体现了同一模型的优化，

不同的模型计算出的概率是不一样的，也就是说样本按概率排序时顺序不同，那切分时自然可能分到不同的类，

这里体现了不同模型之间的差异，

所以ROC可以用来模型优化和模型选择，理论上讲 P-R曲线也可以。

ROC曲线的绘制方法与P-R曲线类似，不再赘述，结果如下图

横坐标为假正例率，纵坐标为真正例率，曲线下的面积叫 AUC

如何评价模型呢？

若学习器A的ROC曲线能包住学习器B的ROC曲线，则A优于B

若学习器A的ROC曲线与学习器B的ROC曲线相交，则难以比较孰优孰劣，此时可以比较AUC的大小

总结

模型评估主要考虑两种场景：类别均衡，类别不均衡

模型评估必须考虑实际任务需求

P-R 曲线和 ROC曲线可以用于模型选择

ROC曲线可以用于模型优化

参考资料：

周志华《机器学习》

本文由博客一文多发平台 OpenWrite 发布！

审核编辑黄昊宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

模型

模型

+关注

关注
1

文章
3432

浏览量
49546
机器学习

机器学习

+关注

关注
66

文章
8464

浏览量
133513
深度学习

深度学习

+关注

关注
73

文章
5529

浏览量
121994

ADC的静态指标有专用的分析工具吗？

请问：ADC的静态指标有专用的分析工具吗？该指标很少在评估ADC指标时使用，是否该指标不重要，应用中什么情况下需要

发表于 02-08 08:13

如何评估AI大模型的效果

评估AI大模型的效果是一个复杂且多维度的过程，涉及多个方面的考量。以下是一些关键的评估方法和步骤：一、基准测试（Benchmarking）使用标准数据集和任务来评估

发表于 10-23 15:21 •2124次阅读

Meta推出可自我评估AI模型

Meta近期宣布了一项重要的人工智能进展，即将发布一系列全新的人工智能模型。其中，一款能够自我评估的模型尤为引人注目，这一创新有望显著减少人工智能开发过程中的人类参与。

发表于 10-22 17:07 •454次阅读

【每天学点AI】人工智能大模型评估标准有哪些？

OpenAI新模型o1号称编程能力8倍杀GPT-4o，MMLU媲美人类专家，MMLU是什么？评估大模型的标准是什么？相信大家在阅读大模型相关文档的时候经常会看到MMLU，BBH，GSM

发表于 10-17 16:49 •867次阅读

【每天学点AI】人工智能大<b class='flag-5'>模型</b><b class='flag-5'>评估</b>标准有哪些？

DRAM的分类、特点及技术指标

DRAM（Dynamic Random Access Memory），即动态随机存取存储器，是计算机系统中广泛使用的内存类型之一。它以其高速、大容量和相对低成本的特点，在数据处理和存储中发挥着关键作用。以下将详细介绍DRAM的分类、特点以及技术指标。

发表于 08-20 09:35 •4667次阅读

利用TensorFlow实现基于深度神经网络的文本分类模型

要利用TensorFlow实现一个基于深度神经网络（DNN）的文本分类模型，我们首先需要明确几个关键步骤：数据预处理、模型构建、模型训练、模型

发表于 07-12 16:39 •1106次阅读

人脸检测模型的精确度怎么算

人脸检测模型的精确度评估是一个复杂的过程，涉及到多个方面的因素。本文将从以下几个方面进行介绍：人脸检测模型的基本概念、评估指标、

发表于 07-04 09:14 •781次阅读

神经网络模型建完了怎么用

： 1.1 交叉验证交叉验证是一种常用的评估方法，它将数据集分成若干个子集，然后使用其中一个子集作为测试集，其余子集作为训练集。通过这种方式，可以评估模型在不同数据集上的性能。 1.2 混淆矩阵混淆矩阵是一种

发表于 07-02 11:23 •778次阅读

深度学习模型训练过程详解

深度学习模型训练是一个复杂且关键的过程，它涉及大量的数据、计算资源和精心设计的算法。训练一个深度学习模型，本质上是通过优化算法调整模型参数，使模型能够更好地拟合数据，提高预测或

发表于 07-01 16:13 •1873次阅读

商汤小浣熊荣获中国信通院代码大模型能力评估“三好生”

近日，商汤小浣熊代码大模型在中国信通院“可信AI代码大模型评估”中，荣获4+级最高评级，成为国内首批通过该项评估的企业之一。

发表于 06-13 15:37 •598次阅读

基于神经网络的呼吸音分类算法

1080Ti GPU的英特尔酷睿i7-6900 CPU的计算机上进行的。结果对于噪声二元分类任务，NMRNN获得了0.89的评估分数，而最佳基线模型GBM仅获得0.53的分数。这可以通过RNN学习周期和噪声

发表于 05-31 12:05

频谱分析仪的分类和技术指标

频谱分析仪是电子测量领域中的一项重要工具，主要用于分析信号的频谱特性。随着电子技术的飞速发展，频谱分析仪的应用范围日益广泛，其种类和技术指标也日益丰富。本文将对频谱分析仪的分类和技术指标进行详细介绍，以期为读者提供全面的了解。

发表于 05-14 15:48 •868次阅读

【大语言模型：原理与工程实践】大语言模型的评测

和安全性。行业模型的评测则针对特定领域的能力，整体能力的评测则从宏观角度评估模型的通用性。在基座模型的评测中，除了自回归损失和困惑度等指标外

发表于 05-07 17:12

【大语言模型：原理与工程实践】核心技术综述

和量化: 减小模型尺寸和计算复杂度，使模型更适合在计算资源受限的环境下部署。解释性和可视化: 提供模型决策的可视化和解释工具，让模型的行为更加透明易懂。性能

发表于 05-05 10:56

大模型在战略评估系统中的应用有哪些

智慧华盛恒辉大模型，顾名思义，是指参数规模超过千万的机器学习模型。这些模型主要应用于自然语言处理、计算机视觉、语音识别等领域，在大场景下的表现尤为出色。智慧华盛恒辉大模型在战略

发表于 04-24 13:48 •380次阅读

搜索历史

分类模型评估指标汇总

评论

ADC的静态指标有专用的分析工具吗？

如何评估AI大模型的效果

Meta推出可自我评估AI模型

【每天学点AI】人工智能大模型评估标准有哪些？

DRAM的分类、特点及技术指标

利用TensorFlow实现基于深度神经网络的文本分类模型

人脸检测模型的精确度怎么算

神经网络模型建完了怎么用

深度学习模型训练过程详解

商汤小浣熊荣获中国信通院代码大模型能力评估“三好生”

基于神经网络的呼吸音分类算法

频谱分析仪的分类和技术指标

【大语言模型：原理与工程实践】大语言模型的评测

【大语言模型：原理与工程实践】核心技术综述

大模型在战略评估系统中的应用有哪些