0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

模型集成是一种提升模型能力的常用方法

新机器视觉 来源:AI公园 作者:AI公园 2021-01-27 11:31 次阅读

导读

模型集成是一种提升模型能力的常用方法,但通常也会带来推理时间的增加,在物体检测上效果如何,可以看看。

8c5baf2e-6042-11eb-8b86-12bb97331649.png

介绍

集成机器学习模型是一种常见的提升模型能力的方式,并已在多个场景中使用,因为它们结合了多个模型的决策,以提高整体性能,但当涉及到基于DNN(深度神经网络)的目标检测模型时,它并不仅仅是合并结果那么简单。

集成的需求

为了在任何模型中获得良好的结果,都需要满足某些标准(数据、超参数)。但在真实场景中,你可能会得到糟糕的训练数据,或者很难找到合适的超参数。在这些情况下,综合多个性能较差的模型可以帮助你获得所需的结果。在某种意义上,集成学习可以被认为是一种通过执行大量额外计算来弥补学习算法不足的方法。另一方面,另一种选择是在一个非集成系统上做更多的学习。对于计算、存储或通信资源的相同增加,集成系统使用两种或两种以上的方法可能会比使用单一方法增加资源的方法更有效地提高整体精度。

看起来挺好,有没有缺点呢?

更难调试或理解预测,因为预测框是根据多个模型绘制的。

推理时间根据模型和使用的模型数量而增加。

尝试不同的模型以获得合适的模型集合是一件耗时的事情。

不同的模型集成

OR方法:如果一个框是由至少一个模型生成的,就会考虑它。

AND方法:如果所有模型产生相同的框,则认为是一个框(如果IOU >0.5)。

一致性方法:如果大多数模型产生相同的框,则认为是一个框,即如果有m个模型,(m/2 +1)个模型产生相同的框,则认为这个框有效。

加权融合:这是一种替代NMS的新方法,并指出了其不足之处。

8f114b52-6042-11eb-8b86-12bb97331649.png

不同的集成方法

在上面的例子中,OR方法的预测得到了所有需要的对象框,但也得到了一个假阳性结果,一致性的方法漏掉了马,AND方法同时漏掉了马和狗。

验证

为了计算不同的集成方法,我们将跟踪以下参数

True positive:预测框与gt匹配

False Positives:预测框是错误的

False Negatives:没有预测,但是存在gt。

Precision:度量你的预测有多准确。也就是说,你的预测正确的百分比[TP/ (TP + FP)]

Recall:度量gt被预测的百分比[TP/ (TP + FN)]

Average Precision:precision-recall图的曲线下面积

使用的模型

为了理解集成是如何起作用的,我们提供了用于实验的独立模型的结果。

1. YoloV3:

903377bc-6042-11eb-8b86-12bb97331649.png

2. Faster R-CNN — ResNeXt 101 [X101-FPN]:

90fec3a4-6042-11eb-8b86-12bb97331649.png

集成实验

1. OR — [YoloV3, X101-FPN]

91b45714-6042-11eb-8b86-12bb97331649.png

如果你仔细观察,FPs的数量增加了,这反过来降低了精度。与此同时,TPs数量的增加反过来又增加了召回。这是使用OR方法时可以观察到的一般趋势。

2. AND — [YoloV3, X101-FPN]

91f8a054-6042-11eb-8b86-12bb97331649.png

与我们使用OR方法观察到的情况相反,在AND方法中,我们最终获得了较高的精度和较低的召回率,因为几乎所有的假阳性都被删除了,因为YoloV3和X101的大多数FPs是不同的。

检测框加权融合

在NMS方法中,如果框的IoU大于某个阈值,则认为框属于单个物体。因此,框的过滤过程取决于这个单一IoU阈值的选择,这影响了模型的性能。然而,设置这个阈值很棘手:如果有多个物体并排存在,那么其中一个就会被删除。NMS丢弃了冗余框,因此不能有效地从不同的模型中产生平均的局部预测。

9281237a-6042-11eb-8b86-12bb97331649.png

NMS和WBF之间的主要区别是,WBF利用所有的框,而不是丢弃它们。在上面的例子中,红框是ground truth,蓝框是多个模型做出的预测。请注意,NMS是如何删除冗余框的,但WBF通过考虑所有预测框创建了一个全新的框(融合框)。

3. Weighted Boxes Fusion — [Yolov3, X101-FPN]

92b348f0-6042-11eb-8b86-12bb97331649.png

YoloV3和X101-FPN的权重比分别为2:1。我们也试着增加有利于X101-FPN的比重(因为它的性能更好),但在性能上没有看到任何显著的差异。从我们读过的加权融合论文中,作者注意到了AP的增加,但如你所见,WBF YoloV3和X101-FPN并不比OR方法好很多。我们注意到的是,大部分的实验涉及至少3个或更多模型。

4. Weighted Boxes Fusion — [Yolov3, X101, R101, R50]

93703e10-6042-11eb-8b86-12bb97331649.png

在最后的实验中,我们使用了YoloV3以及我们在Detectron2中训练的3个模型[ResNeXt101-FPN, ResNet101-FPN, ResNet50-FPN]。显然,召回率有一个跳跃(约为传统方法的0.3),但AP的跳跃并不大。另外,需要注意的是,当你向WF方法添加更多模型时,误报的数量会激增。

总结

当使用相互补充的模型时,集成是提高性能的一种很好的方法,但它也会以速度为代价来完成推理。根据需求,可以决定有多少个模型,采用哪种方法,等等。但从我们进行的实验来看,性能提升的数量似乎与一起运行这些模型所需的资源和推断时间不成比例。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4767

    浏览量

    100662
  • 模型
    +关注

    关注

    1

    文章

    3204

    浏览量

    48789
  • 机器学习
    +关注

    关注

    66

    文章

    8396

    浏览量

    132514

原文标题:目标检测多模型集成方法总结

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【《大语言模型应用指南》阅读体验】+ 基础知识学习

    习语言的表达方式和生成能力。通过预测文本中缺失的部分或下个词,模型逐渐掌握语言的规律和特征。 常用模型结构 Transformer架构
    发表于 08-02 11:03

    cnn常用的几个模型有哪些

    CNN(卷积神经网络)是一种深度学习模型,广泛应用于图像识别、自然语言处理等领域。以下是常用的CNN模型: LeNet-5:LeNet-
    的头像 发表于 07-11 14:58 730次阅读

    rup是一种什么模型

    RUP(Rational Unified Process,统建模语言)是一种软件开发过程模型,它是一种迭代和增量的软件开发方法。RUP是由
    的头像 发表于 07-09 10:13 1213次阅读

    LLM模型和LMM模型的区别

    在重复测量或分层数据中。 LMM(线性混合效应模型)是一种特殊类型的线性混合模型,它包括固定效应和随机效应。它通常用于分析具有多个层次的数据结构,例如在多层次或分组数据中。 固定效应与
    的头像 发表于 07-09 09:57 871次阅读

    模型单卡的正确使用步骤

    、注意事项等方面进行介绍,以帮助用户更好地掌握大模型单卡的使用技巧。 第部分:大模型单卡概述 1.1 大模型单卡的定义 大模型单卡是
    的头像 发表于 07-05 14:32 586次阅读

    人工神经网络模型一种什么模型

    人工神经网络(Artificial Neural Networks,简称ANNs)是一种受生物神经网络启发而产生的数学模型,用于模拟人脑处理信息的方式。它由大量的节点(或称为神经元)相互连接而成
    的头像 发表于 07-04 16:57 885次阅读

    神经网络模型建完了怎么用

    : 1.1 交叉验证 交叉验证是一种常用的评估方法,它将数据集分成若干个子集,然后使用其中个子集作为测试集,其余子集作为训练集。通过这种方式,可以评估
    的头像 发表于 07-02 11:23 596次阅读

    【大规模语言模型:从理论到实践】- 每日进步点点

    ,特别是在NLP和大模型领域中被广泛使用。 RMS Normalization(RMSNorm) 原理:为了提升LayerNorm的训练速度而提出的一种
    发表于 05-31 19:54

    大语言模型:原理与工程时间+小白初识大语言模型

    开拓深度学习的思路。对于新涌现的大语言模型能力,主要是表现在学习能力提升、语言理解和生成能力、创新和探索的
    发表于 05-12 23:57

    一种利用光电容积描记(PPG)信号和深度学习模型对高血压分类的新方法

    [22]。就像平均池化样,最大池化是另一种用于减小特征图大小的常用方法。它通过仅取每个区域的最大值来获得最重要的特征。在机器学习中,池化方法
    发表于 05-11 20:01

    【大语言模型:原理与工程实践】大语言模型的应用

    丹尼尔·卡尼曼在《思考,快与慢》中提出了著名的“系统1与系统2”理论。该理论指出,人类大脑的决策系统存在两模式:一种是快速的、感性的系统1,它帮助我们处理简单的决策;另一种是缓慢的、理性的系统2
    发表于 05-07 17:21

    【大语言模型:原理与工程实践】大语言模型的评测

    安全性的评测则关注模型在强化学习阶段的表现。行业模型的评测则针对特定行业的能力,如金融和法律等领域。整体能力的评测从宏观角度评估模型作为
    发表于 05-07 17:12

    【大语言模型:原理与工程实践】大语言模型的预训练

    对话以及内容丰富的网页数据等。来自不同领域的数据则蕴含丰富的语义知识,如编程、科学、金融等,这有助于模型培养更全面的通用能力。常见来源如下: 大数据模型的数据预处理是数据分析流程中至关重要的
    发表于 05-07 17:10

    【大语言模型:原理与工程实践】大语言模型的基础技术

    模型仍以Transformer为基础进行训练。Transformer是一种基于自注意力机制的编码器-解码器结构,其核心由编码器和解码器组成,每个部分均由多个相同层堆叠而成。自注意力机制使
    发表于 05-05 12:17

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    学习能力。这些模型以生成能力强和灵活性强为特点,逐渐演变成一种通用计算平台。其参数多样性、生成能力和涌现性使其不仅在自然语言处理领域表现出色
    发表于 05-04 23:55