0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

探究机器学习 (ML) 模型的性能

Tensorflowers 来源:TensorFlow 作者:Lora Aroyo 和 Pravee 2021-04-13 14:37 次阅读

机器学习 (ML) 模型的性能既取决于学习算法,也取决于用于训练和评估的数据。算法的作用已经得到充分研究,也是众多挑战(如 SQuAD、GLUE、ImageNet 等)的焦点。此外,数据也已经过改进,包括一系列应对 ML 评估问题的研讨会。相比之下,专注于 - 用于评估 ML 模型的数据的研究和挑战并不常见。

此外,许多评估数据集包含容易评估的项目,例如带有易于识别的主题的照片,因此错过了真实世界环境的自然歧义。评估中缺少模糊的真实世界样本,削弱了可靠地测试机器学习性能的能力,这使 ML 模型容易形成“弱点”,即模型难以或无法准确评估的样本的类别,因为评估集中缺少这一类样本。

SQuAD

https://rajpurkar.github.io/SQuAD-explorer/

GLUE

https://gluebenchmark.com/leaderboard

ImageNet

https://kobiso.github.io/Computer-Vision-Leaderboard/imagenet

为了解决识别 ML 模型中这些弱点的问题,我们最近在 HCOMP 2020 上发起了众包机器学习不良测试集 (CATS4ML) 数据挑战赛(面向全球研究人员和开发者开放至 2021 年 4 月 30 日)。挑战的目标是提高 ML 评估集的标准,并尽可能多地找到使算法处理起来会有困惑或其他问题的样本。CATS4ML 依靠人们的能力和直觉来发现机器学习具有信心但实际上却分类错误的新数据样本。

众包机器学习不良测试集

https://cats4ml.humancomputation.com/

什么是 ML 的“弱点”?

弱点有两类:已知的未知(Known Unknowns)未知的未知(Unknown Unknowns)。已知的未知是指模型对正确分类没有把握的样本。研究界在被称为主动学习的领域研究这一问题,并发现了解决方法,用很笼统的话来说就是,在不确定的样本上向人们交互式地征集新的标签。例如,如果模型不确定一张照片的主题是否是猫,会要求人员进行验证;但如果系统确定,则不会要求人员验证。虽然这方面还有改进的空间,但令人欣慰的是,模型的置信度与其性能相关,也就是说,人们可以看到模型不知道的东西。

主动学习

http://digital.library.wisc.edu/1793/60660

另一方面,未知的未知是指模型对其答案充满信心,但实际上是错误的样本。主动发现未知的未知的研究(例如,Attenberg 2015 和 Crawford 2019)已经帮助发现了大量的非预期机器行为。与这类发现未知的未知方法相比,生成对抗网络 (GAN) 以计算机光学错觉的形式为图像识别模型生成未知的未知,导致深度学习模型犯下人类无法感知的错误。虽然 GAN 在有意操纵的情况下会发现模型漏洞,但真实世界样本可以更好地突出模型在日常性能中的失败。这些真实世界样本是 CATS4ML 感兴趣的未知的未知 - 挑战的目的是收集人类可以可靠地解释但许多 ML 模型会自信地不同意的未经操作的样本。

Attenberg 2015

https://dl.acm.org/doi/10.1145/2700832

Crawford 2019

https://excavating.ai

示例说明由对抗噪声引起的计算机视觉错觉如何帮助发现 ML 模型的机器操作未知的未知(基于 Brown 2018)

Brown 2018

https://ai.googleblog.com/2018/09/introducing-unrestricted-adversarial.html

CATS4ML 数据挑战赛第一版:

Open Images 数据集

CATS4ML 数据挑战赛侧重于视觉识别,使用Open Images 数据集的图像和标签。挑战赛的目标图像选自 Open Images 数据集,以及来自同一数据集的一组 24 个目标标签。挑战赛的参与者被邀请发明新的创造性方法探索这个现有的公开可用数据集,并以预先选择的目标标签列表为中心,为 ML 模型发现未知的未知样本。

CATS4ML 数据挑战赛

https://cats4ml.humancomputation.com/

CATS4ML 是对 FAIR 最近推出的 DynaBench 动态数据收集研究平台的补充。DynaBench 使用 ML 模型在人类参与下解决静态基准问题,而 CATS4ML 则专注于通过鼓励探索现有 ML 基准有无可能属于未知的未知不利样本改善 ML 评估数据集。结果将有助于检测和避免未来的错误,也将对模型的可解释性提供见解。

FAIR

https://ai.facebook.com/tools/dynabench/

DynaBench

https://dynabench.org/

CATS4ML 旨在由此通过提供数据集资源来提高人们对这个问题的认识,开发者可以利用这些资源发现算法弱点。这也将让研究人员了解如何为机器学习创建更平衡、更多样化、更具有社会意识的基准数据集。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7006

    浏览量

    88944
  • GLUE
    +关注

    关注

    0

    文章

    5

    浏览量

    7352
  • 机器学习
    +关注

    关注

    66

    文章

    8408

    浏览量

    132571

原文标题:探索机器学习中的未解之谜

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    自然语言处理与机器学习的关系 自然语言处理的基本概念及步骤

    Learning,简称ML)是人工智能的一个核心领域,它使计算机能够从数据中学习并做出预测或决策。自然语言处理与机器学习之间有着密切的关系,因为
    的头像 发表于 12-05 15:21 454次阅读

    ASR和机器学习的关系

    自动语音识别(ASR)技术的发展一直是人工智能领域的一个重要分支,它使得机器能够理解和处理人类语言。随着机器学习ML)技术的迅猛发展,ASR系统的
    的头像 发表于 11-18 15:16 307次阅读

    AI大模型与深度学习的关系

    AI大模型与深度学习之间存在着密不可分的关系,它们互为促进,相辅相成。以下是对两者关系的介绍: 一、深度学习是AI大模型的基础 技术支撑 :深度学习
    的头像 发表于 10-23 15:25 655次阅读

    AI大模型与传统机器学习的区别

    AI大模型与传统机器学习在多个方面存在显著的区别。以下是对这些区别的介绍: 一、模型规模与复杂度 AI大模型 :通常包含数十亿甚至数万亿的参
    的头像 发表于 10-23 15:01 553次阅读

    为AI、ML和数字孪生模型建立可信数据

    在当今数据驱动的世界中,人工智能(AI)、机器学习ML)和数字孪生技术正在深刻改变行业、流程和企业运营环境。每天产生的超过3.28亿TB数据已成为新“石油”——为下一代数字系统提供所需的能源。
    的头像 发表于 09-30 10:23 282次阅读

    AI引擎机器学习阵列指南

    云端动态工作负载以及超高带宽网络,同时还可提供高级安全性功能。AI 和数据科学家以及软硬件开发者均可充分利用高计算密度的优势来加速提升任何应用的性能。AI 引擎机器学习拥有先进的张量计算能力,非常适合用于高度优化的 AI 和
    的头像 发表于 09-18 09:16 390次阅读
    AI引擎<b class='flag-5'>机器</b><b class='flag-5'>学习</b>阵列指南

    如何训练一个有效的eIQ基本分类模型

    处理单元(NPU),用于机器学习(ML)加速。相比单独的CPU核,eIQ Neutron NPU能够提供高达42倍的机器学习推理
    的头像 发表于 08-01 09:29 1808次阅读
    如何训练一个有效的eIQ基本分类<b class='flag-5'>模型</b>

    如何理解机器学习中的训练集、验证集和测试集

    理解机器学习中的训练集、验证集和测试集,是掌握机器学习核心概念和流程的重要一步。这三者不仅构成了模型学习
    的头像 发表于 07-10 15:45 3811次阅读

    Al大模型机器

    和迭代来不断改进自身性能。它们可以从用户交互中学习并根据反馈进行调整,以提高对话质量和准确性。可定制性与整合性: AI大模型机器人可以根据特定需求进行定制和整合,以满足不同场景和应用的
    发表于 07-05 08:52

    人工智能、机器学习和深度学习是什么

    在科技日新月异的今天,人工智能(Artificial Intelligence, AI)、机器学习(Machine Learning, ML)和深度学习(Deep Learning,
    的头像 发表于 07-03 18:22 1270次阅读

    深入探讨机器学习的可视化技术

    机器学习可视化(简称ML可视化)一般是指通过图形或交互方式表示机器学习模型、数据及其关系的过程。
    发表于 04-25 11:17 410次阅读
    深入探讨<b class='flag-5'>机器</b><b class='flag-5'>学习</b>的可视化技术

    机器学习ML)推理主要计算之存内计算芯片

    机器学习ML)应用已经在汽车、医疗保健、金融和技术等各个领域变得无处不在。这导致对高性能、高能效 ML 硬件解决方案的需求不断增加。
    发表于 04-07 10:48 1179次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>(<b class='flag-5'>ML</b>)推理主要计算之存内计算芯片

    Achronix新推出一款用于AI/ML计算或者大模型的B200芯片

    近日举办的GTC大会把人工智能/机器学习(AI/ML)领域中的算力比拼又带到了一个新的高度,这不只是说明了通用图形处理器(GPGPU)时代的来临
    的头像 发表于 03-28 15:48 796次阅读
    Achronix新推出一款用于AI/<b class='flag-5'>ML</b>计算或者大<b class='flag-5'>模型</b>的B200芯片

    使用ml configurator进行tflite网络模型的转换不成功怎么解决?

    使用ml configurator进行tflite网络模型的转换不成功,提示错误,请帮忙协助谢谢 [ERROR] Failed to run QEMU
    发表于 01-31 06:56

    如何使用TensorFlow构建机器学习模型

    在这篇文章中,我将逐步讲解如何使用 TensorFlow 创建一个简单的机器学习模型
    的头像 发表于 01-08 09:25 968次阅读
    如何使用TensorFlow构建<b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>模型</b>