0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

由合成数据支持的可解释人工智能

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-05-30 09:34 次阅读

数据是模型可解释性的核心。可解释人工智能( XAI )是一个快速发展的领域,旨在深入了解人工智能算法的复杂决策过程。

在人工智能对个人生活有重大影响的领域,如信用风险评分,管理者和消费者都有权要求深入了解这些决策。领先的金融机构已经在利用 XAI 验证其模型。同样,监管机构也要求深入了解金融机构的算法环境。但在实践中如何做到这一点呢?

潘多拉的封闭盒子

人工智能越先进,对可解释性来说,数据就越重要。

现代的 ML 算法有集成方法和深度学习,即使没有数百万个模型参数,也会产生数千个。当应用于实际数据时,如果不看到它们的实际作用,就不可能掌握它们。

甚至在培训数据敏感的情况下,广泛访问数据的必要性也是显而易见的。用于信用评分和保险定价的金融和医疗数据是人工智能中使用最频繁、但也是最敏感的数据类型。

这是一个相互矛盾的难题:你想要数据得到保护,你想要一个透明的决策。

可解释的 AI 需要数据

那么,这些算法如何变得透明呢?你如何判断机器做出的模型决策?考虑到它们的复杂性,披露数学模型、实现或完整的训练数据并不能达到目的。

相反,您必须通过观察各种实际案例中的决策来探索系统的行为,并探索其对修改的敏感性。这些基于示例的假设探索有助于我们理解是什么驱动了模型的决策。

这种简单而强大的概念,即在给定输入数据变化的情况下,系统地探索模型输出的变化,也称为 local interpretability ,可以在域和 model-agnostic 按比例 中执行。因此,同样的原则可以应用于帮助解释信用评分系统、销售需求预测、欺诈检测系统、文本分类器、推荐系统等。

然而,像 SHAP 这样的局部可解释性方法不仅需要访问模型,还需要访问大量具有代表性和相关的数据样本。

图 1 显示了一个在模型上进行的基本演示,该演示预测了客户对金融行业内营销活动的反应。查看相应的 Python 调用可以发现需要经过训练的模型,以及执行这些类型分析的代表性数据集。然而,如果该数据实际上是敏感的,并且无法被 AI 模型验证器 访问,该怎么办?

poYBAGKUHy2ACkMBAACHb8tSQIQ037.png

图 1 :。使用实际数据通过 SHAP 解释模型的示例

用于跨团队扩展 XAI 的合成数据

在人工智能采用的早期,通常是同一组工程师开发模型并对其进行验证。在这两种情况下,他们都使用了真实的生产数据。

考虑到算法对个人的现实影响,现在越来越多的人认识到,独立小组应该检查和评估模型及其影响。理想情况下,这些人会从工程和非工程背景中提出不同的观点。

与外部审计师和认证机构签订合同,以建立额外的信心,确保算法是公平、公正和无歧视的。然而,隐私问题和现代数据保护法规(如 GDPR )限制了对代表性验证数据的访问。这严重阻碍了模型验证的广泛开展。

幸运的是,模型验证可以使用高质量的人工智能生成的 synthetic data 来执行,它可以作为敏感数据的高度准确、匿名的替代品。例如, AI 的 综合数据平台 主要使组织能够以完全自助、自动化的方式生成合成数据集。

图 2 显示了使用合成数据对模型执行的 XAI 分析。比较图 1 和图 2 时,结果几乎没有任何明显的差异。同样的见解和检查也可以通过利用 AI 的隐私安全合成数据来实现,这最终使真正的协作能够在规模和连续的基础上执行 XAI 。

poYBAGKUHzWAToJHAACNHCZ-myc173.png

图 2 :。使用合成数据通过 SHAP 解释模型的示例

图 3 显示了跨团队扩展模型验证的过程。组织在其受控的计算环境中运行最先进的合成数据解决方案。它不断生成其数据资产的合成副本,可以与内部和外部 AI 验证器的不同团队共享。

poYBAGKUHz2AVsKOAACZMhZvtYg286.png

图 3 :。通过合成数据进行模型验证的流程

使用 GPU 扩展到真实数据量

GPU 加速的库,如 RAPIDS 和 Plotly ,能够以实际遇到的实际用例所需的规模进行模型验证。这同样适用于生成合成数据,其中以 AI 为动力的合成解决方案(主要是 AI )可以通过在全栈加速计算平台上运行而受益匪浅。有关更多信息,请参阅 加速信用风险管理的可信 AI 。

为了证明这一点,我们参考了房利美(Fannie Mae,FNMA)发布的抵押贷款数据集,目的是【VZX19】。我们首先生成一个具有统计代表性的训练数据合成副本,由数千万个合成贷款组成,由几十个合成属性组成(图4)。

所有数据都是人工创建的,没有一条记录可以链接回原始数据集中的任何实际记录。然而,数据的结构、模式和相关性被忠实地保留在合成数据集中。

这种捕获数据多样性和丰富性的能力对于模型验证至关重要。该过程旨在验证模型行为,不仅针对占主导地位的多数阶级,还针对人口中代表性不足和最脆弱的少数群体。

poYBAGKUH0SAHnozAAFqlyWTHoA180.png

图 4 :。真实和合成数据样本的快照

给定生成的合成数据,然后可以使用 GPU 加速的 XAI 库来计算感兴趣的统计信息,以评估模型行为。

例如,图 5 显示了 SHAP 值的并列比较:贷款拖欠模型在真实数据上解释,在合成数据上解释之后。通过使用高质量的合成数据作为敏感原始数据的替代品,可以可靠地得出关于该模型的相同结论。

pYYBAGKUH02AVgcmAAEmMNRjMSA538.png

图 5 :。贷款拖欠 ML 模型的 SHAP 值

图 5 显示,合成数据可以作为解释模型行为的实际数据的安全替代品。

此外,合成数据生成器生成任意数量新数据的能力使您能够显著改进较小组的模型验证。

图 6 显示了数据集中特定邮政编码的 SHAP 值的并排比较。虽然原始数据在给定地理位置的贷款不到 100 笔,但我们利用 10 倍的数据量来检查该区域的模型行为,从而实现更详细和更丰富的见解。

pYYBAGKUH1WAVfIyAADvszyZZ9s677.png

图 6 :。通过使用合成过采样进行模型验证,获得更丰富的见解

使用合成样品进行单独水平检验

虽然汇总统计和可视化是分析一般模型行为的关键,但我们对模型的理解还可以通过逐个检查单个样本获得更多好处。

XAI 工具揭示了多个信号对最终模型决策的影响。只要合成数据真实且具有代表性,这些案例不一定是实际案例。

图 7 显示了四个随机生成的合成案例,以及它们的最终模型预测和每个输入变量的相应分解。这使您能够在不暴露任何个人隐私的情况下,深入了解对无限潜在案例的模型决策有多大影响的因素和方向。

pYYBAGKUH1-AIueyAAEAh5pXEuk774.png

图 7 :。检验四个随机抽样合成记录的模型预测

利用合成数据进行有效的 AI 治理

人工智能驱动的服务越来越多地出现在私营和公共部门,在我们的日常生活中发挥着越来越大的作用。然而,我们只是在人工智能治理的黎明。

虽然像欧洲提议的人工智能法案这样的法规需要时间才能体现出来,但开发人员和决策者今天必须负责任地采取行动,并采用 XAI 最佳实践。合成数据支持广泛的协作环境,而不会危及客户的隐私。它是一个强大、新颖的工具,可以支持开发和治理公平、健壮的人工智能。

关于作者

Jochen Papenbrock 位于德国法兰克福,在过去的15年中,Jochen一直在金融服务业人工智能领域担任各种角色,担任思想领袖、实施者、研究者和生态系统塑造者。

Alexandra 是金融服务业的综合数据专家,在隐私、公平和负责任的人工智能方面拥有深厚的专业知识。作为主要人工智能的首席信托官,她参与了有关隐私、道德人工智能和新兴合成数据领域的公共政策讨论,并定期在国际人工智能和银行会议上发言,讨论如何协调个性化与隐私,确保算法的公平性,以及如何克服数字转型带来的数据挑战。除此之外, Alexandra 还是数据民主化播客的主持人,她邀请一些最大银行的高管讨论隐私和道德 AI 最佳实践。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4672

    浏览量

    128555
  • AI
    AI
    +关注

    关注

    87

    文章

    29740

    浏览量

    268037
  • 人工智能
    +关注

    关注

    1789

    文章

    46615

    浏览量

    236964
收藏 人收藏

    评论

    相关推荐

    《AI for Science:人工智能驱动科学创新》第6章人AI与能源科学读后感

    探讨了人工智能如何通过技术创新推动能源科学的进步,为未来的可持续发展提供了强大的支持。 首先,书中通过深入浅出的语言,介绍了人工智能在能源领域的基本概念和技术原理。这使得我对人工智能
    发表于 10-14 09:27

    AI for Science:人工智能驱动科学创新》第4章-AI与生命科学读后感

    阅读这一章后,我深感人工智能与生命科学的结合正引领着一场前所未有的科学革命,以下是我个人的读后感: 1. 技术革新与生命科学进步 这一章详细阐述了人工智能如何通过其强大的数据处理和分析能力,加速生命科学
    发表于 10-14 09:21

    《AI for Science:人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

    人工智能在科学研究中的核心技术,包括机器学习、深度学习、神经网络等。这些技术构成了AI for Science的基石,使得AI能够处理和分析复杂的数据集,从而发现隐藏在数据中的模式和规律。 2. 高性能
    发表于 10-14 09:16

    《AI for Science:人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

    人工智能:科学研究的加速器 第一章清晰地阐述了人工智能作为科学研究工具的强大功能。通过机器学习、深度学习等先进技术,AI能够处理和分析海量数据,发现传统方法难以捕捉的模式和规律。这不仅极大地提高了
    发表于 10-14 09:12

    risc-v在人工智能图像处理应用前景分析

    其在人工智能图像处理领域的应用提供更多支持。 标准化和规范化推进 :为了降低RISC-V的碎片化风险并促进其在全球范围内的广泛应用,标准化和规范化将是未来的重要趋势。这将有助于提升RISC-V技术
    发表于 09-28 11:00

    人工智能ai 数电 模电 模拟集成电路原理 电路分析

    人工智能ai 数电 模电 模拟集成电路原理 电路分析 想问下哪些比较容易学 不过好像都是要学的
    发表于 09-26 15:24

    人工智能ai4s试读申请

    目前人工智能在绘画对话等大模型领域应用广阔,ai4s也是方兴未艾。但是如何有效利用ai4s工具助力科研是个需要研究的课题,本书对ai4s基本原理和原则,方法进行描诉,有利于总结经验,拟按照要求准备相关体会材料。看能否有助于入门和提高ss
    发表于 09-09 15:36

    名单公布!【书籍评测活动NO.44】AI for Science:人工智能驱动科学创新

    大力发展AI for Science的原因。 第2章从科学研究底层的理论模式与主要困境,以及人工智能三要素(数据、算法、算力)出发,对AI for Science的技术支撑进行解读。 第3章介绍了在
    发表于 09-09 13:54

    报名开启!深圳(国际)通用人工智能大会将启幕,国内外大咖齐聚话AI

    ,得到了华为、腾讯、优必选、中煤科工、中国联通、云天励飞、考拉悠然、智航、力维智联等国内人工智能企业的深度参与和大力支持。 报名后即可到现场领取礼品,总计5000份,先到先选! 点击报名:https://bbs.elecfans.com/jishu_2447254_1
    发表于 08-22 15:00

    FPGA在人工智能中的应用有哪些?

    定制化的硬件设计,提高了硬件的灵活性和适应性。 综上所述,FPGA在人工智能领域的应用前景广阔,不仅可以用于深度学习的加速和云计算的加速,还可以针对特定应用场景进行定制化计算,为人工智能技术的发展提供有力支持
    发表于 07-29 17:05

    机器视觉和人工智能的关系与应用

    视觉信息的技术。它涉及到图像的获取、处理、分析和解释,以实现对物体、场景和事件的识别、定位、测量和分类。机器视觉系统通常图像采集设备、图像处理软件和执行器组成,可以应用于各种自动化和智能化的场景。
    的头像 发表于 07-16 10:27 707次阅读

    5G智能物联网课程之Aidlux下人工智能开发(SC171开发套件V2)

    5G智能物联网课程之Aidlux下人工智能开发(SC171开发套件V2) 课程类别 课程名称 视频课程时长 视频课程链接 课件链接 人工智能 参赛基础知识指引 14分50秒 https
    发表于 05-10 16:46

    5G智能物联网课程之Aidlux下人工智能开发(SC171开发套件V1)

    课程类别 课程名称 视频课程时长 视频课程链接 课件链接 人工智能 参赛基础知识指引 14分50秒 https://t.elecfans.com/v/25508.html *附件:参赛基础知识指引
    发表于 04-01 10:40

    嵌入式人工智能的就业方向有哪些?

    嵌入式人工智能的就业方向有哪些? 在新一轮科技革命与产业变革的时代背景下,嵌入式人工智能成为国家新型基础建设与传统产业升级的核心驱动力。同时在此背景驱动下,众多名企也纷纷在嵌入式人工智能领域布局
    发表于 02-26 10:17

    语音数据集在人工智能中的应用与挑战

    一、引言 随着人工智能技术的快速发展,语音数据集在各种应用中发挥着越来越重要的作用。语音数据集是AI语音技术的基石,对于语音识别、语音合成、语音情感分析等任务具有重要意义。本文将详细介
    的头像 发表于 12-14 15:00 629次阅读