0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用联合学习桥接金融服务中的数据孤岛

星星科技指导员 来源:NVIDIA 作者:Annika Brundyn 2022-10-10 16:34 次阅读

机器学习( ML )过程中,无法确保数据隐私,这往往阻碍了人工智能AI )在金融服务中充分发挥潜力。例如,传统的 ML 方法假设所有数据都可以移动到中央存储库。

在处理数据主权和安全考虑或个人识别信息等敏感数据时,这是一个不切实际的假设。更实际地说,它忽略了数据出口挑战和创建大型池数据集的巨大成本。

对于训练 ML 模型有价值的大量内部数据集仍然没有使用。金融服务行业的公司如何利用自己的数据,同时确保隐私和安全?

这篇文章介绍了联合学习,并解释了它对处理敏感数据集的企业的好处。我们介绍了在金融服务中使用联邦学习的三种方法,并提供了关于今天开始的提示。

什么是联合学习

联合学习是一种 ML 技术,它可以从多个孤立的数据集中提取见解,而无需共享数据或将数据移动到中央存储库或服务器中。

例如,假设您有多个要用于训练 AI 模型的数据集。今天的标准 ML 方法要求首先在一个地方收集所有训练数据。然而,对于世界上许多敏感的数据来说,这种方法是不可行的。这使得许多数据集和用例无法应用人工智能技术。

另一方面,联合学习并不假设可以创建一个统一的数据集。而是将分布式训练数据集留在原地。

该方法包括创建模型的多个版本,并将一个版本发送到数据集所在的每个服务器或设备。每个站点在其数据子集上本地训练模型,然后仅将模型参数发送回中央服务器。这是联合学习的关键特性:只共享模型更新或参数,而不共享训练数据本身。这保护了数据隐私和主权。

最后,中央服务器收集每个站点的所有更新,并智能地将“迷你模型”聚合为一个全局模型。该全局模型可以从整个数据集捕获洞察,即使实际数据无法组合。

请注意,这些本地站点可以是服务器、智能手机等边缘设备,或者任何可以在本地进行训练并将模型更新发送回中央服务器的机器。

隐私保护技术的优势

医疗保健领域的大规模合作证明了多个独立方使用联合学习联合训练人工智能模型的现实可行性。然而,联合学习不仅仅是与外部合作伙伴合作。

在金融机构中,我们看到了一个难以置信的机会,可以通过联合学习来弥合内部数据孤岛。随着企业为新产品收集所有可行数据,包括推荐系统、欺诈检测系统和呼叫中心分析,全公司的投资回报率可能会增加。

然而,隐私问题并不局限于金融数据。今天,全球范围内颁布的数据隐私立法浪潮(从欧洲的 GDPR 和加利福尼亚的 CCPA 开始,许多类似的法律即将出台)只会持续一段时间 加速对隐私保护 ML 技术的需求 在所有行业中。

预计联邦学习将在未来几年成为人工智能工具集的重要组成部分。

实际业务用例

ML 算法需要数据。此外, ML 模型的实际性能不仅取决于数量除了数据之外关联对训练数据进行分类。

许多组织可以通过合并新的数据集来改进当前的人工智能模型,这些数据集在不牺牲隐私的情况下无法轻松访问。这就是联邦学习的用武之地。

联合学习使公司能够利用新的数据资源,而无需数据共享。

大体上,联邦学习支持三种类型的用例:

公司内部:桥接内部数据仓库

公司间:促进组织间的合作

边缘计算:跨数千台边缘设备学习

公司内部用例:利用孤立的内部数据

单个公司可能依赖多个数据存储解决方案的原因有很多。例如:

数据治理规则例如 GDPR 可能需要将数据保存在特定的地理位置,并指定保留和隐私策略。

并购来自合作伙伴公司的新数据。然而,将这些数据集成到现有存储系统的艰巨任务往往会使数据长期分散。

两者都是前提 和混合云使用存储解决方案,移动大量数据的成本很高。

联合学习使您的公司能够跨不同业务组织、地理区域或数据仓库中的孤立数据集利用 ML ,同时保护隐私和安全。

poYBAGND2S6AOxkUAAFQ9d5kl48909.jpg

图 1.公司内部联合学习用例的工作流。联邦服务器存储全局模型并从客户端节点接收参数。

公司间用例:与外部合作伙伴协作

收集足够的定量数据来构建强大的人工智能模型对于一家公司来说是困难的。假设一家保险公司正在构建一个有效的欺诈检测系统。该公司只能从观察到的事件中收集数据,如客户提出索赔。然而,这些数据可能无法代表整个人群,因此可能会导致人工智能模型偏差。

为了构建有效的欺诈检测系统,该公司需要更大的数据集和更多样化的数据点来训练稳健、可推广的模型。许多组织可以从与其他组织共享数据中受益。实际上,大多数组织不会在通用超级计算机或云服务器上共享其专有数据集。

pYYBAGND2S-Ae5pOAAFMSBGGaxU743.jpg

图 2.公司间联合学习用例的工作流。联邦服务器存储全局模型并从客户端节点接收参数。

为全行业的挑战提供这种合作可以带来巨大的好处。

例如 现实世界中最大的联合协作之一 ,我们看到五大洲的 20 家独立医院训练了一个人工智能模型,用于预测新冠肺炎感染患者的氧气需求。通过参与联邦系统,医院的通用性平均提高了 38% ,模型性能提高了 16% 。

同样,在信用卡网络减少欺诈活动和银行采取反洗钱举措的同时,维护客户隐私也是一个真正的机会。联合学习增加了单个银行可用的数据,这有助于解决代理银行的洗钱活动等问题。

边缘计算:智能手机和物联网

谷歌 最初于 2017 年引入联邦学习,以针对分布在数十亿移动设备上的个人数据训练人工智能模型。 2022 年,更多的设备连接到互联网,包括智能手表、家庭助理、报警系统、恒温器,甚至汽车。

联邦学习对于不断为 ML 模型收集有价值数据的各种边缘设备都很有用,但这些数据通常对隐私敏感,数量大,或者两者兼有,这会阻止登录到数据中心。

联合学习如何适应现有的工作流程

需要注意的是,联合学习是一种通用技术。联合学习不仅仅是训练神经网络;相反,它适用于数据分析、更传统的 ML 方法或任何其他分布式工作流。

联邦学习中很少有假设,也许只有两个值得一提: 1 )本地站点可以连接到中央服务器, 2 )每个站点都有最少的计算资源进行本地培训。

除此之外,您还可以自由地使用自定义的本地和全局聚合行为设计自己的应用程序。您可以决定对不同方的信任程度,以及与中央服务器共享的信任程度。联邦系统可根据您的特定业务需求进行配置。

例如,联邦学习可以与其他隐私保护技术相结合,如差分隐私(增加噪声)和同态加密(加密模型更新并模糊中央服务器看到的内容)。

开始联合学习

我们开发了一个 联邦学习代码示例 这展示了如何在对应于两个不同地理区域的信用卡交易数据集的两个不同分割上训练全局欺诈预测模型。

关于作者

Annika Brundyn 是 NVIDIA 的解决方案架构师。她从嵌入式系统计算机视觉开始工作,现在正在为金融服务开发联邦学习和图形神经网络。此前,安妮卡在纽约大学获得了数据科学硕士学位,她在那里从事手术视频的三维重建研究。她在开普敦大学完成了精算学和统计学学士学位。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能手机
    +关注

    关注

    66

    文章

    18429

    浏览量

    179810
  • 服务器
    +关注

    关注

    12

    文章

    9015

    浏览量

    85169
  • 机器学习
    +关注

    关注

    66

    文章

    8375

    浏览量

    132397
收藏 人收藏

    评论

    相关推荐

    无线wifi设置方法详细步骤

    无线Wi-Fi是一种将两个或多个网络连接在一起的技术,通常用于扩展无线网络的覆盖范围。 1. 准备工作 两台无线路由器 :一台为主路由器(连接到互联网),另一台为路由器(用于扩
    的头像 发表于 10-18 09:17 1371次阅读

    如何第二个无线路由器

    无线路由器来扩展无线网络。 一、了解的概念 在开始第二个无线路由器之前,我们需要了解
    的头像 发表于 10-18 09:16 441次阅读

    wds无线怎么设置

    无线分布式系统(Wireless Distribution System,简称WDS)是一种允许无线网络设备之间进行的技术。通过WDS,可以将多个无线设备连接在一起,形成一个更大的无线网络。这在
    的头像 发表于 07-18 09:59 928次阅读

    TSER49054KDSI转V3link串行器数据

    电子发烧友网站提供《TSER49054KDSI转V3link串行器数据表.pdf》资料免费下载
    发表于 06-28 10:11 2次下载
    TSER49054KDSI转V3link<b class='flag-5'>桥</b><b class='flag-5'>接</b>串行器<b class='flag-5'>数据</b>表

    无线和无线中继哪个更好

    在无线通信领域,无线和无线中继是两种常见的技术,用于扩展网络覆盖范围和增强信号。
    的头像 发表于 05-22 16:41 8946次阅读

    电阻应变片不同方法有什么优缺点?

    电阻应变片的方法通常有三种基本形式:四分之一(1/4)、半(1/2)和全
    的头像 发表于 05-16 17:14 3885次阅读

    网络模式是什么? 网络模式和路由模式的区别

    ,以便将多个计算机连接在一起并共享资源。 网络模式和路由模式的区别 网络模式和路由模式是计算机网络两种不同的
    的头像 发表于 05-10 13:48 4026次阅读

    路由器路由器怎样 路由器接好还是中继好

    路由器和中继是常用的网络扩展方式,用于扩大网络覆盖范围,提供更好的网络连接。这两种方式在不同的场景下有着各自的优势,下面将详细介绍如何路由器,以及
    的头像 发表于 02-20 14:26 5040次阅读

    为什么要无线路由器?如何通过网线将两个路由器进行

    为什么要无线路由器?如何通过网线将两个路由器进行?两台路由器有线的两种方法  为什么
    的头像 发表于 02-04 14:07 2604次阅读

    小米路由器如何配置有线

    小米路由器如何配置有线? 小米路由器作为一款智能、高性能的路由器产品,在无线网络覆盖方面表现出色,但如果你的家庭或办公环境需要更广阔的网络覆盖,有线便是一种理想的解决方案。本文
    的头像 发表于 02-04 14:07 5585次阅读

    路由器中继和的区别 路由器联的方法

    路由器中继和的区别 路由器联的方法 路由器中继和的区别 路由器中继和
    的头像 发表于 02-03 09:49 6051次阅读

    无线和mesh组网哪个好?

    无线和Mesh组网都是用于扩展无线网络覆盖范围的技术,但它们的工作原理和应用场景有所不同。 无线接通常是一对一的连接,相对较容易设置和维护。它的优点在于简单性,适用于需要建立点对点连接的场景
    的头像 发表于 01-19 16:12 7443次阅读

    金融服务急需数据层改造

    金融服务越来越注重实时互动体验,重构关键业务流程,从数据层入手该怎么做?文章速览:数字化转型正在颠覆银行与金融金融
    的头像 发表于 12-23 08:04 772次阅读
    <b class='flag-5'>金融</b><b class='flag-5'>服务</b>急需<b class='flag-5'>数据</b>层改造

    软国际数据治理专业服务解决方案获得华为云联合基线解决方案认证

    近日,软国际联合华为云生态及技术团队共同设计的数据治理专业服务解决方案成功通过华为云基线解决方案专家团队评审,软国际
    的头像 发表于 12-20 20:25 845次阅读
    <b class='flag-5'>中</b>软国际<b class='flag-5'>数据</b>治理专业<b class='flag-5'>服务</b>解决方案获得华为云<b class='flag-5'>联合</b>基线解决方案认证

    数据台具体是怎么解决数据孤岛的?

    在数字化时代,数据已成为企业的核心资产。然而,由于历史遗留问题、部门壁垒等因素,很多企业面临着“数据孤岛”的问题。数据孤岛是指在一个组织内,
    的头像 发表于 11-27 15:51 570次阅读