糟糕的数据对于人工智能来说是个大问题,随着企业越来越接受人工智能,风险只会越来越高。人工智能和机器学习有望彻底改变很多行业,但它们也带来了重大风险——鉴于该技术现在才刚刚开始得到大力实施,其中有很多风险尚待发现。
已经有一些公共的,令人尴尬的人工智能变坏的例子。微软的Tay由于遭到推特钓鱼(Twitter troll)的破坏,在一天之内从无辜的聊天机器人变成了一个疯狂的种族主义者。两年前,谷歌不得不审查“大猩猩”和“黑猩猩”这样的关键词的图片搜索,因为它返回的结果是非洲裔美国人的照片——而这个问题仍未完全解决。
随着企业越来越接受人工智能,风险只会越来越大。
西雅图一家将人工智能应用于医疗保健数据的公司KenSci的人工智能的负责人Ankur Teredesai说:“我们一觉醒来就冒汗。到最后,我们谈论真实的病人,真实的生活。”
KenSci的人工智能平台向医生和保险公司提供医疗保健建议。如果医疗记录或用于创建预测模型的训练集中存在错误,后果可能是致命的,这种情况揭示了人工智能实施的关键风险因素:数据实践的质量。
人工智能的护栏坏掉了
KenSci处理来自世界各地的合作伙伴组织的数百万患者记录。这些信息是以不同的语言,标准和格式,并按照不同的分类方案组织起来的。
为了解决这个问题,KenSci使用本土和第三方工具,它还取决于合作伙伴的医疗保健机构。
他说:“医疗保健系统投入了大量的精力来制定协议、确保合规性、确保他们的数据资产尽可能的干净。五年或十年前,这是个大问题,今天,由于西方世界、亚洲和澳大利亚大部分地区数字化的成熟,编码显着减少,世界上很多地方已经转向标准化。”
为了减轻对人工智能的依赖所产生的风险,KenSci有三个额外的安全层。首先有防御错误的前线:提供护理的医生。
Teredesai说:“我们不相信人工智能。我们相信辅助智能,我们把如何行动的决策交给医生这样训练有素的专家来制定。”
他说,KenSci平台只是提出建议,而在大多数情况下,这些建议甚至不适用于治疗。他说:“我们的大部分工作都集中在成本预测、工作流分析和工作流程优化上,很多时候,我们离临床决策只有几步之遥。”
该公司自己的医疗专家通过评估外部传来的数据以及数据使用方式上的限制来提供第二道防线。例如,来自男性患者治疗结果的数据可能不适用于女性。
他说:“我们有一个严格的程序来确保模型不被评分——如果底层的数据不正确,不足以使该模型得到评分——错进错出。”
最后,有外部的同行评审对KenSci模型的输出结果,以及由平台做出决策的因素进行评审。
他说:“我们的研究人员在人工智能运动的公平性和透明度方面处于最前沿。我们相信公开出刊物,相信模型正在对分发的参数做决策,以便专家不仅可以评估模型的输出结果,还可以评估纳入该评分体系的因素和分数。为了确保KenSci平台是开放的、透明的、接受调查的,人们花了很多心思。”
KenSci的方法显示了公司在进一步依赖人工智能时需要实施的各种流程。
一切关乎数据
以人工智能为基础的网络安全初创公司Jask的首席技术官JJ Guy说,人工智能的90%是数据物流。他说,所有主要的人工智能进展都受到数据集进步的推动。
他说:“算法简单而有趣,因为它们是干净、简单和离散的问题。收集、分类和标记用于训练算法的数据集是一份苦差事——尤其是足以反映真实世界的数据集。”
他说,以应用提供逐向驾驶路线导航的程序为例。它们已经存在了几十年,但最近才变得好用——因为有了更好的数据。
他说:“谷歌资助了一个车队,该车队行驶在美国的每一条道路上并对道路进行数字化绘图。车队将这些数据与卫星图像和其它数据源结合起来,然后聘请一批人类监护员手动改善表示世界各地建筑、交叉口和交通信号灯的数据。随着人工智能应用于更广泛的问题,成功的方法将会就是那些认识到成功并不是来自算法而是来自数据整理(data wrangling)的方法。”
然而,公司在开始他们的人工智能项目之前往往没有意识到良好的数据的重要性。
Forrester Research的分析师Michele Goetz表示:“大多数组织并不认为这是一个问题。当被问及人工智能预计会带来什么挑战时,拥有用于训练人工智能的受到悉心监护的数据集居然最不受重视。”
Forrester去年进行的一项调查显示,只有17%的受访者表示最大的挑战在于没有“受到悉心监护的数据来训练人工智能。”
她说:“但是,当公司开始进行人工智能项目时,这是从概念验证和试点项目转向生产系统的最大难题和障碍之一。”
451 Research的创始人兼研究副总裁Nick Patience说,最大的问题之一不是没有足够的数据,而是数据被锁藏并难以访问。
他说:“如果你的数据完全孤立,机器学习就不会奏效。例如,如果你的财务数据在甲骨文(Oracle)中,人力资源(HR)数据在Workday中,合同在Documentum存储库中,并且你没有做任何事情来尝试创建这些孤岛之间的连接。”
他说,公司还没有准备好接受人工智能。
他说:“你不妨在每个孤岛中使用标准的分析工具。”
数据问题可能会干扰人工智能
即使你有数据,你仍然会遇到质量问题,以及隐藏在训练集中的偏见。
最近的几项研究表明,用于训练图像识别的人工智能的流行数据集带有性别偏见。例如,一张男性做饭的图片会被误认为是女性,因为在培训数据中,厨师往往是女性。
SpringBoard.ai的首席执行官Bruce Molloy说:“无论我们有什么偏见,要是存在各种歧视、种族或性别或年龄,那些东西都会反映在数据中。”
构建人工智能系统的公司需要考虑分析数据的数据和算法是否符合组织的原则、目标和价值。
他说:“你不能将判断、道德和价值外包给人工智能。”
他说,这可能来自帮助人们了解人工智能如何以自己的方式做出决定的分析工具,来自内部或外部审计师,还是评估委员会。
合规性也是数据来源的一个问题——仅仅因为一个公司可以获取信息,并不意味着它可以随心所欲地使用信息。
IDC的认知和人工智能系统研究主管David Schubmehl说,组织已经开始审计机器学习模型,并且研究进入这些模型的数据。
他说,独立的审计公司也开始关注它。
他说:“我认为这将成为审计过程的一部分,但与其它任何东西一样,这是一个新兴领域。组织仍在试图弄明白什么才是最佳实践。”
他表示,在此之前,公司要谨慎行事。
他说:“我认为我们还处在这样的初级阶段——人工智能或机器学习模型还只是向受过培训的专业人员提供建议和帮助,而不是自己完成工作。人工智能应用程序要花更长的时间来创建,因为人们正试图确保数据是正确的,数据得到合理的集成,并且他们拥有正确的数据类型和正确的数据集。”
普华永道公司的股东兼全球人工智能领导者Anand Rao表示,即使完全准确的数据也可能存在盖然性的偏差。比如说,如果有一家位于中西部的保险公司利用历史数据来训练人工智能系统,然后扩展到佛罗里达州,该系统对于预测飓风风险将不会有用。
他说:“历史是有效的,数据是有效的。问题是,你在哪里使用这个模型,以及如何使用这个模型?”
假数据的崛起
这些内在偏见可能难以发现,但至少它们不涉及积极尝试弄乱结果的数据源。以在社交媒体上传播假新闻为例,这里的问题越来越严重。
Rao说:“这是一场军备竞赛。”
虽然社交媒体公司正在努力解决这个问题,但黑客正在使用自己的人工智能来创建聪明得足以骗过人类的人工智能,无论是影响社交媒体还是让广告商相信他们才是真正的消费者。
Lucidworks首席执行官Will Hayes说:“我们已经看到了影响。看看选举以及用机器人和其它操纵者放大消息的做法。”
那些操纵者也并不总是在俄罗斯或中国。
Hayes说:“如果一个品牌希望在社交媒体上增大影响力,营销公司想要证明他们增加了你的曝光率,这根本就不必动用工程师来思考他们赖以操纵数据的方法。”
这就是领域知识和常识发挥作用的地方。
加里根莱曼集团(The Garrigan Lyman Group,该公司是一家营销公司,帮助公司处理来自各种渠道的数据)的首席技术官Chris Geiser说:“了解数学和模式只能让你走到这一步了。你要了解所有的个人数据来源,这才是最重要的事情,你越了解自己的数据,你想要达到的目标以及你的关键绩效指标,你就越能指向正确的方向。”
对数据源进行三角测量
如果一家公司的数据有多个来源,那么在应用任何机器学习之前,以一个数据来源为准检查另一个数据来源,这是很重要。
作为全球最大的电信公司之一,NTT集团在其网络基础设施中生成了大量的数据。
NTT Security的安全研究全球副总裁Kenji Takahashi说:“我们处于安全目的而使用机器学习来分析网络流量数据。我们的最终目标是全面了解隐藏在网络中的恶意僵尸网络基础设施。”
该公司目前正在投资技术,以提高机器学习培训数据的质量。为此,NTT使用“集成(ensemble)”方法,对来自不同来源的数据分析结果进行加权投票,他这样说道。
然后,这些数据进入超大型数据库,将其作为机器学习的训练数据。
他说:“就像在教室里一样,学习任何错漏百出的劣质课本都是非常不利的。训练数据的质量决定了机器学习系统的性能。”
创建团队和工具来解决问题
Infosys于1月份发布的一项调查显示,49%的IT决策者表示他们无法部署他们想要的人工智能,因为他们的数据还没就绪。
Infosys的高级副总裁兼产品管理和战略主管Sudhir Jha说:“人工智能正在成为商业战略的核心,但数据管理仍然是一个挥之不去的障碍。”
在这里,领导力才能是关键,对于一些开展人工智能旅程的组织来说,第一步可能是任命一位首席数据官,SAP的Leonardo和人工智能部门的全球副总裁Marc Teerlink表示,拥有首席数据官的公司能更好地管理数据。
他说:“错进错出。数据质量,所有权和治理都事关重大。”
普华永道的Rao说,如今的大多数公司都必须开发自己的技术来准备用于人工智能和机器学习系统的数据。为此,你需要数据科学家,如果你内部不具备这样的脑力,你可以聘请顾问来完成这项工作。
一些前瞻的公司,例如Bluestem Brands,正在使用人工智能来处理供其它人工智能系统使用的数据。这家拥有13个不同零售品牌(包括Fingerhut和Bedford Fair)的公司已采取这种方法来确保搜索黑色服装的顾客能获得所有相关结果——无论供应商将这种颜色称为“黑色”、“午夜”、“深海市蜃楼”或“深灰色(dark charcoal)”。
IT主管Jacob Wagner说:“艺术家有无限的创造力来指代同一个基本色彩的色差——它永无止境”。不仅仅是颜色。他说:“同样的问题存在于人类解析和解释的每个属性上。”
Bluestem用唾手可得的碎片创建了数据准备系统。
Wagner说:“搜索技术在很大程度上正在商品化。词法分析、文本匹配,所有这些技术已经成为典范并得到了改善,开源算法与任何专有软件包一样高效。”
而且并不需要动用博士级别的数据科学家来做这种事。
他说:“有了一些才华横溢的工程师,你可以想出将它接入数据流的方法。”
Wagner是Apache Spark的忠实粉丝,Apache Spark是一个大数据引擎,它可以从很多不同来源获取数据并对其进行切割,Apache Solr是一个开源搜索引擎。Bluestem不仅在面向客户的方面使用它,而且还在内部使用它,以帮助编辑工作流(译注:原文为editorial workflows,editorial可能是指iOS上的一款文本编辑神器,同时可用于制作工作流workflow)。
该公司还使用Lucidworks Fusion这样的商业产品,后者允许商业用户通过额外的业务逻辑来定制搜索体验——比如说,可以将与情人节有关的查询集中到一系列策略集中,而不需要IT人员参与。
有了正确的数据管理策略、工具和人员,你可以大大提高组织的人工智能获得成功的可能性。
-
人工智能
+关注
关注
1792文章
47425浏览量
238963 -
机器学习
+关注
关注
66文章
8425浏览量
132771
原文标题:人工智能最大的风险因素:数据出错
文章出处:【微信号:D1Net08,微信公众号:AI人工智能D1net】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论