浅析人工智能数据完整性的问题-电子发烧友网

随着人工智能的应用越来越广泛，人们发现很难驾驭，对于采用人工智能的承诺在很大程度上还没有实现。虽然人工智能相关技术仍在不断涌现，但并未成为所承诺的那样成为一种普遍力量。

ArCompany公司的Karen Bennet是一名致力于平台、开源和封闭源系统以及人工智能技术的经验丰富的工程主管。作为雅虎公司的前工程主管以及Red Hat公司的创始人之一，Karen致力于推动技术革命，他早期在IBM公司专家系统参与人工智能技术的开发，而如今正在见证机器的快速实验学习和深度学习。他撰写的这篇文章将对人工智能的现状进行探讨。

随着人工智能的应用越来越广泛，人们发现很难驾驭，对于采用人工智能的承诺在很大程度上还没有实现。虽然人工智能相关技术仍在不断涌现，但并未成为所承诺的那样成为一种普遍力量。以下查看一下令人信服的统计数据，以证实人工智能技术的发展：

•自2000年以来，人工智能创业公司数量增加了14倍。

•自2000年以来，风险投资公司对人工智能初创企业的投资增长了6倍。

•自2013年以来，需要人工智能技能的工作比例增长了4.5倍。

截至2017年，Statista公司发布了以下调查结果：截至去年，全球只有5%的企业将人工智能广泛纳入其流程和产品中，32%的企业尚未采用，22%的企业没有计划采用。

截至2017年，全球商业组织的人工智能(AI)采用水平

Filip Pieniewski最近在行业媒体Venturebeat发表的文章中表示：“人工智能的冬天即将来临”。

如今，这种情况正在发生变化。从表面上看，神经信息处理系统大会(NIPS)会议仍然座无虚席，企业的新闻稿中仍然发布很多关于人工智能的文章，特斯拉公司创始人伊隆•马斯克仍然致力于开发和研究具有前途的自动驾驶汽车，谷歌公司不断推动Andrew Ng的线路，认为人工智能产业规模将比电力行业更大。但这种叙述开始让人质疑。

人们对自动驾驶汽车很感兴趣。但在今年春天，一辆自主驾驶车辆撞死一名行人，这引发了人们的质疑，并对自动化系统决策背后的道德规范表示怀疑。自动驾驶车辆问题并不是拯救汽车乘客生命一种简单的二元选择，可能将演变成对于良心、情感和感知的争论，这使机器做出合理决定的路径变得复杂。

Karen的文章指出：全自动驾驶汽车的梦想可能比人们意识到的还要遥远。人工智能专家越来越担心，在自动驾驶系统能够可靠地避免事故之前，可能需要数年甚至数十年的探索。

Karen解释说，以历史作为预测因素，云计算行业和网络行业在开始以显著的方式影响人们工作和生活之前花费了大约5年时间，几乎需要10年的时间才影响市场的重大转变。人们正在设想人工智能技术的类似时间表。

为了让每个人都能够采用，需要一个可扩展的产品和一个可供所有人使用的产品，而不仅仅是数据科学家。该产品需要考虑捕获数据，准备数据，训练模型，以及预测的数据生命周期。随着数据存储在云中，数据管道可以不断提取并准备它们来训练将进行预测的模型。模型需要不断改进新的训练数据，这反过来将使模型保持相关性和透明性。这就是目标和承诺。

在没有重大用例的情况下构建人工智能概念证明

Karen在人工智能初创企业中工作，其所见证的以及与同行讨论时都是广泛的人工智能实验，涉及多个业务问题，这些问题往往停留在实验室中。

最近他发布的一篇文章证实了如今人工智能试点项目的普遍性。文章指出，“人工智能技术的供应商经常受到激励，使他们的技术听起来比实际能力更强——但暗示着比实际拥有更多的真实世界的吸引力......企业中的大多数人工智能应用只不过是一种试点。”供应商推出销售营销解决方案、医疗保健解决方案和人工智能的财务解决方案只是为了驱动人工智能技术得到人们越来越多的关注。在任何给定的行业中，人们发现在销售人工智能软件和技术的数百家供应商公司中，只有大约三分之一的公司真正拥有知识和技术开展人工智能的探索和研究。

风险投资商意识到他们可能在一段时间内看不到投资回报。然而，很少有模型进行普遍的实验只是人工智能尚未准备好迎接广泛应用的原因之一。

算法可以为此负责吗?

人们也许听说过人工智能“黑盒”，这是一种无法确定决策的方法。这种做法将面向银行和大型机构，这些机构具有强制执行问责制的合规标准和政策。在系统作为黑盒运行，只要这些算法的创建已经通过审核，并且已经由关键利益相关者满足某些标准，就可能存在对算法的固有信任。鉴于压倒性的生产算法以及由此产生的意外和有害结果的压倒性证据，这一概念很快就受到了质疑。由于企业保密措施不当，缺乏足够的教育和理解，很难批判性地对投入、结果以及为什么会出现这些结果进行检查，企业的许多简单系统都像超出了任何有意义审查范围的黑盒一样运行。

如今的人工智能行业正处于企业准备就绪的早期阶段。人工智能非常有用，可以用于发现并帮助解析大量数据，但是仍然需要人工干预作为评估和处理数据及其结果的指南。

Karen解释说，如今的机器学习技术可以标记数据以识别洞察力。但是，作为此过程的一部分，如果某些数据被错误地标记，或者如果没有足够的数据表示，或者存在有问题的数据表示有偏差，则可能会发生错误的决策结果。

他还指出目前的流程需要不断完善：目前，人工智能完全是一种关于决策支持以提供对业务可以得出结论的见解。在人工智能发展的下一阶段，它可以实现数据中的自动化操作，还有其他需要解决的问题，如偏见、可解释性、隐私、多样性、道德规范和持续模型学习。

Karen以一个人工智能模型为例进行了说明，当图像标题暴露了通过训练学到的知识时，可以看到错误，这些图像用他们所包含的对象标记。这表明，人工智能产品需要具有常识世界模型的对象和人才才能真正理解。仅暴露于有限数量的标记对象且训练集中的有限多样性将限制这个常识世界模型的有效性。企业需要研究确定模型如何处理其输入，并以人类可理解的术语得出结论。亚马逊公司发布了面部识别技术Rekognition，这是目前正在生产并获得许可使用的技术的一个例子，同时其效果存在明显差距。

算法正义联盟的创始人Joy Buolamwini呼吁暂停这项技术，声称它无效，并且需要更多的监督，呼吁在公开发布这些系统之前将更多的政府标准纳入这些类型的系统。

人工智能的主要障碍：心态、文化和遗产

传统系统转型是当今许多组织实施人工智能的最大障碍。心态和文化是这些传统系统的组成部分，它们提供了对已建立的流程、价值观和业务规则的系统观点，这些规则不仅包括组织的运作方式，还包括为什么这些根深蒂固的元素会给业务带来重大障碍的原因，尤其是在目前很好的情况下。因此，很多企业目前没有动力去放弃基础设施。

人工智能是业务转型的一个组成部分，虽然这个主题与人工智能炒作一样得到了一些人的质疑，但实现重大变革所需的投资和承诺却犹豫不决。有一些愿意尝试特定用例的公司，但却没有准备好培训、重新设计流程和改进治理和企业政策的要求。对于被迫进行这些重大投资的大型组织而言，问题不应该是投资回报，而是可持续的竞争优势。

数据完整性的问题

人工智能如今需要大量数据才能产生有意义的结果，但却无法利用其他应用程序的体验。虽然Karen认为行业厂商正在进行的工作是为了克服这些限制，但在以可扩展的方式应用模型之前，需要转移学习。然而，有些场景可以有效地使用人工智能，例如透露图像、语音、视频和翻译语言的见解。

企业正在学习的重点应放在：

(1)数据的多样性，包括跨群体的适当表现。

(2)确保创建算法的多样化体验、观点和思考。

(3)优先考虑数据的质量而不是数量

Karen 承认这些都是重要的，特别是随着偏见的引入以及对数据的信任的降低。例如，土耳其语是一种性别中立的语言，但谷歌翻译中的人工智能模型在转译成英语时错误地预测了性别。同样在癌症诊疗中，人们发现人工智能图像识别只在皮肤白皙的人身上进行训练。从其计算机视觉示例中，Joy Buolamwini测试了这些人工智能技术，并意识到它们在男性与女性之间以及在肤色较浅与较深的皮肤有效工作的差别。“男性的错误率低至1%，黑人女性的错误率高达35%。”由于未能使用不同的训练数据，因此出现了这些问题。

人工智能的概念很简单，但是通过摄取越来越多的真实世界数据，算法变得更加智能，然而能够解释决策变得极其困难。数据可能是不断变化的，人工智能模型需要过滤器来防止错误的标记，例如一个黑人被标记为大猩猩或者将熊猫标记为长臂猿的图像。依靠错误数据做出决策的企业会导致不明智的结果。

幸运的是，鉴于人工智能的初衷，很少有组织正在根据当今的数据做出重大的业务决策。从人们看到的情况来看，大多数解决方案主要是产品推荐和个性化营销传播。由此产生的任何错误结论都会产生较少的社会影响，至少目前如此。

使用数据做出业务决策并不新鲜，但改变的是使用的结构化和非结构化数据的数量和组合的指数级增长。人工智能使人们能够持续使用来自其来源的数据，并更快地获得洞察力。对于具有处理来自不同来源的数据量的能力和结构的企业来说，这是一个机会。但是，对于其他组织而言，大量数据可能代表风险，因为不同的来源和格式使得信息转换变得更加困难：电子邮件、系统日志、网页、客户成绩单、文档、幻灯片、非正式聊天、社交网络，以及爆炸性的富媒体(如图像和视频)。数据转换仍然是开发清洁数据集的绊脚石，因此也是有效的模型。

偏见比人们意识到的更为普遍

许多商业模式中存在偏差，需要最大程度地降低风险评估，优化目标机会，虽然它们可能产生有利可图的业务成果，但它们也可能会导致意外后果，从而加大经济差异。保险公司可以使用位置信息或信用评分数据向客户收取不同的保险费用。银行可能会拒绝信用评分较低的潜在客户，他们已经债务缠身，但可能无力承担较高的贷款利率。

由于采用人工智能不仅会使现有的偏见持续下去，而且会导致经济和社会鸿沟的加深，因此对偏见的警惕性越来越高。偏见在当前算法中呈现，以确定再犯的可能性。由一家名为Northpointe的机构创建的修正罪犯的管理分析替代性制裁(COMPAS)。COMPAS的目标是评估庭审听证会中被告的犯罪风险和预测。在最初的COMPAS研究中使用的问题类型揭示了人类偏见，即该制度延续了对待黑人的建议，他们可能会继续犯罪，因此对他们采用的法律比白人被告更加严厉，而白人继续重新犯罪在量刑时将被宽大处理。由于没有公共标准，Northpointe公司创建自己的公平定义，并开发一种没有第三方评估的算法。

如果这个软件仅仅像未受过训练的人在线调查那样精确，那么人们认为法院在作出判决时应该考虑是否公平。虽然人们尝试修复现有系统以最大限度地减少这种偏差，但模型对不同数据集进行训练以防止未来的危害至关重要。

鉴于潜在的商业和社会模型存在潜在风险，企业没有治理机制来监督不公平或不道德的决策，这些决定将无意中影响最终消费者。这是在道德规范下进行讨论的。

日益增长的隐私需求

Karen与强大的研究和数据团队合作，这些团队能够在整个平台上对用户的行为进行情境化，不断研究用户行为，并了解他们在音乐、主页、生活方式、新闻等众多属性中的倾向。而并没有严格的数据使用标准或规定。隐私被降级为平台条款和条件的用户被动协议。

最近的剑桥分析公司和Facebook公司的数据泄露丑闻使个人数据隐私得到了更多人的关注。Equifax公司等主要信贷机构频繁发生数据泄露事件。因此，数据所有权、同意和错误的情境化问题使得其成为一个重要的主题，因为人工智能将继续解决其问题。欧洲通用数据保护条例(GDPR)于2018年5月25日生效，将改变组织的游戏规则，特别是那些收集、存储和分析个人用户信息的组织。它将改变多年来经营业务的规则。个人信息的无节制使用已经达到了顶峰，因为企业现在将认识到在数据使用上存在重大限制。更重要的是，所有权将受到严重限制。

人们看到这对广告推广的影响。规模高达750亿美元的广告行业预计将在2018～2021年以21%的复合年增长率增长，但仍然面临Facebook公司和谷歌公司等行业寡头垄断的阻碍。如今实施的GDPR法规让这些广告科技公司面临更重大的风险与责任：其利害关系足够大，以至于广告商必须非常高度自信，因为对用户所告知的实际上是合规的。对于最终构成违规的行为似乎有足够的普遍混淆，人们正在采取广泛的方法，直到可以准确了解合规性是什么。

虽然法规的监管最终会削弱收入，但至少在目前，移动和广告平台行业也面临着越来越严格的审查，因为他们多年来一直将消费者作为实现货币化的主题。这与对既定实践的审查相结合，将迫使行业转变其在收集、汇总、分析和共享用户信息方面的做法。

实现隐私需要时间、重大投资(需要更多关注的话题)，以及影响组织政策、流程和文化的思维方式的变化。

人工智能与伦理学的必然耦合

人工智能的主要因素确保了社会效益，包括简化流程、增加便利性、改进产品和服务，以及通过自动化检测潜在危害。放弃后者意味着可以根据更新的制造流程、服务和评估解决方案、生产以及产品质量来轻松地测量输入/输出。

Tech Cos面对AICB Insights的道德规范

除了个人隐私问题之外，如今人们看到了一些创新的例子，这些创新与不合情理的边界相悖。如前所述，谷歌公司决定向美国国防部提供人工智能技术以分析无人机拍摄的内容，其目的是在一个名为“Maven计划”的项目中创建一个复杂的系统来监视城市各个角落。一些员工离职以抗议谷歌公司的决定。

决策者和监管机构需要灌输新的流程和政策，以正确评估人工智能技术的使用方式、用于什么目的，以及流程中是否存在意外后果。 Karen指出了在确定人工智能算法中数据使用时需要考虑的新问题：

那么人们如何检测敏感数据字段并对其进行匿名处理，并同时保留数据集的重要功能?人们能否在短期内培训合成数据作为替代方案?在创建算法时，人们需要问自己：需要哪些数据来提供想要的结果?此外，人们应该创建哪些参数来定义模型中的“公平性”，这意味着处理方式有何不同?如果是这样，为什么?人们如何在系统中持续监控这一点?

人工智能的冬季可能是为人工智能做好准备的机会

人工智能技术已经走过了漫长的道路，但仍需要更多时间才能发展成熟。在日益增加的自动化和有意识地提高认知计算能力的世界中，即将到来的人工智能的冬天为企业提供了必要的时间来确定人工智能如何适应他们的组织以及想要解决的问题。人工智能即将出现的损失需要在政策、治理及其对个人和社会的影响中加以解决。

人工智能技术在下一次工业革命中的影响要大得多，因为其普遍性将在人们的生活中变得更加微妙。行业专家Geoff Hinton、Fei Fei Lee和Andrew Ng对人工智能的观点呼吁人工智能重置，因为深度学习尚未证明可扩展。人工智能技术所做出的承诺并没有减弱，而是对其实际到来的期望被推迟了，可能是5到10年。人们有时间在深度学习、其他人工智能方法以及有效地从数据中提取价值的过程中解决这些问题。商业准备、监管、教育和研究的高潮是实现业务和消费者加速发展的必要条件，并确保建立适当限制技术的监管体系。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉