机器学习在学习过程中总会犯错。机器学习采用者需要预见到这一点,并时刻小心,不要因为IT和业务的人为错误而使事情变得更糟。
一般来说,学习的过程往往就是一个不断犯错误,走错误道路的过程,然后找出方法来在未来避免这些错误。机器学习也不例外。
当你在你的企业中实施机器学习时,要小心:一些技术营销可能会让你觉得学习非常正确,速度非常快,这是对技术不切实际的期望。事实是,在机器学习过程中必然会有错误。而且这些错误至少在一段时间内会在业务流程中被编码。结果是:这些错误可能会大规模发生,而且往往超出了人类的直接控制。
SPR咨询公司(SPR Consulting)的首席数据科学家Ray Johnson表示:“缺乏尽职调查的热情可能会导致一些问题,使机器学习的好处无法得到展示。”
检测和处理机器学习错误将有助于您在技术上取得更大的成功,并满足您的机器学习期望。
以下是一些可能会增加和延长机器学习工具在学习过程中所犯错误的问题--他们甚至可能永远也无法识别和纠正这些错误教训。
缺乏对问题的业务理解会导致机器学习失败
一些使用机器学习模型的数据工作者并不真正了解机器学习试图解决的业务问题,这可能会在流程中引入错误。
当他的团队使用机器学习工具时,金融服务网站LendingTree的副总裁兼战略与分析主管Akshay Tandon鼓励团队从一个假设开始声明。该声明应该询问您要解决的问题是什么,以及您要构建哪些模型来解决该问题。
Tandon说,从统计方面来看,今天可用的机器学习工具非常强大。这就给正确地执行它增加了更大的负担,因为这些强大的工具,如果不小心使用,可能会导致重要的错误决策。如果数据分析团队不够小心,他们最终可能会得到与团队所使用的特定数据不匹配的模型。迅速恶化的结果会导致模型很快就可能出错,他说。
此外,许多商业用户都不明白,从投入生产的那一刻开始,模型的质量就会有一定程度的下降,Tandon说。如果认识到这一点,就像对待汽车或任何其他机器一样,用户就会知道自己需要不断地监控它,并关注它是如何影响决策的。
低质量的数据会导致机器学习错误
进去的是垃圾,出来的也会是垃圾。如果数据质量不够完善,机器学习也会受到影响。数据质量差是数据管理人员最关心的问题之一,尽管数据科学家和其他从事信息工作的专业人员都有最好的意图,但它仍然可能危及大数据分析工作。它也会让机器学习模式偏离轨道。
组织经常高估机器学习算法的弹性,低估不良数据的影响。Johnson说,糟糕的数据质量会产生糟糕的结果,并导致组织做出不明智的业务决策。这些决策的结果将损害业务绩效,并使未来的计划难以获得支持。
根据过去和现在的经验,你可以从机器学习驱动的结果中检测出不好的数据质量,而这些结果似乎毫无意义。
Johnson说,解决这个问题的一种积极主动的方法是探索性的数据分析(EDA)。EDA可以识别基本的数据质量问题,例如离群值、缺失值和不一致的域值。你还可以使用统计抽样等技术来确定是否有足够的数据点实例来充分反映人口分布,并定义有关数据质量修正的规则和策略。
机器学习的不当使用
剑桥咨询公司(Cambridge Consultants)的专业机器学习工程师Sally Epstein表示:“我们仍然从企业中看到的最常见问题是,人们只是为了流行而希望使用机器学习。”但她说,要想取得成功,必须正确应用该工具。而且,传统的工程方法可能可以更快地提供解决方案,而且成本更低。
Johnson说,当机器学习可能不是解决问题的最佳选择,并且不完全理解用例时,使用机器学习可能会导致其试图解决一个错误的问题。
此外,解决错误的问题也将导致失去机会,因为组织会努力将其用例定制为一个特定的、不合适的模型。这包括在人员和基础设施部署方面浪费的资源,而这些本来可以使用更简单的替代方法来实现可能的结果。
为了避免机器学习的错误使用,你需要仔细考虑期望的业务结果、问题的复杂性、数据量和属性的数量。Johnson说,相对简单的问题,如分类、聚类和使用少量具有一些属性的数据关联规则,可以通过视觉或统计分析来解决。在这些情况下,部署机器学习可能需要比常规方法更多的时间和资源。
而当数据量变大时,机器学习可能更合适。但是,已经通过机器学习训练,然后才发现业务结果尚未明确定义并导致解决错误问题的情况也并不罕见。
机器学习模型可能有偏见
使用一个低质量的数据集可能带来一个误导性的结论。这不仅会引入不准确性和缺失数据,还会引入对问题的偏见。每个人都会有偏见,所以人们创造或启发的模型也可能包含偏见。
Epstein说,每种机器学习算法对不平衡的类或分布都有不同的敏感性。Epstein说,如果不解决这些问题,你最终得到的面部识别工具,可能会依赖于皮肤颜色,或者带有性别偏见。事实上,这已经发生在一些商业服务中了。
结论的准确性-无论是算法的准确性还是个人的准确性-取决于所处理信息的广度和质量。咨询公司Deloitte咨询分析服务领域负责人Vic Katyal说,组织和个人所面临的因算法偏差带来的财务、法律和声誉风险就是为什么任何使用机器学习的公司都应该将道德规范作为组织的必要条件的一个例子。
Katyal说,在公共领域,诸如信用评分、教育课程、招聘和刑事司法判决等方面,算法偏差的迹象已经被充分记录。收集、整理或应用不当的数据甚至会在设计最完善、目标明确的机器学习应用程序中引入偏差。
他说,带有固有偏见的机器学习系统会威胁到客户或社会利益相关者中的弱势群体,并可能产生或延续不公平的结果。
咨询公司麦肯锡(McKinsey)在2017年的一份报告中指出,算法偏差是机器学习的最大风险之一,因为它会损害机器学习的真正目的。该公司表示,这是一个经常被忽视的缺陷,它会引发代价高昂的错误,如果不加以检查,可能会将项目和组织拉向完全错误的方向。
麦肯锡说,从一开始就有效地解决这一问题将获得丰厚的回报,使机器学习的真正潜力得到最有效地实现。
没有充足的资源来做好机器学习
当启动机器学习计划时,组织很容易低估人员和基础设施所需的资源。机器学习可能需要大量的基础设施,尤其是在图像、视频和音频处理等领域。
Johnson说,如果没有所需的处理能力,及时开发基于机器学习的解决方案可能是非常困难的,如果非做不可的话。
另外,还存在部署和消耗问题。如果基础设施不到位,不允许用户部署和使用结果,那么开发机器学习解决方案有什么用呢?
部署一个可扩展的基础设施来支持机器学习可能是昂贵的,并且很难维护。但是,有几种云服务可以提供可扩展的机器学习平台,可以按需配置。Johnsons说,云方法允许你进行大规模的机器学习实验,而没有物理硬件的获取、配置和部署的束缚。
但一些组织希望自己拥有自己的基础设施。如果是这样的话,云服务也可以作为跳板和教育经验,这样这些组织在进行大规模投资之前就可以从基础设施的角度了解需要什么了。
从人才的角度来看,缺乏诸如数据科学家和机器学习工程师等知识型资源也可能会阻碍机器学习的发展和部署。拥有了解机器学习概念,应用程序和可解释的资源,确定是否实现了特定的业务成果,这一点至关重要。
Johnson说,不要低估拥有丰富机器学习技能的重要性。拥有丰富知识的人员可以帮助识别数据质量问题,确保正确使用和部署机器学习工具,并帮助建立最佳实践和治理策略。
糟糕的计划和缺乏治理会破坏机器学习
机器学习的努力可能会以热情开始,但随后也会因失去动力而陷入停顿。这是没有计划和缺乏治理的表现。
Johnson说,如果没有适当的指导方针和限制,机器学习的努力将无限期地持续下去,可能会导致巨大的资源支出,而无法带来任何好处。
组织需要记住,机器学习是一个反复的过程,随着时间的推移也需要修改模型来支持不断变化的需求。因此,从事机器学习的人可能会对完成这项工作缺乏兴趣,从而导致一个不良的结果。项目发起人可能会转向其他工作,而机器学习工作最终会停滞不前。
Johnson说,你需要定期监控机器学习的工作,以确保事情能够顺利进行。如果发现进度开始放缓,可能是时候休息一下,并重新检查一下工作了。
责任编辑:ct
评论
查看更多