云计算机器学习平台的标配功能及选购指南-电子发烧友网

云计算机器学习平台提供的多种功能可以支持完整的机器学习生命周期。

为了创建有效的机器学习和深度学习模型，组织需要获取大量的数据，并对其执行特征工程的方法，以及在合理的时间内训练数据模型的方法。然后，组织需要一种方法来部署模型，监视它们是否随时间的推移而改变，以及根据需要重新训练它们。

如果组织已经在计算资源和加速器（例如GPU）上进行了投资，则可以在内部部署基础设施完成所有这些操作，但是可能会发现，如果资源足够，它们在很多时间都处于闲置状态。另一方面，有时在云平台中运行整个管道，根据需要使用大量计算资源和加速器，然后释放它们，可能更具成本效益。

主要的云计算提供商（以及其他云计算提供商）已投入大量精力来构建其机器学习平台，以支持从计划项目到维护生产模型的完整机器学习生命周期。组织如何确定哪些云平台可以满足其需求？每个端到端机器学习平台都应提供以下12种功能。

1.接近自己的数据

如果组织拥有建立精确模型所需的大量数据，则不希望将其传输到世界各地。这里的问题并不是距离，而是时间：数据传输速度最终受到光速限制，即使在带宽无限的完美网络上也是如此。长距离意味着等待时间更长。

对于非常大的数据集，理想的情况是在已经存在数据的地方建立模型，从而不需要传输大量数据。一些数据库在一定程度上支持这一点。

下一个最佳情况是数据与模型构建软件位于同一高速网络上，这通常意味着在同一数据中心内。如果组织拥有TB或更大容量的数据，即使将数据从一个数据中心迁移到云计算可用性区域内的另一个数据中心，也可能会造成严重的延迟。组织可以通过执行增量更新来缓解这种情况。

最坏的情况是，组织必须在带宽受限和高延迟的路径上远程移动大量数据。而在这方面，澳大利亚为此部署的跨太平洋电缆的工程令人惊叹。

2.支持ETL或ELT管道

ETL（导出、转换和加载）和ELT（导出、加载和转换）是数据库领域中常见的两种数据管道配置。机器学习和深度学习扩大了对这些内容的需求，尤其是转换部分。当转换需要更改时，ELT为组织提供更大的灵活性，因为加载阶段通常是大数据最耗时的阶段。

通常情况下，没有进行处理的数据很嘈杂，需要过滤。此外，这些数据的范围也有所不同：一个变量的最大值可能高达数百万，而另一个变量的范围可能是-0.1至-0.001。对于机器学习来说，必须将其变量转换为标准化的范围，以防止较大范围的变量控制模型。具体的标准化范围取决于模型使用的算法。

3.支持在线环境进行模型构建

传统的观点是，组织应该将数据导入桌面设备以进行模型构建。建立良好的机器学习和深度学习模型所需的大量数据改变了局面：组织可以将一小部分数据样本下载到桌面设备上，以进行探索性数据分析和模型构建，但是对于生产模型，则需要访问完整的模型数据。

Jupyter Notebooks、JupyterLab和Apache Zeppelin等基于Web的开发环境非常适合模型构建。如果组织的数据与笔记本电脑环境位于同一云平台中，则可以对数据进行分析，以很大程度地减少数据移动的时间。

4.支持扩展训练

除了训练模型之外，笔记本电池的计算和内存要求通常很小。如果笔记本可以生成在多个大型虚拟机或容器上运行的训练作业，则将大有帮助。如果训练可以访问加速器（例如GPU、TPU和FPGA），也将有很大帮助;这些模型可以将数天的训练过程变成数小时。

5.支持AutoML和自动特征工程

并不是每个组织都擅长于选择机器学习模型、选择特征（模型使用的变量），以及从原始观察中设计新特征。即使组织擅长这些任务，它们也很耗时，而且可以在很大程度上实现自动化。

AutoML系统经常尝试使用许多模型来查看哪些模型可以产生优秀目标函数值，例如回归问题的最小平方误差。出色的AutoML系统还可以执行功能工程，并有效地利用它们的资源，以尽可能多的特征集合来追求优质的模型。

6.支持优质的机器学习和深度学习框架

大多数数据科学家拥有用于机器学习和深度学习技术的很喜欢的框架和编程语言。对于喜欢Python的人来说，Scikit学习通常是机器学习的最爱，而TensorFlow、PyTorch、Keras、MXNet通常是深度学习的首选。在Scala中，Spark MLlib往往是机器学习的首选。在R中，有许多原生机器学习包，以及与Python的良好接口。而在Java中，H2O.ai的评价很高，Java-ML和Deep Java Library也是如此。

云计算机器学习和深度学习平台往往拥有自己的算法集合，并且它们通常以至少一种语言或作为具有特定入口点的容器来支持外部框架。在某些情况下，组织可以将自己的算法和统计方法与平台的AutoML功能集成在一起，这非常方便。

一些云平台还提供了自己的主要深度学习框架的调整版本。例如，AWS公司拥有TensorFlow的优化版本，该公司声称可以为深度神经网络训练提供近乎线性的可扩展性。

7.提供预训练的模型并支持转移学习

并非每个人都希望花费时间和资源来训练自己的模型，而即使当预训练的模型可用时，他们也不应该如此。例如，ImageNet数据集非常庞大，并且要针对其训练比较先进的深度神经网络可能要花费数周的时间，因此在可能的情况下使用预先训练的模型是有意义的。

另一方面，经过预训练的模型可能无法始终标识组织关心的对象。转移学习可以帮助组织针对特定数据集自定义神经网络的最后几层，而无需花费更多时间和资金来训练整个网络。

8.提供优化的人工智能服务

主要的云平台为许多应用程序提供了功能强大且经过优化的人工智能服务，而不仅仅是图像识别。其示例包括语言翻译、语音转换到文本、文本转换到语音、预测和推荐。

这些服务已经经过训练和测试，其使用的数据量超出了企业通常可获得的数据量。它们还已经部署在具有足够计算资源（包括加速器）的服务端点上，以确保在全球负载下具有良好的响应时间。

9.管理实验

为组织的数据集找到优秀模型的唯一方法是尝试采用所有方法，无论是人工还是使用AutoML。这就留下了另一个问题：管理实验。

良好的云计算机器学习平台将为组织提供一种方式，可以查看和比较每个实验的目标函数值（训练集和测试数据）以及模型和混淆矩阵的大小。而能够绘制所有这些图表具有一定的优势。

10.支持模型部署以进行预测

一旦组织有了根据自己的条件选择优秀实验的方法，就需要一种简单的方法来部署模型。如果组织出于同一目的部署多个模型，则还需要一种在它们之间分配流量的方法来进行a/b测试。

11.监控预测效果

数据随着世界的变化而变化。这意味着组织无法部署模型而忘记它。与其相反，组织需要监视为预测而提交的数据。当数据从原始训练数据集的基线开始发生明显变化时，组织需要重新训练模型。

12.控制成本

最后，组织需要一些方法来控制模型产生的成本。部署用于生产推理的模型通常占到深度学习成本的90%，而训练仅占成本的10%。

控制预测成本的优秀方法取决于组织的负载和模型的复杂性。如果负载很高，则可以使用加速器来避免添加更多虚拟机实例。如果负载可变，则随着负载的增加或减少，组织可能能够动态更改大小或实例或容器的数量。而且，如果组织的负载较少，则可以使用带有部分加速器的非常小的实例来处理预测。

【编辑推荐】

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

云计算

云计算

+关注

关注
39

文章
7800

浏览量
137395
机器学习

机器学习

+关注

关注
66

文章
8418

浏览量
132626
深度学习

深度学习

+关注

关注
73

文章
5503

浏览量
121156

工业中使用哪种计算机？

在工业环境中，工控机被广泛使用。这些计算机的设计可承受极端温度、灰尘和振动等恶劣条件。它们比标准消费类计算机更耐用、更可靠。工业计算机可控制机器、监控流程并实时收集数据。其坚固的结构和

发表于 11-29 14:07 •142次阅读

计算机存储系统的工作原理和功能

计算机存储系统作为计算机系统中至关重要的组成部分，其原理和功能对于理解计算机的运行机制具有关键意义。以下将详细阐述计算机存储系统的原理和

发表于 09-26 16:42 •918次阅读

如何理解云计算？

访问需求。 **数据分析和挖掘：**用户可以使用云计算来处理和分析海量的数据，通过云平台可以提供高性能的计算资源来加速数据分析的过程。 **

发表于 08-16 17:02

计算机系统的组成和功能

计算机系统是一个复杂而庞大的概念，它涵盖了计算机硬件、软件以及它们之间相互作用的所有元素。为了全面而深入地探讨计算机系统，本文将从定义、组成、功能、发展历程以及未来趋势等方面进行详细阐

发表于 07-24 17:41 •992次阅读

机器视觉和计算机视觉有什么区别

机器视觉和计算机视觉是两个密切相关但又有所区别的概念。一、定义机器视觉机器视觉，又称为计算机视觉，是指利用

发表于 07-16 10:23 •530次阅读

计算机视觉和机器视觉区别在哪

计算机视觉和机器视觉是两个密切相关但又有明显区别的领域。一、定义 计算机视觉 计算机视觉是一门研究如何使计算机能够像人类一样理解和解释视觉

发表于 07-09 09:22 •454次阅读

深度学习在计算机视觉领域的应用

随着人工智能技术的飞速发展，深度学习作为其中的核心技术之一，已经在计算机视觉领域取得了显著的成果。计算机视觉，作为计算机科学的一个重要分支，旨在让计

发表于 07-01 11:38 •801次阅读

计算机控制器的结构和功能

随着信息技术的迅猛发展，计算机已经深入我们生活的方方面面。而计算机控制器，作为计算机系统的核心部件之一，承担着协调各部件工作、指挥整个计算机按程序运行的重要任务。本文将详细介绍

发表于 06-17 15:47 •1640次阅读

本源超导量子计算机自主制造链11类产品系列之十一：中国首款搭载量子计算机真机的量子计算云平台

使用。中国首款搭载量子计算机真机的量子计算云平台本源量子计算云

发表于 06-07 08:22 •382次阅读

工业计算机的功能和特点

在数字化和自动化的浪潮中，工业计算机以其独特的功能和强大的计算能力，逐渐在工业领域中崭露头角。本文将对工业计算机进行详细介绍，包括其定义、功能

发表于 06-06 17:01 •746次阅读

工业计算机与普通计算机的区别

在信息化和自动化日益发展的今天，计算机已经成为了我们日常生活和工作中不可或缺的工具。然而，在计算机领域中，工业计算机和普通计算机虽然都具备基本的计算

发表于 06-06 16:45 •1396次阅读

国产计算机平台——兆芯

国产计算机平台介绍，今天我们来介绍兆芯平台。上海兆芯集成电路有限公司成立于2013年，是国内领先的芯片设计厂家，由上海国资委下属企业和台湾威盛电子合资成立。威盛持有X86许可证，允许其子公司生产

发表于 05-28 10:17 •967次阅读

【RTC程序设计：实时音视频权威指南】计算机知识基础篇

的出现，再到无线电的普及，让我们的交流变得更加的便捷，尤其是计算机和互联网的普及使人类社会发生了翻天覆地的变化。目前，计算机的主流平台有linux、WINDOWS、Mac OS、安卓等等的主流操作系统

发表于 04-23 09:02

【量子计算机重构未来 | 阅读体验】+ 初识量子计算机

：现在到哪里可以买到量子计算机？ 1、购买实物的量子计算机： Rigetti和D-Wave公司，当前价格非常昂贵。 2、购买量子计算机云服务：IBM、Google、Amazon、Mi

发表于 03-05 17:37

国产计算机平台介绍——龙芯

你了解中国的自主平台的计算机吗？不仅是中国制造，而是由中国自主研发，可以持续迭代产品，而且还能够决定产品用途、决定技术归属权的国产计算机才是真正中国计算机。而作为中国

发表于 03-05 11:40 •779次阅读

搜索历史

云计算机器学习平台的标配功能及选购指南

评论

工业中使用哪种计算机？

计算机存储系统的工作原理和功能

如何理解云计算？

计算机系统的组成和功能

机器视觉和计算机视觉有什么区别

计算机视觉和机器视觉区别在哪

深度学习在计算机视觉领域的应用

计算机控制器的结构和功能

本源超导量子计算机自主制造链11类产品系列之十一：中国首款搭载量子计算机真机的量子计算云平台

工业计算机的功能和特点

工业计算机与普通计算机的区别

国产计算机平台——兆芯

【RTC程序设计：实时音视频权威指南】计算机知识基础篇

【量子计算机重构未来 | 阅读体验】+ 初识量子计算机

国产计算机平台介绍——龙芯