数据科学、机器学习和人工智能如何协同工作？-电子发烧友网

现在企业都拥有海量数据。就在十年前，千兆字节的数据似乎还很庞大。而如今，有些大型企业已经在管理泽字节数据。为了让你了解这种数据规模，我们打个比方，如果你的笔记本电脑或台式机装有1 TB硬盘驱动器，则泽字节相当于10亿个这样的硬盘驱动器。

企业如何从如此多的数据中挖掘商业价值呢？他们需要能够分析这些数据，这就像在大海捞针。而这正是数据科学、机器学习和AI发挥作用的地方，但你并不需要泽字节规模的数据来使这三项技术具有相关性。

对于各种行业中各种类型和规模的企业，这三项技术都是关键技术主题。但是，对于数据科学、机器学习、人工智能以及它们各自涉及的内容，人们仍然经常感到困惑。你需要了解这些变革性概念的性质和目的，以帮助你学习如何最好地利用它们以满足紧迫的业务需求。

下面让我们看看这些技术，了解它们之间的差异以及如何让它们协同工作。

数据科学

虽然从数据出现以来，数据就是计算的核心，但在数据出现的几十年后，才出现专门处理数据分析的单独领域。数据科学专注于统计方法、科学方法和高级分析技术–而不是数据管理的技术方面，这些技术将数据视为离散资源，而不管其存储或操作方式如何。

在其核心，数据科学旨在从数据中提取有用的见解，基于企业高管和其他潜在用户的特定要求。客户想要购买什么？企业的特定产品或在某个地理区域的情况如何？COVID-19疫情是否正在缩减或增加资源？这些是可以通过数据科学回答的问题，其中利用数学、统计和数据分析。

传统上来看，企业依靠商业智能系统从不断增长的数据池中获得见解。但是，BI系统部分依靠人类来发现电子表格、仪表板、图表或图形中的趋势。他们也受到大数据4个属性的挑战：数量、速度、多样性和准确性。随着企业存储越来越多的数据，以更快的速度从各种各样的数据源中收集数据，以不同的格式和不同的数据质量级别，BI的常规数据仓库和业务分析方法已经不够用。

相比之下，亚马逊、谷歌、Netflix和Spotify等领先公司的经验表明，应用数据科学的基本方面可以帮助发现更深刻的见解，从而提供比商业竞争对手更大的竞争优势。他们和其他组织（银行和保险公司、零售商、制造商等）都在利用数据科学来发现数据集的模式、识别潜在的异常交易、发现错失客户的机会，并创建未来行为和事件的预测模型。

同样，医疗保健提供者依靠数据科学来帮助诊断医疗状况，并改善患者护理，而政府机构则将其用于提早通知可能危及生命的情况，以及确保关键系统和基础设施的安全性等。

数据科学工作主要由数据科学家完成。尽管对其工作描述尚未达成共识，但下面是有效的数据科学家必须具备的最低技能：

完全掌握统计数据和概率;

了解用于分析数据的各种算法方法;

懂得使用各种工具、技术来探究大型数据集以获得所需分析结果;

数据可视化功能，可提供对所生成见解的可视性。

作为数据科学团队的一部分，数据科学家经常与数据工程师合作，以从多个源系统中收集和整理数据;数据科学家还需要与业务分析师合作，以了解不断发展的业务需求，以及数据分析师，以了解不断变化的数据集特性，还有开发人员–他们可以帮助将由数据科学应用程序生成的分析模型投入生产环境。

现在企业越来越多地要求这些模型做更多的事情，而不仅仅是提供对当前数据状态的见解的快照。数据科学家可以训练算法来学习样本数据的模式、相关性和其他特征，然后分析他们从未见过的完整数据集。通过这种方式，数据科学推动人工智能的发展，特别是通过使用机器学习来支持AI的目标。

机器学习

智能的标志之一是从经验中学习的能力。如果机器可以识别数据中的模式，则它们可以使用这些模式来对新数据生成见解或预测。这是机器学习背后的基本概念。

机器学习依赖于算法，这些算法可以将从良好数据示例中学习编码为模型。这些模型可用于广泛的应用程序，例如将数据分类（“此图像是猫吗？”），根据给定的先前识别模式预测某些数据的值（“此交易是欺诈的概率是多少？？”），以及标识数据集中的组（“我还可以向购买该产品的人推荐其他哪些产品？”）。

机器学习的核心概念体现在分类、回归和聚类中。现在已经创建各种各样的机器学习算法，可跨不同的数据集执行任务。可用的算法包括决策树、支持向量机、K均值聚类、K最近邻、朴素贝叶斯分类器、随机森林、高斯混合模型、线性回归、逻辑回归、主成分分析等。数据科学家通常会构建和运行算法;现在，有些数据科学团队还包括机器学习工程师，他们可以帮助编码和部署结果模型。

机器学习过程涉及不同类型的学习，其中数据科学家和分析师的指导水平各不相同。主要的替代方法是：

有监督学习，从人为标记的培训数据开始，帮助指导算法学习什么;

无监督学习，在这种方法中，算法使用未标记的训练数据自行发现信息;

强化学习，它使算法可以通过反复试验来学习初始指令，并受到数据科学家的持续监督。

现在没有哪种算法方法能像人工神经网络那样让人感到兴奋和充满希望。就像生物系统一样，神经网络包含神经元，这些神经元可以获取输入数据，对输入施加权重和偏差调整，然后将结果输出馈送到其他神经元。通过这些神经元之间一系列复杂的互连和相互作用，随着时间的推移，神经网络可以学习如何调整权重和偏差，以提供所需结果。

在1950年代还是感知器算法中的单层神经元，现在已经发展成为一种更为复杂的方法，称为深度学习，该方法使用多层来产生细微而复杂的结果。这些多层神经网络已经显示出强大功能，可从大型数据集中学习并支持面部识别、多语言对话系统、自动驾驶汽车和高级预测分析等。

在数据密集型公司（例如Google、Netflix、亚马逊、微软和IBM）的大力推动下，曾经看起来像是一种假设的研究迅速成为可能现实，并在2000年代初开始发展。大数据的可用性、数据科学的能力和机器学习的力量，不仅为面临挑战的当今企业提供了答案，而且还可以帮助克服长期挑战，使AI照进现实。

人工智能

人工智能是比计算本身更古老的想法：是否有可能创造出具有人类认知能力的机器？人工智能的想法最早出现在在20世纪中叶，长期以来，这个想法激励着学者、研究人员和科幻小说作家。在1950年，计算机先驱和著名的代码破解者Alan Turing提出机器智能的基本测试，该测试被称为图灵测试。人工智能一词是在1956年在达特茅斯举行的AI会议上提出。

AI仍然是一个梦想，几十年前很多人所设想人工智能仍然没有实现。具有完全认知和智力能力的机器的概念被称为人工智能（AGI）或通用AI。目前还没有人建立这样的系统，如果可行的话，AGI的开发可能还需要数十年的时间。

但是，我们已经能够解决弱AI任务。我的研究公司Cognilytica已经定义七种AI模式，这些模式专注于感知、预测或规划的特定需求。

例如，它们包括训练机器：

准确识别图像、对象和非结构化数据中的其他元素;

与人类进行有意义的对话互动; 使用生成的见解来推动预测分析系统;

发现大数据集中的模式和异常; 为超个性化用途创建个人的详细配置文件;

支持自治系统–在很少人或没有人参与的情况下;

解决情景模拟和其他具有挑战的目标驱动型问题。

这些用例都提供重要功能和价值，尽管没有解决AGI的总体目标。机器学习的发展直接带来这些弱AI应用程序的发展。而且由于数据科学使机器学习变得切实可行，因此它也使机器学习成为现实。

数据科学、机器学习和AI之间的差异

尽管数据科学、机器学习和AI很相似，并可在分析应用程序和其他用例中互相支持，但它们的概念、目标和方法却有很大不同。为了进一步区分它们，请考虑下列关键属性。

数据科学：

专注于从海量数据中提取有效信息，以帮助决策和计划;

通过描述性、预测性和规范性分析应用程序，适用于广泛的业务问题;

可处理小规模数据到非常大的数据集;

使用统计、数学、数据整理、大数据分析、机器学习和其他各种方法来回答分析问题。

机器学习：

专注于为算法和系统提供方法，以从数据经验中学习并利用该经验随着时间的推移而改进;

通过检查数据集而不是显式编程来学习，利用数据科学方法、技术和工具;

可以通过有监督、无监督或强化学习方法来完成;

支持人工智能用例，尤其是处理特定任务的弱AI应用程序。

人工智能：

专注于赋予机器类似于人类的认知和智力能力;

包含智能概念的集合，包括感知、规划和预测元素;

能够在特定任务和工作流程中增强或代替人类;

当前还没有解决人类智能的关键方面，例如常识理解、将知识从一种环境应用到另一种环境、适应变化并展示感知力和意识。

数据科学、机器学习和AI如何结合

数据科学本身的力量很巨大，当与机器学习相结合，可提供更大的潜在价值，从不断增长的数据池中获得洞察力。当这二者结合使用时，还可以驱动各种弱AI应用程序，并最终可能解决通用AI的挑战。

更具体地说，下面是企业如何结合数据科学、机器学习和AI以产生有效效果的示例：

预测性分析应用程序，可基于对不断变化数据集的分析，预测客户行为、业务趋势和事件;

AI会话系统，可与客户、用户、患者和其他个人进行高度交互的通信;

由机器学习和AI驱动的异常检测系统，可响应不断发展的威胁并增强自适应网络安全和欺诈检测系统;

超个性化系统，可实现有针对性的广告、产品推荐、财务指导和医疗保健，以及其他针对客户的个性化产品。

数据科学、机器学习和AI是独立的概念，它们各自提供强大的功能，而这三者相结合正在改变我们管理企业和业务运营的方式-以及我们如何生活、工作以及与周围世界交互。
责编AJX

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1792

文章
47373

浏览量
238875
机器学习

机器学习

+关注

关注
66

文章
8423

浏览量
132751
数据科学

数据科学

+关注

关注
0

文章
165

浏览量
10076

《AI for Science：人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

人工智能：科学研究的加速器第一章清晰地阐述了人工智能作为科学研究工具的强大功能。通过机器学习

发表于 10-14 09:12

《AI for Science：人工智能驱动科学创新》第6章人AI与能源科学读后感

、优化等方面的应用有了更清晰的认识。特别是书中提到的基于大数据和机器学习的能源管理系统，通过实时监测和分析能源数据，实现了能源的高效利用和智能

发表于 10-14 09:27

了解AI人工智能背后的科学?

是了解最初部署人工智能的原理。组织有大量的数据，通过关注快速建立成功和建立信任是关键。例如，让我们将电子邮件指标作为客户行为的可能预测因素。您可以从机器学习开始回答以下问题：√根据

发表于 09-25 10:03

人工智能和机器学习的前世今生

、人工智能和深度学习、物联网（IOT）以及大数据将从他们那些不太知情的同行那里带走超过1兆2000亿美元。数据是机器

发表于 08-27 10:16

人工智能：超越炒作

：高性能处理来完成工作正如我们所看到的，人工智能展开其巨大的潜力在很大程度上依赖于足够的硬件。特别是机器学习需要巨大的处理和存储容量。例如，百度语音识别模型之一的训练周期不仅需要4TB

发表于 05-29 10:46

人工智能——MATLAB图像处理及机器学习

视觉、通讯、计算金融学、控制设计、机器人学等等。为了帮助大家更好的学习机器学习和图像处理，我们上线了《人工智能—MATLAB图像处理及机器

发表于 07-01 15:05

基于人工智能的传感器数据协同作用

作者：Kaustubh Gandhi，Bosch Sensortec软件产品经理人工智能（AI）目前正在为社会的方方面面带来革新。比如，通过结合数据挖掘和深度学习的优势，如今可以利用人工智能

发表于 07-25 06:20

人工智能、数据挖掘、机器学习和深度学习的关系

人工智能、数据挖掘、机器学习和深度学习之间，主要有什么关系？

发表于 03-16 11:35

python人工智能/机器学习基础是什么

python人工智能——机器学习——机器学习基础

发表于 04-28 14:46

人工智能、机器学习、数据挖掘有什么区别

人工智能、机器学习、数据挖掘的区别

发表于 05-14 16:02

中国人工智能的现状与未来

机器学习，计算机视觉等等，总的说来，人工智能研究的一个主要目标是使机器能够胜任通常需要人类智能才能完成的复杂

发表于 07-27 06:40

人工智能基本概念机器学习算法

目录人工智能基本概念机器学习算法1. 决策树2. KNN3. KMEANS4. SVM5. 线性回归深度学习算法1. BP2. GANs3. CNN4. LSTM应用

发表于 09-06 08:21

物联网人工智能是什么？

智能的，但是并不真正拥有智能，也不会有自主意识。二、人工智能应用领域人工智能已经渗透到人类生活的各个领域，游戏，媒体，金融，建材等行业，并且运用到各种领先研究领域。三、

发表于 09-09 14:12

什么是人工智能、机器学习、深度学习和自然语言处理？

领域，包括机器学习、深度学习、数据挖掘、计算机视觉、自然语言处理和其他几个学科。首先，人工智能涉及使计算机具有自我意识，利用计算机视觉、自然

发表于 03-22 11:19

机器学习和人工智能有什么区别？

机器学习和人工智能有什么区别？当今唯一可用的软件选项是 ML 系统。在十年左右的时间里，当计算能力和算法开发达到可以显着影响结果的地步时，我们将见证第一个真正的人工智能。是

发表于 04-12 08:21

搜索历史

数据科学、机器学习和人工智能如何协同工作？

评论

《AI for Science：人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

《AI for Science：人工智能驱动科学创新》第6章人AI与能源科学读后感

了解AI人工智能背后的科学?

人工智能和机器学习的前世今生

人工智能：超越炒作

人工智能——MATLAB图像处理及机器学习

基于人工智能的传感器数据协同作用

人工智能、数据挖掘、机器学习和深度学习的关系

python人工智能/机器学习基础是什么

人工智能、机器学习、数据挖掘有什么区别

中国人工智能的现状与未来

人工智能基本概念机器学习算法

物联网人工智能是什么？

什么是人工智能、机器学习、深度学习和自然语言处理？

机器学习和人工智能有什么区别？