大数据领域75个核心术语详解（上）-电子发烧友网

Ramesh Dontha 曾在 DataConomy 上连发两篇文章，扼要而全面地介绍了关于大数据的 75 个核心术语，这不仅是大数据初学者很好的入门资料，对于高阶从业人员也可以起到查漏补缺的作用。本文为上篇（25 个术语）。

如果你刚接触大数据，你可能会觉得这个领域很难以理解，无从下手。不过，你可以从下面这份包含了 25 个大数据术语的清单入手，那么我们开始吧。

算法（Algorithm）：

算法可以理解成一种数学公式或用于进行数据分析的统计学过程。那么，“算法”又是何以与大数据扯上关系的呢？要知道，尽管算法这个词是一个统称，但是在这个流行大数据分析的时代，算法也经常被提及且变得越发流行。

分析（Analytics）：

让我们试想一个很可能发生的情况，你的信用卡公司给你发了封记录着你全年卡内资金转账情况的邮件，如果这个时候你拿着这张单子，开始认真研究你在食品、衣物、娱乐等方面消费情况的百分比会怎样？你正在进行分析工作，你在从你原始的数据（这些数据可以帮助你为来年自己的消费情况作出决定）中挖掘有用的信息。

那么，如果你以类似的方法在推特和脸书上对整个城市人们发的帖子进行处理会如何呢？在这种情况下，我们就可以称之为大数据分析。所谓大数据分析，就是对大量数据进行推理并从中道出有用的信息。以下有三种不同类型的分析方法，现在我们来对它们分别进行梳理。

描述性分析法（Descriptive Analytics）：

如果你只说出自己去年信用卡消费情况为：食品方面 25%、衣物方面 35%、娱乐方面 20%、剩下 20% 为杂项开支，那么这种分析方法被称为描述性分析法。当然，你也可以找出更多细节。

预测性分析法（Predictive Analytics）：

如果你对过去 5 年信用卡消费的历史进行了分析，发现每年的消费情况基本上呈现一个连续变化的趋势，那么在这种情况下你就可以高概率预测出：来年的消费状态应该和以往是类似的。这不是说我们在预测未来，而是应该理解为，我们在“用概率预测”可能发生什么事情。在大数据的预测分析中，数据科学家可能会使用先进的技术，如机器学习，和先进的统计学处理方法（这部分后面我们会谈到）来预测天气情况、经济变化等等。

规范性分析（Prescriptive Analytics）：

这里我们还是用信用卡转账的例子来理解。假如你想找出自己的哪类消费（如食品、娱乐、衣物等等）可以对整体消费产生巨大影响，那么基于预测性分析（Predictive Analytics）的规范性分析法通过引入“动态指标（action）”（如减少食品或衣物或娱乐）以及对由此产生的结果进行分析来规定一个可以降低你整体开销的最佳消费项。你可以将它延伸到大数据领域，并想象一个负责人是如何通过观察他面前多种动态指标的影响，进而作出所谓由“数据驱动”的决策的。

批处理（Batch processing）：

尽管批量数据处理从大型机（mainframe）时代就已经存在了，但是在处理大量数据的大数据时代面前，批处理获得了更重要的意义。批量数据处理是一种处理大量数据（如在一段时间内收集到的一堆交易数据）的有效方法。分布式计算（Hadoop），后面会讨论，就是一种专门处理批量数据的方法。

Cassandra：

是一个很流行的开源数据管理系统，由 Apache Software Foundation 开发并运营。Apache 掌握了很多大数据处理技术，Cassandra 就是他们专门设计用于在分布式服务器之间处理大量数据的系统。

云计算（Cloud computing）：

虽然云计算这个词现在已经家喻户晓，这里大可不必赘述，但是为了全篇内容完整性的考虑，笔者还是在这里加入了云计算词条。本质上讲，软件或数据在远程服务器上进行处理，并且这些资源可以在网络上任何地方被访问，那么它就可被称为云计算。

集群计算（Cluster computing）：

这是一个来描述使用多个服务器丰富资源的一个集群（cluster）的计算的形象化术语。更技术层面的理解是，在集群处理的语境下，我们可能会讨论节点（node）、集群管理层（cluster management layer）、负载平衡（load balancing）和并行处理（parallel processing）等等。

暗数据（Dark data）：

这是一个生造词，在笔者看来，它是用来吓唬人，让高级管理听上去晦涩难懂的。基本而言，所谓暗数据指的是，那些公司积累和处理的实际上完全用不到的所有数据，从这个意义上来说我们称它们为“暗”的数据，它们有可能根本不会被分析。这些数据可以是社交网络中的信息，电话中心的记录，会议记录等等。很多估计认为所有公司的数据中有 60% 到 90% 不等可能是暗数据，但实际上没人知道。

数据湖（Data lake）：

当笔者第一次听到这个词时，真的以为这是个愚人节笑话。但是它真的是一个术语。所以一个数据湖（data lake）即一个以大量原始格式保存了公司级别的数据知识库。这里我们介绍一下数据仓库（Data warehouse）。数据仓库是一个与这里提到的数据湖类似的概念，但不同的是，它保存的是经过清理和并且其它资源整合后的结构化数据。数据仓库经常被用于通用数据（但不一定如此）。一般认为，一个数据湖可以让人更方便地接触到那些你真正需要的数据，此外，你也可以更方便地处理、有效地使用它们。

数据挖掘（Data mining）：

数据挖掘关乎如下过程，从一大群数据中以复杂的模式识别技巧找出有意义的模式，并且得到相关洞见。它与前文所述的“分析”息息相关，在数据挖掘中，你将会先对数据进行挖掘，然后对这些得到的结果进行分析。为了得到有意义的模式（pattern），数据挖掘人员会使用到统计学（一种经典的旧方法）、机器学习算法和人工智能。

数据科学家：

数据科学家是时下非常性感的一门行业。它指那些可以通过提取原始数据（这就是我们前面所谓的数据湖）进而理解、处理并得出洞见的这样一批人。部分数据科学家必备的技能可以说只有超人才有：分析能力、统计学、计算机科学、创造力、讲故事能力以及理解商业背景的能力。难怪这帮人工资很高。

分布式文件系统（Distributed File System）：

大数据数量太大，不能存储在一个单独的系统中，分布式文件系统是一个能够把大量数据存储在多个存储设备上的文件系统，它能够减少存储大量数据的成本和复杂度。

ETL：

ETL 代表提取、转换和加载。它指的是这一个过程：“提取”原始数据，通过清洗/丰富的手段，把数据“转换”为“适合使用”的形式，并且将其“加载”到合适的库中供系统使用。即使 ETL 源自数据仓库，但是这个过程在获取数据的时候也在被使用，例如，在大数据系统中从外部源获得数据。

Hadoop：

当人们思考大数据的时候，他们会立即想到 Hadoop。Hadoop 是一个开源软件架构（logo 是一头可爱的大象），它由 Hadoop 分布式文件系统（HDFS）构成，它允许使用分布式硬件对大数据进行存储、抽象和分析。如果你真的想让某人对这个东西印象深刻，你可以跟他说 YARN(Yet Another Resource Scheduler)，顾名思义，就是另一个资源调度器。我确实被提出这些名字的人深深震撼了。提出 Hadoop 的 Apache 基金会，还负责 Pig、Hive 以及 Spark（这都是一些软件的名字）。你没有被这些名字惊艳到吗？

内存计算（In-memory computing）：

通常认为，任何不涉及到 I/O 访问的计算都会更快一些。内存计算就是这样的技术，它把所有的工作数据集都移动到集群的集体内存中，避免了在计算过程中向磁盘写入中间结果。Apache Spark 就是一个内存计算的系统，它相对 Mapreduce 这类 I/O 绑定的系统具有很大的优势。

物联网（IoT）：

最新的流行语就是物联网（IoT）。IoT 是嵌入式对象中（如传感器、可穿戴设备、车、冰箱等等）的计算设备通过英特网的互联，它们能够收发数据。物联网生成了海量的数据，带来了很多大数据分析的机遇。

机器学习（Machine Learning）：

机器学习是基于喂入的数据去设计能够学习、调整和提升的系统的一种方法。使用设定的预测和统计算法，它们持续地逼近“正确的”行为和想法，随着更多的数据被输入到系统，它们能够进一步提升。

MapReduce：

MapReduce 可能有点难以理解，我试着解释一下吧。MapReduceMapReduce 是一个编程模型，最好的理解就是要注意到 Map 和 Reduce 是两个不同的过程。在 MapReduce 中，程序模型首先将大数据集分割成一些小块（这些小块拿技术术语来讲叫做“元组”，但是我描述的时候会尽量避免晦涩的技术术语）。

然后这些小块会被分发给不同位置上的不同计算机（也就是说之前描述过的集群），这在 Map 过程是必须的。然后模型会收集每个计算结果，并且将它们“reduce”成一个部分。MapReduce 的数据处理模型和 Hadoop 分布式文件系统是分不开的。

非关系型数据库（NoSQL）：

这个词听起来几乎就是“SQL，结构化查询语言”的反义词，SQL 是传统的关系型数据管理系统（RDBMS）必需的，但是 NOSQL 实际上指的是“不止 SQL”。NoSQL 实际上指的是那些被设计来处理没有结构（或者没有“schema”，纲要）的大量数据的数据库管理系统。NoSQL 适合大数据系统，因为大规模的非结构化数据库需要 NoSQL 的这种灵活性和分布式优先的特点。

R 语言：

这还有人能给一个编程语言起一个更加糟糕的名字吗？R 语言就是这样的语言。不过，R 语言是一个在统计工作中工作得很好的语言。如果你不知道 R 语言，别说你是数据科学家。因为 R 语言是数据科学中最流行的编程语言之一。

Spark（Apache Spark）：

Apache Spark 是一个快速的内存数据处理引擎，它能够有效地执行那些需要迭代访问数据库的流处理、机器学习以及 SQL 负载。Spark 通常会比我们前面讨论过的 MapReduce 快好多。

流处理（Stream processing）：

流处理被设计来用于持续地进行流数据的处理。与流分析技术（指的是能够持续地计算数值和统计分析的能力）结合起来，流处理方法特别能够针对大规模数据的实时处理。

结构化 vs 非结构化数据（Structured v Unstructured Data）：

这是大数据中的对比之一。结构化数据基本上是那些能够被放在关系型数据库中的任何数据，以这种方式组织的数据可以与其他数据通过表格来关联。非结构化数据是指任何不能够被放在关系型数据库中的数据，例如邮件信息、社交媒体上的状态，以及人类语音等等。

编辑：jq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

云计算

云计算

+关注

关注
39

文章
7838

浏览量
137542
物联网

物联网

+关注

关注
2909

文章
44743

浏览量
374538
机器学习

机器学习

+关注

关注
66

文章
8425

浏览量
132769
内存计算

内存计算

+关注

关注
1

文章
15

浏览量
12188

43个EMC核心术语精选！必备收藏！

43个EMC核心术语精选！必备收藏！时源芯微EMC（电磁兼容）领域，充斥着众多专业术语，令人眼花缭乱。1 电磁兼容（EMC）定义：指电气装置或系统在共同的电磁环境条件下，既能保持正常功

发表于 12-31 10:50

大数据的3V、4V、7V，到底是什么意思？

数据体量增加到一定程度时，相关技术、理念、思维等，都随之发生质变，从而形成了一个新的领域，这就是大数据领域。

发表于 12-06 01:01 •221次阅读

<b class='flag-5'>大数据</b>的3V、4V、7V，到底是什么意思？

半导体术语小百科

面对半导体行业的高速发展，掌握核心术语不仅是行业人的基本功，更是沟通无碍的关键。无论你是刚入行的新手，还是经验丰富的达人，这份“半导体术语小百科”将带你走进从硅到微芯片、从前端到后端的每一环节。

发表于 11-20 11:39 •413次阅读

raid 在大数据分析中的应用

RAID（Redundant Array of Independent Disks，独立磁盘冗余阵列）在大数据分析中的应用主要体现在提高存储系统的性能、可靠性和容量上。以下是RAID在大数据分析中

发表于 11-12 09:44 •265次阅读

智慧城市与大数据的关系

智慧城市与大数据之间存在着密切的关系，这种关系体现在大数据对智慧城市建设的支撑和推动作用，以及智慧城市产生的大量数据对大数据技术的应用需求。 大数据

发表于 10-24 15:27 •756次阅读

LM75B和LM75工业标准数字温度传感器数据表

电子发烧友网站提供《LM75B和LM75工业标准数字温度传感器数据表.pdf》资料免费下载

发表于 08-14 09:46 •0次下载

大数据在军事训练领域的应用有哪些

智慧华盛恒辉大数据在军事训练领域的应用广泛且深入，以下是具体的应用点及其归纳：智慧华盛恒辉个性化训练计划：通过收集和分析每个士兵的训练数据，如射击命中率、行军速度、体能训练成绩等，可以为每个士兵

发表于 06-23 10:21 •663次阅读

解锁电梯大数据平台的商业价值与未来展望

在智能建筑领域，电梯大数据平台作为关键技术之一，正逐渐成为行业的焦点。本文深圳梯云物联科技有限公司小编将深入探讨电梯大数据平台的商业价值以及未来展望，为您揭示这一领域的无限可能。

发表于 03-25 10:51 •421次阅读

CYBT-343026传输大数据时会丢数据的原因？

我正在使用 CYBT-343026 (CYW-20706 Silicon) 模块。我根据 SPP 样本制作了一个操作 SPP 的应用程序。但是，传输大数据时有时会丢失数据。它从

发表于 03-01 15:04

科达嘉电感器在大数据与人工智能领域被广泛应用

近年来，大数据与人工智能成为科技领域的热门话题。大数据为人工智能提供了大量的数据作为输入，使得人工智能算法和模型能够通过学习做出更准确的预测和决策。

发表于 02-29 13:56 •494次阅读

通过CY7C68013A想实现一个generic HID设备，如何修改描述符及端点最大数据包的大小？

通过CY7C68013A想实现一个generic HID设备，使用一个中断型输入端点和一个中断型输出端点，最大数据包长度均为1024（或512？）字节，请问基于CY3684开发套件提供

发表于 02-28 06:37

科达嘉电感器广泛应用于大数据及人工智能领域为AI赋能

近年来，大数据与人工智能成为科技领域的热门话题。大数据为人工智能提供了大量的数据作为输入，使得人工智能算法和模型能够通过学习做出更准确的预测和决策。

发表于 02-23 17:29 •852次阅读

美国拒绝OpenAI商标申请

美国专利商标局（PTO）再次拒绝了OpenAI将其核心术语“GPT”注册为商标的请求。PTO认为，GPT（生成式预训练转换器）作为一个术语过于通用，如果允许OpenAI独家使用，可能会妨碍竞争对手描述自己的产品为GPT。

发表于 02-18 10:19 •661次阅读

大数据技术是干嘛的 大数据核心技术有哪些

大数据技术是指用来处理和存储海量、多类型、高速的数据的一系列技术和工具。现如今，大数据已经渗透到各个行业和领域，对企业决策和业务发展起到了重要作用。本文将详细介绍

发表于 01-31 11:07 •3571次阅读

详解FPGA六大应用领域

字信号处理领域的表现，我想大家也已应该猜到了在高速接口设计领域，FPGA 必然也是有一席之地的。它的高速处理能力和多达成百上千个的 IO 决定了它在高速接口设计领域的独特优势。比如说

发表于 01-17 17:03

搜索历史

大数据领域75个核心术语详解（上）

评论

43个EMC核心术语精选！必备收藏！

大数据的3V、4V、7V，到底是什么意思？

半导体术语小百科

raid 在大数据分析中的应用

智慧城市与大数据的关系

LM75B和LM75工业标准数字温度传感器数据表

大数据在军事训练领域的应用有哪些

解锁电梯大数据平台的商业价值与未来展望

CYBT-343026传输大数据时会丢数据的原因？

科达嘉电感器在大数据与人工智能领域被广泛应用

通过CY7C68013A想实现一个generic HID设备，如何修改描述符及端点最大数据包的大小？

科达嘉电感器广泛应用于大数据及人工智能领域为AI赋能

美国拒绝OpenAI商标申请

大数据技术是干嘛的大数据核心技术有哪些

详解FPGA六大应用领域