25个大数据术语概念解析-电子发烧友网

如果你初来乍到，大数据看起来很吓人！根据你掌握的基本理论，让我们专注于一些关键术语以此给你的约会对象、老板、家人或者任何一个人带来深刻的印象。

让我们开始吧：

1.算法。“算法”如何与大数据相关？即使算法是一个通用术语，但大数据分析使其在当代更受青睐和流行。

2.分析。年末你可能会收到一份来自信用卡公司寄来的包含了全年所有交易记录的年终报表。如果你有兴趣进一步分析自己在食物、衣服、娱乐等方面具体花费占比呢？那你便是在做“分析”了。你正从一堆原始数据中来吸取经验，以帮助自己为来年的消费做出决策。如果你正在针对整个城市人群对Twitter或Facebook的帖子做同样的练习呢？那我们便是在讨论大数据分析了。大数据分析的实质是利用大量数据来进行推断和讲故事。大数据分析有3种不同到的类型，接下来便继续本话题进行依次讨论。

3.描述性分析。刚刚如果你告诉我，去年你的信用卡消费在食物上花费了25%、在服装上花费了35%、娱乐活动上花费了20%、剩下的就是杂七杂八的事项，这种便是描述性分析。当然你还可以参考更多的细节。

4.预测分析。如果你根据过去5年的信用卡历史记录来进行分析，并且划分具有一定的连续性，则你可以高概率预测明年将与过去几年相差无几。此处需要注意的细节是，这并不是“预测未来”，而是未来可能会发生的“概率”。在大数据预测分析中，数据科学家可能会使用类似机器学习、高级的统计过程（后文将对这些术语进行介绍）等先进的技术去预测天气、经济变化等。

5.规范分析。沿用信用卡交易的案例，你可能想要找出哪方面的支出（级食品、服装、娱乐等）对自己的整体支出产生巨大的影响。规范分析建立在预测分析的基础之上，包含了“行动”记录（例如减少食品、服装、娱乐支出），并分析所得结果来“规定”最佳类别以减少总体支出。你可以尝试将其发散到大数据，并设想高管们如何通过查看各种行动的影响来做出数据驱动的决策。

6.批处理。虽然批量数据处理在大型机时代就早已出现，但大数据交给它更多大数据集处理，因此赋予了批处理更多的意义。对于一段时间内收集到的一组事务，批量数据处理为处理大量数据提供了一种有效的方法。后文将介绍的Hadoop便是专注于批量数据处理。超越批处理的世界：流计算使用Spark SQL构建批处理程序。

7. Cassandra是由Apache Software Foundation管理的一款流行的开源数据库管理系统。很多大数据技术都归功于Apache，其中Cassandra的设计初衷便是处理跨分布式服务器的大量数据。

8. 云计算。显而易见云计算已经变得无所不在，所以本文可能无须赘述，但为了文章的完整性还是佐以介绍。云计算的本质是在远程服务器上运行的软件和（/或）数据托管，并允许从互联网上的任何地方进行访问。

9. 集群计算。它是一种利用多台服务器的汇集资源的“集群”来进行计算的奇特方式。在了解了更多技术之后，我们可能还会讨论节点、集群管理层、负载平衡和并行处理等。

10. 黑暗数据。依我看来，这个词适用于那些吓得六神无主的高级管理层们。从根本上来说，黑暗数据是指那些被企业收集和处理但又不用于任何有意义用途的数据，因此描述它是“黑暗的”，它们可能永远被埋没。它们可能是社交网络信息流、呼叫中心日志、会议笔记，诸如此类。人们做出了诸多估计，在60-90%的所有企业数据都可能是“黑暗数据”，但无人真正知晓。

11. 数据湖。当我第一次听到这个词的时候，我真的以为有人在开愚人节的玩笑。但它真的是个术语！数据湖是一个原始格式的企业级数据的大型存储库。虽然此处讨论的是数据湖，但有必要再一起讨论下数据仓库，因为数据湖和数据仓库在概念上是极其相似的，都是企业级数据的存储库，但在清理和与其他数据源集成之后的结构化格式上有所区别。数据仓库常用于常规数据（但不完全）。据说数据湖能够让用户轻松访问企业级数据，用户真正按需知道自己正在寻找的是什么、如何处理并让其智能化使用。拥抱开源技术的前提——认识数据湖你知道数据湖泊（DATA LAKE）吗？

12. 数据挖掘。数据挖掘是指利用复杂的模式识别技术从大量数据中找到有意义的模式、提取见解。这与我们前文讨论的使用个人数据做分析的术语“分析”密切相关。为了提取出有意义的模式，数据挖掘者使用统计学（是呀，好老的数学）、机器学习算法和人工智能。

13.数据科学家。我们谈论的是一个如此热门的职业！数据科学家们可以通过提取原始数据（难道是从前文所说的数据湖中提取的？），处理数据，然后提出新见解。数据科学家所需具备的一些技能与超人无异：分析、统计、计算机科学、创造力、故事讲述和理解业务环境。难怪他们能获得如此高的薪水报酬。

14.分布式文件系统。由于大数据太大而无法在单个系统上进行存储，分布式文件系统提供一种数据存储系统，方便跨多个存储设备进行大量数据的存放，并有助于降低大量数据存储的成本和复杂度。

15. ETL。ETL分别是extract，transform，load的首字母缩写，代表提取、转化和加载的过程。它具体是指“提取”原始数据，通过数据清洗/修饰的方式进行“转化”以获得 “适合使用”的数据，进而“加载”到合适的存储库中供系统使用的整个过程。尽管ETL这一概念源于数据仓库，但现在也适用于其它情景下的过程，例如在大数据系统中从外部数据源获取/吸收数据。我们需要什么样的ETL？

工程师要不要写ETL？——教你构建高效的算法/数据科学部门 ETL的经验总结

16. Hadoop。人们一想起大数据就能立即想到Hadoop。 Hadoop（拥有可爱的大象LOGO）是一个开源软件框架，主要组成部分是Hadoop分布式文件系统（HDFS），Hadoop部署了分布式硬件以支持大型数据集的存储、检索和分析。如果你真的想给别人留下深刻的印象，还可以谈谈YARN（Yet Another Resource Schedule，另一个资源调度器），正如其名，它也是一个资源调度器。我由衷佩服这些为程序命名的人。为Hadoop命名的Apache基金会还想出了Pig，Hive和Spark（没错，它们都是各种软件的名称）。这些名字难道不让你感到印象深刻吗？

17. 内存计算。一般来说，任何可以在不访问I / O的情况下进行的计算预计会比需要访问I/O的速度更快。内存内计算是一种能够将工作数据集完全转移到集群的集体内存中、并避免了将中间计算写入磁盘的技术。Apache Spark便是一种内存内计算系统，它与I / O相比，在像Hadoop MapReduce这样的系统上绑定具有巨大的优势。

18. IOT。最新的流行语是物联网（Internet of things，简称IOT）。IOT是通过互联网将嵌入式对象（传感器、可穿戴设备、汽车、冰箱等）中的计算设备互连在一起，并且能够发送/接收数据。IOT产生了大量的数据，这为呈现大数据分析提供了更多的机会。

19.机器学习。机器学习是为了设计一种基于提供的数据能够进行不断学习、调整、改进的系统的设计方法。机器使用预测和统计的算法进行学习并专注于实现“正确的”行为模式和简见解，随着越来越多的数据注入系统它还在不断进行优化改进。典型的应用有欺诈检测、在线个性化推荐等。

20.MapReduce。MapReduce的概念可能会有点混乱，但让我试一试。MapReduce是一个编程模型，最好的理解方法是将Map和Reduce是看作两个独立的单元。在这种情况下，编程模型首先将大数据的数据集分成几个部分（技术术语上是称作“元组”，但本文并不想太过技术性），因此可以部署到不同位置的不同计算机上（即前文所述的集群计算），这些本质上是Map的组成部分。接下来该模型收集到所有结果并将“减少”到同一份报告中。 MapReduce的数据处理模型与hadoop的分布式文件系统相辅相成。

21.NoSQL。乍一听这像是针对传统关系型数据库管理系统（RDBMS）的面向对象的SQL（Structured Query Language，结构化查询语言）的抗议，其实NoSQL代表的是NOT ONLY SQL，意即“不仅仅是SQL”。 NoSQL实际上是指被用来处理大量非结构化、或技术上被称作“图表”（例如关系型数据库的表）等数据的数据库管理系统。NoSQL数据库一般非常适用于大型数据系统，这得益于它们的灵活性以及大型非结构化数据库所必备的分布式结构。

22.R语言。有人能想到比这个编程语言更糟糕的名字吗？是的，’R’是一门在统计计算中表现非常优异的编程语言。如果你连’R’都不知道，那你就不是数据科学家。（如果你不知道’R’，就请不要把那些糟糕的代码发给我了）。这就是在数据科学中最受欢迎的语言之一的R语言。

23. Spark（Apache Spark）。Apache Spark是一种快速的内存内数据处理引擎，它可以高效执行需要快速迭代访问数据集的流、机器学习或SQL工作负载。Spark通常比我们前文讨论的MapReduce快很多。

24.流处理。流处理旨在通过“连续”查询对实时和流数据进行操作。结合流分析（即在流内同时进行连续计算数学或统计分析的能力），流处理解决方案可以被用来实时处理非常大的数据。

25. 结构化和非结构化数据。这是大数据5V中的“Variety”多样性。结构化数据是能够放入关系型数据库的最基本的数据类型，通过表的组织方式可以联系到任何其他数据。非结构化数据则是所有不能直接存入关系数据库中的数据，例如电子邮件、社交媒体上的帖子、人类录音等。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

大数据

大数据

+关注

关注
64

文章
8897

浏览量
137534

工程大数据平台

由于无人驾驶系统开发需要长期迭代优化，其过程需要大量的路试数据支撑，经纬恒润针对无人驾驶系统持续运营和持续迭代的需求，开发并在云端部署了车路云工程大数据平台，依托5G网络，具有远程数据采集、压缩、传输、

发表于 01-10 17:00 •44次阅读

国产舜铭存储SF25C20对标MB85RS2MT性能、优势全面解析

发表于 01-06 10:20 •68次阅读

国产舜铭存储SF<b class='flag-5'>25</b>C20对标MB85RS2MT性能、优势全面<b class='flag-5'>解析</b>

多片ADS1271数据不稳定的原因？怎么解决？

判断数据是否开始转换，其他芯片DRDY不接。现在上电后虽然6片都有数据输出，但是我把第一片差分负端接地，正端接一固定电压（0-2.5v之间）时，第一路输出中间偶尔会出现一个大数，能看出完全不是正常

发表于 01-03 07:11

ADS1675最大数据吞吐率是是多少？

ADS1675 24bit的ADC的采样率最大是4Msps，请问这款adc的最大数据吞吐率是是多少？怎么算的，在datasheet中有明确写出来吗

发表于 11-28 07:56

VLAN 概念解析及使用场景

1. VLAN 概念解析 VLAN（Virtual Local Area Network，虚拟局域网）是一种在交换网络中划分不同广播域的技术。VLAN 的主要目的是将一个物理局域网划分成多个逻辑

发表于 11-19 09:33 •879次阅读

raid 在大数据分析中的应用

RAID（Redundant Array of Independent Disks，独立磁盘冗余阵列）在大数据分析中的应用主要体现在提高存储系统的性能、可靠性和容量上。以下是RAID在大数据分析中

发表于 11-12 09:44 •267次阅读

智慧城市与大数据的关系

智慧城市与大数据之间存在着密切的关系，这种关系体现在大数据对智慧城市建设的支撑和推动作用，以及智慧城市产生的大量数据对大数据技术的应用需求。 大数据

发表于 10-24 15:27 •770次阅读

梯云物联智慧电梯数据先行：电梯大数据平台构建安全生态

在现代化城市的摩天大楼中，电梯作为垂直交通的动脉，其安全性与效率直接关系到居民的生活质量和社会运行的顺畅。随着物联网、大数据、云计算等技术的飞速发展，智慧电梯的概念应运而生，而梯云物联电梯大数据平台

发表于 08-23 09:57 •410次阅读

使用CYW20829的BLE进行最大数据发送应用，BLE丢失数据如何解决？

我目前正在使用 CYW20829 的 BLE 进行最大数据发送应用，我使用的是 FREERTOS（例程 Bluetooth_LE_GATT_Throughput_Server 是我的参考），蓝牙被

发表于 07-23 07:56

大数据采集系统分为几类

大数据采集系统是大数据生态系统中的重要组成部分，它负责从各种数据源收集、整合和存储数据。根据不同的数据源、采集方法和应用场景，

发表于 07-01 15:44 •1620次阅读

请问一个大数组是不是不能同时跨用内外部SRAM？

外部SRAM已经测试可用（循环全写后读出来做数据比对），然后在MDK中启用外部ram的设置，并且申请一个1024*1024字节的大数组，编译后在map文件中已经能够看到 Total RWSize

发表于 03-26 07:06

如何采用“状态机”解析UART数据帧

如果一个系统接收上述“不定长度”的协议帧，将会有一个挑战--如何高效接收与解析。为简化系统设计，我们强烈建议您采用“状态机”来解析UART数据

发表于 03-25 14:29 •744次阅读

CYBT-343026传输大数据时会丢数据的原因？

我正在使用 CYBT-343026 (CYW-20706 Silicon) 模块。我根据 SPP 样本制作了一个操作 SPP 的应用程序。但是，传输大数据时有时会丢失数据。它从

发表于 03-01 15:04

通过CY7C68013A想实现一个generic HID设备，如何修改描述符及端点最大数据包的大小？

通过CY7C68013A想实现一个generic HID设备，使用一个中断型输入端点和一个中断型输出端点，最大数据包长度均为1024（或512？）字节，请问基于CY3684开发套件提供

发表于 02-28 06:37

大数据技术是干嘛的 大数据核心技术有哪些

大数据技术是指用来处理和存储海量、多类型、高速的数据的一系列技术和工具。现如今，大数据已经渗透到各个行业和领域，对企业决策和业务发展起到了重要作用。本文将详细介绍大数据技术的

发表于 01-31 11:07 •3585次阅读

搜索历史

25个大数据术语概念解析

评论

工程大数据平台

国产舜铭存储SF25C20对标MB85RS2MT性能、优势全面解析

多片ADS1271数据不稳定的原因？怎么解决？

ADS1675最大数据吞吐率是是多少？

VLAN 概念解析及使用场景

raid 在大数据分析中的应用

智慧城市与大数据的关系

梯云物联智慧电梯数据先行：电梯大数据平台构建安全生态

使用CYW20829的BLE进行最大数据发送应用，BLE丢失数据如何解决？

大数据采集系统分为几类

请问一个大数组是不是不能同时跨用内外部SRAM？

如何采用“状态机”解析UART数据帧

CYBT-343026传输大数据时会丢数据的原因？

通过CY7C68013A想实现一个generic HID设备，如何修改描述符及端点最大数据包的大小？

大数据技术是干嘛的大数据核心技术有哪些