资料介绍
每天数十亿字节的数据收集下,了解大数据的复杂内涵非常重要。为了帮助你了解这一领域,我们从最近的大数据指南中编辑了一个列表,列出了最重要的相关术语和定义。
你认为我们还应该添加哪些术语?请在评论中告诉我们。
A
算法:给予AI、神经网络或其他机器的一组规则,以帮助其自己学习;分类、聚类、推荐和回归是四种最常用的算法类型。
Apache Flink:一个开源的流数据处理框架。用Java和Scala编写,用作分布式流数据流引擎。
Apache Hadoop:开源工具,使用MapReduce处理和存储跨机器的大型分布式数据集。
Apache Kafka:一种分布式流式传输平台,通过提高吞吐量、内置分区、复制、延迟和可靠性来改进传统的消息代理。
Apache NiFi:一种开源Java服务器,可以以可扩展、可插拔、开放的方式实现系统间数据流的自动化。NiFi由国家安全局(NSA)开源。
Apache Spark:在Apache Hadoop、Mesos或云端运行的开源大数据处理引擎。
B
大数据:大量数据的通用术语。大数据的数据具有高速、多样化、海量的特征。
Blob存储:一种Azure服务,将非结构化数据存储在云中作为blob或对象。
商业智能:可视化和分析商业数据的过程,以便采取可行且明智的决策。
C
集群:共享特定特征的数据子集,也指几台机器共同解决同一问题。
约束应用协议(COAP):有限资源设备的一种互联网应用协议,可以转换成HTTP。
D
数据工程:收集、存储、处理数据,以便数据科学家查询。
数据流管理:采集原始设备数据的专门过程,同时管理成千上万生产者和消费者的流量。然后执行基本数据丰富、流分析、聚合、拆分、模式转换、格式转换等初级步骤,为进一步业务处理做数据准备。
数据治理:管理数据湖中数据的可获得性、可使用性、完整性和安全性的过程。
数据整合:组合不同来源数据并为用户提供统一视图的过程。
数据湖:一种以原始格式保存原始数据的存储库。
数据挖掘:通过检查和分析大型数据库来生成新信息的做法。
数据实现:将变量严格定义为可衡量因素的过程。
数据准备:收集、清理、整合数据到一个文件或数据表中,主要用于分析。
数据处理:机器检索、变换、分析或分类信息的过程。
数据科学:探索可重复的流程和方法,从而从数据中获取知识的领域。
数据沼泽:没有适当治理的数据湖就会变成数据沼泽。
数据验证:检查数据集以确保所有数据在处理之前是整洁、正确和有用的。
数据仓库:各种来源的大量数据,用于帮助公司做出明智的决策。
设备层:依据所处的环境和性能特征,来发送数据流的传感器、执行器、智能手机、网关和工业设备的整个范围。
G
GPU加速数据库:摄取流数据所需的数据库。
图形分析:组合和可视化一组数据中不同数据点之间的关系的方法。
H
Hadoop:用于处理和存储大数据的编程框架,特别是在分布式计算环境中。
I
摄取:从任意数量不同的来源中摄取流数据。
M
MapReduce:一种数据处理模型,在Map阶段过滤和排序数据,然后对该数据执行功能并在Reduce阶段输出。
Munging:将数据从原始格式手动转换或映射到便于使用的格式。
N
正态分布:代表大量随机变量概率的常用图,随着数据集变大,这些变量接近正态。也称为高斯分布或钟形曲线。
规范化:将数据组织到表中的过程,使得数据库的使用结果始终是明确且按计划进行的。
P
解析:将数据(如字符串)分割成更小的部分进行分析。
持久存储:创建数据进程结束后,保存数据在一个不变地点(如磁盘)。
Python:一种强调代码可读性的通用编程语言,以便程序员使用较少的代码来表达概念。
R
R:一种主要用于数据可视化和预测分析的开源语言。
实时流处理:通过并行使用机器分析数据序列的模型,但功能有所减少。
关系数据库管理系统(RDBMS):一种基于共享属性(称为关系)分组的管理、捕获和分析数据的系统。
弹性分布式数据集:Apache Spark提取数据的主要方式,数据以一种可容错方式存储在多台机器上。
S
碎片:数据库的单独分区。
智能数据:一种格式化的数码信息,可以在发送到下游分析平台进行进一步数据整合和分析之前在采集点进行操作。
流处理:数据的实时处理。数据被连续、并发和记录处理。
结构化数据:具有高度组织的信息。
T
分类:根据预先确定的系统对数据进行分类,结果目录用于提供易于访问和检索的概念框架。
遥测:远程采集有关对象的信息(例如从汽车、智能手机、医疗设备或物联网设备)。
转换:将数据从一种格式转换为另一种格式。
U
非结构化数据:不具有预定义数据模型或未以预定义方式组织的数据。
V
可视化:分析数据并以可读、图形格式(如图表)进行表达的过程。
Z
区域:数据湖中的特定区域,服务于特定目的。
- ABB 变频器参数设定一览表 5次下载
- 铁氧体磁珠的基础知识一览资料下载
- 嵌入式的硬件构架一览资料下载
- 人脸识别技术流程一览资料下载
- 各类电容的特性及失效分析一览资料下载
- SKYLAB 现有WiFi模块一览表 10次下载
- 世界各国家(地区)电压、插头规格一览表 46次下载
- 电动汽车最新热门电池技术一览 0次下载
- 电机及驱动产品规格型号一览表 13次下载
- 指令处理时间/步数一览
- 全系列KVM解决方案规格参数一览表
- 一般继电器 (Relay)一览表
- 世界各国和地电压一览表
- FBs PLC应用指令一览表
- 出差报告资料表一览表
- 大数据技术是干嘛的 大数据核心技术有哪些 2288次阅读
- STM32供电方案一览 4621次阅读
- Ubuntu 23.04新特性一览 698次阅读
- 什么才是真正的大数据 关于大数据的几个特性 2815次阅读
- 互联网大数据和物联网大数据到底有什么不同之处 5990次阅读
- 大数据是什么_大数据技术和应用的现状与前景 2.3w次阅读
- 什么是大数据分析?大数据分析的含义与目前形式 1.6w次阅读
- 解读大数据的定义及运行与分析 2635次阅读
- 为什么要降维?降维技术一览 1.8w次阅读
- 25个基本大数据术语,帮助你温故知新 3108次阅读
- 覆铜板生产厂家排名_覆铜板概念股一览 7w次阅读
- 福禄克万用表型号及选型一览(福禄克万用表使用方法详解) 8w次阅读
- 人机交互概念股龙头有哪些_人机交互概念股龙头一览 1w次阅读
- 国内有哪些大数据公司_最新中国大数据公司排名 5.3w次阅读
- 最新大数据概念股龙头_大数据概念龙头股有哪些 4.3w次阅读
下载排行
本周
- 1电子电路原理第七版PDF电子教材免费下载
- 0.00 MB | 1490次下载 | 免费
- 2单片机典型实例介绍
- 18.19 MB | 92次下载 | 1 积分
- 3S7-200PLC编程实例详细资料
- 1.17 MB | 27次下载 | 1 积分
- 4笔记本电脑主板的元件识别和讲解说明
- 4.28 MB | 18次下载 | 4 积分
- 5开关电源原理及各功能电路详解
- 0.38 MB | 10次下载 | 免费
- 6基于AT89C2051/4051单片机编程器的实验
- 0.11 MB | 4次下载 | 免费
- 7蓝牙设备在嵌入式领域的广泛应用
- 0.63 MB | 3次下载 | 免费
- 89天练会电子电路识图
- 5.91 MB | 3次下载 | 免费
本月
- 1OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234313次下载 | 免费
- 2PADS 9.0 2009最新版 -下载
- 0.00 MB | 66304次下载 | 免费
- 3protel99下载protel99软件下载(中文版)
- 0.00 MB | 51209次下载 | 免费
- 4LabView 8.0 专业版下载 (3CD完整版)
- 0.00 MB | 51043次下载 | 免费
- 5555集成电路应用800例(新编版)
- 0.00 MB | 33562次下载 | 免费
- 6接口电路图大全
- 未知 | 30320次下载 | 免费
- 7Multisim 10下载Multisim 10 中文版
- 0.00 MB | 28588次下载 | 免费
- 8开关电源设计实例指南
- 未知 | 21539次下载 | 免费
总榜
- 1matlab软件下载入口
- 未知 | 935053次下载 | 免费
- 2protel99se软件下载(可英文版转中文版)
- 78.1 MB | 537791次下载 | 免费
- 3MATLAB 7.1 下载 (含软件介绍)
- 未知 | 420026次下载 | 免费
- 4OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234313次下载 | 免费
- 5Altium DXP2002下载入口
- 未知 | 233045次下载 | 免费
- 6电路仿真软件multisim 10.0免费下载
- 340992 | 191183次下载 | 免费
- 7十天学会AVR单片机与C语言视频教程 下载
- 158M | 183277次下载 | 免费
- 8proe5.0野火版下载(中文版免费下载)
- 未知 | 138039次下载 | 免费
评论
查看更多