大数据应用的开发流程-电子发烧友网

大数据常见处理流程包括：原始数据采集、数据清洗、数据存储、统计分析、存储至数据仓库、数据导出、导入数据库、数据可视化。

图片来源：学堂在线《大数据导论》

一、原始数据采集

原始数据采集的方式包括：爬虫程序采集、应用数据采集。

爬虫程序采集可在互联网中爬取需要的数据。

应用数据采集是指通过集群或分布式部署方式，将应用程序的日志文件存储于多个服务器中，再将日志文件数据集中存储。

二、数据清洗和数据存储

因为采集的数据中包含不符合要求的数据，如格式冲突的数据、漏项的数据、错误的数据等，所以需要数据清洗将不符合要求的数据去除。

数据清洗过程可以较简单，也可以较复杂。可以通过向数据缺失位置添加某值的方式简单完成数据清洗（含个人理解）；也可以通过复杂的机器学习模型清洗数据。

数据清洗可借助ETL软件（根据百度百科：ETL是数据仓库技术）。一般，数据被清洗后，数据量较大，无法存储于计算机内存中，因此，需将数据存储于HDFS（数据存储）中或其他大数据存储方式中。

三、统计分析和数据仓库

统计分析可通过选择合适统计分析工具完成。可使用MapReduce技术实现并行统计分析，也可使用Hive数据仓库（Hive数据仓库具有数据整理、特殊查询、分析存储功能）、Python、R等进行统计分析。

统计分析的难点不在于选择统计分析工具，而在于需求和分析对象。个人理解：具体的需求和分析对象多样导致统计分析不能简单地以某一方式解决所有统计分析问题。

统计分析结束后，数据可被存储于数据仓库中，可使用Hive数据仓库搭建所需的数据仓库。数据仓库的数据不能直接向用户呈现。

四、数据导出和数据库

因为数据仓库的数据不能直接向用户呈现，所以需要将数据从数据仓库导出，并将数据导入数据库中以实现数据可视化。数据导出可使用Sqoop（Sqoop可提供数据导入功能）。

数据库一般为关系型数据库。

五、数据可视化

数据可视化的目标是使数据可被直观展示，传统图形化展示方式种类较多（根据网络资料理解：传统图形化展示方式包括条形图、排列图、饼图、环形图等）。大数据新型可视化方式包括：气泡图、数据画像、地图涂色等。

六、大数据应用案例

下文介绍Hadoop自带的MapReduce应用案例Wor dCount，WordCount可统计文件的词频。

（1）启动Hadoop系统服务，需启动HDFS与Yarn服务（根据百度百科：Yarn是新的Hadoop资源管理器，是通用资源管理系统）。

图中红框内命令为HDFS启动命令，绿框内命令为Yarn服务启动命令，图片来源：根据学堂在线《大数据导论》资料制作

（2）检查Hadoop安全模式是否为“OFF”状态，如果Hadoop安全模式的状态为“ON”，则只能读取HDFS中的数据，不能向HDFS中写入数据。

（3）准备需要处理的数据，即查看文本文件中的内容。

图中红框内命令为查看文件内容命令，绿框内为文件中的内容，图片来源：根据学堂在线《大数据导论》资料制作

（4）执行WordCount应用程序。WordCount的具体命令是hadoopjar hadoopmapreduce-examples-2.9.2.jarwordcount 被统计文件的目录名与文件名统计结果输出文件目录名与文件名。

图中红框内为WordCount应用程序统计结果输出文件的内容，图片来源：根据学堂在线《大数据导论》资料制作

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据库

数据库

+关注

关注
7

文章
3866

浏览量
64965
机器学习

机器学习

+关注

关注
66

文章
8460

浏览量
133379
python

python

+关注

关注
56

文章
4812

浏览量
85276
HDFS

HDFS

+关注

关注
1

文章
30

浏览量
9694

原文标题：大数据相关介绍（11）——大数据应用的开发流程

文章出处：【微信号：行业学习与研究，微信公众号：行业学习与研究】欢迎添加关注！文章转载请注明出处。

大数据与云计算是干嘛的？

大数据与云计算是支撑现代数字化技术的两大核心。大数据专注于海量数据的采集、存储、分析与价值挖掘；云计算通过虚拟化资源池提供弹性计算、存储及服务能力。两者结合，共同赋能企业决策、业务创新和效率提升。下面UU云小编将详细剖析

发表于 02-20 14:48 •125次阅读

工程大数据平台

由于无人驾驶系统开发需要长期迭代优化，其过程需要大量的路试数据支撑，经纬恒润针对无人驾驶系统持续运营和持续迭代的需求，开发并在云端部署了车路云工程大数据平台，依托5G网络，具有远程

发表于 01-10 17:00 •241次阅读

缓存对大数据处理的影响分析

缓存对大数据处理的影响显著且重要，主要体现在以下几个方面：一、提高数据访问速度在大数据环境中，数据存储通常采用分布式存储系统，数据量庞大

发表于 12-18 09:45 •318次阅读

ADS1675最大数据吞吐率是是多少？

ADS1675 24bit的ADC的采样率最大是4Msps，请问这款adc的最大数据吞吐率是是多少？怎么算的，在datasheet中有明确写出来吗

发表于 11-28 07:56

raid 在大数据分析中的应用

RAID（Redundant Array of Independent Disks，独立磁盘冗余阵列）在大数据分析中的应用主要体现在提高存储系统的性能、可靠性和容量上。以下是RAID在大数据分析中

发表于 11-12 09:44 •368次阅读

emc技术在大数据分析中的角色

在当今这个数据驱动的世界中，大数据分析已经成为企业获取洞察力、优化业务流程和提高竞争力的关键工具。随着数据量的爆炸性增长，企业面临着如何有效存储、处理和分析这些

发表于 11-01 15:22 •385次阅读

MCU开发流程中的注意事项

以确保项目的顺利进行和最终产品的性能、可靠性和安全性。 1. 需求分析在开发流程的初期，需求分析是至关重要的。这一阶段需要明确项目的目标、功能、性能指标和用户需求。明确功能需求：确定MCU需要实现的具体功能，如数据处理、

发表于 11-01 13:52 •375次阅读

智慧城市与大数据的关系

智慧城市与大数据之间存在着密切的关系，这种关系体现在大数据对智慧城市建设的支撑和推动作用，以及智慧城市产生的大量数据对大数据技术的应用需求。 大数据

发表于 10-24 15:27 •911次阅读

电机控制方案开发流程

电机控制应用广泛，电机控制软件方案核心是MCU,功率器件、驱动器件；本文介绍电机控制方案开发的流程与需要解决的问题。

发表于 10-12 16:36 •1230次阅读

基于Kepware的Hadoop大数据应用构建-提升数据价值利用效能

处理超大数据集。 Hadoop的生态系统非常丰富，包括许多相关工具和技术，如Hive、Pig、HBase等，这些工具可以方便地构建复杂的大数据应用。Hadoop广泛应用于各种场景，包括数据处理和分析、

发表于 10-08 15:12 •224次阅读

设备管理：大数据赋能开启智能新篇章

传统设备管理存在人工录入易出错、流程复杂、效率低等问题，且缺乏对设备的全面管理和预防性维护。大数据应用面临数据安全问题，企业必须采取多方面措施保障数据安全，防止隐私泄露。

发表于 09-04 11:00 •77次阅读

使用CYW20829的BLE进行最大数据发送应用，BLE丢失数据如何解决？

我目前正在使用 CYW20829 的 BLE 进行最大数据发送应用，我使用的是 FREERTOS（例程 Bluetooth_LE_GATT_Throughput_Server 是我的参考），蓝牙被

发表于 07-23 07:56

迪文串口屏ModBus开发流程

这里接前一章节，继续迪文屏的开发，前章主要讲解基础开发流程，此章节开始讲解迪文ModBus协议栈的使用方法。前文指路：《迪文串口屏基础GUI开发流程

发表于 07-19 08:21 •676次阅读

大数据采集系统分为几类

大数据采集系统是大数据生态系统中的重要组成部分，它负责从各种数据源收集、整合和存储数据。根据不同的数据源、采集方法和应用场景，

发表于 07-01 15:44 •1861次阅读

大数据在军事方面的应用有哪些

智慧华盛恒辉大数据在军事方面的应用涵盖了多个方面，这些应用不仅提高了军事管理的效率和水平，也极大地提升了军队的作战能力和情报获取能力。以下是大数据在军事方面的主要应用：智慧华盛恒辉战争决策辅助

发表于 06-23 10:34 •1336次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

大数据应用的开发流程

评论

大数据与云计算是干嘛的？

工程大数据平台

缓存对大数据处理的影响分析

ADS1675最大数据吞吐率是是多少？

raid 在大数据分析中的应用

emc技术在大数据分析中的角色

MCU开发流程中的注意事项

智慧城市与大数据的关系

电机控制方案开发流程

基于Kepware的Hadoop大数据应用构建-提升数据价值利用效能

设备管理：大数据赋能开启智能新篇章

使用CYW20829的BLE进行最大数据发送应用，BLE丢失数据如何解决？

迪文串口屏ModBus开发流程

大数据采集系统分为几类

大数据在军事方面的应用有哪些