0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据应用的开发流程

RG15206629988 来源:行业学习与研究 2023-02-22 16:38 次阅读

大数据常见处理流程包括:原始数据采集、数据清洗、数据存储、统计分析、存储至数据仓库、数据导出、导入数据库、数据可视化。

49f2d180-b1d5-11ed-bfe3-dac502259ad0.png

图片来源:学堂在线《大数据导论》

一、原始数据采集

原始数据采集的方式包括:爬虫程序采集、应用数据采集。

爬虫程序采集可在互联网中爬取需要的数据。

应用数据采集是指通过集群或分布式部署方式,将应用程序的日志文件存储于多个服务器中,再将日志文件数据集中存储。

二、数据清洗和数据存储

因为采集的数据中包含不符合要求的数据,如格式冲突的数据、漏项的数据、错误的数据等,所以需要数据清洗将不符合要求的数据去除。

数据清洗过程可以较简单,也可以较复杂。可以通过向数据缺失位置添加某值的方式简单完成数据清洗(含个人理解);也可以通过复杂的机器学习模型清洗数据。

数据清洗可借助ETL软件(根据百度百科:ETL是数据仓库技术)。一般,数据被清洗后,数据量较大,无法存储于计算机内存中,因此,需将数据存储于HDFS(数据存储)中或其他大数据存储方式中。

三、统计分析和数据仓库

统计分析可通过选择合适统计分析工具完成。可使用MapReduce技术实现并行统计分析,也可使用Hive数据仓库(Hive数据仓库具有数据整理、特殊查询、分析存储功能)、Python、R等进行统计分析。

统计分析的难点不在于选择统计分析工具,而在于需求和分析对象。个人理解:具体的需求和分析对象多样导致统计分析不能简单地以某一方式解决所有统计分析问题。

统计分析结束后,数据可被存储于数据仓库中,可使用Hive数据仓库搭建所需的数据仓库。数据仓库的数据不能直接向用户呈现。

四、数据导出和数据库

因为数据仓库的数据不能直接向用户呈现,所以需要将数据从数据仓库导出,并将数据导入数据库中以实现数据可视化。数据导出可使用Sqoop(Sqoop可提供数据导入功能)。

数据库一般为关系型数据库。

五、数据可视化

数据可视化的目标是使数据可被直观展示,传统图形化展示方式种类较多(根据网络资料理解:传统图形化展示方式包括条形图、排列图、饼图、环形图等)。大数据新型可视化方式包括:气泡图、数据画像、地图涂色等。

六、大数据应用案例

下文介绍Hadoop自带的MapReduce应用案例WordCount,WordCount可统计文件的词频。

(1)启动Hadoop系统服务,需启动HDFS与Yarn服务(根据百度百科:Yarn是新的Hadoop资源管理器,是通用资源管理系统)。

4a33be2a-b1d5-11ed-bfe3-dac502259ad0.png

图中红框内命令为HDFS启动命令,绿框内命令为Yarn服务启动命令,图片来源:根据学堂在线《大数据导论》资料制作

(2)检查Hadoop安全模式是否为“OFF”状态,如果Hadoop安全模式的状态为“ON”,则只能读取HDFS中的数据,不能向HDFS中写入数据。

(3)准备需要处理的数据,即查看文本文件中的内容。

4a9bfe2c-b1d5-11ed-bfe3-dac502259ad0.png

图中红框内命令为查看文件内容命令,绿框内为文件中的内容,图片来源:根据学堂在线《大数据导论》资料制作

(4)执行WordCount应用程序。WordCount的具体命令是hadoopjar hadoopmapreduce-examples-2.9.2.jarwordcount 被统计文件的目录名与文件名 统计结果输出文件目录名与文件名。

4ac8966c-b1d5-11ed-bfe3-dac502259ad0.png

图中红框内为WordCount应用程序统计结果输出文件的内容,图片来源:根据学堂在线《大数据导论》资料制作






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据库
    +关注

    关注

    7

    文章

    3799

    浏览量

    64388
  • 机器学习
    +关注

    关注

    66

    文章

    8418

    浏览量

    132628
  • python
    +关注

    关注

    56

    文章

    4797

    浏览量

    84683
  • HDFS
    +关注

    关注

    1

    文章

    30

    浏览量

    9596

原文标题:大数据相关介绍(11)——大数据应用的开发流程

文章出处:【微信号:行业学习与研究,微信公众号:行业学习与研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    缓存对大数据处理的影响分析

    缓存对大数据处理的影响显著且重要,主要体现在以下几个方面: 一、提高数据访问速度 在大数据环境中,数据存储通常采用分布式存储系统,数据量庞大
    的头像 发表于 12-18 09:45 130次阅读

    ADS1675最大数据吞吐率是是多少?

    ADS1675 24bit的ADC的采样率最大是4Msps,请问这款adc的最大数据吞吐率是是多少?怎么算的,在datasheet中有明确写出来吗
    发表于 11-28 07:56

    raid 在大数据分析中的应用

    RAID(Redundant Array of Independent Disks,独立磁盘冗余阵列)在大数据分析中的应用主要体现在提高存储系统的性能、可靠性和容量上。以下是RAID在大数据分析中
    的头像 发表于 11-12 09:44 249次阅读

    智慧城市与大数据的关系

    智慧城市与大数据之间存在着密切的关系,这种关系体现在大数据对智慧城市建设的支撑和推动作用,以及智慧城市产生的大量数据大数据技术的应用需求。 大数据
    的头像 发表于 10-24 15:27 663次阅读

    电机控制方案开发流程

    电机控制应用广泛,电机控制软件方案核心是MCU,功率器件、驱动器件;本文介绍电机控制方案开发流程与需要解决的问题。
    的头像 发表于 10-12 16:36 914次阅读
    电机控制方案<b class='flag-5'>开发</b><b class='flag-5'>流程</b>

    基于Kepware的Hadoop大数据应用构建-提升数据价值利用效能

    处理超大数据集。 Hadoop的生态系统非常丰富,包括许多相关工具和技术,如Hive、Pig、HBase等,这些工具可以方便地构建复杂的大数据应用。Hadoop广泛应用于各种场景,包括数据处理和分析、
    的头像 发表于 10-08 15:12 160次阅读
    基于Kepware的Hadoop<b class='flag-5'>大数据</b>应用构建-提升<b class='flag-5'>数据</b>价值利用效能

    使用CYW20829的BLE进行最大数据发送应用,BLE丢失数据如何解决?

    我目前正在使用 CYW20829 的 BLE 进行最大数据发送应用,我使用的是 FREERTOS(例程 Bluetooth_LE_GATT_Throughput_Server 是我的参考),蓝牙被
    发表于 07-23 07:56

    迪文串口屏ModBus开发流程

    这里接前一章节,继续迪文屏的开发,前章主要讲解基础开发流程,此章节开始讲解迪文ModBus协议栈的使用方法。前文指路:《迪文串口屏基础GUI开发流程
    的头像 发表于 07-19 08:21 507次阅读
    迪文串口屏ModBus<b class='flag-5'>开发</b><b class='flag-5'>流程</b>

    大数据采集系统分为几类

    大数据采集系统是大数据生态系统中的重要组成部分,它负责从各种数据源收集、整合和存储数据。根据不同的数据源、采集方法和应用场景,
    的头像 发表于 07-01 15:44 1524次阅读

    大数据在军事方面的应用有哪些

    智慧华盛恒辉大数据在军事方面的应用涵盖了多个方面,这些应用不仅提高了军事管理的效率和水平,也极大地提升了军队的作战能力和情报获取能力。以下是大数据在军事方面的主要应用: 智慧华盛恒辉战争决策辅助
    的头像 发表于 06-23 10:34 1027次阅读

    CYBT-343026传输大数据时会丢数据的原因?

    我正在使用 CYBT-343026 (CYW-20706 Silicon) 模块。 我根据 SPP 样本制作了一个操作 SPP 的应用程序。 但是,传输大数据时有时会丢失数据。 它从
    发表于 03-01 15:04

    dSPACE开发流程

    电子发烧友网站提供《dSPACE开发流程.pdf》资料免费下载
    发表于 02-29 09:08 0次下载

    通过CY7C68013A想实现一个generic HID设备,如何修改描述符及端点最大数据包的大小?

    通过CY7C68013A想实现一个generic HID设备,使用一个中断型输入端点和一个中断型输出端点,最大数据包长度均为1024(或512?)字节,请问基于CY3684开发套件提供的固件模板,该如何修改描述符及端点最大数据
    发表于 02-28 06:37

    大数据技术是干嘛的 大数据核心技术有哪些

    大数据技术是指用来处理和存储海量、多类型、高速的数据的一系列技术和工具。现如今,大数据已经渗透到各个行业和领域,对企业决策和业务发展起到了重要作用。本文将详细介绍大数据技术的概念、发展
    的头像 发表于 01-31 11:07 3465次阅读

    芯科科技发布新版蓝牙开发流程

    查看Silicon Labs(亦称“芯科科技”)近日发布新版的蓝牙开发流程(Bluetooth Developer Journey),了解更多关于低功耗蓝牙、蓝牙Mesh、蓝牙定位服务,以及电子货架标签(ESL)等设计方法,我们将概述相关应用
    的头像 发表于 01-25 10:09 773次阅读
    芯科科技发布新版蓝牙<b class='flag-5'>开发</b><b class='flag-5'>流程</b>