0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

对于大数据的处理,主要有几个工具引擎

姚小熊27 来源:今日头条 作者:今日头条 2020-11-05 10:14 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

提到大数据,我们就离不开数据的收集整理,其中ETL是我们经常使用的用于构建数据仓库, 构建大数据的方法。

大数据处理阶段

此阶段的目标是使用单个模式来清理,规范化,处理和保存数据。最终结果是具有定义良好的架构的可信数据集。例如Spark之类的处理框架用于在机器集群中并行处理数据。在这里我们需要进行数据的验证,隔离掉不合法的数据,我们需要对不良数据进行筛选过滤。对于不规范的数据,我们需要有整理和清洁功能,我们要能够将一些低效的格式入json进行转换。同时我们可能还需要一些标准化的操作,比如对一些数值进行小数点位的精度转化。

大数据处理的最终目的就是创建一个可信数据集,然后下游系统可以依赖此数据源进行业务分析和数据计算。

对于大数据的处理,主要有下面的几个工具引擎。

Apache Hive

它是将SQL请求转换为MapReduce任务链的引擎。它主要实现的功能是对传入的SQL进行排序然后优化排序结果,最终得到高效率的请求结果。2018年它将MapReduce替换为Tez作为搜索引擎。它具有机器学习功能,并且在和其他流行的大数据框架进行集成。

Apache Spark

这是最著名的批处理框架。它是Hadoop生态系统的一部分,是一个托管集群,可提供强大的并性,有着精准的监控和出色的UI。它还支持流处理(结构化流)。基本上,Spark在内存中运行MapReduce作业,其性能是常规MapReduce性能的100倍。它与Hive集成以支持SQL,并可用于创建Hive表,视图或查询数据。它具有很多集成,支持多种格式,并且拥有庞大的社区。所有云提供商都支持它。它可以在YARN上运行作为Hadoop集群的一部分,还可以在Kubernetes和其他平台中使用。它具有许多的第三方库可以使用。

Apache Flink

第一个统一批处理和流传输的引擎,它可以用作像Kafka这样的微服务的主干。它可以作为Hadoop集群的一部分在YARN上运行,它还针对其他平台(如Kubernetes或Mesos)进行了优化。它非常快,并且提供实时流传输,使其成为针对低延迟流处理(尤其是有状态流)的一个比Spark更好的选择。它还具有用于SQL,机器学习等的库。它比Spark更快,是数据流的更好选择。

Apache Storm

是一个免费和开源的分布式实时计算系统,它专注于流传输,是Hadoop生态系统的托管解决方案部分。它具有可扩展性,容错性,可确保您的数据将得到处理,并且易于设置和操作。

Apache Samza

一个出色的有状态流处理引擎。Samza允许您构建有状态的应用程序,它可以从多个来源实时处理数据。它不仅可以在YARN集群上运行,也可以作为独立库单独运行。

Apache Beam

它本身不是引擎,而是将所有其他引擎结合在一起的统一编程模型的规范。它提供了可以与不同语言一起使用的编程模型,因此开发人员在处理大数据管道时不必学习新的语言。然后,它为可以在云或本地运行的处理步骤插入了不同的后端。Beam支持前面提到的所有引擎,您可以在它们之间轻松切换并在任何平台上运行它们:云,YARN,Mesos,Kubernetes。如果您要开始一个新项目,那么建议您从Beam开始,因为Beam是面向未来的。

Presto

Presto是一个开放源代码的分布式SQL查询引擎,适合于对各种大小,各种数据源进行交互式分析查询。

Presto是专为交互式分析而设计和编写的,当它的规模扩展到一定的规模的时候,它也可以实现商业数据仓库的处理速度。

Presto允许查询数据存在多个地方,包括Hive,Cassandra,关系数据库甚至专有数据存储。一个Presto查询可以合并来自多个来源的数据,从而可以在整个组织中进行分析。

Presto适用于期望响应时间从亚秒到数分钟不等的分析师。Presto打破了使用昂贵的商业解决方案进行快速分析或使用需要大量硬件的慢速“免费”解决方案之间的错误选择。

总结

处理引擎是当前在大数据词中使用的很著名的工具。作为大数据工程师,您将经常使用这些引擎。了解这些引擎的分布式特性并知道如何优化它们,保护它们并监视它们至关重要。

请记住,还有一些OLAP引擎提供了一种查询大量数据的单一解决方案,而无需编写复杂的转换,而是通过以一种特定的格式加载数据来提高查询的性能。

对于一个新项目,建议您研究Apache Beam,因为它在所有其他引擎的基础上提供了一个抽象,使您无需更改代码即可更改处理引擎。

对于流处理,特别是有状态流处理,请考虑Flink或Samza。对于批处理,请使用Spark。
责任编辑:YYX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 大数据
    +关注

    关注

    64

    文章

    9109

    浏览量

    144149
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    无人机环境适应性测试主要有哪些项目?测试方法与工具有哪些?

    的工作能力,包括温度、湿度、风力、降雨、沙尘以及电磁干扰等环境因素对其性能的影响。通过测试,可以了解无人机的环境适应性水平,为无人机的设计改进和实际应用提供数据支持。无
    的头像 发表于 04-22 15:28 223次阅读
    无人机环境适应性测试<b class='flag-5'>主要有</b>哪些项目?测试方法与<b class='flag-5'>工具</b>有哪些?

    黑M-狂野大数据5期|网盘无密Mp4+大数据直播课-狂野大数据

    大数据直播成为了提升数据生产力的关键技术之一。它通过实时数据流的采集、分析和呈现,极大地优化了决策效率,推动了创新的步伐。那么,未来大数据直播将如何重构我们的
    的头像 发表于 04-06 11:13 263次阅读

    无刷电机位置传感器主要有哪三种?

    主流技术路线主要包括霍尔传感器、旋转变压器(Resolver)和编码器(Encoder)三大类型,每种方案各有其技术特点与应用场景。
    的头像 发表于 03-18 16:54 342次阅读

    请问单片机开发的程序设计语言主要有哪几种?

    单片机开发的程序设计语言主要有哪几种?
    发表于 01-14 08:29

    嵌入式系统应用热门的原因主要有几个方面

    RTOS(Real-time Operating System)开发平台,这样才能保证程序执行的实时性、可靠性,并减少开发时间,保障软件质量。6. 嵌入式系统开发需要开发工具和环境。由于其本身不具备
    发表于 01-08 06:37

    海光3350便携机主板:大数据处理利器

    随着企业数字化转型加速,大数据处理需求从固定机房向移动场景延伸。无论是金融机构外出调研、科研团队野外数据采集,还是个人创作者处理海量素材,便携设备的性能成为关键。海光便携机主板凭借独特的技术优势,正成为
    的头像 发表于 12-26 11:15 765次阅读

    最受欢迎的大数据可视化工具

     在数聚股份看来,大数据可视化是进行各种大数据分析的最重要组成部分之一。 一旦原始数据流被以图像形式表示时,以此做决策就变得容易多了。 为了满足并超越客户的期望,大数据可视化
    的头像 发表于 12-24 17:05 428次阅读
    最受欢迎的<b class='flag-5'>大数据</b>可视化<b class='flag-5'>工具</b>

    大数据平台运营的基础是什么

    在数聚股份看来,越来越多的企业开始搭建自己的大数据平台体系,并倾注大量资源用于平台的迭代和运营。那么大数据平台作为越来越被关注的企业新兴价值点,它应该以何种方式看待,并且以什么样的方式去建设和运营
    的头像 发表于 12-23 16:07 408次阅读

    提高系统效率几个误解解析

    先读到芯片内暂存,然后再写出去,即搬一次数据需两个时钟周期,比软件来搬要快一些(不需要取指令, 没有循环跳转等额外工作),但如果一次只搬几个字节,还要做一堆准备工作,一般还涉及函数调用,效率并不高。所以这种DMA只对大数据块才适
    发表于 12-15 06:09

    硬件加密引擎在保障数据安全方面有哪些优势呢?

    硬件加密引擎作为芯源半导体安全芯片的核心组件,在保障数据安全方面凭借硬件级的设计与优化,相比软件加密方案具有多维度优势,具体如下: 1. 加密运算效率更高,实时性更强 硬件级并行处理:硬件加密
    发表于 11-17 06:47

    提高RISC-V在Drystone测试中得分的方法

    Drystone 是一种常用的计算机性能基准测试,主要用来测量整数(非浮点)计算性能。 影响 RISC-V 在 Drystone 测试中得分的因素主要有以下几个处理器核心设计:
    发表于 10-21 13:58

    水晶头主要有哪几种型号

    水晶头主要有RJ-45、RJ-11和RJ-12三种型号,具体说明如下: RJ-45水晶头: 结构:有8个凹槽和8个触点(8p8c),体积相对较大。 应用:广泛用于以太网、快速以太网、千兆以太网等网络
    的头像 发表于 08-05 09:41 5378次阅读

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    诊断方案,为网络运维带来显著的实用价值:1.快速提升故障处理效率l 实时监控与智能预警: AI引擎持续分析海量流量、设备状态及日志数据,实时识别异常模式(如流量突增、延迟抖动、微小丢包),实现故障发生
    发表于 07-16 15:29

    测量相位差的方法主要有哪些?

    测量相位差可以用示波器测量,也可以把相位差转换为时间间隔,先测量出时间间隔,再换算为相位差,可以把相位差转换为电压,先测量出电压,再换算为相位差,还可以与标准移相器进行比较的比较法(零示法)等方法。 一 怎么用示波器来测量相位差? 应用示波器测量两个同频正弦电压之间的相位差的方法很多,本节介绍具有实用意义的直接比较法。将u1、u2分别接到双踪示波器的Y1通道和Y2通道,适当调节扫描旋钮和Y增益旋钮,使荧光屏显示出如图
    的头像 发表于 06-18 09:03 2588次阅读
    测量相位差的方法<b class='flag-5'>主要有</b>哪些?

    RISC-V向量处理器:现代计算的革命性引擎

    在数字化高速发展的当下,人工智能、大数据处理、物联网等前沿技术日新月异,现代计算需求面临着严峻挑战。海量数据的爆发式增长,让传统计算架构在处理大规模数据时显得力不从心,效率低下、能耗过
    的头像 发表于 06-04 10:03 1902次阅读
    RISC-V向量<b class='flag-5'>处理</b>器:现代计算的革命性<b class='flag-5'>引擎</b>