0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

云计算环境中流行的大数据框架介绍

h1654155282.3538 来源:全球物联网资讯 作者:全球物联网资讯 2021-01-09 11:35 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在本文中,我们将介绍云计算环境中流行的大数据框架,并确定这些大数据框架的某些属性,并探讨与之相关的一些最大障碍和问题。本文将按资源管理大数据框架的主要属性进行分类,将它们与具有类似性质的其他框架进行比较,并提出与使用它们相关的推荐最佳实践。

介绍

尽管迁移到云计算的好处是众所周知的,但在大数据分析的背景下,其好处更为明显。大数据所固有的是使用PB(即将成为EB和ZB)数据。业务分析要求使用数据密集型应用程序,而云环境的可伸缩性对于使它们的部署可行是必不可少的。利用云还可以促进整个组织之间更轻松的协作和连接,简化数据共享并授予更多员工访问相关分析的权限。

IT领导者当然认识到将大数据转移到云中的好处,但是要让主要利益相关者和高层管理人员购买该概念会更加复杂。但是,利用云和大数据的组合确实具有商业上的实际意义,因为它将允许对业务进行优化查看,并将促进基于相关数据的决策。

例如,生产实物产品的公司的首席运营官可以极大地受益于访问有关供应链优化的数据以及跟踪缺陷的有效机制。同样,寻求提高客户忠诚度和参与度的CMO,以及寻求增加收入,降低成本和进行战略投资的新途径的CFO,也都依赖数据来制定决策。无论从哪个角度来看,基于云的敏捷平台和大数据的利用将驱动贵公司的运营和实现目标。

如2020-2025年大数据市场报告所述,全球大数据市场规模将从2020年的1389亿美元增加到2025年的2294亿美元。

pIYBAF_5JJKAFn_yAAFWpdEac1E844.png

大数据和云计算的历史

庞大的分析项目高度依赖有效的资源管理,因为数据平台利用大量可视化的硬件资源来降低成本并优化结果。架构的复杂性使得这种管理或资源具有挑战性。因此,应认真考虑将要处理多少数据,并设计出既有利于当前应用,又有利于未来应用的最佳性能的体系结构。

直到最近,网格,计算机集群和其他高性能超级计算机仍被用作高计算项目的资源。群集计算是

此类框架的主要环境。网格计算环境(或其他分布式HPC环境)中的虚拟组织管理专用于应用程序需求的资源(外部和内部),尽管近年来有关将此执行转移到云的讨论一直是讨论的热门话题。出于安全原因,吸引本地存储敏感数据不足为奇,但是当存储量变得无法内部存储(例如企业中的数据)时,组织发现必须迁移到云存储解决方案。

尽管云计算可能是增长大数据的核心,但是针对大数据应用程序的基于云的解决方案与常见的解决方案有很大不同。传统的云解决方案提供了一些松散相关的应用程序,其细粒度的体系结构旨在为大量用户提供服务。这些用户通常在不同的位置独立运行,并且通常拥有非共享或私有数据。该数据可能主要是面向批处理的,并且包含许多交互。通常会对其进行重新定位,以适应高度动态的资源需求。话虽如此,大数据与常规扩展解决方案共享一些共同的属性,以及对资源自动管理的要求。

云计算企业的成长和成熟正在完善和改善云环境,以使其更加敏捷和高效。云提供商也在扩展其服务,其中通常包括数据湖架构。该平台提供了增强的生产力套件,可用于BI,云操作,数据库,OLAP,数据仓库和其他开发工具。

大数据云计算中的资源管理框架

已经在不同的应用领域中使用了各种计算基础结构,以利用商品计算资产以批处理模式处理大型数据库。在这里,我们旨在探索云计算环境中使用的一些流行的大数据资源管理框架。下图有助于直观地绘制出大数据管理结构样式的分类。

pIYBAF_5JJeABInBAAFbiHTZ07M784.png

比较大数据框架

当代企业,研究社区和IT行业都在感受到大数据云计算的影响,涌现出一些变革性和颠覆性的大数据解决方案和技术,以促进许多企业的创新和数据驱动的运营决策。现代数据云计算服务提供了基础架构,技术和大数据分析,可帮助加快大数据分析的步伐并降低其成本。

尽管有许多选项可用,但关键在于选择最适合特定业务的框架。这种选择往往会归结为应用需求,并权衡每种情况的优点和缺点。其中许多是基于应用程序使用场景的,并且可能涉及一些折衷。在云中部署大数据应用程序之前,需要确定几个关键因素。现在,我们将讨论选择每种主要管理框架类型的利弊。

1.处理速度

在评估不同资源管理结构的功效时,处理速度是一项重要的性能衡量工具,它基于对内存或磁盘的数据传输读写(I / O)的便利性。它还测量特定时间段内两个通信单元之间的数据传输速率。有理由认为某些资源管理框架会表现更好。但是,研究发现,尽管某些框架在执行较小的任务时表现出更好的性能,但其他框架在处理更大的数据源集时却要快得多。但是,随着数据集输入的增加,所有框架的“加速”比率都降低了。

2.容错

测量一个组件发生故障时系统的其余部分如何继续运行称为容错。在高性能计算系统中执行特定任务时,将评估数百个错综复杂的互连节点。一个导致失败的结果应该对整个计算的影响很小或没有影响。一些框架比其他框架具有更高的容错能力,其中某些框架在涉及大量数据传输的情况下会超出容错范围。使用PageRank算法进行的研究已用于对多种框架的性能进行实验,发现在较小的数据集中,性能可以很好地衡量,但是随着数据集的增长,“加速”性能下降。某些数据集可能变得如此之大,以至于某些系统无法处理它们而不会崩溃。

3.可扩展性

企业依靠及时处理数据来解决高价值业务问题。通过能够同时大规模执行多个计算,可以减少与业务相关的计算的工作量,总体时间和复杂性。通过在运行时分配额外的资源来适应大负载或工作量(或大小)变化的情况称为可伸缩性。可伸缩性可用于增加所需的资源(按比例放大)或减少所需的资源(按比例缩小)。因此,可伸缩性涉及将多个条件组合到单个算法中。研究表明,框架也可以在不同级别上产生可伸缩的性能。

4.安全性

大多数大数据应用程序都不再使用内部数据存储,而是选择迁移到云环境中,使不同的用户可以访问或记录相同的隐私,从而轻松获得信息。数据完整性和安全性一直是最重要的,但是随着大数据平台广泛采用云计算服务,这一方面会进一步扩大。由于暴露给出于自身原因而寻求数据的多个用户,这反过来又增加了数据所面临的隐私和安全性的风险级别。

安全性分为几类,每一种都需要通过各种级别的加密对身份验证和授权进行不同级别的访问。某些框架在其访问示意图中使用加密机制,而其他框架则允许对其访问和加密进行密码控制。尽管如此,其他人仍未提供任何系统级内置安全性。

结论

在速度和数据量方面的增长速度可能是惊人的,特别是对于年轻的组织。但是,利用云计算可以从根本上改变任何运营的效率和数据驱动的组织。

您的组织是否已将大数据迁移到云?我们很想听听此举如何影响您的数据分析质量和速度。请与我们分享这如何帮助您改善组织运作。
责任编辑人:CC

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 云计算
    +关注

    关注

    39

    文章

    8042

    浏览量

    144750
  • 大数据
    +关注

    关注

    64

    文章

    9095

    浏览量

    144052
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    边缘计算vs计算,关键差异一文分清

    边缘这个词在物联网的世界里被赋予了新的定义,特指在设备端的附近,所以根据字面定义,边缘计算即在设备端附近产生的计算。边缘计算是相对计算而言
    的头像 发表于 04-17 14:29 291次阅读
    边缘<b class='flag-5'>计算</b>vs<b class='flag-5'>云</b><b class='flag-5'>计算</b>,关键差异一文分清

    黑M-狂野大数据5期|网盘无密Mp4+大数据直播课-狂野大数据

    科技重构数据生产力:狂野大数据直播实战全解析 随着数字化时代的快速发展,大数据已经渗透到我们生活的方方面面。无论是商业、教育,还是医疗、政府服务,大数据的应用都在不断创造新的价值。而在
    的头像 发表于 04-06 11:13 190次阅读

    什么是企业服务器-计算

    地扩展和管理其IT基础设施。华纳的企业服务器基于虚拟化技术,在环境中运行多个虚拟服务器实例,为企业提供灵活的资源分配和管理。 华纳
    的头像 发表于 12-29 17:57 1057次阅读

    大数据平台运营的基础是什么

    在数聚股份看来,越来越多的企业开始搭建自己的大数据平台体系,并倾注大量资源用于平台的迭代和运营。那么大数据平台作为越来越被关注的企业新兴价值点,它应该以何种方式看待,并且以什么样的方式去建设和运营
    的头像 发表于 12-23 16:07 344次阅读

    融合:创新计算架构的全面解析与应用

    在当今数字化的时代,计算已经成为推动企业创新和发展的关键技术。随着企业需求的多样化和技术环境的不断变化,单一的计算模式已无法满足企业对灵
    的头像 发表于 12-23 14:17 475次阅读

    如何使用SpringBoot、Vue2.0、MySQL开发一套诊所系统?

    SpringBoot是Java领域非常流行的快速开发框架,提供了丰富的生态和自动化配置,适合构建微服务和单体应用。 它可以很好地处理业务逻辑、数据持久化、安全性(Spring Security)和API接口
    的头像 发表于 11-27 16:02 397次阅读
    如何使用SpringBoot、Vue2.0、MySQL开发一套<b class='flag-5'>云</b>诊所系统?

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理系统

    数据,结合大数据分析、流程自动化及边协同技术,实现电磁环境全生命周期管理。以下从五大维度精简解析: 应用案例 北京华盛恒辉、北京五木恒润研发的 EMC/EMI 智能管理系统已落地应
    的头像 发表于 09-17 14:58 757次阅读

    御控工业物联网大数据解决方案:排水设备远程监控与大数据统计系统

    御控工业物联网推出排水设备远程监控与大数据统计系统,通过物联网、大数据计算等技术构建“感知-传输-分析-决策”闭环管理体系,助力排水行业数字化转型。
    的头像 发表于 09-12 10:04 792次阅读

    数据中台可以接入哪些物联网平台

    : 一、工业互联网平台 工业互联网平台聚焦制造业场景,提供设备连接、协议解析、边缘计算及工业大数据分析能力,与数据中台结合可实现生产数据全链路管理。 华为
    的头像 发表于 08-19 15:22 930次阅读

    中国信通院发布“2025计算十大关键词”

    日前,中国信通院正式发布“2025计算十大关键词”,中国信通院计算大数据研究所所长何宝宏对“2025
    的头像 发表于 07-30 10:53 3338次阅读
    中国信通院发布“2025<b class='flag-5'>云</b><b class='flag-5'>计算</b>十大关键词”

    中易物联网平台的十大功能

    在数字经济与产业智能化深度融合的浪潮下,中易物联网平台以构建了一站式智能化管理生态。平台通过整合物联网、计算大数据技术,打破传统产业数据
    的头像 发表于 07-25 16:33 1107次阅读

    物联网的应用范围有哪些?

    在生活中的一个小小体现。 从技术层面看,物联网融合了多种技术,包括传感器技术、网络通信技术、大数据计算技术等。传感器负责采集各种物理量、化学量等信息,如温度传感器感知环境温度,压力
    发表于 06-16 16:01

    Onenet网关方案应用--基于米尔瑞芯微RK3576开发板

    本文将介绍基于米尔电子MYD-LR3576开发板(米尔基于瑞芯微RK3576开发板)的Onenet网关应用方案测试。 摘自优秀创作者-小手凉凉 目录: * 板卡说明 * 操作说明 * 软件主要
    发表于 06-06 16:54

    HarmonyOS5服务技术分享--ArkTS开发Node环境

    ? 性能优化 ​​冷启动优化​​:保持函数轻量(建议代码包<10MB),使用require按需加载模块。 ​​缓存机制​​:利用数据库存储高频访问数据,减少重复计算。 ⚠️
    发表于 05-22 17:21

    接地电阻柜与计算大数据关系紧密

    为配合实现大数据,必须筹建更多的计算数据中心,用到很多的发电机组,如何更好的保护这些发电机组,是急需解决的一大难题。国际上广泛采用中性点经电阻接地,即在中性点和接地相中间安装接地电阻柜
    的头像 发表于 05-07 06:30 664次阅读
    接地电阻柜与<b class='flag-5'>云</b><b class='flag-5'>计算</b>、<b class='flag-5'>大数据</b>关系紧密