0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

云计算环境中流行的大数据框架介绍

h1654155282.3538 来源:全球物联网资讯 作者:全球物联网资讯 2021-01-09 11:35 次阅读

在本文中,我们将介绍云计算环境中流行的大数据框架,并确定这些大数据框架的某些属性,并探讨与之相关的一些最大障碍和问题。本文将按资源管理大数据框架的主要属性进行分类,将它们与具有类似性质的其他框架进行比较,并提出与使用它们相关的推荐最佳实践。

介绍

尽管迁移到云计算的好处是众所周知的,但在大数据分析的背景下,其好处更为明显。大数据所固有的是使用PB(即将成为EB和ZB)数据。业务分析要求使用数据密集型应用程序,而云环境的可伸缩性对于使它们的部署可行是必不可少的。利用云还可以促进整个组织之间更轻松的协作和连接,简化数据共享并授予更多员工访问相关分析的权限。

IT领导者当然认识到将大数据转移到云中的好处,但是要让主要利益相关者和高层管理人员购买该概念会更加复杂。但是,利用云和大数据的组合确实具有商业上的实际意义,因为它将允许对业务进行优化查看,并将促进基于相关数据的决策。

例如,生产实物产品公司的首席运营官可以极大地受益于访问有关供应链优化的数据以及跟踪缺陷的有效机制。同样,寻求提高客户忠诚度和参与度的CMO,以及寻求增加收入,降低成本和进行战略投资的新途径的CFO,也都依赖数据来制定决策。无论从哪个角度来看,基于云的敏捷平台和大数据的利用将驱动贵公司的运营和实现目标。

如2020-2025年大数据市场报告所述,全球大数据市场规模将从2020年的1389亿美元增加到2025年的2294亿美元。

pIYBAF_5JJKAFn_yAAFWpdEac1E844.png

大数据和云计算的历史

庞大的分析项目高度依赖有效的资源管理,因为数据平台利用大量可视化的硬件资源来降低成本并优化结果。架构的复杂性使得这种管理或资源具有挑战性。因此,应认真考虑将要处理多少数据,并设计出既有利于当前应用,又有利于未来应用的最佳性能的体系结构。

直到最近,网格,计算机集群和其他高性能超级计算机仍被用作高计算项目的资源。群集计算是

此类框架的主要环境。网格计算环境(或其他分布式HPC环境)中的虚拟组织管理专用于应用程序需求的资源(外部和内部),尽管近年来有关将此执行转移到云的讨论一直是讨论的热门话题。出于安全原因,吸引本地存储敏感数据不足为奇,但是当存储量变得无法内部存储(例如企业中的数据)时,组织发现必须迁移到云存储解决方案。

尽管云计算可能是增长大数据的核心,但是针对大数据应用程序的基于云的解决方案与常见的解决方案有很大不同。传统的云解决方案提供了一些松散相关的应用程序,其细粒度的体系结构旨在为大量用户提供服务。这些用户通常在不同的位置独立运行,并且通常拥有非共享或私有数据。该数据可能主要是面向批处理的,并且包含许多交互。通常会对其进行重新定位,以适应高度动态的资源需求。话虽如此,大数据与常规扩展解决方案共享一些共同的属性,以及对资源自动管理的要求。

云计算企业的成长和成熟正在完善和改善云环境,以使其更加敏捷和高效。云提供商也在扩展其服务,其中通常包括数据湖架构。该平台提供了增强的生产力套件,可用于BI,云操作,数据库,OLAP,数据仓库和其他开发工具。

大数据云计算中的资源管理框架

已经在不同的应用领域中使用了各种计算基础结构,以利用商品计算资产以批处理模式处理大型数据库。在这里,我们旨在探索云计算环境中使用的一些流行的大数据资源管理框架。下图有助于直观地绘制出大数据管理结构样式的分类。

pIYBAF_5JJeABInBAAFbiHTZ07M784.png

比较大数据框架

当代企业,研究社区和IT行业都在感受到大数据云计算的影响,涌现出一些变革性和颠覆性的大数据解决方案和技术,以促进许多企业的创新和数据驱动的运营决策。现代数据云计算服务提供了基础架构,技术和大数据分析,可帮助加快大数据分析的步伐并降低其成本。

尽管有许多选项可用,但关键在于选择最适合特定业务的框架。这种选择往往会归结为应用需求,并权衡每种情况的优点和缺点。其中许多是基于应用程序使用场景的,并且可能涉及一些折衷。在云中部署大数据应用程序之前,需要确定几个关键因素。现在,我们将讨论选择每种主要管理框架类型的利弊。

1.处理速度

在评估不同资源管理结构的功效时,处理速度是一项重要的性能衡量工具,它基于对内存或磁盘的数据传输读写(I / O)的便利性。它还测量特定时间段内两个通信单元之间的数据传输速率。有理由认为某些资源管理框架会表现更好。但是,研究发现,尽管某些框架在执行较小的任务时表现出更好的性能,但其他框架在处理更大的数据源集时却要快得多。但是,随着数据集输入的增加,所有框架的“加速”比率都降低了。

2.容错

测量一个组件发生故障时系统的其余部分如何继续运行称为容错。在高性能计算系统中执行特定任务时,将评估数百个错综复杂的互连节点。一个导致失败的结果应该对整个计算的影响很小或没有影响。一些框架比其他框架具有更高的容错能力,其中某些框架在涉及大量数据传输的情况下会超出容错范围。使用PageRank算法进行的研究已用于对多种框架的性能进行实验,发现在较小的数据集中,性能可以很好地衡量,但是随着数据集的增长,“加速”性能下降。某些数据集可能变得如此之大,以至于某些系统无法处理它们而不会崩溃。

3.可扩展性

企业依靠及时处理数据来解决高价值业务问题。通过能够同时大规模执行多个计算,可以减少与业务相关的计算的工作量,总体时间和复杂性。通过在运行时分配额外的资源来适应大负载或工作量(或大小)变化的情况称为可伸缩性。可伸缩性可用于增加所需的资源(按比例放大)或减少所需的资源(按比例缩小)。因此,可伸缩性涉及将多个条件组合到单个算法中。研究表明,框架也可以在不同级别上产生可伸缩的性能。

4.安全性

大多数大数据应用程序都不再使用内部数据存储,而是选择迁移到云环境中,使不同的用户可以访问或记录相同的隐私,从而轻松获得信息。数据完整性和安全性一直是最重要的,但是随着大数据平台广泛采用云计算服务,这一方面会进一步扩大。由于暴露给出于自身原因而寻求数据的多个用户,这反过来又增加了数据所面临的隐私和安全性的风险级别。

安全性分为几类,每一种都需要通过各种级别的加密对身份验证和授权进行不同级别的访问。某些框架在其访问示意图中使用加密机制,而其他框架则允许对其访问和加密进行密码控制。尽管如此,其他人仍未提供任何系统级内置安全性。

结论

在速度和数据量方面的增长速度可能是惊人的,特别是对于年轻的组织。但是,利用云计算可以从根本上改变任何运营的效率和数据驱动的组织。

您的组织是否已将大数据迁移到云?我们很想听听此举如何影响您的数据分析质量和速度。请与我们分享这如何帮助您改善组织运作。
责任编辑人:CC

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 云计算
    +关注

    关注

    39

    文章

    7730

    浏览量

    137184
  • 大数据
    +关注

    关注

    64

    文章

    8863

    浏览量

    137281
收藏 人收藏

    评论

    相关推荐

    人工智能计算大数据三者关系

    人工智能、计算大数据之间的关系是紧密相连、相互促进的。大数据为人工智能提供了丰富的训练资源和验证环境
    的头像 发表于 11-06 10:03 204次阅读

    计算数据中心的关系

    设备,以及冗余的数据通信连接、环境控制设备、监控设备和各种安全装置。数据中心是全球协作的特定设备网络,基于互联网的相关服务增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。
    的头像 发表于 10-24 16:15 264次阅读

    计算迁移的步骤与注意事项

    计算迁移是一个复杂且关键的过程,需要细致的规划和执行。以下是计算迁移的一般步骤及注意事项: 一、
    的头像 发表于 10-24 09:20 349次阅读

    计算与边缘计算的结合

    计算与边缘计算的结合是当前信息技术发展的重要趋势,这种结合能够充分发挥两者的优势,实现更高效、更可靠的数据处理和分析。以下是对
    的头像 发表于 10-24 09:19 307次阅读

    计算大数据分析中的应用

    计算大数据分析中的应用广泛且深入,它为用户提供了存储、计算、分析和预测的强大能力。以下是对计算
    的头像 发表于 10-24 09:18 301次阅读

    计算的优势与应用

    计算是一种基于互联网的计算方式,通过互联网将算力以按需使用、按量付费的形式提供给用户,包括计算、存储、网络、数据库、
    的头像 发表于 10-24 09:12 277次阅读

    物联 智慧电梯数据先行:电梯大数据平台构建安全生态

    在现代化城市的摩天大楼中,电梯作为垂直交通的动脉,其安全性与效率直接关系到居民的生活质量和社会运行的顺畅。随着物联网、大数据计算等技术的飞速发展,智慧电梯的概念应运而生,而梯物联
    的头像 发表于 08-23 09:57 349次阅读

    如何理解计算

    和硬件资源。 在数字化时代,互联网已经成为基础设施。计算使得数据中心能够像一台计算机一样去工作。通过互联网将算力以按需使用、按量付费的形式提供给用户,包括:
    发表于 08-16 17:02

    浅谈存内计算生态环境搭建以及软件开发

    环境搭建 (一)背景介绍 存内计算环境搭建是一种高效的数据处理方法,它涉及在计算机内存中配置和管
    发表于 05-16 16:40

    分布式运维管理平台在计算环境中的实施案例分析

    一、案例背景 随着计算技术的快速发展,越来越多的企业开始将业务迁移到上,以实现资源的灵活调配和成本的降低。然而,计算
    的头像 发表于 03-26 16:16 518次阅读

    阿里在海外市场发布一系列AI大数据产品

    近日,阿里宣布面向海外市场发布一系列AI计算大数据产品,进一步扩大其在全球市场的份额。这一系列新产品涵盖了serverless模式的AI服务平台、整合向量引擎技术的大数据产品等,旨
    的头像 发表于 02-05 11:30 1009次阅读

    边缘计算计算的区别

    边缘计算计算是两种不同的计算模式,在数字化时代的发展中,它们都起到了重要的作用。本文将介绍边缘计算
    的头像 发表于 12-27 15:46 2589次阅读

    边缘计算平台开源框架有哪些类型

    将详细介绍几种常见的边缘计算平台开源框架。 Akraino Edge Stack Akraino Edge Stack 是一个开放、轻量级、灵活的边缘平台
    的头像 发表于 12-27 15:17 1159次阅读

    边缘计算框架有哪些

    应用的需求。边缘计算架构的出现,为各种行业提供了更高效、更灵活的计算数据处理方式,有助于推动数字化转型和智能化发展。本文将详尽介绍边缘计算
    的头像 发表于 12-27 15:01 1349次阅读

    数据处理器:DPU编程入门》DPU计算入门书籍测评

    一、DPU计算框架 通过一周多的时间翻阅这本书,基本上这本书是一本比较全面的,面向架构的新手指导数据。它在书中详尽介绍了关于DPU在计算机架
    发表于 12-24 10:54