在本文中,我们将介绍云计算环境中流行的大数据框架,并确定这些大数据框架的某些属性,并探讨与之相关的一些最大障碍和问题。本文将按资源管理大数据框架的主要属性进行分类,将它们与具有类似性质的其他框架进行比较,并提出与使用它们相关的推荐最佳实践。
介绍
尽管迁移到云计算的好处是众所周知的,但在大数据分析的背景下,其好处更为明显。大数据所固有的是使用PB(即将成为EB和ZB)数据。业务分析要求使用数据密集型应用程序,而云环境的可伸缩性对于使它们的部署可行是必不可少的。利用云还可以促进整个组织之间更轻松的协作和连接,简化数据共享并授予更多员工访问相关分析的权限。
IT领导者当然认识到将大数据转移到云中的好处,但是要让主要利益相关者和高层管理人员购买该概念会更加复杂。但是,利用云和大数据的组合确实具有商业上的实际意义,因为它将允许对业务进行优化查看,并将促进基于相关数据的决策。
例如,生产实物产品的公司的首席运营官可以极大地受益于访问有关供应链优化的数据以及跟踪缺陷的有效机制。同样,寻求提高客户忠诚度和参与度的CMO,以及寻求增加收入,降低成本和进行战略投资的新途径的CFO,也都依赖数据来制定决策。无论从哪个角度来看,基于云的敏捷平台和大数据的利用将驱动贵公司的运营和实现目标。
如2020-2025年大数据市场报告所述,全球大数据市场规模将从2020年的1389亿美元增加到2025年的2294亿美元。
大数据和云计算的历史
庞大的分析项目高度依赖有效的资源管理,因为数据平台利用大量可视化的硬件资源来降低成本并优化结果。架构的复杂性使得这种管理或资源具有挑战性。因此,应认真考虑将要处理多少数据,并设计出既有利于当前应用,又有利于未来应用的最佳性能的体系结构。
直到最近,网格,计算机集群和其他高性能超级计算机仍被用作高计算项目的资源。群集计算是
此类框架的主要环境。网格计算环境(或其他分布式HPC环境)中的虚拟组织管理专用于应用程序需求的资源(外部和内部),尽管近年来有关将此执行转移到云的讨论一直是讨论的热门话题。出于安全原因,吸引本地存储敏感数据不足为奇,但是当存储量变得无法内部存储(例如企业中的数据)时,组织发现必须迁移到云存储解决方案。
尽管云计算可能是增长大数据的核心,但是针对大数据应用程序的基于云的解决方案与常见的解决方案有很大不同。传统的云解决方案提供了一些松散相关的应用程序,其细粒度的体系结构旨在为大量用户提供服务。这些用户通常在不同的位置独立运行,并且通常拥有非共享或私有数据。该数据可能主要是面向批处理的,并且包含许多交互。通常会对其进行重新定位,以适应高度动态的资源需求。话虽如此,大数据与常规扩展解决方案共享一些共同的属性,以及对资源自动管理的要求。
云计算企业的成长和成熟正在完善和改善云环境,以使其更加敏捷和高效。云提供商也在扩展其服务,其中通常包括数据湖架构。该平台提供了增强的生产力套件,可用于BI,云操作,数据库,OLAP,数据仓库和其他开发工具。
大数据云计算中的资源管理框架
已经在不同的应用领域中使用了各种计算基础结构,以利用商品计算资产以批处理模式处理大型数据库。在这里,我们旨在探索云计算环境中使用的一些流行的大数据资源管理框架。下图有助于直观地绘制出大数据管理结构样式的分类。
比较大数据框架
当代企业,研究社区和IT行业都在感受到大数据云计算的影响,涌现出一些变革性和颠覆性的大数据解决方案和技术,以促进许多企业的创新和数据驱动的运营决策。现代数据云计算服务提供了基础架构,技术和大数据分析,可帮助加快大数据分析的步伐并降低其成本。
尽管有许多选项可用,但关键在于选择最适合特定业务的框架。这种选择往往会归结为应用需求,并权衡每种情况的优点和缺点。其中许多是基于应用程序使用场景的,并且可能涉及一些折衷。在云中部署大数据应用程序之前,需要确定几个关键因素。现在,我们将讨论选择每种主要管理框架类型的利弊。
1.处理速度
在评估不同资源管理结构的功效时,处理速度是一项重要的性能衡量工具,它基于对内存或磁盘的数据传输读写(I / O)的便利性。它还测量特定时间段内两个通信单元之间的数据传输速率。有理由认为某些资源管理框架会表现更好。但是,研究发现,尽管某些框架在执行较小的任务时表现出更好的性能,但其他框架在处理更大的数据源集时却要快得多。但是,随着数据集输入的增加,所有框架的“加速”比率都降低了。
2.容错
测量一个组件发生故障时系统的其余部分如何继续运行称为容错。在高性能计算系统中执行特定任务时,将评估数百个错综复杂的互连节点。一个导致失败的结果应该对整个计算的影响很小或没有影响。一些框架比其他框架具有更高的容错能力,其中某些框架在涉及大量数据传输的情况下会超出容错范围。使用PageRank算法进行的研究已用于对多种框架的性能进行实验,发现在较小的数据集中,性能可以很好地衡量,但是随着数据集的增长,“加速”性能下降。某些数据集可能变得如此之大,以至于某些系统无法处理它们而不会崩溃。
3.可扩展性
企业依靠及时处理数据来解决高价值业务问题。通过能够同时大规模执行多个计算,可以减少与业务相关的计算的工作量,总体时间和复杂性。通过在运行时分配额外的资源来适应大负载或工作量(或大小)变化的情况称为可伸缩性。可伸缩性可用于增加所需的资源(按比例放大)或减少所需的资源(按比例缩小)。因此,可伸缩性涉及将多个条件组合到单个算法中。研究表明,框架也可以在不同级别上产生可伸缩的性能。
4.安全性
大多数大数据应用程序都不再使用内部数据存储,而是选择迁移到云环境中,使不同的用户可以访问或记录相同的隐私,从而轻松获得信息。数据完整性和安全性一直是最重要的,但是随着大数据平台广泛采用云计算服务,这一方面会进一步扩大。由于暴露给出于自身原因而寻求数据的多个用户,这反过来又增加了数据所面临的隐私和安全性的风险级别。
安全性分为几类,每一种都需要通过各种级别的加密对身份验证和授权进行不同级别的访问。某些框架在其访问示意图中使用加密机制,而其他框架则允许对其访问和加密进行密码控制。尽管如此,其他人仍未提供任何系统级内置安全性。
结论
在速度和数据量方面的增长速度可能是惊人的,特别是对于年轻的组织。但是,利用云计算可以从根本上改变任何运营的效率和数据驱动的组织。
您的组织是否已将大数据迁移到云?我们很想听听此举如何影响您的数据分析质量和速度。请与我们分享这如何帮助您改善组织运作。
责任编辑人:CC
-
云计算
+关注
关注
39文章
7730浏览量
137184 -
大数据
+关注
关注
64文章
8863浏览量
137281
发布评论请先 登录
相关推荐
评论