0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

湖仓一体:揭秘数据湖架构现代化之道

IBM中国 来源:未知 2023-07-24 19:00 次阅读
wKgZomToE96AXq46AAUH1WcibZI849.gifwKgZomToE96Aa8dEAAIo1cbXNhk136.png作者:Hebert W. Pereyra,IBM 杰出工程师,Hybrid Data Management 首席架构师;译者:刘俊 ,IBM watsonx.data 开发架构师

数据湖诞生至今已有十多年的历史,为全球一些最大的企业提供了数据分析的支持。然而,也有人认为,绝大多数数据湖部署已经演变成为“数据沼泽”。不论你站在哪一边,现实情况是,这些系统中仍然承载着大量的数据。这些数据规模庞大,使得移动、迁移或对其进行现代化都变得异常困难。

数据湖的巨大挑战:单一结构的架构问题

从较高层次来看,数据湖是一个大规模的单一数据存储库。数据可以以原始形式存储,也可以经过优化,采用适合专用引擎使用的不同格式。

就 Hadoop 而言,它是最受欢迎的数据湖之一,通过使用开源软件实现该存储库,并在通用硬件上运行,可以以非常低的成本在系统中存储大量数据。数据可以以开放的数据格式进行持久化,从而实现了数据消费的民主化,并通过自动复制提供了高可用性的支持。默认的处理框架具备从故障中恢复的能力。这无疑是与传统分析环境有着显著差异的重要转变,传统数据分析环境往往意味着供应商锁定以及无法处理大规模数据。

另一个出乎意料的挑战是将 Spark 引入作为大数据处理框架。由于其支持数据转换、流式处理和 SQL,它迅速获得了广泛的认可。然而,它并未能与现有的数据湖环境友好共存,因此通常需要额外的专用计算集群才能运行 Spark。

我们将时间前移 15 年回到当下,现实已经清楚地表明了这项技术所涉及的权衡和妥协。其快速的采用意味着客户很快失去了对数据湖中数据的追踪。同样具有挑战的是,他们无法确定数据的来源、获取方式以及在处理过程中的转换方式。数据治理仍然是这项技术中尚未探索的领域。虽然软件可能是开源的,但需要有人学习如何使用、维护和支持它。仅依赖社区支持并不能持续满足业务运营所需的响应时间。高可用性通过复制实现则意味着需要更多磁盘上的数据副本,增加存储成本,并导致故障更加频繁。而高可用的分布式处理框架则意味着不得不在性能方面做出妥协,以换取弹性(这将导致交互式分析和商业智能的性能严重下降)。

为何要对数据湖进行现代化?

数据湖在特定的使用场景中已经被证明是成功的。然而清楚的是,企业迫切需要对这些部署进行现代化,保护基础设施、技能和存储在这些系统中的数据的投资。

在寻找答案的过程中,行业研究了现有的数据平台技术及其优势。很明显,有效的方法是将传统的(或者说是遗留的)数据仓库或数据集市的关键特性与数据湖的优势结合起来。以下几个关键要素迅速浮出水面:

  • 具备弹性和可扩展的存储,能够满足日益增长的数据规模需求。

  • 采用开放的数据格式,使数据对所有人都可访问,同时针对高性能进行优化,并具备良好定义的结构。

  • 开放的元数据(可共享),能够支持多个消费引擎或框架。

  • 支持数据更新(ACID 特性)和事务并发处理。

  • 综合的数据安全和数据治理(如数据血缘、完整的数据访问策略定义和执行,包括地理分布)。

上述要素导致了湖仓一体的出现。湖仓一体是一种数据平台,是将数据仓库和数据湖的优点融合在一起,形成统一、协调的数据管理解决方案

利用 watsonx.data 来现代化数据湖的好处

站在当下数据分析的十字路口,IBM 的回应是为企业提供 watsonx.data 解决方案,这是一个用于大规模数据管理的新型开放式数据存储,允许企业在无需迁移的情况下围绕、增强和现代化其现有的数据湖和数据仓库。它支持开放式的多云与混合云,可以在客户管理的基础设施(本地或者私有云)和公有云上运行。它建立在湖仓一体架构之上,并嵌入了一整套解决方案(以及通用软件堆栈),适用于所有形态。

与市场上的竞品相比,IBM 的方法基于开源堆栈和架构。这些组件并不是新的,而是业界已经广泛使用的成熟组件。IBM 关注它们的互操作性、共存性和元数据交换。用户可以快速入门,从而大大降低了入门和使用的成本,因为其上层架构和基础概念是大家熟悉且直观的:

  • 通过对象存储实现开放的数据(和表格格式)

  • 通过 S3 进行数据访问

  • 使用 Presto 和 Spark 进行查询计算(SQL、数据科学、转换和流处理)

  • 通过 Hive 和兼容结构实现开放的元数据共享

Watsonx.data 为企业提供了一种保护他们在数据湖和数据仓库数十年投资的方式,使企业可立即扩展并逐步现代化其安装,将每个组件专注于对企业最重要的使用场景。

一个关键的差异化因素是多引擎策略,允许用户在统一的数据平台上根据实际情况选择适合的技术。watsonx.data 使客户能够实现完全动态的分层存储(以及相关的计算)。随着时间的推移,这可以带来非常显著的数据管理和处理的成本节省。

如果最终企业的目标是通过湖仓一体架构来现代化现有的数据湖部署,那么 watsonx.data 则通过选择计算方式来最小化数据迁移和应用迁移,从而简化了任务。

接下来可以做什么?

在过去的几年里,数据湖在大多数企业的数据管理策略中发挥了重要作用。如果企业的目标是对其数据管理策略进行演进和现代化,使之成为真正的混合分析云架构,那么 IBM 基于湖仓一体架构而构建的新型数据存储 watsonx.data,则是值得企业考虑的技术选择

相关资料

1. 点击下载电子书:《为 AI 而设的数据存储》:

https://www.ibm.com/account/reg/us-en/signup?formid=urx-52131

2. 点击阅读 IBM watsonx.data 解决方案简介:

https://www.ibm.com/downloads/cas/4Z1YXEBO

3. 浏览 watsonx.data 的产品页面了解更多:

https://www.ibm.com/products/watsonx-data

关于 IBM

IBM 是全球领先的混合云、人工智能及企业服务提供商,帮助超过 175 个国家和地区的客户,从其拥有的数据中获取商业洞察,简化业务流程,降低成本,并获得行业竞争优势。金融服务、电信和医疗健康等关键基础设施领域的超过 4000 家政府和企业实体依靠 IBM 混合云平台和 Red Hat OpenShift 快速、高效、安全地实现数字化转型。IBM 在人工智能、量子计算、行业云解决方案和企业服务方面的突破性创新为我们的客户提供了开放和灵活的选择。对企业诚信、透明治理、社会责任、包容文化和服务精神的长期承诺是 IBM 业务发展的基石。

了解更多信息,请访问:https://www.ibm.com/cn-zh


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • IBM
    IBM
    +关注

    关注

    3

    文章

    1757

    浏览量

    74697

原文标题:湖仓一体:揭秘数据湖架构现代化之道

文章出处:【微信号:IBMGCG,微信公众号:IBM中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    戴尔数据助力企业数字转型

    在数字转型的浪潮下,企业正面临着前所未有的数据挑战。从传统的结构数据到如今的非结构数据、半
    的头像 发表于 12-20 09:31 103次阅读

    测控一体化闸门远程监控运维系统解决方案

    灌区通常需要根据灌区面积和用水需求进行合理规划,实现主干渠、支渠、斗渠各个闸门的合理部署,是现代化灌区的重要内容。测控一体化闸门是种集成了测量和控制功能的现代化水工设施,不仅能够实现
    的头像 发表于 09-30 17:03 329次阅读
    测控<b class='flag-5'>一体化</b>闸门远程监控运维系统解决方案

    一体成型电感感值低的原因

    12、谷景揭秘一体成型电感感值低的
    发表于 07-30 10:41 0次下载

    安消一体化平台建设方案

    与消防一体化平台已成为迫切需求。本文古河云科技将详细介绍针对企业安全生产和消防管理需求的一体化平台建设方案。 首先,安消一体化平台的系统架构应该包括前端展示层、后端
    的头像 发表于 07-26 14:14 391次阅读

    启扬多尺寸安卓屏一体机,助力水肥一体机实现智能农田管理

    随着科技的飞速发展,农业现代化已然成为趋势。在农业领域,水肥一体机通过引入传感器、物联网、大数据等信息技术,精准控制水肥配比与投放,为作物提供精准的水肥管理方案,提高作物产量,改善农产品品质,降低
    的头像 发表于 07-06 08:00 341次阅读
    启扬多尺寸安卓屏<b class='flag-5'>一体</b>机,助力水肥<b class='flag-5'>一体</b>机实现智能<b class='flag-5'>化</b>农田管理

    什么是机电一体化?它有哪些应用?

    在科技飞速发展的今天,机电一体化技术已成为现代工业生产的核心驱动力之。它融合了机械工程、电子技术、计算机技术、信息技术等多学科的理论与技术,实现了机械与电子的有机结合,极大地推动了制造业的智能
    的头像 发表于 06-11 14:02 4978次阅读

    什么是数据数据数据仓库有什么区别?

    从本质上说,数据就是个信息资源库。人们常常将数据数据仓库混为
    的头像 发表于 05-20 12:38 613次阅读
    什么是<b class='flag-5'>数据</b><b class='flag-5'>湖</b>?<b class='flag-5'>数据</b><b class='flag-5'>湖</b>和<b class='flag-5'>数据</b>仓库有什么区别?

    护河联合执法 解决通信是关键

    我国实行河长制进行生态环境保护以来,对、河的保护治理取得了不错的成绩。随着治理的深入,在许多大型湖泊以及西北、西南等省界、市界偏远地区,常常需要岸与、省与省、市与市之间进行联合执法,进
    的头像 发表于 05-07 08:28 250次阅读
    巡<b class='flag-5'>湖</b>护河联合执法  解决通信是关键

    华为推出数据解决方案及全闪存存储新品

    此次发布的新品包括OceanStor Dorado 2100,这是业界首款面向非结构数据设计的A-A架构入门级全闪存NAS,还有对应升级的SAN存储OceanStor Dorado 2000和支持SAN&NAS
    的头像 发表于 02-20 14:18 558次阅读

    IBM Storage Ceph:现代数据的理想技术底座

    Storage)。在此期间,企业在扩展 AI 时正面临前所未有的数据挑战:在多个位置、以多种形式存储的数据量飙升,但数据质量较差。为了帮助客户解决这问题,我们需要领先的解决方案对客
    的头像 发表于 02-02 10:24 611次阅读
    IBM Storage Ceph:<b class='flag-5'>现代数据</b><b class='flag-5'>湖</b><b class='flag-5'>仓</b>的理想技术底座

    揭秘一体:大数据演进的未来趋势与影响

    一体架构下,数据要统存储管理,一份数据作为
    的头像 发表于 01-29 14:17 975次阅读
    <b class='flag-5'>揭秘</b><b class='flag-5'>湖</b><b class='flag-5'>仓</b><b class='flag-5'>一体</b>:大<b class='flag-5'>数据</b>演进的未来趋势与影响

    什么是通感算一体化?通感算一体化的应用场景

    通感算一体化可广泛应用于智能家居、智慧城市、智慧交通、医疗健康等方面。文档君为大家搜集了些典型的应用场景。 智能家居 通感算一体化利用基站或者Wi-Fi路由器为智能家居系统提供更加丰富的功能。
    发表于 01-18 16:12 1.1w次阅读
    什么是通感算<b class='flag-5'>一体化</b>?通感算<b class='flag-5'>一体化</b>的应用场景

    构建高效数据生态:数据库、数据仓库、数据、大数据平台与数据中台解析_光点科技

    在数字的浪潮中,套高效的数据管理系统是企业竞争力的核心。从传统的数据库到现代数据中台,每
    的头像 发表于 01-17 10:20 374次阅读

    基于工业智能网关的城乡一体化供水物联网解决方案

    、方案背景 随着城市进程的加快,城乡供水需求不断增长,传统的人工管理方式已无法满足现代化供水系统的需求。为了解决这问题,物通博联提供基于工业智能网关的城乡
    的头像 发表于 01-08 14:02 352次阅读
    基于工业智能网关的城乡<b class='flag-5'>一体化</b>供水物联网解决方案

    生态流量监测系统解决方案

    江河湖泊的经济价值与生态价值,为塑造可持续发展的河生态系统提供可靠保障。   系统架构 数之能推出的河生态流量监测系统解决方案由多种类水文传感器、摄像头、水文监测网关,水文监测云平台等组成。水文监测网关是该系统的
    的头像 发表于 01-04 14:06 333次阅读