0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据湖是什么

汽车电子技术 来源:码农与软件时代 作者:码农与软件时代 2023-02-15 10:22 次阅读

1.为什么出现数据湖?

支撑业务的IT软件系统最简单的数据链路是:操作业务APP的界面或者调用其API接口,将交易数据记录到关系型数据库中。

说其简单,是因为这样的系统能够支撑业务交易。业务APP上的每笔交易数据都会记录在数据库中。

这对业务交易员来说,已经足够了。但对业务管理者来说,期望看到的是“自己关心的、宏观的、能够反应历史变化的数据”,并且最好是可视化的界面,一目了然。

于是,“数据仓库”出现了,它就是一个面向主题的、集成的、反映历史变化的数据集合。

那么,数据是如何从业务数据库到达数据仓库的呢?

首先,要理解的是业务数据库和数据仓库的Schema(表结构)大部分情况下是不同的,前者用来记录实时交易信息,后者用来记录历史汇总信息。

其次,表结构的不同,就需要进行数据处理的三板斧--“抽取、转换和加载”,即Extract-Transform-Load,简称ETL。具体来说就是抽取管理者关心的(面向主题)、转换数据、加载到数据仓库中。

最后,根据业务规则,提取数据仓库中的数据进行可视化提取与展示(报表)。

数据仓库的使用思路是:业务管理者知道“自己关心哪些数据”,在创建数据仓库时,便可以将这些数据提取并记录下来。这样,数据仓库记录的是经过加工过的数据,而非原始数据

注意到数据仓库的数据是结构化的。对于半结构化(CSVXMLJSON)和非结构化(e-mail文档)的数据来说,也蕴含着有价值的信息,同样需要分析,或者现在不知道怎么分析,也可以先存储起来。

那么就需要有一种方法:不但可以存储原始数据,也可以存储结构化、半结构化、非结构 化的数据,并且还能支撑数据的分析。

时势的呼唤下,“数据湖(Data Lake)”便产生了。

2.数据湖是什么?

数据湖是一个以原始格式存储数据的存储库或系统。

“数据”可以是各种格式的,结构化、半结构化的、非结构化的。并且数据是未经加工的,像大自然的水,流入到“湖”中。也就是数据的存储,无需像数据仓库那样事先设计Schema,也无需事先有明确的分析需求(有了想法,再延迟分析,称为读时模式Schema-On-Read)

3.数据湖如何实现?

数据湖是一种方法论,探讨如何以原始形态存储各种格式的数据,并能支持后续的分析。

数据湖的开源实现有:Hadoop、Delta、Apache Iceberg 和 Apache Hudi。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据库
    +关注

    关注

    7

    文章

    3763

    浏览量

    64274
  • 数据链路
    +关注

    关注

    0

    文章

    25

    浏览量

    8934
  • 软件系统
    +关注

    关注

    0

    文章

    62

    浏览量

    9494
  • API接口
    +关注

    关注

    1

    文章

    82

    浏览量

    10426
收藏 人收藏

    评论

    相关推荐

    数据是什么

    点击“蓝字”关注我们来源 |谈数据作者丨石秀峰一、认识数据1、初识数据Data lake,笔者第一次接触这个概念,是在2014年IBM组
    发表于 07-12 08:14

    数据的定义是什么?如何去构建数据

    数据的定义是什么?数据数据仓库的区别在哪?如何去构建数据
    发表于 07-12 07:04

    数据可以用来解决大数据的挑战吗

    数据是机器学习和人工智能的强大基础),因为它们在大型,多样化的数据集上蓬勃发展。
    发表于 02-25 09:01 757次阅读
    <b class='flag-5'>数据</b><b class='flag-5'>湖</b>可以用来解决大<b class='flag-5'>数据</b>的挑战吗

    数据是什么,它的快速搭建方法介绍

    数据概念最早是在2011年提出,到现在也就9年左右的时间,算是一个较新的概念。虽然各方理解上有些差异,也存在一些争议,但概念不重要,关键是否能真正帮助企业解决在业务快速发展过程中不断遭遇的新问题。
    的头像 发表于 04-03 20:38 4191次阅读

    AWS数据怎么脱颖而出的

    在AWS 数据平台中有很多非常出色的组件,可以帮助用户解决数据中典型的挑战。比如,Amazon EMR大数据处理组件,可以在AWS上轻松
    的头像 发表于 04-12 19:34 1953次阅读

    结合阿里云上的EMR JindoFS优化和实践,数据怎么玩“加速”?

    那么为什么需要加速呢?这和数据架构分层,以及相关技术演进具有很大关系。接下来,我们从三个方面的介绍来寻找答案。分别是:基础版,要适配;标配版,做缓存;高配版,深度定制。JindoFS同时涵盖这三个层次,实现
    的头像 发表于 09-16 11:56 2327次阅读
    结合阿里云上的EMR JindoFS优化和实践,<b class='flag-5'>数据</b><b class='flag-5'>湖</b>怎么玩“加速”?

    阿里云为什么要重构数据解决方案 主推下一代技术

    数据并不是一个新概念,大概在十多年前,从有Hadoop开始,就有很多人提出这样的设想。面对海量数据增长,要想挖掘数据价值,首先得有一个能够存储各类
    的头像 发表于 11-11 14:38 1125次阅读

    阿里云宣布推出业内首个云原生企业级数据解决方案

    据悉,阿里云云原生企业级数据解决方案采用了存储计算分离架构,基于阿里云对象存储OSS构建,并与阿里云数据分析Data Lake Analytics(DLA)、
    的头像 发表于 12-21 14:07 2632次阅读

    数据仓库、数据以及中心化数据所有权的问题

    数据和分析领域中,数据网格(Data Mesh)范式是取代数据、成为主要架构模式的强势候选者。
    的头像 发表于 10-18 16:23 1938次阅读
    <b class='flag-5'>数据</b>仓库、<b class='flag-5'>数据</b><b class='flag-5'>湖</b>以及中心化<b class='flag-5'>数据</b>所有权的问题

    易华录提出面向数据数据安全治理框架

    在“十四五”规划明确提出加快构建全国一体化大数据中心体系的背景下,易华录数据以低能耗、跨领域、跨系统的特性提供了全新的技术架构。此外,《数据安全法》等法律法规的相继出台,对
    的头像 发表于 04-22 08:23 2205次阅读

    数据生态与数据智能峰会来袭 24日易华录有约

    ·数据生态与数据智能峰会来袭 6月24日易华录有约   ·   · ·   · ·   · ·   · ·        
    的头像 发表于 06-23 17:51 1446次阅读

    如何将SAP归档数据合并到数据

    存储在传统 SAP 归档解决方案中的数据无法帮助企业做出更好的商业决策 SAP系统已经存在了几十年,与大多数本地(Hadoop)或基于云的(Google, Azure, AWS)数据不同。这就
    的头像 发表于 02-14 09:50 815次阅读

    Azure Data Lake数据指南

    Azure Data Lake Storage Gen2 (ADLS Gen2) 是用于大数据分析的高度可扩展且经济高效的数据解决方案。随着我们继续与客户合作,利用 ADLS Gen2 从他们
    的头像 发表于 05-22 18:01 597次阅读
    Azure Data Lake<b class='flag-5'>数据</b><b class='flag-5'>湖</b>指南

    数据真的能取代数据仓库吗?【SNP SAP数据转型 】

    数据数据仓库的存在并不冲突,也并不是取代的关系,而是相互的融合关系。 数据是近两年中比较新的技术在大
    的头像 发表于 07-03 15:48 536次阅读
    <b class='flag-5'>数据</b><b class='flag-5'>湖</b>真的能取代<b class='flag-5'>数据</b>仓库吗?【SNP SAP<b class='flag-5'>数据</b>转型 】

    什么是数据数据数据仓库有什么区别?

    从本质上说,数据就是一个信息资源库。人们常常将数据数据仓库混为一谈,但两者在架构和满足的业务需求上都不一样。尤其是,随着社交媒体
    的头像 发表于 05-20 12:38 572次阅读
    什么是<b class='flag-5'>数据</b><b class='flag-5'>湖</b>?<b class='flag-5'>数据</b><b class='flag-5'>湖</b>和<b class='flag-5'>数据</b>仓库有什么区别?