数据湖是什么-电子发烧友网

1.为什么出现数据湖？

支撑业务的IT软件系统最简单的数据链路是：操作业务APP的界面或者调用其API 接口，将交易数据记录到关系型数据库中。

说其简单，是因为这样的系统能够支撑业务交易。业务APP上的每笔交易数据都会记录在数据库中。

这对业务交易员来说，已经足够了。但对业务管理者来说，期望看到的是“自己关心的、宏观的、能够反应历史变化的数据”，并且最好是可视化的界面，一目了然。

于是，“数据仓库”出现了，它就是一个面向主题的、集成的、反映历史变化的数据集合。

那么，数据是如何从业务数据库到达数据仓库的呢？

首先，要理解的是业务数据库和数据仓库的Schema（表结构）大部分情况下是不同的，前者用来记录实时交易信息，后者用来记录历史汇总信息。

其次，表结构的不同，就需要进行数据处理的三板斧--“抽取、转换和加载”，即Extract-Transform-Load，简称ETL。具体来说就是抽取管理者关心的（面向主题）、转换数据、加载到数据仓库中。

最后，根据业务规则，提取数据仓库中的数据进行可视化提取与展示（报表）。

数据仓库的使用思路是：业务管理者知道“自己关心哪些数据”，在创建数据仓库时，便可以将这些数据提取并记录下来。这样，数据仓库记录的是经过加工过的数据，而非原始数据。

注意到数据仓库的数据是结构化的。对于半结构化（CSVXMLJSON）和非结构化（e-mail文档）的数据来说，也蕴含着有价值的信息，同样需要分析，或者现在不知道怎么分析，也可以先存储起来。

那么就需要有一种方法：不但可以存储原始数据，也可以存储结构化、半结构化、非结构化的数据，并且还能支撑数据的分析。

时势的呼唤下，“数据湖（Data Lake）”便产生了。

2.数据湖是什么？

数据湖是一个以原始格式存储数据的存储库或系统。

“数据”可以是各种格式的，结构化、半结构化的、非结构化的。并且数据是未经加工的，像大自然的水，流入到“湖”中。也就是数据的存储，无需像数据仓库那样事先设计Schema，也无需事先有明确的分析需求（有了想法，再延迟分析，称为读时模式Schema-On-Read）。

3.数据湖如何实现？

数据湖是一种方法论，探讨如何以原始形态存储各种格式的数据，并能支持后续的分析。

数据湖的开源实现有：Hadoop、Delta、Apache Iceberg 和 Apache Hudi。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据库

数据库

+关注

关注
7

文章
3799

浏览量
64386
数据链路

数据链路

+关注

关注
0

文章
25

浏览量
8943
软件系统

软件系统

+关注

关注
0

文章
63

浏览量
9505
API接口

API接口

+关注

关注
1

文章
84

浏览量
10438

数据湖是什么

点击“蓝字”关注我们来源 |谈数据作者丨石秀峰一、认识数据湖1、初识数据湖Data lake，笔者第一次接触这个概念，是在2014年IBM组

发表于 07-12 08:14

数据湖的定义是什么？如何去构建数据湖？

数据湖的定义是什么？数据湖与数据仓库的区别在哪？如何去构建数据

发表于 07-12 07:04

数据湖可以用来解决大数据的挑战吗

数据湖是机器学习和人工智能的强大基础），因为它们在大型，多样化的数据集上蓬勃发展。

发表于 02-25 09:01 •767次阅读

<b class='flag-5'>数据</b><b class='flag-5'>湖</b>可以用来解决大<b class='flag-5'>数据</b>的挑战吗

数据湖是什么，它的快速搭建方法介绍

数据湖概念最早是在2011年提出，到现在也就9年左右的时间，算是一个较新的概念。虽然各方理解上有些差异，也存在一些争议，但概念不重要，关键是否能真正帮助企业解决在业务快速发展过程中不断遭遇的新问题。

发表于 04-03 20:38 •4226次阅读

AWS数据湖怎么脱颖而出的

在AWS 数据湖平台中有很多非常出色的组件，可以帮助用户解决数据湖中典型的挑战。比如，Amazon EMR大数据处理组件，可以在AWS上轻松

发表于 04-12 19:34 •1982次阅读

结合阿里云上的EMR JindoFS优化和实践，数据湖怎么玩“加速”？

那么为什么需要湖加速呢？这和数据湖架构分层，以及相关技术演进具有很大关系。接下来，我们从三个方面的介绍来寻找答案。分别是：基础版，要适配;标配版，做缓存;高配版，深度定制。JindoFS同时涵盖这三个层次，实现

发表于 09-16 11:56 •2346次阅读

结合阿里云上的EMR JindoFS优化和实践，<b class='flag-5'>数据</b><b class='flag-5'>湖</b>怎么玩“加速”？

阿里云为什么要重构数据湖解决方案主推下一代技术

数据湖并不是一个新概念，大概在十多年前，从有Hadoop开始，就有很多人提出这样的设想。面对海量数据增长，要想挖掘数据价值，首先得有一个能够存储各类

发表于 11-11 14:38 •1135次阅读

阿里云宣布推出业内首个云原生企业级数据湖解决方案

据悉，阿里云云原生企业级数据湖解决方案采用了存储计算分离架构，基于阿里云对象存储OSS构建，并与阿里云数据湖分析Data Lake Analytics（DLA）、

发表于 12-21 14:07 •2664次阅读

虚拟化模型驱动的分布式数据湖架构设计

提出了适应工商联业务服务对象分布广、类型多、不确定性强等特点的虚拟化模型驱动的分布式数据湖构建方法，给岀了分布式数据湖的整体架构设计，定乂了适应分散、碎片化欻据收集场景的欻据虚拟仳模型

发表于 05-11 15:12 •5次下载

易华录提出面向数据湖的数据安全治理框架

在“十四五”规划明确提出加快构建全国一体化大数据中心体系的背景下，易华录数据湖以低能耗、跨领域、跨系统的特性提供了全新的技术架构。此外，《数据安全法》等法律法规的相继出台，对

发表于 04-22 08:23 •2261次阅读

数据湖生态与数据智能峰会来袭 24日易华录有约

·数据湖生态与数据智能峰会来袭 6月24日易华录有约 · · · · · · · · ·

发表于 06-23 17:51 •1466次阅读

如何将SAP归档数据合并到数据湖中

存储在传统 SAP 归档解决方案中的数据无法帮助企业做出更好的商业决策 SAP系统已经存在了几十年，与大多数本地（Hadoop)或基于云的（Google, Azure, AWS）数据湖不同。这就

发表于 02-14 09:50 •874次阅读

Azure Data Lake数据湖指南

Azure Data Lake Storage Gen2 (ADLS Gen2) 是用于大数据分析的高度可扩展且经济高效的数据湖解决方案。随着我们继续与客户合作，利用 ADLS Gen2 从他们

发表于 05-22 18:01 •634次阅读

数据湖真的能取代数据仓库吗？【SNP SAP数据转型】

数据湖和数据仓库的存在并不冲突，也并不是取代的关系，而是相互的融合关系。数据湖是近两年中比较新的技术在大

发表于 07-03 15:48 •560次阅读

什么是数据湖？数据湖和数据仓库有什么区别？

从本质上说，数据湖就是一个信息资源库。人们常常将数据湖与数据仓库混为一谈，但两者在架构和满足的业务需求上都不一样。尤其是，随着社交媒体

发表于 05-20 12:38 •613次阅读

搜索历史

数据湖是什么

评论

数据湖是什么

数据湖的定义是什么？如何去构建数据湖？

数据湖可以用来解决大数据的挑战吗

数据湖是什么，它的快速搭建方法介绍

AWS数据湖怎么脱颖而出的

结合阿里云上的EMR JindoFS优化和实践，数据湖怎么玩“加速”？

阿里云为什么要重构数据湖解决方案主推下一代技术

阿里云宣布推出业内首个云原生企业级数据湖解决方案

虚拟化模型驱动的分布式数据湖架构设计

易华录提出面向数据湖的数据安全治理框架

数据湖生态与数据智能峰会来袭 24日易华录有约

如何将SAP归档数据合并到数据湖中

Azure Data Lake数据湖指南

数据湖真的能取代数据仓库吗？【SNP SAP数据转型】

什么是数据湖？数据湖和数据仓库有什么区别？