0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

下秒数据CEO蔡致暖:云原生时代数据管道的迭代之路

下秒数据Nexadata 来源: 下秒数据Nexadata 作者: 下秒数据Nexadata 2022-09-20 10:59 次阅读

在如今数据被称为新经济时代的石油的大背景下,数据管道是什么?处于什么位置?其技术和演进趋势又是怎么样的?

2022年7月12日,在CSDN云原生系列在线峰会第13期“现代数据栈峰会”上,针对这些连续发问,下秒数据CEO蔡致暖对数据管道1.0至3.0的迭代过程及技术特点进行了详细介绍。

数据管道和ETL

数据管道是一种重要的数据基础设施,ETL管道是最常用的数据管道。

数据基础设施是底座,数据管道作为数据库及数据仓库的最佳拍档,也是一种重要的数据基础设施。

在了解数据管道具体是什么之前,首先要了解什么是ETL管道。ETL管道是从其源系统/数据库中提取数据,对数据进行转换,然后将其加载到数据仓库或数据库中,从中获取业务见解。

数据管道包含ETL管道,因为对于数据管道来说,数据的目的地不一定是数据库或数据仓库,也可以是其他的应用程序,并且支持整个组织的数据编排、管理和使用。

数据管道中的步骤通常包括提取、转换、组合、验证、可视化以及其他此类数据分析过程。如果没有数据管道,这些过程需要大量耗时而繁琐的手动步骤,并给人为错误留下空间。数据管道的最佳类比是传送带,它能高效、准确地将数据传送到流程的每一步。例如,数据管道可帮助数据从SaaS应用高效地流向数据仓库等。

为什么说数据管道是重要的数据基础设施?

现如今企业数据孤岛变得普遍,各类SaaS应用的使用频率越来越高。数据管道解决的是如何自动化地把不同来源的数据传递给组织中的人、系统、应用程序,并将数据转化为业务价值。数据管道扮演的不仅仅是一个数据传送带的作用,它还需要把不同来源的数据,经过技术手段变成业务价值再传送出去,最终让组织方便地使用数据。

数据管道1.0:ETL技术和数据仓库

数据管道1.0的关键词是ETL与数据仓库,基于传统ETL技术构建数据仓库的的过程可划分为五步:

定义数据项目及相关业务需求;

确定项目的相关数据源;

定义特定业务问题所需的数据模型(Schema);

构建ETL管道(提取、转换和加载函数);

进行数据分析并获得业务见解。

其关键特征在于,数据在加载到数据仓库之前需进行转换。这是因为在20世纪90年代,存储、计算和带宽十分昂贵,因此在将数据装入仓库之前减少数据量至关重要。

传统ETL技术的局限性

随着数据处理技术的不断演进,传统ETL技术难以适应业务的发展,有较多弊端显现:

不够灵活、伸缩性差,一旦业务规则变化,管道需重新设计;

需持续维护,开发工程师要深度参与,维护成本高;

技术复杂,可以使用各种不同的编程语言。

案例解析——业务逻辑稍复杂,维护成本奇高无比

上图是一个典型的使用Kettle构建的数据管道,涉及节点数量20余。在业务变化和需求修改增多的情况下,数据管道的复杂度和维护成本都会奇高无比。

数据管道2.0:ELT和云计算/大数据

数据管道2.0的主要目标依旧是构建数据仓库,其关键词是ELT与云计算/大数据。

在2.0阶段,我们将ETL技术更换为ELT技术,这是因为随着大数据与云计算的发展,存储、计算和带宽成本大幅下降,组织可以在数据仓库中加载大量未转换的数据,而不必担心成本和限制。

ELT管道从源系统中提取数据并将其直接加载到数据仓库中,无需进行转换。数据入库后针对特定业务,基于SQL或DBT(SQL扩展)等工具进行转换和建模。

ELT解决了传统ETL技术的痛点

ELT更加灵活,每个数据源的数据都可以存入库中,EL过程不涉及业务转化,可以实现标准化,进而可以按需扩展数据源、按需建模;

ELT更加普适,转换和建模不再依赖编程语言,入库后使用SQL即可;

ELT更加健壮,转换层的故障(如上游架构或下游数据模型更改时)不会阻止数据加载。

数据管道3.0:连接器和API经济

虽然数据管道2.0已经实现了将数据都存入数据仓库中,但转换和建模依然对技术具有高要求。以往做数据集成多以数据库或文件为目标,但随着近年来SaaS应用的普及,组织使用不同的应用及工具开展营销和经营活动,

数据集成的技术门槛并没有因为ELT的到来而降低。

数据管道3.0——基于连接器和API经济,自动化价值数据的流动

实际上,数据管道3.0及数据管道2.0的ELT都是现代数据栈的组成部分。相较数据管道2.0,数据管道3.0主要在两个方面做出了改变。

数据连接器的标准化和商品化:ELT为数据连接器的标准化打下了坚实基础,将问题转换为如何使数据连接器更易于构建;

数据分析结果不应该封闭在数据仓库或BI工具中,应该通过API或数据编排自动化,推动组织中价值数据的流动,如反向ETL。

数据管道3.0的主要特征

用户特征

用户无需关注技术,通过简单的配置就可以完成数据的连接处理分析,降低对开发人员的依赖;

弹性的工作负载,按用量付费。

技术特征

连接器标准化,数据集成可重用,大幅降低数据集成的成本及技术门槛;

转换、建模以数据仓库和SQL为中心

生态特征

易与其他工具(包括传统ETL工具)集成;

利用社区的力量来构建与维护连接器和模板化的数据模型。

总结

数据管道是一项重要的数据基础设施,使用智能数据管道技术,能够帮助组织将所有应用程序、数据库、事件和文件等数据信息提取到数据仓库中,并快速将分散的数据转化为数据集、API、自动化流程等开箱即用的数据服务,释放数据的价值。

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ETL
    ETL
    +关注

    关注

    0

    文章

    20

    浏览量

    9405
  • 大数据
    +关注

    关注

    64

    文章

    8884

    浏览量

    137413
  • 云原生
    +关注

    关注

    0

    文章

    248

    浏览量

    7949
收藏 人收藏

    评论

    相关推荐

    艾体宝与Kubernetes原生数据平台AppsCode达成合作

    虹科姐妹公司艾体宝宣布与Kubernetes 原生数据平台 AppsCode达成正式合作,致力于将其核心产品KubeDB引入中国市场,为企业提供专业、高效的云原生数据库管理解决方案。
    的头像 发表于 12-16 15:07 208次阅读

    构建云原生机器学习平台流程

    构建云原生机器学习平台是一个复杂而系统的过程,涉及数据收集、处理、特征提取、模型训练、评估、部署和监控等多个环节。
    的头像 发表于 12-14 10:34 112次阅读

    什么是云原生MLOps平台

    云原生MLOps平台,是指利用云计算的基础设施和开发工具,来构建、部署和管理机器学习模型的全生命周期的平台。以下,是对云原生MLOps平台的介绍,由AI部落小编整理。
    的头像 发表于 12-12 13:13 92次阅读

    软通动力荣登2024云原生企业TOP50榜单

    近日,DBC德本咨询发布“2024云原生企业TOP50”榜单,软通动力凭借自研的“天鹤云原生数据库平台” 荣登该榜单第8名,彰显了公司在该领域的行业竞争力。
    的头像 发表于 12-04 11:27 222次阅读

    云原生数据库哪个好一些?

    云原生数据库哪个好一些?云原生数据库各有其独特的优势,适用于不同的场景。云原生强调高效资源利用、快速开发部署和高可伸缩性,适合需要高度灵
    的头像 发表于 11-29 10:07 131次阅读

    k8s微服务架构就是云原生吗?两者是什么关系

    k8s微服务架构就是云原生吗?K8s微服务架构并不等同于云原生,但两者之间存在密切的联系。Kubernetes在云原生架构中扮演着核心组件的角色,它简化了容器化应用程序的管理,提供了弹性、自动化
    的头像 发表于 11-25 09:39 137次阅读

    云原生和非云原生哪个好?六大区别详细对比

    云原生和非云原生各有优劣,具体选择取决于应用场景。云原生利用云计算的优势,通过微服务、容器化和自动化运维等技术,提高了应用的可扩展性、更新速度和成本效益。非云原生则可能更适合对延迟敏感
    的头像 发表于 09-13 09:53 382次阅读

    京东云原生安全产品重磅发布

    “安全产品那么多,我怎么知道防住了?”“大家都说自己是云原生的,我看都是换汤不换药”在与客户沟通云原生安全方案的时候,经常会遇到这样的吐槽。越来越的客户已经开始了云原生化的技术架构改造,也意识到
    的头像 发表于 07-26 10:36 469次阅读
    京东<b class='flag-5'>云原生</b>安全产品重磅发布

    从积木式到装配式云原生安全

    云原生安全风险 随着云原生架构的快速发展,核心能力逐渐稳定,安全问题日趋紧急。在云原生安全领域不但有新技术带来的新风险,传统IT基础设施的安全威胁也依然存在。要想做好
    的头像 发表于 07-26 10:35 296次阅读
    从积木式到装配式<b class='flag-5'>云原生</b>安全

    基于DPU与SmartNic的云原生SDN解决方案

    随着云计算,大数据和人工智能等技术的蓬勃发展,数据中心面临着前所未有的数据洪流和计算压力,这对SDN提出了更高的性能和效率要求。自云原生概念被提出以来,Kubernetes为
    的头像 发表于 07-22 11:44 690次阅读
    基于DPU与SmartNic的<b class='flag-5'>云原生</b>SDN解决方案

    英特尔携手腾讯云用CPU打造LLM时代数据中枢,共筑AGI基建

    英特尔携手腾讯云用CPU打造LLM时代数据中枢,共筑AGI基建
    的头像 发表于 05-27 11:53 519次阅读
    英特尔携手腾讯云用CPU打造LLM<b class='flag-5'>时代数据</b>中枢,共筑AGI基建

    华为云原生多模数据库 GeminiDB 架构与应用实践

    近日,2023 全球分布式云大会·深圳站顺利召开,华为云 NoSQL 数据库研发总监余汶龙在会上发表了题为《华为云原生多模数据库 GeminiDB 架构与应用实践》的精彩演讲。 余汶龙提出在智能
    的头像 发表于 04-08 18:23 1174次阅读
    华为<b class='flag-5'>云原生</b>多模<b class='flag-5'>数据</b>库 GeminiDB 架构与应用实践

    云原生驱动信贷服务数字化 中软国际信贷数据服务平台获业界认可

    随着云原生技术在金融业的应用不断深化,金融服务的优化和创新日益加快。
    的头像 发表于 04-02 09:58 395次阅读
    <b class='flag-5'>云原生</b>驱动信贷服务数字化 中软国际信贷<b class='flag-5'>数据</b>服务平台获业界认可

    云原生是大模型“降本增效”的解药吗?

    云原生AI正当时
    的头像 发表于 02-20 09:31 387次阅读

    米哈游大数据云原生实践

    近年来,容器、微服务、Kubernetes 等各项云原生技术的日渐成熟,越来越多的公司开始选择拥抱云原生,并开始将 AI、大数据等类型的企业应用部署运行在云原生之上。以 Spark 为
    的头像 发表于 01-09 10:41 582次阅读
    米哈游大<b class='flag-5'>数据云原生</b>实践