什么是数据集成?
狭义的数据集成定义是指将不同源的数据组合成一个统一视图。而更广义的解释是:数据集成是数据库之间移动数据的过程 - 内部,外部或两者。这里,数据库包括生产DBS,数据仓库(DWS)以及生成和存储数据的第三方工具和系统。
我们简单整理了数据集成的相关技术释义,包括iPAAS, iPAAS,CDP,ETL,ELT,以及反向ETL。同时,所有集成工具都使用相同的底层技术API
1.IPAAS或Integration Platform作为服务:数据在云应用程序之间移动直接在IPAAS中没有发生转换
2.CDP或客户数据平台:数据通过中心集线器在云应用程序之间移动,可实现适度的转换功能
3.ETL或提取,转换和加载:数据从云应用程序通过内置于ETL工具中的强大转换图层移动到数据仓库
4.ELT或提取,加载和变换:数据从云应用程序移动到数据仓库直接发布,通过SQL在仓库中发生转换和数据建模。这里的主要区别在于,使用ETL,在将数据装入仓库之前发生转换,而在ELT中,随后发生转换。
IPAAS或Integration平台作为服务
促进开发、执行和集成流治理同任何本地(on-premises)以及基于云的流程、服务、应用和数据连接的一套云服务,可以在独立的或者多个交叉的组织中进行"。
IPAAS的优点,它们隐藏了优秀Web应用程序背后的大部分语法复杂性。中央集线器可以配置不同的模块,这些模块可以连接不同的工具,然后将结果提供给其他服务或应用程序。
IPAAS的缺点,但是开发人员需要创建数据到达时如何进行转换的描述,要求用户采用传统的编程语言编写函数,以便对数据进行过滤和操作。
CDP或客户数据平台
1.统一客户数据,统一客户身份
CDP客户数据平台可以解决用户场景断点和分散问题,实现数据通融。
2.多场景的客群分析,深度洞察客户
针对不同的运营阶段和业务场景,CDP可以提供不同的客户行为数据分析模型,对目标人群或全量客户的留存情况/参与度进行洞察,及时发现影响客户增长的关键因素,指导市场决策、产品改进、促进用户转化等。
ETL或提取,转换和加载
ETL是一种传统的数据集成过程。首先从一方数据库和第三方来源提取数据(主要是SaaS工具,用于销售,营销和支持),以满足分析师和数据科学家的需求,最后装入数据仓库。
转型特别是资源 - 激励和耗时,这显着影响提取和数据加载之间所需的时间。
但是,由于仓储技术和生态系统的进步,ETL正在被ELT所取代,ELT相对会更快,更灵活。
ELT或提取,加载和变换
ELT是ETL的现代方法,这在很大程度上提高效率,因为云数据仓库的发展,在ELT范例下,数据从源系统中提取并加载到仓库中而不会发生任何转换。事实上,现代ELT工具甚至没有提供内置的转换功能,但与DBT这样的服务很好地集成了用于处理数据仓库内的转换层的DBT。ELT快速,实惠,最重要的是,不需要编码,所有这些都是从ETL到ELT的转变。
目前我国目前数据集成的主流是ETL ,但是作为一种传统技术,在未来使用ELT作为数据集成架构的将会越来越多。
审核编辑 黄昊宇
-
数据中心
+关注
关注
16文章
4652浏览量
71921 -
数据集成
+关注
关注
0文章
53浏览量
9177 -
数据一致性
+关注
关注
0文章
5浏览量
1419
发布评论请先 登录
相关推荐
评论