数据仓库开发技术的重要一环：ETL-电子发烧友网

大家都知道数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。因此越来越多的企业和管理者对数据仓库格外关注。做好数据仓库开发，一靠工具，二靠技术。就工具方面来说，很多云厂商已经提供了相当成熟和完备的解决方案。

以我们华为云举例，目前华为云的数据仓库服务 GaussDB（DWS）已经做到了：实时、简单、安全可信的企业级融合数据仓库，并可借助DWS Express将查询分析扩展至数据湖。基于华为GaussDB产品的云原生服务，也可以兼容标准SQL和PostgreSQL/Or acle生态。所以，在工具完备的情况下，开发者们更关注的应该是技术层面。今天小编要和大家分享的，就是构建数据仓库的重要一环：ETL。

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，是构建数据仓库的重要一环，用户从数据源抽取出所需的数据，经过数据清洗，最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中。目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。

ETL算法概览

算法应用场景概览

以上共计累积了8种ETL算法，其中主要分成4大类，增量累加、拉链算法是更符合数据仓库历史数据追踪的算法，但现实中基于业务及性能考虑，往往存在全删全插、增量累全算法的数据表应用。

全删全插模型

即Delete/Insert实现逻辑；

应用场景

主要应用在维表、参数表、主档表加载上，即适合源表是全量数据表，该数据表业务逻辑只需保存当前最新全量数据，不需跟踪过往历史信息。

算法实现逻辑

1.清空目标表； 2.源表全量插入；

ETL代码原型

--1.清理目标表 TRUNCATE TABLE <目标表>; -- 2. 全量插入 INSERT INTO <目标表> (字段***) SELECT 字段*** FROM <源表> ***JOIN <关联数据> WHERE ***;

增量累全模型

即Upsert实现逻辑；

应用场景

主要应用在参数表、主档表加载上，即源表可以是增量或全量数据表，目标表始终最新最全记录。

算法实现逻辑

1.利用PK主键比对； 2.目标表和源表PK一致的变化记录，更新目标表； 3.源表存在但目标表不存在，直接插入；

ETL代码原型

--1.生成加工源表 Create temp Table <临时表> ***; INSERT INTO <临时表> (字段***) SELECT 字段*** FROM <源表> ***JOIN <关联数据> WHERE *** ; -- 2. 可利用Merge Into实现累全能力，当前也可以采用分步Delete/Insert或Update/Insert操作 Merge INTO <目标表> As T1 (字段***) Using <临时表> as S1 on (***PK***) when Matched then update set Colx = S1.Colx *** when Not Matched then INSERT (字段***) values (字段*** )

增量累加模型

即Append实现逻辑；

应用场景

主要应用在流水表加载上，即每日产生的流水、事件数据，追加到目标表中保留全历史数据。流水表、快照表、统计分析表等均是通过该逻辑实现。

算法实现逻辑

1.源表直接插入目标表；

ETL代码原型

-- 1.插入目标表 INSERT INTO <目标表> (字段***) SELECT 字段*** FROM <源表> ***JOIN <关联数据> WHERE ***;

全历史拉链模型

拉链表背景知识

概念拉链表是一张至少存在PK字段、跟踪变化的字段、开链日期、闭链日期组成的数据仓库ETL数据表；

益处根据开链、闭链日期可以快速提取对应日期有效数据；对于跟踪源系统非事件流水类表数据，拉链算法发挥越大作用，源业务系统通常每日变化数据有限，通过拉链加工可以大大降低每日打快照带来的空间开销，且不损失数据变化历史；

示例提取指定日期有效数据

提取2020年2月5日当日有效数据

Select* From <目标表> Where 开始日期<=date'2020-02-05' And 结束日期 >date'2020-02-05';

最终提取到数据：

应用场景

全历史拉链，跟踪源表全量变化历史，若源表记录不存在，则说明数据闭链；根据PK新拉一条有效记录。

算法实现逻辑

1.提取当前有效记录； 2.提取当日源系统最新数据； 3.根据PK字段比对当前有效记录与最新源表，更新目标表当前有效记录，进行闭链操作； 4.根据全字段比对最新源表与当前有效记录，插入目标表；

ETL代码原型

--1.提取当前有效记录 Insert into <临时表-开链-pre> (不含开闭链字段***) Select 不含开闭链字段*** From <目标表> Where 结束日期 =date'<最大日期>'; ; -- 2. 提取当日源系统最新数据 <源表临时表-cur> -- 3 今天全部开链的数据，即包含今天全新插入、数据发生变化的记录 Insert Into <临时表-增量-ins> Select 不含开闭链字段*** From <源表临时表-cur> where (不含开闭链字段***) not in (Select 不含开闭链字段*** From <临时表-开链-pre> ); -- 4 今天需要闭链的数据，即今天发生变化的记录 Insert into <临时表-增量-upd> Select 不含开闭链字段***,开始时间 From <临时表-开链-pre> where (不含开闭链字段***) not in (Select 不含开闭链字段*** From <临时表-开链-cur> ); -- 5 更新闭链数据，即历史记录闭链（删除-插入替代更新） DELETE FROM <目标表> WHERE (PK***) IN (Select PK*** From <临时表-增量-upd>) AND 结束日期=date'<最大日期>'; INSERT INTO <目标表> (不含开闭链字段***,开始时间,结束日期) Select 不含开闭链字段***,开始时间,date'<数据日期>' From <临时表-增量-upd>; -- 6 插入开链数据，即当日新增记录 INSERT INTO <目标表> . (不含开闭链字段***,开始时间,结束日期) Select 不含开闭链字段***,date'<数据日期>',date'<最大日期>' From <临时表-增量-ins>;

增量拉链模型

应用场景

增量拉链，目的是追踪数据增量变化历史，根据PK比对新拉一条开链数据；

算法实现逻辑

1.提取上日开链数据； 2.PK相同变化记录，关闭旧记录链，开启新记录链； 3.PK不同，源表存在，新增开链记录

ETL代码原型

--1.提取当前有效记录 Insert into <临时表-开链-pre> (不含开闭链字段***) Select 不含开闭链字段*** From <目标表> Where 结束日期 =date'<最大日期>'; -- 2. 提取当日源系统增量记录 <源表临时表-cur> -- 3. 提取当日源系统新增记录 Insert into <临时表-增量-ins> Select 不含开闭链字段*** From <临时表-开链-cur> where (***PK***) not in (select ***PK*** from <临时表-开链-pre>); -- 4. 提取当日源系统历史变化记录 Insert into <临时表-增量-upd> Select 不含开闭链字段*** From <临时表-开链-cur> inner join <临时表-开链-pre> on (***PK 等值***) where (***变化字段非等值***); -- 5. 更新历史变化记录，关闭历史旧链，开启新链 update <目标表> AS T1 SET <***变化字段 S1赋值***>,结束日期 = date'<数据日期>' FROM <临时表-增量-upd> AS S1 WHERE ( <***PK 等值***> ) AND T1.结束日期 =date'<最大日期>' ; INSERT INTO <目标表> (不含开闭链字段***,开始时间,结束日期) SELECT 不含开闭链字段***,date'<数据日期>',date'<最大日期>' FROM <临时表-增量-upd>; -- 6. 插入全新开链数据 INSERT INTO <目标表> (不含开闭链字段***,开始时间,结束日期) SELECT 不含开闭链字段***,date'<数据日期>',date'<最大日期>' FROM <临时表-增量-ins>;

增删拉链模型

应用场景

主要是利用业务字段跟踪增量数据中包含删除的变化历史。

算法实现逻辑

1.提取上日开链数据； 2.提取源表非删除记录； 3.PK相同变化记录，关闭旧记录链，开启新记录链； 4.PK比对，源表存在，新增开链记录； 5.提取源表删除记录； 6.PK比对，旧开链记录存在，关闭旧记录链；

ETL代码原型

--1.清理目标表《待续...》 TRUNCATE TABLE <目标表>; -- 2. 全量插入 INSERT INTO <目标表> (字段***) SELECT 字段*** FROM <源表> ***JOIN <关联数据> WHERE ***;

全量增删拉链模型

应用场景

主要是利用业务字段跟踪全量数据中包含删除的变化历史。

算法实现逻辑

1.提取上日开链数据； 2.提取源表非删除记录； 3.PK相同变化记录，关闭旧记录链，开启新记录链； 4.PK比对，源表存在，新增开链记录； 5.提取源表删除记录； 6.PK比对，旧开链记录存在，关闭旧记录链； 7.PK比对，提取旧开链存在但源表不存在记录，关闭旧记录链；

ETL代码原型

-- 1. 清理目标表，《待续...》 TRUNCATE TABLE <目标表>; -- 2. 全量插入 INSERT INTO <目标表> (字段***) SELECT 字段*** FROM <源表> ***JOIN <关联数据> WHERE ***;

自拉链模型

应用场景

主要将流水表数据转化成拉链表数据。

算法实现逻辑

借助源表业务日期字段，和目标表开链、闭链日期比对，首尾相接，拉出全历史拉链；

ETL代码原型

--1.清理目标表，《待续...》 TRUNCATE TABLE <目标表>; -- 2. 全量插入 INSERT INTO <目标表> (字段***) SELECT 字段*** FROM <源表> ***JOIN <关联数据> WHERE ***;

其它说明

1.根据数据仓库最佳实践，所有数据表通常还会包含一些控制字段，即插入日期、更新日期、更新源头字段，这样对于数据变化敏感的数据仓库，可以进一步追踪数据变化历史； 2.ETL算法本身是为了更好服务于数据加工过程，实际业务实现过程中，并不局限于传统算法，即涉及到更多适应业务的自定义的ETL算法。

原文标题：8种优秀ETL算法推荐！数据仓库开发者看过来～

文章出处：【微信公众号：华为开发者社区】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

ETL

ETL

+关注

关注
0

文章
21

浏览量
9432
数据仓库

数据仓库

+关注

关注
0

文章
61

浏览量
10490

原文标题：8种优秀ETL算法推荐！数据仓库开发者看过来～

文章出处：【微信号：Huawei_Developer，微信公众号：华为开发者社区】欢迎添加关注！文章转载请注明出处。

兆易创新2024年深圳人社公益培训圆满收官

职业技能培训作为兆易创新大学计划中的重要一环，始终致力于与行业上下游保持紧密互动与合作，依托于公司最新的产品技术，积极完善和拓展开发生态系统，为社会嵌入式人才培养赋能。

发表于 12-31 16:34 •334次阅读

如何进行产线高阶能耗数据的计算和可视化?

产线高阶能耗数据的计算和可视化是产线数字化升级的重要一环。如何高效完成这一流程？宏集方案告诉你

发表于 11-13 14:02 •250次阅读

如何进行产线高阶能耗<b class='flag-5'>数据</b>的计算和可视化?

认识PCB碳油工艺：电路板创新的重要一环

在PCB线路板的制造领域中，碳油工艺是一项具有重要地位的技术。它为电路板的功能性和可靠性提供了关键支持，在电子设备的生产中发挥着不可或缺的作用。 PCB碳油工艺，简单来说，就是在PCB板的特定区域上

发表于 09-03 17:56 •1460次阅读

数据仓库与数据库的主要区别

数据仓库与数据库是两个在信息技术领域中常见的概念，它们在数据管理和分析方面发挥着重要作用。尽管它们在某些方面有相似之处，但它们在设计、目的和

发表于 07-05 14:57 •619次阅读

ZR执行器：提升生产效率的关键一环

ZR执行器：提升生产效率的关键一环在当今竞争激烈的工业环境中，提升生产效率是每个企业都追求的目标。而在这个过程中，ZR执行器以其卓越的性能和稳定性，成为了提升生产效率的关键一环。 ZR执行器是一

发表于 06-07 20:07 •406次阅读

什么是数据湖？数据湖和数据仓库有什么区别？

从本质上说，数据湖就是一个信息资源库。人们常常将数据湖与数据仓库混为一谈，但两者在架构和满足的业务需求上都不

发表于 05-20 12:38 •711次阅读

什么是<b class='flag-5'>数据</b>湖？<b class='flag-5'>数据</b>湖和<b class='flag-5'>数据仓库</b>有什么区别？

特斯拉拟在华建数据中心，加速自动驾驶发展

据知情人士透露，特斯拉正计划在中国境内建立数据中心，此举是埃隆·马斯克全球自动驾驶战略的重要一环。新数据中心将专门用于训练自动驾驶车辆所需的先进算法，以推动全球自动驾驶系统的发展。

发表于 05-20 10:12 •493次阅读

存内生态构建重要一环- 存内计算工具链

本篇文章重点讲述存内计算相关工具链，我们将从工具链定义出发，依次讲述工具链研究背景及现有工具链、存内计算相关工具链发展现状、存内计算工具链未来展望等内容。

发表于 05-16 14:37 •1289次阅读

存内生态构建<b class='flag-5'>重要一环</b>- 存内计算工具链

数据中台、数据仓库、数据治理与主数据的定位与差异

在数字化时代，大数据已经成为企业运营和决策的重要资产。为了更好地管理和利用这些数据，数据中台、数据仓库、

发表于 05-08 10:40 •510次阅读

智慧园区：未来城市建设的重要一环

现如今，随着数字化技术的迅猛发展，智慧园区已经成为了未来城市建设的重要一环。而在智慧园区建设中，集成运维发挥着至关重要的作用。古河云科技将深入探讨智慧园区和集成运维的关系，并解析其未来发展趋势，为

发表于 04-29 16:38 •350次阅读

断路器UL489认证：确保电气安全的重要一环

断路器UL认证-UL489认证断路器，作为一种重要的电气保护设备，能够在电路中出现异常时切断电流，从而保护电路和设备的安全。为了确保断路器的性能和质量，UL489认证成为了断路器产品的一个重要

发表于 04-18 09:59 •2116次阅读

汽车智能化的重要一环：蓝牙胎压监测系统

行驶带来一定的影响，有一套成熟的胎压监测装置对汽车的安全性至关重要。以往，车辆驾驶员是通过刻度尺或者木槌等方式检查轮胎压力，但被动监测胎压的方式，在当下看起来并不方便。因此通过传感器、蓝牙、RFID等

发表于 04-07 00:04 •5289次阅读

多个ST60在同一环境中工作时，它们之间是否会相互干扰？

多个ST60在同一环境中工作时，它们之间是否会相互干扰？会不会有配对错误的风险？

发表于 03-29 07:10

六氟化硫气体泄漏报警装置，安全保障的重要一环！

氟化硫SF6气体分解产物也会与电力设备中的水分发生反应，也会形成有毒物质。在电力工业中，六氟化硫气体SF6是一种重要的介质，用作闭合式高压开关的灭弧和边缘气体。六氟化硫气体的优越性能实现了装置的经济、低维护运行。目前，作为边

发表于 03-28 15:44 •459次阅读

LKT安全芯片密钥管理与分散过程简单描述

密钥管理是数据加密技术中的重要一环，密钥管理的目的是确保密钥的安全性（真实性和有效性）。

发表于 02-23 13:43 •569次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

数据仓库开发技术的重要一环：ETL

评论

兆易创新2024年深圳人社公益培训圆满收官

如何进行产线高阶能耗数据的计算和可视化?

认识PCB碳油工艺：电路板创新的重要一环

数据仓库与数据库的主要区别

ZR执行器：提升生产效率的关键一环

什么是数据湖？数据湖和数据仓库有什么区别？

特斯拉拟在华建数据中心，加速自动驾驶发展

存内生态构建重要一环- 存内计算工具链

数据中台、数据仓库、数据治理与主数据的定位与差异

智慧园区：未来城市建设的重要一环

断路器UL489认证：确保电气安全的重要一环

汽车智能化的重要一环：蓝牙胎压监测系统

多个ST60在同一环境中工作时，它们之间是否会相互干扰？

六氟化硫气体泄漏报警装置，安全保障的重要一环！

LKT安全芯片密钥管理与分散过程简单描述