0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据中台下的数据质量问题

ss 来源:EAWorld 作者:刘庆会 2020-11-12 14:08 次阅读

当前越来越多的组织认识到了数据的重要性,为了发挥数据的价值,数据仓库、大数据平台、数据中台的建设如雨后春笋。但数据是一把双刃剑,它能给企业带来业务价值的同时也是组织最大的风险来源。糟糕的数据质量常常意味着低效的、错误的业务决策,将直接导致数据统计分析不准确、监管业务难、高层领导难以决策等问题。如何在数据中台搭建数据质量管理体系,形成常态化的数据质量管理流程是决定数据中台运营应用的重要因素。

目录:

1.数据质量问题的产生来源

2.数据质量问题域及分类

3.数据质量管理体系建设的五个原则

4.数据质量管理框架及关键技术

5.数据质量管理的最佳实践

1、数据质量问题的产生来源

现在的数据集成融合就和古人筑堤坝一样,古人筑堤坝是为约束河水,让自然资源为我所用,发挥自然资源的价值;今人做数据集成融合,建数据中台,是为了挖掘数据价值,发挥数据资源的价值,让数据资源为企业的业务创新发挥价值。

在企业信息化初期,各类业务系统恣意生长,这个阶段就像没有修筑大堤前的黄河,河水虽然漫流,但是河道宽阔,虽然也有数据问题,但不明显。

在企业进行数字化转型的背景下,尤其是搭建了数据中台的组织,需要按照统一的结构和标准把各类数据集成起来,就像筑堤束水之后的黄河,泄流不畅、决口不断等问题纷纷出现,数据不一致、不完整、不准确等各种问题扑面而来。

大数据时代数据集成融合的需求会愈加迫切,不仅要融合企业内部数据,也要融合外部(互联网等)数据。如果没有对数据质量问题建立相应的管理策略和技术工具,那么数据质量问题的危害会更加严重。据IBM统计,数据分析员每天有30%的时间浪费在了辨别数据是否是“坏数据”上。

2、数据质量问题域及分类

数据质量问题从大的方面可以划分为技术、业务和管理问题域。技术问题域包括数据校验不够、默认值使用不当等问题,通常是由于系统建设和数据处理导致的。业务问题域细分为信息问题域和流程问题域,业务上存在多渠道数据创建、不合理的数据变更流程的问题。管理问题域包括数据责任人不明确、没有奖惩制度,缺少培训等。

下图是企业数据创建、加载、汇总、分析到展现的5个步骤,很显然,步骤①~⑤任何一步出错都会导致整个结论分析失真。

业务操作部门在数据录入过程可能输入错误的数据。这决定了数据源的质量。

在数据抽取、加载工程中导致数据记录丢失、数据重复等问题。

在数据加工、转换过程中,由于数据加工、转换的代码鲁棒性和稳定性不够,导致的数据加工结果出现的错误。

数据计算汇总过程中,导致的数据的错误。

分析展现工具将加工好的数据展现给数据分析人员、管理决策人员出现的错误。

在某种意义上讲,分析者所做出的决策的正确性来源于企业信息源的质量、数据仓库本身的质量、数据集市的质量以及数据仓库各过程的质量。我们可以看到,在数据应用过程中5步中有4步是技术或管理造成的,只有1步会是录入环节导致。而恰好是这一步是数据中台无法管理和解决的业务系统的数据。因此从根本上解决数据质量问题,从源头解决是最有效的途径,在辅助数据中台从技术和管理上加强测试、规范和监控,那么数据质量问题的解决就水到渠成了。

3、数据质量管理体系建设的五个原则

总结古人治理黄河水患,主要有两种策略,一种是“疏通”,上策迁移民众和中策分流黄河水患,都是具体体现;另一种是“围堵”,加高增厚堤防,抑制河水烂漫。

治理数据质量的问题可以应用下古人的智慧和考量。采用规划顶层设计,制定统一数据架构、数据标准,设计数据质量的管理机制,建立相应的组织架构和管理制度,采用分类处理的方式持续提升数据质量,这是数据质量管理“疏”的方式。而单纯依赖技术手段,通过增加ETL数据清洗处理逻辑的复杂度,使用数据质量工具来发现ETL数据处理中的问题属于“堵”的方式,只能解决表面的问题,不是根本的解决方法。事实上这种方式也在好多企业中使用,其根本目的在于提高ETL处理的准确度,做法无可厚非,毕竟找别人的问题之前,先要保证自身是没有问题的。

按照多个行业实施数据质量管理项目的经验,数据质量管理应该是采用“疏”和“堵”相结合的方式,通过这种方式解决数据质量问题有5个原则。如下图所示:

1)全程监控原则:全程监控是针对数据生命周期全过程中各环节进行数据质量监控,从数据的定义、录入、获取、计算、使用的全过程进行质量监控。数据定义阶段,对数据模型、字典枚举值进行监控,判断是否遵循了统一的标准。数据录入阶段对输入的合法性进行校验等,数据获取阶段对数据记录数、数据一致性进行检核等。明确各部门在数据全生命周期中的责任,全方位保证数据质量。

2)闭环管理原则:从问题定义、问题发现、问题整改、问题跟踪、效果评估5个方面建立问题处理的闭环机制。从业务、技术两个维度出发做问题定义,由工具自动发现问题,明确问题责任人,通过邮件、短信等方式进行通知,将问题及时通知到责任人,跟踪问题整改进度,建立相应的质量问题评估KPI,保证数据质量问题管理闭环。

3)全员参与原则:数据质量提升涉及到组织多个部门,包括不仅限于数据提供方、数据消费方、数据质量管理员等。尤其在数据质量问题定义和整改阶段需要多方人员的参与才能达到效果。在数据质量问题定义阶段,需要数据责任人、业务专家、数据使用人员对数据问题校验规则达成一致,共同制定数据检核范围、数据问题条件等。问题整改阶段,要由数据责任方、数据质量管理员和技术人员,共同定位问题原因并进行整改。

4)借助工具,自动检核:数据质量工具保证问题发现的效率。在数据使用过程中深入分析已发现的数据质量问题的成因,及时由IT部门将其转化为技术规则落地到系统中,通过技术手段自动检核数据质量问题,提升数据质量检核效率。数据质量工具在采集到的数据模型元数据的基础上,通过配置自动生成检核规则的脚本,并通过设置数据质量检核任务的运行周期,定时检核数据质量问题,并将数据质量问题数据保存到系统中,便于用户进行查看和定位问题。

5)提升意识、主动管理:数据质量管理工作需要提升全员数据质量意识,形成组织数据治理的文化氛围。数据使用方发现数据质量问题后,及时主动的进行问题的上报,避免数据问题对业务造成影响。数据责任人接到问题通知后,应主动配合数据管理部门进行问题整改。数据管理部门应该从事前预防数据问题出发,制定企业数据标准并加强宣贯,减少因为缺少统一的标准、规范导致数据质量问题。

4、数据质量管理框架及关键技术

在“五个原则”的指导下开展数据质量提升工作,从系统层面需要制定数据质量管理的功能框架。数据质量系统应具备数据质量规则管理、检核脚本管理、任务管理、检核结果管理、数据质量报告等功能,以度量规则和检核脚本管理为主线,通过自身任务管理模块或者第三方调度为触发点,帮助企业建立统一的数据质量管理工具。

从系统实现的角度上,要解决三个关键技术。

1、检核脚本的自动生成。数据质量检核实际上是按照脚本执行并筛选出有问题的数据。随着数据质量度量规则的增多,通过人为手工编写脚本的方式就无法应对快速增加的度量规则,通常一个中等规模的金融企业,就具备上千条度量规则。因此通过配置的方式,利用脚本生成引擎自动生成检核脚本,是数据质量工具必须具备的功能。

2、多线程检核架构。检核脚本的执行时间是影响能够及时查看到数据质量问题的另一个关键因素。在脚本执行过程中,需要采用多线程并发来执行保证在较短的时间内检核出有问题的数据。

3、数据质量报告。数据质量报告是对企业数据质量情况的总结分析,需要能够从不同维度系统、部门、检核类别等维度生成固定数据质量报告。还需要支持按照选择的数据质量规则,时间等条件,来生成个性化的数据质量报告。

5、数据质量管理的最佳实践

为实现数据质量的切实落地,推进数据质量问题的有效解决,某银行将数据质量问题考核作为重中之重,将数据质量问题解决效果与部门KPI挂钩,减小了数据质量整改的难度,为数据质量的推进提供驱动力,能够及时对发现的数据质量问题进行处理。该银行的数据质量工作开展,分为了三个阶段:

第一阶段:搭建数据质量系统。借助数据质量管理系统自动对数据仓库进行检核, 摸清数据质量情况,解决技术原因导致数据质量问题。

第二阶段:定位问题责任主体。将数据质量问题检核提前到业务系统中来,将问题数据所在分行业务数据录入人一并获取到数据质量管理平台,从而为数据质量问题的追本溯源奠定了技术基础。

第三阶段:成立数据质量考核评价小组。为保证已发现的业务原因导致的问题能得到有效地解决,设计出了分层级的考核体系,由数据质量考核评价小组对各家分行数据质量问题的解决情况进行打分,计入各家分行的KPI绩效考核中。

在后续数据质量系统的运行,开展对银行内部多个业务部门进行了考核,考核范围包括多个重要的业务系统,并检核出了各家分行的多项数据问题,大大提升了数据质量问题的修改率,整改的数据问题数据涉及到超过数千亿的贷款额度。

参考文献:

[1]DAMA-DMBOK2数据管理知识体系指南.机械工业出版社2020.5

[2]刘庆会.大数据是否值得信赖——浅谈商业银行如何提升数据质量 [EB/OL], 2016-04-14

[3] 贾让.治河三策千古鉴.河北水利,2016(2):36-36

责任编辑:xj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6792

    浏览量

    88724
  • 数据中心
    +关注

    关注

    16

    文章

    4618

    浏览量

    71874
  • 人工智能
    +关注

    关注

    1789

    文章

    46576

    浏览量

    236896
收藏 人收藏

    评论

    相关推荐

    艾体宝干货 如何使用 IOTA 解决网络电话(VoIP)质量问题

    本文探讨了VoIP(语音通信)质量问题的常见原因,并提供了详细的故障排除指南。文章首先解释了VoIP质量问题可能涉及的网络性能、设备配置、数据包丢失等多个方面。接着,文章使用一个示例使用IOTA
    的头像 发表于 10-29 09:18 79次阅读
    艾体宝干货 如何使用 IOTA 解决网络电话(VoIP)<b class='flag-5'>质量问题</b>

    电能质量问题包括哪些现象

    在现代电力系统,电能质量的优劣直接关系到工业生产效率、设备寿命以及日常生活质量等多个方面。常见的电能质量问题包括电压波动与闪变、谐波污染以及三相不平衡等。这些问题不仅影响设备的正常运
    的头像 发表于 08-30 10:03 408次阅读

    智能工厂数据台的功能和作用

    各类设备、系统和传感器采集数据,包括生产设备、物流系统、质量检测系统等。 2. 数据清洗与处理:对采集到的原始数据进行清洗、过滤和格式化,
    的头像 发表于 08-19 14:13 234次阅读

    SMT加工中常见的锡膏印刷质量问题有哪些?

    在SMT加工锡膏印刷的质量也是能够直接影响到产品整体质量的因素之一,并且在SMT贴片加工中大多焊接缺陷都来自锡膏印刷的质量问题,在高密度高精度的SMT贴片中尤为明显,常见的锡膏印刷不
    的头像 发表于 06-14 15:50 476次阅读
    SMT加工中常见的锡膏印刷<b class='flag-5'>质量问题</b>有哪些?

    智能张拉及压浆数据监测系统是如何做到数据采集

    在公路建设过程中桥梁工程作为施工很重要的一个环节,而桥梁工程箱梁的质量问题又直接影响到桥梁的质量,同时箱梁在智能张拉、压浆生产过程工序
    的头像 发表于 01-16 17:56 560次阅读
    智能张拉及压浆<b class='flag-5'>数据</b>监测系统是如何做到<b class='flag-5'>数据</b>采集

    ADXL355数据输出不正常是什么原因造成的?

    ,就老出问题,检查了好多天,SPI不管多字节读取,还是单字节读取,数据都是一样有时候出错,反复检查电路和程序,以及用示波器检查SPI时序和数据,都发现是芯片数据出错的,这个高性能的芯片不应该有
    发表于 12-29 07:35

    校园数据台厂家如何提高数据质量?#数据台 #光点科技

    数据
    光点科技
    发布于 :2023年12月20日 17:38:10

    LabVIEW开发电能质量监测系统

    等。该系统通过叠加不同波形(如正弦波和三角波)来生成暂态扰动信号,提供了一种创新的方法来模拟电能质量问题。 信号存储与分析:系统的关键创新在于其能够实时存储扰动信号的波形图,用户可以根据需要设置存储
    发表于 12-15 19:19

    企业数据台如何实现数据质量管理?#数据台 #光点科技

    数据
    光点科技
    发布于 :2023年11月27日 09:35:32

    企业数据台需要注意哪些数据质量问题?#数据台 #光点科技

    数据
    光点科技
    发布于 :2023年11月24日 09:23:58

    数据台系统如何应对数据质量问题?#数据台 #光点科技

    数据
    光点科技
    发布于 :2023年11月15日 17:27:57

    EPS消防应急电源常见三类质量问题

    电子发烧友网站提供《EPS消防应急电源常见三类质量问题.pdf》资料免费下载
    发表于 11-14 10:11 0次下载
    EPS消防应急电源常见三类<b class='flag-5'>质量问题</b>

    数据台系统如何实现数据的共享和开放?#数据台 #光点科技

    数据
    光点科技
    发布于 :2023年11月09日 17:30:06

    数据台系统如何保证数据质量和准确性?#数据台 #光点科技

    数据
    光点科技
    发布于 :2023年11月08日 09:24:56