1.基础概念
我们首先来了解一下一些基本的概念。到底什么什么是数据治理?
从DAMA理论知识体系的角度来说,数据治理的定义如下:数据治理是在管理数据资产过程中行使权力和管控,包括计划、 监控和实施。
与食品生产线类似,数据治理的过程实际上就是将成本较低的原材料(原始数据),经过一系列的提纯、加工、模具定型(数据模型)等工序,最终转化为我们可食用(可使用)的,价值较高的商品(数据产品)。在这个过程中,设定相应的流程和制度并加以监管是治理过程的必要条件,由此才能保证治理过程规范、完整和安全,满足产品上架(数据产品进行共享和开放应用)的市场要求。
而与通常意义的数据治理相比,公共数据治理是更广义上的数据治理,通常与政府治理紧密结合,其目标是通过数据资产的开发利用创造社会价值,从而提升执政能力。随着政府治理现代化水平提升,政府对公共数据治理的要求就越高。
2.背景介绍
国家大数据战略中明确提出构建以数据为关键要素的数字经济,运用大数据提升国家治理现代化水平,运用大数据促进保障和改善民生的要求。并且目前数据中心已纳入新型基础设施建设要求中。
基于大数据中心的公共数据治理组织通常分为三种模式:
分散运营模式进行运作,即数据管理职能分布在不同的业务部门和技术部门,通常这种模式下,有过多人员参与治理和制定决策,在实施协作决策时反而更加困难,难以长期维持,通常在该模式下定义数据所有权也比较困难。
第二种是集中运营模式,所有工作都由数据管理组织掌控,为数据管理和数据治理建立了正式的管理职位且拥有最终决策人,由于在这过程中会出现重大的组织结构变革,参与数据管理的角色可能会存在丢失业务领域的专业知识的风险。
最后一种分散和集中模式相结合的混合运营模式,其中一个变体就是联邦运营模式,它为数据管理提供具有分散执行的集中策略,由一个集中的数据管理中心与分散的业务部门团队合作。目前来看对大部分地方政府来说,更适合混合运营模式。
任何一种公共数据治理模式都包含大量数据治理活动,但我们在实践过程中发现各类问题,包括:如何做到将数据应编尽编?在归集过程中如何保证更新及时性?不同部门业务数据在共享时如何明确统一的定义?如何提高数据质量?等,这些问题在后续的文章中会逐步展开介绍。
由业务处理难点延伸,当前数据治理还包括数据分散、数据存储管理不集中,各委办局业务技术平台不互通导致信息割裂无法顺利共享等问题,因此就会导致原始数据的质量不高,附加值低的现象。
3.治理方案
从公共数据治理的目标出发,最基础的就是提升“存、管、找、用”四项基本能力,由于篇幅优先,简单从调研梳理、数据感知、数据管理、共享交换和应用几个方面介绍一下公共数据治理的实施思路。
3.1 调研梳理
调研梳理通常权责清单和应用系统作为切入,基于已有数据资产实现“应编尽编,按需归集”。
应编尽编,即对委办局所有可提供的业务数据进行梳理和规整,并根据委办局内部业务要求,定义好每个数据模型下的数据标准,例如字段长、字段类型、字典代码等基本信息,作为各部门的数据资产家底。
按需归集,调研各部门数据资产的同事,需要了解实际业务开展需要哪些其他委办局的数据进行业务协同。通过对相同数据需求的数源分析与认责,实现“一数一源、一次归集、多次共享”的目标,降低公共数据共享门槛。
通常在梳理政府公共数据中,会分两个方面进行。一是自上而下,即如上所说的从业务的角度出发,分析委办局的业务构成,这里不再赘述。二是自下而上的梳理,即从技术的角度出发,直接探寻数据本质,分析部门业务数据库中的数据模型,基础元数据主要包含资源标识号、资源名称、资源类型、提供单位、所属系统、更新周期等内容。
3.2 数据感知
在梳理数据以后,需要从业务角度和技术角度“理解”所归集的数据,即数据感知。
从业务角度来看,元数据来源于业务数据产生的源数据模型中,即最开始的业务部门对于某个数据表中的字段定义。随着对元数据分析的深入推进,我们会接触到关于技术层面的数据结构定义、数据标准定义、数据字典定义等元数据。
从技术角度看,在数据治理的过程中,从源数据层到数据清洗到数据存储再到数据应用,期间都会产生元数据。
通过元数据采集,我们可以借助元数据采集和管理工具建立应用元数据和技术元数据之间的关联,从而对元数据进行分析和聚类,最终形成完整的元数据体系,如资产目录、数据标准、数据模型等。
“以用识数”——根据使用反馈来给数据打标签;
“以数识数”——根据定义的规则给数据打标签;
在这个过程中我们通常选择高效的图数据库实现元数据关系展现,每个数据和它的元数据都是图中的一个点,数据和元数据之间的关系是线,元数据和元数据之间关系也是线,这样构建的一张可扩展的复杂的图,既描述了数据和元数据之间的关系,也描述了元数据和元数据之间的关系,快速得到分析和查询结果。
3.3 数据管理
1、资源目录管理
建立统一的元数据仓库是实现数据管理的必要条件,并且离不开高质量的资源目录。英文通常用“Catalog”、“Category”、“Directory”代表目录,但各自的含义并不一样,我们在公共数据治理中一般采用“Catalog”作为目录实体的定义,为数据资源提供了归类和索引,让抽象的数据变得“有迹可循”。即我们常说的“存管协同”概念。
而数据治理中的资源目录通过与元数据管理相结合,在使数据有迹可循的基础上,增加了数据的排列组合功能。社会、互联网、政府内部各级部门等数据产生源头收集来的数据,经过采集清洗后,可以纳入信息资源目录中,同样的业务数据经过资源盘点和整合,可以为不同的业务场景提供数据支撑。
在治理项目实施过程中,我们通常将资源目录分为三个层次——资源目录、资产目录和服务目录。
资源目录,数据可顺利采集,保证编目的目录的名称、信息项名称与采集上来的库表名称、字段名称相对应,且能够提供基础的数据共享服务,在这一阶段的主要工作就是明确目录内容的定义,保证数据更新频率和周期能够满足数据共享和使用的基本需求。
资产目录是基本资源目录进行标准化处理之后的成果,在这一阶段我们借助各委办局对各自业务的明确定义和公共数据标准,为先前编目的资源添加准确的业务描述和业务标签。根据各个资源在上一阶段的数据共享和使用情况,我们可以对各目录的共享方式进行准确的描述和定义,提高其可使用程度。
服务目录来源于各部门通过数据共享交换后留下的权责清单记录,这一阶段更向业务层面贴合。结合实际已共享的应用场景,可以对每个目录进行使用场景进行统计分析,找到各类使用场景中的异同,从而在反馈数据的基础上进行总结提炼,逐步明确具体的使用场景,并将这些场景划入数据共享的允许范围内,当有委办局对该资源目录有相同的使用场景进行申请时,通过资源目录管理平台的处理机制,可以迅速通过申请,提高共享效率。
2、数据质量管理
数据质量管理是对数据生命周期的每个阶段里可能引发的数据质量问题进行识别、度量、监控、预警等一系列管理活动。通常数据质量管理应遵循完整性、有效性、准确性、唯一性、一致性和合理性这几个原则。我们在数据质量管理中可以按照发现问题、分析问题、提出方案、解决问题等几步来进行。
(1)设置数据质量规则。即针对不同的数据对象,配置相应的数据质量指标,不限于:数据唯一性、数据准确性、数据完整性、数据一致性、数据关联性、数据及时性等。
(2)分析数据质量问题产生的原因。可能是技术层面数据模型设计的质量问题,也可能是业务层面系统相互独立导致数据无法对接或者是业务端进行数据录入时未按照规范进行录入。
(3)选择解决办法。技术上可以通过ETL工具按照数据标准规范进行数据清洗和标准;业务上可以对业务系统进行升级改造和数据补录。
(4)质量检测,监督检查。设置数据检查任务对存量数据进行检查,形成数据质量问题清单并出具数据质量问题报告。通过定期对系统开展全面的数据质量状况评估,从问题率、解决率、解决时效等方面建立评价指标进行整改评估,根据整改优化结果。
3.4 数据共享交换
数据是在流通、应用中创造价值的,这就涉及“数据共享”和“数据交换”。
数据共享由“供”和“需”两部分组成。之前在数据梳理中也提到过,我们会对委办局自有的和需求的数据进行梳理,当基础资源目录形成后,随着业务事项需求的推动,在交换体系中会形成以委办局为主体的需求清单、责任清单和负面清单。
需求清单为A委办局对其他委办局的数据需求;责任清单为其他委办局对A委办局下的数据需求;负面清单则为A委办局审批责任清单中的内容时,暂时无法提供或不予共享的数据资源清单。
通过对数据资源的供需管理,可以为上层管理部门把握目前数据湖中的数据共享趋势提供数据参考。各委办局权属下的资源按照被共享次数进行分析,逐步梳理出该委办局下的典型业务场景,并由业务驱动需求,将数据湖中分散的数据进行业务归类,形成数据专题库。再进行数据反哺,将各级单位产生的原始数据,通过数据湖中的分析、交换、归类,以专题库的形式再次共享出去,为各业务系统提供质量较高的数据参考。
4.数据应用
通过调研梳理、数据采集和感知、数据资产管理和数据共享交换,此时的公共数据在数据可用性、数据可信度、数据管理成本和数据安全性上都有了较大改善。
同时,在治理过程中以城市数据中心为枢纽,形成了承上启下的新型公共数据管理模式,在原有的海量数据的基础之上对数据进行提炼和赋能。向上,可向国家级部门提供城市数据,同时提出需求,丰富国家数据归集和治理场景;向下,可推动内部数据共享,结合业务场景建设专题库,促进城市有效管理和运行,同时为下级部门提供数据,满足数据为基层赋能、数据价值提升的要求。
此外,治理后的公共数据不仅可以满足政府内部的数据流通共享,还可以将部分数据对社会开放,形成以需求为导向的数据管理模式,从而促进数据开发应用服务,借助社会层面的应用获取更多管理、建设信息,形成数据流通闭环,为社会生活创造更大的价值。
关于作者:
姚丝雨,数据治理工程师,拥有较丰富的政府行业项目管理、数据治理和实施经验,参与上海市大数据中心数据运营、浦东新区政务大数据数据管理、数据质量提升和数据治理服务项目,参与浦东新区大数据中心数据治理和数据运营管理工作。
责任编辑:gt
-
数据中心
+关注
关注
16文章
4693浏览量
71957 -
大数据
+关注
关注
64文章
8864浏览量
137304
发布评论请先 登录
相关推荐
评论