0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何建立真正的数据目录

IBM中国 来源:IBM中国 作者:IBM中国 2022-01-20 10:22 次阅读

作者简介:王积杰目前担任IBM数据与AI产品线大中华区信息架构产品总监,对AI和信息架构有深刻的理解和认识。拥有20多年的IT从业经验,从2008年起担任IBM公司大中华区数据治理产品线产品总监,多年从事企业数据集成和治理的工作。对ETL,实时数据集成,数据治理,数据质量管理和元数据管理和数据目录都颇有造诣。

数据治理已经发展了 20 多年,从最早的元数据管理,到后来的数据质量管理,很多企业多年前都建设了名为数据治理的项目。但是,如果你去问这些企业,数据治理项目做得怎么样?发挥了怎样的业务价值和效益?你得到的答案往往不尽人意。很多企业建设好数据治理项目以后,就荒废了没有人使用。为什么会造成这样的情况呢?究其原因是,其数据治理项目只是面对 IT 人员的,并不是面对业务人员的。如果一个项目不是面对业务人员的,就难以发挥业务价值,业务人员无法使用,往往是不可能获得成功的。因此,近年来,国外兴起了建设数据目录的热潮,不只是谈数据治理,而是为了解决面向业务人员并体现业务价值的问题。数据目录就是为了帮助业务人员以及数据科学家,解决寻找数据、了解数据、优化数据以及使用数据的难题。

什么是数据目录?

很多人还不清楚什么是数据目录,我来打个比方,我们用书来比喻数据。大家都知道图书馆的图书目录,我们过去进到图书馆借书,首先就要去查找图书目录。如果一个图书馆那么乱的话,相信就连图书管理员也无法找到想要的书吧?如果一个企业的数据库管理得那么乱,那么就连数据库管理员可能也无法找到数据了。如果一个图书馆 右上角那样的话,那说明这个图书馆的书,已经分门别类摆放整齐了,就像一个企业的数据,结构化的和非结构化的,都分别在数据库里或大数据平台上,放得整整齐齐了。

但是,对于图书馆来说,其主要任务是为读者服务的,书摆放得整齐,需要借书的读者就能借到他要的书吗?我们都知道,那是不够的,因为缺少一个图书目录,就是左边的小抽屉。那个小抽屉里放的是一张一张的书卡,书卡上写了一些什么呢?往往有书的名字、书的简介、书的作者、书的出版年份,还有书的类别,比如是物理类的还是化学类的;书的属性,比如是工具书类的还是文艺书类的;书适合的年级,比如一年级还是三年级;最重要的是书的具体位置,它是在图书馆的哪一排的哪一层的哪一格里。有了这张书卡,我们就可以轻松地找到这本书并借到这本书了。我曾经和一个大型企业的 CIO 聊天,这家企业 20 年前就建了数据仓库,十年前又建了大数据平台和数据湖,类似数据治理的项目都建设过好几期了。我问 CIO 最近企业在IT方面开展什么项目呢?CIO 回答,最近招进了好几个数据科学家,打算开展AI项目的建设,但是遇到了困难。数据科学家们在工作中,要花 70% 以上的时间在寻找数据,而不是 AI 建模。CIO 问,为什么我们过去的数据治理项目,帮不了这些数据科学家呢?我就告诉这个 CIO, 你们过去的数据治理项目,都是面向IT用户的,不是面向业务人员的。如果你真的要帮助数据科学家方便快捷地找到他们要的数据,你就要建设真正的数据目录。

建立数据目录的业务准备

要建立真正的数据目录,前期还是要做好一些业务方面的准备工作的,就像建一张书卡一样,书卡上的内容,你先要准备好。数据目录一般有这样一系列的业务域的元素:

01数据分类(Categories)

这是从业务角度,对业务数据的分类。就像图书馆里的书,按物理、化学、生物、医学来分类一样。企业里可以按分公司或部门来分类,也可以按业务类型来分类,如:销售类、生产类、财务类等等。

02业务术语(Terms)

业务术语就有点像书卡上的书名了,读者根据书名来找书,那么数据科学家们往往也是根据业务术语来找他要的数据。比如:VIP客户、日产量、月产量等。也可以是一些业务的指标和维度。

03政策 (Policies)

大到国家小到企业,都有很多政策,会影响数据的性质和使用。比如:个人数据的隐私保护,欧盟有 GDPR,中国也出台了《个人信息保护法》,对个人信息我们需要打上隐私标签,进行保护,不能随意泄露。

04规则(Rules)

数据都有规则,有的是业务规则,有的是数据质量规则。比如:身份证号码,它的规则是18位的数字,前6位代表地区,中间8位代表生日,后三位是序号,最后一位是校验码。有些物料的号码,第一位是字母代表材质,后四位数字代表序列等等。

05参考数据(Reference Data)

有些数据是代码,需要通过参考数据来知道真正的数值。

06数据分级(Classification)

就像书卡上会告诉你这本书是给一年级用的还是给四年级用的,数据也是需要分级的。比如:第一级的数据属于公开数据大家都可以看,第二级的数据只有部门经理才能看,第三级的数据是给高层领导看的,第四级数据只有董事会的成员才能看等等。

07数据类型(Data Class)

我们可以对数据根据它的类型进行分类,比如:姓名、地址、电话、身份证号码,或者是产品代码、产品种类或是产量信息等等。我们需要对Data Class的类型进行定义,比如通过正则表达式。Watson Knowledge Catalog 将可以通过AI的方式,根据Data Class的定义,自动的进行数据的分类和识别。

建立数据目录的技术难点

数据目录的实现其实并不容易,否则,为什么那么多年来,大多数的客户还是在普通的数据治理层面,仅能够面向技术人员,而不能面向业务人员呢?原因是:一个企业的业务域元素可能有几万个,而技术域的元数据可能有几十万个,几万个与几十万个的对应关系,可比图书馆的书卡制作要复杂得多了。几千本书你可以通过书卡,用人工的方法一一对应。但几万个业务域元素和几十万个技术元数据的对应,全部要靠手工来实现,几乎是不可能完成的任务。这也是这么多年来,数据目录没有很快发展起来的原因,直到最近AI技术机器学习技术的引进,才帮助我们解决了这个问题——针对这个难题,IBM推出了Watson Knowledge Catalog。 Watson是IBM 响当当的AI名片,所以Watson Knowledge Catalog里,采用了大量的IBM企业级AI和机器学习的技术,来帮助我们实现从业务到技术的关联。

展示了数据目录各个元素之间的关系。其中,从业务术语到数据资产的那个红色的箭头,一直是数据目录建设的难点。直到 IBM 采用了大量的AI和机器学习的方式,来帮助做自动的关联,才解决了这个问题。如果业务元数据或者 Data Class 定义了清晰的数据规则,那么,Watson Knowledge Catalog 就可以应用AI的能力,进行自动关联。如果并没有定义清晰的规则,那么,我们可以用人工的方式,手工地进行关联,同时 Watson Knowledge Catalog 会进行机器学习,自动建立规则。当你用手工多关联几次,自动建立的规则越来越完善以后,系统就能通过AI实现自动关联了。

建立数据目录的技术准备

建立数据目录,我们要了解企业内部都有哪些数据?这些数据在哪里?数据质量状况是如何的?这些都可以使用 Watson Knowledge Catalog 的数据自动发现功能去实现。Watson Knowledge Catalog 会自动地发现数据,自动地连接数据源,并导入元数据。它还可以自动地分析数据的质量状况,进行数据质量的打分,并形成数据质量的图表或仪表盘。数据质量的打分,可以利用已经定义的数据质量规则,也可以允许业务人员用拼图的方式,自定义数据质量规则。这种定义方式有点像拼图游戏,数据科学家可以用一些简单的规则如大于、小于、等于、AND、OR、包含、不包含等,自己拼出数据质量规则, 并运行,几分钟就可以得到数据质量的报告。过去,数据科学家拿到一批数据,为了要了解其数据质量,往往要把需求提给IT部门,IT 部门还要请软件开发商来写程序,从而分析这批数据的数据质量。从数据科学家提出需求,到拿到数据质量报告,有的时候要几周时间。这与我们目前的高效快节奏的社会完全不匹配。而如果数据科学家用拼图方式,花 5 分钟定义数据质量规则,然后执行它,15 分钟后,就能得到结果了。这种自助式的数据质量探索能力,往往是数据科学家最希望的。

另外,元数据管理和血缘分析,也是数据目录不可或缺的功能,他可以帮助数据科学家了解每一个数据从哪里来,到哪里去,从而更好地理解业务。

数据目录的使用

本文开头就提到,数据目录建设的目的,是为了解决业务人员和数据科学家们发现数据和使用数据的难题。那么,为数据科学家和业务人员提供一个友好的数据发现和使用的界面就尤为关键了。Watson Knowledge Catalog 可以将数据目录,展示成一个知识图谱。业务人员可以既通过类似 Google 的方式,通过搜索业务词汇,找到他需要的数据,也可以通过基于知识图谱的发现和探索,很方便地图形化地找到他要的数据,并且可以自助地获取这些数据。Watson Knowledge Catalog 自带有数据隐私保护的功能。如果某个数据已经被打上了隐私保护的标签,那么你就看不到这些数据,这些数据会被打上星号或者漂白后再展示。数据科学家获得了他要的数据后,还可以自助地优化这些数据或者利用 Watson Knowledge Catalog 自带的数据可视化工具,进行数据图形化展示,这些功能都极大地方便了数据科学家对数据的处理和分析。如果数据科学家需要进行下一步的AI数据建模,还可以直接将这些数据不落地的送到我们的自动化 AI 建模工具 AutoAI 进行建模或者 BI 平台 Cognos 进行报表展现,真正实现数据目录为业务人员服务的功能。

后记

智能数据目录的建设,可以使业务人员或者数据科学家,随时找到他们需要的数据,并且可以通过自助的方式,获取这些数据。这个功能,是实现 Data Fabric 的第一步。建设好了智能的数据目录,就为今后Data Fabric的建设打下了坚实基础。Data Fabric 已经成为 Gartner 在 2022 年最热的IT趋势的第二名。企业实现 Data Fabric 的架构将是大势所趋,让我们先从建设智能的数据目录开始吧。

原文标题:IBM Watson Knowledge Catalog:迈向智能化数据经纬的第一步

文章出处:【微信公众号:IBM中国】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6899

    浏览量

    88842
  • AI
    AI
    +关注

    关注

    87

    文章

    30212

    浏览量

    268453
  • 可视化
    +关注

    关注

    1

    文章

    1178

    浏览量

    20893

原文标题:IBM Watson Knowledge Catalog:迈向智能化数据经纬的第一步

文章出处:【微信号:IBMGCG,微信公众号:IBM中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    ADS54J60与JESD204B建立链路成功,但有效数据全为0,为什么?

    在配置ADS54J60采集数据并与JESD204B建立8224链路的过程中,严格按照ADC硬件复位、SPI写入、JESD204B核心复位的顺序进行,通过ILA(在线逻辑分析仪)抓取的波形数据来看
    发表于 11-19 06:00

    华为创新技术入选工信部节能技术推荐目录

    由中国电子学会、中国电子技术标准化研究院主办的“节能服务进企业”暨绿色数据中心对接推广活动在安徽合肥成功召开。大会期间发布了《国家工业和信息化领域节能降碳技术装备推荐目录(2024年)》(以下简称
    的头像 发表于 11-06 17:34 419次阅读
    华为创新技术入选工信部节能技术推荐<b class='flag-5'>目录</b>

    PGA281建立时间过长怎么解决?

    我的PGA281增益由1变128时,建立时间Settling time过长有800uS左右(增益切换后延时1ms也没用),可数据手册明明是40us
    发表于 08-22 06:14

    VSP1000低噪声,快速建立,单位增益缓冲器数据

    电子发烧友网站提供《VSP1000低噪声,快速建立,单位增益缓冲器数据表.pdf》资料免费下载
    发表于 07-26 10:24 0次下载
    VSP1000低噪声,快速<b class='flag-5'>建立</b>,单位增益缓冲器<b class='flag-5'>数据</b>表

    使用STM32的外部数据总线与CY7C68013建立连接,如何获得更高的传输速率?

    我试图使用 STM32 的外部数据总线(如 FSMC)与 CY7C68013 建立连接,但不知道这样能否成功连接并获得更高的传输速率。 我还没有找到这样使用的例子。
    发表于 07-23 07:12

    建立神经网络模型的三个步骤

    建立神经网络模型是一个复杂的过程,涉及到多个步骤和细节。以下是对建立神经网络模型的三个主要步骤的介绍: 第一步:数据准备 1.1 数据收集 数据
    的头像 发表于 07-02 11:20 731次阅读

    鸿蒙开发文件管理:【@ohos.environment (目录环境能力)】

    该模块提供环境目录能力,获取内存存储根目录、公共文件根目录的JS接口。
    的头像 发表于 06-13 10:27 450次阅读
    鸿蒙开发文件管理:【@ohos.environment (<b class='flag-5'>目录</b>环境能力)】

    OPAx317零漂移、低偏移、轨到轨I/O运算放大器精密产品目录数据

    电子发烧友网站提供《OPAx317零漂移、低偏移、轨到轨I/O运算放大器精密产品目录数据表.pdf》资料免费下载
    发表于 06-06 10:12 0次下载
    OPAx317零漂移、低偏移、轨到轨I/O运算放大器精密产品<b class='flag-5'>目录</b><b class='flag-5'>数据</b>表

    夏普讨论建立人工智能数据中心

    近日,夏普公司宣布与KDDI公司达成重要合作意向,双方将针对建立人工智能数据中心进行深入讨论。据悉,此次合作将围绕英伟达的人工智能计算平台和Supermicro平台展开,共同探索人工智能领域的创新发展。
    的头像 发表于 06-05 09:17 446次阅读

    具有真正关断隔离的同步升压DC/DC转换器LM4510数据

    电子发烧友网站提供《具有真正关断隔离的同步升压DC/DC转换器LM4510数据表.pdf》资料免费下载
    发表于 04-11 09:27 0次下载
    具有<b class='flag-5'>真正</b>关断隔离的同步升压DC/DC转换器LM4510<b class='flag-5'>数据</b>表

    芯和ChannelExpert高速通道分析软件入选2023工业软件推荐目录

    继2022年三款EDA产品入选工业软件推荐目录之后,芯和半导体又一款EDA——ChannelExpert高速通道分析软件也成功入选了2023年上海市工业软件推荐目录
    的头像 发表于 03-14 17:22 525次阅读
    芯和ChannelExpert高速通道分析软件入选2023工业软件推荐<b class='flag-5'>目录</b>

    具有真正反向阻断和针对固态硬盘 (SSD) 的DevSleep支持TPS25940x数据

    电子发烧友网站提供《具有真正反向阻断和针对固态硬盘 (SSD) 的DevSleep支持TPS25940x数据表.pdf》资料免费下载
    发表于 03-14 11:01 0次下载
    具有<b class='flag-5'>真正</b>反向阻断和针对固态硬盘 (SSD) 的DevSleep支持TPS25940x<b class='flag-5'>数据</b>表

    ADS应用技巧—如何修改ADS的home目录

    这里说的home目录就是启动ADS后,默认打开的路径,通常是你存放ADS工程所在的目录
    的头像 发表于 02-26 09:43 1957次阅读
    ADS应用技巧—如何修改ADS的home<b class='flag-5'>目录</b>?

    通过手机APP与PSOC6设备建立连接并通讯, 请问CySmart可以抓到它们之间建立连接后交互的数据包吗?

    我们通过手机APP与PSOC6设备建立连接并通讯, 请问CySmart可以抓到它们之间建立连接后交互的数据包吗?
    发表于 02-02 12:45

    用XMC1302建立的工程,用DAVE 打开目录之后,一片空白是怎么回事?

    我现在用XMC1302建立的工程,用DAVE 打开目录之后,一片空白,是怎么回事?就是无法打开工程,原来是好的,后来不知道怎么操作了一下,就打开一片空白, 另外我用MDK建立的XMC1302工程,选择了DEVICEXMC1302
    发表于 01-24 07:28