0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

还在数据中台与传统大数据平台之间傻傻分不清?

工业互联网前线 来源:大数据DT 作者:彭锋 宋文欣 孙浩 2021-10-12 17:16 次阅读

作者:彭锋 宋文欣 孙浩峰

来源:大数据DT(ID:hzdashuju),本文经授权转载

导读:我们可以这样理解,传统大数据平台和数据仓库是数据中台的数据来源,建设数据中台是为了更好地服务于业务部门。

图1-1显示了信息化系统、数据仓库、传统大数据平台、数据中台之间的关系,其中的箭头表示数据的主要流向。

数据中台与传统大数据平台到底有什么区别?为了叙述方便,我们先给出传统大数据平台的架构。

大数据基础能力层:Hadoop、Spark、Hive、HBase、Flume、Sqoop、Kafka、 Elasticsearch等。

在大数据组件上搭建的 ETL流水线,包括数据分析、机器学习程序。

数据治理系统。

数据仓库系统。

数据可视化系统。

可以看到,这些是传统大数据平台的核心功能。在很多大数据项目里,只要把这些系统搭起来,每天可以生成业务报表(包括实时大屏),就算大数据平台搭建成功了。

但数据中台应该是大数据平台的一个超集。我们认为,在大数据平台的基础之上,数据中台还应该提供下面的系统功能。

1. 全局的数据应用资产管理

这里所说的数据应用资产管理包括整个生态系统中的数据和应用。传统的数据资产管理绝大部分只包括关系型数据库中的资产(包括Hive),而一个数据中台应该管理所有结构化、非结构化的数据资产,以及使用这些数据资产的应用。

如果传统的数据资产管理提供的是数据目录,那么数据中台提供的应该是扩展的数据及应用目录。要避免重复造轮子,首先要知道系统中有哪些轮子,因此维护一个系统中数据及数据应用的列表是很关键的。

2. 全局的数据治理机制

与传统的数据治理不一样,数据中台必须提供针对全局的数据治理工具和机制。传统数据仓库中的数据建模和数据治理大多针对一个特定部门的业务,部分原因是全局数据建模和治理周期太长,由于存在部门之间的协调问题,往往难度很大。

数据中台提供的数据治理机制必须允许各个业务部门自主迭代,但前提是要有全局一致的标准。阿里提出的OneID强调全局统一的对象ID(例如用户ID),就属于这个机制。

3. 自助的、多租户的数据应用开发及发布

现有的绝大部分大数据平台要求使用者具备一定的编程能力。数据中台强调的是为业务部门赋能,而业务人员需要有一个自助的、可适应不同水平和能力要求的开发平台。这个开发平台要能够保证数据隔离和资源隔离,这样任何一个使用系统的人都不用担心自己会对系统造成损害。

4. 数据应用运维

用户应该可以很方便地将自己开发的数据应用自助发布到生产系统中,而无须经过专门的数据团队。因为我们需要共享这些应用及其产生的数据,所以需要有类似于CI/CD的专门系统来管理应用的代码质量和进行版本控制。

在数据应用运行过程中产生的数据也需要全程监控,以保证数据的完整性、正确性和实时性。

5. 数据应用集成

应该可以随时集成新的数据应用。新的大数据应用、人工智能工具不断涌现,我们的系统应该能够随时支持这些新应用。如果数据中台不能支持这些应用,各个业务部门可能又会打造自己的小集群,造成新的数据孤岛及应用孤岛。

6. 数据即服务,模型即服务

数据分析的结果,不管是统计分析的结果,还是机器学习生成的模型,应该能够很快地使用无代码的方式发布,并供全机构使用。

7. 数据能力共享管理

大部分数据能力应当具有完善的共享管理机制、方便安全的共享机制以及灵活的反馈机制。最后决定数据如何使用的是独立的个人,他们需要一套获取信息的机制,因此在机构内部必须要有这样的共享机制,才能真正让数据用起来。

8. 完善的运营指标

数据中台强调的是可衡量的数据价值,因此,对于数据在系统中的使用方式、被使用的频率、最后产生的效果,必须要有一定的运营指标,才能验证数据的价值和数据中台项目的效率。

综合上面的讨论,除了阿里巴巴提出的OneID、OneModel、OneService之外,我们认为数据中台还应该满足以下两个要求。

1. TotalPlatform

所有中台数据及相关的应用应该在统一平台中统一管理。如果有数据存储在中台管理不到的地方,或者有人在中台未知的情况下使用数据,我们就无法真正实现对数据的全局管理。这要求数据中台能快速支持新的数据格式和数据应用,便于数据工具的共享,而无须建立一个分离的系统。

2. TotalInsight

数据中台应该能够理解并管理系统中数据的流动,提供数据价值的定量衡量,明确各个部门的花费和产出。整个中台的运营是有序可控的,而不是一个黑盒子,用户可以轻松理解全局的数据资产和能力,从系统中快速实现数据变现。

如图1-3所示,数据中台可以说是按照一定的规范要求建设的数据能力平台,在数据仓库、大数据平台、数据服务、数据应用的建设中实现了符合OneID、OneModel、OneService的数据层。

这个数据层,加上在其上建立的业务能力层以及运营这个数据中台需要的TotalPlatform、TotalInsight,形成我们看到的数据中台。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据中心
    +关注

    关注

    16

    文章

    4613

    浏览量

    71866
  • 人工智能
    +关注

    关注

    1789

    文章

    46545

    浏览量

    236820
  • 机器学习
    +关注

    关注

    66

    文章

    8337

    浏览量

    132255
  • 数据分析
    +关注

    关注

    2

    文章

    1408

    浏览量

    33978
  • 大数据
    +关注

    关注

    64

    文章

    8849

    浏览量

    137164

原文标题:数据中台与传统大数据平台有什么区别?终于有人讲明白了

文章出处:【微信号:IndustryIOT,微信公众号:工业互联网前线】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    云计算在大数据分析的应用

    云计算在大数据分析的应用广泛且深入,它为用户提供了存储、计算、分析和预测的强大能力。以下是对云计算在大数据分析应用的介绍: 一、存储和处理海量
    的头像 发表于 10-24 09:18 234次阅读

    机器学习在数据分析的应用

    随着大数据时代的到来,数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具,通过训练模型从数据中学习规律,为企业和组织提供了更高效、更准确的
    的头像 发表于 07-02 11:22 497次阅读

    数据在制造业的应用及其转型价值

    在数字化时代,制造业正面临前所未有的挑战与机遇。随着大数据、云计算、物联网等技术的发展,数据已经成为制造业企业转型的重要驱动力。
    的头像 发表于 05-17 17:20 405次阅读

    数据数据仓库、数据治理与主数据的定位与差异

    在数字化时代,大数据已经成为企业运营和决策的重要资产。为了更好地管理和利用这些数据数据
    的头像 发表于 05-08 10:40 388次阅读

    数据工具:企业数据管理的核心动力

    在数字经济时代,数据工具已经成为各大企业提升效率、优化决策的核心动力。通过集成、分析和管理企业内外的各种数据
    的头像 发表于 04-26 17:30 428次阅读

    探索数据的力量:企业数据资产管理的未来

    随着数字化时代的到来,"数据"这一概念逐渐为人所知,并迅速成为推动企业数据驱动转型的重要基石。数据
    的头像 发表于 04-10 16:21 256次阅读

    傻傻分不清?射频模拟信号源和矢量信号源的区别

    傻傻分不清?射频模拟信号源和矢量信号源的区别  射频模拟信号源和矢量信号源是测试和测量领域中常见的两种信号源。它们在信号产生原理、输出信号特性、使用场景等方面有很大区别。本文将从原理、特性和应用场
    的头像 发表于 01-19 15:54 4915次阅读

    构建高效数据生态:数据库、数据仓库、数据湖、大数据平台数据解析_光点科技

    在数字化的浪潮,一套高效的数据管理系统是企业竞争力的核心。从传统数据库到现代的数据
    的头像 发表于 01-17 10:20 327次阅读

    你还是分不清多进程和多线程吗?一文搞懂!

    同时运行多个独立的进程。每个进程都有自己独立的内存空间,可以同时执行不同的任务。多进程之间通过进程间通信的方式进行数据交换。 优点: - 程序之间内存空间相互独立,相互不会干扰。 -
    的头像 发表于 12-19 16:07 510次阅读

    如何保护校园大数据的安全性?#数据 #数据治理 #光点科技

    大数据
    光点科技
    发布于 :2023年12月15日 17:24:13

    [ElfBoard]是谁字和字节傻傻分不清楚?

    高电压和低电压,在数字电路,通常将高电压视为 1 ,低电压视为 0 ,因此我们信息存储的最终形式是一连串 1 和 0 的组合。这种表达形式与我们在逻辑中经常使用 true 和 false 是类似
    发表于 12-12 13:13

    数据具体是怎么解决数据孤岛的?

    在数字化时代,数据已成为企业的核心资产。然而,由于历史遗留问题、部门壁垒等因素,很多企业面临着“数据孤岛”的问题。数据孤岛是指在一个组织内,数据
    的头像 发表于 11-27 15:51 549次阅读

    参数在数据转换器的应用

    电子发烧友网站提供《参数在数据转换器的应用.pdf》资料免费下载
    发表于 11-27 11:46 0次下载
    参数<b class='flag-5'>在数据</b>转换器<b class='flag-5'>中</b>的应用

    电梯物联网大数据平台是什么意思?

    电梯物联网大数据平台是将电梯的使用时间和管理的各项数据进行采集,整合及利用大数据分析能力和计算机视觉技术、结合关联分析、空间分析和多维分
    的头像 发表于 11-23 11:01 752次阅读