2018 年 12 月 6 日,北京新云南皇冠假日酒店,由中国计算机学会主办,CCF 大数据专家委员会承办,CSDN、中科天玑数据科技股份有限公司协办的 2018 中国大数据技术大会(BDTC)首日议程圆满结束。普元软件产品部总经理王葱权发表了《数字化时代大数据应用平台架构》的主题演讲,并接受了 AI 科技大本营的专访。
以下内容为王葱权的演讲与采访总结,文内略有删减:
演讲
大家下午好,我今天带来的演讲主题是《数字化时代大数据应用平台架构》。这是我第四次参加 BDTC 技术大会,因此此次分享也是基于这一年来碰到的新的情况,主要分为三块:一是数字化时代为什么需要新一代的大数据应用平台;二是目前业界如何实现面向治理的大数据应用平台;三是具体介绍这样一个大数据平台的核心架构大体包含哪些要素。
▌数字经济时代需要新一代大数据应用平台
现在我们已经进入到了数字经济时代,与之相对地,过去我们处于实体经济时代。这两个时代最大的区别,我记得上午有院士提到是因为生产材料的不一样,传统的实体经济事实上是根据物理的生产材料,比如说厂房、机器等。而物理厂房最大的局限性是数量是有限的。
因此是不是可以有这样一个推论:今天的数字化经济,它的生产材料是数据和信息,是无限量?数字经济的规模未来会远远超过实体经济?这也是以前我一直在想的问题。
这张图是 2018 年世界经济论坛的报告,其中展示了 2025 年这些行业数字经济的规模大体将在数十万亿美金。我们都知道 2017 年底,全球 GDP 是 80 万亿美金,到 2025 年数字经济的规模已经等同于 2017 年全球的 GDP。这似乎也是验证了刚才讲的:当生产材料产生变革的时候,经济规模一定产生了变革。我看到的未来经济只有这一种,可能就是叫数字化的经济。如果说数字化是一个必然的趋势,那么最近的一两年企业发生了什么样的变化?
数字化经济,让企业走向生态。
这趋势其实说明了一个问题:我们很多的现在传统的企业,都从原来的专业经营走上了混业,也从原来自己独立慢慢向生态化(发展),要么是自己构建一个生态,要么是自己加入别人的生态,就是这样一个逻辑。
我觉得未来数字化是必然的情况,没有一个企业是单独自己就是一个生态。既然是一个生态,就会有一些前提,什么样的企业能成为生态?比如说我们它自己一定要数字化、实时化或去中介。其实所有这些前提的背后都有一个词就是数据。
今天我们讲的数据也好、大数据也好,其实是企业慢慢走向生态的一个基础。但作为一个基础,我们回来看看企业现状是什么样子?是不是像我们看到的互联网公司不管是阿里也好、百度也好,这么如火如荼?大家可以看到非常兴奋的应用场景?恰恰相反,我们现在接触的很多企业其实并没有大家想象的这么兴奋的应用场景,它们都纠结了很多事情,这些问题不是因为它们不行,而是因为这是发展或自身业务所导致。
其实,我们接触的很多企业,自己都搞不清楚到底是多少核心资产。先不要讲说大数据到底产生什么效益,数据对很多企业来是“金矿”还是“垃圾”?这里有一个非常关键的点就是业务,现在很多做技术的人对业务并没有那么了解,特别是传统企业的业务。现在企业面临数据问题无外乎两点:一是搞不清楚有多少资产,二是即使知道了自己有多少资产,数据质量一定是有问题的。另外,假设它们知道自己的核心资产,数据质量也有一定的保障,但协作也非常困难,大家也清楚业务和技术之间在传统行业里是什么样的关系。
业界现在讨论的所有的技术解决方案,更多的是围绕着怎么去解决海量数据的存储、计算、挖掘分析,包括我们说的 Hadoop 或者谷歌的体系,但没有人告诉你业务的应用怎么去构建,按照什么体系构建。
源头上讲,企业连(数据)资产都搞不清楚,在这样的情况下,企业到底需要一个什么样的数据应用平台?所以我们提的是一个面向治理的大数据应用平台。结合我们现有的一些客户,我们提了四点,分别是“盘、规、整、用”,怎么讲呢?
第一,所谓“盘”,即数据盘点。很多企业都没有搞清楚自己有多少核心数据资产,但这不是因为它业务没做好,而是真的不知道。除了盘点清楚自己有哪些核心资产外,还要搞清楚这些资产来自哪里、又流向哪里。
第二,“规”即数据标准。有了对数据资产的理解后就是要定规则和规范,例如数据资产是如何管理类,业务核心模型究竟是什么。
第三,“整”即数据整合。在前两个要素的前提下才能真正整合出有价值、有质量的资产,这也保证了后面企业应用层面的进行。
最后,“用”即数据运营。帮助企业构建一个数据平台,去做一些安全的控制,最终形成数据的利益。
其实现代企业面临着很多是因为发展或当前业务的复杂度导致的问题。通过我们这两年接触的客户,包括金融、保险以及政府部门等企业客户,它们也在都在尝试做这个事情。
▌如何实现面向治理的大数据应用平台?
那么现有的一些行业现状是如何去做的呢?我会介绍两个典型的案例。
首先是保险行业,当前保险行业有一个非常明显的方向,即建一个标准实时共享的保险大数据应用平台。我们先来看看,作为一个金融行业公司,它首先是一个轻资产的公司。所谓轻资产,即没有所谓的固定资产,大部分都是虚拟资产。于是这类公司都有一个特点,即它们是“分业经营”的。
举个例子,保险行业因不同的险种,导致很多都是独立的分子公司去运营的,这就势必会产生一个问题,即它的业务发展是非常碎片化的。比说在业务应用上,它们的渠道统统是自建的。如果一家保险公司有产险的微信公众号,还有产险的 App,以及产险的官微,这些渠道都是独立的。发展到如今,它们也意识到分业经营带来的无法共享,融合发展的问题。它们非常清楚自己的核心资产就是客户、渠道、资产,并且针对每个核心资产都有大致五个方向如核心资产的基础数据、交易数据、风险数据、管理数据等方面的考量。
所以,对于这类企业而言,它的重点不是说非要一个特别炫酷的场景,而是亟需解决如何协同共享、融合发展。
因此我们帮助企业的第一步工作就是理解客户,可以看到针对不同的险种、不同的分/子公司都有个人的、家庭的、集团的客户等等,对他们的所有关联信息搞清楚,最后建立基于集团级别的客户标准模型,并做渠道上的整合。
从技术方向来讲,构建这样的平台主要分为三块内容:数据采集平台;大数据开发和应用平台;业务应用。其中,最基础的是数据管理平台,将数据治理成一个有质量的平台,例如,制定数据方面的策略和政策,比如针对客户的电话号码、地址信息、身份认证等进行专题治理。
数据服务平台上建设,就是怎么把上面讲到的资产,通过数据的开发方式,把它形成有意义的数据应用,最终作为一个标准的服务发布给下游的一些系统进行使用。
那么,在建立一个标准的、实时共享的保险业大数据平台时,它的逻辑也非常简单。对它来讲,需要了解自身到底有多少资产,要能条目化、目录化;可以通过平台做自助式开发;针对这些服务怎么运营和监控;以及服务消费。其实这四方面一点也不复杂,复杂的是自己的业务本身。
与保险面临的业务困境相反的是,航空也是一个重资产的行业,它需要解决的关键问题是,资产的利用率,如何精细化的问题。
作为航空公司,首要做的事情也是盘点数据资产,即客户、员工、位置、订座、票务、航班、航班计划、财务、资产、设备、维修、运价、销售、产品库存等 13 个主题域,其整理的过程及其复杂。
以航班涉及的飞行时间为例,在 11 个与飞行时间相关的系统中,有 7 个系统产生飞行时间数据项,3 个系统解析 ACARS 报文。像飞行时间就有很多,标准时间、计划飞行时间、实际飞行时间、设备的飞行时间、累计的飞行时间等等。为什么这么复杂?其实是站在不同的业务角度进行考量的。
比如说设备的飞行时间,在维修部的角度来讲,它考虑的非常时间会更长,从上轮、下轮、滑行统统都得算,因为这也是它的成本。
实际上,从技术的角度来讲它并没有那么复杂,但恰恰复杂的是它的业务场景。所以,重资产的企业面临的更多的是精细的问题,你想它的客机座位只能赚 6 毛钱,稍微不小心就有可能会赔钱,就是这么一个过程。
▌面向治理大数据应用平台核心架构
相比上面所提到的内容,面向治理的大数据应用平台核心架构恰恰是比较简单的东西。
以下灰色部分就是我们业界经常讨论的,如海量数据怎么存储、计算,怎么做数据架构,怎么合理地分区,以及职责怎么流动等问题。作为应用级别的数据平台,它无外乎就这些内容。
讲了这么多,我简单总结下我们建设这个应用平台时重点关注的几项内容:一是闭环数据应用;二是端到端服务开发;三是全链路共享数据服务;四是安全统一数据网关;五是服务接口标准化。
首先是闭环数据的应用,不能说数据建完后产生更多不健康、不良的数据,你在做生命周期时,无论是在管理、开发,还是共享、使用的环节,你都能够将这些要素关联起来。你要胃药一个源数据,否则数据如何打通和关联是有问题的。
其次是端到端服务开发,既然你建立了这样一个平台,这个平台事实上是从供方和消费方协同的角色,而在企业理论更是如此。比如上文提到的分业经营,分公司跟你大数据里的部门到底是什么关系?如何开展工作?你可以根据当前的业务经验整理出你认为的核心资产和服务,但你不能保证未来会有什么样的新需求,所以要建立一个端到端的平台。
三是全链路共享数据服务。如果数据共享出去后,这个数据存在于哪里?走过了什么样的路径?整体全貌是什么样子?这些都非常重要。因为如果把它资产化,就一定在乎它的利用率、有效率,如果我们看到全貌也就知道数据是否得到了比较好的利用。
四是安全统一数据网关,例如 Hadoop 体系的时序数据数据库等。通过我接触的一些客户,如果它的安全级别不高,那么意味着它在企业内部往往没有类似的数据科学家、工程师,根本无法面对业务的复杂度搭建 Hive 或 Hbase。
五是服务接口的标准化。就以前来讲,企业内部接口的标准化会相对简单点,如果企业资产对外的话,还是要遵循现在很多的技术规范和标准。此外,如果你需要提供不一样的服务形式,这种服务形式可能是跟你业务相关的,有时是以文件的方式,有时是以实时的服务方式,都需要做统一的标准化。
总结一下今天我主要讲的一些内容:第一点,我觉得在数字经济的时代,我们需要一个面向治理的大数据应用平台;第二点,面向治理的大数据应用平台主要围绕「盘、规、整、用」这四个字;第三点,所谓的大数据应用架构只需要这四部分:采集、开发、管理和服务一体化的平台。
这是我今天的主要内容,感谢各位。
采访
AI 科技大本营:请先介绍下自己和负责团队的情况。
王葱权:我这边负责的是产品平台,普元现在分成了产品平台和三个业务的 BT。产品平台包含了我们原来的软件产品部,以及现在的市场部。目前软件产品部大致分为移动、大数据、云计算/SOA 这三个方向。因为产品平台都是由我负责,所以这三条业务线也是我统一管理。
AI 科技大本营:算起来,这是您第四次参加 BDTC 技术大会了,对此您觉得有哪些变化?以及建议?
王葱权:BDTC 大会已举办有十年,我们也是连续参加了四年,我觉得最大的变化是,(分享的主题)已由原来纯技术的方向,拓展到如今的一些行业了,而且还是在行业的实施过程中碰到实际的问题。以前所有的数据都集中在我们说的电商,今天可能集中在医疗、教育等等行业,这是非常明显的变化。相对来讲,大会偏向技术方向的内容会多一些,业务方向的会偏少些,以后是不是能多分享些业务方面的内容?这是我的一点建议。
AI 科技大本营:您在业务方向上负责的包括移动、大数据、云计算这三个方向的团队,是如何协作的?如移动在视觉方向的突破,首先它会选择面向公共安防领域涌现的需求,在面向不同的业务场景或领域。
王葱权:在普元有三个领域需要来讲讲:一是我们此前一直讲的应用领域,我们现在的云计算或 SOA 其实都围绕着应用领域。比如我们现在讲的数字化、云计算,要构建的分布式或微服务架构,都是因为我们思考的维度是在应用领域。
二是数据领域,我们认为数据领域其实是一个类似于数据中台的领域,从获取数据,到做数据的开发与治理,再到应用,是这样的一个过程。
三是移动,其最重要的一个方向是,现在很多企业已经从原先的传统渠道慢慢走向了数字化渠道,比如说你的手机 App、微信公众号、微博,以及可穿戴设备,这些都是数字化渠道。我们认为,移动领域应该解决是你的渠道化或渠道血统的问题,今天有这么多的数字化渠道,究竟怎么去协同?
你刚才问道它们之间是什么样的关系?我只是从这个面上来讲,实际上从整体上思考,移动、大数据、云计算,都是相互关联的。再举个例子,比如我们要服务的保险公司。我们不仅要做数据的聚合、共享,也要做渠道的聚合、共享,而这其实是属于移动领域的问题,这是一个联动的过程,有了这样一个统一的渠道后,它也是产生数据的地方。应用也有关联,比如我们说移动其实也是要做应用的,数据也要做应用,但是你到底怎么做?怎么能高效地做?这就是应用领域考虑的问题,我觉得是相互关联的。
AI 科技大本营:从大数据服务提供商的角度来讲的话,是否也遇到了一些问题或挑战?比如海量数据带来的问题或数据安全方面的问题。
王葱权:这些问题我们都会遇到,但我们更多碰到的似乎也不是海量数据带来的问题,可能安全会有一些。比如我们说有一些强势的部门,它自己就会有安全的问题,对数据是非常敏感的。针对安全问题,我们会有一些的技术解决方案,包括针对大数据环境,是否提供了数据网关或数据中台概念的服务。
同时,我们的思路也一直是站在管理的角度去构建大数据体系。除了安全,我认为效率也是很重要的。我们说数据要做服务化,最重要的问题是性能和效率的问题。我们知道在企业里数据很多时候是分散的,你怎么去搭一个高效的数据服务的平台?挑战其实是很大的。
AI 科技大本营:作为自己来说,当前您觉得最难的地方是在哪儿?
王葱权:其实当前最难的问题还是在业务上,因为似乎现在还没有谁能够说自己能做一个很好的行业的大数据方案,这个东西挺难。因为所有的行业的专家其实都是在自己具体的某个企业里,他是行业专家,比如做了 10 年、20 年,甚至更长的时间,但是他恰恰又不是一个大数据的专家,所以这是一个结合性的问题,我觉得是一个最大的挑战。
我们去建大数据平台,通过技术产生价值,我们碰到的最大问题就是业务,而不是别的,不是说到底是海量数据,到底是多少个 PB 的数据。现在业界都能通过技术手段去帮你解决,但是业务问题就是一个瓶颈。专家就只有这么多。
AI 科技大本营:上午论坛中的熊辉也提到了最终落脚点是在人才。果说放到普元这里的话,首先是您对于接下来人才这块有怎样的需求?包括团队内部,大概是怎样的分布?
王葱权:是这样的,因为我们不是一个研究性的公司,所以一般来说从我这边思考人才主要是两个方面。
一个方面,我们注重工程化,会非常在意这个人的综合技能,因为我们要解决实际的客户或企业系统性的问题,所以我们需要一个综合能力比较强的人才。比如说他具备比较好的沟通和表达能力,或者具备架构师的基本素质,能够给客户出一个整体的方案,当然最好还希望他在某些关键技术领域里有一定的深度。这对我们来说确实是比较难的地方。
另一方面,这也是我们最近几年在想的事情,我们也需要有一些引领性的(组织)。发展很快,客户发展也很快,我们会有自己的研究部门。我希望在某个领域,无论是 AI 也好,或是大数据领域,需要有专项的研究型人才。其实,我们部门大体的分布也是这样,会有专门的产品线部门,也有研发的部门,每条线都是独立的,但我们会有一个公共的研发部门,以及一些提供支持的服务中心。
-
网关
+关注
关注
9文章
4451浏览量
51070 -
数字化
+关注
关注
8文章
8722浏览量
61739 -
大数据
+关注
关注
64文章
8884浏览量
137419
原文标题:普元王葱权:数字化时代需要新一代的大数据应用平台架构
文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论