0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据技术如何进行融合发展

Wildesbeast 来源:搜狐新闻 作者:泰一数据 2019-12-21 11:55 次阅读

当前,全球大数据正进入加速发展时期,技术产业与应用创新不断迈向新高度。大数据通过数字化丰富要素供给,通过网络化扩大组织边界,通过智能化提升产出效能,成为实体经济质量变革、效率变革、动力变革的技术依托之一,而大数据技术及其融合发展也已经成为最重要的技术发展趋势。

2019 年以来全球大数据发展在政策方面略显平淡,其中,美国的发布的《联邦数据战略第一年度行动计划(Federal Data StrategyYear-1 Action Plan)》意味着美国对于数据的重视程度继续提升,并出现了聚焦点从“技术”到“资产”的转变,其中更是着重提到了金融数据和地理信息数据的标准统一问题。此外,配套文件中“共享行动:政府范围内的数据服务”成为亮点,针对数据跨机构协同与共享,从执行机构到时间节点都进行了战略部署。同时,欧洲议会也通过决议敦促欧盟及其成员国创造一个“繁荣的数据驱动经济”。该决议预计,到 2020 年欧盟国内生产总值将因更好的数据使用而增加 1.9%。不管是否有更多的大数据政策出台,拓宽和深入大数据技术应用已经是各国数据战略的共识。

尽管政策推进略显缓慢,但大数据底层技术发展日渐成熟。在大数据发展的初期, ApacheHadoop 定义了最基础的分布式批处理架构,打破了传统数据库一体化的模式,将计算与存储分离,聚焦于解决海量数据的低成本存储与规模化处理。但当前 MPP 在扩展性方面不断突破使得 MPP 在海量数据处理领域又重新获得了一席之位。MapReduce 暴露的处理效率问题以及 Hadoop 体系庞大复杂的运维操作,推动计算框架不断进行着升级演进。随后出现的 Apache Spark 已逐步成为计算框架的事实标准。在解决了数据“大”的问题后,数据分析时效性的需求愈发突出,Apache Flink、Kafka Streams、Spark Structured Streaming等近年来备受关注的产品为流处理的基础框架打下了基础。在此基础上,大数据技术产品不断分层细化,在开源社区形成了丰富的技术栈,覆盖存储、计算、分析、集成、管理、运维等各个方面。据统计,目前大数据相关开源项目已达上百个。

随着当前大数据体系的底层技术框架已基本成熟。大数据技术正逐步成为支撑型的基础设施,其发展方向也开始向提升效率转变,逐步向个性化的上层应用聚焦,技术的融合趋势愈发明显。“融合”成为大数据技术发展的最重要特征——

l 算力融合:多样性算力提升整体效率

随着大数据应用的逐步深入,场景愈发丰富,数据平台开始承载人工智能物联网视频转码、复杂分析、高性能计算等多样性的任务负载。同时,数据复杂度不断提升,以高维矩阵运算为代表的新型计算范式具有粒度更细、并行更强、高内存占用、高带宽需求、低延迟高实时性等特点,因此当前以 CPU 为调度核心,协同 GPUFPGAASIC 及各类用于 AI 加速“xPU”的异构算力平台成为行业热点解决方案,以 GPU为代表的计算加速单元能够极大提升新业务计算效率。

不同硬件体系融合存在开发工具相互独立、编程语言及接口体系不同、软硬件协同缺失等工程问题。为此,产业界试图从统一软件开发平台和开发工具的层面来实现对不同硬件底层的兼容,如 Intel公司正在设计支持跨多架构(包括 CPU、GPU、FPGA 和其他加速器)开发的编程模型 oneAPI,它提供一套统一的编程语言和开发工具集,来实现对多样性算力的调用,从根本上简化开发模式,针对异构计算形成一套全新的开放标准。

l 流批融合:平衡计算性价比的最优解

流处理能够有效处理即时变化的信息,从而反映出信息热点的实时动态变化。而离线批处理则更能够体现历史数据的累加反馈。考虑到对于实时计算需求和计算资源之间的平衡,业界很早就有了 lambda架构的理论来支撑批处理和流处理共同存在的计算场景。随着技术架构的演进,流批融合计算正在成为趋势,并不断在向更实时更高效的计算推进,以支撑更丰富的大数据处理需求。

流计算的产生来源于对数据加工时效性的严苛要求。数据的价值随时间流逝而降低时,我们就必须在数据产生后尽可能快的对其进行处理,比如实时监控、风控预警等。如,近年来出现的 Apache Flink,则使用了流处理的思想来实现批处理,很好地实现了流批融合的计算,国内包括阿里、腾讯、百度、字节跳动,国外包括 Uber、Lyft、Netflix 等公司都是Flink 的使用者。

l TA 融合:混合事务/ 分析支撑即时决策

TA 融合是指事务(Transaction)与分析(Analysis)的融合机制。在数据驱动精细化运营的今天,海量实时的数据分析需求无法避免。分析和业务是强关联的,但由于这两类数据库在数据模型、行列存储模式和响应效率等方面的区别,通常会造成数据的重复存储以及数据时效性不足的问题。

混合事务/分析处理(HTAP)是实现在单一的数据源上不加区分的处理事务和分析任务。当前的方案主要有三种:一是基于传统的行存关系型数据库(类似 MySQL)实现事务特性,并在此基础上通过引入计算引擎来增加复杂查询的能力;二是在行存数据库(如 Postgres-XC 版本)的基础上增加列存的功能,来实现分析类业务的需求;三是基于列存为主的分析型数据库(如 Greenplum),增加行存等功能优化,提供事务的支持。但由于没有从根本上改变数据的存储模式,三种方案都会在事务或分析功能上有所侧重,无法完美的在一套系统里互不干扰地处理事务和分析型任务,无法避免对数据的转换和复制,但能在一定程度上缩短分析型业务的时延。

l 模块融合:一站式数据能力复用平台

大数据的工具和技术栈已经相对成熟,大公司在实战经验中围绕工具与数据的生产链条、数据的管理和应用等逐渐形成了能力集合,并通过这一概念来统一数据资产的视图和标准,提供通用数据的加工、管理和分析能力。

数据能力集成的趋势打破了原有企业内的复杂数据结构,使数据和业务更贴近,并能更快地使用数据驱动决策。主要针对性地解决三个问题:一是提高数据获取的效率;二是打通数据共享的通道;三是提供统一的数据开发能力。这样的“企业级数据能力复用平台”是一个由多种工具和能力组合而成的数据应用引擎、数据价值化的加工厂,来连接下层的数据和上层的数据应用团队,从而形成敏捷的数据驱动精细化运营的模式。其中,阿里巴巴提出的“中台”概念和华为公司提出的“数据基础设施”概念都是模块融合趋势的印证。

l 云数融合:云化趋势降低技术使用门槛

大数据基础设施向云上迁移是一个重要的趋势。各大云厂商均开始提供各类大数据产品以满足用户需求,纷纷构建自己的云上数据产品。比如 Amazon Web Service(AWS)和 Google CloudPlatform(GCP)很早就开始提供受管理的 MapReduce 或 Spark 服务,以及国内阿里云的 MaxCompute、腾讯云的弹性 MapReduce 等,大规模可扩展的数据库服务也纷纷上云,比如 Google BigQuery、AWS Redshift、阿里云的 PolarDB、腾讯云的 Sparkling 等,来为 PB 级的数据集提供分布式数据库服务。华为也在近期注册成立了华为云计算技术公司。早期的云化产品大部分是对已有大数据产品的云化改造,现在,越来越多的大数据产品从设计之初就遵循了云原生的概念进行开发,生于云长于云,更适合云上生态。向云化解决方案演进的最大优点是用户不用再操心如何维护底层的硬件和网络,能够更专注于数据和业务逻辑,在很大程度上降低了大数据技术的学习成本和使用门槛。

l 数智融合:数据与智能多方位深度整合

大数据与人工智能的融合则成为大数据领域当前最受关注的趋势之一,这种融合主要体现在大数据平台的智能化与数据治理的智能化。智能的平台促成了大数据平台和机器学习平台深度整合的趋势,大数据平台在支持机器学习算法之外,还将支持更多的 AI 类应用。如,Databricks 为数据科学家提供一站式的分析平台 Data Science Workspace,Cloudera 也推出了相应的分析平台 Cloudera Data Science Workbench。其次,数据治理与人工智能的发展存在相辅相成的关系:一方面,数据治理为人工智能的应用提供高质量的合规数据;另一方面,人工智能对数据治理存在诸多优化作用。AI 使能数据治理,是通过智能化的数据治理使数据变得智能:通过智能元数据感知和敏感数据自动识别,对数据自动分级分类,形成全局统一的数据视图。通过智能化的数据清洗和关联分析,把关数据质量,建立数据血缘关系。数据能够自动具备类型、级别、血缘等标签,在降低数据治理复杂性和成本的同时,得到智能的数据。

伴随着技术融合与应用的不断深化与发展,大数据的产业规模也在近年稳步提升。有机构预测,到2020年,全球大数据市场的收入规模将达到 560 亿美元,较2018 年的预期水平增长约 33.33%,较 2016 年的市场收入规模翻一倍。随着市场整体的日渐成熟和新兴技术的不断融合发展,未来大数据市场将呈现稳步发展的态势,增速维持在 14%左右。在 2018-2020 年的预测期内,大数据市场整体的收入规模将保持每年约 70 亿美元的增长。在具体的细分市场中,大数据硬件、软件和服务的市场规模均保持较稳定的增长,并随着机器学习、高级分析算法等技术的成熟与融合,更多的数据应用和场景正在落地,大数据软件市场将继续高速增长。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1629

    文章

    21742

    浏览量

    603534
  • 数据库
    +关注

    关注

    7

    文章

    3803

    浏览量

    64408
  • 大数据
    +关注

    关注

    64

    文章

    8892

    浏览量

    137456
收藏 人收藏

    评论

    相关推荐

    2016汽车与信息通信融合发展论坛

    。会议将以“新一代信息通信技术影响下的汽车产业发展之路”为主题,围绕两化融合、先进ICT技术应用、大数据对产业的驱动等内容开展深入研究,探讨
    发表于 07-07 14:47

    北斗模块助力北斗导航系统加速推进军民融合发展

    `近日,为期7天的第三届军民融合发展技术装备成果展览暨论坛在北京落下帷幕。 展会展示了我国近年来在信息技术领域军民融合发展的具有自主知识产权的核心关键
    发表于 09-27 12:27

    常见大数据应用有哪些?

    大数据技术为决策提供依据,在***、企业、科研项目等决策中扮演着重要的角色,在社会治理和企业管理中起到了不容忽视的作用,很多国家,如中国、美国以及欧盟等都已将大数据列入国家发展战略,微
    发表于 03-13 16:50

    大数据运用的技术

    大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统
    发表于 04-08 16:50

    大数据开发核心技术详解

    数据的核心是云技术和BI。关于大数据和云计算的关系人们通常会有误解,而且也会把它们混起来说,分别做一句话直白解释就是:云计算就是硬件资源的虚拟化;大数据就是海量
    发表于 07-26 16:26

    NLPIR系统KGB知识图谱技术助力大数据深度挖掘

    大数据技术不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据
    发表于 12-05 11:49

    BAW技术推进大数据发展

    近日,德州仪器的Ahmad Bahai博士发表文章《Disruptive TI BAW technology accelerates big data on the information superhighway》,解析TI体声波(BAW)技术对于大数据
    发表于 07-29 07:34

    阿里巴巴高级技术专家章剑锋:大数据发展的 8 个要点

    看到的表相,本质还是数据自身。在我们讲清楚大数据的含义之后,我们来聊聊大数据目前到底处在一个什么样的位置。从历史发展的角度来看,每一项新技术
    发表于 10-14 10:56

    大数据技术视阈下如何进行侦查工作的转型

    大数据技术视阈下】侦查工作的转型发展与完善进路
    发表于 04-24 15:09

    百度夯实“云智数”融合发展 助力企业智能化升级

    百度夯实云智数融合发展 助力企业智能化升级 11月30日,首届百度云智峰会将在北京国际会议中心正式召开。峰会将以智能,计算无限可能为主题,聚焦云计算、人工智能、大数据三大技术领域,并以此为创新与合作的平台,进一步夯实百度云智数
    发表于 11-28 16:48 1003次阅读

    物联网是大数据的重要来源,大数据助力物联网

    物联网产生大数据,大数据助力物联网。由物联网引发的大数据潮流还将助推云计算等信息通信新技术融合发展
    的头像 发表于 01-23 16:01 1.2w次阅读

    如何推动区块链与大数据融合发展

    区块链被公认作数字化转型中的底层基础设施,而数字化转型中数据将是核心生产要素,如果能够将区块链与大数据技术融合,覆盖数据确权、交易、保护、流
    发表于 03-05 11:28 2694次阅读

    互联网中OT与IT融合发展的需求分析

    互联网、物联网、大数据、人工智能、边缘计算等信息技术(IT)越来越多地渗透到工业领域,并与工业技术进行融合发展,产生了以工业互联网为代表的工
    的头像 发表于 04-07 11:34 4312次阅读
    互联网中OT与IT<b class='flag-5'>融合发展</b>的需求分析

    大数据分解-融合研究综述

    文中给出了通过大数据分解、融合生成的大数据分解-融合以及大数据距离;利用这些概念,给出了大数据
    发表于 05-28 15:43 8次下载

    如何对大数据进行分析和处理?

    大数据时代已经来临,所以我们对大数据这个词已经不再陌生,甚至于大数据已经作为一门前沿科学,成为广大高校开展招生的热门专业,其前景良好并且内容广泛。其实,如果想要深入理解大数据没有想象的
    的头像 发表于 02-01 10:33 2649次阅读