0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

陈纯院士报告分享:时序大数据流(图)实时计算及智能决策

bzdlyqxsl 来源:中国计算机学会 2023-04-03 11:26 次阅读

人类社会和物理空间在信息空间中映射有两种基本表达结构,分别是针对对象的特征空间结构和针对关系的关联图谱结构。在互联网、移动互联网出现之后,这两种结构所表达的数据都可以拥有时间戳。基于时间戳的数据被称为 “时序数据”,时序数据是从2013年开始提出了的概念。从计算机算法的角度来看,时序数据有几个特点:第一是增量的;第二是时序的,时间不能隔断;第三是动态的;第四需要处理复杂的时序变化。

在2015年的时候,我们开始研究时序数据,有别于历史数据和实时数据的处理,针对时序大数据流的实时计算,我们希望做到每秒千万级并发访问,千亿级流水和高实时。

41143dd6-d16c-11ed-bfe3-dac502259ad0.png

大数据、流数据到“时序大数据”发展历程

针对时序大数据的处理,我们的研究工作涉及到四项关键技术,分别是:

1. 面向复杂统计指标的实时增量计算。基于多项式拆解的复杂算子增量计算算法,实现了在长周期、多尺度、高密度时间窗口中的方差、协方差、K阶中心矩等数十种复杂算子实时计算。例如,从数学上,我们需要把计算协方差的方法重新写成增量的方法,以前的数据不是简单的原数据,而是通过计算以后的中间量,这需要花费很长的时间。我们用了十几年的时间,把每个算法从数学的角度重新定义。

2. 面向时序数据处理的动态时间窗口技术。时间窗口需要提供滚动、滑动的漂移能力,也要支持长周期时间窗口的动态精度控制,并且还要支持基于弹性时间窗口的实时ADHoc查询。

3. 多源时序数据的实时关联计算。关联分析非常重要,不仅仅是一个特征的时序分析,还需要关联起来,这个时候需要有一个关联分析的引擎。针对关联分析的引擎,我们必须在内存里面有非常大的空间,但是要做到实时也是非常难的。

4. 基于流的事件序列识别(复杂事件处理CEP)。主要是支持CEP的增量匹配及数理统计问题,要把增量匹配增量统计。

通过多年的努力,我们基本上解决了四大关键技术问题,形成了我们称之为的流立方技术。流立方能够和均匀流架构完全结合起来,具有历史数据的大数据量的处理能力,同时又具有流处理的实时能力。这是一个大数据处理的方式,因为在具体应用当中,大家会碰到很多大数据的分析,但是很多时候,都没有加上时间这个纬度的分析,当然没有加上时间纬度的分析也许能够解决问题,但是要花费很大的计算量。这四项关键是处理大数据实时时序的大数据流分析,后面结合AI的模型,可以形成一个实时的流的管理。

流立方,除了流之外,还可以在图上展示。特征空间的分析用特征向量就可以,加了一个在每个特征空间里面时间纬度,形成时序的时间分析。图的分析是关联分析,关联分析图也是可以加时间纬度。

如下图所示,在2017年的时候已经知道图数据的处理非常重要。同样的,到了2018年的时候,图越来越大,需要进行实时的图计算,这个时候我们想到很多的方式,分布式的实时图数据也有,类似于流处理,和以前的批处理的架构一样。以前所谓的图处理,现在是实时图处理,关键是加上时序分析。到了2018年有1.0版,目前我们希望有2.0版,这里有大量的工作需要做。尤其是图计算越来越重要,图计算能够产生80%的数据创新。通过图计算分析能够洞彻数据之间的关联关系,提高社会运行效率,这是战略的制高点。

41584c06-d16c-11ed-bfe3-dac502259ad0.png

从“时序流”到“时序动态图”的发展历程

图计算也是非常难的,实时图计算,时序图的动态回溯和分析,百亿级顶点,万亿亿的边,两两都有边,时间轴会变一下,有的顶点增加,有的顶点减少,有的关联边没有了,有的边增加了,这个关联度要建立起来。这样的应用案例非常多,去年在新冠期间,在实时的时空关联中,有很多顶点,除了每个人是一个顶点之外,把时空分割起来也是一个顶点。所以,一个人在时间、空间上和你关联起来,就是时空关联。几百亿的顶点和边,怎么做都是困难的,这里通过时序图的实时增量计算和动态回溯,时序图的分布式处理,时序图的智能决策都有很大的挑战性。在我们的研究工作中,这里依然由四项关键技术。

1. 时序图的实时增量计算,包括统计特征,聚合的统计,聚合边的关联。图和流不一样,图实时动,图的结构就变了,到了下一时刻,原来是两亿的点的图,变成了现在的2.3亿,增加三千万点。需要动态建图,并且时序图的增量匹配是个问题。事件驱动的图模式并行匹配,需要很大的工作量,除此之外,更难的是原有的图算法很多,需要进行图算法的增量计算,有大量工作要做。

2. 时序图的实时动态回溯。支持长周期、混合时间尺度的时序计算能力,以及支持弹性时间窗口的视图实时回溯能力。关系在变化,每个切面都要变,需要实时进行查询。

3. 时序图的分布式内存存储引擎。这么大的图做到实时,一定要把数据导进内存,能不能做一个分布式的内存架构显得非常重要。到目前为止,开源的流效益依然不高。我们做的时序图分布式存储引擎叫做cubebose,希望对图的结构更加有效。

4. 面向时序图的实时决策(三核智能决策引擎),把数据从实时采集到实时决策,指标计算特征提取这里面有图数据库,时间关系等。

针对时序图的应用,银行交易反欺诈系统是一个典型的案例。这个系统用到了流的处理引擎,是一个精巧的计算,可以不用大量的算力和计算机来做这个工作。银联要求每秒5万个并发,希望在50毫秒内全球要响应,IBM的硬件要一千多万,我们的算法只使用4台PC设备。如果没有时序流的计算,硬件不仅仅4台,可能要40台都不够。

第二案例是铁路12306,大量的爬票程序存在,需要在每秒170万的并发量,几千台设备管理买票都要宕机。阿里的双11支付的峰值是每秒60多万,铁路12306峰值达到180万,是阿里的双11的3倍。采用了我们的算法,仅仅使用了22台设备。现在铁路12306核心处理只有22台,安装了22个节点的流立方,可以做到每秒200万的处理能力。

在数字经济时代,数据怎么处理,从时间轴上面考虑,这是非常重要的。因为以前的算法没有时间这个纬度,我们通过很多AI模型来计算来解决这个问题,但是加上时间,一切问题迎刃而解。黑客攻击也是一样,以前没有时间戳,没有办法,加上时间戳很多问题很多模型都简化很多,所以我建议大家在具体的数字经济时代,当我们在处理数据的时候,结合场景,加一个纬度(时间)加上去看看,能不能起到一个很好的作用。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4608

    浏览量

    92845
  • 模型
    +关注

    关注

    1

    文章

    3229

    浏览量

    48813
  • 大数据
    +关注

    关注

    64

    文章

    8884

    浏览量

    137409

原文标题:陈纯院士报告分享:时序大数据流(图)实时计算及智能决策

文章出处:【微信号:信息与电子工程前沿FITEE,微信公众号:信息与电子工程前沿FITEE】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    常见大数据应用有哪些?

    设计阶段大数据架构设计阶段需掌握的技术有:Flume分布式、Zookeeper、Kafka等。四、大数据实时计算阶段大数据实时计算阶段需掌握的技术有:Mahout、Spark、storm。五、
    发表于 03-13 16:50

    ARMS: 原来实时计算可以这么简单!

    的基础,整合和封装了数据收集,消息通道,实时计算时序存储,以及在线报表等多种先进互联网技术组件。本文主要介绍一下 ARMS 自定义监控中聚合逻辑以及时序查询设计。离线
    发表于 06-19 17:19

    LabVIEW数据流语言的特点和有效控制方法

    摘 要:本文剖析了LabVIEW数据语言特点,提供了其若干有效控制方法,指出LabVIEW本身即可解决数据流控制上的变量冲突、响应时序控制、初始状态自适应调整等问题并保证其通用性,
    发表于 04-11 09:40

    LabVIEW数据流控制方法研究

    本文剖析了LabVIEW 数据流语言的特点,提供了其若干有效控制方法,指出LabVIEW 本身即可解决数据流控制上的变量冲突、响应时序控制、初始状态自适应调整等问题并保证其通用性,
    发表于 07-30 11:39 13次下载

    基于数据流的Java字节码分析

    本文基于数据流框架理论,提出了如何将数据流分析方法应用于JAVA 字节码中,通过建立数据流与半格、数据流和函数调用的关系,从而对类型信息进
    发表于 12-25 13:22 9次下载

    网络数据流存储算法分析与实现

    针对网络数据流存储的瓶颈问题,提出了一种网络数据流存储算法分析与实现方法,仿真结果表明,模型能显著提高网络数据流实时存储能力
    发表于 05-26 15:57 21次下载
    网络<b class='flag-5'>数据流</b>存储算法分析与实现

    基于大数据的流式计算

    流式计算大数据的一种重要计算模式,大数据流计算已成为研究热点。任务管理是大数据流
    发表于 11-22 17:34 1次下载
    基于<b class='flag-5'>大数据</b>的流式<b class='flag-5'>计算</b>

    大数据环境下的分布式数据流处理关键技术探析

    大数据环境下的数据流处理实时性要求高,数据计算要求持续性和高可靠性。分布式数据流处理系统( DD
    发表于 12-05 19:04 0次下载
    <b class='flag-5'>大数据</b>环境下的分布式<b class='flag-5'>数据流</b>处理关键技术探析

    数据流的网络实时入侵检测

    针对计算机网络访问请求具有实时到达以及动态变化的特点,为了实时检测网络入侵,并且适应网络访问数据的动态变化,提出一个基于数据流的网络入侵
    发表于 01-17 10:09 0次下载
    <b class='flag-5'>数据流</b>的网络<b class='flag-5'>实时</b>入侵检测

    下一代大数据处理引擎,阿里云实时计算独享模式重磅发布

    的。而实时计算作为一类针对流数据实时计算模型,可有效地缩短全链路数据流时延、实时计算逻辑、平
    发表于 11-15 15:47 251次阅读

    数据流是什么

    数据流最初是通信领域使用的概念,代表传输中所使用的信息的数字编码信号序列。然而,我们所提到的数据流概念与此不同。这个概念最初在1998年由Henzinger在文献87中提出,他将数据流定义为“只能以事先规定好的顺序被读取一次的
    的头像 发表于 02-27 15:25 7080次阅读

    实时计算在贝壳的实践

    摘要:Apache Flink 是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。本文由贝壳找房的资深工程师刘力云将带来Apache Flink技术在贝壳找房业务中
    发表于 03-15 17:16 1262次阅读
    <b class='flag-5'>实时计算</b>在贝壳的实践

    基于赛灵思提供的实时计算平台的超低时延视频解决方案

    本期案例将介绍 BroadBand 与 Skreens 的合作,双方基于赛灵思提供的实时计算平台打造了超低时延视频解决方案。
    的头像 发表于 04-16 10:56 2303次阅读

    金融机构如何构建实时计算能力

    后中台时代,金融机构在批处理计算能力方面差距已不明显,实时计算将成为银行错位竞争的分水岭。在IBM商业价值研究院(IBV)最新出品的洞察报告《马作的卢 弓如霹雳》中,IBM咨询专家提出了“六位一体
    的头像 发表于 01-20 10:27 1856次阅读

    实时计算汽车数量开源分享

    电子发烧友网站提供《实时计算汽车数量开源分享.zip》资料免费下载
    发表于 06-28 09:26 0次下载
    <b class='flag-5'>实时计算</b>汽车数量开源分享