2023年3月,由中国计算机学会主办的 “CCF中国数字经济50人论坛高端峰会”在杭州举行。CCF会士、中国工程院院士、浙江大学陈纯教授受邀出席,做了题为“时序大数据流(图)实时计算及智能决策”的主题报告。为充分梳理和展现峰会成果,现将陈纯院士的主题报告内容做以下分享。
报告主题:时序大数据流(图)实时计算及智能决策
人类社会和物理空间在信息空间中映射有两种基本表达结构,分别是针对对象的特征空间结构和针对关系的关联图谱结构。在互联网、移动互联网出现之后,这两种结构所表达的数据都可以拥有时间戳。基于时间戳的数据被称为 “时序数据”,时序数据是从2013年开始提出了的概念。从计算机算法的角度来看,时序数据有几个特点:第一是增量的;第二是时序的,时间不能隔断;第三是动态的;第四需要处理复杂的时序变化。
在2015年的时候,我们开始研究时序数据,有别于历史数据和实时数据的处理,针对时序大数据流的实时计算,我们希望做到每秒千万级并发访问,千亿级流水和高实时。
大数据、流数据到“时序大数据”发展历程
针对时序大数据的处理,我们的研究工作涉及到四项关键技术,分别是:
1、面向复杂统计指标的实时增量计算。基于多项式拆解的复杂算子增量计算算法,实现了在长周期、多尺度、高密度时间窗口中的方差、协方差、K阶中心矩等数十种复杂算子实时计算。例如,从数学上,我们需要把计算协方差的方法重新写成增量的方法,以前的数据不是简单的原数据,而是通过计算以后的中间量,这需要花费很长的时间。我们用了十几年的时间,把每个算法从数学的角度重新定义。
2、面向时序数据处理的动态时间窗口技术。时间窗口需要提供滚动、滑动的漂移能力,也要支持长周期时间窗口的动态精度控制,并且还要支持基于弹性时间窗口的实时ADHoc查询。
3、多源时序数据的实时关联计算。关联分析非常重要,不仅仅是一个特征的时序分析,还需要关联起来,这个时候需要有一个关联分析的引擎。针对关联分析的引擎,我们必须在内存里面有非常大的空间,但是要做到实时也是非常难的。
4、基于流的事件序列识别(复杂事件处理CEP)。主要是支持CEP的增量匹配及数理统计问题,要把增量匹配增量统计。
通过多年的努力,我们基本上解决了四大关键技术问题,形成了我们称之为的流立方技术。流立方能够和均匀流架构完全结合起来,具有历史数据的大数据量的处理能力,同时又具有流处理的实时能力。这是一个大数据处理的方式,因为在具体应用当中,大家会碰到很多大数据的分析,但是很多时候,都没有加上时间这个纬度的分析,当然没有加上时间纬度的分析也许能够解决问题,但是要花费很大的计算量。这四项关键是处理大数据实时时序的大数据流分析,后面结合AI的模型,可以形成一个实时的流的管理。
流立方,除了流之外,还可以在图上展示。特征空间的分析用特征向量就可以,加了一个在每个特征空间里面时间纬度,形成时序的时间分析。图的分析是关联分析,关联分析图也是可以加时间纬度。
如下图所示,在2017年的时候已经知道图数据的处理非常重要。同样的,到了2018年的时候,图越来越大,需要进行实时的图计算,这个时候我们想到很多的方式,分布式的实时图数据也有,类似于流处理,和以前的批处理的架构一样。以前所谓的图处理,现在是实时图处理,关键是加上时序分析。到了2018年有1.0版,目前我们希望有2.0版,这里有大量的工作需要做。尤其是图计算越来越重要,图计算能够产生80%的数据创新。通过图计算分析能够洞彻数据之间的关联关系,提高社会运行效率,这是战略的制高点。
从“时序流”到“时序动态图”的发展历程
图计算也是非常难的,实时图计算,时序图的动态回溯和分析,百亿级顶点,万亿亿的边,两两都有边,时间轴会变一下,有的顶点增加,有的顶点减少,有的关联边没有了,有的边增加了,这个关联度要建立起来。这样的应用案例非常多,去年在新冠期间,在实时的时空关联中,有很多顶点,除了每个人是一个顶点之外,把时空分割起来也是一个顶点。所以,一个人在时间、空间上和你关联起来,就是时空关联。几百亿的顶点和边,怎么做都是困难的,这里通过时序图的实时增量计算和动态回溯,时序图的分布式处理,时序图的智能决策都有很大的挑战性。在我们的研究工作中,这里依然由四项关键技术。
1、时序图的实时增量计算,包括统计特征,聚合的统计,聚合边的关联。图和流不一样,图实时动,图的结构就变了,到了下一时刻,原来是两亿的点的图,变成了现在的2.3亿,增加三千万点。需要动态建图,并且时序图的增量匹配是个问题。事件驱动的图模式并行匹配,需要很大的工作量,除此之外,更难的是原有的图算法很多,需要进行图算法的增量计算,有大量工作要做。
2、时序图的实时动态回溯。支持长周期、混合时间尺度的时序计算能力,以及支持弹性时间窗口的视图实时回溯能力。关系在变化,每个切面都要变,需要实时进行查询。
3、时序图的分布式内存存储引擎。这么大的图做到实时,一定要把数据导进内存,能不能做一个分布式的内存架构显得非常重要。到目前为止,开源的流效益依然不高。我们做的时序图分布式存储引擎叫做cubebose,希望对图的结构更加有效。
4、面向时序图的实时决策(三核智能决策引擎),把数据从实时采集到实时决策,指标计算特征提取这里面有图数据库,时间关系等。
针对时序图的应用,银行交易反欺诈系统是一个典型的案例。这个系统用到了流的处理引擎,是一个精巧的计算,可以不用大量的算力和计算机来做这个工作。银联要求每秒5万个并发,希望在50毫秒内全球要响应,IBM的硬件要一千多万,我们的算法只使用4台PC设备。如果没有时序流的计算,硬件不仅仅4台,可能要40台都不够。
第二案例是铁路12306,大量的爬票程序存在,需要在每秒170万的并发量,几千台设备管理买票都要宕机。阿里的双11支付的峰值是每秒60多万,铁路12306峰值达到180万,是阿里的双11的3倍。采用了我们的算法,仅仅使用了22台设备。现在铁路12306核心处理只有22台,安装了22个节点的流立方,可以做到每秒200万的处理能力。
在数字经济时代,数据怎么处理,从时间轴上面考虑,这是非常重要的。因为以前的算法没有时间这个纬度,我们通过很多AI模型来计算来解决这个问题,但是加上时间,一切问题迎刃而解。黑客攻击也是一样,以前没有时间戳,没有办法,加上时间戳很多问题很多模型都简化很多,所以我建议大家在具体的数字经济时代,当我们在处理数据的时候,结合场景,加一个纬度(时间)加上去看看,能不能起到一个很好的作用。
来源:中国计算机学会
商务合作 | 开白转载 | 媒体交流 | 理事服务
请联系:15710013727(微信同号)
《信息安全与通信保密》杂志投稿
联系电话:13391516229(微信同号)
《通信技术》杂志投稿
联系电话:15198220331(微信同号)
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...