时序大数据实时分析技术在金融行业的实践

时 间:2020-02-20 09:03    

    

  随着移动互联网、信息技术、物联网等技术的发展,数据呈指数级增长。其价值,就像是一座有无数宝藏的矿山。身处数据驱动的大数据时代,如何变成一个大数据强国,技术在其中尤为重要。

  在互联网以前,只有人类社会和物理世界,然后才有数据产品及信息空间。在信息空间,云计算、人工智能、VR/AR都非常重要,产生了很多数据。但大数据并非仅“大”有价值,与普通数据相比,其最大特点是带有时间戳,即时序大数据。

  每个数据都带有时间性。以前的特征向量、特征空间把时间去掉了,成为扁平的数据,移动互联网和物联网使得每个数据都有时间戳。带有时间的数据可以做很多处理,尤其是5G时代的到来使得对热数据的处理尤为重要。

  其次是数据形成关系图谱、关联图谱。就像社交,以前的关联图谱不带有时间,而基于时序大数据,以前的数据得以留存,现在的数据时刻流进来。时序大数据是以前的历史数据,类似水库的水,正在流向水库的水是流数据,留在水库的水都带有时间。实时数据可以称之为热数据,慢慢的变成温数据,然后冷数据。

  数据价值随着时间推移大大降低,实时处理尤为重要。直到2012年,实时大数据才被重视起来。但现在的互联网企业大多仅基于实时数据,没有把历史数据加以考虑,而很多的应用需要把历史数据考虑进来。

  2014年业界提出了时序数据的相关概念,但由于算法较为复杂,要做到大数据量且超低延时,需要攻克很多关键技术点。直到2018年才有了分布式实时时序图数据。

  大数据分析中,一些统计指标特征计算常重要的,如均值、方差等等。在这些复杂统计指标中,简单算法、静态取数、容器类算法、复杂算法、CEP等分别如何实现?增量计算中如何进行退单等常见场景的逆向计算?事件乱序抵达如何确保增量计算的结果一致?这些数理统计算法中的增量计算、可逆计算、乱序计算等问题均需考虑。

  时间窗口需提供滚动、滑动的漂移能力,支持长周期时间窗口的动态精度控制,支持基于弹性时间窗口的实时ADHoc查询。

  这里的攻克难点体现在:事件模式的增量匹配、叠加通用算法的增量统计等支持CEP的增量匹配及数理统计问题。

  如对于时序图谱的极速增量建图,大规模时序图谱如何提供百万tps的建图能力?对于时序图谱的分布式处理,10亿顶点、100亿边(10亿时序复杂边)的前提下,3层以上查询如何控制在秒级?大规模时序图谱如何秒级地图搜索(最短径、Page Rank、Louvain、LPA等)能力?面向时序图谱的查询语言,如何支持动态时序图谱的时间维度Ad Hoc查询分析能力?

  以中国移动为例,在9亿个电线亿个人的点里面,每每两个通信频里最频繁的100个人,如何快速找出?如果实时建图,就有9亿个点,每每两个可能有100个关系。以目前技术来操作,可能要耗时几个小时,甚至几天时间,但时序图却可能几秒钟就能出结果。

  数据中所蕴藏的价值需要相应的分析技术来挖掘。实时分析对于很多行业都是重要的,目前流立方(图立方)时序大数据实时智能处理平台已在400多家单位得到成功应用。

  以国内最大的银行卡收单机构银联商务为例,其日交易量近亿元,需对旗下800多万联网商户和900多万台POS终端设备进行实时风险。银联需要在刷卡瞬间对数据进行实时后续判断。

  以用户在纽约刷卡为例,约有20个特征向量数据传到上海,包括身份证号码、卡号、消费地点、消费金额等,银联需要实时计算用户的统计指标。包含用户平均的消费均指、在不同场合的消费方差等,需要计算20多个统计指标及用户5年来所有的销售数据。这些指标统计完毕后,会通过1000多条基于模型建立的规则进行判断。

  目前,邦盛科技通过流立方和生态下的核心技术,实现了对各类业务的覆盖,每年减少亿元级别的损失。带有银联标志的银行卡刷卡时,从刷卡到生成小票的过程中,“流立方”在后台用13-17毫秒实时分析该笔刷卡是否是伪卡、盗卡或商户欺诈等风险。

  银行的实时交易、实时到账业务,需要知道每笔交易请求是真实的正常交易,还是一笔欺诈需求,数据需要实时产生。银行开展的信用卡秒批秒贷业务,也需要基于非常快速的数据计算、指标生成能力。

  以金融客户的行为追踪为例,客户行为指标由客户的基本状态、交易、账户交易行为等信息构成,这些维度与时间结合,构成了一个客户或关联客户群的完整画像。基于这些指标,可以在很多业务场景对客户的真实性、可信度、交易意图进行管理和控制,包括申请和交易反欺诈、营销反欺诈、实时授信等。

  许多业务场景需要基于单个行为对整体意图做出判断,并作出快速的处置。这些业务场景对时效性有高要求,尤其是在金融行业,由于业务复杂度较高,如何能够快速计算出支撑业务中的复杂指标已成为实时业务场景中的关键因素。

  移动互联网时代,大数据技术尚未成熟,行业内券商普遍基于数据仓库ODS开发行情量化分析应用,计算能力弱,延时高,基本只能实现T-1指标,无法支持行情实时分析计算。

  之后大数据处理技术飞速发展,部分券商开始基于开源大数据框架开发行情量化分析应用,但依然存在各种挑战,如指标计算延时高、复杂指标实现难度大、时序处理能力弱、性能较低、开发成本高等。

  近年来,大数据、人工智能等为核心的新一代金融科技加速了证券行业的竞争,证券行业发展面临着业务和技术转型的双重挑战。智能投顾、量化分析等将在更高层次各家券商的技术应用为金融生产力的能力。但由于其底层的支撑技术平台无法完美实现高效的实时流式计算处理,很多行情量化指标只能停留在纸面上,即使部分指标能实现,其运行效率也不尽人意。

  以行情量化指标计算能力为例,系统需要在毫秒级完成各种复杂指标的计算处理和实时预警,并支持各种复杂、海量的策略信号生成,才能为各种类型投资者提供高性能、超低延时的行情服务。以分时筹码分布指标为例,利用邦盛科技时序大数据实时技术流立方“滑动时间窗口”的专利技术,可实现复杂指标的超高性能、超低延时的实时计算分析。

  证券智能化是一个长期、持续的创新过程,总体来看,智能化服务带来的优质体验日益发挥出重要的价值,成为证券业的发展方向。

  综合来看,实时计算非常重要,数据驱动是随着时间来驱动,需要把历史数据和实时数据综合考虑进来。其次,实时智能系统可以帮助专家或从业人员基于应用场景把模型做得更好。

  基于批式大数据,可以不断学习新知识,积累新经验。而应用知识和经验时,时序大数据技术能够极大限度地挖掘数据的潜在价值。

  除了金融行业,在电信、交通、、军工、互联网等需要采用“事中”甚至“事前”模式实现、分析、判断、决策等功能的智能系统,都需要时序大数据实时处理平台的支撑。

  原文《时序大数据实时分析技术在金融行业的实践》全文将刊载于中国外汇交易中心主办《中国货币市场》2020.02总第220期。返回搜狐,查看更多


 

Copyright © 2010-2011 广州fun88乐天堂信息科技有限公司 All rights reserved. 冀ICP备15006456号-5 网站地图