首页 观点正文

《金融大数据&区块链标准与评测》(PPT干货/实录)

数据观微信速递

  据观微信小编获悉,不久前,在“2018中国金融科技产业峰会”上,中国信息通信研究院大数据研究部主任魏凯发表了《金融大数据&区块链标准与评测》的主题演讲,详情参看下方PPT干货实录!

↓以下为PPT全文↓

  魏凯:我今天给大家介绍的结合我们这次论坛的主题,是我们院在金融大数据和区块链方面一些观察和做的工作。

  首先是大数据,大数据火了好多年,在我们金融界一致认为大数据能够带来非常大的价值,不管在金融界还是其他行业。但是大数据如何带来大的价值,中间的路径大家其实不是特别清晰。这几年的调研过程中也发现大家有很多的困惑,主要从三个方面看,这三个方面解释了大数据大的含义。

  第一个是大分析,前面所有大数据应用的探索和技术的研发,其实是围绕着如何分析挖掘海量信息中的信息和价值。数据如果不经过登记、加工、维护变成一种资产,其实这种分析很难产生价值,必须把大数据作为一种大资产来看待。

  还有一个事情可能被大家忽略过一段时间,大事务,大概所有银行这几年都面临着网银流量的激增,这个是来自于国内互联网目前支付带给银行业后台的压力,基本上都是几倍,每年翻一番或者百分之七八十的增长,对后系统核心银行系统的事务性的处理、事务数据库带来很大的压力。

  下一阶段,大分析成为重要的热点。我们认为大数据要解决几个问题,大分析、大事务,最后产生一个大资产,才能带来大的价值,这是我对大数据含义的理解,这也是我们这几年在金融科技方面、大数据方面做的几个工作的代表。

  首先来看大分析,划分成几个阶段,2000年以前,其实银行业是最早引入数据仓库、数据分析的行业,银行业传统上是一个数据密集型行业,我们看到一个报告,每单位产值里,金融业的数据投资是最多的,在2000年之前,我们银行业金融业就开始使用数据挖掘的技术,主要依靠的是专用的数据库、专用的硬件,现在看来还是非常简单的一些应用,主要是报表,主要是经营分析给监管产生的一些报表。

  接下来发生了颠覆性的变化,从互联网开始的,从前台业务看到我们金融业的发展。这个是从后台看到的,在2000年开始,互联网公司走了完全另外一条路,用分布式的技术来解决数据分析的问题,他们在软件上去创新,用廉价的机器来做大分析。然后又进入到金融业,进入到传统行业,进入到电信、公安、医疗、交流,大家看到大数据热起来从2010年以后才看到在社会上各方面广泛渗透,这个时候产生了很强的技术基础,比如Hadoop、Spark等,这是支撑大数据非常坚强的基础。

  总结起来,可以看到大分析这几年的变化,在互联网业务的推动下,不得不做的一件事就是分析系统的分布式转型,单机无法承受了,必须采用分布式架构,并不是钱的问题,钱是一方面,另外是性能和扩展性都撑不住了,分析系统、数据挖掘系统首先有分布式的迁移。

  另外是这些理念从互联网一直在往金融业拓展,每一家商业银行或者金融机构上大数据分析系统的时候,肯定会基于分布式的,这是毫无疑问的。几个原因,一个原因是大分析的技术在这几年突飞猛进的发展,互联网给大家创造了一些开源的福利。另外是分析事务一致性的要求相对来说比较简单,所以它比较好做。

  回过来看大分析这些后技术的演进,我们画一张图,上半边是软件层次的演进,大家可以看到在2003年-2016年,技术更迭变换周期越来越短,软件创新的活跃程度越来越高。从2008年Hadoop1.0出来以后,生产系统开始用,到2012年、2013年Spark出来,现在Spark已经成为生产系统的一个标配。最近深度学习、Tensorflow还有最近UC伯克利又发了一个新的分布式框架,能够支持深度学习等等软件的创新是非常快的,让我们做大分析变得越来越容易。

  还有下边的图,这也是我们看到的在未来几年可能会发生的事情,在大分析上,有几个驱动力,我们的内存越来越便宜、越来越快,这会导致我们以前软件设计的假设已经变了,所以大家这几年在拼命开发如何让系统能够适应比如SSD、非易失的存储器,比如内存计算,如何把内存用足了。

  这几年还有一个变化,内存比CPU的进度要快,计算拖了后退,这个是很明显的变化。现在计算方面,因为不同的任务用不同的硬件去算是最优的,比如我们用GPU去算机器学习,现在很多数据库厂商用ASIC去加速SQL的操作。这是我们看到的分析技术的软件和硬件的变化,非常快,从分布式的开端到后来一系列的演进,和未来新硬件驱动下的软件的变化。

  就大分析这个主题,我们院在前几年一直在做相关的标准和评测的工作,我们从两个维度去看,一个维度是产品方面,我们做了很多的基础平台的数据管理的和数据分析的标准和测试。

  我们从大数据分析产品的层次来看,我们做了底层的Hadoop产品,MPP数据库,NoSQL数据库,流处理数据库等,中间也制定了很多包括数据集成、数据管理、数据交换共享、数据运营这些标准,上层现在正在做像BI和数据挖掘工具的一些标准。

  对应这些大分析产品的评测,我们主要是从运维的管理能力、可用性、功能、安全、兼容性、多租户、可扩展性这些角度去评价一个产品,看它是不是能够在金融的生产场景里去使用,这是我们分析产品。现在已经有大概50多款产品参与了分析平台的评测。这是我理解的大数据的一个大,大分析。

  第二个大是资产,如果数据是垃圾,我们的分析结果肯定靠不住,这是大家所有人的共识。在传统的金融机构里一直在专注于花了很大资金去请咨询公司做数据治理的项目,这是前几年做的很多事情,数据需要管理,需要去养数据,不是说你的系统,平台建好以后,应用就能运行很顺畅,数据还需要去管理、治理、运维。这是前几年已经有的概念,在这几年数据管理也发生了很大的变化,应该有一个概念上的升级。

  变化这里我总结了几个方面,第一个方面,数据应用对象已经发生了很大变化,我们原来的数据管理都是面向一些给领导做报表的一些任务,所以数据的应用对象主要是以少数人。现在很多银行他的数据应用是基层员工,是柜员,甚至是最终的用户,数据应用的范围发生了很大的变化,我们的手段也发生很大变化,以前数据的管理靠人工,现在越来越靠智能,靠人工智能做语义字段的匹配。职能也发生了变化,以前我们的数据管理部和业务条线泾渭分明,甚至有些是在信息科技下,现在数据和业务是越来越分不开,所以他的管理职能也发生了很大的变化。

  另外数据架构也发生很大变化,从经典的数据仓库类型的架构,现在正在朝数据湖的方向发展,数据不需要去清洗转换加载,而是数据线加载,我使用的时候再转换,这是一个架构上的变化。同时数据种类发生变化,原来的数据主要是结构化的数据为主,现在有很多的数据,比如语音的客服的数据,未来要做机器学习训练的,不是做报表的。这五个层次的变化导致了数据的管理需要向下一代去演进。

  最重要的,数据要成为资产,经济学人今年有一篇非常著名的文章,数据是未来的石油,肯定是资产,也有很多人说未来数据要进入资产负债表。上周我们何所长到银行业协会讲课的时候,未来如果不会管数据的行长不是个称职的行长,这都反映出一个现象,数据像我们现在桌椅板凳这种实物资产一样管理起来。我们也定义了很多数据资产管理的方法论,希望能够给业界一个指引,在大数据的时代下,如何把大资产管好。

  面临的挑战其实很大,我们大数据面临很多问题,孤岛、流通不畅,价值难以体现,银行业数据部的价值在哪里,它对业务的贡献到底是多少,都是挑战。未来的趋势是一个大集中的趋势,是一个全链接的趋势,是一个支撑业务运营深度融合的趋势,同时我们有很多新的技术可以支撑数据资产管理的发展。

  比如我们可以反向把机器学习用到数据管理上,我最近了解银行业一般一个数据治理项目大概七八百万都算比较正常的,如果能用一些新的技术,能不能给大家节省一点成本,让这个事情做得更好。数据资产管理这块是非常重要的未来大数据应用的一个点。

  我们院数据中心联盟也做了很多工作,我们建立了一套数据作为资产的方法论,去年12月份发布了第一版的数据资产管理的白皮书,我们也启动了一系列的标准的研究和评测的活动。前期的活动主要是聚焦在数据作为资产,在不同的机构之间流动的时候,你不要侵害第三人,不要损害用户的权益。后续我们还会有很多其他相关的研究。

  第三个大是大事务,每年双十一的时候,淘宝和相关的电商他们背后的峰值一直在变化,每年基本上翻一番。这里我也回顾了一下,处理用户交易的时候,其实是金融业的生命线,每家银行的订单、一个账单的生成、业务的流程,每一笔记账的事务数据的体系。也经历了很大的变化,在80年代、90年代数据库逐渐成熟起来以后,大家很快的在很多银行、很多金融机构在发展。

  颠覆也同样来自于互联网,他们的小额高频这种交易是原来金融界没有的。比如现在很多银行线下的网点都在收缩,但是业务量在增长,因为每个人就是一个网点,背后事务数据的处理量增长很快,我们最近调研了很多股份制银行和城商行,他们也告诉我们未来时间可能会在两年左右,他的小型机的峰值就已经满了,再加也加不上去了,迫不得已必须要走分布式的发展,要用分布式的技术处理大事务。

  但是也存在问题,挑战非常大,第一,业务不想更改他的逻辑,这是最大的问题。大家看互联网公司的事务处理能力非常好,他做分布式事务做得非常好,是因为互联网公司的逻辑复杂,数据库比较简单。但是我们银行业的数据库逻辑很复杂,业务非常简单。如果套用原来的互联网公司的成功经验,其实是难以复制的,银行业不想改业务逻辑。

  第二,对一致性要求非常高,CAP的取舍,但是是保A还是保C。还有可靠性,核心系统是生命线,绝对不能出一点差错。还有标准和评价指标缺失,没有人走过这条路,在整个国际上不具有参照性,其他国家网银的支付比例非常少,只有我们国家的银行才面临这样的问题,所以我们没有国际经验可以参考,没有相关的标准可以参照。

  所以我们也在做事务的研究,今年非常热,我们也在支付清算协会在丁主任这边的委员会下在开发相关的标准,很快会推出分布式事务数据库的标准和相关的评测工作,这才是刚需,这是银行业的刚需,这是金融机构的刚需,没有这个,他业务就做不了,不像数据分析。

  另外一个是区块链,区块链确实是一个非常颠覆性的技术,颠覆的是记账技术。我们金融业传统就是一个靠记账维持信用的这样一个机构,如果记账技术颠覆了,我们存在的原来的根基也都颠覆了,颠覆在什么地方,它是一种链式的结构,一种共享的账本。

  这种技术是完全更新换代了,很多特点,这种特点不用再强调它的重要意义,总之它可以从我们原来面对面的信任到背对背的信任,我们和任何人都不需要见面就可以相信他,我可以相信这个区块链上的数据我看到的和别人看到的是一样的,这是非常了不起的,这种技术的威力是我们所有金融机构都需要去重视的。

  现在金融机构也在尝试,国内每家银行和金融机构都在做区块链的PoC或者试验系统的发展,其实大家面临很多问题,比如说不可篡改,跟法律的判决或者监管的要求如何回滚,这个之间如何调和。还有升级,区块链必然是联盟链,背后节点之间怎么达成步调一致的升级,这是很多现实的问题。还有去中心化,是不是必须要去中心化。还有弱性能,现在区块链的性能和我们双十一的峰值可能是没法比的,但是如何提升这样的性能,在一些场景做权衡,还有待审查。

  我们跟支付清算协会全面合作,正在做支付清算行业可信区块链相关的标准,一系列的标准,主要有几层,一层是基础链,基础链的业务要扎实,要让这个链作为一个可信赖的设施。第二步是支付清算结算这些业务场景上在区块链这个上面的逻辑是样。最上层是一些支付清算行业应用的标准,大概是这样一个逻辑结构,主要是基于我们院牵头,在数据中心联盟下面做的一套标准叫可信区块链的基础标准,它是对于区块链底层的技术做一个全面的信息披露、全面的体检。

  从不同的层次来做,比如可移植性、扩展性、功能、性能、安全,智能合约的完备性还有共识算法的有效性等方面去做权衡,目的是让这个区块链变得真的像大家期望的那么可信。

  我们也做了第一轮评测,去年有9个区块链的产品通过第一轮的评测。

  现在也提交到国际上,我们跟数字货币研究所正在做这个事情。

  总结起来,金融业和IT业都在面临翻天覆地的变化,有技术需求方、技术供给方,我们院和我们院牵头成立的很多组织都是致力于如何在这些技术发展中架接桥梁,让这个技术变得更好用,让这个技术到行业里门槛降低,更平滑的过渡,这是我们在做的一个工作总结。

  注:本文系中国信通院金融科技部门及金融科技行业智库授权数据观微信发布,编辑:Fynlch王培(微信号:WP1306020480),如需转载请务必申请授权并注明来源、出处及作者等信息。数据观微信公众号(ID:cbdioreview),欲了解更多大数据行业相关资讯,可搜索数据观(中国大数据产业观察网www.cbdio.com)进入查看。

责任编辑:王培

分享: