首页 专栏刘政正文

SAS刘政:大数据时代下的数据分析

  当前,随着企业规模的不断成长,有效存储和管理长期累积的且仍在持续快速增长的海量数据,从中发掘商业价值,意味着巨大的市场机遇;同时,也带来了严峻的挑战:大数据将挑战企业在存储架构及数据中心基础设施等,也会引发数据仓库、数据挖掘、商业智能、云计算等应用的连锁反应。如何选择有效的组织管理数据,提供商业解决方案,已经不是单纯的IT技术问题,而是与企业未来发展前途攸关的关键性问题。

  面对大数据存在的机遇与挑战,以“海量数据+深度分析智慧商业”为主题的第二届大数据世界论坛上来自不同行业的专家就大数据的发展与机遇做了详细的介绍。

  赛仕软件研究开发(北京)有限公司总经理刘政从大数据时代下的数据分析做了主题发言。

  刘政指出,大数据来了以后,方方面面各行各业其实都牵扯到进去了。其实我们在互联网上,在社交媒体、微博上,都可以看到各种各样的题目,你说你所关注的东西不在这个网上是不可能的。美国政府在3月29日对外也发布了一个报告,就是关于关注大数据方面的东西,这是美国五个部联合发布的信息。美国在过去几年曾经关注过信息高速公路,互联网、物联网,包括这次的大数据。我们可以看到,美国政府对这方面是非常重视的,在这5部中就包括美国国防部。

  大数据带来的变化

  1、实现在已经涉及到各个领域,它把数据与资本、人力一起作为生产的重要因素。我们原来学习社会经济学的时候,我们知道资本、人力、生产资料是主要因素,现在把数据也加进来了。

  2、数据会创造价值。我们给大数据定义的时候都讲到了3个V,其中很关键的是大数据的价值,如果没有价值的话,我们就没有必要在这里开这个会议了。

  3、数据的使用成为组织竞争和成长的关键因素。你能够充分地利用这些数据,就能给你的企业带来竞争力。

  4、数据的市翁会加强新一轮的产品率增长和消费者剩余。

  5、数据对不同的领域,影响不一样。

  6、大数据相关岗位人才的短缺。欧美也在中国市场寻找这方面的人才,但是他们不知道中国这方面更匮乏。将来一个国家的竞争力很大程度上决定于分析人员,将来的决策都是通过数据来说话,通过数据分析得到结果来做决策。所以,分析人员的水平对于国家的竞争力、对于一个企业的竞争力来说是非常重要的。

  7,涉及到隐私、安全、智力财产保护,责任等相应政策的改变。这样,我们的一些管理方面的政策会相应地发生一些变化。

SAS刘政:大数据时代下的数据分析


▲赛仕软件研究开发(北京)有限公司总经理 刘政

  大数据时代的机会

  从我们可以看到,带来的都是上千亿美元或者英镑的价值,确实有很大的利益。你如何在这么大的一块市场中占得你的利益?那你就要对大数据做分析。

  每个人谈到大数据都会谈到3V,我们又加了一个V,就是价值。

  企业如何应对大数据时代

  大数据要求存储设备和存储方式的改变。在最开始的时候我们把数据存储起来主要是为了查询,比如一个人在银行开了账户,这个人过一段时间还会回来,通过使用微软的SQL Server,使用Oracle的数据库查询,我们有上千万、上亿数据的时候,群体的趋势是什么样的?我们通过分析才能得到。在银行里也有二八定律,80%的存款都由20%的人存着,这些人是谁?身份是什么样的?这些都需要通过分析来做。

  所以,在大数据时代,数据分析的手段是关键,只有通过数据分析才会给你带来价值。但是传统的数据分析能力,无法处理这么大量的数据,我们平常分析上千万的数据量或者上亿数据量的时候,都会花费几十个小时(好几天)的时间才能得到结果。当你的数据达到十亿的时候,你的软件就根本运行不下去,有的时候会好几十天,这个速度人们是无法接受的。所以,在新的时代,我们需要高性能的分析软件。

SAS刘政:大数据时代下的数据分析

  传统的分析技术会带来哪些困惑呢?

  1,由于分析手段的限制,你不能充分利用所有的数据。

  学统计的人知道,如果我的分析能力达不到的话,取样的时候就取小样,取多了运算不下来。你的样品量越大的话,里面含有的信息就会越完整。所以,我们希望能够对所有的样品量进行分析,如果你的分析手段达不到,你分析所使用的数据就会受到限制。

  2,受限于与于能力而无法获取复杂问题的答案。

  3,因为时限要求而不得不采用某项简单的建模技术。

  4,对模型净度进行妥协,因为没有足够的时间来执行多次迭代。

  你要想得到最好的商业结果,你的分析工具、分析手段,必须要达到最高的精确度,要有前所未有的性能,就是它的运算能力、运算速度,再有就是能够达到最大的深度和广度。只有这样,才能够带来最好的商业结果。

  我们为什么关注分析速度?

  五十年代的时候,美国飞行员发现了一个方法,在跟敌人作战的时候通过哪些方法去指导决策和行为。他的定义就是OODA方法,如果你的决策比你的对手快,你就能够占得先机,争取主动,能够提前发射。在那个年代,导弹技术还不成熟,基本上都还是高射机枪在飞机上,而且雷达技术也不是特别地先进,当时还需要雷达和眼力来观察敌机。当你发现了敌机以后,你要有一个取向的过程,它不是在你的正前方,你要调整方向把你的枪口对准。然后你要做一个决策,比如说距离太远,我的枪还够不着它,等你飞行到射程内来才能决定开枪,是这样的一个过程。它说明了速度在你做事情的过程中是非常重要的。(见图)左边的做观察、调整、决策、行动的时候明显要比右面的快,横向的是时间,当左面已经行动的时候,右面连决策还没有做出来,左面要明显地比右面在速度上有一个优势。

  大数据分析的创新战略

  其实在大数据分析方面,你要有一个完整的战略,不能说买了SAS的高性能软件就做分析了,要根据你们企业的架构和分析的战略,这有非常大的关系。

  分析生命周期

  企业做分析的生命周期,每一家企业可能都是不一样的,但是他们做分析的生命周期应该是一样的。如果我们按照这个分析的生命周期对我们一个固有的数据做分析的话,它并不会给你带来太大的利益或者优势。你应该不断地使用这种方法,对不断变化的数据进行分析。比如你的数据原来有这么大的量,它随着时间会不断地增长,随着数据的增长你要不断地使用这个生命周期对现有的数据做分析,这样才会给你带来大的竞争力。

  SAS高性能分析软件主要架构。

  它其中包括了三个最主要的组建或者计算方法或者架构的变化。1,网格计算;2,库内分析;3,内存分析。

  1,网格计算

  网格计算大家应该比较清楚,Google使用的一个架构,它都是使用很多非常普通的机器帮助它做搜索运算,其实在我们做分析的时候,我们也可以使用这种方法,你可以充分利用你所具有的硬件设备做网格计算,这样你可以把你的工作量分配到不同的机器上,就可以极大地加快运行速度。现在SAS有一个编程程序SAS语言,现在我们的SAS语言完全支持网格计算,你可以把SAS语言都可以放到不同的网格上去做运算。使用了网格运算,你的设备有完全的可用性,而且是分步处理,提高速度。

  这是一个网格运算的案例,澳大利亚的一家通讯公司,它跟我们的网通和我们的移动差不多,想维护客户关系,不希望它的客户流失到竞争对手那里去,它要对客户的一些行为做一些分析。过去的分析方法需要11个小时运算,在使用了SAS新的方法以后,10秒钟结果就出来了,这个速度是非常快的。第一线的工作人员可以及时地得到信息,跟客户进行沟通。

  2,库内分析

  这是一种架构上的变化,原来我们是把分析和数据库处在分离的状态下,每次分析的时候都要到数据库抓取取数去,把数据分离出来,有一个传输过程,这个时间是非常大的。有一些银行或者一些重要机构不希望把它的数据取出来拿到外面,后来我们考虑,我们可以把分析的过程放在数据库内,这样就无需数据提出来,避免了传输过程,这样运算起来速度明显地加快。过去所写的SAS程序完全可以在这种模型下运行,不需要做任何的更改。

  这是美国的一家市场分析公司的案例,它主要分析客户的市场消费行为,通过分析了解大家在使用COUPON的行为,它通过用了SAS技术分析以后,由过去的4.5小时,现在只需要60秒就可以知道了,加快运行速度,得到运行结果。使得用户在COUPON的使用率方面由过去的10%提高到25%。

  3,内存分析

  内存分析,主要是把一些数据和分析的方法放到内存中,通过内存去读取速度远远高于从硬盘中读取速度,这样可以极大地提高处理速度。SAS在不同的行业中有很多的解决方案,比如在银行、通讯业,我们现在有相当数据的解决方案,都是基于这种计算提供的结果。右面的是刀片机,每个刀片机都是多核的,现在好象是有十几个核。

  这个案例是美国一家银行分析人们贷款用的一个模型,这个模型主要是防止坏账,防止经济上的损失。过去要花很长时间对一个复杂的模型因为运算,了解客户的行为,现在只需要80几秒钟就可以得到同样的结果。

  我们可以看到,通过SAS所采用这三项主要技术,就可以达到高性能分析。其实它的每一项,比如说网格计算、内存分析、库内分析,它都是在不同的过程中会使用,有的时候做库内分析的时候它也在使用,比如把数据从数据库中提取出来,然后放到内存里面。

  SAS可视化分析

  高性能分析还应该和一些可视化工具配合,才会达到比较完美的结果。现在移动器件也非常流行,每个人都想到要把分析结果放到移动器件上,无论在任何地点都可以查到分析结果。SAS的可视化分析工具就可以达到这一点。这个可视化分析工具包含了几个方面:

  1,数据的准备。它其实就是一个把数据取出来放在内存里面的过程,数据的准备和内存分析的关系是非常紧密的。

  2、探索。可以对数据的探索,可以得到即时的报告,而且可以用不同的工具查看工具。

  3、DESIGNER工具,它可以帮助你设计报告。

  4、你可以用移动器件阅读你的报告。

  SAS这个架构在行业里已经证实了是非常有效的分析方法,这是目前在市场上真正形成产品的、真正能够做到高性能分析的唯一一个产品。在这方面,SAS领先市场大约两年左右时间。

  如果我们仅仅使用网格计算方式的话,它的分析速度还不是特别快,当我们不断地加入其他模块的时候,可以看到速度开始加快。所以,这四个方面是缺一不可的,这是SAS分析最关键的部分。

  这个图并不是百分之百地正确,只是给大家一个示意,底下是传统的分析方法,从数据库中读取数据,在SAS服务器里去做运行,对SAS服务器硬件的要求就会高一些。那么,在高性能分析的模式下,它的分析数据基本上都不是在SAS的服务器中,它是在一系列的服务器或者刀片机等各个方面,服务器包括了很多的节点,里面有多核的,而且内存量非常大,我们可以做库内分析,网格计算的话,还可能把它分布到不同的机器上,还有内存分析

  关于住房抵押贷款的数据

  性能数据

  我们看到,在高性能运行模式下,在神经网络计算模式下需要十几分钟。但是在传统运行模式下数据量达到亿的时候就没有办法计算下去,需要几十个小时的时间。高性能分析的速度明显很高,而随着数据量的增加,它的性能应该说是表现得更好。

  数据分析其实并不仅仅是一个工具的问题,还是一个企业的问题,企业对它的一个重视程度,企业整个架构的问题,企业分析的战略问题。所以,我们在考虑大数据分析的时候,要从公司的整体层面、战略的角度去考虑这个问题。

分享:
延伸阅读
    数博故事
    贵州

    贵州大数据产业政策

    贵州大数据产业动态

    贵州大数据企业

    更多
    大数据概念_大数据分析_大数据应用_大数据百科专题
    企业
    更多