首页 企业国双科技正文

国双CEO祁国晟:掌握大数据时代产业人工智能 推动中国软件产业弯道超车

  (原标题:国双CEO祁国晟:掌握大数据时代产业人工智能,推动中国软件产业弯道超车)

  以“产业互联网时代的云计算和大数据”为主题的“2016中国软件大会”于12月22日在北京隆重召开。会议由中国电子信息产业发展研究院主办,汇聚了政府主管领导、国内外权威专家及杰出企业领袖,代表了中国软件和信息服务业发展风向标。北京大学教授、工业和信息化部原副部长杨学山,中国工程院院士李伯虎等均参会发表演讲。国双CEO祁国晟受邀出席,发表主题为“大数据时代的产业AI”的演讲。演讲中,祁国晟强调,重视研发创新的国双积极协助企业在商业、业务的流程方面实现自动化,未来通过导入更成熟的人工智能技术训练机器学习海量数据,会使得包括思考与决策的自动化也成为现实。对于整个中国软件产业发展,祁国晟也抱有高度信心。他认为,中国企业软件的成长与发展势能尚未发挥,有非常大的成长空间;中国的消费互联网,特别在智能终端的表现比美国还先进,把握这两大关键契机,中国软件产业非常有可能实现“弯道超车”,在全球软件市场拥有更大话语权。

  以下是祁国晟在2016中国软件大会的演讲实录:

  谢谢主办方给我一个机会发言。在我前面的所有演讲嘉宾都是行业前辈、专家,或者是我的师长。我应该是今天上午最年轻的嘉宾,但是我在大数据行业的从业时间并不短。国双成立于2005年,当时我还在清华上本科,在宿舍里做成的这个公司。这11年来,不管有没有“大数据”和“云计算”这些词,我们的营收都来自数据处理、数据分析和为企业服务。从2007年开始,我们的所有产品和解决方案都是在SaaS基础上,也就是用云,为社会、为各种机构提供服务。今天,我们服务600多家商业客户和品牌,其中很多都是世界五百强,还有政府、司法部门、电视台等都是我们的客户。

  很荣幸,今年9月23日我们在美国纳斯达克上市,这个上市具有一定的意义。过去中国有很多知名的企业在美国上市,大多是消费互联网类的企业。我们是第一家大数据的企业,或者第一家企业级软件服务的供应商。我们非常荣幸能够成为这样一个力量,在国际舞台上和国际一流的公司竞争。

  国双很注重自主创新,目前发明专利申请高达1728件,其中583件是与大数据相关的,148件是与人工智能相关的。这个数字是给大家一个概念,过去两年我们公司都是中关村发明专利的前十强,其他九家公司无一例外都是五千人以上的巨型互联网或者科技巨头,我们是其中唯一一家规模在一千人以内的企业。所以,今天我在“中国软件大会”演讲的标题为《大数据时代下的产业AI》,我们有实力讲好这个故事。

  大数据一直在我们公司的基因中,我们公司的名字叫Gridsum,Grid就是分布式(Gridcomputing),SUM是求和。Gridsum这个名字来源于我2003年在大学二年级时自己做的一个程序,当时我们就觉得未来是什么?未来的计算机是什么?未来的计算机就是有一天连SUM,求和,这么一个简单的运算,因为数据量太大,必须要多台计算机一起来做加法处理。其实它和Google的创始人在2004年的一篇论文中介绍的整个大数据行业的基础算法MapReduce有异曲同工之妙。尽管我们没发展成另一个Google,但我们把我们的观点和我们当时的Vision用在了随后的为企业的数据服务之中,高效地为企业来服务。这是我们的大数据DNA。

  关于人工智能

  我从学校走出来时间还不是很长,《人工智能》这本教材,是我当年上大学时用的教材,我当时这门课成绩还不错。印象非常深的是,我们的作业是要实现A星(A star, A*)搜索(注:“A*搜索, A Star search algorithm”为人工智能中的种算法)。在座如果有计算机背景的,都知道人工智能最经典的算法叫A星搜索。这个A星搜索能做什么呢?它是一个最优、最完备、效率最高的一个算法。但是它有一个极大的缺陷,就是在解决复杂问题时,特别占内存。十年前,内存是一个很大的限制,很多做程序的人会放弃一个完美的算法,而去找到一个可以节省内存、同时可放到产业应用中的算法。因为你面临的数据量太大,一个完美的算法是不可能面对这么大的一个数据量的。怎么办?我想可不可以用我们做的分布式求和的东西,用多台计算机来解决。当年都是单核CPU,一个核CPU16位、32位操作系统,它的内存是有限的。那么,多台计算机一起是不是内存就可以变得更大一些,它就可以有更大的空间使用这种类似完美的算法,可在当时没有这个时间做实践。

  前几天我把这本书的第三版找出来,2011年的第三版,我做的第一件事情就是看这两个版本之间有什么区别。在“历史”这一栏,2011年之后我们有了巨大的数据,我们也有了应对巨大数据的能力,即大数据的方法,用多台计算机协同工作,MapReduce也好,Gridsum也好,去解决这个问题。

  我们今天的话题叫“大数据时代下的产业AI”,如果过去的想法实现了,今天用大数据的方法把AI放在一个多台计算机上去做,它在产业里面就可用。以下是几个例子。第一,我们公司最早进入的一个行业就是做广告效果的监测或者互联网营销效果的监测。典型的例子,左面是一个热力图,这是一个点击作弊,过去七八年中国的点击作弊是非常严重的,多点击一个就可以多收钱。可以看到,在这一个点上点击1.6万次,每一次都点击在同一个点上。当年我们用热力图的方法抓住每一个鼠标点击在哪里,如果发现这么多鼠标点击都点在这一个点上,分毫不差,那肯定是机器做的。另外,从右面可以看到有很多报警的条件,当时设置了很多条件去比较,看这个渠道给我发过来很多无效的作弊流量。我们今天已经不需要人看这个图或者配置这个条件来发现,而是用人工智能的方法训练机器来做。我们跟机器说这种情况出现就是一个点击作弊,机器记住了这些东西,然后机器会自动地发现。现在有37.4亿的行为数据每天实时到我们的计算机里面,这就是互联网的用户行为,根据这个数据我们现在反点击欺诈的能力非常强,基本上任何一个广告公司、媒体知道这个客户用了国双的产品,不会给它放任何有问题的流量。

  第二个例子,我们现在进入了司法行业,一年多以前中国最高法院开始公开了判决文书。一份判决文书大概是5K,这份判决文书的支撑文件可能有50M,这还算少的,就是庭审过程中所有记录下来的文件。现在已经公开的判决文书有2400万份。其实80%、90%的官司都是很简单、很普通的琐事,比如邻里纠纷,但是每一个在官司中的人都认为我的情况是特殊的。造成每一个法律工作者,尤其是法院、法官要承担很大的工作量,要把这个案子断掉,其实这个案子根本不应该花法官的时间去断,因为很多案子都特别有共性。我们右面的这个系统是一个人工智能系统,你可以问系统:邻居家建房,挡住我家的采光。这是一个自然语言问出来的问题,这个系统的第一屏直接告诉你,它就像是一个律师一样,因为这个系统已经被我们通过机器学习,通过人工智能,通过海量的后台跟司法过程相关的数据训练过。所以,第一,它告诉你,你的这些情况是哪些法律法规起作用。它就像是一个图灵测试一样,你以为是一个很专业的律师,其实不是,是一个机器人。它还会告诉你统计结果,比如说你这个情况在上海、北京、河南、河北、辽宁有多少,胜诉数是多少,平均诉请金额是多少,平均诉请金额就是2、3万块钱,但是实际获赔金额非常少。什么意思?最后得到的就是几百块钱。所有人都认为我应该拿几万块钱,但是实际上获赔的就是这个钱。试想,你还应不应该打这个官司,应不应该把这个官司走完。今年我们开始在一些法院帮助他们去做,有很好的社会效应和社会效果,这也是一个很典型的人工智能和大数据结合的例子。

  第三个例子,信息安全。最近大家可能看到很多新闻是关于信息安全的,都是丢数据,你的个人信息没有了,因为某一个企业不够注意,所以你的个人信息就没有了。我们传统的信息安全是靠防火墙,靠很多硬件。有一个黑客来了,防火墙给你挡住,后面的服务器是安全的,这是可以挡住黑客攻击的。但是挡不住什么呢?比如说黑客,底下有一个手机,这个手机可能是一个糊涂的员工的,也有可能是被买通的员工的,这个黑客把这个手机控制了,带进了我们的组织。这个手机从防火墙背后攻陷了一台服务器,这个服务器又去另一台服务器把有用的信息偷走。但是如果用大数据的方法,不需要防火墙,所有服务器、所有的智能设备的行为数据都被一朵云记录,然后有一个大脑去分析这些行为,哪儿的行为是异常的。机器就能够自动地发现很多异常,这个人不应该在这个时间登录,这样的异常数据背后有可能是危险的。这样的方法可能是纯软件的不需要硬件,它却能够解决硬件不能解决的问题。

  总结

  产业AI有一个什么样的方法论?从原始数据到规划好的数据,一般来讲,是先用计算机纯粹地通过数据去发现一些歧义的数据,这时候需要数据专家来指出这一二三四五条数据中有些是对的,有些是错的,你计算机弄错了。这个结果反馈到计算机,形成一个人工的智能,这个人工智能不断地迭代,重复操作,不断学习,其节点就会变得越来越多,最后有一天就可以做到商业和业务自动化。很多企业信息化还没有完成,我们公司一直在做的事情就是各种商业和业务的自动化,营销、销售的自动化,审判流程的自动化,在线服务的自动化,但是自动化的过程就可以产生数据。如果把这些海量的数据都用人工智能的方法训练起来,还可以做到思考和决策的自动化,这不仅是业务流程的自动化,关键的一些节点,思考决策也可以帮你做自动化。

  另外,实践这个大数据的成本是可控的。我们公司的数据量从2005年到2016年9月是一个比较线性的增长,但是每TB的存储费用和每事故处理的费用下降的速度其实更快。所以,每一年,你把所有的数据都处理的成本,其实变化没有很大。

  我们国家在软件产业的发展上,有弯道超车的机会。第一,因为中国企业软件发展是严重滞后,但这个滞后其实是有好处。第二,我们的消费互联网,各种数据都证明,我们的互联网和智能手机或者消费互联网、智能终端已经发展得比美国还要先进了。企业软件发展虽然滞后,但我们则少有遗留信息系统问题。我在美国见过很多公司,它们为什么不好做AI,不好做大数据?因为过去二十年,他们用了很多遗留系统,每个系统独立,且一个系统管一块,数据很难提取,数据一致性非常难解决。尽管最后都进了大数据系统,用上AI系统管理,但有很多冗余的、垃圾的无效数据。所以,它不能产生真正的AI。但是中国很多企业过去像一张白纸一样,因此中国的企业级软件服务,非常有可能实现“弯道超车”。

责任编辑:陈近梅

分享: