首页 观点正文

老问题新看法:大数据能否取代统计学?

  以Google公司的崛起为标志的智能时代,如滚滚的历史车轮,一圈一圈、有条不紊地改变着我们的生活。

  信息技术发展到今天,已经从根本上改变了工业革命和机械时代留给我们的思维方法和体系。

  即使是明天一早发现无人驾驶汽车像mobike一样如雨后春笋般出现在路上,我们所能感叹的,可能也只不过是一句:这一天终于来了!

  1.老问题,新看法

  Google从最初有做无人驾驶汽车的想法开始,到做出像模像样的原型车,只用了4年时间。

  截止2016年,Google研制的无人驾驶汽车的总行驶里程已经达到了200万英里,相当于一个人类司机300年的里程。

  其实说来很奇怪,为什么站在风口浪尖上的不是奔驰宝马特斯拉这样的汽车公司,而是Google这样一个搞搜索引擎的公司呢?

  其实之前我们已经讨论过了:智能时代的核心是大数据,而大数据的核心是如何将传统的模型驱动转化为智能的数据驱动,然后用海量数据的优势去弥补复杂模型暂时不能达到的精确度

  跟语音识别和智能翻译一样,无人驾驶汽车本质上也是一个人工智能的问题,只要数据充足,就可以把智能问题转化成数据问题。

  下围棋的AlphaGo赢李世友,靠得是海量棋谱和搜索算法;同理,Google无人驾驶汽车靠得是“街景”功能“扫街”扫来的大量道路信息。

  对于没有扫过的陌生区域,无人驾驶基本上是束手无策的。

  今天,二郎想换一个全新的角度去剖析和对比大数据和其他思维背后暗含的意义,以及郭靖和黄蓉又是如何融会贯通并且践行的。

  2.统计学 vs 大数据

  先来看看大数据跟统计学有何冲突。

  统计学是人类解决与大量数据相关问题时所发明的一种实用数学工具。

  一些比较严谨的统计学教材会将统计学分为描述统计学 (Descriptive Statistics) 和推论统计学 (Inference Statistic) 两大类依次介绍。

  其中描述统计学约占20%的篇幅,主要内容是如何描述获得的数据,比如算个平均值、中位数,画个直方图之类的。

  而推论统计学约占80%的篇幅,讨论怎样才能从局部样本的特性推测出全体特性,包括正态分布、各种(非)参数检验,是广大学子最头疼的部分。

  我们通常所说的“统计分析”,主要指推论统计学。

  统计学的本质,可以用一句话总结:当研究对象的数据量大到无法穷举时,我们只能使用“采样”这样一种妥协的方法,尽量有代表性地替代全体样本

  统计学的思路是先从个体(样本)入手,达到统计数据,然后推论出群体(全集)的特性,再将群体的特性当成一般规律,应用在其他非样本的个体身上。

  而大数据想到达到的精准境界,比如精准医疗、精准扶贫,正好站在了统计学概率思维的对立面上。

  大数据的终极形态应该是穷举法,利用数据的完备性绕过局部样本和统计规律,直接给出精准的个体信息。

  比如说,黄蓉和郭靖都想打探洪七公喜欢吃什么菜,但他俩所用的方法却截然不同。

  黄蓉选择了统计学,亲自下厨给洪七公烹制“川鲁粤苏,闽浙湘徽”的各种菜品,然后直接问洪七公的评论和反应,不出两个礼拜,就能有95%的把握说自己已经把洪七公的饮食喜好摸清楚了。

  郭靖选择了大数据,他没有手艺,只能用勤能补拙的屌丝方法,每天把洪七公吃了什么菜记在本子上,即使别人请吃饭时的菜不能真实反映洪七公的喜好,但坚持一年下来,也能摸个七八成。

  Anyway,黄蓉和郭靖各自的方法都能达到“打探洪七公喜欢吃什么菜”的最终目的,皆大欢喜。

  3.天才 vs 勤奋

  我们一般都会认为穷举法(也叫枚举法)是笨方法。例如,对于一个同时包含数字和大小写字母的8位密码,如果用工作站,大概需要25天的时间才能破解,即使用1秒钟可以试10亿次密码的超级计算机,也得用60个小时。

  但是,当黑客没有更好的算法来破解密码是,或许用一个高性能电脑或者工作站跑一个月这种笨方法,反而是最省事的选择。

  笨办法只是郭靖的首选,像黄蓉这种聪明伶俐的人,首先想到的一定是去寻找普遍规律。大数学家高斯,就是黄蓉这一类人。

  高斯小的时候,有一个大家耳熟能详的故事。

  数学老师为了偷懒打个盹,于是给同学出了一道难题:从1加到100。其他同学都老老实实地从头开始算起,只有聪明的小高斯,当即就报出了答案:(100+1)×100÷2=5050

  其实人类就像黄蓉,代表天才。最好是能用办法和套路解决的问题,绝对不多浪费脑力。而机器就像郭靖,代表勤奋。虽然天资愚钝不开窍,但他有异于常人的耐心和毅力。

  不过,只有天才与勤奋并存,才有可能进化出真·学霸完全体呦!

  4.稀缺互补才是王道

  处理问题时选择黄蓉还是郭靖,正是人类智能和机器智能的分水岭。真正起决定作用的因素,是问题自身的属性和资源的相对稀缺性。

  黑客选择用穷举法暴力破解密码时,电力和时间是相对廉价资源,计算能力和高级算法却相对稀缺。

  高斯选择动脑思考简便算法,而不是从1+2开始算起,因为时间是稀缺资源,他宁愿花费脑力去换取更多玩耍的时间。

  另外,科学实验加统计学分析擅长探索因果关系,而多维 大数据通常只能得到相关性信息。

  真实生活中碰到的种种问题,肯定也没有哪一种方法就万能好使的,解决问题时应该对症下药、看人下菜。比胡子,靠关羽;比眼睛,靠张飞;比脑筋急转弯,就得诸葛亮出马了。

  大数据思维和统计学思维相互补充,才能更高效地解决更多问题。

  统计学思维的黄蓉跟大数据思维的郭靖一起搭伙,才能成为众人羡慕的桃花侠侣;如果跟同样是统计学思维的欧阳克在一起,日子肯定不好过。

  你是黄蓉,还是郭靖?

  作者丨囧才才

责任编辑:王培

分享:
2022全数会
贵州

贵州大数据产业政策

贵州大数据产业动态

贵州大数据企业

更多
企业
更多