首页 专栏涂子沛正文

当人类文明与大数据融合,我们该如何认识这个世界?

数据读心术,被“操控的选举”

2018年3月,全球最大的社交网站Facebook 被曝出负面新闻: 一个名不见经传的小公司,通过不正当的手段,在Facebook 网站上 获取了8 700 万用户的数据。这些数据随后被用于多个国家选举中的选民分析,2016 年当选的美国总统特朗普就曾经雇用这家公司,这引发了关于数据操纵选举的批评,直逼特朗普当选的合法性,触目惊心。

当人类文明与大数据融合,我们该如何认识这个世界?
 

在选举中大量使用数据的做法,起源于美国第44 任总统奥巴马。2008年,他第一次代表民主党参选期间,建立了专门的个人竞选网站,收集了1300 万人的个人信息和邮箱地址。在此之前,大规模的营销和宣传活动一般使用“信息群发”的方式,但奥巴马放弃了这种方式。他雇用了一批数据科学家,尝试通过数据对选民进行分类,向不同类别的选民推送不一样的定制信息。到2012年,奥巴马竞选连任,这时候Facebook 已经聚集了8亿用户,奥巴马的个 人竞选网站实现了和Facebook 联动。

这两届总统选举都以民主党大获全胜告终,奥巴马使用的大数据分析方法也成为教科书级别的经典案例。在此之后,共和党痛定思痛,决心迎头赶上。个别共和党“大佬”开始和技术极客交朋友,出资参与他们成立的数据公司,其中有一家就是Facebook 风波的主角剑桥分析公司,它于 2014 年成立。

这家公司之所以叫剑桥分析,和它的团队和数据来源有关。剑桥大学心理系有一名年轻的研究员科根以学术研究的名义在Facebook 上推出了一个小小的程序,它宣称可以免费提供性格测试, 参与者还可以得到一个 5 美元左右的现金红包。这也是今天一个奇怪的现象,一毛钱掉在地上,很多人都懒得弯腰去捡,但对互联网上的一毛 钱,大众趋之若鹜,抢得不亦乐乎,最终 32 万人参与了科根的调查。

是时候揭下互联网的“免费”外衣了:几乎所有的互联网服务都是免费的,但使用者其实付出了对价—我们交出了“数据”。

32 万人如何突变成8 700 万人呢?这是因为Facebook 精心设置的“缺省”隐私政策,即如果用户没有特别表态,他的个人信息就对他所有的朋友开放。放到科根爬虫的工作场景中,这意味着除非一个人的朋友已经特别声明自己不愿分享信息,否则科根的爬虫在扒取某人信息的同时,也可以把他朋友的信息一并 扒取。于是,虽然参与科根测试的用户只有区区32 万,但凭借缺省许 可,这些“种子”最终开枝散叶,科根裂变式地收集到了 8700万用户的信息。

科根之后转手,8700万人的数据在云端悄无声息地归到了剑桥分析公司的名下。出乎人们意料的是,剑桥分析公司用这些看似不起眼的公开数据,玩出了大花样。他们把 8 700 万人的社交数据和美国商业市场上2.2亿人的消费数据进行匹配、组合和串联,找出谁是谁,然后就性别、年龄、兴趣爱好、性格特点、职业专长、政治立场、观点倾向等上百个维度给选民一一打上标签,进行心理画像,建立心理档案,再通过这些心理档案开展分析,总结出不同人群的希望点、恐惧点、共鸣点、兴奋点、煽情点以及“心魔”所在。

当代大数据“读心术”就此诞生了。

掌握了一个人的“心魔”,就可以评估一个人最容易受哪种信息的影响,就可以知道信息该如何包装、如何推送,才能搔到接收者的痒处,潜移默化地影响一个人的选择和判断。

相同的配方,熟悉的味道,这些精准投放的宣传资料,就好像一颗颗用数据调配的药丸,被推送给选民反复服用,之后慢慢地发生作 用,最终引导选民做出药丸配制方预设的政治行动。 从本质看,这是互联网的精准广告投放技术在选举中的应用。

大数据不仅仅是科学,还是技术,它是科学和技术的混合体。

当人类文明与大数据融合,我们该如何认识这个世界?
 

剑桥分析公司的主页

在剑桥分析公司的主页上,这个公司号称服务过世界五大洲的100 多场选举,其中还包括2016 年英国的脱欧公投。这是2016 年度全球最大的“黑天鹅事件”,脱欧派以52% 对 48% 的微弱优势最终胜出,全世界为之感到意外。虽然“数据药丸”对选举的作用大小很难量化,但有一点可以肯定:在一场势均力敌的、差距很小的选举中,它会起到关键的作用。

在 Facebook 最后的道歉声明中,公司并不承认这是一场“数据失窃”事故,而是强调“没有保护好用户的数据”。事实上,这起风波连“泄露”都谈不上,因为“点赞”数据几乎是公开的,数据在整个过程中都是经过用户同意才被扒取的。如果真要说这是隐私侵犯,也是合理侵犯,但真正的问题却比隐私侵犯还要严重。

真正的问题在于,即使通过公开的数据,互联网也可以成为影响、操纵、控制他人心理和观点的媒介工具,这不是隐私侵犯,而是心理入侵、思想入侵、意识入侵。

Facebook 风波发生在美国,无独有偶,2018 年初,中国的大数据公司也被曝出了一系列的负面新闻。它们的问题既不是传统的隐私问题,也不同于剑桥分析公司的“数据药丸”和意识操纵,它们侵犯了消费者的钱袋子。

2017 年 12 月,一名中国网友在微博上讲述了自己遭遇大数据“宰客”的经历。他经常通过某旅行网站预订某酒店的房间,价格常年为 380~400 元。偶然一次,酒店前台告诉他淡季价格为 300 元上下。他用 朋友的账号查询后发现,果然是300 元,但用自己的账号去查,还是 380 元。

当人类文明与大数据融合,我们该如何认识这个世界?
 

这条微博引发了网上的“大吐槽”,媒体打出了“大数据杀熟”的标题。所谓“熟”,就是通过消费者的数据掌握了消费者的底细。

据中国电子商务研究中心的不完全统计,包括滴滴出行、携程、飞猪、京东、美团、淘票票在内的多家互联网平台均被曝光存有“杀熟”的情况,特别是在线差旅平台更为严重。对此,各家平台反应不一,有些声明“坚决没有”,有些不予回应,还有的“委婉默认”。

“杀熟”的渊源可以追溯到5年前开始兴起的“千人千面” 。当然,“ 千人千面”的实现基础就是“数据识人”。“千人千面”的硬件基础是移动互联带来的“一人一屏”。如果几个人共用一部手机,算法的准确性就无从谈起,但就是因为“一人一屏”,一个新的可能出现了,价格也可以变得个性化—千人千价。简单地说,就是通过数据可以区分穷人和富人、新人和旧人、价格敏感人群和价格不敏感人群、苹果手机用户和安卓手机用户。

“一人一屏”和“数据识人”深刻地改变了商家和消费者的关系。在传统的商超,价格一经公开,所有的消费者都享受一样的价格,如果价格不合理,商家会受到众人的挑战,商家和消费者是一对多的关系,因为众怒难犯,商家不敢轻易打歪主意;但在“一人一屏”的时代,商家和消费者变成了一对一的关系,价格是隐秘的、单行的,价格合不合理,消费者只能靠自己判断,而消费者的认知空间已经被手机和数据割裂了。

数据驱动,新文明的兴起

随着大数据的兴起,“言必称数据”逐渐成了我们这个时代一个显著的特征,但问题是,此数据非彼数据。

今天,所有“记录”的结果,甚至包括文字,都被统称为数据。这其中暗含的逻辑是,数据作为一个概念,它的内涵扩大了。传统意义上的数据是人类对事物进行测量的结果,是作为“量”而存在的数据,可以称为“量数”;今天的照片、视频、音频不是源于测量而是源于对周围环境的记录,是作为一种证据、根据而存在的,可以称为“据数”。

几乎人类的一切行为,今天都可能、可以被记录,并被转化为据数。如果说量数的核心要义是“精确”,那据数的关键就在于“清晰”地留据。

因为智能手机的普及,据数已经无处不在。迄今为止,以据数为中心的大数据讨论主要停留在以下三个层面。

一是精准营销,即互联网广告业。和传统的广告业相比,今天的互联网和智能手机通过记录消费者不断产生的数据,可以向终端用户推送个性化的广告,这大大提高了行业效率。这是大数据革命在商业领域的起源。这也是目前互联网企业,无论是中国的 BAT(百度、阿里巴巴、腾讯),还是美国的谷歌、Facebook(脸谱网)、亚马逊最主要的赢利途径。

二是商业和社会信用,其主体是金融机构。除了精准营销,这是利用大数据赚钱的第二个法门,也是我们看到诸多互联网企业陆续进入金融领域的原因。其商业模式是,通过消费者的消费记录评估消费者的信用,从后续的金融服务中赢利。例如阿里巴巴旗下的“芝麻信用”和腾讯旗下的“微粒贷”,它们在给消费者打“信用分”的基础上,向单个消费者提供贷款等金融服务。

这两种商业模式,都需要通过数据监控消费者在互联网上的一举一动,消费者个体因此成为被观察、被分析、被监测的对象,这就带出了第三个层面的问题—隐私。这两种商业模式的副作用是,我们几乎每天都能听到数据泄露的新闻,时不时还会看到因为它而导致的悲剧。

这就是大众眼中的大数据,前两者为商业利润而生,而隐私问题屡屡成为社会公共话题。可是,这三个层面仅仅揭开了冰山的一角,难道大数据就是养了几家大公司,方便了公众生活,改善了信用评级体系,让生活更美好或者多了点麻烦这么简单?远不止于此。

在商业层面,大数据还在进一步深化变革,它所催生的互联网应用仍在不断更新迭代。当大数据完全发挥出它的潜力时,其最终形态将是全自动商业,或称智能商业,商业文明将会被重塑和再造。

据数的商业化应用带动了大数据的兴起,但商业只是故事的一个边角,革命是社会化的,未来我们还会看到智能制造业,它所依靠的还是数据,数据引发的变化还在向社会治理和个人生活领域全面拓进,它涉及社会生活的方方面面,将会推动整个社会进入文明新状态,改变社会的全貌,被称之为“数文明”。

数文明,社会和个人如何被赋能?

在国家和社会的层面之上,我们将会看到更大的变化。越来越多的个人行为在被记录,对国家而言,这意味着每一个国民个体、每一辆车甚至每一个其他物体都可以被追踪。如果懂得使用数据,那么站在官僚层级的金字塔上,我们的社会将呈现出一种现在就非常清晰而且会越来越清晰的状态,据数就是这个高清社会的纹理。清晰性是有效治理的前提。

和量数相比,据数为国家治理提供了新的工具和手段。就此而言,用好大数据是通向国家治理现代化的最佳路径。今天中国要建设法治社会已经是共识,《数文明》要提出的是数治。数治就是凭借对数据的有效收集、处理数文明和分析来治理国家以及与之对应的数据治理,数据治理将是国家治理的重要内容。

对国家而言,以大数据为结果的互联网代表的是新生的力量,它正在重塑传统社会,数治正在有效地解决人类对安全的根本性需要。另一方面,大数据、互联网又带来挑战。。国家力量已经不可能完全左右互联网连接起来的有机社会了,相反,越来越多的公共功能在向私人公司、社会机构转移。如何利用这股力量,又约束住这股力量?这股力量可能会重塑整个社会的结构,催生新的政治文明,数治因此是一个具有挑战性的话题。

数文明不仅和国家、社会相关,也直接关系到个人。

对个人来说,掌握未来发展、演进的方向,知道哪些行业将消失,哪些行业又将兴起,这当然非常重要。一个在黑夜中行走的人是走不快、走不远的,他也无法领略到沿途的风景之美。

在数文明的时代,通过记录赋能,个人会成为高能个体,一个具备数据意识、数据头脑和数据技能的数据公民当然更容易获得成功。新的时代会改变个人的命运,我们也应该调整我们的价值观。

个人的成功和一个民族的文明自有相通之处,这个相通之处就是记录。因为普适记录,个人更容易获得成功,而推动文明发展的最终动力则是无数国民源源不断的创新。正因如此,数文明的能量和潜力有可能超越历史上所有的文明。 

新文明的悖论,一类新的隐私观

当然,新文明本身也问题缠身。

当我们拨开大数据表面上的浮云,立刻就可以看到一个商业逐利和社会控制的世界。个人向互联网企业让渡的数据反过来为互联网企业的“杀熟”行为提供了便利,无数人的个人生活被圈在一个固定的小天地里,看个性化推荐的新闻,阅读个性化定制的消费指南,他们感觉很舒服,事实上,我们出让的数据正在成为我们的电子脚镣和枷锁。

这是新文明的两个悖论。一方面,数据越清晰、越全面、越真实,就越有利于个性化生产,避免资源浪费,比如精准营销、个性化页面、私人定制服务;另一方面,数据又带来了信息茧房、信息窄化的风险。 一方面,大数据要求更加开放甚至是无限制的联接,另一方面这又将伤害个人的隐私和权利。

那该如何看待新文明的问题?文明从来都是在冲突中成长的,没有哪种文明一开始就很完美。今天信息技术的发展提供了新的可能,但数文明最终的形态是需要大家一起创造的。

事实上,上述悖论也可能很快被破解。比如,通证经济来临,区块链技术正日臻完善,未来一个人的数据很可能并不保存在 Facebook、阿里巴巴、腾讯这些大型互联网公司,而是保存在一个公共的区块链上,这些企业使用我们的数据都必须经过我们的同意,被区块链记录。只能说,我们目前所见证的数据革命,还远远没有结束,如果真要说结束,那也只是一个序曲的结束。

即使是隐私问题,随着人工智能的普及,它也在出现新的态势,我认为整个人类,无论东方或西方,亟须建立一种新的隐私观。

例如,被中国大众频繁诟病的“大数据杀熟”和“千人千价”,它们是通过算法对数据的自动处理实现的,主观上它没有泄露任何人的数据。可是处理这些信息的并不是某个具体的人,而是算法和机器,它们自动运行,自行匹配,人为干预的程度很低。那么,这种情况该不该简单地被认定为侵犯个人隐私呢?

这就是新的情况:你的数据都是算法和机器在处理,并没有被泄露给“人”,在一定程度上,你的隐私并没有受到“人为”的侵犯。人为泄露个人数据的案例和情况当然还会出现,但我相信会越来越少。我们的数据需不需要对算法和机器保密?这才是一个新的问题。

我们不会介意自然环境在注视或监视我们,那我们是否介意算法和机器注视着我们?或者说,我们应该介意吗?未来,算法和机器就是我们生活环境的一部分,让机器了解我们,向机器开放我们的数据,这恐怕是通向智能时代、机器人时代、人机协同时代唯一的选择。

人类新的隐私观,其核心是要为商业和公共领域的算法划定一个使用个人数据的边界。

数文明的发展和延续,我相信是以百年、千年的时间为单位的,探讨数文明,就是思考人类的百年大计、千年大计。不管是国家还是个人,我们需要跟上新文明的演进步伐,否则就可能被新文明所淘汰。

本文整理自《数文明:大数据如重塑人类文明、商业形态和个人世界》

当人类文明与大数据融合,我们该如何认识这个世界?

责任编辑:陈近梅

分享:
速读区块链
贵州

贵州大数据产业政策

贵州大数据产业动态

贵州大数据企业

更多
大数据概念_大数据分析_大数据应用_大数据百科专题
企业
更多