首页 专栏杨玥正文

杨玥:在数字的映象里研究人

杨玥:在数字的映象里研究人

  杨玥

  通过大数据的分析,可以做成“油价早知道”这样的小应用为开车族提供方便,也可以为出版社分析出00后男生和女生好不相同的阅读偏好。8月14日,2014夏季腾讯思享会“中国说”在北京正院公馆举办。数托邦创始人杨玥在“大数据与社会变革”论坛板块,从实践者的角度展示了三个鲜活的案例,指出:“大数据时代,人类的行为、人类的思想、人类的关系在虚拟世界里有一个映象,在这个虚拟世界研究人、以更宽广的技术和手段,这会产生更多的技术上的革新,也可能会有更多的发现。”

  以下为杨玥发言实录:

  杨玥(数托邦创意分析工作室创始人):我也是《大数据时代》这本书的忠实读者,我们对自己的定位我们是大数据时代的践行者,我们考察数据究竟能给我们个人,给这个社会,给我们企业、政府、组织带来什么实实在在的帮助,我们也提供了几个案例分享。

  第一个是美国的案例,美国西北大学和哈佛做的全美情绪测量的案例,Pulse of the nation。我倾向于叫国人幸福的调查,统计了三亿多条Twitter上的信息,按照情绪指数分成八个维度,最右边最绿色的代表最高兴,最左边的代表情绪最低落,他把一天24小时和美国的地理位置联系在一起,做了一个可视化的视频。(视频略)

  这是一张美国地图,从东部时间零点开始,一天24小时美国发Twitter人的变化,深夜是红色的,说明深夜发Twitter的人都比较郁闷。到了早晨,加州人起来跑步,比较开心,变成了绿色。九点上班以后,美国东北部的律师投行进入了上班时间,整个人开始郁闷,颜色变红,随着时序推移,西部也开始郁闷起来。到下午三四点钟工作的压力下全美几乎都非常郁闷。这里,随着下班时间的临近,佛罗里达的人群又开始绿了,加州的下班了也开始绿了,东北部还是一片红,他们很晚下班,还是很郁闷。

  这张图很直观的描述了一个全美的情绪变化,是心脏呼吸的形状,根据每个州的大小,Twitter的量做了一个可视化的地图。我从这张图里可以明显的感觉到美国人的幸福指数跟地域、时间、状况是什么关系。相对来说,生活在美国迈阿密州和加州的也许幸福指数更高一些。这个对社会现象的观察会带给我们很多不一样的视角和洞察。

  下一个例子,回到PPT,这是我们自己团队的一个小例子,油价早知道。这也是我们团队的科学家做的一个小的应用。下周一很有可能我们政府会降油价,幅度在200元/吨,这是我们今天微信账号发出的预测,这个概率应该是超80%的,所以,大家可以下周二再去加油。

  解说一下这个例子,用的是微博上的意见领袖的意见,我们实际上是海搜了大量的提及油价的人,找到其中的700位的专家意见团的人物,这些人物不知道我们在采集他的信息,我们从中间找出来影响力最高的700人组成了一个专家团,这个专家团在自己的微博上经常谈对油价的估计、看法,油价的趋势,我们用一个算法对这700个专家团建立一个投票的机制,每个人投票下一次油价什么时候涨,上来时候跌,涨跌多少钱,我们把这700人的智慧综合起来做加权,用社会化媒体的关系来加权,他在网络越有影响力我们认为他票数越高,代表意见领袖的价值越大。用这个模型做出来我们发现这700个人的意见在真实油价下跌和上调之前的三天左右时间,这个专家团的意见,他们有汽车行业、能源、财经、媒体行业的,还有可能我们不知道,但是接触到油价信息披露的。但不知道会不会我们讲了以后就不调了。

  我们用这样的方法找到这700个这个领域的专家意见,并且把它汇总成一个结果,大家加油可以节省一点时间或者节省一点钱,累计起来经济价值还是很可观的。这是一个典型的通过数据的挖掘对个人有帮助的小应用。我们团队希望开拓这样的应用服务社会。

  我们还做了其他有趣的例子,比如这个给中国联盟出版社做的例子。00后的孩子在想什么,尤其针对10—16岁青少年的书,他们已经有自主的选择书的权利了,社长委托我们调查00后的男生和女生都在想什么。

  我们数据来源于网络,来自于这些年轻的孩子们所留下痕迹的地方,比如微博、微信,他们上的论坛,来找到这样的一些孩子们,然后我们发现他们非常活跃,在大人不了解的一些领域里他们形成了一个个的群组,形成了一个个团体讨论自己感兴趣的事情。

  这张图是对00后女生的描述,杨幂这个词非常大,他们爱看“快乐大本营”,也爱看成人相亲节目“非诚勿扰”,还有一些明星大家都不太知道,平泽,杨小曦,我看到都不知道意味着什么,还有“傲娇”这些词,这是00后女生的。

  00后男生是另外一张图,最大的字眼是“海贼王”、植物大战僵尸、万圣节,可见这个年龄段的男生还活在爱动画冒险里,男女生的兴趣点是不一样的,给他们的内容也是不一样的,从他们自己选择的书来看,女生可能更喜欢探索成人的情爱世界,更时尚,爱表达。男生还是活在动漫游戏中。那么,如果给这个年龄段的孩子出书,男生和女生可能要分开出。这也是常识的一个补充,当我们真正探索这个的时候,每个词的大小我们不是简单的统计,而是对信息商的一个计算,代表这个信息在这群人的发言里是很有信息含量的。

  另外,我们还长期对一些热播的节目进行跟踪,现在越来越多的人会在网络上表达自己对事物的看法,包括对公众人物、娱乐人物的看法,比如3·15晚会当天,那个周末有好几个电视节目都在播,我们人群结构已经凸显出了不同的内容对什么人群有影响。“我是歌手”这样的娱乐节目典型的我们叫L型,青春派,更多的00后、90后在关注;3·15晚会是主流范儿,更多的50后、60后、70后看;最强大脑是合家欢,是爷爷奶奶带着年轻的父母以及更年轻的孩子都在看的励志类的节目,不同的内容和不同的年龄结构的人群一些不可分的特点。

  最后一个例子是12306的例子,讲这个例子是为了说明一个问题,为什么当时大家感觉票特别难买,用数据来解释就是2014年年1月9号当天是最高峰的一天,有879万张票定了,但是其中43%是没有被支付的,有将近一半儿的的票回到了票室,58%以上的票是在4分钟以后就支付成功的。我们给大家的建议,第一如果没有票,三分钟拿不到的话就再等45分钟,可能还是有票。这是从数据角度给个人提供建议。

  回到我们的结论,现在大数据时代,人类的行为、人类的思想、人类的关系在虚拟世界里有一个映象,这是过去几百年、几千年、几万年都没有过的,人类社会的现实在一个虚拟世界里有了更丰富的意象,给我们提供的角度,我们在这个虚拟世界研究人、以更宽广的技术和手段,这些都是重新去研究人类与社会学,研究人类的行为、心理、组织形式,这会产生更多的技术上的一些创新和革新,也可能会有更多的发现。

  王俊秀(嘉宾主持,信息社会研究所所长):杨玥从他们的实践角度,从商业方面做了一些探索,下面请于建嵘从社会学的角度讲讲他对这个问题的理解。

分享:
延伸阅读
    速读区块链
    贵州

    贵州大数据产业政策

    贵州大数据产业动态

    贵州大数据企业

    更多
    大数据概念_大数据分析_大数据应用_大数据百科专题
    企业
    更多