首页 贵州贵州大数据产业动态正文

贵州华大生命大数据研究院执行院长金鑫:基因大数据价值与未来

  7月29日,以“赋能实体经济,推动产业创新——大数据与实体经济融合发展”为主题的2020“数博对话”活动成功举办。贵州华大生命大数据研究院执行院长金鑫在本期对话活动中以《基因大数据价值与未来》为主题进行了分享。

  基因信息与生老病死密切相关

  金鑫认为,一方面,人是数据的生产者,生活中不管是打车、买东西,还是其他活动,无时无刻都在产生数据。另一方面,每个人也是信息的载体,这个信息就是构成生命最基本的基因。基因存在于每个细胞里,这是跟每个人都密切相关的东西,但在过去很多年里,它是数字化程度比较低的一种数据类型。

  我们每个人都是基因信息的载体,这个载体是承载在细胞里。金鑫介绍:“我们身体里会有多少细胞?有人做过测算,细胞的数量在50万亿个,如果把我们身体里的细胞平铺的话,它可以覆盖1600米的沙滩。每个细胞里有多少DNA?人的基因组序列的长度大约是30亿个碱基。地球到太阳之间的距离是一个天文单位,如果把人体里所有细胞的基因序列连起来的话,它的长度通过计算大约是300多个这样的单位,远远超过了目前的旅行者1号(1977年发出的飞行器,到现在也没飞到),这里面的信息量可想而知。”

  更多的数据带来更多的发现。金鑫进一步谈到,每个人都有重大的信息量,这些信息跟我们的生老病死是密切相关的,尤其是跟我们密切相关的健康疾病因素,有遗传的基础、健康的基础等。如果我们知道了未来多长时间内有多大的概率会得某种病,那就可以治疗或者是防控,或者在早期能发现它也可以进行合理干预,比如“三高”的控制等。同时,在这个过程中,需要大数据去回答问题和消除不确定性,因为如果只研究一个人的信息量,这是不匹配的,如果把他的原始数据估出来,一个人的数据在今天至少要达到100G,这个人已经被确诊为糖尿病或者没有,这是在海量数据中海底捞针。但如果有很多人的数据,百万量级的层级里面就能建立联系。

  上图是人类将近20年以来所发现的跟各种各样人类疾病有关系的基因位置和区域。金鑫介绍,这张图上,人类1号染色体一直到22号,还有性染色体,图上每一个圆圈就代表了一种疾病或者我们所关心的人体的表型。正因为基因跟几乎任何的疾病都有关系,所以非常希望能更进一步地了解它们深入的联系。

  基因大数据时代来临

  金鑫表示,基因组是非常庞大的序列组合,有时候会发生更复杂的变化,比如有一段少了,有一段增加了,有一段换了位置,有一段贴到了别的地方......这就使现在的技术逐步地去研究它跟疾病之间的关系。在这个背景下,各个国家都发现了这中间蕴含的巨大的价值和可能性,如果我们把生命本身解码,把它跟更多的数据连接起来,更多的价值就能连接起来。这个过程中,希望能够通过大量的数字化,生命的大数据就能产生,去解决怎样拓宽信息和数据来源的问题。

  在过去这些年,每一个人的数据是单独来看,它的价值是没有得到释放的,所以在这中间有很多关于科学伦理的讨论,但现在这个价值正在逐步得到显现。

  金鑫举例介绍,英国的生物银行(UK BioBank)共享50万英国人基因数据,这50万人现在都已经有了基因数据,这个基因信息就逐步开始跟各种各样类型的数据产生联系。在这个过程中,做了50万的基因信息之后尝到了甜头,尤其是在过去几年有大量的数字化成本,并不是通过英国的科研经费和科技部门,而是来自产业部门,数据价值真正得到使用的部门。有好几家国际领先的制药公司投入一定的经费来支持这个项目,把中间的基因数据生产出来。尤其到了最近,他们完成了一期之后已经开始启动第二期,这中间有大量来自产业界的投入。

  为什么产业界会参与做基因数据,尤其是制药企业。金鑫分析道,开发一个新药可能要花十亿美金,但只有很低的可能性能成功。如果在开发的过程中,有来自基因数据的支持,这个药成功的概率就会提高一倍,这中间能够带来的收益非常可观。

  金鑫介绍,这中间蕴含着机会,也蕴含着挑战。美国和英国做了很多,是不是只要大家使用他们的研究成果,继续往后做就好了?大家发现不是这样的,虽然今天在世界上生活的都同一种人,叫现代人,但是人群和人群之间存在差异,地域与地域之间存在差异,累积起来带来的预测效果差别是非常大的。有人去做了统计,汇集了到今天为止已经发表的跟基因和疾病健康相关的所有研究成果,按照这个研究项目看,50%以上是来自于欧洲人群。如果大家把过去所有做了基因信息的人跟这个数据库比对,会发现将近80%的人是来自欧洲。这给我们非常大的提醒,如果只是依赖于别人完成的成果,很有可能会错过接下来一波信息革命在健康医疗产业里面给我们带来的机会。

  过去几年,包含华大基因在内的多个国内研究团队做了很多跟中国人群相关的基本的研究,通过这样的工作能够去画出中国人遗传基因的图谱,类似于这样基本信息的研究,可能对于遗传病的防控有更好的作用。

  基因大数据研究的工具突破

  “最早做人类基因组计划的时候,人类科学家做了10年花了30亿美金才做了一个人的基因组,到后来我们只需要花三五年时间,在几个亿美金的情况下就可以完成30万人。到今天,完成一个人的基因组,它的成本已经低于500美金,这个成本还在继续下降。”金鑫希望,未来成本能降到100美金,这样更多的人才会用到它。

  开展基因大数据研究,需要工具的支撑。金鑫介绍,以测序技术为代表的组学技术发展日新月异,现在开发出了基于基因纳米球的技术。

  图中红色的线是每检测一个人的基因成本,每一次它都会快速下降,到了今天已经接近几百美金的水平,未来会在100美金之下;黄色的线是摩尔定理,就是芯片的速度和成本,基因测序成本的下降速度比摩尔定理还要快。

  在这个过程中,在2013年以前,全世界只有两个国家能生产到科研级别、临床级别的基因测序,就是英国和美国。到2009年,英国这家公司把技术卖给了美国,所以英国也没有这个能力了。2013年美国进一步研发,到今天为止,世界上还是只有两个国家、三家公司能做基因测序仪,华大是中国唯一一家。

  “从我们开始做基因测序仪的研发,到今天经历了六七年时间,我们最原始的版本已经迭代了很多基因测序仪,开发了很多应用,比如地中海贫血基因的变化,到现在最高通量的全世界每天产生7Tb数据的基因测序仪已经开发成熟了,这为我们国家在未来有成功可控的技术奠定了基础。”金鑫介绍道。

  基因本身是一个信息载体,过去做的很多工作都是可以从基因序列里读出需要的信息,将这个信息跟疾病信息联系起来。金鑫表示,DNA本身也可以作为一个载体,我们存DNA只需要保存在干燥稳定的环境里,它就可以长期保存。如果要复制它,可以把这段基因导入到一段细菌里,微生物的生长是指数级的,很快就可以达到数量,写在硬盘或者闪存里可能都不如把它写在某种生物里,把它一代一代传下去。我们携带信息是不是还有别的意义?是不是真的有所谓的造物主的信息存在?它的信息密度非常高,一个细胞里可以存30亿个碱基的信息。有人测算过,如果用一公斤的DNA,如果我们把它用合理的编码规则的话可以存下今天全世界所有的数据,这样的存储密度是超过今天所有的技术的,这样的存储技术是亿万年进化来的结果。

  一个人的基因数据有很多,那一个人是不是只做一次基因测序就可以了呢?金鑫表示:“我们的身体、细胞其实是像马赛克一样,这几年新起了一个技术叫单细胞测序,今天可以做到对单个细胞进行精细定位,这在很大程度上提高了我们对于生命信息理解的更清晰的分辨率,给大家带来了更多的对生命的理解。我们身体里的细胞是非常多的,而且有很多我们以前不知道的细胞,比如生物智能到底是怎么回事,到今天依然是无解的。以前研究大脑非常困难的就是它里面这么多细胞这么的不同,我们怎样去观测它,我们现在已经启动了这个项目,对小鼠的脑细胞进行单细胞测序,每一种颜色就是代表了不同的细胞类型,我们有更多数据、更多细胞、更大的信息,我们可以去重构和还原小鼠脑细胞的联系,这样我们更好的理解了生物智能,反过来对于人工智能技术会有更大的帮助。”

  释放基因大数据的价值

  研究基因大数据,也离不开社会经济和健康医疗发展,因为生命信息基因数据只是整个健康医疗大数据中的一部分,它是非常核心的一部分。

  如果把整个健康医疗数据的图形画出来,大家会看到未来在把基因数据和健康医疗大数据连接起来的时候,这中间会有更多的价值和更多的机会。这里面数据的体量层面也可以显然看到,基因数据和影像数据是最大最重的。

  在价值的实现方面,金鑫还提到,更好地了解基因信息,能更精准更快速的开发出来新的药物。除此之外,基因信息在保险业过中也能发挥非常多的作用。如果能了解更多的基因信息,对购买保险的人来说,就能预知未来身体健康情况,能对抗更多的风险。反过来,保险公司掌握这些数据,对核保的条件也能更精准,每个人都能用基因数据来做健康管理。

责任编辑:姚治

分享: