《生物经济:一个革命性时代的到来》刘沐芸博士访谈录 节选一

来源:先进细胞智造系统研发平台

承载单位:深圳赛动智造科技有限公司

时间:2022-06-24

1.jpg


面向未来的生物经济时代,才刚刚开始




刘沐芸博士访谈录






4.png
人类基因组计划的潜能还远远没有释放出来

2021年2月5日,恰逢人类基因组工作框架图(草图)绘制完成20周年纪念日,20年前,各国科学家联合起来,投入30多亿美元,耗时10多年,才获得了第一个人类基因组的草图。20年眨眼过去,您怎么看这20年的变化?变化主要体现在哪些方面?

刘沐芸

30年前,我们开启了人类基因组计划,20年前公布了首个人类基因组草图。人类基因组计划与 “曼哈顿工程”、“阿波罗”计划并称“20世纪三个伟大的科技工程计划”,对我们的基础研究、医学研究甚至是日常生活都带来了深刻的影响。


“曼哈顿工程”和“阿波罗”计划奠定了电子信息产业的硬件、软件基础。晶体管的出现促发了计算机由商用到个人电脑的普及进程;阿帕网实现首次远程通讯后,标志互联网的诞生。这些大的科技工程推动了人类社会获取数据的能力不断进步,以及获取数据的成本持续下降。


借用《自然》杂志上一篇文章的研究来看看,人类基因组计划对人类社会产生了哪些影响。


人类基因组计划催生了高通量测序仪的出现,引发了生命密码解读的革命,革新了新的新药与疫苗研发路径,也催生了许多基因组学技术的应用,比如无创产前筛查、对司法鉴定的革新、直接TOC的血统溯源或亲子鉴定。同时也便利了遗传性缺陷、一些罕见病的鉴别诊断。对引发全球大流行的SARS-CoV-2的原发病毒序列、变异毒株序列的快速明确和筛查等,都是有赖于人类基因组计划的研究成果。具体的数据如下:1900年至2017年产生的数据有,38546个RNA转录数据,100万个单核甘酸多肽,明确了1660种疾病的基因来源,有7712个药物获批或者进行实验,总计有704515篇研究文献。这些数字反映了人类基因组计划对生命科学研究进一步拓展的基础性作用,在全面了解蛋白编码基因的同时,并显示出基因非编码域的功能,也为治疗药物的开发提供的新思路。

越来越多的研究揭示了细胞“积木”间的相互关系后,逐步建立起生物学的系统观,不再是传统的单基因观。同时也有一个现象值得我们关注,这就是明星基因现象。至2017年,总计发表的70多万篇文献中,20%的文献聚焦在了1%的基因。比如,有99种不同药物将基因ADRA1A作为靶点,其中5%获批上市,有130篇论文聚焦在这个基因研究;另一个是TNF,这个基因已知与160种疾病相关,被称为基因中的基因(The most of any gene);而染色体17上的TP53则是研究历史最长的基因,这个基因于1979年首次被发现,被认为与癌症的发生有关,总计产生了9232篇研究文章。但,至今仍有3%的基因是从来未被任何文献讨论过。

本来我们以为,一些基因研究的成功,会进一步激励更多人的热情去研究那些未知的基因,但却恰恰相反,越是已经研究的基因却能吸引人们更多的研究。虽然在10周年纪念的时候,这个基因研究“扎堆”的现象就被提出,但又一个10年过去,这一“扎堆”研究的现象似乎并没有得到改善,可能与基金的审评方式有关。为什么TP53一个单一的基因竟能发表如此多的研究文献,因为越多的研究文章发表,大家就越熟悉,因此申请者用一个大家都熟悉的基因申请时,就更容易与评审专家形成共鸣,获得基金支持、申请到学位及产生更高的引用率,进入一个所谓的“良性循环”而不自知。

因此,我们要看到,人类基因组计划的潜能还远远没有释放出来,我们过度关注“热门”基因,而并没有对测序获得的基因序列及其产生的新知识开展更深入地研究和挖掘,以帮助我们更好地理解人类基因组与疾病、健康的关联。因此,我们也要看到,人类基因组虽然对人类社会的方方面面产生了重大影响,也催生了新的产业,但其成果的收获黄金期还没有到来。

那如何有效地深挖第一个人类基因草图为人类社会带来的发展潜力呢?这可能取决于我们的时间、经费和精力如何分配,是投入到未被重视但可能重要的新方向,还是继续过去20年“更稳妥且扎堆”的老路?


4.png
新的发现,同时也带来了很多新的未知

如果将这20年的生命科学发展尤其是组学发展,放到漫漫长河中去看,怎样判断它的发展速度?
刘沐芸

目前是人类基因组计划公布人类基因草图的第一个20年,正常来讲,技术突破的首个20年的发展速度不会太快,因为测序技术成熟度、成本、产生的新知识的普及度以及大众对新技术应用的接受等都需要一个过程,需要一定的时间。更重要的是,与新技术发展应用相适配的基础设施,如软设施如标准体系、法律法规、审评审批等适应性改变,硬设施的测序设备及对应的软件、算法和相应的数据库等不断完善、成熟才能支撑新技术快速演绎和发展,引发更广泛的应用。

以新药研发范式的改变为例,20世纪80年代前,发现一种新药的成功率大概率取决于运气,因为药物作用的分子或蛋白并不是非常明确和清晰。直至2001年,人类基因草图的公布改变了新药“黑暗中探索”的研究范式,不再是过去那种“大浪淘沙”般“海量普筛”,而是转为“Digital Twin”的数字模拟。现在,一个创业型的公司都可以进行新药靶点筛选,今天几乎每个批复上市的新药都有明确的作用靶点。

人类基因组计划发现了大约两万个可以作为药物潜在靶点,但迄今为止,只有差不多10%也就是2149个蛋白作为靶点被成功批复上市,剩下的90%蛋白靶点尚处于无人问津的状态。在获批的药品靶点中,5%的药品也就是99个药品聚焦于同一个蛋白ADRA1A,这是一个与细胞生长与分裂有关的蛋白。

衡量一项新技术的发展速度,通常有几个度,包括一个技术本身的成熟度与稳定性,成本的下降,以及应用到实际中对现有问题的解决能力。当然,还有社会对风险或新事物的接受程度。比如,1987年,Francis Collins & Lap-Chee Tsui团队发现了囊泡性纤维化的变异,但直到2012年,该发现才批复上市。这个故事表明,从发现一个有意义的变异到这个发现成为一个可以改变现状的治疗药物需要25年到30年的时间,除了技术本身的研究进展,还需要有相应软、硬设施的适配。

因此,新技术出现后首个20年的发展速度,从客观上来讲,也不太会很快。因为,新的发现也同时带来了很多新的未知,尤其是新技术出现的早期。但即便如此,我们也不能否认人类基因组计划的重大里程碑意义。


4.png
创新技术驱动,某种程度上也可以说是需求驱动

第三方研究机构基因慧研究院联合14家机构编撰的《2021基因行业蓝皮书》2021年向公众公布。报告显示,伴随底层技术迭代、产品设计和应用范畴变化,基因行业正处在高速成长期,“目前基于创新技术驱动”,您怎么看这个判断?
刘沐芸

创新技术驱动,某种程度上也可以说是需求驱动。20年前人类基因草图公布的那一刻,与其说是一个项目的结束,不如说是一个新纪元的开始。人类基因组计划为我们打开了一扇门,推开后,看到的不是一个宝藏,而是更多个门等待我们去推开。但是,人类基因组计划确实为我们提供了新的研究规则,为实践生物学的研究发现提供了新的思路和方法,也让我们看到,生物科学研究数字化的可能性。

因此,也可以说需求加速了创新的速度,计算生物学的发展是受到人们对大量基因数据高效管理、分析等需求的驱使,反过来,大批生物信息专家和计算生物学家赋予了大量基因数据更多的研究意义。在人类基因组计划后,又实施了一些大的科学研究项目,比如哈普地图项目(Haplotype Mapping Project)、千人基因组计划(the 1000 Genomes Project)以及癌症基因组图谱(The Cancer Genome Atlas),这些计划进一步提升了科学家和临床医生的数字化与基因组水平。

当然,今天和20世纪90年代完全不可同日而语,那个时候,实验室里的电脑是早期的PC机和苹果电脑。而今天,不仅每个人拥有个人电脑,并且互联互通,带宽可以更便利地获取基因数据,并且配置强大的处理能力。今天,一个人的基因测序成本已经下降至1000美金。现在,实验室的实习生除了掌握实验生物学和遗传学,还必须要掌握计算机语言,并能从海量原始数据中产生新的数据。这一项技能,在2020年初发的新冠肺炎疫情中显得尤为重要。疫情期间,实习生必须脱离“生物实验室”(Wet-Lab),而不得不通过进行数据分析、建模等“干性”研究来完成学业。

因此,人类基因组真正的成果是生物学的数字化,而这不仅是创新技术驱动,也是需求的驱动。
图片
————未完待续————