30年前,我们开启了人类基因组计划,20年前公布了首个人类基因组草图。人类基因组计划与 “曼哈顿工程”、“阿波罗”计划并称“20世纪三个伟大的科技工程计划”,对我们的基础研究、医学研究甚至是日常生活都带来了深刻的影响。
“曼哈顿工程”和“阿波罗”计划奠定了电子信息产业的硬件、软件基础。晶体管的出现促发了计算机由商用到个人电脑的普及进程;阿帕网实现首次远程通讯后,标志互联网的诞生。这些大的科技工程推动了人类社会获取数据的能力不断进步,以及获取数据的成本持续下降。
借用《自然》杂志上一篇文章的研究来看看,人类基因组计划对人类社会产生了哪些影响。
人类基因组计划催生了高通量测序仪的出现,引发了生命密码解读的革命,革新了新的新药与疫苗研发路径,也催生了许多基因组学技术的应用,比如无创产前筛查、对司法鉴定的革新、直接TOC的血统溯源或亲子鉴定。同时也便利了遗传性缺陷、一些罕见病的鉴别诊断。对引发全球大流行的SARS-CoV-2的原发病毒序列、变异毒株序列的快速明确和筛查等,都是有赖于人类基因组计划的研究成果。具体的数据如下:1900年至2017年产生的数据有,38546个RNA转录数据,100万个单核甘酸多肽,明确了1660种疾病的基因来源,有7712个药物获批或者进行实验,总计有704515篇研究文献。这些数字反映了人类基因组计划对生命科学研究进一步拓展的基础性作用,在全面了解蛋白编码基因的同时,并显示出基因非编码域的功能,也为治疗药物的开发提供的新思路。
越来越多的研究揭示了细胞“积木”间的相互关系后,逐步建立起生物学的系统观,不再是传统的单基因观。同时也有一个现象值得我们关注,这就是明星基因现象。至2017年,总计发表的70多万篇文献中,20%的文献聚焦在了1%的基因。比如,有99种不同药物将基因ADRA1A作为靶点,其中5%获批上市,有130篇论文聚焦在这个基因研究;另一个是TNF,这个基因已知与160种疾病相关,被称为基因中的基因(The most of any gene);而染色体17上的TP53则是研究历史最长的基因,这个基因于1979年首次被发现,被认为与癌症的发生有关,总计产生了9232篇研究文章。但,至今仍有3%的基因是从来未被任何文献讨论过。
本来我们以为,一些基因研究的成功,会进一步激励更多人的热情去研究那些未知的基因,但却恰恰相反,越是已经研究的基因却能吸引人们更多的研究。虽然在10周年纪念的时候,这个基因研究“扎堆”的现象就被提出,但又一个10年过去,这一“扎堆”研究的现象似乎并没有得到改善,可能与基金的审评方式有关。为什么TP53一个单一的基因竟能发表如此多的研究文献,因为越多的研究文章发表,大家就越熟悉,因此申请者用一个大家都熟悉的基因申请时,就更容易与评审专家形成共鸣,获得基金支持、申请到学位及产生更高的引用率,进入一个所谓的“良性循环”而不自知。
因此,我们要看到,人类基因组计划的潜能还远远没有释放出来,我们过度关注“热门”基因,而并没有对测序获得的基因序列及其产生的新知识开展更深入地研究和挖掘,以帮助我们更好地理解人类基因组与疾病、健康的关联。因此,我们也要看到,人类基因组虽然对人类社会的方方面面产生了重大影响,也催生了新的产业,但其成果的收获黄金期还没有到来。
那如何有效地深挖第一个人类基因草图为人类社会带来的发展潜力呢?这可能取决于我们的时间、经费和精力如何分配,是投入到未被重视但可能重要的新方向,还是继续过去20年“更稳妥且扎堆”的老路?