《中国健康经济评论2024》节选——努力提升生物大数据等战略基础能力

来源:产业创新人才培养中心

建设单位:个体化细胞治疗技术国家地方联合工程实验室(深圳)

时间:2025-1-24

图片
刘沐芸
细胞产业关键共性技术国家工程研究中心 主任
中国(深圳)综合开发研究院 特约研究员
《中华细胞与干细胞杂志》 副总编辑



摘要:2023年,拜登政府签署行政命令,旨在推进生物技术和生物制造创新,确保美国在全球生物经济中的领导地位。生物数据的采集、管理和分析对科技创新与产业发展具有基础性作用,需要确保数据的丰富性、可比性,并利用人工智能技术提高数据系统安全性。建议从国家层面构建数据设施与治理结构,建立标准体系和数据共享协议,推动省级分布式数据设施建设,实现生物数据的采集、储存和分析利用。


关键词:生物技术和生物制造;生物数据;生物大数据基础设施





2023年,拜登政府签署一项“关于推进生物技术和生物制造创新以实现美国发展可持续、安全和有保障的生物经济”的总统行政命令,致力建立一种强有力的生物经济形态,使美国在全球经济发展中继续保有领导力与竞争力,以让每个美国人和全球社会受益。行政命令重点指出,生物大数据对生物经济的基础性奠基性作用。①


相较于农业经济、工业经济与信息经济,生物经济是建立在生物资源可持续利用、生物技术基础之上的一种全新经济形式,其本质的特征就是,从“对非生命体的利用”转向了“对生命体的利用”,因此生产要素具有“无中生有”“无形化”以及“循环利用”的特征,生产组织呈现出“绿色”“高端”“智能”等趋势。由此,生物大数据对生物经济竞争力形成的奠基性作用可见一斑了。


发展生物经济,高效地利用生命体创制新的生物资源,形成新的生物产品,探索和绘制生命体的基因组与细胞分子路线图,相当于15世纪的探险家去探索未知水域必需的导航草图,而更好的地图能显著提高探险队伍的探索效率,最终提升其经济水平和军事实力。同样,关于生物过程如何在分子水平、个体、种群和生态体系方面运行的准确理解和数据,也有助于我们在生物制造和合成生物学方面形成领导力,可以说,谁率先建立完整的生物大数据设施,谁就有望在生物经济的发展过程中快速崛起,并形成掌控力。


对于建设国家生物大数据设施,要明确基础架构。首先从国家层面建构一个国家级数据设施与治理结构,建立相应的标准体系,数据共享协议等,其次依据同样的数据标准和架构,在不同省搭建省级分布式数据设施,以识别和链接尽可能多的研究机构、医疗单位以及企业的基因组、代谢组、细胞水平、临床水平等的生物数据库,建立可以与国际社会互联互通的生物数据的采集、储存和分析利用的统一标准。


一、生物大数据事关国家安全与经济安全


不仅我国看到生物技术和生物制造事关国家安全与经济竞争力的稳固,其他国家也同样认识到,有研究显示,美国生物经济的产出已经占据其GDP的5%(9600亿美元)②,且呈现快速发展的趋势。目前,生物技术在确保供应链韧性、减缓气候变化和恢复受损的生态系统等方面正发挥着越来越重要的作用,生物制造也正在成为许多行业的主要生产方式,从制药工业和工业化学品到食物与燃料的合成。


国家安全方面的隐忧主要集中在,个人、恐怖分子或国家等利用生物数据和技术开发有针对性的生物武器。当下,我国在生物技术领域最大的挑战存在于,大量的生命科学与生物技术方面的研究投入及产生的数据未能转化为支撑生物经济发展所需的基础设施,用于支持我国生物经济竞争力的形成。


目前,世界处于巨大的技术变革中。生物学是一门理解生命体如何运行的学科,正与数字技术不断融合。生物学也是基于用代码,不过生物学的代码与计算机0和1的代码不同,生物学的代码是DNA的核酸序列AT-GC。因此,阅读、编写和编辑这些DNA序列代码最终将会形成比数字技术更大的技术变革和产业规模。而这一切的基础就是生物大数据。


二、生物大数据是生物经济发展的关键燃料


我们观察和测量生物过程的方法、工具、意图以及新生物技术的应用,驱动着今天生物大数据的种类和数量,同时,在获得生物大数据的过程中,引发了我们对新工具、新方法和新技术的需求,推动着技术的变革,比如,合成生物学、生物制造等。


以基因测序为例,个人的基因测序能产生大量的数据,单个人的全基因组包含了30亿个碱基对,相当于200千兆字节的数据。国际上,自1982年起,美国在国家层面建立了一个储存DNA序列的基因库(Gen-Bank),同时,在NIH③下设了国家生物信息中心,管理美国国家基因库。日本和欧洲也建立了类似美国的统一基因库,并与美国的基因库形成了活跃的数据上传、交互共享和发布。至目前,这些实体基因库采集储存的基因数据量非常巨大。截至2019年,美国基因库文库中已经储存了包含19.6万亿个碱基对,来自超过29亿个核苷酸序列,涉及超过50万个正式描述的物种。我国也于2016年建设了国家基因库。


但从基因库的使用效率来看,政府不应该是唯一拥有大量生物数据的单位,这些数据应开放给大学、机构、医院以及企业等开展科学研究,医学研究以及产品开发,推进生物医疗、生物农业以及生物制造的高质量发展。


同时,必须认识到,采集、管理、标准化以及维护如此庞大的数据集是一项艰巨的任务。因为要发挥这些生物大数据对科技创新、产业促进的基础设施作用,有两个前提,一是数据足够丰富海量,可用的数据库越大、种类越多其可用价值就会越高;二是海量数据集具有真正的可比性,上传提交的数据是按照既定的数据规则和标准进行提交输入、管理以及分析利用。


机器学习和人工智能领域的进展,目前也正向组学研究与生物技术开发领域渗透,驱动这些领域快速发展。一个能发挥产业设施作用的数据库,要减少错误,除了需要大型高质量的数据集外,还需要建立全面的分类方法,高质量的数据标签。即便如此,在数据集不断规模化扩展、复制或共享的过程中,错误也难以完全避免,因此也引发了新的技术需求,比如,错误识别、纠正的新工具,或指导新建、更新或联合共享生物数据库架构设计的新方法等。


生物大数据的新隐忧,数据库的安全性。数据设施中储存的生物数据要能发挥对科技创新的基础性支撑性作用,需要这些数据库保有开放性与可访问性,同时,又要确保对这些数据背后个体的隐私得到充分的保护。因此,需要在数据的可用性与安全性之间取得合适的平衡,建立机制,以努力管理、维护不同来源的生物数据,并保持生物数据源的协调一致。


从互联网和商业软件行业发展来看,由于未能建立足以防止网络犯罪的安全措施,以及有效的用户隐私保护措施,这些公司都为此付出过高昂的代价,值得我们借鉴。在建设生物经济数据设施时,在设计数据库架构时,应将数据系统的自适应安全性和可信性纳入设计考量,利用当前人工智能技术创建具有不仅能检测而且能够预测安全风险能力的动态数据系统。


三、生物大数据设施中政府的职能


要能高效发挥生物大数据设施的基础作用,释放生物大数据的要素潜能,推动我国在全球生物经济塑形过程形成竞争力,政府部门可以发挥如下作用。


第一,组建一个学科融合跨部门的专家咨询委员会,制定国家生物大数据设施的初步设计和操作原则。成员尽可能代表国家生物大数据设施拟服务的机构和行业,精益而高效,以能制定出既保障个人隐私又能兼具可用性的指导原则。


第二,统筹链接作用,通过建立“总—分—总”的管理架构。将目前我国已有的、分散的生物数据集进行链接、汇总和融合。从数据集的维度细分为生物医学大数据设施、生物农业大数据设施、生物能源大数据设施、生物材料等大数据设施等。然后每个数据集也可从地域的维度建立不同省份的对应设施,比如,北京生物医学大数据设施、黑龙江生物医学大数据设施、上海生物医学大数据设施、四川生物医学大数据设施等,同时,又能无缝地回到国家生物大数据设施中汇聚、融合、分析和利用。


第三,建立规范的数据标准,形成生物数据采集、上传、设计和使用的最佳实践。以规范不同端口上传、输入和存储的数据均能形成汇聚融合,也方便不同端口用户在访问、分析和利用这些数据时,数据具有可比性,并且分析利用这些数据的成果也具有可比性。


第四,基于生物经济具体应用领域的大数据设施,政府可以成立相应的委员会,比如,生物医学大数据设施和安全委员会,重点规划制定生物医学大数据设施的设计、框架搭建与保障本设施发展过程中不同阶段的优先事项得到高效推进,以及生物医学大数据设施的适应性,能在生物医学大数据设施的横向部门、纵向合作间建立良好的反馈循环,并能对生物经济发展中的新需求、新机遇的动态性做出快速应对。


第五,生物大数据设施的设计、建设和运维,建立统一的评价遴选标准,不区分参与单位的经济所有制形式。考虑到生物大数据设施建设任务的严峻挑战,但又重要非凡,因此需要团结一切可以团结的力量,在推进生物大数据设施建设和推进的过程中,积极吸纳民营经济在生物大数据设施的设计、运维中的重要作用和积极参与。


各国政府均已看到这个基本事实,生物大数据是发展生物经济的关键性要素,不仅能促使生命科学和生物技术的快速发展,形成有用的工业产品,更能为国家在新一轮的科技产业竞争中形成竞争优势,因此,建设一个有效的生物大数据设施刻不容缓!


注解

① The White House Office of Science and Technology Policy , Bold Goals for U. S. Biotechnology and Biomanufacturing—Harnessing Research and Development to Further Societal Goals,Per Executive Order 14081,March 2023.


②National Academies of Sciences,Engineering,and Medicine.Safeguarding the Bioeconomy [R].2020.


③ National Institutes of Health(NIH):美国国立卫生研究院,隶属于美国卫生与公众服务部,是美国联邦政府中首要的生物医学研究机构。



参 考 文 献


[1] 马英克,鲍一明.国家级生物大数据中心展望[J/OL].遗传,2018,40(11):938-943.DOI:10.16288/j.yczz.18-180.

[2] 王红凤,赵云光.我国生物经济高质量发展路径研究[J/OL].财经界,2023(33):18-20.DOI:10.19887/j.cnki.cn11-4098/f.2023.33.002.

[3] 加强生物医药大数据共享能力建设[J].北京观察,2024(7):16.

[4] 苏燕,李伟,李祯祺,等.美国生物大数据战略举措及其对我国的启示[J].中华医学图书情报杂志,2020,29(10):32-37.


本文摘引自《中国健康经济评论2024》

—————————————————

往期精选一

2021年—2024年


点击查看更多>>沐芸观点<<

往期精选二

2019年——2020


沐芸观点(1)|运动使人年轻吗?

沐芸观点(2)|从神经生理学角度看公共卫生决策难题:蚂蚁还是蚱蜢?

沐芸观点(3)|美国疫情防控窗口错失的启发: 管理中的防微杜渐

沐芸观点(4)|ASCO2020年会概要

沐芸观点(5)|改变世界的生物革命

沐芸观点(6)|新冠病毒是如何攻陷人体免疫系统的?

沐芸观点(7)|当资源不足时,可能缺的不是资源本身,而是思路

沐芸观点(8)| 细胞产业新基建——“1库1中心1平台”国家网络

沐芸观点(9)|COVID-19挑战的是免疫力 是否“召能战、战必胜”

沐芸观点(10)|美国公共卫生服务部队介绍

沐芸观点(11)|如何用大规模标准化流程实现个体化治疗

沐芸观点(12)| 疫情启示:下次疫情,我们如何应对?

沐芸观点(13)| 总书记点名的干细胞如何用于新冠肺炎治疗?

沐芸观点(14)| 紧急状态下,体恤治疗的前提条件是什么?

沐芸观点(15)| WHO认为新冠疫情还不符合大流行“蔓延国界”的特征

沐芸观点(16)| 从首例新冠患者个案看美国疫情防控启动机制

沐芸观点(17)| 关于新型冠状病毒的介绍

沐芸观点(18)| 2019年——国际再生医学产业年

沐芸观点(19)| 日本小记

沐芸观点(20)| 生物样本库在妇幼健康领域的应用展望

沐芸观点(21)| 刘沐芸:第三方细胞质量检测平台的职能和能力

沐芸观点(22)| 功成不必在我,功成必定有我

沐芸观点(23)| 刘沐芸:生命健康产业——深圳的机遇与挑战

沐芸观点(24)| 诺贝尔奖的成果转化

沐芸观点(25)| 刘沐芸:干细胞临床研究中企业的机遇与责任

沐芸观点(26)| 5问医学人工智能,是否在“裸泳”?

沐芸观点(27)| 国家采购,看看德国怎么做的:控制药价,保障供应

沐芸观点(28)| 数据标准——真实世界证据支持药物研究的基础

沐芸观点(29)| 创新科技成果构建细胞治疗有效性指标评价体系

沐芸观点(30)| 国家卫健委新规下的细胞治疗未来走向:自动化、数字化、智能化