人工智能(AI)改变和融入生活是现在和未来的一种必然场景,这种划时代的改变又最先从科技领域获得创意和突破。继蛋白质的AI虚拟模型阿尔法折叠推出后,现在美国的陈·扎克伯格基金会(CZI)、伦敦的谷歌深度思维公司和其他一些研究机构都在研发类似创意的AI虚拟细胞——阿尔法细胞。
研发阿尔法细胞是要让在生命、医疗领域的研究和产品研发速度更快,效果更好。现在,检验一种癌症药物,首先要在传统的生物细胞,尤其是肿瘤细胞中进行测试,通常需要数周或数月才能有结果,之后才有可能进入动物试验。但是,如果采用阿尔法细胞,就有可能在几个小时或几十分钟获得结果,无论是有效还是无效。
构建AI细胞既有AI迅速发展的基础,又有现今科学研究的某种方向性转变的现实背景。
显微镜下的干细胞。视觉中国|图
2025年4月10日,美国食品药品监督管理局(FDA)宣布,计划逐步取消单克隆抗体及其他药物的动物试验要求,改用新方式,包括AI计算模型、人类细胞系、类器官以及器官芯片系统等,以替代动物试验,同时使用真实世界数据确定药物的有效性。
这意味着,生物医学可能进入“后动物试验时代”,因而可能不只是影响到医药产品,还会辐射至更多的产品,如化妆品和食品。FDA对采用AI、类器官等科研新方式给出的主要理由是:提高药物安全评估的预测准确性,逐步减少临床前安全研究中对动物试验的依赖,降低研发成本和时间。
研发阿尔法细胞以取代生物细胞和动物试验,正是这种思路的体现。尽管研究阿尔法细胞可能比较困难,而且最快要在2026年阿尔法细胞才可能问世,但是,现有的研究结果已经夯实了一些基础。
此前,深度思维公司创造了能预测比细胞更小的生物分子——蛋白质结构的AI模型阿尔法折叠,本质上这是一个AI深度学习系统。2018年,阿尔法折叠1问世,2020年阿尔法折叠2迭代,2024年5月8日又有阿尔法折叠3更新,功能更强大。阿尔法折叠3能预测蛋白质与其他蛋白质、核酸、小分子、离子、修饰蛋白质残基的复合物,以及抗体-抗原相互作用。
阿尔法折叠对蛋白质通过卷曲折叠成的三维结构进行精准测定具有更广泛和重大的意义。结构各异甚至小异的蛋白质结构可以决定蛋白质千差万别的功能,因此,了解蛋白质结构有助于研发治疗各种疾病的药物。
更重要的是,阿尔法折叠向人展示了AI比人拥有更强大的能力和辨析蛋白质结构的超级速度。在人类迄今所认知的所有生命形式中,已知蛋白质超过2亿种。但是,过去60年,无论研究人员如何没日没夜地努力研究和工作,也才确定了约17万种蛋白质的结构。
原因在于,过去测定蛋白质结构的技术只有X射线晶体学、低温电子显微镜和核磁共振,这些技术既需要昂贵的设备,而且也耗时费力,依靠这些技术识别一种蛋白质的形状一般需要花费数年时间。现在阿尔法折叠能在数天内识别一种蛋白质的形状和结构,充分解释了天上一日,人间一年的时间差异。
阿尔法折叠显然为阿尔法细胞的研发提供了思路,也奠定了部分基础。不过,真正的基础是,一些研究人员早就根据对某种细胞基因组测序获得的数值来合成真实的细胞,证明虚拟和真实是可以转化的。
2003年,美国克雷格·文特尔研究所首次实现噬菌体φX174全基因组从头合成和激活。2008年文特尔研究所又实现了生殖支原体的全基因组从头合成,细菌仅有525个基因。2010年,文特尔研究所还创造了第一个能正常生长、分裂的人工物种,是一个山羊支原体细胞,但细胞中的遗传物质却是依照另一个物种即蕈状支原体的基因组人工合成,产生的人造细胞表现出的是后者的生命特性。这是地球上第一个由人制造并能够自我复制的新物种,取名为辛西娅(Synthia),在希腊神话中是月亮女神的意思,但这里的意思是人造儿。
从辛西娅的诞生到发展最能说明人有可能创造阿尔法细胞。2010年创造的是辛西娅1.0,其基因组有901个基因,超过100万个碱基对(bp)。几年后,辛西娅2.0问世,其基因数和碱基对都几乎减少了一半,只有512个基因,有57.6万个碱基对(bp),比生殖支原体的基因组还小。到了2021年,辛西娅3.0诞生,只有473个基因,53.1万个碱基对。
文特尔团队认为,辛西娅3.0的基因组拥有构成生命最基本的“生命基石”。在这个基因组中,48%的基因与基因组信息的维持与表达有关,35%的基因与细胞膜及细胞代谢有关,17%的基因目前尚不清楚其功能大类,还有149个基因(约占基因组的31%)不清楚其具体功能。
现在,借助对自然细胞基因组和碱基对的测序,再加上AI处理大数据的能力,可以模拟构建出虚拟的各类阿尔法细胞,就像大语言模型对文本的处理一样,AI可以根据大数据创造细胞。
单个细胞中所有信使RNA分子测序实验的数据相当于基因活动的目录,也是细胞当前状态的快照,根据这些数据,就基本上可以创造出阿尔法细胞。因为,这些数据构成了细胞“图谱”的基础,而这些图谱描绘了人和其他生物中不同细胞类型,如肌细胞、红细胞、肿瘤细胞等,能揭示此前未被充分认识的细胞多样性。
对细胞中的信使RNA分子测序也称为“单细胞测序”,可以生成大量的单细胞测序数据集,为创建虚拟细胞提供基础和样本。现在,陈·扎克伯格基金会已经获得了来自10亿个细胞的测序数据(原有的数据库只包含1亿多个细胞数据),并准备公布。其他研究机构也在跟进和努力,2025年2月,美国加利福尼亚州的Arc研究所也发布了1亿个肿瘤细胞的测序数据,这些细胞接受了数百种药物的处理。因此,可以根据这些数据构建许多阿尔法细胞。而且,Arc研究所似乎捷足先登,6月底公布了名为State的首个虚拟细胞模型。研究人员可利用这个模型预测人类干细胞对基因改变的反应。
选择单细胞测序数据作为构建阿尔法细胞的基础,是因为它的成本较低,而且数据规模大,足以让大语言模型有用武之地,可利用的数据点可达数千亿个,可以构建多种阿尔法细胞。
但是,仅靠单细胞测序数据还不可能研发出与真实细胞相似的阿尔法细胞,因为虚拟细胞也必须像真实细胞一样,具有多种结构和功能,而且真实细胞是立体的,不只有信使RNA的基因组数据,还有细胞质中的基因,如线粒体基因。而且真实细胞是立体三维的,除了细胞核,还有细胞膜、细胞质及其中的多种细胞器,如线粒体、内质网、高尔基体、溶酶体、液泡、核糖体、中心体等。
要让阿尔法细胞与真实细胞具有更多的立体相似性,还需要有其他数据,如利用光学显微镜和电子显微镜对细胞观察的多种图像,这些图像能展示不同细胞成分如何相互作用,以及细胞如何随时间变化。当把这些图像数据整合到大数据中时,才能构建更为真实和立体的虚拟细胞,因此研发阿尔法细胞需要多样性的细胞数据和图像。
即便能创建与真实细胞相似的阿尔法细胞,后者也可能与真实细胞有差异。阿尔法折叠就是如此,具有局限性,对约4.4%的蛋白质结构不能测定正确的手性结构。阿尔法细胞也可能会有局限性,但是,AI虚拟细胞是对人类细胞进行建模,必须有三个特征才算成功。一是要创建跨物种和细胞类型的普遍表征,二是AI细胞能在计算机上进行试验,能准确地预测细胞的功能、行为和动力学,并理解细胞的机制,获得类似于动物和临床试验的结果。三是根据某类细胞的基因组,可以从虚拟转化为或生成真实细胞。
一旦AI虚拟细胞研发成功,不只可以让生物医学研究从主要依赖动物试验转向依赖AI进行研究,还可以提升医疗水平并快速研发更丰富和更好的产品。
张田勘
责编 朱力远
更新时间:2025-07-12
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号