在当今生命科学领域,数字技术正引领着一场革命性的变革。其中,数字孪生模型(digital twin)作为一项前沿技术,以其对实体对象的精确虚拟映射而脱颖而出,成为这场变革的先锋力量。
数字孪生生命技术,通过精确建模生命体,极大地增强了我们对复杂生物系统的理解和操控能力。它不仅在细胞工厂设计、工业发酵条件优化、药物开发以及个性化医疗等领域展现出巨大的应用潜力,更标志着我们对生命科学认知的深化和拓展。
清华大学深圳国际研究生院的助理教授李斐然,以其在生命数字化研究领域的深厚造诣,成功整合了人工智能与系统生物学等先进方法,开发出了创新性的数字生命框架。她的研究从微生物建模拓展到更为复杂的人类细胞建模,不仅在合成生物学领域的多个关键任务上取得了突破,更在医疗健康领域贡献了多项重要成果。
李斐然凭借其在生命数字化研究领域的卓越成就,以及开发出首个深度学习预测酶参数的方法,荣获2023年度《麻省理工科技评论》中国区“35岁以下科技创新35人”的殊荣。
她的学术旅程始于瑞典查尔姆斯理工大学生物及生物工程系,师从中国工程院外籍院士Jens Nielsen教授,并在该实验室完成了博士后研究。目前,她的研究重点聚焦于数字生命模型的开发与应用转化,涵盖了从微生物到哺乳动物细胞、器官乃至人体的代谢模型或调控模型的构建与分析,旨在探索细胞代谢的未知领域,促进新途径和新酶的发现,并通过深度学习模型深化对蛋白序列-功能-参数关系的理解。
李斐然的童年,充满了对科幻小说的热爱,如《三体》、《镜子》和《沙丘》等作品,这些阅读经历在她心中播下了探索科技未来的种子。她回忆道:“这些作品激发了我对虚拟世界的浓厚兴趣,并憧憬着将科幻小说中的想象变为现实。这些经历培养了我的好奇心和探索精神,也为我在科学研究中带来了开放的思维和创新的能力。”
在本科阶段,李斐然专注于生物化工和合成生物学,致力于通过改造微生物菌株来提高产量。然而,她在实践中发现,传统的基因改造方法往往难以达到预期效果。这激发了她构建数学模型以预测菌株体内变化、提高改造成功率的想法。
此后,李斐然将研究重点转向数字细胞项目,系统学习微生物代谢建模,并逐步将建模目标扩展到人类细胞。2017年,她加入Jens Nielsen院士团队,致力于提升数字生命模型的模拟精度和范围,实现了从解释性模型向预测性模型的转变。
在微生物代谢建模领域,机理模型曾是主流,它基于生物系统的内部机制或物质流传递机理构建,需要深入理解生物过程才能准确描述和预测其行为。然而,对于不完全了解的生物过程,构建准确的机理模型存在局限,预测效果也难以令人满意。
面对这一挑战,李斐然提出了将机理模型与人工智能结合的创新思路。她指出:“人工智能在预测性能上具有显著优势,但解释性不足;而机理模型则在解释性上表现突出。因此,我们尝试将两者的优势结合起来,提出了机理模型+人工智能双核驱动的模型框架。这一框架不仅结合了机理模型的可解释性,也融入了深度学习模型的可预测性,使我们能够全面建模已知和未知的生命过程。”
基于这一理念,李斐然开发了首个深度学习预测酶活性参数的方法—DLKcat。该模型仅需输入酶的底物信息和序列,即可预测其活性,为酶工程改造和设计领域提供了一个实用的预测工具,加速了对蛋白序列-结构-功能关系的理解。
此外,李斐然还构建了超大规模的开源酶数据库GotEnzymes,该数据库包含超过两千万个酶-底物对的酶活参数,是现有主流数据库的1500多倍,为酶参数预测领域带来了革命性的影响。
在清华大学深圳国际研究生院,李斐然建立了独立实验室,继续在数字孪生模型的构建和应用上取得突破。她的团队针对合成生物学和医药健康领域,开发了针对真核生物的两类模型:真核微生物模型和人体模型。这些模型在细胞工厂设计、个性化健康管理和治疗等方面展现出巨大的应用潜力。
李斐然的研究不仅局限于代谢模型,还扩展到了蛋白翻译、转录、修饰以及相关功能等调控网络模型。她的团队已经构建了超过300种酵母菌属的模型、1000多个工业应用酿酒酵母模型,以及针对不同人群的近20个器官的人体模型。
2022年,李斐然提出了pcSecYeast复杂蛋白质分泌模型,该模型涵盖了从4000个反应数增长至37000个反应的详细过程,为理性改造靶点和设计细胞工厂提供了新方法。
同时,她的团队还在构建综合性的数字孪生人类模型,已经针对5种人群建立了代谢模型,覆盖了从婴儿到老年人的不同阶段。李斐然表示:“我们的目标是揭示不同人群在药物组合代谢和食物代谢方面的差异,并希望未来能够为每个个体提供个性化建模,服务于其健康管理和个性化治疗需求。”
李斐然的研究不仅在学术界取得了认可,也在产业界展现出巨大的应用潜力。她透露,目前正在推进模型的转化应用工作,特别是加速酶参数预测模型在酶工业领域的应用,提高酶改造和设计的准确性。此外,她还计划与测序公司或健康管理公司合作,建立全机体数字人类模型,结合基因组测序为个体提供个性化的健康管理和治疗建议。
李斐然对基础研究的热爱和执着,体现了她对科学探索的深刻理解。她认为,基础研究应该像培育孩子一样,期待研究成果能够真正应用起来,推动产业界变革,甚至改变现有的模式。深圳作为一个充满活力的创新之城,为李斐然的研究提供了丰富的机遇和广阔的舞台。
基因组代谢模型作为系统描述细胞代谢的数学模型,为代谢相关的实验数据提供了解释框架,简化了全细胞代谢模拟实验。自1999年首个基因组代谢网络模型流感嗜血杆菌模型被构建以来,全球已经构建了数以千计的物种模型,广泛应用于生物制造和生命健康等领域。
李斐然指出,尽管基因组规模代谢网络模型在数量上实现了飞跃,但整个领域仍处于早期阶段。目前的建模方法与20多年前相比,尚未出现革命性的突破。相对于复杂的生物系统,模型的质量和预测能力仍有待提高。因此,我们需要从量变到质变,整合人工智能和数字孪生等先进技术,推动模型向更精准和更具预测性的方向发展。