在科技飞速发展的今天,人工智能(AI)和合成生物学这两大前沿领域的融合,正在掀起一场足以改变人类未来的科技革命。最近,《ACS合成生物学》(ACS Synthetic Biology)杂志发布了一期特刊,聚焦"人工智能在合成生物学中的应用",全面展示了这一令人兴奋的交叉领域的最新进展。
合成生物学:重塑生命的科学
合成生物学是一门旨在设计和构建新型生物系统的学科。它像是一场宏大的"生命魔法",科学家们就像魔法师,试图创造出全新的生命形式或赋予现有生物体新的功能。这个领域的潜力是巨大的,有望帮助我们解决诸如疾病治疗、环境污染、能源短缺等一系列重大社会问题。
然而,合成生物学面临着一个巨大的挑战:我们对生物系统的预测能力远远不如对物理或化学系统的预测。这一局限性带来了两个方面的问题:
实践层面:我们无法精确地按照特定要求设计生物系统。例如,我们还不能轻易地设计一种蛋白质使其与某个分子以特定的结合亲和力结合,或者设计一个细胞使其以特定的产量、速率和效率生产某种化学物质。
基础层面:我们对导致观察到的生物表型的底层机制理解不足。
这就像是我们有了一个神奇的魔法棒,但还不完全知道如何精准地使用它。
AI:合成生物学的"魔法助手"
而这时,人工智能和机器学习(ML)技术的出现,就像是为合成生物学带来了一个强大的"魔法助手"。AI/ML技术展现出了为合成生物学提供所需预测能力的巨大潜力,可以应用于合成生物学过程的各个环节(如图1所示)。
这期特刊集中展示了AI/ML在合成生物学中的广泛应用,以及目前正在探索的各种最先进的AI/ML架构。让我们一起来看看这些激动人心的研究进展!
蛋白质工程:AI驱动的精准设计
蛋白质是生命的基石,也是合成生物学的重要研究对象。特刊中有多项研究展示了AI在蛋白质工程中的强大潜力:
O'Neill等人开发了一套信号肽元件工具包,可用于提高中国仓鼠卵巢细胞中生物制药蛋白的产量。通过ML辅助的载体设计,多种产品的产量比标准工业系统提高了1.8倍以上。
Marchal等人开发了一种基于高斯过程的ML辅助蛋白质工程工作流程,用于改进乙酰辅酶A羧化酶。在体外测试的10个变体中,9个是活性的,这比之前的随机突变成功率有了显著提高。其中两个新变体分别显示出2倍的羧化速率增加和60%的能量需求减少。
Bricco等人利用遗传编程开发了名为POET的蛋白质工程工具,展示了其在设计具有改进MRI对比度的新型肽方面的实用性。
Chen等人对基于黄素单核苷酸的荧光蛋白CreiLOV进行了大规模序列-功能分析和上位性分析,收集了超过90%的单点突变和选定组合变体的数据。他们研究了几种统计和ML模型,以捕捉特定和全局上位性,并得出结论认为基于ML的模型能够根据低阶突变(1-3个突变)训练数据,在预测和测量高阶突变的适应度值之间实现高度相关。
Kao等人采用基于深度学习的反向蛋白质折叠模型ProteinMPNN,设计了序列发散的泛素变体,这些变体对E3泛素-蛋白连接酶Rsp5外部位点的HECT结构域具有高亲和力,产生了几个成功的设计,具有更高的蛋白质产量、保持高热稳定性和增强的结合亲和力。
这些研究充分展示了AI在蛋白质工程中的巨大潜力,从提高产量到改进功能,AI正在帮助科学家们以前所未有的精度和效率设计蛋白质。
代谢工程:AI优化的生物工厂
除了蛋白质工程,AI在代谢工程领域也展现出了强大的应用前景:
Khamwachirapithak等人应用ML来优化酿酒酵母在环境温度和升高温度下的生物乙醇生产。在初始实验中,他们在30°C下实现了63%的乙醇产量提升,随后通过ML辅助的工作流程,在40°C下又实现了额外7%的提升。
Merzbacher等人利用贝叶斯优化方法,有效地设计和优化了生物回路。他们以大肠杆菌中生产葡糖酸、脂肪酸和对氨基苯乙烯的几种代谢途径为例,展示了如何加速筛选最佳设计,包括考虑不确定的酶动力学参数、使用结合代谢和遗传控制的分层架构,以及复杂模型的多参数优化。
这些研究表明,AI不仅可以帮助我们设计单个蛋白质,还可以优化整个代谢途径,甚至是复杂的生物回路系统。这为创建高效的"生物工厂"开辟了新的可能性。
基因组挖掘:AI助力发现新型天然产物
特刊中还包括一篇综述文章,由Yuan等人撰写,讨论了开发和应用ML工具探索潜在天然产物的最新进展,特别是ML辅助的天然产物基因组挖掘和预测其生物活性。这项研究显示了AI在发现新型生物活性分子方面的巨大潜力,这对于新药开发和其他生物技术应用具有重要意义。
高级ML架构:为生物学定制的AI
特刊还介绍了几种专为生物学问题设计的先进ML架构:
Nisonoff等人设计了一种原则性的概率方法,将生物物理学知识整合到贝叶斯神经网络中,使模型更多地依赖于生物物理学先验信息。他们在GFP荧光和GB1结合预测等几个例子上展示了这种方法的有效性。
He等人提出了一种新的可解释模型架构Nucleic Transformer,基于自注意力机制和卷积,展示了它在大肠杆菌启动子分类、病毒基因组识别、增强子分类和染色质轮廓预测等多个模型任务中的实用性。
Praljak等人提出了ProtWave-VAE,这是一种深度生成模型,结合了基于多序列比对和自回归学习范式的优点,用于推断有意义的功能和系统发育嵌入,并解决无需比对的同源蛋白家族内的下游蛋白质适应度预测任务。
这些研究表明,科学家们正在努力开发更适合生物学特点的AI模型,这将进一步提高AI在合成生物学中的应用效果。
文献挖掘:AI助力知识提取
特刊中还有两项有趣的研究聚焦于利用AI进行合成生物学文献挖掘:
Xiao等人开发了一个工作流程,并提出了自然语言处理工具GPT-4的提示工程,从170多篇关于两种油脂酵母的出版物中提取知识。挖掘的数据使基于ML的模型能够预测发酵产量,展示了生成式AI在从研究文章中提取数据以促进生物制造发展方面的潜力。
Meier等人使用主题建模创建了合成生物学内研究主题的综合地图,并使用合著网络来获得该学科的系统视图。
这些研究展示了AI在科学文献分析和知识提取方面的巨大潜力,这将大大加速科学发现的过程。
挑战与展望
尽管AI在合成生物学中展现出了巨大的潜力,但仍然存在一些挑战:
然而,这些挑战也为未来的研究指明了方向。随着更多AI工具的开发和应用,我们有理由相信,这些挑战终将被克服。
结语:AI与合成生物学的美好未来
这期特刊充分展示了AI工具在合成生物学中的广泛应用,以及AI在简化各种合成生物学应用的工作流程和过程方面所展现的巨大前景。我们相信,未来将会有更多的AI工具被开发和应用,以解决合成生物学领域中的各种挑战性问题。
AI与合成生物学的结合,就像是为生命科学注入了一股强大的魔力。它不仅加速了我们对生命奥秘的探索,还为我们创造全新的生命形式和功能开辟了无限可能。这场科技革命正在改变我们理解和操纵生命的方式,未来,我们或许能够像设计机器一样精确地设计生命,为人类面临的各种挑战提供创新解决方案。
García Martín H, Mazurenko S, Zhao H. Special Issue on Artificial Intelligence for Synthetic Biology[J]. ACS synthetic biology, 2024, 13(2): 408-410.