利用人工智能设计出自然界从未出现过的蛋白质,以解决进化无法应对的生物医药和工业难题
机器学习(ML)和其他基于人工智能的计算工具,已证明其在预测真实蛋白质结构方面的能力。2021年7月发布以来,AlphaFold 2这一由DeepMind科学家开发的算法,仅凭氨基酸序列就能自信地预测蛋白质结构,几乎已成为家喻户晓的名称。如今,AlphaFold 2已被许多结构生物学家广泛使用,预测了超过2亿个结构。这一机器学习工具箱似乎也能生成定制化的蛋白质,包括那些自然界中并不存在功能的蛋白质。这是一幅诱人的前景,因为尽管天然蛋白质具有广泛分子多样性,但仍有众多生物医药和工业问题,进化从未被迫解决。科学家们正迅速迈向一个未来:他们可以进行精细的计算分析,推断真实蛋白质结构和功能背后的原理,并据此设计用户定制的功能性蛋白质。Cyrus Biotechnology的首席执行官兼联合创始人Lucas Nivon认为,这种通过计算机设计的蛋白质的最终影响将是巨大的,他将这一领域与20世纪80年代初期的生物技术产业相提并论。“我认为,在30年后,30%、40%甚至50%的药物将是通过计算设计出来的蛋白质,”他说。截至目前,从事蛋白质设计的企业大多专注于重新设计已有蛋白质以执行新任务或增强特定属性,而不是真正从头开始设计。例如,Generate Biomedicines的科学家们利用对SARS-CoV-2刺突蛋白及其与ACE2受体蛋白相互作用的已有知识,设计了一种合成蛋白,能够持续阻断多种变体的病毒入侵。“在我们内部测试中,这种分子对目前所见的所有变体都有很强的抗性,”联合创始人兼首席技术官Gevorg Grigoryan表示,并补充说,Generate计划于今年第二季度向FDA申请,以铺平临床测试的道路。更为雄心勃勃的项目正在酝酿中,但目前尚不清楚从头设计(即完全从零开始构建新蛋白质)的突破将有多快到来。人工智能辅助的蛋白质设计领域正在蓬勃发展,但其根源可以追溯到二十多年前,当时学术研究人员如David Baker及其在华盛顿大学现在称为蛋白质设计研究所的同事们,已开始相关研究。自20世纪90年代末以来,Baker——他共同创立了Cyrus、Monod和Arzeda等公司——指导开发了Rosetta这一预测和操控蛋白质结构的基础性软件套件。从那时起,Baker和其他研究人员利用机器学习算法的快速进步,特别是深度学习技术的进展,开发了许多其他强大的蛋白质设计工具。例如,今年9月,Baker的团队发布了一种深度学习平台ProteinMPNN,该平台允许研究人员输入目标结构,算法就能生成一个可能生成该结构的氨基酸序列,成功率超过50%。深度学习领域最令人兴奋的进展之一是生成模型,这些模型可以创造出自然界中从未见过的全新蛋白质。这些建模工具属于与Stable Diffusion、DALL-E 2和ChatGPT等程序中生成诡异而引人入胜的AI艺术品和文本的算法同一类别。在那些程序中,软件通过大量标注图像数据进行训练,然后利用这些知识来生成新图像以响应用户查询。同样的方式也可以用于蛋白质序列和结构设计,算法可以利用丰富的现实生物信息库,根据自然中观察到的模式和原理,创造出新的蛋白质。但要做到这一点,研究人员还需要向计算机提供有关蛋白质设计所涉及的生化和物理限制的指导,否则结果可能仅具有艺术价值。理解蛋白质序列和结构的一种有效策略是将其视为“文本”,使用遵循生物“语法规则”的语言建模算法。“要生成一段通顺的句子或文档,算法需要了解不同词之间的关系,还需要学习有关世界的真实知识,以便生成连贯且有意义的文档,”Profluent的创始人、前Salesforce Research的计算机科学家Ali Madani说。最近的一篇论文中,Madani及其同事描述了一种语言建模算法,它能够生成新颖的计算机设计蛋白,并在实验室中成功生产,催化活性可与天然酶相媲美。语言建模也是Arzeda工具箱中的关键部分,其联合创始人兼首席执行官Alexandre Zanghellini表示。在一个项目中,公司通过多轮算法设计与优化,设计出一种具有更强抗降解稳定性的酶。“在三轮迭代中,我们成功将蛋白在四周后几乎完全消失的情况,提升到保留了95%的活性,”他说。Generate研究人员最近的一篇预印文章中描述了一种新的基于生成建模的设计算法Chroma,该算法包括多种提高性能和成功率的特性。这些包括扩散模型,这是许多图像生成AI工具中使用的方法,使处理复杂、高维数据更加容易。Chroma还采用了算法技术来评估蛋白质氨基酸链(称为骨架)上远离彼此的残基之间的长程相互作用,这些相互作用可能对折叠和功能至关重要。在一系列初步演示中,Generate团队展示了他们可以生成能折叠成多种自然存在结构、任意选择结构以及子域(包括字母表中字母形状)的序列,尽管目前尚不清楚其中有多少能在实验室中形成这些结构。除了新算法的威力外,生物学家捕捉到的大量结构数据也使蛋白质设计领域得以腾飞。对蛋白质设计者来说至关重要的资源——蛋白质数据库(PDB),现在已包含超过20万个通过实验解析的结构。AlphaFold 2算法在为设计算法提供训练材料和指导方面也证明是一个游戏规则的改变者。“它们只是模型,所以你得持保留态度,但现在你有如此大量的预测结构可供构建,”Zanghellini表示,他补充说,这一工具是Arzeda计算设计工作流程的核心组成部分。对于人工智能引导的设计,更多的训练数据总是更好。但现有的基因和蛋白质数据库受到物种范围有限的限制,并且偏向于人类和常用模式生物。计算生物学家、瑞士洛桑联邦理工学院(École Polytechnique Fédérale de Lausanne)的Bruno Correia表示,蛋白质设计项目的成功依赖于算法专家与有经验的湿实验从业者之间的密切合作。“关于蛋白质分子如何存在以及如何在实验中表现的理解,引入了许多限制条件,”Correia说。“我认为,把生物实体仅仅当作数据来处理是一种错误。”生物验证是该领域投资者极为关注的因素,van Stekelenburg表示。“如果你在做从头设计,真正的黄金标准不是你使用的是哪种架构——而是你设计的蛋白质中,有百分之几具有所需的最终特性,”她说。“如果你无法证明这一点,那就不值得。”因此,大多数从事计算设计的公司仍专注于调整蛋白质功能,而不是彻底改变它,从而缩短预测与实际表现之间的差距。Nivon表示,Cyrus通常与现有药物和蛋白质合作,这些药物或蛋白在某些特定参数上表现不足。“这可能是一种需要更好疗效、更低免疫原性或更好毒理特性的药物,”他说。对于Cradle,主要目标是通过优化蛋白质的稳定性来改善蛋白质治疗。“我们已将模型与实证研究进行基准测试,以便人们了解它在实验环境中的效果,”创始人兼首席执行官Stef van Grieken表示。Arzeda的重点是酶工程在工业中的应用。他们已成功创造出具有新催化功能的蛋白质,应用于农业、材料和食品科学。这些项目通常以自然界中已知的相对成熟的核心反应为起点。但要将这些反应适配到不同的底物上,“你需要对活性位点进行大幅重塑,”Zanghellini表示。公司的一些项目包括一种植物酶,可以分解广泛使用的除草剂,以及可以将低价值的植物副产品转化为有用天然甜味剂的酶。Generate的第一代工程项目专注于优化。在一篇已发表的研究中,公司科学家展示了他们可以“重新表面”大肠杆菌中的氨基酸代谢酶l-天冬酰胺酶,通过改变其表面的氨基酸组成大大降低其免疫原性。但借助新的Chroma算法,Grigoryan表示,Generate已准备好开展更雄心勃勃的项目,在这些项目中,算法能够从用户指定的结构和功能特征开始,构建真正的从头设计。“当然,Chroma的设计方案仍需通过实验验证,但Grigoryan说,“我们对所看到的结果非常鼓舞。”Zanghellini认为,这一领域正接近一个关键转折点。“我们开始看到真正创建复杂活性位点并围绕它构建蛋白质的可能性,”他说。但他补充道,仍有许多挑战等待着我们。例如,一种具有卓越催化性能的蛋白质可能在大规模生产上极具挑战性,或作为药物时表现出较差的性质。然而,在未来,下一代算法应该能够生成针对科学家多个需求进行优化的从头设计蛋白质,而不仅仅是满足单一需求。本文已获得授权,首次发表于2023年2月23日。
查看全文
作者最近更新
评论0条评论