诺奖得主推出RFdiffusion3,开启全原子生物分子设计新时代

500

撰文 | 王聪

原标题:《诺奖得主David Baker推出RFdiffusion3,开启全原子生物分子设计新时代》

2024 年 10 月,华盛顿大学 David Baker 教授与谷歌旗下公司 DeepMind 的 Demis Hassabis、John Jumpe 分享了 2024 年诺贝尔化学奖。前者利用计算设计创造出了自然界不存在的蛋白质,后者利用人工智能实现了对蛋白质三维结构的精准预测。

利用生成式人工智能(Generative AI)从头设计具有新功能的蛋白质方面,近期已取得显著进展。例如,David Baker 团队开发的 RFdiffusion(RFD1)。但这些 AI 模型都是在氨基酸水平上表示蛋白质的,这一水平在设计蛋白质单体、组装体和蛋白质结合蛋白方面已足够,但还不足以设计与小分子和核酸等非蛋白质原子的特定侧链相互作用。今年 4 月份,David Baker 团队推出了 RFdiffusion2(RFD2),通过在对催化或配体结合至关重要的少量侧链原子上实现氨基酸级扩散的条件化来应对上述挑战;然而,由于扩散仍处于氨基酸级别,它无法创建与配体或催化氨基酸残基的额外侧链相互作用。

在结构预测方面,DeepMind 团队开发的 AlphaFold3(AF3)利用了基于每个单独原子的扩散过程,该过程以一个独立条件模块生成的蛋白质几何丰富表征作为条件。进一步研究表明,原子扩散过程能够生成蛋白质主链,并且可以扩展到模拟侧链,但这些努力仍无法实现与非蛋白质成分相互作用的建模。

2025 年 9 月 18 日,David Baker 团队在预印本平台 bioRxiv 上发表了题为:De novo Design of All-atom Biomolecular Interactions with RFdiffusion3的研究论文。

该研究提出了一种全原子扩散模型——RFdiffusion3(RFD3),实现了全原子生物分子相互作用的从头设计,能够在配体、核酸和其他非蛋白质原子簇的背景下生成蛋白质结构,其比前代方法更简单且更高效。

在一系列计算机模拟基准测试中,RFdiffusion3 的性能更优,且计算成本仅为前代方法的十分之一。研究团队通过实验验证了 RFdiffusion3 设计的 DNA 结合蛋白和半胱氨酸水解酶,展示了 RFdiffusion3 的广泛适用性,其具有能够在任意非蛋白质原子簇的背景下,根据复杂的原子级约束条件快速生成蛋白质结构的能力,从而扩大通过蛋白质设计所能实现的功能范围。

500

生成式人工智能(Generative AI)领域的进步,加速了蛋白质设计,但现有的方法通常仅限于生成蛋白质主链坐标,且常常忽略了蛋白质与其他生物分子的相互作用。

RFdiffusion3的技术突破

蛋白质是生命活动的执行者,负责执行体内几乎所有的生物学功能。从消化食物到抵抗疾病,从运输氧气到构建组织,都离不开蛋白质的参与。

传统的蛋白质设计就像是用乐高积木搭建复杂结构,但只能看到大致形状而无法精确控制每个原子之间的相互作用。而 RFdiffusion3 的出现,让科学家们第一次能够以原子级别的精度设计和构建蛋白质,使其能够与特定的小分子、DNA 或其他生物分子精确互作。

RFdiffusion3 的核心创新在于其全原子扩散模型。与之前只能生成蛋白质骨架的方法不同,RFdiffusion3 同时模拟蛋白质主链和侧链的所有原子,甚至包括与之相互作用的非蛋白质成分(例如配体、核酸等)。

这项技术建立在 David Baker 团队此前开发的 RFdiffusion 和 RFdiffusion2 基础上,并有了质的飞跃:

更精确:能够处理原子级别的约束条件,例如氢键、溶剂可及表面积、质量中心位置等;更高效:计算速度比前代方法提升 10 倍,参数规模进仅为 1.68 亿,只有 AlphaFold3 的一半;更通用:可设计蛋白质-蛋白质、蛋白质-小分子、蛋白质-核酸等多种相互作用。

500

RFdiffusion3 进行全原子蛋白质设计

技术核心:如何实现全原子设计?

RFdiffusion3 采用了一种巧妙的策略来解决不同氨基酸侧链原子数量不同的问题——将每个氨基酸残基统一表示为 14 个原子(4 个主链原子和 10 个侧链原子)。

对于侧链原子较少的氨基酸,系统会使用虚拟原子来填充,确保所有氨基酸都有相同的表示方式。这种统一的表示方法使模型能够同时处理所有类型的氨基酸。

模型架构基于 Transformer U-Net ,包含三个主要部分:下采样模块编码原子和残基级特征、稀疏 Transformer 模块处理 Token 信息、上采样模块预测坐标更新。

多功能应用表现

1、蛋白质-蛋白质相互作用设计

在治疗相关靶点(PD-L1、IL-2Rα、IL-17Rα、Tie2、胰岛素受体)的设计中,RFdiffusion3 表现出色。与 RFdiffusion 相比,RFdiffusion3 在 5 个靶点中的 4 个上都取得了更好的性能,平均产生 8.2 个独特的成功聚类,而 RFdiffusion 只有 1.4 个。

2、蛋白质-核酸相互作用设计

DNA 结合蛋白的设计一直是蛋白质设计领域的重大挑战。RFdiffusion3 能够同时预测蛋白质结构和 DNA 构象,给定目标序列后,系统会共同生成蛋白质支架和 DNA 形状。

3、小分子结合剂设计

RFdiffusion3 在 4 种不同小分子的结合蛋白设计上均显著优于之前的方法。更令人印象深刻的是,RFdiffusion3 能够共同生成小分子坐标和蛋白质结构,这对于具有多个潜在构象的配体设计尤为重要。

4、酶设计

酶设计需要精确排列特定原子以催化反应,RFdiffusion3 在原子 motif 酶(AME)基准测试中表现优异,在 41 个案例中的 37 个(90%)上优于 RFdiffusion2。

500

实验验证:从虚拟到现实

任何计算方法的真正考验都在于实验验证。研究团队选择了 DNA 结合蛋白设计和酶设计两个挑战来测试 RFdiffusion3 的实际应用能力。

在 DNA 结合蛋白设计中,研究团队获得了一个结合活性达到 5.89±2.15 μM的设计蛋白,这是一个非常令人鼓舞的结果。在酶设计方面,研究团队设计了半胱氨酸水解酶,这是一个具有疾病治疗和工业应用的重要蛋白酶,他们筛选了 190 个设计,发现其中 35 个具有多转换活性的酶,其中最活跃的酶的 Kcat/Km 值达到 3557,超过了之前的设计。

500

为什么RFdiffusion3如此重要?

RFdiffusion3 的出现代表了蛋白质设计领域的一个范式转变:

精度革命:从残基级别进入原子级别设计,允许精确控制氢键、疏水相互作用等关键因素;效率飞跃:计算速度提升 10 倍,使得大规模设计筛选成为可能;应用扩展:为设计任意靶分子的结合蛋白、任意化学反应的催化剂以及复杂蛋白质组装体提供了通用平台

RFdiffusion3 的发布开启了蛋白质设计的新纪元,科学家现在能够以前所未有的精度设计复杂功能:例如,可以通过提供底物/过渡态原子和周围侧链原子的坐标来指定酶活性位点;可以控制其他原子的氢键供体/受体状态;可以指定单个侧链和底物原子的埋藏程度;以及控制底物和活性位点相对于蛋白质质量中心的整体位置。

随着这项技术的不断发展和优化,我们有望看到更多创新疗法、新型蛋白酶和生物材料的出现,真正实现“设计生命分子”的梦想。

论文链接:

https://www.biorxiv.org/content/10.1101/2025.09.18.676967v1

本文转载自微信公众号“生物世界”,编辑:王多鱼,题目为《诺奖得主David Baker推出RFdiffusion3,颠覆蛋白质设计格局,开启全原子生物分子设计新时代》。

500

特 别 提 示

1. 进入『返朴』微信公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。

2. 『返朴』提供按月检索文章功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的文章索引,以此类推。

站务

全部专栏