太初元碁×百度螺旋桨×神威数智 | 国内首个成功复现AlphaFold3
“
近年来,大模型技术在生物信息学领域取得了众多突破性进展,引起全球的广泛关注,特别是在蛋白质结构预测方面的革命性成就,赢得了科学和产业界的高度认可。其中,AlphaFold系列模型拥有预测蛋白质单链、复合体以及复杂生物分子结构的能力,其准确性堪比真实实验,极大地促进了生命科学的发展。特别是AlphaFold3能够预测生物分子间的相互作用,极大助力于药物研发合成,但由于算法未开源,限制了其在更广泛的科研领域中的应用和发展。尽管有团队尝试根据AlphaFold3的论文进行复现,但目前也仅完成了代码部分,尚未实现实际训练,因此尚未能应用于实际科研中。
太初元碁与百度螺旋桨团队以及神威数智组成的联合研发团队成功完成AlphaFold3模型的全复现工作,突破DeepMind在该领域的技术高地。此次AlphaFold3的国产化复现,不仅是一次技术革新,更是我国科技生态建设的重要里程碑,提升了国产大模型研发技术在全球AI大模型领域的竞争力。
试用申请
AlphaFold3模型最新试用版本已于8月28日上线,
欢迎对AlphaFold3或联合研发团队相关工作感兴趣的科研机构和商业公司
通过邮箱:husl@tecorigin.com 与我们联系。
也可点击底部“阅读原文”,获取试用链接,
或复制下方链接:http://223.108.218.41:8067/ 在浏览器中打开,
即可抢先试用!
具体技术性能
联合研发团队克服了一系列挑战,如:模型结构复杂、数据高度复杂,训练和运行所需的计算资源庞大等。在模型层面,AlphaFold3相较于AlphaFold2,增加了原子级建模,使得整体结构更加复杂,计算量也显著增加。同时,AlphaFold3采用了扩散模型进行所有原子坐标的端到端推理。在数据处理方面,AlphaFold3不仅需要建模蛋白质,还必须处理小分子配体、核酸和离子等多种生物分子,复杂的数据预处理和大规模自蒸馏数据生成对模型性能的提升至关重要。
小分子配体
数据集PoseBusters:一个用于评估配体对接算法的基准数据集, PoseBusters V1包含428个结构,PoseBusters V2是排除了与多个生物分子单元内距离小于5.0Å的配体数据后,精简的308个结构。 对比的基线方法分为三类:不指定真实蛋白质结构的方法、指定已知蛋白质结构的方法,以及指定活性位点残基的方法。
▲ 图1 PoseBusters V1数据集上AlphaFold3复现工作与同类模型的精度表现
▲图2 PoseBusters V2数据集上AlphaFold3复现工作与同类模型的精度表现
▲图3 Alphafold3复现工作与同类模型的PoseBusters V2 quality check精度对比
核酸分子
由于核酸分子的结晶结构数量很少,完全无人为干预地自动化地准确预测其结构一直是一个巨大的挑战。
对于核酸分子效果的评估,复现工作在CASP15(蛋白质结构预测领域的重要国际竞赛)中有结晶结构的RNA样本及从Protein Data Bank(PDB)中最新收集的41个RNA分子和41个DNA分子进行评测。
结果显示:复现工作在CASP15的RNA样本的精度虽然还不及有人工干预的方法AIchemy_RNA2,但在能够完全自动化推理的RNA模型当中,已经达到了与AlphaFold3相当的水平。在从PDB最新收集的RNA和DNA的结构预测上,复现工作的精度亦是极具竞争力,远超专门为核酸分子结构预测所设计模型RoseTTAFold2NA和另一个全原子生物分子结构预测模型RoseTTAFold-AllAtom。
▲图4 Alphafold3复现工作与同类模型在CASP15上的精度对比
▲图5 Alphafold3复现工作与同类模型在PDB RNA-only与PDB DNA-only数据集上的LDDT评估值对比
蛋白质
在蛋白质-蛋白质复合体结构预测领域,尽管AlphaFold-Multimer在先前模型的基础上实现了显著的进步,但其成功率和准确性仍有进一步提升的空间。联合研发团队的复现工作在此基础上进一步优化了预测能力,展现出更为优异的性能。
结果显示:复现工作在蛋白质-蛋白质复合体结构预测方面已经略微超越了AlphaFold-Multimer的表现,展示出更强的预测能力。然而,与AlphaFold3相比,复现工作仍存在一定的性能差距。因此,未来的研究工作将继续致力于优化和迭代,以缩小这一差距,力求在复现工作的预测精度和成功率上进一步提升。
▲ 图6 Alphafold3复现工作与同类模型在蛋白质结构预测任务上的Docka分值对比
模型置信度
▲ 图8 Alphafold3复现工作在小分子配体-蛋白质数据集上的预测置信度分布
▲ 图9 Alphafold3复现工作在蛋白质-蛋白质复合体数据集上的预测置信度分布
▲图10 Alphafold3复现工作在RNA分子数据集上的预测置信度分布