谷歌DeepMind再一次击败人类!这一次AI 成功预测蛋白质3D结构!

源 / 顶级程序员   文 / 江户川雨

AI成功预测蛋白质

12 月 2 日,在坎昆举行了第13届全球蛋白质结构预测竞赛(Critical Assessment of protein Structure Prediction,CASP)。CASP 也被认为是蛋白质结构领域“奥林匹克竞赛”。

会议上,组织者宣布,谷歌DeepMind 的最新人工智能程序 AlphaFold 击败了所有人:成功预测生命基本分子——蛋白质的三维结构。

在“蛋白质结构预测奥运会”CASP比赛过程中,工作人员会将氨基酸序列交给每一个团队。而这些蛋白质的结构事先已经被复杂而昂贵的传统方法破解了,但尚未公开。最终提交最准确预测的团队将赢得比赛。

《卫报》报道称,首次参赛的 AlphaFold 在 98 名参赛队伍中排名第一,AlphaFold预测出了43种蛋白质中25种蛋白质的最较精确结构。

而在同一类别中排名第二的队伍,只预测出了3种。

这项新的研究表明人工智能涉足蛋白质折叠领域的成功。DeepMind联合创始人兼CEO戴密斯·哈萨比斯(DemisHassabis)表示:对于我们来说,这真的是一个关键时刻。

500

在DeepMind官网上,他们是这么介绍这一重大成果的面世的:“我们很高兴与大家分享DeepMind在展示人工智能研究如何推动和加速新科学发现方面的第一个重要里程碑。DeepMind汇集了来自结构生物学、物理学和机器学习领域的专家们,通过跨学科方式将尖端技术运用其中,设计出了仅根据其基因序列就可以预测蛋白质3D结构的AlphaFold。”

500

阿尔法折叠

2016年,Deepmind公司推出的AI围棋程序AlphaGo横空出世,以4:1的比分压倒性的战胜围棋世界冠军李世石,终结了人类职业棋手对围棋的绝对话语权。

500

2017年,DeepMind团队再次推出AlphaZero。据介绍,它是一种可以从零开始,通过自我对弈强化学习在多种任务上达到超越人类水平的新算法。

AlphaZero算法可以在8个小时训练击败李世石版本AlphaGo;再用4小时训练击败世界顶级的国际象棋程序Stockfish;再用2小时训练击败世界顶级将棋程序Elmo。这是DeepMind团队继AlphaGo
Zero的研究问世之后,带给我们的又一全新算法,它是“更通用的版本”。

500

这一次,DeepMind团队不只想在游戏界玩玩了,AlphaGo和AlphaZero又有了新兄弟。

比如之前一战成名的AlphaGo、后续傲娇的AlphaZero,以及这两天刚刚加入家族战队的AlphaFold,中文封号为,阿尔法折叠。

神奇的蛋白质

众所周知,蛋白质是构成人体结构的主要成分,其含量仅次于水,约占一个人体重的五分之一。我们身体所要执行的几乎所有功能,包括肌肉的收缩与拉伸、身体对光线的感知和食物的转化,都需要蛋白质在其中起关键作用。

而科学家指出,蛋白质的结构很大程度上决定了一种蛋白质的特性,因此研究蛋白质3D结构的重要性就显而易见了。在我们的身体里,这样的案例比比皆是,如构成我们免疫系统的抗体蛋白质是“Y形”的;胶原蛋白的形状像绳索;用于基因编辑的CRISPR和Cas9,它们则像剪刀一样。

但是纯粹从基因序列只能够找出蛋白质的三维形状是一项复杂的任务,按照传统的研究方法,科学家需要从一级结构、二级结构来一层层研究,花费几十年甚至千百年才能够完全建立蛋白质的形态模型。

曾经有一个论点:知道DNA的结构,但要找到对应正确3D结构,需要比宇宙时代更长的时间来计算。(这个描述,似乎让人隐隐想起了AlphaGo时代之前的围棋程序。)

500

DeepMind就宣布,其实过去两年一直在研发AlphaFold:一个用人工智能加速科学发现的系统。DeepMind表示,他们专注于从零开始模拟目标形状,而不是使用以前解决的蛋白质作为模板。

据介绍,基于深度神经网络,他们设计了两种方法以用来构建完整而精确的蛋白质结构。

第一种方法,他们先采集氨基酸对之间的距离和连接这些氨基酸的化学键之间的角度数据,接着将这些数据设计成用以评估蛋白质结构准确度的分析工具。

基于结构生物学中常用的技术,在现有蛋白质数据库里找到最匹配的蛋白质,如果找不到,他们就基于最接近的搜索结构上,用新的蛋白质片段反复替换蛋白质结构的片段,他们训练了一个生成神经网络来发明新的片段,以创造出匹配要求的新结构。从而用来不断提高蛋白质结构的评分。

500

第二种方法,是研究人员主要用梯度下降-a数学技术,它的精度相较于第一种会更高一些。

相较于第一种方式,这种技术一步就可以预测整个蛋白质链,而不用经历组装的过程,整个过程更简单。

500

这两种方法都依赖深度神经网络,需要训练深度神经网络从基因序列中预测蛋白质的两种特性:

1) 成对的氨基酸之间的距离;

2) 连接这些氨基酸的化学键之间的角度。

据介绍,该程序花了两周时间预测它的第一个蛋白质结构,但现在只需几个小时就能将其预测出来。

不过,Hassabis 表示,我们还有很多工作要做。“我们还没有解决蛋白质折叠问题,预测只是第一步。蛋白质折叠是一个极具挑战性的问题,但我们有一个很好的系统,我们还有一些尚未实施的想法。

DeepMind和他的梦想

DeepMind 被全世界人民所熟知是在 2016 年。当时他们靠着AlphaGo一战成名。

500

游戏是DeepMind人工智能项目的良好测试基地,但征服游戏并不是他们的最终目标。Hassabis 也不止一次曾在公开场合表态,团队的目标是开发类似解决生命科学问题、发现新材料、帮助探索宇宙的算法。

按照 Hassabis 的设想,在接下来十年,AlphaGo的迭代产品将成为科学家和医学专家,与人类并肩工作,这将会有可能对我们的生活产生根本性的影响。

“一直以来我的梦想就是,利用人工智能帮助科学家解决宏大的问题,并让我们更好地理解这个世界。” 

DeepMind联合创始人兼首席执行官戴密斯·哈萨比斯(Demis Hassabis)表示,蛋白质是一切生命的物质基础,预测其3D结构是生物学中的重要挑战,这将影响人们对疾病理解和药物发现。

500

据DeepMind介绍,阿尔法折叠这项成果的重大意义就在于,你给它一段基因序列(生物学上称其为蛋白质一级结构),在电脑上跑一下,就可以成功对这种蛋白质建模。

看似简单,但意义非凡。

在过去五十年,和阿尔法折叠起到相同功能的技术有冷冻电子显微镜、核磁共振或X射线晶体学等实验技术。单看仪器,它们就需要高昂的价格,但最重要的是,其实验成本也很高,需要专人做大量的实验,器材损耗不说,实验用料就要花费数万美元。

花钱不说,最主要的是,整个过程太慢,需要耗费研究者几年甚至数十年的光阴。

500

有了阿尔法折叠就不一样了,生物学家再也不用在实验器材面前耗费数十年的光阴,只需要简单录入数据就好。

当然,阿尔法折叠的好处不仅这么点,最终它还是惠及到我们普罗大众的身上。

以老年痴呆症(学名为阿尔茨海默氏症)为例,它在人体的潜伏期长达十几年之久,且病因复杂,以目前的医学技术,临床上甚至很难在发病前几年检测出这一疾病。

在生物学研究上,科学家普遍认为蛋白质的变化是引发老年痴呆的病因。换句话说,老年痴呆患者的某一部分蛋白质长得一定和正常人不一样。但是由于我们的研究速度太慢,所以生物学家不知道身体中所有的蛋白质形态,因此检测哪一部分不一样就难如登天。

想象一下,通过阿尔法折叠,提前十年检测老年痴呆就容易多了,只要通过电脑看下蛋白质长得是否有差异就可以了。

500

在AlphaFold之前过去几十年,科学家们使用冷冻电子显微镜,核磁共振或X射线晶体学等实验技术来确定实验室中蛋白质的形状,但每种方法都依赖于大量的试验和错误,每年需要成本高达数万美元。

近年来,由于基因测序技术的进步,基因测序成本快速降低,提供了大量的数据,因此依赖于这些大数据的深度学习方法变得越来越流行。

500

这是AI首次涉足蛋白质折叠,它的成功表明机器学习系统可以整合各种信息来源,以帮助科学家快速提出解决复杂问题的创造性解决方案。

正如我们已经看到,AlphaZero能帮助人们迅速掌握复杂游戏。

虽然现在AlphaFold对蛋白质折叠进展尚属于开始阶段,但这个迹象令人兴奋,这证明了AI在科学发现中的实用性。

尽管在AI能够对治疗疾病,管理环境等方面产生可量化的影响之前还有很多工作要做,但显而易见,AI潜力是巨大的,不可限量。

“一直以来我的梦想就是,利用人工智能帮助科学家解决宏大的问题,并让我们更好地理解这个世界。” DeepMind联合创始人兼首席执行官戴密斯·哈萨比斯一直如此向大众表示。

500

反观国内的科学界,前几天出现了一个“世界第一”。

但是,这个“世界第一”不仅丝毫不值得庆祝,反而是科学界的耻辱、伦理的一道疤痕。

11月28日,香港大学李兆基大会堂的舞台上,那个叫贺建奎的人为自己一顿辩解后,起身,与台上的人握手。然后留下语焉不详的解释,却让这个世界继续陷入焦头烂额的争执。

而他看起来没什么负担,从讲台左侧退场,不顾台下的骚动,消失在人群的另一侧。

500

-END-

站务

全部专栏