告别“十年磨一剑”的制药模式 神农平台开启“AI+制药”时代

500

今年5月发布业界首个2000亿参数中文预训练语言模型——鹏程.盘古之后,鹏城实验室在Huawei Connect 2021又发布新成果——鹏程.神农平台,一个面向生物医学领域的人工智能平台。

AI正在加速向各行各业渗透,用全新的模式破解传统产业的痛点。医药领域多年来一直存在着“双十魔咒”,即十年的研发周期,十亿美元的投入,但最终未必是一定能有完美的研发结果。鹏程.神农平台的落地,有望助力医药行业告别“十年磨一剑”的制药模式,开启“AI+制药”时代。

“双十魔咒”有解了

抗生素是人类历史上的重大发现,不仅大大提升了人们的抗病能力,也让人类的寿命延长了数十年。

但是,随着抗生素的广泛使用甚至滥用,目前细菌对抗生素的耐药性问题已十分严重,抗生素耐药性正在对全球健康构成威胁。因此,发展新型抗生素势在必行。基于不同机制的新型抗生素正处于研发的不同阶段。另外,由于生物技术的迅猛发展,促进了抗体药物的发展,抗菌多肽类药物成为抗生素领域的新生力量。

根据世界卫生组织近日发布的一份报告,尽管人们越来越意识到抗生素耐药性的迫切威胁,但世界仍未能开发出急需的新型抗菌治疗方法。世卫组织助理总干事哈南·巴尔基(Hanan Balkhy)表示:“开发、生产和分配有效的新抗生素的持续失败进一步加剧了抗生素耐药性的影响,并威胁我们成功治疗细菌感染的能力。”

抗菌肽具有广谱抗菌活性,对细菌有很强的杀伤作用,并且某些抗菌肽对部分病毒、真菌、原虫和癌细胞等有杀灭作用,甚至能提高免疫力、加速伤口愈合过程,在医学上有非常好的应用前景。

但是抗菌肽的研究进展并不快。世界上第一个抗菌肽是1980年被发现的,此后人们相继从细菌、真菌、两栖类、昆虫、高等植物、哺乳动物乃至人类中发现并分离获得具有抗菌活性的多肽。但是这样的研究过程很慢,效率低下。人类利用自然合成的方法在40年间仅仅发现了4000多种候选抗菌肽。

500

广阔的应用前景与传统的研究方法之间的矛盾,因技术的进步看到了新机遇。

抗菌肽分子量在2000~7000左右,由20~60个氨基酸残基组成。今天,借助鹏程.神农平台强大的序列生成能力,结合现有的抗菌肽数据集,可以在很短的时间内生产数万种候选肽的氨基酸序列,而且经过筛选的高价值的潜在序列,提高生成准确率,再经过生物实验室和临床验证,极大加速了新型抗菌肽的发现过程。

行业迭代,AI+成制药行业新动能

中国古代神话传说中的神农是通过尝遍百草了解每一种植物的药性,“尝”百草是古代探索药性的基本方法,无论是中国历史上的神医药圣李时珍用毕生精力撰写的《本草纲目》,还是药王孙思邈《千金要方》中记录的药草、药方,都是通过传统的方式一点点试出来的。也正是因为方法受限,医药的进步也很缓慢。

发展到现代制药产业,包括资金、技术、经验等各方面的条件都在不断提升,但制药依然是一个成本高、投资大、风险高的行业。行业内有一个共识,新药研发是一场九死一生的冒险,新药研发成本都在10亿上,研发周期一般是10-12年,临床失败率高达95%。比如人类对艾滋病、阿尔茨海默、癌症等病一直无解,无数药企、研究机构投入重金研发,但至今这些病还都没有研发出特效药。2020年初,突然爆发的新冠疫情给席卷全球,多项研究遭到搁置,这对许多研制新药的企业而言无异于雪上加霜。

全球生物医药规模持续增长,但是医药研发的效率不断下降,研发一款新药投入的成本和时间越来越呈指数级的增长。以德勤公司发布的研究报告显示,药物开发的投资回报率从2010年的10%稳步下降至2018年的2%左右。

这一点在抗生素药物的研发上更为明显。世卫组织的报告指出,虽然有一些前景不错处于不同开发阶段的产品,但是由于药物开发过程中巨大的经济成本和内在的科学挑战,这些产品中只有一小部分会最终进入市场。再加上成功的抗生素产品能带来的投资回报少,导致主要私营投资者和大多数大型制药公司的积极性不高。

报告证实,新抗生素的临床前和临床开发继续由中小型公司推动。这些企业通常在临床开发的后期或直到获得监管机构批准之前,都难以为其产品融资。

从上个世纪80年代开始,制药行业就开始利用计算机来辅助药物的研发。但是依然不能满足人类发展对于新药的迫切需求。就以去年爆发的新冠疫情来看,无论是治疗药物还是疫苗,都非常急切。在此背景下,“AI制药”也逐渐成为了当前药学研究和前沿医学创业的新发展热点。

鹏程.神农平台是面向医药领域的一个新成果,包含蛋白质结构预测、小分子生成、靶点与小分子相互作用预测以及新抗菌多肽设计与效果评价等模块。基于神农平台,各药厂、机构可以做一系列的开发研究,通过蛋白质生成模型加速推理和生成氨基酸序列,并可开展更多生物研究科研任务。

500

以新型抗菌肽项目来看,基于已知抗菌肽结构,解密与掌握多肽类氨基酸序列规律,采用AI方式设计目标新型肽链,提高搜索空间和生成效率。神农平台可加速新型抗菌肽发现,这使得抗菌肽有望成为新一代“抗生素”。

传统制药行业之所以存在“双十魔咒”,主要还是过于依赖专家的经验。AI+制药,则是将人类的经验与计算机强大的算力结合。

鹏城可期,加速AI在行业应用中落地

人工智能正从单点技术走向真正的通用技术,AI的通用性、泛化能力以及性能,决定AI在各行各业的就应用价值以及发展速度。以前,行业AI多局限于单点技术,应用落地依赖工程师的开发能力以及专业人员的经验,AI应用呈现出碎片化,成本高、落地慢等痛点。而鹏程.盘古大模型、鹏程.神农平台具备很强的泛化能力,通过与行业知识结合,少量样本也能达到高精度,基于预训练+下游微调的工业化AI开发模式,这无疑将大大加速AI在行业应用中的落地。

以鹏程.盘古大模型为例,作为业界首个 2000 亿参数中文预训练语言模型,预训练阶段学习了40TB中文文本数据,是最接近人类中文理解能力的AI大模型。盘古NLP大模型具备广泛的运用场景,在知识问答、知识检索、知识推理、阅读理解等文本生成领域表现突出。未来金融领域,可以辅助识别企业风险,助力企业尽调和项目审核;在医疗方面,其强大的信息抽取能力,可以帮助科研人员和医生从海量文献中快速提取关键知识。

无论是鹏程.盘古大模型还是鹏程.神农平台,背后离不开AI平台的支撑。

500

昇腾AI基础软硬件平台,包括昇腾处理器、Atlas系列硬件、异构计算架构CANN和AI框架昇思MindSpore等。其中,CANN是针对AI场景推出的异构计算架构,通过软硬件的协同优化,亲和昇腾AI的图编译技术,持续扩充高性能算子库,来释放昇腾AI硬件的强大性能,极大提升应用可获得算力。昇思MindSpore是面向万物智能时代覆盖端、边、云的全场景AI框架,为开发者提供了友好设计、高效运行、简捷部署的开发体验。昇腾AI基础软硬件平台,除了底层硬件本身自带的强大AI计算性能,全栈化的整合更能在开发层面最大程度发挥出硬件最佳性能,从而降低AI应用开发门槛,最终加速AI向场景渗透的产业进程。

而基于昇腾AI基础软硬件搭建而成的“鹏城云脑Ⅱ”主要提供人工智能研究必须的计算力资源、存储资源、网络资源、数据资源和研究环境,覆盖人工智能基础研究、重大应用、操作系统、数据资源共享、产业服务等专门研究实验领域。国际超算大会(ISC21)最新一期IO500排行榜上, “鹏城云脑II”蝉联全系统输入输出和10节点规模系统两项世界冠军,再次刷新世界纪录。特别值得一提的是,“鹏城云脑II”在全系统输入输出性能角度的得分是第二名的近20倍,呈现碾压优势。如此强大的“鹏城云脑II”成为大模型研发的肥沃土地,土地越肥沃,生长出来的花花草草也就越茂盛。

当然,花草长得是否种类繁多,更重要的就是要依靠生态。此前,鹏程.盘古的模型、代码、数据集在 OpenI 启智社区全面开源、开放,吸引更多行业的开发者共同参与,针对不同场景创新应用,已经在一些行业开花结果。

【结束语】

从0到1难,给1后面再加0就相对快得多。鹏程.盘古大模型和鹏程·神农平台干的都是从0到1的事,当相于给AI造好了轮子。轮子造好了,行业应用也就会越跑越快。

全部专栏