来源:科技日报

说到AlphaGo,一般人都或多或少听说过,它因击败了人类围棋大师被誉为“世界壮举”,标志着人类向通用型的人工智能迈出了具有里程碑意义的重要一步。

而如今在前沿科学研究中的AlphaFold2模型则是人工智能(AI)应用的另外一个标志,它因展现出AI for Science的巨大潜力,而受到了各界人士的青睐。


(相关资料图)

AlphaFold2蛋白质结构预测,AI for Science新高度

蛋白质是组成人体细胞组织的重要成分,对蛋白质三维结构开展有效解析与预测,可为生物学、医学、药学乃至农业、畜牧业等行业未来研究与发展提供重要依据,尤其对与人类健康直接相关的药物研发意义重大。

然而,用X光、冷冻电镜、核磁共振等传统方法对蛋白质结构进行解析,远赶不上氨基酸序列的增加速度,这会造成海量待测样品在实验室中等待数月乃至数年。国际权威数据库SWISS-PROT显示,目前累计的蛋白序列的信息已经超过56万,用传统方法去完成这浩瀚繁多的测序无疑成为“不可能完成的任务”,须另辟蹊径。

科技创新的车轮滚滚向前。如前文所述,人工智能的发展为蛋白质测序效率带来了契机。其中AlphaFold2模型让人工智能在生物医药领域发挥着重要的作用。

一般来说,人工智能方法的预测精度超过90分,便可认为预测结果与实验方法得到的蛋白质结构基本一致。而AlphaFold2的92.4分,其不仅可以分析X-射线晶体学很难解决的楔入细胞膜中的蛋白质结构,还成功解开了蛋白质折叠问题,甚至可以帮助研究者们制造自然界中不存在的蛋白质。

AlphaFold2带来的这些重大突破,标志着AI辅助药物基础理论研究进入新的阶段,树立了AI for science新高度。

比如,目前全球设计的几乎所有的药物都作用于蛋白质,通俗讲,需要像钥匙开锁般精确匹配,而此过程的第一步是确定哪把钥匙开哪把锁,用更专业的话说,就是寻找药物靶标,即弄清楚药物分子作用与何种蛋白结合。而通过可解码蛋白质结构的人工智能算法,就可快速筛选成千上万的新药物靶标,从而大大缩短新药研制周期;而制造自然界中并不存在的蛋白质,无疑可以更好帮助人类以前所未有的方式应对重大挑战。

端到端优化AlphaFold2,让人工智能更普适济民

AlphaFold2为蛋白质结构解析与预测提供了通途,为人工智能在生物医药等领域的应用打开了新的窗口,然而随其在产、学、研各细分领域中的落地,也遇到严峻挑战。例如,随各种应用对于推理高通量和高性能的需求与日剧增,使用者需要更加充分地挖掘平台计算潜力,来提升执行效率。

所谓高通量测序技术,也被称为革命性的蛋白质测序方法,也是“十四五”时期生物经济领域重点推进创新应用的一项关键技术,简单讲就是一次并行对大量核酸分子进行平行序列测定的技术,但实施一次测序就能产出不低于100Mb的数据,这巨大的数据量给AlphaFold2的应用带来很大困扰。

原来,AlphaFold2刚问世时由于算法和硬件架构本身等问题,如GPU的并行计算,但是这类硬件存在严重的内存限制,使得即便是使用单卡最大内存,能够输入去预测的蛋白质序列长度也不足1000氨基酸。

面对突破这一瓶颈的急迫需求,英特尔® 架构产品--内置AI加速能力的至强®可扩展平台搭配傲腾™ 持久内存的产品组合,使得CPU平台得以具备TB级的内存容量,有潜力满足高通量测序需求。基于这一优势,英特尔针对不同氨基酸序列长度下蛋白质结构预测所需占用的内存开展了实验,实践表明该组合打破了限制预测序列长度的 “内存墙”,实现了AlphaFold2的高通量优化。

结果显示,从短到206个氨基酸,至长到2797个氨基酸,最终都达到了预期效果,验证了至强® 可扩展平台产品组合,能够轻松应对AlphaFold2蛋白质测序从20GB至510GB的内存占用,并有助于其实现更大范围的蛋白结构探索。

在推动AlphaFold2提升普适性、拓展应用的进程中,英特尔在发挥至强® 可扩展平台产品组合提供强劲通用算力的同时,亦充分利用丰富的软件工具实施通量优化,让处理器内置的英特尔®AVX-512技术,在英特尔®oneAPI 软件工具的激活与配合下,实现并行计算加速,为AlphaFold2应用进一步提供性能调优空间。

这一软件级调优,经先在预处理阶段对模型进行高通量优化,然后将模型迁移到PyTorch框架,接着再在PyTorch版本上进行细节上的推理优化,最后给予TB级内存支持,即可实现更优的加速效果。

经由上述基于至强® 可扩展平台对AlphaFold2实施的端到端优化,对于一个含有765氨基酸的蛋白质测试样例,采用CPU 64个物理核并发模式,支持了最高3.2TB的内存消耗,测试通量从未经任何优化的4.56序列/天提升105.35序列/天,效率提升达23.11倍;且如果在单节点上配备最高8TB内存,就可以支持完成高于10000氨基酸序列长度下蛋白结构的预测,为人工智能在药物研发等领域的广泛应用展现了无限可能。

在国际学术期刊《Science》联合英特尔推出的《架构师成长计划》课程中,晶泰科技的首席研发专家杨明俊博士这样谈到:“以AlphaFold2为代表的研究成果,被认为是开拓了科学研究的第四范式,就是基于大量的数据,然后采用以深度神经网络为代表的模型,给出对问题的一个解答。蛋白质结构预测曾经被认为是不可能完成的一件事情,如今被AI算法实现,这标志着AI在生物医药领域的进展迈入了一个全新的领域和阶段。”

《“十四五”生物经济发展规划》明确把加快发展高通量基因测序技术,作为开展前沿生物技术创新的重要手段;支持采用人工智能等信息技术,实现药物产业的精准化研制,进而通过生物技术与信息技术融合更好惠民。

相信在这一进程中,英特尔的架构优势也能物其尽用,其软硬兼施对AlphaFold2生物信息测序效率实现端到端优化,并使其具备更高适用性的生动实践,展现了人工智能与科学研究的相互融合,并为人类在前沿科学领域的未来发展带来了广阔的想象空间。通过不断地范式创新成果树立新的“AI for Science”里程碑,以创造更美好的未来!


关键词: 人工智能 氨基酸序列 蛋白质测序