Argonne研究人员将启用AI的超级计算用于药物发现

世界上的超级计算机正进行紧急的寻宝游戏，研究尽可能多的分子，以期找到能与有效结合并可用作药物的分子。但是，有大量需要测试的分子积压下来，数量达到数十亿。现在，阿贡国家实验室(Argonne National Laboratory)的研究人员正在利用超级计算支持的AI快速识别最有希望的分子。

“我们正在尝试构建基础设施，以将AI和机器学习工具与基于物理的工具集成在一起，” Argonne国家实验室数据科学与学习部门的计算生物学家Arvind Ramanathan在接受TACC的Aaron Dubrow采访时解释说。“我们将这两种方法结合起来，以期获得更大的收益。”

该研究小组使用了DeepDriveMD(蛋白质折叠的深度学习驱动的自适应分子模拟的缩写)，该工具最初是为Exascale计算项目开发的。大流行发生时，DeepDriveMD被用于癌症药物分析，此后研究人员转向分析。DeepDriveMD从简单的蛋白质分子模型开始，逐渐将模型与新因素和更复杂的分析复杂化，使研究人员能够利用深度学习发现蛋白质的各个方面，这些方面使其成为更强的结合候选者。

Ramanathan说：“我们构建了用于在线进行深度学习的工具包，使我们可以随时随地进行采样。”“我们首先用一些数据训练它，然后允许它非常快速地推断传入的模拟数据。然后，根据其标识的新快照，该方法会自动决定是否需要修改培训。”

为了训练和运行这些重型模型，研究人员转向了一个而不是两个，而是四个超级计算机：圣地亚哥超级计算机中心(SDSC)的2.8峰petaflop Comet系统;德州高级计算中心(TACC)的2.3 Linpack petaflop Longhorn系统;TACC的23.5 Linpack petaflop Frontera系统;最后，是橡树岭国家实验室(ORNL)的148.6 Linpack petaflop Summit系统，该系统在最新的Top500列表中被评为全球最强大的公开排名超级计算机。

Ramanathan说：“ TACC对我们的工作至关重要，尤其是Frontera机器。”“我们已经花了一段时间了，使用Frontera的CPU来最大程度地进行快速筛选：将虚拟分子放在蛋白质旁边，以查看其是否结合，然后从中推断出其他分子是否也会起作用相同。”(目前，该团队每小时在Frontera上模拟300,000个配体。)

使用DeepDriveMD，研究人员从十亿个分子向下钻取到25亿个分子，再向下延伸到六百万个到几千个，最终找到了具有最大结合能力的30个分子。这些结果将与研究合作者共享，并将很快在开放获取报告中发布。现在，研究人员正在着手分析主要蛋白酶和更大，更复杂的蛋白质。

TACC执行董事Dan Stanzione表示：“在这样的全球需求时代，重要的是不仅要利用我们所有的资源，而且要以尽可能创新的方式做到这一点。”“我们已经将许多资源用于抗击的关键研究，但是在该项目中支持新的AI方法将使我们有机会更有效地利用这些资源。”

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时候联系我们修改或删除，多谢