研发新药、更快一步!日本研究员提出​图模型新方法,助力化学合成新分子

From:Preferred Network 编译:T.R

寻找拥有特殊药理特性的新分子在研发新药的过程中十分重要。传统的方法将合成一系列候选化合物并用它们进行药理实验。但由于化学分子构成的空间十分庞大, 合成分子进行广泛实验的成本十分巨大。

为了替代在分子空间中搜索期待特性的方法,研究人员提出了新的思路,将人们希望得到的药物特性加入到重头开始设计新药的过程中去。来自日本PFN的研究人员们提出了一种 基于可逆流模型的图生成方法GraphNVP用于高效的合成有效药物分支结构 ,并在实验中取得了良好的效果。

分子的表示

将深度学习应用于分子生成问题中的关键是 如何在训练过程中表达化合物 。先前的模型依赖于字符串的表达方式( simplified molecular-input line-entry system,SMILES  ) ,利用基于RNN的语言模型或变分自编码器来生成一系列 SMILES  字符串,并将它们转换为分子结构。

下图中底部的字符串就是分子结构 SMILES  分子表示法:

但这种方法最主要的问题在于 SMILES  字符串对于镜像变化不鲁棒,使得相同的字符串可能生成特性截然不同的分子结构。为了克服这一缺陷,近年来研究人员开始将 更富有表达能力的图表示引入到分子生成 中,将这一问题转换为了分子图生成问题。

通常分子被表示为一个无向图。原子和价键分别被表示为节点和边。分子的结构则被表示为向量的张量A,节点的特征矩阵X则用于表示原子的种类。分子生成问题此时就可约化为如何生成一个可以表示有效分子的图生成问题。

包括生成对抗和变分自编码器等方法都可以用于解决这一问题。先前的生成模型主要分为两种,一类是一步一步地序列生成各个节点和边的模型、另一类则是一步到位,直接生成整个分子图,十分类似于图像生成模型。

在这篇文章中为了对分子结构进行精确有效的学习,研究人员提出了 GraphNVP 的方法,基于可逆的归一化的流方法flow-based进行分子图生成。但在分子图生成的过程中需要有效处理具有稀疏性和离散性的结构,为了捕获这样的结构特征并将其编码到隐空间中,研究人员提出了新颖的两步法来进行分子图生成。

分子图的生成的两个步骤,分别是 表示结构的邻近张量生成 和 表示原子类型的特征矩阵生成 。第一步通过一个邻近矩阵表示图结构,第二步则为节点的原子赋值。在生成过程中,GraphNVP将依次生成图的结构,并基于结构来为每个节点的原子赋值。

基于可逆流模型的分子图生成网络

GraphNVP是首个基于可逆流模型的图生成网络。下图中显示了两个隐变量的表示过程。其中邻近矩阵用来获取图结构的未知分布,节点赋值则用于为节点原子赋予合适的属性。

在具体的实现中,研究人员使用了两种新型的耦合层: 相邻耦合层 与 节点特征 耦合层 。学习到的特征相互耦合生成最终的分子结构。

这种两层的分解服从于图结构数据精确的最大似然估。为了有效表示这一生成过程,研究人员在模型构建的过程中同时引入了两种可逆的流来分别表示生成过程中的两个隐变量,这两种新颖的可逆流方法结合得到了生成有效分子图的高效方法,同时发现模型学习的隐空间可以用于生成期望化学特性的分子结构。

此外, 可逆的流模型 对于分子图生成的研究至关重要。流模型可逆带来的重要优势是它们可以在极大似然估计中进行精确的计算,而不像VAEs或者GANs一样不可逆。研究人员认为 精确的优化是药物分子生成的关键所在 ,因为药物分子对于单个原子的手性替换十分敏感。除此之外,流模型的另一个优势在于可逆性在分子设计中有着重要的作用,完美的构建保证了时间的利用率。

只需要逆运行模型,就能利用隐变量构建出需要的分子图,同时便于操纵样本的生成过程。基于流模型可以直观的生成或者便捷地查询分子结构,这对于药物研发和优化十分重要。

实验表明,这种方法在两个分子数据集中几乎可以达到100%的独特比例,这意味着生成的分子图几乎没有重复。这种方法还可以有效地生成期望化学特性的分子图,甚至在没有足够的先验知识情况下依然表现良好。

实验中研究人员从训练数据集中随机选择了分子并利用提出的方法编码到隐空间中表示为Z0,随后选择了两条互相正交的随机轴,并以Z0作为原点在随机的轴表示的二维空间中栅格化采样,并将这些采样点进行解码。

下图可视化了这些隐变量的解码结果,相邻的隐变量得到的分子图具有镜像的特征。

同时这一模型还可以对化学结构进行优化,下图中展示了在给定最左侧分子的情况下,通过在最大化QED( quantitative estimate of drug-likeness )的方向上进行隐变量插值得到的结果。图中结果显示随着优化的进行,这些分子具有的药理属性也逐渐增加。这种方法为人们提供了一种优化分子药理特性的良好方法。

如果想了解更多细节,请参看论文:

https://arxiv.org/pdf/1905.11600.pdf

也可以下载代码,看看能不能向化学家一样利用AI合成新的药物分子:

https://github.com/pfnet-research/graph-nvp

ref:

https://en.wikipedia.org/wiki/Simplified_molecular-input_line-entry_system

paper:https://arxiv.org/pdf/1905.11600.pdf

https://arxiv.org/pdf/1802.04364.pdf

https://www.oreilly.com/library/view/deep-learning-for/9781492039822/ch04.html

MolGAN: https://arxiv.org/abs/1805.11973

Generative Models for Automatic Chemical Design:https://deeplearn.org/arxiv/83366/generative-models-for-automatic-chemical-design

https://www.slideshare.net/quolc/report-molgan-an-implicit-generative-model-for-small-molecular-graphs

我来评几句
登录后评论

已发表评论数()

相关站点

+订阅
热门文章