WO2022135121A1

WO2022135121A1 - 一种基于对比学习的分子图表示学习方法

Info

Publication number: WO2022135121A1
Application number: PCT/CN2021/135524
Authority: WO
Inventors: 陈华钧; 杨海宏; 方尹; 庄祥
Original assignee: 浙江大学
Priority date: 2020-12-25
Filing date: 2021-12-03
Publication date: 2022-06-30
Also published as: US20230052865A1; CN112669916B; CN112669916A

Abstract

一种基于对比学习的分子图表示学习方法，包括：获取每个分子的分子指纹表示，计算每两个分子指纹之间的相似度；收集全量的化学官能团信息，为分子中的每个原子匹配对应的官能团；用异构图对分子图建模；利用结构感知分子编码器中的RGCN编码分子中每个原子的表示及其所属官能团的表示，通过聚合函数将分子映射到特征空间，得到具有结构感知的特征表示；根据分子之间的指纹相似度，选取正、负样本，在特征空间中进行对比学习；在大样本分子数据集上利用对比学习的方法进行训练，得到具有结构感知的分子编码器，应用于下游分子属性的预测任务。上述方法有助于捕捉更丰富的分子结构信息，解决分子属性预测的问题。

Description

一种基于对比学习的分子图表示学习方法

技术领域

本发明属于图表示学习领域，尤其是涉及一种基于对比学习的分子图表示学习方法。

背景技术

在过去几年中，图表示学习(Graph Representation Learning)已成为分析图结构数据的热门研究领域。图表示学习旨在学习一种编码函数，该函数充分利用图数据的优势，将具有复杂结构的图数据转换为保留多样化图属性和结构特征的低维空间中的密集表示。

传统的无监督图表示学习方法，利用随机游走方法将图转化为节点序列，建模了中心节点与邻居节点之间的共现关系。但是这类学习框架有两个明显缺点：一是编码器之间缺少参数共享，会占用过多计算资源；二是模型缺乏泛化能力，难以推广应用于新图。

近年来，使用图神经网络(Graph Neural Network,GNN)进行图表示学习受到了广泛的关注。图神经网络通常通过邻域状态的加权总和来更新节点的隐藏状态。通过节点之间的信息传递，图神经网络能够捕捉来自其邻域的信息。

分子图是一类天然具有丰富结构信息的图数据，目前有众多研究利用深度学习方法编码分子，以加速药物的研发和分子识别。为了表示向量空间中的分子，传统的分子指纹试图将分子编码为固定长度的二进制向量，分子指纹上的每个比特位对应于一种分子片段。

为了提高分子指纹的表达能力，一些研究引入图神经网络，将分子的SMILES表示作为输入，学习分子在低维向量空间中的表示，并应用于下游的属性预测等任务。

但是，获取分子性质标签的实验过程既耗时又消耗资源，分子任务面临标记数据不足等问题。同时，由于分子空间极为庞大，模型泛化能力一般较差。为提高神经网络的泛化能力，一些工作试图在分子的图表示上建立预训练模型。大多数工作在预训练的节点级别任务中，将原子的类型作为标签，但由于分子中原子的类型较少，且存在个别原子几乎在所有分子中频繁出现的情况，这样训练出的模型未必能捕捉到有价值的化学领域信息。而在有监督的图级别任务中，通过标签训练所得到的模型往往只涉及部分特定知识，且大多数分子缺乏标注，这也限制了模型在实际场景中的使用。

因此，亟需设计一种新的分子图表示学习方法，来解决现有技术存在的上述问题。

发明内容

本发明提供了一种基于对比学习的分子图表示学习方法，可以获得具有领域信息且具有区分性的分子图表示，解决分子属性预测等问题。

一种基于对比学习的分子图表示学习方法，包括以下步骤：

(1)获取每个分子的分子指纹表示，计算每两个分子指纹之间的相似度；

(2)收集全量的化学官能团信息，为分子中的每个原子匹配对应的官能团；其中，当某个原子属于多个官能团时，优先匹配包含原子个数多的官能团；

(3)用异构图对分子图建模，异构图为包含不同类型节点和边的图，不同原子对应不同的节点类型，不同键对应不同的边类型；

(4)构建结构感知分子编码器，利用结构感知分子编码器中的关系图卷积网络RGCN编码分子中每个原子的表示及其所属官能团的表示，通过聚合函数将分子映射到特征空间，得到具有结构感知的特征表示；

(5)根据分子之间的指纹相似度，选取正、负样本，在特征空间中进行对比学习；

(6)通过在大样本分子数据集上利用对比学习的方法进行训练，得到具有结构感知的分子编码器，应用于下游分子属性的预测任务。

本发明将分子指纹相似度作为选取正、负样本的依据，与分子数据在特征空间中进行对比，并将化学领域知识融入到分子表示中，以获得具有领域信息且具有区分性的分子图表示，解决分子属性预测等问题。

步骤(1)中，通过化学信息学的强力工具Rdkit将分子的SMILES表示转化为分子指纹。根据不同的计算方法，可以获得同一分子不同种类的分子指纹。

所述的分子指纹选择Morgan指纹、MACCs指纹和拓扑指纹中的一种。Morgan指纹通过设定一个从特定原子出发的半径，来统计该半径内部分分子结构的数量以组成分子指纹；MACCs指纹预先指定了166种分子的部分分子结构，当含有该分子结构时，对应位置记为1，反之则记为0；拓扑指纹无需预先指定部分分子结构，而是计算所有介于最小键和最大键数量之间的分子路径，并对每个子图进行哈希运算，产生每个比特位的ID，进而生成分子指纹。

化合物分子之间的相似度计算经常使用到的评价方法是谷本系数(tanimoto coefficient)。两个分子指纹之间的相似度计算采用谷本系数，公式为：

其中，a和b分别表示在A、B分子中显示1的数量，c表示A、B分子中同时显示1的数量。

步骤(2)中，官能团是决定化合物分子的化学性质的原子或原子团。相同的官能团会导致相同或相似的化学反应，无论其所属分子的大小如何。从Daylight化学信息系统中爬取全量的官能团的SMARTS表示，并按官能团包含的原子个数对官能团排序，找出分子中的每个原子所属的官能团。当某个原子属于多个官能团时，优先匹配原子个数多的官能团作为该原子对应的官能团。

步骤(3)中，利用异构图对分子图进行建模有利于刻画每一种节点和边的不同属性。

步骤(4)的具体过程为：

将具有初始化节点特征和官能团特征的异构图作为结构感知分子编码器的输入，结构感知分子编码器中的关系图卷积网络RGCN通过对不同类型的边计算和聚合信息，以及对不同类型的节点整合不同边所聚合的信息来进行信息传递；

得到每个原子及其所属官能团的特征表示后，再将节点与官能团的特征进行聚合，得到分子的具有结构感知的特征表示。

关系图卷积网络RGCN进行信息传递的公式如下：

其中，R是所有边的集合，

是与节点i相邻的边类型为r的所有邻居节点，c _i,r是一个可以学习的参数，

是当前层l的权重矩阵，

是当前层l对当前节点i的特征向量；对邻居节点的特征乘以边类型所对应的权重，再乘以一个可学习的参数后求和，最后加上自环边所传递的信息，经过激活函数σ，作为本层的输出，下一层的输入。

步骤(5)中，选取正、负样本时，选取1个与目标分子相似度大于某阈值的分子为正样本，选取K个相似度小于某阈值的分子为负样本；将目标分子对应的特征表示记为q，将正样本的特征表示记为k ₀，将K个负样本的特征表示记为k ₁,…,k _K。

获得每个目标分子及其正、负样本的特征表示后，利用损失函数计算损失，并通过反向传播算法更新结构感知分子编码器的参数，促使模型将目标分子与正样本识别为相似实例，并与不相似的样本区分开。

所述的损失函数为InfoNCE，公式为：

其中，τ为超参数，该损失函数促使模型将目标分子q与正样本k ₀识别为相似实例，将q与不相似的实例k ₁,…,k _K区分开。

步骤(6)的具体过程为：

在大样本分子数据集上通过步骤(5)所述的对比学习方法训练具有结构感知的分子编码器；然后将小样本数据集中的分子数据输入具有结构感知的分子编码器，再利用线性分类器对编码器输出的分子表示做分类，进行分子属性的预测。

与现有技术相比，本发明具有以下有益效果：

1、不同于现有的有监督预训练方法，本发明利用自监督的对比学习方法训练结构感知分子编码器。有监督学习存在标注数据不足的问题，而且通过标签训练所得到的模型往往只涉及特定的知识，远不如数据本身的结构信息丰富。因此，利用自监督的对比学习方法，通过分子图数据本身的结构或特性构造标签进行分子的图表示学习，有助于捕捉更丰富的分子结构信息，且更易于获得具有区分性的高层特征。

2、本发明利用异构图对分子图进行建模，有利于刻画每一种原子和键的不同属性。

3、不同于现有的缺乏化学领域先验知识的分子图表示学习方法，本发明提出使用具有结构感知的图神经网络学习分子表示，将对分子性质起决定性作用的官能团信息直接编码进图的特征表示中。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的基于对比学习的分子图表示学习方法的流程示意图；

图2为本发明实施例提供的结构感知分子编码器的结构示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

本发明提供的基于对比学习的分子图表示学习方法可用于化学分子属性预测、虚拟筛选等应用场景，将分子指纹的相似度作为依据选取正、负样本，与分子数据在特征空间中进行对比，并将化学领域的官能团知识直接编码到分子的表示中，以获得具有化学领域知识且具有区分性的分子图表示。本发明解决了有监督学习存在的标注数据不足的问题，充分利用了分子图数据本身的结构或特性来构造标签。

如图1所示，一种基于对比学习的分子图表示学习方法，包括以下步骤：

首先将分子的SMILES表示通过化学信息学的强力工具Rdkit转化为分子指纹。对于每个分子，利用谷本系数计算其与其他所有分子之间的指纹相似度后，选取1个与该分子相似度大于某阈值的分子为正样本，选取K个相似度小于某阈值的分子为负样本。

对目标分子及其对应的正、负样本利用异构图进行建模，旨在刻画每一种节点和边的不同属性。将分子的样本数据输入由图2所示的结构感知分子编码器，可以得到目标样本及正、负样本对应的特征表示。将目标分子对应的特征表示记为q，将正样本的特征表示记为k ₀，将K个负样本的特征表示记为k ₁,…,k _K。

将InfoNCE作为损失函数，通过反向传播算法更新模型的参数，促使模型将目标分子与正样本识别为相似实例，同时将其与不相似的实例区分开，以学习具有区分性的具有结构感知的分子特征表示。

损失函数为InfoNCE，公式为：

如图2所示，为本发明实施例提供的结构感知图神经网络示意图。利用具有初始化节点特征和官能团特征的异构图对分子进行建模，刻画每一种节点和边的不同属性。将异构图作为结构感知分子编码器的输入，再利用RGCN对不同类型的边计算和聚合信息，对不同类型的节点整合不同边所聚合的信息来进行信息传递。RGCN考虑到了边的类型，同时为了将上一层节点的特征传递到下一层，RGCN为每个节点添加了特殊的自环边。其具体信息传递过程如下：

其中，R是所有边的集合，

是当前层l的权重矩阵，

是当前层l对当前节点i的特征向量。对邻居节点的特征乘以边类型所对应的权重，再乘以一个可学习的参数后求和，最后加上自环边所传递的信息，经过激活函数σ，作为本层的输出，下一层的输入。

通过RGCN得到分子中每个原子的表示及其所属官能团的表示后，再通过聚合函数将节点与官能团的特征进行聚合，得到分子的具有结构感知的特征表示。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

Claims

一种基于对比学习的分子图表示学习方法，其特征在于，包括以下步骤：

(1)获取每个分子的分子指纹表示，计算每两个分子指纹之间的相似度；

(2)收集全量的化学官能团信息，为分子中的每个原子匹配对应的官能团；其中，当某个原子属于多个官能团时，优先匹配包含原子个数多的官能团作为该原子对应的官能团；

(3)用异构图对分子图建模，异构图为包含不同类型节点和边的图，不同原子对应不同的节点类型，不同键对应不同的边类型；

(4)构建结构感知分子编码器，利用结构感知分子编码器中的关系图卷积网络RGCN编码分子中每个原子的表示及其所属官能团的表示，通过聚合函数将分子映射到特征空间，得到具有结构感知的特征表示；具体过程为：

将具有初始化节点特征和官能团特征的异构图作为结构感知分子编码器的输入，结构感知分子编码器中的关系图卷积网络RGCN通过对不同类型的边计算和聚合信息，以及对不同类型的节点整合不同边所聚合的信息来进行信息传递；得到每个原子及其所属官能团的特征表示后，再将节点与官能团的特征进行聚合，得到分子的具有结构感知的特征表示；

关系图卷积网络RGCN进行信息传递的公式如下：

其中，R是所有边的集合，
是与节点i相邻的边类型为r的所有邻居节点，c _i,r是一个可以学习的参数，
是当前层l的权重矩阵，
是当前层 l对当前节点i的特征向量；对邻居节点的特征乘以边类型所对应的权重，再乘以一个可学习的参数后求和，最后加上自环边所传递的信息，经过激活函数σ，作为本层的输出，下一层的输入；

(5)根据分子之间的指纹相似度，选取正、负样本，在特征空间中进行对比学习；

(6)通过在大样本分子数据集上利用对比学习的方法进行训练，得到具有结构感知的分子编码器，应用于下游分子属性的预测任务。
根据权利要求1所述的基于对比学习的分子图表示学习方法，其特征在于，步骤(1)中，通过Rdkit将分子的SMILES表示转化为分子指纹；所述的分子指纹选择Morgan指纹、MACCs指纹和拓扑指纹中的一种。
根据权利要求2所述的基于对比学习的分子图表示学习方法，其特征在于，步骤(1)中，两个分子指纹之间的相似度计算采用谷本系数，公式为：

其中，采用MACCs指纹预先指定了166种分子的部分分子结构，当含有该分子结构时，对应位置记为1，反之则记为0；a和b分别表示在A、B分子中显示1的数量，c表示A、B分子中同时显示1的数量。
根据权利要求1所述的基于对比学习的分子图表示学习方法，其特征在于，步骤(5)中，选取正、负样本时，选取1个与目标分子相似度大于某阈值的分子为正样本，选取K个相似度小于某阈值的分子为负样本；将目标分子对应的特征表示记为q，将正样本的特征表示记为k ₀，将K个负样本的特征表示记为k ₁,…,k _K。
根据权利要求4所述的基于对比学习的分子图表示学习方法，其特征在于，获得每个目标分子及其正、负样本的特征表示后，利用损失函数计算损失，并通过反向传播算法更新结构感知分子编码器的参数，促使结构感知分子编码器将目标分子与正样本识别为相似实例，并与不相似的样本区分开。
根据权利要求5所述的基于对比学习的分子图表示学习方法，其特征在于，所述的损失函数为InfoNCE，公式为：

其中，τ为超参数，该损失函数促使模型将目标分子q与正样本k ₀识别为相似实例，将q与不相似的实例k ₁,…,k _K区分开。
根据权利要求1所述的基于对比学习的分子图表示学习方法，其特征在于，步骤(6)的具体过程为：

在大样本分子数据集上通过步骤(5)所述的对比学习方法训练具有结构感知的分子编码器；然后将小样本数据集中的分子数据输入具有结构感知的分子编码器，再利用线性分类器对编码器输出的分子表示做分类，进行分子属性的预测。