WO2023221186A1

WO2023221186A1 - 一种化合物聚类的方法、装置、系统及存储介质

Info

Publication number: WO2023221186A1
Application number: PCT/CN2022/096714
Authority: WO
Inventors: 金羽童; 潘麓蓉
Original assignee: 慧壹科技(上海)有限公司; 香港圆壹智慧有限公司; 美国圆壹智慧科技有限公司
Priority date: 2022-05-17
Filing date: 2022-06-01
Publication date: 2023-11-23
Also published as: CN115049866A; US20230376794A1

Abstract

本申请提供一种化合物聚类的方法、装置、系统及存储介质，通过获取待识别化合物样本，并将所述待识别化合物样本分割为包含初始识别标签的样本子集；根据样本子集，得到样本图例；根据样本图例以及识别标签，得到待识别化合物样本对应的目标识别结果；其中，所述识别标签包括所述初始识别标签。本发明基于统计类化合物聚类，提供一种高效、快速以及精准的小分子化合物聚类的方法，提升小分子化合物聚类的准确性、降低聚类的处理空间，突破小分子聚类的局限性，从而使小分子化合物聚类的处理更加高效和精准。

Description

一种化合物聚类的方法、装置、系统及存储介质

技术领域

本申请涉及信息处理技术领域，具体涉及一种化合物聚类的方法、装置、系统及存储介质。

背景技术

我们通常称由几个或几十个原子组成的分子为小分子，常温下可以呈固态、气态和液态的物质。常见的有机小分子化合物如乙醇、葡萄糖和甲烷等。

聚类用于将大型化合物数据集合细分为单个小组相似化合物。通常用于分析高通量筛选结果、虚拟筛选或对接研究的分析。传统的基于化学信息学的聚类方法识别效率低，且识别速度缓慢。即使采用化合物指纹特征的相似性来识别，对计算与存储空间的需求过多，造成识别的化合物有限。

因此，需要一种新方案。

发明内容

有鉴于此，本说明书实施例提供一种化合物聚类的方法、装置、系统及存储介质，用于小分子化合物聚类过程。

本说明书实施例提供以下技术方案：

本说明书实施例提供一种化合物聚类的方法，包括：

获取待识别化合物样本，并将所述待识别化合物样本分割为包含初始识别标签的样本子集；

根据所述样本子集；得到样本图例；

根据所述样本图例以及识别标签，得到所述待识别化合物样本对应的目标识别结果；其中，所述识别标签包括所述初始识别标签。

本说明书实施例还提供一种化合物聚类的装置，包括：

获取模块，用于获取待识别化合物样本，并将所述待识别化合物样本分割为包含初始识别标签的样本子集；

得到模块，用于根据所述样本子集；得到样本图例；

输出模块，用于根据所述样本图例以及识别标签，得到所述待识别化合物样本对应的目标识别结果；其中，所述识别标签包括所述初始识别标签。

本说明书实施例还提供一种化合物聚类的系统，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行以下步骤：获取待识别化合物样本，并将所述待识别化合物样本分割为包含初始识别标签的样本子集；根据所述样本子集；得到样本图例；根据所述样本图例以及识别标签，得到所述待识别化合物样本对应的目标识别结果；其中，所述识别标签包括所述初始识别标签。

本说明书实施例还提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现以下步骤：获取待识别化合物样本，并将所述待识别化合物样本分割为包含初始识别标签的样本子集；根据所述样本子集；得到样本图例；根据所述样本图例以及识别标签，得到所述待识别化合物样本对应的目标识别结果；其中，所述识别标签包括所述初始识别标签。

与现有技术相比，本说明书实施例采用的上述至少一个技术方案能够达到的有益效果至少包括：通过获取待识别化合物样本，并将所述待识别化合物样本分割为包含初始识别标签的样本子集；根据样本子集，得到样本图例；根据样本图例以及识别标签，得到待识别化合物样本对应的目标识别结果。在小分子化合物聚类粗粒度识别的基础上增加化合物图像的识别检测，可以提升小分子化合物聚类的准确性、降低聚类的处理空间，突破小分子聚类的局限性，从而使小分子化合物聚类的处理更加高效和精准。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本说明书实施例提供的一种化合物聚类的应用示意图；

图2是本说明书实施例提供的一种化合物聚类的方法流程图一；

图3是本说明书实施例提供的一种化合物聚类的方法流程图二；

图4是本说明书实施例提供的一种化合物聚类的装置示意图；

图5是本说明书实施例提供的一种化合物聚类的系统结构示意图。

具体实施方式

下面结合附图对本申请实施例进行详细描述。

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

要说明的是，以下实施例中所提供的图示仅以示意方式说明本申请的基本构想，图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践。

小分子化合物聚类通常用于分析高通量筛选结果、虚拟筛选或对接研究的分析。传统的基于化学信息学的聚类方法识别效率低，且识别速度缓慢。即使采用化合物指纹特征的相似性来识别，对计算与存储空间的需求过多，造成识别的化合物有限。

有鉴于此，发明人发现现有技术中机器学习小分子化合物聚类的结果往往模糊不准确，造成无法识别化合物信息中的固定类型导致处理结果毫无使用价值。即使采用化合物指纹特征的相似性，但对处理和存储空间占用率过高，导致小分子化合物聚类无法扩容至十万以上级别的化合物库，造成小分子化合物聚类的局限性。

基于此，本说明书实施例提出了一种化合物聚类的处理方案：图1是本说明书实施例提供的一种化合物聚类的应用示意图。如图1所示，包括待识别化合物样本11，例如大型化合物。将待识别化合物样本11分割为包含初始识别标签的样本子集；根据样本子集；得到样本图例；根据所述样本图例以及识别标签，得到待识别化合物样本对应的目标识别结果(例如包括第1类别、第2类别……第n-1类别和第n类别)。

具体实施中可以由一主体执行，例如由服务端10执行，其中，服务端包括能够运行软件的终端设备，包括但不限于计算机、平板电脑、手机等。

本说明书实施例提出的一种化合物聚类的方法，通过获取待识别化合物样本，并将所述待识别化合物样本分割为包含初始识别标签的样本子集；根据样本子集，得到样本图例；根据样本图例以及识别标签，得到待识别化合物样本对应的目标识别结果。基于粗粒度的聚类方法增加化合物图像处理，可以在最少的特征使用情况下，大量节省了分子特征提取流程，对计算效率有大幅度提升。并且，基于初步聚类结果利用化合物图处理来完成小分子化合物聚类，实现了更高效、数据量更大、结果更精准的小分子化合物聚类过程。

上述应用场景仅是为了便于理解本申请而示出，本说明书的实施方式在此方面不受任何限制。相反，本说明书的实施方式可以应用于适用的任何场景。

以下结合附图，说明本申请各实施例提供的技术方案。

图2是本说明书实施例提供的一种化合物聚类的方法流程图一。如图2所示，方法可以包括步骤S210～步骤S230。其中，步骤S210、获取待识别化合物样本，并将所述待识别化合物样本分割为包含初始识别标签的样本子集。

本实施例中待识别化合物样本包括大型化合物，目的是通过特殊聚类方法细分为单个小组相似小分子化合物。在一些实施例中，待识别化合物样本采用SMILES序列文本的表示格式，该表示格式中可以显示化合物的化学特性(例如包括分子特征和原子特性)等。在大数据量情况下，将待识别化合物样本初步划分为多个样本子集，从而将庞杂的待识别化合物样本进行初步分割，方便对待识别化合物样本进行后续处理。其中小分子化合物按照化学角度通常指分子量小于1000道尔顿的生物功能分子；按照生物角度一般指具有生物活性的小肽、寡肽、寡糖寡核苷酸、维生素、矿物质、小分子团水等；还可以从营养角度讲小分子分为蛋白质、脂肪、糖等。

在一些实施例中，按照一般的统计学聚类方法可将现有库存待识别化合物样本按照化合物属性特征，对待识别化合物样本进行聚类识别，不仅可以将待识别化合物样本分割得到多个样本子集，还可以得到分割过程中的初始识别标签(即对待识别化合物样本聚类识别出单组相似小分子化合物的种类和个数的表示)。为实现更加精准的化合物聚类进行简单降维，便于更加快速地对待识别化合物样本进行识别得到最终目标识别结果。其中，统计学聚类方法包括K-means(k-means clustering algorithm，K均值聚类算法)和OPTICS(Ordering points to identify the clustering structure，基于密度的聚类算法)。在另一些实施例中，大数据量待识别化合物样本的情况下，没有经过初步聚类识别的过程，故需通过统计学聚类方法将所有的待识别化合物样本初步划分为多个样本子集，且其分割过程中产生初始识别标签，其实现过程与上述K-means或OPTICS类似，此处不再赘述。

步骤S220、根据所述样本子集；得到样本图例。

结合上述实施例，将待识别化合物样本分割为样本子集后，需根据样本子集得到该样本子集中所有待识别化合物样本对应的样本图例。其中，样本图例根据待识别化合物样本的表示格式转换为对应的离散数学图，将可处理待识别化合物根据其属性特征转化为更易识别的离散数学图，且在离散数据图中针对每个待识别化合物的指纹特征更为突显，从而更加方便多个化合物间最相似特征部分的识别，为小分子化合物聚类提高了精确度。

步骤S230、根据所述样本图例以及识别标签，得到所述待识别化合物样本对应的目标识别结果。

具体地，识别标签根据化合物特性用来识别化合物的类别，包括至少一个或多个。样本图例通过识别标签来识别出单组相似小分子化合物的类别，从而获得样本子集中所有样本图例对应待识别化合物样本的目标识别结果。其中识别标签包括小分子化合物的种类和个数等。

为了提高小分子化合物聚类的准确度，需对初步分割样本子集进行识别标签的准确获得，进而得到所有待识别化合物样本对应精准度更高的目标识别结果。

在一些实施例中，识别标签包括图例标签，其中图例标签可以更加突出每类相似小分子化合物对应的指纹特征，故在将待识别化合物样本初步分割为粗粒度的多个样本子集后，并将样本子集中以序列文本格式表示的每个待识别化合物样本转化为样本图例，根据样本图例得到所述待识别化合物样本对应的目标识别结果时，不局限于初始识别标签根据化合物分子特征或者原子特性来判断待识别化合物的类别，不仅提升了小分子化合物聚类的准确性，而且基于对待识别化合物样本进行粗粒度的初步识别分割，将大量数据的待识别化合物样本划分为相对小范围内的数据处理，实现了数据的降维，为后续采用样本图例识别过程争取处理空间，即数据降维提高了数据处理空间的利用率，从而可以加快小分子化合物聚类的处理速度。

在一些实施例中，通过对样本图例进行特征提取，结合化合物对应的指纹特征，经过大数据的训练获得图例标签，其中图例标签更加突出每类小分子化合物对应连通空间的特定范围指纹特征，用于将具有最相似子结构对应的化合物聚类为同一类。其中最相似子结构表示小分子化合物图的连通空间(connected components)，例如可以包括一个或多个相同的原子以及化学键。

具体地，对样本图例进行图像特征点提取，对每个样本图例对应待识别化合物中每个分子和每个分子的拓扑比对，结合化合物对应的指纹特征，获取图像特征中最相似的子结构(subgraph)特征，即可以通过图像特征识别突出的唯一判别特征，来寻找化合物间的最相似子结构特征。同时，计算相似性分数，进而根据阈值决定是否属于同一类别。从而经过大量数据的训练后，若检测任意两两样本图例中最相似子结构特征对应相似分数满足阈值，则确定该两个样本图例为同一类别，从而将样本子集中所有样本图例中拥有共同最相似子结构的化合物分配为同一类别，且获得该同一类别对应的图例标签。图例标签包括该最相似子结构以及相似分数对应的阈值。

在一些实施例中，根据所述样本图例以及识别标签，得到所述待识别化合物样本对应的目标识别结果，包括：根据所述样本图例、所述初始识别标签以及所述图例标签，将所述样本图例中满足所述初始识别标签和所述图例标签对应的待识别化合物聚类为同类别；根据不同类别化合物对应的初始识别标签以及图例标签，分别获得所有待识别化合物样本对应的识别类别。

本实施例中的识别标签包括初始识别标签和图例识别标签。每一类别的化合物分别对应一组初始识别标签和图例识别标签。因此对样本图例进行小分子化合物聚类过程中，结合初始识别标签(例如Ti1)和图例识别标签(例如Pt1)，将样本子集中样本图例中同时满足初始识别标签和图例标签对应的待识别化合物聚类为同类别(例如化合物1)。进而根据不同类别化合物对应的初始识别标签以及图例标签(例如[Ti1、Pt1]，[Ti2、Pt2]、……、[Ti5、Pt5]……)，分别获得所有待识别化合物样本对应的识别类别(例如化合物1、化合物2……)。

在一些实施例中，将所述样本图例中满足所述初始识别标签和所述图例标签对应的待识别化合物聚类为同类别，包括：获取所述初始识别标签和所述图例标签达到预设阈值对应的样例标准图；对所有样本图例与所述样例标准图进行相似计算，若所述样本图例与所述样例标准图相匹配，则将所述样本图例对应待识别化合物聚类为同类别。

结合上述实施例，样本图例中同时满足初始识别标签和图例标签对应的待识别化合物聚类为同类别时，需获取同一组初始识别标签和图例标签达到预设阈值对应的样例标准图。其中，对同一组初始识别标签和图例标签到达预设阈值可以包括初始识别标签和图例标签分别对应权重之和达到预设阈值。并且根据图例标签中包含的最相似子结构可以更准确地实现小分子化合物聚类。因此，获取所述初始识别标签和所述图例标签达到预设阈值对应的样例标准图之后，将所有样本图例与每种类别对应样例标准图进行相似计算，若样本图例与样例标准图相匹配，则将样本图例对应待识别化合物聚类为与样例标准图对应化合物为同类别。其中，计算样本图例与样例标准图相匹配可以采用如下公式一：

S＝G ₁∩G ₂ (公式一)

其中，G ₁、G ₂分别为为输入的样本图例和样例标准图。通过采用公式二的相似算法可以获得是否相匹配。

其中，A与B分别代表比对的样本图例和样例标准图的节点数，|A∩B|则表示图A与图B节点的共同节点数量。即当J(A,B)等于预设阈值，则样本图例与样例标准图相匹配。最终将样本图例对应待识别化合物聚类为与样例标准图对应化合物为同类别。

在一些实施例中，根据所述样本子集；得到样本图例，包括：

根据所述样本子集中化合物的属性特征，将所述样本子集中每个待识别化合物样本转化得到对应的样本图例。

具体地，根据样本子集中待识别化合物的属性特征，例如化合物的分子特征、logP(油水分配系数)、环数以及原子特征，根据可处理数据表示的待识别化合物(例如SMILES序列文本表示的化合物)，按原子为节点，化学键作为边转换为数据图，一些示例中节点包括原子号属性，边包括单双三键属性。

在一些实施例中，在得到所述待识别化合物样本对应的目标识别结果之后，还包括：输出所述目标识别结果，并将所述目标识别结果对应的所述待识别化合物样本进行存储。实现小分子化合物聚类下游的后续应用或者数据存储，因此采用本发明的化合物聚类方法不仅可以快速、准确地实现小分子化合物聚类，还可以提高关联小分子化合物聚类应用的高效性和精准性。下面再以一些实施例进行示意说明。

图3是本发明实施例提供的一种化合物聚类的方法流程图二。如图3所示，本发明实施例采用优选的各步骤如下：输入SMILES序列文本格式表示的待识别化合物样本；根据统计学聚类将待识别化合物样本分割为包含初始识别标签的样本子集；将样本子集中SMILES序列文本格式的待识别化合物样本转化为离散数学图；对样本子集中离散数学图通过拓扑比对，计算最相似结构，并得到图例标签；根据样本图例(即离散数学图)、初始识别标签以及图例标签，得到待识别化合物样本对应的目标识别结果；输出SMILES序列待识别化合物样本的聚类结果。

实例一：

步骤1、获取以SMILES序列文本表示的待识别化合物样本。步骤2、针对通过统计学聚类得到一种小分子化合物聚类对应的样本子集，例如初始识别标签为Ti2。统计学聚类方法包括K-means和OPTICS等。步骤3、将样本子集中以SMILES序列文本表示的待识别化合物转为对应的样本图例。步骤4、根据样本图例以及识别标签，得到所述待识别化合物样本对应的目标识别结果。例如根据初步识别标签(Ti2)在样本子集中剔除掉不属于Ti2类的化合物。其中，还包括根据所述样本图例、所述初始识别标签以及所述图例标签，获取所述初始识别标签和所述图例标签达到预设阈值对应的样例标准图；对所有样本图例与所述样例标准图进行相似计算，若所述样本图例与所述样例标准图相匹配，则将所述样本图例对应待识别化合物聚类为同类别，例如识别出该样本子集中属于Ti2类别的化合物；最终更加准确地剔除掉属于Ti2类别的化合物。从而得到所有待识别化合物对应的目标识别结果。步骤5、输出聚类好的样本子集，以便进行后续的下游分析应用或数据存储。

实例二：

步骤1、获取以SMILES序列文本表示的待识别化合物样本。步骤2、通过Python(程序语言的一种)RDKit包(运行代码中的一种)内的函数进行化学性质特征计算，并通过统计学聚类得到至少两种小分子化合物聚类对应的样本子集，例如初始识别标签为Ti1、Ti2、Ti3以及Ti4中的至少两种。统计学聚类方法包括K-means和OPTICS等。步骤3、将样本子集中以SMILES 序列文本表示的待识别化合物转为对应的样本图例。步骤4、根据样本图例以及识别标签，得到所述待识别化合物样本对应的目标识别结果。例如根据初步识别标签(例如Ti1、Ti2以及Ti3)在样本子集中最终准确识别为Ti1、Ti2和Ti4三类别对应的化合物。其中，还包括根据所述样本图例、所述初始识别标签以及所述图例标签，将所述样本图例中满足所述初始识别标签和所述图例标签对应的待识别化合物聚类为同类别；根据不同类别化合物对应的初始识别标签以及图例标签，分别获得所有待识别化合物样本对应的识别类别。步骤5、输出聚类好的样本子集，以便进行后续的下游分析应用或数据存储。

实例三：

步骤1、获取以SMILES序列文本表示的待识别化合物样本。步骤2、获得待识别化合物特征，例如MorganFingerprints(分子指纹)或深度学习训练完的向量(embedding)变量；并采用PCA算法进行数据(降维)，降至10-100维度的数据特征后，通过统计学聚类得到至少两种小分子化合物聚类对应的样本子集，例如初始识别标签为Ti1、Ti2、Ti3以及Ti4中的至少两种。统计学聚类方法例如包括K-means。步骤3、将样本子集中以SMILES序列文本表示的待识别化合物转为对应的样本图例。步骤4、根据样本图例以及识别标签，得到所述待识别化合物样本对应的目标识别结果。例如根据初步识别标签(Ti1、Ti2以及Ti3)在样本子集中最终准确识别为Ti1、Ti2、Ti4和 Ti5四类别对应的化合物。其中，还包括根据所述样本图例、所述初始识别标签以及所述图例标签，将所述样本图例中满足所述初始识别标签和所述图例标签对应的待识别化合物聚类为同类别；根据不同类别化合物对应的初始识别标签以及图例标签，分别获得所有待识别化合物样本对应的识别类别。步骤5、输出聚类好的样本子集，以便进行后续的下游分析应用或数据存储。

图4是本说明书实施例提供的一种化合物聚类的装置示意图，如图4所示，所述装置30包括：

获取模块31，用于获取待识别化合物样本，并将所述待识别化合物样本分割为包含初始识别标签的样本子集；

得到模块32，用于根据所述样本子集；得到样本图例；

输出模块33，用于根据所述样本图例以及识别标签，得到所述待识别化合物样本对应的目标识别结果；其中，所述识别标签包括所述初始识别标签。

图4所示实施例的装置对应地可用于执行图2所示方法实施例中的步骤，其实现原理和技术效果类似，此处不再赘述。

图5是本说明书实施例提供的一种化合物聚类的系统结构示意图，如图5所示，该系统40包括：处理器41、存储器42和计算机程序；其中

存储器42，用于存储所述计算机程序，该存储器还可以是闪存(flash)。所述计算机程序例如是实现上述方法的应用程序、功能模块等。

处理器41，用于执行所述存储器存储的计算机程序，以实现上述方法中设备执行的各个步骤。具体可以参见前面方法实施例中的相关描述。

可选地，存储器42既可以是独立的，也可以跟处理器41集成在一起。

当所述存储器42是独立于处理器41之外的器件时，所述设备还可以包括：

总线43，用于连接所述存储器42和处理器41。

本发明还提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现上述的各种实施方式提供的方法。

其中，可读存储介质可以是计算机存储介质，也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如，可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。另外，该ASIC可以位于用户设备中。当然，处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本发明还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。

在上述设备的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例侧重说明的都是与其他实施例的不同之处。尤其，对于后面说明的产品实施例而言，由于其与方法是对应的，描述比较简单，相关之处参见系统实施例的部分说明即可。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种化合物聚类的方法，其特征在于，所述方法包括：

获取待识别化合物样本，并将所述待识别化合物样本分割为包含初始识别标签的样本子集；

根据所述样本子集，得到样本图例；

根据所述样本图例以及识别标签，得到所述待识别化合物样本对应的目标识别结果；其中，所述识别标签包括所述初始识别标签。
根据权利要求1所述方法，其特征在于，所述识别标签包括图例标签。
根据权利要求2所述的方法，其特征在于，所述方法还包括：

通过对所述样本图例进行特征提取，结合化合物对应的指纹特征，训练获得所述图例标签。
根据权利要求2所述的方法，其特征在于，根据所述样本图例以及识别标签，得到所述待识别化合物样本对应的目标识别结果，包括：

根据所述样本图例、所述初始识别标签以及所述图例标签，将所述样本图例中满足所述初始识别标签和所述图例标签对应的待识别化合物聚类为同类别；

根据不同类别化合物对应的初始识别标签以及图例标签，分别获得所有待识别化合物样本对应的识别类别。
根据权利要求4所述的方法，其特征在于，将所述样本图例中满足所述初始识别标签和所述图例标签对应的待识别化合物聚类为同类别，包括：

获取所述初始识别标签和所述图例标签达到预设阈值对应的样例标准图；

对所有样本图例与所述样例标准图进行相似计算，若所述样本图例与所述样例标准图相匹配，则将所述样本图例对应待识别化合物聚类为同类别。
根据权利要求1所述的方法，其特征在于，根据所述样本子集；得到样本图例，包括：

根据所述样本子集中化合物的属性特征，将所述样本子集中每个待识别化合物样本转化得到对应的样本图例。
根据权利要求1所述的方法，其特征在于，在得到所述待识别化合物样本对应的目标识别结果之后，还包括：

输出所述目标识别结果，并将所述目标识别结果对应的所述待识别化合物样本进行存储。
一种化合物聚类的装置，其特征在于，所述装置包括：

获取模块，用于获取待识别化合物样本，并将所述待识别化合物样本分割为包含初始识别标签的样本子集；

得到模块，用于根据所述样本子集；得到样本图例；

输出模块，用于根据所述样本图例以及识别标签，得到所述待识别化合物样本对应的目标识别结果；其中，所述识别标签包括所述初始识别标签。
一种化合物聚类的系统，其特征在于，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行权利要求1至7中任一所述化合物聚类的方法。
一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现权利要求1至7中任一所述化合物聚类的方法。