WO2023216834A1

WO2023216834A1 - 用于管理分子预测的方法、装置、设备和介质

Info

Publication number: WO2023216834A1
Application number: PCT/CN2023/089548
Authority: WO
Inventors: 高翔; 高伟豪; 肖文之; 王智睿; 项亮; 王崇
Original assignee: 北京字节跳动网络技术有限公司; 脸萌有限公司
Priority date: 2022-05-13
Filing date: 2023-04-20
Publication date: 2023-11-16
Also published as: CN114944204A

Abstract

根据本公开的实现方式，提供了用于管理分子预测的方法、装置、设备和介质。在一种方法中，从预训练模型中的一部分网络层中，获取上游模型，预训练模型描述分子结构和分子能量之间的关联关系。基于分子预测目标确定下游模型，下游模型的输出层是基于分子预测目标确定的。基于上游模型和下游模型生成分子预测模型，分子预测模型描述分子结构和与分子结构相关联的分子预测目标之间的关联关系。由于上游模型可以包括分子相关的大量知识，可以降低训练基于上游模型和下游模型所生成的分子预测模型所需的训练数据数量。

Description

用于管理分子预测的方法、装置、设备和介质

本申请要求2022年05月13日递交的，标题为“用于管理分子预测的方法、装置、设备和介质”、申请号为202210524875.6的中国发明专利申请的优先权。

技术领域

本公开的示例性实现方式总体涉及计算机领域，特别地涉及用于管理分子预测的方法、装置、设备和计算机可读存储介质。

背景技术

随着机器学习技术的发展，机器学习技术已经被广泛地用于各个技术领域。分子研究是材料科学、能源应用、生物技术、药物研究等领域的重要任务。机器学习已成为被广泛应用于此类领域，并且可以基于已知分子的特征来预测其他分子的特征。然而，机器学习技术依赖于数量众多的训练数据，然而训练数据集的采集需要大量实验并且耗费大量人力、物力和时间。此时，如何在训练数据不足的情况下提高预测模型的精度，成为分子研究领域的难点和热点。

发明内容

根据本公开的示例性实现方式，提供了一种用于管理分子预测的方案。

在本公开的第一方面，提供了一种用于管理分子预测的方法。在该方法中，从预训练模型中的一部分网络层中获取上游模型，预训练模型描述分子结构和分子能量之间的关联关系。基于分子预测目标确定下游模型，下游模型的输出层是基于分子预测目标确定的。基于上游模型和下游模型生成分子预测模型，分子预测模型描述分子结构和与分子结构相关联的分子预测目标之间的关联关系。

在本公开的第二方面，提供了一种用于管理分子预测的装置。该装置包括：获取模块，被配置用于从预训练模型中的一部分网络层中获取上游模型，预训练模型描述分子结构和分子能量之间的关联关系；确定模块，被配置用于基于分子预测目标确定下游模型，下游模型的输出层是基于分子预测目标确定的；以及生成模块，被配置用于基于上游模型和下游模型生成分子预测模型，分子预测模型描述分子结构和与分子结构相关联的分子预测目标之间的关联关系。

在本公开的第三方面，提供了一种电子设备。该电子设备包括：至少一个处理单元；以及至少一个存储器，至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令，指令在由至少一个处理单元执行时使电子设备执行根据本公开第一方面的方法。

在本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序在被处理器执行时使处理器实现根据本公开第一方面的方法。

应当理解，本发明内容部分中所描述的内容并非旨在限定本公开的实现方式的关键特征或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

附图说明

在下文中，结合附图并参考以下详细说明，本公开各实现方式的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了本公开的实现方式能够在其中实现的示例环境的框图；

图2示出了根据本公开的一些实现方式的用于管理分子预测的过程的框图；

图3示出了根据本公开的一些实现方式的用于基于预训练模型来生成分子预测模型的过程的框图；

图4示出了根据本公开的一些实现方式的用于获取预训练模型的过程的框图；

图5示出了根据本公开的一些实现方式的用于预训练模型的损失函数的框图；

图6示出了根据本公开的一些实现方式的用于获取分子预测模型的过程的框图；

图7示出了根据本公开的一些实现方式的用于分子预测模型的损失函数的框图；

图8示出了根据本公开的一些实现方式的用于管理分子预测的方法的流程图；

图9示出了根据本公开的一些实现方式的用于管理分子预测的装置的框图；以及

图10示出了能够实施本公开的多个实现方式的设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实现方式。虽然附图中示出了本公开的某些实现方式，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实现方式，相反，提供这些实现方式是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实现方式仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实现方式的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实现方式”或“该实现方式”应当理解为“至少一个实现方式”。术语“一些实现方式”应当理解为“至少一些实现方式”。下文还可能包括其他明确的和隐含的定义。如本文中所使用的，术语“模型”可以表示各个数据之间的关联关系。例如，可以基于目前已知的和/或将在未来开发的多种技术方案来获取上述关联关系。

可以理解的是，本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。

可以理解的是，在使用本公开各实施例公开的技术方案之前，均应当根据相关法律法规通过适当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。

例如，在响应于接收到用户的主动请求时，向用户发送提示信息，以明确地提示用户，其请求执行的操作将需要获取和使用到用户的个人信息。从而，使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。

作为一种可选的但非限制性的实现方式，响应于接收到用户的主动请求，向用户发送提示信息的方式，例如可以是弹窗的方式，弹窗中可以以文字的方式呈现提示信息。此外，弹窗中还可以承载供用户选择“同意”或“不同意”向电子设备提供个人信息的选择控件。

可以理解的是，上述通知和获取用户授权过程仅是示意性的，不对本公开的实现方式构成限定，其他满足相关法律法规的方式也可应用于本公开的实现方式中。

示例环境

图1示出了本公开的实现方式能够在其中实现的示例环境100的框图。在图1的环境100中，期望训练和使用这样的模型(即，预测模型130)，该模型被配置用于预测具有特定分子结构的分子特性(例如，分子力场、分子性质(如，可溶性、稳定性，等)，等等。如图1所示，环境100包括模型训练系统150和模型应用系统152。图1上部示出了模型训练阶段的过程，并且下部示出模型应用阶段的过程。在训练前，预测模型130的参数值可以具有初始值，或者可以具有通过预训练过程获得经预训练的参数值。经过训练过程，预测模型130的参数值可以被更新和调整。在训练完成后可以获得预测模型130’。此时，预测模型130’的参数值已经被更新，并且基于已更新的参数值，预测模型130在模型应用阶段可以被用于实现预测任务。

在模型训练阶段，可以基于包括多个训练数据112的训练数据集110，并利用模型训练系统150来训练预测模型130。在此，每个训练数据112可以涉及二元组格式，并且包括分子结构120和分子特性122。在本公开的上下文中，在不同的训练数据112中，分子特性122可以包括分子力场、分子性质(如可溶性、稳定性等)、和/或其他特性。

此时，可以利用包括分子结构120和分子特性122的训练数据112来训练预测模型130。具体地，可以利用大量训练数据迭代地执行训练过程。在训练完成之后，预测模型130可以确定与不同分子结构相关联的分子特性。在模型应用阶段，可以利用模型应用系统152来调用预测模型130’(此时的预测模型130’具有训练后的参数值)。例如，可以接收输入数据140(包括目标分子结构142)，并且输出该目标分子结构142的分子特性的预测结果144。

在图1中，模型训练系统150和模型应用系统152可以包括具有计算能力的任何计算系统，例如各种计算设备/系统、终端设备、服务器等。终端设备可以涉及任意类型的移动终端、固定终端或便携式终端，包括移动手机、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、媒体计算机、多媒体平板、或者前述各项的任意组合，包括这些设备的配件和外设或者其任意组合。服务器包括但不限于大型机、边缘计算节点、云环境中的计算设备，等等。

应当理解，图1示出的环境100中的部件和布置仅仅是示例，适于用于实现本公开所描述的示例性实现方式的计算系统可以包括一个或多个不同的部件、其他部件和/或不同的布置方式。例如，虽然被示出为是分离的，但模型训练系统150和模型应用系统152可以集成在相同系统或设备中。本公开的实现方式在此方面不受限制。以下将继续参考附图，分别描述模型训练和模型应用的示例性实现方式。

将会理解，训练数据112中的分子特性122应当与预测目标(也即，期望预测模型130输出的目标)一致。换言之，当期望预测分子力场时，训练数据112中的分子特性122应当是分子力场的测量数据，此时预测模型130可以接收分子结构并且输出相应的分子力场的预测值；当期望预测分子性质(例如，可溶性)时，训练数据112中的分子特性122应当是可溶性的测量数据，此时预测模型130可以接收分子结构并且输出相应的可溶性的预测值。

为了保证预测精度，不得不采集大量训练数据来训练预测模型130。然而，在大多数请情况下，仅仅存在少量训练数据，这可能会需要大量实验。进一步，在分子研究领域中涉及数以百万计(甚至更多)的常用分子结构，这导致需要针对各个分子结构设计专用实验来获得其分子特性。同时，在分子研究领域中存在众多预测目标，此时不得不针对众多预测目标单独采集训练数据。

目前已经提出了预训练-微调的技术方案，这些技术方案侧重于自我监督学习策略。然而，在分子相关的预测模型中，输入(分子结构)和输出(分子特性)对于分子建模具有不同的内在要求。自监督学习任务只能表示分子结构，但缺乏连接输入和输出的中间知识。自学预训练可以在一定程度上填补这一空白，然而由于缺乏大规模的标记数据，可能会损害下游任务的性能。

此外，目前已经提出了有监督的预训练技术方案，该技术方案可以基于分子结构来针对大量分子进行多任务预测。然而，该技术方案可能会导致下游任务的负迁移，也即基于该技术方案获得的预测模型与下游任务没有“真正相关”，这导致预测的精度不能令人满意。此时，期望能够利用用于特定预测目标的有限训练数据，来获得更为精确的预测模型。

分子预测模型的架构

为了解决上述技术方案中的不足，根据本公开的一个示例性实现方式，提出了两阶段训练的技术方案。具体地，第一阶段为预训练过程，该过程关注于特定分子结构所提供的基本物理特性(例如，分子能量)，可以首先获得预训练模型。第二阶段关注于微调，也即关注于分子的基本物理特性与其他预测目标之间的关联关系，此时可以微调预训练模型，进而获得精度较高的预测模型。

利用本公开的示例性实现方式，在预训练阶段可以基于大量已知的公开数据来生成预训练模型。之后，基于预训练模型建立实现特定预测目标的分子预测模型，并且利用实现该特定预测目标的少量专用训练数据，来针对分子预测模型进行微调。以此方式，在专用训练数据有限的情况下，可以提高分子预测模型的精度。

在下文中，参见图2描述根据本公开的一个示例性实现方式的概要。图2示出了根据本公开的一些实现方式的用于管理分子预测的过程的框图200。如图2所示，可以首先确定预训练模型240，该预训练模型240可以描述分子结构和分子能量之间的关联关系。预训练模型240可以包括多个网络层，并且可以利用预训练模型240生成用于特定分子预测目标250的分子预测模型210。在此，分子预测模型210可以包括上游模型220和下游模型230，并且可以从预训练模型240的多个网络层中选择一部分网络层242，来形成上游模型220。

将会理解，分子结构是建立在光谱学数据之上，用于描述分子中原子的三维排列方式。将会理解，分子结构是分子的内在基础，并且在很大程度上决定了分子的其他特性。具有特定分子结构的分子将具有类似特性，并且这些特性通常是由分子能量所确定的。根据本公开的一个示例性实现方式，由于分子结构和分子能量是分子相关的其他特性的基础，提出了利用预训练模型240(描述分子结构和分子能量之间的关联关系)来构建实现特定预测目标的分子预测模型210。

此时，预训练模型240的多个网络层已经积累了有关分子内在因素的丰富知识，可以利用直接多个网络层中的某些网络层构建分子预测模型210。以此方式，可以大大降低从零基础训练分子预测模型210的训练样本需求，并且保持分子预测模型210的精度。将会理解，由于目前存在众多公开可获得的分子数据集，可以利用这些数据集来生成预训练模型240。

进一步，可以基于特定分子预测目标250来确定下游模型230，并且下游模型230的输出层是基于分子预测目标250确定的。在此，分子预测目标250表示期望分子预测模型210输出的目标。可以基于上游模型220和下游模型230生成分子预测模型210，以便描述分子结构和与分子结构相关联的分子预测目标250之间的关联关系。在此，分子预测目标250可以表示期望输出的目标，例如，分子力场、分子性质或者其他目标。

利用本公开的示例性实现方式，一方面可以降低训练分子预测模型210所需的专用训练数据的数量，另一方面可以在不同预测目标(例如，分子力场、分子性质，等)之间共享预训练模型240，进而提高生成分子预测模型210的效率。

模型训练过程

在下文中，将参见图3描述有关基于预训练模型240来构建分子预测模型210的更多细节。图3示出了根据本公开的一些实现方式的用于基于预训练模型240来生成分子预测模型210的过程的框图300。如图3所示，预训练模型240可以描述分子结构310和分子能量314之间的关联关系。预训练模型240可以包括N个网络层，具体地，第1层作为输入层，用于接收输入的分子结构310，并且第N层作为输出层312来输出分子能量314。

根据本公开的一个示例性实现方式，可以从预训练模型240中的多个网络层中的输出层312以外的一组网络层中，确定上游模型220。例如，可以直接将预训练模型240中的前N-1个网络层作为分子预测模型210的上游模型220。进一步，可以基于分子预测目标250来生成下游模型230。以此方式，分子预测模型210可以直接利用第1层至第N层中所获得的有关分子的多方面知识，进而将其应用于执行与特定分子预测目标250相关联的预测任务。如图所示，分子预测模型210可以接收分子结构320，并且输出与分子预测目标250相对应的目标值322。

在下文中，将详细描述有关获取预训练模型240的更多细节。根据本公开的一个示例性实现方式，可以根据分子预测目标250来选择用于实现预训练模型240的骨干模型。例如，当分子预测目标250为预测分子力场时，可以基于几何消息传递神经网络(Geometric Message Passing Neural Network，缩写GemNet)模型来实现预训练模型240。当分子预测目标250为预测分子性质时，可以基于等变图神经网络(E(n)-Equivariant Graph Neural Network，缩写EGNN)模型来实现预训练模型240。备选地和/或附加地，还可以选择以下任一模型：对称梯度域机器学习(Symmetric Gradient Domain Machine Learning，缩写sGDML)模型、NequIP模型、GemNet-T模型，等等。

备选地和/或附加地，可以从预训练模型240选择其他数量的网络层，例如，可以选择第1个至第N-2个网络层，或者可以选择更少的网络层。尽管此时所选择的网络层的数量较小，所选网络层中仍然包括有关分子的多方面知识。此时，仍然可以降低训练分子预测模型210所需的训练样本的数量。

可以将针对预训练模型240执行的训练过程称为预训练过程，在下文中，将参见图4描述有关预训练过程的更多细节。图4示出了根据本公开的一些实现方式用于获取预训练模型240的过程的框图400。如图4所示，可以利用预训练数据集410中的预训练数据420来训练预训练模型240，以使得与预训练模型240相关联的损失函数430满足预定条件，预训练数据420可以包括样本分子结构422和样本分子能量424。

将会理解，分子能量的相关研究已经得到长期并且广泛的实践，并且目前已经提供了大量公开数据集。例如，PubChemQC PM6数据集是一个公开数据集，该数据集包括数亿的分子结构及其相对应的电子特性。又例如，量子机器9(Quantum Machine 9，缩写QM9)数据集提供了有关分子的几何结构、能量、电子和热动力学特性。可以使用这些公开数据集(或者其中的一部分)作为训练数据，以便获得预训练模型240。换言之，在经过训练过程之后，即可得到预训练模型240中的第1至N个网络层的具体配置。

如图4所示，预训练数据集410可以包括多个训练数据420，并且训练数据420可以包括样本分子结构422和样本分子能量424。在下文中，将仅以PubChemQC PM6数据集作为预训练数据集410的具体示例，描述如何执行预训练过程。PubChemQC PM6数据集包括大量分子结构及其相应的电子特性。例如，该数据集包括大约八千六百万个优化的3D分子结构及其相关的分子能量。可以利用这些分子结构和分子能量，作为训练数据。具体地，可以选择预训练模型240的骨干模型，并且构建预训练模型240的损失函数430，该损失函数430可以表示样本数据的真值和预测值之间的差异，进而使得预训练过程可以朝向使得该差异逐渐缩小的方向，来迭代地优化预训练模型240。

利用本公开的示例性实现方式，可以直接使用公开可获得的各种数据集来作为预训练数据集410。一方面，这些公开可获得的数据集包括巨大数量的样本数据，因而可以在无需准备专门训练数据的情况下，获得分子结构和分子能量的基础知识。另一方面，这些数据集中的样本数据是经过长时间研究并且已经被证明为准确或者较为准确的数据，基于这些样本数据来执行预训练过程，可以获得较为准确的预训练模型240。进一步，由于实现特定分子预测目标250的分子预测模型210包括预训练模型240中的一部分，这继而可以确保后续生成的分子预测模型210的也是可靠的。

根据本公开的一个示例性实现方式，损失函数430可以包括多方面内容，图5示出了根据本公开的一些实现方式用于预训练模型240的损失函数430的框图500。如图5所示，损失函数430可以包括能量损失510，在此能量损失510表示样本分子能量424和基于样本分子结构422获得的样本分子能量424的预测值之间的差异。具体地，可以基于如下公式1来确定能量损失510。

在公式1中，符号表示能量损失510，符号R表示分子结构，符号E表示具有分子结构R的分子的分子能量，Z表示预训练模型240，表示基于分子结构R和预训练模型240所获得的分子能量E的预测值，并且d表示E和之间的差异。根据本公开的一个示例性实现方式，可以采用不同格式描述分子结构。例如，可以以SMILES或者其他格式表示分子结构；又例如，可以进一步通过RDKIT等工具获得原子坐标形式的分子结构；再例如，可以以分子图的形式表示分子结构。

利用本公开的示例性实现方式，公式1可以以量化方式表示预训练的目标。以此方式，可以基于预训练数据集410中的各个预训练数据420，朝向将能量损失510最小化的方式调整预训练模型240的各个网络层的参数，以便使得预训练模型240可以准确地描述分子结构310和分子能量314之间的关联关系。

将会理解，下游预测任务的训练数据集通常仅提供SMILES格式的分子结构而并不提供精确的原子坐标。此时，损失函数430可以包括估计能量损失520，该估计能量损失520表示样本分子能量424和基于样本分子结构422获得的样本分子能量424的预测值之间的差异，在此样本分子结构是估计的。具体地，可以基于如下公式2来确定估计能量损失520。

在公式2中，符号表示估计能量损失520，符号R_noisy表示估计的分子结构，符号E表示具有分子结构R_noisy的分子的分子能量，Z表示预训练模型240，表示基于估计的分子结构R_noisy和预训练模型240所获得的分子能量E的预测值，并且d表示E和之间的差异。此时，可以基于RDKIT等工具来从SMILES确定估计的分子结构。利用本公开的示例性实现方式，公式2可以以量化方式表示预训练的目标。此时，估计的分子结构R_noisy的表达方式与下游任务的输入的分子结构相一致，由此可以提高预测结果的准确性。

备选地和/或附加地，在预训练过程中可以进一步提供数据增强，也即，基于训练数据集410中的已有数据确定额外的损失函数。具体地，损失函数430可以包括力损失530，力损失530表示基于样本分子结构422获得的样本分子能量424的预测值相对于样本分子结构422的梯度与预定梯度(例如，0)之间的差异。将会理解，PubChemQC PM6数据集是出于分子优化几何结构目的来建立的，因而可以将分子能量最小化。分子力表示能量相对于原子坐标的梯度，由于此时分子较为稳定，因而梯度应当具有接近0的数值。此时，可以基于预训练数据集410中的预训练数据420实现数据增强，也即，针对原子施加的潜在力是能量的梯度。这等效于假设针对力的标签为0的监督学习损失。也即，可以基于如下公式3来确定力损失530。

在公式3中，表示力损失530，表示基于分子结构R和预训练模型Z获得的分子能量的预测值相对于分子结构的梯度，F表示预定梯度(F＝0)，并且表示计算的梯度和预定梯度F＝0之间的差异。利用本公开的示例性实现方式，可以针对预训练数据集410进行数据增强，以便在预训练模型240中包括有关分子力的更多知识。以此方式，可以提高预训练模型240的精度，进而在分子预测目标250涉及分子力场时提供更为准确的预测结果。

根据本公开的一个示例性实现方式，可以基于公式1至3中的任一项来确定损失函数430。进一步，可以综合考虑1至3中的两个或者更多公式，例如，可以基于如下公式4至7中的任一项来确定用于预训练的损失函数430。

在公式4至7中，各符号的含义与上文公式所述相同，并且α和β分别表示预先确定的[0,1]之间的数值。根据本公开的一个示例性实现方式，可以基于具体预测目标来确定损失函数430。例如，当期望预测分子力场时，可以使用公式3、4、6或者7。当下游数据涉及估计的分子结构时，可以使用公式2、5、6、或者7，等等。

根据本公开的一个示例性实现方式，可以指定预定的停止条件，以便在预训练模型240满足该停止条件时，停止预训练过程。利用本公开的示例性实现方式，可以将复杂的预训练过程转换为基于公式1至7实现的简单数学运算。以此方式，可以在无需准备专用训练数据的情况下，利用公开的训练数据集610获得较高精度的预训练模型240。

上文已经描述了预训练的具体过程，在已经获得预训练模型240之后，可以直接将该预训练模型240中的第1至N-1个网络层作为分子预测模型210的上游模型220。进一步，可以基于分子预测目标250确定分子预测模型210的下游模型230。具体地，下游模型230可以包括一个或多个个网络层。根据本公开的一个示例性实现方式，分子预测目标250可以包括分子力场和/或分子性质。此时，可以利用单一网络层实现下游模型230，也即下游模型230仅包括单一输出层。备选地和/或附加地，下游模型230还可以包括两个或者更多的网络层。此时，下游模型230中的多个网络层中的最后的网络层是下游模型230的输出层。

根据本公开的一个示例性实现方式，可以连接上游模型220和下游模型230，以便获得最终的分子预测模型210。将会理解，上游模型220中的各项参数是直接从预训练模型240中获取的，并且下游模型230的参数可以被设置为任意初始值和/或经由其他方式获得的数值。根据本公开的一个示例性实现方式，可以使用随机初始值。下游任务可能要求最终输出层具有与预训练不同维度的输出，或者即使维度相同，由于微调时提供了更少的偏差损失梯度，随机初始化输出层的参数通常可以达到更高精度的分子预测模型210。

继而，可以将分子预测模型210作为整体预测模型，并利用与分子预测目标250相关联的专用数据集进行训练。利用本公开的示例性实现方式，由于上游模型220已经包括有关分子的各种知识，此时使用少量的专用训练数据，即可获得较高精度的分子预测模型210。

进一步，参见图6描述训练分子预测模型210的更多细节。如图6所示，可以利用训练数据集610中的训练数据620来训练分子预测模型210，以使得与分子预测模型210相关联的损失函数630满足预定条件。在此，训练数据620可以包括样本分子结构622和与分子预测目标250相对应的样本目标测量值624。具体地，假设分子预测目标250为分子力场，则样本目标测量值624可以是分子力场的测量值；假设分子预测目标250为可溶性，则样本目标测量值624可以是可溶性的测量值。

根据本公开的一个示例性实现方式，可以获取与分子预测目标250相对应的训练数据集610，该训练数据集610可以是为了分子预测目标250所准备的专用数据集(例如，通过实验等方式)。相对于包括大量预训练数据(例如，数百万甚至更多)的预训练数据集410而言，训练数据集610通常包括较少的训练数据(例如，数千甚至更少)。以此方式，不必采集海量专用训练数据，而是可以使用有限的专用训练数据即可获得更高精度的分子预测模型210。

根据本公开的一个示例性实现方式，可以为分子预测模型210构造损失函数630。图7示出了根据本公开的一些实现方式用于分子预测模型210的损失函数630的框图700。如图7所示，分子预测模型210的损失函数630可以包括能量损失710，也即包括样本目标测量值624和基于样本分子结构622获得的样本目标测量值624的预测值之间的差异。

当期望预测分子性质时，可以基于如下公式8来确定能量损失710。

在公式8中，表示分子预测模型210的性质损失710，y表示训练数据620中的样本目标测量值624(对应于分子结构R)，并且表示基于分子结构R和分子预测模型210获得的预测值，并且表示y和之间的差异。以此方式，可以通过公式8来确定损失函数630，进而朝向使得损失函数630最小化的方向执行微调。以此方式，可以将微调分子预测模型210的复杂过程转换为简单并且有效的数学运算。

根据本公开的一个示例性实现方式，当期望预测分子力场时，分子预测模型210的损失函数630可以进一步包括力场损失720。该力场损失720包括基于样本分子结构622获得的样本分子能量624的预测值相对于样本分子结构622的梯度与预定梯度之间的差异。具体地，可以基于如下公式9来确定力场损失720。

在公式8中，表示分子预测模型210的力场损失720，各符号的含义与上文公式所述相同，并且γ表示预先确定的[0,1]之间的数值。以此方式，可以通过公式0来确定损失函数，进而将微调分子预测模型210的复杂过程转换为简单并且有效的数学运算。利用本公开的示例性实现方式，可以以更为准确并且有效的方式获得分子预测模型210。

上文已经参见附图描述了用于获取分子预测模型210的过程。利用本公开的示例性实现方式，可以基于已知的公开数据集中的大量数据获取预训练模型240。进一步，可以基于包括有限数量训练数据的较小专用训练数据集，进一步微调分子预测模型210。以此方式，可以在训练精度和准备大量专用训练数据的多种开销之间执行有效的平衡，进而以较小的代价获得较高精度的分子预测模型210。

模型应用过程

上文已经描述了的对分子预测模型210的训练，在下文中，将描述如何使用分子预测模型210确定与分子预测目标250相关联的预测值。根据本公开的一个示例性实现方式，在已经完成模型训练阶段之后，可以使用已经训练好的、具有训练后的参数值的分子预测模型210来处理接收到的输入数据。如果接收到目标分子结构，可以基于分子预测模型210确定与分子预测目标相对应的预测值。

例如，可以向分子预测模型210输入待处理的目标分子结构。此时目标分子结构可以基于SMILES格式或者原子坐标形式来表示。分子预测模型210即可输出该模板分子结构相对应的预测值。在此，依赖于分子预测目标250，预测值可以包括相应目标的预测值。具体地，当分子预测模型210用于预测分子力场时，则分子预测模型210可以输出分子力场的预测值。以此方式，训练后的分子预测模型210可以具有较高的精度，进而为后续的处理操作提供判断依据。

根据本公开的一个示例性实现方式，在预测分子力场的应用环境中，使用分子预测模型210的预测结果在域内测试和域外测试两方面都获得了更高的精度。例如，下文表1示出了域内测试数据。

表1域内测试数据

在表1中，行表示不同预测模型所基于的骨干模型，并且列表示基于不同预测模型得出的有关分子力场的预测值的误差数据。具体地，第2行“阿司匹林”中的各项数据表示：使用sGDML模型预测阿司匹林的分子力场的相关误差为33.0，使用NequIP模型的相关误差数据为14.7，使用GemNet-T模型的相关误差数据为12.6，并且利用根据本公开的方法改进后的GemNet-T的相关误差数据为10.2。可见，相对改进达到了19.0％。类似地，表1中的其他列示出了针对其他分子的分子力场预测的相关数据。从表1可见，利用本公开的示例性实现方式，可以大大降低分子力场预测的误差，并且提供更高的准确度。进一步，改进GemNet-T在域外测试中也获得了较高的准确度。

根据本公开的一个示例性实现方式，在预测分子性质的应用环境中，分子预测模型210可以输出可溶性的预测值。可以利用本公开的方法来改进EGNN模型，以便用于预测分子性质。此时，改进的EGNN模型实现了更好的预测效果。将会理解，尽管上文以可溶性作为分子性质的示例，在此的分子性质可以包括分子的多方面的性质，例如，可溶性、稳定性、反应性、极性、相态、颜色、磁性和生物活性，等等。利用本公开的示例性实现方式，可以在仅使用较少专用训练数据的情况下，获得准确并且可靠的分子预测模型210，并且利用分子预测模型210来预测分子性质。

示例过程

图8示出了根据本公开的一些实现方式的用于管理分子预测的方法800的流程图。具体地，在框810处，从预训练模型中的一部分网络层中获取上游模型，预训练模型描述分子结构和分子能量之间的关联关系；在框820处，基于分子预测目标确定下游模型，下游模型的输出层是基于分子预测目标确定的；以及在框830处，基于上游模型和下游模型生成分子预测模型，分子预测模型描述分子结构和与分子结构相关联的分子预测目标之间的关联关系。

根据本公开的一个示例性实现方式，获取上游模型包括：获取预训练模型，预训练模型包括多个网络层；以及从多个网络层中的预训练模型的输出层以外的一组网络层中，选择上游模型。

根据本公开的一个示例性实现方式，获取预训练模型包括：利用预训练数据集中的预训练数据来训练预训练模型，以使得与预训练模型相关联的损失函数满足预定条件，预训练数据包括样本分子结构和样本分子能量。

根据本公开的一个示例性实现方式，损失函数包括以下至少任一项：能量损失，能量损失表示样本分子能量和基于样本分子结构获得的样本分子能量的预测值之间的差异；估计能量损失，估计能量损失表示样本分子能量和基于样本分子结构获得的样本分子能量的预测值之间的差异，样本分子结构是估计的；以及力损失，力损失表示基于样本分子结构获得的样本分子能量的预测值相对于样本分子结构的梯度与预定梯度之间的差异。

根据本公开的一个示例性实现方式，分子预测目标包括以下至少任一项：分子性质和分子力场，并且预训练模型是基于分子预测目标来选择的。

根据本公开的一个示例性实现方式，下游模型包括至少一个下游网络层，并且至少一个下游网络层中的最后下游网络层是下游模型的输出层。

根据本公开的一个示例性实现方式，基于上游模型和下游模型生成分子预测模型包括：连接上游模型和下游模型以形成分子预测模型；以及利用训练数据集中的训练数据，训练分子预测模型以使得分子预测模型的损失函数满足预定条件，训练数据包括样本分子结构和与分子预测目标相对应的样本目标测量值。

根据本公开的一个示例性实现方式，分子预测模型的损失函数包括样本目标测量值和基于样本分子结构获得的样本目标测量值的预测值之间的差异。

根据本公开的一个示例性实现方式，响应于确定分子预测目标为分子力场，分子预测模型的损失函数进一步包括：基于样本分子结构获得的样本分子能量的预测值相对于样本分子结构的梯度与预定梯度之间的差异。

根据本公开的一个示例性实现方式，该方法800进一步包括：响应于接收到目标分子结构，基于分子预测模型确定与分子预测目标相对应的预测值。

示例装置和设备

图9示出了根据本公开的一些实现方式的用于管理分子预测的装置900的框图。该装置900包括：获取模块910，被配置用于从预训练模型中的一部分网络层中获取上游模型，预训练模型描述分子结构和分子能量之间的关联关系；确定模块920，被配置用于基于分子预测目标确定下游模型，下游模型的输出层是基于分子预测目标确定的；以及生成模块930，被配置用于基于上游模型和下游模型生成分子预测模型，分子预测模型描述分子结构和与分子结构相关联的分子预测目标之间的关联关系。

根据本公开的一个示例性实现方式，获取模块910包括：预获取模块，被配置用于获取预训练模型，预训练模型包括多个网络层；以及选择模块，被配置用于从多个网络层中的预训练模型的输出层以外的一组网络层中，选择上游模型。

根据本公开的一个示例性实现方式，预获取模块包括：预训练模块，被配置用于利用预训练数据集中的预训练数据来训练预训练模型，以使得与预训练模型相关联的损失函数满足预定条件，预训练数据包括样本分子结构和样本分子能量。

根据本公开的一个示例性实现方式，生成模块930包括：连接模块，被配置用于连接上游模型和下游模型以形成分子预测模型；以及训练模块，被配置用于利用训练数据集中的训练数据，训练分子预测模型以使得分子预测模型的损失函数满足预定条件，训练数据包括样本分子结构和与分子预测目标相对应的样本目标测量值。

根据本公开的一个示例性实现方式，该装置900进一步包括：预测值确定模块，被配置用于响应于接收到目标分子结构，基于分子预测模型确定与分子预测目标相对应的预测值。

图10示出了能够实施本公开的多个实现方式的设备1000的框图。应当理解，图10所示出的计算设备1000仅仅是示例性的，而不应当构成对本文所描述的实现方式的功能和范围的任何限制。图10所示出的计算设备1000可以用于实现如图6所示方法600。

如图10所示，计算设备1000是通用计算设备的形式。计算设备1000的组件可以包括但不限于一个或多个处理器或处理单元1010、存储器1020、存储设备1030、一个或多个通信单元1040、一个或多个输入设备1050以及一个或多个输出设备1060。处理单元1010可以是实际或虚拟处理器并且能够根据存储器1020中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高计算设备1000的并行处理能力。

计算设备1000通常包括多个计算机存储介质。这样的介质可以是计算设备1000可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器1020可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备1030可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，诸如闪存驱动、磁盘或者任何其他介质，其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在计算设备1000内被访问。

计算设备1000可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图10中示出，可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器1020可以包括计算机程序产品1025，其具有一个或多个程序模块，这些程序模块被配置为执行本公开的各种实现方式的各种方法或动作。

通信单元1040实现通过通信介质与其他计算设备进行通信。附加地，计算设备1000的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算设备1000可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。

输入设备1050可以是一个或多个输入设备，例如鼠标、键盘、追踪球等。输出设备1060可以是一个或多个输出设备，例如显示器、扬声器、打印机等。计算设备1000还可以根据需要通过通信单元1040与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与计算设备1000交互的设备进行通信，或者与使得计算设备1000与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

根据本公开的示例性实现方式，提供了一种计算机可读存储介质，其上存储有计算机可执行指令，其中计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式，还提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令，而计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式，提供了一种计算机程序产品，其上存储有计算机程序，程序被处理器执行时实现上文描述的方法。

这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实现，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文公开的各个实现方式。

Claims

一种用于管理分子预测的方法，包括：

从预训练模型中的一部分网络层中获取上游模型，所述预训练模型描述分子结构和分子能量之间的关联关系；

基于分子预测目标确定下游模型，所述下游模型的输出层是基于所述分子预测目标确定的；以及

基于所述上游模型和所述下游模型生成所述分子预测模型，所述分子预测模型描述分子结构和与所述分子结构相关联的分子预测目标之间的关联关系。
根据权利要求1的所述方法，其中获取所述上游模型包括：

获取所述预训练模型，所述预训练模型包括多个网络层；以及

从所述多个网络层中的所述预训练模型的输出层以外的一组网络层中，选择所述上游模型。
根据权利要求1或2的所述方法，其中获取所述预训练模型包括：利用预训练数据集中的预训练数据来训练所述预训练模型，以使得与所述预训练模型相关联的损失函数满足预定条件，所述预训练数据包括样本分子结构和样本分子能量。
根据权利要求3的所述方法，其中所述损失函数包括以下至少任一项：

能量损失，所述能量损失表示所述样本分子能量和基于所述样本分子结构获得的所述样本分子能量的预测值之间的差异；

估计能量损失，所述估计能量损失表示所述样本分子能量和基于所述样本分子结构获得的所述样本分子能量的预测值之间的差异，所述样本分子结构是估计的；以及

力损失，所述力损失表示基于所述样本分子结构获得的所述样本分子能量的预测值相对于所述样本分子结构的梯度与预定梯度之间的差异。
根据权利要求1或2的所述方法，其中所述分子预测目标包括以下至少任一项：分子性质和分子力场，并且所述预训练模型是基于所述分子预测目标来选择的。
根据权利要求5的所述方法，其中所述下游模型包括至少一个下游网络层，并且所述至少一个下游网络层中的最后下游网络层是所述下游模型的所述输出层。
根据权利要求5的所述方法，其中基于所述上游模型和所述下游模型生成所述分子预测模型包括：

连接所述上游模型和所述下游模型以形成所述分子预测模型；以及

利用训练数据集中的训练数据，训练所述分子预测模型以使得所述分子预测模型的损失函数满足预定条件，所述训练数据包括样本分子结构和与所述分子预测目标相对应的样本目标测量值。
根据权利要求7的所述方法，其中所述分子预测模型的所述损失函数包括所述样本目标测量值和基于所述样本分子结构获得的所述样本目标测量值的预测值之间的差异。
根据权利要求8的所述方法，其中响应于确定所述分子预测目标为所述分子力场，所述分子预测模型的所述损失函数进一步包括：基于所述样本分子结构获得的所述样本分子能量的预测值相对于所述样本分子结构的梯度与预定梯度之间的差异。
根据权利要求1或2的所述方法，进一步包括：响应于接收到目标分子结构，基于所述分子预测模型确定与所述分子预测目标相对应的预测值。
一种用于管理分子预测的装置，包括：

获取模块，被配置用于从预训练模型中的一部分网络层中获取上游模型，所述预训练模型描述分子结构和分子能量之间的关联关系；

确定模块，被配置用于基于分子预测目标确定下游模型，所述下游模型的输出层是基于所述分子预测目标确定的；以及

生成模块，被配置用于基于所述上游模型和所述下游模型生成所述分子预测模型，所述分子预测模型描述分子结构和与所述分子结构相关联的分子预测目标之间的关联关系。
根据权利要求11的所述装置，其中所述获取模块包括：

预获取模块，被配置用于获取所述预训练模型，所述预训练模型包括多个网络层；以及

选择模块，被配置用于从所述多个网络层中的所述预训练模型的输出层以外的一组网络层中，选择所述上游模型。
根据权利要求11或12的所述装置，其中所述预获取模块包括：预训练模块，被配置用于利用预训练数据集中的预训练数据来训练所述预训练模型，以使得与所述预训练模型相关联的损失函数满足预定条件，所述预训练数据包括样本分子结构和样本分子能量。
根据权利要求13的所述装置，其中所述损失函数包括以下至少任一项：

能量损失，所述能量损失表示所述样本分子能量和基于所述样本分子结构获得的所述样本分子能量的预测值之间的差异；

估计能量损失，所述估计能量损失表示所述样本分子能量和基于所述样本分子结构获得的所述样本分子能量的预测值之间的差异，所述样本分子结构是估计的；以及

力损失，所述力损失表示基于所述样本分子结构获得的所述样本分子能量的预测值相对于所述样本分子结构的梯度与预定梯度之间的差异。
根据权利要求11或12的所述装置，其中所述分子预测目标包括以下至少任一项：分子性质和分子力场，并且所述预训练模型是基于所述分子预测目标来选择的，其中所述下游模型包括至少一个下游网络层，并且所述至少一个下游网络层中的最后下游网络层是所述下游模型的所述输出层。
根据权利要求15的所述装置，其中所述生成模块包括：

连接模块，被配置用于连接所述上游模型和所述下游模型以形成所述分子预测模型；以及

训练模块，被配置用于利用训练数据集中的训练数据，训练所述分子预测模型以使得所述分子预测模型的损失函数满足预定条件，所述训练数据包括样本分子结构和与所述分子预测目标相对应的样本目标测量值。
根据权利要求16的所述装置，其中所述分子预测模型的所述损失函数包括所述样本目标测量值和基于所述样本分子结构获得的所述样本目标测量值的预测值之间的差异，

其中响应于确定所述分子预测目标为所述分子力场，所述分子预测模型的所述损失函数进一步包括：基于所述样本分子结构获得的所述样本分子能量的预测值相对于所述样本分子结构的梯度与预定梯度之间的差异。
根据权利要求11或12的所述装置，进一步包括：预测值确定模块，被配置用于响应于接收到目标分子结构，基于所述分子预测模型确定与所述分子预测目标相对应的预测值。
一种电子设备，包括：

至少一个处理单元；以及

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令在由所述至少一个处理单元执行时使所述电子设备执行根据权利要求1至10中任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时使所述处理器实现根据权利要求1至10中任一项所述的方法。