WO2021114625A1

WO2021114625A1 - 用于多任务场景的网络结构构建方法和装置

Info

Publication number: WO2021114625A1
Application number: PCT/CN2020/099261
Authority: WO
Inventors: 朱威; 李恬静; 何义龙
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-05-28
Filing date: 2020-06-30
Publication date: 2021-06-17
Also published as: CN111666763A

Abstract

一种用于多任务场景的网络结构构建方法、装置、设备和存储介质，涉及人工智能中的机器学习，包括：获取训练集（210），将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型，得到各个目标语义任务对应的子预测结果，调整多任务网络模型的网络参数，直到得到与当前网络结构对应的当前目标网络参数（220）；获取多任务网络模型对应的搜索空间，获取验证集，通过搜索可微网络搜索空间调整当前目标网络参数对应的多任务网络模型的结构参数，搜索时将多任务网络模型的隐含状态向量分为多个有序的子隐含状态向量，直到多任务网络模型在验证集上的输出结果满足收敛条件，得到目标结构参数，得到已训练的多任务网络模型（230）。

Description

用于多任务场景的网络结构构建方法和装置

相关申请的交叉引用

本申请要求于2020年05月28日提交中国专利局，申请号为202010468557.3，申请名称为″用于多任务场景的网络结构构建方法和装置″的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，特别是涉及一种用于多任务场景的网络结构构建方法、装置、计算机设备和存储介质。

背景技术

机器学习(ML，Machine Learning)是人工智能的一个分支，机器学习的目的是让机器根据先验的知识进行学习，从而具有分类和判断的逻辑能力。以神经网络为代表的机器学习模型不断发展，被越来越多地应用到各个行业中。

多任务学习机制在现代的人工智能产品应用方面有很广泛的应用。发明人意识到，多任务指需要对输入针对不同的任务得到对应的识别结果，原始的解决方案是每个子任务训练一个模型，经过部署后，每个模型都要训练一次，训练耗时，预测速度慢，且由工程师们自己手动尝试不同的神经网络架构，然后根据验证集的表现确定目标架构。由于多任务场景的网络架构学习的复杂性，很难人工设计出非常好的神经网络结构。传统的模型结构自动搜索方法主要针对分类问题，无法直接应用于多任务场景的模型结构自动搜索。通过人工不断尝试的方法构建多任务场景的模型结构，复杂度高，效率低，系统资源占用率大。

发明内容

根据本申请公开的各种实施例，提供一种用于多任务场景的网络结构构建方法、装置、计算机设备和存储介质。

一种用于多任务场景的网络结构构建方法，所述方法包括：

获取训练集，所述训练集包括多个不同目标语义任务对应的训练子样本，训练子样本包括训练子文本数据和训练子标签数据；

将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型，得到各个目标语义任务对应的子预测结果，根据子预测结果与对应的训练子标签数据的差异调整所述多任务网络模型的网络参数，直到得到与当前网络结构对应的当前目标网络参数；及

获取所述多任务网络模型对应的搜索空间，形成可微网络搜索空间，获取验证集，根据所述验证集通过搜索可微网络搜索空间调整所述当前目标网络参数对应的多任务网络模型的结构参数，搜索时将所述多任务网络模型的隐含状态向量分为多个有序的子隐含状态向量，按预设顺序获取当次搜索对应的子隐含状态向量，将子隐含状态向量输入对应的网络层进行训练，得到更新的多任务网络模型，返回将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型的步骤，直到多任务网络模型在所述验证集上的输出结果满足收敛条件，得到目标结构参数，获取与目标结构参数匹配的网络参数，根据所述目标结构参数和匹配的网络参数得到已训练的多任务网络模型。

一种用于多任务场景的网络结构构建装置，所述装置包括：

获取模块，用于获取训练集，所述训练集包括多个不同目标语义任务对应的训练子样本，训练子样本包括训练子文本数据和训练子标签数据；

网络参数调整模块，用于将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型，得到各个目标语义任务对应的子预测结果，根据子预测结果与对应的训练子标签数据的差异调整所述多任务网络模型的网络参数，直到得到与当前网络结构对应的当前目标网络参数；及

网络结构构建模块，用于获取所述多任务网络模型对应的搜索空间，形成可微网络搜索空间，获取验证集，根据所述验证集通过搜索可微网络搜索空间调整所述当前目标网络参数对应的多任务网络模型的结构参数，搜索时将所述多任务网络模型的隐含状态向量分为多个有序的子隐含状态向量，按预设顺序获取当次搜索对应的子隐含状态向量，将子隐含状态向量输入对应的网络层进行训练，得到更新的多任务网络模型，返回网络参数调整模块，直到多任务网络模型在所述验证集上的输出结果满足收敛条件，得到目标结构参数，获取与目标结构参数匹配的网络参数，根据所述目标结构参数和匹配的网络参数得到已训练的多任务网络模型。

一种计算机设备，包括存储器和一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述一个或多个处理器执行以下步骤：

一个或多个存储有计算机可读指令的计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：

上述用于多任务场景的网络结构构建方法、装置、计算机设备和存储介质，具有自动发现最适合已有的多任务场景数据集的网络架构，不需要人工尝试很多不同模型就能提高多任务系统的精度，通过部分链接有效降低可微分搜索时候的资源消耗，而且使得搜索收敛更快更稳定，在提升系统精度的同时降低了系统开发所需的人力和计算资源成本，提高效率和降低系统资源占用率。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为根据一个或多个实施例中用于多任务场景的网络结构构建方法的应用环境图；

图2为根据一个或多个实施例中用于多任务场景的网络结构构建方法的流程示意图；

图3为根据一个或多个实施例中用于多任务场景的网络结构构建装置的结构框图；

图4为根据一个或多个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的用于多任务场景的网络结构构建方法，可以应用于如图1所示的应用环境中。图1为一个实施例中用于多任务场景的网络结构构建方法运行的应用环境图。如图1所示，该应用环境包括终端110、服务器120。终端、服务器之间通过网络进行通信，通信网络可以是无线或者有线通信网络，例如IP网络、蜂窝移动通信网络等，其中终端和服务器的个数不限。

其中，终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。可以在终端110或服务器120获取训练集，训练集包括多个不同目标语义任务对应的训练子样本，训练子样本包括训练子文本数据和训练子标签数据；将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型，得到各个目标语义任务对应的子预测结果，根据子预测结果与对应的训练子标签数据的差异调整所述多任务网络模型的网络参数，直到得到与当前网络结构对应的当前目标网络参数；获取多任务网络模型对应的搜索空间，形成可微网络搜索空间，获取验证集，根据验证集通过搜索可微网络搜索空间调整当前目标网络参数对应的多任务网络模型的结构参数，搜索时将多任务网络模型的隐含状态向量分为多个有序的子隐含状态向量，按预设顺序获取当次搜索对应的子隐含状态向量，将子隐含状态向量输入对应的网络层进行训练，得到更新的多任务网络模型，返回将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型的步骤，直到多任务网络模型在验证集上的输出结果满足收敛条件，得到目标结构参数，获取与目标结构参数匹配的网络参数，根据目标结构参数和匹配的网络参数得到已训练的多任务网络模型。

在其中一个实施例中，如图2所示，提供了一种用于多任务场景的网络结构构建方法，以该方法应用于图1中的终端110或服务器120为例进行说明，包括以下步骤：

步骤210，获取训练集，训练集包括多个不同目标语义任务对应的训练子样本，训练子样本包括训练子文本数据和训练子标签数据。

其中，多个不同目标语义任务对应的训练子样本组成训练集，目标语义任务是多任务场景对应的多个不同类型的任务，如对于语义分析类型的任务包括实体识别、句子分类，意图识别，句子对相似度等任务。其中目标语义任务的数量与待确定网络结构的多任务网络模型的目标识别结果对应，其中多任务网络模型可以是语义分析网络。如语义分析网络的目标识别结果包括输入文本的实体识别和用途识别，则目标语义任务包括实体识别任务和用途识别任务。如在接收到用户的问句时”二甲双胍怎么吃”，既要识别里面的实体”二甲双胍”，又要识别这句话的用意意图，即用户想问用法用量。

具体地，不同的目标语义任务有对应的训练子样本，以适应多任务场景，如第一目标语义任务对应第一训练子样本，第二目标语义任务对应第二训练子样本，各个训练子样本都包括训练子文本数据和训练标签数据，其中训练子标签数据是已确定对应任务结果的训练文本数据对应的任务识别结果，这个任务识别结果即作为与目标语义任务对应的训练子标签数据。

步骤220，将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型，得到各个目标语义任务对应的子预测结果，根据子预测结果与对应的训练子标签数据的差异调整多任务网络模型的网络参数，直到得到与当前网络结构对应的当前目标网络参数。

具体地，将训练样本中的训练子文本数据以目标语义任务为单位分步输入待确定网络结构的多任务网络模型，其中分步是指第一目标语义任务对应的训练子文本数据先输入，得到第一目标语义任务对应的第一子预测结果，然后接着输入第二目标语义任务对应的训练子文本数据，得到第二目标语义任务对应的第二子预测结果，直到各个目标语义任务对应的训练子文本数据依次分步输入得到对应的子预测结果。每个子预测结果都存在对应的训练子标签数据，从而计算得到各个目标语义任务对应的子差异，根据各个子差异构建损失函数，再按照最小化该损失函数的方向反向传播，调整多任务网络模型的网络参数并继续训练，直至满足训练结束条件。通过最小化训练损失，获得与多任务网络模型的结构相关的当前目标网络参数，即当前最优权重w。

步骤230，获取多任务网络模型对应的搜索空间，形成可微网络搜索空间，获取验证集，根据验证集通过搜索可微网络搜索空间调整当前目标网络参数对应的多任务网络模型的结构参数，搜索时将多任务网络模型的隐含状态向量分为多个有序的子隐含状态向量，按预设顺序获取当次搜索对应的子隐含状态向量，将子隐含状态向量输入对应的网络层进行训练，得到更新的多任务网络模型，返回将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型的步骤，直到多任务网络模型在验证集上的输出结果满足收敛条件，得到目标结构参数，获取与目标结构参数匹配的网络参数，根据目标结构参数和匹配的网络参数得到已训练的多任务网络模型。

其中，定义搜索空间，搜索空间中包含各种操作符，有LSTM(Long Short-Term Memory，长短期记忆网络)，门控循环单元GRU，一维卷积、多头注意力(multi-head attention)等，其中操作符的核的大小可为1，3，5等，其中注意力头的数量可为1，2，4，8等。

具体地，多任务网络模型看成由多个单元cell堆叠而成，而一个cell是一个有向图，由N个有序节点组成，经过有向边连接构成，把搜索空间连续松弛化，而每个有向边(□，□)代表一种操作符，看成是所有子操作的混合，可以通过softmax权值叠加实现。以下为softmax公式：

其中，o(x)是随机初始化的对每个子操作的权重，因为训练的需要，所以不能限定其是否是0到1之间的数。这个公式就是将其转化为0-1之间的数，这样所有子操作的权重就加起来等于1。有向边(i，j)的子操作混合权重为α ^(i，j)。维度为|O|即有向边(i，j)间子操作的总个数；o()表示当前子操作。更新结构参数和网络参数，学习最优的权重参数，优化目标是一个双层的Bi-level优化问题，即

s.t.

优化方法是交叉梯度下降，沿着L _train(w _k-1，α _k-1)对w _k-1的梯度更新一次w网络参数，沿着L _train(w _k，α _k-1)对α _k-1的梯度更新一次多任务网络模型的结构参数α。

搜索时对多任务网络模型的隐含状态进行部分链接，如隐含状态向量包括300维，将300维分为6个有序的子隐含状态向量，每个子隐含状态向量包括50维，每次调整参数时，选取一个子隐含状态向量，即选取50维，进行一步可微分搜索，下一步，按顺序选取另外一个子隐含状态向量，依次进行选取将子隐含状态向量输入对应的网络层进行训练，得到更新的多任务网络模型，返回将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型的步骤，直到多任务网络模型在验证集上的输出结果满足收敛条件，得到目标结构参数，获取与目标结构参数匹配的网络参数，根据目标结构参数和匹配的网络参数得到已训练的多任务网络模型。优化完毕后，激活最大的权重即目标结构参数所对应的操作符，去除其他操作符，得到的便是已训练的多任务网络模型。

上述用于多任务场景的网络结构构建方法，具有自动发现最适合已有的多任务场景数据集的网络架构，不需要人工尝试很多不同模型就能提高多任务系统的精度，通过部分链接有效降低可微分搜索时候的资源消耗，而且使得搜索收敛更快更稳定，在提升系统精度的同时降低了系统开发所需的人力和计算资源成本，提高效率和降低系统资源占用率。

在其中一个实施例中，搜索可微网络搜索空间通过以下共享方式中的至少一种：可微网络搜索空间中多头注意力的矩阵参数共享；多任务网络模型的池化层的搜索时，基于胶囊网络的多个操作符，共享映射网络的参数；获取多任务网络模型的节点间的连接关系，将具有同一个起始节点的节点组成节点集合，不同节点集合中的节点对应的操作符进行参数共享。

具体地，多头注意力的3个矩阵(W_Q，W_K，W_V)可以参数共享，基于胶囊网络的操作符4个，可以共享一个映射网络的参数。比如1-＞2的操作符可以共享给3-＞4；能够共享的规则是节点之间不共有同一个起点，即可以共享，将具有同一个起始节点的节点组成节点集合，不同节点集合中的节点对应的操作符进行参数共享。参数共享有效降低可微分搜索时候的资源消耗，而且使得搜索收敛更快更稳定。

在其中一个实施例中，步骤220中将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型，得到各个目标语义任务对应的子预测结果包括：将当前目标语义任务对应的当前训练子文本数据进行分词，将各个分词映射到对应的向量，组成向量集；经过编码器对向量集提取语义特征，根据语义特征得到当前目标语义任务对应的子预测结果，其中当前目标语义任务是各个目标语义任务中的一个。

具体地，将当前目标语义任务对应的当前训练子文本数据进行分词，可采用自定义的分词算法，不同的目标语义任务的分词算法可以不同。将各个分词映射到对应的向量，可以采用自定义的映射算法。当当前目标语义任务为不同的目标语义任务时，对应的编码器可不同或相同，从而可针对不同的目标语义任务提取不同的语义特征，根据语义特征得到当前目标语义任务对应的子预测结果。

本实施例中，先将当前目标语义任务对应的当前训练子文本数据进行分词映射到对应的向量，组成向量集，再经过编码器对向量集提取语义特征，得到当前目标语义任务对应的子预测结果，分词的多样化和编码器的多样化提高了各个目标语义任务得到对应的子预测结果的便利性，可灵活针对不同的目标语义任务配置不同的分词算法和编码器。

在其中一个实施例中，步骤220中将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型，得到各个目标语义任务对应的子预测结果包括：计算当前目标语义任务对应的当前训练子文本数据与数据库中的候选文本对应的相似度，得到与当前训练子文本数据匹配的相似子文本数据；将当前训练子文本数据对应的第一向量集输入第一编码器提取语义特征得到第一语义特征，将相似子文本数据对应的第二向量集输入第二编码器提取语义特征得到第二语义特征；根据第一语义特征和第二语义特征得到当前目标语义任务对应的子预测结果。

具体地，数据库中的候选文本可以是表达相对标准的文本，通过相似度查找得到训练子文本数据对应的相似子文本数据，因为表达相对标准，便于后续提取得到语义特征更有效，通过将两个编码器得到的不同语义特征相结合得到当前目标语义任务对应的子预测结果，提高了子预测结果的准确度。其中第一编码器可以称为premise编码器，第二编码器可以称为hypothesis编码器。

当当前目标语义任务为不同的目标语义任务时，第一编码器和第二编码器可共享，通过编码器共享，提高了资源利用率，提高了训练的效率。由于一个输入文本形成了两个输入文本，对应的目标语义任务也可包括基于文本对的语义任务，如问答语句任务、句子相似度计算任务，以一个句子为条件下的另一个句子的概率任务等。

本实施例中，获取训练子文本数据匹配的相似子文本数据，通过将两个编码器得到的不同语义特征相结合得到当前目标语义任务对应的子预测结果，提高了子预测结果的准确度，也提高了目标语义任务形式的多样化。

在其中一个实施例中，第一编码器和第二编码器的权重共享。

具体地，权重共享是指卷积核参数共享，也就是第一编码器的卷积核参数与第二编码器的卷积核参数相同。通过权重共享减少参数数量，通过多任务系统机制，以及premise编码器和hypothesis编码器的权重共享，降低多任务系统部署时的显存占用，降低成本。

在其中一个实施例中，根据子预测结果与对应的训练子标签数据的差异调整多任务网络模型的网络参数包括：获取各个目标语义任务对应的子预测结果与训练子标签数据，得到与各个目标语义任务对应的子差异；获取各个目标语义任务对应的任务权重，根据任务权重对各个子差异进行加权得到统计子差异；根据统计子差异调整多任务网络模型的网络参数。

具体地，其中目标语义任务对应的任务权重表示目标语义任务的重要程度，任务权重越大，说明此任务对应的重要度越高。如对于一个文本，其主要的任务在于识别文本的实体，次要的任务在于识别文本的中的实体的用法，则实体识别任务对应的任务权重大于实体的用法识别对应任务权重。通过任务权重对子差异进行加权，使得重要的任务对应的加权系数大，从而根据统计子差异调整多任务网络模型的网络参数时，重要的任务在调整参数时影响度更高。

本实施例中，通过对各个目标语义任务配置对应的任务权重，可以灵活控制不同的目标语义任务对多任务网络模型的网络参数调整的影响度。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在其中一个实施例中，如图3所示，提供了一种用于多任务场景的网络结构构建装置，包括：获取模块310、网络参数调整模块320、网络结构构建模块330，其中：

获取模块310，用于获取训练集，训练集包括多个不同目标语义任务对应的训练子样本，训练子样本包括训练子文本数据和训练子标签数据。

网络参数调整模块320，用于将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型，得到各个目标语义任务对应的子预测结果，根据子预测结果与对应的训练子标签数据的差异调整多任务网络模型的网络参数，直到得到与当前网络结构对应的当前目标网络参数。

网络结构构建模块330，用于获取多任务网络模型对应的搜索空间，形成可微网络搜索空间，获取验证集，根据验证集通过搜索可微网络搜索空间调整当前目标网络参数对应的多任务网络模型的结构参数，搜索时将多任务网络模型的隐含状态向量分为多个有序的子隐含状态向量，按预设顺序获取当次搜索对应的子隐含状态向量，将子隐含状态向量输入对应的网络层进行训练，得到更新的多任务网络模型，返回网络参数调整模块，直到多任务网络模型在验证集上的输出结果满足收敛条件，得到目标结构参数，获取与目标结构参数匹配的网络参数，根据目标结构参数和匹配的网络参数得到已训练的多任务网络模型。

在其中一个实施例中，网络结构构建模块330还用于搜索可微网络搜索空间通过以下共享方式中的至少一种：可微网络搜索空间中多头注意力的矩阵参数共享；多任务网络模型的池化层的搜索时，基于胶囊网络的多个操作符，共享映射网络的参数；获取多任务网络模型的节点间的连接关系，将具有同一个起始节点的节点组成节点集合，不同节点集合中的节点对应的操作符进行参数共享。

在其中一个实施例中，网络参数调整模块320还用于将当前目标语义任务对应的当前训练子文本数据进行分词，将各个分词映射到对应的向量，组成向量集；经过编码器对向量集提取语义特征，根据语义特征得到当前目标语义任务对应的子预测结果，其中当前目标语义任务是各个目标语义任务中的一个。

在其中一个实施例中，网络参数调整模块320还用于计算当前目标语义任务对应的当前训练子文本数据与数据库中的候选文本对应的相似度，得到与当前训练子文本数据匹配的相似子文本数据；将当前训练子文本数据对应的第一向量集输入第一编码器提取语义特征得到第一语义特征，将相似子文本数据对应的第二向量集输入第二编码器提取语义特征得到第二语义特征；根据第一语义特征和第二语义特征得到当前目标语义任务对应的子预测结果。

在其中一个实施例中，网络参数调整模块320还用于获取各个目标语义任务对应的子预测结果与训练子标签数据，得到与各个目标语义任务对应的子差异；获取各个目标语义任务对应的任务权重，根据任务权重对各个子差异进行加权得到统计子差异；根据统计子差异调整多任务网络模型的网络参数。

关于用于多任务场景的网络结构构建装置的具体限定可以参见上文中对于用于多任务场景的网络结构构建方法的限定，在此不再赘述。上述用于多任务场景的网络结构构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在其中一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性或易失性存储介质、内存储器。该非易失性或易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性或易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储训练集。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种用于多任务场景的网络结构构建方法。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。在一些实施例中，计算机设备可以是终端。

一种计算机设备，包括存储器和一个或多个处理器，存储器中储存有计算机可读指令，计算机可读指令被处理器执行时，使得一个或多个处理器执行以下步骤：获取训练集，训练集包括多个不同目标语义任务对应的训练子样本，训练子样本包括训练子文本数据和训练子标签数据；将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型，得到各个目标语义任务对应的子预测结果，根据子预测结果与对应的训练子标签数据的差异调整所述多任务网络模型的网络参数，直到得到与当前网络结构对应的当前目标网络参数；获取多任务网络模型对应的搜索空间，形成可微网络搜索空间，获取验证集，根据所述验证集通过搜索可微网络搜索空间调整所述当前目标网络参数对应的多任务网络模型的结构参数，搜索时将多任务网络模型的隐含状态向量分为多个有序的子隐含状态向量，按预设顺序获取当次搜索对应的子隐含状态向量，将子隐含状态向量输入对应的网络层进行训练，得到更新的多任务网络模型，返回将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型的步骤，直到多任务网络模型在验证集上的输出结果满足收敛条件，得到目标结构参数，获取与目标结构参数匹配的网络参数，根据目标结构参数和匹配的网络参数得到已训练的多任务网络模型。

在其中一个实施例中，处理器执行计算机可读指令时还实现以下步骤中的至少一种：可微网络搜索空间中多头注意力的矩阵参数共享；多任务网络模型的池化层的搜索时，基于胶囊网络的多个操作符，共享映射网络的参数；获取多任务网络模型的节点间的连接关系，将具有同一个起始节点的节点组成节点集合，不同节点集合中的节点对应的操作符进行参数共享。

在其中一个实施例中，处理器执行计算机可读指令时还实现以下步骤：将当前目标语义任务对应的当前训练子文本数据进行分词，将各个分词映射到对应的向量，组成向量集；经过编码器对向量集提取语义特征，根据语义特征得到当前目标语义任务对应的子预测结果，其中当前目标语义任务是各个目标语义任务中的一个。

在其中一个实施例中，处理器执行计算机可读指令时还实现以下步骤：计算当前目标语义任务对应的当前训练子文本数据与数据库中的候选文本对应的相似度，得到与所述当前训练子文本数据匹配的相似子文本数据；将当前训练子文本数据对应的第一向量集输入第一编码器提取语义特征得到第一语义特征，将相似子文本数据对应的第二向量集输入第二编码器提取语义特征得到第二语义特征；根据第一语义特征和第二语义特征得到当前目标语义任务对应的子预测结果。

在其中一个实施例中，处理器执行计算机可读指令时还实现以下步骤：获取各个目标语义任务对应的子预测结果与训练子标签数据，得到与各个目标语义任务对应的子差异；获取各个目标语义任务对应的任务权重，根据任务权重对各个子差异进行加权得到统计子差异；根据统计子差异调整多任务网络模型的网络参数。

在一个或多个存储有计算机可读指令的计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：获取训练集，训练集包括多个不同目标语义任务对应的训练子样本，训练子样本包括训练子文本数据和训练子标签数据；将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型，得到各个目标语义任务对应的子预测结果，根据子预测结果与对应的训练子标签数据的差异调整所述多任务网络模型的网络参数，直到得到与当前网络结构对应的当前目标网络参数；获取多任务网络模型对应的搜索空间，形成可微网络搜索空间，获取验证集，根据所述验证集通过搜索可微网络搜索空间调整所述当前目标网络参数对应的多任务网络模型的结构参数，搜索时将多任务网络模型的隐含状态向量分为多个有序的子隐含状态向量，按预设顺序获取当次搜索对应的子隐含状态向量，将子隐含状态向量输入对应的网络层进行训练，得到更新的多任务网络模型，返回将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型的步骤，直到多任务网络模型在验证集上的输出结果满足收敛条件，得到目标结构参数，获取与目标结构参数匹配的网络参数，根据目标结构参数和匹配的网络参数得到已训练的多任务网络模型。

其中，该计算机可读存储介质可以是非易失性，也可以是易失性的。

在其中一个实施例中，计算机可读指令被处理器执行时还实现以下步骤中的至少一种：可微网络搜索空间中多头注意力的矩阵参数共享；多任务网络模型的池化层的搜索时，基于胶囊网络的多个操作符，共享映射网络的参数；获取多任务网络模型的节点间的连接关系，将具有同一个起始节点的节点组成节点集合，不同节点集合中的节点对应的操作符进行参数共享。

在其中一个实施例中，计算机可读指令被处理器执行时还实现以下步骤：将当前目标语义任务对应的当前训练子文本数据进行分词，将各个分词映射到对应的向量，组成向量集；经过编码器对向量集提取语义特征，根据语义特征得到当前目标语义任务对应的子预测结果，其中当前目标语义任务是各个目标语义任务中的一个。

在其中一个实施例中，计算机可读指令被处理器执行时还实现以下步骤：计算当前目标语义任务对应的当前训练子文本数据与数据库中的候选文本对应的相似度，得到与所述当前训练子文本数据匹配的相似子文本数据；将当前训练子文本数据对应的第一向量集输入第一编码器提取语义特征得到第一语义特征，将相似子文本数据对应的第二向量集输入第二编码器提取语义特征得到第二语义特征；根据第一语义特征和第二语义特征得到当前目标语义任务对应的子预测结果。

在其中一个实施例中，计算机可读指令被处理器执行时还实现以下步骤：获取各个目标语义任务对应的子预测结果与训练子标签数据，得到与各个目标语义任务对应的子差异；获取各个目标语义任务对应的任务权重，根据任务权重对各个子差异进行加权得到统计子差异；根据统计子差异调整多任务网络模型的网络参数。

本申请可应用于智慧政务、智慧安防中，从而推动智慧城市的建设。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种用于多任务场景的网络结构构建方法，包括：

获取训练集，所述训练集包括多个不同目标语义任务对应的训练子样本，训练子样本包括训练子文本数据和训练子标签数据；

将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型，得到各个目标语义任务对应的子预测结果，根据子预测结果与对应的训练子标签数据的差异调整所述多任务网络模型的网络参数，直到得到与当前网络结构对应的当前目标网络参数；及

获取所述多任务网络模型对应的搜索空间，形成可微网络搜索空间，获取验证集，根据所述验证集通过搜索可微网络搜索空间调整所述当前目标网络参数对应的多任务网络模型的结构参数，搜索时将所述多任务网络模型的隐含状态向量分为多个有序的子隐含状态向量，按预设顺序获取当次搜索对应的子隐含状态向量，将子隐含状态向量输入对应的网络层进行训练，得到更新的多任务网络模型，返回将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型的步骤，直到多任务网络模型在所述验证集上的输出结果满足收敛条件，得到目标结构参数，获取与目标结构参数匹配的网络参数，根据所述目标结构参数和匹配的网络参数得到已训练的多任务网络模型。
根据权利要求1所述的方法，其中，所述搜索可微网络搜索空间通过以下共享方式中的至少一种：

所述可微网络搜索空间中多头注意力的矩阵参数共享；

所述多任务网络模型的池化层的搜索时，基于胶囊网络的多个操作符，共享映射网络的参数；及

获取所述多任务网络模型的节点间的连接关系，将具有同一个起始节点的节点组成节点集合，不同节点集合中的节点对应的操作符进行参数共享。
根据权利要求1所述的方法，其中，所述将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型，得到各个目标语义任务对应的子预测结果包括：

将当前目标语义任务对应的当前训练子文本数据进行分词，将各个分词映射到对应的向量，组成向量集；及

经过编码器对所述向量集提取语义特征，根据语义特征得到所述当前目标语义任务对应的子预测结果，其中所述当前目标语义任务是所述各个目标语义任务中的一个。
根据权利要求1所述的方法，其中，所述将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型，得到各个目标语义任务对应的子预测结果包括：

计算当前目标语义任务对应的当前训练子文本数据与数据库中的候选文本对应的相似度，得到与所述当前训练子文本数据匹配的相似子文本数据；

将所述当前训练子文本数据对应的第一向量集输入第一编码器提取语义特征得到第一语义特征，将所述相似子文本数据对应的第二向量集输入第二编码器提取语义特征得到第二语义特征；及

根据所述第一语义特征和第二语义特征得到所述当前目标语义任务对应的子预测结果。
根据权利要求4所述的方法，其中，所述第一编码器和第二编码器的权重共享。
根据权利要求1所述的方法，其中，所述根据子预测结果与对应的训练子标签数据的差异调整所述多任务网络模型的网络参数包括：

获取各个目标语义任务对应的子预测结果与训练子标签数据，得到与各个目标语义任务对应的子差异；

获取各个目标语义任务对应的任务权重，根据任务权重对各个子差异进行加权得到统计子差异；及

根据所述统计子差异调整所述多任务网络模型的网络参数。
一种用于多任务场景的网络结构构建装置，包括：

获取模块，用于获取训练集，所述训练集包括多个不同目标语义任务对应的训练子样本，训练子样本包括训练子文本数据和训练子标签数据；

网络参数调整模块，用于将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型，得到各个目标语义任务对应的子预测结果，根据子预测结果与对应的训练子标签数据的差异调整所述多任务网络模型的网络参数，直到得到与当前网络结构对应的当前目标网络参数；及

网络结构构建模块，用于获取所述多任务网络模型对应的搜索空间，形成可微网络搜索空间，获取验证集，根据所述验证集通过搜索可微网络搜索空间调整所述当前目标网络参数对应的多任务网络模型的结构参数，搜索时将所述多任务网络模型的隐含状态向量分为多个有序的子隐含状态向量，按预设顺序获取当次搜索对应的子隐含状态向量，将子隐含状态向量输入对应的网络层进行训练，得到更新的多任务网络模型，返回网络参数调整模块，直到多任务网络模型在所述验证集上的输出结果满足收敛条件，得到目标结构参数，获取与目标结构参数匹配的网络参数，根据所述目标结构参数和匹配的网络参数得到已训练的多任务网络模型。
根据权利要求7所述的装置，其中，所述网络结构构建模块还用于搜索可微网络搜索空间通过以下共享方式中的至少一种：

所述可微网络搜索空间中多头注意力的矩阵参数共享；

所述多任务网络模型的池化层的搜索时，基于胶囊网络的多个操作符，共享映射网络的参数；及

获取所述多任务网络模型的节点间的连接关系，将具有同一个起始节点的节点组成节点集合，不同节点集合中的节点对应的操作符进行参数共享。
一种计算机设备，包括存储器及一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取训练集，所述训练集包括多个不同目标语义任务对应的训练子样本，训练子样本包括训练子文本数据和训练子标签数据；

将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型，得到各个目标语义任务对应的子预测结果，根据子预测结果与对应的训练子标签数据的差异调整所述多任务网络模型的网络参数，直到得到与当前网络结构对应的当前目标网络参数；及

获取所述多任务网络模型对应的搜索空间，形成可微网络搜索空间，获取验证集，根据所述验证集通过搜索可微网络搜索空间调整所述当前目标网络参数对应的多任务网络模型的结构参数，搜索时将所述多任务网络模型的隐含状态向量分为多个有序的子隐含状态向量，按预设顺序获取当次搜索对应的子隐含状态向量，将子隐含状态向量输入对应的网络层进行训练，得到更新的多任务网络模型，返回将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型的步骤，直到多任务网络模型在所述验证集上的输出结果满足收敛条件，得到目标结构参数，获取与目标结构参数匹配的网络参数，根据所述目标结构参数和匹配的网络参数得到已训练的多任务网络模型。
根据权利要求9所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还执行以下步骤中的至少一种：

所述可微网络搜索空间中多头注意力的矩阵参数共享；

所述多任务网络模型的池化层的搜索时，基于胶囊网络的多个操作符，共享映射网络的参数；及

获取所述多任务网络模型的节点间的连接关系，将具有同一个起始节点的节点组成节点集合，不同节点集合中的节点对应的操作符进行参数共享。
根据权利要求9所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还执行以下步骤：

将当前目标语义任务对应的当前训练子文本数据进行分词，将各个分词映射到对应的向量，组成向量集；及

经过编码器对所述向量集提取语义特征，根据语义特征得到所述当前目标语义任务对应的子预测结果，其中所述当前目标语义任务是所述各个目标语义任务中的一个。
根据权利要求9所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还执行以下步骤：

计算当前目标语义任务对应的当前训练子文本数据与数据库中的候选文本对应的相似度，得到与所述当前训练子文本数据匹配的相似子文本数据；

将所述当前训练子文本数据对应的第一向量集输入第一编码器提取语义特征得到第一语义特征，将所述相似子文本数据对应的第二向量集输入第二编码器提取语义特征得到第二语义特征；及

根据所述第一语义特征和第二语义特征得到所述当前目标语义任务对应的子预测结果。
根据权利要求12所述的计算机设备，其中，所述第一编码器和第二编码器的权重共享。
根据权利要求9所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还执行以下步骤：

获取各个目标语义任务对应的子预测结果与训练子标签数据，得到与各个目标语义任务对应的子差异；

获取各个目标语义任务对应的任务权重，根据任务权重对各个子差异进行加权得到统计子差异；及

根据所述统计子差异调整所述多任务网络模型的网络参数。
一个或多个存储有计算机可读指令的计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取训练集，所述训练集包括多个不同目标语义任务对应的训练子样本，训练子样本包括训练子文本数据和训练子标签数据；

将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型，得到各个目标语义任务对应的子预测结果，根据子预测结果与对应的训练子标签数据的差异调整所述多任务网络模型的网络参数，直到得到与当前网络结构对应的当前目标网络参数；及

获取所述多任务网络模型对应的搜索空间，形成可微网络搜索空间，获取验证集，根据所述验证集通过搜索可微网络搜索空间调整所述当前目标网络参数对应的多任务网络模型的结构参数，搜索时将所述多任务网络模型的隐含状态向量分为多个有序的子隐含状态向量，按预设顺序获取当次搜索对应的子隐含状态向量，将子隐含状态向量输入对应的网络层进行训练，得到更新的多任务网络模型，返回将各个目标语义任务对应的训练子文本数据分步输入待确定网络结构的多任务网络模型的步骤，直到多任务网络模型在所述验证集上的输出结果满足收敛条件，得到目标结构参数，获取与目标结构参数匹配的网络参数，根据所述目标结构参数和匹配的网络参数得到已训练的多任务网络模型。
根据权利要求15所述的存储介质，其中，所述计算机可读指令被所述处理器执行时还执行以下步骤中的至少一种：

所述可微网络搜索空间中多头注意力的矩阵参数共享；

所述多任务网络模型的池化层的搜索时，基于胶囊网络的多个操作符，共享映射网络的参数；及

获取所述多任务网络模型的节点间的连接关系，将具有同一个起始节点的节点组成节点集合，不同节点集合中的节点对应的操作符进行参数共享。
根据权利要求15所述的存储介质，其中，所述计算机可读指令被所述处理器执行时还执行以下步骤：

将当前目标语义任务对应的当前训练子文本数据进行分词，将各个分词映射到对应的向量，组成向量集；及

经过编码器对所述向量集提取语义特征，根据语义特征得到所述当前目标语义任务对应的子预测结果，其中所述当前目标语义任务是所述各个目标语义任务中的一个。
根据权利要求15所述的存储介质，其中，所述计算机可读指令被所述处理器执行时还执行以下步骤：

计算当前目标语义任务对应的当前训练子文本数据与数据库中的候选文本对应的相似度，得到与所述当前训练子文本数据匹配的相似子文本数据；

将所述当前训练子文本数据对应的第一向量集输入第一编码器提取语义特征得到第一语义特征，将所述相似子文本数据对应的第二向量集输入第二编码器提取语义特征得到第二语义特征；及

根据所述第一语义特征和第二语义特征得到所述当前目标语义任务对应的子预测结果。
根据权利要求18所述的存储介质，其中，所述第一编码器和第二编码器的权重共享。
根据权利要求15所述的存储介质，其中，所述计算机可读指令被所述处理器执行时还执行以下步骤：

获取各个目标语义任务对应的子预测结果与训练子标签数据，得到与各个目标语义任务对应的子差异；

获取各个目标语义任务对应的任务权重，根据任务权重对各个子差异进行加权得到统计子差异；及

根据所述统计子差异调整所述多任务网络模型的网络参数。