WO2023279921A1

WO2023279921A1 - 神经网络模型的训练方法、数据处理的方法及装置

Info

Publication number: WO2023279921A1
Application number: PCT/CN2022/098621
Authority: WO
Inventors: 孟庆春
Original assignee: 华为技术有限公司
Priority date: 2021-07-08
Filing date: 2022-06-14
Publication date: 2023-01-12
Also published as: EP4318311A4; EP4318311A1; US20240232618A9; US20240135176A1

Abstract

本申请提供了人工智能领域中的一种神经网络模型的训练方法、数据处理的方法及装置，该训练方法包括：基于第二训练数据集对神经网络模型进行训练，得到目标神经网络模型，神经网络模型包括专家网络层，专家网络层包括第一业务领域的第一专家网络，第一专家网络的初始权重是根据第一词向量矩阵确定的，第一词向量矩阵是基于第一业务领域的第一训练数据集训练得到的。本申请的方法能够减少模型的训练时间，提高模型的训练效率。

Description

神经网络模型的训练方法、数据处理的方法及装置

本申请要求于2021年07月08日提交中国专利局、申请号为202110773754.0、申请名称为“一种自然语言模型的训练方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

本申请要求于2021年08月31日提交中国专利局、申请号为202111014266.8、申请名称为“神经网络模型的训练方法、数据处理的方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能领域，并且更具体地，涉及一种神经网络模型的训练方法、数据处理的方法及装置。

背景技术

人工智能(artificial intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。

在深度学习领域中，大规模的训练能够提高神经网络模型的性能。通常，神经网络模型基于相同的参数对模型的所有输入进行处理。而当模型的参数量增大时，模型所需要的的计算资源也会随之增大。混合专家(mixture of experts，MoE)包括多个专家网络，每个专家网络具有不同的参数。MoE可以针对不同的输入选择性地激活模型中的不同专家网络参与计算。这样能够大幅降低实际参与计算的参数量，减少计算资源的需求量，从而训练规模达到万亿甚至更高的模型。

然而采用MoE的神经网络模型所需的训练时间较长，影响模型的使用。

因此，如何提高模型的训练效率成为一个亟待解决的问题。

发明内容

本申请提供一种神经网络模型的训练方法、数据处理的方法及装置，减少了模型的训练时间，提高了模型的训练效率。

第一方面，提供了一种神经网络模型的训练方法，包括：获取第一词向量矩阵，第一词向量矩阵是基于第一业务领域的第一训练数据集训练得到的；获取第二训练数据集；基于第二训练数据集对神经网络模型进行训练，得到目标神经网络模型，神经网络模型包括专家网络层，专家网络层包括第一业务领域的第一专家网络，第一专家网络的初始权重是根据第一词向量矩阵确定的。

根据本申请实施例的方案，词向量矩阵是根据训练数据集训练得到的，词向量矩阵中包含大量的语义信息，利用词向量矩阵初始化模型中的部分或全部专家网络的权重，能够将语义信息引入专家网络中，为专家网络提供先验知识，减少训练时间，尤其是在神经网络模型的规模较大时，本申请实施例的方案能够大幅减少训练时间。同时，将语义信息引入专家网络中，能够有效提高专家网络的语义表示能力，进而提高模型的训练性能。

结合第一方面，在第一方面的某些实现方式中，方法还包括：获取第二词向量矩阵，第二词向量矩阵是基于第二业务领域的第三训练数据集训练得到的，专家网络层还包括第二业务领域的第二专家网络，第二专家网络的初始权重是根据第二词向量矩阵确定的。

在本申请实施例的方案中，不同的词向量矩阵是基于不同的业务领域的训练数据集训练得到的，具备不同的语义信息，在专家网络层中的不同专家网络是通过不同的词向量矩阵初始化的情况下，不同的专家网络具备不同的语义表示能力，不同的专家网络之间的语义组合能够进一步提升自然语言语义的理解能力，进一步提高模型的性能。

结合第一方面，在第一方面的某些实现方式中，专家网络层用于通过选择的第一专家网络对输入专家网络层的数据进行处理，第一专家网络是根据输入专家网络层的数据选择的。

结合第一方面，在第一方面的某些实现方式中，第一训练数据集是根据第一业务领域的第一知识图谱确定的。

在本申请实施例的方案中，一个业务领域的训练数据集可以是通过该业务领域的知识图谱构建的，该业务领域的知识图谱能够指示该业务领域中的各个实体之间的关系，这样有利于词向量矩阵学习该业务领域的知识，提高语义表示能力。

结合第一方面，在第一方面的某些实现方式中，第一训练数据集是根据第一业务领域的第一知识图谱确定的，包括：第一训练数据集中的至少一个第一文本序列是根据第一知识图谱中的至少一个第一三元组生成的，第一三元组中的三个词语分别用于表示第一业务领域中的主体、第一业务领域中的客体以及主体与客体之间的关系。

一个三元组可以表示为三元组(主体，关系，客体)的形式。主体和客体为业务领域中的概念。

一个文本序列可以是根据一个三元组生成的。换言之，一个三元组可以组成一个句子，即一个文本序列。

示例性地，可以通过语言模型将三元组转换为句子。该语言模型可以是n字(n-gram)语言模型。例如，n可以为2，或者，n可以为3。

结合第一方面，在第一方面的某些实现方式中，第一词向量矩阵是基于第一业务领域的第一训练数据集训练得到的，包括：第一词向量矩阵为第一目标词向量生成模型中的隐层的权重，第一目标词向量生成模型是以至少一个第一文本序列中的目标词语之外的词语作为词向量生成模型的输入，以目标词语为词向量生成模型的目标输出对词向量生成模型进行训练得到的，目标词语为至少一个第一三元组中的词语。

词向量生成模型可以包括输入层、隐层和输出层。隐层为全连接层。

隐层的权重也可以称为嵌入矩阵(embedding matrix)或词向量矩阵。

可选地，至少一个第一文本序列中的目标词语为该至少一个第一三元组中的客体。

可选地，至少一个第一文本序列中的目标词语为该至少一个第一三元组中的主体。

可选地，该至少一个第一文本序列中的目标词语为该至少一个第一三元组中的关系。

结合第一方面，在第一方面的某些实现方式中，第一专家网络的初始权重是根据第一词向量矩阵确定的，包括：第一专家网络的初始权重为第一词向量矩阵。

结合第一方面，在第一方面的某些实现方式中，第一专家网络的初始权重是根据第一词向量矩阵确定的，包括：第一专家网络的初始权重是通过调整第一词向量矩阵得到的。

结合第一方面，在第一方面的某些实现方式中，神经网络模型为自然语言处理(natural language processing，NLP)模型或者语音处理模型。

若神经网络模型为NLP模型，则第二训练数据集中的数据可以为文本数据。

若神经网络模型为语音处理模型，则第二训练数据集中的数据可以为语音数据。

示例性地，语音处理模型可以为端到端的语音处理模型，例如，该端到端的语音处理模型可以为聆听参与拼写(listen，attend，spell，LAS)模型。

第二方面，提供了一种数据处理的方法，包括：获取待处理的数据；

利用目标神经网络模型对待处理的数据进行处理，目标神经网络模型是基于第二训练数据集对神经网络模型进行训练得到的，神经网络模型包括专家网络层，专家网络层包括第一业务领域的第一专家网络，第一专家网络的初始权重是根据第一词向量矩阵确定的，第一词向量矩阵是基于第一业务领域的第一训练数据集训练得到的。

根据本申请实施例的方案，词向量矩阵是根据训练数据集训练得到的，词向量矩阵中包含大量的语义信息，利用词向量矩阵初始化模型中的部分或全部专家网络的权重，能够将语义信息引入专家网络中，为专家网络提供先验知识，减少训练时间，尤其是在神经网络模型的规模较大时，本申请实施例的方案能够大幅减少训练时间。同时，将语义信息引入专家网络中，能够有效提高专家网络的语义表示能力，进而提高目标神经网络模型的性能。

结合第二方面，在第二方面的某些实现方式中，专家网络层还包括第二业务领域的第二专家网络，第二专家网络的初始权重是根据第二词向量矩阵确定的，第二词向量矩阵是基于第二业务领域的第三训练数据集训练得到的。

结合第二方面，在第二方面的某些实现方式中，专家网络层用于通过选择的第一专家网络对输入专家网络层的数据进行处理，第一专家网络是根据输入专家网络层的数据选择的。

结合第二方面，在第二方面的某些实现方式中，第一训练数据集是根据第一业务领域的第一知识图谱确定的。

结合第二方面，在第二方面的某些实现方式中，第一训练数据集是根据第一知识图谱确定的，包括：第一训练数据集中的至少一个第一文本序列是根据第一知识图谱中的至少一个第一三元组生成的，第一三元组中的三个词语分别用于表示第一业务领域中的主体、第一业务领域中的客体以及主体与客体之间的关系。

结合第二方面，在第二方面的某些实现方式中，第一词向量矩阵是基于第一业务领域的第一训练数据集训练得到的，包括：第一词向量矩阵为第一目标词向量生成模型中的隐层的权重，第一目标词向量生成模型是以至少一个第一文本序列中的目标词语之外的词语作为词向量生成模型的输入，以目标词语为词向量生成模型的目标输出对词向量生成模型进行训练得到的，目标词语为至少一个第一三元组中的词语。

结合第二方面，在第二方面的某些实现方式中，第一专家网络的初始权重是根据第一词向量矩阵确定的，包括：第一专家网络的初始权重为第一词向量矩阵。

结合第二方面，在第二方面的某些实现方式中，神经网络模型为自然语言处理NLP模型或语音处理模型。

第三方面，提供了一种神经网络模型的训练装置，该装置包括用于执行上述第一方面的任意一种实现方式的方法的单元。

第四方面，提供了一种数据处理的装置，该装置包括用于执行上述第二方面的任意一种实现方式的方法的单元。

应理解，在上述第一方面中对相关内容的扩展、限定、解释和说明也适用于第二方面、第三方面和第四方面中相同的内容。

第五方面，提供了一种神经网络模型的训练装置，该装置包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行第一方面的任意一种实现方式中的方法。

上述第五方面中的处理器既可以是中央处理器(central processing unit，CPU)，也可以是CPU与神经网络运算处理器的组合，这里的神经网络运算处理器可以包括图形处理器(graphics processing unit，GPU)、神经网络处理器(neural-network processing unit，NPU)和张量处理器(tensor processing unit，TPU)等等。其中，TPU是谷歌(google)为机器学习全定制的人工智能加速器专用集成电路。

第六方面，提供了一种数据处理的装置，该装置包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行第二方面的任意一种实现方式中的方法。

上述第六方面中的处理器既可以是CPU，也可以是CPU与神经网络运算处理器的组合，这里的神经网络运算处理器可以包括GPU、NPU和TPU等等。

第七方面，提供一种计算机可读介质，该计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行第一方面或第二方面中的任意一种实现方式中的方法。

第八方面，提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述第一方面或第二方面中的任意一种实现方式中的方法。

第九方面，提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行上述第一方面或第二方面中的任意一种实现方式中的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行第一方面或第二方面中的任意一种实现方式中的方法。

附图说明

图1为本申请实施例提供的一种对话系统的示意图；

图2为本申请实施例提供的一种词向量生成模型的处理过程的示意图；

图3为本申请实施例提供的一种自然语言处理系统的示意图；

图4为本申请实施例提供的一种系统架构的示意图；

图5为本申请实施例提供的一种神经网络模型的训练装置的示意图；

图6为本申请实施例提供的一种神经网络模型的训练方法的示意性流程图；

图7为本申请实施例提供的一种数据处理的方法的示意性流程图；

图8为本申请实施例提供的一种神经网络模型的训练装置的示意性框图；

图9为本申请实施例提供的一种数据处理的装置的示意性框图；

图10为本申请实施例提供的另一种神经网络模型的训练装置的示意性框图；

图11为本申请实施例提供的另一种数据处理的装置的示意性框图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

本申请实施例可以应用在自然语言处理领域或语音处理领域。

下面以本申请实施例的方案应用于对话系统为例进行说明。

对话系统是自然语言处理领域中的一项重要应用。如图1所示，对话系统包括自动语音识别(automatic speech recognition，ASR)子系统、自然语言理解(natural language understanding，NLU)子系统、对话管理(dialog manager，DM)子系统、自然语言生成(natural language generation，NLG)子系统和文本语音转换(text to speech，TTS)子系统。

ASR子系统将用户输入的音频信息转换为文本信息，NLU子系统通过分析ASR子系统得到的文本信息，解析得到用户的意图，DM子系统根据NLU子系统得到的用户的意图，结合当前的对话状态，执行对应的动作，例如，查询知识库等，并返回结果。NLG子系统根据DM子系统返回的结果生成文本数据，并由TTS子系统将该文本数据转换为音频数据反馈给用户。

在NLU子系统可以利用本申请实施例的方案获得或者优化适用于自然语言理解的神经网络模型。采用本申请实施例的方案能够提高神经网络模型的训练效率，更快地得到神经网络模型。

应理解，此处仅以本申请实施例的方案应用于对话系统中的自然语言理解子系统为例进行说明，不对本申请实施例的方案构成限定。本申请实施例的方案还可以应用于其他与自然语言理解相关的场景中。

由于本申请实施例涉及大量神经网络的应用，为了便于理解，下面先对本申请实施例可能涉及的神经网络的相关术语和概念进行介绍。

(1)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以x _s和截距1为输入的运算单元，该运算单元的输出可以为：

其中，s＝1、2、……n，n为大于1的自然数，W _s为x _s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入，激活函数可以是sigmoid函数。神经网络是将多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(2)深度神经网络

深度神经网络(deep neural network，DNN)，也称多层神经网络，可以理解为具有多层隐含层的神经网络。按照不同层的位置对DNN进行划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。

虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：

其中，

是输入向量，

是输出向量，

是偏移向量，W是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量

经过如此简单的操作得到输出向量

由于DNN层数多，系数W和偏移向量

的数量也比较多。这些参数在DNN中的定义如下所述：以系数W为例：假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。

综上，第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(3)损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断地调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

(4)反向传播算法

神经网络可以采用误差反向传播(back propagation，BP)算法在训练过程中修正初始的神经网络模型中参数的大小，使得神经网络模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的神经网络模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的神经网络模型的参数，例如，权重矩阵。

(5)自然语言处理(natural language processing，NLP)

自然语言(natural language)即人类语言，自然语言处理(NLP)就是对人类语言的处理。自然语言处理是以一种智能与高效的方式，对文本数据进行系统化分析、理解与信息提取的过程。NLP及其组件可以管理非常大块的文本数据，或者执行大量的自动化任务，并且解决各式各样的问题，如自动摘要(automatic summarization)，机器翻译(machine translation，MT)，命名实体识别(named entity recognition，NER)，关系提取(relation extraction，RE)，信息抽取(information extraction，IE)，情感分析，语音识别(speech recognition)，问答系统(question answering)以及主题分割等等。

(6)知识图谱(knowledge graph，KG)

知识图谱是一种揭示实体之间关系的语义网络。在信息的基础上，建立实体之间的联系，以形成“知识”。知识图谱是由一条条知识组成，每条知识可以表示为一个三元组，即由主体(subject)、关系和客体(object)构成的三元组，可以表示为三元组(主体，关系，客体)。

实体，即三元组中的主体和客体，通常表示概念，一般由名词或名词短语组成。关系表示两个实体之间的联系，一般由动词、形容词或名词组成。

例如，三元组(苏格拉底，老师，亚里士多德)所指示的知识为，苏格拉底是亚里士多德的老师。

(7)混合专家(mixture of experts，MoE)系统

混合专家系统是一种神经网络架构，在该类架构中利用本地的输入数据训练若干线性模型，这些线性模型的输出通过门网络产生的权值组合起来，作为MoE的输出。这些线性模型被称作专家，或者也可以称为专家网络或专家模型。

具体地，MoE至少包括一个门网络和多个专家网络。不同的专家网络具有不同的参数。门网络可以针对不同的输入数据选择性地激活MoE中的部分参数。换言之，门网络可以根据不同的输入选择不同的专家网络参与当前输入的实际计算。

同一个专家网络可以部署于多个设备上。换言之，部署于不同设备上的相同的专家网络具有相同的参数。这样，多个设备能够实现参数共享，有利于训练规模较大的模型，例如，参数量达到万亿甚至更高的模型。

(8)词向量

一个词在NLP中通常包括两种表示方式：独热码表示(one-hot representation)和分布式表示(distribution representation)。

分布式表示是将来自词汇表的单词或短语映射到新的空间中，以实数向量，即词向量，表示该单词或短语。这种方式可以称为词嵌入(word embedding)。单词转换为向量(word to vector，word2vec)是词嵌入的一种方式。

Word2vec模型可以包括输入层(input layer)、隐层(hidden layer)和输出层(output layer)。隐层为全连接层。如图2所示，训练好的模型中的隐层的权重即为词向量矩阵，或者，也可以称为嵌入矩阵(embedding matrix)。

word2vec模型包括跳字(skip-gram)模型和连续词袋(continuous bag-of-words，CBOW) 模型两类模型。

skip-gram模型用于基于一个词生成该词的上下文中的词。换言之，将一个词作为skip-gram模型的输入，将该词的上下文中的词作为skip-gram模型的目标输出。例如，以w(t)作为输入，以w(t)的上下文中的w(t-1)、w(t-2)、w(t+1)和w(t+2)作为目标输出。

CBOW模型用于基于一个词的上下文中的词生成该词。换言之，将一个词的上下文中的词作为CBOW模型的输入，以该词作为CBOW模型的目标输出。例如，以w(t)的上下文中的w(t-1)、w(t-2)、w(t+1)和w(t+2)作为输入，将w(t)作为目标输出。

图2示出了一个CBOW模型的处理过程的示意图。输入层中的“1”表示输入“1”的位置对应的词，“0”的表示没有输入“0”的位置对应的词。输出层中的“1”表示输出该“1”的位置对应的词，“0”表示没有输出该“0”的位置对应的词。例如，一个句子为“the dog bark at mailman”，the和bark为dog的上下文，将该句子中的the和bark的one-hot码输入如图2所示的CBOW模型中，即输入层中the和bark对应的位置置1，经过CBOW模型处理后，输出结果中“dog”对应的位置为1，即输出dog。

图3是本申请实施例的一种自然语言处理系统的示意图。

如图3的(a)所示，自然语言处理系统可以包括用户设备以及数据处理设备。用户设备包括用户以及手机、个人电脑或者信息处理中心等智能终端。用户设备为自然语言数据处理的发起端，作为语言问答或者查询等请求的发起方，通常用户通过用户设备发起请求。

数据处理设备可以是云服务器、网络服务器、应用服务器以及管理服务器等具有数据处理功能的设备或服务器。数据处理设备通过交互接口接收来自智能终端的查询语句/语音/文本等问句，再通过存储数据的存储器以及数据处理的处理器环节进行机器学习，深度学习，搜索，推理，决策等方式的语言数据处理。存储器可以是一个统称，包括本地存储以及存储历史数据的数据库，数据库可以位于数据处理设备上，也可以位于其它网络服务器上。

在图3的(a)所示的自然语言处理系统中，用户设备可以接收用户的指令，例如，用户设备可以接收用户输入的一段文本，然后向数据处理设备发起请求，使得数据处理设备针对用户设备得到的该一段文本执行自然语言处理应用(例如，意图识别、文本分类、文本序列标注、翻译等)，从而得到针对该一段文本的对应的自然语言处理应用的处理结果(例如，意图识别、文本分类、文本序列标注、翻译等)。

示例性地，用户设备可以接收用户输入的待处理文本，然后向数据处理设备发起请求，使得数据处理设备对该待处理文本进行分类，从而得到针对该待处理文本的分类结果。其中，分类结果可以是指该待处理文本所指示的用户语义意图，比如，用户用于指示放歌、设置时间、开启导航的意图；或者，分类结果还可以用于指示用户的情感分类结果，比如，分类结果可以指示待处理文本对应的用户情感分类为抑郁、开心或者生气等。

采用本申请实施例的神经网络模型的训练方法得到的目标神经网络模型可以部署于图3的(a)中的数据处理设备中，该目标神经网络模型可以用于执行自然语言处理应用执行自然语言处理应用(例如，意图识别、文本分类、文本序列标注、翻译等)，从而得到自然语言处理应用的处理结果(例如，意图识别、文本分类、文本序列标注、翻译等)。

如图3的(b)所示为自然语言处理系统的另一个应用场景。此场景中智能终端直接作为数据处理设备，直接接收来自用户的输入并直接由智能终端本身的硬件进行处理，具体过程与图3的(a)相似，可参考上面的描述，在此不再赘述。

在图3的(b)所示的自然语言处理系统中，用户设备可以接收用户的指令，由用户设备自身对待处理数据进行处理得到待处理数据的处理结果。

在图3的(b)所示的自然语言处理系统中，用户设备可以接收用户的指令，例如用户设备可以接收用户输入的一段文本，然后再由用户设备自身针对该一段文本执行自然语言处理应用(例如，意图识别、文本分类、文本序列标注、翻译等)，从而得到针对该一段文本的对应的自然语言处理应用的处理结果(例如，意图识别、文本分类、文本序列标注、翻译等)。

采用本申请实施例的神经网络模型的训练方法得到的目标神经网络模型可以部署于图3的(b)中的用户设备中，该目标神经网络模型可以用于执行自然语言处理应用执行自然语言处理应用(例如，意图识别、文本分类、文本序列标注、翻译等)，从而得到自然语言处理应用的处理结果(例如，意图识别、文本分类、文本序列标注、翻译等)。

图3的(c)是本申请实施例提供的自然语言处理系统的相关设备的示意图。

上述图3的(a)和(b)中的用户设备具体可以是如图3的(c)的本地设备301或302，数据处理设备可以是执行设备310，其中数据存储系统350可以集成在执行设备310上，也可以设置在云上或其它网络服务器上。

本地设备301和本地设备302通过通信网络与执行设备310连接。

执行设备310可以由一个或多个服务器实现。可选的，执行设备310可以与其它计算设备配合使用，例如：数据存储器、路由器、负载均衡器等设备。执行设备310可以布置在一个物理站点上，或者分布在多个物理站点上。执行设备310可以使用数据存储系统350中的数据，或者调用数据存储系统350中的程序代码来实现本申请实施例的神经网络模型的训练方法。

具体地，在一种实现方式中，执行设备310可以执行以下过程：

获取第一词向量矩阵，第一词向量矩阵是基于第一业务领域的第一训练数据集训练得到的；

获取第二训练数据集；

基于第二训练数据集对神经网络模型进行训练，得到目标神经网络模型，神经网络模型包括专家网络层，专家网络层包括第一业务领域的第一专家网络，第一专家网络的初始权重是根据第一词向量矩阵确定的。

通过上述过程执行设备310能够获取一个训练好的神经网络，即目标神经网络模型，该目标神经网络模型可以用于进行自然语言处理等等。

示例性地，用户可以操作各自的用户设备(例如本地设备301和本地设备302)与执行设备310进行交互。每个本地设备可以表示任何计算设备，例如个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。

每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与执行设备310进行交互，通信网络可以是广域网、局域网、点对点连接等方式，或它们的任意组合。

在一种实现方式中，本地设备301、本地设备302从执行设备310获取到目标神经网络模型的相关参数，将目标模型部署在本地设备301、本地设备302上，利用目标模型进行语音处理或者文本处理等等。

在另一种实现中，执行设备310上可以直接部署目标神经网络模型，执行设备310通过从本地设备301和本地设备302获取待处理数据，并采用目标神经网络模型对待处理数据进行处理，进一步地，可以将处理结果返回至本地设备301和本地设备302。

需要注意的，执行设备310的所有功能也可以由本地设备实现。例如，本地设备301实现执行设备310的功能并为自己的用户提供服务，或者为本地设备302的用户提供服务。

上述执行设备310也可以为云端设备，此时，执行设备310可以部署在云端；或者，上述执行设备310也可以为终端设备，此时，执行设备310可以部署在用户终端侧，本申请实施例对此并不限定。

如图4所示，本申请实施例提供了一种系统架构100。在图4中，数据采集设备160用于采集训练数据。针对本申请实施例的神经网络模型的训练方法来说，若数据为文本数据，则训练数据可以包括文本序列以及文本序列对应的处理结果，例如，文本序列对应的处理结果可以为对文本系列的意图识别结果。

在采集到训练数据之后，数据采集设备160将这些训练数据存入数据库130，训练设备120基于数据库130中维护的训练数据训练得到目标模型/规则101。

下面对训练设备120基于训练数据得到目标模型/规则101进行描述，训练设备120对输入的原始数据进行处理，将输出值与目标值进行对比，直到训练设备120输出的值与目标值的差值小于一定的阈值，从而完成目标模型/规则101的训练。

上述目标模型/规则101能够用于实现本申请实施例的数据处理方法。本申请实施例中的目标模型/规则101具体可以为神经网络模型。需要说明的是，在实际的应用中，所述数据库130中维护的训练数据不一定都来自于数据采集设备160的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备120也不一定完全基于数据库130维护的训练数据进行目标模型/规则101的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

根据训练设备120训练得到的目标模型/规则101可以应用于不同的系统或设备中，如应用于图4所示的执行设备110。

执行设备110可以是终端，如手机终端，平板电脑，笔记本电脑，增强现实(augmented reality，AR)AR/虚拟现实(virtual reality，VR)，车载终端等，还可以是服务器或者云端等。在图4中，执行设备110配置输入/输出(input/output，I/O)接口112，用于与外部设备进行数据交互，用户可以通过客户设备140向I/O接口112输入数据，输入数据在本申请实施例中可以包括：客户设备输入的待处理的数据。

在执行设备110对输入数据进行预处理，或者在执行设备110的计算模块111执行计算等相关的处理过程中，执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统150中。

最后，I/O接口112将处理结果，如上述得到的数据的处理结果返回给客户设备140，从而提供给用户。

值得说明的是，训练设备120可以针对不同的目标或不同的任务，基于不同的训练数据生成相应的目标模型/规则101，该相应的目标模型/规则101即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

在图4中所示情况下，用户可以手动给定输入数据，该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下，客户设备140可以自动地向I/O接口112发送输入数据，如果要求客户设备140自动发送输入数据需要获得用户的授权，则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端，采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据，并存入数据库130。当然，也可以不经过客户设备140进行采集，而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果，作为新的样本数据存入数据库130。

值得注意的是，图4仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在图4中，数据存储系统150相对执行设备110是外部存储器，在其它情况下，也可以将数据存储系统150置于执行设备110中。

如图4所示，根据训练设备120训练得到目标模型/规则101，该目标模型/规则101在本申请实施例中可以是本申请中的目标神经网络模型。

通过使用MoE能够扩大模型的参数量，训练出规模达到万亿甚至更高的模型，进而提高模型的性能。然而采用MoE的神经网络模型所需的训练时间较长，影响了模型的应用。

本申请实施例提供了一种神经网络模型的训练方法，利用词向量矩阵初始化神经网络模型中的专家网络的权重，能够为模型训练提供先验知识，减少模型的训练时间，提高模型的训练效率。

为了更好地说明本申请实施例的神经网络模型的训练方法，下面结合图5对本申请实施例的神经网络模型的训练装置进行说明。图5所示的装置500可以部署于云服务设备或终端设备上，例如，电脑、服务器、车辆、手机等设备，也可以部署于由云服务设备和终端设备构成的系统上。示例性地，装置500可以为图4中的训练设备120或图3中的执行设备310或本地设备。

装置500包括知识图谱构建模块510、语言生成模块520、词向量矩阵生成模块530和训练模块540。

其中，知识图谱构建模块510用于根据业务领域的语料构建知识图谱。

示例性地，知识图谱可以包括至少一个三元组。具体描述可以参考方法600中的步骤S610。

语言生成模块520用于根据该至少一个三元组生成至少一个文本系列。具体描述可以参考方法600中的步骤S620。

词向量矩阵生成模块530用于基于该至少一个三元组训练得到词向量矩阵。

该至少一个三元组可以构成训练数据集。换言之，词向量矩阵生成模块530用于根据该训练数据集训练得到词向量矩阵。具体描述可以参考方法600中的步骤S630。

训练模块540用于对神经网络模型进行训练，得到目标神经网络模型。其中，目标神经网络模型包括专家网络层。专家网络层中的至少一个专家网络的初始权重是根据词向量矩阵确定的。换言之，根据词向量矩阵初始化专家网络层中的至少一个专家网络的初始权重。具体描述可以参考方法600中的步骤S650。

下面结合图6对本申请实施例中的神经网络模型的训练方法进行说明。

图6示出了本申请实施例提供的神经网络模型的训练方法600。图6所示的方法可以由云服务设备或终端设备执行，例如，电脑、服务器、车辆、手机等装置，也可以是由云服务设备和终端设备构成的系统。示例性地，方法600可以由图4中的训练设备120或图3中的执行设备310或本地设备执行。

方法600包括步骤S610至步骤S650。下面对步骤S610至步骤S650进行详细介绍。

S610，获取至少一个业务领域的知识图谱。

知识图谱可以是根据业务领域的语料构建的。例如，语料可以包括网站文章或图书等。

示例性地，可以通过装置500中的知识图谱构建模块510构建知识图谱。

基于不同业务领域的语料可以分别构建不同业务领域的知识图谱。

示例性地，该至少一个业务领域包括第一业务领域，第一业务领域的第一知识图谱可以是根据第一业务领域的语料构建的知识图谱。

进一步地，该至少一个业务领域还包括第二业务领域，第二业务领域的第二知识图谱可以是根据第二业务领域的语料构建的知识图谱。

例如，第一业务领域为金融领域，第二业务领域为互联网领域，则可以基于金融领域的语料和互联网领域的语料分别构建金融领域的第一知识图谱和互联网领域的第二知识图谱，在步骤S610中，可以获取第一知识图谱和第二知识图谱。

为了便于描述，本申请实施例中仅以第一业务领域和第二业务领域为例对S610进行说明，步骤S610中还可以获取更多的业务领域的知识图谱或更少的业务领域的知识图谱，本申请实施例对知识图谱的数量不做限定。

示例性地，一个知识图谱包括至少一个三元组。

换言之，以三元组的形式表示一个知识图谱中的实体之间的关系。

知识图谱中的三元组包括主体、关系和客体这三个元素，可以表示为三元组(主体，关系，客体)的形式，例如，三元组(苏格拉底，老师，亚里士多德)。其中，主体和客体可以为知识图谱所在业务领域中的概念。关系即用于指示主体和客体之间的联系。

若步骤S610中获取的知识图谱为多个知识图谱，该多个知识图谱中的每个知识图谱均可以包括至少一个三元组。

示例性地，第一知识图谱包括至少一个第一三元组。第一三元组中的三个词语分别用于表示第一业务领域中的主体、第一业务领域中的客体以及主体和客体之间的关系。

第二知识图谱包括至少一个第二三元组。第二三元组中的三个词语分别表示第二业务领域中的主体、第二业务领域中的客体以及主体和客体之间的关系。

应理解，“第一三元组”中的“第一”仅用于限定该三元组为第一知识图谱中的三元组，不具有其他限定作用。换言之，第一知识图谱中的三元组均可以称为第一三元组。

同理，“第二三元组”中的“第二”仅用于限定该三元组为第二知识图谱中的三元组，不具有其他限定作用。换言之，第二知识图谱中的三元组均可以称为第二三元组。

应理解，此处仅为示例，还可以通过三元组以外的其他形式表示知识图谱，本申请实施例对此不做限定。

需要说明的是，步骤S610为可选步骤。

S620，获取至少一个业务领域的训练数据集。

示例性地，该至少一个业务领域包括第一业务领域，则步骤S620可以包括获取第一业务领域的第一训练数据集。

进一步地，该至少一个业务领域还包括第二业务领域，则步骤S620可以包括获取第一业务领域的第一训练数据集和第二业务领域的第三训练数据集。

在方法600包括步骤S610的情况下，步骤S620可以包括：根据该至少一个业务领域的知识图谱分别构建该至少一个业务领域的训练数据集。

换言之，该至少一个业务领域的训练数据集是分别根据该至少一个业务领域的知识图谱确定的。

可选地，第一业务领域的第一训练数据集是根据第一业务领域的第一知识图谱确定的。

进一步地，第二业务领域的第三训练数据集是根据第二业务领域的第二知识图谱确定的。

为了便于描述，本申请实施例中仅以第一业务领域和第二业务领域为例对S620进行说明，步骤S620中还可以获取更多的业务领域的训练数据集或更少的业务领域的训练数据集，其他业务领域的训练数据集的获取方式可以参考第一训练数据集和第二训练数据集的获取方式，本申请实施例对此不做限定。

该至少一个训练数据集中的每个训练数据集包括至少一个文本序列。

示例性地，第一训练数据集包括至少一个第一文本序列。

进一步地，第三训练数据集包括至少一个第二文本序列。

应理解，“第一文本序列”中的“第一”仅用于限定该文本序列为第一训练数据集中的文本序列，不具有其他限定作用。换言之，第一训练数据集中的文本序列均可以称为第一文本序列。

同理，“第二文本序列”中的“第二”仅用于限定该文本序列为第三训练数据集中的文本序列，不具有其他限定作用。换言之，第三训练数据集中的文本序列均可以称为第二文本序列。

可选地，第一训练数据集是根据第一知识图谱确定的，包括：第一训练数据集中的至少一个第一文本序列分别是根据第一知识图谱中的至少一个第一三元组生成的。

第三训练数据集是根据第二知识图谱确定的，包括：第三训练数据集中的至少一个第二文本序列分别是根据第二知识图谱中的至少一个第二三元组生成的。

一个文本序列可以是根据一个三元组生成的。一个文本序列可以视为词向量生成模型的一个训练样本。

换言之，一个三元组可以组成一个句子，即一个文本序列。

例如，根据三元组(苏格拉底，老师，亚里士多德)生成的文本序列可以为，苏格拉底是亚里士多德的老师。

示例性地，可以通过语言模型将三元组转换为句子。该语言模型可以是n字(n-gram) 语言模型。例如，n可以为2，或者，n可以为3。

示例性地，该语言模型可以部署于装置500的语言生成模块520中。即由语言生成模块520将三元组转换为文本序列。

步骤S620中也可以采用其他方式构建至少一个业务领域的训练数据集，例如，在至少一个业务领域分别采集多个文本序列，构成至少一个业务领域的训练数据集。本申请实施例对此不做限定。

示例性地，获取至少一个业务领域的训练数据集可以为构建至少一个业务领域的训练数据集，或者，获取该至少一个业务领域的训练数据集也可以为从其他设备接收该至少一个业务领域的训练数据集，或者，获取该至少一个业务领域的训练数据集还可以为读取本地存储的该至少一个业务领域的训练数据集。在该至少一个业务领域包括多个业务领域的情况下，该多个业务领域的训练数据集的获取方式可以相同，也可以不同。本申请实施例对“获取”的具体方式不做限定。

需要说明的是，步骤S620为可选步骤。

S630，获取至少一个词向量矩阵。该至少一个词向量矩阵分别是基于至少一个业务领域的训练数据集训练得到的。

在方法600包括步骤S620的情况下，步骤S630包括，基于该至少一个训练数据集训练分别得到至少一个词向量矩阵。

示例性地，该至少一个词向量矩阵可以由装置500中的词向量矩阵生成模块530训练得到。

可选地，步骤S630包括获取第一词向量矩阵，第一词向量矩阵是基于第一训练数据集训练得到的。

可选地，步骤S630还包括获取第二词向量矩阵，第二词向量矩阵是基于第三训练数据集训练得到的。

一个业务领域的知识图谱能够指示该业务领域中的各个实体之间的关系，该业务领域的训练数据集可以是通过该业务领域的知识图谱构建的，这样有利于词向量矩阵学习该业务领域的知识，提高语义表示能力。

该至少一个词向量矩阵分别为至少一个目标词向量生成模型中的隐层的权重。该至少一个目标词向量生成模型分别是基于至少一个业务领域的训练数据集对词向量生成模型进行训练得到的。

在该情况下，步骤S630也可以理解为获取至少一个目标词向量生成模型中的隐层的权重。

目标词向量生成模型即为训练好的词向量生成模型。基于不同业务领域的训练数据集对词向量生成模型进行训练，可以得到不同业务领域的目标词向量生成模型。

词向量生成模型可以包括输入层、隐层和输出层。隐层为全连接层。词向量生成模型可以采用现有模型，例如，词向量生成模型可以为CBOW模型。

一个目标词向量模型是以一个业务领域的训练数据集中的至少一个文本序列中的目标词语之外的词语作为词向量生成模型的输入，以目标词语作为词向量生成模型的目标输出对词向量生成模型进行训练得到的，目标词语为该业务领域的知识图谱中的至少一个三元组中的词语。

示例性地，对于一个文本序列而言，将该文本序列中的目标词语以外的词语作为词向量生成模型的输入，以目标词语作为词向量生成模型的目标输出训练该词向量模型。目标词语为该文本序列对应的三元组中的词语。目标词语可以为该三元组中的主体、客体或关系这三个元素中的任一项。

文本序列对应的三元组指的是用于指导生成该文本序列的三元组。或者说，基于该文本序列对应的三元组可以生成该文本序列。

可选地，第一词向量矩阵是基于第一业务领域的第一训练数据集训练得到的，包括：第一词向量矩阵为第一目标词向量生成模型中的隐层的权重，第一目标词向量生成模型是以至少一个第一文本序列中的目标词语之外的词语作为词向量生成模型的输入，以目标词语为词向量生成模型的目标输出对词向量生成模型进行训练得到的，目标词语为至少一个第一三元组中的词语。

具体地，以将该至少一个第一文本序列中该至少一个第一三元组中的客体之外的词作为词向量生成模型的输入，以该至少一个第一三元组中的客体作为词向量生成模型的目标输出训练该词向量生成模型，得到第一目标词向量生成模型。

换言之，对一个文本序列而言，该第一文本序列中该第一文本序列对应的第一三元组中的客体之外的词作为词向量生成模型的输入，该第一文本序列对应的第一三元组中的客体作为词向量生成模型的目标输出。

目标输出也可以理解为一个训练样本的正样本标签。在该情况下，正样本标签即为客体。负样本标签可以为通过负采样得到的单词对。

例如，文本序列为：苏格拉底是亚里士多德的老师。该文本序列对应的三元组为三元组(苏格拉底，老师，亚里士多德)，该三元组中的客体为亚里士多德。将该文本序列中亚里士多德以外的词作为CBOW模型的输入，即将(苏格拉底，是，的，老师)作为CBOW模型的输入。将亚里士多德作为CBOW模型的目标输出。

具体地，以该至少一个第一文本序列中该至少一个第一三元组中的主体之外的词作为词向量生成模型的输入，以该至少一个第一三元组中的主体作为词向量生成模型的目标输出训练该词向量生成模型，得到第一目标词向量生成模型。

换言之，对一个第一文本序列而言，该第一文本序列中该第一文本序列对应的第一三元组中的主体之外的词作为词向量生成模型的输入，该第一文本序列对应的第一三元组中的主体作为词向量生成模型的目标输出。

在该情况下，正样本标签即为主体。负样本标签可以为通过负采样得到的单词对。

例如，文本序列为：苏格拉底是亚里士多德的老师。该文本序列对应的三元组为三元组(苏格拉底，老师，亚里士多德)，该三元组中的主体为苏格拉底。将该文本序列中苏格拉底以外的词作为CBOW模型的输入，即将(是，亚里士多德，的，老师)作为CBOW模型的输入。将苏格拉底作为CBOW模型的目标输出。

具体地，以该至少一个第一文本序列中该多个第一三元组中的关系之外的词作为词向量生成模型的输入，以该至少一个第一三元组中的关系作为词向量生成模型的目标输出训练该词向量生成模型，得到第一目标词向量生成模型。

换言之，对一个第一文本序列而言，该第一文本序列中该第一文本序列对应的三元组中的关系之外的词作为词向量生成模型的输入，该第一文本序列对应的三元组中的关系作为词向量生成模型的目标输出。

在该情况下，正样本标签即为关系。负样本标签可以为通过负采样得到的单词对。

例如，文本序列为：苏格拉底是亚里士多德的老师。该文本序列对应的三元组为三元组(苏格拉底，老师，亚里士多德)，该三元组中的关系为老师。将该文本序列中的老师以外的词作为CBOW模型的输入，即将(苏格拉底，是，亚里士多德，的)作为CBOW模型的输入。将老师作为CBOW模型的目标输出。

可选地，第二词向量矩阵是基于第二业务领域的第三训练数据集训练得到的，包括：

第二词向量矩阵为第二目标词向量生成模型中的隐层的权重，第二目标词向量生成模型是以至少一个第二文本序列中的目标词语之外的词语作为词向量生成模型的输入，以目标词语为词向量生成模型的目标输出对词向量生成模型进行训练得到的，目标词语为至少一个第二三元组中的词语。

第二词向量生成模型的训练过程可以参考上述第一词向量生成模型的训练过程。将上述训练过程中的第一文本序列替换为第二文本序列，将第一三元组替换为第二三元组即可训练得到第二目标词向量生成模型。

应理解，本申请实施例中仅以第一词向量矩阵和第二词向量矩阵为例对步骤S630进行说明，在实际应用中，步骤S630中可以获取更多的词向量矩阵，本申请实施例对此不做限定。

示例性地，获取至少一个词向量矩阵可以为通过训练得到至少一个词向量矩阵，或者，也可以为从其他设备接收至少一个词向量矩阵，或者，还可以为读取本地存储的至少一个词向量矩阵。本申请实施例对“获取”的具体方式不做限定。

S640，获取第二训练数据集。

第二训练数据集中的数据类型与神经网络模型的任务类型有关。

可选地，神经网络模型可以为NLP模型。相应地，第二训练数据集中的数据可以为文本数据。

可选地，神经网络模型可以为语音处理模型。相应地，第二训练数据集中的数据可以为语音数据。

示例性地，步骤S640的执行设备可以为如图4所示的训练设备120。第二训练数据集可以是如图4所示的数据库130中维护的训练数据。

S650，基于第二训练数据集对神经网络模型进行训练，得到目标神经网络模型。其中，神经网络模型包括专家网络层，专家网络层中的至少一个专家网络的初始权重分别是根据至少一个词向量矩阵确定的。

示例性地，步骤S650可以由装置500中的训练模块540执行。

具体地，专家网络层包括第一业务领域的第一专家网络，第一专家网络的初始权重是根据第一词向量矩阵确定的。

可选地，专家网络层还包括第二业务领域的第二专家网络，第二专家网络的初始权重是根据第二词向量矩阵确定的。

该至少一个专家网络的初始权重分别是根据至少一个词向量矩阵确定的，也可以理解为，基于该至少一个词向量矩阵对至少一个专家网络的权重进行初始化。

专家网络层包括多个专家网络，专家网络层用于通过多个专家网络中的目标专家网络对输入专家网络层的数据进行处理。该目标专家网络是根据输入专家网络层的数据确定的。

也就是说，在目标神经网络模型的训练或推理过程中，目标专家网络是根据输入专家网络层的数据选择的。

可选地，目标专家网络可以包括第一专家网络。例如，专家网络层可以通过选择的第一专家网络对输入专家网络层的数据进行处理，第一专家网络是根据输入专家网络层的数据选择的。

可选地，目标专家网络可以包括第二专家网络。例如，专家网络层可以通过选择的第二专家网络对输入专家网络层的数据进行处理，第二专家网络是根据输入专家网络层的数据选择的。

基于第二训练数据集对神经网络模型进行训练，得到的训练好的神经网络模型即为目标神经网络模型。

示例性地，该神经网络模型可以是现有的神经网络模型。

例如，该神经网络模型可以是switch transformer模型。

可替换地，该神经网络模型也可以是自行构建的，本申请实施例对此不做限定，只要该神经网络模型中包括专家网络层即可。

专家网络层的数量可以为一个，也可以为多个，本申请实施例对此不做限定。

在神经网络模型包括多个专家网络层的情况下，该多个专家网络层中的部分或全部专家网络层均可以采用步骤S650中的方式确定初始权重。为了便于描述，本申请实施例中仅以一个专家网络层作为示例，不对本申请实施例的方案构成限定。

一个专家网络层包括多个专家网络，该多个专家网络的参数不同。

需要说明的是，该多个专家网络可以部署于一个设备上，也可以部署于多个设备上。若该多个专家网络部署于多个设备上，方法600也可以理解为由该多个设备共同执行。

示例性地，专家网络层可以包括门网络。门网络可以根据输入专家网络层的数据选择一个或多个专家网络参与当前输入的数据的实际计算中。或者说，门网络可以将输入专家网络层的数据路由至一个或多个专家网络中进行处理。该一个或多个被选择的专家网络即为目标专家网络。目标专家网络的具体确定方式可以采用现有方案，例如，采用MoE中的路由方式，或者，也可以采用switch transformer中的switch层中的路由方式，本申请实施例对此不作限定。若目标专家网络包括多个专家网络，该多个专家网络分别对输入的数据进行处理。该多个专家网络的输出可以通过门网络产生的权值组合起来，作为专家网络层的输出。权值的计算方式可以采用现有方案，例如，采用MoE中的计算方式，或者，也可以采用switch transformer中的switch层中的权值计算方式，本申请实施例对此不作限定。

也就是说，对于不同的输入数据，专家网络层中的目标专家网络可能是不同的。

专家网络层中的至少一个专家网络的初始权重是根据至少一个词向量矩阵确定的。或者说，该至少一个专家网络的初始权重是根据至少一个目标词向量生成模型中的隐层的权重确定的。也就是说，该至少一个专家网络的结构与该至少一个目标词向量生成模型的隐层的结构是相同的，隐层可以为全连接层。即根据至少一个目标词向量生成模型的全连接层的权重分布情况对该至少一个专家网络的权重进行初始化。

对于专家网络层中的该至少一个专家网络以外的其他专家网络，可以采用现有的方式进行初始化，例如，通过高斯分布产生的随机值进行随机初始化。

为了便于描述，下面以第一专家网络为例对权重初始化的方式进行说明。

第一专家网络可以包括一个或多个专家网络。

换言之，第一词向量矩阵可以用于初始化一个专家网络的权重或者多个专家网络的权重。

可选地，第一专家网络的初始权重是根据第一词向量矩阵确定的，包括：第一专家网络的初始权重为第一词向量矩阵。

可选地，第一专家网络的初始权重是根据第一词向量矩阵确定的，包括：第一专家网络的初始权重是通过调整第一词向量矩阵得到的。

具体地，可以调整第一词向量矩阵中的一个或多个值，并将调整后的第一词向量矩阵作为第一专家网络的初始权重。

可选地，第一专家网络的初始权重是根据第一词向量矩阵确定的，包括：第一专家网络中的一部分专家网络的初始权重为第一词向量矩阵，另一部分专家网络的初始权重为通过调整第一词向量矩阵得到的。

在该情况下，第一专家网络包括两个及两个以上的专家网络。

其他专家网络的权重初始化方式可以参考上述第一专家网络的权重初始化方式。例如，将上述初始化过程中的第一专家网络替换为第二专家网络，将第一词向量矩阵替换为第二词向量矩阵即可得到第二专家网络的初始权重。

应理解，本申请实施例中仅以第一专家网络和第二专家网络为例对步骤S650进行说明，在实际应用中，专家网络层中的其他专家网络也可以采用本申请实施例的方案进行权重初始化，本申请实施例对此不做限定。

此外，不同的词向量矩阵是基于不同的业务领域的训练数据集训练得到的，具备不同的语义信息，在专家网络层中的不同专家网络是通过不同的词向量矩阵初始化的情况下，不同的专家网络具备不同的语义表示能力，不同的专家网络之间的语义组合能够进一步提升自然语言语义的理解能力，进一步提高模型的性能。例如，专家网络层的多个专家网络分别是通过多个词向量矩阵进行初始化的，该多个词向量矩阵分别是基于多个业务领域的训练数据集训练得到的，这样，该专家网络层具备多个业务领域的语义表示能力，提高了模型的自然语言语义的理解能力，在目标神经网络模型应用的过程中，可以将各个业务领域的数据分别路由至对应的专家网络进行处理，进一步提高模型的性能。

此外，一个业务领域的知识图谱能够指示该业务领域中的各个实体之间的关系，该业务领域的训练数据集可以是通过该业务领域的知识图谱构建的，这样有利于词向量矩阵学习该业务领域的知识，提高语义表示能力。

图7示出了本申请实施例提供的数据处理的方法700的示意性流程图，该方法可以由能够进行数据处理的装置或设备执行，例如，该装置可以是云服务设备，也可以是终端设备，例如，电脑、服务器等运算能力足以用来执行数据处理的方法的装置，也可以是由云服务设备和终端设备构成的系统。示例性地，方法700可以由图4中的执行设备110或图3中的执行设备310或本地设备执行。

例如，方法700具体可以由如图4所示的执行设备110执行，方法700中的待处理数据可以是如图4所示的客户设备140给出的输入数据。

图7中的数据处理的方法700中使用的模型可以是通过上述图6中的方法构建的。方法700中的具体实现方式可以参照前述方法600，为了避免不必要的重复，下面在介绍方法700时适当省略重复的描述。

方法700包括步骤S710至步骤S720，下面对步骤S710至步骤S720进行描述。

S710，获取待处理的数据。

待处理的数据的类型与神经网络模型的任务类型有关。

可选地，神经网络模型可以为NLP模型。相应地，待处理的数据可以为文本数据。

可选地，神经网络模型可以为语音处理模型。相应地，待处理的数据可以为语音数据。

S720，利用目标神经网络模型对待处理的数据进行处理，目标神经网络模型是基于第二训练数据集对神经网络模型进行训练得到的，神经网络模型包括专家网络层，专家网络层包括第一业务领域的第一专家网络，第一专家网络的初始权重是根据第一词向量矩阵确定的，第一词向量矩阵是基于第一业务领域的第一训练数据集训练得到的。

可选地，其特征在于，专家网络层还包括第二业务领域的第二专家网络，第二专家网络的初始权重是根据第二词向量矩阵确定的，第二词向量矩阵是基于第二业务领域的第三训练数据集训练得到的。

可选地，专家网络层用于通过选择的第一专家网络对输入专家网络层的数据进行处理，第一专家网络是根据输入专家网络层的数据选择的。

可选地，第一训练数据集是根据第一业务领域的第一知识图谱确定的。

可选地，第一训练数据集是根据第一知识图谱确定的，包括：第一训练数据集中的至少一个第一文本序列是根据第一知识图谱中的至少一个第一三元组生成的，第一三元组中的三个词语分别用于表示第一业务领域中的主体、第一业务领域中的客体以及主体与客体之间的关系。

下面结合图8至图11对本申请实施例的装置进行说明。应理解，下面描述的装置能够执行前述本申请实施例的方法，为了避免不必要的重复，下面在介绍本申请实施例的装置时适当省略重复的描述。

图8是本申请实施例的一种神经网络的训练装置的示意性框图。图8所示的装置3000包括获取单元3010和处理单元3020。

获取单元3010和处理单元3020可以用于执行本申请实施例的神经网络模型的训练方法方法600。

获取单元3010用于获取用于获取第一词向量矩阵，所述第一词向量矩阵是基于第一业务领域的第一训练数据集训练得到的。

所述获取单元还用于获取第二训练数据集。

处理单元3020用于基于第二训练数据集对神经网络模型进行训练，得到目标神经网络模型，神经网络模型包括专家网络层，专家网络层包括第一业务领域的第一专家网络，第一专家网络的初始权重是根据第一词向量矩阵确定的。

可选地，作为一个实施例，获取单元3010还用于：获取第二词向量矩阵，第二词向量矩阵是基于第二业务领域的第三训练数据集训练得到的，专家网络层还包括第二业务领域的第二专家网络，第二专家网络的初始权重是根据第二词向量矩阵确定的。

可选地，作为一个实施例，专家网络层用于通过选择的第一专家网络对输入专家网络层的数据进行处理，第一专家网络是根据输入专家网络层的数据选择的。

可选地，作为一个实施例，第一训练数据集是根据第一业务领域的第一知识图谱确定的。

可选地，作为一个实施例，第一训练数据集是根据第一业务领域的第一知识图谱确定的，包括：第一训练数据集中的至少一个第一文本序列是根据第一知识图谱中的至少一个第一三元组生成的，第一三元组包括第一业务领域中的主体、第一业务领域中的客体以及主体与客体之间的关系。

可选地，作为一个实施例，第一词向量矩阵是基于第一业务领域的第一训练数据集训练得到的，包括：第一词向量矩阵为第一目标词向量生成模型中的隐层的权重，第一目标词向量生成模型是以至少一个第一文本序列中的目标词语之外的词语作为词向量生成模型的输入，以目标词语为词向量生成模型的目标输出对词向量生成模型进行训练得到的，目标词语为至少一个第一三元组中的词语。

可选地，作为一个实施例，第一专家网络的初始权重是根据第一词向量矩阵确定的，包括：第一专家网络的初始权重为第一词向量矩阵。

可选地，作为一个实施例，神经网络模型为NLP模型或者语音处理模型。

图9是本申请实施例的一种数据处理装置的示意性框图。图9所示的装置4000包括获取单元4010和处理单元4020。

获取单元4010和处理单元4020可以用于执行本申请实施例的数据处理的方法700。

获取单元4010，用于获取待处理的数据。

处理单元4020，用于利用目标神经网络模型对待处理的数据进行处理，目标神经网络模型是基于第二训练数据集对神经网络模型进行训练得到的，神经网络模型包括专家网络层，专家网络层包括第一业务领域的第一专家网络，第一专家网络的初始权重是根据第一词向量矩阵确定的，第一词向量矩阵是基于第一业务领域的第一训练数据集训练得到的。

可选地，作为一个实施例，专家网络层还包括第二业务领域的第二专家网络，第二专家网络的初始权重是根据第二词向量矩阵确定的，第二词向量矩阵是基于第二业务领域的第三训练数据集训练得到的。

可选地，作为一个实施例，第一训练数据集是根据第一知识图谱确定的，包括：第一训练数据集中的至少一个第一文本序列是根据第一知识图谱中的至少一个第一三元组生成的，第一三元组中的三个词语分别用于表示第一业务领域中的主体、第一业务领域中的客体以及主体与客体之间的关系。

可选地，作为一个实施例，神经网络模型为自然语言处理NLP模型或语音处理模型。

需要说明的是，上述装置3000和装置4000以功能单元的形式体现。这里的术语“单元”可以通过软件和/或硬件形式实现，对此不作具体限定。

例如，“单元”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specific integrated circuit，ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。

因此，在本申请的实施例中描述的各示例的单元，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

图10是本申请实施例提供的神经网络模型的训练装置的硬件结构示意图。图10所示的神经网络模型的训练装置5000(该装置5000具体可以是一种计算机设备)包括存储器5001、处理器5002、通信接口5003以及总线5004。其中，存储器5001、处理器5002、通信接口5003通过总线5004实现彼此之间的通信连接。

存储器5001可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器5001可以存储程序，当存储器5001中存储的程序被处理器5002执行时，处理器5002用于执行本申请实施例的神经网络模型的训练方法的各个步骤。

处理器5002可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请方法实施例的神经网络模型的训练方法。

处理器5002还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的神经网络模型的训练方法的各个步骤可以通过处理器5002中的硬件的集成逻辑电路或者软件形式的指令完成。

上述处理器5002还可以是通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器5001，处理器5002读取存储器5001中的信息，结合其硬件完成图8所示的装置中包括的单元所需执行的功能，或者，执行本申请方法实施例的神经网络模型的训练方法。

通信接口5003使用例如但不限于收发器一类的收发装置，来实现装置5000与其他设备或通信网络之间的通信。例如，可以通过通信接口5003获取第二训练数据集。

总线5004可包括在装置5000各个部件(例如，存储器5001、处理器5002、通信接口5003)之间传送信息的通路。

图11是本申请实施例提供的数据处理的装置的硬件结构示意图。图11所示的数据处理的装置6000(该装置6000具体可以是一种计算机设备)包括存储器6001、处理器6002、通信接口6003以及总线6004。其中，存储器6001、处理器6002、通信接口6003通过总线6004实现彼此之间的通信连接。

存储器6001可以是ROM，静态存储设备，动态存储设备或者RAM。存储器6001可以存储程序，当存储器6001中存储的程序被处理器6002执行时，处理器6002用于执行本申请实施例的数据处理的方法的各个步骤。

处理器6002可以采用通用的CPU，微处理器，ASIC，GPU或者一个或多个集成电路，用于执行相关程序，以实现本申请方法实施例的数据处理的方法。

处理器6002还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的数据处理的方法的各个步骤可以通过处理器6002中的硬件的集成逻辑电路或者软件形式的指令完成。

上述处理器6002还可以是通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器6001，处理器6002读取存储器6001中的信息，结合其硬件完成图9所示的装置中包括的单元所需执行的功能，或者，执行本申请方法实施例的数据处理的方法。

通信接口6003使用例如但不限于收发器一类的收发装置，来实现装置6000与其他设备或通信网络之间的通信。例如，可以通过通信接口6003获取第二训练数据集。

总线6004可包括在装置6000各个部件(例如，存储器6001、处理器6002、通信接口6003)之间传送信息的通路。

应注意，尽管上述装置5000和装置6000仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，装置5000和装置6000还可以包括实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当理解，装置5000和装置6000还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，装置5000和装置6000也可仅仅包括实现本申请实施例所必须的器件，而不必包括图10和图11中所示的全部器件。

本申请实施例还提供一种计算机可读介质，该计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行本申请实施例中的神经网络模型的训练方法或数据处理的方法。

本申请实施例还提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行本申请实施例中的数据处理方法。

本申请实施例还提供一种芯片，该芯片包括处理器与数据接口，该处理器通过该数据接口读取存储器上存储的指令，执行本申请实施例中的神经网络模型的训练方法或数据处理的方法。

可选地，作为一种实现方式，该芯片还可以包括存储器，该存储器中存储有指令，该处理器用于执行该存储器上存储的指令，当该指令被执行时，该处理器用于执行本申请实施例中的神经网络模型的训练方法或数据处理的方法。

应理解，本申请实施例中的处理器可以为中央处理单元(central processing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random access memory，RAM)可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质。半导体介质可以是固态硬盘。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A,B可以是单数或者复数。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系，但也可能表示的是一种“和/或”的关系，具体可参考前后文进行理解。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a,b,或c中的至少一项(个)，可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种神经网络模型的训练方法，其特征在于，包括：

获取第一词向量矩阵，所述第一词向量矩阵是基于第一业务领域的第一训练数据集训练得到的；

获取第二训练数据集；

基于所述第二训练数据集对神经网络模型进行训练，得到目标神经网络模型，所述神经网络模型包括专家网络层，所述专家网络层包括所述第一业务领域的第一专家网络，所述第一专家网络的初始权重是根据所述第一词向量矩阵确定的。
根据权利要求1所述的训练方法，其特征在于，所述方法还包括：

获取第二词向量矩阵，所述第二词向量矩阵是基于第二业务领域的第三训练数据集训练得到的，所述专家网络层还包括所述第二业务领域的第二专家网络，所述第二专家网络的初始权重是根据所述第二词向量矩阵确定的。
根据权利要求1或2所述的训练方法，其特征在于，所述专家网络层用于通过选择的所述第一专家网络对输入所述专家网络层的数据进行处理，所述第一专家网络是根据所述输入所述专家网络层的数据选择的。
根据权利要求1至3中任一项所述的训练方法，其特征在于，所述第一训练数据集是根据所述第一业务领域的第一知识图谱确定的。
根据权利要求4所述的训练方法，其特征在于，所述第一训练数据集是根据所述第一业务领域的第一知识图谱确定的，包括：

所述第一训练数据集中的至少一个第一文本序列是根据所述第一知识图谱中的至少一个第一三元组生成的，所述第一三元组中的三个词语分别用于表示所述第一业务领域中的主体、所述第一业务领域中的客体以及所述主体与客体之间的关系。
根据权利要求5所述的训练方法，其特征在于，所述第一词向量矩阵是基于第一业务领域的第一训练数据集训练得到的，包括：

所述第一词向量矩阵为第一目标词向量生成模型中的隐层的权重，所述第一目标词向量生成模型是以所述至少一个第一文本序列中的目标词语之外的词语作为词向量生成模型的输入，以所述目标词语为所述词向量生成模型的目标输出对所述词向量生成模型进行训练得到的，所述目标词语为所述至少一个第一三元组中的词语。
根据权利要求1至6中任一项所述的训练方法，其特征在于，所述第一专家网络的初始权重是根据所述第一词向量矩阵确定的，包括：

所述第一专家网络的初始权重为所述第一词向量矩阵。
根据权利要求1至7中任一项所述的训练方法，其特征在于，所述神经网络模型为自然语言处理NLP模型或者语音处理模型。
一种数据处理的方法，其特征在于，包括：

获取待处理的数据；

利用目标神经网络模型对所述待处理的数据进行处理，所述目标神经网络模型是基于第二训练数据集对神经网络模型进行训练得到的，所述神经网络模型包括专家网络层，所述专家网络层包括第一业务领域的第一专家网络，所述第一专家网络的初始权重是根据第一词向量矩阵确定的，所述第一词向量矩阵是基于所述第一业务领域的第一训练数据集训练得到的。
根据权利要求9所述的方法，其特征在于，所述专家网络层还包括第二业务领域的第二专家网络，所述第二专家网络的初始权重是根据第二词向量矩阵确定的，所述第二词向量矩阵是基于所述第二业务领域的第三训练数据集训练得到的。
根据权利要求9或10所述的方法，其特征在于，所述专家网络层用于通过选择的所述第一专家网络对输入所述专家网络层的数据进行处理，所述第一专家网络是根据所述输入所述专家网络层的数据选择的。
根据权利要求9至11中任一项所述的方法，其特征在于，所述第一训练数据集是根据所述第一业务领域的第一知识图谱确定的。
根据权利要求12所述的方法，其特征在于，所述第一训练数据集是根据所述第一知识图谱确定的，包括：

所述第一训练数据集中的至少一个第一文本序列是根据所述第一知识图谱中的至少一个第一三元组生成的，所述第一三元组中的三个词语分别用于表示所述第一业务领域中的主体、所述第一业务领域中的客体以及所述主体与客体之间的关系。
根据权利要求13所述的方法，其特征在于，所述第一词向量矩阵是基于所述第一业务领域的第一训练数据集训练得到的，包括：

所述第一词向量矩阵为第一目标词向量生成模型中的隐层的权重，所述第一目标词向量生成模型是以所述至少一个第一文本序列中的目标词语之外的词语作为词向量生成模型的输入，以所述目标词语为所述词向量生成模型的目标输出对所述词向量生成模型进行训练得到的，所述目标词语为所述至少一个第一三元组中的词语。
根据权利要求9至14中任一项所述的方法，其特征在于，所述第一专家网络的初始权重是根据第一词向量矩阵确定的，包括：

所述第一专家网络的初始权重为所述第一词向量矩阵。
根据权利要求9至15中任一项所述的方法，其特征在于，所述神经网络模型为自然语言处理NLP模型或语音处理模型。
一种神经网络模型的训练装置，其特征在于，包括：

获取单元，用于获取第一词向量矩阵，所述第一词向量矩阵是基于第一业务领域的第一训练数据集训练得到的；

所述获取单元还用于获取第二训练数据集；

处理单元，用于：

基于所述第二训练数据集对神经网络模型进行训练，得到目标神经网络模型，所述神经网络模型包括专家网络层，所述专家网络层包括所述第一业务领域的第一专家网络，所述第一专家网络的初始权重是根据所述第一词向量矩阵确定的。
根据权利要求17所述的训练装置，其特征在于，所述获取单元还用于：

获取第二词向量矩阵，所述第二词向量矩阵是基于第二业务领域的第三训练数据集训练得到的，所述专家网络层还包括所述第二业务领域的第二专家网络，所述第二专家网络的初始权重是根据所述第二词向量矩阵确定的。
根据权利要求17或18所述的训练装置，其特征在于，所述专家网络层用于通过选择的所述第一专家网络对输入所述专家网络层的数据进行处理，所述第一专家网络是根据所述输入所述专家网络层的数据选择的。
根据权利要求17至19中任一项所述的训练装置，其特征在于，所述第一训练数据集是根据所述第一业务领域的第一知识图谱确定的。
根据权利要求20所述的训练装置，其特征在于，所述第一训练数据集是根据所述第一业务领域的第一知识图谱确定的，包括：

所述第一训练数据集中的至少一个第一文本序列是根据所述第一知识图谱中的至少一个第一三元组生成的，所述第一三元组包括所述第一业务领域中的主体、所述第一业务领域中的客体以及所述主体与客体之间的关系。
根据权利要求21所述的训练装置，其特征在于，所述第一词向量矩阵是基于第一业务领域的第一训练数据集训练得到的，包括：

所述第一词向量矩阵为第一目标词向量生成模型中的隐层的权重，所述第一目标词向量生成模型是以所述至少一个第一文本序列中的目标词语之外的词语作为词向量生成模型的输入，以所述目标词语为所述词向量生成模型的目标输出对所述词向量生成模型进行训练得到的，所述目标词语为所述至少一个第一三元组中的词语。
根据权利要求17至22中任一项所述的训练装置，其特征在于，所述第一专家网络的初始权重是根据所述第一词向量矩阵确定的，包括：

所述第一专家网络的初始权重为所述第一词向量矩阵。
根据权利要求17至23中任一项所述的训练装置，其特征在于，所述神经网络模型为自然语言处理NLP模型或者语音处理模型。
一种数据处理的装置，其特征在于，包括：

获取单元，用于获取待处理的数据；

处理单元，用于利用目标神经网络模型对所述待处理的数据进行处理，所述目标神经网络模型是基于第二训练数据集对神经网络模型进行训练得到的，所述神经网络模型包括专家网络层，所述专家网络层包括第一业务领域的第一专家网络，所述第一专家网络的初始权重是根据第一词向量矩阵确定的，所述第一词向量矩阵是基于所述第一业务领域的第一训练数据集训练得到的。
根据权利要求25所述的装置，其特征在于，所述专家网络层还包括第二业务领域的第二专家网络，所述第二专家网络的初始权重是根据第二词向量矩阵确定的，所述第二词向量矩阵是基于所述第二业务领域的第三训练数据集训练得到的。
根据权利要求25或26所述的装置，其特征在于，所述专家网络层用于通过选择的所述第一专家网络对输入所述专家网络层的数据进行处理，所述第一专家网络是根据所述输入所述专家网络层的数据选择的。
根据权利要求25至27中任一项所述的装置，其特征在于，所述第一训练数据集是根据所述第一业务领域的第一知识图谱确定的。
根据权利要求28所述的装置，其特征在于，所述第一训练数据集是根据所述第一知识图谱确定的，包括：

所述第一训练数据集中的至少一个第一文本序列是根据所述第一知识图谱中的至少一个第一三元组生成的，所述第一三元组中的三个词语分别用于表示所述第一业务领域中的主体、所述第一业务领域中的客体以及所述主体与客体之间的关系。
根据权利要求29所述的装置，其特征在于，所述第一词向量矩阵是基于所述第一业务领域的第一训练数据集训练得到的，包括：

所述第一词向量矩阵为第一目标词向量生成模型中的隐层的权重，所述第一目标词向量生成模型是以所述至少一个第一文本序列中的目标词语之外的词语作为词向量生成模型的输入，以所述目标词语为所述词向量生成模型的目标输出对所述词向量生成模型进行训练得到的，所述目标词语为所述至少一个第一三元组中的词语。
根据权利要求25至30中任一项所述的装置，其特征在于，所述所述第一专家网络的初始权重是根据第一词向量矩阵确定的，包括：

所述第一专家网络的初始权重为所述第一词向量矩阵。
根据权利要求25至31中任一项所述的装置，其特征在于，所述神经网络模型为自然语言处理NLP模型或语音处理模型。
一种神经网络模型的训练装置，其特征在于，包括处理器和存储器，所述存储器用于存储程序指令，所述处理器用于调用所述程序指令来执行如权利要求1至8中任一项所述的方法。
一种数据处理的装置，其特征在于，包括：包括处理器和存储器，所述存储器用于存储程序指令，所述处理器用于调用所述程序指令来执行如权利要求9至16中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行如权利要求1至8或权利要求9至16中任一项所述的方法。
一种包含指令的计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1至8或权利要求9至16中任一项所述的方法。