WO2021147041A1

WO2021147041A1 - 语义分析方法、装置、设备及存储介质

Info

Publication number: WO2021147041A1
Application number: PCT/CN2020/073914
Authority: WO
Inventors: 李宏广; 聂为然; 高益
Original assignee: 华为技术有限公司
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2021-07-29
Also published as: CN112543932A

Abstract

一种语义分析方法、装置、设备及存储介质，涉及人工智能领域，具体涉及自然语言理解领域。该方法包括：从待分析的文本中提取结构化实体向量，该结构化实体向量用于指示所述实体的标识以及所述实体的属性；对该结构化实体向量进行特征提取，得到实体特征；对该实体特征、该文本的词法特征和该文本的句法特征进行融合，得到该文本的语义特征；对该语义特征进行解码，得到该文本的语义信息。该方法能够利用实体的属性增强语义理解的能力。

Description

语义分析方法、装置、设备及存储介质

技术领域

本申请涉及自然语言理解技术领域，特别涉及一种语义分析方法、装置、设备及存储介质。

背景技术

自然语言理解(natural language understanding，NLU)是一种由计算机分析自然语言形式的文本的语义的技术，旨在令计算机理解自然语言的意义，从而方便用户使用自然语言同计算机进行通讯。NLU技术在很多场景中得到了广泛的应用。例如，在车载领域中，驾驶员基于自然语言说出语音后，车载终端可以将语音转换为文本，对文本进行语义分析，得到文本的语义信息，根据语义信息执行对应的指令，从而实现语音交互的功能。

时下，可以对待分析的文本进行分词，得到文本中包含的每个词，将每个词分别输入word2vector模型(一种将词转换为向量的模型)，通过word2vector模型将每个词表征为向量，根据每个词对应的向量，分析文本的语义信息。

文本中经常会包含一些特定的实体，比如歌曲、地点等，这些实体会对文本的语义产生很大的影响。而采用上述方法时，识别文本中实体的能力较差，造成计算机的语义理解能力不足。

发明内容

本申请提供一种语义分析方法、装置、设备及存储介质，能够提高计算机的语义理解能力。

第一方面，提供了一种语义分析方法，在该方法中，获取待分析文本中的实体；根据所述待分析文本中的所述实体，获取所述实体对应的结构化实体向量，所述结构化实体向量用于指示所述实体的标识以及所述实体的属性；对所述结构化实体向量进行特征提取，得到实体特征；对所述实体特征、所述文本的词法特征和所述文本的句法特征进行融合，得到所述文本的语义特征，所述语义特征用于获取所述文本的语义信息。

上述方法中，通过构建结构化实体向量，以向量的形式来表征实体的标识和实体的属性，从结构化实体向量提取出实体特征，将实体特征与词法特征和句法特征进行融合，得到包含了实体特征、词法特征和句法特征的语义特征，对语义特征解码后得到语义信息，由于结构化实体向量中包含实体的标识和实体的属性，能够利用实体的属性增强语义理解的能力。

可选地，结构化实体向量的提取方式可以包括：根据所述待分析文本中的所述实体，从实体构建表中获取所述结构化实体向量，所述实体构建表用于保存实体与结构化实体向量之间的映射关系。通过这一方式，由于实体的向量能够表征实体和实体的属性，因此实体的向量化表示效果好，实现实体的有效嵌入，因此后续预训练模型根据结构化实体向量进行进一步识别时，能够增强预训练模型的车载语义意图理解能力和语义槽位提取能力。

可选地，该实体构建表包括车载领域关联的实体，该文本是对车载终端采集的语音进行识别得到的。通过这种方式，有助于构建车载领域结构化知识实体。

可选地，该实体构建表包括名称不规则的实体、名称的字符数量超过阈值的实体、名称的词频低于阈值的实体中的至少一项。这些实体由于名称容易引起歧义或具有多种含义，机器难以理解正确语义，而通过预先将这些实体的向量表示预先存入实体构建表，机器查表即可得到准确的向量表示，通过在语义理解的过程中融入实体特征，有助于提高语义理解的准确性。

可选地，融合实体特征、词法特征和句法特征的方式包括：对该实体特征、该词法特征和该句法特征进行加权求和，得到融合特征；通过激活函数对该融合特征进行非线性变换，得到该语义特征。由于词法特征、句法特征和实体特征是不同向量空间中的特征，或者说词法特征、句法特征和实体特征是异构信息，通过对实体特征、词法特征和句法特征进行加权求和，可以将这三种特征融合在一起，从而实现异构信息融合。

可选地，文本的词法特征和句法特征采用这样的方式提取：将文本输入语义理解模型，该语义理解模型是根据第一样本对预训练模型进行迁移训练得到的，该第一样本包括标注了语义信息的文本，该预训练模型是根据第二样本训练得到的，该第二样本包括被掩码的文本；通过该语义理解模型，从该文本中提取该词法特征和该句法特征。通过采用掩码策略训练出预训练模型，使得预训练模型具备基本的自然语言处理能力。在预训练模型的基础上，结合语义理解的目标，使用标注了语义信息的文本对预训练模型进行模型微调，使得预训练模型通过微调的过程中，学习出文本与语义信息之间的关联关系，具备词法特征、句法特征和语义特征的提取能力。那么在模型应用阶段，即可利用该语义理解模型，提取出准确的词法特征、句法特征和语义特征。

可选地，语义理解模型提取词法特征和句法特征的方式可以包括：对该文本进行注意力运算，得到第一输出结果，该第一输出结果用于指示该文本中词与词之间的依赖关系；对该第一输出结果进行归一化，得到第二输出结果；对该第二输出结果进行线性变换和非线性变换，得到第三输出结果；对该第三输出结果进行归一化，得到该词法特征和该句法特征。

可选地，该语义理解模型包括第一多头注意力模型，相应地，注意力运算的方式包括：将该文本输入该第一多头注意力模型；通过该第一多头注意力模型中的每个注意力模块，分别对该文本进行注意力运算，得到每个注意力模块的输出结果；对该每个注意力模块的输出结果进行拼接，得到拼接结果；对该拼接结果进行线性变换，得到该第一输出结果。通过上述方式，能够利用多头注意力机制，捕获到文本中长距离特征，能够提取到丰富的上下文语义表征信息，增强对词法特征和句法特征的提取能力。

可选地，提取实体特征的方式包括：将该结构化实体向量输入第二多头注意力模型；通过该第二多头注意力模型中的每个注意力模块，分别对该结构化实体向量进行注意力运算，得到每个注意力模块的输出结果；对该每个注意力模块的输出结果进行拼接，得到拼接结果；对该拼接结果进行线性变换，得到该实体特征。通过上述方式，利用多头注意力机制，能够捕捉到结构化实体向量内部中词与词之间的相关性，并且有助于捕获长距离特征，使得提取到的实体特征能够准确表达出语义，因此实体特征更加精确。

第二方面，提供一种语义分析装置，该语义分析装置具有实现上述第一方面或第一方面任一种可选方式中语义分析的功能。该语义分析装置包括至少一个模块，至少一个模块用于实现上述第一方面或第一方面任一种可选方式所提供的语义分析方法。第二方面提供的语义分析装置的具体细节可参见上述第一方面或第一方面任一种可选方式，此处不再赘述。

第三方面，提供了一种执行设备，该执行设备包括处理器，该处理器用于执行指令，使得该执行设备执行上述第一方面或第一方面任一种可选方式所提供的语义分析方法。第三方面提供的执行设备的具体细节可参见上述第一方面或第一方面任一种可选方式，此处不再赘述。

第四方面，提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令，该指令由处理器读取以使执行设备执行上述第一方面或第一方面任一种可选方式所提供的语义分析方法。

第五方面，提供了一种计算机程序产品，当该计算机程序产品在执行设备上运行时，使得执行设备执行上述第一方面或第一方面任一种可选方式所提供的语义分析方法。

第六方面，提供一种芯片，该芯片包括处理器与数据接口，该处理器通过该数据接口读取存储器上存储的指令，执行上述第一方面或第一方面任一种可选方式所提供的语义分析方法。

可选地，作为一种实现方式，该芯片还可以包括存储器，该存储器中存储有指令，该处理器用于执行该存储器上存储的指令，当该指令被执行时，该处理器用于执行上述第一方面或第一方面任一种可选方式所提供的语义分析方法。

附图说明

图1是本申请实施例提供的一种系统架构的结构示意图；

图2是本申请实施例提供的一种根据语义理解模型提取词法特征和句法特征的示意图；

图3是本申请实施例提供的一种语义理解模型的训练方法的示意性流程图；

图4是本申请实施例提供的一种语义分析方法的示意性流程图；

图5是本申请实施例提供的一种提取结构化实体向量的示意图；

图6是本申请实施例提供的一种对实体特征、词法特征和句法特征进行融合的示意图；

图7是本申请实施例提供的一种基于语义理解模型和结构化实体向量的车载语音交互的方法的示意性流程图；

图8是本申请实施例提供的一种语义意图理解和语义槽位提取的示意性流程图；

图9是本申请实施例提供的一种语义分析装置的结构示意图；

图10是本申请实施例提供的一种语义理解模型的训练装置的结构示意图；

图11是本申请实施例提供的语义分析装置的硬件结构示意图；

图12是本申请实施例提供的一种语义理解模型的训练装置的硬件结构示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

本申请实施例提供的语义分析方法能够应用在人机交互场景以及其他需要让计算机理解自然语言的场景。具体而言，本申请实施例的语义分析方法能够应用在语音交互场景，例如应用在车载语音交互场景中，下面分别对语音交互场景和车载语音交互进行简单的介绍。

语音交互指的是人类与设备通过自然语音进行信息的传递。车载语音交互场景是用户与汽车上搭载的车载终端进行语音交互的场景。例如，在车辆驾驶过程中，用户可以发出包含指令的语音，车载终端可以将用户的语音转换为机器可以理解的指令，执行指令来实现操作，从而实现语音通话、车载空调的开启与关闭，车载座椅的自动化高度/温度调节和音乐播放等智能化生活化功能。通过语音交互的人机交互方式，用户可以将手和眼睛空闲出来去处理其他事情，比如想听音乐时，用户通过语音的方式来点播歌曲，这样手和眼睛可以专心用来驾驶，从而极大提升车载场景中驾驶安全性和便捷性。

在语音交互的应用场景中，自然语言理解(NLU)是实现车载语音交互系统的关键技术。自然语言理解是自然语言处理(Natural language processing，NLP)的一部分，是NLP的核心，也是NLP的难点。通俗地讲，自然语言理解技术就是希望机器像人一样，具备理解自然语言的能力，当给定一个输入的文本后，机器能输出正确的语义信息(比如正确的语义意图和语义槽位)。其中，自然语言就是人们平时在生活中常用的表达方式，比如，在描述驼背这个特征时，用自然语言表达可以是：我背有点驼，用非自然语言表达可以是：我的背部呈弯曲状。

然而目前，自然语言理解还有一些不尽人意的地方，尤其是车载语音交互的场景中，车载终端经常出现语义意图理解能力不足的问题，同时，车载终端也不能理解一些结构化的知识实体和抽象的语义表示。例如，对于语法不规则的歌曲名、长字符地名、低频字符地名等基本实体，车载终端难以识别出来，而实体识别能力不足会极大的影响理解语义的准确性。例如，用户想去北京市一个名为“世界之花”的假日广场，于是用户对车载终端说“搜索世界之花”。这句话表达的用户意图是导航，目的地为世界之花。而车载终端识别“世界之花”这四个字时，容易将世界之花理解为一首歌曲，将这句话错误地理解为用户意图是听歌，歌曲名为世界之花，导致车载终端本应执行导航业务，结果因为用户意图理解错误，执行了音乐播放业务，导致车载终端执行的业务不能满足用户预期的反馈。

由此可见，在车载语音交互场景中，如何提高语义理解能力是至关重要的，这也正是未来车载领域的热门研究方向。

而本申请的一些实施例中，提供了结合预训练模型和结构化实体向量的语义理解方法。一方面，通过采用大规模语料进行随机多元动态掩码训练，得到预训练模型，对预训练模型进行模型微调，得到语义理解模型，使得语义理解模型能够实现词法特征、句法特征和语义特征的提取，语义理解模型通过预训练的过程和模型微调的过程，能够提升语义意图的理解能力和语义槽位的提取能力，尤其是提升了车载领域下词法特征、句法特征和语义特征的提取，有很强的语义意图理解能力。另一方面，通过构建结构化实体向量，实现了实体的表征工作，实体的属性能够增强语义理解模型的语义意图理解能力。尤其是，通过设置车载领域的实体构建表，有助于车载终端识别基本的结构化实体向量，提升语义意图理解能力和语义槽位提取能力。再一方面，通过融合实体特征、词法特征和句法特征，实现了异构信息的融合，将实体特征、词法特征和句法特征这三种不同向量空间的语义信息结合在一起，来识别语义，从而提高语义理解的准确性。

下面从模型训练侧和模型应用侧对本申请提供的方法进行描述：

本申请实施例提供的语义理解模型训练方法，涉及自然语言的理解，具体可以应用于数据训练、机器学习、深度学习等数据处理方法，对训练数据(如本申请中的被掩码的文本或标注了语义意图、语义槽位等语义信息的文本)进行符号化和形式化的智能信息建模、抽取、预处理、预训练、模型微调等，最终得到训练好的语义理解模型；并且，本申请实施例提供的语义分析方法可以运用上述训练好的语义理解模型，将输入数据(如本申请实施例中待分析的文本)输入到该训练好的语义理解模型中，得到输出数据(如本申请中的语义意图、语义槽位等语义信息)。需要说明的是，本申请实施例提供的语义理解模型的训练方法和语义分析方法是基于同一个构思产生的发明，也可以理解为一个系统中的两个部分，或一个整体流程的两个阶段：如模型训练阶段和模型应用阶段。

由于本申请的语义理解模型涉及注意力机制在自然语言理解的应用，为了便于理解，下面先对本申请实施例涉及的注意力机制中的相关概念进行介绍。

(1)自注意力(self-attention)机制。

自注意力机制是注意力机制的改进，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。自注意力机制的本质是计算跟自己相关的序列；自注意力机制中目标序列与源序列是一样的。通过将自注意力机制应用在NLP领域，能够提取句子自身词间依赖，比如常用短语、代词指代的事物等。当输入一个句子后，机器在对每个词编码时，不单单关注要编码的这个词，还关注输入句子的其他单词，通过对每个词和该句子中的所有词进行注意力计算，学习句子内部的词依赖关系，从而捕获句子的内部结构。注意力运算的流程可以封装在注意力函数(Attention函数)中，该注意力函数可以记为Attention(X，X，X)，机器得到输入的文本序列后，可以将文本序列作为X，调用注意力函数来进行自注意力运算。自注意力机制具有很多方面的优势。例如，从长距离依赖学习的角度来说，由于自注意力机制是每个词和所有词都要计算注意力，所以不管词与词之间有多长的距离，最大的路径长度也只是1，因此能够无视词之间的距离，计算依赖关系，从而学习出一个句子的内部结构。

以下，首先介绍如何使用向量实现自注意力运算，然后介绍下如何使用矩阵实现自注意力运算。

使用向量实现自注意力运算的过程可以包括以下步骤S10至步骤S14：

步骤S10、为输入序列中的每个词，生成三个向量，这三个向量包括一个查询向量、一个键向量和一个值向量。通常情况下，这三个向量是通过词的词嵌入与三个权重矩阵后相乘创建的。例如，如果输入的句子是thinking machine(具有思考能力的机器)，这个句子中第一个词是“Thinking”(思考)，“Thinking”的词嵌入为X1，X1与WQ权重矩阵相乘得到q1，q1就是与这个单词相关的查询向量。

步骤S11、计算得分。假设这个例子中的第一个词“Thinking”计算自注意力向量，可以使用输入句子中的每个词对“Thinking”打分，得到词的分数(Score)。例如，词“Thinking”的分数表达在编码词“Thinking”的过程中有多重视句子的其它部分。词“Thinking”的分数是通过对“Thinking”打分的词(输入句子的所有词)的键向量与“Thinking”的查询向量进行点积计算得到的。例如，如果句子包含2个词，第1个词的词嵌入为x1，第1个词的查询向量为q1，第1个词的键向量为k1，第1个词的值向量为v1，第1个词的词嵌入为x2，第1个词的查询向量为q2，第1个词的键向量为k2，第1个词的值向量为v2，要处理第1个词的自注意力的话，第一个分数是q1和k1的点积，第二个分数是q1和k2的点积。

步骤S12、对词的分数(Score)进行处理，例如将分数除以默认值，然后将相除的结果通过softmax函数运算，得到词的softmax分数。其中，将分数除以默认值的作用是通过相除将分数缩小至一个较小的取值范围，避免softmax分数非零即1。通过softmax函数运算的作用是使所有词的分数归一化，这样每个词的softmax分数都是正数，且句子中所有词的的softmax分数之和为1。softmax分数决定了每个词对编码当前词(如“Thinking”和“machine”对“Thinking”)的贡献。

步骤S13、将每个值向量乘以softmax分数。

步骤S14、对加权值向量求和，得到自注意力层在该位置的输出(例如对第一个词“Thinking”的输出)。

通过执行上述步骤S10至步骤S14，完成了自注意力的计算，计算得到的向量可以传给前馈神经网络。在一些情况下，上述步骤S10至步骤S14可以通过矩阵形式完成运算，以便算得更快。例如，可以通过执行下述步骤S20至步骤S21，用矩阵实现自注意力的计算。

步骤S20、计算查询矩阵、键矩阵和值矩阵。具体地，将输入的句子中每个词的词向量装入矩阵X中，将矩阵X分别乘以查询权重矩阵W ^Q、键权重矩阵W ^K、值权重矩阵W ^V，得到查询矩阵Q、键矩阵K和值矩阵V。其中，可以采用下述公式(1)计算查询矩阵Q，采用下述公式(2)计算键矩阵K，采用下述公式(3)计算值矩阵V。

Q＝W ^Q X ₁ (1)

K＝W ^K X ₁ (2)

V＝W ^V X ₁ (3)

其中，矩阵X中的每一行对应于输入句子中的一个词，矩阵X的每一行为一个词的词向量，矩阵Q表示输入句子的查询(Queries)矩阵，矩阵Q中每一行为一个词的Query向量，矩阵K表示输入句子的键(Key)矩阵，矩阵K中每一行为一个词的Key向量，矩阵V表示输入句子的值(Value)矩阵，矩阵V中每一行为一个词的Value向量。

步骤S21、可以通过以下公式(4)表达，下述公式(4)为上述步骤S11至步骤S14的合并。

(2)多头注意力(Multi-Head Attention)模型。

多头注意力模型被称为多头，是因为多头注意力模型包含h个注意力模块，每一个注意力模块均可以实现上述(1)所示的自注意力机制，通过h个注意力模块会进行h次注意力运算，h为大于1的正整数，例如h可以是8。其中，每个注意力模块保持独立的查询权重矩阵、键权重矩阵、值权重矩阵，因此使用输入的矩阵X与每个注意力模块的查询权重矩阵W _Q、键权重矩阵W _K、值权重矩阵W _V进行运算后，会产生h个查询矩阵Q、键矩阵K和值矩阵V，进而产生h个矩阵Z，分别是矩阵Z ₀、矩阵Z ₁至矩阵Z _h，。然而，通常情况下如多头注意力模型之后的网络(如前馈网络)不需要输入h个矩阵，它需要输入一个矩阵，要求该矩阵由每一个词的表示向量组成。因此，可以将h个矩阵Z压缩成一个矩阵。一种压缩的实现方式是，将h个矩阵(矩阵Z ₀、矩阵Z ₁至矩阵Z _h)拼接在一起，然后用一个附加的权重矩阵W ^O与拼接结果相乘，相乘的结果是融合了所有注意力模块信息的矩阵Z，可以使用该矩阵Z进行后续运算，如送到前馈网络。可选地，拼接的输出结果的维度数量等于拼接的输入参数的维度数量之和，拼接的输出结果的行数和拼接的输入参数的行数相等。例如，对h个矩阵(矩阵Z ₀、矩阵Z ₁至矩阵Z _h)进行拼接后，输出结果是一个包含h个矩阵的大矩阵，这个大矩阵的维度数量是h个矩阵的维度数量之和，这个大矩阵的行数等于h个矩阵中每一个矩阵的行数。

多头注意力模型具有很多方面的效果。

从语义特征提取能力的角度来讲，多头注意力模型由于使用多个注意力模块，每个注意力模块对应的各种权重矩阵都是随机初始化的，在训练之后，每个权重矩阵都被用来将输入词嵌入(或来自较低编码器/解码器的向量)投影到不同的表示子空间中，从而允许模型在不同的表示子空间里学习到相关的信息，因此，多头注意力模型提取语义特征的能力很强。

从长距离特征捕获能力的角度来讲，首先，多头注意力模型由于是基于自注意力机制的模型，具备自注意力机制的好处，能够学习出一个句子的内部结构。在此基础上，多头注意力模型由于使用多个注意力模块，扩展了模型专注于不同位置的能力，因此进一步增强了长距离特征捕获能力。

从任务综合特征抽取能力的角度来讲，多头注意力模型在词法，句法，语义，上下文处理能力，长距离特征捕获等各方面的性能的表现均较为出色，因此综合特征抽取能力很强。

从并行计算能力的角度来讲，多头注意力模型由于不依赖于前一时刻的计算，因此可以并行运算。

以上介绍了本申请实施例的语义理解模型涉及的自注意力机制，本申请实施例的语义理解模型还涉及AI领域的一些概念，为了便于理解，下面对这些概念进行介绍。

(3)激活函数(activation functions)：是一种用于进行非线性变换的函数。

(4)高斯误差线性单元(Gaussian error linear units，Gelu)是一种高性能的激活函数，Gelu函数的非线性变换是一种符合预期的随机正则变换方式，因此在NLP领域表现出色，尤其是在自注意力模型中表现最好；能避免梯度消失问题。

(5)损失函数

在训练模型的过程中，因为希望模型的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为模型中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到模型能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么模型的训练就变成了尽可能缩小这个loss的过程。

(6)反向传播算法

模型可以采用误差反向传播(back propagation，BP)算法在训练过程中修正初始的超分辨率模型中参数的大小，使得超分辨率模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的超分辨率模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的超分辨率模型的参数，例如权重矩阵。

以上介绍了本申请实施例的语义理解模型涉及的自注意力机制，本申请实施例的语义理解模型还涉及知识图谱技术领域的一些概念，为了便于理解，下面对这些概念进行介绍。

(7)实体(entity)是指具有可区别性且独立存在的某种事物。实体可以是具体的对象，如某一个人、某一个城市、某一种植物等、某一种商品等等。实体也可以是抽象的事件，如：一次借书、一场球赛等。世界万物由具体事物组成，而事物均可以称为实体。

(8)实体抽取:是指提取文本中的实体，例如将文本中的人名、组织/机构名、地理位置、事件/日期、字符值、金额值抽取出来。实体抽取包括对实体进行检测(find)和分类(classify)。通俗地说，实体抽取就是从句子中找到实体，并对实体打上标签。

(9)属性：实体有很多特性，每一个特性称为属性。每个属性有一个值域，其类型可以是整数型、实数型、字符串型。如：学生(实体)有学号、姓名、年龄、性别等属性，相应值域为字符、字符串、整数和字符串型。

下面介绍本申请实施例提供的系统架构。

参见附图1，本申请实施例提供了一种系统架构100。如系统架构100所示，数据采集设备16用于采集训练数据，本申请实施例中训练数据包括：标注了语义信息的文本，例如标注有语义意图和语义槽位的文本。可选地，训练数据还包括被掩码的文本，例如经过了随机多元掩码策略处理后的样本；数据采集设备16将训练数据存入数据库13。训练设备12基于数据库13中维护的训练数据训练得到语义理解模型200。下面将以实施例一，更详细地描述训练设备12如何基于训练数据得到语义理解模型200，该语义理解模型200能够用于实现本申请实施例中提取该词法特征和该句法特征的功能，即，将待分析的文本通过相关预处理后输入该语义理解模型200，即可得到词法特征和该句法特征。

本申请实施例中的语义理解模型200具体可以为基于注意力机制的模型，在本申请的一些实施例中，该语义理解模型200是通过对预训练模型(如多头注意力模型以及一些权重矩阵)进行模型微调得到的。需要说明的是，在实际的应用中，该数据库13中维护的训练数据不一定都来自于数据采集设备16的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备12也不一定完全基于数据库13维护的训练数据进行语义理解模型200的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

根据训练设备12训练得到的语义理解模型200可以应用于不同的系统或设备中，例如，语义理解模型200应用于图1所示的执行设备11，该执行设备11可以是终端，如车载终端、手机终端，平板电脑，笔记本电脑，AR/VR等，还可以是服务器或者云端等。在附图1中，执行设备11配置有I/O接口112，用于与外部设备进行数据交互。

附图1所示的系统架构中可以应用在语音交互的场景，本申请实施例提供的语音交互方案的产品形态可以是语音交互软件系统的语音个性化自适应算法模块，产品的实现形式为运行在各种终端设备上的计算机程序。例如，应用在车载语音交互的场景，通过本申请实施例提供的语音交互产品能够理解车载用户控制指令的语义意图，实现相应的车载模块的功能。

下面，对系统架构中各个模块的功能举例说明。

用户可以通过音频采集设备14向I/O接口112输入语音。音频采集设备14可以包括分布式麦克风阵列，该分布式麦克风阵列用于采集用户的语音控制命令，此外，音频采集设备14可以进行一些声源定位、回声消除和信号增强等音频信号预处理操作。

语音识别模块113用于根据I/O接口112接收到的输入数据(如该语音信号)进行语音识别，得到待分析的文本。这样，将输入数据从语音信号转化成文本信号，输出给语义理解模块111。

语义理解模块111用于理解语义，例如提取用户的语义意图和语义槽位。语义理解模块111可以包括语义理解模型200、实体抽取模块210、实体构建模块220、异构信息融合模块230以及语义解码模块240。各个模块的具体作用如下：

语义理解模型200根据预训练模型进行迁移训练后得到，语义理解模型200负责实现文本输入的词法，句法语义特征的提取，实现初步的用户命令的语义意图理解。

实体抽取模块210用于将文本输入中的实体抽取出来，得到有效的实体。

实体构建模块220用于将实体进行向量化表示，得到实体以及属性的表征。

异构信息融合模块230将文本输入的词法特征，句法特征和实体特征进行融合，得到语义特征，该语义特征由于结合了不同的向量空间中的有效的信息，能够增强语义意图的理解能力和语义槽位的提取能力。

语义解码模块240用于将语义特征解码，得到语义信息，例如用户命令输入的语义意图理解和语义槽位提取，输出控制命令。

在执行设备11对输入数据进行预处理，或者在执行设备11的语义理解模块111执行计算等相关的处理过程中，执行设备11可以调用数据存储系统15中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统15中。此外，执行设备11可以确定用户的语义意图和语义槽位之后，则将控制命令下发给I/O接口112。

最后，I/O接口112将控制命令返回给车载执行系统18，车载执行系统18执行相应的控制命令，如听歌，语音导航、接听来电、控制车温等，支持智能化的车载场景。

值得说明的是，车载语音交互的场景仅是举例说明。训练设备12还可以针对不同的任务，基于不同的训练数据生成相应的语义理解模型200，该相应的语义理解模型200即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

比如，上述系统架构也可以应用在机器翻译的场景或者机器人问答的场景，附图1中所示的音频采集设备14也可以被替换为手机、个人电脑或者其他用户设备。用户可以手动给定输入数据，该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下，用户设备可以自动地向I/O接口112发送输入数据，如果要求用户设备自动发送输入数据需要获得用户的授权，则用户可以在用户设备中设置相应权限。用户可以在用户设备查看执行设备11输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。用户设备也可以作为数据采集端，采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据，并存入数据库13。当然，也可以不经过用户设备进行采集，而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果，作为新的样本数据存入数据库13。

值得注意的是，附图1仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在附图1中，数据存储系统15相对执行设备11是外部存储器，在其它情况下，也可以将数据存储系统15置于执行设备11中。

如图2所示，根据训练设备12训练得到语义理解模型200，本申请实施例提供的语义理解模型200可以包括：第一多头注意力模型201、第一向量标准化层202、前向传递层203和第二向量标准化层204。

第一多头注意力模型201用于接收输入的文本，对文本进行注意力运算后，将输出结果发送给第一向量标准化层202。第一多头注意力模型201包括多个注意力模块，每个注意力模块也称一个注意力模块。例如在图2中，第一多头注意力模型201包括注意力模块0、注意力模块1、注意力模块2、注意力模块3、注意力模块4、注意力模块5、注意力模块6和注意力模块7。其中，第一多头注意力模型201整体的技术细节可以参考上述(2)的描述。每个注意力模块可以实现注意力运算，每个注意力模块运算的技术细节可以参考上述(1)的描述。

第一向量标准化层202用于接收第一多头注意力模型201的输入，对其进行标准化计算后，将输出结果发送给前向传递层203。第一向量标准化层202通过进行标准化计算，实现对样本的均值方差归一化，简化整个学习难度。

前向传递层203用于接收第一向量标准化层202的输入，对其进行前向传递计算，将输出结果发送给第二向量标准化层204。前向传递层203能够通过前向传递计算，实现行线性变换和非线性变换，将第一向量标准化层202的输入映射到高维的向量空间。

第二向量标准化层204用于接收前向传递层203的输入，对其进行标准化计算后，对输出结果进行输出。第二向量标准化层204同样可以通过进行标准化计算，实现对样本的均值方差归一化，简化整个学习难度。

实施例一：

图3为本申请实施例一提供的一种语义理解模型的训练方法，实施例一具体可以由如图1所示的训练设备12执行，实施例一涉及预训练过程以及模型微调(fine-tuning)过程，预训练过程使用的样本与模型微调过程使用的样本可以不同。为了区分描述，本实施例将模型微调过程使用的样本使用的样本称为第一样本，将预训练过程使用的样本称为第二样本。该第一样本和第二样本可以是如图1所示的数据库13中维护的训练数据，可选的，实施例一的S301和S302可以在训练设备12中执行，也可以在训练设备12之前由其他功能模块预先执行，例如，云端设备先对从该数据库13中接收或者获取到的第二样本进行预处理，如S301和S302的预训练过程，得到预训练模型，该预训练模型和第一样本作为该训练设备12的输入，并由该训练设备12执行S303至S304。

示例性地，该实施例一包括以下S301至S304：

S301、训练设备获取第二样本。

第二样本是基于掩码(Mask)策略进行处理后的文本，第二样本包括被掩码的文本。第二样本可以标注掩码对应的词位，即，第二样本的标签是被[mask]替换掉的词语在句子中所处的位置。

在一种可能的实现中，可以对获取大规模语料，采用掩码策略对大规模语料进行处理，对处理后的大规模语料进行标注，得到第二样本。其中，该掩码策略可以包括随机掩码策略和多元掩码(N-gram Mask)策略中的至少一项。使用掩码策略训练模型的方式可以称为随机多元动态掩码训练。

例如，原始文本是“打开车内空调”，基于掩码策略对“打开车内空调”进行处理后，得到的第二样本是“打[mask]车内空[mask]”。

又如，原始文本是“导航去浦东大道”，基于掩码策略对“导航去浦东大道”进行处理后，得到的第二样本是“导航去[mask][mask]大道”。

又如，原始文本是“我想听周杰伦的七里香”，基于掩码策略对“我想听周杰伦的七里香”进行处理后，得到的第二样本是“我想听[mask][mask][mask]的七里香”。

又如，原始文本是“我要给我家里打个电话”，基于掩码策略对“我要给我家里打个电话”进行处理后，得到的第二样本是“是我要给我家里打个[mask][mask]”。

又如，原始文本是“给副驾驶座椅加热”，基于掩码策略对“给副驾驶座椅加热”进行处理后，得到的第二样本是“给[mask]驾[mask]座椅[mask]热”。

S302、训练设备根据第二样本进行模型训练，得到预训练模型。

模型训练可以通过损失函数以及反向传播算法实现，其具体细节可参考上述(5)和(6)的描述。

S303、训练设备获取第一样本。

该第一样本包括标注了语义信息的文本。例如，第一样本标注了语义意图和语义槽位。可选地，应用在车载领域，第一样本可以是车载领域的文本，例如车载语音交互场景中的语料库。

S304、训练设备根据第一样本对预训练模型进行迁移训练，得到语义理解模型。

在S304中，迁移训练可以为模型微调。模型微调与模型训练在概念上有所区别，模型训练通常是指在训练之前，模型的参数被随机初始化，根据随机初始化的参数从头开始训练一个新的网络。而模型微调是指在预训练模型的基础上，根据特定的任务进对模型的参数进行微调，微调的方式能够利用预训练模型中已经训练好的参数，因此相对于从头开始训练而言，省去大量计算资源和计算时间，提高了计算效率和准确率。模型微调可以通过损失函数以及反向传播算法实现，其具体细节可参考上述(5)和(6)的描述。

当然，上述方式描述的获取语义理解模型的方式仅是举例说明，语义理解模型也可以是其他基于预训练和微调范式的大规模预训练语言模型。

本实施例提供了用于实现语义理解功能的模型训练方法，通过采用掩码策略训练出预训练模型，使得预训练模型具备基本的自然语言处理能力。在预训练模型的基础上，结合语义理解的目标，使用标注了语义信息的文本对预训练模型进行模型微调，使得预训练模型通过微调的过程中，学习出文本与语义信息之间的关联关系，具备词法特征、句法特征和语义特征的提取能力。那么在模型应用阶段，即可利用该语义理解模型，提取出准确的词法特征、句法特征和语义特征。

实施例二：

图4为本申请实施例二提供的一种语义分析方法，实施例二具体可以由如图1所示的执行设备11执行，该实施例二中的待分析的文本可以由图1所示的音频采集设备14给出的语音转换得到，该执行设备11中的语音识别模块113可以用来执行实施例二中S401，该执行设备11中的语义理解模块111可以用于执行S402至S407。

可选的，该实施例二可以由中央处理器(CPU，central processing unit)处理，也可以由CPU和图形处理器(英语：Graphics Processing Unit，缩写：GPU)共同处理，也可以不用GPU，而使用其他适合用于神经网络计算的处理器，本申请不做限制。该实施例二包括S401至S407。

S401、执行设备获取待分析的文本。

例如，应用在语音交互领域，用户说话后，执行设备会采集到语音信号，对语音信号进行语音识别，得到文本。其中，该语音信号包含了对车载终端的控制命令，文本的形式可以是文本信号。

请参考图1所示的系统架构，S401可以包括以下步骤A至步骤B。

步骤A、在汽车启动或者汽车行驶的过程中，音频采集设备(如分布式麦克风阵列)采集语音信号T＝(t1、t2、…tn1)，接着，音频采集设备将语音信号T＝(t1、t2、…tn1)传递给车载终端的ASR系统。其中，n1表示用户的语音控制命令的长度。

步骤B、车载终端的语音识别(automatic speech recognition，ASR)系统接收音频设备采集的语音信号T＝(t1、t2…tn1)，对语音信号T＝(t1、t2、…tn1)进行语音识别，得到文本信号X＝(x1、x2、…xn2)，将X＝(x1、x2、…xn2)继续传递给语义理解模块。其中，n2表示文本输入的长度，n2和n1相等或不等。

S402、执行设备从文本中提取词法特征和句法特征。

例如，执行设备通过执行下述步骤一至步骤二来提取词法特征和句法特征。

步骤一、执行设备将文本输入语义理解模型。

可选地，可以将文本以向量或矩阵的形式输入语义理解模型。例如，执行设备可以提取文本的字符词向量、相对位置词向量、字符类型词向量，将字符词向量、相对位置词向量、字符类型词向量组成的矩阵输入语义理解模型。例如，请参见图2，文本是“我想听七里香”，输入是([CLS]我想听七里香SEPpad padpad)。字符词向量是(E _[CLS]E _我E _想E _听E _七E _里E _香E _[SEP]E _[pad]E _[pad]E _[pad])。相对位置词向量是(E ₀E ₁E ₂E ₃E ₄E ₅E ₆E ₇E ₈E ₉E ₁₀)。类型词向量是(E ₁E ₁E ₁E ₁E ₁E ₁E ₁E ₁E ₀E ₀E ₀)。其中，这些参数中E是embedding的缩写，E表示词向量。[CLS]和[SEP]为分隔符。Pad为填充元素，用于将输入的文本处理为相同长度。

步骤二、执行设备通过语义理解模型，从文本中提取词法特征和句法特征。

例如，执行设备执行下述步骤2.1至步骤2.4。

步骤2.1、执行设备对文本进行注意力运算，得到第一输出结果，第一输出结果指示文本中词与词之间的依赖关系。

注意力运算的技术细节可以参考上述概念介绍中(1)至(2)的描述。

可选地，执行设备利用多头注意力机制实现步骤2.1。例如，执行设备执行下述步骤2.1.1 至步骤2.1.4。

步骤2.1.1、执行设备将文本输入第一多头注意力模型201。

本实施例中，预训练模型中可以设置多头注意力模型，实体特征提取阶段也可以利用多头注意力模型，为了区分描述，本实施例将预训练模型中包含的多头注意力模型称为第一多头注意力模型，将实体特征提取阶段使用的多头注意力模型称为第二多头注意力模型。

例如，第一多头注意力模型201包括m层转换(transformer)单元，每一个transformer单元用于执行多头注意力机制，每一个transformer单元包括h个自注意力模块。例如，请参见图2，第一多头注意力模型201包括注意力模块0、注意力模块1、注意力模块2、注意力模块3、注意力模块4、注意力模块5、注意力模块6和注意力模块7。

例如，请参见图2，可以将字符词向量、相对位置词向量、字符类型词向量组成的矩阵，作为第一多头注意力模型201的输入矩阵X，将输入矩阵X分别输入至注意力模块0、注意力模块1、注意力模块2、注意力模块3、注意力模块4、注意力模块5、注意力模块6和注意力模块7。

步骤2.1.2、执行设备通过第一多头注意力模型201中的每个注意力模块，分别对文本进行注意力运算，得到每个注意力模块的输出结果。

例如，请参见图2，注意力模块0、注意力模块1、注意力模块2、注意力模块3、注意力模块4、注意力模块5、注意力模块6和注意力模块7可以分别对输入矩阵X进行注意力运算，得到注意力模块0的输出结果、注意力模块1的输出结果、注意力模块2的输出结果、注意力模块3的输出结果、注意力模块4的输出结果、注意力模块5的输出结果、注意力模块6的输出结果、注意力模块7的输出结果。

其中，每个注意力模块可以采用下述公式(5)至(7)进行注意力运算，注意力模块的输出结果可以通过公式(8)表示。其中，注意力运算为下述公式(8)中的Attention。

Q＝W ^Q X ₁ (5)

K＝W ^K X ₁ (6)

V＝W ^V X ₁ (7)

head(i)＝Attention(Q，K，V) (8)

其中，X ₁是输入的文本信号。公式(5)中的W ^Q表示第一多头注意力模型201中一个注意力模块的查询权重矩阵，Q表示第一多头注意力模型201中一个注意力模块的查询矩阵。公式(6)中的W ^K表示第一多头注意力模型201中一个注意力模块的键权重矩阵，K表示第一多头注意力模型201中一个注意力模块的键矩阵。公式(7)中的W ^V表示第一多头注意力模型201中一个注意力模块的值权重矩阵，V表示第一多头注意力模型201中一个注意力模块的值矩阵。公式(8)中的head(i)表示当前自注意力机制的输出矩阵，head(i)的每一行为一个词汇的自注意力向量，该自注意力向量表示句子中每个词(当前词本身以及其他词)对当前词的贡献度，或者说每个词对当前词的打分，i表示第i个注意力模块，i为大于1的正整数，i小于或等于h，head(i)的列数＝Value向量的列数。dk为对应的隐藏神经单元维度。Attention表示注意力运算。

步骤2.1.3、执行设备对每个注意力模块的输出结果进行拼接，得到拼接结果。

可选地，注意力模块的输出结果的数据形式是矩阵，拼接结果的数据形式也是矩阵，拼接结果的维度数量等于每个注意力模块的输出结果的维度数量之和。拼接的方式可以是横向拼接，拼接过程可以通过调用concat(拼接)函数实现。应理解，横向拼接的方式仅是示例性说明。可选地，采用其他拼接方式，对每个注意力模块的输出结果进行拼接，例如采用纵向拼接的方式，对每个注意力模块的输出结果进行拼接，得到拼接结果，则拼接结果的行数等于每个注意力模块的输出结果的行数之和，本实施例对如何进行拼接不做具体限定。

步骤2.1.4、执行设备对拼接结果进行线性变换，得到第一输出结果。

其中，线性变换的方式可以是与一个权重矩阵相乘，也即是，步骤2.1.4具体可以是：执行设备对拼接结果与权重矩阵相乘，将乘积作为第一输出结果。可选地，线性变换也可以采用与权重矩阵相乘之外的其他方式，例如，将拼接结果与某一常数相乘，从而对拼接结果进行线性变换，或者，将拼接结果与某一常数相加，从而对拼接结果进行线性变换，本实施例对线性变换采用哪种方式不做限定。

示例性地，步骤2.1.3和步骤2.1.4可以通过下述公式(9-1)和公式(9-2)表示。步骤2.1.3中的拼接是下述公式(9-1)中的Concat，步骤2.1.4中的线性变换是下述公式(9-1)中和W ^O相乘。

MultiHead(Q，K，V)＝Concat(head ₁，......head _h)W ^o (9-1)

headi＝Attention(QW _i ^Q，KW _i ^k，VW _i ^V) (9-2)

其中，W ^O为权重矩阵，W ^O矩阵通过在第一多头注意力模型中联合训练得到，Concat表示拼接操作。MultiHead是第一多头注意力模型的输出。MultiHead是一个矩阵，该矩阵为h个自注意力矩阵的融合。h表示第一多头注意力模型中注意力模块的数量，h为大于1的正整数，head ₁表示注意力模块1，head _h表示注意力模块h，“head ₁，……head _h”表示注意力模块1、注意力模块2至注意力模块h这h个注意力模块，h*dk是当前transformer单元多头注意力机制的整体维度大小。Where意思是其中。Attention表示注意力运算。

通过上述方式，能够利用多头注意力机制，捕获到文本中长距离特征，能够提取到丰富的上下文语义表征信息，增强对词法特征和句法特征的提取能力。

步骤2.2、执行设备对第一输出结果进行归一化，得到第二输出结果。

例如，执行设备采用以下公式(10)进行运算，归一化通过下述公式(10)中的LayerNorm函数实现。当然，LayerNorm函数仅是一种示例性实现方式，执行设备也可以采用其他方式进行归一化，本实施例对如何进行归一化不做具体限定。

x＝LayerNorm(MultiHead(Q，K，V)+sublayer(MultiHead(Q，K，V))) (10)

在公式(10)中，x表示第二输出结果。LayerNorm表示标准化计算操作。MultiHead是多头注意力的意思，MultiHead(Q，K，V)为第一输出结果，MultiHead(Q，K，V)为多头注意力机制的输出，也是公式(9)的结果。Sublayer表示残差计算操作。

通过步骤2.2，可以实现向量标准化，而向量标准化能够实现对样本的均值方差的归一化，因此简化了学习的难度。

步骤2.3、执行设备对第二输出结果进行线性变换和非线性变换，得到第三输出结果。

例如，请参见图2，可以将第一多头注意力模型201的输出结果输入第一向量标准化层202，通过第一向量标准化层202会进行线性变换和非线性变换，得到第三输出结果。通过这种方式，得到标准化输出结果之后，采用前向传递计算实现向量空间的高维映射，提取到词法特征、句法特征和语义特征。

其中，线性变换可以包括与矩阵相乘的运算、与偏置相加的运算，非线性变换可以通过非线性函数实现。例如，非线性变换可以是求最大值的操作，例如，执行设备可以采用以下公式(11)进行运算，线性变换通过下述公式(11)中乘以W ₁以及加上b ₁实现，非线性变换通过下述公式(11)中max函数实现。其中，max函数仅是非线性变换的示例性实现方式，执行设备也可以采用其他方式进行非线性变换，例如通过激活函数进行运算，从而实现非线性变换，本实施例对如何进行非线性变换不做具体限定。此外，乘以W ₁以及加上b ₁仅是线性变换的示例性实现方式，执行设备也可以采用其他方式进行线性变换，本实施例对如何进行线性变换不做具体限定。

FFN(x)＝max(0，xW ₁+b ₁）W ₂+b ₂ (11)

其中，FFN表示前馈神经网络(feed-forward neural network)，max表示计算最大值的操作，W1和W2均表示前向传递的权重矩阵，b1和b2均表示权重矩阵的偏置参数，x表示向量标准化的输出，即公式(10)的结果，也就是第二输出结果。

步骤2.4、执行设备对第三输出结果进行归一化，得到词法特征和句法特征。

例如，请参见图2，可以将前向传递层203的输出结果输入第二向量标准化层204，通过第二向量标准化层204会进行归一化，得到词法特征和句法特征。通过步骤2.4，实现对样本的均值方差归一化，简化整个学习难度。

例如，执行设备采用以下公式(12)进行运算。其中，归一化通过下述公式(12)中的LayerNorm函数实现。当然，LayerNorm函数仅是一种示例性实现方式，执行设备也可以采用其他方式对第三输出结果进行归一化，本实施例对如何进行归一化不做具体限定。

V＝LayerNorm(FFN(x)+sublayer(FFN(x))) (12)

其中LayerNorm表示标准化计算操作，FFN(x)为前向传递的输出，sublayer表示残差计算操作，V表示transformer单元的输出矩阵，V的维度为词法特征和句法特征整体的维度总数量。

在一些实施例中，在执行上述方法的过程中，判断m层transformer单元是否计算完成，若判断m层transformer单元计算还未完成，继续进行计算，直到m层transformer计算完成，输出最终的预训练语言模型的张量结构。

通过上述方式，采用了基于预训练模型微调得到的语义理解模型，提取出输入的文本中包含的词法特征和句法特征，由于模型经过了预训练流程和模型微调过程，使得模型整体有很强的语义理解能力，例如语义意图理解能力和语义槽位提取信息能力。尤其是，利用车载领域的文本作为样本进行模型微调，使得模型整体有很强的车载领域的语义意图理解能力。此外，在语义理解模型采用自注意力机制实现时，能够通过进行注意力运算，捕捉到文本内部词与词之间的相关性，并且有助于捕获长距离特征，提取到的句法特征更加精确。

S403、执行设备获取待分析文本中的实体。

例如，执行设备对文本进行实体抽取，得到文本中的实体。比如说，执行设备得到输入的文本为X＝(x1x2…xn)，执行设备对X＝(x1x2…xn)进行Extract操作(即实体抽取操作)，得到实体(e1，…，ej)。例如，请参见图5，可以将(E _[CLS]E _我E _想E _听E _七E _里E _香E _[SEP]E _[pad]E _[pad]E _[pad])，作为实体抽取模块的输入，实体抽取模块对(E _[CLS]E _我E _想E _听、E _七E _里E _香E _[SEP]E _[pad]E _[pad]E _[pad])进行实体抽取，得到抽取的实体为(E _七E _里E _香)。其中ej表示文本中第j个实体，j为正整数。

S404、执行设备根据待分析文本中的实体，获取实体对应的结构化实体向量，结构化实体向量用于指示实体的标识以及实体的属性。

结构化实体向量是实体的向量表示。由于采用了向量这种数据形式，使得数据结构较为规则和完整。例如，结构化实体向量的维度的数量是100维，当然，结构化实体向量也可以不是100维的向量，而是其他维数的向量，本实施例对结构化实体向量的具体维数不做限定。例如，默是一个实体的标识，默的属性为歌曲名，默的结构化实体向量为(-0.0369 -0.1494 0.0732 0.0774 0.0518 0.0518….)，其中，(-0.0369-0.1494 0.0732 0.0774 0.0518 0.0518….)中的省略号表示未示出的94个维度，-0.0369、-0.1494、0.0732、0.0774、0.0518、0.0518分别是6个维度的取值。(-0.0369 -0.1494 0.0732 0.0774 0.0518 0.0518….)表示默以及歌曲名。

在一些实施例中，执行设备根据文本中的实体，从实体构建表中获取结构化实体向量。例如，请参见图5，执行设备根据实体(E _七E _里E _香)，从实体构建表中获取七里香的结构化实体向量为(-0.7563 -0.6532 0.2182 0.3914 0.3628 0.5528)。

其中，实体构建表用于保存实体与结构化实体向量之间的映射关系。实体构建表也称为知识实体映射表，用于将实体映射为结构化实体向量，实现实体的表征工作。可选地，实体构建表预先保存在执行设备中。可选地，执行设备以实体为索引，查询实体构建表，得到结构化实体向量，从而将实体映射为向量表示。可选地，实体构建表根据经验设置，例如，预先将中文词库中的每一个词输入词嵌入模型中，通过词嵌入模型对每个词进行处理，输出每个词的词向量。用户根据经验，从中文词库中的每个词中选取实体，从词嵌入模型输出的所有词向量中，筛选出表示实体的词向量，将筛选出的词向量作为结构化实体向量，将结构化实体向量存入实体构建表。其中，该词嵌入模型可以是神经网络模型。

示意性地，参见图5，实体构建表可以如下表1所示。该实体构建表的含义是，默是一个实体，默的结构化实体向量为(-0.0369 -0.1494 0.0732 0.0774 0.0518 0.0518……)；老九门是一个实体，老九门的结构化实体向量为(-0.0154 -0.2385 0.1943 0.4892 0.7531 0.9021……)；林中的小鸟是一个实体，林中的小鸟的结构化实体向量为(-0.1692 -0.4494 0.7911 0.9651 0.7226 0.3128……)；七里香是一个实体，七里香的结构化实体向量为(-0.7563 -0.6532 0.2182 0.3914 0.3628 0.5528……)。其中，图5和表1中，每个结构化实体向量为100维度的向量，图5和表1中每个结构化实体向量中的省略号表示未示出的94个维度的数值，表1的最后一行表示实体构建表包含而在表1中未示出的其他实体。

表1

实体	结构化实体向量
默	-0.0369 -0.1494 0.0732 0.0774 0.0518 0.0518……
老九门	-0.0154 -0.2385 0.1943 0.4892 0.7531 0.902……
林中的小鸟	-0.1692 -0.4494 0.7911 0.9651 0.7226 0.3128……
七里香	-0.7563 -0.6532 0.2182 0.3914 0.3628 0.5528……
……	……………………………………………………………………

在一些实施例中，应用在车载领域，实体构建表包括车载领域关联的实体。例如，车载领域包括导航业务领域、音乐播放业务领域、电台业务领域、通讯业务领域、短信收发业务领域、即时通信应用业务领域、日程查询业务领域、新闻推送业务领域、智能问答业务领域、空调控制业务领域、车控业务领域、维修业务领域，实体构建表包括这些业务领域关联的实体。其中，车载领域中导航场景和听歌场景较为众多，则实体构建表可以包括地点和歌曲。通过这种方式，有助于构建车载领域结构化知识实体。

例如，如果待分析的文本为“播放那英的默”，执行设备对这个文本进行实体抽取，得到实体为“默”，“默”的属性为歌曲名。执行设备根据“默”查询上表1，得到结构化实体向量为(-0.0369 -0.1494 0.0732 0.0774 0.0518 0.0518……)，(-0.0369 -0.1494 0.0732 0.0774 0.0518 0.0518……)表示“默”这一实体以及歌曲名这一属性，后续根据结构化实体向量，确定意图为“听歌”。又如，如果待分析的文本为“老九门的歌曲”，执行设备对这个文本进行实体抽取，得到实体为“老九门”，“老九门”的属性为歌手名。执行设备根据“老九门”查询上表1，得到结构化实体向量为(-0.0154 -0.2385 0.1943 0.4892 0.7531 0.902……)，(-0.0154 -0.2385 0.1943 0.4892 0.7531 0.902……)表示“老九门”这一实体以及歌手名这一属性。又如，如果待分析的文本为“帮我找一找林中的小鸟”，执行设备对这个文本进行实体抽取，得到实体为“林中的小鸟”，“林中的小鸟”的属性为歌曲名。执行设备根据“林中的小鸟”查询上表1，得到结构化实体向量为(-0.1692 -0.4494 0.7911 0.9651 0.7226 0.3128……)，(-0.1692 -0.4494 0.7911 0.9651 0.7226 0.3128……)表示“林中的小鸟”这一实体以及歌曲名这一属性。

在一些实施例中，实体构建表包括名称不规则的实体、名称的字符数量超过阈值的实体、名称的词频低于阈值的实体中的至少一项。名称不规则的实体例如是语法不规则歌曲。名称的字符数量超过阈值的实体例如是长字符地名。名称的词频低于阈值的实体例如是低频字符地名。这些实体由于名称容易引起歧义或具有多种含义，机器难以理解正确语义，而通过预先将这些实体的向量表示预先存入实体构建表，机器查表即可得到准确的向量表示，通过在语义理解的过程中融入实体特征，有助于提高语义理解的准确性。

例如，对“搜索世界之花”这句话进行语义理解时，容易将“世界之花”识别为歌曲名，错误地判定这句话的语义意图为“听歌”。而通过预先为“世界之花”构建结构化实体向量，使用一个向量来表达“世界之花”这一实体和地名这一属性，将向量保存在实体构建表中，如果用户说“搜索世界之花”，执行设备会将“搜索世界之花”作为待识别的文本，抽取实体为“世界之花”，查询实体构建表，得到预先为“世界之花”构建的向量表示(即结构化实体向量)。由于该向量指示“世界之花”的属性是地名而不是歌曲名，因此执行设备根据向量进行语义分析后，能够判定这句话的语义意图为“导航”而不是“听歌”，由此提高了语义意图识别的准确性。

综上以上步骤a和步骤b，例如，执行设备采用以下公式(13)，实现结构化实体向量的提取。其中，获取待分析文本中的实体是下述公式(13)中的Extract，获取结构化实体向量是下述公式(13)中的F。

E1＝{e1，…ej}＝F(Extract{x1，…xn}) (13)

其中，x1……xn表示待分析的文本，x1表示文本中的第1个字，xn表示文本中的第n个字，……表示文本中包含而未示出的字，Extract表示实体抽取操作，F表示用于构建实体的映射函数，E1表示结构化实体向量，e1，…ej表示抽取的每个实体的向量表示。

通过上述方法，将输入的文本中的实体抽取出来，通过构建结构化实体向量，从而将实体进行向量化表示，由于实体的向量能够表征实体和实体的属性，因此实体的向量化表示效果好，实现实体的有效嵌入，因此后续预训练模型根据结构化实体向量进行进一步识别时，能够增强预训练模型的车载语义意图理解能力和语义槽位提取能力。

应理解，本实施例对S402与S403的时序不做限定。在一些实施例中，S402与S403可以顺序执行。例如，可以先执行S402，再执行S403；也可以先执行S403，再执行S402。在另一些实施例中，S402与S403也可以并行执行，即，可以同时执行S402以及S403。

S405、执行设备对结构化实体向量进行特征提取，得到实体特征。

可选地，执行设备对结构化实体向量进行注意力运算，得到实体特征，使得实体特征能够捕捉结构化实体向量内部的结构和依赖关系。示例性地，执行设备利用多头注意力模型，执行下述步骤(1)至步骤(4)，对结构化实体向量进行特征提取。

步骤(1)执行设备将结构化实体向量输入第二多头注意力模型。

例如，第二多头注意力模型包括m层transformer单元，每一个transformer单元用于执行多头注意力机制，每一个transformer单元包括h个自注意力模块。例如，请参见图5，第二多头注意力模型包括注意力模块0、注意力模块1、注意力模块2、注意力模块3、注意力模块4、注意力模块5、注意力模块6和注意力模块7。

例如，请参见图5，可以将七里香的结构化实体向量(-0.7563 -0.6532 0.2182 0.3914 0.3628 0.5528……)，作为第二多头注意力模型的输入矩阵X，将输入矩阵X分别输入至注意力模块0、注意力模块1、注意力模块2、注意力模块3、注意力模块4、注意力模块5、注意力模块6和注意力模块7。

步骤(2)执行设备通过第二多头注意力模型中的每个注意力模块，分别对结构化实体向量进行注意力运算，得到每个注意力模块的输出结果。

例如，请参见图5，注意力模块0、注意力模块1、注意力模块2、注意力模块3、注意力模块4、注意力模块5、注意力模块6和注意力模块7可以分别对输入矩阵X进行注意力运算，得到注意力模块0的输出结果、注意力模块1的输出结果、注意力模块2的输出结果、注意力模块3的输出结果、注意力模块4的输出结果、注意力模块5的输出结果、注意力模块6的输出结果、注意力模块7的输出结果。

其中，每个注意力模块可以采用下述公式(14)至(17)进行注意力运算，注意力模块的输出结果可以通过公式(18)表示。

Q＝W ^QX ₂ (14)

K＝W ^KX ₂ (15)

V＝W ^VX ₂ (16)

head(i)＝Attention(Q，K，V) (18)

其中，X ₂表示输入的结构化实体向量，公式(14)中的W ^Q表示第二多头注意力模型中一个注意力模块的查询权重矩阵，Q表示第二多头注意力模型中一个注意力模块的查询矩阵。公式(15)中的W ^K为第二多头注意力模型中一个注意力模块的键权重矩阵，K表示第二多头注意力模型中一个注意力模块的键矩阵。公式(16)中的W ^V为第二多头注意力模型中一个注意力模块的值权重矩阵，V表示第二多头注意力模型中一个注意力模块的值矩阵。head(i)表示当前自注意力机制的输出矩阵，head(i)的列数＝值(Value)向量的列数。dk为对应的隐藏神经单元维度。Attention表示注意力运算。softmax表示通过softmax函数运算。

步骤(3)执行设备对每个注意力模块的输出结果进行拼接，得到拼接结果。

例如，多头注意力模型有12个注意力模块，这12个注意力模块中每一个注意力模块的输出结果是10行64列的矩阵，则拼接结果是一个10行768列的矩阵，其中拼接结果中的第1列至第12列是第1个注意力模块的输出结果，拼接结果中的第13列至第24列是第2个注意力模块的输出结果，拼接结果中的第25列至第36列是第3个注意力模块的输出结果，依次类推，拼接结果中的第705列至第768列是第12个注意力模块的输出结果。例如，请参见下面的公式(19)和公式(20)，每个注意力模块的输出结果是公式(20)中的head _i，h个注意力模块的输出结果是公式(19)中的head ₁，......head _h，其中，head1是注意力模块1的输出结果，headh是注意力模块h的输出结果，省略号表示未示出的其他注意力模块的输出结果，拼接可以是通过公式(19)中Concat函数进行运算的操作。

MultiHead(Q，K，V)＝Concat(head ₁，......head _h)W ^O (19)

headi＝Attention(Q _iW _i ^Q，K _iW _i ^K，V _iW _i ^V) (20)

其中，公式(19)中的Concat表示拼接操作，h表示注意力模块的数量，h为大于1的正整数，WO表示一个权重矩阵，WO通过在第二多头注意力模型中联合训练得到，MultiHead是第二多头注意力模型的输出，Q _i表示注意力模块headi对应的Q矩阵，K _i表示注意力模块headi对应的K矩阵，V _i表示注意力模块headi对应的V矩阵。

步骤(4)执行设备对拼接结果进行线性变换，得到实体特征。

可选地，线性变换的方式是与一个权重矩阵相乘，也即是，步骤(4)具体可以是：执行设备对拼接结果与权重矩阵相乘，将乘积作为实体特征。例如，参见上面公式(20)，线性变换所使用的权重矩阵是WO，步骤(4)具体可以是：对Concat(head ₁，......head _h)与W ^O相乘，得到的乘积是MultiHead(Q，K，V)，MultiHead(Q，K，V)即为实体特征。可选地，线性变换也可以采用与权重矩阵相乘之外的其他方式，例如，将拼接结果与某一常数相乘，从而对拼接结果进行线性变换，或者，将拼接结果与某一常数相加，从而对拼接结果进行线性变换，本实施例对线性变换采用哪种方式不做限定。

示例性地，步骤(3)和步骤(4)可以通过上述公式(19)、公式(20)和以下公式(21)表示。

E2＝MultiHead(Q，K，V) (21)

E2表示根据文本的结构化实体向量提取出的实体特征。可选地，E2的数据形式是一个矩阵，E2的每一行是文本中一个实体对应的结构化实体向量，E2的维度数量和一个结构化实体向量的维度数量相等。例如，如果待分析的文本中共包含N个实体，则E2是N行的矩阵，E2的第1行是文本中第1个实体对应的结构化实体向量，E2的第2行是文本中第2个实体对应的结构化实体向量，如果一个结构化实体向量是100维度的向量，则E2的维度数量等于100。N为正整数。

通过上述方式，利用多头注意力机制，能够捕捉到结构化实体向量内部中词与词之间的相关性，并且有助于捕获长距离特征，使得提取到的实体特征能够准确表达出语义，因此实体特征更加精确。

S406、执行设备对文本的实体特征、文本的词法特征和文本的句法特征进行融合，得到文本的语义特征。

执行设备通过从文本中提取词法特征，句法特征和实体特征，实现了对文本信息的初步的语义意图理解。接下来，执行设备将词法特征、句法特征和实体特征进行融合，从而将三种特征结合起来，融合得到的语义特征包含了实体特征、词法特征和句法特征，蕴含了丰富的语义相关的信息，因此语义特征能够用于得到所述文本的语义信息，使用融合后的语义特征能够进一步增强预训练模型本身的车载语义意图理解能力和语义槽位提取能力。

例如，请参见图6，得到语义理解模型输出的结果为(w1w2w3w4w5w6w7w8w9)，(w1w2w3w4w5w6w7w8w9)包含文本的词法特征和文本的句法特征，(w1w2w3w4w5w6w7w8w9)是文本的词法特征和句法特征的融合，词法特征和句法特征是在语义理解模型的内部计算过程中实现融合的。此外，通过504得到的实体特征为(e5e6e7)。那么，可以将(w1w2w3w4w5w6w7w8w9)与(e5e6e7)进行融合，将融合结果作为语义特征，其中，e5是一个结构化实体向量的实体特征，e5是一个向量，e6是另一个结构化实体向量的实体特征，e6是一个向量，e7是另一个结构化实体向量的实体特征，e7也是一个向量。由于(w1w2w3w4w5w6w7w8w9)已经包含了词法特征和句法特征，将其与实体特征进行融合后，语义特征会包含词法特征、句法特征和实体特征。

例如，执行设备可以通过下述步骤一至步骤二，进行特征融合。

步骤一、执行设备对文本的实体特征、文本的词法特征和文本的句法特征进行加权求和，得到融合特征。

由于词法特征、句法特征和实体特征是不同向量空间中的特征，或者说词法特征、句法特征和实体特征是异构信息，通过对实体特征、词法特征和句法特征进行加权求和，可以将这三种特征融合在一起，从而实现异构信息融合。

步骤二、执行设备通过激活函数对融合特征进行非线性变换，得到语义特征。

其中，激活函数可以采用GELU函数。例如，执行设备可以采用下述公式(22)和公式(23)进行运算，公式(22)和公式(23)可以提供为异构信息融合策略。

h＝GELU(W _t*ω _i+W _e*e _i+b) (22)

GELU(X)＝xP(X＜＝x)＝xφ(x)，φ(x)～(0，1) (23)

其中GELU表示激活函数，W _t表示权重矩阵，W _e表示权重矩阵，b表示偏置参数，wi表示语义理解模型200的输出结果，wi的形式可以是一个文本序列。例如，上述公式(12)中通过LayerNorm得出的V可以是一个矩阵的形式，公式(22)中的wi是上述公式(12)中V中的一行。ei表示实体构建模块的输出结果，ei的形式可以是一个知识序列，即一个结构化实体向量，ei可以是公式(21)得出的矩阵E2中的一行，φ(x)表示符合(0，1)正态分布的概率分布函数。

S407、执行设备对语义特征进行解码，得到文本的语义信息。

S407为可选步骤，本实施例对是否执行S407不做限定。

例如，语义信息包括语义意图和语义槽位中的至少一项。执行设备可以计算语义意图的概率分布，得到当前的语义意图和语义槽位。例如，执行设备的语义理解编码器可以处理文本信号序列X＝x1 x2…xn，生成新的序列Z＝z1 z2…zn，n表示文本输入的长度，之后，语义理解解码器继续处理文本信号序列Z，得到最终的输出序列Y＝y1 y2…yn+1。其中y1表示语义意图，y2…yn+1表示文本信号的语义槽位信息。例如，执行设备采用以下公式(24)和公式(25)进行计算。

y1＝F(Wh1*hi+b1) (24)

yi＝F(Wh2*hi+b2) (25)

公式(24)中y1表示语义意图，Wh1表示权重矩阵，b1表示偏置参数，F表示用于解码的函数。公式(25)中yi表示语义槽位，Wh2表示权重矩阵，b2表示偏置参数。

可选地，执行设备理解了语义信息之后，根据语义信息执行相应的操作。例如，应用在车载领域，执行设备是车载终端，车载终端根据语义信息，控制车载执行系统进行操作，从而进行车载语音交互。之后，执行设备可以进行等待，若新的语音信号来到，执行设备重新执行上述过程以理解新的语音信号的语义。

本实施例提供的方法，通过构建结构化实体向量，以向量的形式来表征实体的标识和实体的属性，从结构化实体向量提取出实体特征，将实体特征与词法特征和句法特征进行融合，得到包含了实体特征、词法特征和句法特征的语义特征，对语义特征解码后得到语义信息，由于结构化实体向量中包含实体的标识和实体的属性，能够利用实体的属性增强语义理解的能力。

以下通过实施例三，对实施例二进行举例说明。在实施例三示出的方法中，执行设备为车载终端，待识别的文本是对车载终端采集的语音进行识别得到的。换句话说，实施例三关于车载终端如何利用实施例二与用户进行语音交互。应理解，实施例三与实施例二同理的步骤还请参见实施例二，在实施例三不做赘述。

实施例三

图7为本申请实施例三提供的一种基于语义理解模型和结构化实体向量的车载语音交互的实施例三，该实施例三具体可以由车载终端执行，实施例三包括S701至S704。

S701、车载终端的音频设备采集用户输入的语音，该语音为控制命令信号，该音频设备例如是分布式麦克风阵列。

S702、车载终端的语音识别模块将语音信号转化为文本信号，将文本信号输入车载终端的语义理解模块。

S703、参见图8，语义理解模块对应的步骤包括S7031至S7039。

S7031、车载终端基于多头注意力机制，通过多个注意力模块对文本信号进行注意力运算，得到每个注意力模块的输出结果，通过拼接和线性变换后，得到第一输出结果。

S7032、车载终端对第一输出结果执行向量标准化操作，使得第一输出结果归一化为第二输出结果。

S7033、车载终端对第二输出结果进行前向传递操作，使得第二输出结果经过线性变换和非线性变换后，转换为第三输出结果。

S7034、车载终端对第三输出结果执行向量标准化操作，使得第三输出结果归一化为句法特征和词法特征。

通过S7031至S7034，实现了文本输入的词法特征、句法特征和语义特征的提取，实现初步的用户命令的语义意图理解。

S7035、车载终端的知识实体抽取模块将文本输入中实体抽取出来，得到有效的实体。

S7036、车载终端的知识实体构建模块将实体进行向量化表示，得到实体的属性的表征。

S7037、车载终端基于多头注意力机制，通过多个注意力模块对实体的属性的表征进行注意力运算，得到每个注意力模块的输出结果，通过拼接和线性变换后，得到实体特征。

S7038、车载终端的异构信息融合模块将文本输入的句法特征、词法特征和实体特征在不同的向量空间实现有效的信息融合。

S7039、车载终端通过语义解码器，计算语义意图概率分布，得到用户的当前语义意图和和语义槽位。

S704、车载功能模块接收控制命令信号，根据控制命令信号执行操作。

本实施例提供的方法提供了一种车载领域下基于语义理解模型和结构化实体向量的车载语音交互的方法，由于利用了经过了预训练和模型微调的语义理解模型，并基于结构化实体向量提取到了实体特征，并融合了实体特征、词法特征和句法特征，因此能够在车载语音交互的场景下，解决语义意图理解能力不足和不能完全识别基本的结构化知识实体的问题，从而进一步增强车载领域的语义意图理解能力和语义槽位信息提取能力。

可以理解，实施例一为该语义理解模型的训练阶段(如图1所示的训练设备12执行的阶段)，具体训练是采用由实施例一以及实施例一基础上任意一种可能的实现方式中提供的预训练模型进行的；而实施例二则可以理解为是该语义理解模型的应用阶段(如图1所示的执行设备11执行的阶段)，具体可以体现为采用由实施例一训练得到的语义理解模型，并根据用户输入的语音或文本，从而得到输出的语义信息，而实施例三为实施例二包括的一种实施例。

以上介绍了本申请实施例的语义分析方法，以下介绍本申请实施例的语义分析装置，应理解，该语义分析装置其具有上述方法中执行设备的任意功能。

图9是本申请实施例提供的一种语义分析装置的结构示意图，如图9所示，该语义分析装置900包括：获取模块901，用于执行S403至S404；提取模块902，用于执行S405；融合模块903，用于执行S406。

可选地，该融合模块903，包括：加权求和子模块，用于执行S406中的步骤一；变换子模块，用于执行S406中的步骤二。

可选地，该提取模块902，包括：注意力子模块，用于执行S402中的步骤2.1；归一化子模块，用于执行S402中的步骤2.2；变换子模块，用于执行S402中的步骤2.3；该归一化子模块，还用于执行S402中的步骤2.4。

可选地，该注意力子模块，用于执行S402中的步骤2.1.1至步骤2.1.4。

可选地，该提取模块902，包括：输入子模块，用于执行S405中的步骤(1)；注意力子模块，用于执行S405中的步骤(2)；拼接子模块，用于执行S405中的步骤(3)；变换子模块，用于执行S405中的步骤(4)。

应理解，图9实施例提供的语义分析装置900对应于上述方法实施例中的执行设备，语义分析装置900中的各模块和上述其他操作和/或功能分别为了实现方法实施例中的执行设备所实施的各种步骤和方法，具体细节可参见上述方法实施例，为了简洁，在此不再赘述。

应理解，图9实施例提供的语义分析装置在分析语义时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将语义分析装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语义分析装置与上述实施例二属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图10是本申请实施例提供的一种语义理解模型的训练装置的结构示意图，如图10所示，该语义理解模型的训练装置1000包括：获取模块1001，用于执行S301；训练模块1002，用于执行S302；获取模块1001，还用于执行S303，训练模块1002，还用于执行S304。

应理解，图10实施例提供的语义理解模型的训练装置1000对应于上述方法实施例中的训练设备，语义理解模型的训练装置1000中的各模块和上述其他操作和/或功能分别为了实现方法实施例中的训练设备所实施的各种步骤和方法，具体细节可参见上述方法实施例，为了简洁，在此不再赘述。

应理解，图10实施例提供的语义理解模型的训练装置在训练语义理解模型时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将语义理解模型的训练装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语义理解模型的训练装置与上述实施例一属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图11是本申请实施例提供的语义分析装置的硬件结构示意图。图11所示的语义分析装置1100(该装置1100具体可以是一种计算机设备)包括存储器1101、处理器1102、通信接口1103以及总线1104。其中，存储器1101、处理器1102、通信接口1103通过总线1104实现彼此之间的通信连接。

存储器1101可以是只读存储器(Read Only Memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(Random Access Memory，RAM)。存储器1101可以存储程序，当存储器1101中存储的程序被处理器1102执行时，处理器1102和通信接口1103用于执行本申请实施例的语义分析方法的各个步骤。

处理器1102可以采用通用的中央处理器(Central Processing Unit，CPU)，微处理器，应用专用集成电路(Application Specific Integrated Circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的语义分析装置中的单元所需执行的功能，或者执行本申请方法实施例的语义分析方法。

处理器1102还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的语义分析方法的各个步骤可以通过处理器1102中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1102还可以是通用处理器、数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1101，处理器1102读取存储器1101中的信息，结合其硬件完成本申请实施例的语义分析装置中包括的单元所需执行的功能，或者执行本申请方法实施例的语义分析方法。

通信接口1103使用例如但不限于收发器一类的收发装置，来实现装置1100与其他设备或通信网络之间的通信。例如，可以通过通信接口1103获取文本(如本申请实施例二中的待分析的文本)。

总线1104可包括在装置1100各个部件(例如，存储器1101、处理器1102、通信接口1103)之间传送信息的通路。

应理解，语义分析装置900中的提取模块902、融合模块903和解码模块903可以相当于处理器1102。

图12是本申请实施例提供的一种语义理解模型的训练装置的硬件结构示意图。图12所示的语义理解模型的训练装置1200(该装置1200具体可以是一种计算机设备)包括存储器1201、处理器1202、通信接口1203以及总线1204。其中，存储器1201、处理器1202、通信接口1203通过总线1204实现彼此之间的通信连接。

存储器1201可以是只读存储器(Read Only Memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(Random Access Memory，RAM)。存储器1201可以存储程序，当存储器1201中存储的程序被处理器1202执行时，处理器1202和通信接口1203用于执行本申请实施例的语义理解模型的训练方法的各个步骤。

处理器1202可以采用通用的中央处理器(Central Processing Unit，CPU)，微处理器，应用专用集成电路(Application Specific Integrated Circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的语义理解模型的训练装置中的单元所需执行的功能，或者执行本申请方法实施例的语义理解模型的训练方法。

处理器1202还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的语义理解模型的训练方法的各个步骤可以通过处理器1202中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1202还可以是通用处理器、数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1201，处理器1202 读取存储器1201中的信息，结合其硬件完成本申请实施例的语义理解模型的训练装置中包括的单元所需执行的功能，或者执行本申请方法实施例的语义理解模型的训练方法。

通信接口1203使用例如但不限于收发器一类的收发装置，来实现装置1200与其他设备或通信网络之间的通信。例如，可以通过通信接口1203获取训练数据(如本申请实施例一中的被掩码的文本或标注了语义意图、语义槽位等语义信息的文本)。

总线1204可包括在装置1200各个部件(例如，存储器1201、处理器1202、通信接口1203)之间传送信息的通路。

应理解，语义理解模型的训练装置1000中的获取模块1001相当于语义理解模型的训练装置1200中的通信接口1203，训练模块1002可以相当于处理器1202。

应注意，尽管图12和图11所示的装置1200和1100仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，装置1200和1100还包括实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当理解，装置1200和1100还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，装置1200和1100也可仅仅包括实现本申请实施例所必须的器件，而不必包括图12或图11中所示的全部器件。

可以理解，装置1200相当于图1中的训练设备12，该装置1100相当于图1中的执行设备11。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

该作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

该功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种语义分析方法，其特征在于，所述方法包括：

获取待分析文本中的实体；

根据所述待分析文本中的所述实体，获取所述实体对应的结构化实体向量，所述结构化实体向量用于指示所述实体的标识以及所述实体的属性；

对所述结构化实体向量进行特征提取，得到实体特征；

对所述实体特征、所述文本的词法特征和所述文本的句法特征进行融合，得到所述文本的语义特征，所述语义特征用于获取所述文本的语义信息。
根据权利要求1所述的方法，其特征在于，所述根据所述待分析文本中的所述实体，获取所述实体对应的结构化实体向量，包括：

根据所述待分析文本中的所述实体，从实体构建表中获取所述结构化实体向量，所述实体构建表用于保存实体与结构化实体向量之间的映射关系。
根据权利要求1所述的方法，其特征在于，所述对所述实体特征、所述文本的词法特征和所述文本的句法特征进行融合，得到所述文本的语义特征，包括：

对所述实体特征、所述词法特征和所述句法特征进行加权求和，得到融合特征；

通过激活函数对所述融合特征进行非线性变换，得到所述语义特征。
根据权利要求1所述的方法，其特征在于，所述对所述实体特征、所述文本的词法特征和所述文本的句法特征进行融合之前，所述方法还包括：

将所述文本输入语义理解模型，所述语义理解模型是根据第一样本对预训练模型进行迁移训练得到的，所述第一样本包括标注了语义信息的文本，所述预训练模型是根据第二样本训练得到的，所述第二样本包括被掩码的文本；

通过所述语义理解模型，从所述文本中提取所述词法特征和所述句法特征。
根据权利要求4所述的方法，其特征在于，所述通过所述语义理解模型，从所述文本中提取所述词法特征和所述句法特征，包括：

对所述文本进行注意力运算，得到第一输出结果，所述第一输出结果用于指示所述文本中词与词之间的依赖关系；

对所述第一输出结果进行归一化，得到第二输出结果；

对所述第二输出结果进行线性变换和非线性变换，得到第三输出结果；

对所述第三输出结果进行归一化，得到所述词法特征和所述句法特征。
根据权利要求5所述的方法，其特征在于，所述语义理解模型包括第一多头注意力模型，所述对所述文本进行注意力运算，得到第一输出结果，包括：

将所述文本输入所述第一多头注意力模型；

通过所述第一多头注意力模型中的每个注意力模块，分别对所述文本进行注意力运算，得到每个注意力模块的输出结果；

对所述每个注意力模块的输出结果进行拼接，得到拼接结果；

对所述拼接结果进行线性变换，得到所述第一输出结果。
根据权利要求1所述的方法，其特征在于，所述对所述结构化实体向量进行特征提取，得到实体特征，包括：

将所述结构化实体向量输入第二多头注意力模型；

通过所述第二多头注意力模型中的每个注意力模块，分别对所述结构化实体向量进行注意力运算，得到每个注意力模块的输出结果；

对所述每个注意力模块的输出结果进行拼接，得到拼接结果；

对所述拼接结果进行线性变换，得到所述实体特征。
一种语义分析装置，其特征在于，所述装置包括：

获取模块，用于获取待分析文本中的实体，根据所述待分析文本中的所述实体，获取所述实体对应的结构化实体向量，所述结构化实体向量用于指示所述实体的标识以及所述实体的属性；

提取模块，用于对所述结构化实体进行特征提取，得到实体特征；

融合模块，用于对所述实体特征、所述文本的词法特征和所述文本的句法特征进行融合，得到所述文本的语义特征，所述语义特征用于获取所述文本的语义信息。
根据权利要求8所述的装置，其特征在于，所述获取模块，用于根据所述待分析文本中的所述实体，从实体构建表中获取所述结构化实体向量，所述实体构建表用于保存实体与结构化实体向量之间的映射关系。
根据权利要求8所述的装置，其特征在于，所述融合模块，包括：

加权求和子模块，用于对所述实体特征、所述词法特征和所述句法特征进行加权求和，得到融合特征；

变换子模块，用于通过激活函数对所述融合特征进行非线性变换，得到所述语义特征。
根据权利要求8所述的装置，其特征在于，所述装置还包括：

输入模块，用于将所述文本输入语义理解模型，所述语义理解模型是根据第一样本对预训练模型进行迁移训练得到的，所述第一样本包括标注了语义信息的文本，所述预训练模型是根据第二样本训练得到的，所述第二样本包括被掩码的文本；

所述提取模块，还用于通过所述语义理解模型，从所述文本中提取所述词法特征和所述句法特征。
根据权利要求11所述的装置，其特征在于，所述提取模块，包括：

注意力子模块，用于对所述文本进行注意力运算，得到第一输出结果，所述第一输出结果用于指示所述文本中词与词之间的依赖关系；

归一化子模块，用于对所述第一输出结果进行归一化，得到第二输出结果；

变换子模块，用于对所述第二输出结果进行线性变换和非线性变换，得到第三输出结果；

所述归一化子模块，还用于对所述第三输出结果进行归一化，得到所述词法特征和所述句法特征。
根据权利要求12所述的装置，其特征在于，所述语义理解模型包括第一多头注意力模型，所述注意力子模块，用于将所述文本输入所述第一多头注意力模型；通过所述第一多头注意力模型中的每个注意力模块，分别对所述文本进行注意力运算，得到每个注意力模块的输出结果；对所述每个注意力模块的输出结果进行拼接，得到拼接结果；对所述拼接结果进行线性变换，得到所述第一输出结果。
根据权利要求8所述的装置，其特征在于，所述提取模块，包括：

输入子模块，用于将所述结构化实体向量输入第二多头注意力模型；

注意力子模块，用于通过所述第二多头注意力模型中的每个注意力模块，分别对所述结构化实体向量进行注意力运算，得到每个注意力模块的输出结果；

拼接子模块，用于对所述每个注意力模块的输出结果进行拼接，得到拼接结果；

变换子模块，用于对所述拼接结果进行线性变换，得到所述实体特征。
一种执行设备，其特征在于，所述执行设备包括处理器，所述处理器用于执行指令，使得所述执行设备执行如权利要求1至权利要求7中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器读取以使执行设备执行如权利要求1至权利要求7中任一项所述的方法。