WO2021232589A1

WO2021232589A1 - 基于注意力机制的意图识别方法、装置、设备及存储介质

Info

Publication number: WO2021232589A1
Application number: PCT/CN2020/105090
Authority: WO
Inventors: 孙思; 曹锋铭
Original assignee: 平安国际智慧城市科技股份有限公司
Priority date: 2020-05-21
Filing date: 2020-07-28
Publication date: 2021-11-25
Also published as: CN111737458A; CN111737458B

Abstract

涉及人工智能领域，公开了一种基于注意力机制的意图识别方法、装置、设备(300)及存储介质，用于提高对需推理的信息进行多模态意图识别的准确性。方法包括：获取文本信息的文本意图特征和图像信息的图像意图特征(101)；分别计算文本注意力值和图像注意力值(102)；根据文本注意力值和文本意图特征以及图像注意力值与图像意图特征，分别获得文本偏重特征矩阵和图像偏重特征矩阵(103)；根据文本意图特征、图像意图特征、文本偏重特征矩阵、图像偏重特征矩阵和预置门控机制，生成注意力融合意图特征和门控机制融合意图特征(104)；将注意力融合意图特征和门控机制融合意图特征进行拼接处理得到目标意图特征(105)；对目标意图特征进行意图分类得到对应的目标意图(106)。

Description

基于注意力机制的意图识别方法、装置、设备及存储介质

本申请要求于2020年5月21日提交中国专利局、申请号为202010433435.0、发明名称为“基于注意力机制的意图识别方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

技术领域

本申请涉及知识表示与推理领域，尤其涉及一种基于注意力机制的意图识别方法、装置、设备及存储介质。

背景技术

随着语音技术和自然语言理解等技术的发展，语音交互系统也随之发展，成为当今的热门研究领域之一。随着语音交互系统的发展，在面对如何通过语音交互系统与用户进行有效的对话的问题时，对交互信息进行意图识别成为有力的解决方案，而对交互信息进行意图识别的准确性也就成为亟需解决的关注问题之一。目前的交互信息意图识别中，通过对交互信息进行特征提取，获得特征信息，通过多个预置的意图识别模型对该特征信息进行意图分类处理，从而实现意图识别。

发明人意识到在现有技术中，由于是采用双线性的多模态融合方式，在对于一些间接需要简单推理的信息时，并不能准确地对该信息的意图进行识别，且进行意图识别的信息类型有些局限，一般都是仅对文本信息进行意图识别，例如：当无法通过输入用语言表述对“安检红外闸机的使用”进行咨询时，需要输入“安检红外闸机”的图像以进行咨询，而双线性的多模态融合方式难以通过对“安检红外闸机”图像信息进行推理分析从而识别到对应的“安检红外闸机的使用”意图类型。因而，导致对需推理的信息进行多模态意图识别的准确性低。

发明内容

本申请的主要目的在于解决对需推理的信息进行多模态意图识别的准确性低的问题。

本申请第一方面提供了一种基于注意力机制的意图识别方法，包括：

获取文本信息和图像信息，通过预置的门控循环单元神经网络模型对所述文本信息进行意图特征提取，得到文本意图特征，并通过预置的区域卷积神经网络模型对所述图像信息进行意图特征提取，得到图像意图特征；

分别计算所述文本意图特征和所述图像意图特征的注意力，得到文本注意力值和图像注意力值；

根据所述文本注意力值与所述文本意图特征生成文本偏重特征矩阵，并根据所述图像注意力值与所述图像意图特征生成图像偏重特征矩阵；

根据所述文本意图特征、所述图像意图特征、所述文本偏重特征矩阵和所述图像偏重特征矩阵，生成注意力融合意图特征，并根据预置门控机制、所述文本意图特征和所述图像意图特征，生成门控机制融合意图特征；

将所述注意力融合意图特征和所述门控机制融合意图特征进行拼接处理，得到目标意图特征；

对所述目标意图特征进行意图分类，得到对应的目标意图。

本申请第二方面提供了一种基于注意力机制的意图识别设备，所述基于注意力机制的意图识别设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于注意力机制的意图识别程序，所述处理器执行所述基于注意力机制的意图识别程序时实现如下步骤：

对所述目标意图特征进行意图分类，得到对应的目标意图。

本申请第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如下步骤：

对所述目标意图特征进行意图分类，得到对应的目标意图。

本申请第四方面提供了一种基于注意力机制的意图识别装置，包括：

特征提取模块，用于获取文本信息和图像信息，通过预置的门控循环单元神经网络模型对所述文本信息进行意图特征提取，得到文本意图特征，并通过预置的区域卷积神经网络模型对所述图像信息进行意图特征提取，得到图像意图特征；

计算模块，用于分别计算所述文本意图特征和所述图像意图特征的注意力，得到文本注意力值和图像注意力值；

第一生成模块，用于根据所述文本注意力值与所述文本意图特征生成文本偏重特征矩阵，并根据所述图像注意力值与所述图像意图特征生成图像偏重特征矩阵；

第二生成模块，用于根据所述文本意图特征、所述图像意图特征、所述文本偏重特征矩阵和所述图像偏重特征矩阵，生成注意力融合意图特征，并根据预置门控机制、所述文本意图特征和所述图像意图特征，生成门控机制融合意图特征；

拼接处理模块，用于将所述注意力融合意图特征和所述门控机制融合意图特征进行拼接处理，得到目标意图特征；

意图分类模块，用于对所述目标意图特征进行意图分类，得到对应的目标意图。

本申请提供的技术方案中，获取文本信息的文本意图特征和图像信息的图像意图特征；分别计算文本注意力值和图像注意力值；根据文本注意力值与文本意图特征生成文本偏重特征矩阵，并根据图像注意力值与图像意图特征生成图像偏重特征矩阵；根据文本意图特征、图像意图特征、文本偏重特征矩阵和图像偏重特征矩阵，生成注意力融合意图特征，并根据预置门控机制、文本意图特征和图像意图特征，生成门控机制融合意图特征；将注意力融合意图特征和门控机制融合意图特征进行拼接处理，得到目标意图特征；对目标意图特征进行意图分类，得到对应的目标意图。本申请中，在多模态融合基础上，采用模态内和模态间的注意力机制对图像信息与文本信息进行融合，以捕获图像信息内、文本信息内以及图像信息和文本信息之间的联系，根据图像信息内、文本信息内以及图像信息和文本信息之间的联系对文本信息和图像信息进行意图分类，获得目标意图，提高对需推理的信息进行多模态意图识别的准确性。

附图说明

图1为本申请实施例中基于注意力机制的意图识别方法的一个实施例示意图；

图2为本申请实施例中基于注意力机制的意图识别装置的一个实施例示意图；

图3为本申请实施例中基于注意力机制的意图识别设备的一个实施例示意图。

具体实施方式

本申请实施例提供了一种基于注意力机制的意图识别方法、装置、设备及存储介质，提高对需推理的信息进行多模态意图识别的准确性。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本申请实施例的具体流程进行描述，请参阅图1，本申请实施例中基于注意力机制的意图识别方法的一个实施例包括：

101、获取文本信息和图像信息，通过预置的门控循环单元神经网络模型对文本信息进行意图特征提取，得到文本意图特征，并通过预置的区域卷积神经网络模型对图像信息进行意图特征提取，得到图像意图特征；

可以理解的是，本申请的执行主体可以为基于注意力机制的意图识别装置，还可以是终端或者服务器，具体此处不做限定。本申请实施例以服务器为执行主体为例进行说明。

其中，服务器获得文本信息和图像信息后，调用预置的门控循环单元神经网络(gated recurrent unit，GRU)模型，通过门控循环单元神经网络模型中上一个传输特征的状态、当前节点的特征输入和激活函数sigmoid，获取控制重置的门控值和控制更新的门控值，通过重置门结合控制重置的门控值对文本意图特征进行重置处理，得到候选重置信息，以及通过激活函数tanh将候选重置信息放缩到-1～1的范围内得到目标重置信息，通过重置门结合控制更新门的门控值对目标重置信息进行更新处理，得到文本信息的文本意图特征。通过门控循环单元神经网络GRU模型的快速迭代特性对文本信息进行意图特征提取，提高意图特征提取的收敛速度和进程操作效率。服务器调用预置的区域卷积神经网络模型(faster-regions with cnn features，Faster-RCNN)中对图像信息进行意图特征提取，提高对图像意图特征提取的准确度和效率。

具体地，服务器获取待识别信息，并识别待识别信息中各信息的数据类型；服务器根据数据类型对待识别信息进行分类，得到分类信息；服务器调用预置的文本处理模型和图像处理模型分别对分类信息进行数据变换处理，得到文本信息和图像信息。

待识别信息可为语音信息、文本信息、视频信息和图像信息中的任意两种，例如：待识别信息中可包括语音信息、文本信息和视频信息，也可包括文本信息和图像信息。服务器根据读取的待识别信息的数据类型调用对应的数据处理算法或工具对其进行一系列的数据预处理(数据变换处理和/或分类处理)，例如：分类信息分别为语音信息A和视频信息B，则服务器调用语音识别模型(文本处理模型)将A转换为文本信息，调用截取工具或视频图像截取模型(图像处理模型)对B进行图像截取处理，得到图像信息。通过对待识别信息进行数据预处理，以便于快速而准确地对待识别信息中不同的信息进行对应的操作，进而既能保证信息的质量，又能提高操作效率。

具体地，服务器调用预置的区域卷积神经网络模型中的卷积神经网络层，对图像信息的意图特征图谱进行提取，得到意图特征图谱；服务器对意图特征图谱进行图像物体识别，得到候选意图特征图谱，并生成候选意图特征图谱的建议窗口；服务器通过建议窗口和区域卷积神经网络模型中的视觉几何群网络全连接层，对候选意图特征图谱进行图像物体特征分析，得到图像意图特征。

例如：服务器调用预置的区域卷积神经网络模型(faster-regions with cnn features，Faster-RCNN)中的卷积+非线性+池化层(即卷积神经网络层)提取图像意图特征的意图特征图谱，对意图特征图谱进行裁剪过滤处理，并对经过裁剪过滤处理的意图特征图谱进行图像物体识别获得候选意图特征图谱，识别意图特征图谱中的特征信息是否为物体，并通过边界框回归bounding box regression进行修正，以生成建议窗口proposals，根据proposals和视觉几何群网络(visual geometry group network 16，VGG16)的全连接层(即视觉几何群网络全连接层)对候选意图特征图谱进行分析，获得图像意图特征。通过Faster–RCNN对图像信息进行意图特征提取，提高对图像意图特征提取的准确度和效率。

102、分别计算文本意图特征和图像意图特征的注意力，得到文本注意力值和图像注意力值；

其中，服务器可通过计算文本意图特征中查询信息与键值的相似度值，获得权重，通过预置的分类函数对权重进行归一化处理，获得目标权重，将目标权重和目标权重对应的键值进行加权求和，获得文本意图特征中每个文本意图特征对应的注意力值；通过计算预置解码器的第一个隐藏状态和预置编码器的所有隐藏状态之间的相关性，以获取编码器隐藏状态对应的分数；将分数输入到分类器softmax层进行归一化处理，获得注意力分配的权重值；通过该注意力分配的权重值对键值进行加权求和，获得文本注意力值。同理可得图像注意力值。

103、根据文本注意力值与文本意图特征生成文本偏重特征矩阵，并根据图像注意力值与图像意图特征生成图像偏重特征矩阵；

其中，服务器通过预置的门控循环单元神经网络模型获得的文本意图特征，和通过预置的区域卷积神经网络模型获得的图像意图特征均为矩阵向量，服务器获得图像注意力和图像注意力之后，可通过矩阵向量相乘的方式生成文本偏重特征矩阵，例如：文本注意力值为C，文本意图特征为C1，图像注意力值为D，图像意图特征为D1，则文本偏重特征矩阵为C·C1，图像偏重特征矩阵为D·D1。通过获取文本偏重特征矩阵和图像偏重特征矩阵，以利用有限的注意力资源从大量特征信息(文本意图特征和图像意图特征)中快速筛选出高价值的信息。

104、根据文本意图特征、图像意图特征、文本偏重特征矩阵和图像偏重特征矩阵，生成注意力融合意图特征，并根据预置门控机制、文本意图特征和图像意图特征，生成门控机制融合意图特征；

服务器通过将文本偏重特征矩阵与图像意图特征进行特征拼接处理，将图像偏重特征矩阵与文本意图特征进行特征拼接处理，以实现跨模态间的特征拼接处理，通过将文本偏重特征矩阵与文本意图特征之间进行特征拼接处理，将图像偏重特征矩阵与图像意图特征之间进行特征拼接处理，以实现模态内的特征拼接处理，从而获得注意力融合意图特征。文本意图特征与图像意图特征进行拼接处理之前，通过预置门控机制对文本意图特征和图像意图特征进行过滤。通过对跨模态间的特征拼接处理和模态内的特征拼接处理，以结合文本意图特征和图像意图特征，为意图识别提供更多可匹配的信息，充分利用输入的融合特征的序列携带的信息，从而提高需推理信息的多模态意图识别准确性。

具体地，服务器将文本偏重特征矩阵与图像意图特征相乘得到文本图像融合特征，将图像偏重特征矩阵与文本意图特征相乘得到图像文本融合特征，将文本图像融合特征和图像文本融合特征确定为第一融合意图特征；服务器将文本偏重特征矩阵与文本意图特征相乘得到文本融合特征，将图像偏重特征矩阵与图像意图特征相乘得到图像融合特征，将文本融合特征和图像融合特征确定为第二融合意图特征；服务器将第一融合意图特征和第二融合意图特征确定为注意力融合意图特征。

例如：文本偏重特征矩阵为甲，文本意图特征为丙，图像偏重特征矩阵为丁，图像意图特征为戊，则甲与戊的乘积为文本图像融合特征甲1，丁与丙的乘积为图像文本融合特征乙1，甲与丙的乘积为文本融合特征丙1，丁与戊的乘积为图像融合特征丁1，而甲1和乙1为第一融合意图特征，丙1和丁1为第二融合意图特征。其中，服务器也可通过预置的多视图学习算法(multi-view learning，MVL)分别对文本意图特征和图像意图特征中的每个意图特征和注意力机制处理后的偏重特征(即文本图像融合特征和图像文本融合特征)创建一个核函数，合成所有核函数，获得核特征，通过回归函数或分类器对核特征进行回归处理和分类处理，从而获得第一融合意图特征。同理可得第二融合意图特征。

具体地，服务器通过预置门控机制计算文本信息对图像信息的文本图像门控值，以及图像信息对文本信息的图像文本门控值；服务器根据预置门控机制中的门控循环单元和文本图像门控值对文本意图特征进行过滤选择处理，得到更新后的文本意图特征，并根据门控循环单元和图像文本门控值对图像意图特征进行过滤选择处理，得到更新后的图像意图特征；服务器将更新后的文本意图特征和更新后的图像意图特征进行矩阵相乘处理，得到门控机制融合意图特征。

其中，服务器通过以下公式计算文本信息对图像信息的文本图像门控值和图像信息对文本信息的图像文本门控值，公式如下：G _R→E＝σ(Linear(Avg Pool(R)；θ _RP))，G _R←E＝σ(Linear(Avg Pool(E)；θ _EP))，其中，G _R→E表示文本图像门控值，G _R←E表示图像文本门控值，Avg Pool表示池化层的平均池化处理，Linear表示线性层的处理，R表示文本意图特征，E表示图像意图特征，θ _RP表示对文本意图特征进行处理的线性层的参数，θ _EP表示对图像意图特征进行处理的线性层的参数，σ表示用于将值映射到0-1之间的参数。

更新后的文本意图特征和图像意图特征均为矩阵向量，服务器将更新后的文本意图特征对应的矩阵向量和更新后的图像意图特征对应的矩阵向量进行相乘，得到门控机制融合意图特征。通过预置的门控循环单元对文本意图特征和图像意图特征进行过滤处理(即选择处理)，以保证文本意图特征和图像意图特征的质量，从而提高将文本意图特征和图像意图特征融合所得的门控机制融合意图特征的准确性。

105、将注意力融合意图特征和门控机制融合意图特征进行拼接处理，得到目标意图特征；

服务器也可通过预置的数值计算扩展Numpy系统中的column_stack函数和row_stack函数对注意力融合意图特征和门控机制融合意图特征进行特征矩阵向量相加，以合并为一个矩阵，例如：注意力融合意图特征的特征矩阵向量为A2，门控机制融合意图特征中的特征矩阵向量为B2，则目标意图特征为C2＝A2+B2。服务器也可通过预置的基于协方差矩阵的多特征融合跟踪算法利用区域协方差描述子将注意力意图融合特征和门控机制意图融合特征中图像特征的颜色、边缘和纹理等特征与注意力融合意图特征和门控机制融合意图特征中对应的文本意图特征进行融合，并通过快速协方差交叉算法提取注意力融合意图特征和注意力融合意图特征中的协方差矩阵中的有效信息对融合的注意力融合意图特征和门控机制融合意图特征进行更新，从而获得目标意图特征。通过对注意力融合意图特征、第二融合意图特征和门控机制融合意图特征进行拼接处理，实现在强调有偏重(注意力分配的权重值)的目标意图特征的基础上能不丢失原始的注意力融合意图特征和门控机制融合意图特征。

具体地，服务器分别对第一融合意图特征、第二融合意图特征和门控机制融合意图特征进行主要成分提取处理，得到第一初始特征、第二初始特征和第三初始特征；服务器分别对第一初始特征、第二初始特征和第三初始特征进行降维处理，得到第一目标特征、第二目标特征和第三目标特征；服务器将第一目标特征、第二目标特征和第三目标特征进行并行融合，得到目标意图特征。

例如：第一融合意图特征、第二融合意图特征和门控机制融合意图特征为矩阵S、矩阵L和矩阵T，服务器通过预置的主要成分分析算法(Principal Component Analysis，PCA)，根据S的协方差矩阵求得S对应的转换矩阵D，根据L的协方差矩阵求得L对应的转换矩阵L1，根据T的协方差矩阵求得T对应的转换矩阵H，通过转换矩阵D将矩阵S转换到主成分的变换域上，得到第一初始特征K＝S·D，通过转换矩阵L1将矩阵L转换到主成分的变换域上，得到第二初始特征矩阵Y＝L·L1，通过转换矩阵H将矩阵T转换到主成分的变换域上，将得到第三初始特征矩阵W＝T·H，将K、Y和W中的各列按照方差值从小到大的顺序进行排序，并分别提取K、Y和W中的前N维的主成分，将前N维的主成分组成e行r列的第一目标特征矩阵、第二目标特征矩阵和第三目标特征矩阵，通过预设负向量将第一目标特征矩阵、第二目标特征矩阵和第三目标特征矩阵进行矩阵的并行相加以组成一个特征向量，得到目标意图特征。

106、对目标意图特征进行意图分类，得到对应的目标意图。

服务器获得目标意图特征后，将目标意图特征输入到预置的意图分类器中，通过预置的意图分类器结合目标特征匹配到对应的意图类型，以对待识别信息的意图分类处理，获得待识别信息对应的目标意图。服务器也可通过从数据库中获取具备有目标意图特征的历史待识别信息，从历史待识别信息的便签信息中获取对应的意图信息，从而获得文本信息和图像信息对应的目标意图。通过结合目标意图特征进行意图识别，为意图识别提供多角度的分类信息，有效地对需推理信息进行多模态的意图识别，提高需推理信息的多模态意图识别准确性。服务器也可创建目标意图特征的第一知识图谱和获取预置的意图知识图谱，对第一知识图谱和意图知识图谱之间进行对比分析，获取与第一知识图谱中的节点信息相同或相似最多所对应的意图知识图谱的目标节点信息，将目标节点信息对应的意图作为目标意图。

具体地，服务器创建目标意图特征的键值，根据键值检索预置的意图哈希表，从意图哈希表中获取与键值对应的意图信息；服务器将与键值对应的意图信息作为目标意图。

经过注意力机制处理所得的目标意图特征均为矩阵向量。数据库中存储有意图哈希表，该意图哈希表包括意图类型、意图类型对应的特征信息和意图类型对应的回复信息，服务器从意图哈希表中匹配与目标意图特征对应的意图类型和意图类型对应的回复信息，获得对应的目标意图。通过键值和哈希表方式进行检索和匹配，提高目标意图获取的准确性和效率，从而提高需推理信息的多模态意图识别准确性。

可选的，服务器对目标意图特征进行意图分类，得到对应的目标意图之后，获取目标意图的错误信息，基于预置的深度残差网络算法、一阶优化算法、反向传播算法和错误信息，对文本信息和图像信息中目标意图的识别进行优化，错误信息用于指示目标意图与真实意图不一致。

其中，错误信息为目标意图与文本信息和图像信息不匹配的错误信息、意图信息与文本信息和图像信息的关联度小于预设阈值的错误信息和目标意图不完整的错误信息，例如：目标意图为B3，结合文本信息和图像信息的真实意图为C3，B3≠C3，则B3为不匹配的错误信息；或者，B3与C3的相似度小于预设阈值，则B3为关联度小于预设阈值的错误信息；或者，B3为“灭火器”，C3为“如何使用灭火器”，则B3为目标意图不完整的错误信息。

服务器通过获取用户输入的关于目标意图的错误信息，也可通过对目标意图和目标意图对应的文本信息和图像信息进行关联性分析，并将关联性作为评分值，将评分值小于预设阈值的目标意图和对应的文本信息和图像信息作为目标意图的错误信息而获得目标意图的错误信息，以及获取目标意图的错误信息对应的待识别的训练样本信息，将该目标意图的错误信息和训练样本信息输入深度残差网络算法(deep residual network，Deep ResNet)中，通过深度ResNet对该目标意图的错误信息和训练样本信息分别对对文本信息和图像信息中目标意图的识别进行训练，并通过反向传播算法和一阶优化算法(adaptive moment estimation，Adam)分别对文本信息和图像信息中目标意图的识别的权重值调整，以实现对对文本信息和图像信息中目标意图的识别的更新优化。

通过深度残差网络算法、一阶优化算法Adam优化算法、反向传播算法和错误信息对文本信息和图像信息中目标意图的识别进行训练和优化，以提高目标意图的识别准确度，从而提高了需推理信息的多模态意图识别准确性。

本申请实施例中，在多模态融合基础上，采用模态内和模态间的注意力机制对图像信息与文本信息进行融合，以捕获图像信息内、文本信息内以及图像信息和文本信息之间的联系，根据图像信息内、文本信息内以及图像信息和文本信息之间的联系对文本信息和图像信息进行意图分类，获得目标意图，并通过深度残差网络算法、一阶优化算法、反向传播算法和错误信息对文本信息和图像信息中目标意图的识别进行训练和优化，以提高目标意图的识别准确度，从而提高了对需推理的信息进行多模态意图识别的准确性。

请参阅图2，本申请实施例中基于注意力机制的意图识别装置的一个实施例包括：

特征提取模块201，用于获取文本信息和图像信息，通过预置的门控循环单元神经网络模型对文本信息进行意图特征提取，得到文本意图特征，并通过预置的区域卷积神经网络模型对图像信息进行意图特征提取，得到图像意图特征；

计算模块202，用于分别计算文本意图特征和图像意图特征的注意力，得到文本注意力值和图像注意力值；

第一生成模块203，用于根据文本注意力值与文本意图特征生成文本偏重特征矩阵，并根据图像注意力值与图像意图特征生成图像偏重特征矩阵；

第二生成模块204，用于根据文本意图特征、图像意图特征、文本偏重特征矩阵和图像偏重特征矩阵，生成注意力融合意图特征，并根据预置门控机制、文本意图特征和图像意图特征，生成门控机制融合意图特征；

拼接处理模块205，用于将注意力融合意图特征和门控机制融合意图特征进行拼接处理，得到目标意图特征；

意图分类模块206，用于对目标意图特征进行意图分类，得到对应的目标意图。

可选的，第二生成模块204还可以具体用于：

将文本偏重特征矩阵与图像意图特征相乘得到文本图像融合特征，将图像偏重特征矩阵与文本意图特征相乘得到图像文本融合特征，将文本图像融合特征和图像文本融合特征确定为第一融合意图特征；

将文本偏重特征矩阵与文本意图特征相乘得到文本融合特征，将图像偏重特征矩阵与图像意图特征相乘得到图像融合特征，将文本融合特征和图像融合特征确定为第二融合意图特征；

将第一融合意图特征和第二融合意图特征确定为注意力融合意图特征。

可选的，拼接处理模块205还可以具体用于：

分别对第一融合意图特征、第二融合意图特征和门控机制融合意图特征进行主要成分提取处理，得到第一初始特征、第二初始特征和第三初始特征；

分别对第一初始特征、第二初始特征和第三初始特征进行降维处理，得到第一目标特征、第二目标特征和第三目标特征；

将第一目标特征、第二目标特征和第三目标特征进行并行融合，得到目标意图特征。

可选的，第二生成模块204还可以具体用于：

通过预置门控机制计算文本信息对图像信息的文本图像门控值，以及图像信息对文本信息的图像文本门控值；

根据预置门控机制中的门控循环单元和文本图像门控值对文本意图特征进行过滤选择处理，得到更新后的文本意图特征，并根据门控循环单元和图像文本门控值对图像意图特征进行过滤选择处理，得到更新后的图像意图特征；

将更新后的文本意图特征和更新后的图像意图特征进行矩阵相乘处理，得到门控机制融合意图特征。

可选的，特征提取模块201还可以具体用于：

调用预置的区域卷积神经网络模型中的卷积神经网络层，对图像信息的意图特征图谱进行提取，得到意图特征图谱；

对意图特征图谱进行图像物体识别，得到候选意图特征图谱，并生成候选意图特征图谱的建议窗口；

通过建议窗口和区域卷积神经网络模型中的视觉几何群网络全连接层，对候选意图特征图谱进行图像物体特征分析，得到图像意图特征。

可选的，特征提取模块201还可以具体用于：

获取待识别信息，并识别待识别信息中各信息的数据类型；

根据数据类型对待识别信息进行分类，得到分类信息；

调用预置的文本处理模型和图像处理模型分别对分类信息进行数据变换处理，得到文本信息和图像信息。

可选的，意图分类模块206还可以具体用于：

创建目标意图特征的键值，根据键值检索预置的意图哈希表，从意图哈希表中获取与键值对应的意图信息；将与键值对应的意图信息作为目标意图。

可选的，基于注意力机制的意图识别装置，还包括：

优化模块，用于获取目标意图的错误信息，基于预置的深度残差网络算法、一阶优化算法、反向传播算法和错误信息，对文本信息和图像信息中目标意图的识别进行优化，错误信息用于指示目标意图与真实意图不一致。

上述基于注意力机制的意图识别装置中各模块和各单元的功能实现与上述基于注意力机制的意图识别方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

上面图2从模块化功能实体的角度对本申请实施例中的基于注意力机制的意图识别装置进行详细描述，下面从硬件处理的角度对本申请实施例中基于注意力机制的意图识别设备进行详细描述。

图3是本申请实施例提供的一种基于注意力机制的意图识别设备的结构示意图，该基于注意力机制的意图识别设备300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)310(例如，一个或一个以上处理器)和存储器320，一个或一个以上存储应用程序333或数据332的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器320和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对基于注意力机制的意图识别设备300中的一系列指令操作。更进一步地，处理器310可以设置为与存储介质330通信，在基于注意力机制的意图识别设备300上执行存储介质330中的一系列指令操作。

基于注意力机制的意图识别设备300还可以包括一个或一个以上电源340，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口360，和/或，一个或一个以上操作系统331，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图3示出的基于注意力机制的意图识别设备结构并不构成对基于注意力机制的意图识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本申请还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行基于注意力机制的意图识别方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种基于注意力机制的意图识别方法，其中，所述基于注意力机制的意图识别方法包括：

获取文本信息和图像信息，通过预置的门控循环单元神经网络模型对所述文本信息进行意图特征提取，得到文本意图特征，并通过预置的区域卷积神经网络模型对所述图像信息进行意图特征提取，得到图像意图特征；

分别计算所述文本意图特征和所述图像意图特征的注意力，得到文本注意力值和图像注意力值；

根据所述文本注意力值与所述文本意图特征生成文本偏重特征矩阵，并根据所述图像注意力值与所述图像意图特征生成图像偏重特征矩阵；

根据所述文本意图特征、所述图像意图特征、所述文本偏重特征矩阵和所述图像偏重特征矩阵，生成注意力融合意图特征，并根据预置门控机制、所述文本意图特征和所述图像意图特征，生成门控机制融合意图特征；

将所述注意力融合意图特征和所述门控机制融合意图特征进行拼接处理，得到目标意图特征；

对所述目标意图特征进行意图分类，得到对应的目标意图。
根据权利要求1所述的基于注意力机制的意图识别方法，其中，所述根据所述文本意图特征、所述图像意图特征、所述文本偏重特征矩阵和所述图像偏重特征矩阵，生成注意力融合意图特征，包括：

将所述文本偏重特征矩阵与所述图像意图特征相乘得到文本图像融合特征，将所述图像偏重特征矩阵与所述文本意图特征相乘得到图像文本融合特征，将所述文本图像融合特征和所述图像文本融合特征确定为第一融合意图特征；

将所述文本偏重特征矩阵与所述文本意图特征相乘得到文本融合特征，将所述图像偏重特征矩阵与所述图像意图特征相乘得到图像融合特征，将所述文本融合特征和所述图像融合特征确定为第二融合意图特征；

将所述第一融合意图特征和所述第二融合意图特征确定为注意力融合意图特征。
根据权利要求2所述的基于注意力机制的意图识别方法，其中，所述将所述注意力融合意图特征和所述门控机制融合意图特征进行拼接处理，得到目标意图特征，包括：

分别对所述第一融合意图特征、所述第二融合意图特征和所述门控机制融合意图特征进行主要成分提取处理，得到第一初始特征、第二初始特征和第三初始特征；

分别对所述第一初始特征、所述第二初始特征和所述第三初始特征进行降维处理，得到第一目标特征、第二目标特征和第三目标特征；

将所述第一目标特征、所述第二目标特征和所述第三目标特征进行并行融合，得到目标意图特征。
根据权利要求1所述的基于注意力机制的意图识别方法，其中，所述根据预置门控机制、所述文本意图特征和所述图像意图特征，生成门控机制融合意图特征，包括：

通过预置门控机制计算所述文本信息对所述图像信息的文本图像门控值，以及所述图像信息对所述文本信息的图像文本门控值；

根据预置门控机制中的门控循环单元和所述文本图像门控值对所述文本意图特征进行过滤选择处理，得到更新后的文本意图特征，并根据所述门控循环单元和所述图像文本门控值对所述图像意图特征进行过滤选择处理，得到更新后的图像意图特征；

将所述更新后的文本意图特征和所述更新后的图像意图特征进行矩阵相乘处理，得到门控机制融合意图特征。
根据权利要求1所述的基于注意力机制的意图识别方法，其中，所述通过预置的区域卷积神经网络模型对所述待识别信息中的图像信息进行意图特征提取，得到图像意图特征，包括：

调用预置的区域卷积神经网络模型中的卷积神经网络层，对所述图像信息的意图特征图谱进行提取，得到意图特征图谱；

对所述意图特征图谱进行图像物体识别，得到候选意图特征图谱，并生成所述候选意图特征图谱的建议窗口；

通过所述建议窗口和所述区域卷积神经网络模型中的视觉几何群网络全连接层，对所述候选意图特征图谱进行图像物体特征分析，得到图像意图特征。
根据权利要求1所述的基于注意力机制的意图识别方法，其中，所述获取文本信息和图像信息，包括：

获取待识别信息，并识别所述待识别信息中各信息的数据类型；

根据所述数据类型对所述待识别信息进行分类，得到分类信息；

调用预置的文本处理模型和图像处理模型分别对所述分类信息进行数据变换处理，得到文本信息和图像信息。
根据权利要求1-6中任一项所述的基于注意力机制的意图识别方法，其中，所述对所述目标意图特征进行意图分类，得到对应的目标意图之后，还包括：

获取所述目标意图的错误信息，基于预置的深度残差网络算法、一阶优化算法、反向传播算法和所述错误信息，对所述文本信息和所述图像信息中目标意图的识别进行优化，所述错误信息用于指示所述目标意图与真实意图不一致。
一种基于注意力机制的意图识别设备，其中，所述基于注意力机制的意图识别设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于注意力机制的意图识别程序，所述处理器执行所述基于注意力机制的意图识别程序时实现如下步骤：

获取文本信息和图像信息，通过预置的门控循环单元神经网络模型对所述文本信息进行意图特征提取，得到文本意图特征，并通过预置的区域卷积神经网络模型对所述图像信息进行意图特征提取，得到图像意图特征；

分别计算所述文本意图特征和所述图像意图特征的注意力，得到文本注意力值和图像注意力值；

根据所述文本注意力值与所述文本意图特征生成文本偏重特征矩阵，并根据所述图像注意力值与所述图像意图特征生成图像偏重特征矩阵；

根据所述文本意图特征、所述图像意图特征、所述文本偏重特征矩阵和所述图像偏重特征矩阵，生成注意力融合意图特征，并根据预置门控机制、所述文本意图特征和所述图像意图特征，生成门控机制融合意图特征；

将所述注意力融合意图特征和所述门控机制融合意图特征进行拼接处理，得到目标意图特征；

对所述目标意图特征进行意图分类，得到对应的目标意图。
如权利要求8所述的基于注意力机制的意图识别设备，其中，所述处理器执行所述基于注意力机制的意图识别程序实现所述根据所述文本意图特征、所述图像意图特征、所述文本偏重特征矩阵和所述图像偏重特征矩阵，生成注意力融合意图特征时，包括以下步骤：

将所述文本偏重特征矩阵与所述图像意图特征相乘得到文本图像融合特征，将所述图像偏重特征矩阵与所述文本意图特征相乘得到图像文本融合特征，将所述文本图像融合特征和所述图像文本融合特征确定为第一融合意图特征；

将所述文本偏重特征矩阵与所述文本意图特征相乘得到文本融合特征，将所述图像偏重特征矩阵与所述图像意图特征相乘得到图像融合特征，将所述文本融合特征和所述图像融合特征确定为第二融合意图特征；

将所述第一融合意图特征和所述第二融合意图特征确定为注意力融合意图特征。
如权利要求9所述的基于注意力机制的意图识别设备，其中，所述处理器执行所述基于注意力机制的意图识别程序实现所述根据所述将所述注意力融合意图特征和所述门控机制融合意图特征进行拼接处理，得到目标意图特征时，包括以下步骤：

分别对所述第一融合意图特征、所述第二融合意图特征和所述门控机制融合意图特征进行主要成分提取处理，得到第一初始特征、第二初始特征和第三初始特征；

分别对所述第一初始特征、所述第二初始特征和所述第三初始特征进行降维处理，得到第一目标特征、第二目标特征和第三目标特征；

将所述第一目标特征、所述第二目标特征和所述第三目标特征进行并行融合，得到目标意图特征。
如权利要求8所述的基于注意力机制的意图识别设备，其中，所述处理器执行所述基于注意力机制的意图识别程序实现所述根据所述根据预置门控机制、所述文本意图特征和所述图像意图特征，生成门控机制融合意图特征时，包括以下步骤：

通过预置门控机制计算所述文本信息对所述图像信息的文本图像门控值，以及所述图像信息对所述文本信息的图像文本门控值；

根据预置门控机制中的门控循环单元和所述文本图像门控值对所述文本意图特征进行过滤选择处理，得到更新后的文本意图特征，并根据所述门控循环单元和所述图像文本门控值对所述图像意图特征进行过滤选择处理，得到更新后的图像意图特征；

将所述更新后的文本意图特征和所述更新后的图像意图特征进行矩阵相乘处理，得到门控机制融合意图特征。
如权利要求8所述的基于注意力机制的意图识别设备，其中，所述处理器执行所述基于注意力机制的意图识别程序实现所述根据所述通过预置的区域卷积神经网络模型对所述待识别信息中的图像信息进行意图特征提取，得到图像意图特征时，包括以下步骤：

调用预置的区域卷积神经网络模型中的卷积神经网络层，对所述图像信息的意图特征图谱进行提取，得到意图特征图谱；

对所述意图特征图谱进行图像物体识别，得到候选意图特征图谱，并生成所述候选意图特征图谱的建议窗口；

通过所述建议窗口和所述区域卷积神经网络模型中的视觉几何群网络全连接层，对所述候选意图特征图谱进行图像物体特征分析，得到图像意图特征。
如权利要求8所述的基于注意力机制的意图识别设备，其中，所述处理器执行所述基于注意力机制的意图识别程序实现所述根据所述获取文本信息和图像信息时，包括以下步骤：

获取待识别信息，并识别所述待识别信息中各信息的数据类型；

根据所述数据类型对所述待识别信息进行分类，得到分类信息；

调用预置的文本处理模型和图像处理模型分别对所述分类信息进行数据变换处理，得到文本信息和图像信息。
如权利要求8-13中任一项所述的基于注意力机制的意图识别设备，其中，所述处理器执行所述基于注意力机制的意图识别程序实现所述根据所述目标意图特征进行意图分类，得到对应的目标意图之后，还包括以下步骤：

获取所述目标意图的错误信息，基于预置的深度残差网络算法、一阶优化算法、反向传播算法和所述错误信息，对所述文本信息和所述图像信息中目标意图的识别进行优化，所述错误信息用于指示所述目标意图与真实意图不一致。
一种计算机可读存储介质，所述计算机可读存储介质中存储计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如下步骤：

获取文本信息和图像信息，通过预置的门控循环单元神经网络模型对所述文本信息进行意图特征提取，得到文本意图特征，并通过预置的区域卷积神经网络模型对所述图像信息进行意图特征提取，得到图像意图特征；

分别计算所述文本意图特征和所述图像意图特征的注意力，得到文本注意力值和图像注意力值；

根据所述文本注意力值与所述文本意图特征生成文本偏重特征矩阵，并根据所述图像注意力值与所述图像意图特征生成图像偏重特征矩阵；

根据所述文本意图特征、所述图像意图特征、所述文本偏重特征矩阵和所述图像偏重特征矩阵，生成注意力融合意图特征，并根据预置门控机制、所述文本意图特征和所述图像意图特征，生成门控机制融合意图特征；

将所述注意力融合意图特征和所述门控机制融合意图特征进行拼接处理，得到目标意图特征；

对所述目标意图特征进行意图分类，得到对应的目标意图。
如权利要求15所述的计算机可读存储介质，所述计算机可读存储介质执行所述计算机指令实现所述根据所述文本意图特征、所述图像意图特征、所述文本偏重特征矩阵和所述图像偏重特征矩阵，生成注意力融合意图特征时，包括以下步骤：

将所述文本偏重特征矩阵与所述图像意图特征相乘得到文本图像融合特征，将所述图像偏重特征矩阵与所述文本意图特征相乘得到图像文本融合特征，将所述文本图像融合特征和所述图像文本融合特征确定为第一融合意图特征；

将所述文本偏重特征矩阵与所述文本意图特征相乘得到文本融合特征，将所述图像偏重特征矩阵与所述图像意图特征相乘得到图像融合特征，将所述文本融合特征和所述图像融合特征确定为第二融合意图特征；

将所述第一融合意图特征和所述第二融合意图特征确定为注意力融合意图特征。
如权利要求16所述的计算机可读存储介质，所述计算机可读存储介质执行所述计算机指令实现所述将所述注意力融合意图特征和所述门控机制融合意图特征进行拼接处理，得到目标意图特征时，包括以下步骤：

分别对所述第一融合意图特征、所述第二融合意图特征和所述门控机制融合意图特征进行主要成分提取处理，得到第一初始特征、第二初始特征和第三初始特征；

分别对所述第一初始特征、所述第二初始特征和所述第三初始特征进行降维处理，得到第一目标特征、第二目标特征和第三目标特征；

将所述第一目标特征、所述第二目标特征和所述第三目标特征进行并行融合，得到目标意图特征。
如权利要求15所述的计算机可读存储介质，所述计算机可读存储介质执行所述计算机指令实现所述根据预置门控机制、所述文本意图特征和所述图像意图特征，生成门控机制融合意图特征时，包括以下步骤：

通过预置门控机制计算所述文本信息对所述图像信息的文本图像门控值，以及所述图像信息对所述文本信息的图像文本门控值；

根据预置门控机制中的门控循环单元和所述文本图像门控值对所述文本意图特征进行过滤选择处理，得到更新后的文本意图特征，并根据所述门控循环单元和所述图像文本门控值对所述图像意图特征进行过滤选择处理，得到更新后的图像意图特征；

将所述更新后的文本意图特征和所述更新后的图像意图特征进行矩阵相乘处理，得到门控机制融合意图特征。
如权利要求15所述的计算机可读存储介质，所述计算机可读存储介质执行所述计算机指令实现所述通过预置的区域卷积神经网络模型对所述待识别信息中的图像信息进行意图特征提取，得到图像意图特征时，包括以下步骤：

调用预置的区域卷积神经网络模型中的卷积神经网络层，对所述图像信息的意图特征图谱进行提取，得到意图特征图谱；

对所述意图特征图谱进行图像物体识别，得到候选意图特征图谱，并生成所述候选意图特征图谱的建议窗口；

通过所述建议窗口和所述区域卷积神经网络模型中的视觉几何群网络全连接层，对所述候选意图特征图谱进行图像物体特征分析，得到图像意图特征。
一种基于注意力机制的意图识别装置，其中，所述基于注意力机制的意图识别装置包括：

特征提取模块，用于获取文本信息和图像信息，通过预置的门控循环单元神经网络模型对所述文本信息进行意图特征提取，得到文本意图特征，并通过预置的区域卷积神经网络模型对所述图像信息进行意图特征提取，得到图像意图特征；

计算模块，用于分别计算所述文本意图特征和所述图像意图特征的注意力，得到文本注意力值和图像注意力值；

第一生成模块，用于根据所述文本注意力值与所述文本意图特征生成文本偏重特征矩阵，并根据所述图像注意力值与所述图像意图特征生成图像偏重特征矩阵；

第二生成模块，用于根据所述文本意图特征、所述图像意图特征、所述文本偏重特征矩阵和所述图像偏重特征矩阵，生成注意力融合意图特征，并根据预置门控机制、所述文本意图特征和所述图像意图特征，生成门控机制融合意图特征；

拼接处理模块，用于将所述注意力融合意图特征和所述门控机制融合意图特征进行拼接处理，得到目标意图特征；

意图分类模块，用于对所述目标意图特征进行意图分类，得到对应的目标意图。