WO2020211611A1

WO2020211611A1 - 用于语言处理的循环神经网络中隐状态的生成方法和装置

Info

Publication number: WO2020211611A1
Application number: PCT/CN2020/081177
Authority: WO
Inventors: 孟凡东; 张金超; 周杰
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-04-17
Filing date: 2020-03-25
Publication date: 2020-10-22
Also published as: EP3958148A1; EP3958148A4; CN110162783A; JP2022507189A; JP7299317B2; US20210286953A1

Abstract

本申请涉及一种用于语言处理的循环神经网络中隐状态的生成方法和装置，方法包括：生成第一时刻输入的目标词向量的至少两个维度的区域词向量；将各个区域词向量进行组合，得到至少两个维度的组合区域词向量；基于前馈神经网络将各个组合区域词向量进行聚集变换处理，得到目标词向量对应的聚集词向量；基于聚集词向量生成目标词向量对应的目标隐状态。该方法使得每一时刻的目标词向量都有对应的聚集词向量，这样便可以在聚集词向量的基础上生成目标词向量对应的目标隐状态。由于聚集词向量是对目标词向量进行多维度的转换处理得到的，使得利用该聚集词向量生成的目标隐状态在捕获复杂语言学规律时，对于复杂语言学规律的捕获率高。

Description

用于语言处理的循环神经网络中隐状态的生成方法和装置

本申请要求于2019年04月17日提交的申请号为201910309929.5、发明名称为“用于语言处理的循环神经网络中隐状态的生成方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别是涉及一种用于语言处理的循环神经网络中隐状态的生成方法、装置、计算机可读存储介质和计算机设备。

背景技术

随着计算机技术的发展，出现了自然语言处理(Natural Language Processing，NLP)技术。自然语言处理(NLP)技术实现了人们长期以来所追求的“用自然语言与计算机进行通信”。但是，对于自然语言处理(NLP)技术而言，处理变长的词序列仍然是一个很大的挑战。

于是，出现了循环神经网络(Recurrent Neural Network,RNN)。循环神经网络是一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。循环神经网络的出现解决了对于变长的词序列的处理。

然而，传统的循环神经网络，都是利用单一空间的组合计算来生成各个时刻的隐状态。例如仅利用第一时刻的词向量和上一时刻的隐状态在单一空间上的组合来生成第一时刻的隐状态，使得对于复杂语言学规律的捕获率低。

发明内容

本申请提供了一种用于语言处理的循环神经网络中隐状态的生成方法、装置、计算机可读存储介质和计算机设备，该技术方案对于复杂语言学规律的捕获率高。该技术方案如下：

一方面，提供了一种用于语言处理的循环神经网络中隐状态的生成方法，该方法应用于计算机设备，该方法包括：

生成第一时刻输入的目标词向量的至少两个维度的区域词向量；

将各个所述区域词向量进行组合，得到至少两个维度的组合区域词向量；

基于前馈神经网络将各个所述组合区域词向量进行聚集变换处理，得到所述目标词向量对应的聚集词向量；

基于所述聚集词向量生成所述目标词向量对应的目标隐状态。

另一方面，提供了一种用于语言处理的循环神经网络中隐状态的生成装置，该装置包括：

区域词向量生成模块，用于生成第一时刻输入的目标词向量的至少两个维度的区域词向量；

区域词向量组合模块，用于将各个所述区域词向量进行组合，得到至少两个维度的组合区域词向量；

聚集变换处理模块，用于基于前馈神经网络将各个所述组合区域词向量进行聚集变换处理，得到所述目标词向量对应的聚集词向量；

目标隐状态生成模块，用于基于所述聚集词向量生成所述目标词向量对应的目标隐状态。

另一方面，提供了一种计算机可读存储介质，上述计算机可读存储介质中存储有计算机程序，上述计算机程序被处理器执行时，使得处理器执行如上一个方面及其可选实施例任一所述的用于语言处理的循环神经网络中隐状态的生成方法。

另一方面，提供了一种计算机设备，上述计算机设备中包括存储器和处理器，上述存储器存储有计算机程序，上述计算机程序被上述处理器执行时，使得处理器执行如上一个方面及其可选实施例任一所述的用于语言处理的循环神经网络中隐状态的生成方法。

从以上技术方案可以看出，本申请实施例至少具有以下优点：

该方法通过生成第一时刻输入的目标词向量的至少两个维度的区域词向量，使得单一维度的目标词向量对应有多个维度的区域词向量，并将各个区域词向量进行区域组合，得到至少两个维度的组合区域词向量；再基于前馈神经网络将各个组合区域词向量进行聚集变换处理，得到目标词向量对应的聚集词向量，使得每一时刻的目标词向量都有对应的聚集词向量，这样便可以在聚集词向量的基础上生成目标词向量对应的目标隐状态，且由于聚集词向量是对目标词向量进行多维度的转换处理得到的，使得利用该聚集词向量生成的目标隐状态对于复杂语言学规律的捕获率高。

也就是说，该方法通过对目标词向量进行深层的多区域组合计算，得到在多维度转换后的聚集词向量，增强词向量中捕获的语言学规律，比如，增强词向量中的长距离依赖，从而使得利用聚集词向量生成的目标隐状态能够更大概率的捕获到复杂语言学规律。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请中一个示例性实施例提供的计算机设备的结构框图；

图2是本申请中一个示例性实施例提供的用于语言处理的循环神经网络中隐状态的生成方法的流程图；

图3是本申请中另一个示例性实施例提供的用于语言处理的循环神经网络中隐状态的生成方法的流程图；

图4是本申请中一个示例性实施例提供的向量节点的示例图；

图5是本申请中一个示例性实施例提供的邻接矩阵的示例图；

图6是本申请中一个示例性实施例提供的度矩阵的示例图；

图7是本申请中一个示例性实施例提供的区域词向量矩阵的示例图；

图8是本申请中另一个示例性实施例提供的用于语言处理的循环神经网络中隐状态的生成方法的流程图；

图9是本申请中一个示例性实施例提供的计算区域词向量的方法示例图；

图10是本申请中另一个示例性实施例提供的用于语言处理的循环神经网络中隐状态的生成方法的流程图；

图11是本申请中一个示例性实施例提供的生成聚集词向量的方法示例图；

图12是本申请中一个示例性实施例提供的用于语言处理的循环神经网络中隐状态的生成装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的用于语言处理的循环神经网络中隐状态的生成方法，可以应用于如图1所示的计算机设备100中。该计算机设备100包括存储器101和处理器102。可选地，存储器101可以包括非易失性存储介质与内存储器。存储器101中存储有计算机程序，计算机程序被处理器102执行时，可以实现本申请提供的用于语言处理的循环神经网络中隐状态的生成方法。可选地，该计算机设备100还包括网络接口103，该网络接口103用于将计算机设备100接入有线或者无线网络。可选地，该计算机设备100还包括系统总线104，其中，存储器101分别与处理器102、网络接口103之间通过系统总线104电性连接。该计算机设备100可以是终端，也可以是服务器。可以理解的是，当计算机设备100为终端时，该计算机设备100还可以包括显示屏和输入装置等。其中，终端可以但不限于是各个种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

如图2所示，在一个实施例中，提供了一种用于语言处理的循环神经网络中隐状态的生成方法。本实施例主要以该方法应用于上述图1中的计算机设备来举例说明。参照图2，该用于语言处理的循环神经网络中隐状态的生成方法具体包括如下步骤：

S202，生成第一时刻输入的目标词向量的至少两个维度的区域词向量。

其中，词向量指对应的词在预定义的向量空间中的实数向量。例如，“狗”在预定义的向量空间中的实数向量可以为(0.2 0.2 0.4)，则(0.2 0.2 0.4)便为“狗”的词向量。目标词向量指第一时刻输入的词向量。区域词向量指一个维度的词向量所对应的各个不同维度的词向量。第一时刻是输入目标词向量的时刻；示例性的，第一时刻可以包括当前时刻，即时钟当前所指示的时刻。

具体地，当计算机设备在第一时刻检测到有目标词向量输入时，计算机设备读取第一时刻输入的目标词向量，并触发该目标词向量的区域词向量生成指令。计算机设备根据该区域词向量生成指令将低维度的目标词向量转换为至少两个维度的区域词向量。这样计算机设备在各个时刻输入的目标词向量均对应有至少两个维度的区域词向量。

在一个实施例中，计算机设备在T个时刻输入的目标词向量整体为一个向量序列X＝{X ₁,X ₂,……,X _T}，其中，X ₁为向量序列X中的第1个目标词向量，X ₁表示计算机设备在第1个时刻输入的词向量；X ₂为向量序列X中的第2个目标词向量，X ₂表示计算机设备在第2个时刻输入的词向量；……；X _T为向量序列X _T中的第T个目标词向量，X _T表示计算机设备在第T个时刻输入的词向量；其中，T为正整数。计算机设备在向量序列X中的每一个时刻均会生成该时刻输入的目标词向量的至少两个维度的区域词向量。

在一个实施例中，向量序列X＝{X ₁,X ₂,……,X _T}中的每一个词向量都是预先对文本进行转换得到的。例如计算机设备为终端时，计算机设备中安装有用于通讯的社交应用程序，用于人机对话的子应用程序运行于该用于通讯的社交应用程序中。当计算机设备检测到用于人机对话的子应用程序接收到变长的语音信息时，将每一时刻接收到的语音信息转换为文本信息，并将该文本信息映射为目标词向量，这样变长的语音信息最终会形成一个向量序列，向量序列中包括各个时刻接收到的语音信息的文本信息对应的目标词向量。

当然，当计算机设备为服务器时，该服务器可以接收其他终端已经转换得到的各个目标词向量，生成每一个时刻输入的目标词向量的至少两个维度的区域词向量。或者，当计算机设备为服务器时，该服务器还可以直接接收其他终端通过用于人机对话的子应用程序接收到的变长的语音信息，将每一时刻接收到的语音信息转换为文本信息，并将该文本信息映射为目标词向量，这样变长的语音信息最终会形成一个向量序列，向量序列中包括各个时刻接收到的语音信息的文本信息对应的目标词向量，并生成每一个时刻输入的目标词向量的至少两个维度的区域词向量。

在一个实施例中，区域词向量生成指令中可以携带有第一预设维度，计算机设备根据区域词向量生成指令将低维度的目标词向量转换为至少两个维度的区域词向量时，可以按照第一预设维度将低维度的目标词向量转换为第一预设维度的区域词向量。

例如，第一时刻为T，第一预设维度为N，计算机设备在第一时刻T检测到有目标词向量X _T输入。则计算机设备需要将单一维度的目标词向量X _T转换为N个维度的区域词向量。计算机设备可以生成目标词向量X _T的N个区域词向量Z＝{Z ₁,Z ₂,……,Z _N}，其中的Z ₁至Z _N均为目标词向量X _T的区域词向量。其中，N大于1。

S204，将各个区域词向量进行组合，得到至少两个维度的组合区域词向量。

其中，组合区域词向量指将各个区域词向量进行组合计算后所得到的词向量。例如目标词向量有N个维度的区域词向量，则计算机设备对N个维度的区域词向量进行组合计算后可以得到J个维度的组合区域词向量，J大于或等于2。

具体地，计算机设备预先设置有区域向量组合方式。当计算机设备生成目标词向量的区域词向量后，便获取预设的区域向量组合方式，区域向量组合方式中包括第二预设维度。计算机设备按照预设的区域向量组合方式对目标词向量的区域词向量进行组合计算，得到第二预设维度的组合区域词向量。区域向量组合方式指将各个区域词向量进行组合计算的方式。

S206，基于前馈神经网络将各个组合区域词向量进行聚集变换处理，得到目标词向量对应的聚集词向量。

其中，前馈神经网络是一种各个神经元分层排列的神经网络。聚集变换处理指将各个组合区域词向量进行聚集处理和变换处理的过程。聚集词向量指对各个组合区域词向量进行聚集处理和变换处理后所得到的词向量。

具体地，计算机设备可以基于前馈神经网络分别对各个组合区域词向量进行一次变换，得到与组合区域词向量的维度相同的中间区域词向量。例如目标词向量有J个维度的组合区域词向量O＝{O ₁,O ₂,……,O _J}，则计算机设备基于前馈神经网络先对各个组合区域词向量进行一次变换时，也可以得到J个维度的中间区域向量F＝{F ₁,F ₂,……,F _J}。计算机设备将得到的各个中间区域词向量进行聚集处理，得到一个中间聚集词向量。计算机设备可以对得到的中间聚集词向量进行一次线性变换，便可以得到目标词向量对应的聚集词向量。

S208，基于聚集词向量生成目标词向量对应的目标隐状态。

其中，隐状态指循环神经网络的隐藏层输出的隐藏状态，隐藏状态指循环神经网络的系统状态(system status)。目标隐状态便指循环神经网络在第一时刻的系统状态(system status)。

具体地，计算机设备可以获取上一时刻的历史词向量的历史隐状态，计算机设备可以在历史隐状态的基础上加入目标词向量的聚集词向量对目标词向量的目标隐状态进行计算，生成目标词向量的目标隐状态。可以理解的是，上一时刻的历史词向量的历史隐状态也是基于历史词向量的聚集词向量生成的，而聚集词向量是对历史词向量进行多维度的转换处理得到的。

上述用于语言处理的循环神经网络中隐状态的生成方法，生成第一时刻输入的目标词向量的至少两个维度的区域词向量，使得单一维度的目标词向量对应有多个维度的区域词向量，并将各个区域词向量进行区域组合，得到至少两个维度的组合区域词向量。再基于前馈神经网络将各个组合区域词向量进行聚集变换处理，得到目标词向量对应的聚集词向量。

采用本申请提供的方案，使得每一时刻的目标词向量都有对应的聚集词向量，这样便可以在聚集词向量的基础上生成目标词向量对应的目标隐状态。由于聚集词向量是对目标词向量进行多维度的转换处理得到的，使得利用该聚集词向量生成的目标隐状态对于复杂语言学规律的捕获率高。例如在计算机设备处理手写识别、序列标注、情感分析、语言模型训练和机器翻译等任务中，即使遇到长距离依赖的语言结构，也可以高效地完成任务。

在一个实施例中，生成第一时刻输入的目标词向量的至少两个维度的区域词向量包括：获取至少两个第一权重矩阵，每个第一权重矩阵用于生成对应的区域词向量；确定第一时刻输入的目标词向量，并获取上一时刻的历史词向量对应的历史隐状态；基于第一权重矩阵和历史隐状态生成目标词向量的至少两个维度的区域词向量。

其中，第一权重矩阵指形式为矩阵的随着系统进行训练的权重参数，用于生成对应的区域词向量。即第一权重矩阵是通过样本数对系统训练得到的矩阵形式的系统参数。历史词向量指计算机设备在第一时刻的上一时刻输入的词向量。历史隐状态指计算机设备在第一时刻的上一时刻输入的词向量对应的隐状态。

具体地，当计算机设备在第一时刻检测到有目标词向量输入时，计算机设备读取第一时刻输入的目标词向量，并触发该目标词向量的区域词向量生成指令。计算机设备根据该区域词向量生成指令获取用于生成区域词向量的第一权重矩阵，获取的第一权重矩阵的数量与计算机设备需要生成的区域词向量的维度的数量相同。

例如计算机设备需要生成的区域词向量的第一预设维度为N，则计算机设备获取的第一权重矩阵的数量为N。计算机设备在生成每一个维度的区域词向量时都有对应的第一权重矩阵：计算机设备在生成第一个维度的区域词向量Z ₁时，有对应的第一权重矩阵W ₁；计算机设备在生成第二个维度的区域词向量Z ₂时，有对应的第一权重矩阵W ₂；……；计算机设备在生成第N个维度的区域词向量Z _N时，有对应的第一权重矩阵W _N。

计算机设备确定第一时刻输入的目标词向量，并获取计算机设备在第一时刻的上一时刻输入的历史词向量对应的历史隐状态。可以理解的是，上一时刻不必然是与第一时刻紧密相邻的时刻，上一时刻是计算机设备在当次输入目标词向量的前一次输入词向量时所对应的时刻。

例如计算机设备在T个时刻输入的目标词向量整体为一个向量序列X＝{X ₁,X ₂,……,X _T}，X ₁表示计算机设备在第1个时刻输入的词向量，X ₂表示计算机设备在第2个时刻输入的词向量。第1个时刻与第2个时刻之间可能会有很长的时间间隔，也可能只有很短的时间间隔，因此第1个时刻与第2个时刻间并不必然是在时间表上对应的紧密相邻的时刻。

计算机设备可以基于获取的历史隐状态和第一预设数量的第一权重矩阵生成第一预设维度的区域词向量。第一预设数量与第一预设维度的数量相同。第一预设维度的区域词向量整体可以为一个区域词向量矩阵，例如计算机设备需要将目标词向量X _T转换为N个维度的区域词向量，则得到的N个维度的区域词向量可以表示为区域词向量矩阵

区域词向量矩阵中的Z ₁至Z _N均为目标词向量X _T的区域词向量。

上述实施例中，计算机设备直接利用用于生成对应的区域词向量的第一权重矩阵，高效地将单一维度的目标词向量转换为至少两个维度的区域词向量。并且是在上一时刻的历史隐状态的基础上生成至少两个维度的区域词向量，使得得到的区域词向量更加准确。

在一个实施例中，基于第一权重矩阵和历史隐状态生成目标词向量的至少两个维度的区域词向量包括：将目标词向量与历史隐状态进行拼接，得到拼接词向量；根据拼接词向量和第一权重矩阵生成区域词向量矩阵；区域词向量矩阵包括至少两个维度的区域词向量。

具体地，计算机设备生成的各个时刻的隐状态的形式均为向量，因此，计算机设备在确定目标词向量并获取到上一时刻的历史词向量对应的历史隐状态后，可以将第一时刻的目标词向量与上一时刻的历史隐状态进行拼接，得到拼接词向量。例如目标词向量中包含8个向量元素，历史隐状态中包含5个向量元素，计算机设备直接将目标词向量与历史隐状态进行拼接后，得到的拼接词向量包含13个向量元素。计算机设备将得到的拼接词向量分别与各个第一权重矩阵相乘，便能得到区域向量矩阵。区域向量矩阵中包含多个维度的区域词向量。

在一个实施例中，将目标词向量与历史隐状态进行拼接可以表示为[X _t,h _t-1]，其中，X _t为计算机设备第一时刻输入的目标词向量，h _t-1为第一时刻的上一时刻的历史词向量对应的历史隐状态。则计算机设备可以按照如下公式生成目标词向量的至少两个维度的区域词向量：Z _i＝W _i[X _t,h _t-1]。

其中，W _i表示第一权重矩阵。例如计算机设备需要生成N个区域词向量，则i为1至N，Z _i为Z ₁至Z _N，W _i为W ₁至W _N。可以理解的是，在计算Z ₁时，Z _i＝W _i[X _t,h _t-1]为Z ₁＝W ₁[X _t,h _t-1]；在计算Z ₂时，Z _i＝W _i[X _t,h _t-1]为Z ₂＝W ₂[X _t,h _t-1]；……；在计算Z _N时，Z _i＝W _i[X _t,h _t-1]为Z _N＝W _N[X _t,h _t-1]。这样计算机设备便能得到区域词向量矩阵

1至N分别表示对应的区域词向量Z ₁至Z _N所在的维度。其中，t为大于1的整数。

可以理解的是，区域词向量矩阵中的每一个区域词向量分别处于不同的维度，每一个区域词向量包含多个向量元素，每个向量元素均为所属区域词向量所在维度的矩阵元素。例如Z ₁包含3个向量元素0.3、0.8和0.7，则0.3为Z ₁所在第一维度的矩阵元素Z ₁₁，0.8为Z ₁所在第一维度的矩阵元素Z ₁₂，0.7为Z ₁所在第一维度的矩阵元素Z ₁₃。以每个区域向量均包含3个向量元素为例，则区域词向量矩阵具体可以表示为

上述实施例中，计算机设备直接将目标词向量与上一时刻的隐状态进行拼接，得到拼接词向量，将拼接词向量与至少两个第一权重矩阵分别直接相乘，从而更加高效快捷地得到了至少两个维度的区域词向量。

在一个实施例中，如图3所示，将各个区域词向量进行组合，得到至少两个维度的组合区域词向量包括：

S302，确定各个区域词向量间的边权重。

其中，边权重指将各个区域词向量作为向量节点时，用于连接各个向量节点的边的权重。

具体地，计算机设备预设的区域向量组合方式可以为基于图卷积(graph convolutional networks)的区域向量组合方式，计算机设备按照基于图卷积的区域向量组合方式将各个区域词向量确定为向量节点，各个向量节点之间有连接的边，构建一个图G＝(V,E)，其中，V表示向量节点集合，E表示边集合。

如图4所示，例如计算机设备生成了目标词向量的3个维度的区域词向量：Z ₁、Z ₂和Z ₃，则计算机设备将Z ₁、Z ₂和Z ₃分别确定为向量节点401。各个向量节点之间连接的边402代表连接的两个向量节点间的关系。计算机设备可以计算各个向量节点之间的相似度，将各个向量节点之间的相似度确定为对应的各个向量节点之间的边的边权重。

在一个实施例中，计算机设备可以按照以下公式计算确定各个区域词向量间的边权重：W _ij＝(Z _i ^TZ _j)/(||Z _i||*||Z _j||),其中，Z _i和Z _j均为目标词向量的任意一个区域词向量。Z _i ^T指区域词向量Z _i的转置向量。“||Z _i||”指区域词向量Z _i的L2范数，“||Z _j||”指区域词向量Z _j的L2范数。这样，计算机设备按照上述公式可以得到各个区域词向量间的相似度，将各个向量节点之间的相似度确定为对应的各个向量节点之间的边的边权重。其中，j为正整数。

S304，按照确定的各个边权重生成各个区域词向量共同对应的邻接矩阵。

其中，邻接矩阵(Adjacency Matrix)是用于表示向量节点之间相邻关系的矩阵。

具体地，计算机设备可以将确定的各个边权重作为矩阵元素，形成一个邻接矩阵。例如计算机设备生成了目标词向量的N个维度的区域词向量，则计算机设备将N个区域词向量分别确定为向量节点，计算N个向量节点中各个向量节点之间的边权重。这样，计算机设备将确定的各个边权重作为矩阵元素所形成的邻接矩阵A可以如图5所示。

S306，分别将邻接矩阵中各个维度的各个边权重进行加和，得到度矩阵。

其中，度矩阵指由邻接矩阵各个行或各个列的向量节点的度形成的矩阵，各个行或各个列的向量节点的度为邻接矩阵中各个行或者各个列包含的矩阵元素的和。

具体地，如图5所示，邻接矩阵A中的每一行都包括某一个向量节点与其他向量节点之间的边的边权重。例如图5中的W ₁₂可以表示各个向量节点中的第1个节点与第2个节点之间的边的边权重。计算机设备得到邻接矩阵后，便可以将邻接矩阵中各个行所包括的边权重进行加和，得到各个行对应的向量节点的度。例如邻接矩阵中的第一行包括的是向量节点Z ₁与其他向量节点之间的边权重：W ₁₁,W ₁₂,W ₁₃,……,W _1N，则计算机设备将W ₁₁至W _1N进行加和，便能得到向量节点Z ₁的度D ₁₁。

进一步地，计算机设备计算可以按照以下公式计算各个行对应的向量节点的度：D _ii＝∑ _jW _ij，其中，W _ij指邻接矩阵中第i行第j列的矩阵参数(该矩阵参数为向量节点中的第i个向量节点与第j个向量节点间的边权重)。例如计算图4中邻接矩阵A的第一行表示的向量节点的度时，D ₁₁＝∑ _jW _ij中的j为1至N，则D ₁₁＝W ₁₁+W ₁₂+W ₁₃+……+W _1N。

计算机设备得到的邻接矩阵中各个行的向量节点的度可以表示为：D ₁₁,D ₂₂,D ₃₃,……,D _NN，计算机设备基于“D ₁₁,D ₂₂,D ₃₃,……,D _NN”便可以形成度矩阵D，形成的度矩阵D中D ₁₁,D ₂₂,D ₃₃,……,D _NN之外的其他矩阵元素均为0，如图6所示。

S308，基于邻接矩阵和度矩阵生成至少两个维度的组合区域词向量。

具体地，计算机设备可以基于得到的邻接矩阵和度矩阵生成第二预设维度的组合区域词向量，本实施例中的第二预设维度的数量与目标词向量的区域词向量的数量相同。

上述实施例中，计算机设备将目标词向量的各个区域词向量作为图卷积网络中的图结构的向量节点，可以计算出各个向量节点之间的边权重，便得到了各个区域词向量间的边权重，利用得到的边权重生成邻接矩阵，并基于邻接矩阵计算出度矩阵。这样计算机设备可以直接利用邻接矩阵和度矩阵高效地生成组合区域词向量。

在一个实施例中，基于邻接矩阵和度矩阵生成至少两个维度的组合区域词向量包括：确定各个区域词向量共同对应的区域词向量矩阵；获取用于生成组合区域词向量矩阵的第二权重矩阵；根据邻接矩阵、度矩阵、区域词向量矩阵和第二权重矩阵生成组合区域词向量矩阵；组合区域词向量矩阵中包括至少两个维度的区域词向量。

其中，区域词向量矩阵指由各个区域词向量包含的向量元素作为矩阵元素的矩阵。第二权重矩阵指图卷积网络中的形式为矩阵的随着系统进行训练的权重参数，用于生成组合区域词向量矩阵。即第二权重矩阵是通过样本数据对系统进行训练得到的系统参数。

具体地，计算机设备将各个区域词向量包含的向量元素作为矩阵元素，形成一个区域词向量矩阵。例如计算机设备生成了目标词向量X _T的N个区域词向量Z＝{Z ₁,Z ₂,……,Z _N}，每个区域向量中包含M个向量元素，计算机设备将N个区域词向量Z中各个区域词向量所包含的向量元素作为矩阵元素，形成区域词向量矩阵Z，区域词向量矩阵Z如图7中的700所示。其中，M为整数。

计算机设备获取用于生成组合区域词向量矩阵的第二权重矩阵Wg,按照以下公式生成组合区域词向量矩阵O：O＝σ(D ^-1/2AD ^-1/2ZW _g)。其中，D指度矩阵，A指邻接矩阵，Z指区域词向量矩阵，σ为激活函数。进一步地，激活函数σ具体可以是sigmoid函数“sigmoid(x)”。sigmoid函数是一个在生物学中常见的S型函数，也称为S型生长曲线，本实施例中，sigmoid函数作为循环神经网络中的阈值函数。

计算机设备利用激活函数σ可以得到与目标词向量的区域词向量维度相同的组合区域词向量矩阵O，组合区域词向量矩阵O的每一行作为一个维度，每一个维度具有一个组合区域词向量。例如N个区域词向量对应的组合区域词向量矩阵

包含J个组合区域词向量，J与N的大小相同。则计算机设备可以得到J个组合区域词向量O＝{O ₁,O ₂,……,O _J}。

上述实施例中，将各个区域词向量整体作为一个区域词向量矩阵，并利用用于生成组合区域词向量矩阵的第二权重矩阵，基于邻接矩阵和度矩阵生成区域词向量矩阵对应的组合区域词向量矩阵，并且生成的组合区域词向量矩阵包括至少两个维度的区域词向量，进一步提高了生成组合区域词向量的高效性。

在一个实施例中，如图8所示，将各个区域词向量进行组合，得到至少两个维度的组合区域词向量包括：

S802，根据用于生成组合区域词向量的第三权重矩阵确定各个区域词向量对应的至少两个预测向量。

其中，第三权重矩阵指胶囊网络(capsule networks)中的形式为矩阵的随着系统进行训练的权重参数，用于生成组合区域词向量矩阵。即第三权重矩阵是通过样本数据对系统进行训练得到的系统参数。预测向量指生成组合区域词向量矩阵的过程中的形式为向量的中间变量。

具体地，计算机设备预设的区域向量组合方式可以为基于胶囊网络的区域向量组合方式，计算机设备按照基于胶囊网络的区域向量组合方式将各个区域词向量作为胶囊网络中的胶囊，例如计算机设备生成了目标词向量的N个区域词向量Z＝{Z ₁,Z ₂,……,Z _N}，便有N个胶囊：Z ₁,Z ₂,……,Z _N。

计算机设备获取用于生成组合区域词向量的第三权重矩阵W ^C中的各个矩阵元素W ^C _ij，其中，i为1至N，N为胶囊的总数量，j为1至第二预设维度的数量，本实施例中第二预设维度的数量大于或等于2且小于或等于N，ij表示第三权重矩阵W ^C的第i行第j列。

如图9所示，图9中的901-904为计算机设备按照基于胶囊网络的区域向量组合方式对目标词向量的区域词向量进行组合计算的初始化阶段，905-910为计算机设备按照基于胶囊网络的区域向量组合方式对目标词向量的区域词向量进行组合计算的迭代计算阶段。在初始化阶段，如图9中的903所示，计算机设备可以基于胶囊网络中的各个胶囊，生成获取的第三权重矩阵中的各个矩阵元素W ^C _ij对应的预测向量Z _j|i。

S804，确定各个区域词向量对应的至少两个先验概率对数。

其中，先验概率对数指生成组合区域词向量矩阵的过程中的形式为向量的临时变量。

具体地，计算机设备从先验概率对数矩阵B中获取各个先验概率对数b _ij，先验概率对数矩阵B中包括的先验概率对数b _ij的数量为胶囊的总数量*第二预设维度的数量。如图9中的902所示，由于此时处于初始化阶段，先验概率对数矩阵B中的所有先验概率对数b _ij均为0。

S806，根据先验概率对数确定各个区域词向量对应的耦合系数。

具体地，计算机设备进入迭代计算阶段。在迭代计算阶段，如图9中的905所示，计算机设备对获取的各个先验概率对数b _ij进行归一化处理，公式如下：

得到各个区域词向量分别与对应的各个待生成的组合区域词向量间的耦合系数C _ij。其中，exp()是指以e为底数的指数函数。

S808，基于耦合系数和预测向量生成至少两个维度的候选组合区域词向量。

具体地，计算机设备得到耦合系数Cij后，如图9中的906所示，按照以下公式计算加权和S _j：S _j＝∑ _iC _ijZ _j|i。其中，∑是求和符号。如图9中的907所示，计算机设备通过非线性激活函数squash(Sj)生成第二预设维度的组合区域词向量O _j。其中，

其中，“||S _j||”是指计算S _j的范数。

S810，重复执行以上步骤S804至步骤S808对候选组合区域词向量进行迭代计算，直至符合预设迭代条件时停止迭代，将停止迭代时的至少两个维度的候选组合区域词向量确定为至少两个维度的组合区域词向量。

也就是说，计算机设备重复执行以上步骤S804至步骤S808这三个步骤，以对候选组合区域词向量进行迭代计算，直至符合预设迭代条件时停止迭代，将停止迭代时的至少两个维度的候选组合区域词向量确定为至少两个维度的组合区域词向量。

需要说明的是，对候选组合区域词向量进行迭代计算时，需要重新确定区域词向量与组合区域词向量之间的先验概率对数。具体地，如图9中的步骤908所示，计算机设备得到组合区域词向量Oj后，执行步骤909，按照以下公式重新确定各个区域词向量分别与各个组合区域词向量之间的先验概率对数：b _ij＝b _ij+Z _j|iO _j。

具体地，重新确定先验概率对数b _ij后，返回图9中905的步骤，直到符合预设迭代条件时停止迭代，输出最后一次生成的各个组合区域词向量。示例性的，预设迭代条件可以是预设迭代次数，例如，预设迭代次数为3次，则计算机设备检测到当前迭代次数已达到预设迭代次数时，停止迭代，输出第3次生成的各个组合区域词向量。

例如，预设迭代次数为5次，则对上述步骤S804至步骤S808这三个步骤重复执行5次，在第5次执行步骤S804至步骤S808之后，停止再次执行，并将第5次执行步骤S804至步骤S808之后得到的候选组合区域词向量作为至少两个维度的组合区域词向量。

上述实施例中，计算机设备将目标词向量的各个区域词向量作为胶囊网络中的胶囊，利用胶囊网络中用于生成组合区域词向量的第三权重矩阵生成各个区域词向量对应的至少两个预测向量，并获取各个区域词向量对应的初始化的至少两个先验概率对数。在基于先验概率对数生成至少两个维度的组合区域词向量的过程中，利用胶囊网络中对于先验概率对数的迭代算法更加高效准确地生成最终的组合区域词向量。

即在基于先验概率对数生成至少两个维度的组合区域词向量的过程中，利用胶囊网络中对于先验概率对数的迭代算法，高效地对组合区间词向量进行多次的迭代计算，同时通过多次迭代更好的捕获复杂语言学规律。

在一个实施例中，确定各个所述区域词向量对应的至少两个先验概率对数，还包括：确定各个组合区域词向量与对应的各个预测向量间的标量积；将各个标量积与对应的先验概率对数进行加和，得到重新确定的各个区域词向量对应的先验概率对数。

具体地，如图9中的步骤908所示“Z _j|i·O _j”指的就是预测向量Z _j|i与组合区域词向量O _j之间的标量积，再将得到的标量积分别与当前的各个先验概率对数进行加和，重新得到多个先验概率对数。

例如，预测向量Z _1|1＝(a ₁,a ₂,……,a _n)，当前得到的组合区域词向量O ₁＝(c ₁,c ₂,……,c _n)，相应地，标量积Z _1|1·O ₁＝a ₁c ₁+a ₂c ₂+……+a _nc _n；将当前的b ₁₁与Z _1|1·O ₁进行加和，得到新的先验概率对数b ₁₁＝b ₁₁+Z _1|1·O ₁。

上述实施例中，计算机设备将各个组合区域词向量与对应的各个预测向量间的标量积与当前的先验概率对数进行加和，得到多个重新确定的先验概率对数，经过多次迭代后先验概率对数的准确率更高，这样便可以更加高效准确地生成最终的组合区域词向量。

在一个实施例中，基于前馈神经网络将各个组合区域词向量进行聚集变换处理，得到目标词向量对应的聚集词向量，包括：基于前馈神经网络对各个组合区域词向量进行变换，得到变换后的组合区域词向量；将各个变换后的组合区域词向量进行拼接，得到拼接后的词向量；对拼接后的词向量进行线性变换，得到目标词向量对应的聚集词向量。

具体地，计算机设备按照基于前馈神经网络的预设公式对各个组合区域词向量O＝{O ₁,O ₂,……,O _J}进行更深层的变换，得到变换后的组合区域词向量F＝＝{f ₁,f ₂,……,f _J}。计算机设备将F中的所有变换后的组合区域词向量进行拼接，得到一个拼接后的词向量(f ₁ f ₂ …… f _J)。再对拼接后的词向量(f ₁ f ₂ …… f _J)进行一次线性变换，得到目标词向量对应的聚集词向量。

上述实施例中，计算机设备基于前馈神经网络对各个组合区域词向量进行了更深层次的变换，得到聚集词向量，使得利用基于聚集词向量生成的目标隐状态捕获复杂语言学规律时，对于复杂语言学规律的捕获率高。

在一个实施例中，基于前馈神经网络对各个组合区域词向量进行变换，得到变换后的组合区域词向量，包括：根据第四权重矩阵和第一偏置向量对各个组合区域词向量进行线性变换，得到各个组合区域词向量对应的临时词向量；分别选取各个临时词向量与向量阈值中的最大向量值；根据第五权重矩阵和第二偏置向量对各个最大向量值分别进行线性变换，得到变换后的组合区域词向量。

其中，第四权重矩阵指前馈神经网络中的形式为矩阵的随着系统进行训练的权重参数，用于在前馈神经网络中对各个组合区域向量进行第一次的线性变换。第五权重矩阵指前馈神经网络中的形式为矩阵的随着系统进行训练的权重参数，用于在前馈神经网络中对各个组合区域向量进行第二次的线性变换。第一偏置向量指前馈神经网络中的形式为向量的随着系统进行训练的偏置参数，用于在前馈神经网络中对各个组合区域向量进行第一次的线性变换。第二偏置向量指前馈神经网络中的形式为向量的随着系统进行训练的偏置参数，用于在前馈神经网络中对各个组合区域向量进行第二次的线性变换。其中，第四权重矩阵与第五权重矩阵是通过样本数对系统训练得到的矩阵形式的系统参数。

具体地，计算机设备获取前馈神经网络中的第四权重矩阵W ₁和第一偏置向量b ₁，利用第四权重矩阵W ₁和第一偏置向量b ₁对各个组合区域词向量O _j进行第一次线性变换：O _jW ₁+b ₁，得到各个组合区域词向量对应的临时词向量。将各个临时词变量分别与向量阈值做比较，选取各个临时词变量与向量阈值间的最大向量值。

例如，向量阈值为0，则计算机设备将各个临时词变量分别与向量阈值0做比较，通过Relu函数“max(0,X)”选取最大向量值max(0,O _jW ₁+b ₁)，将大于向量阈值0的临时词变量作为该临时词变量与向量阈值0中的最大向量值，将大于临时词变量的向量阈值0作为该临时词变量与向量阈值0中的最大向量值。

计算机设备获取前馈神经网络中的第五权重矩阵W ₂和第二偏置向量b ₂，利用第五权重矩阵W ₂、以及第二偏置向量b ₂对各个组合区域词向量O _j进行第二次线性变换，得到二次线性变换后的组合区域向量f _J：f _J＝max(0,O _jW ₁+b ₁)W ₂+b ₂，进而得到变换后的组合区域词向量F＝{f ₁,f ₂,……,f _J}。

上述实施例中，计算机设备利用前馈神经网络中的第四权重矩阵和第一偏置向量对各个组合区域词向量进行了第一次线性变换后，得到临时词向量，并选取临时词向量与向量阈值中的最大向量值，利用前馈神经网络中的第五权重矩阵和第二偏置向量对最大向量值进行第二次线性变换，得到的变换后的组合区域词向量。计算机设备可以利用该组合区域词向量生成聚集词向量，使得利用基于聚集词向量生成的目标隐状态捕获复杂语言学规律时，对于复杂语言学规律的捕获率高。

在一个实施例中，聚集词向量包括第一聚集词向量和第二聚集词向量，第一聚集词向量与第二聚集词向量不同；基于聚集词向量生成目标词向量对应的目标隐状态包括：基于第一聚集词向量和对应的第一激活函数确定目标词向量对应的候选隐状态；基于第二聚集词向量和对应的第二激活函数确定目标词向量对应的门控参数；根据候选隐状态、门控参数和上一时刻的历史词向量的历史隐状态生成目标词向量对应的目标隐状态。

具体地，计算机设备在生成目标词向量的区域词向量时，要分别基于第一聚集词向量对应的第一权重矩阵和第二聚集词向量对应的第一权重矩阵生成聚集词向量。当计算机设备基于第一聚集词向量对应的第一权重矩阵生成区域词向量时，计算机设备最后得到的目标词向量对应的聚集词向量为第一聚集词向量M _h。当计算机设备基于第二聚集词向量对应的第一权重矩阵生成区域词向量时，计算机设备最后得到的目标词向量对应的聚集词向量为第二聚集词向量M _g。

计算机设备通过第一激活函数tanh确定目标词向量的候选隐状态h～ _t：h～ _t＝tanh(M _h)。计算机设备通过第二激活函数σ确定目标词向量的门控参数g _t:g _t＝σ(M _g)。

进一步地，

计算机设备得到目标词向量对应的候选隐状态h～ _t和门控参数g _t后，按照以下公式计算目标词向量的目标隐状态h _t：h _t＝(1-g _t)⊙h _t-1+g _t⊙h～ _t。其中，⊙是元素积运算符，“(1-g _t)⊙h _t-1”指对(1-g _t)和h _t-1进行元素积的运算，“g _t⊙h～ _t”指对g _t和h～ _t进行元素积的运算。

上述实施例中，由于第一聚集词向量和第二聚集词向量都是对目标词向量进行多维度的转换处理得到的，这样基于第一聚集词向量得到的候选隐状态和基于第二聚集词向量得到的门控参数更加的精确，这样利用基于更加精确的候选隐状态和门控参数得到的目标隐状态捕获复杂语言学规律时，对于复杂语言学规律的捕获率高。

在一个实施例中，如图10所示，用于语言处理的循环神经网络中隐状态的生成方法可以包括以下步骤：

S1002，计算机设备按照区域词向量生成公式生成第一预设维度的区域词向量。

具体地，如图11中的1101所示，区域词向量生成公式为：Z _i＝W _i[X _t,h _t-1]。例如第一预设维度为N，则i为1至N，计算机设备得到的N个维度的区域词向量可以表示为Z＝{Z ₁,Z ₂,……,Z _N}。

S1004，计算机设备按照预设的区域向量组合方式对第一预设维度的区域词向量进行组合计算，得到第二预设维度的组合区域词向量。

具体地，如图11中的1102所示，计算机设备对得到的N个维度的区域词向量Z＝{Z ₁,Z ₂,……,Z _N}进行组合计算，例如第二预设维度为J，则计算机设备可以得到J个组合区域词向量O＝{O ₁,O ₂,……,O _J}。J可以等于N，也可以不等于N。例如当预设的区域向量组合方式为基于图卷积的区域向量组合方式时，第二预设维度J等于第一预设维度N。当预设的区域向量组合方式为基于胶囊网络的区域向量组合方式时，第二预设维度J大于或等于2，且小于或等于第一预设维度N。

S1006，基于前馈神经网络对各个组合区域词向量进行深层变换，得到第二预设维度的中间区域词向量。

具体地，如图11中的1103所示，计算机设备通过前馈神经网络(Feedforward Neural Network，FNN)对各个组合区域词向量进行处理时，具体可以按照以下公式生成各个中间区域词向量f _J：f _J＝max(0,O _jW ₁+b ₁)W ₂+b ₂。例如第二预设维度为J，则计算机设备可以生成J个中间区域词向量F＝{f ₁,f ₂,……,f _J}。

S1008，计算机设备将第二预设维度的中间区域词向量进行拼接，得到拼接词向量，并对拼接词向量进行一次线性变换，得到聚集词向量。

具体地，如图11中的1103所示，“Concat&Linear”便指计算机设备将J个中间区域词向量F＝{f ₁,f ₂,……,f _J}进行拼接(Concat)后，再进行一次线性变换(Linear)。

S1010，计算机设备基于聚集词向量生成目标词向量对应的目标隐状态。

具体地，聚集词向量分为第一聚集词向量M _h和第二聚集词向量M _g。计算机设备可以基于第一聚集词向量M _h和第二聚集词向量M _g计算候选隐状态h～ _t和门控参数g _t：候选隐状态h～ _t＝tanh(M _h)，门控参数g _t＝σ(M _g)。这样，计算机设备便可以基于候选隐状态h～ _t和门控参数g _t计算目标词向量的目标隐状态h _t：目标隐状态h _t＝(1-g _t)⊙h _t-1+g _t⊙h～ _t。

在一个实施例中，例如在人机对话的应用场景中，计算机设备接收到变长的语音信息，计算机设备将每一时刻接收到的语音信息转换为文本信息，并将该文本信息映射为目标词向量，通过上述任一实施例中用于语言处理的循环神经网络中隐状态的生成方法中的步骤，生成各个目标词向量的目标隐状态。

计算机设备可以计算生成的多个目标隐状态的平均隐状态，将该平均隐状态作为h _t-1，X _t为0向量。基于h _t-1和X _t计算第一聚集词向量M _h和第二聚集词向量M _g。计算机设备基于第一聚集词向量M _h和第二聚集词向量M _g计算候选隐状态h～ _t和门控参数g _t：候选隐状态h～ _t＝tanh(M _h)，门控参数g _t＝σ(M _g)，并按照公式h _t＝(1-g _t)⊙h _t-1+g _t⊙h～ _t，得到中间隐状态h _t。例如中间隐状态h _t为一个包含100个向量元素的向量，则可以用中间隐状态h _t与包含100*Y的权重矩阵W _v相乘，得到包含Y个向量元素的中间向量。通过softmax(中间向量)，可以得到Y个概率值，每一个概率值代表对应单词表中的一个词的概率。例如Y为10000，则计算机设备可以得到10000个概率值。

计算机设备将Y个概率值中的最大概率值对应的词作为当前人机对话计算机设备需要做出答复的第一个词。计算机设备将计算机设备需要做出答复的第一个词的词向量作为X _t，将中间隐状态h _t作为h _t-1，继续执行基于h _t-1和X _t计算第一聚集词向量M _h和第二聚集词向量M _g的步骤，按照同样的计算步骤，计算机设备可以得到需要做出答复的第二个词、第三个词、第四个词……。直到得到的最大概率值符合结束条件，则结束迭代。进一步地，结束条件可以为最大概率值对应的词为指定的结束符号。

图2、3、8和10为一个实施例中用于语言处理的循环神经网络中隐状态的生成方法的流程示意图。应该理解的是，虽然图2、3、8和10的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、3、8和10中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图12所示，提供了一种用于语言处理的循环神经网络中隐状态的生成装置1200，该装置可以通过软件、硬件、或者二者结合实现成为计算机设备的部分或者全部；该装置包括区域词向量生成模块1201、区域词向量组合模块1202、聚集变换处理模块1203和目标隐状态生成模块1204，其中：

区域词向量生成模块1201，用于生成第一时刻输入的目标词向量的至少两个维度的区域词向量。

区域词向量组合模块1202，用于将各个区域词向量进行组合，得到至少两个维度的组合区域词向量。

聚集变换处理模块1203，用于基于前馈神经网络将各个组合区域词向量进行聚集变换处理，得到目标词向量对应的聚集词向量。

目标隐状态生成模块1204，用于基于聚集词向量生成目标词向量对应的目标隐状态。

在一个实施例中，区域词向量生成模块，还用于：获取至少两个第一权重矩阵，每个第一权重矩阵用于生成对应的区域词向量；确定第一时刻输入的目标词向量，并获取上一时刻的历史词向量对应的历史隐状态；基于第一权重矩阵和历史隐状态生成目标词向量的至少两个维度的区域词向量。

在一个实施例中，区域词向量生成模块，还用于：将目标词向量与历史隐状态进行拼接，得到拼接词向量；根据拼接词向量和第一权重矩阵生成区域词向量矩阵；区域词向量矩阵包括至少两个维度的区域词向量。

在一个实施例中，区域词向量组合模块，还用于：确定各个区域词向量间的边权重；按照确定的各个边权重生成各个区域词向量共同对应的邻接矩阵；分别将邻接矩阵中各个维度的各个边权重进行加和，得到度矩阵；基于邻接矩阵和度矩阵生成至少两个维度的组合区域词向量。

在一个实施例中，区域词向量组合模块，还用于：确定各个区域词向量共同对应的区域词向量矩阵；获取用于生成组合区域词向量矩阵的第二权重矩阵；根据邻接矩阵、度矩阵、区域词向量矩阵和第二权重矩阵生成组合区域词向量矩阵；组合区域词向量矩阵中包括至少两个维度的区域词向量。

在一个实施例中，区域词向量组合模块，还用于：

根据用于生成组合区域词向量的第三权重矩阵确定各个区域词向量对应的至少两个预测向量；

确定各个区域词向量对应的至少两个先验概率对数；根据先验概率对数确定各个区域词向量对应的耦合系数；基于耦合系数和预测向量生成至少两个维度的候选组合区域词向量；

再次从所述确定各个区域词向量对应的至少两个先验概率对数的步骤开始执行，对候选组合区域词向量进行迭代计算，直至符合预设迭代条件时停止迭代，将停止迭代时的至少两个维度的候选组合区域词向量确定为至少两个维度的组合区域词向量。

在一个实施例中，区域词向量组合模块，还用于：确定各个组合区域词向量与对应的各个预测向量间的标量积；将各个标量积与对应的先验概率对数进行加和，得到重新确定的各个区域词向量对应的先验概率对数。

在一个实施例中，聚集变换处理模块，还用于：基于前馈神经网络对各个组合区域词向量进行变换，得到变换后的组合区域词向量；将各个变换后的组合区域词向量进行拼接，得到拼接后的词向量；对拼接后的词向量进行线性变换，得到目标词向量对应的聚集词向量。

在一个实施例中，聚集变换处理模块，还用于：根据第四权重矩阵和第一偏置向量对各个组合区域词向量进行线性变换，得到各个组合区域词向量对应的临时词向量；分别选取各个临时词向量与向量阈值中的最大向量值；根据第五权重矩阵和第二偏置向量对各个最大向量值分别进行线性变换，得到变换后的组合区域词向量。

在一个实施例中，聚集词向量包括第一聚集词向量和第二聚集词向量，第一聚集词向量与第二聚集词向量不同；

目标隐状态生成模块，还用于：基于第一聚集词向量和对应的第一激活函数确定目标词向量对应的候选隐状态；基于第二聚集词向量和对应的第二激活函数确定目标词向量对应的门控参数；根据候选隐状态、门控参数和上一时刻的历史词向量的历史隐状态生成目标词向量对应的目标隐状态。

图1示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端或服务器。如图1所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。可以理解的是，当计算机设备为终端时，该计算机设备还可以包括显示屏和输入装置等。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现用于语言处理的循环神经网络中隐状态的生成方法。

该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行用于语言处理的循环神经网络中隐状态的生成方法。当计算机设备为终端时，计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的用于语言处理的循环神经网络中隐状态的生成装置可以实现为一种计算机程序的形式，计算机程序可在如图1所示的计算机设备上运行。计算机设备的存储器中可存储组成该用于语言处理的循环神经网络中隐状态的生成装置的各个程序模块，比如，图12所示的区域词向量生成模块1201、区域词向量组合模块1202、聚集变换处理模块1203和目标隐状态生成模块1204。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的用于语言处理的循环神经网络中隐状态的生成方法中的步骤。

例如，图1所示的计算机设备可以通过如图12所示的用于语言处理的循环神经网络中隐状态的生成装置1200中的区域词向量生成模块1201执行生成第一时刻输入的目标词向量的至少两个维度的区域词向量。计算机设备可通过区域词向量组合模块1202执行将各个区域词向量进行组合，得到至少两个维度的组合区域词向量。计算机设备可通过聚集变换处理模块1203执行基于前馈神经网络将各个组合区域词向量进行聚集变换处理，得到目标词向量对应的聚集词向量。计算机设备可通过目标隐状态生成模块1204执行基于聚集词向量生成目标词向量对应的目标隐状态。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述用于语言处理的循环神经网络中隐状态的生成方法的步骤。此处用于语言处理的循环神经网络中隐状态的生成方法的步骤可以是上述各个实施例的用于语言处理的循环神经网络中隐状态的生成方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述用于语言处理的循环神经网络中隐状态的生成方法的步骤。此处用于语言处理的循环神经网络中隐状态的生成方法的步骤可以是上述各个实施例的用于语言处理的循环神经网络中隐状态的生成方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各个方法的实施例的流程。其中，本申请所提供的各个实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、电可编程只读存储器(Electrically Programmable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)或闪存。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态随机存取存储器(Static Random Access Memory，SRAM)、动态随机存取存储器(Dynamic Random Access Memory，DRAM)、同步动态随机存取存储器 (Synchronous Dynamic Random Access Memory，SDRAM)、双数据率SDRAM(Double Data Rate SDRAM，DDR SDRAM)、增强型SDRAM(Enhanced SDRAM，ESDRAM)、同步链路DRAM(SynchLink DRAM，SLDRAM)、总线式DRAM(Rambus DRAM，RDRAM)、以及接口动态随机存储器(Direct Rambus DRAM，DRDRAM)等。

以上实施例的各个技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施按照预设的，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种用于语言处理的循环神经网络中隐状态的生成方法，其中，应用于计算机设备中，所述方法包括：

生成第一时刻输入的目标词向量的至少两个维度的区域词向量；

将各个所述区域词向量进行组合，得到至少两个维度的组合区域词向量；

基于前馈神经网络将各个所述组合区域词向量进行聚集变换处理，得到所述目标词向量对应的聚集词向量；

基于所述聚集词向量生成所述目标词向量对应的目标隐状态。
根据权利要求1所述的方法，其中，所述生成第一时刻输入的目标词向量的至少两个维度的区域词向量，包括：

获取至少两个第一权重矩阵，每个所述第一权重矩阵用于生成对应的区域词向量；

确定第一时刻输入的目标词向量，并获取上一时刻的历史词向量对应的历史隐状态；

基于所述第一权重矩阵和所述历史隐状态生成所述目标词向量的至少两个维度的区域词向量。
根据权利要求2所述的方法，其中，所述基于所述第一权重矩阵和所述历史隐状态生成所述目标词向量的至少两个维度的区域词向量，包括：

将所述目标词向量与所述历史隐状态进行拼接，得到拼接词向量；

根据所述拼接词向量和所述第一权重矩阵生成区域词向量矩阵；所述区域词向量矩阵包括所述至少两个维度的区域词向量。
根据权利要求1至3任一项所述的方法，其中，所述将各个所述区域词向量进行组合，得到至少两个维度的组合区域词向量，包括：

确定各个所述区域词向量间的边权重；

按照确定的各个所述边权重生成各个所述区域词向量共同对应的邻接矩阵；

分别将所述邻接矩阵中各个维度的各个所述边权重进行加和，得到度矩阵；

基于所述邻接矩阵和所述度矩阵生成所述至少两个维度的组合区域词向量。
根据权利要求4所述的方法，其中，所述基于所述邻接矩阵和所述度矩阵生成至少两个维度的组合区域词向量，包括：

确定各个所述区域词向量共同对应的区域词向量矩阵；

获取用于生成组合区域词向量矩阵的第二权重矩阵；

根据所述邻接矩阵、所述度矩阵、所述区域词向量矩阵和所述第二权重矩阵生成所述组合区域词向量矩阵；所述组合区域词向量矩阵中包括所述至少两个维度的区域词向量。
根据权利要求1至3任一项所述的方法，其中，所述将各个所述区域词向量进行组合，得到至少两个维度的组合区域词向量，包括：

根据用于生成组合区域词向量的第三权重矩阵确定各个所述区域词向量对应的至少两个预测向量；

确定各个所述区域词向量对应的至少两个先验概率对数；根据所述先验概率对数确定各个所述区域词向量对应的耦合系数；基于所述耦合系数和所述预测向量生成至少两个维度的候选组合区域词向量；

再次从所述确定各个所述区域词向量对应的至少两个先验概率对数的步骤开始执行，对所述候选组合区域词向量进行迭代计算，直至符合预设迭代条件时停止迭代，将停止迭代时的至少两个维度的候选组合区域词向量确定为所述至少两个维度的组合区域词向量。
根据权利要求6所述的方法，其中，所述确定各个所述区域词向量对应的至少两个先验概率对数，还包括：

确定各个所述候选组合区域词向量与对应的各个所述预测向量间的标量积；

将各个所述标量积与对应的所述先验概率对数进行加和，得到重新确定的各个所述区域词向量对应的先验概率对数。
根据权利要求1至3任一项所述的方法，其中，所述基于前馈神经网络将各个所述组合区域词向量进行聚集变换处理，得到所述目标词向量对应的聚集词向量，包括：

基于前馈神经网络对各个所述组合区域词向量进行变换，得到变换后的组合区域词向量；

将各个变换后的组合区域词向量进行拼接，得到拼接后的词向量；

对拼接后的词向量进行线性变换，得到所述目标词向量对应的聚集词向量。
根据权利要求8所述的方法，其中，所述基于前馈神经网络对各个所述组合区域词向量进行变换，得到变换后的组合区域词向量，包括：

根据第四权重矩阵和第一偏置向量对各个所述组合区域词向量进行线性变换，得到各个组合区域词向量对应的临时词向量；

分别选取各个所述临时词向量与向量阈值中的最大向量值；

根据第五权重矩阵和第二偏置向量对各个所述最大向量值分别进行线性变换，得到所述变换后的组合区域词向量。
根据权利要求1至3任一项所述的方法，其中，所述聚集词向量包括第一聚集词向量和第二聚集词向量，所述第一聚集词向量与所述第二聚集词向量不同；

所述基于所述聚集词向量生成所述目标词向量对应的目标隐状态，包括：

基于所述第一聚集词向量和对应的第一激活函数确定所述目标词向量对应的候选隐状态；

基于所述第二聚集词向量和对应的第二激活函数确定所述目标词向量对应的门控参数；

根据所述候选隐状态、所述门控参数和上一时刻的历史词向量的历史隐状态生成所述目标词向量对应的目标隐状态。
一种用于语言处理的循环神经网络中隐状态的生成装置，其中，所述装置包括：

区域词向量生成模块，用于生成第一时刻输入的目标词向量的至少两个维度的区域词向量；

区域词向量组合模块，用于将各个所述区域词向量进行组合，得到至少两个维度的组合区域词向量；

聚集变换处理模块，用于基于前馈神经网络将各个所述组合区域词向量进行聚集变换处理，得到所述目标词向量对应的聚集词向量；

目标隐状态生成模块，用于基于所述聚集词向量生成所述目标词向量对应的目标隐状态。
根据权利要求11所述的装置，其中，所述区域词向量生成模块，还用于：

获取至少两个第一权重矩阵，每个所述第一权重矩阵用于生成对应的区域词向量；

确定第一时刻输入的目标词向量，并获取上一时刻的历史词向量对应的历史隐状态；

基于所述第一权重矩阵和所述历史隐状态生成所述目标词向量的至少两个维度的区域词向量。
根据权利要求12所述的装置，其中，所述区域词向量生成模块，还用于：

将所述目标词向量与所述历史隐状态进行拼接，得到拼接词向量；

根据所述拼接词向量和所述第一权重矩阵生成区域词向量矩阵；所述区域词向量矩阵包括所述至少两个维度的区域词向量。
根据权利要求11至13任一项所述的装置，其中，所述区域词向量组合模块，还用于：

确定各个所述区域词向量间的边权重；

按照确定的各个所述边权重生成各个所述区域词向量共同对应的邻接矩阵；

分别将所述邻接矩阵中各个维度的各个所述边权重进行加和，得到度矩阵；

基于所述邻接矩阵和所述度矩阵生成所述至少两个维度的组合区域词向量。
根据权利要求14所述的装置，其中，所述区域词向量组合模块，还用于：

确定各个所述区域词向量共同对应的区域词向量矩阵；

获取用于生成组合区域词向量矩阵的第二权重矩阵；

根据所述邻接矩阵、所述度矩阵、所述区域词向量矩阵和所述第二权重矩阵生成所述组合区域词向量矩阵；所述组合区域词向量矩阵中包括所述至少两个维度的区域词向量。
根据权利要求11至13任一项所述的装置，其中，所述区域词向量组合模块，还用于：

根据用于生成组合区域词向量的第三权重矩阵确定各个所述区域词向量对应的至少两个预测向量；

确定各个所述区域词向量对应的至少两个先验概率对数；根据所述先验概率对数确定各个所述区域词向量对应的耦合系数；基于所述耦合系数和所述预测向量生成至少两个维度的候选组合区域词向量；

再次从所述确定各个所述区域词向量对应的至少两个先验概率对数的步骤开始执行，对所述候选组合区域词向量进行迭代计算，直至符合预设迭代条件时停止迭代，将停止迭代时的至少两个维度的候选组合区域词向量确定为所述至少两个维度的组合区域词向量。
根据权利要求16所述的装置，其中，所述区域词向量组合模块，还用于：

确定各个所述候选组合区域词向量与对应的各个所述预测向量间的标量积；

将各个所述标量积与对应的所述先验概率对数进行加和，得到重新确定的各个所述区域词向量对应的先验概率对数。
根据权利要求11至13任一项所述的装置，其中，所述聚集变换处理模块，还用于：

基于前馈神经网络对各个所述组合区域词向量进行变换，得到变换后的组合区域词向量；

将各个变换后的组合区域词向量进行拼接，得到拼接后的词向量；

对拼接后的词向量进行线性变换，得到所述目标词向量对应的聚集词向量。
根据权利要求18所述的装置，其中，所述聚集变换处理模块，还用于：

根据第四权重矩阵和第一偏置向量对各个所述组合区域词向量进行线性变换，得到各个组合区域词向量对应的临时词向量；

分别选取各个所述临时词向量与向量阈值中的最大向量值；

根据第五权重矩阵和第二偏置向量对各个所述最大向量值分别进行线性变换，得到所述变换后的组合区域词向量。
根据权利要求11至13任一项所述的装置，其中，所述聚集词向量包括第一聚集词向量和第二聚集词向量，所述第一聚集词向量与所述第二聚集词向量不同；

所述目标隐状态生成模块，还用于：

基于所述第一聚集词向量和对应的第一激活函数确定所述目标词向量对应的候选隐状态；

基于所述第二聚集词向量和对应的第二激活函数确定所述目标词向量对应的门控参数；

根据所述候选隐状态、所述门控参数和上一时刻的历史词向量的历史隐状态生成所述目标词向量对应的目标隐状态。
一种计算机可读存储介质，其中，计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。
一种计算机设备，其中，计算机设备中包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。