WO2021007919A1

WO2021007919A1 - 一种基于自动寻址和递归信息整合的内存网络方法

Info

Publication number: WO2021007919A1
Application number: PCT/CN2019/101806
Authority: WO
Inventors: 李革; 李章恒; 钟家兴; 黄靖佳; 张涛
Original assignee: 北京大学深圳研究生院
Priority date: 2019-07-15
Filing date: 2019-08-21
Publication date: 2021-01-21
Also published as: US20220138525A1; CN110348567B; CN110348567A

Abstract

一种基于自动寻址和递归信息整合的内存网络方法。该方法基于自动寻址和递归信息整合的内存神经网络框架，是一种高效和轻量级的内存网络方法，通过时间和空间复杂度较低的自动寻址操作对内存进行读写，并通过一种新颖的计算单元对内存信息进行有效利用，整个框架具有高效、快速、通用性强的特点，适用于各种时序处理任务，并表现出超越传统LSTM和之前的内存网络的性能。

Description

一种基于自动寻址和递归信息整合的内存网络方法

技术领域

本发明属于深度学习领域，涉及递归神经网络和内存神经网络，更具体地涉及一种基于自动寻址和递归信息整合的内存网络方法。

背景技术

在深度学习技术中，递归神经网络(RNN)是一种典型的用于处理时序任务的神经网络，其代表性框架如长短期记忆网络(LSTM),门控循环单元(GRU)具有良好的时序建模能力，被应用于各种实际场景下的时序任务，例如语音识别，文本推理和视频分析。

然而，目前典型的递归神经网络都面临以下两个问题：

一、训练时的梯度消失和梯度爆炸问题。在训练的时间步较长的情况下，容易发生梯度的累乘导致的梯度过小(接近于0)或者过大的情况(接近无穷)，导致网络的训练无法收敛。

二、RNN在前后时间步只传递一个维度有限的隐状态，因此对历史信息的记忆能力有限。

基于上述两点问题，相关研究借鉴冯诺依曼架构的思想，提出了内存增强的递归神经网络，即将RNN的每个时间步产生的信息显式地存储在一个内存矩阵中，并通过学习可训练的读写方式，在每个时间步对内存进行读写。这种内存机制能够明显解决上述两种RNN面临的问题：

一、梯度在训练时可直接通过内存传播到过去所需的某个时间步，避免了梯度累乘，因此可缓解梯度消失和爆炸问题。

二、历史信息可直接被存储在内存矩阵中，大大增强了网络对历史信息的记忆能力。

然而，此前的内存神经网络存在两点不足：

一、内存读写所依赖的寻址方式为基于内容寻址和基于位置寻址，这样的寻址方式对内存消耗较高，其空间复杂度与整个内存矩阵的尺寸成正比，由于操作复杂，其速度也较慢。

二、对读到的内存信息和上一个时间步传来的隐状态信息进行综合计算的处理单元只是简单地复用LSTM的计算步骤，导致无法有效利用内存信息。

因此，当前的内存神经网络具有速度、内存消耗、内存信息利用效率等方面的问题。

发明的公开

为了克服上述用于增强RNN能力的内存神经网络的不足，在考虑计算复杂度的条件下，进一步改善内存神经网络的压缩性能，本发明提供了一种基于自动寻址和递归信息整合的内存网络框架。

本发明的基于自动寻址和递归信息整合的内存网络方法，包括如下步骤：

1)使用自动寻址对内存矩阵进行读操作，直接利用递归神经网络(RNN)在不同时间步之间传递的隐状态h _t-1对历史的内存寻址信息进行编码，结合当前的输入x _t对内存进行寻址；

2)使用递归信息整合的计算单元对隐状态h _t-1、内存信息r _t和输入x _t进行综合计算：

公式(1)中计算的两个门

分别用于逐元素地控制h _t-1和r _t的信息流入，即公式(2)、(3)的含义，其后复用长短期记忆网络(LSTM)的信息处理方式进行综合计算，如公式(4)(5)所示，最后，将产生的新隐状态h _t和内存信息r _t分别用公式(4)中计算的两个输出门进行信息控制后并连接后输出；

3)对内存的写操作：

将该时刻产生的新的隐状态h _t作为需要记忆的信息，写入内存；

4)进入下一个时间步：

将h _t传入下一个时间步，接收输入x _t+1,回到步骤1)循环执行上述步骤。

优选的，自动寻址方法具体为将h _t-1与x _t连接起来，并送入一个全连接层，得到一个N维的嵌入，嵌入被认为是一个未归一化的内存寻址概率，并用gumbel-softmax将该概率采样成一个独热向量(one-hot vetor)，并读出内存中对应该矢量中元素为1的位置的D维的条目r _t。

优选的，步骤3)中写入内存的写入位置为步骤1)中使用独热向量读出r _t的位置。

优选的，自动寻址方法仅使用h _t-1与x _t进行内存寻址，并使用gumbel-softmax函数对未归一化的概率矢量进行归一化和独热采样。

优选的，递归信息整合的计算单元，相比LSTM的4个门，新增了3个门

和

分别用于控制h _t-1和r _t的信息流入，以及r _t的信息直接输出。

本发明的方法具有如下优点：

本发明方法是基于自动寻址和递归信息整合的内存神经网络框架，是一种高效和轻量级的内存网络方法，通过时间和空间复杂度较低的自动寻址操作对内存进行读写，并通过一种新颖的计算单元对内存信息进行有效利用，整个框架具有高效、快速、通用性强的特点，适用于各种时序处理任务，并表现出超越传统LSTM和之前的内存网络的性能。

附图的简要说明

图1是本发明的基于自动寻址和递归信息整合的内存网络方法的流程框图。

图2是本发明在数组拷贝的任务上的验证集的交叉熵损失下降曲线。

图3是本发明在重复拷贝的任务上的验证集的交叉熵损失下降曲线。

图4是本发明在相关召回的任务上的验证集的交叉熵损失下降曲线。

图5是本发明在优先级排序的任务上的验证集的交叉熵损失下降曲线。

实现本发明的最佳方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供了一种基于自动寻址和递归信息整合的内存网络方法，该方法是基于自动寻址和递归信息整合的内存神经网络框架，通过时间和空间复杂度较低的自动寻址操作对内存进行读写，并通过一种新颖的计算单元对内存信息进行有效利用，整个框架具有高效、快速、通用性强的特点，适用于各种时序处理任务，并表现出超越传统LSTM和之前的内存网络的性能。

本发明的方法针对时序任务提出一种新的基于自动寻址和递归信息整合的内存网络方法，即，一种内存循环神经网络框架；图1是本发明的内存网络方法的流程框图，具体实施方式如下。

内存循环神经网络框架的内存矩阵为1个N×D维的矩阵，其中N为内存的条目数量，D等于RNN隐状态的维度，在处理标准的RNN输入序列时包含如下计算步骤：

1)使用自动寻址对内存矩阵进行读操作：

本内存循环神经网络框架的自动寻址方法即直接利用RNN在不同时间步之间传递的隐状态h _t-1对历史的内存寻址信息进行编码，结合当前的输入x _t对内存进行寻址。具体为将h _t-1与x _t连接起来，并送入一个全连接层(FC)，得到一个N维的嵌入向量，该嵌入向量被认为是一个未归一化的内存寻址概率，并用研究者提出的一种gumbel-softmax函数将该概率采样成一个独热向量，并读出内存中对应该矢量中元素为1的位置的D维的内存信息r _t。该寻址方法由于操作简单，而运行速度较快，且空间复杂度仅为O(d _h+d _x)，相较于之前的内存网络有大幅减小。该步骤如图1中“读”字样框出的部分流程所示。

2)使用递归信息整合的计算单元对隐状态h _t-1,内存信息r _t,输入x _t进行综合计算:

公式(1)中计算的两个门

分别用于逐元素地控制h _t-1和r _t的信息流入，即公式(2)、(3)的含义。其后复用LSTM的信息处理方式进行综合计算，如公式(4)(5)所示，最后，将产生的新隐状态h _t和内存信息r _t分别用公式(4)中计算的两个输出门进行信息控制后并连接后输出。该计算单元相比直接复用LSTM，首先过滤了输入h _t-1和r _t中对该时间步不需要的信息，并在最后多用了一个输出门控制r _t中用于输出的信息。这样，可以大大增加对内存信息读取的容错性和灵活性。

递归信息整合的计算单元，相比LSTM的4个门，新增了3个门

和

分别用于控制h _t-1和r _t的信息流入，以及r _t的信息直接输出。该步骤即图1中“ARMIN(Auto-addressing and Recurrent Memory Integration Network，自动寻址和递归信息整合网络)细胞”字样所在框图内发生的计算过程。

3)对内存的写操作：

将该时刻产生的新的隐状态h _t作为需要记忆的信息，写入内存。写入的位置为操作1)中使用独热向量读出r _t的位置。该步骤如图1中“写”字样框出的部分流程所示。

4)进入下一个时间步：

将h _t传入下一个时间步，接收输入x _t+1,回到1)步循环执行上述步骤。如图1中“上个时间步”和“下个时间步”及箭头所示，显示了网络的循环处理过程。

以下结合一套算法任务说明本发明点云属性压缩方法所提供的框架的效果。具体上这套算法任务分为：a)数组拷贝：在前50个时间步将随机生成的50个6 比特二进制数字输入递归网络，并要求网络在后50个时间步按照相同顺序输出之前输入的目标数组，在以下所有实验中，我们使用交叉熵损失测量实际输出数组与目标数组的偏离程度，偏离程度越低，则交叉熵损失越低，说明该递归网络利用历史内存信息完成任务的能力越强；其交叉熵损失下降曲线如图2所示；b)重复拷贝：向递归网络输入长度为1～10的数组，拷贝输出该数组1～10次，其交叉熵损失下降曲线如图3所示；c)相关召回：向递归网络输入2～6个(键,值)对，并随后输入其中一个键,要求输出该键对应的值，交叉熵损失下降曲线如图4所示；d)优先级排序：向递归网络随机输入40个(键，值)对，按照键的优先级降序输出前30个键最高的值，交叉熵损失下降曲线如图5所示。采用输出二进制序列与标准答案的交叉熵作为任务损失评估模型性能，损失越低说明网络性能越好。本内存循环神经网络框架与此前的内存网络，即图2～5中所示的TARDIS(Temporal Automatic Relation Discovery in Sequences，时序自动关系发现网络)、AwTA(ARMIN with TARDIS Addressing，基于TARDIS寻址方式的ARMIN)、SAM(Sparse Access Memory，稀疏访问内存)、DNC(Differentiable Neural Computer,可微分神经计算机)、NTM(Neural Turing Machine，神经图灵机)等框架都做了对比。

从图2至图5中可以看出，本框架在4个任务上都表现出损失下降较快，最终收敛损失较低的特点，所需迭代数较少，说明其对训练样本利用率较高。这表现出如前所述的本框架的内存寻址机制的学习速度快，以及对内存信息利用效率高的优点。此外，该框架的实际运行速度为对比框架中性能较好的NTM的3～4倍。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

工业应用性

本发明适用于深度学习领域，特别适用于递归神经网络和内存神经网络，本发明基于自动寻址和递归信息整合的内存神经网络框架，通过时间和空间复杂度较低的自动寻址操作对内存进行读写，并通过一种新颖的计算单元对内存信息进行有效利用，整个框架具有高效、快速、通用性强的特点，适用于各种时序处理任务，并表现出超越传统LSTM和之前的内存网络的性能。

Claims

一种基于自动寻址和递归信息整合的内存网络方法，包括如下步骤：

1)使用自动寻址对内存矩阵进行读操作，直接利用递归神经网络(RNN)在不同时间步之间传递的隐状态h _t-1对历史的内存寻址信息进行编码，结合当前的输入x _t对内存进行寻址；

2)使用递归信息整合的计算单元对隐状态ht-1、内存信息rt和输入xt进行综合计算：

公式(1)中计算的两个门
分别用于逐元素地控制h _t-1和r _t的信息流入，即公式(2)、(3)的含义，其后复用长短期记忆网络(LSTM)的信息处理方式进行综合计算，如公式(4)(5)所示，最后，将产生的新隐状态h _t和内存信息r _t分别用公式(4)中计算的两个输出门进行信息控制后并连接后输出；

3)对内存的写操作：

将该时刻产生的新的隐状态h _t作为需要记忆的信息，写入内存；

4)进入下一个时间步：

将h _t传入下一个时间步，接收输入x _t+1,回到步骤1)循环执行上述步骤。
根据权利要求1所述的内存网络方法，其特征在于，所述自动寻址方法具体为将h _t-1与x _t连接起来，并送入一个全连接层，得到一个N维的嵌入向量，所述嵌入向量认为是一个未归一化的内存寻址概率，并用gumbel-softmax函数将该概率采样成一个独热向量，并读出内存中对应该矢量中元素为1的位置的D维的内存信息r _t。
根据权利要求2所述的内存网络方法，其特征在于，步骤3)中写入内存的写入位置为步骤1)中使用独热向量读出r _t的位置。
根据权利要求1所述的内存网络方法，其特征在于，所述自动寻址方法仅使用h _t-1与x _t进行内存寻址，并使用gumbel-softmax函数对未归一化的概率矢量进行归一化和独热采样。
根据权利要求1所述的内存网络方法，其特征在于，所述递归信息整合的计算单元，相比长短期记忆网络(LSTM)的4个门，新增了3个门
和
分别用于控制h _t-1和r _t的信息流入，以及r _t的信息直接输出。