WO2020237519A1

WO2020237519A1 - 识别方法、装置、设备以及存储介质

Info

Publication number: WO2020237519A1
Application number: PCT/CN2019/088960
Authority: WO
Inventors: 邹文斌; 王振楠; 徐晨
Original assignee: 深圳大学
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2020-12-03

Abstract

本发明提供一种识别方法、装置、设备以及存储介质，该方法包括：获取待识别对象；利用神经网络训练所述待识别对象，以输出特征向量；其中，所述神经网络包括输入层、中间层及输出层；所述中间层中权重向量与前馈向量的内积运算与前馈向量在权重向量的垂直方向的投影相关；根据所述特征向量实现对待识别对象的识别。本发明提供的识别方法中，神经网络中间层中权重向量与前馈向量的内积运算与前馈向量在权重向量的垂直方向的投影相关，使得权重向量的局部方向梯度的模长和夹角无关，使得神经网络中不存在权重向量的局部方向更新的阻碍，提升了神经网络性能，使识别精度更高。

Description

识别方法、装置、设备以及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种识别方法、装置、设备以及存储介质。

背景技术

基于神经网络的模型，如前馈神经网络、卷积神经网络和递归神经网络，在很多任务上，都取得了卓越的性能，如计算机视觉、自然语言处理等。目前，这些模型依赖于基于梯度的优化或训练。因此，向量相乘作为神经网络的最基本操作之一，其梯度的变化对神经网络的优化有很大的影响。

在神经网络中，一般都使用向量内积(Inner Product)这种向量相乘的算法。以任意维空间下的权重向量w和前馈向量x(也就是传到这一层的输入向量)为例，以P代表向量内积，则有：

P＝w ^Tx (1)

其中，* ^T表示向量*的转置向量。那么P对w的局部梯度就是前馈向量x。图1为权重向量w的局部梯度的正交分解，如图1所示，把向量x做正交分解为沿着权重向量w的投影向量(Vector Projection)Px和垂直权重向量w的背离向量(Vector Rejection)Rx。由于投影向量Px平行于权重向量w，那么Px改变的是权重向量w的模长，称之为w的模长梯度；而Rx垂直于权重向量w，那么Rx改变的是权重向量w的方向，称之为w的方向梯度。

当权重向量w和前馈向量x的夹角越来越接近于0或者π时，则Rx的模长越来越小，也就是权重向量w的方向梯度越来越小。这会直接对权重向量w的方向的更新造成一定的困难。

技术问题

本发明提供一种识别方法、装置、设备以及存储介质，以解决现有的权重向量w和前馈向量x的内积仅与投影向量Px有关，造成权重向量w的方向的无法更新的技术问题。

技术解决方案

第一方面，本发明提供一种识别方法，包括：

获取待识别对象；

利用神经网络训练所述待识别对象，以输出特征向量；其中，所述神经网络包括输入层、中间层及输出层；所述中间层中权重向量与前馈向量的内积运算与前馈向量在权重向量的垂直方向的投影相关；

根据所述特征向量实现对待识别对象的识别。

可选地，所述两个向量的内积运算具体为：

PR(w，x＝||w|| ₂[ |sinθ|||P _x|| ₂sign(cosθ)+ cosθ(||x|| ₂-||R _x|| ₂)]

其中，w和x分别表示权重向量与前馈向量，θ为向量w和向量x之间的夹角，‖ ‖ ₂表示向量的模数， *表示将*从神经网络模型中分离。

可选地，所述两个向量的内积运算具体为：

其中，* ^T表示向量*的转置向量。

可选地，所述待识别对象为图片，以利用所述神经网络对所述图片进行训练获得对所述图片的识别结果。

可选地，所述特征向量为图片的像素特征信息。

可选地，所述待识别对象为语音，以利用所述神经网络对所述语音进行训练获得对所述语音的识别结果。

可选地，所述特征向量为语音的词语特征信息。

第二方面，本发明提供一种识别装置，包括：

获取模块，用于获取待识别对象；

训练模块，用于利用神经网络训练所述待识别对象，以输出特征向量；其中，所述神经网络包括输入层、中间层及输出层；所述中间层中两个向量的内积运算与其中一个向量在另一个向量的垂直方向的投影相关；

识别模块，用于根据所述特征向量实现对待识别对象的识别。

可选地，训练模块具体包括：

其中，* ^T表示向量*的转置向量。

可选地，所述待识别对象为图片。

可选地，所述特征向量为图片的像素特征信息。

可选地，所述待识别对象为语句。

可选地，所述特征向量为语句的词语特征信息。

第三方面，本发明提供一种电子设备，包括：至少一个处理器和存储器；

其中，所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行第一方面及可选方案所述的识别方法。

第三方面，本发明提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现第一方面及可选方案所述的识别方法。

有益效果

本发明提供一种识别方法、装置、设备以及存储介质，在上述识别方法中，利用神经网络训练所述待识别对象，以输出特征向量；其中，神经网络中间层中权重向量与前馈向量的内积运算与前馈向量在权重向量的垂直方向的投影相关，使得权重向量w的局部方向梯度的模长和夹角θ无关，也就是不管夹角为何值，w的局部方向梯度的模长都是前馈向量x的模长||x|| ₂；而||x|| ₂一般都大于||Rx||，除非夹角是π/2或3π/2(这种情况几乎不可能)时，二者相等。所以，相比传统的向量内积，本发明提供的识别算法中神经网络不存在权重向量w的局部方向更新的阻碍，提升了神经网络性能，使识别精度更高。

附图说明

图1为权重向量w的局部梯度的正交分解图；

图2为本发明根据一示例性实施例示出的识别方法的流程示意图；

图3为本发明提出的权重向量w的局部梯度的正交分解图；

图4为本发明根据一示例性实施例示出的识别装置的流程示意图；

图5为本发明根据一示例性实施例示出的电子设备的结构示意图。

本发明的实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在欧式空间中，现有的向量内积还有另外一种几何定义：

P(w，x)＝w ^Tx＝||w|| ₂||x|| ₂cosθ (2)

即，两个向量的模长和二者夹角的余弦的乘积。

由于，向量x在w上的投影向量Px的模长为：

||P _x|| ₂＝||x|| ₂|cosθ| (3)

所以，公式(2)可以写成：

其中，sign(*)表示*的符号。从公式(4)中，可以看出，传统的向量内积只包含向量x在向量w上的投影向量Px信息，而没有包含向量x背离向量w的背离向量Rx的信息。因此，在欧式空间中，向量内积又称为投影积(projection product)。

向量内积对权重向量w的局部梯度如下：

其中，Px平行于w，是其模长梯度；Rx垂直于w，是其方向梯度。方向梯度Rx会随着夹角θ的改变而改变，这会对优化造成一定的困难。

图2为本发明根据一示例性实施例示出的识别方法的流程示意图。如图2所示，本实施例提供一种识别方法，包括：

S101、获取待识别对象。

更具体地，在本实施例中，该识别方法可以应用于计算机视觉、自然语音处理、推荐系统等人工智能领域。

其中，计算机视觉领域包含：图像识别、视频分类、目标检测、目标跟踪、视觉显著性分析、图像及视频描述、人脸识别、视觉问答、行为理解、异常行为检测等技术领域；在视频监控、机器人、智能驾驶、无人机等应用领域。在计算机视觉领域，待识别对象为图片，可以通过摄像头采集图片信息，可以采用其他现有技术采集图片信息，此处不再赘述。

自然语言处理领域包括：机器翻译、语音识别、词性标注、自然语言生成、文本分类、信息检索与抽取、问答系统、自动摘要等等。在自然语音处理领域，待识别对象为语句信息，用户可以通过输入界面输入语句信息，以采集待识别的语句信息，也可以采用其他的现有技术采集语句信息，此处不再赘述。

上述待识别对象可以为图片，该识别方法用于图片识别，进而应用于计算机机器视觉领域。上述待识别对象也可以为语音，则该识别方法用于语音识别，进而用于自然语音处理领域。

S102、利用神经网络训练所述待识别对象，以输出特征向量。

更具体地，神经网络包括输入层、中间层及输出层；中间层中权重向量与前馈向量的内积运算与前馈向量在权重向量的垂直方向的投影相关。

权重向量与前馈向量的内积运算具体为：

PR(w，x＝||w|| ₂[ |sinθ|||P _x|| ₂sign(cosθ)+ cosθ(||x|| ₂-||R _x|| ₂)]＝||w|| ₂||x|| ₂[ |sinθ|cosθ+ cosθ(1-|sinθ|)] (6)

由图1及直角三角形性质可轻易得出，如下公式

||P _x|| ₂＝||x|| ₂|cosθ|

||R _x|| ₂＝||x|| ₂|sinθ|

在公式(6)中， *表示将*从神经网络模型中分离，在这里，分离的意思是在计算梯度时，将*看做常数，而不对*求导数。

可以看出，本发明提出的这种向量相乘的算法，既利用了向量x在向量w上的投影向量Px信息，也利用了向量x背离向量w的背离向量Rx的信息。因此称为投影背离积(Projection and Rejection Product，简称PR Product)。

在神经网络的前向传播时，公式(6)和公式(2)相同，不再推导投影背离积对权重向量w的局部梯度。在反向传播时，投影背离积对权重向量w的局部梯度推导如下：

其中，

M _w表示权重向量w的投影矩阵，这是矩阵论中的基本知识，其性质是：M _wx＝P _x。E _rx是向量R _x的单位向量。P _x平行于w，是w的模长梯度，这和传统的向量内积是一样的；||x|| ₂E _rx垂直于w，是w的方向梯度。

图3为本发明提出的权重向量w的局部梯度的正交分解图。如图3所示，其中，||*|| ₂表示向量*的模长，E _rx表示沿着向量Rx的单位向量(方向和Rx一致，模长为1的向量)。该方向梯度不随夹角θ的改变而改变，和现有技术中向量内积对w的方向梯度相比，二者方向一致，但投影背离积对w的方向梯度的模长总比现有技术中向量内积的要大，且恒等于前馈向量x的模长||x|| ₂，使得对w方向的更新不会产生阻碍。

由于神经网络中，θ不能直接得到，因此不能依赖公式(6)直接进行两个向量的投影背离积的运算。由公式(2)可得：

cosθ＝w ^Tx/‖w‖ ₂‖x‖ ₂ (8)

由勾股定理可得：

将公式(8)、(9)代入公式(6)，可得到投影背离积的实施公式：

同样， *表示将*从神经网络模型中分离，也就是在反向传播计算梯度时，将*看做常数。

只要按照公式(10)进行的向量相乘的操作，不论公式(10)中各组分的计算顺序，都属于本专利的保护范围。不论什么类型的神经网络，如前馈神经网络、卷积神经网络、递归神经网络，都可以使用本发明提出的投影背离积。

当待识别对象为图片时，将图片的像素信息输入至上述神经网络中，经过上述神经网络处理后，输出特征向量。上述特征向量中包含有像素信息，可以根据上述特征向量获得图片的识别结果。

当待识别对象为语音时，将语音的词语信息输入至上述神经网络中，经过上述神经网络处理后，输出特征向量。上述特征向量中包含有词语信息，可根据上述特征向量获得语音的识别结果。

S103、根据所述特征向量实现对待识别对象的识别。

更具体地，当待识别对象为图片时，特征向量为图片的像素特征信息，根据像素特征信息实现对待识别对象的识别。

当待识别对象为语句，特征向量为语句的词语特征信息，根据词语特征信息实现对待识别对象的识别。

在本实施例提供的识别方法中，利用投影背离积进行两个向量运算，在原理上的优势是：w的局部方向梯度的模长和夹角无关，都是前馈向量x的模长||x||2；而||x||2一般都大于||Rx||，除非夹角是π/2或3π/2(这种情况几乎不可能)时，二者相等。所以，相比传统的向量内积，这种算法不会阻碍对权重向量w的方向的更新。

在应用中的优势，在前馈神经网络、卷积神经网络和递归神经网络中使用本发明提出的投影背离积，在多种任务和多个数据集上的实验表明：相比于传统的向量内积，本发明提出的投影背离积可以鲁棒地提高神经网络模型的性能。

图4为本发明根据一示例性实施例示出的识别装置的流程示意图。如图4所示，本实施例提供一种识别装置，包括：

获取模块201，用于获取待识别对象；

训练模块202，用于利用神经网络训练所述待识别对象，以输出特征向量；其中，所述神经网络包括输入层、中间层及输出层；所述中间层中两个向量的内积运算与其中一个向量在另一个向量的垂直方向的投影相关；

识别模块203，用于根据所述特征向量实现对待识别对象的识别。

可选地，训练模块202具体包括：

其中，* ^T表示向量*的转置向量。

可选地，所述待识别对象为图片。

可选地，所述特征向量为图片的像素特征信息。

可选地，所述待识别对象为语句。

可选地，所述特征向量为语句的词语特征信息。

图5为本发明根据一示例性实施例示出的电子设备的结构示意图。如图2所示，本实施例的电子设备300包括：处理器301以及存储器302。

存储器302，用于存储计算机执行指令；

处理器301，用于执行存储器存储的计算机执行指令，以实现上述实施例中接收设备所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。

可选的，存储器302既可以是独立的，也可以跟处理器301集成在一起。

当存储器302独立设置时，该电子设备300还包括总线303，用于连接所述存储器302和处理器301。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现上述的识别方法。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

一种识别方法，其特征在于，包括：

获取待识别对象；

利用神经网络训练所述待识别对象，以输出特征向量；其中，所述神经网络包括输入层、中间层及输出层；所述中间层中权重向量与前馈向量的内积运算与前馈向量在权重向量的垂直方向的投影相关；

根据所述特征向量实现对待识别对象的识别。
根据权利要求1所述的方法，其特征在于，所述权重向量与前馈向量的内积运算具体为：

PR(w，x＝||w|| ₂[ |sinθ|||P _x|| ₂sign(cosθ)+ cosθ(||x|| ₂-||R _x|| ₂)]

其中，w和x分别表示权重向量与前馈向量，θ为向量w和向量x之间的夹角，‖ ‖ ₂表示向量的模数， *表示将*从神经网络模型中分离。
根据权利要求2所述的方法，其特征在于，所述两个向量的内积运算具体为：

其中，* ^T表示向量*的转置向量。
根据权利要求1至3任一项所述的方法，其特征在于，所述待识别对象为图片，以利用所述神经网络对所述图片进行训练获得对所述图片的识别结果。
根据权利要求4所述的方法，其特征在于，所述特征向量为图片的像素特征信息。
根据权利要求1至3任一项所述的方法，其特征在于，所述待识别对象为语音，以利用所述神经网络对所述语音进行训练获得对所述语音的识别结果。
根据权利要求4所述的方法，其特征在于，所述特征向量为语音的词语特征信息。
一种识别装置，其特征在于，包括：

获取模块，用于获取待识别对象；

训练模块，用于利用神经网络训练所述待识别对象，以输出特征向量；其中，所述神经网络包括输入层、中间层及输出层；所述中间层中两个向量的内积运算与其中一个向量在另一个向量的垂直方向的投影相关；

识别模块，用于根据所述特征向量实现对待识别对象的识别。
一种电子设备，其特征在于，包括：至少一个处理器和存储器；

其中，所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至7任一项所述的识别方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至7任一项所述的识别方法。