WO2022022695A1

WO2022022695A1 - 图像识别方法和装置

Info

Publication number: WO2022022695A1
Application number: PCT/CN2021/109680
Authority: WO
Inventors: 车慧敏; 李志刚; 杨雨
Original assignee: 华为技术有限公司
Priority date: 2020-07-31
Filing date: 2021-07-30
Publication date: 2022-02-03
Also published as: CN112084849A

Abstract

本申请公开了图像识别方法和装置，涉及神经网络技术领域，有助于提高图像识别准确率。该方法包括：获取待识别图像；使用第一神经网络对待识别图像进行特征提取，得到第一特征图；使用第二神经网络对第一特征图进行特征提取，得到第二特征图，并将第二特征图与第一特征图进行点乘，得到第三特征图；其中，第三特征图表示将待识别图像的特征变换到主方向后得到的特征图；基于第三特征图获得待识别图像的第一得分图；基于第三特征图和第一得分图，对待识别图像进行识别。

Description

图像识别方法和装置

本申请要求于2020年07月31日提交国家知识产权局、申请号为202010761239.6、申请名称为“图像识别方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及神经网络技术领域，尤其涉及图像识别方法和装置。

背景技术

随着技术的发展，市面上出现了一些具有读绘本功能的幼教产品机器人(简称绘本机器人)。绘本机器人在阅读绘本之前，需要准确识别绘本。具体的，机器人先通过摄像头采集到绘本的某一页的图像，再对该图像进行局部特征检测，然后，将检测结果与数据库中预存的绘本图像模板进行匹配，得到与该检测结果匹配度最高的图像，并将与该检测结果匹配度最高的图像作为待阅读图像。后续，绘本机器人阅读该待阅读图像。

上述识别绘本的方法，对绘本的摆放位置要求较高。例如，要求绘本平摊展开放在水平面上，该水平面与绘本机器人所在的水平面一致；还要求绘本与绘本机器人之间的距离、角度满足一定要求。另外，还要求绘本机器人站立不倒等。

然而，在实际应用中，年幼的孩子通常很难按照上述要求摆放绘本，这会导致绘本机器人对识别绘本的准确率会大幅度降低，甚至无法识别。

发明内容

本申请实施例提供了图像识别方法和装置，有助于提高图像识别准确率。

为了达到上述目的，本申请提供了以下技术方案：

第一方面，提供了一种图像识别方法，包括：首先，获取待识别图像。然后，使用第一神经网络对待识别图像进行特征提取，得到第一特征图。接着，使用第二神经网络对第一特征图进行特征提取，得到第二特征图，并将第二特征图与第一特征图进行点乘，得到第三特征图；其中，第三特征图表示将待识别图像的特征变换到主方向后得到的特征图。并且，基于第三特征图获得待识别图像的第一得分图。最后，基于第三特征图和第一得分图，对待识别图像进行识别。该技术方案中，使用第二神经网络对第一特征图进行特征提取，得到第二特征图，并将第二特征图与第一特征图进行点乘，得到第三特征图，有助于构建具有旋转不变性特征的网络，基于该网络进行图像识别，有助于提高图像识别的精确度。

在一种可能的设计中，使用第一神经网络对待识别图像进行特征提取，得到第一特征图，包括：使用第一神经网络对待识别图像进行至少一层卷积操作，得到第一特征图。

在一种可能的设计中，使用第二神经网络对第一特征图进行特征提取，得到第二特征图，包括：使用第二神经网络对第一特征图执行至少一层卷积操作，得到第二特征图。该可能的设计，通过至少一层卷积操作对第一特征图进行特征提取，得到第二特征图，操作简单。

在一种可能的设计中，使用第二神经网络对第一特征图进行特征提取，得到第二特征图，包括：使用第二神经网络对第一特征图执行至少一层卷积操作；对执行卷积操作后的第一特征图执行至少一层池化操作和/或全连接操作，得到第二特征图。该可能的设计，通过至少一层卷积操作，以及至少一层池化操作和/或全连接操作对第一特征图进行特征提取，有助于实现更复杂的特征提取，从而有助于使得特征提取的结果更精准，进而有助于提高图像识别的精确度。

在一种可能的设计中，第三特征图的尺寸是M1*N1*P1，第一得分图的尺寸是M1*N1，P1是特征方向维度的尺寸，M1*N1是垂直于特征方向维度的尺寸，M1、N1和P1均是正整数。该可能的设计，直接使用第三特征图和第一得分图对待识别图像进行识别。该方案实现简单。

在一种可能的设计中，第三特征图的尺寸是M2*N2*P2，第一得分图的尺寸是M1*N1，P2是特征方向维度的尺寸，M1、N1、P1、M2、N2和P2均是正整数。基于第三特征图和第一得分图，对待识别图像进行识别，包括：对第三特征图进行特征提取，得到第四特征图；其中，第四特征图的尺寸是M1*N1*P1；P1是特征方向维度的尺寸，P1是正整数；基于第四特征图和第一得分图，对待识别图像进行识别；其中，第一得分图的尺寸是M1*N1。基于该可选的实现方式，使用第一得分图和对第三特征图进行特征提取后得到的特征图对待识别图像进行识别，有助于改变特征图的尺寸，由于通常情况下特征图的尺寸越大，图像识别过程效率越低，而特征图的尺寸越大，该特征图越能精确表示待识别图像；因此，改变特征图的尺寸，有助于平衡图像识别过程的效率和精确度，从而提高图像识别过程的整体性能。

在一种可能的设计中，M1*N1＜M2*N2。这样，有助于降低用于图像识别过程的特征图的尺寸，从而降低图像识别过程的处理复杂度，以提高图像识别过程的处理效率。

在一种可能的设计中，基于第三特征图获得待识别图像的第一得分图，包括：使用1通道卷积核，对第三特征图执行卷积操作，得到X个第五特征图；其中，第五特征图的特征方向的尺寸小于第三特征图的特征方向的尺寸；X是大于2的整数；将X个第五特征图的元素加权求和，得到第六特征图；对第六特征图进行特征提取，得到第一得分图。该可能的设计，在获得得分图的过程中，仅对第三特征图的特征方向的尺寸进行了压缩，因此实现简单。

在一种可能的设计中，基于第三特征图获得待识别图像的第一得分图，包括：对第三特征图进行特征提取，得到第七特征图；其中，第三特征图的垂直于特征方向的维度尺寸大于第七特征图的垂直于特征方向的维度尺寸；X是大于2的整数；使用1通道卷积核，对第七特征图执行卷积操作，得到X个第五特征图；将X个第五特征图的元素加权求和，得到第六特征图；对第六特征图进行特征提取，得到第一得分图。该可能的设计，在获得得分图的过程中，对第三特征图的特征方向的尺寸和垂直于特征方向的尺寸均进行了压缩，因此有助于降低图像处理过程的复杂度，从而提高图像识别过程的处理效率。

在一种可能的设计中，待识别图像的尺寸大于第一得分图的尺寸。由于在图像识别过程中所使用的第一得分图的尺寸(假设是a*b)表示该过程所使用的特征图中特征的个数，因此，该可能的设计中，如果待识别图像的特征是稠密特征，则第一得分图对应的特征图为稀疏特征，使用稀疏特征进行图像识别，有助于降低图像处理过程的复杂度，从而提高图像识别过程的处理效率。

第二方面，本申请提供了一种图像识别装置。

在一种可能的设计中，该图像识别装置用于执行上述第一方面提供的任一种方法。本申请可以根据上述第一方面提供的任一种方法，对该图像识别装置进行功能模块的划分。例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。示例性的，本申请可以按照功能将该图像识别装置划分为获取单元、特征提取单元和识别单元等。上述划分的各个功能模块执行的可能的技术方案和有益效果的描述均可以参考上述第一方面或其相应的可能的设计提供的技术方案，此处不再赘述。

在另一种可能的设计中，该图像识别装置包括：存储器和一个或多个处理器，该存储器和处理器耦合。该存储器用于存储计算机指令，该处理器用于调用该计算机指令，以执行如第一方面及其任一种可能的设计方式提供的任一种方法。

第三方面，本申请提供了一种计算机可读存储介质，如计算机非瞬态的可读存储介质。其上储存有计算机程序(或指令)，当该计算机程序(或指令)在图像识别装置上运行时，使得该图像识别装置执行上述第一方面中任一种可能的实现方式提供的任一种方法。

第四方面，本申请提供了一种计算机程序产品，当其在计算机上运行时，使得第一方面中的任一种可能的实现方式提供的任一种方法被执行。

第五方面，本申请提供了一种芯片系统，包括：处理器，处理器用于从存储器中调用并运行该存储器中存储的计算机程序，执行第一方面中的实现方式提供的任一种方法。

可以理解的是，上述提供的任一种图像识别装置、计算机存储介质、计算机程序产品或芯片系统等均可以应用于上文所提供的对应的方法，因此，其所能达到的有益效果可参考对应的方法中的有益效果，此处不再赘述。

在本申请中，上述图像识别装置的名字对设备或功能模块本身不构成限定，在实际实现中，这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本申请类似，属于本申请权利要求及其等同技术的范围之内。

本申请的这些方面或其他方面在以下的描述中会更加简明易懂。

附图说明

图1为可适用于本申请实施例的一种计算机设备的硬件结构示意图；

图2a为本申请实施例提供的一种深度学习网络模型的示意图；

图2b为本申请实施例提供的另一种深度学习网络模型的示意图；

图3为本申请实施例提供的一种第一神经网络的逻辑结构示意图；

图4为本申请实施例提供的一种第二神经网络的逻辑结果示意图；

图5为本申请实施例提供的一种特征图各维度的示意图；

图6为本申请实施例提供的一种获取训练数据的方法的流程示意图；

图7为可适用于本申请实施例的一种参考图像以及对参考图像进行单应性变换后得到样本图像的示意图；

图8为本申请实施例提供的一种参考数据和训练数据之间的关系的示意图；

图9为本申请实施例提供的一种前段网络、对抗网络和孪生网络之间的连接关系示意图；

图10为本申请实施例提供的对前段网络进行训练的方法的流程示意图；

图11为本申请实施例提供的一种对抗网络的逻辑结构示意图；

图12为本申请实施例提供的一种提取网络的逻辑结构示意图；

图13为本申请实施例提供的一种表示网络的逻辑结构示意图；

图14为本申请实施例提供的一种图像识别过程的流程示意图；

图15为本申请实施例提供的另一种图像识别过程的流程示意图；

图16为本申请实施例提供的一种图像识别装置的结构示意图；

图17为本申请实施例提供的一种芯片系统的结构示意图；

图18为本申请实施例提供的一种计算机程序产品的概念性局部视图。

具体实施方式

首先，说明本申请中涉及的部分术语和技术：

特征：即图像特征，可以包括颜色特征、纹理特征等、形状特征以及局部特征点等。

全局特征/局部特征：全局特征是指图像的整体属性，常见的全局特征包括颜色特征、纹理特征和形状特征等。全局特征是使用一个图像的全部特征来代表该图像，这样的特征具有大量的冗余信息。局部特征是指图像的局部属性。局部特征是使用一个图像的局部特征点来代表该图像。每个局部特征点仅包含自身所处图像块的信息，其对图像的全局信息不感知。

特征点(即局部特征点)：在图像处理中，同一个物体或场景，从不同的角度采集多个图像，如果该物体或场景的相同部分能够被识别出来的结果是相同的，那么，称为这些部分具有尺度不变性。具有“尺度不变性的像素点或像素块(即多个像素点构成的像素块)”即为特征点。在一个示例中，如果图像中的一个像素点是其邻域内的极值点(如最大或最小值的点)，则确定该像素点是一个特征点。

图像块(image patch)：图像中的一个局部正方形区域，如4*4像素，8*8像素的图像区域。其中，a*a像素表示宽和高分别是a个像素的正方形区域,a是大于等于1的整数。

单应性变换(homograph)：又称为射影变换。它把一个射影平面上的点(三维齐次矢量)映射到另一个射影平面上。满足Y＝H*X，其中H为3*3的矩阵(又叫做单应性矩阵)，X为源图像中的像素点的位置坐标，Y为映射到的目标图像上对应像素点的位置坐标。在绘本识别中，绘本可看做是一个平面，其对应的几何变换子集为单应性变换，决定变换的单应性矩阵为由旋转、平移、缩放等性质组成的矩阵(如3*3矩阵)。如果一个图像经单应性变换得到另一个图像，则认为这两个图像之间具有单应性变换关系。

梯度方向直方图(histogram of oriented gradient，HOG)：直方图又称质量分布图，是一种统计报告图，由一系列高度不等的纵向条纹或线段表示数据分布情况，一般用横轴表示数据类型，纵轴表示分布情况。梯度方向直方图是用来计算局部图像梯度的方向信息的统计值。

主方向：在一个图像/图像块中，通过计算相邻像素间的梯度方向(即相邻像素的矢量差值的单位向量)，建立梯度方向直方图，梯度方向直方图中的峰值所处梯度即为该图像/图像块的主方向。

卷积神经网络(convolutional neural network，CNN)：是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。

最大池化(max poling)：池化层最直接的目的是降低下一层待处理的数据量。最大池化对某个滤波器抽取到若干特征值，只取得其中最大的池化层作为保留值，其他特征值全部抛弃，值最大代表只保留这些特征中最强的，抛弃其他弱的此类特征。

旋转不变性：在物理学里，假若物理系统的性质跟它在空间的取向无关，则该系统具有旋转不变性。在图像处理中，若图像在平面内任意旋转角度下，特征提取器对其提取的特征几乎不发生变化，则称该特征提取器具有旋转不变性。其中，特征提取器可以是绘本机器人，或绘本机器人中的功能模块，例如神经网络。

损失函数(loss function)：损失函数是用来估量模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y,f(x))来表示，损失函数越小，模型的鲁棒性就越好。一个最佳化问题的目标是将损失函数最小化。一个目标函数通常为一个损失函数本身或者为其负值。当一个目标函数为损失函数的负值时，目标函数的值寻求最大化。

稀疏特征、稠密特征：在局部特征检测中，若记录下图像中的每个像素的位置索引(index)，每个index都应对应一个特征，则稀疏特征是指在index集合中，大多数的index为空，或者说大多数的index无对应的特征。而稠密特征是指，大多数的index不为空，即大多数的index具有其对应的特征描述。

局部特征检测算法：局部特征检测算法包括“提取”和“表示”两个部分。“提取”的目的是判断图像中每个像素点(或图像块)是否是特征点。“表示”即针对所有检测出的特征点，根据其邻域，表示成同一维度下的特征值。通过计算两个特征点的特征值的距离，即可判断两个特征点是否相似，进而可以根据两幅图像中相似特征点的个数或比率，判断两幅图像的相似程度。因此，局部特征检测算法的评判标准为：具有相同/相似区域的两幅图，特征点被成功匹配的匹配准确率。

高单应性变换场景，是指变换前后的特征表示差异非常大的场景(即变换前后所确定的特征点差异非常大)，例如绘本识别场景。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请的实施例中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、 “第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本申请中术语“至少一个”的含义是指一个或多个，本申请中术语“多个”的含义是指两个或两个以上，例如，多个第二报文是指两个或两个以上的第二报文。本文中术语“系统”和“网络”经常可互换使用。

应理解，在本文中对各种所述示例的描述中所使用的术语只是为了描述特定示例，而并非旨在进行限制。如在对各种所述示例的描述和所附权利要求书中所使用的那样，单数形式“一个(“a”，“an”)”和“该”旨在也包括复数形式，除非上下文另外明确地指示。

还应理解，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。术语“和/或”，是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本申请中的字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，在本申请的各个实施例中，各个过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

还应理解，术语“包括”(也称“includes”、“including”、“comprises”和/或“comprising”)当在本说明书中使用时指定存在所陈述的特征、整数、步骤、操作、元素、和/或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、部件、和/或其分组。

还应理解，术语“如果”可被解释为意指“当...时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地，根据上下文，短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。

应理解，说明书通篇中提到的“一个实施例”、“一实施例”、“一种可能的实现方式”意味着与实施例或实现方式有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”、“一种可能的实现方式”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

目前，通常采用如下局部检测算法进行绘本识别：

第一种：基于手工特征方式的局部检测算法，即局部特征点的提取和表示均是基于规则的。如极值点的判断中，需要逐一将每个像素点的像素值其与周围邻域像素点的像素值进行对比。主方向的判断中，需要逐一构建梯度方向直方图等。特征表示时，需要进行归一化、方向矫正等复杂的步骤。而这其中的每个步骤都需要通过实验设定固定的参数。

在判断两幅图像是否局部相似时，若相似区域(即物理上的同一区域在不同拍摄角度下的位置)的几何形变小，则在基于手工的局部特征检测中，其对应的特征变化较小，相对比较容易匹配正确。在绘本识别场景中，针对绘本中的同一页，当绘本所在的位置不同时，绘本机器人扫描到的该页的图像的特征变化较大。而当相似区域发生较大的几何形变时，其极值点的分布变化较大，当局部区域缩小或几何形变较大时，原本是极值点的像素点在手工的规则下可能不再被表示成为极值点，进而无法被确定为特征点，这会导致部分特征点的表示发生偏差，而无法正确匹配。

第二种：基于深度学习的方法的局部检测算法，即神经网络的输入为图像，输出为图像中每个像素点(或像素块)被认为是特征点的得分图(即每个像素点对应其能被标记为局部特征点的可能性，为0-1的概率值)，以及每个像素点(或像素块)对应了特征值的特征图。该方法为非端到端的方法。一方面，该方法中特征的提取仍然依赖于手工特征提取，因此，同样会存在上述问题。另一方面，该神经网络通常是卷积神经网络，而卷积神经网络仅在一定程度上具有旋转不变性，且不会像上述方法一一样，对特征点做旋转和归一化，因此在高单应性变换场景中，变换前后的特征表示差异非常大而导致匹配准确率非常低。

基于此，本申请实施例提供了一种神经网络模型训练方法以及图像识别方法，应用于高单应性变换场景(如绘本识别场景)中。具体的：在模型训练阶段，基于多个图像训练具有旋转不变性的神经网络，更准确地说，训练相比于现有技术的卷积神经网络具有旋转不变性程度更高的神经网络。其中，该多个图像中包括具有单应性变换关系的图像。在图像识别阶段，基于该具有旋转不变性的神经网络对图像进行识别。这样，与现有技术相比，有助于使得变换前后的特征表示差异小，从而提高匹配准确率。

本申请实施例提供的神经网络模型训练方法和图像识别方法可以分别应用于相同或不同的计算机设备中。例如，神经网络模型训练方法可以由服务器或终端等计算机设备执行。图像识别方法可以由终端(如绘本机器人等)执行。本申请实施例对此不进行限定。

如图1所示，为可适用于本申请实施例的一种计算机设备10的硬件结构示意图。

参考图1，计算机设备10包括处理器101、存储器102、输入输出器件103以及总线104。其中，处理器101、存储器102以及输入输出器件103之间可以通过总线104连接。

处理器101是计算机设备10的控制中心，可以是一个通用中央处理单元(central processing unit，CPU)，也可以是其他通用处理器等。其中，通用处理器可以是微处理器或者是任何常规的处理器等。

作为示例，处理器101可以包括一个或多个CPU，例如图1中所示的CPU 0和CPU 1。

存储器102可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

一种可能的实现方式中，存储器101可以独立于处理器101存在。存储器102可以通过总线104与处理器101相连接，用于存储数据、指令或者程序代码。处理器101调用并执行存储器102中存储的指令或程序代码时，能够实现本申请实施例提供的神经网络模型训练方法，和/或图像识别方法。

另一种可能的实现方式中，存储器102也可以和处理器101集成在一起。

输入输出器件103，用于输入样本图像、待识别图像等参数信息，以使处理器101根据输入的参数信息，执行存储器102中的指令以执行本申请实施例提供的神经网络模型训练方法，和/或图像识别方法。通常，输入输出器件103可以是操作盘或触摸屏，或者是其他任意能够输入参数信息的器件，本申请实施例不作限定。

总线104，可以是工业标准体系结构(industry standard architecture，ISA)总线、外部设备互连(peripheral component interconnect，PCI)总线或扩展工业标准体系结构(extended industry standard architecture，EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图1中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

需要指出的是，图1中示出的结构并不构成对该计算机设备10的限定，除图1所示部件之外，该计算机设备10可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

以下，结合附图对本申请实施例提供的技术方案进行说明：

本申请实施例所采用的模型是深度学习网络模型(或神经网络模型，下文中简称网络模型)。如图2a和图2b所示，为本申请实施例提供的两种深度学习网络模型的示意图。

图2a所示的网络模型包括：前段网络41和表示网络42。

图2b所示的网络模型包括：前段网络41、表示网络42和提取网络43。

前段网络41的输入是图像，输出是该图像的第三特征图。其中，第三特征图表示将输入前段41的该图像的特征(如纹理特征等)变换到主方向后得到的特征图。在训练阶段，前段网络41的输入是样本图像。在图像识别阶段，前段网络41的输入是待识别图像。

可选的，前段网络41可以包括第一神经网络411和第二神经网络412。

第一神经网络411用于对输入的图像(即输入图像)进行特征提取，例如，对该输入图像进行至少一层卷积操作，得到第一特征图。第一特征图可以是一个三维张量，该张量中的一个元素对应输入图像中的一个区域，该区域也可以称作是卷积神经网络的感受野(receptive field)。

示例的，如图3所示，为本申请实施例提供的一种第一神经网络411的逻辑结构示意图。其中，第一神经网络411的输入图像的尺寸是H*W*3，输出的第一特征图的尺寸是H/4*W/4*64。第一神经网络411包括4层卷积层(分别标记为conv1-1,conv1-2,conv2-1,conv2-2)。

第二神经网络412用于对第一特征图进行校正，得到第三特征图。可选的，第二神经网络412用于对第一特征图进行特征提取，得到第二特征图，并将第二特征图与第一特征图进行点乘，得到第三特征图。

在一种实现方式中，第二神经网络412具体用于对第一特征图执行至少一层卷积操作，得到第二特征图。

在另一种实现方式中，第二神经网络412具体用于对第一特征图执行至少一层卷积操作，然后对执行卷积操作后的第一特征图执行至少一层池化操作和/或全连接操作，得到第二特征图。示例的，如图4所示，为本申请实施例提供的一种第二神经网络412的逻辑结果示意图。图4是基于图3进行绘制的。第二神经网络412输入的第一特征图的尺寸是H/4*W/4*64，输出的第三特征图的尺寸是H/4*W/4*64。图4所示的第二神经网络412包括2层卷积层、1层全连接层和一层点乘层。该实现方式可以实现更复杂的特征提取，从而有助于使得特征提取的结果更精准，进而有助于提高图像识别的精确度。

基于图2a所示的网络模型：

表示网络42，用于基于第三特征图获得第一得分图。第一得分图是输入前段网络的图像的得分图。其中，第三特征图的尺寸是M ₁*N ₁*P ₁，第一得分图的尺寸是M ₁*N ₁，P ₁是特征方向维度的尺寸，M ₁*N ₁是垂直于特征方向维度的尺寸，M ₁、N ₁和P ₁均是正整数。

如图5所示，为本申请实施例提供的一种特征图各维度的示意图。图5中是以尺寸为H/4*H/4*64的特征图为例进行说明的。在本申请实施例中，该特征图的特征方向的维度尺寸是64，垂直于特征方向的维度是H/4*H/4。其他特征图的各维度的说明与此类似，此处不再一一赘述。

基于图2a所示的网络模型，第二神经网络42输出的第三特征图作为图像识别的过程中所使用的特征图。应用于图像识别阶段时，第一得分图和第三特征图用于识别待识别图像。

结合图2a所示的网络模型和图4所示的第二神经网络412输出的第三特征图的尺寸可知，M ₁*N ₁*P ₁等价于H/4*H/4*64，具体的，M ₁＝H/4，N ₁＝H/4，P ₁＝64。该情况下，第一得分图的尺寸是H/4*H/4。

基于图2b所示的网络模型：

表示网络42，用于基于第三特征图获得第一得分图。第三特征图的尺寸是M ₂*N ₂*P ₂，第一得分图的尺寸是M ₁*N ₁，P ₂是特征方向维度的尺寸，M ₁、N ₁、P ₁、M ₂、N ₂和P ₂均是正整数。可选的，M ₁*N ₁＜M ₂*N ₂。

提取网络43，用于对第三特征图进行特征提取，得到第四特征图。其中，第四特征图的尺寸是M ₁*N ₁*P ₁；P ₁是特征方向维度的尺寸，P ₁是正整数。也就是说，这里的特征提取是为了进一步缩小特征图的垂直于特征方向维度的尺寸，这样，有助于使得后续使用第四特征图进行图像识别时，降低图像识别过程的计算复杂度，从而提高识别效率。

基于图2b所示的网络模型，应用于图像识别阶段时，基于待识别图像获得的第一得分图和第四特征图用于对待识别图像进行识别。下文中的具体示例均是以2b所示的网络模型为例进行说明的，此处统一说明，下文不再赘述。

本申请实施例提供的技术方案包括训练阶段和图像识别阶段，以下分别进行说明：

训练阶段

训练阶段包括获取训练数据阶段和模型训练阶段，以下分别进行说明：

a)、获取训练数据阶段

如图6所示，为本申请实施例提供的一种获取训练数据的方法的流程示意图，该方法的执行主体可以是计算机设备，该方法可以包括以下步骤：

S101：获取参考图像集，参考图像集包括多个参考图像；然后，获取该多个参考图像中的每个参考图像的得分图。

本申请实施例对参考图像集不进行限定。例如，参考图像集可以是现有的数据集，例如，HPatches数据集，具体可以是三维重建数据集等。

由于局部特征检测方法多用于三维建模，即时定位与地图构建(simultaneous localization and mapping，SLAM)等领域，这些领域中很少出现如绘本识别场景的高单应性变换情况，因此，这些领域所使用的训练数据集中通常不包含有高单应性变换情况下的样本图像。由于数据集的构建难度较大，成本较高，因此，在本申请的一些实施例中，基于现有的数据集进行增强，从而获得适用于高单应性变换情况下的样本图像。其中，高单应性变换情况下的样本图像包括：具有单应性变换关系的图像。增强过程可以参考S102～S103。

图像的得分图可以通过矩阵来表征。例如，该矩阵中第i行第j列的元素的取值表示该图像中的第i行第j列的像素点(或像素块)是特征点的概率。其中，i和j均是大于等于0的整数。在一个示例中，如果参考图像集是现有的数据集如HPatches数据集，则参考图像集中的参考图像的得分图可以是现有的数据集如HPatches数据集中相应图像的得分图，这样，可以直接使用现有技术中的图像的得分图，而不需要再通过计算获得，有助于降低计算复杂度。

在本申请的另一些实施例中，可以采用其他方式获得适用于高单应性变换情况下的样本图像，而非基于现有的训练数据集进行增强。相应的，参考图像集中的每个参考图像的得分图还可以通过其他方式获得，本申请实施例对此不进行限定。

S102：将多个参考图像(如每个参考图像)分别作为样本图像，并将该多个参考图像的得分图分别作为相应样本图像的得分图。并且，对多个参考图像(如每个参考图像)分别进行单应性变化，得到多个样本图像。

对参考图像进行单应性变化，具体包括：将参考图像乘以变换矩阵，得到样本图像。其中，单应性变换矩阵可以是预定义的，或者随机生成的。在S102中，对于任意一个参考图像，将该参考图像乘以一个或不同的多个变换矩阵，得到一个或多个样本图像。对于一个参考图像来说，变换矩阵与基于该参考图像得到的样本图像一一对应。

如图7所示，为可适用于本申请实施例的一种参考图像以及对参考图像进行单应性变换后得到样本图像的示意图。其中，图7中的H表示单应性变换时所采用的变换矩阵。

S103：对于基于单应性变换得到的每个样本图像来说，基于该样本图像对应的参考图像(即获得该样本图像时所采用的参考图像)的得分，以及该样本图像对应的变换矩阵(即获得该样本图像时所采用的变换矩阵)，得到该样本图像的得分图。

以下，以对一个参考图像进行单应性变换得到一个样本图像为例，说明样本图像的得分图的获取方式：

首先，将该参考图像标记为D，对该参考图像进行单应性变换时所使用的变换矩阵标记为H，该参考图像中的像素点d _ij(即该参考图像中的第i行第j列的像素点，i和j均是整数)的得分标记为s _ij。将该参考图像中的像素点d _ij乘以单应性变换系数H _i，得到的像素点标记为

的得分标记为

由d _ij映射得到，因此，

的得分(即

)受单应性变换矩阵H的影响。当图像局部产生形变而产生图像损失较大时(该损失与单应性矩阵的空间旋转参数和缩放参数具有相关关系，该相关关系可在b)的表达式中计算)，就导致变换前的图像中的部分特征点映射到变换后的图像中时，被认为是特征点的可能性降低，而若映射前后，具有映射关系的像素点的得分维持不变，则会导致样本严重失真，从而导致后续的网络训练难以收敛。为此，本申请实施例提供了一种对变换后得到的图像中的得分进行估计的方法，具体可以包括以下步骤：

步骤A)、将s _ij扩充为矩阵[s _ij，1,1]。为了将数据进行做标准化处理，对矩阵[s _ij，1,1]进行归一化操作，得到S＝[a,b,c]。

步骤B)、根据参考图像和参考图像的得分图，计算参考图像变换到样本图像时所采用的得分图变换矩阵T＝[λ ₁,λ ₂,λ ₃]。

具体的：根据参考图像中的图像块与样本图像中的图像块之间的匹配对应关系，以参考图像中的多个图像块在形变前的得分和单应性变换矩阵H作为输入，以该多个图像形变后得到的图像块的得分作为输出，通过最小二乘法拟合，得到得分图的变换矩阵T。其中，如果参考图像中的图像块和样本图像中的图像块在物理上表示同一对象，则这两个图像块之间具有匹配对应关系。

步骤C)、基于得分图变换矩阵T，获取

具体的：

若在变换过程中，样本图像上的像素点P＇是参考图像上的像素点P经过变换得到的，样本图像上的像素点Q＇是参考图像上的像素点Q经过变换得到的，并且，P与Q重合，则

满足如下公式：

其中，n是重合点的个数。

若在变换过程中，样本图像上的像素点P＇是参考图像上的像素点P经过变换得到的，参考图像中存在像素点Q，其中，像素点Q是像素点P的邻域内的像素点，且Q为拟合的估计点，则

满足如下公式：

其中，n是邻近个数，即邻域内像素点的个数。

像素点P的邻域可以是预定义的。本申请实施例对像素点P的邻域大小和位置不进行限定。

需要说明的是，特征点得分图的每个分数由其邻域内的点共同约束，这就在约束中增加了感受野，同时弥补了数据增强过程中的样本失真问题，降低了特征点选取的偶然性。

至此，获取到了训练数据。训练数据包括：样本图像集中的样本图像和每个样本图像的得分图。其中，样本图像集包括参考图像和对参考图像进行单应性变换后得到的图像。

如图8所示，为本申请实施例提供的一种参考数据和训练数据之间的关系的示意图。其中，参考数据包括参考图像集和参考图像集中的每个参考图像的得分图，图8中示意出了参考图像集包括参考图像1和参考图像2。训练数据包括样本图像集和样本图像集中的每个样本图像的得分图，图8中示意出了样本图像集包括：样本图像10(即参考图像1)、样本图像11(即参考图像1乘以变换矩阵11后得到的图像)、样本图像12(即参考图像1乘以变换矩阵12后得到的图像)、样本图像20(即参考图像2)和样本图像21(即参考图像2乘以变换矩阵21后得到的图像)等。图8中的双向箭头表示图像与其得分图之间的对应关系。

对于训练数据来说，将成对的两张输入的大小为H*W的样本图像，每张图像对应的图像块，图像块对应的特征矩阵(1*W维)；每张图像块对应的得分的取值范围是([0,1])。构建三元组tri＝(D _i,D _j,D _k)，其中，D _i,D _j,D _k均为图像块，(D _i,D _j)是相似的图像块的匹配对，(D _i,D _k)是不相似的图像块的匹配对。其中，不相似的图像匹配块随机从同一张图，或者同一尺度下的不同图像中选取。

为了让图像在多尺度下具有鲁棒性，将多个尺度的图像作为训练的输入，本申请实施例可以根据训练数据，将图像的大小调成为(H*2)*(W*2)、H*W、(H/2)*(W/2)三个大小。其对应的得分图中，(H*2)*(W*2)大小图像对应的得分图通过插值得到，(H/2)*(W/2)大小图像对应的得分图通过下采样(max pooling)得到。

需要说明的是，训练数据是基于自然场景的标注信息，进行得分图估计，这就使得估计样本更加倾向于真实场景，从而有助于提高图像识别的精确度。

b)、模型训练阶段

基于图2a所示的网络模型，计算机设备可以先对前段网络41进行训练，再分别对表示网络42进行训练。

基于图2b所示的网络模型，计算机设备可以先对前段网络41进行训练，再分别对表示网络42和提取网络43进行训练。其中，对表示网络42和对提取网络43的训练可以是并列执行的，二者之间的训练顺序可以不分先后。

训练每个网络(包括前段网络41、表示网络42和提取网络43等)的过程可以认为是获得该网络的参数(如卷积核中每个元素的取值等)的实际值的过程。其中，这里的实际值是指应用于图像识别阶段时，该网络所使用的参数的值。

训练前段网络41

在训练前段网络41之前，可以预先配置如下信息：

前段网络41中的第一神经网络411和第二神经网络412分别包含的运算层，运算层的输入的尺寸、运算层的参数的尺寸、运算层的输出的尺寸，以及运算层之间的关联关系。其中，运算层可以包括：卷积层、池化层、全连接层或点乘层中的一项或多项等。运算层的参数包括执行该层运算时所使用的参数，例如，卷积层的参数包括卷积层的层数，以及每个卷积层所使用的卷积核的尺寸。运算层之间的关联关系，也可以称作是运算层之间的连接关系，例如，哪个运算层的输出作为哪个运算层的输入等。

可以理解的是，前段网络41中第一个运算层的输入是前段网络41的输入，前段网络41的最后一个运算层的输出是前段网络41的输出。

前段网络41的输入是图像。在一个示例中，前段网络41的输入的尺寸标记为 H*W*3。其中，H表示输入图像的高的尺寸，W表示输入图像的宽的尺寸，3表示通道数。H和W的取值可以是预定义的。

前段网络41的输出是第三特征图。第三特征图是指将输入前段网络41的图像的特征旋转到主方向后得到的特征图。

至此，完成了对前段网络的预配置过程。

对前段网络41进行预配置后，不同运算层的输入尺寸、参数尺寸和输出尺寸适配。这里的“适配”是指满足数学中矩阵/张量之间的运算关系的尺寸，例如，矩阵A和矩阵B满足点乘的原则是，矩阵A的列数等于矩阵B的行数。其他示例不再一一列举。

预配置过程结束之后，计算机设备可以为前段网络41中的各参数(例如，前段网络41中各运算层的参数)配置初始值，例如，每层卷积层所使用的卷积核均具有初始值。本申请实施例对各参数的初始值均不进行限定，例如可以是随机生成的。

执行训练前段网络41基本原理是：基于样本图像集中的图像，以及前段网络41中的各参数的初始值，在前段网络41的对抗网络44和孪生网络45的约束之下，进行训练，以实现“前段网络41输出的第三特征图是将其输入的图像的特征变换到主方向上后得到的特征图”。并将实现此目的时所使用的前段网路41的参数作为训练结果。其中，前段网络41、对抗网络44和孪生网络45之间的连接关系可以如图9所示。

训练过程的结果用于在使用前段网络41进行图像识别过程中作为前段网络的参数的值(或实际值)。

以下说明本申请实施例提供的对前段网络41进行训练的方法。该方法的执行主体可以是计算机设备。如图10所示，该方法可以包括以下步骤：

S201：将样本图像集中的任意一个图像作为输入图像输入到第一神经网络411中，第一神经网络411对该输入图像进行特征提取，得到该输入图像的第一特征图。

例如，第一神经网络411使用第一神经网络的参数的初始值，对该输入图像进行特征提取，得到该输入图像的第一特征图。

可选的，第一神经网络对该输入图像进行预设层数的卷积操作，得到该输入图像的第一特征图。示例的，基于图3，执行S201时，第一神经网络411对输入图像执行4层卷积操作，得到该输入图像的第一特征图。

需要说明的是，此仅为示例，实际实现时，第一神经网络411还可以对输入图像进行其他操作，从而得到第一特征图，本申请实施例对此不进行限定。

S202：将该输入图像的第一特征图输入到第二神经网络412中，以对该第一特征图进行特征提取，得到第三特征图。第三特征图可以理解为经第二神经网络412处理，将输入图像的特征(如纹理特征等)转换到主方向上后得到的特征图。

例如，第二神经网络412对该输入图像的第一特征图依次进行卷积操作和全连接操作，并将全连接操作的结果与该输入图像的第一特征图进行点乘操作，得到第三特征图。

示例的，基于图4，执行S202时，第二神经网络412依次对图3得到的第一特征图进行2层卷积操作和1层全连接操作，并将全连接操作的结果与该第一特征图进行点乘操作，得到第三特征图。例如，基于图4，第二神经网络412依次对图3得到的第一特征图进行2层卷积操作和1层全连接操作之后，可以得到h*w个2*2的矩阵，将2*2*(h*w)的核作为对应通道的特征主方向的方向矩阵，通过点乘的方式，得到循环到主方向上的特征。

由于点乘是可微的，因此第二神经网络412能够在前段网络41的训练过程中进行反向传播。具体的，通过前段网络41的对抗网络44和孪生网络45进行约束，以对前段网络41进行训练，得到前段网络41的参数的实际值。以下通过步骤S203说明对抗网络44的工作原理，通过步骤S204说明孪生网络45的工作原理。

作为示例，第二神经网络412可以被称作是局部空间变换网络(LSTN)。LSTN的设计，在生成对抗网络的学习下，使得局部区域能够矫正到其主方向上，使得网络在训练高单应性变换样本时能够收敛。

S203：将第三特征图作为对抗网络44的输入，对抗网络44对第三特征图进行反卷积操作，得到第五特征图。其中，第五特征图的尺寸与前段网络41的输入图像的尺寸相同，如均是H*W*3。然后，对抗网络44将第五特征图分为多个数据块。

可选的，对抗网络44对第三特征图进行两层反卷积操作，得到第五特征图。

可选的，对抗网络44将第五特征图分为多个数据块，可以包括：对抗网络44将第五特征图均分为多个数据块。本申请实施例对每个数据块的大小不进行限定。

如图11所示，为本申请实施例提供的一种对抗网络44的逻辑结构示意图。图11是基于图4进行绘制的。具体的，基于图4得到的第三特征图(尺寸为H/4*H/4*64)，对抗网络44对第三特征图进行两层反卷积操作，分别得到尺寸为H/2*H/2*32的特征图和尺寸为H*W*3的特征图(即第五特征图)。然后，将该尺寸为H*W*3的特征图中的每一层尺寸为H*W的矩阵中的元素均分为16*16的数据块。

S204：将对抗网络44生成的该多个数据块输入孪生网络45。由孪生网络45使用损失函数进行约束，来判断第三特征图是否是旋转到主方向上后的特征图。其中，孪生网络45的基本思想是最小化相似数据块匹配对之间的特征距离，同时最大化不相似数据块对的特征距离。

若是，即判断结果为第三特征图是旋转到主方向上后的特征图，则对前段网络41的训练过程结束。后续，可以将本次执行S201和S202时所使用的参数的值作为识别阶段时前段网络的参数的值。

若否，即判断结果为第三特征图不是旋转到主方向上后的特征图，则前段网络41可以向前段网络41反馈相关信息，以辅助调整前段网络41的参数的值，前段网络41的参数调整之后，重新执行S201，以此循环，直到某一次或多次执行S204时，判断结果为第三特征图是旋转到主方向上后的特征图为止。

本申请实施例对对抗网络44和孪生网络45辅助调整前段网络41的具体实现方式不进行限定。例如，可以参考现有技术中其他应用场景中，对前段网络41的参数的值的训练过程中的反馈调节过程，此处不再详述。

可选的，通过构建三元组tri的损失函数约束，来判断第三特征图是否正确。三元组的损失函数如以下公式1所示，其思想为：最小化相似图像块匹配对的特征距离，同时最大化不相似图像块匹配对的特征距离，其中M为确保模型收敛的偏置值。

公式1：L _tri(D _i，D _j，D _k)＝Σ _i,j,k∈Pmax(0,dist(D _i，D _j)-dist(D _i，D _k)+M)。

需要说明的是，三元组的损失函数，同时用在了特征表示和主方向的对抗网络上，拉大了不相似特征点的分布，使得后续的匹配能更准确的得到最近邻特征。

训练提取网络43

在训练提取网络43之前，可以预先配置如下信息：

提取网络43包括的运算层，运算层的输入的尺寸、运算层的参数的尺寸、运算层的输出的尺寸，以及运算层之间的关联关系(即哪个运算层的输出作为哪个运算层的输入等)。其中，运算层可以包括：卷积层、或分组加权层等。卷积层的参数包括卷积层的层数，以及每个卷积层所使用的卷积核的尺寸。

在一种实现方式中，提取网络43包括分组加权层432。

分组加权层432用于：使用1通道卷积核，对第三特征图执行卷积操作，得到X个第五特征图；其中，第五特征图的特征方向的尺寸小于第三特征图的特征方向的尺寸；X是大于2的整数；将X个第五特征图的元素加权求和，得到第六特征图；对第六特征图进行特征提取，得到第一得分图。关于该实现方式中分组加权层432的具体说明，可以基于下述实现方式推理得到，此处不再赘述。

在另一种实现方式中，提取网络43包括卷积层431和分组加权层432。

卷积层431用于：对第三特征图进行卷积操作，得到第七特征图。本申请实施例对卷积操作的层数和卷积核的尺寸等均不进行限定。可选的，“对第三特征图进行特征提取，得到第七特征图”的目的是为了缩小了垂直于特征方向的维度尺寸。

分组加权层432用于：使用1通道卷积核，对第七特征图执行卷积操作，得到X个第五特征图。第五特征图的特征方向的尺寸小于第三特征图的特征方向的尺寸。X是大于2的整数。将X个第五特征图的元素加权求和，得到第六特征图。对第六特征图进行特征提取，得到第一得分图。

1通道卷积核，可以理解为是垂直于特征方向的维度尺寸是1，特征方向的维度尺寸是X的卷积核。第六特征图的尺寸与第五特征图的尺寸相同。对第六特征图进行特征提取的目的在于压缩第六特征图的特征方向的维度尺寸为1。具体的，分组加权层432可以对第六特征图进行一层或多层卷积操作，从而得到第一得分图。第一得分图是一个二维矩阵，也就是说，其特征方向的维度尺寸是1。

需要说明的是，分组加权层(或称为分组加权网络)的设计，使得得分图的计算同时利用局部和全局信息来查找局部特征。

如图12所示，为本申请实施例提供的一种提取网络43的逻辑结构示意图。图12是基于图4进行绘制的。具体的：基于图4得到的尺寸为H/4*H/4*64的第三特征图，提取网络43中的卷积层431用于对尺寸为H/4*H/4*64的第三特征图进行卷积操作，得到尺寸为H/8*H/8*256的第七特征图。该第七特征图的特征方向的维度是256，垂直于特征方向的维度尺寸是H/8*H/8。提取网络43中的分组加权层432用于使用1*1*16的卷积核，对尺寸为H/8*H/8*256的第七特征图进行卷积操作，分别得到16个尺寸为H/8*H/8*16的特征图。然后，将这16个尺寸为H/8*H/8*16的特征图的元素进行加权求和，得到尺寸为H/8*H/8*16的第六特征图。其中，将不同的H/8*H/8*16的特征图中坐标位置相同的元素进行加权求和，得到第六特征图中的该坐标位置的元素。接着，对第六特征图进行卷积操作，得到尺寸为H/8*H/8的第一得分图。

16个尺寸为H/8*H/8*16的特征图的元素进行加权求和的公式如公式2所示：

公式2：s _k＝Σ _ijexp(a _ij*p _ij)/Σ _kΣ _ijexp(a _k,ij*p _k,ij)

其中，s _k表示逐个通道逐个元素的分数表示。其中，在一个通道中，i表示第i组，j表示第i组中的第j个元素，k的最大值为单个通道中的元素个数；a _ij表示第一个通道中第i组第j个元素对应的权重(该权重由反向传播学习而来)；a _k,ij表示第k个通道的第i组第j个元素对应的权重；p即为对应元素的值。

需要说明的是，实际实现时，在对提取网络43进行训练的过程中，需要损失函数进行反馈约束(图12中未示出)，例如，局部特征提取(即提取网络)的损失函数如公式3所示：

公式3：L _score(sx,sy)＝log(Σ _h,wexp(l(sx _hw,sy _hw)))

其中，

sy是标签，其值并非直接从数据集中对应像素位置中获取，而是计算对应n*n区域(n为自定义的，建议值为9*9)中得分图上的分数，通过公式2取得每个像素点的分数，继而取得n*n区域中分数中最大值作为当前点的得分。

为局部区域中的每个像素点对应的分数的(无对应分数的像素点补充分数为0.0)。sx为前向推到得到的分数，sy为数据集给出的基准分数。sx _hw为计算得到的图像第h行第w列分数，sy _hw为数据集给出的基准中图像第h行第w列的分数。公式3的表示为通用的神经网络损失函数方式，使用数据集中的基准数据来约束神经网络计算出来的数据，通过反向传播，来更新神经网络中的各个参数。

训练表示网络42

在训练表示网络42之前，可以预先配置如下信息：

表示网络42包括的运算层，运算层的输入的尺寸、运算层的参数的尺寸、运算层的输出的尺寸，以及运算层之间的关联关系(即哪个运算层的输出作为哪个运算层的输入等)。其中，运算层可以包括卷积层等。卷积层的参数包括卷积层的层数，以及每个卷积层所使用的卷积核的尺寸。

如图13所示，为本申请实施例提供的一种表示网络42的逻辑结构示意图。图13是基于图4进行绘制的。具体的：基于图4得到的尺寸为H/4*H/4*64的第三特征图，表示网络42中的一层卷积层对第三特征图进行卷积操作，然后将输出结果输出给另一层卷积层进行卷积运算，得到第四特征图。其中，第四特征图的尺寸可以是H/8*H/8*128。也就是说，经过表示网络42进行处理后，垂直于特征维度方向的尺寸减小了。这样，有助于降低后续图像识别过程中的计算复杂度，从而提高图像识别效率。

需要说明的是，实际实现时，在对表示网络42进行训练的过程中，需要损失函数进行反馈约束(图13中未示出)，例如，局部特征表示阶段(即表示网络)的损失函数使用三元组损失函数，即构建相似匹配对和不相似匹配对，进而使用公式1，最小化相似匹配对的距离，最大化不相似匹配对的距离。在该阶段中，提取特征图的单个元素的所有通道作为特征，即1*128维度的矩阵。

另外需要说明的是，实际实现时，可以建立整体网络的损失函数如公式4所示：

公式4：

其中，P表示所有匹配图像点的集合，p，q分别为P中的点，二者可能为相似点或不相似点。整体的损失函数是局部特征得分(即提取网络)和特征表示(即表示网络)的损失函数的总和。

和

分别表示A，B两个点的得分，而A、B分别从两张具有单应性变换关系的图像上取出。公式4的损失函数为全局的损失计算，它不同于简单的损失函数加权相加，其目的是通过相似和不相似的匹配对共同作用，将相似对于相似对的分数交叉相乘，并计算其在全局范围的比重，从而加强了约束，使得能够更好的对整体的损失产生影响。

图像识别阶段

在图像识别阶段，网络的前向推理包含如图2a或如图2b所示的网络结构，不包含对抗网络和孪生网络等。

如图14所示，为本申请实施例提供的一种图像识别方法的流程示意图。图14所示的方法包括以下步骤：

S301：图像识别装置获取待识别图像。例如，绘本机器人拍摄绘本，得到待识别图像。

S302：图像识别装置使用第一神经网络对待识别图像进行特征提取，得到第一特征图。

S303：图像识别装置使用第二神经网络对第一特征图进行特征提取，得到第二特征图，并将第二特征图与第一特征图进行点乘，得到第三特征图。其中，第三特征图表示将待识别图像的特征变换到主方向后得到的特征图。

这里的第一神经网络可以是上文中提供的任一种训练好的第一神经网络411，第二神经网络可以是上文提供的任一种训练好的的第二神经网络412。

在一种示例中，图像识别装置使用第二神经网络对第一特征图执行至少一层卷积操作，得到第二特征图。其具体实现过程可以参考上文计算机设备执行的相关步骤。

在另一种示例中，图像识别装置使用第二神经网络对第一特征图执行至少一层卷积操作；对执行卷积操作后的第一特征图执行至少一层池化操作和/或全连接操作，得到第二特征图。其具体实现过程可以参考上文计算机设备执行的相关步骤。

S304：图像识别装置基于第三特征图获得待识别图像的第一得分图。

在一种示例中，图像识别装置使用1通道卷积核，对第三特征图执行卷积操作，得到X个第五特征图；其中，第五特征图的特征方向的尺寸小于第三特征图的特征方向的尺寸；X是大于2的整数；将X个第五特征图的元素加权求和，得到第六特征图；对第六特征图进行特征提取，得到第一得分图。其具体实现过程可以参考上文计算机设备执行的相关步骤。

在一种示例中，图像识别装置对第三特征图进行特征提取，得到第七特征图；其中，第三特征图的垂直于特征方向的维度尺寸大于第七特征图的垂直于特征方向的维度尺寸；X是大于2的整数；使用1通道卷积核，对第七特征图执行卷积操作，得到X个第五特征图；将X个第五特征图的元素加权求和，得到第六特征图；对第六特征图进行特征提取，得到第一得分图。其具体实现过程可以参考上文计算机设备执行的相关步骤。

可选的，待识别图像的尺寸大于第一得分图的尺寸。

S305：图像识别装置基于第三特征图和第一得分图，对待识别图像进行识别。

在一种示例中，第三特征图的尺寸是M1*N1*P1，第一得分图的尺寸是M1*N1，P1是特征方向维度的尺寸，M1*N1是垂直于特征方向维度的尺寸，M1、N1和P1均是正整数。该情况下，图像识别装置直接基于第三特征图和第一得分图，对待识别图像进行识别。

在另一种示例中，第三特征图的尺寸是M2*N2*P2，第一得分图的尺寸是M1*N1，P2是特征方向维度的尺寸，M1、N1、P1、M2、N2和P2均是正整数。该情况下，图像识别装置对第三特征图进行特征提取，得到第四特征图；其中，第四特征图的尺寸是M1*N1*P1；P1是特征方向维度的尺寸，P1是正整数；然后，基于第四特征图和第一得分图，对待识别图像进行识别；其中，第一得分图的尺寸是M1*N1。可选的，M1*N1＜M2*N2。

关于S305的的具体实现方式的示例可以参考以下步骤S405中的具体示例。

本申请实施例提供的图像识别方法，利用了上文中描述的网络，由于该网络具有旋转不变性，具有旋转不变性的图像在图像处理中，该图像在平面内任意旋转角度下，图像识别装置对其提取的特征几乎不发生变化，因此，对待识别图像的摆放要求和拍摄要求均不高。另外，与现有技术中使用不具有旋转不变性的网络进行图像识别的技术方案相比，有助于提高图像识别的精确度。

以下通过一个具体示例，说明本申请实施例提供的图像识别过程。

如图15所示，为本申请实施例提供的另一种图像识别方法的流程示意图。图15所示的方法包括以下步骤：

S401：图像识别装置获取需要进行匹配的两张图像。这两张图像中的其中一张图像是待识别图像，另一张图像是样本图像。示例的，图像识别装置可以是绘本机器人。

例如，应用于绘本识别过程中时，待识别图像是绘本机器人拍摄得到的图像，样本图像是预定义的绘本数据库中存储的绘本的某一页。

S402：图像识别装置将待识别图像缩放到三个尺度如(0.5,1,2)下，将缩放后得到的图像分别输入到网络，同时，将缩放到同样尺寸的样本图像输入到网络。其中，该网络可以是上述训练阶段训练好的网络。0.5、1和2分别表示缩放倍数。

需要说明的是，将待识别图像缩放到不同尺寸，并基于不同尺寸进行图像识别，是可选的步骤。这样，有助于提高图像识别的精确度。

S403：图像识别装置使用该网络经过前向推理，得到不同尺度下的得分图(S1,S2)和特征图(F1,F2)。

例如，结合图2b，得分图S1和S2可以认为是分别将S401中的待识别图像输入网络后，得到的第一得分图，以及将S401中的样本图像输入网络后得到的第一得分图。特征图F1和F2可以认为分别是将S401中的待识别图像输入网络后，得到的第四特征图，以及将S401中的样本图像输入网络后得到的第四特征图。

关于图像识别阶段该网络的工作原理，可以参考上文中对该网络进行训练的过程，此处不再赘述。需要说明的是，与训练过程中该网络的工作原理相比，图像识别阶段的网络不包含对抗网络、孪生网络、也可以不包含使用损失函数进行反馈调节的网络。

S404：图像识别装置使用图像检索技术(具体可以参考现有技术)，并基于不同尺度下的得分图(S1,S2)执行以下步骤，以确定F1和F2中相匹配的特征点对的个数：对于F1中的特征点f1来说，其对应于S1中的得分s1＞T，其中，T为得分阈值，低于该阈值不认为是特征点。在F2中搜索与f1最相似的特征f2，例如，将欧式距离最近的两个特征作为最相似的特征，其中，f2对应于S2中的得分s2＞T。f1和f2为一个相匹配的特征点对。

S405：如果F1和F2中相匹配的特征点对的个数大于等于预设阈值，则图像识别装置将用于获得F2时所使用的样本图像，作为待识别图像的识别结果。否则，更新样本图像，重新执行S401-S405。

本实施例提供了一种图像识别方法的具体应用示例，实际实现时不限于此。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对图像识别装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

如图16所示，图16示出了本申请实施例提供的图像识别装置160的结构示意图。该图像识别装置160用于执行上述的图像识别方法，例如，执行图14所示的图像识别方法。示例的，图像是被装置160可以包括第一获取单元1601、特征提取单元1602、第二获取单元1603和识别单元1604。

第一获取单元1601，用于获取待识别图像。特征提取单元1602，用于使用第一神经网络对待识别图像进行特征提取，得到第一特征图；以及，使用第二神经网络对第一特征图进行特征提取，得到第二特征图，并将第二特征图与第一特征图进行点乘，得到第三特征图；其中，第三特征图表示将待识别图像的特征变换到主方向后得到的特征图。第二获取单元1603，用于基于第三特征图获得待识别图像的第一得分图。识别单元1604，用于基于第三特征图和第一得分图，对待识别图像进行识别。

作为示例，第一神经网络可以是上文中的第一神经网络411，第二神经网络可以是上文中的第二神经网络412。结合图14，第一获取单元1601可以执行S301，特征提取单元1602可以执行S302和S303，第二获取单元1603可以执行S304，识别单元1604可以执行S305。

可选的，特征提取单元1602具体用于：使用第二神经网络对第一特征图执行至少一层卷积操作，得到第二特征图。

可选的，特征提取单元1602具体用于：使用第二神经网络对第一特征图执行至少一层卷积操作；对执行卷积操作后的第一特征图执行至少一层池化操作和/或全连接操作，得到第二特征图。

可选的，第三特征图的尺寸是M1*N1*P1，第一得分图的尺寸是M1*N1，P1是特征方向维度的尺寸，M1*N1是垂直于特征方向维度的尺寸，M1、N1和P1均是正整数。

可选的，第三特征图的尺寸是M2*N2*P2，第一得分图的尺寸是M1*N1，P2是特征方向维度的尺寸，M1、N1、P1、M2、N2和P2均是正整数；识别单元1604具体用于：对第三特征图进行特征提取，得到第四特征图；其中，第四特征图的尺寸是M1*N1*P1；P1是特征方向维度的尺寸，P1是正整数；基于第四特征图和第一得分图，对待识别图像进行识别；其中，第一得分图的尺寸是M1*N1。

可选的，M1*N1＜M2*N2。

可选的，第二获取单元1603具体用于：使用1通道卷积核，对第三特征图执行卷积操作，得到X个第五特征图；其中，第五特征图的特征方向的尺寸小于第三特征图的特征方向的尺寸；X是大于2的整数；将X个第五特征图的元素加权求和，得到第六特征图；对第六特征图进行特征提取，得到第一得分图。

可选的，第二获取单元1603具体用于：对第三特征图进行特征提取，得到第七特征图；其中，第三特征图的垂直于特征方向的维度尺寸大于第七特征图的垂直于特征方向的维度尺寸；X是大于2的整数；使用1通道卷积核，对第七特征图执行卷积操作，得到X个第五特征图；将X个第五特征图的元素加权求和，得到第六特征图；对第六特征图进行特征提取，得到第一得分图。

可选的，待识别图像的尺寸大于第一得分图的尺寸。

关于上述可选方式的具体描述可以参见前述的方法实施例，此处不再赘述。此外，上述提供的任一种图像识别装置160的解释以及有益效果的描述均可参考上述对应的方法实施例，不再赘述。

作为示例，结合图1，图像识别装置160中的第一获取单元1601、特征提取单元1602、第二获取单元1603和识别单元1604实现的功能可以通过图1中的处理器101执行图1中的存储器102中的程序代码实现。

本申请实施例还提供一种芯片系统，如图17所示，该芯片系统包括至少一个处理器111和至少一个接口电路112。作为示例，当该芯片系统110包括一个处理器和一个接口电路时，则该一个处理器可以是图11中实线框所示的处理器111(或者是虚线框所示的处理器111)，该一个接口电路可以是图11中实线框所示的接口电路112(或者是虚线框所示的接口电路112)。当该芯片系统110包括两个处理器和两个接口电路时，则该两个处理器包括图11中实线框所示的处理器111和虚线框所示的处理器111，该两个接口电路包括图11中实线框所示的接口电路112和虚线框所示的接口电路112。对此不作限定。

处理器111和接口电路112可通过线路互联。例如，接口电路112可用于接收信号(例如从车速传感器或边缘服务单元接收信号)。又例如，接口电路112可用于向其它装置(例如处理器111)发送信号。示例性的，接口电路112可读取存储器中存储的指令，并将该指令发送给处理器111。当所述指令被处理器111执行时，可使得图像识别装置执行上述实施例中的各个步骤。当然，该芯片系统还可以包含其他分立器件，本申请实施例对此不作具体限定。

本申请另一实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当指令在图像识别装置上运行时，该图像识别装置执行上述方法实施例所示的方法流程中该图像识别装置执行的各个步骤。

在一些实施例中，所公开的方法可以实施为以机器可读格式被编码在计算机可读存储介质上的或者被编码在其它非瞬时性介质或者制品上的计算机程序指令。

图18示意性地示出本申请实施例提供的计算机程序产品的概念性局部视图，所述计算机程序产品包括用于在计算设备上执行计算机进程的计算机程序。

在一个实施例中，计算机程序产品是使用信号承载介质120来提供的。所述信号承载介质120可以包括一个或多个程序指令，其当被一个或多个处理器运行时可以提供以上针对图14描述的功能或者部分功能。因此，例如，参考图14中S401～S405的一个或多个特征可以由与信号承载介质120相关联的一个或多个指令来承担。此外，图18中的程序指令也描述示例指令。

在一些示例中，信号承载介质120可以包含计算机可读介质121，诸如但不限于，硬盘驱动器、紧密盘(CD)、数字视频光盘(DVD)、数字磁带、存储器、只读存储记忆体(read-only memory，ROM)或随机存储记忆体(random access memory，RAM)等等。

在一些实施方式中，信号承载介质120可以包含计算机可记录介质122，诸如但不限于，存储器、读/写(R/W)CD、R/W DVD、等等。

在一些实施方式中，信号承载介质120可以包含通信介质123，诸如但不限于，数字和/或模拟通信介质(例如，光纤电缆、波导、有线通信链路、无线通信链路、等等)。

信号承载介质120可以由无线形式的通信介质123(例如，遵守IEEE 802.11标准或者其它传输协议的无线通信介质)来传达。一个或多个程序指令可以是，例如，计算机可执行指令或者逻辑实施指令。

在一些示例中，诸如针对图14描述的图像识别装置可以被配置为，响应于通过计算机可读介质121、计算机可记录介质122、和/或通信介质123中的一个或多个程序指令，提供各种操作、功能、或者动作。

应该理解，这里描述的布置仅仅是用于示例的目的。因而，本领域技术人员将理解，其它布置和其它元素(例如，机器、接口、功能、顺序、和功能组等等)能够被取而代之地使用，并且一些元素可以根据所期望的结果而一并省略。另外，所描述的元素中的许多是可以被实现为离散的或者分布式的组件的、或者以任何适当的组合和位置来结合其它组件实施的功能实体。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

一种图像识别方法，其特征在于，包括：

获取待识别图像；

使用第一神经网络对所述待识别图像进行特征提取，得到第一特征图；

使用第二神经网络对所述第一特征图进行特征提取，得到第二特征图，并将所述第二特征图与所述第一特征图进行点乘，得到第三特征图；其中，所述第三特征图表示将所述待识别图像的特征变换到主方向后得到的特征图；

基于所述第三特征图获得所述待识别图像的第一得分图；

基于所述第三特征图和所述第一得分图，对所述待识别图像进行识别。
根据权利要求1所述的方法，其特征在于，所述使用第二神经网络对所述第一特征图进行特征提取，得到第二特征图，包括：

使用所述第二神经网络对所述第一特征图执行至少一层卷积操作，得到所述第二特征图。
根据权利要求1所述的方法，其特征在于，所述使用第二神经网络对所述第一特征图进行特征提取，得到第二特征图，包括：

使用所述第二神经网络对所述第一特征图执行至少一层卷积操作；

对执行卷积操作后的所述第一特征图执行至少一层池化操作和/或全连接操作，得到所述第二特征图。
根据权利要求1至3任一项所述的方法，其特征在于，

所述第三特征图的尺寸是M1*N1*P1，所述第一得分图的尺寸是M1*N1，P1是特征方向维度的尺寸，所述M1*N1是垂直于特征方向维度的尺寸，M1、N1和P1均是正整数。
根据权利要求1至3任一项所述的方法，其特征在于，所述第三特征图的尺寸是M2*N2*P2，所述第一得分图的尺寸是M1*N1，P2是特征方向维度的尺寸，M1、N1、P1、M2、N2和P2均是正整数；

所述基于所述第三特征图和所述第一得分图，对所述待识别图像进行识别，包括：

对所述第三特征图进行特征提取，得到第四特征图；其中，所述第四特征图的尺寸是M1*N1*P1；P1是特征方向维度的尺寸，P1是正整数；

基于所述第四特征图和所述第一得分图，对所述待识别图像进行识别；其中，所述第一得分图的尺寸是M1*N1。
根据权利要求5所述的方法，其特征在于，M1*N1＜M2*N2。
根据权利要求1至6任一项所述的方法，其特征在于，所述基于所述第三特征图获得所述待识别图像的第一得分图，包括：

使用1通道卷积核，对所述第三特征图执行卷积操作，得到X个第五特征图；其中，所述第五特征图的特征方向的尺寸小于所述第三特征图的特征方向的尺寸；X是大于2的整数；

将所述X个第五特征图的元素加权求和，得到第六特征图；

对所述第六特征图进行特征提取，得到所述第一得分图。
根据权利要求1至6任一项所述的方法，其特征在于，所述基于所述第三特征图获得所述待识别图像的第一得分图，包括：

对所述第三特征图进行特征提取，得到第七特征图；其中，所述第三特征图的垂直于特征方向的维度尺寸大于所述第七特征图的垂直于特征方向的维度尺寸；X是大于2的整数；

使用1通道卷积核，对所述第七特征图执行卷积操作，得到X个第五特征图；

将所述X个第五特征图的元素加权求和，得到第六特征图；

对所述第六特征图进行特征提取，得到所述第一得分图。
根据权利要求1至8任一项所述的方法，其特征在于，所述待识别图像的尺寸大于所述第一得分图的尺寸。
一种图像识别装置，其特征在于，包括：

第一获取单元，用于获取待识别图像；

特征提取单元，用于使用第一神经网络对所述待识别图像进行特征提取，得到第一特征图；以及，使用第二神经网络对所述第一特征图进行特征提取，得到第二特征图，并将所述第二特征图与所述第一特征图进行点乘，得到第三特征图；其中，所述第三特征图表示将所述待识别图像的特征变换到主方向后得到的特征图；

第二获取单元，用于基于所述第三特征图获得所述待识别图像的第一得分图；

识别单元，用于基于所述第三特征图和所述第一得分图，对所述待识别图像进行识别。
根据权利要求10所述的装置，其特征在于，

所述特征提取单元具体用于：使用所述第二神经网络对所述第一特征图执行至少一层卷积操作，得到所述第二特征图。
根据权利要求10所述的装置，其特征在于，所述特征提取单元具体用于：

使用所述第二神经网络对所述第一特征图执行至少一层卷积操作；

对执行卷积操作后的所述第一特征图执行至少一层池化操作和/或全连接操作，得到所述第二特征图。
根据权利要求10至12任一项所述的装置，其特征在于，

所述第三特征图的尺寸是M1*N1*P1，所述第一得分图的尺寸是M1*N1，P1是特征方向维度的尺寸，所述M1*N1是垂直于特征方向维度的尺寸，M1、N1和P1均是正整数。
根据权利要求10至12任一项所述的装置，其特征在于，所述第三特征图的尺寸是M2*N2*P2，所述第一得分图的尺寸是M1*N1，P2是特征方向维度的尺寸，M1、N1、P1、M2、N2和P2均是正整数；所述识别单元具体用于：

对所述第三特征图进行特征提取，得到第四特征图；其中，所述第四特征图的尺寸是M1*N1*P1；P1是特征方向维度的尺寸，P1是正整数；

基于所述第四特征图和所述第一得分图，对所述待识别图像进行识别；其中，所述第一得分图的尺寸是M1*N1。
根据权利要求14所述的装置，其特征在于，M1*N1＜M2*N2。
根据权利要求10至15任一项所述的装置，其特征在于，所述第二获取单元具体用于：

使用1通道卷积核，对所述第三特征图执行卷积操作，得到X个第五特征图；其中，所述第五特征图的特征方向的尺寸小于所述第三特征图的特征方向的尺寸；X是大于2的整数；

将所述X个第五特征图的元素加权求和，得到第六特征图；

对所述第六特征图进行特征提取，得到所述第一得分图。
根据权利要求10至15任一项所述的装置，其特征在于，所述第二获取单元具体用于：

对所述第三特征图进行特征提取，得到第七特征图；其中，所述第三特征图的垂直于特征方向的维度尺寸大于所述第七特征图的垂直于特征方向的维度尺寸；X是大于2的整数；

使用1通道卷积核，对所述第七特征图执行卷积操作，得到X个第五特征图；

将所述X个第五特征图的元素加权求和，得到第六特征图；

对所述第六特征图进行特征提取，得到所述第一得分图。
根据权利要求10至17任一项所述的装置，其特征在于，所述待识别图像的尺寸大于所述第一得分图的尺寸。
一种图像识别装置，其特征在于，包括：存储器和处理器，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行权利要求1-9任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行权利要求1-9任一项所述的方法。