WO2022205018A1

WO2022205018A1 - 车牌字符识别方法、装置、设备及存储介质

Info

Publication number: WO2022205018A1
Application number: PCT/CN2021/084183
Authority: WO
Inventors: 张玉兵
Original assignee: 广州视源电子科技股份有限公司
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2022-10-06
Also published as: CN115485746A

Abstract

一种车牌字符识别方法、装置、设备及存储介质，所述方法包括：获取至少一张目标图像，所述目标图像中显示有待识别车牌，所述待识别车牌中包含多个字符（110）；利用主干网络处理所述目标图像，以得到所述待识别车牌的特征张量（120）；将所述特征张量输入至各特征融合网络中，并通过所述特征融合网络得到各所述字符的特征向量，每个所述特征融合网络输出一个特征向量（130）；将每个所述特征向量分别输入至对应的分类器中，并利用所述分类器得到各所述字符的字符识别结果，每个所述分类器输出一个字符识别结果（140）。采用上述方法可以解决相关技术中在车牌图像质量较低时无法对车牌字符进行准确识别的技术问题。

Description

车牌字符识别方法、装置、设备及存储介质

技术领域

本申请实施例涉及图像处理技术领域，尤其涉及一种车牌字符识别方法、装置、设备及存储介质。

背景技术

车牌是指牌照，也指车辆号牌。车牌识别是指将运动中的车牌从复杂背景中提取并识别出来。车牌识别技术已经被广泛应用到各个领域，如应用在交通领域的高速卡口检测场景，再如应用在安保领域的停车场出入口检测场景。这些场景下，车牌的拍摄装置安装在固定位置，并配套对应的拍照触发机制(如地感触发机制)，以实现对车牌的拍摄。之后，采用基于字符分割的车牌识别方法处理拍摄的图像以得到车牌字符的识别结果。其中，基于字符分割的车牌识别方法是指将图像中的车牌按照字符进行分割，以得到多张子图像，每张子图像包含一个字符，之后，分别对每张子图像进行分类，以确定其对应的字符。

虽然上述方法可以实现车牌识别，但是，对拍摄装置的要求比较高，需要拍摄装置固定，以得到清晰的车牌图像。当拍摄装置具有移动性后(如将车牌的拍摄装置安装在可移动的机器人上)，其拍摄的图像质量会下降，如包含车牌的图像会出现严重的运动和抖动模糊、角度偏移(未正对车牌进行拍摄)、复杂的光照等问题。举例而言，图1为现有技术提供的一种车牌图像，其是拍摄装置固定时对车牌拍摄后得到的图像，需说明，图1中前4个字符(即“京”“N”“Q”“G”)为正常拍摄效果，后面的字符经过了模糊处理，以避免信息泄露。图2为现有技术提供的另一种车牌图像，其是拍摄装置移动时对车牌拍摄后得到的图像，相比于图1，图2示出的车牌明显模糊。此时，基于字符分割的车牌识别方法难以进行准确的字符分割，导致分割精度降低，进而无法保证后续识别字符的过程正常进行。

综上，在车牌图像质量较低时如何对车牌字符进行准确的识别成为了亟需解决的技术问题。

发明内容

本申请实施例提供了一种车牌字符识别方法、装置、设备及存储介质，以解决相关技术中在车牌图像质量较低时无法对车牌字符进行准确识别的技术问题。

第一方面，本申请实施例提供了一种车牌字符识别方法，包括：

获取至少一张目标图像，所述目标图像中显示有待识别车牌，所述待识别车牌中包含多个字符；

利用主干网络处理所述目标图像，以得到所述待识别车牌的特征张量；

将所述特征张量输入至各特征融合网络中，并通过所述特征融合网络得到各所述字符的特征向量，每个所述特征融合网络输出一个特征向量；

将每个所述特征向量分别输入至对应的分类器中，并利用所述分类器得到各所述字符的字符识别结果，每个所述分类器输出一个字符识别结果。

第二方面，本申请实施例还提供了一种车牌字符识别装置，包括：

图像获取模块，用于获取至少一张目标图像，所述目标图像中显示有待识别车牌，所述待识别车牌中包含多个字符；

特征张量确定模块，用于利用主干网络处理所述目标图像，以得到所述待识别车牌的特征张量；

特征向量确定模块，用于将所述特征张量输入至各特征融合网络中，并通过所述特征融合网络得到各所述字符的特征向量，每个所述特征融合网络输出一个特征向量；

识别结果确定模块，用于将每个所述特征向量分别输入至对应的分类器中，并利用所述分类器得到各所述字符的字符识别结果，每个所述分类器输出一个字符识别结果。

第三方面，本申请实施例还提供了一种车牌字符识别设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的车牌字符识别方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的车牌字符识别方法。

上述车牌字符识别方法、装置、设备及存储介质，通过获取包含待识别车牌的目标图像，并利用主干网络得到待识别车牌的特征张量，利用特征融合网络得到待识别车牌中各字符的特征向量，利用分类器得到各字符的字符识别结果的技术手段，解决了在车牌图像质量较低时无法对车牌字符进行准确识别的技术问题。上述技术手段不涉及字符分割，而是直接对各字符进行预测，避免了对字符分割的依赖，进而降低了对图像质量的依赖。并且，对主干网络、特征融合网络和分类器的结构限定较小，可以根据实际情况进行调整，使得上述方案的灵活性更高。

附图说明

图1为现有技术提供的一种车牌图像；

图2为现有技术提供的另一种车牌图像；

图3为本申请实施例提供的一种车牌字符识别方法的流程图；

图4为本申请实施例提供的一种双层字符车牌的示意图；

图5为本申请实施例提供的一种车牌字符识别模型的结构示意图；

图6为本申请实施例提供的一种目标图像；

图7为本申请实施例提供的一种空间注意力图生成流程示例图；

图8为本申请实施例提供的另一种空间注意力图生成流程示例图；

图9为本申请实施例提供的另一种目标图像；

图10为本申请实施例提供的另一种车牌字符识别模型的结构示意图；

图11为本申请实施例提供的又一种目标图像；

图12为本申请实施例提供的特征选择示意图；

图13为本申请实施例提供的一种车牌字符识别装置的结构示意图；

图14为本申请实施例提供的一种车牌字符识别设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

CTC(Connectionist temporal classification)为一种时序分类算法，其可以在时序分类任务中不需要标签在时间上一一对齐就可以进行训练，减少了标签预划定的冗杂工作。目前，CTC在语音识别和光学字符识别领域中得到了广泛的应用。一些技术中，将CTC应用在车牌识别领域中，其利用深度神经网络模型实现车牌识别，其中，深度神经网络模型的训练过程可以是：获取大量包含车牌的图像，之后，确定图像中车牌边界框的坐标和关键点(如车牌的对角点)坐标。例如，确定图2中示出的车牌边界框11和关键点12的坐标。之后，根据车牌边界框和关键点的坐标，对图像中的车牌进行仿射或透视变换，以将车牌对齐，即将图2中的车牌转换成规整的矩形。之后，利用大量经过对齐的图像训练深度神经网络模型，其中，深度神经网络模型包括主干网络和头部网络，主干网络用于识别图像中车牌的特征张量，头部网络用于根据特征张量计算损失函数。当深度神经网络模型训练完毕(即模型稳定)后，保留主干网络进行应用。应用过程中，获取需要识别车牌的图像并输入至主干网络，以提取相应的特征张量，之后，对特征张量进行解码，以预测车牌中的每个字符，进而得到车牌的识别结果。

但是，CTC输出序列的长度具有不确定性，这样会造成识别结果不精准，例如，其输出的识别结果中的字符长度可能长于或短于车牌包含的字符长度。此外，CTC不能利用车牌的先验信息，如以中国大陆汽车的车牌为例，其车牌中第一个字符为省(直辖市、自治区)的汉字简称，其对应的字符类别可以为汉字简称的集合，第二个字符为大写英文字母，其对应的字符类别可以为大写英文字母的集合，然而，利用CTC识别车牌时，每个字符对应的字符类别均相同，且字符类别均包括汉字简称集合、大写英文字母集合以及0-9数字集合等，此时，CTC解码时需要在上述字符类别中进行预测，增大了CTC预测字符的难度。同时，CTC仅支持单一方向序列的预测，其无法识别双层车牌(即存在上下两层字符的车牌)。

综上，本申请实施例提供一种车牌字符识别方法，以在拍摄装置移动情况下，对图像中的车牌准确识别，并可以得到定长的识别结果，还能够识别双层车牌，并且预测难度低，便于实现。

本申请实施例提供的车牌字符识别方法可以由车牌字符识别设备执行，该车牌字符识别设备可以通过软件和/或硬件的方式实现，该车牌字符识别设备可以是两个或多个物理实体构成，也可以是一个物理实体构成。

一个实施例中，以车牌字符识别设备为机器人为例进行描述，其中，该机器人配置有移动装置和拍摄装置，通过移动装置使机器人具备移动功能，通过拍摄装置使机器人具备拍摄图像的功能。移动装置和拍摄装置的具体结构、工作方式实施例不作限定。可理解，车牌字符识别设备还可以是手机、计算机等设备。车牌字符识别设备也可以不具有移动装置和/或拍摄装置，当车牌字符识别设备不具有拍摄装置时，其可以获取外置的拍摄装置拍摄的图像并进行处理。

图3为本申请实施例提供的一种车牌字符识别方法的流程图。参考图3，该车牌字符识别方法具体包括：

步骤110、获取至少一张目标图像，目标图像中显示有待识别车牌，待识别车牌中包含多个字符。

具体的，待识别车牌是指当前需要进行识别的车牌，其包含多个字符。以中国大陆汽车的车牌为例，其包含7个字符或8个字符，其中，8个字符为新能源车牌，7个字符为普通车牌。实施例中，将包含待识别车牌的图像称为目标图像。目标图像由拍摄装置拍摄，其中，拍摄装置触发拍摄时所采用的机制实施例不作限定，如触发拍摄的机制为检测到拍摄范围内存在除地面和墙面外的其他物体时进行拍摄。示例性的，目标图像可以为一张或多张，实施例中，以一张目标图像为例进行描述。可选的，拍摄装置拍摄的目标图像可具有相同的分辨率或不同的分辨率，实施例中，以目标图像具有相同的分辨率为例进行描述，此时，拍摄的目标图像具有固定的尺寸。

示例性的，当获取到拍摄装置拍摄的一张图像时，先对图像进行车牌检测，以确定其是否包含车牌，若包含车牌，则将该图像确定为目标图像，并将目标图像包含的车牌确定为待识别车牌。其中，检测图像是否包含车牌的方式实施例不作限定，例如，通过边缘检测方法检测图像是否包含车牌的边缘，进而确定是否包含车牌，再如，通过色彩分割的方法检测图像是否包含车牌的颜色，进而确定是否包含车牌。

可选的，当拍摄装置移动时，拍摄的目标图像中待识别车牌可能存在运动和抖动模糊等问题。为了避免上述问题对后续处理的影响，实施例中，对目标图像中待识别车牌进行对齐处理，使得对齐处理后的待识别车牌位于长方形的像素区域内。此时，本步骤之后，还包括：将目标图像中的待识别车牌映射到设定的像素坐标区域中。一个实施例中，检测到目标图像包含车牌时，输出检测到的待识别车牌的边界框(bounding box)的坐标和关键点的坐标，其中，边界框是指包含待识别车牌的矩形框，边界框的坐标是指边界框在目标图像中的像素坐标。关键点是指边界框内待识别车牌的左上顶点、左下顶点、右上顶点和右下顶点。例如，图2中示出的四个关键点。关键点的坐标是指关键点在目标图像中的像素坐标。之后，根据边界框的坐标和关键点的坐标对待识别车牌中各像素点进行仿射或透视变换。可理解，变换后的待识别车牌具有统一的尺寸，实施例中，变换后的待识别车牌的四个关键点在目标图像中的像素坐标固定，以将四个关键点之间的区域作为待识别车牌的像素坐标区域，此时，变换后的待识别车牌均位于像素坐标区域中。可选的，像素坐标区域为矩形区域。举例而言，变换后的待识别车牌的四个关键点在目标图像中的像素坐标分别为(3,9)、(3,91)、(29,91)和(29,9)。像素坐标区域的高和宽分别为32和100。示例性的，仿射变换是一种二维坐标到二维坐标的线性变换，仿射变换包括：平移变换、旋转变换、缩放变换、倾斜变换、翻转变换。透视变换是指利用透视中心、像点、目标点三点共线的条件，按透视旋转定律使承影面(透视面)绕迹线(透视轴)旋转某一角度，破坏原有的投影光线束，仍能保持承影面上投影几何图形不变的变换。通过四个关键点变换前的坐标和变换后的坐标以及边界框的坐标和像素坐标区域确定变换时使用的参数(如平移参数、旋转参数)等，之后，根据该参数对边界框内的各像素点进行仿射或透视变换，以将待识别车牌映射到设定像素坐标区域。需说明，后续使用的目标图像均是将待识别车牌映射到设定像素坐标区域的图像，此时，目标图像中的待识别车牌具有固定的尺寸。

步骤120、利用主干网络处理目标图像，以得到待识别车牌的特征张量。

一个实施例中，采用车牌字符识别模型实现车牌字符的识别。可理解，实施例中使用的车牌字符识别模型为训练好的神经网络模型，其训练过程实施例不作限定。一个实施例中，车牌字符识别模型包括主干网络。其中，主干网络(Backbone)用于识别目标图像中待识别车牌的特征，并输出特征张量。主干网络的具体结构实施例不作限定，如采用卷积神经网络(CNN)、残差网络(ResNet)或针对移动端的轻量化网络(MobileNet)。一个实施例中，将目标图像输入至主干网络后，主干网络对目标图像中的待识别车牌进行特征提取，并输出特征张量。其中，特征张量是指通过高维的数据表示待识别车牌的特征，待识别车牌的特征包括待识别车牌的颜色特征、纹理特征、形状特征和空间关系特征等。需说明，特征张量中一个数值可以认为是一个元素，一个元素可表示一个特征像素，其中，特征像素是指描述特征的像素。

一个实施例中，将目标图像输入至主干网络时，可选输入四维张量，其中，输入的四维张量可以通过N*H*W*C表示，N表示目标图像的样本数(即输入的目标图像的张数)，H表示目标图像的高度、W表示目标图像的宽度，C表示目标图像的通道数。其中，高度和宽度是指目标图像的像素高度(竖直方向上包含的像素数量)和像素宽度(水平方向上包含的像素数量)，通道数根据目标图像的颜色标准确定，实施例中，目标图像为RGB图像，因此，通道数为3，分别对应为R通道、G通道和B通道。其中，RGB图像是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的图像。主干网络处理目标图像后，输出四维特征张量，即输出N’*H’*W’*C’的特征张量。其中，特征张量中N’对应于N，表示输入的目标图像的样本数，H’、W’、C’分别表示特征张量的高度、宽度和通道数。可理解，H’、W’、C’的具体值可在车牌字符识别模型的训练过程中确定。实施例中，W’的数量大于或等于车牌包含字符的最大数量，以便于后续分类器的处理，例如，中国大陆的汽车车牌最多包含8个字符，因此，W’≥8，以保证后续分类器可以准确的识别出每个字符。一个实施例中，将车牌包含字符的最大数量作为当前可识别的字符的总数量，例如，车牌包含字符的最大数量为8，则说明当前最多可同时识别8个字符。此时，实施例中，设定特征张量的宽度大于或等于目标数量，目标数量为可识别字符的总数量。

步骤130、将特征张量输入至各特征融合网络中，并通过特征融合网络得到各字符的特征向量，每个特征融合网络输出一个特征向量。

示例性的，车牌字符识别模型还包括多个特征融合网络。其中，特征融合网络用于对特征张量中包含的特征进行融合，以得到对应字符的特征向量。特征向量的维度小于特征张量的维度。举例而言，将N’*H’*W’*C’的特征张量输入特征融合网络后，由特征融合网络输出H”*W”*C”的特征向量，其中，H”、W”、C”分别表示特征向量的高度、宽度和通道数。一个实施例中，H”和W”为1，C”和C’相等。

一个实施例中，特征融合网络的数量等于目标数量，每个特征融合网络用于输出一个字符的特征向量，即每个特征向量用于表示相应字符的特征。例如，目标数量为8时，将特征张量分别输入8个特征融合网络，以由8个特征融合网络分别输出8个特征向量，每个特征向量表示车牌中对应字符的特征。可理解，目标数量是可识别字符的总数量，而非待识别车牌中字符的总数量，例如，目标数量为8，待识别车牌包含7个字符，那么，本步骤是由8个特征融合网络输出8个特征向量，此时，与第8个字符对应的特征向量会被后续分类器识别为空。

特征融合网络的具体结构可以根据实际情况设定。一个实施例中，特征融合网络采用空间注意力机制，通过空间注意力机制可在特征张量中确定出需要重点关注的特征，进而输出相应的特征向量，其中，重点关注的特征具体为用于描述相应字符的特征。可选的，使用卷积块注意力模块(CBAM)作为特征融合网络，以实现空间注意力机制。实施例中，在采用空间注意力机制时，通过特征融合网络得到各字符的特征向量包括步骤131-步骤134：

步骤131、对特征张量分别进行最大池化操作和平均池化操作，以分别得到最大池化特征张量和平均池化特征张量。

池化是指信息进行抽象的过程，其可达到降维、下采样、去除冗余信息、对特征进行压缩等效果。示例性的，最大池化操作是指取局部接受域中值最大的点，举例而言，确定执行最大池化的树池的矩阵大小，之后，根据矩阵大小将特征张量划分成多个子区域，每个子区域为一个局部接受域，之后，取每个子区域的最大值代表该子区域，并将取得的各最大值组成新的张量，以实现最大池化操作。通过最大池化操作保留了特征张量中的纹理特征。实施例中，将各最大值组成新的张量记为最大池化特征张量。进一步的，平均池化操作是对局部接受域中的所有值求均值。均值池化操作与最大池化操作类似，只是取每个子区域的平均值代表该子区域，以组成新的张量。通过平均池化操作保留了特征张量整体的特征。实施例中，将各平均值组成的新的张量记为平均池化特征张量。可选的，最大池化操作和平均池化操作中使用的树池矩阵大小相同。一个实施例中，最大池化特征张量和平均池化特征张量均为通道数为1的特征张量。

步骤132、根据最大池化特征张量和平均池化特征张量得到融合特征张量。

将最大池化特征张量和平均池化特征张量进行融合，以在后续处理过程中同时参考纹理特征和整体的特征。实施例中，最大池化特征张量和平均池化特征张量融合后仍然得到一张量，实施例中，将融合得到的张量记为融合特征张量。

其中，融合时采用的方式可以根据实际情况设定。实施例中，以连接及求和两种方式描述最大池化特征张量和平均池化特征张量的融合。此时，本步骤可以应用下述方案：

方案一、将最大池化特征张量和平均池化特征张量进行连接，以得到融合特征张量。

其中，连接(concatenate)的作用为特征联合。实施例中，沿通道维将最大池化特征张量和平均池化特征张量进行连接，以得到融合特征张量。举例而言，最大池化特征张量和平均池化特征张量均为通道数为1的张量，沿通道维进行连接后，可以得到通道数为2的融合特征张量，且融合特征张量的高度和宽度与最大池化特征张量和平均池化特征张量的高度和宽度一致。

方案二、对最大池化特征张量和平均池化特征张量进行逐元素求和，以得到融合特征张量。

逐元素运算是指对每个元素均计算独立计算。实施例中，逐元素求和是指对最大池化特征张量和平均池化特征张量中位于相同位置的元素进行求和。一个实施例中，最大池化特征张量和平均池化特征张量的大小相同，因此，最大池化特征张量和平均池化特征张量中相同位置的元素一一对应。在进行逐元素求和时，逐个将相同位置的元素进行相加，以得到融合特征张量。举例而言，最大池化特征张量中某个位置的元素为2，平均池化特征张量中相同位置的元素为1，那么，融合特征向量中该位置的元素为2+1＝3。可理解，融合特征张量、最大池化特征张量以及平均池化特征张量具有相同的通道数、高度和宽度。例如，最大池化特征张量和平均池化特征张量均为通道数为1的特征张量，那么，融合特征张量也是通道数为1的特征张量。

步骤133、根据融合特征张量构建空间注意力图。

示例性的，空间注意力图为二维的数据，其用于指示在特征张量中应局部重点关注的特征，其中，局部重点关注的特征便为对应字符的特征。一个实施例中，对融合特征张量进行逐元素激活后得到空间注意力图。一个实施例中，对融合特征张量进行卷积操作，以得到通道数为1的融合特征张量。即设置一卷积层，该卷积层输出的通道数为1，通过该卷积层对融合特征张量进行卷积操作后得到通道数为1的融合特征张量。之后，再对通道数为1的融合特征张量进行逐元素激活，以得到空间注意力图。可理解，当融合特征张量本身的通道数为1时，可以忽略卷积操作，而直接对融合特征张量进行逐元素激活。

一个实施例中，逐元素激活是指将融合特征张量中的每个元素均通过激活函数进行处理。其中，激活函数的类型可以根据实际情况设定，只需满足激活函数输出的值为非负数(即空间注意力图中各数值为非负数)即可。例如，激活函数采用CBAM中的sigmoid函数、1+tanh函数等。需说明，空间注意力图中各数值可以表示特征张量中对应区域的特征的权重，数值为非负数时可以保证后续特征加权时具有明确的物理意义。

步骤134、根据空间注意力图和特征张量得到待识别车牌中对应字符的特征向量。

根据空间注意力图，确定特征张量中应重点关注的特征，进而根据重点关注的特征得到相应字符的特征向量。

一个实施例中，本步骤134可以包括步骤1341-步骤1343：

步骤1341、将空间注意力图沿通道维自动扩张后得到注意力张量图。

示例性的，将空间注意力图沿通道维自动扩张(broadcast)后，可得到通道数大于1的注意力图，实施例中，将得到的注意力图记为注意力张量图。其中，将空间注意力图沿通道维自动扩张可理解为将二维的空间注意力图沿通道维进行复制，每复制一次，认为自动扩张一次。一个实施例中，自动扩张的次数与特征张量的通道数有关，如自动扩张的次数等于特征张量的通道数，使得注意力张量图的通道数等于特征张量的通道数，进而便于后续逐元素乘法计算。可理解，自动扩张后，仅通道数发生变化。举例而言，空间注意力图的尺寸为h*w*1，其中，h和w分别为空间注意力图的高和宽，1为空间注意力图的通道数。将空间注意力图沿通道维自动扩张c次后，得到的注意力张量图的尺寸为h*w*c，其中，h和w保持不变，c＞1。

步骤1342、对特征张量和注意力张量图进行逐元素乘法后得到乘法张量。

逐元素乘法是指利用注意力张量图对特征张量中每个元素进行乘法运算。示例性的，注意力张量图中每个元素在特征张量中存在对应的一个或多个元素，且空间注意力图中各元素可以表示特征张量中对应区域的特征(即一个或多个元素)的权重，此时，逐元素乘法可理解为将特征张量中的每个元素与注意力张量图中的对应元素进行乘法运算，该过程也可以认为是对特征进行加权的过程。实施例中，将逐元素乘法后得到的张量记为乘法张量。可理解，乘法张量的尺寸与特征张量的尺寸相同。举例而言，特征张量为4维特征张量，其记为X，X的尺寸为n*h*w*c，扩张后的注意力张量图记为W，W的尺寸为n*h*w*c，即特征张量和注意力张量图的尺寸相等，进行逐元素乘法后得到的乘法张量记为M，此时，逐元素乘法的公式如下M[i,j,k,l]＝X[i,j,k,l]*W[i,j,k,l]。其中，X[i,j,k,l]表示X中位置为(i,j,k,l)的元素，其中，i、j、k、l的具体数值分别包含在n、h、w、c中。W[i,j,k,l]表示W中位置为(i,j,k,l)的元素，M[i,j,k,l]表示M中位置为(i,j,k,l)的元素。即将特征张量和注意力张量图中相同位置的元素相乘后，得到了乘法张量。

步骤1343、将乘法张量沿自身的宽度维和高度维进行求和后得到待识别车牌中对应字符的特征向量。

示例性的，将乘法张量中各通道内的元素沿宽度维和高度维进行求和，其中，沿宽度维和高度维进行求和可以理解为将同一通道内、同一宽度下的各元素求和后，再将同一高度的各和值进行相加，即将同一通道内的各元素进行相加。沿高度维和宽度维进行求和后，可得到高度和宽度均为1且通道数不变的向量，实施例中，将得到的向量记为对应字符的特征向量。举例而言，乘法张量的尺寸为h’*w’*c’，其中，h’、w’、c’分别表示乘法张量的高度、宽度和通道数，对乘法张量沿高度维和宽度维求和后，可得到1*1*c’(即得到尺寸为1*c’)的特征向量。

可选的，若特征向量中通道数过大，则得到特征向量后，可以通过全连接层对特征向量进行降维，以减小特征向量的通道数。其中，全连接层可以实现特征的综合。可理解，由于特征张量和特征向量的通道数相等，那么为了避免特征向量中通道数过大的情况，也可以在主干网络训练过程中，调整其输出的特征张量的通道数，以得到通道数较小的特征张量，进而得到通道数较小的特征向量。

需说明，按照上述方式得到特征向量时，特征融合网络可包括最大池化层(用于最大池化操作)、平均池化层(用于平均池化操作)、特征融合层(用于特征连接或逐元素相加)、卷积层(可选的，融合特征张量为1时也可以不设置)、激活函数层(用于得到空间注意力图)、自动扩张部分(用于进行自动扩张)、逐元素乘法部分(用于进行逐元素乘法)、求和部分(用于沿宽度维和高度维进行求和)。各特征融合网络按照上述步骤操作后，可分别得到各字符的特征向量。

另一个实施例中，特征融合网络除了采用空间注意力机制外，还可以采用可学习的掩码机制。其中，可学习的掩码机制是指引入掩码参数(mask)，实施例中，掩码参数的作用与空间注意力图的作用类似，通过掩码参数可对特征张量中的部分特征(即非对应字符的特征)进行遮挡，以使特征融合网络仅关注特征张量中对应字符的特征，进而得到特征向量。实施例中，在采用可学习的掩码机制时，将所述特征张量输入至各特征融合网络中，并通过特征融合网络得到各字符的特征向量包括步骤135-步骤136：

步骤135、获取每个特征融合网络对应的掩码参数。

其中，掩码参数是指是可学习的参数，其在车牌字符识别模型训练过程中被优化，即在训练车牌字符识别模型时就引入了掩码参数，并使掩码参数跟随车牌字符识别模型的训练过程而进行优化，以使得优化后的掩码参数可以遮挡特征张量中非对应字符的特征。每个特征融合网络对应一个掩码参数，各掩码参数的尺寸相同。一个实施例中，掩码参数的尺寸为H’*W’*1，其中，即掩码参数的高度和宽度与特征张量的高度和宽度相等，通道数为1。车牌字符识别模型训练完成后，记录各特征融合网络对应的掩码参数，以在本步骤中可直接获取各特征融合网络的掩码参数。

一个实施例中，同空间注意力图相似，掩码参数也为非负参数。可选的，为了保证掩码参数为非负参数，在训练车牌字符识别模型的过程中，每更新一次掩码参数后，对掩码参数进行一次截断操作，其中，截断操作具体为将掩码参数中的负数置零，以保证每次更新的掩码参数均为非负参数。可理解，训练车牌字符识别模型时，每更新模型参数时均同时更新掩码参数。还可选的，获取每个特征融合网络对应的掩码参数时，对掩码参数进行softmax归一化，以保证掩码参数为非负参数，其中，归一化是指将数据限定在一定的范围内，softmax归一化是指通过softmax函数实现归一化，实施例中，softmax函数可以将数据限定在(0,1)之间，通过softmax函数处理掩码参数后，便可以使掩码参数为非负参数。

步骤136、将掩码参数和特征张量输入至对应的特征融合网络，以通过特征融合网络得到对应字符的特征向量。

具体的，将掩码参数和特征张量输入至特征融合网络后，特征融合网络可以根据掩码参数在特征张量中仅关注对应字符的特征，进而输出相应的特征向量。其中，特征融合网络处理掩码参数和特征张量的过程与上述实施例中处理空间注意力图和特征张量的过程相同，即先将掩码参数沿通道维自动扩张后，对特征张量和自动扩张后的掩码参数进行逐元素乘法，之后，将逐元素乘法后得到的张量沿宽度维和高度维进行求和后得到对应字符的特征向量，其具体过程可参考上述实施例。

每个特征融合网络按照上述方式进行处理后，便可以得到对应字符的特征向量。

步骤140、将每个特征向量分别输入至对应的分类器中，利用分类器得到各字符的字符识别结果，每个分类器输出一个字符识别结果。

示例性的，车牌字符识别模型还包括多个分类器。其中，分类器的数量与特征融合网络的数量相等，均为目标数量，此时，每个分类器对应一个字符，其用于根据特征向量在类别空间中确定字符的内容，进而得到字符识别结果。其中，字符识别结果是指字符的具体内容。可理解，类别空间是相应字符可选择内容的集合，其可以作为先验信息。可选的，获取车牌中当前位置的字符可出现的全部内容组成该字符对应的类别空间，并与对应的分类器关联。举例而言，中国大陆汽车的车牌为例，第一个字符为省(直辖市、自治区)的汉字简称，因此，可以将各省(直辖市、自治区)的汉字简称的集合作为类别空间，每个汉字简称作为类别空间中的一个元素，此时，类别空间共有31个元素。第二个字符为大写的英文字母，由于英文字母I和O不用于大陆汽车的车牌，因此，第二个字符对应的类别空间可以由除I和O外剩余的24个大写的英文字母组成。第三个字符至第六个字符对应的类别空间均可包括10个阿拉伯数字(数字0至数字9)和24个大写英文字母。第七个字符的类别空间除包括10个阿拉伯数字和24个大写英文字母外，还包括“港”、“澳”、“警”、“学”、“挂”五个汉字，以使车牌字符识别模型可识别在大陆通行的香港车、澳门车、警车、驾校的教练车和挂车的车牌。第八个字符的类别空间包括10个阿拉伯数字、24个大写英文字母、“港”、“澳”、“警”、 “学”、“挂”和“空”。其中，“空”是指对应字符为空，即待识别车牌有7个字符，不存在第8个字符。

之后，分类器根据特征向量在类别空间中选择最接近的元素作为字符识别结果。

示例性的，分类器的具体结构可根据实际情况设定，实施例中以分类器包括全连接层和激活函数层为例进行描述。此时，利用分类器得到各所述字符的字符识别结果包括步骤141-步骤142：

步骤141、利用分类器的全连接层结合相应的类别空间确定特征向量的对数向量，每个分类器对应一个类别空间。

实施例中，分类器通过softmax函数实现分类,softmax函数分类过程中输入softmax函数的向量为对数(logits)向量，其通过全连接层得到。其中，全连接层的数量可以为一个或多个，实施例中，以一个全连接层为例进行描述。示例性的，将特征向量输入全连接层，全连接层根据该特征向量确定类别空间中各元素为字符具体内容的logits值，该logits值可理解为全连接层输出未经过softmax函数时，用于描述元素属于字符具体内容的概率的值，进而将各logits值排列后输出对数向量。可理解，对数向量为1*n的向量，其中，n的取值通过类别空间中元素的个数决定。例如，中国大陆车牌的第二个字符对应的类别空间中包含24个大写的英文字母(字母I和O不用于车牌)，因此，相应分类器的全连接层输出的对数向量为1*24的向量，即当前每个分类器接收1*C”的特性向量后输出1*24的对数向量。

步骤142、利用分类器的损失函数预测出对数向量的概率向量，并根据概率向量得到对应字符的字符识别结果。

其中，损失函数为softmax函数，将1*n的对数向量经过softmax函数后输出1*n的向量，该向量的意义是代表字符的具体内容属于分类空间中对应元素的概率，因此，实施例中将softmax函数输出的向量记为概率向量。具体的，概率向量中的数值越高，该数值在类别空间中对应的元素为对应字符的概率越大。进一步的，根据概率向量选择类别空间中对应概率最大的元素作为对应字符的字符识别结果。可理解，字符识别结果可为空，例如，当前车牌共7个字符，车牌字符识别模型可识别8个字符，那么，第8个字符对应的字符识别结果为“空”。

示例性的，将各字符的字符识别结果按顺序排列后作为待识别车牌的车牌识别结果。

上述，通过获取包含待识别车牌的目标图像，并利用主干网络得到待识别车牌的特征张量，利用特征融合网络得到待识别车牌中各字符的特征向量，利用分类器得到各字符的字符识别结果的技术手段，解决了在车牌图像质量较低时无法对车牌字符进行准确识别的技术问题。上述技术手段不涉及字符分割，而是直接对各字符进行预测，避免了对字符分割的依赖。并且，对主干网络、特征融合网络和分类器的结构限定较小，可以根据实际情况进行调整，使得上述方案的灵活性更高。无需引入CTC，提高了车牌识别的效率，便于部署应用。待识别车牌中每个字符对应一个特征融合网络和分类器，可以保证得到定长的字符识别结果。通过为每个位置的字符设置对应的类别空间，可以减小预测难度，提高预测准确率。并且，通过在类别空间中添加“空”的汉字，可实现对不同字符数量的车牌进行识别，如实现对7个字符的车牌和8个字符的车牌的识别，增加了技术方案的复用性，无需再训练额外的车牌字符识别模型。

在上述实施例的基础上，车牌可以包括单层的车牌和双层的车牌，例如，图1所示的车牌为单层的车牌，图4所示的车牌为双层的车牌，其中，图4为本申请实施例提供的一种双层字符车牌的示意图。参考图4，该车牌为双层字符，包括上下两层。需说明图4中下层的前3个字符经过了模糊处理，以避免信息泄露。实施例中，将单层的车牌记为单层字符车牌，双层的车牌记为双层字符车牌。对于双层字符车牌而言，为了避免上下层字符间特征影响后续识别的准确度。因此，实施例中，设定待识别车牌为双层字符车牌时，步骤130之前，还包括步骤210：

步骤210、对特征张量分别进行特征选择操作，以分别得到特征张量的第一分区张量和第二分区张量，第一分区张量对应于双层字符车牌的上层字符，第二分区张量对应于双层字符车牌的下层字符。

可理解，对于双层字符车牌而言，通过主干网络得到特征张量中的高度应大于1，以避免两层字符的特征间存在混淆。此时，主干网络提取待识别车牌的特征张量时，各字符对应的特征在特征张量中的位置与字符在待识别车牌中的位置相似，此时，上层字符的特征位于特征张量的顶端，下层字符的特征位于特征张量的底端。据此，将特征张量分为两个区，顶端部分对应一个分区，其为双层字符车牌中上层字符对应的特征张量，底端部分对应一个分区，其为双层字符车牌中下层字符对应的特征张量。实施例中，将顶端部分对应的分区记为第一分区张量，将底端部分对应的分区记为第二分区张量。示例性的，第一分区张量和第二分区张量间的分界线可根据双层字符车牌所在的像素坐标区域的高度决定，一个实施例中，确定分界线时引入一参数，该参数大于0且小于1，该参数与特征张量的高度相乘后，便可以确定分界线的高度。例如，该参数为0.4，特征张量的高度为10，那么，分界线的高度为0.4*10＝4，此时，第一分区张量对应[0-4]高度的特征张量，第二分区张量对应[4-10]高度的特征张量。一个实施例中，设定参数后，根据该参数和特征张量的高度确定的分界线可能不是整数，此时，进行取整操作，以保证第一分区张量和第二分区张量的高度为整数值。其中，取整操作的实现方式可根据实际情况设定，举例而言，设定的参数为a，特征张量的高度为H’，若a*H’不是整数，则通过round(aH’)+1的方式得到整数分界线，其中，round()表示四舍五入，即对aH’进行四舍五入后再加1以得到整数的分界线，或者，通过floor(aH’)+1的方式得到整数分界线，其中，floor()表示向下取整，即对aH’进行向下取整后再加1以得到整数的分界线，或者，通过ceil(aH’)的方式得到整数分界线，其中，ceil()表示向上取整，即对aH’进行向上取整以得到整数的分界线。

一个实施例中，在车牌字符识别模型中增加特征选择操作，以通过特征选择操作对特征张量进行切片，进而得到第一分区张量和第二分区张量。示例性的，通过特征选择操作对特征张量进行切片后，将其分成上下两层，上一层为第一分区张量，第一分区张量为车牌的第一层中各字符对应的特征张量，下一层为第二分区张量，第二分区张量为车牌的第二层中各字符对应的特征向量。一个实施例中，将特征张量输入特征融合网络之前，先对特征张量进行特征选择操作，此时，进行特征选择操作的次数与特征融合网络的数量相等，其中，一部分特征选择操作从特征张量中选择出第一分区张量，并输入至上层字符对应的特征融合网络，另一部分特征选择操作从特征张量中选择出第二分区张量，并输入至下层字符对应的特征融合网络。

示例性的，进行特征选择操作时，先根据设定的参数确定分界线，并在分界线不是整数时进行取整操作，之后，根据分界线对特征张量进行切片，并选择对应的第一分区张量或第二分区张量。比如，在特征选择操作中设置参数a。此时，对特征张量进行特征选择操作时，根据参数a和特征张量的高度确定分界线，并根据分界线对特征张量进行切片(其中，根据参数a生成分界线的方式可以参照前述的内容)。一个实施例中，可以预先设置当前的特征选择操作用于选择第一分区张量还是选择第二分区张量，当根据分界线对特征张量进行切片后，便可以输出对应的分区张量。

一个实施例中，将待识别车牌映射到设定的像素坐标区域时可能存在误差，该误差可导致上层字符位置靠下或者下层字符位置靠上，此时，对特征张量进行切片时，会出现第一分区张量没有完全覆盖上层字符的特征或第二分区张量没有完全覆盖下层字符的特征的情况，进而影响后续处理的准确性。为了防止上述情况发生，实施例中，设置第一分区张量和第二分区张量间存在重叠的分区张量。示例性的，重叠的分区张量是指第一分区张量和第二分区张量中存在部分相同的元素，该元素通常为上层字符和下层字符中间区域的特征像素，其中，重叠的分区张量的高度可根据实际情况设定，举例而言，设定第一分区张量的高度为[0-3]，第二分区张量的高度为[2-6]，即第一分区张量和第二分区张量间存在[2-3]高度中重叠的元素。

一个实施例中，为了便于特征选择操作切分特征张量，利用主干网络处理目标图像，以得到待识别车牌的特征张量时，还包括：利用主干网络对特征张量进行下采样处理。其中，下采样的方式和次数可根据特征张量的高度确定。例如，特征张量的高度为48时，采用平均池化的方式进行两次下采样后，得到高度为12的特征张量。再如，采用最大池化的方式进行三次下采样后，得到高度为6的特征张量。可理解，此时，主干网络输出的特征张量是指下采样后的特征张量。

一个实施例中，由于特征张量被分为第一分区张量和第二分区张量，因此，将特征张量输入至各特征融合网络包括：将第一分区张量输入至上层字符对应的各特征融合网络，并将第二分区张量输入至所述下层字符对应的各特征融合网络。示例性的，将特征融合网络分为上层字符对应的特征融合网络和下层字符对应的特征融合网络，此时，上层字符的特征融合网络可得到对应的上层字符的特征向量，下层字符的特征融合网络可得到对应下层字符的特征向量。可理解，上层字符对应的特征融合网络的数量与上层字符包含的字符数量相等。举例而言，中国大陆汽车的双层字符车牌中，上层字符共有2个，因此，设置2个特征融合网络对应上层字符，用于接收第一分区张量，下层字符共有5个，因此，设置5个特征融合网络对应下层字符，用于接收第二分区张量。

上述，通过设置特征选择操作，可以实现对双层字符车牌的识别。并且，利用特征选择操作得到的第一分区张量和第二分区张量间存在重叠的元素，可以避免第一分区张量和第二分区张量未包含字符的完整特征的情况，保证了识别准确性。对特征张量进行下采样后再经过特征选择操作进行切分，可以保证特征选择操作切分高度较小的特征张量，降低了特征选择操作切分时的难度。

下面对本申请实施例提供的技术方案进行示例性描述：

示例一、图5为本申请实施例提供的一种车牌字符识别模型的结构示意图。图5所示的车牌字符识别模型可识别单层字符车牌。参考图5，该车牌字符识别模型包括一个主干网络(Backbone)、8个特征融合网络(FeatFuse1-FeatFuse8)和8个分类器(Classilier1-Classilier8)，该车牌字符识别模型用于识别中国大陆汽车的车牌，其中，第一个分类器对应的类别空间包含31个元素，分别为各省(台湾省除外)、直辖市和自治区的简称，第二个分类器对应的类别空间包含24个元素，分别为除I和O外的24个大写英文字母，第三至第七个分类器对应的类别空间包含34个元素，分别为阿拉伯数字0-9以及除I和O外的24个大写英文字母。第八个分类器对应的类别空间包含35个元素，其与第三至第七个分类器对应的类别空间相比，多了汉字“空”，以使车牌字符识别模型识别7个字符的车牌或8个字符的车牌。

举例而言，图6为本申请实施例提供的一种目标图像，其包含的待识别车牌为“京P***27”，共有7个字符，其中，为了避免信息泄露，待识别车牌中第三至第五个字符进行了模糊处理。可理解，该目标图像中的待识别车牌已经被映射到设定的像素坐标区域中。此时，将目标图像输入至车牌字符识别模型时，具体输入1*32*100*3的张量，即输入1张高度为32、宽度为100、通道数为3的目标图像。之后，主干网络处理该目标图像，以输出1*1*25*512*的特征张量。得到特征张量后，分别将特征张量输入至8个特征融合网络。其中，当特征融合网络采用空间注意力机制时，图7为本申请实施例提供的一种空间注意力图生成流程示例图。参考图7，特征张量的高度为1、宽度为25、通道数为512，对特征张量13分别进行最大池化(maximum pooling，MP)操作和平均池化(average pooling，AP)操作，以分别得到通道数为1的最大池化特征张量14和平均池化特征张量15，最大池化特征张量和平均池化特征张量的高度均为1、宽度均为25、通道数均为1，之后，通过连接(Cat)的方式连接最大池化特征张量14和平均池化特征张量15，以得到通道数为2的融合特征张量16，其中，融合特征张量的高度为1、宽度为25、通道数为2，之后，经过卷积(Cnov)和激活函数(Act)的操作，以得到空间注意力图17，其中，空间注意力图的高度为1、宽度为25、通道数为1。或者，图8为本申请实施例提供的另一种空间注意力图生成流程示例图。参考图8，对特征张量13分别进行最大池化(maximum pooling，MP)操作和平均池化(average pooling，AP)操作，以分别得到通道数为1的最大池化特征张量14和平均池化特征张量15，其中，最大池化特征张量和平均池化特征张量的高度均为1、宽度均为25、通道数均为1，之后，通过逐元素求和(sum)的方式得到通道数为1的融合特征张量18，其中，融合特征张量的高度为1、宽度为25、通道数为1，之后，经过卷积(Cnov)和激活函数(Act)的操作，以得到空间注意力图19，其中，空间注意力图的高度为1、宽度为25、通道数为1。可理解，当前使用的卷积操作为可选操作。之后，根据空间注意力图和特征张量得到1×512的特征向量。之后，将8个特征向量分别输入至8个分类器中，以通过分类器输出对应的字符识别结果，其中，第1个分类器输出的字符识别结果为“京”，第2个分类器输出的字符识别结果为“P”……第7个分类器输出的字符识别结果为“7”，第8个分类器输出的字符识别结果为“空”，将上述各字符识别结果结合后，可以得到待识别车牌的最终识别结果。

再举例而言，图9为本申请实施例提供的另一种目标图像，其包含的待识别车牌为“粤B***710”，共有8个字符，其中，为了避免信息泄露，待识别车牌中第三至第五个字符进行了模糊处理。可理解，该目标图像中的待识别车牌已经被映射到设定的像素坐标区域中。此时，将目标图像输入至车牌字符识别模型时，具体输入1*32*100*3的张量，即输入1张高度为32、宽度为100、通道数为3的目标图像。之后，主干网络处理该目标图像，以输出1*1*25*512*的特征张量。之后，将特征张量分别输入至8个特征融合网络以分别得到8个1×512的特征向量。之后，将8个特征向量分别输入至8个分类器中，以通过分类器输出对应的字符识别结果，其中，第1个分类器输出的字符识别结果为“粤”，第2个分类器输出的字符识别结果为“B”……第7个分类器输出的字符识别结果为“1”，第8个分类器输出的字符识别结果为“0”，将上述各字符识别结果结合后，可以得到待识别车牌最终的识别结果。

示例二、图10为本申请实施例提供的另一种车牌字符识别模型的结构示意图。图10所示的车牌字符识别模型可识别双层字符车牌。参考图10，由于双层字符车牌通常包含7个字符，因此，该车牌字符识别模型包括一个主干网络(Backbone)、7个特征融合网络(FeatFuse1-FeatFuse1)和7个分类器(Classifier1-Classifier7)，并在车牌字符识别模型中设置特征选择操作，其中，将输出第一分区张量的特征选择操作记为置FeatSelectA，此时，第一个特征融合网络和第二个特征融合网络采用FeatSelectA，将输出第二分区张量的特征选择操作记为置FeatSelectB，第三个特征融合网络至第七个特征融合网络采用FeatSelectB。图10中将特征选择选择和特征融合网络结合在一起示出，其中，该车牌字符识别模型用于识别中国大陆汽车的车牌。第一个分类器对应的类别空间包含31个元素，分别为各省(台湾省除外)、直辖市和自治区的简称，第二个分类器对应的类别空间包含24个元素，分别为除I和O外的24个大写英文字母，第三至第六个分类器对应的类别空间包含34个元素，分别为阿拉伯数字0-9和除I和O外的24个大写英文字母，第七个分类器对应的类别空间包括39个元素，分别为阿拉伯数字0-9、除I和O外的24个大写英文字母以及“挂”。

举例而言，图11为本申请实施例提供的又一种目标图像，其包含的待识别车牌为“京A***3挂”，共有7个字符，其中，为了避免信息泄露，待识别车牌中第三至第五个字符进行了模糊处理。可理解，该目标图像中的待识别车牌已经被映射到设定的像素坐标区域中。此时，将目标图像输入至车牌字符识别模型时，具体输入1*48*100*3的张量，即输入1张高度为48、宽度为100、通道数为3的目标图像。之后，主干网络处理该目标图像，以输出1*6*25*512的特征张量。之后，将特征张量分别经过特征选择操作和特征融合网络，以得到7个1×512的特征向量。其中，图12为本申请实施例提供的特征选择示意图，其为特征选择操作对特征张量进行切分时的示意图。参考图12，根据特征张量的高度6和设定的参数a，将特征张量切分成[0-a*6]*25*512的第一分区张量A和[a*6-h]*25*512的第二分区张量B，其中，h为6。可理解，特征融合网络的处理过程可参照上述示例。之后，将7个特征向量分别输入至7个分类器中，以通过分类器输出对应的字符识别结果，其中，第1个分类器输出的字符识别结果为“京”，第2个分类器输出的字符识别结果为“A”……第7个分类器输出的字符识别结果为“挂”，将上述各字符识别结果结合后，可以得到待识别车牌最终的识别结果。

图13为本申请实施例提供的一种车牌字符识别装置的结构示意图，参考图13，该车牌字符识别装置包括图像获取模块301、特征张量确定模块302、特征向量确定模块303和识别结果确定模块304。

其中，图像获取模块301，用于获取至少一张目标图像，目标图像中显示有待识别车牌，待识别车牌中包含多个字符；特征张量确定模块302，用于利用主干网络处理目标图像，以得到待识别车牌的特征张量；特征向量确定模块303，用于将特征张量输入至各特征融合网络中，并通过特征融合网络得到各字符的特征向量，每个特征融合网络输出一个特征向量；识别结果确定模块304，用于将每个特征向量分别输入至对应的分类器中，并利用分类器得到各字符的字符识别结果，每个分类器输出一个字符识别结果。

在上述实施例的基础上，特征向量确定模块303包括：张量输入单元，用于将特征张量输入至各特征融合网络中；池化单元，用于对特征张量分别进行最大池化操作和平均池化操作，以分别得到最大池化特征张量和平均池化特征张量；融合单元，用于根据最大池化特征张量和平均池化特征张量得到融合特征张量；注意力图获取单元，用于根据融合特征张量构建空间注意力图；向量确定单元，用于根据空间注意力图和特征张量得到待识别车牌中对应字符的特征向量。

在上述实施例的基础上，融合单元具体用于：将最大池化特征张量和平均池化特征张量进行连接，以得到融合特征张量；或；对最大池化特征张量和平均池化特征张量进行逐元素求和，以得到融合特征张量。

在上述实施例的基础上，向量确定单元包括：自动扩张子单元，用于将空间注意力图沿通道维自动扩张后得到注意力张量图；乘法子单元，用于对特征张量和注意力张量图进行逐元素乘法后得到乘法张量；求和子单元，用于将乘法张量沿自身的宽度维和高度维进行求和后得到待识别车牌中对应字符的特征向量。

在上述实施例的基础上，特征向量确定模块303包括：掩码获取单元，用于获取每个特征融合网络对应的掩码参数；掩码输入单元，用于将掩码参数和特征张量输入至对应的特征融合网络，以通过特征融合网络得到对应字符的特征向量。

在上述实施例的基础上，掩码参数为非负参数。

在上述实施例的基础上，识别结果确定模块304包括：向量输入单元，用于将每个特征向量分别输入至对应的分类器中；对数向量确定单元，用于利用分类器的全连接层结合相应的类别空间确定特征向量的对数向量，每个所述分类器对应一个类别空间；概率向量确定单元，用于利用分类器的损失函数预测出对数向量的概率向量，并根据概率向量得到对应字符的字符识别结果。

在上述实施例的基础上，待识别车牌为双层字符车牌；该装置还包括：分区模块305，用于将特征张量输入至各特征融合网络之前，对所述特征张量分别进行特征选择操作，以分别得到特征张量的第一分区张量和第二分区张量，第一分区张量对应于双层字符车牌的上层字符，第二分区张量对应于双层字符车牌的下层字符。相应的，特征向量确定模块303可以用于将第一分区张量输入至上层字符对应的各特征融合网络，并将第二分区张量输入至下层字符对应的各特征融合网络，通过特征融合网络得到各字符的特征向量，每个特征融合网络输出一个特征向量。

在上述实施例的基础上，第一分区张量和第二分区张量间存在重叠的分区张量。

在上述实施例的基础上，特征张量确定模块302，还用于利用主干网络对特征张量进行下采样处理。

在上述实施例的基础上，特征张量的宽度大于或等于目标数量，目标数量为可识别字符的总数量。

在上述实施例的基础上，该装置还包括：映射模块，用于获取至少一张目标图像之后，将目标图像中的待识别车牌映射到设定的像素坐标区域中。

上述提供的车牌字符识别装置可用于执行上述任意实施例提供的车牌字符识别方法，具备相应的功能和有益效果。

值得注意的是，上述车牌字符识别装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

图14为本申请实施例提供的一种车牌字符识别设备的结构示意图。如图14所示，该车牌字符识别设备包括处理器40、存储器41、输入装置42、输出装置43、拍摄装置44和移动装置45；车牌字符识别设备中处理器40的数量可以是一个或多个，图14中以一个处理器40为例。车牌字符识别设备中处理器40、存储器41、输入装置42、输出装置43、拍摄装置44和移动装置45可以通过总线或其他方式连接，图14中以通过总线连接为例。

存储器41作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例中的车牌字符识别方法对应的程序指令/模块(例如，车牌字符识别装置中的图像获取模块301、特征张量确定模块302、特征向量确定模块303和识别结果确定模块304)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块，从而执行车牌字符识别设备的各种功能应用以及数据处理，即实现上述的车牌字符识别方法。

存储器41可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据车牌字符识别设备的使用所创建的数据等。此外，存储器41可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器41可进一步包括相对于处理器40远程设置的存储器，这些远程存储器可以通过网络连接至车牌字符识别设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置42可用于接收输入的数字或字符信息，以及产生与车牌字符识别设备的用户设置以及功能控制有关的键信号输入。输出装置43可包括显示屏等显示设备。拍摄装置44用于拍摄目标图像，移动装置45用于控制车牌字符识别设备进行移动。车牌字符识别设备还可包括通信装置，以与其他设备进行数据通信。

上述车牌字符识别设备包含车牌字符识别装置，可以用于执行任意车牌字符识别方法，具备相应的功能和有益效果。

此外，本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行本申请任意实施例所提供的车牌字符识别方法中的相关操作，且具备相应的功能和有益效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。

因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

一种车牌字符识别方法，其中，包括：

获取至少一张目标图像，所述目标图像中显示有待识别车牌，所述待识别车牌中包含多个字符；

利用主干网络处理所述目标图像，以得到所述待识别车牌的特征张量；

将所述特征张量输入至各特征融合网络中，并通过所述特征融合网络得到各所述字符的特征向量，每个所述特征融合网络输出一个特征向量；

将每个所述特征向量分别输入至对应的分类器中，并利用所述分类器得到各所述字符的字符识别结果，每个所述分类器输出一个字符识别结果。
根据权利要求1所述的车牌字符识别方法，其中，所述通过所述特征融合网络得到各所述字符的特征向量包括：

对所述特征张量分别进行最大池化操作和平均池化操作，以分别得到最大池化特征张量和平均池化特征张量；

根据所述最大池化特征张量和所述平均池化特征张量得到融合特征张量；

根据所述融合特征张量构建空间注意力图；

根据所述空间注意力图和所述特征张量得到所述待识别车牌中对应字符的特征向量。
根据权利要2所述的车牌字符识别方法，其中，所述根据所述最大池化特征张量和所述平均池化特征张量得到融合特征张量包括：

将所述最大池化特征张量和所述平均池化特征张量进行连接，以得到融合特征张量；或；

对所述最大池化特征张量和所述平均池化特征张量进行逐元素求和，以得到融合特征张量。
根据权利要求2所述的车牌字符识别方法，其中，所述根据所述空间注意力图和所述特征张量得到所述待识别车牌中对应字符的特征向量包括：

将所述空间注意力图沿通道维自动扩张后得到注意力张量图；

对所述特征张量和所述注意力张量图进行逐元素乘法后得到乘法张量；

将所述乘法张量沿自身的宽度维和高度维进行求和后得到所述待识别车牌中对应字符的特征向量。
根据权利要求1所述的车牌字符识别方法，其中，所述将所述特征张量输入至各特征融合网络中，并通过所述特征融合网络得到各所述字符的特征向量包括：

获取每个特征融合网络对应的掩码参数；

将所述掩码参数和所述特征张量输入至对应的特征融合网络，以通过所述特征融合网络得到对应字符的特征向量。
根据权利要求5所述的车牌字符识别方法，其中，所述掩码参数为非负参数。
根据权利要求1所述的车牌字符识别方法，其中，所述利用所述分类器得到各所述字符的字符识别结果包括：

利用所述分类器的全连接层结合相应的类别空间确定所述特征向量的对数向量，每个所述分类器对应一个类别空间；

利用所述分类器的损失函数预测出所述对数向量的概率向量，并根据所述概率向量得到对应字符的字符识别结果。
根据权利要求1所述的车牌字符识别方法，其中，所述待识别车牌为双层字符车牌；

所述将所述特征张量输入至各特征融合网络之前，还包括：

对所述特征张量分别进行特征选择操作，以分别得到所述特征张量的第一分区张量和第二分区张量，所述第一分区张量对应于所述双层字符车牌的上层字符，所述第二分区张量对应于所述双层字符车牌的下层字符；

所述将所述特征张量输入至各特征融合网络包括：

将所述第一分区张量输入至所述上层字符对应的各特征融合网络，并将所述第二分区张量输入至所述下层字符对应的各特征融合网络。
根据权利要求8所述的车牌字符识别方法，其中，所述第一分区张量和所述第二分区张量间存在重叠的分区张量。
根据权利要求8所述的车牌字符识别方法，其中，所述利用主干网络处理所述目标图像，以得到所述待识别车牌的特征张量时，还包括：

利用所述主干网络对所述特征张量进行下采样处理。
根据权利要求1所述的车牌字符识别方法，其中，所述特征张量的宽度大于或等于目标数量，所述目标数量为可识别字符的总数量。
根据权利要求1所述的车牌字符识别方法，其中，所述获取至少一张目标图像之后，还包括：

将所述目标图像中的待识别车牌映射到设定的像素坐标区域中。
一种车牌字符识别装置，其中，包括：

图像获取模块，用于获取至少一张目标图像，所述目标图像中显示有待识别车牌，所述待识别车牌中包含多个字符；

特征张量确定模块，用于利用主干网络处理所述目标图像，以得到所述待识别车牌的特征张量；

特征向量确定模块，用于将所述特征张量输入至各特征融合网络中，并通过所述特征融合网络得到各所述字符的特征向量，每个所述特征融合网络输出一个特征向量；

识别结果确定模块，用于将每个所述特征向量分别输入至对应的分类器中，并利用所述分类器得到各所述字符的字符识别结果，每个所述分类器输出一个字符识别结果。
一种车牌字符识别设备，其中，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-12中任一所述的车牌字符识别方法。
一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如权利要求1-12中任一所述的车牌字符识别方法。