WO2022022704A1

WO2022022704A1 - 序列识别方法、装置、图像处理设备和存储介质

Info

Publication number: WO2022022704A1
Application number: PCT/CN2021/109764
Authority: WO
Inventors: 许昀璐
Original assignee: 上海高德威智能交通系统有限公司
Priority date: 2020-07-30
Filing date: 2021-07-30
Publication date: 2022-02-03
Also published as: EP4191471A4; US20230274566A1; EP4191471A1; CN111860682B; CN111860682A

Abstract

一种序列识别方法、装置、图像处理设备和存储介质，属于图像识别技术领域。所述方法包括：通过图像识别模型对待识别的目标图像进行特征提取，得到第一特征图，所述第一特征图中包括多个第一图像特征；基于所述图像识别模型中的卷积神经网络层和全连接层，对所述第一特征图进行时序关系提取，得到融合所述目标图像包括的上下位信息的第二特征图，所述第二特征图中包括多个第二图像特征；基于所述多个第一图像特征和所述多个第二图像特征，对所述目标图像并行进行字符识别，得到字符序列。由于第二特征图中包含了字符之间的时序关系；这样就能够基于第一特征图和第二特征图并行进行字符识别，提高了字符识别效率。

Description

序列识别方法、装置、图像处理设备和存储介质

本申请要求于2020年07月30日提交的、申请号为202010751330.X、发明名称为“序列识别方法、装置、图像处理设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及图像识别技术领域，特别涉及一种序列识别方法、装置、图像处理设备和存储介质。

背景技术

随着图像识别技术的发展，利用图像识别模型进行序列识别应用越来越广泛；例如，通过图像识别模型识别车牌号码、条形码等序列。然而由于车牌号码或者条形码一般包括多个，通过串行识别方式进行识别，从而导致识别的效率低。因此，需要一种序列识别方法，来提供识别的效率。

发明内容

本申请实施例提供了一种序列识别方法、装置、图像处理设备和存储介质，能够提高序列识别效率。所述技术方案如下：

一方面，提供了一种序列识别方法，所述方法包括：

通过图像识别模型对待识别的目标图像进行特征提取，得到第一特征图，所述第一特征图中包括多个第一图像特征；

基于所述图像识别模型中的卷积神经网络层和全连接层，对所述第一特征图进行时序关系提取，得到融合所述目标图像包括的上下位信息的第二特征图，所述第二特征图中包括多个第二图像特征；

基于所述多个第一图像特征和所述多个第二图像特征，对所述目标图像并行进行字符识别，得到字符序列。

可选地，所述基于所述多个第一图像特征和所述多个第二图像特征，对所述目标图像并行进行字符识别，得到字符序列，包括：

基于所述多个第一图像特征和所述多个第二图像特征，确定多组图像特征，每组图像特征中包括相同特征位置的第一图像特征和第二图像特征；

对所述多组图像特征并行进行字符识别；

基于已识别出的多个字符，生成字符序列。

可选地，所述对所述多组图像特征并行进行字符识别，包括：

对所述多组图像特征中的第一图像特征和第二图像特征进行矩阵运算，得到第三特征图，所述第三特征图中包括多个第三图像特征，所述第三图像特征为相同特征位置的第一图像特征和第二图像特征通过矩阵运算得到的；

对所述多个第三图像特征并行进行解码，识别每个图像特征对应的字符。

可选地，所述第一图像特征的尺寸为B×C1×H×W；所述第二图像特征的尺寸为B×T×H×W；所述第三图像特征的尺寸为B×C1×T；

其中，所述B为所述图像识别模型的批量参数、C1为所述图像识别模型的特征通道数；H为特征图高度，W为特征图宽度，T为预测序列长度。

可选地，所述基于所述图像识别模型中的卷积神经网络层和全连接层，对所述第一特征图进行时序关系提取，得到融合所述目标图像包括的上下位信息的第二特征图，包括：

通过所述卷积神经网络层对所述第一特征图的通道数进行变换处理，得到融合所述目标图像包括的上下位信息的第四特征图；

通过所述全连接层，将所述第四特征图中的通道映射到预设序列长度上，得到所述第二特征图。

可选地，所述方法还包括：

获取多个样本图像，每个样本图像标注所述样本图像中的字符序列；

基于所述多个样本图像和每个样本图像标注的字符序列，通过卷积神经网络，训练所述图像识别模型。

另一方面，提供了一种序列识别装置，所述装置包括：

提取模块，用于通过图像识别模型对待识别的目标图像进行特征提取，得到第一特征图，所述第一特征图中包括多个第一图像特征；

处理模块，用于基于所述图像识别模型中的卷积神经网络层和全连接层，对所述第一特征图进行时序关系提取，得到融合所述目标图像包括的上下位信息的第二特征图，所述第二特征图中包括多个第二图像特征；

识别模块，用于基于所述多个第一图像特征和所述多个第二图像特征，对所述目标图像并行进行字符识别，得到字符序列。

可选地，所述识别模块，包括：

确定单元，用于基于所述多个第一图像特征和所述多个第二图像特征，确定多组图像特征，每组图像特征中包括相同特征位置的第一图像特征和第二图像特征；

识别单元，用于对所述多组图像特征并行进行字符识别；

生成单元，用于基于已识别出的多个字符，生成字符序列。

可选地，所述识别单元，用于：

可选地，所述第一图像特征的尺寸为B×C7×H×W；所述第二图像特征的尺寸为B×T×H×W；所述第三图像特征的尺寸为B×C7×T；

其中，所述B为所述图像识别模型的批量参数、C7为所述图像识别模型的特征通道数；H为特征图高度，W为特征图宽度，T为预测序列长度。

可选地，所述处理模块，包括：

变换单元，用于通过所述卷积神经网络层对所述第一特征图的通道数进行变换处理，得到融合所述目标图像包括的上下位信息的第四特征图；

映射单元，用于通过所述全连接层，将所述第四特征图中的通道映射到预设序列长度上，得到所述第二特征图。

可选地，所述装置还包括：

获取模块，用于获取多个样本图像，每个样本图像标注所述样本图像中的字符序列；

训练模块，用于基于所述多个样本图像和每个样本图像标注的字符序列，通过卷积神经网络，训练所述图像识别模型。

另一方面，提供了一种图像处理设备，所述图像处理设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如下步骤：

可选地，所述至少一条程序代码由所述处理器加载并执行，以实现如下步骤：

对所述多组图像特征并行进行字符识别；

基于已识别出的多个字符，生成字符序列。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现上述任一可能实现方式所述的序列识别方法。

另一方面，提供了一种计算机程序产品，所述计算机程序产品包括至少一个计算机程序，所述计算机程序被处理器执行时，用于实现上述任一可能实现方式所述的序列识别方法。

在本申请实施例中，在对目标图像进行序列识别的过程中，由于对目标图像的第一特征图，进行时序关系提取，得到融合目标图像包括的上下位信息的第二特征图；从而第二特征图中包含了字符之间的时序关系；这样就能够基于第一特征图和第二特征图并行进行字符识别，提高了字符识别效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种序列识别方法的流程图；

图3是本申请实施例提供的另一种序列识别方法的流程图；

图4是本申请实施例提供的一种序列识别方法的示意图；

图5是本申请实施例提供的另一种序列识别方法的示意图；

图6是本申请实施例提供的另一种序列识别方法的示意图；

图7是本申请实施例提供的图像识别模型的训练方法的流程图；

图8是本申请实施例提供的一种序列识别装置的框图；

图9是本申请实施例提供的一种图像处理设备的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们的任意变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

图1是本申请实施例提供的一种实施环境的示意图。参见图1，该实施环境中包括图像采集设备101和图像处理设备102；图像采集设备101和图像处理设备102通过无线或者有线网络连接。

图像采集设备101用于采集目标图像，将目标图像传输至图像处理设备102。图像处理设备102用于对该目标图像进行序列识别。并且，图像处理设备102通过图像识别模型，对该目标图像进行序列识别。因此，图像处理设备102中需要事先存储图像识别模型。可选地，该图像识别模型为在图像处理设备102上训练得到的，或者，该图像识别模型为在其他设备上训练得到，然后加载到图像处理设备102上。

在本申请实施例中，图像采集设备101为手机、平板电脑、电脑、相机或者摄像头等任一具有图像采集功能的设备。图像处理设备102为终端或者服务器等任一具有图像处理功能的设备。响应于图像处理设备102为服务器；可选地，图像处理设备102为一个服务器、多个服务器103组成的服务器103集群，或者云服务器103等。在本申请实施例中，对此均不作具体限定。

本申请实施例的序列识别方法能够应用在各种实际应用场景中，以下结合三种示例性应用场景对本申请实施例的实际技术效果进行阐述：

(1)应用在停车场的车牌号码识别的场景：在车牌号码识别的场景中，响应于车辆驶入停车场，图像采集设备101采集包括车辆的车牌号码的第一目标图像，向图像处理设备102发送第一目标图像。图像处理设备102接收第一目标图像，从第一目标图像中识别出车牌号码，关联存储该车牌号码和驶入时间。

响应于车辆驶出停车场，图像采集设备101再次采集包括车辆的车牌号码的第二目标图像，向图像处理设备102发送第二目标图像。图像处理设备102接收第二目标图像，从第二目标图像中识别出车牌号码，根据该车牌号码，从车牌号码和驶入时间的关联关系中，查找该车牌号码关联的驶入时间；根据该车辆的驶入时间和驶出时间，对该车辆进行收费。从而可以实现自动对车辆进行收费。

(2)应用在条形码识别的场景：在条形码识别场景中，在用户购买商品进行结账时，图像采集设备101采集包括条形码的目标图像，向图像处理设备102发送该目标图像。图像处理设备102接收该目标图像，从该目标图像中识别出条形码中的数字，得到字符序列，根据该字符序列确定该商品的价格，进而进行收费。

在条形码识别场景中，图像采集设备101为收银员的Pos机或者自助收银设备。

(3)应用在文字识别的场景：在文字识别的场景中，用户看到一个段感兴趣的文字信息，用户通过图像采集设备101采集包括该文字信息的目标图像，向图像处理设备102发送该目标图像。图像处理设备102接收该目标图像，从该图像中识别该文字信息，向图像采集设备101返回该文字信息，从而实现自动从图像中识别出文字信息，不需要用户手动输入文字信息，提高了效率。

需要说明的一点是，该方法除了以上三个应用外，还包括其他应用；例如，应用在数字识别的场景中等。在本申请实施例中，对此不作具体限定。

需要说明的另一点是，在以实施环境中，以图像采集设备101和图像处理设备102为不同设备为例说明的。可选地，图像采集设备101和图像处理设备102为同一个设备，例如均称为图像处理设备102，则图像处理设备102用于采集目标图像以及对目标图像进行序列识别。相应的，图像处理设备102不仅具有图像处理功能，还具有图像采集功能。

图2是本申请实施例提供的一种序列识别方法的流程图。参见图2，该实施例包括：

201、通过图像识别模型对待识别的目标图像进行特征提取，得到第一特征图，第一特征图中包括多个第一图像特征。

202、基于图像识别模型中的卷积神经网络层和全连接层，对第一特征图进行时序关系提取，得到融合目标图像包括的上下位信息的第二特征图，第二特征图中包括多个第二图像特征。

203、基于多个第一图像特征和多个第二图像特征，对目标图像并行进行字符识别，得到字符序列。

可选地，基于多个第一图像特征和多个第二图像特征，对目标图像并行进行字符识别，得到字符序列，包括：

基于多个第一图像特征和多个第二图像特征，确定多组图像特征，每组图像特征中包括相同特征位置的第一图像特征和第二图像特征；

对多组图像特征并行进行字符识别；

基于已识别出的多个字符，生成字符序列。

可选地，对多组图像特征并行进行字符识别，包括：

对多组图像特征中的第一图像特征和第二图像特征进行矩阵运算，得到第三特征图，第三特征图中包括多个第三图像特征，第三图像特征为相同特征位置的第一图像特征和第二图像特征通过矩阵运算得到的；

对多个第三图像特征并行进行解码，识别每个图像特征对应的字符。

可选地，第一图像特征的尺寸为B×C1×H×W；第二图像特征的尺寸为B×T×H×W；第三图像特征的尺寸为B×C1×T；

其中，B为图像识别模型的批量参数、C1为图像识别模型的特征通道数；H为特征图高度，W为特征图宽度，T为预测序列长度。

可选地，基于所述图像识别模型中的卷积神经网络层和全连接层，对所述第一特征图进行时序关系提取，得到融合所述目标图像包括的上下位信息的第二特征图，包括：

通过卷积神经网络层对第一特征图的通道数进行变换处理，得到融合目标图像包括的上下位信息的第四特征图；

通过全连接层，将第四特征图中的通道映射到预设序列长度上，得到第二特征图。

可选地，该方法还包括：

获取多个样本图像，每个样本图像标注样本图像中的字符序列；

基于多个样本图像和每个样本图像标注的字符序列，通过卷积神经网络，训练图像识别模型。

图3是本申请实施例提供的一种序列识别方法的流程图。参见图3，该实施例包括：

301、图像处理设备获取待识别的目标图像。

目标图像为包括字符序列的任一图像；字符序列包括数字、字母和文字中的一种或者多种的序列。

在一种可能的实现方式中，响应于图像处理设备具备图像采集功能，在本步骤中，图像处理设备采集目标图像。例如，该序列识别方法应用在停车场的车牌识别的场景中；则响应于车辆进入或者驶出停车场，图像采集设备采集包括车牌的目标图像。再如，该序列识别方法应用在条形码识别的场景；则用户对商品进行结账时，图像采集设备采集包括商品的条形码的目标图像。再如，该序列识别方法应用在文字识别的场景中；则用户看到一个感兴趣的文字，则使用图像采集设备进行图像采集；相应的，图像采集设备采集包括该文字的目标图像。

在另一种可能的实现方式中，响应于图像处理设备不具备图像采集功能，在本步骤中，图像处理设备接收图像采集设备发送的目标图像。图像采集设备采集图像的场景和上述图像处理设备采集图像的场景相同，在此不再赘述。例如，目标图像是包括FLASH这个字符序列的图像。

在另一种可能的实现方式中，图像处理设备中的图像库中事先存储了目标图像。相应的，图像处理设备获取待识别的目标图像的步骤包括：图像采集设备展示图像选择界面，该图像选择界面中包括图像库中的每个图像的图像索引；用户能够选择图像索引以选择图像。图像处理设备获取已选择的图像索引，基于该图像索引，从图像库中获取该图像索引对应的目标图像。

302、图像处理设备通过图像识别模型对目标图像进行特征提取，得到第一特征图，第一特征图中包括多个第一图像特征。

图像识别模型中包括特征提取模块；图像采集设备获取到目标图像后，将目标图像输入至图像识别模型中，通过图像识别模型中的特征提取模块，对目标图像进行特征提取得到第一特征图。特征提取模块是通过CNN(Convolutional Neural Network，卷积神经网络)训练得到的。

其中，CNN是一种前馈的人工神经网络，其神经元能够响应有限覆盖范围内的周围单元；并且，能够通过权值共享和特征汇集，有效提取图像的结构信息。

例如，图像识别模型中的特征提取模块为第一CNN神经网络模型；则参见图4，图像处理设备将包括FLASH的目标图像输入第一CNN神经网络模型，输出第一特征图，第一特征图包括多个第一图像特征，第一图像特征的尺寸为B×C1×H×W；其中，B为图像识别模型的批量参数(Batch size)，C1为图像识别模型的特征通道数，H为第一特征图的高度，W为第一特征图的宽度。

需要说明的一点是，图像处理设备可以通过图像识别模型对整个目标图像进行特征提取，还可以不对整个目标图像进行特征提取；而是先识别序列所在的图像区域，仅对序列所在的图像区域进行特征提取，得到第一特征图，从而减少特征提取所需时间，提高序列识别效率。

其中，图像处理设备通过图像识别模型对序列所在的图像区域进行特征提取的过程为：图像处理设备从目标图像中截取部分图像，该部分图像为序列所在的图像区域对应的图像，将该部分图像输入至图像识别模型中，通过图像识别模型对该部分图像进行特征提取，得到第一特征图。

303、图像处理设备基于图像识别模型中的卷积神经网络层和全连接层，对第一特征图进行时序关系提取，得到融合目标图像包括的上下位信息的第二特征图，第二特征图包括多个第二图像特征。

目标图像包括的上下位信息是指序列的时序关系。时序关系提取至少包括通道数更改处理，还包括序列变长处理。通道数更改处理包括通道数变多或者变少处理；但序列边长处理是指将第一特征图的特征通道数变多。相应的，第二特征图和第一特征图包括的特征通道数不同，且第二特征图的特征通道数大于第一特征图包括的特征通道数。

图像识别模块包括编码模块，编码模块是由CNN网络训练得到的神经网络模型；图像处理设备通过第二CNN神经网络模型，对第一特征图进行时序关系提取，将第一特征图的通道数转换为预设序列长度，得到第二特征图；例如，继续参见图4，在图4中以编码模块为编码器为例进行说明。其中，第二特征图的尺寸为B×T×H×W。其中，T为预设序列长度。

在一种可能的实现方式中，编码模块包括全连接层(FC)和至少一个卷积神经网络层。例如，编码模块包括2个卷积神经网络层，每个卷积网络层为kernel为3，stride为3的卷积核。

其中，本步骤通过以下步骤(1)和(2)实现，包括：

(1)图像处理设备通过卷积神经网络层对第一特征图的通道数进行变换处理，得到融合目标图像包括的上下位信息的第四特征图。

响应于编码模块包括1个卷积神经网络层；则图像处理模块通过该卷积神经网络层对第一特征图的通道数进行变换处理，得到第四特征图。响应于编码模块包括多个卷积神经网络层；则图像处理设备先通过一个卷积神经网络层对第一特征图的通道数进行变换处理，将得到的结果输入到下一个卷积神经网络层，通过下一个卷积神经网络层对得到的结果进行变换处理，直到通过多个卷积神经网络层处理完成为止，得到第四特征图。

例如，编码模块包括2个卷积神经网络层，分别为卷积神经网络层1和卷积神经网络层2；则图像处理设备通过卷积神经网络层1对第一特征图的通道数进行变换处理，得到第五特征图，通过卷积神经网络层2对第五特征图的通道数进行变换处理，得到第四特征图。

例如，参见图5，图像处理设备通过卷积神经网络层对第一特征图的通道数进行变换处理，得到第四特征图；第四特征图的通道数为C2；相应的，第四特征图包括的图像特征的尺寸为B×C2×H×W。

(2)图像处理设备通过全连接层，将第四特征图中的通道映射到预设序列长度上，得到第二特征图。

可选地，预设序列长度能够根据需要进行设置并更改；并且，预设序列长度为图像识别模型能够识别的最大字符数。例如，预设序列长度为5；则图像识别模型能够识别最多包括5个字符的字符序列；再如，预设序列长度为10；则图像识别模型能够识别最多包括10个字符的字符序列。

例如，继续参见图5，图像处理设备通过全连接层，将第四特征图中的通道映射到预设序列长度上，得到第二特征图；第二特征图的通道数为T；相应的，第二特征图包括的第二图像特征的尺寸为B×T×H×W。

需要说明的一点是，第二特征图的第二图像特征的宽度和高度分别与第一特征图的第一图像特征的宽度和高度相同或者不同。并且，预设序列长度和第一特征图的通道数相同或者不同。在本申请实施例中，以第二特征图的宽度和高度分别与第一特征图的宽度和高度相同，且预设序列长度和第一特征图的通道数不同为例进行说明的。

304、图像处理设备基于多个第一图像特征和多个第二图像特征，确定多组图像特征，每组图像特征中包括相同特征位置的第一图像特征和第二图像特征。

对于第一特征图中的任一第一图像特征，图像处理设备确定该第一图像特征在第一特征图中的特征位置，根据该特征位置，从第二特征图中确定位于该特征位置的第二图像特征，将该第一图像特征和该第二图像特征组成一组图像特征。同样，图像处理设备按照这个方法依次查找，直到将第一特征图中的每个第一图像特征均匹配到第二图像特征为止，得到多组图像特征。

需要说明的一点是，在以上说明中，以通过第一特征图中的第一图像特征去第二特征图中匹配第二特征图为例进行说明。电子设备还能够通过第二特征图中的第二图像特征去匹配第一特征图。其实现过程与通过第一特征图中的第一图像特征去第二特征图中匹配第二特征图相似，在此不再赘述。

例如，继续参见图4，第一特征图中包括N个第一图像特征，分别为第一图像特征1、第一图像特征2、第一图像特征3……第一图像特征N；第二特征图中包括N个第二图像特征，分别为第二图像特征1、第二图像特征2、第二图像特征3……第二图像特征N。图像处理设备将第一图像特征1和第二图像特征1组成一组图像特征，将第一图像特征2和第二图像特征2组成一组图像特征，将第一图像特征3和第二图像特征3组成一组图像特征，……将第一图像特征N和第二图像特征N组成一组图像特征。

305、图像处理设备对多组图像特征并行进行字符识别。

本步骤通过以下步骤(1)和(2)实现，包括：

(1)图像处理设备对多组图像特征中的第一图像特征和第二图像特征进行矩阵运算，得到第三特征图，第三特征图中包括多个第三图像特征，第三图像特征为相同特征位置的第一图像特征和第二图像特征通过矩阵运算得到的。

其中，第一图像特征的尺寸为B×C1×H×W；第二图像特征的尺寸为B×T×H×W；第三图像特征的尺寸为B×C1×T；

其中，B为图像识别模型的批量参数、C为图像识别模型的特征通道数；H为特征图高度，W为特征图宽度，T为预测序列长度。

例如，第三特征图的可视化效果如图6所示。当图像识别模型的批量参数不用理会；单独识别一个“ART”字符串时；响应于W＝10，H＝1，可以大致得到如下所示的输出结果。输出的T个特征图依次关注“A”，“R”，“T”的字符位置，及在该3个字母对应的特征位置上有高的响应值。得到此响应之后，与特征视觉模块的结果举证相乘，就得到了BxC1xT的特征图，后续直接当做普通的分类任务来进行FC+Softmax分类即可。

(2)图像处理设备对多个第三图像特征并行进行解码，识别每个图像特征对应的字符。

其中，图像识别模型中包括解码模块；图像处理设备通过该解码模块对多组图像特征进行并行字符识别，得到多个字符。其中，解码模块采用单字分类预测方式，基于多个第三图像特征并行进行预测。因此识别出的多个字符能够并列预测输出，无需等待上一时刻的输出和状态变化。

例如，继续参见图4，在图4中以解码模块为解码器为例进行说明的。图像处理设备对多个第三图像特征并行进行解码，得到每个特征位置对应的字符分别为F、L、A、S、H、[EOS]……[PAD]。[EOS]为结束标识符，用于表示字符序列识别结束，也即[EOS]前的字符为字符序列，[PAD]为结束位，用于表示字符识别结束，也即所有字符识别完成。

本申请实施例中用CNN和矩阵运算替代主流的Seq-to-Seq技术(如RNN)，序列识别依赖时序建模的上下文依赖来实现变长的序列的识别，这样能够实现并行字符识别，提高了效率。

306、图像处理设备基于已识别出的多个字符，生成字符序列。

不同的图像识别模型中的预设序列长度不同；响应于目标图像中包括的字符数量与该预设序列长度相同；则图像处理设备将已识别的多个字符，组成字符序列。响应于目标图像中包括的字符数量与该预设序列长度不同；则图像处理设备将多个字符中位于结束标识符之前的字符组成字符序列。

例如，继续参见图4，多个字符分别为F、l、a、s、h、[EOS]……[PAD]。则图像处理设备将[EOS]之前的字符组成字符序列；相应的，图像处理设备识别出的字符序列为Flash。

在图像处理设备通过图像识别模型，对目标图像进行识别之前，图像处理设备训练图像识别模型；其中，图像处理设备训练图像识别模型的过程参见图7，包括：

701、图像处理设备获取多个样本图像，每个样本图像标注样本图像中的字符序列。

702、图像处理设备基于多个样本图像和每个样本图像标注的字符序列，通过卷积神经网络，训练图像识别模型。

其中，本步骤通过以下步骤(1)至(4)实现，包括：

(1)图像处理设备基于初始模型，对每个样本图像进行特征提取，得到每个样本图像的第六特征图，第六特征图中包括多个第六图像特征。

(2)图像处理设备基于初始模型中的卷积神经网络层和全连接层，对每个样本图像的第六特征图进行时序关系提取，得到每个样本图像的第七特征图，第七特征图中包括多个第七图像特征，且每个样本图像的第七特征图融合了该样本图像包括的上下位信息。

(3)图像处理设备基于每个样本图像的第六特征图和第七特征图，对每个样本图像并行进行字符识别，得到每个样本图像的预测字符序列；

(4)图像处理设备根据每个样本图像的预测字符序列和已标注的字符序列，对初始模型进行模型更新，得到图像识别模型。

需要说明的一点是，步骤(1)至(4)的实现过程和步骤302-306相似在此不再赘述。

相关技术中在训练图像识别模型时，一般使用RNN编解码；而RNN编解码框架带来的局限性(如并行性差，训练和测试速度慢，训练受初始化影响大，难以拟合到较优参数模型，硬件平台不友好的问题等)，本方案搭建了不依赖RNN的序列识别框架。通过卷积神经网络进行图像识别模型的训练，这样对硬件平台友好，串特征的全并行编码解码模块，实现效率提高，且性能稳定提升，灵活易用。

图8是本申请实施例提供的一种序列识别装置的框图。参见图8，该装置包括：

提取模块801，用于通过图像识别模型对待识别的目标图像进行特征提取，得到第一特征图，第一特征图中包括多个第一图像特征；

处理模块802，用于基于图像识别模型中的卷积神经网络层和全连接层，对第一特征图进行时序关系提取，得到融合目标图像包括的上下位信息的第二特征图，第二特征图中包括多个第二图像特征；

识别模块803，用于基于多个第一图像特征和多个第二图像特征，对目标图像并行进行字符识别，得到字符序列。

在一种可能的实现方式中，识别模块803，包括：

确定单元，用于基于多个第一图像特征和多个第二图像特征，确定多组图像特征，每组图像特征中包括相同特征位置的第一图像特征和第二图像特征；

识别单元，用于对多组图像特征并行进行字符识别；

生成单元，用于基于已识别出的多个字符，生成字符序列。

在另一种可能的实现方式中，识别单元，用于：

在另一种可能的实现方式中，第一图像特征的尺寸为B×C7×H×W；第二图像特征的尺寸为B×T×H×W；第三图像特征的尺寸为B×C7×T；

其中，B为图像识别模型的批量参数、C7为图像识别模型的特征通道数；H为特征图高度，W为特征图宽度，T为预测序列长度。

在另一种可能的实现方式中，处理模块802，包括：

变换单元，用于通过卷积神经网络层对第一特征图的通道数进行变换处理，得到融合目标图像包括的上下位信息的第四特征图；

映射单元，用于通过全连接层，将第四特征图中的通道映射到预设序列长度上，得到第二特征图。

在另一种可能的实现方式中，装置还包括：

获取模块，用于获取多个样本图像，每个样本图像标注样本图像中的字符序列；

训练模块，用于基于多个样本图像和每个样本图像标注的字符序列，通过卷积神经网络，训练图像识别模型。

需要说明的是：上述实施例提供的序列识别装置在序列识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将终端的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的序列识别装置与序列识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

响应于该图像处理设备为服务器；图9是本申请实施例提供的一种图像处理设备的框图，该图像处理设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)901和一个或一个以上的存储器902，其中，存储器902中存储有至少一条指令，至少一条指令由处理器901加载并执行以实现上述各个方法实施例提供的序列识别方法。当然，该图像处理设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该图像处理设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

在本申请实施例中，在对目标图像进行序列识别的过程中，先提取目标图像的第一特征图，然后对第一特征图进行时序关系提取，得到融合目标图像包括的上下位信息的第二特征图；从而第二特征图中包含了字符之间的时序关系；这样就能够基于第一特征图和第二特征图并行进行字符识别，提高了字符识别效率。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，上述至少一条程序代码可由图像处理设备中的处理器执行以完成上述实施例中的序列识别方法。例如，计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

可选地，上述至少一条程序代码可由图像处理设备中的处理器执行以下步骤：

通过图像识别模型对待识别的目标图像进行特征提取，得到第一特征图，第一特征图中包括多个第一图像特征；

基于图像识别模型中的卷积神经网络层和全连接层，对第一特征图进行时序关系提取，得到融合目标图像包括的上下位信息的第二特征图，第二特征图中包括多个第二图像特征；

基于多个第一图像特征和多个第二图像特征，对目标图像并行进行字符识别，得到字符序列。

可选地，至少一条程序代码由处理器加载并执行，以实现如下步骤：

对多组图像特征并行进行字符识别；

基于已识别出的多个字符，生成字符序列。

本申请还提供了一种计算机程序产品，计算机程序产品包括至少一个计算机程序，计算机程序被处理器执行时，用于实现上述各个方法实施例提供的序列识别方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种序列识别方法，其特征在于，所述方法包括：

通过图像识别模型对待识别的目标图像进行特征提取，得到第一特征图，所述第一特征图中包括多个第一图像特征；

基于所述图像识别模型中的卷积神经网络层和全连接层，对所述第一特征图进行时序关系提取，得到融合所述目标图像包括的上下位信息的第二特征图，所述第二特征图中包括多个第二图像特征；

基于所述多个第一图像特征和所述多个第二图像特征，对所述目标图像并行进行字符识别，得到字符序列。
根据权利要求1所述的方法，其特征在于，所述基于所述多个第一图像特征和所述多个第二图像特征，对所述目标图像并行进行字符识别，得到字符序列，包括：

基于所述多个第一图像特征和所述多个第二图像特征，确定多组图像特征，每组图像特征中包括相同特征位置的第一图像特征和第二图像特征；

对所述多组图像特征并行进行字符识别；

基于已识别出的多个字符，生成字符序列。
根据权利要求2所述的方法，其特征在于，所述对所述多组图像特征并行进行字符识别，包括：

对所述多组图像特征中的第一图像特征和第二图像特征进行矩阵运算，得到第三特征图，所述第三特征图中包括多个第三图像特征，所述第三图像特征为相同特征位置的第一图像特征和第二图像特征通过矩阵运算得到的；

对所述多个第三图像特征并行进行解码，识别每个图像特征对应的字符。
根据权利要求3所述的方法，其特征在于，所述第一图像特征的尺寸为B×C1×H×W；所述第二图像特征的尺寸为B×T×H×W；所述第三图像特征的尺寸为B×C1×T；

其中，所述B为所述图像识别模型的批量参数、C1为所述图像识别模型的特征通道数；H为特征图高度，W为特征图宽度，T为预测序列长度。
根据权利要求1所述的方法，其特征在于，所述基于所述图像识别模型中的卷积神经网络层和全连接层，对所述第一特征图进行时序关系提取，得到融合所述目标图像包括的上下位信息的第二特征图，包括：

通过所述卷积神经网络层对所述第一特征图的通道数进行变换处理，得到融合所述目标图像包括的上下位信息的第四特征图；

通过所述全连接层，将所述第四特征图中的通道映射到预设序列长度上，得到所述第二特征图。
根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

获取多个样本图像，每个样本图像标注所述样本图像中的字符序列；

基于所述多个样本图像和每个样本图像标注的字符序列，通过卷积神经网络，训练所述图像识别模型。
一种序列识别装置，其特征在于，所述装置包括：

提取模块，用于通过图像识别模型对待识别的目标图像进行特征提取，得到第一特征图，所述第一特征图中包括多个第一图像特征；

处理模块，用于基于所述图像识别模型中的卷积神经网络层和全连接层，对所述第一特征图进行时序关系提取，得到融合所述目标图像包括的上下位信息的第二特征图，所述第二特征图中包括多个第二图像特征；

识别模块，用于基于所述多个第一图像特征和所述多个第二图像特征，对所述目标图像并行进行字符识别，得到字符序列。
根据权利要求7所述的装置，其特征在于，所述识别模块，包括：

确定单元，用于基于所述多个第一图像特征和所述多个第二图像特征，确定多组图像特征，每组图像特征中包括相同特征位置的第一图像特征和第二图像特征；

识别单元，用于对所述多组图像特征并行进行字符识别；

生成单元，用于基于已识别出的多个字符，生成字符序列。
根据权利要求8所述的装置，其特征在于，所述识别单元，用于：

对所述多组图像特征中的第一图像特征和第二图像特征进行矩阵运算，得到第三特征图，所述第三特征图中包括多个第三图像特征，所述第三图像特征为相同特征位置的第一图像特征和第二图像特征通过矩阵运算得到的；

对所述多个第三图像特征并行进行解码，识别每个图像特征对应的字符。
根据权利要求9所述的装置，其特征在于，所述第一图像特征的尺寸为B×C7×H×W；所述第二图像特征的尺寸为B×T×H×W；所述第三图像特征的尺寸为B×C7×T；

其中，所述B为所述图像识别模型的批量参数、C7为所述图像识别模型的特征通道数；H为特征图高度，W为特征图宽度，T为预测序列长度。
根据权利要求7所述的装置，其特征在于，所述处理模块，包括：

变换单元，用于通过所述卷积神经网络层对所述第一特征图的通道数进行变换处理，得到融合所述目标图像包括的上下位信息的第四特征图；

映射单元，用于通过所述全连接层，将所述第四特征图中的通道映射到预设序列长度上，得到所述第二特征图。
根据权利要求7-11任一项所述的装置，其特征在于，所述装置还包括：

获取模块，用于获取多个样本图像，每个样本图像标注所述样本图像中的字符序列；

训练模块，用于基于所述多个样本图像和每个样本图像标注的字符序列，通过卷积神经网络，训练所述图像识别模型。
一种图像处理设备，其特征在于，所述图像处理设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如下步骤：

通过图像识别模型对待识别的目标图像进行特征提取，得到第一特征图，所述第一特征图中包括多个第一图像特征；

基于所述图像识别模型中的卷积神经网络层和全连接层，对所述第一特征图进行时序关系提取，得到融合所述目标图像包括的上下位信息的第二特征图，所述第二特征图中包括多个第二图像特征；

基于所述多个第一图像特征和所述多个第二图像特征，对所述目标图像并行进行字符识别，得到字符序列。
根据权利要求13所述的图像处理设备，其特征在于，所述至少一条程序代码由所述处理器加载并执行，以实现如下步骤：

基于所述多个第一图像特征和所述多个第二图像特征，确定多组图像特征，每组图像特征中包括相同特征位置的第一图像特征和第二图像特征；

对所述多组图像特征并行进行字符识别；

基于已识别出的多个字符，生成字符序列。
根据权利要求14所述的图像处理设备，其特征在于，所述至少一条程序代码由所述处理器加载并执行，以实现如下步骤：

对所述多组图像特征中的第一图像特征和第二图像特征进行矩阵运算，得到第三特征图，所述第三特征图中包括多个第三图像特征，所述第三图像特征为相同特征位置的第一图像特征和第二图像特征通过矩阵运算得到的；

对所述多个第三图像特征并行进行解码，识别每个图像特征对应的字符。
根据权利要求15所述的图像处理设备，其特征在于，所述第一图像特征的尺寸为B×C1×H×W；所述第二图像特征的尺寸为B×T×H×W；所述第三图像特征的尺寸为B×C1×T；

其中，所述B为所述图像识别模型的批量参数、C1为所述图像识别模型的特征通道数；H为特征图高度，W为特征图宽度，T为预测序列长度。
根据权利要求13所述的图像处理设备，其特征在于，所述至少一条程序代码由所述处理器加载并执行，以实现如下步骤：

通过所述卷积神经网络层对所述第一特征图的通道数进行变换处理，得到融合所述目标图像包括的上下位信息的第四特征图；

通过所述全连接层，将所述第四特征图中的通道映射到预设序列长度上，得到所述第二特征图。
根据权利要求13-17任一项所述的图像处理设备，其特征在于，所述至少一条程序代码由所述处理器加载并执行，以实现如下步骤：

获取多个样本图像，每个样本图像标注所述样本图像中的字符序列；

基于所述多个样本图像和每个样本图像标注的字符序列，通过卷积神经网络，训练所述图像识别模型。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1-6任一项所述的序列识别方法。