WO2023020176A1

WO2023020176A1 - 图像识别方法和装置

Info

Publication number: WO2023020176A1
Application number: PCT/CN2022/106160
Authority: WO
Inventors: 朱雄威; 孙逸鹏; 魏翔; 姚锟; 韩钧宇; 丁二锐; 刘经拓
Original assignee: 北京百度网讯科技有限公司
Priority date: 2021-08-18
Filing date: 2022-07-18
Publication date: 2023-02-23
Also published as: CN113657398A; CN113657398B

Abstract

本公开提供了图像识别方法和装置，涉及人工智能技术领域，具体涉及计算机视觉和深度学习技术领域，具体可用于光学字符识别OCR等场景。具体实现方案为：获取待识别图像；将待识别图像输入预设的图像识别模型，得到与至少两个卡证图像中每一卡证图像对应的第一识别结果；根据第一识别结果所指示的类别，对与第一识别结果对应的卡证图像执行相应的识别操作，得到第二识别结果；汇总第二识别结果并输出。该方式有效提高了对多卡证图像进行识别的准确率和效率。

Description

图像识别方法和装置

相关申请的交叉引用

本专利申请要求于2021年8月18日提交的、申请号为202110947890.7、发明名称为“图像识别方法和装置”的中国专利申请的优先权，该申请的全文以引用的方式并入本申请中。

技术领域

本公开涉及人工智能技术领域，具体涉及计算机视觉和深度学习技术领域，具体可用于光学字符识别(Optical Character Recognition，OCR)等场景，尤其涉及一种图像识别方法和装置。

背景技术

在公共事件的处理中，往往会涉及到多个卡证图像的识别。

发明内容

本公开实施例提供了一种图像识别方法、装置、设备以及存储介质。

第一方面，本公开实施例提供了一种图像识别方法，该方法包括：获取待识别图像，待识别图像中包括至少两个卡证图像；将待识别图像输入预设的图像识别模型，得到与至少两个卡证图像中每一卡证图像对应的第一识别结果，第一识别结果用于指示卡证图像的类别；根据第一识别结果所指示的类别，对与第一识别结果对应的卡证图像执行相应的识别操作，得到第二识别结果；汇总第二识别结果并输出。

第二方面，本公开实施例提供了一种图像识别装置，该装置包括：获取模块，被配置成获取待识别图像，待识别图像中包括至少两个卡证图像；输入模块，被配置成将待识别图像输入预设的图像识别模型，得到与至少两个卡证图像中每一卡证图像对应的第一识别结果，第一识别结果用于指示卡证图像的类别；识别模块，被配置成根据第一识别结果所指示的类别，对与第一识别结果对应的卡证图像执行相应的识别操作，得到第二识别结果；输出模块，被配置成汇总第二识别结果并输出。

第三方面，本公开实施例提供了一种电子设备，该电子设备包括一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被该一个或多个处理器执行，使得一个或多个处理器实现如第一方面的任一实施例的图像识别方法。

第四方面，本公开实施例提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面的任一实施例的图像识别方法。

第五方面，本公开实施例提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如第一方面的任一实施例的图像识别方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其他特征将通过以下的说明书而变得容易理解。

附图说明

图1是本公开可以应用于其中的示例性系统架构图；

图2是根据本公开的图像识别方法的一个实施例的流程图；

图3是根据本公开的图像识别方法的一个应用场景的示意图；

图4是根据本公开的图像识别方法的又一个实施例的流程图；

图5是根据本公开的图像识别装置的一个实施例的示意图；

图6是适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的图像识别方法的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如，图像识别类应用、通信类应用等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏的各种电子设备，包括但不限于手机和笔记本电脑。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供图像识别服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如，获取待识别图像；将待识别图像输入预设的图像识别模型，得到与至少两个卡证图像中每一卡证图像对应的第一识别结果；根据第一识别结果所指示的类别，对与第一识别结果对应的卡证图像执行相应的识别操作，得到第二识别结果；汇总第二识别结果并输出。

需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供图像识别服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要指出的是，本公开的实施例所提供的图像识别方法可以由服务器105执行，也可以由终端设备101、102、103执行，还可以由服务器105和终端设备101、102、103彼此配合执行。相应地，图像识别装置包括的各个部分(例如各个单元、子单元、模块、子模块)可以全部设置于服务器105中，也可以全部设置于终端设备101、102、103中，还可以分别设置于服务器105和终端设备101、102、103中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示出了图像识别方法的实施例的流程示意图200。该图像识别方法包括以下步骤：

步骤201，获取待识别图像。

在本实施例中，执行主体(例如，图1中的服务器105或终端设备101、102、103)可以采用有线或无线方式从本地，如存放待识别图像的图像采集设备，或存放待识别图像的远端设备获取待识别图像。

其中，无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

这里，待识别图像包括至少两个卡证图像。

其中，卡证图像可以是任意卡证的图像，例如，驾驶证、行驶证、学生证、护照、社保卡等等，本公开对此不作限定。

需要指出的是，待识别图像可以是包括多个卡证图像的图像集，也可以是混贴有至少两个卡证图像的一幅图像，本公开对此不作限定。

具体地，待识别图像为一幅图像，图像中包括四个卡证图像，例如，分别为驾驶证主页、驾驶证副页、行驶证主页和行驶证副页的图像。

步骤202，将待识别图像输入预设的图像识别模型，得到与至少两个卡证图像中每一卡证图像对应的第一识别结果。

在本实施例中，执行主体在获取到待识别图像后，将待识别图像输入预设的图像识别模型，得到与至少两个卡证图像中每一卡证图像对应的第一识别结果，第一识别结果用于指示卡证图像的类别。

需要说明的是，卡证图像的类别可以包括卡证图像的类型信息和属性信息。这里，卡证图像的类型信息用于指示卡证图像的类型，例如，驾驶证、行驶证、学生证等，卡证图像的属性信息用于指示卡证图像的页面类别，例如，卡证主页、卡证副页等。

其中，图像识别模型可基于标注有卡证图像的类别标签的样本图像训练得到。

这里，图像识别模型可以基于现有技术或未来发展技术中的人工神经网络训练得到，例如，卷积神经网络、循环神经网络等，本公开对此不作限定。

具体地，待识别图像包括四个卡证图像，例如，分别为驾驶证主页图像、驾驶证副页图像、行驶证主页图像和行驶证副页图像。将待识别图像输入预设的图像识别模型，得到各卡证图像的第一识别结果，即得到待识别图像中驾驶证主页图像、驾驶证副页图像、行驶证主页图像和行驶证副页图像中每一图像的第一识别结果。

在一些可选的方式中，图像识别模型基于卷积神经网络和特征金字塔网络(Feature Pyramid Networks，FPN)得到。

在本实现方式中，对于多卡证识别来说，由于拍摄视角、距离等因素影响，会出现卡证大小和仿射形变，利用不同感受野特征融合的方式可以获取更丰富抽象的特征。

具体地，为了获取更加丰富的特征，执行主体可利用图像识别模型中的卷积神经网络提取多层特征，并进一步利用FPN将语义信息和定位信息进行有效融合，得到融合特征，将融合特征输入多分类检测器，得到多卡证图像的识别结果。

其中，FPN是一种利用常规卷积神经网络(Convolutional Neural Network，CNN)模型来高效提取图片中各维度特征的方法。FPN通过利用常规CNN模型内部从底至上各个层对同一scale图片不同维度的特征表达结构，提出了一种可有效在单一图片视图下生成对其的多维度特征表达的方法。它可以有效地赋能常规CNN模型，从而可以生成出表达能力更强的feature maps以供下一阶段计算机视觉任务使用。

该实现方式中图像识别模型基于卷积神经网络和特征金字塔网络FPN得到，可有效提升获取到的至少两个卡证图像中每一卡证图像对应的第一识别结果的准确性，进而提高第二识别结果的准确性。

步骤203，根据第一识别结果所指示的类别，对与第一识别结果对应的卡证图像执行相应的识别操作，得到第二识别结果。

在本实施例中，执行主体在获取到各卡证图像的第一识别结果后，可根据第一识别结果所指示的卡证图像的类别，将各卡证图像输入不同的识别分支，以执行相应的识别操作，得到各卡证的图像的第二识别结果。

其中，识别操作用于指示对卡证图像中的字段位置和内容进行识别的操作。

执行主体可以采用相关技术或未来发展技术中的字段识别技术，例如，LSTM(Long Short Term Memory，长短期记忆网络)+CTC(Connectionist temporal classification，基于神经网络的时序类分类)、CRNN(Convolutional Recurrent Neural Network，卷积循环神经网络)等，对卡证图像中的字段进行识别

在一些可选的方式中，根据第一识别结果所指示的类别，对与第一识别结果对应的卡证图像执行相应的识别操作，得到第二识别结果，包括：响应于确定第一识别结果为卡证主页，分别基于字段识别模型和attention识别模型对与该第一识别结果对应的卡证图像进行识别，得到第一子识别结果和第二子识别结果；将第一子识别结果和第二子识别结果进行融合，得到第二识别结果。

在本实施例中，执行主体在确定第一识别结果为卡证主页后，可分别根据字段识别模型和attention识别模型对卡证主页图像进行识别，得到第一子识别结果和第二子识别结果。其中，attention识别模型用于对未确定出字段区域位置的图像进行字段识别。

这里，attention识别模型可以为融合了注意力模型attention model的RNN模型。该模型对数字进行识别的准确率较高，也即对日期、号码类识别的准确率较高。

具体地，执行主体将与第一识别结果对应的卡证图像，例如，驾驶证主页图像或行驶证主页图像输入同时字段识别模型和attention识别模型，以获取第一子识别结果和第二子识别结果。

执行主体在获取到第一子识别结果和第二子识别结果后，由于第二子识别结果对数字识别的准确率较高，执行主体可根据第二子识别结果对第一子识别结果中的数字进行校正，得到第二识别结果。

该实现方式通过响应于确定第一识别结果为卡证主页，分别基于字段识别模型和attention识别模型对与该第一识别结果对应的卡证图像进行识别，得到第一子识别结果和第二子识别结果；将第一子识别结果和第二子识别结果进行融合，得到该卡证图像的第二识别结果，有效提升了获取到的多卡证图像识别结果的准确率。

在一些可选的实现方式中，根据第一识别结果所指示的类别，对与第一识别结果对应的卡证图像执行相应的识别操作，得到第二识别结果，包括：响应于确定第一识别结果为卡证副页，基于attention识别模型对与该第一识别结果对应的卡证图像进行识别，得到第二识别结果。

在本实现方式中，执行主体在确定第一识别结果为卡证副页后，可进一步结合卡证图像的类型信息，若卡证的类型信息指示的类型为驾驶证、港澳通行证等，其副页包含较多数字信息的类型，则可基于attention识别模型对与该第一识别结果对应的卡证图像进行识别，得到第二识别结果。

其中，attention识别模型可以为融合了注意力模型attention model的RNN模型。该模型对数字进行识别的准确率较高，也即对日期、号码类信息识别的准确率较高。

具体地，执行主体可将卡证图像，例如，驾驶证副页图像，输入attention识别模型，获取整图各字段识别结果，并将识别结果确定为第二识别结果。

该实现方式通过响应于确定第一识别结果为卡证副页，基于attention识别模型对与该第一识别结果对应的卡证图像进行识别，得到第二识别结果，在有效提升了获取到的多卡证图像识别结果的准确率的同时，提高了识别效率。

在一些可选的实现方式中，根据第一识别结果所指示的类别，对与第一识别结果对应的卡证图像执行相应的识别操作，得到第二识别结果，包括：响应于确定第一识别结果为卡证副页，基于字段识别模型对与该第一识别结果对应的卡证图像进行识别，得到第二识别结果。

在本实现方式中，执行主体在确定第一识别结果为卡证副页后，可进一步结和卡证图像的类型信息，若卡证的类型信息指示的类型为行驶证、学生证等，其副页包含较多文字信息的类型，则可基于字段识别模型对与该第一识别结果对应的卡证图像进行识别，得到第二识别结果。

具体地，执行主体可将卡证图像，例如，行驶证副页图像，输入字段识别模型，获取各字段识别结果，并将识别结果确定为第二识别结果。

该实现方式通过响应于确定第一识别结果为卡证副页，基于字段识别模型对该卡证图像进行识别，得到该卡证图像的第二识别结果，在有效提升了识别结果的准确率的同时，提高了识别效率。

在一些可选的方式中，字段识别模型包括感兴趣区域透视变换处理单元。

在本实现方式中，感兴趣区域透视变换处理单元，即ROI(Region of Interest，感兴趣区域)透视变换处理单元，该单元用于对图像中的文字区域进行透视变换处理，该透视变换处理相当于对文字区域进行旋转、分割等处理，得到多个高度固定，长度可变的区域，从而可以使得图像中存在的积压、重叠等不规则的文字能够被识别出来。

该实现方式通过在字段识别模型中设置感兴趣区域透视变换处理单元，有助于提升获取到的第二识别结果的准确性。

在一些可选的方式中，基于字段识别模型对与该第一识别结果对应的卡证图像进行识别，得到第二识别结果，包括：将与该第一识别结果对应的卡证图像输入字段识别模型中，由区域检测单元检测该卡证图像中文字区域的位置并输出，感兴趣区域透视变换处理单元根据文字区域的位置获取文字区域的特征，并对文字区域的特征进行透视变换处理，得到对齐后的感兴趣区域特征，文字识别单元基于空间注意力机制，根据对齐后的所述感兴趣区域特征，识别文字区域包括的文字内容以获取第二识别结果。

在本实现方式中，字段识别模型除包括感兴趣区域透视变换处理单元外，还可以包括：区域检测单元和文字识别单元。

其中，区域检测单元用于输出图像中文字区域的位置。这里，文字区域最常用的表示方式可以采用四边形来表示。区域检测单元可以基于全卷积操作，采用四角点位置直接预测偏差坐标，经过变换处理得到的预测位置组成四边形的文字区域，经过非极大值抑制算法得到最终的候选四边形框的四个顶点的位置坐标。

具体地，执行主体可根据提取的卡证图像的全局特征计算字段行候选框，实现字段行文字位置和包围盒角点的预测以确定文字区域的位置。执行主体可首先将卡证图像输入全卷积网络，最后的输出为9通道的特征图，其中一个通道为图片中每个像素位置是否为文字的置信度，其余8个通道表示若该像素位置为文字，则该位置对应文字包围盒四角点的x，y坐标偏移量(Δx1,Δy1,Δx2,Δy2,Δx3,Δy3,Δx4,Δy4)。通过设置置信度阈值可提取出高置信度文字像素点位置(X,Y)，而后通过偏移图回归出文字候选的包围盒坐标(x1,y1,x2,y2,x3,y3,x4,y4)＝(X+Δx1,Y+Δy1,X+Δx2,Y+Δy2,X+Δx3,Y+Δy3,X+Δx4,Y+Δy4)。给定一张图上的文字候选，通过非极大值抑制(NMS)后可滤除重复检出的文字框，给出重复度较高的文字候选区域。将重复度较高的文字候选区域确定为图像中的文字区域位置。

进一步地，执行主体在确定出图像中的文字区域的位置后，由ROI透视变换处理单元对确定出文字区域的位置的图像进行ROI变换，也即将确定出文字区域的位置的图像通过仿射变换变换为统一尺度的感兴趣区域特征，以进行后续的文字识别处理。

这里，文字识别单元用于根据ROI透视变换处理单元处理的感兴趣区域特征，生成识别出的字符序列结果，即识别文字区域包括的文字内容以获取第二识别结果。

具体地，给定一个特征图F及一个包围盒四角点坐标，通过仿射变换，将包围盒内的特征图变换至定高变宽的特征图F’(感兴趣区域特征)上，同时保持长宽比不变，用(W,H,C)来表示F’的维度。

这里，文字识别单元可以采用现有技术或未来发展技术中的文本识别模型实现，例如，CTC(Connectionist temporal classification，基于神经网络的时序类分类)模型、Seq2Seq模型等，本公开对此不作限定。

具体地，执行主体可采用序列至序列模型(seq2seq)进行文字识别。该模块由一个RNN编码器及一个RNN解码器组成。首先将特征图F’(感兴趣区域特征)按列切片，组成一个时间序列，其中沿宽的每一列为一个编码时间步，该步的特征为F’在该步上特征的扁平化，特征维度为(H*C)。该时间序列通过RNN编码器，得到编码特征。解码器为另一个RNN模型，在每一个解码时间步接收上一解码步得到的字符编码(char embedding)以及上一解码步得到的上下文向量(context vector)，输出该解码步的字符预测分布；如此循环往复，直到某时刻的输出结果为结束符号(<\s>)，即停止解码。解码的第0个时刻输入为预设的开始符编码(<s>)，上下文向量由注意力机制得到，其详细算法为给定解码器隐含层状态h，计算h与编码特征每一时刻的相似度，通过softmax归一化所有编码时刻的相似度，而后将编码特征通过归一化的相似度特征进行加权平均，平均后的特征即为上下文向量。基于上下文向量进行文本识别，得到第二识别结果。

该实现方式通过将与该第一识别结果对应的卡证图像输入字段识别模型中，由区域检测单元检测该卡证图像中文字区域的位置并输出，感兴趣区域透视变换处理单元根据文字区域的位置获取文字区域的特征，并对文字区域的特征进行透视变换处理，得到对齐后的感兴趣区域特征，文字识别单元基于空间注意力机制，根据对齐后的感兴趣区域特征，识别文字区域包括的文字内容以获取第二识别结果，有助于进一步提升获取到的第二识别结果的准确性。

步骤204，汇总第二识别结果并输出。

在本实施例中，执行主体在完成各类别卡证图像的识别子流程后得到各卡证图像的第二识别结果之后，可按类别维护与卡证图像数量相同数量个用于存储各卡证图像第二识别结果的数组，以对待识别图像中各卡证图像的第二识别结果进行汇总。

进一步地，执行主体可将汇总的第二识别结果直接输出，也可根据待识别图像中至少两个卡证图像的位置信息对汇总的各第二识别结果的顺序进行调整后输出。

继续参见图3，图3是根据本实施例的图像识别方法的应用场景的一个示意图。执行主体301获取待识别图像302，待识别图像中包括至少两个卡证图像，例如，驾驶证主页图像、驾驶证副页图像、行驶证主页图像和行驶证副页图像；将待识别图像输入预设的图像识别模型303，得到与至少两个卡证图像中每一卡证图像对应的第一识别结果304、305、306、307，其中，第一识别结果用于指示卡证图像的类别，例如，驾驶证主页、驾驶证副页、行驶证主页、行驶证副页；根据第一识别结果304、305、306、307所指示的类别，对与第一识别结果对应的卡证图像执行相应的识别操作308、309、310、311，得到第二识别结果312、313、314、315；汇总第二识别结果316并输出。

本公开的实施例提供的图像识别方法，通过获取待识别图像，待识别图像中包括至少两个卡证图像；将待识别图像输入预设的图像识别模型，得到与至少两个卡证图像中每一卡证图像对应的第一识别结果，第一识别结果用于指示卡证图像的类别；根据第一识别结果所指示的类别，对与第一识别结果对应的卡证图像执行相应的识别操作，得到第二识别结果；汇总第二识别结果并输出，实现了对多卡证图像的识别，同时对不同卡证执行不同的识别操作，有效提高了对多卡证图像进行识别的准确率和效率。

进一步参考图4，其示出了图2所示的图像识别方法的又一个实施例的流程400。在本实施例中，图像识别方法的流程400，可包括以下步骤：

步骤401，获取待识别图像。

在本实施例中，步骤401的实现细节和技术效果，可以参考对步骤201的描述，在此不再赘述。

步骤402，将待识别图像输入预设的图像识别模型，得到与至少两个卡证图像中每一卡证图像对应的第一识别结果。

在本实施例中，步骤402的实现细节和技术效果，可以参考对步骤202的描述，在此不再赘述。

步骤403，根据第一识别结果所指示的类别，对与该第一识别结果对应的卡证图像执行相应的识别操作，得到第二识别结果。

在本实施例中，步骤403的实现细节和技术效果，可以参考对步骤203的描述，在此不再赘述。

步骤404，汇总第二识别结果并基于待识别图像中至少两个卡证图像的位置信息进行输出。

在本实施例中，执行主体在获取到至少两个卡证图像中各卡证图像的第二识别结果后，可将各第二识别结果汇总并获取待识别图像中至少两个卡证图像的位置信息，进而按照基于待识别图像中至少两个卡证图像的位置信息确定的顺序输出汇总的第二识别结果。

这里，至少两个卡证图像的位置信息可以是任意的位置排列，例如，由上到下、由左到右等，本公开对此不作限定。

具体地，待识别图像中包括四个卡证图像，四个卡证图像在待识别图像中按照从上到下的顺序排列，例如，分别为驾驶证主页图像、驾驶证副页图像、行驶证主页图像、行驶证副页图像，并且执行主体在汇总各卡证图像的第二识别结果后，将驾驶证主页图像、驾驶证副页图像、行驶证主页图像和行驶证副页图像的第二识别结果分别按照从上到下的顺序进行输出。

本公开的上述实施例，与图2所示实施例相比，突出了通过汇总第二识别结果并基于待识别图像中至少两个卡证图像的位置信息进行输出，实现了对多卡证图像的识别结果的输出顺序的调整，使得输出结果可以与卡证图像的顺序相对应，提升了输出的识别结果的有序性和规范性。

进一步参考图5，作为对上述各图所示方法的实现，本公开提供了一种图像识别装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的图像识别装置500包括：获取模块501、输入模块502、识别模块503和输出模块504。

其中，获取模块501，可被配置成获取待识别图像。

分类模块502，可被配置成将待识别图像输入预设的图像识别模型，得到与至少两个卡证图像中每一卡证图像对应的第一识别结果。

识别模块503，可被配置成根据第一识别结果所指示的类别，对与第一识别结果对应的卡证图像执行相应的识别操作，得到第二识别结果。

输出模块504，可被配置成汇总第二识别结果并输出。

在本实施例的一些可选的方式中，输出模块进一步被配置成：汇总第二识别结果并基于待识别图像中至少两个卡证图像的位置信息进行输出。

在本实施例的一些可选的方式中，识别模块进一步被配置成：响应于确定第一识别结果为卡证主页，分别基于字段识别模型和attention识别模型对与该第一识别结果对应的卡证图像进行识别，得到第一子识别结果和第二子识别结果。

在本实施例的一些可选的方式中，识别模块进一步被配置成：响应于确定第一识别结果为卡证副页，基于attention识别模型对与该第一识别结果对应的卡证图像进行识别，得到第二识别结果。

在本实施例的一些可选的方式中，识别模块进一步被配置成：响应于确定第一识别结果为卡证副页，基于字段识别模型对与该第一识别结果对应的卡证图像进行识别，得到第二识别结果。

在本实施例的一些可选的方式中，字段识别模型包括感兴趣区域透视变换处理单元，兴趣区域透视变换处理单元用于对图像中的文字区域进行透视变换处理。

在本实施例的一些可选的方式中，字段识别模型还包括区域检测单元和文字识别单元，以及识别模块进一步被配置成：将与该第一识别结果对应的卡证图像输入字段识别模型中，由区域检测单元检测该卡证图像中文字区域的位置并输出，感兴趣区域透视变换处理单元根据文字区域的位置获取所述文字区域的特征，并对文字区域的特征进行透视变换处理，得到对齐后的感兴趣区域特征，文字识别单元基于空间注意力机制，根据对齐后的所述感兴趣区域特征，识别文字区域包括的文字内容以获取第二识别结果。

在本实施例的一些可选的方式中，图像识别模型基于卷积神经网络和特征金字塔网络FPN得到。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

如图6所示，是根据本公开实施例的图像识别方法的电子设备的框图。

600是根据本公开实施例的图像识别方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本公开所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本公开所提供的图像识别方法。本公开的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本公开所提供的图像识别方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本公开实施例中的图像识别方法对应的程序指令/模块(例如，附图5所示的获取模块501、输入模块502、识别模块503和输出模块504)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的图像识别方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储人脸跟踪的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至车道线检测的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

图像识别方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与车道线检测的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本公开实施例的技术方案，有效提高了对多卡证图像进行识别的准确率和效率。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

一种图像识别方法，包括：

获取待识别图像，所述待识别图像中包括至少两个卡证图像；

将待识别图像输入预设的图像识别模型，得到与所述至少两个卡证图像中每一卡证图像对应的第一识别结果，所述第一识别结果用于指示卡证图像的类别；

根据第一识别结果所指示的类别，对与第一识别结果对应的卡证图像执行相应的识别操作，得到第二识别结果；

汇总第二识别结果并输出。
根据权利要求1所述的方法，其中，所述汇总第二识别结果并输出，包括：

汇总第二识别结果并基于所述待识别图像中至少两个卡证图像的位置信息进行输出。
根据权利要求1或2任一所述的方法，其中，所述根据第一识别结果所指示的类别，对与第一识别结果对应的卡证图像执行相应的识别操作，得到第二识别结果，包括：

响应于确定第一识别结果为卡证主页，分别基于字段识别模型和attention识别模型对与该第一识别结果对应的卡证图像进行识别，得到第一子识别结果和第二子识别结果；

将第一子识别结果和第二子识别结果进行融合，得到第二识别结果。
根据权利要求1或2任一所述的方法，其中，所述根据第一识别结果所指示的类别，对与第一识别结果对应的卡证图像执行相应的识别操作，得到第二识别结果，包括：

响应于确定第一识别结果为卡证副页，基于attention识别模型对与该第一识别结果对应的卡证图像进行识别，得到第二识别结果。
根据权利要求1或2任一所述的方法，其中，所述根据第一识别结果所指示的类别，对与第一识别结果对应的卡证图像执行相应的识别操作，得到第二识别结果，包括：

响应于确定第一识别结果为卡证副页，基于字段识别模型对与该第一识别结果对应的卡证图像进行识别，得到第二识别结果。
根据权利要求5所述的方法，其中，所述字段识别模型包括感兴趣区域透视变换处理单元，所述兴趣区域透视变换处理单元用于对图像中的文字区域进行透视变换处理。
根据权利要求6所述的方法，其中，所述字段识别模型还包括区域检测单元和文字识别单元，以及基于字段识别模型对与该第一识别结果对应的卡证图像进行识别，得到第二识别结果，包括：

将与该第一识别结果对应的卡证图像输入字段识别模型中，由所述区域检测单元检测该卡证图像中文字区域的位置并输出，所述感兴趣区域透视变换处理单元根据所述文字区域的位置获取所述文字区域的特征，并对所述文字区域的特征进行透视变换处理，得到对齐后的感兴趣区域特征，所述文字识别单元基于空间注意力机制，根据对齐后的所述感兴趣区域特征，识别所述文字区域包括的文字内容以获取第二识别结果。
根据权利要求1或2任一所述的方法，其中，所述图像识别模型基于卷积神经网络和特征金字塔网络FPN得到。
一种图像识别装置，包括：

获取模块，被配置成获取待识别图像，所述待识别图像中包括至少两个卡证图像；

输入模块，被配置成将待识别图像输入预设的图像识别模型，得到与所述至少两个卡证图像中每一卡证图像对应的第一识别结果，所述第一识别结果用于指示卡证图像的类别；

识别模块，被配置成根据第一识别结果所指示的类别，对与第一识别结果对应的卡证图像执行相应的识别操作，得到第二识别结果；

输出模块，被配置成汇总第二识别结果并输出。
根据权利要求9所述的装置，其中，所述输出模块进一步被配置成：

汇总第二识别结果并基于所述待识别图像中至少两个卡证图像的位置信息进行输出。
根据权利要求9或10任一所述的装置，其中，所述识别模块进一步被配置成：

响应于确定第一识别结果为卡证主页，分别基于字段识别模型和attention识别模型对与该第一识别结果对应的卡证图像进行识别，得到第一子识别结果和第二子识别结果；

将第一子识别结果和第二子识别结果进行融合，得到第二识别结果。
根据权利要求9或10任一所述的装置，其中，所述识别模块进一步被配置成：

响应于确定第一识别结果为卡证副页，基于attention识别模型对与该第一识别结果对应的卡证图像进行识别，得到第二识别结果。
根据权利要求9或10任一所述的装置，其中，所述识别模块进一步被配置成：

响应于确定第一识别结果为卡证副页，基于字段识别模型对与该第一识别结果对应的卡证图像进行识别，得到第二识别结果。
根据权利要求13所述的装置，其中，所述字段识别模型包括感兴趣区域透视变换处理单元，所述兴趣区域透视变换处理单元用于对图像中的文字区域进行透视变换处理。
根据权利要求14所述的装置，其中，所述字段识别模型还包括区域检测单元和文字识别单元，以及所述识别模块进一步被配置成：

将与该第一识别结果对应的卡证图像输入字段识别模型中，由所述区域检测单元检测该卡证图像中文字区域的位置并输出，所述感兴趣区域透视变换处理单元根据所述文字区域的位置获取所述文字区域的特征，并对所述文字区域的特征进行透视变换处理，得到对齐后的感兴趣区域特征，所述文字识别单元基于空间注意力机制，根据对齐后的所述感兴趣区域特征，识别所述文字区域包括的文字内容以获取第二识别结果。
根据权利要求9或10任一所述的装置，其中，所述图像识别模型基于卷积神经网络和特征金字塔网络FPN得到。
一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
一种非瞬时计算机可读存储介质，存储有计算机指令，其中，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。
一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。