WO2021110174A1

WO2021110174A1 - 图像识别方法、装置、电子设备和存储介质

Info

Publication number: WO2021110174A1
Application number: PCT/CN2020/134332
Authority: WO
Inventors: 周锴; 王雷; 宋祺; 张睿
Original assignee: 北京三快在线科技有限公司
Priority date: 2019-12-05
Filing date: 2020-12-07
Publication date: 2021-06-10
Also published as: CN111160395A

Abstract

一种图像识别方法、装置、电子设备和存储介质。所述方法包括：获取待识别图像（S110）；选择与识别类别匹配的关键区块检测模型，根据选择的关键区块检测模型对所述待识别图像进行关键区块检测（S120）；若检测出多个关键区块，则对检测出的所述多个关键区块进行聚类，根据聚类结果从所述待识别图像中分割出若干个子图，使各所述子图包含若干个所述关键区块（S130）；对各所述子图进行文字识别（S140）。

Description

图像识别方法、装置、电子设备和存储介质

技术领域

本申请涉及图像识别领域，具体涉及图像识别方法、装置、电子设备和存储介质。

背景技术

图像识别在身份验证、文字处理等领域有着广泛的应用。一个重要的应用场景为，对营业执照、身份证等证照进行识别，以进行身份或资格的校验。

发明内容

依据本申请的一个方面，提供了一种图像识别方法，包括：获取待识别图像；选择与识别类别匹配的关键区块检测模型，根据选择的关键区块检测模型对所述待识别图像进行关键区块检测；若检测出多个关键区块，则对检测出的所述多个关键区块进行聚类，根据聚类结果从所述待识别图像中分割出若干个子图，使各所述子图包含若干个所述关键区块；对各所述子图进行文字识别。

可选地，所述方法还包括：若不能检测出关键区块，则判定所述待识别图像的类别与所述识别类别不符。

可选地，所述关键区块检测模型是通过如下方式训练得到的：获取指定类别的样本图像作为训练数据，所述样本图像标注有多个关键区块；利用所述训练数据进行迭代训练，得到与所述指定类别匹配的关键区块检测模型；其中，所述关键区块检测模型是基于目标检测算法实现的。

可选地，对检测出的所述多个关键区块进行聚类包括：基于所述多个关键区块各自的向量表示进行聚类，所述聚类结果满足如下条件：每个所述子图的面积与所述待识别图像的面积的比值不大于第一阈值，且每个所述子图中各所述关键区块的面积和与该子图的面积的比值不小于第二阈值。

可选地，所述关键区块的向量表示包括：所述关键区块的中心点坐标、所述关键区块的宽和所述关键区块的高。

可选地，对所述子图进行文字识别包括：对所述子图进行文字行检测，得到检测出的文字行；将检测出的文字行与所述子图中的关键区块进行匹配，根据所述子图中的关键区块的属性确定相匹配的文字行的属性。

可选地，对所述子图进行文字识别还包括：对检测出的文字行进行文字内容识别。

依据本申请的另一方面，提供了一种图像识别装置，包括：图像获取单元，用于获取待识别图像；关键区块检测单元，用于选择与识别类别匹配的关键区块检测模型，根据选择的关键区块检测模型对所述待识别图像进行关键区块检测；聚类单元，用于若检测出多个关键区块，则对检测出的所述多个关键区块进行聚类，根据聚类结果从所述待识别图像中分割出若干个子图，使各所述子图包含若干个所述关键区块；识别单元，用于对各所述子图进行文字识别。

可选地，所述识别单元，还用于若不能检测出关键区块，则判定所述待识别图像的类别与所述识别类别不符。

可选地，所述聚类单元，用于基于所述多个关键区块各自的向量表示进行聚类，所述聚类结果满足如下条件：每个所述子图的面积与所述待识别图像的面积的比值不大于第一阈值，且每个所述子图中各所述关键区块的面积和与该子图的面积的比值不小于第二阈值。

可选地，所述识别单元，用于对所述子图进行文字行检测，得到检测出的文字行；将检测出的文字行与所述子图中的关键区块进行匹配，根据所述子图中的关键区块的属性确定相匹配的文字行的属性。

可选地，所述识别单元，用于对检测出的文字行进行文字内容识别。

依据本申请的又一方面，提供了一种电子设备，包括：处理器；以及存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如上述任一所述的方法。

依据本申请的再一方面，提供了一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现如上述任一所述的方法。

由上述可知，本申请的实施例，在获取到待识别图像后，先依据识别类别选择相匹配的关键区块检测模型，再对检测出的多个关键区块进行聚类，根据聚类结果从待识别图像中分割出若干个子图，使各子图分别包含若干个关键区块，从而完成了图像的智能分割，最后对各子图分别进行文字识别。通过利用关键区块检测、并基于检测出的关键区块进行图像智能分割，解决了版式较为固定的证照、文档图像内容格式化输出的难题，大大降低了开发人力和时间成本。

上述说明仅是本申请实施例的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本申请一个实施例的一种图像识别方法的流程示意图；

图2示出了在食品经营许可证图像中检测出的多个关键区块；

图3示出了包含较小文字内容的发票图像；

图4示出了对图2进行子图分割后的示意图；

图5示出了图4中左半部分子图的文字行检测结果；

图6示出了根据本申请一个实施例的一种图像识别装置的结构示意图；

图7示出了根据本申请一个实施例的电子设备的结构示意图；

图8示出了根据本申请一个实施例的计算机可读存储介质的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

目前的图像识别方法除了人工方式外，还包括如下做法：一种方法为，针对特定证照进行单独设计。由于需要先验信息归纳、服务开发等诸多步骤，非常耗费人力和时间，通常需要至少2人月才能实现。另一种方法是利用证照版式相对固定的特点，将待识别图像与相应版式的样本图像进行图像匹配后，再进行识别。但这种方式适用于待识别图像清晰、无形变等理想情况。一旦待识别图像存在文字行漂移、形变、仿射变换等情况，识别效果非常不理想。

根据本申请的实施例：利用证照版式相对固定的特点，根据识别类别(如身份证识别、营业执照识别……)选择相应的关键区块检测模型，从待识别图像中确定关键区块；再对关键区块进行聚类，根据聚类结果对待识别图像进行分割，分割后的图像可以适当放大，以使得对分割后的图像进行文字识别的结果更准确。

在申请的实施例中，利用了关键区块检测、基于检测出的关键区块进行图像智能分割这两个强关联步骤，识别准确率和召回率有着显著提升。并且，对于新版式的识别开发只需要3人日左右即可实现，大大降低了资源成本。

本申请的实施例可应用于对版式较为固定的证照的图像进行识别，包括但不限于身份验证、资质验证等，可应用于外卖、金融服务等业务领域。下面结合各实施例进行详细的介绍。

图1示出了根据本申请一个实施例的一种图像识别方法的流程示意图。如图1所示，该方法包括步骤S110至步骤S140。

步骤S110，获取待识别图像。其中，待识别图像可以是由用户上传的图像，并且具有广义的理解，如照片、截图以及视频中提取出的视频帧都属于图像的范畴。

就待识别图像的内容和上传场景而言，举例来说，在购买金融产品前，要验证用户的身份信息，可以要求用户上传身份证照片；在外卖商家注册时，可以要求商家提供营业执照照片，等等。

上传待识别图像可关联有一个类别信息，该类别信息可以用于指示该待识别图像上传的场景需要识别的图像类别(简称为“识别类别)”，并且该类别信息可以与该待识别图像的类别不相符。例如，在要求上传驾驶证照片的场景中，需要识别的图像类别为驾驶证照片，而用户上传的待识别图像可以为行驶证照片，则识别类别为驾驶证照片，待识别图像的类别为行驶证照片，显然与识别类别不符。

步骤S120，选择与识别类别匹配的关键区块检测模型，根据选择的关键区块检测模型对待识别图像进行关键区块检测。

例如，对于身份证识别场景，选择与身份证匹配的关键区块检测模型；对于发票识别场景，选择与发票匹配的关键区块检测模型。这里的关键区块检测模型可以是通过深度学习训练得到的。优选地，在待识别图像被送入关键区块检测模型之前，可以进行预处理，例如进行图像切分，切除与证照、文档无关的部分；可以对图像进行美化和校正，使得文字更清晰，证照的形状更贴近理想状态；可以先调整待识别图像的方向，以提高识别准确性，如用户拍摄的驾驶证照片是上下颠倒的，可以先将其进行180度旋转后再进行检测，等等。

本文的关键区块检测可以确定关键区块的位置和属性。在本申请的实施例中，关键区块可以通过检测方式(将检测出的关键区块以包围框bounding box标记出来)或者通过分割方式(将检测出的关键区块以掩模mask标记出来)确定。

步骤S130，若检测出多个关键区块，则对检测出的多个关键区块进行聚类，根据聚类结果从待识别图像中分割出若干个子图，使各子图分别包含若干个关键区块。

检测出的关键区块可以包含属性。图2示出了在食品经营许可证图像中检测出的多个关键区块。由图2可见，检测出的关键区块分别对应经营者名称(关键字key_0)、经营者名称(内容key_0_content)、社会信用代码(关键字key_1)、社会信用代码(内容key_1_content)……在存储或计算时可以分别存储为相应的key和content，例如key_2、key_2_content、key_3、key_3_content，等等。可见，关键区块实际对应的可以是文字区块，如固定版式图像中必然包含的信息区域。

针对图3这类文字区域相对于整个图像尺寸较小的情景，基于卷积神经网络等神经网络的文字行检测算法，无法关注到较小文字的特征(在卷积时较小文字被过度压缩，无法提取有效特征)，因而可能会出现漏检的情况。因而本申请提出了关键区块检测、基于检测出的关键区块进行图像智能分割，先得到分割后的子图，再对子图进行文字行识别，大大提升了识别准确率和召回率，并且子图还可以进行适当放大，使得文字的特征更明显。

步骤S140，对各子图分别进行文字识别。本申请对文字识别的实现方式不做限制。

可见，图1所示的方法，在获取到待识别图像后，先依据识别类别选择相匹配的关键区块检测模型，再对检测出的多个关键区块进行聚类，根据聚类结果从待识别图像中分割出若干个子图，最后对各子图分别进行文字识别。通过利用关键区块检测、并基于检测出的关键区块进行图像智能分割，解决了版式较为固定的证照、文档图像内容格式化输出的难题，大大降低了开发人力和时间成本。

在本申请的一个实施例中，上述方法还包括：若不能检测出关键区块，则判定待识别图像的类别与识别类别不符。

例如，在驾驶证识别场景下，如果用户误传了行驶证，那么根据驾驶证的关键区块检测模型就难以检测出关键区块，这时可以判断为图像有误，具体而言可以是待识别图像的类别与识别类别不符。该实施例可以在业务场景下有着较好的实用性，如可以基于此提示“图像有误，请重新上传图像”。

由于关键区块检测相较于文字行识别的粒度更大，因此识别效率更好。并且如果确定待识别图像不包含与识别类别相对应的关键区块，则该待识别图像不包含相应识别类别的有效信息的可能性就非常高，从而能更低成本、更快捷地发现待识别图像的类别与识别类别不符。

在本申请的一个实施例中，上述方法中，关键区块检测模型可以通过如下方式训练得到：获取指定类别的样本图像作为训练数据，样本图像标注有多个关键区块；利用训练数据进行迭代训练，得到与该指定类别匹配的关键区块检测模型。其中，关键区块检测模型是基于目标检测算法实现的。

这里的关键区块检测模型的网络架构可以直接使用已有的目标检测框架，基于标注的训练数据进行训练，得到与类别匹配的关键区块检测模型。也可以搭建一个通用的基础目标检测框架，基于不同训练数据进行不同的训练，得到不同的关键区块检测模型。

由于关键区块的粒度较大，因而目标检测框架的性能是足够的，但是如果希望直接根据目标检测框架进行文字行定位则难以满足。在本申请的实施例中，使用目标检测框架进行关键区块的检测，检测出的关键区块可以包含多个文字行，不需要对多个文字行进行分离，只需要确定关键区块的位置以及属性。

在本申请的一个实施例中，上述方法中，对检测出的多个关键区块进行聚类可以包括：基于关键区块的向量表示进行聚类。其中，聚类结果满足如下条件：每个子图的面积与待识别图像的面积的比值均不大于第一阈值，且每个子图中各关键区块的面积和与该子图的面积的比值均不小于第二阈值。

具体地，在本申请的一个实施例中，上述方法中，关键区块的向量表示包括：关键区块的中心点坐标、关键区块的宽和关键区块的高。例如一个关键区块的向量表示为(x,y,w,h)，x,y分别为关键区块的中心点的横纵坐标，w为关键区块的宽，h为关键区块的高。

为了避免子图的过度分割或是分割粒度过粗，本申请的实施例采用评价函数控制分割结果，具体的评价函数可以是下述函数：

S _i/S≤threshold ₁and S _boxi/S _i≥threshold ₂

其中，每个子图的面积表示为S _i(0≤i＜k)，每个子图中包含的各关键区块的面积累加和表示为S _boxi(0≤i＜k)，待识别图像的面积为S，threshold ₁和threshold ₂分别为第一阈值和第二阈值，两个阈值可以是相等的。

具体来说，聚类和子图分割可以是动态进行的，例如先初始化k为1，然后根据上述评价函数判断这样分割得到的子图是否满足评价函数。若不满足则将k加1，再进行聚类和子图分割，直到满足上述评价函数。

图2分割后的结果如图4所示，其中以虚线框出了分割得到的两个子图。

在本申请的一个实施例中，上述方法中，对各子图分别进行文字识别包括：对各子图分别进行文字行检测，得到检测出的文字行；将检测出的文字行与关键区块进行匹配，根据关键区块的属性确定相匹配的文字行的属性。

由于待识别图像可能存在旋转(这里的旋转包括小角度的旋转，例如拍摄图像时可能由于拍摄角度导致图像中文档的中垂线与图像的中垂线之间存在一个小角度夹角)、仿射变化(例如，将矩形文档拍摄得像倾斜的平行四边形)、模糊等情况，因此直接对子图中各关键区块做线分割检测，然后进行识别的效果不够理想。对此，本申请提出了文字行分割的方式，即先对子图做文字行检测，得到多个文字行；再将文字行与关键区块进行匹配，就能够根据关键区块的属性确定相匹配的文字行的属性。

匹配的实现方式包括但不限于利用IoU(Intersection over Union)。IoU也是目标检测中的一个常用概念，通常指产生的候选框(candidate bound)与原标记框(ground truth bound)的交叠率，即它们的交集与并集的比值，也称为交并比。在本申请的实施例中，如果检测到的一个文字行与一个关键区块的IoU大于预设阈值，即可认为二者匹配。

例如图5示出了图4中左半部分子图的文字行检测结果(白框所示)，其中，“天津市西青区xx冷食店”这一文字行的属性就是“经营者名称”的内容项。

其中，文字行检测算法可以包括但不限于CTPN算法、seg-link算法等。

在本申请的一个实施例中，上述方法中，对各子图分别进行文字识别还包括：对检测出的文字行进行文字内容识别。本申请对文字内容识别的实现方式不做限制。

识别出的文字内容可以应用到相应场景，如用户只需要提供营业执照的图像，就不必手动填写法定代表人等信息，而是直接使用文字内容识别的结果即可。

图6示出了根据本申请一个实施例的一种图像识别装置的结构示意图。如图6所示，图像识别装置600包括：

图像获取单元610，用于获取待识别图像。其中，待识别图像可以是由用户上传的图像，并且具有广义的理解，如照片、截图以及视频中提取出的视频帧都属于图像的范畴。

关键区块检测单元620，用于选择与识别类别匹配的关键区块检测模型，根据选择的关键区块检测模型对待识别图像进行关键区块检测。

聚类单元630，用于若检测出多个关键区块，则对检测出的多个关键区块进行聚类，根据聚类结果从待识别图像中分割出若干个子图，使各子图分别包含若干个关键区块。

识别单元640，用于对各子图分别进行文字识别。本申请对文字识别的实现方式不做限制。

可见，图6所示的装置，在获取到待识别图像后，先依据识别类别选择相匹配的关键区块检测模型，再对检测出的多个关键区块进行聚类，根据聚类结果从待识别图像中分割出若干个子图，最后对各子图分别进行文字识别。通过利用关键区块检测、并基于检测出的关键区块进行图像智能分割，解决了版式较为固定的证照、文档图像内容格式化输出的难题，大大降低了开发人力和时间成本。

在本申请的一个实施例中，上述图像识别装置600中，识别单元640，还用于若不能检测出关键区块，则判定待识别图像的类别与识别类别不符。

在本申请的一个实施例中，上述图像识别装置600中，关键区块检测模型可以通过如下方式训练得到：获取指定类别的样本图像作为训练数据，样本图像标注有多个关键区块；利用训练数据进行迭代训练，得到与该指定类别匹配的关键区块检测模型。其中，关键区块检测模型是基于目标检测算法实现的。

在本申请的一个实施例中，上述图像识别装置600中，聚类单元630，用于基于关键区块的向量表示进行聚类。其中，聚类结果满足如下条件：每个子图的面积与待识别图像的面积的比值均不大于第一阈值，且每个子图中各关键区块的面积和与该子图的面积的比值均不小于第二阈值。

具体地，在本申请的一个实施例中，上述图像识别装置600中，关键区块的向量表示包括：关键区块的中心点坐标、关键区块的宽和关键区块的高。

例如一个关键区块的向量表示为(x,y,w,h)，x,y分别为关键区块的中心点的横纵坐标，w为关键区块的宽，h为关键区块的高。

S _i/S≤threshold ₁and S _boxi/S _i≥threshold ₂

在本申请的一个实施例中，上述图像识别装置600中，识别单元640，用于对各子图分别进行文字行检测，得到检测出的文字行；将检测出的文字行与关键区块进行匹配，根据关键区块的属性确定相匹配的文字行的属性。

在本申请的一个实施例中，上述图像识别装置600中，识别单元640，用于对检测出的文字行进行文字内容识别。本申请对文字内容识别的实现方式不做限制。

综上所述，本申请的实施例，在获取到待识别图像后，先依据其类别选择相匹配的关键区块检测模型，再对检测出的多个关键区块进行聚类，根据聚类结果从待识别图像中分割出若干个子图，使各子图分别包含若干个关键区块，从而完成了图像的智能分割，最后对各子图分别进行文字识别。其中的关键区块检测模型、聚类算法和文字识别都可以在现有技术的基础上实现，关键点在于利用了关键区块检测、基于检测出的关键区块进行图像智能分割这两个强关联步骤，解决了版式较为固定的证照、文档图像内容格式化输出的难题，大大降低了开发人力和时间成本。

需要说明的是：在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个实施例中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，本申请在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的图像识别装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图7示出了根据本申请一个实施例的电子设备的结构示意图。该电子设备700包括处理器710和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器720。存储器720可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器720具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码731的存储空间730。例如，用于存储计算机可读程序代码的存储空间730可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码731。计算机可读程序代码731可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图8所述的计算机可读存储介质。图8示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质800存储有用于执行根据本申请的方法步骤的计算机可读程序代码731，可以被电子设备700的处理器710读取，当计算机可读程序代码731由电子设备700运行时，导致该电子设备700执行上面所描述的方法中的各个步骤，具体来说，该计算机可读存储介质存储的计算机可读程序代码731可以执行上述任一实施例中示出的方法。计算机可读程序代码731可以以适当形式进行压缩。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

一种图像识别方法，包括：

获取待识别图像；

选择与识别类别匹配的关键区块检测模型，

根据选择的关键区块检测模型对所述待识别图像进行关键区块检测；

若检测出多个关键区块，则

对检测出的所述多个关键区块进行聚类，

根据聚类结果从所述待识别图像中分割出若干个子图，使各所述子图包含若干个所述关键区块；

对各所述子图进行文字识别。
如权利要求1所述的方法，还包括：

若不能检测出关键区块，则判定所述待识别图像的类别与所述识别类别不符。
如权利要求1所述的方法，其中，所述关键区块检测模型是通过如下方式训练得到的：

获取指定类别的样本图像作为训练数据，所述样本图像标注有多个关键区块；

利用所述训练数据进行迭代训练，得到与所述指定类别匹配的关键区块检测模型；

其中，所述关键区块检测模型是基于目标检测算法实现的。
如权利要求1所述的方法，其中，对检测出的所述多个关键区块进行聚类包括：

基于所述多个关键区块各自的向量表示进行聚类，所述聚类结果满足如下条件：

每个所述子图的面积与所述待识别图像的面积的比值不大于第一阈值，且

每个所述子图中各所述关键区块的面积和与该子图的面积的比值不小于第二阈值。
如权利要求4所述的方法，其中，所述关键区块的向量表示包括：

所述关键区块的中心点坐标，

所述关键区块的宽，和

所述关键区块的高。
如权利要求1所述的方法，其中，对所述子图进行文字识别包括：

对所述子图进行文字行检测，得到检测出的文字行；

将检测出的文字行与所述子图中的关键区块进行匹配，

根据所述子图中的关键区块的属性确定相匹配的文字行的属性。
如权利要求6所述的方法，其中，对所述子图进行文字识别还包括：

对检测出的文字行进行文字内容识别。
一种图像识别装置，包括：

图像获取单元，用于获取待识别图像；

关键区块检测单元，用于选择与识别类别匹配的关键区块检测模型，根据选择的关键区块检测模型对所述待识别图像进行关键区块检测；

聚类单元，用于若检测出多个关键区块，则对检测出的所述多个关键区块进行聚类，根据聚类结果从所述待识别图像中分割出若干个子图，使各所述子图包含若干个所述关键区块；

识别单元，用于对各所述子图进行文字识别。
一种电子设备，包括：

处理器；以及

存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如权利要求1-7中任一项所述的方法。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现如权利要求1-7中任一项所述的方法。