WO2021147219A1

WO2021147219A1 - 基于图像的文本识别方法、装置、电子设备及存储介质

Info

Publication number: WO2021147219A1
Application number: PCT/CN2020/093563
Authority: WO
Inventors: 何嘉欣; 刘鹏; 刘玉宇; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-01-22
Filing date: 2020-05-30
Publication date: 2021-07-29
Also published as: CN111291753A; CN111291753B

Abstract

本申请涉及人工智能，尤其涉及图像处理领域，揭露了一种基于图像的文本识别方法，包括：接收用户发出的携带待识别图像的文本识别指令；将所述待识别图像输入预设识别模型中，得到第一识别结果；判断所述第一识别结果是否满足第一预设条件；若否，对所述第一文本框进行多次变换，得到每个所述第一文本框对应的多个第二文本框；将所述第一文本框对应的多个第二文本框输入所述识别模型中，得到所述第一文本框对应的多个第二识别结果；判断是否存在满足第二预设条件的第二识别结果；若是，基于所述满足第二预设条件的第二识别结果生成目标识别结果，并反馈至所述用户。本申请还揭露一种装置、设备及存储介质。利用本申请，可提高文本识别的准确性。

Description

基于图像的文本识别方法、装置、电子设备及存储介质

本申请要求于2020年01月22日提交中国专利局、申请号为202010076369.6、发明名称为“基于图像的文本识别方法、装置及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于图像的文本识别方法、装置、电子设备及计算机可读存储介质。

背景技术

现今专用OCR识别已经有一套成熟的算法，分别承担目标文件检测，字段检测和字段识别，这个过程是端到端的，结果将直接输出至用户。

现有的通用OCR识别的基本流程是，首先检测图片中文字所在的区域，画出每个区域的外接矩形框，然后把每个矩形框进行基本的二维旋转矫正后，把切块输入识别模块，由此获得整张图片的全部文本内容。发明人意识到虽然这个流程可以矫正目标在二维平面内的倾斜，然而，在实际的图像识别情景中，经常有识别对象和原图片并不共平面的情况。这种情况下的图像识别结果也会与正确的结果相差甚远。

因此，亟待提供一种能准确从图片中识别文本的方法。

发明内容

鉴于以上内容，本申请提供一种基于图像的文本识别方法、装置、电子设备及计算机可读存储介质，其主要目的在于提高从图像中识别文本的准确性。

为实现上述目的，本申请提供一种基于图像的文本识别方法，该方法包括：

接收步骤：接收用户发出的文本识别指令，所述文本识别指令中包括待识别图像；

第一识别步骤：将所述待识别图像输入预设识别模型中，得到第一识别结果，包括多个第一文本框；

第一判断步骤：判断所述第一识别结果是否满足第一预设条件；

变换步骤：当判断所述第一识别结果不满足所述第一预设条件时，基于预设变换算法对所述第一文本框进行多次变换，得到每个所述第一文本框对应的多个第二文本框；

第二识别步骤：将所述第一文本框对应的多个第二文本框输入所述识别模型中，得到所述第一文本框对应的多个第二识别结果；

第二判断步骤：判断所述第一文本框对应的多个第二识别结果中是否存在满足第二预设条件的第二识别结果；及

第一生成步骤，当判断存在满足所述第二预设条件的第二识别结果时，基于所述满足第二预设条件的第二识别结果确定所述第一文本框对应的目标文本信息，生成目标识别结果，并向所述用户展示所述目标识别结果。

为实现上述目的，本申请提供一种基于图像的文本识别装置，该装置包括：

接收模块，用于接收用户发出的文本识别指令，所述文本识别指令中包括待识别图像；

第一识别模块，用于将所述待识别图像输入预设识别模型中，得到第一识别结果，包括多个第一文本框；

第一判断模块，用于判断所述第一识别结果是否满足第一预设条件；

变换模块，用于当判断所述第一识别结果不满足所述第一预设条件时，基于预设变换算法对所述第一文本框进行多次变换，得到每个所述第一文本框对应的多个第二文本框；

第二识别模块，用于将所述第一文本框对应的多个第二文本框输入所述识别模型中，得到所述第一文本框对应的多个第二识别结果；

第二判断模块，用于判断所述第一文本框对应的多个第二识别结果中是否存在满足第二预设条件的第二识别结果；及

此外，为实现上述目的，本申请还提供一种电子设备，该设备包括：存储器、处理器，所述存储器中存储有可在所述处理器上运行的基于图像的文本识别程序，所述基于图像的文本识别程序被所述处理器执行时可实现如下步骤：

此外，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中包括基于图像的文本识别程序，所述基于图像的文本识别程序被处理器执行时，可实现如下步骤：

本申请提出的基于图像的文本识别方法、装置、电子设备及计算机可读存储介质，在接收到用户发出的携带待识别图像的指令后，对待识别图像进行OCR识别，当识别结果的置信度大于或等于预设置信度阈值时，直接将识别结果作为目标识别结果反馈给用户，当识别结果的置信度小于预设置信度阈值时，对待识别图像进行多次随机透视变换，并基于多次随机透视变换的结果进行OCR识别，分析识别结果得到目标识别结果，通过采取随机透视变换，增加了变换结果的多样性，避免了待识别图像因三维角度干扰造成的识别准确率下降的问题，从而提高了准确识别的可能，提高用户的使用体验；同时利用多种识别模型对待识别图像进行识别，取置信度最高的识别结果生成目标识别结果，提高了文本识别的准确性；在对待识别图像进行随机透视变换前还对待识别图像进行畸变校正，并基于畸变校正结果进行透视变换，为准确识别文本奠定基础。

附图说明

图1为本申请基于图像的文本识别方法较佳实施例的流程图；

图2为本申请电子设备较佳实施例的示意图；

图3为本申请文本识别装置较佳实施例的模块示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供一种基于图像的文本识别方法。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

参照图1所示，为本申请基于图像的文本识别方法较佳实施例的流程图。

在本申请基于图像的文本识别方法一较佳实施例中，所述基于图像的文本识别方法仅包括：步骤S1-步骤S7。

步骤S1，接收用户发出的文本识别指令，所述文本识别指令中包括待识别图像。

以下以电子设备作为执行主体对本申请各实施例进行说明。

用户通过客户端上的APP选择待识别图像，并基于选择的待识别图像发出文本识别指令。电子设备接收到客户端发出的指令后，对指令中携带的待识别图像执行文本识别操作。

步骤S2，将所述待识别图像输入预设识别模型中，得到第一识别结果，包括多个第一文本框。

上述预设识别模型为OCR识别模型。具体地，OCR识别模型首先检测所述待识别图像中文本字段位置，并确定包含所述文本字段位置的外接矩形框，即，文本框，然后分别识别出每一个文本框对应的第一文本信息及第一置信度。其中，置信度为OCR识别模型输出的识别结果中文本信息对应的准确度，置信度越高，识别出的文本信息越接近待识别图像中的真实文本信息。

在其他实施例中，为了提高识别准确性，在识别出文本框对应的文本信息前，先判断外接矩形框是否存在二维角度，若存在，则对外接矩形框执行旋转校正，将校正后的外接矩形框作为第一文本框。

步骤S3，判断所述第一识别结果是否满足第一预设条件。

在本实施例中，所述第一预设条件包括：所述第一置信度大于或等于预设置信度阈值，例如，0.98。

所述判断所述第一识别结果是否满足第一预设条件，包括：

从所述第一识别结果获取所述第一文本信息对应的第一置信度，判断所述第一置信度是否超过预设置信度阈值；及

若是，则判断所述第一识别结果满足所述第一预设条件，若否，则判断所述第一识别结果不满足所述第一预设条件。

其中，预设置信度阈值可根据实际需求进行调整。

可以理解的是，若第一识别结果中置信度大于或等于预设置信度阈值，则认为识别结果的准确性满足实际需求，无需对识别进行优化。

步骤S4，当判断所述第一识别结果不满足所述第一预设条件时，基于预设变换算法对所述第一文本框进行多次变换，得到每个所述第一文本框对应的多个第二文本框。

在本实施例中，所述预设变换算法为：随机透视变换算法。

透视变换的本质是将图像投影到一个新的视平面，其通用变换公式为：

(u,v)为第一文本框的图像的像素坐标，(x＝x′/w′,y＝y′/w′)为变换之后的第二文本框的图像的像素坐标。透视变换矩阵图解如下：

其中

表示图像线性变换；T ₂＝[a ₁₃ a ₂₃] ^T用于产生图像的透视变换；T ₃＝[a ₃₁ a ₃₂]表示图像平移。在变换过程中，需要预设T ₁和T ₂矩阵的随机值。

在计算得到透视变换矩阵后，即可根据透视变换矩阵获取第一文本框的图像变换后的第二文本框的图像。

步骤S5，将所述第一文本框对应的多个第二文本框输入所述识别模型中，得到所述第一文本框对应的多个第二识别结果。

其中，所述第一文本框对应的多个第二识别结果，包括所述第一文本框对应的多个第二文本框对应的第二文本信息及第二置信度。例如，对每个第一文本框进行5次随机透视变换，得到一个第一文本框对应的5个第二文本框，利用OCR识别模型识别出5个第二文本框中的第二文本信息及第二置信度。

步骤S6，判断所述第一文本框对应的多个第二识别结果是否存在满足第二预设条件的第二识别结果。

上述第二预设条件为：第二置信度大于或等于预设置信度阈值。

在本实施例中，所述判断所述第一文本框对应的多个第二识别结果是否存在满足第二预设条件的第二识别结果，包括：

分别从所述第一文本框对应的多个第二识别结果中获取所述第二文本信息对应的第二置信度，判断所述第二置信度是否超过预设置信度阈值；及

若是，则判断所述第一文本框对应的多个第二识别结果存在满足所述第二预设条件的第二识别结果，若否，则判断所述第一文本框对应的多个第二识别结果不存在满足所述第二预设条件的第二识别结果。

步骤S7，当判断存在满足所述第二预设条件的第二识别结果时，基于所述满足第二预设条件的第二识别结果确定所述第一文本框对应的目标文本信息，生成目标识别结果，并向所述用户展示所述目标识别结果。

例如，将一个第一文本框对应的多个第二文本框中第二置信度超过预设置信度阈值的第二文本信息作为对应的第一文本框的识别结果，即目标目标文本信息，汇总每个第一文本框的目标文本信息生成目标识别结果通过客户端的展示界面反馈给用户。

在其他实施例中，当存在多个满足所述第二预设条件的第二识别结果时，所述基于所述满足第二预设条件的第二识别结果生成目标识别结果，包括：

从所述满足预设条件的第二识别结果中选择置信度最高值对应的第二识别结果的第二文本信息作为所述第一文本框的目标文本信息。

在其他实施例中，所述基于图像的文本识别方法仅包括：步骤S1-步骤S6、及步骤S8。

步骤S8，当判断不存在满足所述第二预设条件的第二识别结果时，基于所述第一识别结果及所述多个第二识别结果确定所述每个第一文本框对应的目标文本信息，生成目标识别结果，并向所述用户展示所述目标识别结果。

在其他实施例中，所述基于所述第一识别结果及所述多个第二识别结果生成目标识别结果，包括：

从所述第一识别结果及所述多个第二识别结果中选择置信度最高值对应的识别结果作为目标识别结果。

在其他实施例中，所述基于图像的文本识别方法仅包括：步骤S1-步骤S3、及步骤S9。

步骤S9，当判断所述第一识别结果满足所述第一预设条件时，基于所述第一识别结果生成目标识别结果，并向所述用户展示所述目标识别结果。

若第一置信度大于或等于预设置信度阈值，直接将第一识别结果作为目标结果反馈给用户。

在其他实施例中，为了进一步提高文本识别的准确性，所述将所述待识别图像输入预设识别模型中，得到第一识别结果，包括：

将所述待识别图像输入预设数量的识别模型中，分别得到所述预设数量的识别模型对应的第一备选识别结果；及

从所述预设数量的识别模型对应的第一备选识别结果中选择第一置信度最高者对应的第一备选识别结果作为所述第一识别结果。

上述预设数量的识别模型包括但不仅限于：第一识别模型和第二识别模型；其中，上述第一识别模型和第二识别模型的模型结构可以相同也可以不同，例如，第一识别模型为CNN+RNN+CTC；第二识别模型为：CNN+Seq2Seq+Attention。上述第一识别模型和第二识别模型的训练数据必须是相互独立的，使得不同的识别模型的识别结果也是相互独立的。例如，第一识别模型的训练数据仅包括字母、符号及数字；第二识别模型的训练数据包括汉字、字母、数字等。使得不同的识别模型能准确识别的对象有所区别。

可以理解的是，对于待识别图像中的“汉字内容”，第一识别模型得到的识别结果置信度必然很低，第二识别模型的置信度会明显高于第一识别模型的置信度，对于待识别图像中的“符号内容”，第二识别模型得到的识别结果置信度必然很低，第一识别模型的置信度会明显高于第二识别模型的置信度。

相应地，所述将所述第一文本框对应的多个第二文本框输入所述识别模型中，得到所述第一文本框对应的多个第二识别结果，包括：

分别将所述多个第二文本框依次输入预设数量的识别模型中，分别得到各第二文本框对应的所述预设数量的识别模型对应的第二备选识别结果；

从所述各第二文本框对应的所述预设数量的识别模型对应的第二备选识别结果中选择第二置信度最高者对应的第二备选识别结果作为所述各第二文本框对应的第二识别结果；及

基于所述各第二文本框对应的第二识别结果生成与所述各第二文本框对应的第一文本框的第二识别结果。

需要说明的是，每一个第一文本框对应的多个第二文本框分别输入到上述第一识别模型和第二识别模型会得到每个第二文本框的两个识别结果包括第二文本信息及第二置信度。

同样，以一个第一文本框为例，其对应5个第二文本框，依次将5个第二文本框分别输入第一识别模型及第二识别模型中，每个第二文本框对应的两个第二备选识别结果，取两个备选识别结果中置信度较高者作为当前第二文本框对应的第二识别结果，得到当前第一文本框对应的5个第二文本框的第二识别结果。然后采用上述步骤判断第二识别结果是否满足预设条件，并根据判断结果确定当前第一文本框的第二识别结果。

可以理解的是，所述待识别图像可能是用户即时采集的，在用户采用摄像头采集待识别图像过程中，可能出现由于摄像头自身的特性导致图片出现畸变的情况。因此，为了进一步提高识别的准确性，在其他实施例中，在所述步骤S4之前，该方法还包括：

基于预设畸变校正规则对所述待识别图像进行畸变校正，得到畸变校正后的待识别图像。

在本实施例中，所述基于预设畸变校正规则对所述待识别图像进行畸变校正，得到畸变校正后的待识别图像，包括：

获取所述待识别图像的像素角点，计算所述像素角点在无畸变图像上的坐标；

根据所述像素角点在所述无畸变图像上的坐标计算透视变换矩阵；及

根据所述透视变换矩阵对所述待识别图像进行畸变校正，生成所述畸变校正后的待识别图像。

在本实施例中，通过对原始存在畸变的待识别图像上的像素角点进行畸变矫正，获取各个像素角点在无畸变图像上的坐标，其中，像素角点可以是存在畸变的待识别图像的顶点，如果待识别图像为四边形，则是四边形的四个顶点。由于在计算透视变换矩阵时，至少需要四个像素点的对应坐标才能求解，因而，在获取存在畸变的待识别图像上的像素角点时至少需要获取四个像素角点的坐标。以二维码图像为例，可以先从原始的畸变图像中获取图像中的二维码区域的四个像素角点的坐标，即二维码的四个顶点的坐标，然后根据以下公式采用事先标定好的畸变参数求出四个角点在无畸变图像上的坐标：[x，y]＝K[u，v]，其中，[x，y]为原始畸变图像上的像素角点坐标，[u，v]为无畸变图像上的像素角点坐标，K为畸变参数。

求解出透视变换矩阵后，即可对待识别图像进行透视变换，得到经过畸变校正后的待识别图像，然后执行后续的变换及识别操作。

由于通过畸变矫正来计算像素角点在无畸变图像上的坐标并不是一一映射的，所以可能针对原始畸变图像上的像素角点计算得到的在无畸变图像上坐标并不是唯一的，为了找到像素角点在无畸变图像上的较优的坐标。

在其他实施例中，所述计算所述像素角点在无畸变图像上的坐标，包括：

首先，在所述无畸变图像上确定一个目标像素点，目标像素点的坐标与所述待识别图像上的像素角点的坐标相同；

然后，确定以所述目标像素点为圆心，预设邻域半径为半径的圆形区域内的像素点，作为邻域像素点；

然后，遍历所述无畸变图像上目标像素点的各个邻域像素点，分别计算所述各个邻域像素点在所述待识别图像上的坐标；及

最后，根据所述各个邻域像素点在所述待识别图像上的坐标确定所述像素角点在所述无畸变图像上的坐标。

例如，可以分别根据各个邻域像素点在原始畸变的待识别图像上的坐标计算各个邻域像素点与像素角点的距离，然后将最短距离对应的坐标确定为所述像素角点在无畸变图像上的坐标。在确定原始畸变的待识别图像上各个像素角点在无畸变图像中的坐标时，可以根据原始畸变的待识别图像的畸变程度去灵活地设置邻域半径，当畸变程度较小时，邻域半径可以设置得小一些，这样需要遍历的邻域像素点少一些，可以减少计算量，当畸变程度较大时，可以将邻域半径设置得大一些，这样便可以找到最优的像素点。

上述实施例提出的基于图像的文本识别方法，在接收到用户发出的携带待识别图像的指令后，对待识别图像进行OCR识别，当识别结果的置信度大于或等于预设置信度阈值时，直接将识别结果作为目标识别结果反馈给用户，当识别结果的置信度小于预设置信度阈值时，对待识别图像进行多次随机透视变换，并基于多次随机透视变换的结果进行OCR 识别，分析识别结果得到目标识别结果，通过采取随机透视变换，增加了变换结果的多样性，避免了待识别图像因三维角度干扰造成的识别准确率下降的问题，从而提高了准确识别的可能，提高用户的使用体验；同时利用多种识别模型对待识别图像进行识别，取置信度最高的识别结果生成目标识别结果，提高了文本识别的准确性；在对待识别图像进行随机透视变换前还对待识别图像进行畸变校正，并基于畸变校正结果进行透视变换，为准确识别文本奠定基础。

本申请还提出一种电子设备。参照图2所示，为本申请电子设备较佳实施例的示意图。

在本实施例中，电子设备1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有数据处理功能的终端设备，所述服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器。

该电子设备1包括存储器11、处理器12及网络接口13。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是所述电子设备1的内部存储单元，例如该电子设备1的硬盘。存储器11在另一些实施例中也可以是所述电子设备1的外部存储设备，例如该电子设备1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括该电子设备1的内部存储单元也包括外部存储设备。

存储器11不仅可以用于存储安装于该电子设备1的应用软件及各类数据，例如，基于图像的文本识别程序10等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如，基于图像的文本识别程序10等。

网络接口13可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子设备1与其他电子设备之间建立通信连接，例如，客户端(图中未标识)。电子设备1的组件11-13通过通信总线相互通信。

图2仅示出了具有组件11-13的电子设备1，本领域技术人员可以理解的是，图2示出的结构并不构成对电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

可选地，该电子设备1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。

可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。其中，显示器也可以称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

在图2所示的电子设备1实施例中，作为一种计算机存储介质的存储器11中存储基于图像的文本识别程序10的程序代码，处理器12执行基于图像的文本识别程序10的程序代码时，实现如下步骤：

用户通过客户端上的APP选择待识别图像，并基于选择的待识别图像发出文本识别指令。电子设备1接收到客户端发出的指令后，对指令中携带的待识别图像执行文本识别操作。

所述判断所述第一识别结果是否满足第一预设条件，包括：

其中，预设置信度阈值可根据实际需求进行调整。

在本实施例中，所述预设变换算法为：随机透视变换算法。

其中

第二判断步骤：判断所述第一文本框对应的多个第二识别结果是否存在满足第二预设条件的第二识别结果；

第一生成步骤：当判断存在满足所述第二预设条件的第二识别结果时，基于所述满足第二预设条件的第二识别结果确定所述第一文本框对应的目标文本信息，生成目标识别结果，并向所述用户展示所述目标识别结果。

在其他实施例中，所述处理器12执行所述基于图像的文本识别程序10时，在所述变换步骤之前，还可实现以下步骤：

第二生成步骤：当判断不存在满足所述第二预设条件的第二识别结果时，基于所述第一识别结果及所述多个第二识别结果确定所述每个第一文本框对应的目标文本信息，生成目标识别结果，并向所述用户展示所述目标识别结果。

第三生成步骤：当判断所述第一识别结果满足所述第一预设条件时，基于所述第一识别结果生成目标识别结果，并向所述用户展示所述目标识别结果。

可以理解的是，所述待识别图像可能是用户即时采集的，在用户采用摄像头采集待识别图像过程中，可能出现由于摄像头自身的特性导致图片出现畸变的情况。因此，为了进一步提高识别的准确性，在其他实施例中，所述处理器12执行所述基于图像的文本识别程序10时，在所述变换步骤之前，还可实现以下步骤：

本申请还提出一种文本识别装置。

参照图3所示，为本申请文本识别装置较佳实施例的模块示意图。

本实施例所述文本识别装置2根据实现的功能可以包括：模块210-模块270。所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本申请文本识别装置2的一实施例中，关于各模块/单元的功能如下：

接收模块210，用于接收用户发出的文本识别指令，所述文本识别指令中包括待识别图像；

第一识别模块220，用于将所述待识别图像输入预设识别模型中，得到第一识别结果，包括多个第一文本框；

第一判断模块230，用于判断所述第一识别结果是否满足第一预设条件；

变换模块240，用于当判断所述第一识别结果不满足所述第一预设条件时，基于预设变换算法对所述第一文本框进行多次变换，得到每个所述第一文本框对应的多个第二文本框；

第二识别模块250，用于将所述第一文本框对应的多个第二文本框输入所述识别模型中，得到所述第一文本框对应的多个第二识别结果；

第二判断模块260，用于判断所述第一文本框对应的多个第二识别结果中是否存在满足第二预设条件的第二识别结果；及

反馈判断模块270，用于当判断存在满足所述第二预设条件的第二识别结果时，基于所述满足第二预设条件的第二识别结果确定所述第一文本框对应的目标文本信息，生成目标识别结果，并向所述用户展示所述目标识别结果。

所述模块210-270所实现的功能或操作步骤均与上文类似，此处不再详述。

此外，本申请实施例还提出一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性。所述计算机可读存储介质中包括基于图像的文本识别程序10，所述基于图像的文本识别程序10被处理器执行时实现所述基于图像的文本识别方法的任意步骤。本申请计算机可读存储介质的具体实施方式与上述方法实施例大致相同，在此不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种基于图像的文本识别方法，适用于电子设备，其中，该方法包括：

接收步骤：接收用户发出的文本识别指令，所述文本识别指令中包括待识别图像；

第一识别步骤：将所述待识别图像输入预设识别模型中，得到第一识别结果，包括多个第一文本框；

第一判断步骤：判断所述第一识别结果是否满足第一预设条件；

变换步骤：当判断所述第一识别结果不满足所述第一预设条件时，基于预设变换算法对所述第一文本框进行多次变换，得到每个所述第一文本框对应的多个第二文本框；

第二识别步骤：将所述第一文本框对应的多个第二文本框输入所述识别模型中，得到所述第一文本框对应的多个第二识别结果；

第二判断步骤：判断所述第一文本框对应的多个第二识别结果中是否存在满足第二预设条件的第二识别结果；及

第一生成步骤，当判断存在满足所述第二预设条件的第二识别结果时，基于所述满足第二预设条件的第二识别结果确定所述第一文本框对应的目标文本信息，生成目标识别结果，并向所述用户展示所述目标识别结果。
根据权利要求1所述的基于图像的文本识别方法，其中，所述基于图像的文本识别方法还包括：

第二生成步骤：当判断不存在满足所述第二预设条件的第二识别结果时，基于所述第一识别结果及所述多个第二识别结果确定所述每个第一文本框对应的目标文本信息，生成目标识别结果，并向所述用户展示所述目标识别结果。
根据权利要求1所述的基于图像的文本识别方法，其中，所述基于图像的文本识别方法还包括：

第三生成步骤：当判断所述第一识别结果满足所述第一预设条件时，基于所述第一识别结果生成目标识别结果，并向所述用户展示所述目标识别结果。
根据权利要求1至3中任意一项所述的基于图像的文本识别方法，其中，在所述变换步骤之前，该方法还包括：

基于预设畸变校正规则对所述待识别图像进行畸变校正，得到畸变校正后的待识别图像。
根据权利要求4所述的基于图像的文本识别方法，其中，所述基于预设畸变校正规则对所述待识别图像进行畸变校正，得到畸变校正后的待识别图像，包括：

获取所述待识别图像的像素角点，计算所述像素角点在无畸变图像上的坐标；

根据所述像素角点在所述无畸变图像上的坐标计算透视变换矩阵；及

根据所述透视变换矩阵对所述待识别图像进行畸变校正，生成所述畸变校正后的待识别图像。
根据权利要求5所述的基于图像的文本识别方法，其中，所述计算所述像素角点在无畸变图像上的坐标，包括：

在所述无畸变图像上确定一个目标像素点，目标像素点的坐标与所述待识别图像上的像素角点的坐标相同；

确定以所述目标像素点为圆心，预设邻域半径为半径的圆形区域内的像素点，作为邻域像素点；

遍历所述无畸变图像上目标像素点的各个邻域像素点，分别计算所述各个邻域像素点在所述待识别图像上的坐标；及

根据所述各个邻域像素点在所述待识别图像上的坐标确定所述像素角点在所述无畸变图像上的坐标。
根据权利要求1所述的基于图像的文本识别方法，其中，所述预设变换算法为随机透视变换算法。
根据权利要求1所述的基于图像的文本识别方法，其中，所述第一识别结果还包括所述多个第一文本框对应的第一文本信息及第一置信度；所述判断所述第一识别结果是否满足第一预设条件，包括：

从所述第一识别结果获取所述第一文本信息对应的第一置信度，判断所述第一置信度是否超过预设置信度阈值；及

若是，则判断所述第一识别结果满足所述第一预设条件，若否，则判断所述第一识别结果不满足所述第一预设条件；

所述第二识别结果包括所述第一文本框对应的多个第二文本框对应的第二文本信息及第二置信度；所述判断所述第一文本框对应的多个第二识别结果是否存在满足第二预设条件的第二识别结果，包括：

分别从所述第一文本框对应的多个第二识别结果中获取所述第二文本信息对应的第二置信度，判断所述第二置信度是否超过预设置信度阈值；及

若是，则判断所述第一文本框对应的多个第二识别结果存在满足所述第二预设条件的第二识别结果，若否，则判断所述第一文本框对应的多个第二识别结果不存在满足所述第二预设条件的第二识别结果。
一种电子设备，其中，该设备包括存储器及处理器，所述存储器中存储有可在所述处理器上运行的基于图像的文本识别程序，所述基于图像的文本识别程序被所述处理器执行时可实现如下步骤：

接收步骤：接收用户发出的文本识别指令，所述文本识别指令中包括待识别图像；

第一识别步骤：将所述待识别图像输入预设识别模型中，得到第一识别结果，包括多个第一文本框；

第一判断步骤：判断所述第一识别结果是否满足第一预设条件；

变换步骤：当判断所述第一识别结果不满足所述第一预设条件时，基于预设变换算法对所述第一文本框进行多次变换，得到每个所述第一文本框对应的多个第二文本框；

第二识别步骤：将所述第一文本框对应的多个第二文本框输入所述识别模型中，得到所述第一文本框对应的多个第二识别结果；

第二判断步骤：判断所述第一文本框对应的多个第二识别结果中是否存在满足第二预设条件的第二识别结果；及

第一生成步骤，当判断存在满足所述第二预设条件的第二识别结果时，基于所述满足第二预设条件的第二识别结果确定所述第一文本框对应的目标文本信息，生成目标识别结果，并向所述用户展示所述目标识别结果。
根据权利要求9所述的电子设备，其中，所述基于图像的文本识别程序被所述处理器执行时还可实现如下步骤：

第二生成步骤：当判断不存在满足所述第二预设条件的第二识别结果时，基于所述第一识别结果及所述多个第二识别结果确定所述每个第一文本框对应的目标文本信息，生成目标识别结果，并向所述用户展示所述目标识别结果。
根据权利要求9所述的电子设备，其中，所述基于图像的文本识别程序被所述处理器执行时还可实现如下步骤：

第三生成步骤：当判断所述第一识别结果满足所述第一预设条件时，基于所述第一识别结果生成目标识别结果，并向所述用户展示所述目标识别结果。
根据权利要求9至11中任意一项所述的电子设备，其中，在所述变换步骤之前，所述基于图像的文本识别程序被所述处理器执行时还可实现如下步骤：

基于预设畸变校正规则对所述待识别图像进行畸变校正，得到畸变校正后的待识别图像。
根据权利要求12所述的电子设备，其中，所述基于预设畸变校正规则对所述待识别图像进行畸变校正，得到畸变校正后的待识别图像，包括：

获取所述待识别图像的像素角点，计算所述像素角点在无畸变图像上的坐标；

根据所述像素角点在所述无畸变图像上的坐标计算透视变换矩阵；及

根据所述透视变换矩阵对所述待识别图像进行畸变校正，生成所述畸变校正后的待识别图像。
根据权利要求13所述的电子设备，其中，所述计算所述像素角点在无畸变图像上的坐标，包括：

在所述无畸变图像上确定一个目标像素点，目标像素点的坐标与所述待识别图像上的像素角点的坐标相同；

确定以所述目标像素点为圆心，预设邻域半径为半径的圆形区域内的像素点，作为邻域像素点；

遍历所述无畸变图像上目标像素点的各个邻域像素点，分别计算所述各个邻域像素点在所述待识别图像上的坐标；及

根据所述各个邻域像素点在所述待识别图像上的坐标确定所述像素角点在所述无畸变图像上的坐标。
根据权利要求9所述的电子设备，其中，所述预设变换算法为随机透视变换算法。
根据权利要求9所述的电子设备，其中，所述第一识别结果还包括所述多个第一文本框对应的第一文本信息及第一置信度；所述判断所述第一识别结果是否满足第一预设条件，包括：

从所述第一识别结果获取所述第一文本信息对应的第一置信度，判断所述第一置信度是否超过预设置信度阈值；及

若是，则判断所述第一识别结果满足所述第一预设条件，若否，则判断所述第一识别结果不满足所述第一预设条件；

所述第二识别结果包括所述第一文本框对应的多个第二文本框对应的第二文本信息及第二置信度；所述判断所述第一文本框对应的多个第二识别结果是否存在满足第二预设条件的第二识别结果，包括：

分别从所述第一文本框对应的多个第二识别结果中获取所述第二文本信息对应的第二置信度，判断所述第二置信度是否超过预设置信度阈值；及

若是，则判断所述第一文本框对应的多个第二识别结果存在满足所述第二预设条件的第二识别结果，若否，则判断所述第一文本框对应的多个第二识别结果不存在满足所述第二预设条件的第二识别结果。
一种基于图像的文本识别装置，其中，该装置包括：

接收模块，用于接收用户发出的文本识别指令，所述文本识别指令中包括待识别图像；

第一识别模块，用于将所述待识别图像输入预设识别模型中，得到第一识别结果，包括多个第一文本框；

第一判断模块，用于判断所述第一识别结果是否满足第一预设条件；

变换模块，用于当判断所述第一识别结果不满足所述第一预设条件时，基于预设变换算法对所述第一文本框进行多次变换，得到每个所述第一文本框对应的多个第二文本框；

第二识别模块，用于将所述第一文本框对应的多个第二文本框输入所述识别模型中，得到所述第一文本框对应的多个第二识别结果；

第二判断模块，用于判断所述第一文本框对应的多个第二识别结果中是否存在满足第二预设条件的第二识别结果；及

第一生成步骤，当判断存在满足所述第二预设条件的第二识别结果时，基于所述满足第二预设条件的第二识别结果确定所述第一文本框对应的目标文本信息，生成目标识别结果，并向所述用户展示所述目标识别结果。
一种计算机可读存储介质，其中，所述计算机可读存储介质中包括基于图像的文本识别程序，所述基于图像的文本识别程序被处理器执行时，可实现如下步骤：

接收步骤：接收用户发出的文本识别指令，所述文本识别指令中包括待识别图像；

第一识别步骤：将所述待识别图像输入预设识别模型中，得到第一识别结果，包括多个第一文本框；

第一判断步骤：判断所述第一识别结果是否满足第一预设条件；

变换步骤：当判断所述第一识别结果不满足所述第一预设条件时，基于预设变换算法对所述第一文本框进行多次变换，得到每个所述第一文本框对应的多个第二文本框；

第二识别步骤：将所述第一文本框对应的多个第二文本框输入所述识别模型中，得到所述第一文本框对应的多个第二识别结果；

第二判断步骤：判断所述第一文本框对应的多个第二识别结果中是否存在满足第二预设条件的第二识别结果；及

第一生成步骤，当判断存在满足所述第二预设条件的第二识别结果时，基于所述满足第二预设条件的第二识别结果确定所述第一文本框对应的目标文本信息，生成目标识别结果，并向所述用户展示所述目标识别结果。
根据权利要求18所述的计算机可读存储介质，其中，所述基于图像的文本识别程序被处理器执行时，还可实现如下步骤：

第二生成步骤：当判断不存在满足所述第二预设条件的第二识别结果时，基于所述第一识别结果及所述多个第二识别结果确定所述每个第一文本框对应的目标文本信息，生成目标识别结果，并向所述用户展示所述目标识别结果。
根据权利要求18所述的计算机可读存储介质，其中，所述基于图像的文本识别程序被处理器执行时，还可实现如下步骤：

第三生成步骤：当判断所述第一识别结果满足所述第一预设条件时，基于所述第一识别结果生成目标识别结果，并向所述用户展示所述目标识别结果。