WO2021017260A1

WO2021017260A1 - 多语言文本识别方法、装置、计算机设备及存储介质

Info

Publication number: WO2021017260A1
Application number: PCT/CN2019/116488
Authority: WO
Inventors: 王健宗; 回艳菲; 韩茂琨; 于凤英
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-08-01
Filing date: 2019-11-08
Publication date: 2021-02-04
Also published as: CN110569830A; CN110569830B

Abstract

一种多语言文本识别方法、装置、计算机设备及存储介质。该方法包括：获取待识别图像，待识别图像包括至少两种语言对应的原始文字（S201）；对待识别图像进行版面分析识别，获取至少一个文本行图像，确定每一文本行图像在待识别图像中的文本行位置（S202）；对每一文本行图像进行文种识别，获取每一文本行图像对应的目标文种（S203）；基于目标文种查询识别模型数据库，获取目标文种对应的目标OCR识别模型（S204）；采用目标OCR识别模型对文本行图像进行转录识别，获取文本行图像对应的目标文字（S205）；基于文本行图像对应的目标文字和文本行位置，获取待识别图像对应的目标识别文本（S206）。该方法可采用目标OCR识别模型对每一文本行图像进行识别，有助于提高多语言文本的识别准确率。

Description

多语言文本识别方法、装置、计算机设备及存储介质

本申请以2019年8月1日提交的申请号为201910706802.7，名称为“多语言文本识别方法、装置、计算机设备及存储介质”的中国发明申请为基础，并要求其优先权。

技术领域

本申请涉及文本识别技术领域，尤其涉及一种多语言文本识别方法、装置、计算机设备及存储介质。

背景技术

多语言文本识别具体应用在对包含多种语言的文本图像进行识别的场景，例如，在对一中文文字、日文文字和英文文字共存的文本图像进行识别的场景。当前采用基于序列到序列(sequence-to-sequence，简称为Seq2Seq)方法训练所得的Seq2Seq识别模型对多种语言共存的文本图像进行识别，其模型结构复杂，训练过程十分困难且模型运行时效率较低，且识别准确率较低。其中，Seq2Seq是指将一个领域(如英文)的序列转换为另一种领域(如法语)的序列的模型的技术。在采用传统Seq2Seq识别模型对多种语言文字并存的文本图像进行识别时，通常会因为文种类型判断出错而使最终识别出的文字内容出错，导致识别准确率较低，不利于识别模型的推广应用。

发明内容

本申请实施例提供一种多语言文本识别方法、装置、计算机设备及存储介质，以解决当前采用识别模型进行多语言文本识别过程中存在的识别准确率较低的问题。

一种多语言文本识别方法，包括：

获取待识别图像，所述待识别图像包括至少两种语言对应的原始文字；

对所述待识别图像进行版面分析识别，获取至少一个文本行图像，确定每一所述文本行图像在所述待识别图像中的文本行位置；

对每一所述文本行图像进行文种识别，获取每一所述文本行图像对应的目标文种；

基于所述目标文种查询识别模型数据库，获取所述目标文种对应的目标OCR识别模型；

采用所述目标OCR识别模型对所述文本行图像进行转录识别，获取所述文本行图像对应的目标文字；

基于所述文本行图像对应的所述目标文字和所述文本行位置，获取所述待识别图像对应的目标识别文本。

一种多语言文本识别装置，包括：

待识别图像获取模块，用于获取待识别图像，所述待识别图像包括至少两种语言对应的原始文字；

文本行图像获取模块，用于对所述待识别图像进行版面分析识别，获取至少一个文本行图像，确定每一所述文本行图像在所述待识别图像中的文本行位置；

目标文种获取模块，用于对每一所述文本行图像进行文种识别，获取每一所述文本行图像对应的目标文种；

识别模型获取模块，用于基于所述目标文种查询识别模型数据库，获取所述目标文种对应的目标OCR识别模型；

目标文字获取模块，用于采用所述目标OCR识别模型对所述文本行图像进行转录识别，获取所述文本行图像对应的目标文字；

识别文本获取模块，用于基于所述文本行图像对应的所述目标文字和所述文本行位置，获取所述待识别图像对应的目标识别文本。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下步骤：

一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

本申请的一个或多个实施例的细节在下面的附图及描述中提出。本申请的其他特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例中多语言文本识别方法的一应用环境示意图；

图2是本申请一实施例中多语言文本识别方法的一流程图；

图3是本申请一实施例中多语言文本识别方法的另一流程图；

图4是本申请一实施例中多语言文本识别方法的另一流程图；

图5是本申请一实施例中多语言文本识别方法的另一流程图；

图6是本申请一实施例中多语言文本识别方法的另一流程图；

图7是本申请一实施例中Encoder-Summarizer机制的一模型结构示意图，其中，7(a)为Encoder组件的模型结构，7(b)为Summarizer组件的模型结构，7(c)为7(a)中的Inception的模型结构；

图8是本申请一实施例中多语言文本识别装置的一示意图；

图9是本申请一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的多语言文本识别方法，该多语言文本识别方法可应用如图1所示的应用环境中。具体地，该多语言文本识别方法应用在多语言文本识别系统中，该多语言文本识别系统包括如图1 所示的客户端和服务器，客户端与服务器通过网络进行通信，用于实现在对多语言文字共存的待识别图像进行识别时，可根据每一种语言确定相应的目标OCR识别模型，利用多个目标OCR识别模型进行识别，以保证最终识别出来的目标识别文本的识别准确率。其中，客户端又称为用户端，是指与服务器相对应,为用户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种多语言文本识别方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S201：获取待识别图像，待识别图像包括至少两种语言对应的原始文字。

其中，待识别图像是指需要进行文字识别的图像。原始文字是指记载在该待识别图像中的文字。本实施例中，该待识别图像中的原始文字对应至少两种语言，即该待识别图像为至少两种语言共存的图像。例如，在一张待识别图像中，包括采用中文、英文和日文对应的原始文字。

S202：对待识别图像进行版面分析识别，获取至少一个文本行图像，确定每一文本行图像在待识别图像中的文本行位置。

其中，对待识别图像进行版面分析识别是指对待识别图像的分布结构进行分割，并分析各个分割后的部分图像的图像特征，以确定该部分图像对应的属性类别。该属性类别包括但不限于文字块、图像块和表格块等。文本行图像是包含至少一个原始文字所形成的图像。一般来说，若文本行图像对应的排版类型为横向排版，则每一文本行图像包括一行原始文字；若文本行图像对应的排版类型为纵向排版，则每一文本行图像包括一列原始文字。

具体地，服务器可预先对待识别图像进行灰度变换、二值化处理、平滑处理和边缘检测等图像预处理操作，再对预处理后的待识别图像进行版面分析识别，以获取至少两个区块图像；再对每一区块图像进行属性分析，获取每一区块图像对应的属性类别，截取属性类别为文字块的区块图像确定为文本行图像。可以理解地，对待识别图像进行版面分析可以采用但不限于多层次可信度指导下的自底向上的版面分析算法、基于邻域特征的版面分析算法或者基于投影算法结合自底向上的版面分析算法。

具体地，服务器在对待识别图像进行版面分析识别，获取至少一个文本行图像之后，需确定该文本行图像在待识别图像中的文本行位置，以便基于该文本行位置进行后续的文本定位或者结合上下文进行识别，从而保障待识别图像识别出的目标识别文本的准确性。

在一具体实施方式中，以待识别图像的排版类型为横向排版为例进行说明，服务器在对待识别图像进行版面分析识别，获取至少一个文本行图像之后，依据至少一个文本行图像所在区域的左上角或者中心的纵坐标进行排序，获取每一文本行图像对应的行序号，从而获取该文本行图像对应的文本行位置。例如，行序号为001的文本行图像，说明其为第1行原始文字对应的文本行图像，以便基于该行序号进行后续定位或者上下文语义分析，以提高文本识别准确率。

S203：对每一文本行图像进行文种识别，获取每一文本行图像对应的目标文种。

其中，目标文种是指文本行图像中的原始文字对应的语言种类，如中文、英文或日文。具体地，服务器通过对每一文本行图像进行文种识别，以确定每一文本行图像对应的目标文种，以便基于该目标文种确定相应的目标OCR识别模型，利用该目标OCR识别模型对文本行图像进行识别，以将多语言的待识别图像转换成多个单语言的文本行图像，再采用多个目标OCR识别模型对相应的文本行图像进行识别，以提高整个待识别图像的识别准确率。

S204：基于目标文种查询识别模型数据库，获取目标文种对应的目标OCR识别模型。

其中，识别模型数据库是用于存储用于识别不同语言的文种OCR识别模型的数据库。在识别模型数据库中存储不同语言对应的文种OCR识别模型。每一文种OCR识别模型对应一种文种(即语言种类)，即文种OCR识别模型是用于识别该文种对应的文字的OCR识别模型。具体地，服务器在获取每一文本行图像对应的目标文种之后，根据每一文本行图像所识别出的目标文种查询识别模型数据库，将与该目标文种对应的文种OCR识别模型确定为目标OCR识别模型，以便利用该目标OCR识别模型对文本行图像进行识别，以提高对该文本行图像进行文本识别的准确率。

S205：采用目标OCR识别模型对文本行图像进行转录识别，获取文本行图像对应的目标文字。

具体地，服务器可以依据每一文本行图像对应的文本行位置确定其对应的识别顺序，采用目标OCR识别模型对相应的文本行图像进行转录识别，以获取该文本行图像对应的目标文字，以确保每一文本行图像对应的目标文字的识别准确率，避免采用相同的OCR识别模型对多个不同语言的文本行图像进行识别所存在的识别准确率较低的问题。其中，目标文字是指采用目标OCR识别模型对文本行图像进行识别所获取的文字。

S206：基于文本行图像对应的目标文字和文本行位置，获取待识别图像对应的目标识别文本。

具体地，服务器在识别出每一文本行图像对应的目标文字之后，需基于文本行图像对应的文本行位置，对每一文本行图像对应的目标文字进行重新排版，以获取与待识别图像版面相同的目标识别文本，以便基于目标识别文本对待识别图像中相应位置的原始文字进行对比校验。以待识别图像的排版类型为横向排版为例，依据每一文本行图像对应的行序号确定其文本行位置，则在识别出该文本行图像对应的目标文字之后，需依据该行序号对目标文字进行排版，以获取待识别图像对应的目标识别文本，以便进行后续的比对校验，保证识别准确率。

本实施例所提供的多语言文本识别方法中，对至少两种语言对应的原始文字共存的待识别图像，先进行版面分析识别以确定至少一个文本行图像和对应的文本行位置，以便将多语言的待识别图像转换成单语言的文本行图像进行识别，有助于后续识别过程中提高识别准确率。对文本行图像进行文种识别，以确定其对应的目标文种后，采用该目标文种对应的目标OCR识别模型对文本行图像进行识别，以保证每一文本行图像识别出的目标文字的准确率。接着，基于文本行图像的文本行位置，对该文本行图像对应的目标文字进行重新排版，获取待识别图像对应的目标识别文本，以便基于该目标识别文本进行对比校验，有助于保障识别准确率。

在一实施例中，如图3所示，在步骤S201之前，即在获取待识别图像之前，多语言文本识别方法还包括：

S301：获取原始图像，采用模糊度检测算法对原始图像进行检测，获取原始图像的模糊度。

其中，原始图像是指服务器获取的未经处理的图像。模糊度检测算法是用于检测图像的模糊度的算法。该模糊度检测算法可以采用现有技术中常用的检测算法。原始图像的模糊度是用于反映原始图像的模糊程度的数值，该模糊度越大，说明原始图像越模糊；相应地，该模糊度越小，说明原始图像越清晰。

本实施例中的模糊度检测算法可以采用但不限于拉普拉斯算子(Laplacian operator)进行模糊度检测。其中，拉普拉斯算子(Laplacian operator)是一种二阶微分算子，适用于改善因为光线的漫反射造成的图像模糊。其原理是，在摄像记录图像的过程中，光点将光漫反射到其周围区域，这种由于光漫反射造成了图像一定程度的模糊，其模糊程度相对与正常情形下拍摄的图像来说，往往是拉普拉斯算子的常数倍。因此，步骤S301具体包括如下步骤：

S3011：采用拉普拉斯算子对原始图像进行锐化处理，获取锐化图像和锐化图像的像素灰度值。即服务器先采用拉普拉斯算子对原始图像进行处理，获取描述灰度突变的拉普拉斯图像，再将拉普拉斯图像与原始图像叠加从而获取锐化图像。在获取锐化图像之后，获取锐化图像中每一像素点的RGB值，并对RGB值进行处理，以获取锐化图像对应的像素灰度值。

S3012：对锐化图像的像素灰度值进行方差计算，获取锐化图像对应的目标方差值，将目标方差值确定为原始图像对应的模糊度。即服务器先计算锐化图像中每个像素点的像素灰度值减去锐化图像的平均灰度值的平方和，再将该平方和除以像素点数量，即可获取可反映锐化图像模糊度的目标方差值。

可以理解地，先采用拉普拉斯算子对原始图像进行锐化处理，以获取细节比原始图像更清晰的锐化图像，从而提高图像的清晰度。然后，通过计算锐化图像的目标方差值，以体现该锐化图像的各像素点的像素灰度值之间的差异性。将锐化图像的目标方差值作为原始图像的模糊度，以便依据该模糊度与预设阈值的比较结果，从而达到对原始图像进行模糊过滤，以达到获取较清晰的原始图像的目的。

S302：若模糊度大于第一模糊阈值，则获取模糊提示信息。

其中，第一模糊阈值是系统预先设置的用于评估能否作为待识别图像的最高模糊度的阈值。模糊提示信息是用于提示图像过于模糊的信息。

具体地，在将原始图像的模糊度与第一模糊阈值进行比较之后，若该原始图像的模糊度大于第一模糊阈值，则说明原始图像过于模糊，若直接对原始图像进行文字识别，可能识别原始图像中的文字识别的准确率，因此，可获取模糊提示信息，并将模糊提示信息发送给相应的终端，以使用户基于该模糊提示信息重新向服务器上传原始图像。

S303：若模糊度不大于第一模糊阈值且大于第二模糊阈值，则对原始图像进行锐化和矫正处理，获取待识别图像。

其中，第二模糊阈值是系统预先设置的用于评估能否认定为较清晰的待识别图像的最低模糊度的阈值。可以理解地，第一模糊阈值大于第二模糊阈值。

具体地，在原始图像的模糊度大于第二模糊阈值且不大于第一模糊阈值时，即原始图像的模糊度在第二模糊阈值与第一模糊阈值之间时，说明原始图像虽然未过于模糊但也达不到清晰的标准，此时，需要先对原始图像进行锐化处理，以提高原始图像的清晰度；再对锐化处理后的原始图像进行矫正处理，以获取较清晰且不倾斜的待识别图像，从而保障后续对待识别图像进行文本识别的准确性。一般来说，在进行光学扫描时，会因为客观原因，导致扫描的原始图像位置不正，影响后期的图像识别处理准确性，因此需对图像进行图像矫正工作。图像倾斜矫正关键在于根据图像特征自动检测出图像倾斜方向和倾斜角度。目前常用的倾斜角度方法有：基于投影的方法、基于Hough变换、基于线性拟合和傅里叶变换到频域来进行检测的方法。

S304：若模糊度不大于第二模糊阈值，则对原始图像进行矫正处理，获取待识别图像。

具体地，服务器在原始图像的模糊度不大于第二模糊阈值时，说明该原始图像较清晰，无需进行锐化处理以增强其清晰度，以提高图像处理效率；而在原始图像生成时，可能会因为各种客观原因导致其位置不正，因此，服务器需对原始图像进行矫正处理，以获取矫正处理后的不倾斜的待识别图像。

本实施例所提供的多语言文本识别方法中，根据原始图像的模糊度与第一模糊阈值和第二模糊阈值的比较结果，分别进行相应的处理，以保障最终获取较清晰且不倾斜的待识别图像，从而保障基于待识别图像进行文本识别的准确率，避免图像较模糊或者图像倾斜而对识别结果造成干扰。

在一实施例中，如图4所示，步骤S202，即对待识别图像进行版面分析识别，获取至少一个文本行图像，确定每一文本行图像在待识别图像中的文本行位置，具体包括如下步骤：

S401：采用文本定位算法对待识别图像进行文本定位，获取至少一个文本行区域。

其中，文本定位算法是用于定位出图像中文字的算法。本实施例中，文本定位算法包括但不限于邻近搜索算法和CTPN-RNN算法。文本行区域是指采用文本定位算法从待识别图像中识别出包含原始文字的区域，该文本行区域是基于一行原始文字或者一列原始文字确定的区域。

以水平邻近搜索为例，该邻近搜索算法是指从一个连通区域出发，可以找到该连通区域的水平外切矩形，将连通区域扩展到整个矩形的算法。当该连通区域与最邻近区域的距离小于一定范围时，考虑这个矩形的膨胀，膨胀的方向是最邻近区域的所在方向，当且仅当所在方向是水平的，才执行膨胀操作，以从图像中确定至少一个文本行区域。这种方式可有效将图像中位于同一行的原始文字整合在一个文本行区域内，以实现文本定位目的。以水平方向膨胀为例，采用邻近搜索算法对待识别图像进行文本定位，以获取至少一个文本行区域的过程包括：对待识别图像中任一个或多个原始文字形成的矩形区域，计算任意两个矩形区域的中心向量差(即两个矩形区域的中心点所形成的向量差)。再将该中心向量差减去两个矩形区域的中心点到边界的距离，获取边界向量差，即

其中，(x' _c,y' _c)是指边界向量差，(x _c,y _c)是指中心向量差，a ₁和b ₁分别是指第一个矩阵区域的长度和宽度，a ₂和b ₂分别是指第二个矩阵区域的长度和宽度。再采用距离计算公式

计算两个矩阵区域的距离d,其中，max()为返回最大数值的函数；若距离d小于一定范围，则对该行文本进行膨胀操作，以获取至少一个文本行区域，采用邻近搜索法可快速获取到至少一个文本行区域。

其中，CTPN(Connectionist Text Proposal Network，连接文本提议网络，以下简称CTPN)是用于准确定位图像中文本行的模型，CTPN可识别出每一行文本行的四个角的坐标位置。RNN(Recurrent Neural Networks循环神经网络，以下简称RNN)的主要用途是用于处理和预测序列数据，RNN的隐藏层之间的结点是有连接的，隐藏层的输入不仅包括输入层的输出，还包括上一时刻隐藏层的输出。采用CTPN-RNN算法从待识别图像中定位到至少一个文本行区域，通过将CTPN无逢结合到RNN卷积网络中，使其可准确定位待识别图像中的文本行，并根据每一文本行在待识别图像中的位置，确定文本行区域，即采用CTPN-RNN算法可实现对至少一个文本行区域进行自动标识，采用CTPN和RNN无缝结合的方式可有效提高检测精度。

S402：采用截图工具对至少一个文本行区域进行截图，获取至少一个文本行图像，依据截图工具的截图顺序，确定每一文本行图像在待识别图像中的文本行位置。

具体地，服务器采用OpenCV对至少一个文本行区域进行截图，获取对应的至少一个文本行图像，在依据该截图工具的截图顺序，确定每一文本行图像在待识别图像中的文本行位置。OpenCV(Open Source Computer Vision Library，开源计算机视觉库)是一个基于BSD许可(开源)发行的跨平台计算机视觉库，可以运行在Linux、Windows、Android和Mac OS操作系统上。它轻量级而且高效——由一系列C函数和少量C++类构成，同时提供了Python、Ruby、MATLAB等语言的接口，实现了图像处理和计算机视觉方面的很多通用算法。本实施例中，通过OpenCV对每一文本行区域的4个角的坐标进行截取操作，以获取相应的文本行图像，通过OpenCV进行截取操作，其计算简单、运算效率较高且性能较稳定。每一文本行图像对应一文本行位置可以是该文本行图像四个顶点(如左上角的坐标)或者中心点的坐标，以便根据该文本行位置确定文本行图像在待识别图像中的位置。

本实施例所提供的多语言文本识别方法中，先采用文本定位算法对待识别图像进行文本定位，以便快速包含一行原始文字或者一列原始文字的文本行区域，使得文本行区域的获取效率较高且准确率较高；再采用截图工具对每一文本行区域进行截图，以获取至少一个文本行图像，以将待识别图像划分成至少一个文本行图像，使得后续文字识别时可逐一基于文本行图像进行识别，避免采用同一识别模型对不同语言对应的文本行图像进行识别而导致的识别结果不准确的问题；最后，依据截图工具的截图顺序，获取每一文本行图像对应的文本行位置，以便基于该文本行位置后续进行定位或者上下文语义分析，以提高文本识别准确率。

在一实施例中，多语言文本识别系统中采用如图7所示的Encoder-Summarizer机制进行文种识别，即利用Encoder组件将文本行图像转换成特征序列，再采用Summarizer聚合特征序列，执行分类任务，以便进行分类，从而确定其对应的目标文种。如图5所示，步骤S203，即对每一文本行图像进行文种识别，获取每一文本行图像对应的目标文种，具体包括如下步骤：

S501：对文本行图像进行格式转换，获取符合预设格式的特征图。

其中，预设格式是预先设置的用于输入Encoder组件进行编码的特征图的格式。特征图是从文本行图像中提取出的可输入Encoder组件进行编码处理的图。其中，预设格式包括预设高度、预设宽度和预设通道数。其中，预设通道数设置为1,代表该特征图为灰度图像，以减少后续处理过程的计算量。通过预设高度和预设宽度的设置，可以有效减少Encoder组件利用特征图进行编码时，特征图中的宽度和高度对编码处理的干扰，从而保障获取的特征向量的准确性。

具体地，服务器对文本行图像进行格式转换过程包括：先将文本行图像进行灰度化处理，转换成相应的灰度图像，以使其预设通道数为1；再将灰度图像缩放至与预设高度h匹配的第一图像；再判断第一图像的宽度是否达到预设宽度；若达到预设宽度，则直接将第一图像作为特征图；若未达到预设宽度，则在第一图像的左右边缘添加黑色或白色区域，使其转换成与预设宽度匹配的特征图。可以理解地，服务器将文本行图像进行格式转换，以获取符合预设格式的特征图，以使后续图像处理过程排除相关因素(宽度、高度和通道数)的影响，使得最终识别的准确率更高。

例如，文本行图像对应的宽度、高度和通道数分别设置为w,h和d，可以理解地，为了减少后续格式转换处理的工作量，可预先将文本行图像转换成灰度图像，以使d＝1。在对该文本行图像进行格式转换之后，获取预设宽度、预设高度和预设通道数对应的特征图，其中，预设宽度、预设高度和预设通道数分别设置为w’、h’和d’，本实施例中可使h’＝1，且d’＝1，即在格式转换过程中保持高度和通道数相同，以保证后续编码识别过程的准确性。

S502：采用Encoder组件对特征图进行编码处理，获取对应的特征向量。

如图7所示，Encoder组件采用卷积层(Conv)、最大池化层(MaxPool)结合Inception层构建的编码器，用于获取该特征图对应的特征向量。如图7(a)所示，该Encoder组件依次包括卷积层(Conv)、最大池化层(MaxPool)、Inception层、最大池化层(MaxPool)、Inception层、Inception层和四个卷积层(Conv)，其卷积核大小和对应的激活函数如图所示，可根据实际需求自主设置的。Inception层是由多个卷积层(Conv)和平均池化层(AvgPool)依据图7(c)所示结构组合形成。如图7(a)和7(c)所示，Encoder组件的模型结构较简单，有助于加快计算速度，节省计算成本。在Encoder组件进行编码处理过程中，通过对符合预设格式的特征图中各像素点的信息进行提取，获取可唯一识别该特征图的特征向量。其中，Inception的目的是设计一种具有优良局部拓扑结构的网络，即对输入图像并行地执行多个卷积运算或池化操作，并将所有输出结果拼接为一个非常深的特征图。由于1*1、3*3或5*5等不同的卷积运算与池化操作可以获得输入特征图的不同信息，采用Inception并行处理这些信息并结合所有结果将获得更好的图像表征，即特征向量，以保证获取的特征向量的准确率。

S503：采用Summarizer组件对特征向量进行整合分类，获取至少一个文种概率，将文种概率最大的识别文种，输出为文本行图像对应的目标文种。

具体地，Summarizer组件是多语言文本识别系统中预先设置的分类器，用于执行分类任务以确定相应的目标文种。如图7(b)所示，Summarizer组件包括三个卷积层(Conv)，前面两个卷积层(Conv)采用Relu激活函数，最后一个卷积层(Conv)采用Sigmoid激活函数。如图7(b)所示，Summarizer组件的模型结构较简单，有助于加快计算速度，节省计算成本。服务器采用Summarizer组件对Encoder组件输出的特征向量进行整合分类，以获取至少一个文种概率，每一文种概率对应一识别文种；然后，采用Softmax函数对至少一个文种概率进行概率分布处理，以将文种概率最大的识别文种，输出为文本行图像对应的目标文种，从而保障其所识别出的目标文种的准确性。本实施例中，Summarizer组件所识别出的至少一个文种概率可以以数组形式存在，如用|s|表示，该数组中的每个数字对应一种识别文种的识别概率，|s|为0.7、0、0.2、0.1这四个数值形成的数组，依据这四个数值的顺序，分别指代中文、英文、日文、韩文，则基于|s|可确定其目标文种为中文，这里的|s|是指代码点序列。

在本实施例中，设x为文本行图像对应的的特征向量，y为Encoder组件编码后的代码点序列，该代码点序列可以为Summarizer组件对特征向量进行整合处理之后形成的文种概率对应的序列，应用概率的方法对模型进行建模，条件概率为P(y|x)。P(y|x)是指在x已知的条件下，编码后的代码点序列为y的概率，Summarizer组件输出概率最大的一个代码点序列。假设s∈S,s代表一种文种，将s视为隐含变量就可将文字信息合并到上述条件概率P(y|x)中，获取如下公式：

其中，P(y|s,x)代表能够识别某一种文字的一个OCR模型，x表示一个固定高度(h’＝1)的图像的特征向量，s代表一种文字，即P(y|s,x)是指给定的图像的特征向量x的条件下，图像中的文字属于文字s的概率。argmax是一种函数，是对函数求参数(集合)的函数。

具体地，P(y|s,x)的计算公式如下：

其中，字形簇是在文字流中具有某种统一特性，在排版中不可拆分的字符串，在通常情况下，字形簇就是一般的字符(汉字或字母)，但在有的时候则是按某种特殊规则排列的字符串。如果是由多个字符组成的字形簇，则其具有如下性质：1)字形簇在文字行中的行为相当于传统排版系统中的一个字符；2)字形簇在字符之间的关系和布局只与文字属性有关，与排版规则无关；字形簇内的字符应具有相同的文字和字体属性，能否一次性输出。

可以理解地，在系统训练Encoder组件和Summarizer组件之后，系统预先对传统Seq2Seq识别模型和本实施例中基于Encoder-Summarizer机制进行文种识别的混淆率进行统计，以便基于该混淆率确定文种识别的准确率。其中，混淆率是指一种文字被误认为另种文字对应的概率。其测试过程包括如下步骤：(1)获取多语言并存的图像测试样本，每一图像测试样本包含对应的文种标签，该文种标签为图像测试样本中的文字对应的文种的标签。(2)分别采用传统Seq2Seq识别模型和步骤S501-S503对应的方法对图像测试样本进行测试，获取该图像测试样本对应的结果标签，该结果标签为该图像测试样本被识别出的文种的标签。(3)基于所有图像测试样本对应的文种标签和结果标签，统计任意两种文种对应的混淆率。此处的混淆率可以认定为这两种文种被认错的认错数量与这两种文种出现的总数量之商。依据测试结果可知，基于传统Seq2Seq识别模型将西里尔字母识别为拉丁文的混淆率为4.2％，而采用Encoder-Summarizer进行识别时，将西里尔字母识别为拉丁文的混淆率为1.8％。如表一所示，在采用同等条件下进行测试时，对大多数文种而言，采用Encoder-Summarizer进行文种识别，其对应的混淆率远低于传统算法，因此，本实施例中采用Encoder-Summarizer进行文种识别，可提高识别出的目标文种的准确率，以便提高后续文字识别的准确率。如图7所示，Encoder组件和Summarizer组件的模型结构较简单，有助于加快计算速度，节省计算成本。

表一混淆率测试结果

本实施例所提供的多语言文本识别方法中，先对文本行图像进行格式转换，以获取符合预设格式的特征图，有助于减少后续编码处理的计算量，提高编码处理的效率；再采用Encoder组件对特征图进行编码处理，可快速获取相应的特征向量，并保证特征向量的准确率；然后，采用Summarizer组件对特征向量进行整合分类，获取至少一个文种概率，将文种概率最大的识别文种，输出为文本行图像对应的目标文种，以保证所识别的目标文种的准确率，确保识别效率。

在一实施例中，如图6所示，步骤S205，即采用目标OCR识别模型对文本行图像进行转录识别，获取文本行图像对应的目标文字，具体包括如下步骤：

S601：基于文本行图像对应的目标文种和文本行位置，将同一目标文种对应的相邻的文本行图像整合形成文本块图像。

由于文本上下文之间的文字可能具有特定的联系，即上下文之间的文字连接起来会有特定的语义，因此，服务器在对文本行图像进行识别时，需基于文本行图像对应的目标文种和文本行位置，将同一目标文种对应的相邻的文本行图像整合形成一文本块图像，以将该文本块图像作为一整体识别的对象，从而保证基于该文本块图像识别出的每一文本行图像对应的目标文字的准确性。

具体地，服务器在识别出每一文本行图像对应的目标文种之后，依据文本行图像对应的文本行位置对所有文本行图像对应的目标文种进行排序，以将相邻文本行位置对应的属于同一目标文种的所有的文本行图像整合形成一文本块图像，以便后续基于文本块图像进行识别时，可以充分考虑文本块图像中的上下文语义，提高文字识别的准确率。

S602：采用文字切割算法对文本块图像进行切割，获取至少两个单字体图像，依据文本块图像的排版类型和切割顺序，获取每一单字体图像对应的识别顺序和行列标签。

其中，文字切割算法是指用于将文本块图像切割成单字体图像的算法，该文字切割算法具体可以为基于投影的文字切割算法。例如，采用基于投影的文字切割算法对文本块图像进行切换时，可先依次对每一文本行图像进行垂直方向投影，获取垂直投影像素，若有连续的像素满足预设条件，则认定这些连续的像素对应的区域存在一个原始文字，进行切割，以形成单字体图像。

其中，文本块图像的排版类型包括横向排版和纵向排版。单字体图像对应的识别顺序是指某一单字体图像依据其在文本块图像的排版位置，确定在整体文本块图像中的顺序。单字体图像对应的行列标签是指某一单字体图像在文本块图像中的行标签和列标签。例如，一文本块图像由3个文本行图像横向排版形成，字数分别为18、20和17，则切割形成55个单字体图像，第2行第3个文字对应的单字体图像的识别顺序为21，行标签为2，列标签为3。

S603：依据单字体图像对应的识别顺序，将单字体图像输入到目标OCR识别模型进行转录识别，获取单字体图像对应的至少一个识别结果和每一识别结果对应的识别概率。

具体地，服务器依据每一单字体图像对应的识别顺序，将单字体图像输入与目标OCR识别模型进行转录识别，获取每一单字体图像对应的至少一个识别结果和与识别结果相对应的识别概率。本实施例中可设置只选取识别概率较大的前3个识别结果和其对应的识别概率，以减少后续识别处理的工作量。该识别结果是指每一单字体图像所识别出的结果，可以为识别符号，也可以为识别文字。每一识别结果对应的识别概率是指从单字体图像中识别为识别结果的可能性。例如，对于包含“其”这一原始文字的单字体图像，其识别出来的识别文字分别为“其”、“甚”和“堪”，对应的识别概率分别为99.99％、84.23％和47.88％。

S604：基于识别结果和排版类型，将文本块图像中所有单字体图像划分成至少两个待识别单元。

具体地，服务器基于文本块图像中每一单字体图像对应的至少一个识别结果和该文本块图像对应的排版类型，以将文本块图像中所有单字体图像划分成至少两个待识别单元。该待识别单元是需要进行语义识别的最小单元，每一待识别单元中包含可形成一完整句子的文字，以便进行语义识别，从而有助于提高文字识别的准确率。由于识别结果是指每一单字体图像所识别出的结果，可以为识别符号，也可以为识别文字，因此，可以根据识别结果是否为识别符号进行语义分隔；在识别结果不为识别符号时，可以根据文本块图像的排版类型进行语义分隔，从而有助于提高待识别单元的识别准确率。

在一实施例中，步骤S604中，即基于识别结果和排版类型，将文本块图像中所有单字体图像划分成至少两个待识别单元，具体包括如下步骤：

S6041：若识别结果包含识别符号，基于任意相邻两个识别符号之间的所有单字体图像形成一待识别单元。

具体地，若任一文本块图像切割出的单字体图像的识别结果包括识别符号，该识别符号是采用目标OCR识别模型识别出的标点符号，说明该文本块图像对应的文字需要采用标点符号进行分隔，上下文之间的语义与标点符号的位置相关，此时，服务器需将任意相邻两个识别符号之间的所有单字体图像形成一待识别单元，以该待识别单元为进行语义识别的最小单位，使得每一待识别单元对应的文字为一句话，从而有助于提高待识别单元对应的文字的识别准确率，降低识别的复杂度。

具体地，在服务器采用目标OCR识别模型对一单字体图像进行识别时，获取至少一个识别结果和每一识别结果对应的识别概率，若识别结果为识别符号的识别概率最大或者大于预设概率阈值，则认定该识别结果包括识别符号。其中，预设概率阈值是用于评估识别概率是否达到评估其为某一文字/符号的阈值，该预设概率阈值可设置为较高的数值，以保证识别准确性。

进一步地，服务器在识别出任一文本块图像切割的单字体图像的识别结果包含识别符号时，可先判断该识别符号是否包括预设符号，若识别符号包括预设符号，则基于任意相邻两个预设符号之间的所有单字体图像形成一待识别单元，以提高该待识别单元的识别准确率。其中，预设符号是系统预先设置的用于认定句子结束的标点符号，包括但不限于句号、问号和感叹号。

S6042：若识别结果不包含识别符号，则依据文本块图像的排版类型和单字体图像对应的行列标签，基于同一行标签或同一列标签对应的所有单字体图像形成一待识别单元。

具体地，若任一文本块图像切割出的单字体图像的识别结果不包含识别符号，说明该文本块对应的文字没有采用标点符号进行分隔，这种情况下，一般同一行或者同一列的文字形成一句话，此时，服务器可依据文本块图像的排版类型和单字体图像对应的行列标签，基于同一行标签或者同一列标签对应的所有单字体图像形成一待识别单元，从而有助于提高待识别单元的识别准确率。

可以理解地，服务器在识别结果包含识别符号时,基于相邻两个识别符号之间的所有单字体图像形成待识别单元；在识别结果不包含识别符号时，依据文本块图像的排版类型和单字体图像对应的行列标签，基于同一行标签或者同一列标签对应的所有单字体图像形成待识别单元，在一定程度上保证最终形成的待识别单元尽可能包含一完整的句子，以便后续进行语义分析，以提高识别准确率。

S605：基于任一待识别单元中，每一单字体图像对应的至少一个识别结果和每一识别结果对应的识别概率，获取每一单字体图像对应的单字体文字。

具体地，服务器以待识别单元为进行语义识别的最小单位，根据该待识别单元中每一一单字体图像对应的至少一个识别结果以及每一识别结果对应的识别概率，利用所有单字体图像之间可能存在的上下文语义关系，更准确地确定每一单字体图像对应的单字体文字，从而提高文字识别的准确性。

在一实施例中，步骤S606，即基于任一待识别单元中，每一单字体图像对应的至少一个识别结果和每一识别结果对应的识别概率，获取每一单字体图像对应的单字体文字，具体包括如下步骤：

S6051：若任一待识别单元中，每一单字体图像均存在识别概率大于预设概率阈值的识别文字，则将识别概率大于预设概率阈值的识别文字确定为单字体图像对应的单字体文字。

具体地，服务器将任一待识别单元中，每一单字体图像对应的每一识别概率逐一与预设概率阈值进行比较，以判断每一单字体图像是否均存在识别概率大于预设概率阈值的识别文字，如果每一单字体图像均存在识别概率大于预设概率阈值的识别文字，则直接将这一识别文字确定为该单字体图像对应的单字体文字。

假设任一待识别单元中，包括N个单字体图像，每个单字体图像对应的M个识别文字且每一识别文字对应一识别概率，则服务器依次将N个单字体图像的M个识别概率与预设概率阈值进行比较，以确定每一单字体图像是否存在识别概率大于预设概率阈值的识别文字；若N个单字体图像均存在识别概率大于预设概率阈值的识别文字，说明每一单字体图像对应的识别文字的准确率较高，此时，可以将识别文字直接认定为单字体图像对应的间的字体文字。例如，预设概率阈值设置为95％，“今天天气真好”这一待识别单元对应的六个单字体图像中，每一单字体图像中均存在识别概率大于预设概率阈值的识别文字，如“今”的识别概率为97％，“天”的识别概率为98％，“天”的识别概率为98％，“气”的识别概率为99％，“真”的识别概率为96％，“好”的识别概率为99％，则将识别概率大于预设概率阈值(如95％)的识别文字确定为单字体文字，以保证该待识别单元中文字识别的准确性。

S6052：若任一待识别单元中，至少一个单字体图像不存在识别概率大于预设概率阈值的识别文字，则依据单字体图像对应的识别顺序，采用目标语言模型对待识别单元中所有单字体图像对应的至少一个识别文字形成的词序列进行识别，获取每一词序列对应的序列概率，基于序列概率最大的词序列，获取每一单字体图像对应的单字体文字。

具体地，服务器将任一待识别单元中，每一单字体图像对应的每一识别概率逐一与预设概率阈值进行比较，以判断每一单字体图像是否均存在识别概率大于预设概率阈值的识别文字；在至少一个单字体图像不存在识别概率大于预设概率阈值的识别文字，此时，说明至少一个单字体图像所识别出的识别文字的准确率未达标，此时，需结合上下文进行语义分析，以便提高待识别单元对应的文字的识别准确率。因此，服务器需依据单字体图像对应的识别顺序，采用目标语言模型对待识别单元中所有单字体图像对应的至少一个识别文字形成的词序列进行识别，获取每一词序列对应的序列概率，基于序列概率最大的词序列，获取每一单字体图像对应的单字体文字。

其中，目标语言模型是用于对连续文字进行语义分析所采用的模型，该目标语言模型可以采用但不限于N-gram模型，即汉语语言模型。汉语语言模型利用上下文中相邻词间的搭配信息，在需要把连续无空格的拼音、笔划，或代表字母或笔划的数字，转换成汉字串(即句子)时，可以计算出具有最大概率的句子，从而实现到汉字的自动转换，无需用户手动选择，避开了许多汉字对应一个相同的拼音(或笔划串，或数字串)的重码问题。

例如，预设概率阈值设置为95％，“今天天气真好”这一待识别单元对应的六个单字体图像中，第一个单字体图像识别出“今”的识别概率为97％；第二个单字体图像识别出“夫”的识别概率为85％，识别出“天”的识别概率为83％；第三个单字体图像识别出“天”的识别概率为90％，识别出“夫”的识别概率为75％；第四个单字体图像识别出“气”的识别概率为99％；第五个单字体图像识别出“真”的识别概率为96％；第六个单字体图像识别出“好”的识别概率为99％，由于第二个和第四个单字体图像不存在识别概率大于预设概率阈值(如95％)的识别文字，此时，基于所有单字体图像对应的识别文字形成相应的词序列，如“今天天气真好”、“今天夫气真好”、“今夫天气真好”和“今夫夫气真好”，采用目标语言模型对这些词序列进行识别，以获取每一词序列对应的序列概率，基于序列概率最大的词序列，确定待识别单元中每一单字体图像对应的单字体文字，以保证单字体文字识别的准确性。

可以理解地，服务器在任一待识别单元中每一单字体图像均存在识别概率大于预设概率阈值的识别文字时，可直接将这些识别文字确定为单字体图像对应的单字体文字，保证单字体文字的识别准确率和识别效率；在至少一个单字体图像不存在识别概率大于预设概率阈值的识别文字时，采用目标语言模型对所有单字体图像形成的词序列进行识别，基于序列概率最大的词序列，确定每一单字体图像对应的单字体文字，通过目标语言模型进行语义分析，以保证单字体文字识别的准确性。

S606：依据每一单字体图像对应的识别顺序和行列标签，对单字体图像对应的单字体文字进行页面排版，获取文本行图像对应的目标文字。

具体地，服务器在识别出每一单字体图像对应的单字体文字之后，依据单字体图像对应的识别顺序和行列标签，对所有单字体图像对应的单字体文字进行页面排版，即将每一单字体图像对应的单字体文字放置在行列标签对应的位置，以获取文本行图像对应的目标文字，以便基于该目标文字进行后续的对比校验，确保目标文字的识别准确性。该目标文字是文本行图像最终识别出的文字。

本实施例所提供的多语言文本识别方法中，先将同一目标文种对应的相邻的文本行图像整合形成文本块图像，以便以文本块图像为单位进行后续识别，充分考虑文本行图像之间的上下文语义，提高文字识别的准确率；在对文本块图像进行逐字切割，获取单字体图像及其对应的识别顺序和行列标签，以便基于识别顺序和行列标签进行定位；再采用目标OCR识别模型对单字体图像进行识别，以确定至少一个识别结果和对应的识别概率，由于目标OCR识别模型为专门针对目标文种的识别模型，使得其所识别出的识别结果更准确；然后，根据所有识别结果以及文本块图像对应的排版类型，以将所有单字体图像划分成可进行语义分析的至少两个待识别单元，以便基于该待识别单元进行分析，保障所识别出的每一单字体图像对应的单字体文字的准确性；再基于单字体图像对应的识别顺序和行列标签对所有单字体文字进行页面排版，以获取文本行图像对应的目标文字，以便后续进行对比校验，确保目标文字的识别准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在一实施例中，提供一种多语言文本识别装置，该多语言文本识别装置与上述实施例中多语言文本识别方法一一对应。如图8所示，该多语言文本识别装置包括待识别图像获取模块801、文本行图像获取模块802、目标文种获取模块803、识别模型获取模块804、目标文字获取模块805和识别文本获取模块806。各功能模块详细说明如下：

待识别图像获取模块801，用于获取待识别图像，待识别图像包括至少两种语言对应的原始文字。

文本行图像获取模块802，用于对待识别图像进行版面分析识别，获取至少一个文本行图像，确定每一文本行图像在待识别图像中的文本行位置。

目标文种获取模块803，用于对每一文本行图像进行文种识别，获取每一文本行图像对应的目标文种。

识别模型获取模块804，用于基于目标文种查询识别模型数据库，获取目标文种对应的目标OCR识别模型。

目标文字获取模块805，用于采用目标OCR识别模型对文本行图像进行转录识别，获取文本行图像对应的目标文字。

识别文本获取模块806，用于基于文本行图像对应的目标文字和文本行位置，获取待识别图像对应的目标识别文本。

优选地，在待识别图像获取模块801之前，多语言文本识别装置还包括：

模糊度检测单元，用于获取原始图像，采用模糊度检测算法对原始图像进行检测，获取原始图像的模糊度。

第一模糊处理单元，用于若模糊度大于第一模糊阈值，则获取模糊提示信息。

第二模糊处理单元，用于若模糊度不大于第一模糊阈值且大于第二模糊阈值，则对原始图像进行锐化和矫正处理，获取待识别图像。

第三模糊处理单元，用于若模糊度不大于第二模糊阈值，则对原始图像进行矫正处理，获取待识别图像。

其中，第一模糊阈值大于第二模糊阈值。

优选地，文本行图像获取模块802，包括：

文本行区域获取单元，用于采用文本定位算法对待识别图像进行文本定位，获取至少一个文本行区域。

文本行图像确定单元，用于采用截图工具对至少一个文本行区域进行截图，获取至少一个文本行图像，依据截图工具的截图顺序，确定每一文本行图像在待识别图像中的文本行位置。

优选地，目标文种获取模块803，包括：

特征图获取单元，用于对文本行图像进行格式转换，获取符合预设格式的特征图。

特征向量获取单元，用于采用Encoder组件对特征图进行编码处理，获取对应的特征向量。

目标文种输出单元，用于采用Summarizer组件对特征向量进行整合分类，获取至少一个文种概率，将文种概率最大的识别文种，输出为文本行图像对应的目标文种。

优选地，识别文本获取模块806，包括：

文本块图像获取单元，用于基于文本行图像对应的目标文种和文本行位置，将同一目标文种对应的相邻的文本行图像整合形成文本块图像。

单字体图像获取单元，用于采用文字切割算法对文本块图像进行切割，获取至少两个单字体图像，依据文本块图像的排版类型和切割顺序，获取每一单字体图像对应的识别顺序和行列标签。

识别结果获取单元，用于依据单字体图像对应的识别顺序，将单字体图像输入到目标OCR识别模型进行转录识别，获取单字体图像对应的至少一个识别结果和每一识别结果对应的识别概率。

待识别单元划分单元，用于基于识别结果和排版类型，将文本块图像中所有单字体图像划分成至少两个待识别单元。

单字体文字获取单元，用于基于任一待识别单元中，每一单字体图像对应的至少一个识别结果和每一识别结果对应的识别概率，获取每一单字体图像对应的单字体文字。

目标文字获取单元，用于依据每一单字体图像对应的识别顺序和行列标签，对单字体图像对应的单字体文字进行页面排版，获取文本行图像对应的目标文字。

优选地，待识别单元划分单元，包括：

第一单元获取子单元，用于若识别结果包含识别符号，基于任意相邻两个识别符号之间的所有单字体图像形成一待识别单元。

第一单元获取子单元，用于若识别结果不包含识别符号，则依据文本块图像的排版类型和单字体图像对应的行列标签，基于同一行标签或同一列标签对应的所有单字体图像形成一待识别单元。

优选地，单字体文字获取单元，包括：

第一单字获取子单元，用于若任一待识别单元中，每一单字体图像均存在识别概率大于预设概率阈值的识别文字，则将识别概率大于预设概率阈值的识别文字确定为单字体图像对应的单字体文字。

第二单字获取子单元，用于若任一待识别单元中，至少一个单字体图像不存在识别概率大于预设概率阈值的识别文字，则依据单字体图像对应的识别顺序，采用目标语言模型对待识别单元中所有单字体图像对应的至少一个识别文字形成的词序列进行识别，获取每一词序列对应的序列概率，基于序列概率最大的词序列，获取每一单字体图像对应的单字体文字。

关于多语言文本识别装置的具体限定可以参见上文中对于多语言文本识别方法的限定，在此不再赘述。上述多语言文本识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行多语言文本识别方法过程中采用或生成的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多语言文本识别方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中多语言文本识别方法，例如图2所示的步骤S201-S206，或者图3至图6中所示，为避免重复，这里不再赘述。或者，处理器执行计算机程序时实现多语言文本识别装置这一实施例中的各模块/单元的功能，例如图8所示的待识别图像获取模块801、文本行图像获取模块802、目标文种获取模块803、识别模型获取模块804、目标文字获取模块805和识别文本获取模块806的功能，为避免重复，这里不再赘述。

在一实施例中，提供一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行时实现上述实施例中多语言文本识别方法，例如图2所示的步骤S201-S206，或者图3至图6中所示，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现上述多语言文本识别装置这一实施例中的各模块/单元的功能，例如图8所示的待识别图像获取模块801、文本行图像获取模块802、目标文种获取模块803、识别模型获取模块804、目标文字获取模块805和识别文本获取模块806的功能，为避免重复，这里不再赘述。本实施例中的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机可读指令可存储于一非易失性可读存储介质也可以存储在一易失性可读存储介质，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种多语言文本识别方法，其特征在于，包括：

获取待识别图像，所述待识别图像包括至少两种语言对应的原始文字；

对所述待识别图像进行版面分析识别，获取至少一个文本行图像，确定每一所述文本行图像在所述待识别图像中的文本行位置；

对每一所述文本行图像进行文种识别，获取每一所述文本行图像对应的目标文种；

基于所述目标文种查询识别模型数据库，获取所述目标文种对应的目标OCR识别模型；

采用所述目标OCR识别模型对所述文本行图像进行转录识别，获取所述文本行图像对应的目标文字；

基于所述文本行图像对应的所述目标文字和所述文本行位置，获取所述待识别图像对应的目标识别文本。
如权利要求1所述的多语言文本识别方法，其特征在于，在所述获取待识别图像之前，所述多语言文本识别方法还包括：

获取原始图像，采用模糊度检测算法对所述原始图像进行检测，获取所述原始图像的模糊度；

若所述模糊度大于第一模糊阈值，则获取模糊提示信息；

若所述模糊度不大于所述第一模糊阈值且大于第二模糊阈值，则对所述原始图像进行锐化和矫正处理，获取待识别图像；

若所述模糊度不大于第二模糊阈值，则对所述原始图像进行矫正处理，获取待识别图像；

其中，所述第一模糊阈值大于所述第二模糊阈值。
如权利要求1所述的多语言文本识别方法，其特征在于，所述对所述待识别图像进行版面分析识别，获取至少一个文本行图像，确定每一所述文本行图像在所述待识别图像中的文本行位置，包括：

采用文本定位算法对所述待识别图像进行文本定位，获取至少一个文本行区域；

采用截图工具对至少一个所述文本行区域进行截图，获取至少一个文本行图像，依据所述截图工具的截图顺序，确定每一所述文本行图像在所述待识别图像中的文本行位置。
如权利要求1所述的多语言文本识别方法，其特征在于，所述对每一所述文本行图像进行文种识别，获取每一所述文本行图像对应的目标文种，包括：

对所述文本行图像进行格式转换，获取符合预设格式的特征图；

采用Encoder组件对所述特征图进行编码处理，获取对应的特征向量；

采用Summarizer组件对所述特征向量进行整合分类，获取至少一个文种概率，将所述文种概率最大的识别文种，输出为所述文本行图像对应的目标文种。
如权利要求1所述的多语言文本识别方法，其特征在于，所述采用所述目标OCR识别模型对所述文本行图像进行转录识别，获取所述文本行图像对应的目标文字，包括：

基于所述文本行图像对应的所述目标文种和所述文本行位置，将同一所述目标文种对应的相邻的文本行图像整合形成文本块图像；

采用文字切割算法对所述文本块图像进行切割，获取至少两个单字体图像，依据所述文本块图像的排版类型和切割顺序，获取每一所述单字体图像对应的识别顺序和行列标签；

依据所述单字体图像对应的识别顺序，将所述单字体图像输入到所述目标OCR识别模型进行转录识别，获取所述单字体图像对应的至少一个识别结果和每一所述识别结果对应的识别概率；

基于所述识别结果和所述排版类型，将所述文本块图像中所有单字体图像划分成至少两个待识别单元；

基于任一所述待识别单元中，每一所述单字体图像对应的至少一个识别结果和每一所述识别结果对应的识别概率，获取每一所述单字体图像对应的单字体文字；

依据每一所述单字体图像对应的所述识别顺序和所述行列标签，对所述单字体图像对应的所述单字体文字进行页面排版，获取所述文本行图像对应的目标文字。
如权利要求5所述的多语言文本识别方法，其特征在于，所述基于所述识别结果和所述排版类型，将所述文本块图像中所有单字体图像划分成至少两个待识别单元，包括：

若所述识别结果包含识别符号，基于任意相邻两个所述识别符号之间的所有所述单字体图像形成一待识别单元；

若所述识别结果不包含识别符号，则依据所述文本块图像的排版类型和所述单字体图像对应的行列标签，基于同一行标签或同一列标签对应的所有所述单字体图像形成一待识别单元。
如权利要求5所述的多语言文本识别方法，其特征在于，所述基于任一所述待识别单元中，每一所述单字体图像对应的至少一个识别结果和每一所述识别结果对应的识别概率，获取每一所述单字体图像对应的单字体文字，包括：

若任一所述待识别单元中，每一所述单字体图像均存在所述识别概率大于预设概率阈值的识别文字，则将所述识别概率大于所述预设概率阈值的识别文字确定为所述单字体图像对应的单字体文字；

若任一所述待识别单元中，至少一个所述单字体图像不存在识别概率大于预设概率阈值的识别文字，则依据所述单字体图像对应的识别顺序，采用目标语言模型对所述待识别单元中所有所述单字体图像对应的至少一个识别文字形成的词序列进行识别，获取每一词序列对应的序列概率，基于所述序列概率最大的词序列，获取每一所述单字体图像对应的单字体文字。
一种多语言文本识别装置，其特征在于，包括：

待识别图像获取模块，用于获取待识别图像，所述待识别图像包括至少两种语言对应的原始文字；

文本行图像获取模块，用于对所述待识别图像进行版面分析识别，获取至少一个文本行图像，确定每一所述文本行图像在所述待识别图像中的文本行位置；

目标文种获取模块，用于对每一所述文本行图像进行文种识别，获取每一所述文本行图像对应的目标文种；

识别模型获取模块，用于基于所述目标文种查询识别模型数据库，获取所述目标文种对应的目标OCR识别模型；

目标文字获取模块，用于采用所述目标OCR识别模型对所述文本行图像进行转录识别，获取所述文本行图像对应的目标文字；

识别文本获取模块，用于基于所述文本行图像对应的所述目标文字和所述文本行位置，获取所述待识别图像对应的目标识别文本。
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如下步骤：

获取待识别图像，所述待识别图像包括至少两种语言对应的原始文字；

对所述待识别图像进行版面分析识别，获取至少一个文本行图像，确定每一所述文本行图像在所述待识别图像中的文本行位置；

对每一所述文本行图像进行文种识别，获取每一所述文本行图像对应的目标文种；

基于所述目标文种查询识别模型数据库，获取所述目标文种对应的目标OCR识别模型；

采用所述目标OCR识别模型对所述文本行图像进行转录识别，获取所述文本行图像对应的目标文字；

基于所述文本行图像对应的所述目标文字和所述文本行位置，获取所述待识别图像对应的目标识别文本。
如权利要求9所述的计算机设备，其特征在于，所述对所述待识别图像进行版面分析识别，获取至少一个文本行图像，确定每一所述文本行图像在所述待识别图像中的文本行位置，包括：

采用文本定位算法对所述待识别图像进行文本定位，获取至少一个文本行区域；

采用截图工具对至少一个所述文本行区域进行截图，获取至少一个文本行图像，依据所述截图工具的截图顺序，确定每一所述文本行图像在所述待识别图像中的文本行位置。
如权利要求9所述的计算机设备，其特征在于，所述对每一所述文本行图像进行文种识别，获取每一所述文本行图像对应的目标文种，包括：

对所述文本行图像进行格式转换，获取符合预设格式的特征图；

采用Encoder组件对所述特征图进行编码处理，获取对应的特征向量；

采用Summarizer组件对所述特征向量进行整合分类，获取至少一个文种概率，将所述文种概率最大的识别文种，输出为所述文本行图像对应的目标文种。
如权利要求9所述的计算机设备，其特征在于，所述采用所述目标OCR识别模型对所述文本行图像进行转录识别，获取所述文本行图像对应的目标文字，包括：

基于所述文本行图像对应的所述目标文种和所述文本行位置，将同一所述目标文种对应的相邻的文本行图像整合形成文本块图像；

采用文字切割算法对所述文本块图像进行切割，获取至少两个单字体图像，依据所述文本块图像的排版类型和切割顺序，获取每一所述单字体图像对应的识别顺序和行列标签；

依据所述单字体图像对应的识别顺序，将所述单字体图像输入到所述目标OCR识别模型进行转录识别，获取所述单字体图像对应的至少一个识别结果和每一所述识别结果对应的识别概率；

基于所述识别结果和所述排版类型，将所述文本块图像中所有单字体图像划分成至少两个待识别单元；

基于任一所述待识别单元中，每一所述单字体图像对应的至少一个识别结果和每一所述识别结果对应的识别概率，获取每一所述单字体图像对应的单字体文字；

依据每一所述单字体图像对应的所述识别顺序和所述行列标签，对所述单字体图像对应的所述单字体文字进行页面排版，获取所述文本行图像对应的目标文字。
如权利要求12所述的计算机设备，其特征在于，所述基于所述识别结果和所述排版类型，将所述文本块图像中所有单字体图像划分成至少两个待识别单元，包括：

若所述识别结果包含识别符号，基于任意相邻两个所述识别符号之间的所有所述单字体图像形成一待识别单元；

若所述识别结果不包含识别符号，则依据所述文本块图像的排版类型和所述单字体图像对应的行列标签，基于同一行标签或同一列标签对应的所有所述单字体图像形成一待识别单元。
如权利要求12所述的计算机设备，其特征在于，所述基于任一所述待识别单元中，每一所述单字体图像对应的至少一个识别结果和每一所述识别结果对应的识别概率，获取每一所述单字体图像对应的单字体文字，包括：

若任一所述待识别单元中，每一所述单字体图像均存在所述识别概率大于预设概率阈值的识别文字，则将所述识别概率大于所述预设概率阈值的识别文字确定为所述单字体图像对应的单字体文字；

若任一所述待识别单元中，至少一个所述单字体图像不存在识别概率大于预设概率阈值的识别文字，则依据所述单字体图像对应的识别顺序，采用目标语言模型对所述待识别单元中所有所述单字体图像对应的至少一个识别文字形成的词序列进行识别，获取每一词序列对应的序列概率，基于所述序列概率最大的词序列，获取每一所述单字体图像对应的单字体文字。
一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

获取待识别图像，所述待识别图像包括至少两种语言对应的原始文字；

对所述待识别图像进行版面分析识别，获取至少一个文本行图像，确定每一所述文本行图像在所述待识别图像中的文本行位置；

对每一所述文本行图像进行文种识别，获取每一所述文本行图像对应的目标文种；

基于所述目标文种查询识别模型数据库，获取所述目标文种对应的目标OCR识别模型；

采用所述目标OCR识别模型对所述文本行图像进行转录识别，获取所述文本行图像对应的目标文字；

基于所述文本行图像对应的所述目标文字和所述文本行位置，获取所述待识别图像对应的目标识别文本。
如权利要求15所述的可读存储介质，其特征在于，所述对所述待识别图像进行版面分析识别，获取至少一个文本行图像，确定每一所述文本行图像在所述待识别图像中的文本行位置，包括：

采用文本定位算法对所述待识别图像进行文本定位，获取至少一个文本行区域；

采用截图工具对至少一个所述文本行区域进行截图，获取至少一个文本行图像，依据所述截图工具的截图顺序，确定每一所述文本行图像在所述待识别图像中的文本行位置。
如权利要求15所述的可读存储介质，其特征在于，所述对每一所述文本行图像进行文种识别，获取每一所述文本行图像对应的目标文种，包括：

对所述文本行图像进行格式转换，获取符合预设格式的特征图；

采用Encoder组件对所述特征图进行编码处理，获取对应的特征向量；

采用Summarizer组件对所述特征向量进行整合分类，获取至少一个文种概率，将所述文种概率最大的识别文种，输出为所述文本行图像对应的目标文种。
如权利要求15所述的可读存储介质，其特征在于，所述采用所述目标OCR识别模型对所述文本行图像进行转录识别，获取所述文本行图像对应的目标文字，包括：

基于所述文本行图像对应的所述目标文种和所述文本行位置，将同一所述目标文种对应的相邻的文本行图像整合形成文本块图像；

采用文字切割算法对所述文本块图像进行切割，获取至少两个单字体图像，依据所述文本块图像的排版类型和切割顺序，获取每一所述单字体图像对应的识别顺序和行列标签；

依据所述单字体图像对应的识别顺序，将所述单字体图像输入到所述目标OCR识别模型进行转录识别，获取所述单字体图像对应的至少一个识别结果和每一所述识别结果对应的识别概率；

基于所述识别结果和所述排版类型，将所述文本块图像中所有单字体图像划分成至少两个待识别单元；

基于任一所述待识别单元中，每一所述单字体图像对应的至少一个识别结果和每一所述识别结果对应的识别概率，获取每一所述单字体图像对应的单字体文字；

依据每一所述单字体图像对应的所述识别顺序和所述行列标签，对所述单字体图像对应的所述单字体文字进行页面排版，获取所述文本行图像对应的目标文字。
如权利要求18所述的可读存储介质，其特征在于，所述基于所述识别结果和所述排版类型，将所述文本块图像中所有单字体图像划分成至少两个待识别单元，包括：

若所述识别结果包含识别符号，基于任意相邻两个所述识别符号之间的所有所述单字体图像形成一待识别单元；

若所述识别结果不包含识别符号，则依据所述文本块图像的排版类型和所述单字体图像对应的行列标签，基于同一行标签或同一列标签对应的所有所述单字体图像形成一待识别单元。
如权利要求18所述的可读存储介质，其特征在于，所述基于任一所述待识别单元中，每一所述单字体图像对应的至少一个识别结果和每一所述识别结果对应的识别概率，获取每一所述单字体图像对应的单字体文字，包括：

若任一所述待识别单元中，每一所述单字体图像均存在所述识别概率大于预设概率阈值的识别文字，则将所述识别概率大于所述预设概率阈值的识别文字确定为所述单字体图像对应的单字体文字；

若任一所述待识别单元中，至少一个所述单字体图像不存在识别概率大于预设概率阈值的识别文字，则依据所述单字体图像对应的识别顺序，采用目标语言模型对所述待识别单元中所有所述单字体图像对应的至少一个识别文字形成的词序列进行识别，获取每一词序列对应的序列概率，基于所述序列概率最大的词序列，获取每一所述单字体图像对应的单字体文字。