WO2023109086A1

WO2023109086A1 - 文字识别方法、装置、设备及存储介质

Info

Publication number: WO2023109086A1
Application number: PCT/CN2022/102163
Authority: WO
Inventors: 文玉茹; 卢道和; 杨军; 程志峰; 李勋棋; 罗海湾; 何勇彬; 陈鉴镔; 胡仲臣; 陈刚; 周佳振; 朱嘉伟; 郭英亚; 李兴龙; 周琪; 熊思清
Original assignee: 深圳前海微众银行股份有限公司
Priority date: 2021-12-15
Filing date: 2022-06-29
Publication date: 2023-06-22
Also published as: CN114495132A

Abstract

本申请提供一种文字识别方法、装置、设备及存储介质，该方法通过获取待处理图像，该待处理图像携带一个或多个文字，进而，对上述待处理图像进行特征提取，获得图像特征，从而，根据该图像特征，获得上述待处理图像中多个不同尺度的文字框，并对该多个不同尺度的文字框进行文字框回归处理，解决图像发生变形或者角度移动的问题，然后，根据文字框回归处理后的多个不同尺度的文字框，确定上述待处理图像中文字的位置，并基于该位置，对上述待处理图像进行文字识别，提高了文字识别率，达到较好的文字识别效果。

Description

文字识别方法、装置、设备及存储介质

本申请要求于2021年12月15日提交中国专利局、申请号为202111535285.5、申请名称为“文字识别方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及金融科技(Fintech)的图像识别技术，尤其涉及一种文字识别方法、装置、设备及存储介质。

背景技术

随着信息技术的发展，越来越多的技术应用在金融领域，传统金融业正在逐步向金融科技转变，图像识别技术也不例外，但由于金融行业的安全性、实时性要求，也对图像识别技术提出更高的要求。

相关技术中，图像识别技术主要是指采用计算机按照既定目标对捕获的系统前端图片进行处理，在人工智能领域，神经网络是图像识别领域最广泛的应用。神经网络模型可以实现诸如人脸识别、图像检测、图像分类、目标跟踪和文字识别等。其中，人脸识别、图像分类和文字识别等功能经过长时间的发展已经达到较好的识别效果。

文字识别一般是指利用包括计算机在内的各种设备自动识别字符的技术，在当今社会的许多领域都有着重要应用。但是，在图像发生变形或者角度移动后，现有图像识别技术不具备等变属性，导致文字识别率下降，无法达到理想的识别效果。

发明内容

为解决现有技术中存在的问题，本申请提供一种文字识别方法、装置、设备及存储介质。

第一方面，本申请实施例提供一种文字识别方法，所述方法包括：

获取待处理图像，所述待处理图像携带一个或多个文字；

对所述待处理图像进行特征提取，获得所述待处理图像对应的图像特征；

根据所述图像特征，获得所述待处理图像中多个不同尺度的文字框，并对所述多个不同尺度的文字框进行文字框回归处理；

根据文字框回归处理后的多个不同尺度的文字框，确定所述待处理图像中所述一个或多个文字的位置，并基于所述一个或多个文字的位置，对所述待处理图像进行文字识别。

在一种可能的实现方式中，所述对所述待处理图像进行特征提取，获得所述待处理图像对应的图像特征，包括：

基于密集连接网络，对所述待处理图像进行特征提取，获得所述待处理图像对应的所述图像特征，其中，所述密集连接网络包括一个或多个密集块，所述密集连接网络中任意两个密集块之间都有直接的连接，每一密集块的输入都是前面所有密集块输出的并集。

在一种可能的实现方式中，所述密集连接网络还包括一个或多个过渡连接层，所述过渡连接层包括1×1卷积层，每一过渡连接层的输入都是前面所有密集块和过渡连接层输出的并集；

所述基于密集连接网络，对所述待处理图像进行特征提取，获得所述待处理图像对应的所述图像特征，包括：

基于所述一个或多个密集块，以及所述一个或多个过渡连接层，对所述待处理图像进行特征提取，获得所述待处理图像对应的所述图像特征。

在一种可能的实现方式中，所述根据所述图像特征，获得所述待处理图像中多个不同尺度的文字框，并对所述多个不同尺度的文字框进行文字框回归处理，包括：

根据所述图像特征，获得所述待处理图像中多个不同尺度的文字框，并确定所述多个不同尺度的文字框的偏移数据；

基于所述偏移数据，对所述多个不同尺度的文字框进行文字框回归处理。

在一种可能的实现方式中，所述根据所述图像特征，获得所述待处理图像中多个不同尺度的文字框，并确定所述多个不同尺度的文字框的偏移数据，包括：

对所述图像特征进行下采样处理，并对下采样处理后的图像特征进行下采样和卷积处理；

将下采样和卷积处理后的图像特征作为新的所述下采样处理后的图像特征，重新执行所述对下采样处理后的图像特征进行下采样和卷积处理的步骤，直至获得所述待处理图像中所述多个不同尺度的文字框，并确定所述多个不同尺度的文字框的偏移数据。

在一种可能的实现方式中，所述根据文字框回归处理后的多个不同尺度的文字框，确定所述待处理图像中所述一个或多个文字的位置，包括：

根据所述文字框回归处理后的多个不同尺度的文字框和预设得分模型，获得所述文字框回归处理后的多个不同尺度的文字框的得分，其中，所述预设得分模型用于根据多个不同尺度的文字框中得分最高的文字框与多个不同尺度的文字框的交集和并集的比值，确定多个不同尺度的文字框的得分；

根据所述文字框回归处理后的多个不同尺度的文字框的得分，计算所述文字框回归处理后的多个不同尺度的文字框的位置，并基于所述文字框回归处理后的多个不同尺度的文字框的位置，确定所述待处理图像中所述一个或多个文字的位置。

在一种可能的实现方式中，所述根据所述文字框回归处理后的多个不同尺度的文字框的得分，计算所述文字框回归处理后的多个不同尺度的文字框的位置，包括：

计算所述文字框回归处理后的多个不同尺度的文字框中得分最高的文字框与文字框回归处理后的文字框i的交集和并集的比值，其中，所述文字框回归处理后的文字框i为所述文字框回归处理后的多个不同尺度的文字框中任意一个文字框，i＝1,…,n，n为整数，n根据所述文字框回归处理后的多个不同尺度的文字框的数目确定；

若计算的比值小于预设阈值，则根据所述文字框回归处理后的文字框i的得分，计算所述文字框回归处理后的文字框i的位置。

在一种可能的实现方式中，在所述对所述待处理图像进行特征提取，获得所述待处理图像对应的图像特征之前，还包括：

对所述待处理图像进行降参处理；

所述对所述待处理图像进行特征提取，获得所述待处理图像对应的图像特征，包括：

对降参处理后的待处理图像进行特征提取，获得所述待处理图像对应的图像特征。

在一种可能的实现方式中，所述对所述待处理图像进行降参处理包括：

利用3个3×3的卷积层和1个2×2的池化层，对所述待处理图像进行降参处理，其中，所述3个3×3的卷积层依次连接后与所述2×2的池化层连接。

在一种可能的实现方式中，所述基于所述一个或多个文字的位置，对所述待处理图像进行文字识别，包括：

基于所述一个或多个文字的位置和预设识别模型，识别所述待处理图像中的文字，其中，所述预设识别模型用于根据图像中文字的位置，识别图像中的文字。

第二方面，本申请实施例提供一种文字识别装置，所述装置包括：

图像获取模块，用于获取待处理图像，所述待处理图像携带一个或多个文字；

特征提取模块，用于对所述待处理图像进行特征提取，获得所述待处理图像对应的图像特征；

文字框处理模块，用于根据所述图像特征，获得所述待处理图像中多个不同尺度的文字框，并对所述多个不同尺度的文字框进行文字框回归处理；

文字识别模块，用于根据文字框回归处理后的多个不同尺度的文字框，确定所述待处理图像中所述一个或多个文字的位置，并基于所述一个或多个文字的位置，对所述待处理图像进行文字识别。

在一种可能的实现方式中，所述特征提取模块，具体用于：

在一种可能的实现方式中，所述密集连接网络还包括一个或多个过渡连接层，所述过渡连接层包括1×1卷积层，每一过渡连接层的输入都是前面所有密集块和过渡连接层输出的并集。

所述特征提取模块，具体用于：

在一种可能的实现方式中，所述文字框处理模块，具体用于：

在一种可能的实现方式中，所述文字识别模块，具体用于：

在一种可能的实现方式中，所述特征提取模块，具体用于：

对所述待处理图像进行降参处理；

在一种可能的实现方式中，所述特征提取模块，具体用于：

在一种可能的实现方式中，所述文字识别模块，具体用于：

第三方面，本申请实施例提供一种文字识别设备，包括：

处理器；

存储器；以及

计算机程序；

其中，所述计算机程序被存储在所述存储器中，并且被配置为由所述处理器执行，所述计算机程序包括用于执行如第一方面所述的方法的指令。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序使得服务器执行第一方面所述的方法。

第五方面，本申请实施例提供一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行第一方面所述的方法。

本申请实施例提供的文字识别方法、装置、设备及存储介质，该方法通过获取待处理图像，该待处理图像携带一个或多个文字，进而，对上述待处理图像进行特征提取，获得图像特征，从而，根据该图像特征，获得上述待处理图像中多个不同尺度的文字框，并对该多个不同尺度的文字框进行文字框回归处理，解决图像发生变形或者角度移动的问题，然后，根据文字框回归处理后的多个不同尺度的文字框，确定上述待处理图像中文字的位置，并基于该位置，对上述待处理图像进行文字识别，提高了文字识别率，达到较好的文字识别效果。

附图说明

图1为本申请实施例提供的一种文字识别系统架构示意图；

图2为本申请实施例提供的一种文字识别方法的流程示意图；

图3为本申请实施例提供的另一种文字识别方法的流程示意图；

图4为本申请实施例提供的一种下采样和卷积处理的示意图；

图5为本申请实施例提供的一个文字框的偏移示意图；

图6为本申请实施例提供的再一种文字识别方法的流程示意图；

图7为本申请实施例提供的一种文字识别装置的结构示意图；

图8示出了本申请文字识别设备的一种可能的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”及“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

现有文字识别目前在计算机图像和视觉方面有比较广泛的研究，在车牌识别、票据识别、书籍文本识别等场景中有着极高的应用需求，不少技术已经比较成熟，并且效果比较好。但是，如果图像发生了变形或者角度移动之后，现有图像识别技术不具备等变属性，导致文字识别率下降，无法达到理想的识别效果。

因此，本申请实施例提出一种文字识别方法，在获取携带一个或多个文字的待处理图像后，通过对该待处理图像进行特征提取，获得图像特征，进而，根据该图像特征，获得上述待处理图像中多个不同尺度的文字框，并对该多个不同尺度的文字框进行文字框回归处理，解决图像发生变形或者角度移动的问题，提高后续基于文字框回归处理后的多个不同尺度的文字框，对上述待处理图像进行文字识别的识别率，达到较好的文字识别效果。

可选地，本申请提供的一种文字识别方法，可以适用于图1所示的文字识别系统架构示意图，如图1所示，该系统可以包括接收装置101、处理装置102和显示装置103。

在具体实现过程中，接收装置101可以是输入/输出接口，也可以是通信接口，可以用于接收携带一个或多个文字的待处理图像。

处理装置102可以通过上述接收装置101获取上述待处理图像，进而，对上述待处理图像进行特征提取，获得图像特征，从而，根据该图像特征，获得上述待处理图像中多个不同尺度的文字框，并对该多个不同尺度的文字框进行文字框回归处理，解决图像发生变形或者角度移动的问题，然后，根据文字框回归处理后的多个不同尺度的文字框，对上述待处理图像进行文字识别，提高了文字识别率，达到较好的文字识别效果。

另外，显示装置103可以用于对上述待处理图像和多个不同尺度的文字框等进行显示。

显示装置还可以是触摸显示屏，用于在显示的上述内容的同时接收用户指令，以实现与用户的交互。

处理装置102还可以将对上述待处理图像进行文字识别的结果发送至解码器，由解码器对上述结果进行解码，输出相应的文字。

应理解，上述处理装置可以通过处理器读取存储器中的指令并执行指令的方式实现，也可以通过芯片电路实现。

上述系统仅为一种示例性系统，具体实施时，可以根据应用需求设置。

另外，本申请实施例描述的系统架构是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

下面以几个实施例为例对本申请的技术方案进行描述，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本申请实施例提供的一种文字识别方法的流程示意图，本实施例的执行主体可以为图1所示实施例中的处理装置，具体可以根据实际情况确定。如图2所示，本申请实施例提供的文字识别方法包括如下步骤：

S201：获取待处理图像，该待处理图像携带一个或多个文字。

其中，上述待处理图像可以根据实际情况设置，例如在车牌识别、票据识别、书籍文本识别等场景中获得的图像。

S202：对上述待处理图像进行特征提取，获得上述待处理图像对应的图像特征。

这里，上述处理装置在对上述待处理图像进行特征提取之前，还可以对上述待处理图像进行降参处理，以减少参数和计算量，提高后续文字识别的效率。

示例性的，上述处理装置可以利用3个3×3的卷积层和1个2×2的池化层，对上述待处理图像进行降参处理，其中，上述3个3×3的卷积层依次连接后与上述2×2的池化层连接。其中，上述3个3×3的卷积层和1个2×2的池化层卷积核大小(kernel_size)、卷积步长(stride)和特征图填充宽度(padding)等参数可以如表1所示：

表1

另外，上述处理装置在对上述待处理图像进行特征提取时，可以基于密集连接网络，对上述待处理图像进行特征提取，获得上述待处理图像对应的图像特征，其中，上述密集连接网络包括一个或多个密集块，上述密集连接网络中任意两个密集块之间都有直接的连接，每一密集块的输入都是前面所有密集块输出的并集。

这里，上述使用处理装置将密集连接网络作为特征提取网络，该网络能够把之前所有层的输出当作当前层的输入，让梯度和信息传播更准确，从而使得基于密集连接网络提取的待处理图像的特征，进行后续文字识别的准确率较高。

在本申请实施例中，为了增加提取特征的深度，上述密集连接网络中还可以包括一个或多个过渡连接层，该过渡连接层是用来增加上述密集连接网络中密集块的数量，并且在增加了数量的情况下，不会改变原有特征图的分辨率。其中，上述过渡连接层包括1×1卷积层，不仅能增加上述密集连接网络提取特征的深度，并且可以消除对上述密集块的整体数量限制，每一过渡连接层的输入都是前面所有密集块和过渡连接层输出的并集。上述处理装置可以基于上述一个或多个密集块，以及上述一个或多个过渡连接层，对上述待处理图像进行特征提取，使得提取的特征更丰富，提高后续基于上述提取的特征进行文字识别的准确率。

表2

示例性的，上述密集块和过渡连接层的数量可以根据实际情况设置，例如如上述表2所示，上述密集块的个数为4个，上述过渡连接层的个数为2个，第1个过渡连接层设置在第3个密集块和第4个密集块之间，第2个过渡连接层设置在第4个密集块后面。表2中示出的4个密集块和2个过渡连接层的kernel_size、stride和padding等参数。

S203：根据上述图像特征，获得上述待处理图像中多个不同尺度的文字框，并对该多个不同尺度的文字框进行文字框回归处理。

这里，上述处理装置可以利用预设密集层，根据上述图像特征，获得上述待处理图像中多个不同尺度的文字框，并对该多个不同尺度的文字框进行文字框回归处理。

其中，上述预设密集层可以包含两块，一块用于获得上述待处理图像中多个不同尺度的文字框，一块用于对该多个不同尺度的文字框进行文字框回归处理。

在本申请实施例，上述处理装置通过对上述待处理图像中多个不同尺度的文字框进行文字框回归处理，解决图像发生变形或者角度移动的问题，提高后续基于文字框回归处理后的多个不同尺度的文字框，对上述待处理图像进行文字识别的识别率。

S204：根据文字框回归处理后的多个不同尺度的文字框，确定上述待处理图像中上述一个或多个文字的位置，并基于上述一个或多个文字的位置，对上述待处理图像进行文字识别。

示例性的，上述处理装置可以根据上述文字框回归处理后的多个不同尺度的文字框和预设得分模型，获得上述文字框回归处理后的多个不同尺度的文字框的得分，进而，根据该得分，计算上述文字框回归处理后的多个不同尺度的文字框的位置，并基于该位置，确定上述待处理图像中所述一个或多个文字的位置。

其中，上述预设得分模型用于根据多个不同尺度的文字框中得分最高的文字框与上述多个不同尺度的文字框的交集和并集的比值，确定上述多个不同尺度的文字框的得分。

例如上述预设得分模型包括表达式：

其中，s _i表示第i个文字框的得分，iou表示交并比(Intersection over Union)，是文字框和其它文字框的交集和并集的比值。T表示计算出的最高分的文字框，c _i表示候选框，N表示一个阈值，可以根据实际情况设置。这里，上述处理装置可以设置上述文字框回归处理后的多个不同尺度的文字框作为上述候选框，并计算所有候选框的得分，得到最高分的文字框T，根据上述表达式获得上述文字框回归处理后的多个不同尺度的文字框的得分。

进一步地，上述处理装置在根据上述得分，计算上述文字框回归处理后的多个不同尺度的文字框的位置时，可以利用表达式：

其中，t′表示上述文字框回归处理后的多个不同尺度的文字框的位置，t _i表示第i个文字框的坐标。

另外，上述处理装置在根据上述得分，计算上述文字框回归处理后的多个不同尺度的文字框的位置时，还可以考虑计算上述文字框回归处理后的多个不同尺度的文字框中得分最高的文字框与文字框回归处理后的文字框i的交集和并集的比值。如果计算的比值小于预设阈值，则上述处理装置可以根据文字框回归处理后的文字框i的得分，计算上述文字框回归处理后的文字框i的位置。其中，文字框回归处理后的文字框i为上述文字框回归处理后的多个不同尺度的文字框中任意一个文字框，i＝1,…,n，n为整数，n根据上述文字框回归处理后的多个不同尺度的文字框的数目确定。即上述处理装置可以采用非极大抑制(non maximum suppression，NMS)算法，计算上述文字框回归处理后的多个不同尺度的文字框的位置，使得计算结果更加准确。

示例性的，上述处理装置可以列举出所有的候选框a，即列举出上述文字框回归处理后的多个不同尺度的文字框，以及计算的分数s _i，并初始化一检测集合Bi，将其设置为空。然后，上述处理装置可以集合候选框a中计算所有的文字框，得到最高分的文字框T，放到集合Bi中，i表示第i次选取选框。进一步地，上述处理装置可以设置一个阈值N，然后遍历所有剩下的文字框，计算该文字框和最高分检测框的iou，如果结果大于或等于阈值，则将其放入集合Bi。上述处理装置重复上面的操作，直到a为空，得到集合集Bi。最后，针对每一文字框上述处理装置可以基于上述分数s _i，计算文字框的位置，使得后续基于该位置计算的文字框的位置更加精确。

在本申请实施例中，上述处理装置在基于上述一个或多个文字的位置，对上述待处理图像进行文字识别时，还可以基于上述一个或多个文字的位置和预设识别模型，识别上述待处理图像中的文字。

其中，上述预设识别模型用于根据图像中文字的位置，识别图像中的文字。

本申请实施例，通过获取待处理图像，该待处理图像携带一个或多个文字，进而，对上述待处理图像进行特征提取，获得图像特征，从而，根据该图像特征，获得上述待处理图像中多个不同尺度的文字框，并对该多个不同尺度的文字框进行文字框回归处理，解决图像发生变形或者角度移动的问题，然后，根据文字框回归处理后的多个不同尺度的文字框，确定上述待处理图像中文字的位置，并基于该位置，对上述待处理图像进行文字识别，提高了文字识别率，达到较好的文字识别效果。而且，本申请实施例还对上述待处理图像进行降参处理，减少了参数和计算量，提高后续文字识别的效率。另外，本申请实施例将密集连接网络作为特征提取网络，该网络能够把之前所有层的输出当作当前层的输入，让梯度和信息传播更准确，从而使得基于密集连接网络提取的待处理图像的特征，进行后续文字识别的准确率较高。本申请实施例还可以采用NMS算法，计算上述文字框回归处理后的多个不同尺度的文字框的位置，使得计算结果更加准确。

这里，上述处理装置在基于上述一个或多个文字的位置和预设识别模型，识别上述待处理图像中的文字之前，需要对上述预设识别模型进行训练，以便后续利用该模型识别出上述待处理图像中的文字。其中，在训练过程中，上述处理装置可以将携带文字的图像输入上述预设识别模型，其中，上述输入的图像中还携带图像中文字的位置，然后，根据上述预设识别模型输出的文字，以及上述输入图像对应的文字，确定输出准确率。如果该输出准确率低于预设准确率阈值，上述处理装置可以根据上述输出准确率，调整上述预设识别模型，以提高上述输出准确率，将调整后的预设识别作为新的预设识别模型，重新执行上述将携带文字的图像输入上述预设识别模型的步骤。

另外，上述处理装置在根据上述图像特征，获得上述待处理图像中多个不同尺度的文字框，并对上述多个不同尺度的文字框进行文字框回归处理时，还考虑根据上述图像特征，获得上述待处理图像中多个不同尺度的文字框，并确定上述多个不同尺度的文字框的偏移数据，进而，基于该偏移数据，对上述多个不同尺度的文字框进行文字框回归处理，解决图像发生变形或者角度移动的问题，然后，根据文字框回归处理后的多个不同尺度的文字框，对上述待处理图像进行文字识别，提高了文字识别率。图3为本申请实施例提出的另一种文字识别方法的流程示意图。如图3所示，该方法包括：

S301：获取待处理图像，该待处理图像携带一个或多个文字。

S302：对上述待处理图像进行特征提取，获得上述待处理图像对应的图像特征。

其中，步骤S301-S302与上述步骤S201-S202的实现方式相同，此处不再赘述。

S303：根据上述图像特征，获得上述待处理图像中多个不同尺度的文字框，并确定上述多个不同尺度的文字框的偏移数据。

这里，上述处理装置可以对上述图像特征进行下采样处理，并对下采样处理后的图像特征进行下采样和卷积处理，将下采样和卷积处理后的图像特征作为新的上述下采样处理后的图像特征，重新执行上述对下采样处理后的图像特征进行下采样和卷积处理的步骤，直至获得上述待处理图像中上述多个不同尺度的文字框，并确定上述多个不同尺度的文字框的偏移数据。

其中，上述处理装置可以利用下采样模块对上述图像特征进行下采样处理，上述下采样模块可以包括1×1的卷积和2×2的池化层。这里，上述处理装置使用2×2的池化层是为了特征图能够大小匹配，使用1×1的卷积是为了把通道数减少一半，整个模块的尺度包含了该特征图的特征和上一个特征图的特征，这样可以使得参数较少、结果更加准确。

另外，上述处理装置还可以利用卷积模块对上述图像特征进行卷积处理，上述卷积模块可以包括1×1的卷积和3×3的卷积层，进行两个卷积操作，前一层的特征图传入到后一层的特征图中。

在本申请实施例中，以上述处理装置可以获得6种不同尺度的文字框为例。如图4所示，上述6种不同尺度的文字框包括尺度1、尺度2、尺度3、尺度4、尺度5和尺度6的文字框。上述处理装置根据上述图像特征，确定尺度1的文字框，进而，对尺度1的文字框进行下采样处理，获得尺度2的文字框，对该尺度2的文字框进行下采样和卷积处理，获得尺度3的文字框，重复执行上述步骤，即对该尺度3的文字框进行下采样和卷积处理，获得尺度4的文字框，对该尺度4的文字框进行下采样和卷积处理，获得尺度5的文字框，对该尺度5的文字框进行下采样和卷积处理，获得尺度6的文字框。

其中，上述处理装置在上述处理过程中确定上述多个不同尺度的文字框的偏移数据，从而，基于该偏移数据，对上述多个不同尺度的文字框进行文字框回归处理。示例性的，为了更好的理解上述文字框的偏移，图5给出一个文字框的偏移示意图，图中，b0表示默认边框，4个箭头从b0引出指向Gq，表示一个从默认框到实际文字框的回归学习过程，Gb表示实际的目标Gq的一个最小外接矩阵，

表示矩形的真实值，是G的最小的包围矩形，

表示Gb的中心点，

表示宽，

表示高。

这里，上述处理装置在确定文字框的偏移数据后，基于该偏移数据，对文字框进行文字框回归处理，解决图像发生变形或者角度移动的问题，从而提高后续文字识别的准确率。

S304：基于上述偏移数据，对上述多个不同尺度的文字框进行文字框回归处理。

S305：根据文字框回归处理后的多个不同尺度的文字框，确定上述待处理图像中上述一个或多个文字的位置，并基于上述一个或多个文字的位置，对上述待处理图像进行文字识别。

其中，步骤S305与上述步骤S204的实现方式相同，此处不再赘述。

本申请实施例在确定文字框的偏移数据后，基于该偏移数据，对文字框进行文字框回归处理，解决图像发生变形或者角度移动的问题，然后，根据文字框回归处理后的多个不同尺度的文字框进行文字识别，提高了文字识别率。

这里，图6给出本申请实施例提出的再一种文字识别方法的流程示意图，在图中，上述处理装置在获取携带一个或多个文字的待处理图像后，可以对该待处理图像进行降参处理。具体的，上述处理装置可以利用降参模块进行降参，其中，该降参模块可以包括3×3的卷积层和1个2×2的池化层，该3个3×3的卷积层依次连接后与所述2×2的池化层连接。进一步地，上述处理装置可以对降参处理后的待处理图像进行特征提取，示例性的，可以基于密集连接网络进行特征提取。其中，该密集连接网络可以包括一个或多个密集块，还可以包括一个或多个过渡连接层。这里，图中以4个密集块和2个过渡连接层，第1个过渡连接层设置在第3个密集块和第4个密集块之间，第2个过渡连接层设置在第4个密集块后面为例。在进行特征提取后，上述处理装置可以基于提取的图像特征，获得上述待处理图像中多个不同尺度的文字框，并确定该多个不同尺度的文字框的偏移数据，从而，基于该偏移数据，对上述多个不同尺度的文字框进行文字框回归处理。这里，上述处理装置可以利用预设密集层进行上述处理，该预设密集层可以包含两块，一块用于获得上述待处理图像中多个不同尺度的文字框，一块用于对该多个不同尺度的文字框进行文字框回归处理。最后，上述处理装置根据文字框回归处理后的多个不同尺度的文字框，确定上述待处理图像中一个或多个文字的位置，并基于该位置，对上述待处理图像进行文字识别。其中，上述处理装置可以采用NMS算法，计算上述文字框回归处理后的多个不同尺度的文字框的位置，使得计算结果更加准确。

另外，上述处理装置还可以将对上述待处理图像进行文字识别的结果发送至解码器，由解码器对上述结果进行解码，输出相应的文字。

在本申请实施例中，上述处理装置对上述待处理图像中多个不同尺度的文字框进行文字框回归处理，解决图像发生变形或者角度移动的问题，然后，根据文字框回归处理后的多个不同尺度的文字框，对上述待处理图像进行文字识别，提高了文字识别率，达到较好的文字识别效果。而且，上述处理装置还对上述待处理图像进行降参处理，减少了参数和计算量，提高后续文字识别的效率。另外，上述处理装置将密集连接网络作为特征提取网络，该网络能够把之前所有层的输出当作当前层的输入，让梯度和信息传播更准确，从而使得基于密集连接网络提取的待处理图像的特征，进行后续文字识别的准确率较高。上述处理装置还可以采用NMS算法，计算上述文字框回归处理后的多个不同尺度的文字框的位置，使得计算结果更加准确。

对应于上文实施例的文字识别方法，图7为本申请实施例提供的文字识别装置的结构示意图。为了便于说明，仅示出了与本申请实施例相关的部分。图7为本申请实施例提供的一种文字识别装置的结构示意图，该文字识别装置70包括：图像获取模块701、特征提取模块702、文字框处理模块703以及文字识别模块704。这里的文字识别装置可以是上述处理装置本身，或者是实现处理装置的功能的芯片或者集成电路。这里需要说明的是，图像获取模块、特征提取模块、文字框处理模块以及文字识别模块的划分只是一种逻辑功能的划分，物理上两者可以是集成的，也可以是独立的。

其中，图像获取模块701，用于获取待处理图像，所述待处理图像携带一个或多个文字。

特征提取模块702，用于对所述待处理图像进行特征提取，获得所述待处理图像对应的图像特征。

文字框处理模块703，用于根据所述图像特征，获得所述待处理图像中多个不同尺度的文字框，并对所述多个不同尺度的文字框进行文字框回归处理。

文字识别模块704，用于根据文字框回归处理后的多个不同尺度的文字框，确定所述待处理图像中所述一个或多个文字的位置，并基于所述一个或多个文字的位置，对所述待处理图像进行文字识别。

在一种可能的设计中，所述特征提取模块702，具体用于：

所述特征提取模块702，具体用于：

在一种可能的实现方式中，所述文字框处理模块703，具体用于：

在一种可能的实现方式中，所述文字识别模块704，具体用于：

在一种可能的实现方式中，所述特征提取模块702，具体用于：

对所述待处理图像进行降参处理；

本申请实施例提供的装置，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，本申请实施例此处不再赘述。

可选地，图8示意性地提供本申请所述文字识别设备的一种可能的基本硬件架构。

参见图8，文字识别设备800包括至少一个处理器801以及通信接口803。进一步可选的，还可以包括存储器802和总线804。

其中，文字识别设备800可以是上述处理装置，本申请对此不作特别限制。文字识别设备800中，处理器801的数量可以是一个或多个，图8仅示意了其中一个处理器801。可选地，处理器801，可以是中央处理器(Central Processing Unit，CPU)、图形处理器(Graphics Processing Unit，GPU)或者数字信号处理(Digital Signal Process，DSP)。如果文字识别设备800具有多个处理器801，多个处理器801的类型可以不同，或者可以相同。可选地，文字识别设备800的多个处理器801还可以集成为多核处理器。

存储器802存储计算机指令和数据；存储器802可以存储实现本申请提供的上述文字识别方法所需的计算机指令和数据，例如，存储器802存储用于实现上述文字识别方法的步骤的指令。存储器802可以是以下存储介质的任一种或任一种组合：非易失性存储器(例如只读存储器(ROM)、固态硬盘(SSD)、硬盘(HDD)、光盘)，易失性存储器。

通信接口803可以为所述至少一个处理器提供信息输入/输出。也可以包括以下器件的任一种或任一种组合：网络接口(例如以太网接口)、无线网卡等具有网络接入功能的器件。

可选的，通信接口803还可以用于文字识别设备800与其它计算设备或者终端进行数据通信。

进一步可选的，图8用一条粗线表示总线804。总线804可以将处理器801与存储器802和通信接口803连接。这样，通过总线804，处理器801可以访问存储器802，还可以利用通信接口803与其它计算设备或者终端进行数据交互。

在本申请中，文字识别设备800执行存储器802中的计算机指令，使得文字识别设备800实现本申请提供的上述文字识别方法，或者使得文字识别设备800部署上述的文字识别装置。

从逻辑功能划分来看，示例性的，如图8所示，存储器802中可以包括图像获取模块701、特征提取模块702、文字框处理模块703以及文字识别模块704。这里的包括仅仅涉及存储器中所存储的指令被执行时可以分别实现图像获取模块、特征提取模块、文字框处理模块以及文字识别模块的功能，而不限定是物理上的结构。

另外，上述的文字识别设备除了可以像上述图8通过软件实现外，也可以作为硬件模块，或者作为电路单元，通过硬件实现。

本申请提供一种计算机可读存储介质，所述计算机程序产品包括计算机指令，所述计算机指令指示计算设备执行本申请提供的上述文字识别方法。

本申请提供一种芯片，包括至少一个处理器和通信接口，所述通信接口为所述至少一个处理器提供信息输入和/或输出。进一步，所述芯片还可以包含至少一个存储器，所述存储器用于存储计算机指令。所述至少一个处理器用于调用并运行该计算机指令，以执行本申请提供的上述文字识别方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

Claims

一种文字识别方法，其特征在于，包括：

获取待处理图像，所述待处理图像携带一个或多个文字；

对所述待处理图像进行特征提取，获得所述待处理图像对应的图像特征；

根据所述图像特征，获得所述待处理图像中多个不同尺度的文字框，并对所述多个不同尺度的文字框进行文字框回归处理；

根据文字框回归处理后的多个不同尺度的文字框，确定所述待处理图像中所述一个或多个文字的位置，并基于所述一个或多个文字的位置，对所述待处理图像进行文字识别。
根据权利要求1所述的方法，其特征在于，所述对所述待处理图像进行特征提取，获得所述待处理图像对应的图像特征，包括：

基于密集连接网络，对所述待处理图像进行特征提取，获得所述待处理图像对应的所述图像特征，其中，所述密集连接网络包括一个或多个密集块，所述密集连接网络中任意两个密集块之间都有直接的连接，每一密集块的输入都是前面所有密集块输出的并集。
根据权利要求2所述的方法，其特征在于，所述密集连接网络还包括一个或多个过渡连接层，所述过渡连接层包括1×1卷积层，每一过渡连接层的输入都是前面所有密集块和过渡连接层输出的并集；

所述基于密集连接网络，对所述待处理图像进行特征提取，获得所述待处理图像对应的所述图像特征，包括：

基于所述一个或多个密集块，以及所述一个或多个过渡连接层，对所述待处理图像进行特征提取，获得所述待处理图像对应的所述图像特征。
根据权利要求1至3中任一项所述的方法，其特征在于，所述根据所述图像特征，获得所述待处理图像中多个不同尺度的文字框，并对所述多个不同尺度的文字框进行文字框回归处理，包括：

根据所述图像特征，获得所述待处理图像中多个不同尺度的文字框，并确定所述多个不同尺度的文字框的偏移数据；

基于所述偏移数据，对所述多个不同尺度的文字框进行文字框回归处理。
根据权利要求4所述的方法，其特征在于，所述根据所述图像特征，获得所述待处理图像中多个不同尺度的文字框，并确定所述多个不同尺度的文字框的偏移数据，包括：

对所述图像特征进行下采样处理，并对下采样处理后的图像特征进行下采样和卷积处理；

将下采样和卷积处理后的图像特征作为新的所述下采样处理后的图像特征，重新执行所述对下采样处理后的图像特征进行下采样和卷积处理的步骤，直至获得所述待处理图像中所述多个不同尺度的文字框，并确定所述多个不同尺度的文字框的偏移数据。
根据权利要求1至5中任一项所述的方法，其特征在于，所述根据文字框回归处理后的多个不同尺度的文字框，确定所述待处理图像中所述一个或多个文字的位置，包括：

根据所述文字框回归处理后的多个不同尺度的文字框和预设得分模型，获得所述文字框回归处理后的多个不同尺度的文字框的得分，其中，所述预设得分模型用于根据多个不同尺度的文字框中得分最高的文字框与多个不同尺度的文字框的交集和并集的比值，确定多个不同尺度的文字框的得分；

根据所述文字框回归处理后的多个不同尺度的文字框的得分，计算所述文字框回归处理后的多个不同尺度的文字框的位置，并基于所述文字框回归处理后的多个不同尺度的文字框的位置，确定所述待处理图像中所述一个或多个文字的位置。
根据权利要求6所述的方法，其特征在于，所述根据所述文字框回归处理后的多个不同尺度的文字框的得分，计算所述文字框回归处理后的多个不同尺度的文字框的位置，包括：

计算所述文字框回归处理后的多个不同尺度的文字框中得分最高的文字框与文字框回归处理后的文字框i的交集和并集的比值，其中，所述文字框回归处理后的文字框i为所述文字框回归处理后的多个不同尺度的文字框中任意一个文字框，i＝1,…,n，n为整数，n根据所述文字框回归处理后的多个不同尺度的文字框的数目确定；

若计算的比值小于预设阈值，则根据所述文字框回归处理后的文字框i的得分，计算所述文字框回归处理后的文字框i的位置。
根据权利要求1至7中任一项所述的方法，其特征在于，在所述对所述待处理图像进行特征提取，获得所述待处理图像对应的图像特征之前，还包括：

对所述待处理图像进行降参处理；

所述对所述待处理图像进行特征提取，获得所述待处理图像对应的图像特征，包括：

对降参处理后的待处理图像进行特征提取，获得所述待处理图像对应的图像特征。
根据权利要求8所述的方法，其特征在于，所述对所述待处理图像进行降参处理包括：

利用3个3×3的卷积层和1个2×2的池化层，对所述待处理图像进行降参处理，其中，所述3个3×3的卷积层依次连接后与所述2×2的池化层连接。
根据权利要求1至9中任一项所述的方法，其特征在于，所述基于所述一个或多个文字的位置，对所述待处理图像进行文字识别，包括：

基于所述一个或多个文字的位置和预设识别模型，识别所述待处理图像中的文字，其中，所述预设识别模型用于根据图像中文字的位置，识别图像中的文字。
一种文字识别装置，其特征在于，包括：

图像获取模块，用于获取待处理图像，所述待处理图像携带一个或多个文字；

特征提取模块，用于对所述待处理图像进行特征提取，获得所述待处理图像对应的图像特征；

文字框处理模块，用于根据所述图像特征，获得所述待处理图像中多个不同尺度的文字框，并对所述多个不同尺度的文字框进行文字框回归处理；

文字识别模块，用于根据文字框回归处理后的多个不同尺度的文字框，确定所述待处理图像中所述一个或多个文字的位置，并基于所述一个或多个文字的位置，对所述待处理图像进行文字识别。
一种文字识别设备，其特征在于，包括：

处理器；

存储器；以及

计算机程序；

其中，所述计算机程序被存储在所述存储器中，并且被配置为由所述处理器执行，所述计算机程序包括用于执行如权利要求1-10任一项所述的方法的指令。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序使得服务器执行权利要求1-10任一项所述的方法。
一种计算机程序产品，其特征在于，包括计算机指令，所述计算机指令被处理器执行权利要求1-10任一项所述的方法。