WO2022068426A1

WO2022068426A1 - 文本识别方法和文本识别系统

Info

Publication number: WO2022068426A1
Application number: PCT/CN2021/112654
Authority: WO
Inventors: 黄光伟; 李月
Original assignee: 京东方科技集团股份有限公司
Priority date: 2020-09-30
Filing date: 2021-08-16
Publication date: 2022-04-07
Also published as: CN114359679A

Abstract

本发明提供一种文本识别方法和文本识别系统。该方法包括：采用第一卷积神经网络对待识别图像进行特征提取，得到待识别图像的第一特征图；将第一特征图分别进行N种角度的旋转，得到N个方向的特征图；采用第二卷积神经网络分别对N个方向的特征图进行特征提取，得到N个方向的特征向量；采用第三卷积神经网络对所述第一特征图进行处理，得到N个方向的特征向量各自的权重；根据N个方向的特征向量各自的权重，对N个方向的特征向量进行特征融合，得到特征融合后的特征向量，对所述特征融合后的特征向量进行解码，以得到文字识别结果。本发明能够提高发生形变的文本图像的文字识别的准确性。

Description

文本识别方法和文本识别系统

相关申请的交叉引用

本申请主张在2020年9月30日在中国提交的中国专利申请号No.202011061835.X的优先权，其全部内容通过引用包含于此。

技术领域

本发明实施例涉及图像处理技术领域，尤其涉及一种文本识别方法和文本识别系统。

背景技术

目前OCR(Optical Character Recognition，光学字符识别)领域中，各种文本识别技术不断涌现，性能良好的文本识别技术大多都是基于深度学习算法。大多数文本识别算法，它对未发生形变的文本图像的识别效果较好。然而在自然场景下，由于相机拍摄角度或者文字载体非刚性等原因，采集到的图像中文本经常会发生倾斜、透视、弯曲等形变情况，容易使文本识别算法失效。

发明内容

本发明实施例提供一种一种文本识别方法和文本识别系统，用于解决文本图像发生形变时，文字识别效果差的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种文本识别方法，包括：

采用第一卷积神经网络对待识别图像进行特征提取，得到所述待识别图像的第一特征图；

将所述第一特征图分别进行N种角度的旋转，得到N个方向的特征图；采用第二卷积神经网络分别对所述N个方向的特征图进行特征提取，得到N个方向的特征向量；采用第三卷积神经网络对所述第一特征图进行处理，得到N个方向的特征向量各自的权重；其中，N为大于或等于2的正整数；

根据所述N个方向的特征向量各自的权重，对所述N个方向的特征向量进行特征融合，得到特征融合后的一维特征向量，对所述特征融合后的一维特征向量进行解码，以得到文字识别结果。

可选的，所述第一卷积神经网络为基于注意力机制的卷积神经网络，包括多个卷积模块和多个注意力机制模块。

可选的，所述卷积模块为第一卷积模块或第二卷积模块，所述第一卷积神经网络包括至少两个第一卷积模块和至少一个第二卷积模块，其中，所述第一卷积神经网络的第一个和最后一个卷积模块均为所述第一卷积模块。

可选的，所述第二卷积模块包括：第一卷积层、基于空洞卷积的深度可分离卷积层和第二卷积层。

可选的，所述卷积模块的个数小于5。

可选的，每个所述卷积模块之后设置一个所述注意力机制模块。

可选的，采用第一卷积神经网络对待识别图像进行特征提取之前还包括：

将待识别图像缩放为预定尺寸的正方形图像。

可选的，N等于4，所述N种角度分别为0度、90度、180度和270度。

可选的，所述第二卷积神经网络包括多个卷积层和多个池化层。

可选的，采用第二卷积神经网络分别对所述N个方向的特征图进行特征提取，得到N个方向的特征向量之后还包括：

采用长短期记忆网络对所述N个方向的特征向量进行处理，得到处理后的N个方向的特征向量。

可选的，所述第三卷积神经网络包括：M个卷积层、M个池化层和全连接层，其中，M为大于或等于1的正整数。

可选的，对所述特征融合后的特征向量进行解码包括：

采用长短期记忆网络和注意力模块对所述特征融合后的一维特征向量进行处理，得到处理后的一维特征向量；

使用Softmax层对所述处理后的特征向量进行计算，以得到文字识别结果。

第二方面，本发明实施例提供了一种文本识别系统，包括：

第一处理单元，用于采用第一卷积神经网络对待识别图像进行特征提取，得到所述待识别图像的第一特征图；

第二处理单元，用于将所述第一特征图分别进行N种角度的旋转，得到N个方向的特征图；采用第二卷积神经网络分别对所述N个方向的特征图进行特征提取，得到N个方向的特征向量；采用第三卷积神经网络对所述第一特征图进行处理，得到所述N个方向的特征向量各自的权重；其中，N为大于或等于2的正整数；

第三处理单元，用于根据所述N个方向的特征向量各自的权重，对所述N个方向的特征向量进行特征融合，得到特征融合后的特征向量，对所述特征融合后的特征向量进行解码，以得到文字识别结果。

可选的，所述卷积模块为第一卷积模块或第二卷积模块，所述第一卷积模块包括：卷积层；所述第二卷积模块包括：第一卷积层、基于空洞卷积的深度可分离卷积层和第二卷积层。

可选的，所述第一卷积神经网络包括至少两个第一卷积模块和至少一个第二卷积模块，其中，所述第一卷积神经网络的第一个和最后一个卷积模块均为所述第一卷积模块。

可选的，所述卷积模块的个数小于5。

可选的，所述文本识别系统还包括：

缩放单元，用于将待识别图像缩放为预定尺寸的正方形图像。

可选的，

所述第二处理单元，用于在采用第二卷积神经网络分别对所述N个方向的特征图进行特征提取，得到N个方向的特征向量之后，采用长短期记忆网络对所述N个方向的特征向量进行处理，得到处理后的N个方向的特征向量。

可选的，所述第三处理单元，用于采用长短期记忆网络和注意力模块对所述特征融合后的特征向量进行处理，得到处理后的特征向量；使用Softmax层对所述处理后的特征向量进行计算，以得到文字识别结果。

第三方面，本发明实施例提供了一种电子设备，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现上述第一方面的文本识别方法的步骤。

第四方面，本发明实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现上述第一方面的文本识别方法的步骤。

本发明实施例中，采用方向卷积神经网络可以提取N个方向的特征图的文本特征和位置特征，通过特征融合和解码，完成文字的识别，提高了对图像中文本发生各种形变问题的识别准确率，无论输入的待识别图像是否发生形变，均能够准确识别待识别图像中的文字，不需要在进行文本识别之前对检测到的文本进行拉伸、旋转等处理。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例的文本识别方法的流程示意图；

图2为本发明一实施例的文本识别系统的结构示意图；

图3为本发明一实施例的第一卷积模块的结构示意图；

图4为本发明一实施例的第二卷积模块的结构示意图；

图5为本发明一实施例的注意力机制模块的结构示意图；

图6为本发明另一实施例的文本识别系统的结构示意图；

图7为本发明实施例的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，本发明实施例提供一种文本识别方法，包括：

步骤11：采用第一卷积神经网络对待识别图像进行特征提取，得到所述待识别图像的第一特征图；

步骤12：将所述第一特征图分别进行N种角度的旋转，得到N个方向的特征图；采用第二卷积神经网络分别对所述N个方向的特征图进行特征提取，得到N个方向的特征向量；采用第三卷积神经网络对所述第一特征图进行处理，得到N个方向的特征向量各自的权重；其中，N为大于或等于2的正整数；

所述第二卷积神经网络也可以称为方向卷积神经网络，用于对输入的特征图提取特征向量。

步骤13：根据所述N个方向的特征向量各自的权重，对所述N个方向的特征向量进行特征融合，得到特征融合后的特征向量，对所述特征融合后的特征向量进行解码，以得到文字识别结果。

本发明实施例中，特征融合后的特征向量可以为一维特征向量。

本发明实施例中，第二卷积神经网络输出N个方向的特征向量，第三卷积神经网络输出N个权重，该N个方向的特征向量与该N个权重一一对应，在进行特征融合之前，需要将该N个方向的特征向量与该N个权重一一匹配。

本发明实施例中，可选的，在进行上述步骤11之前，还包括：

步骤10：将待识别图像缩放为统一的预定尺寸的图像。

下面分别对上述三个步骤进行详细说明。

步骤11：

本发明实施例中，可选的，所述第一卷积神经网络为基于注意力机制的卷积神经网络。采用注意力机制的卷积神经网络能够改善传统卷积神经网络由于卷积核的限制只关注图像中的局部图像信息，而忽略了全局图像信息对当前位置的影响的问题，能够增强特征提取过程中全局图像信息的作用，提高对相似字符的判断能力，从而提高识别准确率，减少计算量，加快运算效率。

本发明实施例中，基于注意力机制的卷积神经网络包括：包括多个卷积模块和多个注意力机制模块(Convolutional Block Attention Module，CBAM)。可选的，每个所述卷积模块之后设置一个所述注意力机制模块。

可选的，所述卷积模块的个数小于5，从而使得基于注意力机制的卷积神经网络提取的待识别图像的特征为低级视觉特征，低级视觉特征例如包括以下至少一项：颜色、纹理、位置、尺寸等。

可选的，所述卷积模块为第一卷积模块(Convolution)或第二卷积模块(Conv block)，所述第一卷积模块包括卷积层，所述第二卷积模块包括：第一卷积层、基于空洞卷积的深度可分离卷积层和第二卷积层。第二卷积模块能够执行更加复杂的处理，使用第二卷积模块进行卷积处理，可以适用于自然场景采集到的图像的文字识别。

可选的，所述第一卷积神经网络包括至少两个第一卷积模块和至少一个第二卷积模块，其中，所述第一卷积神经网络的第一个和/或最后一个卷积模块均为所述第一卷积模块。

请参考图2，图2为本发明一实施例的文本识别系统的结构示意图，该实施例中，基于注意力机制的卷积申请网络包括级联的：卷积层_1，注意力机制模块，卷积块_2，注意力机制模块，最大池化层(Maxpooling)，卷积块_3，注意力机制模块，最大池化层，卷积层_4，注意力机制模块。即包括4个卷积模块(第一卷积模块+第二卷积模块)，从而可以提取待识别图像的低级视觉特征，每一个卷积模块(第一卷积模块+第二卷积模块)之后均设置一个注意力机制模块，以提取待识别图像的全局图像信息。

其中，参考图3，本发明实施例中，第一卷积模块包括级联的：卷积层和Batch Normal(批标准化)+Relu(线性整流函数)。

其中，参考图4，本发明实施例中，第二卷积模块包括级联的：卷积层，Batch Normal+Relu，SeparableConv(深度可分离卷积)+DilationConv(空洞卷积)，Batch Normal+Relu，卷积层，Batch Normal+Relu。

其中，参考图5，本发明实施例中，注意力机制模块包括：通道注意力(Channel Attention)模块和空间注意力(Spatial Attention)模块，其中，注意力机制模块对输入特征的处理过程如下：输入特征首先经过通道注意力模块进行处理，得到处理后的第一特征，然后将第一特征与输入特征进行叉乘处理(Cross product)，得到处理后的第二特征，将第二特征输入至空间注意力模块进行处理，得到处理后的第三特征，将第三特征与第二特征进行叉乘处理，得到输出特征。

步骤12：

请参考图2，本发明实施例中，可选的，N等于4，所述N种角度分别为0度、90度、180度和270度。也就是说，将输入的第一特征图分别旋转0度、90度、180度和270度，得到4个方向的特征图。

本发明实施例中，可选的，采用第一卷积神经网络对待识别图像进行特征提取之前还包括：将待识别图像缩放为预定尺寸的正方形图像。采用正方形图像输入，使得第一特征图在进行0度、90度、180度和270度的旋转时，不需要进行像素的填充。本发明实例中，将待识别图像缩放为预定尺寸的正方形图像的方式可以是拉伸待识别图像，或者，填充边缘像素等方式。

本发明实施例中，可选的，所述第二卷积神经网络包括多个卷积层和多个池化层(pooling)，可选的，所述卷积层和所述池化层交替设置。请参考图2，图2所示的实施例中，方向卷积神经网络(第二卷积神经网络)包括四个卷积层和四个最大池化层。

本发明实施例中，可选的，在采用第二卷积神经网络分别对所述N个方向的特征图进行特征提取，得到N个方向的特征向量之后，还包括：采用N个长短期记忆网络(Long Short-Term Memory，LSTM)分别对N个方向的特征向量进行处理，得到处理后的N个方向的特征向量。进一步可选的，长短期记忆网络可以是双向长短期记忆网络(Bi-directional Long Short-Term Memory，BiLSTM)。

本发明实施例中，采用第二卷积神经网络分别对N个方向的特征图进行特征提取的同时，还采用第三卷积神经网络对输入的第一特征图进行处理，得到N个方向的特征向量各自的权重，从而根据这些权重筛选方向特征，实现对文本方向的判断。

可选的，所述第三卷积神经网络包括：M个卷积层、M个池化层和全连接层(fully connect)，可选的，所述M个卷积层和所述M个池化层交替设置，所述全连接层位于尾端，其中，M为大于或等于1的正整数。

请参考图2，图2所示的实施例中，第三卷积神经网络包括：两个卷积层、两个最大池化层和两个全连接层，两个卷积层和两个最大池化层交替设置，两个全连接层位于尾端。

步骤13：

本发明实施例中，可选的，特征融合的方法可以为：可以将所述N个特征向量和各自的权重相乘，得到N个乘积，然后将N个乘积相加，得到特征融合后的特征向量。

当然，也可以采用其他特征融合方法，例如，将所述N个特征向量和各自的权重相乘，得到N个乘积，然后将N个乘积输入指卷积模块中进行卷积处理，得到特征融合后的特征向量。

本发明实施例中，可选的，对所述特征融合后的特征向量进行解码包括：

步骤131：采用长短期记忆网络和注意力模块对所述特征融合后的特征向量进行处理，得到处理后的特征向量；

可选的，长短期记忆网络可以为双向长短期记忆网络。

可选的，所述注意力模块可以是上述注意力机制模块。

该步骤是对特征融合后的特征向量进行进一步的特征提取，从而优化文字识别结果。

步骤132：使用Softmax层对所述处理后的特征向量进行计算，以得到文字识别结果。

请参考图6，本发明实施例还提供一种文本识别系统60，包括：

第一处理单元61，用于采用第一卷积神经网络对待识别图像进行特征提取，得到所述待识别图像的第一特征图；

第二处理单元62，用于将所述第一特征图分别进行N种角度的旋转，得到N个方向的特征图；采用第二卷积神经网络分别对所述N个方向的特征图进行特征提取，得到N个方向的特征向量；采用第三卷积神经网络对所述第一特征图进行处理，得到N个方向的特征向量各自的权重；其中，N为大于或等于2的正整数；

第三处理单元63，用于根据所述N个方向的特征向量各自的权重，对所述N个方向的特征向量进行特征融合，得到特征融合后的特征向量，对所述特征融合后的特征向量进行解码，以得到文字识别结果。

可选的，所述卷积模块的个数小于5。

可选的，所述文本识别系统还包括：

可选的，所述卷积层和所述池化层交替设置。

可选的，所述第二处理单元，用于在采用第二卷积神经网络分别对所述 N个方向的特征图进行特征提取，得到N个方向的特征向量之后，采用长短期记忆网络对所述N个方向的特征向量进行处理，得到处理后的N个方向的特征向量。

可选的所述M个卷积层和所述M个池化层交替设置，所述全连接层位于尾端。

可选的，所述第三处理单元，用于采用长短期记忆网络和注意力模块对所述特征融合后的特征向量进行处理，得到处理后的特征向量；使用Softmax层对所述处理后的特征向量进行计算，以得到文字识别结果。请参考图7，本发明实施例还提供一种电子设备70，包括处理器71，存储器72，存储在存储器72上并可在所述处理器71上运行的计算机程序，该计算机程序被处理器71执行时实现上述文本识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述文本识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

一种文本识别方法，其特征在于，包括：

采用第一卷积神经网络对待识别图像进行特征提取，得到所述待识别图像的第一特征图；

将所述第一特征图分别进行N种角度的旋转，得到N个方向的特征图；采用第二卷积神经网络分别对所述N个方向的特征图进行特征提取，得到N个方向的特征向量；采用第三卷积神经网络对所述第一特征图进行处理，得到N个方向的特征向量各自的权重；其中，N为大于或等于2的正整数；

根据所述N个方向的特征向量各自的权重，对所述N个方向的特征向量进行特征融合，得到特征融合后的特征向量，对所述特征融合后的特征向量进行解码，以得到文字识别结果。
如权利要求1所述的文本识别方法，其特征在于，所述第一卷积神经网络为基于注意力机制的卷积神经网络，包括多个卷积模块和多个注意力机制模块。
如权利要求2所述的文本识别方法，其特征在于，所述卷积模块为第一卷积模块或第二卷积模块，所述第一卷积神经网络包括至少两个第一卷积模块和至少一个第二卷积模块，其中，所述第一卷积神经网络的第一个和最后一个卷积模块均为所述第一卷积模块。
如权利要求3所述的文本识别方法，所述第二卷积模块包括：第一卷积层、基于空洞卷积的深度可分离卷积层和第二卷积层。
如权利要求2所述的文本识别方法，其特征在于，所述卷积模块的个数小于5。
如权利要求2-5任一项所述的文本识别方法，其特征在于，每个所述卷积模块之后设置一个所述注意力机制模块。
如权利要求1所述的文本识别方法，其特征在于，采用第一卷积神经网络对待识别图像进行特征提取之前还包括：

将待识别图像缩放为预定尺寸的正方形图像。
如权利要求1所述的文本识别方法，其特征在于，N等于4，所述N 种角度分别为0度、90度、180度和270度。
如权利要求1所述的文本识别方法，其特征在于，所述第二卷积神经网络包括多个卷积层和多个池化层。
如权利要求1所述的文本识别方法，其特征在于，采用第二卷积神经网络分别对所述N个方向的特征图进行特征提取，得到N个方向的特征向量之后还包括：

采用长短期记忆网络对所述N个方向的特征向量进行处理，得到处理后的N个方向的特征向量。
如权利要求1所述的文本识别方法，其特征在于，所述第三卷积神经网络包括：M个卷积层、M个池化层和全连接层，其中，M为大于或等于1的正整数。
如权利要求1所述的文本识别方法，其特征在于，对所述特征融合后的一维特征向量进行解码包括：

采用长短期记忆网络和注意力模块对所述特征融合后的特征向量进行处理，得到处理后的特征向量；

使用Softmax层对所述处理后的特征向量进行计算，以得到文字识别结果。
一种文本识别系统，其特征在于，包括：

第一处理单元，用于采用第一卷积神经网络对待识别图像进行特征提取，得到所述待识别图像的第一特征图；

第二处理单元，用于将所述第一特征图分别进行N种角度的旋转，得到N个方向的特征图；采用第二卷积神经网络分别对所述N个方向的特征图进行特征提取，得到N个方向的特征向量；采用第三卷积神经网络对所述第一特征图进行处理，得到所述N个方向的特征向量各自的权重；其中，N为大于或等于2的正整数；

第三处理单元，用于根据所述N个方向的特征向量各自的权重，对所述N个方向的特征向量进行特征融合，得到特征融合后的特征向量，对所述特征融合后的特征向量进行解码，以得到文字识别结果。
一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至12任一项所述的文本识别方法的步骤。
一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至12任一项所述的文本识别方法的步骤。