WO2022068426A1 - 文本识别方法和文本识别系统 - Google Patents
文本识别方法和文本识别系统 Download PDFInfo
- Publication number
- WO2022068426A1 WO2022068426A1 PCT/CN2021/112654 CN2021112654W WO2022068426A1 WO 2022068426 A1 WO2022068426 A1 WO 2022068426A1 CN 2021112654 W CN2021112654 W CN 2021112654W WO 2022068426 A1 WO2022068426 A1 WO 2022068426A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- feature
- directions
- neural network
- convolutional neural
- text recognition
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 239000013598 vector Substances 0.000 claims abstract description 87
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 75
- 230000004927 fusion Effects 0.000 claims abstract description 41
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 238000011176 pooling Methods 0.000 claims description 20
- 230000006403 short-term memory Effects 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005452 bending Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/12—Detection or correction of errors, e.g. by rescanning the pattern
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供一种文本识别方法和文本识别系统。该方法包括:采用第一卷积神经网络对待识别图像进行特征提取,得到待识别图像的第一特征图;将第一特征图分别进行N种角度的旋转,得到N个方向的特征图;采用第二卷积神经网络分别对N个方向的特征图进行特征提取,得到N个方向的特征向量;采用第三卷积神经网络对所述第一特征图进行处理,得到N个方向的特征向量各自的权重;根据N个方向的特征向量各自的权重,对N个方向的特征向量进行特征融合,得到特征融合后的特征向量,对所述特征融合后的特征向量进行解码,以得到文字识别结果。本发明能够提高发生形变的文本图像的文字识别的准确性。
Description
相关申请的交叉引用
本申请主张在2020年9月30日在中国提交的中国专利申请号No.202011061835.X的优先权,其全部内容通过引用包含于此。
本发明实施例涉及图像处理技术领域,尤其涉及一种文本识别方法和文本识别系统。
目前OCR(Optical Character Recognition,光学字符识别)领域中,各种文本识别技术不断涌现,性能良好的文本识别技术大多都是基于深度学习算法。大多数文本识别算法,它对未发生形变的文本图像的识别效果较好。然而在自然场景下,由于相机拍摄角度或者文字载体非刚性等原因,采集到的图像中文本经常会发生倾斜、透视、弯曲等形变情况,容易使文本识别算法失效。
发明内容
本发明实施例提供一种一种文本识别方法和文本识别系统,用于解决文本图像发生形变时,文字识别效果差的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种文本识别方法,包括:
采用第一卷积神经网络对待识别图像进行特征提取,得到所述待识别图像的第一特征图;
将所述第一特征图分别进行N种角度的旋转,得到N个方向的特征图;采用第二卷积神经网络分别对所述N个方向的特征图进行特征提取,得到N个方向的特征向量;采用第三卷积神经网络对所述第一特征图进行处理,得到N个方向的特征向量各自的权重;其中,N为大于或等于2的正整数;
根据所述N个方向的特征向量各自的权重,对所述N个方向的特征向量进行特征融合,得到特征融合后的一维特征向量,对所述特征融合后的一维特征向量进行解码,以得到文字识别结果。
可选的,所述第一卷积神经网络为基于注意力机制的卷积神经网络,包括多个卷积模块和多个注意力机制模块。
可选的,所述卷积模块为第一卷积模块或第二卷积模块,所述第一卷积神经网络包括至少两个第一卷积模块和至少一个第二卷积模块,其中,所述第一卷积神经网络的第一个和最后一个卷积模块均为所述第一卷积模块。
可选的,所述第二卷积模块包括:第一卷积层、基于空洞卷积的深度可分离卷积层和第二卷积层。
可选的,所述卷积模块的个数小于5。
可选的,每个所述卷积模块之后设置一个所述注意力机制模块。
可选的,采用第一卷积神经网络对待识别图像进行特征提取之前还包括:
将待识别图像缩放为预定尺寸的正方形图像。
可选的,N等于4,所述N种角度分别为0度、90度、180度和270度。
可选的,所述第二卷积神经网络包括多个卷积层和多个池化层。
可选的,采用第二卷积神经网络分别对所述N个方向的特征图进行特征提取,得到N个方向的特征向量之后还包括:
采用长短期记忆网络对所述N个方向的特征向量进行处理,得到处理后的N个方向的特征向量。
可选的,所述第三卷积神经网络包括:M个卷积层、M个池化层和全连接层,其中,M为大于或等于1的正整数。
可选的,对所述特征融合后的特征向量进行解码包括:
采用长短期记忆网络和注意力模块对所述特征融合后的一维特征向量进行处理,得到处理后的一维特征向量;
使用Softmax层对所述处理后的特征向量进行计算,以得到文字识别结果。
第二方面,本发明实施例提供了一种文本识别系统,包括:
第一处理单元,用于采用第一卷积神经网络对待识别图像进行特征提取, 得到所述待识别图像的第一特征图;
第二处理单元,用于将所述第一特征图分别进行N种角度的旋转,得到N个方向的特征图;采用第二卷积神经网络分别对所述N个方向的特征图进行特征提取,得到N个方向的特征向量;采用第三卷积神经网络对所述第一特征图进行处理,得到所述N个方向的特征向量各自的权重;其中,N为大于或等于2的正整数;
第三处理单元,用于根据所述N个方向的特征向量各自的权重,对所述N个方向的特征向量进行特征融合,得到特征融合后的特征向量,对所述特征融合后的特征向量进行解码,以得到文字识别结果。
可选的,所述第一卷积神经网络为基于注意力机制的卷积神经网络,包括多个卷积模块和多个注意力机制模块。
可选的,所述卷积模块为第一卷积模块或第二卷积模块,所述第一卷积模块包括:卷积层;所述第二卷积模块包括:第一卷积层、基于空洞卷积的深度可分离卷积层和第二卷积层。
可选的,所述第一卷积神经网络包括至少两个第一卷积模块和至少一个第二卷积模块,其中,所述第一卷积神经网络的第一个和最后一个卷积模块均为所述第一卷积模块。
可选的,所述卷积模块的个数小于5。
可选的,每个所述卷积模块之后设置一个所述注意力机制模块。
可选的,所述文本识别系统还包括:
缩放单元,用于将待识别图像缩放为预定尺寸的正方形图像。
可选的,N等于4,所述N种角度分别为0度、90度、180度和270度。
可选的,所述第二卷积神经网络包括多个卷积层和多个池化层。
可选的,
所述第二处理单元,用于在采用第二卷积神经网络分别对所述N个方向的特征图进行特征提取,得到N个方向的特征向量之后,采用长短期记忆网络对所述N个方向的特征向量进行处理,得到处理后的N个方向的特征向量。
可选的,所述第三卷积神经网络包括:M个卷积层、M个池化层和全连接层,其中,M为大于或等于1的正整数。
可选的,所述第三处理单元,用于采用长短期记忆网络和注意力模块对所述特征融合后的特征向量进行处理,得到处理后的特征向量;使用Softmax层对所述处理后的特征向量进行计算,以得到文字识别结果。
第三方面,本发明实施例提供了一种电子设备,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现上述第一方面的文本识别方法的步骤。
第四方面,本发明实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现上述第一方面的文本识别方法的步骤。
本发明实施例中,采用方向卷积神经网络可以提取N个方向的特征图的文本特征和位置特征,通过特征融合和解码,完成文字的识别,提高了对图像中文本发生各种形变问题的识别准确率,无论输入的待识别图像是否发生形变,均能够准确识别待识别图像中的文字,不需要在进行文本识别之前对检测到的文本进行拉伸、旋转等处理。
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例的文本识别方法的流程示意图;
图2为本发明一实施例的文本识别系统的结构示意图;
图3为本发明一实施例的第一卷积模块的结构示意图;
图4为本发明一实施例的第二卷积模块的结构示意图;
图5为本发明一实施例的注意力机制模块的结构示意图;
图6为本发明另一实施例的文本识别系统的结构示意图;
图7为本发明实施例的电子设备的结构示意图。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,本发明实施例提供一种文本识别方法,包括:
步骤11:采用第一卷积神经网络对待识别图像进行特征提取,得到所述待识别图像的第一特征图;
步骤12:将所述第一特征图分别进行N种角度的旋转,得到N个方向的特征图;采用第二卷积神经网络分别对所述N个方向的特征图进行特征提取,得到N个方向的特征向量;采用第三卷积神经网络对所述第一特征图进行处理,得到N个方向的特征向量各自的权重;其中,N为大于或等于2的正整数;
所述第二卷积神经网络也可以称为方向卷积神经网络,用于对输入的特征图提取特征向量。
步骤13:根据所述N个方向的特征向量各自的权重,对所述N个方向的特征向量进行特征融合,得到特征融合后的特征向量,对所述特征融合后的特征向量进行解码,以得到文字识别结果。
本发明实施例中,特征融合后的特征向量可以为一维特征向量。
本发明实施例中,第二卷积神经网络输出N个方向的特征向量,第三卷积神经网络输出N个权重,该N个方向的特征向量与该N个权重一一对应,在进行特征融合之前,需要将该N个方向的特征向量与该N个权重一一匹配。
本发明实施例中,采用方向卷积神经网络可以提取N个方向的特征图的文本特征和位置特征,通过特征融合和解码,完成文字的识别,提高了对图像中文本发生各种形变问题的识别准确率,无论输入的待识别图像是否发生形变,均能够准确识别待识别图像中的文字,不需要在进行文本识别之前对检测到的文本进行拉伸、旋转等处理。
本发明实施例中,可选的,在进行上述步骤11之前,还包括:
步骤10:将待识别图像缩放为统一的预定尺寸的图像。
下面分别对上述三个步骤进行详细说明。
步骤11:
本发明实施例中,可选的,所述第一卷积神经网络为基于注意力机制的卷积神经网络。采用注意力机制的卷积神经网络能够改善传统卷积神经网络由于卷积核的限制只关注图像中的局部图像信息,而忽略了全局图像信息对当前位置的影响的问题,能够增强特征提取过程中全局图像信息的作用,提高对相似字符的判断能力,从而提高识别准确率,减少计算量,加快运算效率。
本发明实施例中,基于注意力机制的卷积神经网络包括:包括多个卷积模块和多个注意力机制模块(Convolutional Block Attention Module,CBAM)。可选的,每个所述卷积模块之后设置一个所述注意力机制模块。
可选的,所述卷积模块的个数小于5,从而使得基于注意力机制的卷积神经网络提取的待识别图像的特征为低级视觉特征,低级视觉特征例如包括以下至少一项:颜色、纹理、位置、尺寸等。
可选的,所述卷积模块为第一卷积模块(Convolution)或第二卷积模块(Conv block),所述第一卷积模块包括卷积层,所述第二卷积模块包括:第一卷积层、基于空洞卷积的深度可分离卷积层和第二卷积层。第二卷积模块能够执行更加复杂的处理,使用第二卷积模块进行卷积处理,可以适用于自然场景采集到的图像的文字识别。
可选的,所述第一卷积神经网络包括至少两个第一卷积模块和至少一个第二卷积模块,其中,所述第一卷积神经网络的第一个和/或最后一个卷积模块均为所述第一卷积模块。
请参考图2,图2为本发明一实施例的文本识别系统的结构示意图,该实施例中,基于注意力机制的卷积申请网络包括级联的:卷积层_1,注意力机制模块,卷积块_2,注意力机制模块,最大池化层(Maxpooling),卷积块_3,注意力机制模块,最大池化层,卷积层_4,注意力机制模块。即包括4个卷积模块(第一卷积模块+第二卷积模块),从而可以提取待识别图像的低级视觉特征,每一个卷积模块(第一卷积模块+第二卷积模块)之后均设置一个注意力机制模块,以提取待识别图像的全局图像信息。
其中,参考图3,本发明实施例中,第一卷积模块包括级联的:卷积层 和Batch Normal(批标准化)+Relu(线性整流函数)。
其中,参考图4,本发明实施例中,第二卷积模块包括级联的:卷积层,Batch Normal+Relu,SeparableConv(深度可分离卷积)+DilationConv(空洞卷积),Batch Normal+Relu,卷积层,Batch Normal+Relu。
其中,参考图5,本发明实施例中,注意力机制模块包括:通道注意力(Channel Attention)模块和空间注意力(Spatial Attention)模块,其中,注意力机制模块对输入特征的处理过程如下:输入特征首先经过通道注意力模块进行处理,得到处理后的第一特征,然后将第一特征与输入特征进行叉乘处理(Cross product),得到处理后的第二特征,将第二特征输入至空间注意力模块进行处理,得到处理后的第三特征,将第三特征与第二特征进行叉乘处理,得到输出特征。
步骤12:
请参考图2,本发明实施例中,可选的,N等于4,所述N种角度分别为0度、90度、180度和270度。也就是说,将输入的第一特征图分别旋转0度、90度、180度和270度,得到4个方向的特征图。
本发明实施例中,可选的,采用第一卷积神经网络对待识别图像进行特征提取之前还包括:将待识别图像缩放为预定尺寸的正方形图像。采用正方形图像输入,使得第一特征图在进行0度、90度、180度和270度的旋转时,不需要进行像素的填充。本发明实例中,将待识别图像缩放为预定尺寸的正方形图像的方式可以是拉伸待识别图像,或者,填充边缘像素等方式。
本发明实施例中,可选的,所述第二卷积神经网络包括多个卷积层和多个池化层(pooling),可选的,所述卷积层和所述池化层交替设置。请参考图2,图2所示的实施例中,方向卷积神经网络(第二卷积神经网络)包括四个卷积层和四个最大池化层。
本发明实施例中,可选的,在采用第二卷积神经网络分别对所述N个方向的特征图进行特征提取,得到N个方向的特征向量之后,还包括:采用N个长短期记忆网络(Long Short-Term Memory,LSTM)分别对N个方向的特征向量进行处理,得到处理后的N个方向的特征向量。进一步可选的,长短期记忆网络可以是双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)。
本发明实施例中,采用第二卷积神经网络分别对N个方向的特征图进行特征提取的同时,还采用第三卷积神经网络对输入的第一特征图进行处理,得到N个方向的特征向量各自的权重,从而根据这些权重筛选方向特征,实现对文本方向的判断。
可选的,所述第三卷积神经网络包括:M个卷积层、M个池化层和全连接层(fully connect),可选的,所述M个卷积层和所述M个池化层交替设置,所述全连接层位于尾端,其中,M为大于或等于1的正整数。
请参考图2,图2所示的实施例中,第三卷积神经网络包括:两个卷积层、两个最大池化层和两个全连接层,两个卷积层和两个最大池化层交替设置,两个全连接层位于尾端。
步骤13:
本发明实施例中,可选的,特征融合的方法可以为:可以将所述N个特征向量和各自的权重相乘,得到N个乘积,然后将N个乘积相加,得到特征融合后的特征向量。
当然,也可以采用其他特征融合方法,例如,将所述N个特征向量和各自的权重相乘,得到N个乘积,然后将N个乘积输入指卷积模块中进行卷积处理,得到特征融合后的特征向量。
本发明实施例中,可选的,对所述特征融合后的特征向量进行解码包括:
步骤131:采用长短期记忆网络和注意力模块对所述特征融合后的特征向量进行处理,得到处理后的特征向量;
可选的,长短期记忆网络可以为双向长短期记忆网络。
可选的,所述注意力模块可以是上述注意力机制模块。
该步骤是对特征融合后的特征向量进行进一步的特征提取,从而优化文字识别结果。
步骤132:使用Softmax层对所述处理后的特征向量进行计算,以得到文字识别结果。
请参考图6,本发明实施例还提供一种文本识别系统60,包括:
第一处理单元61,用于采用第一卷积神经网络对待识别图像进行特征提 取,得到所述待识别图像的第一特征图;
第二处理单元62,用于将所述第一特征图分别进行N种角度的旋转,得到N个方向的特征图;采用第二卷积神经网络分别对所述N个方向的特征图进行特征提取,得到N个方向的特征向量;采用第三卷积神经网络对所述第一特征图进行处理,得到N个方向的特征向量各自的权重;其中,N为大于或等于2的正整数;
第三处理单元63,用于根据所述N个方向的特征向量各自的权重,对所述N个方向的特征向量进行特征融合,得到特征融合后的特征向量,对所述特征融合后的特征向量进行解码,以得到文字识别结果。
本发明实施例中,采用方向卷积神经网络可以提取N个方向的特征图的文本特征和位置特征,通过特征融合和解码,完成文字的识别,提高了对图像中文本发生各种形变问题的识别准确率,无论输入的待识别图像是否发生形变,均能够准确识别待识别图像中的文字,不需要在进行文本识别之前对检测到的文本进行拉伸、旋转等处理。
可选的,所述第一卷积神经网络为基于注意力机制的卷积神经网络,包括多个卷积模块和多个注意力机制模块。
可选的,所述卷积模块为第一卷积模块或第二卷积模块,所述第一卷积模块包括:卷积层;所述第二卷积模块包括:第一卷积层、基于空洞卷积的深度可分离卷积层和第二卷积层。
可选的,所述第一卷积神经网络包括至少两个第一卷积模块和至少一个第二卷积模块,其中,所述第一卷积神经网络的第一个和最后一个卷积模块均为所述第一卷积模块。
可选的,所述卷积模块的个数小于5。
可选的,所述文本识别系统还包括:
缩放单元,用于将待识别图像缩放为预定尺寸的正方形图像。
可选的,N等于4,所述N种角度分别为0度、90度、180度和270度。
可选的,所述第二卷积神经网络包括多个卷积层和多个池化层。
可选的,所述卷积层和所述池化层交替设置。
可选的,所述第二处理单元,用于在采用第二卷积神经网络分别对所述 N个方向的特征图进行特征提取,得到N个方向的特征向量之后,采用长短期记忆网络对所述N个方向的特征向量进行处理,得到处理后的N个方向的特征向量。
可选的,所述第三卷积神经网络包括:M个卷积层、M个池化层和全连接层,其中,M为大于或等于1的正整数。
可选的所述M个卷积层和所述M个池化层交替设置,所述全连接层位于尾端。
可选的,所述第三处理单元,用于采用长短期记忆网络和注意力模块对所述特征融合后的特征向量进行处理,得到处理后的特征向量;使用Softmax层对所述处理后的特征向量进行计算,以得到文字识别结果。请参考图7,本发明实施例还提供一种电子设备70,包括处理器71,存储器72,存储在存储器72上并可在所述处理器71上运行的计算机程序,该计算机程序被处理器71执行时实现上述文本识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述文本识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (15)
- 一种文本识别方法,其特征在于,包括:采用第一卷积神经网络对待识别图像进行特征提取,得到所述待识别图像的第一特征图;将所述第一特征图分别进行N种角度的旋转,得到N个方向的特征图;采用第二卷积神经网络分别对所述N个方向的特征图进行特征提取,得到N个方向的特征向量;采用第三卷积神经网络对所述第一特征图进行处理,得到N个方向的特征向量各自的权重;其中,N为大于或等于2的正整数;根据所述N个方向的特征向量各自的权重,对所述N个方向的特征向量进行特征融合,得到特征融合后的特征向量,对所述特征融合后的特征向量进行解码,以得到文字识别结果。
- 如权利要求1所述的文本识别方法,其特征在于,所述第一卷积神经网络为基于注意力机制的卷积神经网络,包括多个卷积模块和多个注意力机制模块。
- 如权利要求2所述的文本识别方法,其特征在于,所述卷积模块为第一卷积模块或第二卷积模块,所述第一卷积神经网络包括至少两个第一卷积模块和至少一个第二卷积模块,其中,所述第一卷积神经网络的第一个和最后一个卷积模块均为所述第一卷积模块。
- 如权利要求3所述的文本识别方法,所述第二卷积模块包括:第一卷积层、基于空洞卷积的深度可分离卷积层和第二卷积层。
- 如权利要求2所述的文本识别方法,其特征在于,所述卷积模块的个数小于5。
- 如权利要求2-5任一项所述的文本识别方法,其特征在于,每个所述卷积模块之后设置一个所述注意力机制模块。
- 如权利要求1所述的文本识别方法,其特征在于,采用第一卷积神经网络对待识别图像进行特征提取之前还包括:将待识别图像缩放为预定尺寸的正方形图像。
- 如权利要求1所述的文本识别方法,其特征在于,N等于4,所述N 种角度分别为0度、90度、180度和270度。
- 如权利要求1所述的文本识别方法,其特征在于,所述第二卷积神经网络包括多个卷积层和多个池化层。
- 如权利要求1所述的文本识别方法,其特征在于,采用第二卷积神经网络分别对所述N个方向的特征图进行特征提取,得到N个方向的特征向量之后还包括:采用长短期记忆网络对所述N个方向的特征向量进行处理,得到处理后的N个方向的特征向量。
- 如权利要求1所述的文本识别方法,其特征在于,所述第三卷积神经网络包括:M个卷积层、M个池化层和全连接层,其中,M为大于或等于1的正整数。
- 如权利要求1所述的文本识别方法,其特征在于,对所述特征融合后的一维特征向量进行解码包括:采用长短期记忆网络和注意力模块对所述特征融合后的特征向量进行处理,得到处理后的特征向量;使用Softmax层对所述处理后的特征向量进行计算,以得到文字识别结果。
- 一种文本识别系统,其特征在于,包括:第一处理单元,用于采用第一卷积神经网络对待识别图像进行特征提取,得到所述待识别图像的第一特征图;第二处理单元,用于将所述第一特征图分别进行N种角度的旋转,得到N个方向的特征图;采用第二卷积神经网络分别对所述N个方向的特征图进行特征提取,得到N个方向的特征向量;采用第三卷积神经网络对所述第一特征图进行处理,得到所述N个方向的特征向量各自的权重;其中,N为大于或等于2的正整数;第三处理单元,用于根据所述N个方向的特征向量各自的权重,对所述N个方向的特征向量进行特征融合,得到特征融合后的特征向量,对所述特征融合后的特征向量进行解码,以得到文字识别结果。
- 一种电子设备,其特征在于,包括处理器,存储器及存储在所述存 储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至12任一项所述的文本识别方法的步骤。
- 一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至12任一项所述的文本识别方法的步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011061835.XA CN114359679A (zh) | 2020-09-30 | 2020-09-30 | 文本识别方法和文本识别系统 |
CN202011061835.X | 2020-09-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022068426A1 true WO2022068426A1 (zh) | 2022-04-07 |
Family
ID=80951108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2021/112654 WO2022068426A1 (zh) | 2020-09-30 | 2021-08-16 | 文本识别方法和文本识别系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114359679A (zh) |
WO (1) | WO2022068426A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114863437A (zh) * | 2022-04-21 | 2022-08-05 | 北京百度网讯科技有限公司 | 文本识别方法、装置、电子设备和存储介质 |
CN116503517A (zh) * | 2023-06-27 | 2023-07-28 | 江西农业大学 | 长文本生成图像的方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399419A (zh) * | 2018-01-25 | 2018-08-14 | 华南理工大学 | 基于二维递归网络的自然场景图像中中文文本识别方法 |
JP2020047213A (ja) * | 2018-09-21 | 2020-03-26 | 富士ゼロックス株式会社 | 文字列認識装置及び文字列認識プログラム |
CN111191649A (zh) * | 2019-12-31 | 2020-05-22 | 上海眼控科技股份有限公司 | 一种识别弯曲多行文本图像的方法与设备 |
CN111310751A (zh) * | 2018-12-12 | 2020-06-19 | 北京嘀嘀无限科技发展有限公司 | 车牌识别方法、装置、电子设备和存储介质 |
CN111340034A (zh) * | 2020-03-23 | 2020-06-26 | 深圳智能思创科技有限公司 | 一种针对自然场景的文本检测与识别方法及系统 |
CN111507328A (zh) * | 2020-04-13 | 2020-08-07 | 北京爱咔咔信息技术有限公司 | 文本识别及模型训练方法、系统、设备及可读存储介质 |
-
2020
- 2020-09-30 CN CN202011061835.XA patent/CN114359679A/zh active Pending
-
2021
- 2021-08-16 WO PCT/CN2021/112654 patent/WO2022068426A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399419A (zh) * | 2018-01-25 | 2018-08-14 | 华南理工大学 | 基于二维递归网络的自然场景图像中中文文本识别方法 |
JP2020047213A (ja) * | 2018-09-21 | 2020-03-26 | 富士ゼロックス株式会社 | 文字列認識装置及び文字列認識プログラム |
CN111310751A (zh) * | 2018-12-12 | 2020-06-19 | 北京嘀嘀无限科技发展有限公司 | 车牌识别方法、装置、电子设备和存储介质 |
CN111191649A (zh) * | 2019-12-31 | 2020-05-22 | 上海眼控科技股份有限公司 | 一种识别弯曲多行文本图像的方法与设备 |
CN111340034A (zh) * | 2020-03-23 | 2020-06-26 | 深圳智能思创科技有限公司 | 一种针对自然场景的文本检测与识别方法及系统 |
CN111507328A (zh) * | 2020-04-13 | 2020-08-07 | 北京爱咔咔信息技术有限公司 | 文本识别及模型训练方法、系统、设备及可读存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114863437A (zh) * | 2022-04-21 | 2022-08-05 | 北京百度网讯科技有限公司 | 文本识别方法、装置、电子设备和存储介质 |
CN116503517A (zh) * | 2023-06-27 | 2023-07-28 | 江西农业大学 | 长文本生成图像的方法及系统 |
CN116503517B (zh) * | 2023-06-27 | 2023-09-05 | 江西农业大学 | 长文本生成图像的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114359679A (zh) | 2022-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11734572B2 (en) | Spatial transformer modules | |
US11275961B2 (en) | Character image processing method and apparatus, device, and storage medium | |
WO2022068426A1 (zh) | 文本识别方法和文本识别系统 | |
US10424072B2 (en) | Leveraging multi cues for fine-grained object classification | |
CN111046125A (zh) | 一种视觉定位方法、系统及计算机可读存储介质 | |
CN107610146B (zh) | 图像场景分割方法、装置、电子设备及计算机存储介质 | |
US20160267349A1 (en) | Methods and systems for generating enhanced images using multi-frame processing | |
US20220215557A1 (en) | Edge detection method and device, electronic equipment, and computer-readable storage medium | |
WO2023035531A1 (zh) | 文本图像超分辨率重建方法及其相关设备 | |
CN109272442B (zh) | 全景球面图像的处理方法、装置、设备和存储介质 | |
CN113343982B (zh) | 多模态特征融合的实体关系提取方法、装置和设备 | |
CN107545223B (zh) | 图像识别方法及电子设备 | |
CN110619334B (zh) | 基于深度学习的人像分割方法、架构及相关装置 | |
CN112084849A (zh) | 图像识别方法和装置 | |
CN104994367A (zh) | 一种图像矫正方法以及摄像头 | |
CN114170438A (zh) | 神经网络训练的方法、电子设备及计算机存储介质 | |
CN113326766B (zh) | 文本检测模型的训练方法及装置、文本检测方法及装置 | |
CN111091117B (zh) | 用于二维全景图像的目标检测方法、装置、设备、介质 | |
CN111161138B (zh) | 用于二维全景图像的目标检测方法、装置、设备、介质 | |
CN113516697A (zh) | 图像配准的方法、装置、电子设备及计算机可读存储介质 | |
CN113255629B (zh) | 文档处理方法、装置、电子设备及计算机可读存储介质 | |
US11238297B1 (en) | Increasing robustness of computer vision systems to rotational variation in images | |
CN109165583B (zh) | 多尺寸融合人脸检测方法、装置及存储介质 | |
CN114092696A (zh) | 图像分割方法、装置、电子设备及存储介质 | |
CN111178300B (zh) | 目标检测方法、装置、设备、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
32PN | Ep: public notification in the ep bulletin as address of the adressee cannot be established |
Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205 DATED 10/07/2023) |
|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21874088 Country of ref document: EP Kind code of ref document: A1 |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 21874088 Country of ref document: EP Kind code of ref document: A1 |