WO2024088269A1

WO2024088269A1 - 文字识别方法、装置、电子设备及介质

Info

Publication number: WO2024088269A1
Application number: PCT/CN2023/126280
Authority: WO
Inventors: 胡妍
Original assignee: 维沃移动通信有限公司
Priority date: 2022-10-26
Filing date: 2023-10-24
Publication date: 2024-05-02
Also published as: CN115601752A

Abstract

本申请公开了一种文字识别方法、装置、电子设备及介质，属于文字识别算法领域。该文字识别方法包括：获取文字图片，该文字图片包括至少一个文字；将上述文字图片输入分组卷积神经网络模型进行预测，得到上述文字图片对应的文字序列预测信息；基于上述文字序列预测信息，得到上述文字图片对应的文字识别结果。

Description

文字识别方法、装置、电子设备及介质

相关申请的交叉引用

本申请要求在2022年10月26日提交中国专利局、申请号为202211320472.6、名称为“文字识别方法、装置、电子设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于人工智能技术领域，具体涉及一种文字识别方法、装置、电子设备及介质。

背景技术

随着智能终端技术的发展，文字识别技术应用越来越广泛，使用该文字识别技术可以实现将图片中的文字提取出来。

在相关技术中，电子设备在进行文字识别时，通常是直接消减所运用的卷积神经网络模型的各层网络参数数量，来降低计算量和参数量，以提高识别速度，但是该方法会使得上述卷积神经网络模型的识别准确率降低，从而导致整体的识别效果较差。

发明内容

本申请实施例的目的是提供一种文字识别方法、装置、电子设备及介质，能够解决卷积神经网络模型识别准确率低，导致整体的识别效果较差的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种文字识别方法，该方法包括：获取文字图片，该文字图片包括至少一个文字；将上述文字图片输入分组卷积神经网络模型进行预测，得到上述文字图片对应的文字序列预测信息；基于上述文字序列预测信息，得到上述文字图片对应的文字识别结果。

第二方面，本申请实施例提供了一种文字识别装置，该装置包括：获取模块、预测模块和处理模块，其中：上述获取模块，用于获取文字图片，该文字图片包括至少一个文字；上述预测模块，用于将获取模块获取到的上述文字图片输入分组卷积神经网络模型进行预测，得到上述文字图片对应的文字序列预测信息；上述处理模块，用于基于预测模块得到的上述文字序列预测信息，得到上述文字图片对应的文字识别结果。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

第七方面，本申请实施例提供一种电子设备，所述电子设备被配置成用于执行如第一方面所述的方法。

在本申请实施例中，电子设备可以获取文字图片，该文字图片包括至少一个文字；将上述文字图片输入分组卷积神经网络模型进行预测，得到上述文字图片对应的文字序列预测信息；基于上述文字序列预测信息，得到上述文字图片对应的目标文字识别结果。如此，由于上述分组卷积神经网络模型的参数量较少；并且，该分组卷积神经网络模型能够将输入的数据分成多组，以同时对该多组数据进行处理。因此，可以减少该分组卷积神经网络模型的计算量，同时保证了识别准确率，从而提高了电子设备的识别效果。

附图说明

图1是本申请实施例提供的一种文字识别方法的方法流程示意图；

图2是本申请实施例提供的卷积循环神经网络模型的结构示意图；

图3是本申请实施例提供的分组卷积神经网络模型的结构示意图；

图4是本申请实施例提供的一种文字识别装置的结构示意图；

图5是本申请实施例提供的一种电子设备的结构示意图；

图6是本申请实施例提供的一种电子设备的硬件示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的文字识别方法、装置、电子设备及介质进行详细地说明。

目前，文字识别技术应用广泛，相比云端计算方式，移动端光学字符识别(Optical Character Recognition，OCR)算法可在离线情况下完成图片文字的提取，该算法具有低时延、保护数据隐私与安全、减少云端能耗、不依赖网络稳定等显著优势，适用于牵涉时效性、成本和隐私考虑的场景。然而由于移动端电子设备计算资源有限，无法运行复杂的OCR算法模型，来满足快速、精准识别图片文字的用户需求。

上述OCR算法模型中，采用的是卷积循环神经网络(Convolutional Recurrent Neural Network，CRNN)时序分类算法(Connectionist Temporal Classification，CTC)的网络结构，该网络结构主要由三部分构成，卷积神经网络、循环神经网络和转录神经网络。其中，卷积神经网络由一系列的卷积层、池化层、归一化(Batch Normalization，BN)层构造而成。将图片输入卷积神经网络后，转化为具有特征信息的特征图，并以序列形式输出，以作为循环层的输入；循环神经网络由双向长短期记忆(Long Short Term Memory，LSTM)构成，该LSTM对序列有较强的信息捕获能力，并可以获取更多上下文信息，以对图片中的文本信息进行更好地识别，得到预测序列；转录神经网络采用CTC算法将循环神经网络得到的预测序列转换成标记序列，用来获取最终的识别结果。

在相关技术中，电子设备在进行文字识别时，需要采用计算量很小的模型，同时要求能够实现较好的文字识别效果。而为了使上述CRNN网络模型能够应用到电子设备中，需要对该CRNN网络模型中的卷积神经网络中的卷积层的参数量进行削减，来降低其计算量，以达到实时性和降低CRNN网络模型的体积。然而，上述削减参数量的方法会使得文字识别的准确率也明显降低。从而，导致最终的文字识别效果较差。

在本申请实施例提供的文字识别方法、装置、电子设备及介质中，电子设备可以获取文字图片，该文字图片包括至少一个文字；将上述文字图片输入分组卷积神经网络模型进行预测，得到上述文字图片对应的文字序列预测信息；基于上述文字序列预测信息，得到上述文字图片对应的文字识别结果。如此，由于上述分组卷积神经网络模型的参数量较少，并且，该分组卷积神经网络模型能够将输入的数据分成多组，以同时对该多组数据进行处理。因此，可以减少该分组卷积神经网络模型的计算量，同时保证了识别准确率，从而提高了电子设备的识别效果。

本实施例提供的文字识别方法的执行主体可以为文字识别装置，该文字识别装置可以为电子设备，也可以为该电子设备中的控制模块或处理模块等。以下以电子设备为例来对本申请实施例提供的技术方案进行说明。

本申请实施例提供一种文字识别方法，如图1所示，该文字识别方法可以包括如下步骤201至步骤203：

步骤201：电子设备获取文字图片。

在本申请实施例中，上述文字图片包括至少一个文字。

示例性地，上述文字可以为汉字，也可以为英文，或者其他文字，本申请实施例对此不做限定。

在本申请实施例中，上述文字图片可以为经电子设备进行灰度处理后的文字图片。

在本申请实施例中，上述灰度处理是将上述文字图片中的红色(Red，R)、绿色(Green，G)、蓝色(Blue，B)值进行统一处理，使得R＝G＝B。

示例性地，上述文字图片的尺寸高度相等。

示例性地，电子设备可以缩放上述文字图片的尺寸，将所有文字图片的尺寸都调整相等。

步骤202：电子设备将文字图片输入分组卷积神经网络模型进行预测，得到文字图片对应的文字序列预测信息。

在本申请实施例中，上述分组卷积神经网络模型包括组卷积层，用于提取上述文字图片对应的至少两组图像特征信息。

在本申请实施例中，上述文字序列预测信息是基于上述至少两组图像特征信息得到的。

在本申请实施例中，上述分组卷积神经网络模型是在CRNN+CTC的网络结构模型的基础上改进生成的。

示例性地，将上述CRNN中的循环神经网络去除，改为卷积神经网络(convolutional neural network,CNN)+CTC的网络结构模型。然后，再将CNN中各层的参数量进行了削减，并将部分的标准卷积改用参数量更少的卷积核尺寸相同的组卷积和卷积核为1*1的卷积代替。最后，为了弥补上述去掉循环神经网络和削减参数量导致的识别精度下降，通过增加CNN的网络深度来提升上述分组卷积神经网络模型的表征能力。

需要说明的是，上述增加CNN的网络深度可以为自定义一种由卷积核为3*3的组卷积和卷积核为1*1的卷积交替3次构成卷积模块。

在本申请实施例中，上述改进后的CNN+CTC是指能够在电子设备上部署的针对文字图片进行文字识别的预测模型。

示例性地，上述序列位置可以为分组卷积神经网络模型，基于上述文字图片中的文字位置顺序，设置的多个概率值预测位置。

步骤203：电子设备基于文字序列预测信息，得到文字图片对应的文字识别结果。

在本申请实施例中，上述文字序列预测信息可以包括文字序列预测矩阵。

示例性地，上述文字序列用于指示上述文字图片中的文字的位置顺序。

可选地，在本申请实施例中，上述步骤203中“电子设备基于文字序列预测信息，得到文字图片对应的文字识别结果”可以包括如下步骤203a至步骤203c：

步骤203a：电子设备基于文字序列预测信息，计算目标预测概率信息。

在本申请实施例中，上述目标预测概率信息用于表征上述文字序列预测信息对应的文字序列中每个序列位置上所对应的每个文字索引的概率。

示例性地，上述每个文字索引在字符库中对应一个文字。

在本申请实施例中，上述目标预测概率信息可以包括文字序列预测概率矩阵。

在本申请实施例中，电子设备可以采用归一化指数函数对文字序列预测矩阵进行概率计算，得到文字序列预测概率矩阵。

在本申请实施例中，上述归一化指数函数可以为softmax函数。

需要说明的是，上述归一化指数函数用于将上述文字序列预测矩阵的值统一转化为范围在0至1的概率值。

步骤203b：电子设备基于目标预测概率信息，确定每个序列位置上的文字预测结果。

在本申请实施例中，上述每个序列位置可能对应多个文字预测结果，电子设备可以将该多个文字预测结果中，预测概率最大的文字预测结果确定为该序列位置的文字预测结果。

在本申请实施例中，电子设备可以将上述文字序列预测概率中每个序列位置上最大概率值所对应的预测信息做为该序列位置的识别结果索引，然后，从电子设备预存的字符集字典中索引该预测信息对应的文字预测结果，得到每个序列位置上的文字识别结果。

步骤203c：电子设备基于每个序列位置上的文字预测结果，确定文字图片对应的文字识别结果。

在本申请实施例中，电子设备可以重复上述索引步骤，得到上述文字序列对应的文字识别结果序列。然后，电子设备可以通过CTC合并相邻序列位置的重复识别结果，并去掉空位识别结果。得到最终的文字识别结果。

以下将对本申请实施例采用的字符集字典的生成进行解释说明：

示例性地，电子设备可以统计训练上述分组卷积神经网络模型时出现的所有汉字的字频，并取字频大于预设阈值的汉字做为字符集字典。

如此，通过计算每个序列位置上对应的文字识别结果的概率，并从该多个识别结果的概率中，选择概率最大的识别结果，作为最终的文字识别结果，提高了文字识别的准确度。

在本申请实施例提供的文字识别方法中，电子设备可以获取文字图片，该文字图片包括至少一个文字；将上述文字图片输入分组卷积神经网络模型进行预测，得到上述文字图片中的图像特征对应的文字序列预测信息；基于上述文字序列预测信息，得到上述文字图片对应的文字识别结果。如此，由于上述分组卷积神经网络模型的参数量较少；并且，该分组卷积神经网络模型能够将输入的数据分成多组，以同时对该多组数据进行处理。因此，可以减少该分组卷积神经网络模型的计算量，同时保证了识别准确率，从而提高了电子设备的识别效果。

可选地，在本申请实施例中，上述分组卷积神经网络模型包括：第一标准卷积层、组卷积层、第二标准卷积层和全连接层。

在本申请实施例中，上述第一标准卷积层、上述组卷积层、上述第二标准卷积层以及上述全连接层依次连接。

在本申请实施例中，上述第一标准卷积层包括目标标准卷积单元，该第一标准卷积层包括一个卷积核。

需要说明的是，上述目标标准卷积单元用于减小上述分组卷积神经网络模型的参数量。

在本申请实施例中，上述第一标准卷积层中的每个卷积包括一个卷积核。

示例性地，上述第一标准卷积层可以为由3*3卷积、池化层、3*3卷积、池化层、1*1卷积、池化层组成的卷积层。

示例性地，上述目标标准卷积单元可以为1*1卷积。

需要说明的是，上述1*1卷积用于提示特征为尺寸，避免上一个3*3卷积的参数量过大。

在本申请实施例中，上述组卷积层包括目标组卷积单元，上述组卷积层包括M个卷积核，M为大于1的整数。

需要说明的是，上述目标组卷积单元用于降低上述分组卷积神经网络模型的计算量。

示例性地，上述组卷积层可以为由1*1卷积、3*3组卷积、1*1卷积、3*3组卷积、1*1卷积、3*3组卷积、1*1卷积、池化层组成的组卷积层。

示例性地，上述目标组卷积单元可以为3*3组卷积。

在本申请实施例中，上述第二标准卷积层包括一个卷积核。

如此，通过在分组卷积神经网络模型中设置目标标准卷积单元和目标组卷积单元，可以减少分组卷积模型的参数量和计算量，提高了电子设备的识别效率。

可选地，在本申请实施例中，上述步骤202中“电子设备将文字图片输入分组卷积神经网络模型进行预测，得到文字图片对应的文字序列预测信息”可以包括如下步骤202a至步骤202d：

步骤202a：电子设备将文字图片输入分组卷积神经网络模型后，采用第一标准卷积层提取文字图片的第一图像特征信息。

在本申请实施例中，上述第一图像特征信息用于表征上述文字图片中的文字区域特征。

示例性地，电子设备可以依次采用3*3卷积、池化层、3*3卷积、池化层、1*1卷积、池化层(即上述第一标准卷积层)从上述文字图片中提取初级特征(即上述第一图像特征信息)。

步骤202b：电子设备采用组卷积层对第一图像特征信息进行分组，得到M组图像特征信息，并采用所述组卷积层中的M个卷积核分别提取每组图像特征信息中的关键图像特征信息，并将得到的M组关键图像特征信息融合，得到第一关键图像特征信息。

在本申请实施例中，上述组卷积层中的每个卷积核用于处理一组图像特征信息。

在本申请实施例中，上述第一关键图像特征信息用于表征上述文字区域特征中的文字特征信息。

示例性地，电子设备可以依次采用1*1卷积、组卷积、1*1卷积、组卷积、1*1卷积、组卷积、1*1卷积、池化层(即上述组卷积层)从上述初级特征中提取中级特征。其中，上述1*1卷积用于为上一个池化层的输出的不规则结果进行处理，以提升网络表达能力。然后，再次依次采用1*1卷积、组卷积、1*1卷积、组卷积、1*1卷积、组卷积、1*1卷积、池化层从上述中级特征中提取高级特征(即上述第一关键图像特征信息)。其中，上述组卷积为卷积核尺寸为3*3，分组数为4的组卷积，该组卷积可以将上述第一图像特征信息均分为4组，每组分别采用3*3卷积核进行卷积计算，得到每组各自的关键图像特征信息，然后将4组关键图像特征信息合并，便可得到一个卷积输出(即上述第一关键图像特征信息)。

需要说明的是，上述卷积核为3*3的组卷积的参数量仅为卷积核为3*3的卷积的参数量的四分之一。

步骤202c：电子设备采用第二标准卷积层提取第一关键图像特征信息的文字序列特征。

在本申请实施例中，上述文字序列特征用于表征上述文字图片中的文字的文字内容。

示例性地，电子设备在得到上述第一关键图像特征信息后，可以先采用1*1卷积对该第一关键图像特征信息中的不规则信息进行处理，然后再采用2*2卷积(即上述第二标准卷积层)将处理后的第一关键图像特征信息的高度维度尺寸转换为1(即将高度维度去除)，从而从该去除高度维度之后的第一关键图像特征信息中提取到上述文字序列特征。

步骤202d：电子设备采用全连接层获取文字序列特征对应的文字序列预测信息。

在相关技术中，在得到上述文字序列特征后，是采用两个LSTM提取序列特征，并将上述文字序列特征转换为文字序列预测矩阵。但该LSTM不能进行并行处理，且其应用在电子设备中的处理效率较低。导致文字识别的识别效果较差。

在本申请实施例中，电子设备在得到上述文字序列特征后，可以采用一个全连接层降低上述文字序列特征的特征维尺寸，以减少下一个全连接层的参数量。然后，再采用一个全连接层将文字序列特征转换为文字序列预测矩阵(即上述文字序列预测信息)。

需要说明的是，上述特征维尺寸等于上述字符集字典中的字符个数加一。

可以理解的是，电子设备可以在上述字符集字典包括的所有字符的个数的基础上，再添加一个空字符，然后按照添加空字符之后的字符个数，设置特征维尺寸，使得特征维尺寸与添加空字符后的字符个数相等。

如此，通过采用改进后的分组卷积神经网络模型对输入的文字图片进行处理，使得电子设备可以更加快速地得到对应的文字序列预测信息，并且，通过采用全连接层对上述第一关键图像特征信息进行处理，进一步减少上述分组卷积神经网络模型的参数量，提高了电子设备识别文字的识别效果。

可选地，在本申请实施例中，上述步骤201之后，本申请实施例提供的文字识别方法还包括图下步骤201a：

步骤201a：电子设备将文字图片剪裁为N个子文字图片。

在本申请实施例中，上述N个子文字图片中的每个子文字图片中包含至少一个文字，N为大于1的整数。

在本申请实施例中，上述N个子文字图片的图片尺寸高度均相等。

在本申请实施例中，电子设备可以检测上述文字图片中的所有文本行位置，然后，根据检测得到的位置坐标裁剪出所有文本行图片(即上述N个子文字图片)，然后将上述文本行图片进行尺度缩放，转为高度相等的图片。

需要说明的是，上述文本行图片的高度与上述分组卷积神经网络模型能够处理的数据尺寸相匹配。

进一步可选地，在本申请实施例中，结合上述步骤201a，上述步骤202中“电子设备将文字图片输入分组卷积神经网络模型进行预测，得到文字图片对应的文字序列预测信息”可以包括如下步骤202e：

步骤202e：电子设备将N个子文字图片输入分组卷积神经网络模型进行预测，得到N个子文字图片中的每个子文字图片对应的文字序列预测信息。

在本申请实施例中，电子设备可以将上述N个子文字图片中的第一个子文字图片输入分组卷积神经网络模型进行预测，得到预测结果后，再将第二个子文字图片输入，依次进行预测。

在本申请实施例中，电子设备在得到上述N个子文字图片中的每个子文字图片对应的文字序列预测信息后，可以基于该预测信息得到文字识别结果。然后，根据上述检测到的文本位置坐标，将该文字识别结果进行排版，以得到上述文字图片的目标文字识别结果。

如此，通过将文字图片进行裁剪逐次处理，可以使得上述分组卷积神经网络模型的计算量更少，进一步提高了识别速度，并保证了识别精度。

以下将对本申请实施例采用的分组卷积神经网络模型的训练过程进行示例性说明：

示例性地，上述分组卷积神经网络模型的训练过程可以包括如下步骤S1至步骤S4：

步骤S1：数据采集及扩充。

在本申请实施例中，上述数据采集时，为了使上述分组卷积神经网络模型可以通用于各种场景，所以采集的文字图片也需要尽可能多的包含多种场景(如卡证、书籍报纸、截图、屏幕、海报、街景、手写字)等等。然后，采集到的文字图片需要通过人工标注的方式得到对应文字标签文件。

由于通过人工采集数据及标注的效率很低，因而需要通过数据合成的方式去扩充数据。该扩充数据的方式分为两种：数据增广和字体合成。

数据增广，即对标注的真实数据通过随机的几何形变、模糊处理、亮度对比度调整、图像压缩等方式，处理为新的数据。

字体合成，即通过字体文件和语料，绘制文字图片，并通过随机的背景、文字颜色、字体、几何形变、透视变化、模糊处理、亮度对比度调整、图像压缩等方式增加合成图片的真实度和多样性。

在本申请实施例，通过上述真实采集、数据增广和字体合成三种方法，即可得到充足的训练数据。

步骤S2：数据预处理。

在本申请实施例中，在将采集到的数据送入模型训练前，需要对数据进行统一处理，具体为：尺寸缩放、宽度排序、字典制作。

尺寸缩放：模型的设计要求输入的文字图片高度固定为32，宽度不固定。所以需要将数据统一等比缩放到高度为32的尺寸。

宽度排序：文字图片特点是长短不一，而进行训练时，往往是将多张文字图片以批次的形式输入，这要求一个批次里的文字图片宽高一致，而当同一个批次中的文字图片宽度差异较大时，强行调整宽度一致会使部分文字图片中的文字畸变，导致信息损失较大，从而难以达到较好的训练效果。因而可以对训练集的文字图片依据长宽比进行排序，取长宽比相邻的若干个文字图片做为同一个批次，并以批次内宽度最小的文字图片尺寸统一缩放批次内的所有文字图片。

步骤S3：模型搭建。

在本申请实施例中，如图2所示，经典的CRNN网络结构由基于3*3卷积的CNN和基于LSTM的循环神经网络(Recurrent Neural Network，RNN)构成。电子设备将高度为32的文字图片输入模型后，首先通过一个CNN提取图像特征信息。例如，依次采用1个3*3卷积(3*3Conv)、池化层(pool)、1个3*3卷积、池化层、2个3*3卷积、池化层、2个3*3卷积、池化层进行图像特征信息提取，同时将特征维尺寸从64逐步增至512，接着，通过图像映射序列结构(Map-to-Sequence)生成序列特征。然后，采用两个LSTM提取图像特征信息中的序列特征，并将序列特征转为序列预测矩阵输出。

需要说明的是，上述CNN主要由特征维尺寸逐渐增大、卷积核为3*3的卷积和池化层构成，用于提取图像特征信息；上述RNN由两层LSTM构成，用于提取序列特征，并将序列特征转为序列预测矩阵。然而该CRNN网络结构的计算量过大，性能和模型体积都不能达到电子设备侧的要求，另外LSTM也不利于在电子设备侧进行部署。

在本申请实施例中，为了使模型在计算能力较小的电子设备侧能有较好的性能和效果，如图3所示，我们大幅缩减了特征维尺寸；并且，去掉了不易在电子设备侧部署的LSTM，改用全连接层(Fully Connected layers，FC)将序列特征转为序列预测矩阵；此外，仅采用CNN网络而非CNN+RNN网络来提取图像特征信息，并且，CNN网络也丢弃了原本均采用3*3卷积核卷积的方案，而是将部分3*3卷积核的卷积替换为参数量较小的组卷积和1*1卷积，并通过较深的网络层数提升模型特征学习能力。

例如，为了减少参数量同时保证较好的特征学习能力，我们缩减特征维尺寸为从32逐步增至192。然后，首先依次采用3*3卷积、池化层、3*3卷积、1*1卷积(1*1Conv)、池化层从输入的文字图片中提取初级图像特征信息，其中增加的1*1卷积用于提升特征维尺寸，避免其前一个3*3卷积参数量过大；再依次采用1*1卷积、组卷积(3*3group Conv)、1*1卷积、组卷积、1*1卷积、组卷积、1*1卷积、池化层从上述初级图像特征信息中提取中级图像特征信息，其中，第一个1*1卷积用于为前一个池化层的输出添加非线性激励，以提升网络表达能力。接着，再次采用1*1卷积、组卷积、1*1卷积、组卷积、1*1卷积、组卷积、1*1卷积、池化层的处理方式从上述中级图像特征信息中提取高级图像特征信息。最后，再采用1*1卷积对上述高级图像特征信息添加非线性激励，并采用2*2卷积将高度维度尺寸转换为1，然后将高度维度去掉，并交换特征维度和宽度维度，从而满足输入下一层的要求，并将四维的高级图像特征信息转换成三维的特征序列。再将该特征序列通过一个参数量较少的全连接层降低特征维尺寸，用于减少下一层的参数量，然后再通过一个全连接层将降低特征维尺寸后的序列特征转为序列预测矩阵。得到的序列预测矩阵即是整个模型的输出结果。

需要说明的是，上述交替重复3次的组卷积、1*1卷积的组合相比传统CRNN中2个3*3卷积的结构，在参数量减小的同时加深了网络深度，模型表征能力得到提升。

步骤S4：模型训练、量化。

在本申请实施例中，模型训练：将训练的文字图片分成多个批次，每个批次由固定张数的文字图片组成，然后随机按批次送入模型。当一个批次的文字图片送入模型后，通过上述步骤S3中搭建的模型逐层计算，得到文字序列预测矩阵，再采用归一化指数函数(softmax)将文字序列预测矩阵中的值转换为取值范围在0-1的文字序列预测概率矩阵。然后，根据文字序列预测概率矩阵，采用贪婪算法，将最大概率值所对应的结果做为该序列位置的预测结果，并根据上述字符集字典索引映射得到预测出的文字序列。采用经典的损失函数(CTC loss)计算预测出的文字序列与文字图片中对应的标签文字序列之间的损失值，根据损失值采用随机优化器(Adaptive momentum，Adam)对模型进行反向传播，更新模型参数。上述随机优化器的初始学习率设置为0.0005，随后采用余弦学习率下降方式逐渐减小。随后，将下一个批次的文字图片重复上述操作再次更新模型参数，在多轮参数更新后，损失值降到合适范围且趋于稳定，便完成对模型的训练。

模型量化：为了加速模型推理速度并保持较好的精度，采用半精度(Full Precise Float，FP)16的方式储存参数并推理模型，得到上述分组卷积神经网络模型。

本申请实施例提供的文字识别方法，执行主体可以为文字识别装置。本申请实施例中以文字识别装置执行文字识别方法为例，说明本申请实施例提供的文字识别装置。

本申请实施例提供一种文字识别装置，如图4所示，该文字识别装置400包括：获取模块401、预测模块402和处理模块403，其中：上述获取模块401，用于获取文字图片，该文字图片包括至少一个文字；上述预测模块402，用于将获取模块401获取到的上述文字图片输入分组卷积神经网络模型进行预测，得到上述文字图片对应的文字序列预测信息；上述处理模块403，用于基于预测模块402得到的上述文字序列预测信息，得到上述文字图片对应的文字识别结果。

可选地，在本申请实施例中，上述分组卷积神经网络模型包括：第一标准卷积层、组卷积层、第二标准卷积层和全连接层；上述预测模块402，具体用于：将获取模块401获取到的上述文字图片输入分组卷积神经网络模型后，采用上述第一标准卷积层提取上述文字图片的第一图像特征信息；采用上述组卷积层对上述第一图像特征信息进行分组，得到M组图像特征信息，并采用上述组卷积层中的M个卷积核分别提取每组图像特征信息中的关键图像特征信息，并将得到的M组关键图像特征信息融合，得到第一关键图像特征信息，上述组卷积层中的每个卷积核用于处理一组图像特征信息，M为大于1的整数；采用上述第二标准卷积层提取上述第一关键图像特征信息的文字序列特征；采用上述全连接层获取上述文字序列特征对应的文字序列预测信息。

可选地，在本申请实施例中，上述第一标准卷积层、上述组卷积层、上述第二标准卷积层以及上述全连接层依次连接；上述第一标准卷积层包括目标标准卷积单元，该目标标准卷积单元用于减小上述分组卷积神经网络模型的参数量，上述第一标准卷积层包括一个卷积核；上述组卷积层包括目标组卷积单元，该目标组卷积单元用于降低上述分组卷积神经网络模型的计算量，上述组卷积层包括M个卷积核，上述第二标准卷积层包括一个卷积核。

可选地，在本申请实施例中，上述文字识别装置400还包括：剪裁模块，其中：上述剪裁模块，用于在获取模块401获取文字图片之后，将该文字图片剪裁为N个子文字图片，每个子文字图片中包含至少一个文字，N为大于1的整数；上述预测模块402，具体用于将剪裁模块得到的上述N个子文字图片输入分组卷积神经网络模型进行预测，得到上述N个子文字图片中的每个子文字图片对应的文字序列预测信息。

可选地，在本申请实施例中，上述处理模块403，具体用于：基于预测模块402得到的上述文字序列预测信息，计算目标预测概率信息，该目标预测概率信息用于表征上述文字序列预测信息对应的文字序列中每个序列位置上所对应的每个文字索引的概率，该每个文字索引在字符库中对应一个文字；基于上述目标预测概率信息，确定上述每个序列位置上的文字预测结果；基于该每个序列位置上的文字预测结果，确定上述文字图片对应的文字识别结果。

本申请实施例提供的文字识别装置中，该文字识别装置可以获取文字图片，该文字图片包括至少一个文字；将上述文字图片输入分组卷积神经网络模型进行预测，得到上述文字图片对应的文字序列预测信息；基于上述文字序列预测信息，得到上述文字图片对应的文字识别结果。如此，由于上述分组卷积神经网络模型的参数量较少；并且，该分组卷积神经网络模型能够将输入的数据分成多组，以同时对该多组数据进行处理。因此，可以减少该分组卷积神经网络模型的计算量，同时保证了识别准确率，从而提高了上述文字识别装置的识别效果。

本申请实施例中的文字识别装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的文字识别装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为iOS操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的文字识别装置能够实现图1的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图5所示，本申请实施例还提供一种电子设备600，包括处理器601和存储器602，存储器602上存储有可在所述处理器601上运行的程序或指令，该程序或指令被处理器601执行时实现上述文字识别方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图6为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。

本领域技术人员可以理解，电子设备100还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图6中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，上述处理器110，用于：获取文字图片，该文字图片包括至少一个文字；将上述文字图片输入分组卷积神经网络模型进行预测，得到上述文字图片对应的文字序列预测信息；基于上述文字序列预测信息，得到上述文字图片对应的文字识别结果。

可选地，在本申请实施例中，上述分组卷积神经网络模型包括：第一标准卷积层、组卷积层、第二标准卷积层和全连接层；上述处理器110，具体用于：将上述文字图片输入分组卷积神经网络模型后，采用上述第一标准卷积层提取上述文字图片的第一图像特征信息；采用上述组卷积层对上述第一图像特征信息进行分组，得到M组图像特征信息，并采用上述组卷积层中的M个卷积核分别提取每组图像特征信息中的关键图像特征信息，并将得到的M组关键图像特征信息融合，得到第一关键图像特征信息，上述组卷积层中的每个卷积核用于处理一组图像特征信息，M为大于1的整数；采用上述第二标准卷积层提取上述第一关键图像特征信息的文字序列特征；采用上述全连接层获取上述文字序列特征对应的文字序列预测信息。

可选地，在本申请实施例中，上述处理器110，还用于将上述文字图片剪裁为N个子文字图片，每个子文字图片中包含至少一个文字，N为大于1的整数；上述处理器110，具体用于将上述N个子文字图片输入分组卷积神经网络模型进行预测，得到上述N个子文字图片中的每个子文字图片对应的文字序列预测信息。

可选地，在本申请实施例中，上述处理器110，具体用于：基于预测模块402得到的上述文字序列预测信息，计算目标预测概率信息，该目标预测概率信息用于表征上述文字序列预测信息对应的文字序列中每个序列位置上所对应的每个文字索引的概率，该每个文字索引在字符库中对应一个文字；基于上述目标预测概率信息，确定上述每个序列位置上的文字预测结果；基于该每个序列位置上的文字预测结果，确定上述文字图片对应的文字识别结果。

在本申请实施例提供的电子设备中，电子设备可以获取文字图片，该文字图片包括至少一个文字；将上述文字图片输入分组卷积神经网络模型进行预测，得到上述文字图片对应的文字序列预测信息；基于上述文字序列预测信息，得到上述文字图片对应的文字识别结果。如此，由于上述分组卷积神经网络模型的参数量较少；并且，该分组卷积神经网络模型能够将输入的数据分成多组，以同时对该多组数据进行处理。因此，可以减少该分组卷积神经网络模型的计算量，同时保证了识别准确率，从而提高了电子设备的识别效果。

应理解的是，本申请实施例中，输入单元104可以包括图形处理器(Graphics Processing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072中的至少一种。触控面板1071，也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器109可以包括易失性存储器或非易失性存储器，或者，存储器109可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器109包括但不限于这些和任意其它适合类型的存储器。

处理器110可包括一个或多个处理单元；可选的，处理器110集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述文字识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述文字识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述文字识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

一种文字识别方法，其中，所述方法包括：

获取文字图片，所述文字图片包括至少一个文字；

将所述文字图片输入分组卷积神经网络模型进行预测，得到所述文字图片对应的文字序列预测信息；

基于所述文字序列预测信息，得到所述文字图片对应的文字识别结果。
根据权利要求1所述的方法，其中，所述分组卷积神经网络模型包括：第一标准卷积层、组卷积层、第二标准卷积层和全连接层；

所述将所述文字图片输入分组卷积神经网络模型进行预测，得到所述文字图片对应的文字序列预测信息，包括：

将所述文字图片输入分组卷积神经网络模型后，采用所述第一标准卷积层提取所述文字图片的第一图像特征信息；

采用所述组卷积层对所述第一图像特征信息进行分组，得到M组图像特征信息，并采用所述组卷积层中的M个卷积核分别提取每组图像特征信息中的关键图像特征信息，并将得到的M组关键图像特征信息融合，得到第一关键图像特征信息，所述组卷积层中的每个卷积核用于处理一组图像特征信息，M为大于1的整数；

采用所述第二标准卷积层提取所述第一关键图像特征信息的文字序列特征；

采用所述全连接层获取所述文字序列特征对应的文字序列预测信息。
根据权利要求2所述的方法，其中，

所述第一标准卷积层、所述组卷积层、所述第二标准卷积层以及所述全连接层依次连接；

所述第一标准卷积层包括目标标准卷积单元，所述目标标准卷积单元用于减小所述分组卷积神经网络模型的参数量，所述第一标准卷积层包括一个卷积核；

所述组卷积层包括目标组卷积单元，所述目标组卷积单元用于降低所述分组卷积神经网络模型的计算量，所述组卷积层包括M个卷积核；

所述第二标准卷积层包括一个卷积核。
根据权利要求1所述的方法，其中，所述获取文字图片之后，所述方法还包括：

将所述文字图片剪裁为N个子文字图片，每个子文字图片中包含至少一个文字，N为大于1的整数；

所述将所述文字图片输入分组卷积神经网络模型进行预测，得到所述文字图片对应的文字序列预测信息，包括：

将所述N个子文字图片输入分组卷积神经网络模型进行预测，得到所述N个子文字图片中的每个子文字图片对应的文字序列预测信息。
根据权利要求1所述的方法，其中，所述基于所述文字序列预测信息，得到所述文字图片对应的文字识别结果，包括：

基于所述文字序列预测信息，计算目标预测概率信息，所述目标预测概率信息用于表征所述文字序列预测信息对应的文字序列中每个序列位置上所对应的每个文字索引的概率，所述每个文字索引在字符库中对应一个文字；

基于所述目标预测概率信息，确定所述每个序列位置上的文字预测结果；

基于所述每个序列位置上的文字预测结果，确定所述文字图片对应的文字识别结果。
一种文字识别装置，其中，所述装置包括：获取模块、预测模块和处理模块，其中：

所述获取模块，用于获取文字图片，所述文字图片包括至少一个文字；

所述预测模块，用于将所述获取模块获取到的所述文字图片输入分组卷积神经网络模型进行预测，得到所述文字图片对应的文字序列预测信息；

所述处理模块，用于基于所述预测模块得到的所述文字序列预测信息，得到所述文字图片对应的文字识别结果。
根据权利要求6所述的装置，其中，所述分组卷积神经网络模型包括：第一标准卷积层、组卷积层、第二标准卷积层和全连接层；

所述预测模块，具体用于：

将所述获取模块获取到的所述文字图片输入分组卷积神经网络模型后，采用所述第一标准卷积层提取所述文字图片的第一图像特征信息；

采用所述组卷积层对所述第一图像特征信息进行分组，得到M组图像特征信息，并采用所述组卷积层中的M个卷积核分别提取每组图像特征信息中的关键图像特征信息，并将得到的M组关键图像特征信息融合，得到第一关键图像特征信息，所述组卷积层中的每个卷积核用于处理一组图像特征信息，M为大于1的整数；

采用所述第二标准卷积层提取所述第一关键图像特征信息的文字序列特征；

采用所述全连接层获取所述文字序列特征对应的文字序列预测信息。
根据权利要求7所述的装置，其中，

所述第一标准卷积层、所述组卷积层、所述第二标准卷积层以及所述全连接层依次连接；

所述第一标准卷积层包括目标标准卷积单元，所述目标标准卷积单元用于减小所述分组卷积神经网络模型的参数量，所述第一标准卷积层包括一个卷积核；

所述组卷积层包括目标组卷积单元，所述目标组卷积单元用于降低所述分组卷积神经网络模型的计算量，所述组卷积层包括M个卷积核；

所述第二标准卷积层包括一个卷积核。
根据权利要求6所述的装置，其中，所述装置还包括：剪裁模块，其中：

所述剪裁模块，用于在所述获取模块获取文字图片之后，将所述文字图片剪裁为N个子文字图片，每个子文字图片中包含至少一个文字，N为大于1的整数；

所述预测模块，具体用于将所述剪裁模块得到的所述N个子文字图片输入分组卷积神经网络模型进行预测，得到所述N个子文字图片中的每个子文字图片对应的文字序列预测信息。
根据权利要求6所述的装置，其中，

所述处理模块，具体用于：

基于所述预测模块得到的所述文字序列预测信息，计算目标预测概率信息，所述目标预测概率信息用于表征所述文字序列预测信息对应的文字序列中每个序列位置上所对应的每个文字索引的概率，所述每个文字索引在字符库中对应一个文字；

基于所述目标预测概率信息，确定所述每个序列位置上的文字预测结果；

基于所述每个序列位置上的文字预测结果，确定所述文字图片对应的文字识别结果。
一种电子设备，其中，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至5任一项所述的文字识别方法的步骤。
一种可读存储介质，其中，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至5任一项所述的文字识别方法的步骤。
一种芯片，其中，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如权利要求1至5任一项所述的文字识别方法的步骤。
一种计算机程序产品，其中，所述程序产品被存储在非瞬态的存储介质中，所述程序产品被至少一个处理器执行以实现如权利要求1至5任一项所述的文字识别方法的步骤。
一种电子设备，其中，所述电子设备被配置成用于执行如权利要求1至5任一项所述的文字识别方法的步骤。