WO2021115159A1

WO2021115159A1 - 文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质

Info

Publication number: WO2021115159A1
Application number: PCT/CN2020/133116
Authority: WO
Inventors: 白翔; 王勃飞; 徐清泉; 许永超; 刘少丽
Original assignee: 中兴通讯股份有限公司; 华中科技大学
Priority date: 2019-12-09
Filing date: 2020-12-01
Publication date: 2021-06-17
Also published as: CN113033249A

Abstract

一种文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质。文字识别方法包括：将待测试图片进行标准化，缩放到预设高度H和预设宽度W(A100)；将所述待测试图片输入卷积神经网络，提取所述待测试图片的卷积特征，得到包含所述卷积特征的深度特征图(A200)；将所述深度特征图输入具有多个通道的注意力机制模块，得到每个通道的注意力权重，使用所述注意力权重重新对所述深度特征图的每个通道进行缩放获得多个注意力特征图(A300)；将每一个所述注意力特征图分别输入全连接层，得到多个注意力特征向量(A400)；将多个所述注意力特征向量进行特征融合，输入到字符类全连接层进行字符类别预测(A500)。

Description

文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质

相关申请的交叉引用

本申请基于申请号为201911253120.1、申请日为2019年12月9日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请实施例涉及计算机视觉技术领域，更具体地，涉及一种文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质。

背景技术

手写汉字识别(HCCR)一直是计算机视觉领域的一个非常活跃的、具有挑战性的研究方向，自20世纪60年代开始研究，并取得了很大的进步，很多现实生活中的应用都和它息息相关，如邮件分拣，银行支票阅读，书籍和手写笔记转录等等。尽管已经进行了许多研究，但手写汉字的识别仍然是一个极具挑战性的任务，一方面是由于中文字符类别的数量众多，并且存在大量的形近字，容易混淆；另一方面是由于不同的人有着巨大的书写风格差异，导致即使是同一类字符，视觉上的差异仍然很明显，这些都给手写汉字识别带来了很大困难。

大多数已有的基于深度学习的方法利用卷积神经网络，通过从整个图像中学习全局语义特征来进行手写汉字的分类，但这对于视觉上相似的字符的识别是不够的，因为容易混淆的字符之间往往只存在细微差异。具体而言，这些方法提供的全局注意力可以很好地定位整个字符，但是不同类字符间的注意力区域有较大重叠，缺乏区分性，这样可能导致形近字和类内差异大的字的识别错误率较高。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

第一方面，本申请实施例提供了一种文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质，能够提高视觉上容易混淆的文字识别的准确度。

第二方面，本申请实施例提供了一种文字识别网络模型训练方法，包括以下步骤：将原始数据集中的每张图片进行标准化，并对每张图片进行字符类别标注，得到带字符类别标注的标准训练数据集；将所述标准训练数据集中的每张图片输入卷积神经网络，提取图片的卷积特征，得到包含所述卷积特征的深度特征图；将所述深度特征图输入具有多个通道的注意力机制模块，得到每个通道的注意力权重，使用所述注意力权重重新对所述深度特征图的每个通道进行缩放获得多个注意力特征图；将每一个所述注意力特征图分别输入全连接层，得到多个注意力特征向量；将多个所述注意力特征向量进行特征融合，输入到字符类全连接层进行字符类别预测；根据所述字符类别预测的结果和所述字符类别标注，设计目标损失函数，利用反向传播算法进行迭代，最小化所述目标损失函数，优化所述注意力权重。

第三方面，本申请实施例提供了一种文字识别方法，包括：将待测试图片进行标准化，缩放到预设高度H和预设宽度W；将待测试图片输入卷积神经网络，提取待测试图片的卷积特征，得到包含所述卷积特征的深度特征图；将所述深度特征图输入具有多个通道的注意力机制模块，得到每个通道的注意力权重，使用所述注意力权重重新对所述深度特征图的每个通道进行缩放获得多个注意力特征图；将每一个所述注意力特征图分别输入全连接层，得到多个注意力特征向量；将多个所述注意力特征向量进行特征融合，输入到字符类全连接层进行字符类别预测。

第四方面，本申请实施例提供了一种文字识别网络模型训练装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第二方面实施例所述的文字识别网络模型训练方法。

第五方面，本申请实施例提供了一种文字识别装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第三方面实施例所述的文字识别方法。

第六方面，本申请实施例提供了一种终端，包括如上述第四方面所述的文字识别网络模型训练装置或者包括如上述第五方面所述的文字识别装置。

第七方面，本申请实施例提供了一种计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如第二方面实施例所述的文字识别网络模型训练方法或用于执行如第三方面实施例所述的文字识别方法。

本申请的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1是本申请实施例提供的文字识别网络模型训练方法和文字识别方法流程示意图；

图2是本申请一个实施例提供的文字识别网络模型训练方法的流程图；

图3是本申请实施例提供的文字识别网络模型的网络结构图，“CA”表示通道注意力机制(Channel Attention)；

图4是本申请实施例提供的卷积神经网络结构图；

图5是本申请实施例提供的注意力机制模块结构图；

图6是本申请另一实施例提供的文字识别方法的流程图；

图7是本申请另一实施例提供的文字识别网络模型训练装置的结构图；

图8是本申请另一实施例提供的文字识别装置的结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。

根据我们的日常经验，当人们在多个容易混淆的汉字中识别出特定字符时，通常会从观察候选汉字中的细节特征，然后比较它们的相似性和差异，以此来确定特定的汉字类别。例如，“鸟”和“乌”是两个容易产生视觉混淆的汉字字符，但我们可以观察它们的上半部分有无“丶”来将它们区分开来；类似地，对于“漫”和“谩”，我们可以对它们的左半部分的偏旁来判断。

最近，有方法提出基于循环神经网络(RNN)和注意力机制的手写汉字识别方法，该方法使用残差卷积神经网络作为主干网络，利用RNN迭代更新注意力分布从而修正字符预测。该方法能够利用注意力机制定位到字符的局部区域以识别视觉上相似的汉字字符。但是，这种方法有两点主要不足：首先，基于迭代更新注意力分布的方法，高度依赖前一次迭代的预测结果，可能会使初始误差积累，导致识别精度提高有限；其次，该方法使用RNN多次迭代，训练时间更长，流程更为复杂，因为RNN的内部机制导致其无法充分利用GPU并行计算，而且反向传播过程中容易出现梯度消失或梯度爆炸等问题。

在这样的背景下，需要设计一种简单有效的可以挖掘局部有区分性特征的文字识别方法。

基于此，本申请提供了一种文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质，通过卷积神经网络对输入的图片进行特征提取，然后通过注意力机制模块得到具有区分性的注意力特征，进行特征融合后得到字符类别预测结果，训练模型时还根据输入图片的字符类别标注和字符类别预测结果设计损失函数，优化所述注意力权重，从而提高文字识别的准确性，对于困难样本的识别鲁棒性更强。

下面结合附图，对本申请实施例作进一步阐述。

如图1所示，图1是本申请实施例提供的文字识别网络模型训练方法和文字识别方法的流程示意图，其中实线箭头表示训练步骤，虚线箭头表示识别步骤。

文字识别网络模型包括深度卷积神经网络、多通道的注意力机制模块、对比注意力特征学习分支和多注意力特征融合模块。

深度卷积神经网络：一种可用于分类的神经网络，该网络主要由卷积层和池化层组成。卷积层用于提取图片特征；池化层的作用是降低卷积层输出的特征向量的维度，减少过拟合。网络中的参数可以通过反向传播算法，进行更新。本申请实施例中，所述深度卷积神经网络由14层卷积层、4 层池化层组成。

注意力机制模块：模仿人类观察事物的方式，通常来说，人们在看一张图片的时候，除了从整体上把握一幅图像外，也会更加关注图片的某些局部信息，例如桌子的位置，商品的种类等。在计算机视觉领域，注意力机制的本质是对输入信息，选择需要更加关注的信息，从关键的部分进行特征提取。注意力机制的引入，一方面可以几乎不增加模型复杂度的情况下增加了模型的表达能力；另一方面，注意力机制只选择对模型来说重要的输入信息进行处理，可以提高神经网络的效率。

对比注意力特征学习分支：对图像的全局特征进行提取，能够很好地对一般物体分类，但是对于手写汉字这种细粒度分类问题，需要关注字符有区分性的局部特征。对比注意力特征的学习的目的是让多个通道的注意力机制模块对输入样本定位多个局部区域，并且在对比度损失函数和区域中心损失函数监督下训练，得到分散的注意力区域，使得模型能更有可能定位到字符有区分力的特征，从而降低视觉上相似的字符的识别错误率。

参照图2和图3，本申请的一个实施例提出一种文字识别网络模型训练方法，包括以下步骤：

步骤S100：将原始数据集中的每张图片进行标准化，并对每张图片进行字符类别标注，得到带字符类别标注的标准训练数据集；

步骤S200：将标准训练数据集中的每张图片输入卷积神经网络，提取图片的卷积特征，得到包含卷积特征的深度特征图；

步骤S300：将深度特征图输入具有多个通道的注意力机制模块，得到每个通道的注意力权重，使用注意力权重重新对深度特征图的每个通道进行缩放获得多个注意力特征图；

步骤S400：将每一个注意力特征图分别输入全连接层，得到多个注意力特征向量；

步骤S500：将多个注意力特征向量进行特征融合，输入到字符类全连接层进行字符类别预测；

步骤S600：根据字符类别预测的结果和字符类别标注，设计目标损失函数，利用反向传播算法进行迭代，最小化目标损失函数，优化注意力权重。

在一实施例中，步骤S100具体包括：统计原始数据集中每张图片I _i(i＝1，···，N)的均值和方差，将每张图片的高度和宽度缩放到预设高度H和预设宽度W，一般地，预设高度H和预设宽度W的默认取值均为96，其中N为原始数据集中的图片数量；并对每张图片I _i进行字符类别标注，得到带字符类别标注的标准训练数据集。

在一实施例中，参照图4所示，步骤S200具体包括：卷积神经网络包括2个卷积层(conv1、conv2)和4个卷积模块，将标准化的图片I _i(i＝1，···，N)分别输入2个卷积层(conv1、conv2)中，每个卷积层后均接一个批归一化层(Batch Normalization，BN)和非线性激活函数ReLU，得到大小为96*96*64的特征图，然后将特征图输入到步长为2的最大池化层进行采样，得到48*48*64的特征图，之后再将特征图输入到4个卷积模块(Conv-Block)中，每个卷积模块由3个卷积核大小为3*3的卷积层和3个批归一化层构成，其中3个批归一化层分别跟在3个卷积层之后，卷积模块(Conv-Block)是一种“瓶颈”结构，其3个卷积层的中间层的通道数比上下两层少；每个卷积模块(Conv-Block)之间用步长为2的最大池化层相连接，将输入的特征图的分辨率减半，最后经过4个卷积模块(Conv-Block)之后，输出大小为6*6*448的深度特征图X _i，这些深度特征图X _i包含经过14个卷积层得到的高级语义信息。

在一实施例中，参照图5所示，步骤S300具体包括：将最后一个卷积模块(Conv-Block)输出的大小为6*6*448的深度特征图X _i作为输入，输送到具有多个通道的注意力机制模块，计算注意力特征图

本实施例中S取值为2；注意力机制模块借鉴了SENet方法引入的通道注意力机制，注意力机制模块首先使用全局平化池在H×W的空间维度上汇集输入的深度特征图X _i，以生成通道描述子z ^s＝[z ₁,···，z _C]，其中z ^s的第c个元素z ^c的计算方法是：

其中s＝1，···，S，S为注意力机制模块的数量；

其中c＝1，···，C，C为通道数量；

在z ^s上使用带有Sigmoid激活的门控机制，处理通道描述子，得到每个注意力机制模块的注意力权重：

其中，σ为Sigmoid函数，δ为ReLU函数，

r为通道压缩比率；

每个注意力机制模块使用注意力权重重新对深度特征图X _i的每个通道进行缩放获得多个注意力特征图

其中

表示标准化的图片I _i对应的注意力特征图的第c个通道

和标量

之间的乘积。

在一实施例中，步骤S400具体包括：将步骤S300中得到的多个注意力特征图输入到对比注意力特征学习分支，用于提取局部有区分性区域的注意力特征，即将每一个注意力特征图

分别输入到包含768个神经元的全连接层：

其中运算符F _flatt(·)将矩阵平铺为1维向量。

在一实施例中，步骤S500具体包括：将多个注意力特征向量f _i ^s(s＝1，…，S)进行特征融合，再输入到包含3755个神经元的全连接层进行字符类别预测：

Y _i＝soft max(W·[f _i ¹，…，f _i ^S])

其中，[·]表示级联操作，Y _i表示图片I _i属于3755类汉字的对应得分，得分最高的类别为字符类别的预测结果

在一实施例中，步骤S600具体包括：以字符类别标注gt为网络模型期望输出，以预测结果

为网络模型预测输出，设计网络模型期望输出和网络模型预测输出之间的目标损失函数，训练过程中最小化交叉熵损失函数L _cls，以确保每一个注意力特征图

能定位到对于字符分类来说重要的区域；对于对比注意力特征学习分支，以步骤S300中得到的多个注意力特征为输入，利用度量学习损失函数，即比度损失函数和区域中心损失函数，使网络模型的注意力特征图关注到输入图片的不同的具有区分性特征的区域；具体来说，对比度损失函数被应用于注意力特征以捕获可分离的注意力区域；

定义目标损失函数为：

L _total＝L _cls+λ(L _center+L _contra)

其中L _cls为交叉熵损失函数，L _center为用于减少同一类字符的各个注意力特征之间的距离的区域中心损失函数，L _contra为将图片I _i的多个注意力特征向量f _i ^s在高维空间的拉远的对比度损失函数，λ为用于控制两种损失函数所占的权重的超参数；

对比度损失函数定义为：

其中D(I _i)定义为：

其中m为预设阈值；对比度损失函数是将输入图片I _i的多个注意力特征向量f _i ^s在高维空间的拉远，使得两两向量之间的距离大于预设阈值m，本实施例中m设置为40，保证各个注意力特征图定位到的字符局部特征不一样，这样文字识别网络模型更有可能挖掘到该字符有区分性的特征。

区域中心损失函数定义为：

区域中心损失函数用于减少同一类字符的各注意力特征之间的距离，使得同一类字符学到的多个注意力特征之间分别相近，以便每个注意力特征图

在相同的字符部分中被激活，其中

是y _i类的第s个注意力特征的中心，d表示特征的维数，注意力特征中心

用均值为0，方差为1的高斯分布初始化，然后根据区域中心损失函数算法更新特征中心。

根据设计的目标损失函数，利用反向传播算法进行迭代，训练过程中最小化交叉熵损失函数，实现最优网络模型。针对离线手写汉字识别任务，在训练过程中使用原始数据集迭代训练，得到网络模型的参数。

参照图6，本申请的一个实施例提出一种文字识别方法，利用本申请上述实施例训练好的文字识别网络模型对手写汉字图片进行识别，包括以下步骤：

步骤A100：将待测试图片I _i进行标准化，缩放到预设高度H和预设宽度W；

步骤A200：将待测试图片I _i输入卷积神经网络，提取待测试图片I _i的卷积特征，得到包含卷积特征的深度特征图X _i；

步骤A300：将深度特征图X _i输入具有多个通道的注意力机制模块，得到每个通道的注意力权重，使用注意力权重重新对深度特征图X _i的每个通道进行缩放获得多个注意力特征图

步骤A400：将每一个注意力特征图

分别输入全连接层，得到多个注意力特征向量f _i ^s；

步骤A500：将多个注意力特征向量f _i ^s进行特征融合，输入到字符类全连接层进行字符类别预测。

在一实施例中，步骤A200具体包括：卷积神经网络包括2个卷积层(conv1、conv2)和4个卷积模块，将待测试图片I _i输入2个卷积层(conv1、conv2)中，每个卷积层后均接一个批归一化层(Batch Normalization，BN)和非线性激活函数ReLU，得到大小为96*96*64的特征图，然后将特征图输入到步长为2的最大池化层进行采样，得到48*48*64的特征图，之后再将特征图输入到4个卷积模块(Conv-Block)中，每个卷积模块由3个卷积核大小为3*3的卷积层和3个批归一化层构成，其中3个批归一化层分别跟在3个卷积层之后，卷积模块(Conv-Block)是一种“瓶颈”结构，其3个卷积层的中间层的通道数比上下两层少；每个卷积模块(Conv-Block)之间用步长为2的最大池化层相连接，将输入的特征图的分辨率减半，最后经过4个卷积模块(Conv-Block)之后，输出大小为6*6*448的深度特征图X _i，深度特征图X _i包含经过14个卷积层得到的高级语义信息。

在一实施例中，步骤A300具体包括：将最后一个卷积模块(Conv-Block)输出的大小为6*6*448的深度特征图X _i作为输入，输送到具有多个通道的注意力机制模块，计算注意力特征图

(s＝1，···，S)，本实施例中S取值为2；注意力机制模块借鉴了SENet方法引入的通道注意力机制，注意力机制模块首先使用全局平化池在H×W的空间维度上汇集输入的深度特征图X _i，以生成通道描述子z ^s＝[z ₁,···，z _C]，其中z ^s的第c个元素z ^c的计算方法是：

其中s＝1，···，S，S为注意力机制模块的数量；

其中c＝1，···，C，C为通道数量；

其中，σ为Sigmoid函数，δ为ReLU函数，

r为通道压缩比率；

其中

表示标准化的图片I _i对应的注意力特征图的第c个通道

和标量

之间的乘积。

在一实施例中，步骤A400具体包括：将步骤A300中得到的多个注意力特征图输入到对比注意力特征学习分支，用于提取局部有区分性区域的注意力特征，即将每一个注意力特征图

分别输入到包含768个神经元的全连接层：

其中运算符F _flatt(·)将矩阵平铺为1维向量。

在一实施例中，步骤A500具体包括：将多个注意力特征向量f _i ^s(s＝1，…，S)进行特征融合，再输入到包含3755个神经元的全连接层进行字符类别预测：

Y _i＝soft max(W·[f _i ¹，…，f _i ^S])

其中，[·]表示级联操作，Y _i表示待测试图片I _i属于3755类汉字的对应得分，得分最高的类别为字符类别的预测结果

通过本申请所构思的以上技术方案，与现存的技术相比，具有以下技术效果：

(1)准确度高：针对手写汉字中形近字和手写体风格差异大的字识别精度低的问题，创新性地利用多重对比注意力机制提取汉字有区分性的特征，更精确地进行手写汉字的识别。

(2)速度快：提出的文字识别网络模型在保证识别精度的同时，训练速度较快。

(3)通用性强：不仅可以较为准确的识别字型相近的汉字，还能实现完全端到端训练，且模型参数量少，简单有效，易于产品落地。

(4)鲁棒性强：可以克服不同个体的书写风格带来的手写汉字形状的变化，在标准手写汉字测试集上达到目前最高的识别精度。

参照图7，本申请的一个实施例提供了一种文字识别网络模型训练装置100，包括：存储器101、处理器102及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例中的文字识别网络模型训练方法，例如执行以上描述的图2的方法步骤S100至S600。处理器102和存储器101可以通过总线或者其他方式连接，图7中以通过总线连接为例。

参照图8，本申请的一个实施例提供了一种文字识别装置200，包括：存储器201、处理器202及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例中的文字识别方法，例如执行以上描述的图6的方法步骤A100至A500。处理器202和存储器201可以通过总线或者其他方式连接，图8中以通过总线连接为例。

本申请的一个实施例还一种终端，包括上述实施例所述的文字识别网络模型训练装置100或者包括上述实施例所述的文字识别装置200。该终端可以是任意类型的智能终端，例如智能手机、平板电脑、手提电脑或台式电脑等。

此外，本申请的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个处理器或控制器执行，例如，被图7中的一个处理器102执行，可使得上述处理器102执行上述实施例中的文字识别网络模型训练方法，例如，执行以上描述的图2的方法步骤S100至S600。又如，被图8中的一个处理器202执行，可使得上述处理器202执行上述实施例中的文字识别方法，例如，执行以上描述的图6的方法步骤A100至A500。

根据本申请实施例提供的方案：通过卷积神经网络对输入的图片进行特征提取，然后通过注意力机制模块得到具有区分性的注意力特征，进行特征融合后得到字符类别预测结果，训练模型时还根据输入图片的字符类别标注和字符类别预测结果设计损失函数，优化所述注意力权重，从而提高文字识别的准确性，对于困难样本的识别鲁棒性更强。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本申请的较佳实施进行了具体说明，但本申请并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

一种文字识别网络模型训练方法，包括以下步骤：

将原始数据集中的每张图片进行标准化，并对每张图片进行字符类别标注，得到带字符类别标注的标准训练数据集；

将所述标准训练数据集中的每张图片输入卷积神经网络，提取图片的卷积特征，得到包含所述卷积特征的深度特征图；

将所述深度特征图输入具有多个通道的注意力机制模块，得到每个通道的注意力权重，使用所述注意力权重重新对所述深度特征图的每个通道进行缩放获得多个注意力特征图；

将每一个所述注意力特征图分别输入全连接层，得到多个注意力特征向量；

将多个所述注意力特征向量进行特征融合，输入到字符类全连接层进行字符类别预测；

根据所述字符类别预测的结果和所述字符类别标注，设计目标损失函数，利用反向传播算法进行迭代，最小化所述目标损失函数，优化所述注意力权重。
根据权利要求1所述的一种文字识别网络模型训练方法，其中，所述将原始数据集中的每张图片进行标准化，包括：

统计所述原始数据集中每张图片I _i(i＝1，···，N)的均值和方差，将每张图片的高度和宽度缩放到预设高度H和预设宽度W，其中N为所述原始数据集中的图片数量。
根据权利要求2所述的一种文字识别网络模型训练方法，其中，所述卷积神经网络包括若干卷积层和若干卷积模块；

所述将所述标准训练数据集中的每张图片输入卷积神经网络，提取图片的卷积特征，得到包含所述卷积特征的深度特征图，包括：

将标准化的图片I _i(i＝1，···，N)分别输入若干卷积层中，每个卷积层后均接一个批归一化层和非线性激活函数ReLU，然后输入到最大池化层进行采样，再输入到若干所述卷积模块中，每个卷积模块由若干数量相同的卷积层和批归一化层构成，每个批归一化层均跟在每个卷积层之后，每个卷积模块之间用最大池化层相连接，最后一个所述卷积模块输出包含卷积特征的深度特征图X _i。
根据权利要求1或3所述的一种文字识别网络模型训练方法，其中，所述注意力权重通过以下步骤获得：

所述注意力机制模块使用全局平均池化在空间维度上汇集输入的所述深度特征图以生成通道描述子，使用带有Sigmoid激活的门控机制处理所述通道描述子得到每个通道的注意力权重。
根据权利要求3所述的一种文字识别网络模型训练方法，其中，所述将所述深度特征图输入具有多个通道的注意力机制模块，得到每个通道的注意力权重，使用所述注意力权重重新对所述深度特征图的每个通道进行缩放获得多个注意力特征图，包括：

所述注意力机制模块使用全局平化池在H×W的空间维度上汇集输入的所述深度特征图X _i，以生成通道描述子z ^s＝[z ₁,···，z _C]，其中z ^s的第c个元素z ^c的计算方法是：

其中s＝1，···，S，S为注意力机制模块的数量；

其中c＝1，···，C，C为通道数量；

在z ^s上使用带有Sigmoid激活的门控机制，处理所述通道描述子，得到每个所述注意力机制模块的注意力权重：

其中，σ为Sigmoid函数，δ为ReLU函数，
r为通道压缩比率；

每个所述注意力机制模块使用所述注意力权重重新对所述深度特征图X _i的每个通道进行缩放获得多个注意力特征图

其中
表示标准化的图片I _i对应的所述注意力特征图的第c个通道
和标量
之间的乘积。
根据权利要求5所述的一种文字识别网络模型训练方法，其中，所述将每一个所述注意力特征图分别输入全连接层，得到多个注意力特征向量，包括：

将多个所述注意力特征图
分别输入到全连接层：

其中运算符F _flatt(·)将矩阵平铺为1维向量。
根据权利要求6所述的一种文字识别网络模型训练方法，其中，所述将多个所述注意力特征向量进行特征融合，输入到字符类全连接层进行字符类别预测，包括：

将多个所述注意力特征向量f _i ^s(s＝1,···,S)进行特征融合，再输入到字符类全连接层进行字符类别预测：

Y _i＝soft max(W·[f _i ¹,···,f _i ^S])

其中，[·]表示级联操作，Y _i表示图片I _i属于字符类别的对应得分，得分最高的类别为字符类别预测的结果。
根据权利要求7所述的一种文字识别网络模型训练方法，其中，所述根据所述字符类别预测的结果和所述字符类别标注，设计目标损失函数，利用反向传播算法进行迭代，最小化所述目标损失函数，优化所述注意力权重，包括：

定义目标损失函数为：

L _total＝L _cls+λ(L _center+L _contra)

其中L _cls为交叉熵损失函数，L _center为用于减少同一类字符的各个注意力特征之间的距离的区域中心损失函数，L _contra为将图片I _i的多个所述注意力特征向量f _i ^s在高维空间的拉远的对比度损失函数，λ为用于控制两种损失函数所占的权重的超参数；

对比度损失函数定义为：

其中D(I _i)定义为：

其中m为预设阈值；

区域中心损失函数定义为：

其中
是y _i类的第s个注意力特征的中心，d表示特征的维数，注意力特征中心
用均值为0，方差为1的高斯分布初始化，然后根据区域中心损失函数算法更新特征中心；

根据所述目标损失函数，利用反向传播算法进行迭代，最小化所述交叉熵损失函数，优化所述注意力权重。
一种文字识别方法，包括：

将待测试图片进行标准化，缩放到预设高度H和预设宽度W；

将所述待测试图片输入卷积神经网络，提取所述待测试图片的卷积特征，得到包含所述卷积特征的深度特征图；

将所述深度特征图输入具有多个通道的注意力机制模块，得到每个通道的注意力权重，使用所述注意力权重重新对所述深度特征图的每个通道进行缩放获得多个注意力特征图；

将每一个所述注意力特征图分别输入全连接层，得到多个注意力特征向量；

将多个所述注意力特征向量进行特征融合，输入到字符类全连接层进行字符类别预测。
根据权利要求9所述的一种文字识别方法，其中，所述卷积神经网络包括若干卷积层和若干卷积模块；

所述待测试图片输入卷积神经网络，提取所述待测试图片的卷积特征，得到包含所述卷积特征的深度特征图，包括：

将所述待测试图片I _i输入所述若干卷积层中，每个卷积层后均接一个批归一化层和非线性激活函数ReLU，然后输入到最大池化层进行采样，再输入到所述若干卷积模块中，每个卷积模块由若干数量相同的卷积层和批归一化层构成，每个批归一化层均跟在每个卷积层之后，每个所述卷积模块之间用最大池化层相连接，最后一个所述卷积模块输出包含卷积特征的深度特征图X _i。
根据权利要求9或10所述的一种文字识别方法，其中，所述注意力权重通过以下步骤获得：

所述注意力机制模块使用全局平均池化在空间维度上汇集输入的所述深度特征图以生成通道描述子，使用带有Sigmoid激活的门控机制处理所述通道描述子得到每个通道的注意力权重。
根据权利要求10所述的一种文字识别方法，其中，所述将所述深度特征图输入具有多个通道的注意力机制模块，得到每个通道的注意力权重，使用所述注意力权重重新对所述深度特征图的每个通道进行缩放获得多个注意力特征图，包括：

所述注意力机制模块使用全局平化池在H×W的空间维度上汇集输入的所述深度特征图X _i，以生成通道描述子z ^s＝[z ₁,···，z _C]，其中z ^s的第c个元素z ^c的计算方法是：

其中s＝1，···，S，S为注意力机制模块的数量；

其中c＝1，···，C，C为通道数量；

在z ^s上使用带有Sigmoid激活的门控机制，处理所述通道描述子，得到每个注意力机制模块的注意力权重：

其中，σ为Sigmoid函数，δ为ReLU函数，
r为通道压缩比率；

每个所述注意力机制模块使用所述注意力权重重新对所述深度特征图X _i的每个通道进行缩放获得多个注意力特征图

其中
表示标准化的图片I _i对应的所述注意力特征图的第c个通道
和标量
之间的乘积。
根据权利要求12所述的一种文字识别方法，其中，所述将每一个所述注意力特征图分别输入全连接层，得到多个注意力特征向量，包括：

将多个所述注意力特征图
分别输入到全连接层：

其中运算符F _flatt(·)将矩阵平铺为1维向量。
根据权利要求13所述的一种文字识别方法，其中，所述将多个所述注意力特征向量进行特征融合，输入到字符类全连接层进行字符类别预测，包括：

将多个所述注意力特征向量f _i ^s(s＝1,···,S)进行特征融合，再输入到字符类全连接层进行字符类别预测：

Y _i＝soft max(W·[f _i ¹,···,f _i ^S])

其中，[·]表示级联操作，Y _i表示图片I _i属于字符类别的对应得分，得分最高的类别为字符类别预测的结果。
一种文字识别网络模型训练装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1至8中任意一项所述的文字识别网络模型训练方法。
一种文字识别装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求9至14中任意一项所述的文字识别方法。
一种终端，包括如权利要求15所述的文字识别网络模型训练装置或者包括如权利要求16所述的文字识别装置。
一种计算机存储介质，存储有计算机可执行指令，其中，所述计算机可执行指令用于执行权利要求1至8中任意一项所述的文字识别网络模型训练方法或用于执行权利要求9至14中任意一项所述的文字识别方法。