WO2020228519A1

WO2020228519A1 - 字符识别方法、装置、计算机设备以及存储介质

Info

Publication number: WO2020228519A1
Application number: PCT/CN2020/087010
Authority: WO
Inventors: 吕鹏原; 杨志成; 冷欣航; 李睿宇; 沈小勇; 戴宇荣; 贾佳亚
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-05-10
Filing date: 2020-04-26
Publication date: 2020-11-19
Also published as: CN110097019B; CN110097019A; US20220004794A1

Abstract

本申请公开了一种字符识别方法、装置、计算机设备以及存储介质，属于图像处理技术领域。本申请实施例的技术方案可以用于从待识别图像中提取出目标数量个字符，通过提取图像的图像特征，该图像特征包括多个图像特征向量，采用注意力机制，根据该多个图像特征向量，通过并行计算的方式计算输出目标数量个字符所对应的注意力权值。其中，一个注意力权值可以表示多个图像特征向量针对该注意力权值所对应字符的重要程度。使得在字符识别的过程中，通过上述基于注意力机制的识别，能够通过简单的流程有效的进行任意形状的字符识别，避免循环运算的过程，大大提高了运算效率。

Description

字符识别方法、装置、计算机设备以及存储介质

本申请要求于2019年05月10日提交中国专利局、申请号为201910387655.1、申请名称为“字符识别方法、装置、计算机设备以及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及网络技术领域，特别涉及一种字符识别技术。

背景技术

随着用户对智能识别技术的需求，字符识别有着巨大的应用需求，其可以使用于任何需要从图片中提取文字信息的场景，比如文档电子化、证件照识别、图片舆情监测及非法图片过滤等等。

在实际使用时，待识别的文本经常会是不规则文本，为此，在进行字符识别的过程中经常需要将不规则文本转化为规则文本，从而再对规则文本进行识别。

发明内容

本申请实施例提供了一种字符识别方法、装置、计算机设备以及可读存储介质，提高了字符识别效率。该技术方案如下：

一方面，提供了一种字符识别方法，所述方法包括：

提取待识别的图像的图像特征，所述图像特征包括多个图像特征向量；

基于所述多个图像特征向量，通过并行计算，获取目标数量的注意力权值，其中，一个注意力权值用于表示所述多个图像特征向量针对这个注意力权值所对应字符的重要程度；

根据所述多个图像特征向量和所述目标数量的注意力权值，得到所述至少一个字符。

一方面，提供了一种字符识别装置，所述装置包括：

特征提取单元，用于提取待识别的图像的图像特征，所述图像特征包括多个图像特征向量；

并行处理单元，用于基于所述多个图像特征向量，通过并行计算，获取目标数量的注意力权值，其中，一个注意力权值用于表示所述多个图像特征向量针对这个注意力权值所对应字符的重要程度；

字符获取单元，用于根据所述多个图像特征向量和所述目标数量的注意力权值，得到所述至少一个字符。

在一种可能实现方式中，所述装置还包括：

依赖关系获取单元，用于获取所述二维图像特征中每个图像特征向量的依赖特征向量，所述依赖特征向量用于表示图像信息以及图像特征向量与其他图像特征向量之间的依赖关系；

所述并行处理单元，具体用于基于所述多个图像特征向量的依赖特征向量，通过并行计算，获取目标数量的注意力权值。

在一种可能实现方式中，所述特征提取单元用于将所述图像输入卷积神经网络，通过所述卷积神经网络中主干网络的各个通道对所述图像进行特征提取，输出所述图像特征向量。

在一种可能实现方式中，所述依赖关系获取单元用于将所述多个图像特征向量输入字符识别模型的关系注意力模块，通过所述关系注意力模块每一层中的转换单元对所述图像特征向量与其他图像特征向量在注意力映射空间进行相似度计算，以得到所述图像特征向量与其他图像特征向量分别对应的权重，并基于得到的权重进行计算，输出所述图像特征向量的依赖特征向量。

在一种可能实现方式中，所述特征提取单元用于：对所述图像特征中的各个图像特征向量进行拼接，得到特征序列；基于各个图像特征向量在所述特征序列中的位置，为每个图像特征向量确定对应的位置向量；根据每个图像特征向量与对应的位置向量，得到经所述位置向量处理后的所述多个图像特征向量。

在一种可能实现方式中，所述并行处理单元用于将所述多个图像特征向量的依赖特征向量输入并行注意力模块，通过所述并行注意力模块中的目标数量的输出节点并行对输入的特征向量进行计算，输出所述目标数量的注意力权值。

在一种可能实现方式中，字符获取单元包括：

特征确定子单元，用于根据所述多个图像特征向量和所述目标数量的注意力权值，得到至少一个注意力特征；

解码子单元，用于对所述至少一个注意力特征进行解码，得到所述至少一个字符。

在一种可能实现方式中，该解码子单元，用于将所述至少一个注意力特征输入字符识别模型的解码模块中，对于每个注意力特征，通过所述解码模块获取所述注意力特征对应的依赖特征，对所述注意力特征对应的依赖特征向量进行解码，将解码所得到的字符中概率最大的字符作为所述注意力特征对应的字符输出。

一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上述的字符识别方法所执行的操作。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上述的字符识别方法所执行的操作。

一方面，提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行上述方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例的技术方案可以用于从待识别图像中提取出目标数量个字符。在该方案中，通过提取待识别的图像的图像特征，该图像特征包括多个图像特征向量，采用注意力机制，根据该多个图像特征向量，通过并行计算的方式计算输出目标数量个字符所对应的注意力权值。其中，一个注意力权值可以表示多个图像特征向量针对该注意力权值所对应字符的重要程度。使得在字符识别的过程中，通过上述基于注意力机制的识别，能够通过简单的流程有效的进行任意形状的字符识别，避免循环运算的过程，大大提高了运算效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个示例性实施例提供的字符识别系统的结构框图；

图2a是本申请实施例所涉及到的字符识别过程的简要流程图；

图2b是本申请实施例所涉及到的字符识别过程的简要流程图；

图3是本申请实施例提供的一种字符识别方法的流程图；

图4是本申请实施例提供的关系注意力模块的结构示意图；

图5是本申请实施例提供的二级解码器的结构示意图；

图6a是本申请实施例提供的一种字符识别装置的结构示意图；

图6b是本申请实施例提供的一种字符识别装置的结构示意图；

图7是本申请实施例提供的一种终端的结构示意图；

图8是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

注意力机制(Attention Mechanism)：是利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段。视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其他无用信息。注意力机制被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中，是深度学习技术中最值得关注与深入了解的核心技术之一。

综上，注意力机制主要有两个方面：一是决定需要关注输入的哪部分；二是分配有限的信息处理资源给重要的部分。深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似，核心目标也是从众多信息中选择出对当前任务更关键的信息。

图1示出了本申请一个示例性实施例提供的字符识别系统100的结构框图。该字符识别系统100包括：终端110和字符识别平台140。

终端110通过无线网络或有线网络与字符识别平台110相连。终端110可以是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3播放器、MP4播放器和膝上型便携计算机中的至少一种。终端110安装和运行有支持字符识别的应用程序。该应用程序可以是社交应用程序、即时通讯应用程序、翻译类应用程序、购物类应用程序、浏览器程序、视频程序中的任意一种。示意性的，终端110是第一用户使用的终端，终端110中运行的应用程序内登录有第一用户账号。

终端110通过无线网络或有线网络与字符识别平台140相连。

字符识别平台140包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。字符识别平台140用于为支持字符识别的应用程序提供后台服务。可选地，字符识别平台140承担主要识别工作，终端110承担次要识别工作；或者，字符识别平台140承担次要识别工作，终端110承担主要识别工作；或者，字符识别平台140或终端110分别可以单独承担识别工作。

可选地，字符识别平台140包括：接入服务器、字符识别服务器和数据库。接入服务器用于提供终端110提供接入服务。字符识别服务器用于提供字符识别有关的后台服务。字符识别服务器可以是一台或多台。当字符识别服务器是多台时，存在至少两台字符识别服务器用于提供不同的服务，和/或，存在至少两台字符识别服务器用于提供相同的服务，比如以负载均衡方式提供同一种服务，本申请实施例对此不加以限定。字符识别服务器中可以设置有字符识别模型。在本申请实施例中，该字符识别模型是基于注意力机制所构建的识别模型。

终端110可以泛指多个终端中的一个，本实施例仅以终端110来举例说明。终端110的类型包括：智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3播放器、MP4播放器和膝上型便携计算机中的至少一种。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述字符识别系统还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。

图2a是本申请实施例所涉及到的字符识别过程的简要流程图。参见图2，整个字符识别模型总共包含3个模块：图像特征提取模块、并行注意力模块以及解码模块。

基于上述模块，在字符识别模型中输入一幅图像，可以采用h和w分别表示输入图像的大小，c是通过特征提取所得到的图像特征的通道数，n是并行注意力模块的输出节点的个数即目标数量，h、w、n和c均为大于1的正整数。首先使用图像特征提取模块，来提取图像的图像特征，然后将该图像特征中的图像特征向量输入到并行注意力模块，以得到n个的注意力权值(掩膜mask)，最后，使用图像特征向量和注意力权值得到每一个字符对应的注意力特征(glimpse)，最后通过解码模块将注意力特征解码为字符。

在本申请实施例中，上述注意力机制用于对多个图像特征向量赋予不同的权重，例如：在上述并行注意力模块中，对于重要程度较高的图像特征向量赋予较高的权重，对于重要程度较低的图像特征向量赋予较低的权重，从而减少重要程度较低的图像特征向量对解码的影响。

图2b是本申请实施例所涉及到的另一种字符识别过程的简要流程图。参见图2b，相比于上述图2a中的字符识别模型，该字符识别模型总共包含4个模块：图像特征提取模块、关系注意力模块、并行注意力模块以及解码模块。

相比上述通过图2a对应的字符识别模型进行字符识别的方式，该方案在提取图像的图像特征之后，可以将该图像特征中的图像特征向量输入到关系注意力模块，以获取图像特征向量间的相互依赖关系，该依赖关系可以表示为c维向量，此后，将关系注意力模块的输出输入到并行注意力模块，以得到n个的注意力权值，从而，使用图像特征向量和注意力权值得到每一个字符对应的注意力特征，最后通过解码模块将注意力特征解码为字符。

在本申请实施例中，上述注意力机制用于对多个图像特征向量赋予不同的权重，例如：在上述关系注意力模块中，对于与其他特征在注意力映射空间内的相似度较高的图像特征向量赋予较高的权重，对于相似度较低的图像特征向量赋予较低的权重，在上述并行注意力模块中，对于重要程度较高的图像特征向量赋予较高的权重，对于重要程度较低的图像特征向量赋予较低的权重，从而减少重要程度较低的图像特征向量对解码的影响。

下面，基于上述图2a所示的模型架构和简要流程，提供了如图3所示的一种字符识别方法的具体实施过程，本申请实施例仅以执行主体为一计算机设备为例进行说明，该计算机设备在实施环境中可以实施为终端或服务器，参见图3，该方法包括：

301、计算机设备提取待识别的图像的图像特征。

其中，图像特征包括多个图像特征向量。

在本申请实施例中，计算机设备可以将待识别的图像输入字符识别模型的图像特征提取模块，通过图像特征提取模块的各个通道对该图像进行特征提取，输出包括多个图像特征向量的图像特征。

需要说明，本申请实施例不限定该图像特征的维数，该图像特征可以是一维图像特征，也可以是二维图像特征。二维图像特征的维度可以是针对图像宽和高这两个方向的维度，接下来以二维图像特征为例对本申请实施例提供的技术方案进行介绍。

为了提高图像特征提取速度，在一种可能的实现方式中，提取待识别的图像的多个二维图像特征的过程可以采用卷积神经网络的主干网络来实现，例如，该主干网络可以为基于残差结构(ResNet)的主干网络，当然，该主干网络包括但不仅限于ResNet，该主干网络还可以采用其它卷积神经网络，例如Inception-Resnet-V2、NasNet、MobileNet等，此处不作限定。

在一种可能的实施方式中，主干网络可以是卷积神经网络中除去分类模块的剩余结构，其可以包括多个卷积层，例如，该主干网络可以是保留到最后一个卷积层(convolution layer)的卷积神经网络。主干网络的输出可以是图像的特征图(feature map)。

例如，基于上述图2b所示的模型结构，可以通过图像特征提取模块提取图像的二维图像特征，为了保留足够的空间信息，图像特征提取模块的输出的二维图像特征的总大小可以为

实际上，该二维图像特征由

个c维的图像特征向量构成，每个图像特征向量可以表示为I _i，i为小于或等于k 的正整数，其中，

302、该计算机设备基于多个图像特征向量，通过并行计算，获取目标数量的注意力权值。其中，一个注意力权值用于表示多个图像特征向量针对这个注意力权值所对应字符的重要程度。

303、该计算机设备根据该多个图像特征向量和该目标数量的注意力权值，得到至少一个注意力特征。

其中，上述中的目标数量可以是针对字符识别模型预设的字符输出数量。在本申请实施例中，可以为字符识别模型设置目标数量，以使通过该字符识别模型进行字符识别的图像输出目标数量个字符。

在本申请实施例中，针对对图像进行识别得到的一个字符，其可以对应于一个注意力权值，该注意力权值用于标识了多个图像特征向量针对该注意力权值所对应字符的重要程度。通过根据多个图像特征向量和一个注意力权值进行计算，可以得到并输出该注意力权值对应的字符。

可以理解，一些图像中的字符可能少于目标数量，由此，针对于图像中包括的字符，计算得到的注意力权值中的部分数值相对较高，针对图像中不包括的字符，对应计算得到的注意力权值中的全部数值会相对较低，导致根据该注意力权值计算得到的字符接近0，从而该注意力权值对应的输出的字符为空。

下面进行举例说明。假设目标数值为2，待识别的图像中包括1个字母分别为a，对图像提取了3个图像特征向量分别为m1、m2和m3，该3个图像特征向量对应于图像中的3片区域。计算得到的目标数量即2个注意力权值分别为x1和x2。

其中，假设x1中对应于通过识别该图像应该输出的第一个字符，x1中针对这3个图像特征向量的重要程度分别为0.8、0、0(即对应于m1、m2和m3)；从而，基于该第一个字符的注意力权值x1，图像特征向量m1的重要程度较高，即该第一个字符在图像特征向量对应的区域的可能性更大，由此根据这三个图像特征向量和该注意力权值x1，得到第一个字符为“a”。另外，注意力权值x2中对应于通过识别该图像应该输出的第二个字符，x2中针对这3个图像特征向量的重要程度分别为0、0、0(即对应于m1、m2和m3)；从而，基于该第二个字符的注意力权值x2，对三个图像特征向量的重要程度均不高，可以确定该图像中不包括第二个字符，由此根据这三个图像特征向量和该注意力权值x2，得到空的第二个字符。

在具体实现中，可以通过上述并行注意力模块进行该目标数量的注意力权值。其中，该并行注意力模块包括目标数量个输出节点，记为n个，n为小于k的整数，根据输入的多个图像特征向量，每个输出节点可以并行计算注意力权值。在该步骤302中，该并行注意力模块采用下述公式对输入的图像特征向量进行计算，以输出所述目标数量的注意力权值：

α＝softmax(W ₂tanh(W ₁O ^T)

其中，α用于表示注意力权值，tanh()为双曲正切函数，softmax()为归一化函数，O ^T为输出节点的输入即图像特征向量，W ₁和W ₂是学习得到的参数。

上述步骤302是基于所述多个图像特征向量的依赖特征向量，获取目标数量的注意力权值的过程，在该过程中，采用了并行注意力模块进行具体的计算过程，该并行注意力模块区别于传统的注意力模块，不再基于前一时刻的值来确定当前时刻的注意力权值，而是移除掉各个输出节点之间的相互关系，对于每一个节点来说，其计算都是独立的，实现了并行的计算。

从而，计算机设备可以根据该图2a或图2b的字符识别模型中的解码模块，实现根据该多个图像特征向量和该目标数量的注意力权值，得到至少一个注意力特征。

另外，通过提取图像的二维图像特征，采用注意力机制，来确定二维图像特征中图像特征向量之间的依赖关系，从而进一步采用并行计算注意力权值的方式来确定特征的重要程度，使得在字符识别的过程中，可以直接基于二维图像特征以及二维图像特征中各个特征向量的重要程度，来进行字符识别，上述基于二维图像特征的处理过程，由于保留了特征的空间信息，因此可以大大提高字符识别的准确性。

接下来基于上述图2b所示的模型架构和简要流程，介绍另一种字符识别方法，该方法包括：

401、计算机设备将待识别的图像输入字符识别模型的图像特征提取模块，通过图像特征提取模块的各个通道对该图像进行特征提取，输出包括多个图像特征向量的图像特征。

针对该步骤401的介绍如前述步骤301，此处不再赘述。

402、该计算机设备将该图像特征提取模块输出的二维图像特征中的多个图像特征向量输入该字符识别模型的关系注意力模块，通过该关系注意力模块每一层中的转换单元对每个图像特征向量与其他图像特征向量在注意力映射空间进行相似度计算，以得到各个图像特征向量的权重，并基于得到的权重进行计算，输出图像特征向量的依赖特征向量。

在一种可能的实现方式中，可以基于权重做线性加权，对线性加权得到的特征向量进行非线性处理，得到图像特征向量的依赖特征向量。

其中，该关系注意力模块由很多转换单元构成，且为一个多层双向的结构。每一层的转换单元的个数和输入的图像特征向量个数相等。

参见图4，该图4中(a)图所表示的即为该关系注意力模块的内部结构，该关系注意力模块包括多个层，每个层中包括与输入的图像特征向量相同个数的转化单元。图4中(b)图所表示的为一个转换单元的内部结构。其中，dotmat用于表示点乘计算，softmax用于表示归一化处理，matmut用于表示矩阵乘法，layernorm用于表示在通道方向上的归一化处理，linear用于表示线性计算，GELU用于表示基于激活函数的变换处理。对于每个转换单元来说，转换单元包括三个输入Query(查询)、Key(键)以及Value(值)，也即是，可以理解为这是一个查字典的过程，Key-Value对构成一个字典，用户给一个Query，计算机设备可以找到与之相同的Key，返回对应的Value，在关系注意力模块中，可以通过分别计算Query和每一个输入的Key的相似度，来作为权重分配到所有的Value上，并输出它们的加权求和作为本次输出的Value。

其中，转换单元的输入分别采用下式(1)、(2)和(3)表示：

其中，l表示该转换单元所在的层，i表示该转换单元为该层的第几个转换单元，

表示第l层第i个转换单元的Query，其可以为一个1×c大小的向量，

和V _l ⁱ分别表示对应的Key和Value,其大小均为

O _l-1是上一层所有转换单元的输出，其形状大小也为

基于上述公式可以看出，对于第一层的转换单元，其输入来源于该图像特征提取模块所输出的二维图像特征中的多个图像特征向量。对于不是第一层的转换单元，其输入来源于上一层所有转换单元的输出。

其中，该关系注意力模块中每一层中的转换单元的输出为输入的加权和，权值采用下式(4)表示：

其中，W是学习得到的参数，

表示第l层第i个转换单元对应的第j个key的权重，公式的分母用于表示k个转换单元输出的加权和。

转换单元的输出采用下式(5)表示：

在上述公式(5)中，Func()是一个非线性的函数。基于非线性函数，将一个表征能力有限的线性函数做非线性处理，以提高其表征能力。需要说明的是，该非线性函数可以采用任一种非线性函数，本申请实施例对此不做限定。

以第一层的第i个转换单元为例，对转换单元的工作原理进行介绍：将F作为输入，对于第i个转换单元来说，其Query为F _i，Key和Value均是{F ₁,F ₂……F _k}，分别计算F _i与{F ₁,F ₂……F _k}中各个图像特征向量在注意力映射空间内的相似度，再通过softmax归一化，以得到权重，将经过归一化得到的权重和Value做线性加权，将线性加权得到的权值经过如(b)中结构的非线性处理，输出O _i，作为下一层中第i个转换单元的一个输入。

通过上述直接基于图像特征向量的依赖关系的确定，可以避免由于特征从二维转换为一维时所造成的空间信息丢失的问题，上述过程的计算量相对较小，因此也能够相应提高字符识别过程中的运算效率。

在一种可能实现方式中，还可以在将图像特征向量输入到关系注意力模块之前，提高该图像特征向量的位置敏感性，也即是，对所述二维图像特征中的各个图像特征向量进行拼接，得到特征序列；基于各个图像特征向量在所述特征序列中的位置，为每个图像特征向量确定对应的位置向量；其中，该位置向量可以是与图像特征向量维度相同的向量。然后，根据每个图像特征向量与对应的位置向量，如将每个图像特征向量与对应的位置向量相加，得到处理后的所述多个图像特征向量。由于位置向量可以代表该特征向量的位置，因此，所得到的图像特征向量在对应位置上的数值会发生显著变化，从而达到提高位置敏感性的目的。

上述对图像特征向量处理的过程，可以理解为以下过程：该各个通道输出的特征向量总大小为

因此，可以将其展开成c维的特征序列，其中包括

个c维的特征向量。可以基于各个特征向量在特征序列中的位置来进行编码，例如，对于特征序列中第一个特征向量，可以为其编码得到(1,0，0，……0)的维度为c的位置向量E _i，再将每一个特征向量I _i和对应的位置向量E _i相加，即可得到位置敏感的图像特征向量，这种处理后的图像特征向量可以用F _i来表示。

在得到该处理后的多个图像特征向量后，计算机设备可以将该处理后的多个图像特征向量作为关系注意力模块的第一层的输入，来继续进行加权计算等过程，以输出各个图像特征向量的依赖特征向量。

该方法通过根据图像特征向量对应的依赖特征向量进行注意力权值的计算，由于依赖特征向量体现了该图像特征向量所对应图像信息以及该图像特征向量与其他图像特征向量间的依赖关系，使得在计算注意力权值的过程中将该依赖关系考虑在内，由此提高了注意力权值计算的准确性，进而提高了字符识别效率。

403、该计算机设备将关系注意力模块输出的该多个图像特征向量的依赖特征向量输入字符识别模型中的并行注意力模块，通过该并行注意力模块中的各个输出节点并行对输入的特征向量进行计算，输出目标数量的注意力权值。

其中，每个输出节点会并行计算输入的依赖特征向量的注意力权值。在该步骤403中，该并行注意力模块采用下述公式(6)对输入的图像特征向量进行计算，以输出所述目标数量的注意力权值：

α＝softmax(W ₂tanh(W ₁O ^T)) (6)

其中，对于输出节点来说，其输入O ^T可以为关系注意力模块的输出。

404、该计算机设备根据该多个图像特征向量和该目标数量的注意力权值，得到至少一个注意力特征。

其中，G _i为第i个输出节点的输出的注意力特征。该注意力特征可以是用于通过解码得到待识别的图像中第i个字符的特征。该α可以理解为针对第i个字符该多个图像特征向量对应的重要程度，也可以理解为当前时刻对输入图像的每一个局部的关注程度，从图像处理的角度也可以理解为一个掩膜(mask)，该注意力权值和图像特征向量的加权求和得到的注意力特征，可以理解为网络对输入图像选择性观察得到的结果。

从而通过对该至少一个注意力特征进行解码，得到至少一个字符。

其中，可以通过下述步骤405的方式进行解码。

405、该计算机设备将该至少一个注意力特征输入字符识别模型中的两级解码器进行解码，输出该至少一个字符。

该计算机设备通过对至少一个注意力特征的解码，可以将注意力特征转化为字符，从而实现字符识别。在本申请实施例中，为了提高识别准确率，可以采用两级解码器来捕获输出节点之间的相互依赖。

为了捕获输出节点之间的相互依赖，本申请实施例采用两级解码器来实现解码模块的功能，具体地，将所述至少一个注意力特征输入字符识别模型的两级解码器中，对于每个注意力特征，通过所述两级解码器中的关系注意力模块获取所述注意力特征的依赖特征向量，再通过解码器对所述注意力特征对应的依赖特征向量进行解码，将解码所得到的字符中概率最大的字符作为所述注意力特征对应的字符输出。

在一种可能实施方式中，可以通过如下的方式计算每一个字符的概率：

P _i＝softmax(WG _i+b) (8)

当然，上述二级解码器可以通过训练得到，其中，W为训练得到的权重值，b为训练过程中得到的偏置值，在训练时，对于训练样本进行初始化时，对于字符长度小于n的字符序列，可以使用“-”将其填充成长度为n的序列，对于长度大于n的序列，将其截断成长度为n的序列。“-”为特殊字符，可以用于表示字符序列的结束(end of sequence)。

训练二级解码器的过程可以参见图5所示的二级解码器的训练架构，其中，Ω为字符集。对于大小为n×c的注意力特征G来说，可以通过第一分支中的解码器进行解码，以得到第一分支的解码器对应的概率矩阵，该概率矩阵中的每个元素用于表示该注意力特征为字符集中任一个字符的概率，同时，该注意力特征G可以通过第二分支中关系注意力模块的处理，以得到该注意力特征与其他注意力特征之间的依赖关系，该依赖关系可以采用大小为n×c的依赖特征向量来表示，再将该依赖特征向量通过第二分支的解码器，以得到解码器对应的概率矩阵，对于一个注意力特征来说，将该第一分支所输出的概率矩阵和第二分支所输出的概率矩阵中概率最大的字符作为该注意力特征解码得到的字符。

在训练时可以同时优化这两个解码器，优化损失函数如下：

其中，y表示训练样本对应的字符串的真值，P是字符的概率。通过上述训练过程，则可以得到权重和偏置值，从而，在应用过程中，可以将第二分支作为字符识别模型的解码模块，以在解码后最终输出解码所得到的字符序列。

对于上述实施方式来说，如果不考虑计算高效度的情况下，还可以直接基于图像特征向量使用串行计算的方式来得到注意力特征，对此本申请实施例不做具体限定。另外，上述技术方案可适用的网络结构，优化方法等包括但不局限于上述通过图示以及公式所提供的结构和损失函数。

本申请实施例提供的方法，通过提取图像的二维图像特征，采用注意力机制，来确定二维图像特征中图像特征向量之间的依赖关系，从而进一步采用并行计算注意力权值的方式来确定特征的重要程度，使得在字符识别的过程中，可以直接基于二维图像特征以及二维图像特征中各个特征向量的重要程度，来进行字符识别，上述基于二维图像特征的处理过程，由于保留了特征的空间信息，因此可以大大提高字符识别的准确性，并且通过上述基于注意力机制的识别，能够通过简单的流程有效的进行任意形状的字符识别，避免循环运算的过程，大大提高了运算效率。

图6a是本申请实施例提供的一种字符识别装置的结构示意图，参见图6a，所述装置包括：

特征提取单元601，用于提取待识别的图像的图像特征，所述图像特征包括多个图像特征向量；

并行处理单元603，用于基于所述多个图像特征向量，通过并行计算，获取目标数量的注意力权值，其中，一个注意力权值用于表示所述多个图像特征向量针对这个注意力权值所对应字符的重要程度；

字符获取单元604，用于根据所述多个图像特征向量和所述目标数量的注意力权值，得到所述至少一个字符。

在一种可能的实现方式中，参见图6b，该图示出了本申请实施例提供的一种字符识别装置的结构示意图，所述装置还包括：

依赖关系获取单元603，用于获取所述二维图像特征中每个图像特征向量的依赖特征向量，所述依赖特征向量用于表示图像信息以及图像特征向量与其他图像特征向量之间的依赖关系；

所述并行处理单元604，具体用于基于所述多个图像特征向量的依赖特征向量，通过并行计算，获取目标数量的注意力权值。

在一种可能实现方式中，所述特征提取单元用于将所述图像输入卷积神经网络，通过所述卷积神经网络中主干网络的各个通道对所述图像进行特征提取，输出所述图像特征。

在一种可能实现方式中，所述依赖关系获取单元用于将所述多个图像特征向量输入字符识别模型的关系注意力模块，通过所述关系注意力模块每一层中的转换单元对所述图像特征向量与其他图像特征向量在注意力映射空间进行相似度计算，以得到所述图像特征向量与其他图像特征向量分别对应的权重，并基于得到的权重进行计算，输出图像特征向量的依赖特征向量。

在一种可能实现方式中，所述关系注意力模块中每一层中的转换单元的输入

和V _l ⁱ分别采用下式(1)、(2)和(3)表示：

其中，l表示转换单元所在的层，i表示转换单元为该层的第几个转换单元，

和V _l ⁱ表示第l层第i个转换单元的输入，F _i表示第i个图像特征向量，F是所述多个图像特征向量的集合，O _l-1是上一层所有转换单元的输出。

在一种可能实现方式中，所述关系注意力模块中每一层中的转换单元的输出为输入的加权和，其中，权值采用下式(4)表示：

其中，W是学习得到的参数，

表示第l层第i个转换单元对应的第j个key的权重，公式的分母用于表示k个转换单元输出的加权和；

转换单元的输出采用下式(5)表示：

其中，Func()是一个非线性的函数，

是第l层的第i个转换单元的输出。

在一种可能实现方式中，所述特征提取单元用于：对所述二维图像特征中的各个图像特征向量进行拼接，得到特征序列；基于各个图像特征向量在所述特征序列中的位置，为每个图像特征向量确定对应的位置向量；根据每个图像特征向量与对应的位置向量，得到经所述位置向量处理后的所述多个图像特征向量。

在一种可能实现方式中，所述并行处理单元603用于将所述多个图像特征向量的依赖特征向量输入并行注意力模块，通过所述并行注意力模块中的目标数量的输出节点并行对输入的特征向量进行计算，输出所述目标数量的注意力权值。

在一种可能实现方式中，所述并行注意力模块采用下述公式对输入的特征进行计算，以输出所述目标数量的注意力权值：

α＝softmax(W ₂tanh(W ₁O ^T)) (6)

其中，α用于表示注意力权值，tanh()为双曲正切函数，softmax()为归一化函数，O ^T为输出节点的输入，W ₁和W ₂是学习得到的参数。

在一种可能实现方式中，字符获取单元包括：

在一种可能实现方式中，该解码子单元，用于将所述至少一个注意力特征输入字符识别模型的解码模块中，对于每个注意力特征，通过所述解码模块获取所述注意力特征的依赖特征向量，对所述注意力特征对应的依赖特征向量进行解码，将解码所得到的字符中概率最大的字符作为所述注意力特征对应的字符输出。

本申请实施例所提供的方法可以实施于计算机设备，该计算机设备可以实施为服务器，例如，图7是本申请实施例提供的一种服务器的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)701和一个或一个以上的存储器702，其中，该存储器702中存储有至少一条指令，该至少一条指令由该处理器701加载并执行以实现上述各个方法实施例提供的字符识别方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例所提供的方法可以实施于计算机设备，该计算机设备可以实施为终端，例如，图8是本申请实施例提供的一种终端的结构示意图。该终端800可以是便携式移动终端，比如：智能手机、平板电脑、动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III，MP3)播放器、动态影像专家压缩标准音频层面4(Moving Picture Experts Group Audio Layer IV，MP4)播放器、笔记本电脑、台式电脑、头戴式设备，或其他任意智能终端。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器(Central Processing Unit，CPU)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有图像处理器(Graphics Processing Unit，GPU)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括人工智能(Artificial Intelligence，AI)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所具有以实现本申请中方法实施例提供的字符识别方法。

在一些实施例中，终端800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、触摸显示屏805、摄像头806、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将输入/输出(Input/Output，I/O)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射射频(Radio Frequency，RF)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、 4G及8G)、无线局域网和/或无线保真(Wireless Fidelity，WiFi)网络。在一些实施例中，射频电路804还可以包括近距离无线通信(Near Field Communication，NFC)有关的电路，本申请对此不加以限定。

显示屏805用于显示用户界面(User Interface，UI)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置终端800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在终端800的不同表面或呈折叠设计；在再一些实施例中，显示屏805可以是柔性显示屏，设置在终端800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用液晶显示屏(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及虚拟现实(Virtual Reality，VR)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位终端800的当前地理位置，以实现导航或基于位置的服务(Location Based Service，LBS)。定位组件808可以是基于美国的全球定位系统(Global Positioning System，GPS)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以终端811建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测终端800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在终端800的侧边框和/或触摸显示屏805的下层。当压力传感器813设置在终端800的侧边框时，可以检测用户对终端800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时，由处理器801根据用户对触摸显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户具有相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商标志集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制触摸显示屏805的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏805的显示亮度；当环境光强度较低时，调低触摸显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时，由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时，由处理器801控制触摸显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对终端800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端或服务器中的处理器执行以完成上述实施例中的字符识别方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本申请实施例还提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行上述方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种字符识别方法，所述方法包括：

提取待识别的图像的图像特征，所述图像特征包括多个图像特征向量；

基于所述多个图像特征向量，通过并行计算，获取目标数量的注意力权值，其中，一个注意力权值用于表示所述多个图像特征向量针对这个注意力权值所对应字符的重要程度；

根据所述多个图像特征向量和所述目标数量的注意力权值，得到所述至少一个字符。
根据权利要求1所述的方法，所述方法还包括：

获取所述图像特征中每个图像特征向量的依赖特征向量，所述依赖特征向量用于表示图像信息以及图像特征向量与其他图像特征向量之间的依赖关系；

所述基于所述多个图像特征向量，通过并行计算，获取目标数量的注意力权值，包括：

基于所述多个图像特征向量的依赖特征向量，通过并行计算，获取目标数量的注意力权值。
根据权利要求1所述的方法，所述提取待识别的图像的图像特征，包括：

将所述图像输入卷积神经网络，通过所述卷积神经网络中主干网络的各个通道对所述图像进行特征提取，输出所述图像特征。
根据权利要求3所述的方法，所述卷积神经网络中主干网络包括所述卷积神经网络中除去分类模块的剩余结构。
根据权利要求2所述的方法，所述获取所述图像特征中每个图像特征向量的依赖特征向量，包括：

将所述多个图像特征向量输入字符识别模型的关系注意力模块，通过所述关系注意力模块每一层中的转换单元对所述图像特征向量与其他图像特征向量在注意力映射空间进行相似度计算，以得到所述图像特征向量与其他图像特征向量分别对应的权重，并基于得到的权重进行计算，输出所述图像特征向量的依赖特征向量。
根据权利要求5所述的方法，所述输出所述图像特征向量的依赖特征向量之前，所述方法还包括：

基于所述权重做线性加权，对所述线性加权得到的特征向量进行非线性处理，得到所述图像特征向量的依赖特征向量。
根据权利要求1-6任意一项所述的方法，所述图像特征为二维图像特征。
根据权利要求7所述的方法，在所述获取所述图像特征中每个图像特征向量的依赖特征向量之前，所述方法还包括：

对所述图像特征中的各个图像特征向量进行拼接，得到特征序列；

基于各个图像特征向量在所述特征序列中的位置，为每个图像特征向量确定对应的位置向量；

根据每个图像特征向量与对应的位置向量，得到经所述位置向量处理后的所述多个图像特征向量。
根据权利要求2所述的方法，所述基于所述多个图像特征向量的依赖特征向量，通过并行计算，获取目标数量的注意力权值，包括：

将所述多个图像特征向量的依赖特征向量输入并行注意力模块，通过所述并行注意力模块中的目标数量的输出节点并行对输入的特征向量进行计算，输出所述目标数量的注意力权值。
根据权利要求1所述的方法，所述根据所述多个图像特征向量和所述目标数量的注意力权值，得到所述至少一个字符，包括：

根据所述多个图像特征向量和所述目标数量的注意力权值，得到至少一个注意力特征；

对所述至少一个注意力特征进行解码，得到所述至少一个字符。
根据权利要求10所述的方法，所述对所述至少一个注意力特征进行解码，得到所述至少一个字符，包括：

将所述至少一个注意力特征输入字符识别模型的解码模块中，对于每个注意力特征，通过所述解码模块获取所述注意力特征对应的依赖特征向量，对所述注意力特征对应的依赖特征向量进行解码，将解码所得到的字符中概率最大的字符作为所述注意力特征对应的字符输出。
一种字符识别装置，所述装置包括：

特征提取单元，用于提取待识别的图像的图像特征，所述图像特征包括多个图像特征向量；

并行处理单元，用于基于所述多个图像特征向量，通过并行计算，获取目标数量的注意力权值，其中，一个注意力权值用于表示所述多个图像特征向量针对这个注意力权值所对应字符的重要程度；

字符获取单元，用于根据所述多个图像特征向量和所述目标数量的注意力权值，得到所述至少一个字符。
根据权利要求12所述的装置，所述装置还包括：

依赖关系获取单元，用于获取所述二维图像特征中每个图像特征向量的依赖特征向量，所述依赖特征向量用于表示图像信息以及图像特征向量与其他图像特征向量之间的依赖关系；

所述并行处理单元，具体用于基于所述多个图像特征向量的依赖特征向量，通过并行计算，获取目标数量的注意力权值。
根据权利要求12所述的装置，所述特征提取单元用于将所述图像输入卷积神经网络，通过所述卷积神经网络中主干网络的各个通道对所述图像进行特征提取，输出所述图像特征。
根据权利要求12所述的装置，所述依赖关系获取单元用于将所述多个图像特征向量输入字符识别模型的关系注意力模块，通过所述关系注意力模块每一层中的转换单元对所述图像特征向量与其他图像特征向量在注意力映射空间进行相似度计算，以得到所述图像特征向量与其他图像特征向量分别对应的权重，并基于得到的权重进行计算，输出所述图像特征向量的依赖特征向量。
一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至权利要求11任一项所述的字符识别方法所执行的操作。
一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至权利要求11任一项所述的字符识别方法所执行的操作。
一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行权利要求1至11任一项中所述的方法。