WO2020199730A1

WO2020199730A1 - 文本识别方法及装置、电子设备和存储介质

Info

Publication number: WO2020199730A1
Application number: PCT/CN2020/072804
Authority: WO
Inventors: 刘学博
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2019-03-29
Filing date: 2020-01-17
Publication date: 2020-10-08
Also published as: SG11202010916SA; US20210042474A1; JP7153088B2; JP2021520002A; CN111753822B; TW202036464A; CN111753822A

Abstract

本公开涉及一种文本识别方法及装置、电子设备和存储介质。该方法包括：对待检测图像进行特征提取处理，获得多个语义向量，其中，所述多个语义向量分别与所述待检测图像中的文本序列的多个字符对应；通过卷积神经网络对所述多个语义向量依次进行识别处理，得到所述文本序列的识别结果。

Description

文本识别方法及装置、电子设备和存储介质

相关申请的交叉引用

本公开要求于2019年3月29日提交的、申请号为201910251661.4、发明名称为“文本识别方法及装置、电子设备和存储介质”的中国专利申请的优先权，该中国专利申请公开的全部内容以引用的方式并入本文中。

技术领域

本公开涉及计算机视觉技术，尤其涉及一种文本识别方法及装置、电子设备和存储介质。

背景技术

自然场景下的文本识别是图像理解和图像恢复领域的重要问题。精确的文本识别能够用于例如图片理解、自动翻译、盲人引导、机器人导航等。目前，基于编解码框架的文本识别系统通常使用循环神经网络作为编码器和解码器。

发明内容

根据本公开的一方面，提供了一种文本识别方法，其包括：对待检测图像进行特征提取处理，获得多个语义向量，其中，所述多个语义向量分别与所述待检测图像中的文本序列的多个字符对应；通过卷积神经网络对所述多个语义向量依次进行识别处理，得到所述文本序列的识别结果。

根据本公开的实施例的文本识别方法，可提高文本识别的精确度。

在一些实施例中，对所述多个语义向量依次进行识别处理以得到所述文本序列的识别结果包括：通过所述卷积神经网络对目标语义向量的先验信息进行处理，获得所述目标语义向量的权值参数，其中，所述目标语义向量为所述多个语义向量之一；根据所述权值参数和所述目标语义向量，确定与所述目标语义向量对应的文本识别结果。

通过这种方式，可使用根据先验信息获得的权值参数对目标语义向量进行加权，可在对目标语义向量的识别过程中参考先验信息，从而提高对目标语义向量的识别精度。

在一些实施例中，所述先验信息包括所述目标语义向量的前一语义向量对应的文本识别结果和/或起始符。

在一些实施例中，对所述先验信息进行处理以获得所述目标语义向量的权值参数包括：通过所述卷积神经网络中的至少一个第一卷积层对所述目标语义向量进行编码处理，获得所述目标语义向量的第一向量；通过所述卷积神经网络中的至少一个第二卷积层对所述目标语义向量的先验信息进行编码处理，获得与所述先验信息对应的第二向量；基于所述第一向量和所述第二向量，确定所述权值参数。

通过这种方式，可使权值参数中包含先验信息，为识别目标语义向量提供依据。

在一些实施例中，对所述先验信息进行编码处理以获得与所述先验信息对应的第二向量包括：响应于所述先验信息包括所述目标语义向量的前一语义向量对应的文本识别结果，对所述前一语义向量对应的文本识别结果进行词嵌入处理，获得与所述先验信息对应的特征向量；对所述特征向量进行编码处理，得到所述第二向量。

通过这种方式，可使用卷积神经网络，根据前一字符的识别结果对当前目标语义向量对应的字符进行识别，从而避免了不可控的长依赖问题，提高了识别的准确率。

在一些实施例中，对所述先验信息进行编码处理以获得与所述先验信息对应的第二向量包括：对所述先验信息中的起始符对应的初始向量进行编码处理，得到所述第二向量。

在一些实施例中，确定与所述目标语义向量对应的文本识别结果包括：基于所述权值参数和所述目标语义向量，获得与所述目标语义向量对应的注意力分布向量；通过所述卷积神经网络中的至少一个反卷积层对所述注意力分布向量进行解码处理，确定与所述目标语义向量对应的文本识别结果。

在一些实施例中，对所述待检测图像进行特征提取处理以获得多个语义向量包括：对所述待检测图像进行特征提取，获得特征信息；对所述特征信息进行下采样处理，得到所述多个语义向量。

根据本公开的另一方面，提供了一种文本识别装置，其包括：提取模块，用于对待检测图像进行特征提取处理，获得多个语义向量，其中，所述多个语义向量分别与所述待检测图像中的文本序列的多个字符对应；识别模块，用于通过卷积神经网络对所述多个语义向量依次进行识别处理，得到所述文本序列的识别结果。

根据本公开的另一方面，提供了一种电子设备，其包括：处理器；用于存储该处理器可执行的指令的存储器，其中，所述处理器在执行所述存储器中存储的指令时，实现上述文本识别方法。

根据本公开的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时，使该处理器实现上述文本识别方法。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

图1示出根据本公开实施例的文本识别方法的流程图；

图2示出根据本公开实施例的用于文本识别的基于卷积神经网络的编解码框架的示意图；

图3示出根据本公开实施例的文本识别装置的框图；

图4示出根据本公开实施例的电子装置的框图；

图5示出根据本公开实施例的电子装置的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开中所使用的单数形式诸如“一种”、“所述”、“该”等也旨在包括复数形式，除非上下文清楚地表示其他含义。“A和/或B”可以表示下列三种情况：单独存在A、同时存在A和B、单独存在B。“包括A、B、C中的至少一个”可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

尽管本公开可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应受这些术语限制。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于”。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

图1示出根据本公开实施例的文本识别方法的流程图。如图1所示，所述方法可以包括步骤S11和S12。

在步骤S11中，对待检测图像进行特征提取处理，获得多个语义向量，其中，所述多个语义向量分别与所述待检测图像中的文本序列的多个字符对应。

在步骤S12中，通过卷积神经网络对所述多个语义向量依次进行识别处理，得到所述文本序列的识别结果。

在一些实施例中，所述文本识别方法可以由终端设备执行。终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话机、无绳电话机、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。所述方法可以通过由终端设备中的处理器调用存储器中存储的计算机可读指令的方式来实现。或者，可由终端设备获取待检测图像，并将待检测图像发送至服务器，从而通过服务器执行所述方法。

在一些实施例中，步骤S11可包括：对所述待检测图像进行特征提取，获得特征信息；对所述特征信息进行下采样处理，得到所述多个语义向量。

在一些实施例中，所述特征信息可以包括但不限于特征图或特征向量等。

在示例中，待检测图像中可具有例如由多个文本字符组成的文本序列。所述文本序列的各文本字符之间可具有一定的语义连接关系，即，所述文本序列可具有某种语义。

在一些实施例中，可使用特征提取网络来提取待检测图像中的多个语义向量。该特征提取网络可以是例如卷积神经网络等神经网络。对待检测图像进行特征提取处理，获得多个语义向量，可以包括：将所述待检测图像输入特征提取网络，获得所述多个语义向量。

在示例中，特征提取网络可通过编码处理等来获取待检测图像的一个或多个特征矩阵。该特征矩阵的维度可为M×P。例如，P可为32，M与P之比可以对应于待检测图像的宽高比。例如，假设待检测图像的分辨率为1024×768，则经过编码处理可获得一个或多个43×32的特征图。

在示例中，特征提取网络可对该特征矩阵进行下采样处理，以获得一个或多个特征向量作为语义向量。例如，可对维度为M×P的特征矩阵进行下采样处理，获得一个或多个维度为M×1的特征向量作为一维语义向量。针对前述示例中经过编码处理获得的43×32的特征图，可通过下采样处理获得一个或多个43×1的特征向量。

通过上述特征提取处理，可以降低文本识别的复杂度，从而提高文本识别的效率。

在一些实施例中，可在使用特征提取网络对待检测图像进行特征提取处理前，对所述特征提取网络进行训练。

在一些实施例中，可拍摄多种背景、多种分辨率、多种字体、多种光照条件、多种大小尺度、多种倾斜方向和多重模糊程度的多个图像作为第一样本图像，对特征提取网络进行训练。

在一些实施例中，可根据概率字典对第一样本图像中的文本进行标注，获得第一样本图像的标注语义向量(以下也可称为第一样本图像的真实语义向量)。所述概率字典可以包括用户定义的关于文本的概率分布。例如，可使用包括多个元素的向量表示概率字典中的各文本的概率分布信息。可根据各文本的概率分布信息确定概率字典中的文本，或者，可确定文本在概率字典中的概率分布信息，从而确定与所述文本对应的语义向量。在示例中，可确定第一样本图像中的文本在所述概率字典中的概率分布信息，从而确定第一样本图像中的文本对应的语义向量，并根据所述语义向量对第一样本图像进行标注，获得标注信息。这样，所述标注信息可表示第一样本图像的真实语义向量。

在一些实施例中，可将第一样本图像输入所述特征提取网络中进行处理，获得与第一样本图像对应的样本语义向量。所述样本语义向量为特征提取网络针对该第一样本图像的输出结果，该输出结果可能存在误差。

在一些实施例中，可根据针对第一样本图像的标注信息和输出结果来确定特征提取网络的网络损失。在示例中，可将第一样本图像的真实语义向量(即，标注信息)和样本语义向量(即，输出结果)进行对比，将二者之间的差异确定为特征提取网络的损失函数。又例如，可根据标注信息和输出结果确定特征提取网络的交叉熵损失函数。在示例中，可使用正则化的损失函数作为特征提取网络的网络损失，从而可避免在迭代训练过程中，特征提取网络的网络参数出现过拟合的情况。

在一些实施例中，可根据网络损失来调整特征提取网络的网络参数。在示例中，可调整网络参数以使网络损失最小化，使得调整后的特征提取网络具有较高的拟合优度，同时避免过拟合。在示例中，可使用梯度下降法进行网络损失的反向传播，以调整特征提取网络的网络参数。例如，对于各神经元之间树型连接的特征提取网络，可使用随机梯度下降法等调整网络参数，以降低调整网络参数的过程的复杂程度，提高调整网络参数的效率，并可避免调整后的网络参数出现过拟合的情况。

在一些实施例中，可对特征提取网络进行迭代训练，并将满足训练条件的特征提取网络用于获取语义向量的处理中。训练条件可包括调整次数、网络损失的大小或网络损失敛散性等。可对特征提取网络输入预定数量的第一样本图像，即，将特征提取网络的网络参数调整预定次数，当调整次数达到所述预定次数时，即为满足训练条件。或者，可不限制调整次数，而在网络损失降低到一定程度或收敛于一定阈值内时，停止调整，获得调整后的特征提取网络，并可将调整后的特征提取网络用于获取待检测图像的语义向量的处理中。通过标注信息和输出结果之差来训练特征提取网络，可降低损失函数的复杂程度，提高训练速度。

在一些实施例中，在步骤S12中，可使用图形处理单元(Graphics Processing Unit，GPU)对卷积神经网络进行加速，提高卷积神经网络的处理效率。

在一些实施例中，在步骤S12中，可通过卷积神经网络对目标语义向量的先验信息进行处理，获得所述目标语义向量的权值参数，其中，所述目标语义向量为所述多个语义向量之一；并且可以根据所述权值参数和所述目标语义向量，确定与所述目标语义向量对应的文本识别结果。

在一些实施例中，所述先验信息包括所述目标语义向量的前一语义向量对应的文本识别结果和/或起始符。如果目标语义向量是多个语义向量中的第一个，则所述先验信息可以是起始符；如果目标语义向量不是多个语义向量中的第一个，则所述先验信息可以是目标语义向量的前一语义向量对应的文本识别结果。

在一些实施例中，可以通过所述卷积神经网络中的至少一个第一卷积层对所述目标语义向量进行编码处理，获得所述目标语义向量的第一向量。可以通过所述卷积神经网络中的至少一个第二卷积层对所述目标语义向量的先验信息进行编码处理，获得与所述先验信息对应的第二向量。然后，可以基于所述第一向量和所述第二向量，确定所述目标语义向量的权值参数。

在一些实施例中，所述第一向量可具有目标语义向量的语义信息，且第一向量具有目标语义向量所对应的字符的语义连接关系。

在一些实施例中，如果目标语义向量是多个语义向量中的第一个，即，目标语义向量为与文本序列中的第一个字符对应的语义向量，则可以通过对所述目标语义向量的先验信息中的起始符对应的初始向量进行编码处理，得到与该先验信息对应的第二向量。在示例中，与起始符对应的初始向量可以是元素为预设值(例如，元素全为1)的向量。在示例中，文本序列中的字符为A、B、C和D，可对起始符S对应的初始向量进行编码处理，得到第二向量。

在一些实施例中，如果目标语义向量不是多个语义向量中的第一个，则可以响应于所述先验信息包括所述目标语义向量的前一语义向量对应的文本识别结果，对所述前一语义向量对应的文本识别结果进行词嵌入处理，获得与先验信息对应的特征向量，并对所述特征向量进行编码处理，得到与该先验信息对应的第二向量。例如，若文本序列中的字符为A、B、C和D，目标语义向量为B、C或D对应的语义向量，则可对目标语义向量的前一语义向量的文本识别结果进行词嵌入处理，获得与先验信息对应的特征向量，并对该特征向量进行编码处理，得到与该先验信息对应的第二向量。

在一些实施例中，如果目标语义向量不是多个语义向量中的第一个语义向量，则可对目标语义向量的前一个语义向量对应的文本识别结果进行词嵌入处理，确定与该文本识别结果对应的特征向量。在示例中，可通过Word2Vec或GloVe等算法来对前一语义向量对应的文本识别结果进行词嵌入处理，以获得与先验信息对应的特征向量。

在一些实施例中，在对目标语义向量的前一个语义向量对应的文本的识别过程中，可识别出待检测图像的背景、拍摄角度、尺寸、光照条件和字体等信息。即，所述前一个语义向量对应的文本识别结果是依据待检测图像的背景、拍摄角度、尺寸、光照条件和字体等信息的。因此，与所述前一个语义向量对应的文本识别结果对应的特征向量可作为识别其后续字符的依据。此外，与所述前一个语义向量对应的文本识别结果对应的特征向量具有所述前一个语义向量对应的文本识别结果的语义信息，且具有所述前一个语义向量对应的文本识别结果的语义连接关系。

在一些实施例中，可根据所述第一向量和所述第二向量，确定所述权值参数，所述权值参数可以是权值矩阵。例如，可对第一向量和第二向量进行向量乘法，获得所述权值矩阵。

在一些实施例中，可以基于所述权值参数和所述目标语义向量，获得与所述目标语义向量对应的注意力分布向量。可以通过所述卷积神经网络中的至少一个反卷积层对所述注意力分布向量进行解码处理，确定与所述目标语义向量对应的文本识别结果。

在一些实施例中，可通过残差网络对权值参数和目标语义向量进行处理，获得所述注意力分布向量，或者，可以使用权值参数(权值矩阵)和目标语义向量进行矩阵乘法(即，对目标语义向量进行加权处理)，获得所述注意力分布向量。这样，注意力分布向量可以具有待检测图像的背景、拍摄角度、尺寸、光照条件和字体等信息以及目标语义向量的语义信息。

在一些实施例中，可根据注意力分布向量确定关于概率字典的概率分布信息。例如，可通过所述卷积神经网络中的至少一个反卷积层对所述注意力分布向量进行解码处理，获得关于概率字典的概率分布信息。然后，可以根据概率分布信息确定概率字典中的文本，即，确定与所述目标语义向量对应的文本识别结果。该文本识别结果可用于识别下一个字符的处理过程，依此类推，直到文本序列中的字符全部识别完成。在文本序列中的字符全部识别完成时，可向卷积神经网络输入结束向量，所述结束向量的元素可以是预设的(例如，元素全为1)。在输入结束向量时，待检测图像中的文本序列的识别工作完成，并获得所述文本序列的识别结果。

在一些实施例中，所述前一个语义向量对应的文本识别结果的语义信息可被包含在与所述前一个语义向量对应的文本识别结果对应的特征向量的权值参数(权值矩阵)中。该权值参数中的元素可具有待检测图像的背景、拍摄角度、尺寸、光照条件和字体等信息，可作为识别文本序列中的后续字符的依据。该权值参数包含的语义信息也可作为识别后续字符的依据。例如，若目标语义向量为第二个语义向量，则目标语义向量的前一个语义向量为第一个语义向量，其对应的字符为文本序列中的第一个字符。对第一个字符的识别结果可作为识别目标语义向量对应的字符的依据，并且，对目标语义向量的识别结果可作为识别第三个语义向量(即，目标语义向量的下一个语义向量)所对应的字符的依据。

在示例中，对文本序列中第一个字符进行识别时，待识别图像中不存在已识别字符，因而利用作为先验信息的起始符识别第一个字符。举例来说，文本序列中存在字符A、B、C和D时，在第一步，将起始符S作为先验信息，利用起始符S对应的初始向量识别出字符A，得到文本序列的第一个字符的识别结果为A。然后，利用已识别字符A识别字符B，得到第二个字符的识别结果B。依此类推，直至识别出全部字符A、B、C 和D，得到文本序列的识别结果。

在一些实施例中，可在使用卷积神经网络确定文本识别结果之前，对所述卷积神经网络进行训练。

在一些实施例中，可拍摄多种背景、多种分辨率、多种字体、多种光照条件、多种大小尺度、多种倾斜方向和多重模糊程度的多个图像作为第二样本图像，并使用多个第二样本图像对卷积神经网络进行训练。

在一些实施例中，可根据概率字典，获得每个第二样本图像中的字符的概率分布信息，并根据所述概率分布信息对该第二样本图像进行标注，获得该第二样本图像中的每个字符的标注信息，即，所述标注信息为第二样本图像中的相应字符的真实的概率分布信息。

在一些实施例中，可对任一第二样本图像进行特征提取处理，获得与第二样本图像中的多个字符分别对应的多个语义向量。可以向卷积神经网络的第一卷积层输入第一个语义向量以及向第二卷积层输入起始符，以获得第一个语义向量的权值参数。进一步地，可使用该权值参数(权值矩阵)对第一个语义向量进行加权(即，进行矩阵乘法)，获得与第一个语义向量对应的样本注意力分布向量。

在一些实施例中，可通过卷积神经网络的反卷积层对样本注意力分布向量进行解码处理，获得卷积神经网络输出的概率分布信息，即，卷积神经网络的输出结果。进一步地，可根据标注信息(真实的概率分布信息)和输出结果(卷积神经网络输出的概率分布信息)来确定卷积神经网络的网络损失。在示例中，可将第二样本图像中的字符的标注信息和卷积神经网络的输出结果进行对比，将二者之间的差异确定为卷积神经网络的损失函数。又例如，可根据标注信息和输出结果确定卷积神经网络的交叉熵损失函数。在示例中，可使用正则化的损失函数作为卷积神经网络的网络损失，从而可避免在迭代训练过程中，卷积神经网络的网络参数出现过拟合的情况。

在一些实施例中，可根据网络损失来调整卷积神经网络的网络参数。在示例中，可调整网络参数以使网络损失最小化，使得调整后的卷积神经网络具有较高的拟合优度，同时避免过拟合。在示例中，可使用梯度下降法进行网络损失的反向传播，以调整卷积神经网络的网络参数。例如，对于各神经元之间树型连接的卷积神经网络，可使用随机梯度下降法等调整网络参数，以降低调整网络参数的过程的复杂程度，提高调整网络参数的效率，并可避免调整后的网络参数出现过拟合的情况。

在一些实施例中，可根据卷积神经网络输出的概率分布信息以及概率字典，确定卷积神经网络识别出的字符，并对该字符进行词嵌入处理，获得与该字符对应的特征向量。进一步地，可将该特征向量输入卷积神经网络的第二卷积层，并将第二样本图像中的第二个语义向量输入卷积神经网络的第一卷积层，以获得第二个语义向量的权值参数。可以使用该权值参数对第二个语义向量进行加权，获得与第二个语义向量对应的样本注意力分布向量。然后，可通过卷积神经网络的反卷积层对该样本注意力分布向量进行解码，获得概率分布信息。可以根据该概率分布信息与第二个字符的标注信息确定网络损失，并使用网络损失再次调整卷积神经网络的网络参数。在示例中，可通过这种方式进行迭代调整。例如，可以根据卷积神经网络识别出的第二个字符对应的特征向量与第三个语义向量，获得第三个语义向量的权值参数，进而获得与第三个语义向量对应的样本注意力分布向量；对其进行解码处理后，可确定网络损失，并根据网络损失再次调整卷积神经网络。依此类推，还可根据第三个字符以及第四个语义向量调整卷积神经网络，根据第四个字符以及第五个语义向量调整卷积神经网络……直到该第二样本图像中的字符全部识别完成。这样，卷积神经网络的网络参数被调整了多次。

在一些实施例中，当卷积神经网络满足训练条件时，可将卷积神经网络用于识别待检测图像中的文本序列的处理中。训练条件可包括调整次数、网络损失的大小或网络损失敛散性等。可将卷积神经网络的网络参数调整预定次数，当调整次数达到所述预定次数时，即为满足训练条件。或者，可不限制调整次数，而在网络损失降低到一定程度或收敛于一定阈值内时，停止调整，获得调整后的卷积神经网络。

根据本公开的实施例的文本识别方法，可从待检测图像中提取语义向量，降低文本识别的复杂度，提高文本识别的效率。可使用卷积神经网络，依赖前一字符的识别结果对当前目标语义向量对应的字符进行识别，从而避免了不可控的长依赖问题，提高了识别的准确率。可使用GPU对卷积神经网络进行加速，提高卷积神经网络的处理效率。

图2示意性示出了根据本公开实施例的用于文本识别的基于卷积神经网络的编解码框架。

在一些实施例中，可对待检测图像进行特征提取处理，获得多个语义向量。可通过卷积神经网络对目标语义向量的先验信息进行处理，获得所述目标语义向量的权值参数，并且可以根据所述权值参数和所述目标语义向量，确定与所述目标语义向量对应的文本识别结果。所述目标语义向量为多个语义向量中的任意一个。

在一些实施例中，多个语义向量可以对应于文本序列的多个字符，例如，文本序列的多个字符中每个字符对应于多个语义向量中的一个语义向量，但本公开实施例不限于此。如果目标语义向量为多个语义向量中的第一个语义向量(即，与待检测图像中的文本序列中的第一个字符对应的语义向量)，则将目标语义向量输入所述卷积神经网络的第一卷积层进行编码处理，获得第一向量，并将起始符对应的初始向量输入所述卷积神经网络的第二卷积层进行编码处理，获得第二向量。进一步地，可对第一向量和第二向量进行向量乘法，获得第一个语义向量的权值参数，即权值矩阵。

在一些实施例中，可使用该权值矩阵对第一个语义向量进行加权处理，获得第一个语义向量对应的注意力分布向量，并可通过所述卷积神经网络中的至少一个反卷积层对所述注意力分布向量进行解码处理，获得关于概率字典的概率分布信息。进一步地，可以根据该概率分布信息确定概率字典中的文本，即，确定与第一个语义向量对应的文本识别结果，从而获得第一个字符的识别结果。

在一些实施例中，可对第一个字符的识别结果进行词嵌入处理，获得第一个字符对应的特征向量。可将第一个字符对应的特征向量输入所述卷积神经网络的第二卷积层进行编码处理，获得第一个字符对应的第二向量。可将第二个语义向量(即，与待检测图像中的字符序列中的第二个字符对应的语义向量)输入卷积神经网络的第一卷积层进行编码处理，获得第二个语义向量的第一向量。进一步地，可对第二个语义向量的第一向量和第一个字符对应的第二向量进行向量乘法，获得第二个语义向量的权值矩阵。可使用该权值矩阵对第二个语义向量进行加权处理(即，进行矩阵乘法)，并将加权后的第二个语义向量输入卷积神经网络的全连接层，以获得第二个语义向量对应的注意力分布向量。可通过所述卷积神经网络中的至少一个反卷积层对第二个语义向量对应的注意力分布向量进行解码处理，获得关于概率字典的概率分布信息(即，第二个字符的识别结果的概率分布)。可根据该概率分布信息确定概率字典中的文本，即，可获得第二个字符的识别结果。进一步地，还可利用第二个字符的识别结果，确定第三个字符的识别结果，利用第三个字符的识别结果，确定第四个字符的识别结果，依此类推。

在示例中，对文本序列中第一个字符进行识别时，待识别图像中不存在已识别字符，因而利用作为先验信息的起始符识别第一个字符。举例来说，文本序列中存在字符A、B、C和D时，在第一步，将起始符S作为先验信息，利用起始符S对应的初始向量识别出字符A，得到文本序列的第一个字符的识别结果为A。然后，利用已识别字符A识别字符B，得到第二个字符的识别结果B。依此类推，直至识别出全部字符A、B、C和D，得到文本序列的识别结果。

在一些实施例中，可通过上述方式对待处理图像中的各语义向量进行迭代处理，可获得待检测图像中的每个字符的识别结果，直到文本序列中的字符全部识别完成。在文本序列中的字符全部识别完成时，可向卷积神经网络输入结束向量，以完成待检测图像中的文本序列的识别工作，获得文本序列的识别结果。

图3示出可以实现根据上述任一实施例的文本识别方法的文本识别装置的框图。如图3所示，所述装置可以包括提取模块11和识别模块12。

提取模块11可以对待检测图像进行特征提取处理，获得多个语义向量，其中，所述多个语义向量分别与所述待检测图像中的文本序列的多个字符对应。识别模块12可以通过卷积神经网络对所述多个语义向量依次进行识别处理，得到所述文本序列的识别结果。

在一些实施例中，所述识别模块可以用于：通过卷积神经网络对目标语义向量的先验信息进行处理，获得所述目标语义向量的权值参数，其中，所述目标语义向量为所述多个语义向量之一；根据所述权值参数和所述目标语义向量，确定与所述目标语义向量对应的文本识别结果。

在一些实施例中，所述识别模块可以用于：通过所述卷积神经网络中的至少一个第一卷积层对所述目标语义向量进行编码处理，获得所述目标语义向量的第一向量；通过所述卷积神经网络中的至少一个第二卷积层对所述目标语义向量的先验信息进行编码处理，获得与所述先验信息对应的第二向量；基于所述第一向量和所述第二向量，确定所述权值参数。

在一些实施例中，所述识别模块可以用于：响应于所述先验信息包括所述目标语义向量的前一语义向量对应的文本识别结果，对所述前一语义向量对应的文本识别结果进行词嵌入处理，获得与该先验信息对应的特征向量；对所述特征向量进行编码处理，得到所述第二向量。

在一些实施例中，所述识别模块可以用于：对所述先验信息中的起始符对应的初始向量进行编码处理，得到所述第二向量。

在一些实施例中，所述识别模块可以用于：基于所述权值参数和所述目标语义向量，获得与所述目标语义向量对应的注意力分布向量；通过所述卷积神经网络中的至少一个反卷积层对所述注意力分布向量进行解码处理，确定与所述目标语义向量对应的文本识别结果。

在一些实施例中，所述提取模块可以用于：对所述待检测图像进行特征提取，获得特征信息；对所述特征信息进行下采样处理，得到所述多个语义向量。

图4是根据一示例性实施例的一种电子设备800的框图。例如，电子设备800可以是移动电话机，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，电子设备800可以包括下列中的一个或多个：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以执行上述任一种文本识别方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804可以存储各种类型的数据以支持在电子设备800上的操作。这些数据的示例包括用于在电子设备800上执行的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，闪存，磁盘或光盘等。

电源组件806可以为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808可以包括在所述电子设备800和用户之间提供界面(例如，图形用户界面(GUI))的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板可以包括一个或多个传感器，以感测在触摸面板上的触摸、滑动和/或其它手势。所述传感器可以不仅感测触摸或滑动动作的边界，而且检测与所述触摸或滑动动作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以采集外部的多媒体数据。前置摄像头和后置摄像头均可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810可以输出和/或输入音频信号。例如，音频组件810可以包括一个麦克风。当电子设备800处于操作模式如呼叫模式、记录模式或语音识别模式时，麦克风可以采集外部音频信号。所采集的音频信号可以被存储在存储器804中或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812可以在处理组件802和外围设备之间提供接口。上述外围设备可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814可以包括一个或多个传感器，用于为电子设备800提供各个方面的状态信息。例如，传感器组件814可以包括接近传感器，用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如互补金属氧化物半导体(CMOS)或电荷耦合器件(CCD)图像传感器，用于成像应用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816可以便于电子设备800和其他设备之间的有线或无线通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816可以经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以便于短程通信。例如，NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术或其他技术来实现。

在示例性实施例中，电子设备800可以被实现为一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件，以实现上述任一种文本识别方法。

在示例性实施例中，还可以提供一种非暂时性计算机可读存储介质(例如，存储器804)，其上存储有计算机程序指令。该计算机程序指令在由处理器(例如，处理器820)执行时，使该处理器实现上述任一种文本识别方法。

图5是根据一示例性实施例的一种电子设备1900的框图。例如，电子设备1900可以是一服务器。

参照图5，电子设备1900可以包括：处理组件1922，其可以包括一个或多个处理器；以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922执行的指令，例如应用程序。处理组件1922可以执行该指令，以实现上述任一种文本识别方法。

电子设备1900还可以包括：电源组件1926，用于执行电子设备1900的电源管理；有线或无线网络接口1950，用于将电子设备1900连接到网络；和输入/输出(I/O)接口1958。

电子设备1900可以基于存储在存储器1932中的操作系统(例如，Windows Server ^TM，Mac OS X ^TM，Unix ^TM,Linux ^TM，FreeBSD ^TM等)而工作。

在示例性实施例中，还可以提供一种非暂时性计算机可读存储介质(例如，存储器1932)，其上存储有计算机程序指令。该计算机程序指令在由处理器(例如，处理组件1922)执行时，使该处理器实现上述任一种文本识别方法。

本公开可以被实现为装置(系统)、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的文本识别方法的计算机可读程序指令。

附图中的流程图和框图显示了根据本公开的各个实施例的装置(系统)、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例。上述说明是示例性的，并不旨在限制本公开。在不偏离本公开的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。凡在本公开的精神和原则之内所做的任何修改、等同替换、改进等，均应包含在本公开的范围之内。

Claims

一种文本识别方法，包括：

对待检测图像进行特征提取处理，获得多个语义向量，其中，所述多个语义向量分别与所述待检测图像中的文本序列的多个字符对应；

通过卷积神经网络对所述多个语义向量依次进行识别处理，得到所述文本序列的识别结果。
根据权利要求1所述的方法，其中，所述通过卷积神经网络对所述多个语义向量依次进行识别处理，得到所述文本序列的识别结果，包括：

通过所述卷积神经网络对目标语义向量的先验信息进行处理，获得所述目标语义向量的权值参数，其中，所述目标语义向量为所述多个语义向量之一；

根据所述权值参数和所述目标语义向量，确定与所述目标语义向量对应的文本识别结果。
根据权利要求2所述的方法，其中，所述先验信息包括所述目标语义向量的前一语义向量对应的文本识别结果和/或起始符。
根据权利要求2或3所述的方法，其中，所述通过卷积神经网络对目标语义向量的先验信息进行处理，获得所述目标语义向量的权值参数，包括：

通过所述卷积神经网络中的至少一个第一卷积层对所述目标语义向量进行编码处理，获得所述目标语义向量的第一向量；

通过所述卷积神经网络中的至少一个第二卷积层对所述目标语义向量的先验信息进行编码处理，获得与所述先验信息对应的第二向量；

基于所述第一向量和所述第二向量，确定所述权值参数。
根据权利要求4所述的方法，其中，所述通过所述卷积神经网络中的至少一个第二卷积层对所述目标语义向量的先验信息进行编码处理，获得与所述先验信息对应的第二向量，包括：

响应于所述先验信息包括所述目标语义向量的前一语义向量对应的文本识别结果，对所述前一语义向量对应的文本识别结果进行词嵌入处理，获得与所述先验信息对应的特征向量；

通过所述卷积神经网络中的至少一个第二卷积层对所述特征向量进行编码处理，得到所述第二向量。
根据权利要求4或5所述的方法，其中，所述通过所述卷积神经网络中的至少一个第二卷积层对所述目标语义向量的先验信息进行编码处理，获得与所述先验信息对应的第二向量，包括：

通过所述卷积神经网络中的至少一个第二卷积层对所述先验信息中的起始符对应的初始向量进行编码处理，得到所述第二向量。
根据权利要求2至6中任一项所述的方法，其中，所述根据所述权值参数和所述目标语义向量，确定与所述目标语义向量对应的文本识别结果，包括：

基于所述权值参数和所述目标语义向量，获得与所述目标语义向量对应的注意力分布向量；

通过所述卷积神经网络中的至少一个反卷积层对所述注意力分布向量进行解码处理，确定与所述目标语义向量对应的文本识别结果。
根据权利要求1至7中任一项所述的方法，其中，所述对待检测图像进行特征提取处理，获得多个语义向量，包括：

对所述待检测图像进行特征提取，获得特征信息；

对所述特征信息进行下采样处理，得到所述多个语义向量。
一种文本识别装置，包括：

提取模块，用于对待检测图像进行特征提取处理，获得多个语义向量，其中，所述多个语义向量分别与所述待检测图像中的文本序列的多个字符对应；

识别模块，用于通过卷积神经网络对所述多个语义向量依次进行识别处理，得到所述文本序列的识别结果。
根据权利要求9所述的装置，其中，所述识别模块用于：

通过所述卷积神经网络对目标语义向量的先验信息进行处理，获得所述目标语义向量的权值参数，其中，所述目标语义向量为所述多个语义向量之一；

根据所述权值参数和所述目标语义向量，确定与所述目标语义向量对应的文本识别结果。
根据权利要求10所述的装置，其中，所述先验信息包括所述目标语义向量的前一语义向量对应的文本识别结果和/或起始符。
根据权利要求10或11所述的装置，其中，所述识别模块用于：

通过所述卷积神经网络中的至少一个第一卷积层对所述目标语义向量进行编码处理，获得所述目标语义向量的第一向量；

通过所述卷积神经网络中的至少一个第二卷积层对所述目标语义向量的先验信息进行编码处理，获得与所述先验信息对应的第二向量；

基于所述第一向量和所述第二向量，确定所述权值参数。
根据权利要求12所述的装置，其中，所述识别模块用于：

响应于所述先验信息包括所述目标语义向量的前一语义向量对应的文本识别结果，对所述前一语义向量对应的文本识别结果进行词嵌入处理，获得与所述先验信息对应的特征向量；

通过所述卷积神经网络中的至少一个第二卷积层对所述特征向量进行编码处理，得到所述第二向量。
根据权利要求12或13所述的装置，其中，所述识别模块用于：

通过所述卷积神经网络中的至少一个第二卷积层对所述先验信息中的起始符对应的初始向量进行编码处理，得到所述第二向量。
根据权利要求10-14中任一项所述的装置，其中，所述识别模块用于：

基于所述权值参数和所述目标语义向量，获得与所述目标语义向量对应的注意力分布向量；

通过所述卷积神经网络中的至少一个反卷积层对所述注意力分布向量进行解码处理，确定与所述目标语义向量对应的文本识别结果。
根据权利要求9-15中任一项所述的装置，其中，所述提取模块用于：

对所述待检测图像进行特征提取，获得特征信息；

对所述特征信息进行下采样处理，得到所述多个语义向量。
一种电子设备，包括：

处理器；

用于存储可由所述处理器执行的指令的存储器，

其中，所述处理器在执行所述存储器中存储的所述指令时，实现根据权利要求1至8中任意一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时，使所述处理器实现根据权利要求1至8中任意一项所述的方法。