WO2023273196A1

WO2023273196A1 - 一种文本识别方法及相关装置

Info

Publication number: WO2023273196A1
Application number: PCT/CN2021/138066
Authority: WO
Inventors: 李明; 付彬; 乔宇
Original assignee: 中国科学院深圳先进技术研究院
Priority date: 2021-06-30
Filing date: 2021-12-14
Publication date: 2023-01-05
Also published as: CN113627243B; CN113627243A

Abstract

本申请公开了一种文本识别方法及相关装置。该方法包括：获取文本图片；文本图片为包括目标文本的图片；将文本图片输入至文本识别网络进行识别，得到目标文本；文本识别网络的各个层级同时利用文本图片的局域信息和序列信息对目标文本进行识别，局域信息包括目标文本的结构信息，序列信息包括目标文本的上下文序列信息。本方法在基于文本识别网络对文本图片进行识别的过程中，通过并行提取文本图片的局域视觉信息和上下文序列信息，并将文本图片的局域视觉信息和上下文序列信息交互融合，使得在文本识别网络的各个层级都能同时利用文本图片的二元信息，解决了识别过程中文本字符遗漏或是错位的问题，提高了文本识别的准确率及效率。

Description

一种文本识别方法及相关装置

技术领域

本申请涉及场景文本识别(scene text recognition，STR)技术领域，尤其涉及一种文本识别方法及相关装置。

背景技术

场景文本识别指的是通过将特定场景中包含文本信息的文本图片输入到程序中，由程序将输入的包含文本信息的文本图片转换成计算机可理解的文本符号。场景文本识别在计算机视觉领域中为一个重要的分支，在自动驾驶、盲人辅助等应用场景中有着重要作用及前景。

目前，较为常用的场景文本识别方法是将文本图片输入到卷积神经网络中，提取得到文本图片的局域视觉信息。然后再将文本图片的局域视觉信息输入到循环神经网络中，得到最终的文本序列的识别结果。

但是，上述场景文本识别方法在预测文本字符时容易出现聚焦错误，导致文本字符遗漏或是错位的问题，从而导致文本识别准确率及效率较低。

发明内容

本申请实施例提供了一种文本识别方法及相关装置，在基于文本识别网络对文本图片进行识别的过程中，通过并行提取文本图片的局域视觉信息和上下文序列信息，并将文本图片的局域视觉信息和上下文序列信息交互融合，使得在文本识别网络的各个层级都能同时利用文本图片的二元信息，解决了识别过程中文本字符遗漏或是错位的问题，提高了文本识别的准确率及效率。

第一方面，本申请实施例提供了一种文本识别方法，该方法包括：

获取文本图片；所述文本图片为包括目标文本的图片；

将所述文本图片输入至文本识别网络进行识别，得到所述目标文本；所述文本识别网络的各个层级同时利用所述文本图片的局域信息和序列信息对所述目标文本进行识别，所述局域信息包括所述目标文本的结构信息，所述序列信息包括所述目标文本的上下文序列信息。

目前，对场景文本较为常用的文本识别方法，先将文本图片输入一个完整的卷积神经网络中，提取得到整个文本图片的高层特征，然后将这高层特征直接送入一个循环神经网络中，对整个文本中的每个字符进行分类，得到最终的目标文本序列的识别结果。然而，这种识别模式忽略了上下文序列信息在低层特征上的作用。

本申请实施例中的文本识别方法，与目前常用的文本识别方法相比，能够在低层特征时就引入文本的上下文序列信息，能够使长期与短期信息从低层就开始交互。具体表现为，在基于文本识别网络对文本图片进行识别的过程中，通过并行提取文本图片的局域视觉信息和上下文序列信息，使得在文本识别网络的各个层级都能同时利用文本图片的二元信息，解决了识别过程中文本字符遗漏或是错位的问题，提高了文本识别的准确率及效率。

在一种可能的实施方式中，所述将所述文本图片输入至文本识别网络进行识别，得到所述目标文本，包括：

获取所述局域信息，以及获取所述序列信息；

根据所述局域信息和所述序列信息融合处理的结果，得到所述目标文本。

在本申请实施例中，通过将文本图片输入至文本识别网络中，使文本识别网络的每一层级都能同时提取文本图片的局域信息和序列信息，并将二者融合，最后使用基于注意力机制的解码器得到最终目标文本的识别结果。与现有方法中遵循先提取局域信息，最后再利用序列信息的串行二元关系提取模式相比，本申请实施例中采用并行的二元关系提取模式，使得在文本识别网络的各个层级都能同时利用文本图片的二元信息，提高了文本识别的准确率及效率。

在一种可能的实施方式中，所述根据所述局域信息和所述序列信息融合处理的结果，得到所述目标文本，包括：

将所述局域信息和所述序列信息加权求和；

根据所述局域信息和所述序列信息加权求和的结果，得到所述目标文本。

在本申请实施例中，提供了一种对局域信息和序列信息融合处理的方法。在获取局域信息和序列信息之后，文本识别网络的各个层级均能在将二者融合时直接相加，也可以用门的形式对其进行加权求和，根据求和的结果，识别得到目标文本。

在一种可能的实施方式中，所述获取所述局域信息，包括：

基于拓扑结构提取所述文本图片的视觉特征，得到所述局域信息。

在本申请实施例中，基于拓扑结构的信息提取模式，提取文本图片的视觉特征，得到局域信息，相比于现有的采用常规卷积的提取模式，本申请实施例中的提取方式所得到的局域信息准确性更高。

在一种可能的实施方式中，所述获取所述序列信息，包括：

对所述文本图片的特征压缩；

提取压缩后的所述文本图片的结构特征，得到所述序列信息。

在本申请实施例中，先对文本图片进行特征压缩，然后再对压缩后的文本图片提取其结构特征，得到序列信息，相比于现有的单纯在提取得到的一维特征图上堆叠一个循环神经网络用以提取序列特征的提取模式，本申请实施例中的提取方式使用了不同的特征压缩模式以及序列信息提取模式，可以满足不同的文本图片识别需求。

第二方面，本申请实施例提供了一种文本识别装置，该装置包括：

获取单元，用于获取文本图片；所述文本图片为包括目标文本的图片；

识别单元，用于将所述文本图片输入至文本识别网络进行识别，得到所述目标文本；所述文本识别网络的各个层级同时利用所述文本图片的局域信息和序列信息对所述目标文本进行识别，所述局域信息包括所述目标文本的结构信息，所述序列信息包括所述目标文本的上下文序列信息。

本申请实施例中，提供了一种对场景文本的文本识别方法。具体为，获取文本图片，该文本图片为包括了特定场景中包含目标文本信息的图片，将该文本图片输入至文本识别网络中，对其进行目标文本识别，得到文本图片中包含的目标文本。其中，该文本识别网络的各个层级均能同时利用文本图片的局域信息和序列信息对目标文本进行识别，该局域信息包括目标文本的结构信息，该序列信息包括目标文本的上下文序列信息。

本申请实施例中的文本识别方法，与目前常用的文本识别方法相比，能够在低层特征时就引入文本的上下文序列信息，能够使长期与短期信息从低层就开始交互。具体表现为，在基于文本识别网络对文本图片进行识别的过程中，通过并行提取文本图片的局域视觉信息和上下文序列信息，并将文本图片的局域视觉信息和上下文序列信息交互融合，使得在文本识别网络的各个层级都能同时利用文本图片的二元信息，解决了识别过程中文本字符遗漏或是错位的问题，提高了文本识别的准确率及效率。

在一种可能的实施方式中，所述获取单元，还用于获取所述局域信息，以及获取所述序列信息；

所述识别单元，具体用于根据所述局域信息和所述序列信息融合处理的结果，得到所述目标文本。

在一种可能的实施方式中，所述识别单元，具体用于将所述局域信息和所述序列信息加权求和；

所述识别单元，具体还用于根据所述局域信息和所述序列信息加权求和的结果，得到所述目标文本。

在一种可能的实施方式中，所述获取单元，具体用于基于拓扑结构提取所述文本图片的视觉特征，得到所述局域信息。

在一种可能的实施方式中，所述获取单元，具体还用于对所述文本图片的特征压缩；

所述获取单元，具体还用于提取压缩后的所述文本图片的结构特征，得到所述序列信息。

第三方面，本申请实施例提供一种文本识别装置，所述文本识别装置包括处理器和存储器；所述存储器用于存储计算机执行指令；所述处理器用于执行所述存储器所存储的计算机执行指令，以使所述文本识别装置执行如上述第一方面以及任一项可能的实施方式的方法。可选的，所述文本识别装置还包括收发器，所述收发器，用于接收信号或者发送信号。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储指令或计算机程序；当所述指令或所述计算机程序被执行时，使得第一方面以及任一项可能的实施方式所述的方法被实现。

第五方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括指令或计算机程序；当所述指令或所述计算机程序被执行时，使得第一方面以及任一项可能的实施方式所述的方法被实现。

第六方面，本申请实施例提供一种芯片，该芯片包括处理器，所述处理器用于执行指令，当该处理器执行所述指令时，使得该芯片执行如第一方面以及任一项可能的实施方式所述的方法。可选的，该芯片还包括通信接口，所述通信接口用于接收信号或发送信号。

第七方面，本申请实施例提供一种系统，所述系统包括至少一个如第二方面或第三方面所述的文本识别装置或第六方面所述的芯片。

此外，在执行上述第一方面以及任一项可能的实施方式所述的方法的过程中，上述方法中有关发送信息和/或接收信息等的过程，可以理解为由处理器输出信息的过程，和/或，处理器接收输入的信息的过程。在输出信息时，处理器可以将信息输出给收发器(或者通信接口、或发送模块)，以便由收发器进行发射。信息在由处理器输出之后，还可能需要进行其他的处理，然后才到达收发器。类似的，处理器接收输入的信息时，收发器(或者通信接口、或发送模块)接收信息，并将其输入处理器。更进一步的，在收发器收到该信息之后，该信息可能需要进行其他的处理，然后才输入处理器。

基于上述原理，举例来说，前述方法中提及的发送信息可以理解为处理器输出信息。又例如，接收信息可以理解为处理器接收输入的信息。

可选的，对于处理器所涉及的发射、发送和接收等操作，如果没有特殊说明，或者，如果未与其在相关描述中的实际作用或者内在逻辑相抵触，则均可以更加一般性的理解为处理器输出和接收、输入等操作。

可选的，在执行上述第一方面以及任一项可能的实施方式所述的方法的过程中，上述处理器可以是专门用于执行这些方法的处理器，也可以是通过执行存储器中的计算机指令来执行这些方法的处理器，例如通用处理器。上述存储器可以为非瞬时性(non-transitory)存储器，例如只读存储器(Read Only Memory，ROM)，其可以与处理器集成在同一块芯片上，也可以分别设置在不同的芯片上，本申请实施例对存储器的类型以及存储器与处理器的设置方式不做限定。

在一种可能的实施方式中，上述至少一个存储器位于装置之外。

在又一种可能的实施方式中，上述至少一个存储器位于装置之内。

在又一种可能的实施方式之中，上述至少一个存储器的部分存储器位于装置之内，另一部分存储器位于装置之外。

本申请中，处理器和存储器还可能集成于一个器件中，即处理器和存储器还可以被集成在一起。

本申请实施例中，在基于文本识别网络对文本图片进行识别的过程中，通过并行提取文本图片的局域视觉信息和上下文序列信息，并将文本图片的局域视觉信息和上下文序列信息交互融合，使得在文本识别网络的各个层级都能同时利用文本图片的二元信息，解决了识别过程中文本字符遗漏或是错位的问题，提高了文本识别的准确率及效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种文本识别的架构示意图；

图2为本申请实施例提供的一种二元关系模块的架构示意图；

图3为本申请实施例提供的一种文本识别方法的流程示意图；

图4a为本申请实施例提供的一种序列信息提取模块的结构示意图；

图4b为本申请实施例提供的另一种序列信息提取模块的结构示意图；

图4c为本申请实施例提供的又一种序列信息提取模块的结构示意图；

图5为本申请实施例提供的一种局域信息提取模块的结构示意图；

图6为本申请实施例提供的一种文本识别的效果示意图；

图7为本申请实施例提供的一种文本识别装置的结构示意图；

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图对本申请实施例进行描述。

本申请的说明书、权利要求书及附图中的术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备等，没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元等，或可选地还包括对于这些过程、方法、产品或设备等固有的其它步骤或单元。

在本文中提及的“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员可以显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上，“至少两个(项)”是指两个或三个及三个以上，“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

本申请提供了一种文本识别方法，为了更清楚地描述本申请的方案，下面先介绍一些与文本识别相关的知识。

文本图片：指的是包含了文本信息的图片。

场景文本识别：指的是通过将特定场景中包含文本信息的文本图片输入到程序中，由程序将输入的包含文本信息的文本图片转换成计算机可理解的文本符号。场景文本识别在计算机视觉领域中为一个重要的分支，在自动驾驶、盲人辅助等应用场景中有着重要作用及前景。

目前，较为常用的场景文本识别方法是将文本图片输入到卷积神经网络中，提取得到文本图片的局域视觉信息，然后再将文本图片的局域视觉信息输入到循环神经网络中，得到最终的文本序列的识别结果。但是，上述场景文本识别方法在预测文本字符时容易出现聚焦错误，导致文本字符遗漏或是错位的问题，从而导致文本识别准确率及效率较低。

针对上述文本识别方法中存在的文本识别准确率及效率较低的问题，本申请提供了一种文本识别架构，并基于该文本识别架构提出了一种新的文本识别方法，通过实施本申请所提供的文本识别架构和文本识别方法，可以在基于文本识别网络对文本图片进行识别的过程中，通过并行提取文本图片的局域视觉信息和上下文序列信息，并将文本图片的局域视觉信息和上下文序列信息交互融合，使得在文本识别网络的各个层级都能同时利用文本图片的二元信息，解决了识别过程中文本字符遗漏或是错位的问题，提高了文本识别的准确率及效率。

下面结合本申请实施例中的附图对本申请实施例进行描述。

请参阅图1，图1为本申请实施例提供的一种文本识别的架构示意图。

如图1所示，本文本识别架构主要包括了若干个基于二元关系并行提取模式的模块，这些模块代替了原来卷积神经网络中的残差模块。对文本图片矫正为近似水平的程度之后，输入至文本识别网络中进行目标文本识别。上述每个二元关系模块都会同时提取整个文本图片的上下文序列信息以及局域视觉信息，并将二者信息交互融合，从而达到在文本识别网络中的每一层都能同时利用文本图片的二元信息。

通常文本识别使用的卷积神经网络中的残差模块，往往忽略文本图片中上下文序列信息在低层特征中的作用，仅仅在最后增加一个循环神经网络来增加序列信息，然而由于文本的本质是一个字符的序列排列，即使在低层也有着明显的序列结构，在低层特征的表现为字符有规律的交替出现以及整个文本的延伸方向，因此若忽略了低层的序列信息，很可能导致文本识别模型在预测字符时出现聚焦错误，从而出现字符遗漏或是错位的问题。本申请实施例中的二元关系网络在低层就引入了序列信息，并且随着网络加深，每一层网络都会对整体序列信息以及局域视觉信息进行阶段性融合，从而保证了这两种信息互相引导互相促进。

具体的，对于文本识别网络中每一层级提取文本图片中的局域信息和序列信息，并进行阶段性融合的过程，可参阅图2，图2为本申请实施例提供的一种二元关系模块的架构示意图。

如图2所示，对上述图1中的任意一个二元关系模块处理文本图片的流程进行说明，以二元关系模块1为例。对文本图片矫正之后，将特征图输入至文本识别网络中进行目标文本识别。特征图首先经过一个1x1卷积，然后分别对其进行序列信息提取和局域信息提取。具体为，对特征图进行特征压缩，再对特征压缩后的特征图进行序列提取，其中，特征压缩有三种模式，分别为池化、组卷机以及常规卷积，目的在于将原来高度不为1的特征图压缩为高度为1的特征图；序列信息提取常采用双向的长短期记忆网络，也可以采用时序卷积网络等方式。局域信息提取采用基于拓扑结构的信息提取模式，提取文本图片的视觉特征，再经过1x1卷积，得到局域信息。在并行提取特征图得到局域信息和序列信息二元关系之后，将二者分别处理后再融合，并将二者融合的结果作为下一个二元关系模块的特征输入，进行进一步局域视觉信息和序列信息的特征提取处理并将二者融合，随着网络加深，每一层网络都会对整体序列信息以及局域视觉信息进行阶段性融合，最终使用基于注意力机制的解码器得到目标文本的识别结果。

基于上述图1和图2中的文本识别架构，本申请还提供了一种新的文本识别方法，下面将结合图3对其进行说明。

请参阅图3，图3为本申请实施例提供的一种文本识别方法的流程示意图，该方法包括但不限于如下步骤：

步骤301：获取文本图片。

电子设备获取文本图片，该文本图片为包括目标文本的图片。

其中，本申请实施例中的电子设备为搭载了可用于执行计算机执行指令的处理器的设备，该电子设备可以是计算机、服务器等，用于对获取到的文本图片进行目标文本识别，提高文本识别的准确率及效率。

步骤302：将文本图片输入至文本识别网络进行识别，得到目标文本。

电子设备将文本图片输入至文本识别网络中进行识别，得到目标文本。其中，该文本识别网络的各个层级均能同时利用该文本图片的局域信息和序列信息对目标文本进行识别，该局域信息包括目标文本的结构信息，该结构信息具体包括组成目标文本的各个字符的结构信息，该序列信息包括目标文本的上下文序列信息。

具体的，下面将分别对文本图片的局域信息提取和序列信息提取进行说明。

文本图片的序列信息提取可参阅图4a至图4c，图4a至图4c分别为本申请实施例提供的三种不同的序列信息提取模块的结构示意图。文本图片的序列信息提取方法，先对文本图片进行特征压缩，然后再对压缩后的文本图片提取其结构特征，得到序列信息。其中，特征压缩有三种模式，分别为池化、组卷积以及常规卷积，目的在于将原来高度不为1的特征图压缩为高度为1的特征图。

组卷积网络的特征压缩，对于当前层输入的H*W*C的特征图，该方案先进行了一个重塑操作，将特征图转换为1*W*(H*C)的大小，然后使用C组1*3大小的卷积核，进行卷积操作，最终得到1*W*C的特征图。最后使用一个双向的长短期记忆网络对1*W*C大小的特征图进行序列信息提取。

如图4a所示，X为当前层的输入特征图，Y为提取了序列信息后的特征图，

为经过重塑(Reshape)变换之后的特征图，

为经过组卷积特征提取之后的特征图。其中，重塑前后X与

的对应关系可以如下表示：

其中，i、j、k分别表示H、W、C方向的值。

最大池化的特征压缩，对于输入的H*W*C的特征图，该方案使用H*1大小的池化核，以横向1像素的步长，在每个H*1的区域中选取其中的最大值，以此得到压缩后的1*W*C的特征图。其中，上述H、W、C分别对应特征图的高、宽以及通道。

如图4b所示，X为当前层的输入特征图，Y为经过双向的长短期记忆网络(BiLSTM)提取了序列信息后的特征图，

为经过H*1的最大池化之后的特征图。

常规卷积网络的特征压缩，对于输入的H*W*C的特征图，该方案使用H*3大小的卷积核，以横向1像素的步长进行卷积计算，最终得到的1*W*C的特征图即为压缩后的特征。

如图4c所示，X为当前层的输入特征图，Y为经过双向的长短期记忆网络(BiLSTM)提取了序列信息后的特征图，

为经过H*3的常规卷积操作之后的特征图。

此外，序列信息提取除了常采用双向的长短期记忆网络，也可以采用时序卷积网络等方式，对特征压缩后得到的1*W*C大小的特征图进行序列信息提取。相比于现有的单纯在提取得到的一维特征图上堆叠一个循环神经网络用以提取序列特征的提取模式，本申请实施例中的提取方式使用了不同的特征压缩模式以及序列信息提取模式，可以满足不同的文本图片识别需求。

与此同时，基于拓扑结构的信息提取模式，提取文本图片的视觉特征，得到局域信息。

文本图片的局域信息提取可参阅图5，图5为本申请实施例提供的一种局域信息提取模块的结构示意图。如图5所示，文本图片的局域信息提取方法，采用基于拓扑结构的信息提取模式，提取文本图片的视觉特征。

其中，X为当前层的输入特征图，Y表示经过拓扑结构提取后的输出特征图，f(·),g(·)分别表示两个不同的线性变换层，f(x _i)表示X经过f(·)线性变换之后的特征中i位置的值，X(R _i)表示在X中i位置的像素相邻的3*3区域的像素，g(x _j)表示X经过g(·)线性变换后的特征中i位置的像素相邻的3*3区域的像素。其中，j∈R(i)，α为由f(x _i)和g(x _j)计算得到的拓扑权重，⊙为X(R _i)与拓扑权重的点乘与累加，拓扑权重的计算公式可以如下表示：

其中，N为R _i中的pixel总数，exp()为指数运算。

计算得到拓扑权重后，i位置的输出值计算公式可以如下表示：

经过上述拓扑结构提取后的输出特征图，再经过1x1卷积，得到局域信息。相比于现有的采用常规卷积的提取模式，本申请实施例中的提取方式所得到的局域信息准确性更高。

在并行提取特征图得到局域信息和序列信息二元关系之后，将二者融合，并将二者融合的结果作为下一个二元关系模块的特征输入，进行进一步特征提取处理并融入，随着网络加深，每一层网络都会对整体序列信息以及局域视觉信息进行阶段性融合，最终使用基于注意力机制的解码器得到目标文本的识别结果。

由于本申请实施例中的二元关系模块中的局域信息提取分支和序列信息提取分支有着不同的配置，因此可以根据不同的实验、部署环境来选用不同的配置，以满足不同条件下的文本识别应用。

本申请实施例通过将文本图片输入至文本识别网络中，使文本识别网络的每一层级都能同时提取文本图片的局域信息和序列信息，并将二者分别处理后再融合，得到目标文本的识别结果。与现有方法中遵循先提取局域信息，最后再利用序列信息的串行二元关系提取模式相比，本申请实施例中采用并行的二元关系提取模式，使得在文本识别网络的各个层级都能同时利用文本图片的二元信息，提高了文本识别的准确率及效率。

基于上述图1和图2的文本识别架构，以及上述图3的文本识别方法中所述的提高对文本图片的文本识别准确率及效率，下面将结合图6对其进行说明。

请参阅图6，图6为本申请实施例提供的一种文本识别的效果示意图。

如图6所示，示例性的显示了八张在特定场景中包含文本信息的文本图片，利用场景文本识别技术，分别将这些文本图片输入到程序中，由程序将其转换成计算机可理解的文本符号。现有的场景文本识别技术，得到的识别结果分别为“jlir”、“annuversary”、“f_ound”、“xi”、“them_”、“beaut_”、“farst”、“result”，这与文本图片包含的真实目标文本有所出入，识别结果的准确率较低；而通过本申请实施例所提供的场景文本识别方法，得到的识别结果分别为“jur”、“anniversary”、“ground”、“spa”、“temt”、“beauty”、“first”、“restaurant”，明显提高了文本识别的准确率及效率。

本申请实施例中的文本识别方法，可以应用在各个不同领域。比如，自动驾驶方面，在自动驾驶的过程中，路边的各种文字标牌需要正确的识别才能保证驾驶的稳定性，而对于正在行驶的车辆来说，拍摄到模糊的路牌是及其常见的，通过本申请实施例中的文本识别方法，能够有效的正确识别路牌的内容，提高自动驾驶的安全性。比如，盲人辅助方面，稳定的识别场景文字，能够成为盲人的眼睛，给盲人带来巨大的便捷，以此为基础引申出来的诸如识别菜单、识别快递单、识别单据等都可以极大的提高盲人的生活体验。再比如，识别产品包装方面，识别产品包装在无人超市中有着很广泛的应用，然而由于产品包装上的文字很容易受到视角的影响而产生畸变，通过本申请实施例中的文本识别方法，能够很大程度上解决这个问题，提高识别的准确率及效率。

上述详细阐述了本申请实施例的方法，下面提供本申请实施例的装置。

请参阅图7，图7为本申请实施例提供的一种文本识别装置的结构示意图，该文本识别装置70可以包括获取单元701以及识别单元702，其中，各个单元的描述如下：

获取单元701，用于获取文本图片；所述文本图片为包括目标文本的图片；

识别单元702，用于将所述文本图片输入至文本识别网络进行识别，得到所述目标文本；所述文本识别网络的各个层级同时利用所述文本图片的局域信息和序列信息对所述目标文本进行识别，所述局域信息包括所述目标文本的结构信息，所述序列信息包括所述目标文本的上下文序列信息。

在本申请实施例中，提供了一种对场景文本的文本识别方法。具体为，获取文本图片，该文本图片为包括了特定场景中包含目标文本信息的图片，将该文本图片输入至文本识别网络中，对其进行目标文本识别，得到文本图片中包含的目标文本。其中，该文本识别网络的各个层级均能同时利用文本图片的局域信息和序列信息对目标文本进行识别，该局域信息包括目标文本的结构信息，该序列信息包括目标文本的上下文序列信息。

在一种可能的实施方式中，所述获取单元701，还用于获取所述局域信息，以及获取所述序列信息；

所述识别单元702，具体用于根据所述局域信息和所述序列信息融合处理的结果，得到所述目标文本。

在一种可能的实施方式中，所述识别单元702，具体用于将所述局域信息和所述序列信息加权求和；

所述识别单元702，具体还用于根据所述局域信息和所述序列信息加权求和的结果，得到所述目标文本。

在一种可能的实施方式中，所述获取单元701，具体用于基于拓扑结构提取所述文本图片的视觉特征，得到所述局域信息。

在一种可能的实施方式中，所述获取单元701，具体还用于对所述文本图片的特征压缩；

所述获取单元701，具体还用于提取压缩后的所述文本图片的结构特征，得到所述序列信息。

根据本申请实施例，图7所示的装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，基于网络设备也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

需要说明的是，各个单元的实现还可以对应参照上述图3所示的方法实施例的相应描述。

在图7所描述的文本识别装置70中，在基于文本识别网络对文本图片进行识别的过程中，通过并行提取文本图片的局域视觉信息和上下文序列信息，并将文本图片的局域视觉信息和上下文序列信息交互融合，使得在文本识别网络的各个层级都能同时利用文本图片的二元信息，解决了识别过程中文本字符遗漏或是错位的问题，提高了文本识别的准确率及效率。

请参阅图8，图8为本申请实施例提供的一种电子设备80的结构示意图。该电子设备80可以包括存储器801、处理器802。进一步可选的，还可以包含通信接口803以及总线804，其中，存储器801、处理器802以及通信接口803通过总线804实现彼此之间的通信连接。通信接口803用于与上述文本识别装置70进行数据交互。

其中，存储器801用于提供存储空间，存储空间中可以存储操作系统和计算机程序等数据。存储器801包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasable programmable read only memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)。

处理器802是进行算术运算和逻辑运算的模块，可以是中央处理器(central processing unit，CPU)、显卡处理器(graphics processing unit，GPU)或微处理器(microprocessor unit，MPU)等处理模块中的一种或者多种的组合。

存储器801中存储有计算机程序，处理器802调用存储器801中存储的计算机程序，以执行上述图3所示的文本识别方法：

获取文本图片；所述文本图片为包括目标文本的图片；

上述处理器802执行方法的具体内容可参阅上述图3，此处不再赘述。

相应的，处理器802调用存储器801中存储的计算机程序，还可以用于执行上述图7所示的文本识别装置70中的各个单元所执行的方法步骤，其具体内容可参阅上述图7，此处不再赘述。

在图8所描述的电子设备80中，在基于文本识别网络对文本图片进行识别的过程中，通过并行提取文本图片的局域视觉信息和上下文序列信息，并将文本图片的局域视觉信息和上下文序列信息交互融合，使得在文本识别网络的各个层级都能同时利用文本图片的二元信息，解决了识别过程中文本字符遗漏或是错位的问题，提高了文本识别的准确率及效率。

本申请实施例还提供一种计算机可读存储介质，上述计算机可读存储介质中存储有计算机程序，当上述计算机程序在一个或多个处理器上运行时，可以实现上述图3所示的方法。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括计算机程序，当上述计算机程序产品在处理器上运行时，可以实现上述图3所示的方法。

本申请实施例还提供一种芯片，该芯片包括处理器，所述处理器用于执行指令，当该处理器执行所述指令时，可以实现上述图3所示的方法。可选的，该芯片还包括通信接口，该通信接口用于输入信号或输出信号。

本申请实施例还提供了一种系统，该系统包括了至少一个如上述文本识别装置70或电子设备80或芯片。

综上上述，在基于文本识别网络对文本图片进行识别的过程中，通过并行提取文本图片的局域视觉信息和上下文序列信息，并将文本图片的局域视觉信息和上下文序列信息交互融合，使得在文本识别网络的各个层级都能同时利用文本图片的二元信息，解决了识别过程中文本字符遗漏或是错位的问题，提高了文本识别的准确率及效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序相关的硬件完成，该计算机程序可存储于计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：只读存储器ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储计算机程序代码的介质。

Claims

一种文本识别方法，其特征在于，包括：

获取文本图片；所述文本图片为包括目标文本的图片；

将所述文本图片输入至文本识别网络进行识别，得到所述目标文本；所述文本识别网络的各个编码层级同时利用提取所述文本图片所得到的局域信息和序列信息对所述目标文本进行识别，所述局域信息包括所述目标文本的结构信息，所述序列信息包括所述目标文本的上下文序列信息。
根据权利要求1所述的方法，其特征在于，所述将所述文本图片输入至文本识别网络进行识别，得到所述目标文本，包括：

获取所述局域信息，以及获取所述序列信息；

根据所述局域信息和所述序列信息融合处理的结果，得到所述目标文本。
根据权利要求2所述的方法，其特征在于，所述根据所述局域信息和所述序列信息融合处理的结果，得到所述目标文本，包括：

将所述局域信息和所述序列信息加权求和；

根据所述局域信息和所述序列信息加权求和的结果，得到所述目标文本。
根据权利要求2或3所述的方法，其特征在于，所述获取所述局域信息，包括：

基于拓扑结构提取所述文本图片的视觉特征，得到所述局域信息。
根据权利要求4所述的方法，其特征在于，所述获取所述序列信息，包括：

对所述文本图片的特征进行压缩；

提取压缩后的所述文本图片的结构特征，得到所述序列信息。
一种文本识别装置，其特征在于，包括：

获取单元，用于获取文本图片；所述文本图片为包括目标文本的图片；

识别单元，用于将所述文本图片输入至文本识别网络进行识别，得到所述目标文本；所述文本识别网络的各个层级同时利用所述文本图片的局域信息和序列信息对所述目标文本进行识别，所述局域信息包括所述目标文本的结构信息，所述序列信息包括所述目标文本的上下文序列信息。
根据权利要求6所述的装置，其特征在于，所述获取单元，还用于获取所述局域信息，以及获取所述序列信息；

所述识别单元，具体用于根据所述局域信息和所述序列信息融合处理的结果，得到所述目标文本。
一种文本识别装置，其特征在于，包括：处理器和存储器；

所述存储器用于存储计算机执行指令；

所述处理器用于执行所述存储器所存储的计算机执行指令，以使所述文本识别装置执行如权利要求1至5中任一项所述的方法。
一种计算机可读存储介质，其特征在于，包括：

所述计算机可读存储介质用于存储指令或计算机程序；当所述指令或所述计算机程序被执行时，使如权利要求1至5中任一项所述的方法被实现。
一种计算机程序产品，其特征在于，包括：指令或计算机程序；

所述指令或所述计算机程序被执行时，使如权利要求1至5中任一项所述的方法被实现。