WO2023273188A1

WO2023273188A1 - 一种文本处理方法及相关装置

Info

Publication number: WO2023273188A1
Application number: PCT/CN2021/137584
Authority: WO
Inventors: 李明; 付彬; 乔宇
Original assignee: 中国科学院深圳先进技术研究院
Priority date: 2021-06-30
Filing date: 2021-12-13
Publication date: 2023-01-05
Also published as: CN113627242B; CN113627242A

Abstract

本申请公开了一种文本处理方法及相关装置。该方法包括：获取第一文本图片；第一文本图片为包括第一文本的图片；将第一文本图片输入至文本矫正网络进行文本矫正，得到包括第二文本的第二文本图片；文本矫正网络为利用第一文本中的每个字符的位置信息进行矫正的网络，第二文本的文本内容与第一文本的文本内容相同，第二文本图片中的第二文本为水平文本。本方法对于输入的文本图片，通过检测其包含的文本信息得到每个字符的位置信息，并利用该位置信息重构出每个字符的坐标框，再根据该坐标框对字符进行更精细的控制点采样，使得矫正后的文本更加水平，提高了文本矫正的准确率及效率，进而提高文本识别的准确率及效率。

Description

一种文本处理方法及相关装置

技术领域

本申请涉及场景文本识别(scene text recognition，STR)技术领域，尤其涉及一种文本处理方法及相关装置。

背景技术

场景文本识别指的是通过将特定场景中包含文本信息的文本图片输入到程序中，由程序将输入的包含文本信息的文本图片转换成计算机可理解的文本符号。场景文本识别在计算机视觉领域中为一个重要的分支，在自动驾驶、盲人辅助等应用场景中有着重要作用及前景，提高场景文本识别的准确率及效率尤为重要。

目前的场景文本识别往往只对水平的文本信息有较高的识别准确率。对于文本图片中包含的倾斜甚至弯曲的文本，目前的场景文本识别方法很难对其正确识别。所以，在对文本图片包含的文本信息进行识别之前，通常需要将原本倾斜甚至弯曲的文本矫正为水平的文本。

因此，如何高效的对文本进行矫正，使提高场景文本识别的准确率及效率，成为了本领域技术人员重要的研究课题。

发明内容

本申请实施例提供了一种文本处理方法及相关装置，对于输入的文本图片，通过检测其包含的文本信息得到每个字符的位置信息，并利用该位置信息重构出每个字符的坐标框，再根据该坐标框对字符进行更精细的控制点采样，使得矫正后的文本更加水平，提高了文本矫正的准确率及效率，进而提高文本识别的准确率及效率。

第一方面，本申请实施例提供了一种文本处理方法，该方法包括：

获取第一文本图片；所述第一文本图片为包括第一文本的图片；

将所述第一文本图片输入至文本矫正网络进行文本矫正，得到包括第二文本的第二文本图片；所述文本矫正网络为利用所述第一文本中的每个字符的位置信息进行矫正的网络，所述第二文本的文本内容与所述第一文本的文本内容相同，所述第二文本图片中的所述第二文本为水平文本。

本申请实施例中，将获取的第一文本图片输入至文本矫正网络进行文本矫正。具体为，通过检测第一文本图片包括的第一文本信息得到每个字符的位置与几何信息，并利用该信息重构出每个字符的坐标框，再根据该坐标框对字符进行更精细的控制点采样，利用字符的控制点进行文本矫正，得到包括第二文本的第二文本图片。其中，第二文本图片中的第二文本的文本内容与第一文本图片中的第一文本的文本内容相同，但第二文本图片中的第二文本更加水平，更有利于对其进行文本识别。

目前常用的文本矫正方法，是使用文本级别的控制点采样方式进行文本矫正，忽略了字符本身的信息，因此，在采样的过程中可能会将文本扭曲，导致矫正后的文本图片不容易被识别。

与目前常用的文本矫正方法相比，本申请实施例中的方法，利用字符级别的控制点采样方式进行文本矫正，使得矫正后的文本图片中包括的文本更加水平，提高了文本矫正的准确率及效率，进而提高文本识别的准确率及效率。

在一种可能的实施方式中，所述将所述第一文本图片输入至文本矫正网络进行文本矫正，得到包括第二文本的第二文本图片，包括：

获取所述第一文本中的字符的各个不同层级的掩码；所述各个不同层级的掩码大小不同，所述各个不同层级的掩码用于表征所述字符的位置信息；

根据所述字符的位置信息构建所述字符的坐标框；所述坐标框用于确定所述字符的控制点；

根据所述控制点对所述字符进行矫正，得到包括所述第二文本的所述第二文本图片。

在本申请实施例中，提供了一种对文本图片进行文本矫正的可能的具体实施方式。具体为，获取第一文本中的字符的各个不同层级的掩码，该各个不同层级的掩码大小不同，表征字符的位置信息，其中，较小的掩码可以避免文本中字符黏连的问题，较大的掩码可以避免文本中遗漏字符的问题。再根据各个不同层级的掩码表征的字符的位置信息，构建该字符的坐标框，该坐标框用于确定字符的控制点，最后根据控制点对字符进行矫正。通过本申请实施例，在获取字符的位置信息时回归了每个字符位置的多个不同大小的掩码，可以解决字符间的黏连和遗漏问题，提高确定字符位置信息的准确性，进而提高文本矫正的准确率及效率。

在一种可能的实施方式中，所述根据所述字符的位置信息构建所述字符的坐标框之前，所述方法还包括：

查找所述各个不同层级的掩码对应的连通域，得到目标连通域；所述目标连通域用于优化所述字符的位置信息。

在本申请实施例中，提供了一种优化字符的位置信息的可能的具体实施方式。具体为，在获取第一文本中的字符的各个不同层级的掩码之后，以及在根据字符的位置信息构建字符的坐标框之前，本申请实施例还将查找各个不同层级的掩码对应的连通域，得到其目标连通域，该目标连通域可以对各个不同层级的掩码进行优化，剔除不准确的掩码，进而实现对字符的位置信息的优化。通过本申请实施例，可以进一步提高确定字符位置信息的准确性，进而提高文本矫正的准确率及效率。

在一种可能的实施方式中，所述查找所述各个不同层级的掩码对应的连通域，得到目标连通域，包括：

查找第一掩码对应的连通域，得到第一连通域；以及，查找第二掩码对应的连通域，得到第二连通域；所述第二连通域不与所述第一连通域重合，所述第二掩码大于所述第一掩码；

将所述第一连通域和所述第二连通域作为所述目标连通域。

在本申请实施例中，提供了一种确定目标连通域的可能的具体实施方式。具体为，从最小的掩码开始查找当前层的连通域，将得到的连通域放入队列中。当前层查找完之后开始查找更高层的掩码，对于更高层的掩码中的所有连通域，判断其是否和上一层存在的连通域重合，若重合则舍弃，若没有重合则将其放入队列。重复上述过程直至最大的掩码对应的连通域也被查找完毕，此时，将队列中的连通域作为目标连通域。通过本申请实施例得到的目标连通域，可以对各个不同层级的掩码进行优化，剔除不准确的掩码，进而实现对字符的位置信息的优化，进一步提高确定字符位置信息的准确性，进而提高文本矫正的准确率及效率。

在一种可能的实施方式中，所述获取所述第一文本中的字符的各个不同层级的掩码，包括：

根据损失函数获取所述第一文本中的字符的各个不同层级的掩码，所述损失函数用于表征所述字符的掩码和所述字符的位置信息的准确率。

通过本申请实施例，可以在预先设计好的损失函数的引导下，更加准确的回归得到字符本身的位置信息，进而利用该位置信息可以得到更为精确的控制点，提高文本矫正的准确率及效率。

在一种可能的实施方式中，所述方法还包括：

将所述第二文本图片输入至文本识别网络进行识别，得到所述第二文本。

在本申请实施例中，提供了一种文本识别的可能的具体实施方式，即将上述矫正得到的第二文本图片输入至文本识别网络中进行识别，可以识别得到该第二文本。通过对矫正后的文本图片进行文本识别，可以提高文本识别的准确率及效率。

第二方面，本申请实施例提供了一种文本处理装置，该装置包括：

获取单元，用于获取第一文本图片；所述第一文本图片为包括第一文本的图片；

矫正单元，用于将所述第一文本图片输入至文本矫正网络进行文本矫正，得到包括第二文本的第二文本图片；所述文本矫正网络为利用所述第一文本中的每个字符的位置信息进行矫正的网络，所述第二文本的文本内容与所述第一文本的文本内容相同，所述第二文本图片中的所述第二文本为水平文本。

在一种可能的实施方式中，所述装置还包括：

所述获取单元，还用于获取所述第一文本中的字符的各个不同层级的掩码；所述各个不同层级的掩码大小不同，所述各个不同层级的掩码用于表征所述字符的位置信息；

构建单元，用于根据所述字符的位置信息构建所述字符的坐标框；所述坐标框用于确定所述字符的控制点；

采样单元，用于根据所述坐标框对所述字符的控制点采样；

所述矫正单元，具体用于根据所述控制点对所述字符进行矫正，得到包括所述第二文本的所述第二文本图片。

在一种可能的实施方式中，所述获取单元，还用于查找所述各个不同层级的掩码对应的连通域，得到目标连通域；所述目标连通域用于优化所述字符的位置信息。

在一种可能的实施方式中，所述获取单元，具体用于查找第一掩码对应的连通域，得到第一连通域；以及，查找第二掩码对应的连通域，得到第二连通域；所述第二连通域不与所述第一连通域重合，所述第二掩码大于所述第一掩码；

所述获取单元，具体还用于将所述第一连通域和所述第二连通域作为所述目标连通域。

在一种可能的实施方式中，所述获取单元，具体还用于根据损失函数获取所述第一文本中的字符的各个不同层级的掩码，所述损失函数用于表征所述字符的掩码和所述字符的位置信息的准确率。

在本申请实施例中，提供了一种获取得到的各个不同层级的掩码的可能的具体实施方式。即根据损失函数获取得到各个不同层级的掩码以及这些掩码所确定的字符的位置信息，通过本申请实施例，可以在预先设计好的损失函数的引导下，更加准确的回归得到字符本身的位置信息，进而利用该位置信息可以得到更为精确的控制点，提高文本矫正的准确率及效率。

在一种可能的实施方式中，所述装置还包括：

识别单元，用于将所述第二文本图片输入至文本识别网络进行识别，得到所述第二文本。

第三方面，本申请实施例提供一种文本处理装置，所述文本处理装置包括处理器和存储器；所述存储器用于存储计算机执行指令；所述处理器用于执行所述存储器所存储的计算机执行指令，以使所述文本处理装置执行如上述第一方面以及任一项可能的实施方式的方法。可选的，所述文本处理装置还包括收发器，所述收发器，用于接收信号或者发送信号。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储指令或计算机程序；当所述指令或所述计算机程序被执行时，使得第一方面以及任一项可能的实施方式所述的方法被实现。

第五方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括指令或计算机程序；当所述指令或所述计算机程序被执行时，使得第一方面以及任一项可能的实施方式所述的方法被实现。

第六方面，本申请实施例提供一种芯片，该芯片包括处理器，所述处理器用于执行指令，当该处理器执行所述指令时，使得该芯片执行如第一方面以及任一项可能的实施方式所述的方法。可选的，该芯片还包括通信接口，所述通信接口用于接收信号或发送信号。

第七方面，本申请实施例提供一种系统，所述系统包括至少一个如第二方面或第三方面所述的文本处理装置或第六方面所述的芯片。

此外，在执行上述第一方面以及任一项可能的实施方式所述的方法的过程中，上述方法中有关发送信息和/或接收信息等的过程，可以理解为由处理器输出信息的过程，和/或，处理器接收输入的信息的过程。在输出信息时，处理器可以将信息输出给收发器(或者通信接口、或发送模块)，以便由收发器进行发射。信息在由处理器输出之后，还可能需要进行其他的处理，然后才到达收发器。类似的，处理器接收输入的信息时，收发器(或者通信接口、或发送模块)接收信息，并将其输入处理器。更进一步的，在收发器收到该信息之后，该信息可能需要进行其他的处理，然后才输入处理器。

基于上述原理，举例来说，前述方法中提及的发送信息可以理解为处理器输出信息。又例如，接收信息可以理解为处理器接收输入的信息。

可选的，对于处理器所涉及的发射、发送和接收等操作，如果没有特殊说明，或者，如果未与其在相关描述中的实际作用或者内在逻辑相抵触，则均可以更加一般性的理解为处理器输出和接收、输入等操作。

可选的，在执行上述第一方面以及任一项可能的实施方式所述的方法的过程中，上述处理器可以是专门用于执行这些方法的处理器，也可以是通过执行存储器中的计算机指令来执行这些方法的处理器，例如通用处理器。上述存储器可以为非瞬时性(non-transitory)存储器，例如只读存储器(Read Only Memory，ROM)，其可以与处理器集成在同一块芯片上，也可以分别设置在不同的芯片上，本申请实施例对存储器的类型以及存储器与处理器的设置方式不做限定。

在一种可能的实施方式中，上述至少一个存储器位于装置之外。

在又一种可能的实施方式中，上述至少一个存储器位于装置之内。

在又一种可能的实施方式之中，上述至少一个存储器的部分存储器位于装置之内，另一部分存储器位于装置之外。

本申请中，处理器和存储器还可能集成于一个器件中，即处理器和存储器还可以被集成在一起。

本申请实施例中，对于输入的文本图片，通过检测其包含的文本信息得到每个字符的位置与几何信息，并利用该信息进行文本矫正，使得矫正后的文本更加水平，提高了文本矫正的准确率及效率，进而提高文本识别的准确率及效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种文本处理的架构示意图；

图2为本申请实施例提供的一种文本处理的场景示意图；

图3为本申请实施例提供的一种文本处理方法的流程示意图；

图4为本申请实施例提供的一种字符掩码的效果示意图；

图5为本申请实施例提供的一种字符级信息优化的效果示意图；

图6a为本申请实施例提供的一种文本矫正的效果示意图；

图6b为本申请实施例提供的另一种文本矫正的效果示意图；

图7为本申请实施例提供的一种文本处理装置的结构示意图；

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图对本申请实施例进行描述。

本申请的说明书、权利要求书及附图中的术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备等，没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元等，或可选地还包括对于这些过程、方法、产品或设备等固有的其它步骤或单元。

在本文中提及的“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员可以显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上，“至少两个(项)”是指两个或三个及三个以上，“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

本申请提供了一种文本处理方法，为了更清楚地描述本申请的方案，下面先介绍一些与文本处理相关的知识。

文本图片：指的是包含了文本信息的图片。

场景文本识别：指的是通过将特定场景中包含文本信息的文本图片输入到程序中，由程序将输入的包含文本信息的文本图片转换成计算机可理解的文本符号。场景文本识别在计算机视觉领域中为一个重要的分支，在自动驾驶、盲人辅助等应用场景中有着重要作用及前景。

目前的场景文本识别往往只对水平的文本信息有较高的识别准确率。对于文本图片中包含的倾斜甚至弯曲的文本，目前的场景文本识别方法很难对其正确识别。所以，在对文本图片包含的文本信息进行识别之前，通常需要将原本倾斜甚至弯曲的文本矫正为水平的文本。目前常用的文本矫正方法，是使用文本级别的控制点采样方式进行文本矫正，忽略了字符本身的信息，因此，在采样的过程中可能会将文本扭曲，导致矫正后的文本图片不容易被识别。

针对上述文本矫正过程中存在的文本扭曲、不易识别而导致矫正准确率及效率低、文本识别的准确率及效率低的问题，本申请实施例提供了一种文本处理架构，并基于该文本处理架构提出了一种新的文本处理方法，通过实施本申请所提供的文本处理架构和文本处理方法，可以利用字符级别的控制点采样方式进行文本矫正，使得矫正后的文本图片中包括的文本更加水平，提高文本矫正的准确率及效率，进而提高文本识别的准确率及效率。

下面结合本申请实施例中的附图对本申请实施例进行描述。

请参阅图1，图1为本申请实施例提供的一种文本处理的架构示意图。

如图1所示，本文本处理架构主要包括字符级采样与矫正模块(Character-Aware Sampling and Rectification Module，CASR)、文本识别模块。将文本图片输入至字符级采样与矫正模块后，字符级采样与矫正模块可以对文本图片中包含的文本进行矫正，将原本倾斜甚至弯曲的文本矫正为水平的文本，再将矫正后的文本图片输入至文本识别模块中进行文本识别，得到最终的文本序列结果。

其中，字符级采样与矫正模块可以分成四个部分，分别是字符级信息提取部分、字符级信息优化部分、字符重构与采样部分，以及图片矫正部分。

字符级信息提取部分，用于提取输入的文本图片中每个字符的位置与几何信息，该信息包括字符所在的区域，以及每个字符的宽度、高度、角度的正弦值与余弦值等字符级信息。需要注意的是，为表征每个字符的位置，字符级信息提取网络回归了每个字符不同大小的掩码Mask，以防止字符连通以及丢失的问题。

字符级信息优化部分，提出连通域选择算法(Connected Components Selecting Algorithm，CCSA)，用于对字符级信息提取部分提取到的字符的位置信息进行优化，该连通域选择算法能够进一步避免字符遗漏问题，同时字符的位置、宽度、高度、角度也都会在这里得到优化。

字符重构与采样部分，用于利用上述得到的字符级信息对字符的坐标框进行重构，然后根据构建出来的坐标框进行控制点采样，不同于常见的矩形坐标框，本部分在重构坐标框时使用平行四边形样式的坐标框，进一步提高了字符级采样与矫正模块的适用性。

图片矫正部分，用于根据采样得到的控制点，使用薄板样条插值(Thin Plate Spline，TPS)变换，将文本图片中包含的文本矫正至水平文本。

通过本申请实施例中的文本处理架构，可以利用字符级别的控制点采样方式进行文本矫正，使得矫正后的文本图片中包括的文本更加水平，提高文本矫正的准确率及效率，进而提高文本识别的准确率及效率。

具体的，基于图1中的文本处理架构，还可以结合对输入的文本图片进行字符级采样与矫正的这一应用场景进行说明。

请参阅图2，图2为本申请实施例提供的一种文本处理的场景示意图。

如图2所示，首先将包括非水平文本“CHELSEA”的文本图片输入至文本处理架构中，信息提取部分提取该文本图片中每个字符的位置信息，回归得到字符不同大小的Mask(M ₁、M ₂、…、M _k)，以及对应的字符级信息的特征图(F _h、F _w、F _sin、F _cos)，其中，F _h表示字符的高度，F _w表示字符的宽度，F _sin表示字符的角度的正弦值，F _cos表示字符的角度的余弦值。接着，字符级信息优化部分利用CCSA算法对上述提取到的字符的位置信息进行优化；字符重构与采样部分再根据优化后字符的位置信息对字符的坐标框进行重构，然后根据构建出来的坐标框进行控制点采样；最后，图片矫正部分根据采样得到的控制点，使用TPS变换，将文本图片中包含的非水平文本“CHELSEA”矫正至水平文本。再将包括水平文本的文本图片输入至文本识别网络中进行文本识别，得到最终的文本序列结果“CHELSEA”。

基于上述图1中的文本处理架构，本申请还提供了一种新的文本处理方法，下面将结合图3对其进行说明。

请参阅图3，图3为本申请实施例提供的一种文本处理方法的流程示意图，该方法包括但不限于如下步骤：

步骤301：获取第一文本图片。

电子设备获取第一文本图片，该第一文本图片为包括第一文本的图片。

其中，本申请实施例中的电子设备为搭载了可用于执行计算机执行指令的处理器的设备，该电子设备可以是计算机、服务器等，用于对获取到的第一文本图片进行文本矫正，将原本非水平的文本矫正为水平文本，进而提高文本识别的准确率及效率。

步骤302：将第一文本图片输入至文本矫正网络进行文本矫正，得到包括第二文本的第二文本图片。

电子设备将第一文本图片输入至文本矫正网络进行文本矫正，得到包括第二文本的第二文本图片。其中，该文本矫正网络为利用第一文本中的每个字符的位置信息进行矫正的网络，该第二文本的文本内容与第一文本的文本内容相同，该第二文本图片中的第二文本为水平文本。

具体的，由上述图1中的文本处理架构可知，文本矫正网络对第一文本进行文本矫正的过程主要包括字符级信息提取、字符级信息优化，以及字符重构及采样。下面将分别从这三部分对文本矫正网络对第一文本进行文本矫正的过程进一步说明。

第一、字符级信息提取。

在对第一文本图片中的第一文本信息提取过程中，提取的字符信息主要包含了两个部分：表征字符位置信息的各个不同层级的Mask，以及与之对应的字符级信息。其中，对于每层Mask，其本质是一个二分类问题，在输出中1代表该像素点属于字符区域的，而0代表该像素点属于无字符区域。与之对应的字符级信息主要包括字符的高度、字符的宽度，字符的角度的正弦值，字符的角度的余弦值。

对于字符级信息的提取，需要对字符级别的文字位置检测，其中一个很大的难点即是字符的黏连问题，具体可参阅图4，图4为本申请实施例提供的一种字符Mask的效果示意图。

如图4所示，在一张文本图片(a)上，字符与字符间的位置是很接近的。因此，若在对字符级别的文字位置检测时，直接回归等同于原字符大小的Mask，则会出现图4中(b)所示的情况，不同的字符的Mask会黏连在一起，使得难以区分文本中的每个字符。而若回归较小的Mask，则会出现图4中(c)的情况，会有字符没有被检测出，造成字符丢失。只有某一恰好的缩放比例才可能同时解决上述两个问题，如图4中(d)所示，然而该缩放比例是不可知的，每个不同的文本图片的最佳缩放比例都是不同的。基于上述存在的问题，本步骤选择回归出多层不同大小的Masks，小的Mask可以避免字符黏连的问题，而较大的Mask可以避免遗漏字符的问题。

此外，由于训练数据集中含有字符框位置标注，因此便可根据其标注确定每个字符的位置，将字符框内所有像素值设为1，像素框外设为0，此时可得到原始标注下的Mask的结果，记为G1。如上所述，网络的输出为多层不同大小的Mask，因此原始标注下的Mask的结果也需要不同比例大小。因此，首先需要设定一个最小比例，接下来设定要回归的Mask的层数k，确定k值后即可计算出每一层Mask缩小的比例，即可进一步得到每一层Mask在原始标注下的结果，记为G2～Gk。同时，根据每个字符的坐标框，可计算出每个字符的宽度、高度以及角度的正弦和余弦值，将每个字符的这些字符级信息填充至G1对应的字符位置，即可得到对应的字符级信息，分别记为G _h、G _w、G _sin、G _cos。

需要注意的是，可以根据损失函数来获取得到各个不同层级的Mask以及这些Mask所确定的字符的字符级信息。其中，CASR的字符级信息提取网络的损失函数分为两个部分，Mask与字符级信息Attribute，其中Mask本质是一个二分类问题，而Attribute是一个回归问题，因此整体的损失函数包含两个部分，可如下公式表示：

L＝L _mask+λL _attri

其中，L为CASR整体的损失函数，L _mask为CASR的Mask部分的损失函数，L _attri为字符级信息的损失函数，λ为两部分损失函数的平衡系数。

L _mask有多种可选择形式，交叉熵损失函数(Cross Entropy Loss)是处理分类问题的一种常规损失函数。然而，对于较小的mask，字符区域会很小，也就是说分类为“正”的像素点个数会远远低于分类为“负”的像素个数，在极端情况下两者的差距能够达到10倍甚至20倍。因此在这种类别极度不平衡的情况下，交叉熵损失函数并无独特的优势。本申请实施例采取了骰子系数(Dice Coefficient)与在线困难样本挖掘(Online Hard Example Mining，OHEM)结合作为L _mask最终的损失函数。Dice Coefficient如下公式表示：

其中，M _i为输出的第i层的mask，G _i为原始标注下第i层mask的结果。

L _mask如下公式表示：

其中，k为回归的mask的层数，O为OHEM过程得到的训练用的mask。

L _attri如下公式表示：

其中，x为回归的字符级信息的类型，共h、w、sin、cos四种，G _x为原始标注下x类型字符级信息的结果，G ₁为原始标注下最大的mask的结果，F _x为x类型字符信息的输出。

第二、字符级信息优化。

出于解决文字黏连和文字丢失问题的目的，CASR的输出包含了多层不同大小的mask。直接在每一层的mask上查找连通域是必要的，但是对一个字符而言，它很可能同时出现在多层mask上，因此本申请实施例提出了解决这一问题的连通域选择算法。

具体为，从最小的Mask开始查找当前层的连通域，将得到的连通域放入队列中。当前层查找完之后开始查找更高层的Mask，对于更高层的Mask中的所有连通域，判断其是否和上一层存在的连通域重合，若重合则舍弃，若没有重合则将其放入队列。重复上述过程直至最大的Mask对应的连通域也被查找完毕，此时，将队列中的连通域作为目标连通域。

值得一提的是，在判断连通域是否重合时，CCSA没有采用逐个像素点对比的方法，而是直接用矩阵点乘，根据得到的结果是否为零矩阵来判断是否重合。与逐像素对比的方法相比，该方法不仅简单，同时也拥有更低的时间复杂度。

对于CCSA的效果，具体可参阅图5，图5为本申请实施例提供的一种字符级信息优化的效果示意图。

如图5所示，图5中的(a)为输入的原图，图5中的(b)、(c)(d)依次为更大的mask层的结果。第一行为原始mask，第二行为字符重构及采样的结果，第三行为矫正后的结果。在图5中的(b)中，由于该层mask较小，导致了字符的丢失，如“U”“Y”都没有被检测到，因此最终的矫正结果效果一般。在图5中的(c)中，“Y”被找回，最终的矫正结果显然更加水平。

经过CCSA算法后，即可获得每个连通域，将CCSA算法选择出来的连通域记为SC，此时便可获得每个字符的高度、宽度以及角度的正弦、余弦值。如下公式表示：

其中，x为回归的字符级信息的类型，共h、w、sin、cos四种类型；x _j为第j个字符的x信息；SC _j为第j个字符的连通域；F _x为x类型字符信息的特征图。

在获取每个字符的角度时，相比于直接回归字符角度，同时回归角度的正弦余弦值，然后再做归一化处理，会拥有更高的鲁棒性。

第三、字符重构及采样。

由上述步骤可获得每个字符的中点以及其字符级信息，下面将结合图6a对字符重构及采样进行说明。

如图6a所示，图6a中的(a)中的点C ₁、C ₂、C ₃、C ₄表示的四个字符的宽度、高度以及角度分别记为w _1,2,3,4、h _1,2,3,4、a _1,2,3,4。以字符“U”为例，首先连接C ₃、C ₂，然后在线段C ₃C ₂上按照字符“L”与字符“U”的宽度按比例进行划分得到D ₁，使得满足以下条件：

在得到D ₁后，便可根据字符“U”的高度及角度构建一条以D ₁为中点的线段A ₀A ₃，A ₀A ₃＝h ₃。同理可按照相同的方式向右构建出线段A ₁A ₂。然后连接A ₀A ₁和A ₃A ₂，即可得到平行四边形A ₀A ₁A ₂A ₃，也即字符“U”重构的字符框，如图6a中的(b)。

图6a中的(c)中的平行四边形框为每个字符的重构坐标框，圆点为采样得到的控制点。图6a中的(d)为矫正后的文本图片及对应的控制点。

综上所述，通过检测文本图片包含的文本信息，得到每个字符的位置信息，并利用该位置信息重构出每个字符的坐标框，再根据该坐标框对字符进行更精细的控制点采样，根据采样控制点对文本进行矫正，使得矫正后的文本更加水平。

具体的，其矫正效果可参阅图6b，图6b为本申请实施例提供的另一种文本矫正的效果示意图。如图6b所示，分别为利用现有的方法和本申请实施例的方法对输入的文本图片进行文本矫正的效果对比图，第一行图片为输入的文本图片，分别包括了非水平文本“SIARI”、“handmade”、“COFFEE”、“CHELSEA”、“MANCHESTER”，第二行图片为利用现有的方法对上述文本图片进行文本矫正后得到的结果，第三行为利用本申请实施例的方法对上述文本图片进行文本矫正后得到的结果。可以看出，相比于现有的矫正方法，本申请实施例中的矫正方法得到的文本图片中的文本更加水平，文本矫正的准确率及效率更高，基于此的文本识别的准确率及效率也更高。

上述详细阐述了本申请实施例的方法，下面提供本申请实施例的装置。

请参阅图7，图7为本申请实施例提供的一种文本处理装置的结构示意图，该文本处理装置70可以包括获取单元701以及矫正单元702，其中，各个单元的描述如下：

获取单元701，用于获取第一文本图片；所述第一文本图片为包括第一文本的图片；

矫正单元702，用于将所述第一文本图片输入至文本矫正网络进行文本矫正，得到包括第二文本的第二文本图片；所述文本矫正网络为利用所述第一文本中的每个字符的位置信息进行矫正的网络，所述第二文本的文本内容与所述第一文本的文本内容相同，所述第二文本图片中的所述第二文本为水平文本。

在本申请实施例中，将获取的第一文本图片输入至文本矫正网络进行文本矫正。具体为，通过检测第一文本图片包括的第一文本信息得到每个字符的位置信息，并利用该位置信息重构出每个字符的坐标框，再根据该坐标框对字符进行更精细的控制点采样，利用字符的控制点进行文本矫正，得到包括第二文本的第二文本图片。其中，第二文本图片中的第二文本的文本内容与第一文本图片中的第一文本的文本内容相同，但第二文本图片中的第二文本更加水平，更有利于对其进行文本识别。

在一种可能的实施方式中，所述装置还包括：

所述获取单元701，还用于获取所述第一文本中的字符的各个不同层级的掩码；所述各个不同层级的掩码大小不同，所述各个不同层级的掩码用于表征所述字符的位置信息；

构建单元703，用于根据所述字符的位置信息构建所述字符的坐标框；所述坐标框用于确定所述字符的控制点；

采样单元704，用于根据所述坐标框对所述字符的控制点采样；

所述矫正单元702，具体用于根据所述控制点对所述字符进行矫正，得到包括所述第二文本的所述第二文本图片。

在一种可能的实施方式中，所述获取单元701，还用于查找所述各个不同层级的掩码对应的连通域，得到目标连通域；所述目标连通域用于优化所述字符的位置信息。

在一种可能的实施方式中，所述获取单元701，具体用于查找第一掩码对应的连通域，得到第一连通域；以及，查找第二掩码对应的连通域，得到第二连通域；所述第二连通域不与所述第一连通域重合，所述第二掩码大于所述第一掩码；

所述获取单元701，具体还用于将所述第一连通域和所述第二连通域作为所述目标连通域。

在一种可能的实施方式中，所述获取单元701，具体还用于根据损失函数获取所述第一文本中的字符的各个不同层级的掩码，所述损失函数用于表征所述字符的掩码和所述字符的位置信息的准确率。

在一种可能的实施方式中，所述装置还包括：

识别单元705，用于将所述第二文本图片输入至文本识别网络进行识别，得到所述第二文本。

根据本申请实施例，图7所示的装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，基于网络设备也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

需要说明的是，各个单元的实现还可以对应参照上述图3所示的方法实施例的相应描述。

在图7所描述的文本处理装置70中，对于输入的文本图片，通过检测其包含的文本信息得到每个字符的位置信息，并利用该位置信息重构出每个字符的坐标框，再根据该坐标框对字符进行更精细的控制点采样，使得矫正后的文本更加水平，提高了文本矫正的准确率及效率，进而提高文本识别的准确率及效率。

请参阅图8，图8为本申请实施例提供的一种电子设备80的结构示意图。该电子设备80可以包括存储器801、处理器802。进一步可选的，还可以包含通信接口803以及总线804，其中，存储器801、处理器802以及通信接口803通过总线804实现彼此之间的通信连接。通信接口803用于与上述文本处理装置70进行数据交互。

其中，存储器801用于提供存储空间，存储空间中可以存储操作系统和计算机程序等数据。存储器801包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasable programmable read only memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)。

处理器802是进行算术运算和逻辑运算的模块，可以是中央处理器(central processing unit，CPU)、显卡处理器(graphics processing unit，GPU)或微处理器(microprocessor unit，MPU)等处理模块中的一种或者多种的组合。

存储器801中存储有计算机程序，处理器802调用存储器801中存储的计算机程序，以执行上述图3所示的文本处理方法：

上述处理器802执行方法的具体内容可参阅上述图3，此处不再赘述。

相应的，处理器802调用存储器801中存储的计算机程序，还可以用于执行上述图7所示的文本处理装置70中的各个单元所执行的方法步骤，其具体内容可参阅上述图7，此处不再赘述。

在图8所描述的电子设备80中，对于输入的文本图片，通过检测其包含的文本信息得到每个字符的位置信息，并利用该位置信息重构出每个字符的坐标框，再根据该坐标框对字符进行更精细的控制点采样，使得矫正后的文本更加水平，提高了文本矫正的准确率及效率，进而提高文本识别的准确率及效率。

本申请实施例还提供一种计算机可读存储介质，上述计算机可读存储介质中存储有计算机程序，当上述计算机程序在一个或多个处理器上运行时，可以实现上述图3所示的方法。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括计算机程序，当上述计算机程序产品在处理器上运行时，可以实现上述图3所示的方法。

本申请实施例还提供一种芯片，该芯片包括处理器，所述处理器用于执行指令，当该处理器执行所述指令时，可以实现上述图3所示的方法。可选的，该芯片还包括通信接口，该通信接口用于输入信号或输出信号。

本申请实施例还提供了一种系统，该系统包括了至少一个如上述文本处理装置70或电子设备80或芯片。

综上所述，对于输入的文本图片，通过检测其包含的文本信息得到每个字符的位置信息，并利用该位置信息重构出每个字符的坐标框，再根据该坐标框对字符进行更精细的控制点采样，使得矫正后的文本更加水平，提高了文本矫正的准确率及效率，进而提高文本识别的准确率及效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序相关的硬件完成，该计算机程序可存储于计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：只读存储器ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储计算机程序代码的介质。

Claims

一种文本处理方法，其特征在于，包括：

获取第一文本图片；所述第一文本图片为包括第一文本的图片；

将所述第一文本图片输入至文本矫正网络进行文本矫正，得到包括第二文本的第二文本图片；所述文本矫正网络为利用所述第一文本中的每个字符的位置信息进行矫正的网络，所述第二文本的文本内容与所述第一文本的文本内容相同，所述第二文本图片中的所述第二文本为水平文本。
根据权利要求1所述的方法，其特征在于，所述将所述第一文本图片输入至文本矫正网络进行文本矫正，得到包括第二文本的第二文本图片的步骤，包括：

获取所述第一文本中的字符的各个不同层级的掩码；所述各个不同层级的掩码大小不同，所述各个不同层级的掩码用于表征所述字符的位置信息；

根据所述字符的位置信息构建所述字符的坐标框；所述坐标框用于确定所述字符的控制点；

根据所述控制点对所述字符进行矫正，得到包括所述第二文本的所述第二文本图片。
根据权利要求2所述的方法，其特征在于，所述根据所述字符的位置信息构建所述字符的坐标框之前，所述方法还包括：

查找所述各个不同层级的掩码对应的连通域，得到目标连通域；所述目标连通域用于优化所述字符的位置信息。
根据权利要求3所述的方法，其特征在于，所述查找所述各个不同层级的掩码对应的连通域，得到目标连通域，包括：

查找第一掩码对应的连通域，得到第一连通域；以及，查找第二掩码对应的连通域，得到第二连通域；所述第二连通域不与所述第一连通域重合，所述第二掩码大于所述第一掩码；

将所述第一连通域和所述第二连通域作为所述目标连通域。
根据权利要求2至4中任一项所述的方法，其特征在于，所述获取所述第一文本中的字符的各个不同层级的掩码，包括：

根据损失函数获取所述第一文本中的字符的各个不同层级的掩码，所述损失函数用于表征所述字符的掩码和所述字符的位置信息的准确率。
根据权利要求1至5中任一项所述的方法，其特征在于，所述方法还包括：

将所述第二文本图片输入至文本识别网络进行识别，得到所述第二文本。
一种文本处理装置，其特征在于，包括：

获取单元，用于获取第一文本图片；所述第一文本图片为包括第一文本的图片；

矫正单元，用于将所述第一文本图片输入至文本矫正网络进行文本矫正，得到包括第二文本的第二文本图片；所述文本矫正网络为利用所述第一文本中的每个字符的位置信息进行矫正的网络，所述第二文本的文本内容与所述第一文本的文本内容相同，所述第二文本图片中的所述第二文本为水平文本。
一种文本处理装置，其特征在于，包括：处理器和存储器；

所述存储器用于存储计算机执行指令；

所述处理器用于执行所述存储器所存储的计算机执行指令，以使所述文本处理装置执行如权利要求1至6中任一项所述的方法。
一种计算机可读存储介质，其特征在于，包括：

所述计算机可读存储介质用于存储指令或计算机程序；当所述指令或所述计算机程序被执行时，使如权利要求1至6中任一项所述的方法被实现。
一种计算机程序产品，其特征在于，包括：指令或计算机程序；

所述指令或所述计算机程序被执行时，使如权利要求1至6中任一项所述的方法被实现。