WO2021017998A1

WO2021017998A1 - 文本位置定位方法和系统以及模型训练方法和系统

Info

Publication number: WO2021017998A1
Application number: PCT/CN2020/103799
Authority: WO
Inventors: 顾立新; 韩锋; 韩景涛; 曾华荣; 刘庆杰
Original assignee: 第四范式（北京）技术有限公司
Priority date: 2019-07-26
Filing date: 2020-07-23
Publication date: 2021-02-04
Also published as: CN110414499A; CN113159016B; CN113159016A; CN110414499B

Abstract

一种在图像中定位文本位置的方法，包括：获取预测图像样本；利用预先训练的基于深度神经网络的文本位置检测模型确定用于在预测图像样本中定位文本位置的最终的文本框，其中，文本位置检测模型包括特征提取层、候选区域推荐层、级联的多级文本框分支以及掩膜分支，特征提取层提取预测图像样本的特征以生成特征图，候选区域推荐层基于特征图在预测图像样本中确定预定数量个候选文本区域，级联的多级文本框分支基于特征图中与每个候选文本区域对应的特征来预测候选水平文本框，掩膜分支基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息，并根据掩膜信息确定用于在预测图像样本中定位文本位置的最终的文本框。

Description

文本位置定位方法和系统以及模型训练方法和系统

本申请要求申请号为201910682132.X，申请日为2019年7月26日，名称为“文本位置定位方法和系统以及模型训练方法和系统”的中国专利申请的优先权，其中，上述申请公开的内容通过引用结合在本申请中。

技术领域

本公开总体说来涉及人工智能领域，更具体地，涉及一种在图像中定位文本位置的方法和系统、以及训练文本位置检测模型的方法和系统。

背景技术

图像中的文本蕴含着丰富的信息，提取这些信息(即，文本识别)对图像所处场景的理解等具有重要意义。文本识别分为两个步骤：文本的检测(即，定位文本位置)和文本的识别(即，识别文本的内容)，两者缺一不可，而文本检测作为文本识别的前提条件，尤为关键。然而，复杂场景或自然场景下的文本检测效果常因为以下一些难点而使得文本检测效果较差：(1)拍摄角度不一，使文本存在变形的可能；(2)文本存在多个方向，可能存在水平文本和旋转文本；(3)文本尺寸大小不一，紧密程度不一，同一张图像同时存在长文本和短文本，排布紧密或松散。

近些年来，虽然人工智能技术的发展为图像中的文本识别技术提供了有利的技术支持，并且也出现了一些较为优秀的文本检测方法(例如，faster-rcnn、mask-rcnn、east、ctpn、fots、pixel-link等)，然而，这些文本检测方法的文本检测效果仍然较差。例如，faster-rcnn、mask-rcnn只支持水平文本的检测，而无法检测旋转文本；east、fots受限于网络的感受野，因此对长文本的检测效果不佳，会出现长文本头尾框不住的现象；ctpn虽然支持旋转文本检测但是旋转文本的检测效果较差；pixel-link遇到文本密集排布现象时，会把多行文本当成一个整体，文本检测效果仍然欠佳。

发明内容

本公开在于至少解决现有文本检测方式中存在的以上难点，以便提高文本位置检测效果。

根据本公开示例性实施例，提供了一种在图像中定位文本位置的方法，所述方法可包括：获取预测图像样本；利用预先训练的基于深度神经网络的文本位置检测模型确定用于在预测图像样本中定位文本位置的最终的文本框，其中，所述文本位置检测模型包括特征提取层、候选区域推荐层、级联的多级文本框分支以及掩膜分支，其中，特征提取层用于提取预测图像样本的特征以生成特征图，候选区域推荐层用于基于生成的特征图在预测图像样本中确定预定数量个候选文本区域，级联的多级文本框分支用于基于特征图中的与每个候选文本区域对应的特征来预测候选水平文本框，掩膜分支用于基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息，并根据预测出的掩膜信息确定用于在预测图像样本中定位文本位置的最终的文本框。

根据本公开另一示例性实施例，提供了一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如上所述的在图像中定位文本位置的方法。

根据本公开另一示例性实施，提供了一种包括至少一个计算装置和存储指令的至少一个存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行机器学习建模过程的实现方法的以下步骤：获取预测图像样本；利用预先训练的基于深度神经网络的文本位置检测模型确定用于在预测图像样本中定位文本位置的最终的文本框，其中，所述文本位置检测模型包括特征提取层、候选区域推荐层、级联的多级文本框分支以及掩膜分支，其中，特征提取层用于提取预测图像样本的特征以生成特征图，候选区域推荐层用于基于生成的特征图在预测图像样本中确定预定数量个候选文本区域，级联的多级文本框分支用于基于特征图中的与每个候选文本区域对应的特征来预测候选水平文本框，掩膜分支用于基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息，并根据预测出的掩膜信息确定用于在预测图像样本中定位文本位置的最终的文本框。

根据本公开另一示例性实施例，提供了一种在图像中定位文本位置的系统，所述系统可包括：预测图像样本获取装置，被配置为获取预测图像样本；文本位置定位装置，被配置为利用预先训练的基于深度神经网络的文本位置检测模型确定用于在预测图像样本中定位文本位置的最终的文本框，其中，所述文本位置检测模型包括特征提取层、候选区域推荐层、级联的多级文本框分支以及掩膜分支，其中，特征提取层用于提取预测图像样本的特征以生成特征图，候选区域推荐层用于基于生成的特征图在预测图像样本中确定预定数量个候选文本区域，级联的多级文本框分支用于基于特征图中的与每个候选文本区域对应的特征来预测候选水平文本框，掩膜分支用于基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息，并根据预测出的掩膜信息确定用于在预测图像样本中定位文本位置的最终的文本框。

根据本公开另一示例性实施例，提供了一种训练文本位置检测模型的方法，所述方法可包括：获取训练图像样本集，其中，训练图像样本中对文本位置进行了文本框标记；基于训练图像样本集训练基于深度神经网络的文本位置检测模型，其中，所述文本位置检测模型包括特征提取层、候选区域推荐层、级联的多级文本框分支以及掩膜分支，其中，特征提取层用于提取图像的特征以生成特征图，候选区域推荐层用于基于生成的特征图在图像中确定预定数量个候选文本区域，级联的多级文本框分支用于基于特征图中的与每个候选文本区域对应的特征来预测候选水平文本框，掩膜分支用于基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息，并根据预测出的掩膜信息确定用于在图像中定位文本位置的最终的文本框。

根据本公开另一示例性实施例，提供了一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如上所述的训练文本位置检测模型的方法。

根据本公开另一示例性实施例，提供了一种包括至少一个计算装置和存储指令的至少一个存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行机器学习建模过程的实现方法的以下步骤：获取训练图像样本集，其中，训练图像样本中对文本位置进行了文本框标记；基于训练图像样本集训练基于深度神经网络的文本位置检测模型，其中，所述文本位置检测模型包括特征提取层、候选区域推荐层、级联的多级文本框分支以及掩膜分支，其中，特征提取层用于提取图像的特征以生成特征图，候选区域推荐层用于基于生成的特征图在图像中确定预定数量个候选文本区域，级联的多级文本框分支用于基于特征图中的与每个候选文本区域对应的特征来预测候选水平文本框，掩膜分支用于基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息，并根据预测出的掩膜信息确定用于在图像中定位文本位置的最终的文本框。

根据本公开另一示例性实施例，提供了一种训练文本位置检测模型的系统，所述系统可包括：训练图像样本集获取装置，被配置为获取训练图像样本集，其中，训练图像样本中对文本位置进行了文本框标记；模型训练装置，被配置为基于训练图像样本集训练基于深度神经网络的文本位置检测模型，其中，所述文本位置检测模型包括特征提取层、候选区域推荐层、级联的多级文本框分支以及掩膜分支，其中，特征提取层用于提取图像的特征以生成特征图，候选区域推荐层用于基于生成的特征图在图像中确定预定数量个候选文本区域，级联的多级文本框分支用于基于特征图中的与每个候选文本区域对应的特征来预测候选水平文本框，掩膜分支用于基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息，并根据预测出的掩膜信息确定用于在图像中定位文本位置的最终的文本框。

根据本公开示例性实施例的文本位置检测模型包括级联的多级文本框分支，并且根据本公开示例性实施例的训练文本检测模型的方法和系统由于在训练前对训练样本集进行了尺寸和/或旋转变化，重新设计了锚点框，并且在训练过程中加入了难样本学习机制，因此，训练出的文本位置检测模型可提供更佳的文本位置检测效果。

此外，根据本公开示例性实施例的在图像中定位文本位置的方法和系统通过利用包括级联的多级文本框分支的文本位置检测模型，可提高文本检测性能，而且由于引入了两级非极大值抑制操作可有效防止漏检和文本框重叠，使得不仅可以定位水平文本而且可以定位旋转文本，此外，通过对获取的图像进行多尺度变换而针对同一图像的不同尺寸的预测图像样本进行预测并将针对不同尺寸的预测图像样本确定的文本框进行合并，可进一步提高图像中文本位置检测效果。

附图说明

从下面结合附图对本公开实施例的详细描述中，本公开的这些和/或其他方面和优点将变得更加清楚并更容易理解，其中：

图1是示出根据本公开示例性实施例的训练文本位置检测模型的系统的框图；

图2是根据本公开示例性实施例的文本位置检测模型的示意图；

图3是示出根据本公开示例性实施例的训练文本检测模型的方法的流程图；

图4是示出根据本公开示例性实施例的在图像中定位文本位置的系统的框图；

图5是示出根据本公开示例性实施例的在图像中定位文本位置的方法的流程图。

具体实施方式

为了使本领域技术人员更好地理解本公开，下面结合附图和具体实施方式对本公开的示例性实施例作进一步详细说明。在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。在本公开中出现的“和/或”均表示被其连接的前后两项或多项中的至少一项。例如，“包括A和B之中的至少一个”、“包括A和/或B”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如，“执行步骤一和步骤二之中的至少一个”、“执行步骤一和/或步骤二”即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。也就是说，“A和/或B”也可被表示为“A和B之中的至少一个”，“执行步骤一和/或步骤二”也可被表示为“执行步骤一和步骤二之中的至少一个”。

图1是示出根据本公开示例性实施例的训练文本位置检测模型的系统(在下文中，为描述方便，将其简称为“模型训练系统”)100的框图。

如图1所示，模型训练系统100可包括训练图像样本集获取装置110和模型训练装置120。

具体地，训练图像样本集获取装置110可获取训练图像样本集。这里，在训练图像样本集的训练图像样本中对文本位置进行了文本框标记，即，在图像中用文本框标记出了文本位置。作为示例，训练图像样本集获取装置110可直接从外部获取由其他装置产生的训练图像样本集，或者，训练图像样本集获取装置110可本身执行操作来构建训练图像样本集。例如，训练图像样本集获取装置110可通过手动、半自动或全自动的方式来获取训练图像样本集，并将获取的训练图像样本处理为适当的格式或形式。这里，训练图像样本集获取装置110可通过输入装置(例如，工作站)接收用户手动导入的训练图像样本集，或者训练图像样本集获取装置110可通过全自动的方式从数据源获取训练图像样本集，例如，通过以软件、固件、硬件或其组合实现的定时器机制来系统地请求数据源将训练图像样本集发送给训练图像样本集获取装置110，或者，也可在有人工干预的情况下自动进行训练图像样本集的获取，例如，在接收到特定的用户输入的情况下请求获取训练图像样本集。当获取到训练图像样本集时，优选地，训练图像样本集获取装置110可将获取的样本集存储在非易失性存储器(例如，数据仓库)中。

模型训练装置120可基于训练图像样本集训练基于深度神经网络的文本位置检测模型。这里，深度神经网络可以是卷积神经网络，但不限于此。

图2示出根据本公开示例性实施例的文本位置检测模型的示意图。如图2所示，文本位置检测模型可包括特征提取层210、候选区域推荐层220、级联的多级文本框分支230(为方便示意，图2中将多级文本框分支示意为包括三级文本框分支，但这仅是示例，级联的多级文本框分支不限于仅包括三级文本框分支)以及掩膜分支240。具体地，特征提取层可用于提取图像的特征以生成特征图，候选区域推荐层可用于基于生成的特征图在图像中确定预定数量个候选文本区域，级联的多级文本框分支可用于基于特征图中的与每个候选文本区域对应的特征来预测候选水平文本框，掩膜分支可用于基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息，并根据预测出的掩膜信息确定用于在图像中定位文本位置的最终的文本框。这里，所述最终的文本框可包括水平文本框和/或旋转文本框。也就是说，本公开的文本检测模型既可以检测水平文本，也可检测旋转文本。

在此需要说明的是，本公开中的所述最终的文本框可包括水平文本框和/或旋转文本框，还可以表述为：所述最终的文本框可包括水平文本框和旋转文本框之中的至少一个。

作为示例，图2的文本位置检测模型可基于Mask-RCNN框架，此时，特征提取层可对应于Mask-RCNN框架中的深度残差网络(例如，resnet 101)，候选区域推荐层可对应于Mask-RCNN框架中的区域推荐网络RPN层，级联的多级文本框分支中的每一级文本框分支可包括Mask-RCNN框架中的RolAlign层和全连接层，掩膜分支包括一系列卷积层。本领域技术人员均清楚Mask-RCNN框架中的深度残差网络、RPN层、RolAlign层和全连接层的功能和操作，因此，这里不对其进行详细介绍。

本领域技术人员均了解，传统的Mask-RCNN框架不仅只包括一个文本框分支，而且在RPN层确定了预定数量个候选区域(例如，2000个)之后，从这些候选区域中随机抽样一些候选区域(例如，512个)，并将抽样的候选区域分别送给文本框分支和掩膜分支。然而，这样的结构以及随机抽样候选区域分别送给文本框分支和掩膜分支的操作导致传统Mask-RCNN框架的文本位置检测效果较差。这是因为，一级文本框分支仅能检测与真实文本框标记的重叠度在一定范围内的候选区域，而随机抽样不利于模型对难样本的学习，比如，如果2000个候选区域存在大量简单样本，较少难样本，则随机抽样会较大概率把一些简单样本送给文本框分支和掩膜分支，从而导致模型学习效果较差。针对此，本公开提出的上述包括多级文本框分支并且将多级文本框分支点的输出作为掩膜分支的输入的构思可有效地提高文本位置检测效果。

下面，将对本公开的文本位置检测模型的训练进行详细描述。

如本公开背景技术中所描述的，自然场景中由于图像拍摄角度不一，会存在文本变形的可能，并且可能存在平面旋转和三维立体旋转，因此，根据本公开示例实施例，模型训练系统100除了包括训练图像样本集获取装置110和模型训练装置120之外，还可包括预处理装置(未示出)。这里，预处理装置可在基于训练图像样本集训练所述文本位置检测模型之前，对训练图像样本集中的训练图像样本进行尺寸变换和/或透射变换以获得变换后的训练图像样本集，从而使得训练图像样本更切近真实场景。具体而言，预处理装置可在不保持训练图像样本的原始宽高比的情况下，对训练图像样本进行随机的尺寸变换使得训练图像样本的宽和高在预定范围内。这里，之所以不保持训练图像样本的原始宽高比就是为了模拟真实场景中的压缩和拉伸。例如，可将训练图像样本的宽和高随机变换到640至2560个像素之间，但是预定范围不限于此。此外，对训练图像样本进行透射变换可以包括使训练图像样本中像素的坐标分别绕x轴、y轴和z轴进行随机旋转。例如，可以将训练图像样本中的每个像素绕x轴随机旋转(-45,45)，绕y轴随机旋转(-45,45)，绕z轴随机旋转(-30,30)，增强后的训练图像样本将更加符合真实场景。例如，可通过下面的等式对文本框坐标进行变换：

其中，

矩阵，θ _x为绕x轴随机旋转(-45,45)，θ _y为绕y轴随机旋转(-45,45)，θ _z为绕z轴随机旋转(-30,30)得到，

为变换前的坐标，通常z的取值为1，

为变换后的坐标，变换后的文本框坐标可表示为x＝x′/z′,y＝y′/z′。

在此需要说明的是，本公开中的对训练图像样本集中的训练图像样本进行尺寸变换和/或透射变换以获得变换后的训练图像样本集，还可以表述为：对训练图像样本集中的训练图像样本进行尺寸变换和透射变换之中的至少一个，以获得变换后的训练图像样本集。

在预处理装置对训练图像样本集进行变换之后，模型训练装置120可基于变换后的训练图像样本集训练上述文本检测模型。具体地，模型训练装置120可以进行以下操作来训练上述文本检测模型：将经过变换的训练图像样本输入上述文本位置检测模型；利用特征提取层提取输入的训练图像样本的特征以生成特征图；利用候选区域推荐层基于生成的特征图在输入的训练图像样本中确定预定数量个的候选文本区域；利用级联的多级文本框分支基于特征图中的与每个候选文本区域对应的特征预测候选水平文本框，并根据文本框分支的预测结果和文本框标记来计算与每个候选文本区域对应的文本框预测损失；将所述预定数量个候选文本区域按照其对应的文本框预测损失进行排序，并根据排序结果筛选出文本框预测损失最大的前特定数量个的候选文本区域；利用掩膜分支基于特征图中与筛选出的候选文本区域对应的特征来预测筛选出的候选文本区域中的掩膜信息，并通过比较预测出的掩膜信息与文本的真实掩膜信息来计算掩膜预测损失；通过使文本框预测损失和掩膜预测损失的总和最小来训练文本位置检测模型。

作为示例，图像的特征可以包括图像中像素的相关度，但不限于此。模型训练装置120可利用特征提取层提取训练图像样本中像素的相关度来生成特征图。随后，模型训练装置120可利用候选区域推荐层基于生成的特征图预测候选文本区域与预先设置的锚点框之间的差异，根据该差异和锚点框确定初始候选文本区域，并利用非极大值抑制操作从初始候选文本区域中筛选出所述预定数量个候选文本区域。这里，由于预测出的初始候选文本区域可能会存在彼此重叠的现象，因此，本公开利用非极大值抑制操作来对初始候选文本区域进行筛选。下面，简要地对非极大值抑制操作进行描述。具体地，可从与锚点框的差异最小的初始候选文本区域开始，分别判断其他初始候选文本框与该初始候选文本区域的重叠度是否大于某个设定的阈值，如果存在大于该阈值的初始候选文本区域则将其去除，也就是说，保留重叠度小于该阈值的初始候选文本区域。然后，再在所有保留下来的初始候选文本区域之中再选择一个与锚点框的差异最小的初始候选文本区域，并继续判断该初始候选文本区域与其他初始候选文本区域的重叠度，如果重叠度大于阈值则删除，否则保留，直至筛选出预定数量个候选文本区域。

这里，预先设置的锚点框是预先设置的图像中每个可能的文本框，以用于与真实文本框进行匹配。传统的基于Mask-RCNN框架的模型的锚点的宽高比集合是固定的，该集合为[0.5,1,2]，也就是说，锚点的宽高比仅有0.5、1和2这三种。利用这三种宽高比的锚点在一些通用的目标检测数据集(例如，coco数据集)上基本能够覆盖目标，但是，在文本场景中确远远不足以覆盖文本。这是因为，文本场景中宽高比范围很大，1:5，5:1的文本很常见，如果用传统Mask-RCNN的仅具有三种固定宽高比的锚点框会导致锚点框和真实的文本框匹配不上，从而导致文本漏检。因此，根据本公开示例性实施例，模型训练装置120还可在训练所述文本位置检测模型之前，统计变换后的训练图像样本集中标记的所有文本框的宽高比，并且根据统计的所有文本框的宽高比设置所述锚点框的宽高比集合。也就是说，本公开可对锚点框的宽高比进行重新设计。具体地，例如，在统计了变换后的训练图像样本集中标记的所有文本框的宽高比之后，可将统计的所有文本框的宽高比进行排序，根据排序后的宽高比确定锚点框的宽高比的上限值和下限值，在上限值和下限值之间等比例地进行插值，并将由上限值和下限值以及通过插值得到的值构成的集合作为所述锚点框的宽高比集合。例如，可以将所有文本框的宽高比由小到大排序后处于第5％的宽高比和处于第95％的宽高比分别确定为锚点框的宽高比的下限值和上限值，然后在上限值和下限值之间等比例地进行三次插值来得到另外三个宽高比，并将由上限值和下限值以及通过插值得到的三个值构成的集合作为锚点框的宽高比集合。然而，以上确定锚点框的宽高比集合的方式仅是示例，上限值和下限值的选取方式以及插值的方式和次数均不限于以上示例。通过根据以上方式设计锚点框的宽高比集合，可以有效地减少文本框的漏检。

如上所述，在确定了预定数量个候选文本区域之后，模型训练装置120可利用级联的多级文本框分支基于特征图中的与每个候选文本区域对应的特征预测每个候选文本区域与文本框标记之间的位置偏差以及每个候选文本区域包括文本的置信度和不包括文本的置信度，并根据预测的位置偏差和置信度计算与每个候选文本区域对应的文本框预测损失。作为示例，如图2所示，所述级联的多级文本框分支可以是三级文本框分支，但不限于此。

另外，如上所述，本公开提出了难样本学习机制，也就是说，将所述预定数量个候选文本区域按照其对应的文本框预测损失进行排序，根据排序结果筛选出文本框预测损失最大的前特定数量个的候选文本区域，并将筛选出的候选文本区域输入掩膜分支进行掩膜信息预测。例如，可根据文本框预测损失从2000个候选区域中选出文本框预测损失较大的512个候选文本区域。为此，模型训练装置120可根据利用文本框分支预测的位置偏差和置信度来计算与每个候选文本区域对应的文本框预测损失。具体而言，例如，针对每个候选文本区域，模型训练装置120可分别根据每一级文本框分支的预测结果和真实文本框标记来计算每一级文本框分支的文本框预测损失，并通过将各级文本框分支的文本框预测损失求和来确定与每个候选文本区域对应的文本框预测损失。这里，文本框预测损失包括与每个候选文本区域对应的置信度预测损失和位置偏差预测损失。此外，针对每一级文本框分支设置的用于计算每一级文本框分支的文本框预测损失的重叠度阈值彼此不同，并且针对前一级文本框分支设置的重叠度阈值小于针对后一级文本框分支设置的重叠度阈值。这里，重叠度阈值是每一级文本框分支预测出的水平文本框与文本框标记之间的重叠度阈值。重叠度(IOU)可以是两个文本框之间的交集除以两个文本框的并集所获得的值。例如，在所述多级文本框分支是三级文本框分支的情况下，针对第一级文本框分支至第三级文本框分支设置的重叠度阈值可以分别是0.5、0.6和0.7。具体地，例如，在计算第一级文本框预测损失时，如果针对候选文本区域预测出的水平文本框与训练图像样本中的文本框标记之间的重叠度阈值大于0.5，则该候选文本区域被确定为是针对第一级文本框分支的正样本，小于0.5则被确定为是负样本。但是当阈值取0.5时会有较多的误检，因为0.5的阈值会使得正样本中有较多的背景，这是较多文本位置误检的原因。如果用0.7的重叠度阈值，则可以减少误检，但检测效果不一定最好，主要原因在于重叠度阈值越高，正样本的数量就越少，因此过拟合的风险就越大。然而，本公开由于采取级联的多级文本框分支，并且针对每一级文本框分支设置的用于计算每一级文本框分支的文本框预测损失的重叠度阈值彼此不同，而且针对前一级文本框分支设置的重叠度阈值小于针对后一级文本框分支设置的重叠度阈值，因此能够让每一级文本框分支都专注于检测与真实文本框标记重叠度在某一范围内的候选文本区域，因此文本检测效果会越来越好。

在筛选出文本框预测损失较大的候选文本区域之后，模型训练装置120可利用掩膜分支基于特征图中与筛选出的候选文本区域对应的特征来预测筛选出的候选文本区域中的掩膜信息(具体地，可将预测为文本的像素的掩膜设置为1，不是文本的像素的掩膜设置为0)，并通过比较预测出的掩膜信息与文本的真实掩膜信息来计算掩膜预测损失。具体地，例如，模型训练装置120可利用筛选出的候选文本区域内的像素之间的相关度来预测掩膜信息。这里，可以默认认为文本框标记中的像素的掩膜值均为1，并且将其作为真实掩膜信息。模型训练装置120可通过不断利用训练图像样本对文本位置检测模型进行训练，直至使所有的文本框预测损失和掩膜预测损失的总和最小，从而完成文本位置检测模型的训练。

以上，已经参照图1和图2对根据本公开示例性实施例的模型训练系统和文本位置检测模型进行了描述。由于本公开的文本位置检测模型包括级联的多级文本框分支，并且在训练前对训练样本集进行了尺寸和/或旋转变化，重新设计了锚点框，并且在训练过程中加入了难样本学习机制，因此，训练出的文本位置检测模型可提供更佳的文本位置检测效果。

在此需要说明的是，本公开中的在训练前对训练样本集进行了尺寸和/或旋转变化，还可以表述为：在训练前对训练样本集进行了尺寸变化和旋转变化之中的至少一个。

需要说明的是，尽管以上在描述模型训练系统100时将其划分为用于分别执行相应处理的装置(例如，训练图像样本集获取装置110和模型训练装置120)，然而，本领域技术人员清楚的是，上述各装置执行的处理也可以在模型训练系统100不进行任何具体装置划分或者各装置之间并无明确划界的情况下执行。此外，以上参照图1所描述的模型训练系统100并不限于包括以上描述的装置，而是还可以根据需要增加一些其他装置(例如，存储装置、数据处理装置等)，或者以上装置也可被组合。

图3是示出根据本公开示例性实施例的训练文本位置检测模型的方法(以下，为描述方便，将其简称为“模型训练方法”)的流程图。

这里，作为示例，图3所示的模型训练方法可由图1所示的模型训练系统100来执行，也可完全通过计算机程序或指令以软件方式实现，还可通过特定配置的计算系统或计算装置来执行，例如，可通过包括至少一个计算装置和至少一个存储指令的存储装置的系统来执行，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行上述模型训练方法。为了描述方便，假设图3所示的模型训练方法由图1所示的模型训练系统100来执行，并假设模型训练系统100可具有图1所示的配置。

参照图3，在步骤S310，训练图像样本集获取装置110可获取训练图像样本集，其中，训练图像样本中对文本位置进行了文本框标记。接下来，在步骤S320，模型训练装置120可基于训练图像样本集训练基于深度神经网络的文本位置检测模型。如参照图2所述，文本位置检测模型包括特征提取层、候选区域推荐层、级联的多级文本框分支以及掩膜分支，其中，特征提取层用于提取图像的特征以生成特征图，候选区域推荐层用于基于生成的特征图在图像中确定预定数量个候选文本区域，级联的多级文本框分支用于基于特征图中的与每个候选文本区域对应的特征来预测候选水平文本框，掩膜分支用于基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息，并根据预测出的掩膜信息确定用于在图像中定位文本位置的最终的文本框。作为示例，文本位置检测模型可基于Mask-RCNN框架，特征提取层对应于Mask-RCNN框架中的深度残差网络，候选区域推荐层对应于Mask-RCNN框架中的区域推荐网络RPN层，级联的多级文本框分支中的每一级文本框分支包括Mask-RCNN框架中的RolAlign层和全连接层，掩膜分支包括一系列卷积层。此外，图像的特征可包括图像中像素的相关度，但不限于此。这里，最终的文本框可包括水平文本框和/或旋转文本框。

根据示例性实施例的模型训练方法还可在步骤S310和步骤S320之间包括对获取的训练图像样本集进行变换的步骤(未示出)。具体地，可在基于训练图像样本集训练所述文本位置检测模型之前(即，在步骤S320之前)，对训练图像样本集中的训练图像样本进行尺寸变换和/或透射变换以获得变换后的训练图像样本集。以上，已经参照图1对如何对训练图像样本进行尺寸变换和透射变换进行了描述，详细细节可参照图1的描述，这里不再赘述。

在对训练图像样本集进行变换之后，在步骤S320，模型训练装置120可执行以下操作来训练文本位置检测模型：将经过变换的训练图像样本输入所述文本位置检测模型；利用特征提取层提取输入的训练图像样本的特征以生成特征图；利用候选区域推荐层基于生成的特征图在输入的训练图像样本中确定预定数量个的候选文本区域；利用级联的多级文本框分支基于特征图中的与每个候选文本区域对应的特征预测每个候选文本区域与文本框标记之间的位置偏差以及每个候选文本区域包括文本的置信度和不包括文本的置信度，并根据预测的位置偏差和置信度计算与每个候选文本区域对应的文本框预测损失；将所述预定数量个候选文本区域按照其对应的文本框预测损失进行排序，并根据排序结果筛选出文本框预测损失最大的前特定数量个的候选文本区域；利用掩膜分支基于特征图中与筛选出的候选文本区域对应的特征来预测筛选出的候选文本区域中的掩膜信息，并通过比较预测出的掩膜信息与文本的真实掩膜信息来计算掩膜预测损失；通过使文本框预测损失和掩膜预测损失的总和最小来训练文本位置检测模型。

在利用候选区域推荐层基于生成的特征图在输入的训练图像样本中确定预定数量个的候选文本区域时，模型训练装置120可利用候选区域推荐层基于生成的特征图预测候选文本区域与预先设置的锚点框之间的差异，根据该差异和锚点框确定初始候选文本区域，并利用非极大值抑制操作从初始候选文本区域中筛选出所述预定数量个候选文本区域。相应地，图3所示的模型训练方法还可包括设置锚点框的步骤(未示出)，例如，该步骤可包括：在训练所述文本位置检测模型之前，统计变换后的训练图像样本集中标记的所有文本框的宽高比，并且根据统计的所有文本框的宽高比设置所述锚点框的宽高比集合。此外，该步骤还可包括：根据统计的文本框的大小设置锚点框的大小，或者将锚点框的大小设置为固定的一些大小，例如，16×16、32×32、64×64、128×128和256×256，本公开对锚点框的大小或设置锚点框大小的方式并未限制，这是因为，一般对于文本位置检测而言，锚点框宽高比的设置对于文本检测效果的影响更大。

作为示例，可通过以下操作来设置所述锚点框的宽高比集合：将统计的所有文本框的宽高比进行排序；根据排序后的宽高比确定所述锚点框的宽高比的上限值和下限值，在上限值和下限值之间等比例地进行插值，并将由上限值和下限值以及通过插值得到的值构成的集合作为所述锚点框的宽高比集合。

根据示例性实施例，所述级联的多级文本框分支可以是三级文本框分支，但不限于此。另外，关于如何根据预测的位置偏差和置信度来计算与每个候选文本区域对应的文本框预测损失的操作以及针对每一级文本框分支设置用于计算每一级文本框分支的文本框预测损失的重叠度阈值的相关描述也可参照图1的相应描述，这里不再赘述。事实上，由于图3所示的模型训练方法由图1所述的模型训练系统100执行，因此，以上参照图1 在描述模型训练系统中包括的各个装置时所提及的内容均适用于这里，故关于以上步骤中所涉及的相关细节，可参见图1的相应描述，这里均不再赘述。

以上描述的根据示例性实施例的模型训练方法由于文本位置检测模型包括级联的多级文本框分支，并且在训练前对训练样本集进行了尺寸和/或旋转变化，重新设计了锚点框，并且在训练过程中加入了难样本学习机制，因此，利用上述模型训练方法训练出的文本位置检测模型可提供更佳的文本位置检测效果。

在下文中，将参照图4和图5对利用上述训练出的文本位置检测模型在图像中定位文本位置的过程进行描述。

图4是示出根据本公开示例性实施例的在图像中定位文本位置的系统(以下，为描述方便，将其简称为“文本定位系统”)400的框图。

参照图4，文本定位系统400可包括预测图像样本获取装置410和文本位置定位装置420。具体地，预测图像样本获取装置410可被配置为获取预测图像样本，文本位置定位装置420可被配置为利用预先训练的基于深度神经网络的文本位置检测模型确定用于在预测图像样本中定位文本位置的最终的文本框。这里，文本位置检测模型可包括特征提取层、候选区域推荐层、级联的多级文本框分支以及掩膜分支，其中，特征提取层用于提取预测图像样本的特征以生成特征图，候选区域推荐层用于基于生成的特征图在预测图像样本中确定预定数量个候选文本区域，级联的多级文本框分支用于基于特征图中的与每个候选文本区域对应的特征来预测候选水平文本框，掩膜分支用于基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息，并根据预测出的掩膜信息确定用于在预测图像样本中定位文本位置的最终的文本框。作为示例，预测图像样本的特征可预测图像样本中像素的相关度，但不限于此。此外，作为示例，文本位置检测模型可以基于Mask-RCNN框架，并且特征提取层对应于Mask-RCNN框架中的深度残差网络，候选区域推荐层对应于Mask-RCNN框架中的区域推荐网络RPN层，级联的多级文本框分支中的每一级文本框分支包括Mask-RCNN框架中的RolAlign层和全连接层，掩膜分支可以包括一系列卷积层。以上参照图2关于文本位置检测模型的描述均适应于这里，这里不再赘述。

由于同一张图像中可能同时存在长文本和短文本，而如果始终将图像放大或缩小到一定尺寸后输入文本位置检测模型，则可能不能够同时较好地检测到长文本和短文本。这是因为，如果将图像放大到较大尺寸，则短文本的检测性能较好，而如果将图像缩小到较小尺寸，则长文本的检测性能较好。因此，在本公开中，对图像进行多尺度预测。具体地，预测图像样本获取装置410可首先获取图像，然后对获取的图像进行多尺度缩放来获取与所述图像对应的不同尺寸的多个预测图像样本。随后，文本位置定位装置420可针对不同尺寸的多个预测图像样本分别利用预先训练的文本位置检测模型来确定用于在预测图像样本中定位文本位置的最终的文本框，最后，将针对每种尺寸的预测图像样本确定的文本框进行合并来得到最终的结果。这里，图像可来源于任何数据源，本公开对图像的来源、图像的具体获取方式等均无限制。

针对每种尺寸的预测图像样本，文本位置定位装置420可通过执行以下操作来确定用于在预测图像样本中定位文本位置的最终的文本框：利用特征提取层提取预测图像样本的特征以生成特征图；利用候选区域推荐层基于生成的特征图在预测图像样本中确定预定数量个的候选文本区域；利用级联的多级文本框分支基于特征图中的与每个候选文本区域对应的特征预测初始候选水平文本框，并且通过第一非极大值抑制操作从初始候选水平文本框中筛选出文本框重合度小于第一重合度阈值的水平文本框作为候选水平文本框；利用掩膜分支，基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息，根据预测出的文本的掩膜信息确定初选文本框，并且通过第二非极大值抑制操作从确定的初选文本框中筛选出文本框重合度小于第二重合度阈值的文本框作为所述最终的文本框，其中，第一重合度阈值大于第二重合度阈值。

接下来，文本位置定位装置420可将针对不同尺寸的预测图像样本确定的文本框进行合并。具体地，针对第一尺寸的预测图像样本，文本位置定位装置420可在利用所述文本位置检测模型确定了用于在第一尺寸的预测图像样本中定位文本位置的的文本框之后从该文本框中选择尺寸大于第一阈值的第一文本框，并且针对第二尺寸的预测图像样本，在利用所述文本位置检测模型确定了用于在第二尺寸的预测图像样本中定位文本位置的的文本框之后从该文本框中选择尺寸小于第二阈值的第二文本框，其中，第一尺寸小于第二尺寸。也就是说，在合并的时候，对于较大尺寸的图像预测样本，保留小尺寸的文本框，而对于较小尺寸的图像预测样本，保留大尺寸的文本框。例如，如果先前获取的预测图像样本的尺寸分别是800像素大小和1600像素大小，则在将800像素大小和1600像素大小的预测图像样本分别输入文本位置检测模型而分别得到在预测图像样本中定位文本位置的文本框之后，对于800像素大小的预测图像样本，文本位置定位装置420可保留相对大的文本框而过滤掉相对小的文本框(具体地可通过以上提及的第一阈值的设置来进行保留)，然而，对于1600像素大小的预测图像样本，文本位置定位装置420可保留相对小的文本框而过滤掉相对大的文本框(具体地，可通过以上提及的第二阈值的设置来进行保留)。接下来，文本位置定位装置420可将过滤后的结果进行合并。具体地，文本位置定位装置420可利用第三非极大值抑制操作对选择的第一文本框和第二文本框进行筛选，以得到用于在所述图像中定位文本位置的最终的文本框。例如，文本位置定位装置420可将所有选择的第一文本框和第二文本框按照其置信度进行排名并选择置信度最大的一个文本框，然后计算其余文本框与该文本框的重叠度，如果重叠度大于阈值则删除，否则保留，而最终保留的文本框即为在图像中定位文本位置的最终的文本框。

下面，具体地对文本位置定位装置420针对每个预测图像样本执行的操作所涉及的一些细节进行描述。需要说明的是，在接下来的描述中，为了避免对公知的功能和结构的描述会用不必要的细节模糊本公开的构思，因此将省略对公知的功能、结构和术语的描述。

首先，如上所述，为了确定在预测图像样本中定位文本位置的文本框，文本定位装置420可利用特征提取层提取预测图像样本的特征以生成特征图，具体地，例如可以利用Mask-RCNN框架中的深度残差网络(例如，resnet101)提取预测图像样本的像素之间的相关度作为特征来生成特征图。然而，本公开对所使用的预测图像样本的特征以及具体的特征提取方式并无任何限制。

接下来，文本位置定位装置420可利用候选区域推荐层基于生成的特征图在预测图像样本中确定预定数量个的候选文本区域，例如，文本位置定位装置420可利用候选区域推荐层基于生成的特征图预测候选文本区域与预先设置的锚点框之间的差异，根据该差异和锚点框确定初始候选文本区域，并利用第四非极大值抑制操作从初始候选文本区域中筛选出所述预定数量个候选文本区域。这里，所述锚点框的宽高比可以是以上描述的通过在所述文本位置检测模型的训练阶段对训练图像样本集中所标记的文本框的宽高比进行统计而确定的。利用非极大值抑制操作从初始候选文本区域中筛选出所述预定数量个候选文本区域的具体细节已经在参照图1的描述中提及，因此，这里不再赘述。

随后，文本位置定位装置420可利用级联的多级文本框分支基于特征图中的与每个候选文本区域对应的特征预测初始候选水平文本框，并且通过第一非极大值抑制操作从初始候选水平文本框中筛选出文本框重合度小于第一重合度阈值的水平文本框作为候选水平文本框。作为示例，所述级联的多级文本框分支可以是三级文本框分支，下面，以三级文本框为例对利用级联的多级文本框分支基于特征图中的与每个候选文本区域对应的特征预测初始候选水平文本框进行描述。

具体地，文本位置定位装置420可首先利用第一级文本框分支，从特征图中提取与每个候选文本区域对应的特征并预测每个候选文本区域与真实文本区域的位置偏差以及每个候选文本区域包括文本的置信度和不包括文本的置信度，并且根据第一级文本框分支的预测结果确定第一级水平文本框。例如，文本位置定位装置420可利用第一级文本框分支中的RolAlign层从特征图中提取与每个候选文本区域对应的特征，并利用第一级文本框分支中的全连接层预测每个候选文本区域与真实文本区域的位置偏差以及每个候选文本区域包括文本的置信度和不包括文本的置信度。然后，文本位置定位装置420可根据预测的置信度去除部分置信度较低的候选文本区域，并根据保留的候选文本区域及其与真实文本区域的位置偏差确定第一级水平文本框。

在确定了第一级水平文本框之后，文本位置定位装置420可利用第二级文本框分支，从特征图中提取与第一级水平文本框对应的特征并预测第一级水平文本框与真实文本区域的位置偏差以及第一级水平文本框包括文本的置信度和不包括文本的置信度，并根据第二级文本框分支的预测结果确定第二级水平文本框。同样地，例如，文本位置定位装置420可利用第二级文本框分支中的RolAlign层从特征图中提取与第一级水平文本框对应的特征(即，提取与第一级水平文本框中的像素区域对应的特征)，并利用第二级文本框分支中的全连接层预测第一级水平文本框与真实文本区域的位置偏差以及第一级水平文本框包括文本的置信度和不包括文本的置信度。然后，文本位置定位装置420可根据预测的置信度去除部分置信度较低的第一级水平文本框，并根据保留的第一级水平文本框及其与真实文本区域的位置偏差确定第二级水平文本框。

在确定了第二级水平文本框之后，文本位置定位装置420可利用第三级文本框分支，从特征图中提取与第二级水平文本框对应的特征并预测第二级水平文本框与真实文本区域的位置偏差以及第二级水平文本框包括文本的置信度和不包括文本的置信度，并根据第三级文本框分支的预测结果确定初始候选水平文本框。同样地，例如，文本位置定位装置420可利用第三级文本框分支中的RolAlign层从特征图中提取与第二级水平文本框对应的特征(即，提取与第二级水平文本框中的像素区域对应的特征)，并利用第三级文本框分支中的全连接层预测第二级水平文本框与真实文本区域的位置偏差以及第二级水平文本框包括文本的置信度和不包括文本的置信度。然后，文本位置定位装置420可根据预测的置信度去除部分置信度较低的第二级水平文本框，并根据保留的第二级水平文本框及其与真实文本区域的位置偏差确定初始候选水平文本框。

如上所述，在预测出初始候选水平文本框之后，文本位置定位装置420可通过第一非极大值抑制操作从初始候选水平文本框中筛选出文本框重合度小于第一重合度阈值的水平文本框作为候选水平文本框。具体地，文本位置定位装置420可首先根据初始候选水平文本框的置信度选择置信度最大的初始候选水平文本框，然后计算其余初始候选水平文本框与置信度最大的初始候选水平文本框的文本框重合度，如果文本框重合度小于第一重合度阈值则保留，否则删除。所有保留的水平文本框被作为候选水平文本框输入掩膜分支。

接下来，文本位置定位装置420可利用掩膜分支，基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息。具体地，例如，文本位置定位装置420可基于特征图中与候选水平文本框中的像素对应的像素相关度特征来预测候选水平文本框中的文本的掩膜信息。随后，文本位置定位装置420可根据预测出的文本的掩膜信息确定初选文本框。具体而言，例如，文本位置定位装置420可根据预测出的文本的掩膜信息确定包含文本的最小外接矩形，并将确定的最小外接矩形作为初选文本框。例如，文本位置定位装置420可根据预测出的文本的掩膜信息使用最小外接矩形函数确定包含文本的最小外部矩形。

在确定了初选文本框之后，文本位置定位装置420可通过第二非极大值抑制操作从确定的初选文本框中筛选出文本框重合度小于第二重合度阈值的文本框作为所述最终的文本框。具体地，例如，文本位置定位装置420可首先根据初始候选水平文本框的置信度选择置信度最大的初始候选水平文本框，然后计算其余初始候选水平文本框与置信度最大的初始候选水平文本框的文本框重合度，如果文本框重合度小于第一重合度阈值则保留，否则删除。

需要说明的是，以上提及的第一重合度阈值大于第二重合度阈值。传统的 Mask-RCNN框架中只有一级非极大值抑制，并且重合度阈值被固定设置为0.5，也就是说，在筛选时会删除重合度高于0.5的水平文本框。然而，对于旋转角度较大的密集文字，如果重合度阈值设置为0.5，则会导致部分文本框的漏检。而如果提高重合度阈值(例如，将重合度阈值设置为0.8，即，删除重合度高于0.8的文本框)，则会导致最后预侧的水平文本框重叠较多。针对此，本公开提出了两级非极大值抑制的构思。即，如上所述，在利用级联的多级文本框分支预测出初始候选水平文本框，先通过第一非极大值抑制操作从初始候选水平文本框中筛选出文本框重合度小于第一重合度阈值的水平文本框作为候选水平文本框。随后，在利用掩膜分支预测出候选水平文本框中的文本的掩膜信息并根据预测出的文本的掩膜信息确定了初选文本框之后，通过第二非极大值抑制操作从确定的初选文本框中筛选出文本框重合度小于第二重合度阈值的文本框作为所述最终的文本框。而通过将第一重合度阈值大于第二重合度阈值(例如，第一重合度阈值可设置为0.8，第二重合度阈值可设置为0.2)，可实现先利用第一非极大值抑制操作对通过级联的多级文本框分支确定的文本框进行粗筛，然后，利用第二非极大值抑制操作对通过掩膜分支确定的文本框进行细筛。最终，经过两级非极大值抑制操作和调整两级非极大值抑制操作所使用的重合度阈值，不仅可以定位水平文本而且可以定位旋转文本。

此外，图4所示的文本定位系统400还可以包括显示装置(未示出)。显示装置可在所述图像上显示用于在所述图像中定位文本位置的最终的文本框，从而可方便用户直观地确定文本的位置。这里，所述最终的文本框包括水平文本框和/或旋转文本框。

根据示例性实施例的文本定位系统通过利用包括级联的多级文本框分支的文本位置检测模型，可提高文本检测性能，而且由于引入了两级非极大值抑制操作可有效防止漏检和文本框重叠，使得不仅可以定位水平文本而且可以定位旋转文本。此外，通过对获取的图像进行多尺度变换之后针对同一图像的不同尺寸的预测图像样本进行预测并将针对不同尺寸的预测图像样本确定的文本框进行合并，可进一步提高文本位置检测效果，使得即使在图像中同时存在不同尺寸的文本时，也可提供较好的文本位置检测效果。

另外，需要说明的是，尽管以上在描述文本定位系统400时将其划分为用于分别执行相应处理的装置(例如，预测图像样本获取装置410和文本位置定位装置420)，然而，本领域技术人员清楚的是，上述各装置执行的处理也可以在文本定位系统400不进行任何具体装置划分或者各装置之间并无明确划界的情况下执行。此外，以上参照图4所描述的文本定位系统400并不限于包括以上描述的预测图像样本获取装置410、文本位置定位装置420和显示装置，而是还可以根据需要增加一些其他装置(例如，存储装置、数据处理装置等)，或者以上装置也可被组合。而且，作为示例，以上参照图1描述的模型训练系统100和文本定位系统400也可被组合为一个系统，或者它们可以是彼此独立的系统，本公开对此并无限制。

图5是示出根据本公开示例性实施例的在图像中定位文本位置的方法(以下，为描述方便，将其简称为“文本定位方法”)的流程图。

这里，作为示例，图5所示的文本定位方法可由图4所示的文本定位系统400来执行，也可完全通过计算机程序或指令以软件方式实现，还可通过特定配置的计算系统或计算装置来执行，例如，可通过包括至少一个计算装置和至少一个存储指令的存储装置的系统来执行，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行上述文本定位方法。为了描述方便，假设图5所示的文本定位方法由图4所示的文本定位系统400来执行，并假设文本定位系统400可具有图4所示的配置。

参照图5，在步骤S510，预测图像样本获取装置410可获取预测图像样本。例如，在步骤S510，预测图像样本获取装置410可首先获取图像，然后对获取的图像进行多尺度缩放来获取与所述图像对应的不同尺寸的多个预测图像样本。

接下来，在步骤S520，文本位置定位装置420可利用预先训练的基于深度神经网络的文本位置检测模型确定用于在预测图像样本中定位文本位置的最终的文本框。这里，所述文本位置检测模型可包括特征提取层、候选区域推荐层、级联的多级文本框分支以及掩膜分支。具体地，特征提取层可用于提取预测图像样本的特征以生成特征图，候选区域推荐层可用于基于生成的特征图在预测图像样本中确定预定数量个候选文本区域，级联的多级文本框分支可用于基于特征图中的与每个候选文本区域对应的特征来预测候选水平文本框，掩膜分支可用于基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息，并根据预测出的掩膜信息确定用于在预测图像样本中定位文本位置的最终的文本框。作为示例，文本位置检测模型可基于Mask-RCNN框架，特征提取层可对应于Mask-RCNN框架中的深度残差网络，候选区域推荐层可对应于Mask-RCNN框架中的区域推荐网络RPN层，级联的多级文本框分支中的每一级文本框分支可包括Mask-RCNN框架中的RolAlign层和全连接层，并且掩膜分支可包括一系列卷积层。此外，以上提及的预测图像样本的特征可包括预测图像样本中像素的相关度，但不限于此。

具体地，在步骤S520，文本位置定位装置420可首先利用特征提取层提取预测图像样本的特征以生成特征图，并利用候选区域推荐层基于生成的特征图在预测图像样本中确定预定数量个的候选文本区域。然后，文本位置定位装置420可利用级联的多级文本框分支基于特征图中的与每个候选文本区域对应的特征预测初始候选水平文本框，并且通过第一非极大值抑制操作从初始候选水平文本框中筛选出文本框重合度小于第一重合度阈值的水平文本框作为候选水平文本框。接下来，文本位置定位装置420可利用掩膜分支，基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息，根据预测出的文本的掩膜信息确定初选文本框，并且通过第二非极大值抑制操作从确定的初选文本框中筛选出文本框重合度小于第二重合度阈值的文本框作为所述最终的文本框。这里，第一重合度阈值大于第二重合度阈值。

在获取了同一图像的不同尺寸的多个预测图像样本，并对每个尺寸的预测图像样本分别执行以上操作之后，根据本公开示例性实施例的文本定位方法还可包括对针对每个尺寸的预测图像样本的预测结果进行合并的步骤(未示出)。例如，在该步骤中，针对第一尺寸的预测图像样本，文本位置定位装置420可在利用所述文本位置检测模型确定了用于在第一尺寸的预测图像样本中定位文本位置的的文本框之后从该文本框中选择尺寸大于第一阈值的第一文本框，并且针对第二尺寸的预测图像样本，文本位置定位装置420可在利用所述文本位置检测模型确定了用于在第二尺寸的预测图像样本中定位文本位置的的文本框之后从该文本框中选择尺寸小于第二阈值的第二文本框，其中，第一尺寸小于第二尺寸。随后，在该步骤中，文本位置定位装置420可利用第三非极大值抑制操作对选择的第一文本框和第二文本框进行筛选，以得到用于在所述图像中定位文本位置的最终的文本框。

在以上步骤S520的描述中提及文本位置定位装置420可利用候选区域推荐层基于生成的特征图在预测图像样本中确定预定数量个的候选文本区域。具体地，例如，文本位置定位装置520可利用候选区域推荐层基于生成的特征图预测候选文本区域与预先设置的锚点框之间的差异，根据该差异和锚点框确定初始候选文本区域，并利用第四非极大值抑制操作从初始候选文本区域中筛选出所述预定数量个候选文本区域。这里，所述锚点框的宽高比可以是通过在所述文本位置检测模型的训练阶段(以上参照图1和图3描述了文本位置检测模型的训练)对训练图像样本集中所标记的文本框的宽高比进行统计而确定的。

作为示例，以上提及的级联的多级文本框分支可以是三级文本框分支。为方便描述，以三级文本框分支为例，对在步骤S520的描述中提及的利用级联的多级文本框分支基于特征图中的与每个候选文本区域对应的特征预测初始候选水平文本框的操作进行简要描述。具体地，文本位置定位装置420可利用第一级文本框分支，从特征图中提取与每个候选文本区域对应的特征并预测每个候选文本区域与真实文本区域的位置偏差以及每个候选文本区域包括文本的置信度和不包括文本的置信度，并且根据第一级文本框分支的预测结果确定第一级水平文本框；随后，文本位置定位装置420可利用第二级文本框分支，从特征图中提取与第一级水平文本框对应的特征并预测第一级水平文本框与真实文本区域的位置偏差以及第一级水平文本框包括文本的置信度和不包括文本的置信度，并根据第二级文本框分支的预测结果确定第二级水平文本框；最后，文本位置定位装置420可利用第三级文本框分支，从特征图中提取与第二级水平文本框对应的特征并预测第二级水平文本框与真实文本区域的位置偏差以及第二级水平文本框包括文本的置信度和不包括文本的置信度，并根据第三级文本框分支的预测结果确定初始候选水平文本框。

此外，在以上对步骤S520的描述中提及根据预测出的文本的掩膜信息确定初选文本框。具体地，文本位置定位装置420可根据预测出的文本的掩膜信息确定包含文本的最小外接矩形，并将确定的最小外接矩形作为初选文本框。

如以上参照图4所述，文本定位系统400还可包括显示装置，相应地，图5所示的文本定位方法在步骤S5290之后，可包括在所述图像上显示用于在所述图像中定位文本位置的最终的文本框。这里，所述最终的文本框可包括水平文本框和/或旋转文本框。

由于图5所示的文本定位方法可由图4所示的文本定位系统400来执行，因此，关于以上步骤中所涉及的相关细节，可参见关于图4的相应描述，这里不再赘述。

根据示例性实施例的文本定位方法通过利用包括级联的多级文本框分支的文本位置检测模型，可提高文本位置检测性能，而且由于引入了两级非极大值抑制操作可有效防止漏检和文本框重叠，使得不仅可以定位水平文本而且可以定位旋转文本。此外，通过对获取的图像进行多尺度变换而针对同一图像的不同尺寸的预测图像样本进行预测并将针对不同尺寸的预测图像样本确定的文本框进行合并，可进一步提高文本位置检测效果。

以上已参照图1至图5描述了根据本公开示例性实施例模型训练系统和模型训练方法以及文本定位系统和文本定位方法。

然而，应理解的是：图1和图4所示出的系统及其装置可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如，这些系统或装置可对应于专用的集成电路，也可对应于纯粹的软件代码，还可对应于软件与硬件相结合的模块。此外，这些系统或装置所实现的一个或多个功能也可由物理实体设备(例如，处理器、客户端或服务器等)中的组件来统一执行。

此外，上述方法可通过记录在计算机可读存储介质上的指令来实现，例如，根据本公开的示例性实施例，可提供一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行以下步骤：获取训练图像样本集，其中，训练图像样本中对文本位置进行了文本框标记；基于训练图像样本集训练基于深度神经网络的文本位置检测模型，其中，所述文本位置检测模型包括特征提取层、候选区域推荐层、级联的多级文本框分支以及掩膜分支，其中，特征提取层用于提取图像的特征以生成特征图，候选区域推荐层用于基于生成的特征图在图像中确定预定数量个候选文本区域，级联的多级文本框分支用于基于特征图中的与每个候选文本区域对应的特征来预测候选水平文本框，掩膜分支用于基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息，并根据预测出的掩膜信息确定用于在图像中定位文本位置的最终的文本框。

此外，根据本公开的另一示例性实施例，可提供一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行以下步骤：获取预测图像样本；利用预先训练的基于深度神经网络的文本位置检测模型确定用于在预测图像样本中定位文本位置的最终的文本框，其中，所述文本位置检测模型包括特征提取层、候选区域推荐层、级联的多级文本框分支以及掩膜分支，其中，特征提取层用于提取预测图像样本的特征以生成特征图，候选区域推荐层用于基于生成的特征图在预测图像样本中确定预定数量个候选文本区域，级联的多级文本框分支用于基于特征图中的与每个候选文本区域对应的特征来预测候选水平文本框，掩膜分支用于基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息，并根据预测出的掩膜信息确定用于在预测图像样本中定位文本位置的最终的文本框。

上述计算机可读存储介质中存储的指令可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，应注意，所述指令还可在执行上述步骤时执行更为具体的处理，这些进一步处理的内容已经在参照图3和图5描述的过程中提及，因此这里为了避免重复将不再进行赘述。

应注意，根据本公开示例性实施例的模型训练系统和文本定位系统可完全依赖计算机程序或指令的运行来实现相应的功能，即，各个装置在计算机程序的功能架构中与各步骤相应，使得整个系统通过专门的软件包(例如，lib库)而被调用，以实现相应的功能。

另一方面，当图1和图4所示的系统和装置以软件、固件、中间件或微代码实现时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中，使得至少一个处理器或至少一个计算装置可通过读取并运行相应的程序代码或者代码段来执行相应的操作。

例如，根据本公开示例性实施例，可提供一种包括至少一个计算装置和存储指令的至少一个存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行下述步骤：获取训练图像样本集，其中，训练图像样本中对文本位置进行了文本框标记；基于训练图像样本集训练基于深度神经网络的文本位置检测模型，其中，所述文本位置检测模型包括特征提取层、候选区域推荐层、级联的多级文本框分支以及掩膜分支，其中，特征提取层用于提取图像的特征以生成特征图，候选区域推荐层用于基于生成的特征图在图像中确定预定数量个候选文本区域，级联的多级文本框分支用于基于特征图中的与每个候选文本区域对应的特征来预测候选水平文本框，掩膜分支用于基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息，并根据预测出的掩膜信息确定用于在图像中定位文本位置的最终的文本框。

例如，根据本公开另一示例性实施例，可提供一种包括至少一个计算装置和存储指令的至少一个存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行下述步骤：获取预测图像样本；利用预先训练的基于深度神经网络的文本位置检测模型确定用于在预测图像样本中定位文本位置的最终的文本框，其中，所述文本位置检测模型包括特征提取层、候选区域推荐层、级联的多级文本框分支以及掩膜分支，其中，特征提取层用于提取预测图像样本的特征以生成特征图，候选区域推荐层用于基于生成的特征图在预测图像样本中确定预定数量个候选文本区域，级联的多级文本框分支用于基于特征图中的与每个候选文本区域对应的特征来预测候选水平文本框，掩膜分支用于基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息，并根据预测出的掩膜信息确定用于在预测图像样本中定位文本位置的最终的文本框。

具体说来，上述系统可以部署在服务器或客户端中，也可以部署在分布式网络环境中的节点上。此外，所述系统可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。此外，所述系统还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。另外，所述系统的所有组件可经由总线和/或网络而彼此连接。

这里，所述系统并非必须是单个系统，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。所述系统还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子装置。

在所述系统中，所述至少一个计算装置可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，所述至少一个计算装置还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。计算装置可运行存储在存储装置之一中的指令或代码，其中，所述存储装置还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，所述网络接口装置可采用任何已知的传输协议。

存储装置可与计算装置集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储装置可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储装置和计算装置可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得计算装置能够读取存储在存储装置中的指令。

以上描述了本公开的各示例性实施例，应理解，上述描述仅是示例性的，并非穷尽性的，本公开不限于所披露的各示例性实施例。在不偏离本公开的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本公开的保护范围应该以权利要求的范围为准。

工业实用性

在本公开提供的文本位置定位方法和系统以及模型训练方法和系统中，文本位置检测模型包括级联的多级文本框分支，并且根据本公开示例性实施例的训练文本检测模型的方法和系统由于在训练前对训练样本集进行了尺寸和/或旋转变化，重新设计了锚点框，并且在训练过程中加入了难样本学习机制，因此，训练出的文本位置检测模型可提供更佳的文本位置检测效果。

Claims

一种包括至少一个计算装置和存储指令的至少一个存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行机器学习建模过程的实现方法的以下步骤：

获取预测图像样本；

利用预先训练的基于深度神经网络的文本位置检测模型确定用于在预测图像样本中定位文本位置的最终的文本框，

其中，所述文本位置检测模型包括特征提取层、候选区域推荐层、级联的多级文本框分支以及掩膜分支，其中，特征提取层用于提取预测图像样本的特征以生成特征图，候选区域推荐层用于基于生成的特征图在预测图像样本中确定预定数量个候选文本区域，级联的多级文本框分支用于基于特征图中的与每个候选文本区域对应的特征来预测候选水平文本框，掩膜分支用于基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息，并根据预测出的掩膜信息确定用于在预测图像样本中定位文本位置的最终的文本框。
如权利要求1所述的系统，其中，利用预先训练的基于深度神经网络的文本位置检测模型确定用于在预测图像样本中定位文本位置的最终的文本框的步骤包括：

利用特征提取层提取预测图像样本的特征以生成特征图；

利用候选区域推荐层基于生成的特征图在预测图像样本中确定预定数量个的候选文本区域；

利用级联的多级文本框分支基于特征图中的与每个候选文本区域对应的特征预测初始候选水平文本框，并且通过第一非极大值抑制操作从初始候选水平文本框中筛选出文本框重合度小于第一重合度阈值的水平文本框作为候选水平文本框；

利用掩膜分支，基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息，根据预测出的文本的掩膜信息确定初选文本框，并且通过第二非极大值抑制操作从确定的初选文本框中筛选出文本框重合度小于第二重合度阈值的文本框作为所述最终的文本框，其中，第一重合度阈值大于第二重合度阈值。
如权利要求2所述的系统，其中，获取预测图像样本的步骤包括：获取图像，并且对获取的图像进行多尺度缩放来获取与所述图像对应的不同尺寸的多个预测图像样本，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置还执行以下步骤：针对第一尺寸的预测图像样本，在利用所述文本位置检测模型确定了用于在第一尺寸的预测图像样本中定位文本位置的的文本框之后从该文本框中选择尺寸大于第一阈值的第一文本框，并且针对第二尺寸的预测图像样本，在利用所述文本位置检测模型确定了用于在第二尺寸的预测图像样本中定位文本位置的的文本框之后从该文本框中选择尺寸小于第二阈值的第二文本框，其中，第一尺寸小于第二尺寸；利用第三非极大值抑制操作对选择的第一文本框和第二文本框进行筛选，以得到用于在所述图像中定位文本位置的最终的文本框。
如权利要求2或3所述的系统，其中，所述级联的多级文本框分支是三级文本框分支，其中，利用级联的多级文本框分支基于特征图中的与每个候选文本区域对应的特征预测初始候选水平文本框包括：

利用第一级文本框分支，从特征图中提取与每个候选文本区域对应的特征并预测每个候选文本区域与真实文本区域的位置偏差以及每个候选文本区域包括文本的置信度和不包括文本的置信度，并且根据第一级文本框分支的预测结果确定第一级水平文本框；

利用第二级文本框分支，从特征图中提取与第一级水平文本框对应的特征并预测第一级水平文本框与真实文本区域的位置偏差以及第一级水平文本框包括文本的置信度和不包括文本的置信度，并根据第二级文本框分支的预测结果确定第二级水平文本框；

利用第三级文本框分支，从特征图中提取与第二级水平文本框对应的特征并预测第二级水平文本框与真实文本区域的位置偏差以及第二级水平文本框包括文本的置信度和不包括文本的置信度，并根据第三级文本框分支的预测结果确定初始候选水平文本框。
如权利要求2所述的系统，其中，利用候选区域推荐层基于生成的特征图在预测图像样本中确定预定数量个的候选文本区域的步骤包括：

利用候选区域推荐层基于生成的特征图预测候选文本区域与预先设置的锚点框之间的差异，根据该差异和锚点框确定初始候选文本区域，并利用第四非极大值抑制操作从初始候选文本区域中筛选出所述预定数量个候选文本区域，

其中，所述锚点框的宽高比是通过在所述文本位置检测模型的训练阶段对训练图像样本集中所标记的文本框的宽高比进行统计而确定的。
如权利要求2所述的系统，其中，根据预测出的文本的掩膜信息确定初选文本框包括：根据预测出的文本的掩膜信息确定包含文本的最小外接矩形，并将确定的最小外接矩形作为初选文本框。
如权利要求3所述的系统，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置还执行以下步骤：在所述图像上显示用于在所述图像中定位文本位置的最终的文本框，其中，所述最终的文本框包括水平文本框和旋转文本框之中的至少一个。
如权利要求1所述的系统，其中，所述文本位置检测模型基于Mask-RCNN框架，特征提取层对应于Mask-RCNN框架中的深度残差网络，候选区域推荐层对应于Mask-RCNN框架中的区域推荐网络RPN层，级联的多级文本框分支中的每一级文本框分支包括Mask-RCNN框架中的RolAlign层和全连接层，掩膜分支包括一系列卷积层。
如权利要求1所述的系统，其中，预测图像样本的特征包括预测图像样本中像素的相关度。
一种在图像中定位文本位置的方法，包括：

获取预测图像样本；

利用预先训练的基于深度神经网络的文本位置检测模型确定用于在预测图像样本中定位文本位置的最终的文本框，

其中，所述文本位置检测模型包括特征提取层、候选区域推荐层、级联的多级文本框分支以及掩膜分支，其中，特征提取层用于提取预测图像样本的特征以生成特征图，候选区域推荐层用于基于生成的特征图在预测图像样本中确定预定数量个候选文本区域，级联的多级文本框分支用于基于特征图中的与每个候选文本区域对应的特征来预测候选水平文本框，掩膜分支用于基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息，并根据预测出的掩膜信息确定用于在预测图像样本中定位文本位置的最终的文本框。
如权利要求10所述的方法，其中，利用预先训练的基于深度神经网络的文本位置检测模型确定用于在预测图像样本中定位文本位置的最终的文本框的步骤包括：

利用特征提取层提取预测图像样本的特征以生成特征图；

利用候选区域推荐层基于生成的特征图在预测图像样本中确定预定数量个的候选文本区域；

利用级联的多级文本框分支基于特征图中的与每个候选文本区域对应的特征预测初始候选水平文本框，并且通过第一非极大值抑制操作从初始候选水平文本框中筛选出文本框重合度小于第一重合度阈值的水平文本框作为候选水平文本框；

利用掩膜分支，基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息，根据预测出的文本的掩膜信息确定初选文本框，并且通过第二非极大值抑制操作从确定的初选文本框中筛选出文本框重合度小于第二重合度阈值的文本框作为所述最终的文本框，其中，第一重合度阈值大于第二重合度阈值。
如权利要求11所述的方法，其中，获取预测图像样本的步骤包括：获取图像，并且对获取的图像进行多尺度缩放来获取与所述图像对应的不同尺寸的多个预测图像样本，所述方法还包括：针对第一尺寸的预测图像样本，在利用所述文本位置检测模型确定了用于在第一尺寸的预测图像样本中定位文本位置的的文本框之后从该文本框中选择尺寸大于第一阈值的第一文本框，并且针对第二尺寸的预测图像样本，在利用所述文本位置检测模型确定了用于在第二尺寸的预测图像样本中定位文本位置的的文本框之后从该文本框中选择尺寸小于第二阈值的第二文本框，其中，第一尺寸小于第二尺寸；利用第三非极大值抑制操作对选择的第一文本框和第二文本框进行筛选，以得到用于在所述图像中定位文本位置的最终的文本框。
如权利要求11或12所述的方法，其中，所述级联的多级文本框分支是三级文本框分支，其中，利用级联的多级文本框分支基于特征图中的与每个候选文本区域对应的特征预测初始候选水平文本框包括：

利用第一级文本框分支，从特征图中提取与每个候选文本区域对应的特征并预测每个候选文本区域与真实文本区域的位置偏差以及每个候选文本区域包括文本的置信度和不包括文本的置信度，并且根据第一级文本框分支的预测结果确定第一级水平文本框；

利用第二级文本框分支，从特征图中提取与第一级水平文本框对应的特征并预测第一级水平文本框与真实文本区域的位置偏差以及第一级水平文本框包括文本的置信度和不包括文本的置信度，并根据第二级文本框分支的预测结果确定第二级水平文本框；

利用第三级文本框分支，从特征图中提取与第二级水平文本框对应的特征并预测第二级水平文本框与真实文本区域的位置偏差以及第二级水平文本框包括文本的置信度和不包括文本的置信度，并根据第三级文本框分支的预测结果确定初始候选水平文本框。
如权利要求11所述的方法，其中，利用候选区域推荐层基于生成的特征图在预测图像样本中确定预定数量个的候选文本区域的步骤包括：

利用候选区域推荐层基于生成的特征图预测候选文本区域与预先设置的锚点框之间的差异，根据该差异和锚点框确定初始候选文本区域，并利用第四非极大值抑制操作从初始候选文本区域中筛选出所述预定数量个候选文本区域，

其中，所述锚点框的宽高比是通过在所述文本位置检测模型的训练阶段对训练图像样本集中所标记的文本框的宽高比进行统计而确定的。
如权利要求11所述的方法，其中，根据预测出的文本的掩膜信息确定初选文本框包括：根据预测出的文本的掩膜信息确定包含文本的最小外接矩形，并将确定的最小外接矩形作为初选文本框。
如权利要求12所述的方法，所述方法还包括：在所述图像上显示用于在所述图像中定位文本位置的最终的文本框，其中，所述最终的文本框包括水平文本框和旋转文本框之中的至少一个。
如权利要求10所述的方法，其中，所述文本位置检测模型基于Mask-RCNN框架，特征提取层对应于Mask-RCNN框架中的深度残差网络，候选区域推荐层对应于Mask-RCNN框架中的区域推荐网络RPN层，级联的多级文本框分支中的每一级文本框分支包括Mask-RCNN框架中的RolAlign层和全连接层，掩膜分支包括一系列卷积层。
如权利要求10所述的方法，其中，预测图像样本的特征包括预测图像样本中像素的相关度。
一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求10至18中的任一权利要求所述的方法。
一种在图像中定位文本位置的系统，包括：

预测图像样本获取装置，被配置为获取预测图像样本；

文本位置定位装置，被配置为利用预先训练的基于深度神经网络的文本位置检测模型确定用于在预测图像样本中定位文本位置的最终的文本框，

其中，所述文本位置检测模型包括特征提取层、候选区域推荐层、级联的多级文本框分支以及掩膜分支，其中，特征提取层用于提取预测图像样本的特征以生成特征图，候选区域推荐层用于基于生成的特征图在预测图像样本中确定预定数量个候选文本区域，级联的多级文本框分支用于基于特征图中的与每个候选文本区域对应的特征来预测候选水平文本框，掩膜分支用于基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息，并根据预测出的掩膜信息确定用于在预测图像样本中定位文本位置的最终的文本框。
一种包括至少一个计算装置和存储指令的至少一个存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行机器学习建模过程的实现方法的以下步骤：

获取训练图像样本集，其中，训练图像样本中对文本位置进行了文本框标记；

基于训练图像样本集训练基于深度神经网络的文本位置检测模型，

其中，所述文本位置检测模型包括特征提取层、候选区域推荐层、级联的多级文本框分支以及掩膜分支，其中，特征提取层用于提取图像的特征以生成特征图，候选区域推荐层用于基于生成的特征图在图像中确定预定数量个候选文本区域，级联的多级文本框分支用于基于特征图中的与每个候选文本区域对应的特征来预测候选水平文本框，掩膜分支用于基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息，并根据预测出的掩膜信息确定用于在图像中定位文本位置的最终的文本框。
如权利要求21所述的系统，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置还执行以下步骤：在基于训练图像样本集训练所述文本位置检测模型之前，对训练图像样本集中的训练图像样本进行尺寸变换和透射变换之中的至少一个，以获得变换后的训练图像样本集，

其中，对训练图像样本进行尺寸变换包括：在不保持训练图像样本的原始宽高比的情况下，对训练图像样本进行随机的尺寸变换使得训练图像样本的宽和高在预定范围内；

对训练图像样本进行透射变换包括：使训练图像样本中像素的坐标分别绕x轴、y轴和z轴进行随机旋转。
如权利要求22所述的系统，其中，基于训练图像样本集训练所述文本位置检测模型的步骤包括：

将经过变换的训练图像样本输入所述文本位置检测模型；

利用特征提取层提取输入的训练图像样本的特征以生成特征图；

利用候选区域推荐层基于生成的特征图在输入的训练图像样本中确定预定数量个的候选文本区域；

利用级联的多级文本框分支基于特征图中的与每个候选文本区域对应的特征预测每个候选文本区域与文本框标记之间的位置偏差以及每个候选文本区域包括文本的置信度和不包括文本的置信度，并根据预测的位置偏差和置信度计算与每个候选文本区域对应的文本框预测损失；

将所述预定数量个候选文本区域按照其对应的文本框预测损失进行排序，并根据排序结果筛选出文本框预测损失最大的前特定数量个的候选文本区域；

利用掩膜分支基于特征图中与筛选出的候选文本区域对应的特征来预测筛选出的候选文本区域中的掩膜信息，并通过比较预测出的掩膜信息与文本的真实掩膜信息来计算掩膜预测损失；

通过使文本框预测损失和掩膜预测损失的总和最小来训练文本位置检测模型。
如权利要求23所述的系统，其中，利用候选区域推荐层基于生成的特征图在输入的训练图像样本中确定预定数量个的候选文本区域包括：

利用候选区域推荐层基于生成的特征图预测候选文本区域与预先设置的锚点框之间的差异，根据该差异和锚点框确定初始候选文本区域，并利用非极大值抑制操作从初始候选文本区域中筛选出所述预定数量个候选文本区域。
如权利要求24所述的系统，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置还执行以下步骤：在训练所述文本位置检测模型之前，统计变换后的训练图像样本集中标记的所有文本框的宽高比，并且根据统计的所有文本框的宽高比设置所述锚点框的宽高比集合。
如权利要求25所述的系统，其中，根据统计的所有文本框的宽高比设置所述锚点框的宽高比集合包括：

将统计的所有文本框的宽高比进行排序；

根据排序后的宽高比确定所述锚点框的宽高比的上限值和下限值，在上限值和下限值之间等比例地进行插值，并将由上限值和下限值以及通过插值得到的值构成的集合作为所述锚点框的宽高比集合。
如权利要求23所述的系统，其中，根据预测的位置偏差和置信度计算与每个候选文本区域对应的文本框预测损失包括：针对每个候选文本区域，分别根据每一级文本框分支的预测结果和文本框标记来计算每一级文本框分支的文本框预测损失，并通过将各级文本框分支的文本框预测损失求和来确定与每个候选文本区域对应的文本框预测损失，其中，文本框预测损失包括与每个候选文本区域对应的置信度预测损失和位置偏差预测损失，

其中，针对每一级文本框分支设置的用于计算每一级文本框分支的文本框预测损失的重叠度阈值彼此不同，并且针对前一级文本框分支设置的重叠度阈值小于针对后一级文本框分支设置的重叠度阈值，其中，重叠度阈值是每一级文本框分支预测出的水平文本框与文本框标记之间的重叠度阈值。
如权利要求21所述的方法，其中，所述最终的文本框包括水平文本框和旋转文本框之中的至少一个。
如权利要求21所述的系统，其中，所述文本位置检测模型基于Mask-RCNN框架，特征提取层对应于Mask-RCNN框架中的深度残差网络，候选区域推荐层对应于Mask-RCNN框架中的区域推荐网络RPN层，级联的多级文本框分支中的每一级文本框分支包括Mask-RCNN框架中的RolAlign层和全连接层，掩膜分支包括一系列卷积层。
如权利要求21所述的系统，其中，图像的特征包括图像中像素的相关度。
一种训练文本位置检测模型的方法，包括：

获取训练图像样本集，其中，训练图像样本中对文本位置进行了文本框标记；

基于训练图像样本集训练基于深度神经网络的文本位置检测模型，

其中，所述文本位置检测模型包括特征提取层、候选区域推荐层、级联的多级文本框分支以及掩膜分支，其中，特征提取层用于提取图像的特征以生成特征图，候选区域推荐层用于基于生成的特征图在图像中确定预定数量个候选文本区域，级联的多级文本框分支用于基于特征图中的与每个候选文本区域对应的特征来预测候选水平文本框，掩膜分支用于基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息，并根据预测出的掩膜信息确定用于在图像中定位文本位置的最终的文本框。
如权利要求31所述的方法，所述方法还包括：在基于训练图像样本集训练所述文本位置检测模型之前，对训练图像样本集中的训练图像样本进行尺寸变换和透射变换之中的至少一个，以获得变换后的训练图像样本集，

其中，对训练图像样本进行尺寸变换包括：在不保持训练图像样本的原始宽高比的情况下，对训练图像样本进行随机的尺寸变换使得训练图像样本的宽和高在预定范围内；

对训练图像样本进行透射变换包括：使训练图像样本中像素的坐标分别绕x轴、y轴和z轴进行随机旋转。
如权利要求32所述的方法，其中，基于训练图像样本集训练所述文本位置检测模型的步骤包括：

将经过变换的训练图像样本输入所述文本位置检测模型；

利用特征提取层提取输入的训练图像样本的特征以生成特征图；

利用候选区域推荐层基于生成的特征图在输入的训练图像样本中确定预定数量个的候选文本区域；

利用级联的多级文本框分支基于特征图中的与每个候选文本区域对应的特征预测每个候选文本区域与文本框标记之间的位置偏差以及每个候选文本区域包括文本的置信度和不包括文本的置信度，并根据预测的位置偏差和置信度计算与每个候选文本区域对应的文本框预测损失；

将所述预定数量个候选文本区域按照其对应的文本框预测损失进行排序，并根据排序结果筛选出文本框预测损失最大的前特定数量个的候选文本区域；

利用掩膜分支基于特征图中与筛选出的候选文本区域对应的特征来预测筛选出的候选文本区域中的掩膜信息，并通过比较预测出的掩膜信息与文本的真实掩膜信息来计算掩膜预测损失；

通过使文本框预测损失和掩膜预测损失的总和最小来训练文本位置检测模型。
如权利要求33所述的方法，其中，利用候选区域推荐层基于生成的特征图在输入的训练图像样本中确定预定数量个的候选文本区域包括：

利用候选区域推荐层基于生成的特征图预测候选文本区域与预先设置的锚点框之间的差异，根据该差异和锚点框确定初始候选文本区域，并利用非极大值抑制操作从初始候选文本区域中筛选出所述预定数量个候选文本区域。
如权利要求34所述的方法，还包括：在训练所述文本位置检测模型之前，统计变换后的训练图像样本集中标记的所有文本框的宽高比，并且根据统计的所有文本框的宽高比设置所述锚点框的宽高比集合。
如权利要求35所述的方法，其中，根据统计的所有文本框的宽高比设置所述锚点框的宽高比集合包括：

将统计的所有文本框的宽高比进行排序；

根据排序后的宽高比确定所述锚点框的宽高比的上限值和下限值，在上限值和下限值之间等比例地进行插值，并将由上限值和下限值以及通过插值得到的值构成的集合作为所述锚点框的宽高比集合。
如权利要求33所述的方法，其中，根据预测的位置偏差和置信度计算与每个候选文本区域对应的文本框预测损失包括：针对每个候选文本区域，分别根据每一级文本框分支的预测结果和文本框标记来计算每一级文本框分支的文本框预测损失，并通过将各级文本框分支的文本框预测损失求和来确定与每个候选文本区域对应的文本框预测损失，其中，文本框预测损失包括与每个候选文本区域对应的置信度预测损失和位置偏差预测损失，

其中，针对每一级文本框分支设置的用于计算每一级文本框分支的文本框预测损失的重叠度阈值彼此不同，并且针对前一级文本框分支设置的重叠度阈值小于针对后一级文本框分支设置的重叠度阈值，其中，重叠度阈值是每一级文本框分支预测出的水平文本框与文本框标记之间的重叠度阈值。
如权利要求31所述的方法，其中，所述最终的文本框包括水平文本框和旋转文本框之中的至少一个。
如权利要求31所述的方法，其中，所述文本位置检测模型基于Mask-RCNN框架，特征提取层对应于Mask-RCNN框架中的深度残差网络，候选区域推荐层对应于Mask-RCNN框架中的区域推荐网络RPN层，级联的多级文本框分支中的每一级文本框分支包括Mask-RCNN框架中的RolAlign层和全连接层，掩膜分支包括一系列卷积层。
如权利要求31所述的方法，其中，图像的特征包括图像中像素的相关度。
一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求31至40中的任一权利要求所述的方法。
一种训练文本位置检测模型的系统，包括：

训练图像样本集获取装置，被配置为获取训练图像样本集，其中，训练图像样本中对文本位置进行了文本框标记；

模型训练装置，被配置为基于训练图像样本集训练基于深度神经网络的文本位置检测模型，

其中，所述文本位置检测模型包括特征提取层、候选区域推荐层、级联的多级文本框分支以及掩膜分支，其中，特征提取层用于提取图像的特征以生成特征图，候选区域推荐层用于基于生成的特征图在图像中确定预定数量个候选文本区域，级联的多级文本框分支用于基于特征图中的与每个候选文本区域对应的特征来预测候选水平文本框，掩膜分支用于基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息，并根据预测出的掩膜信息确定用于在图像中定位文本位置的最终的文本框。