WO2021189889A1

WO2021189889A1 - 场景图像中的文本检测方法、装置、计算机设备及存储介质

Info

Publication number: WO2021189889A1
Application number: PCT/CN2020/131604
Authority: WO
Inventors: 高远
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-03-26
Filing date: 2020-11-26
Publication date: 2021-09-30
Also published as: CN111582021B; CN111582021A

Abstract

一种场景图像的文本检测方法、装置及计算机设备，该方法包括：通过训练后的全卷积网络模型，检测确定所述场景图像中的若干个文本预测框（22）；筛选在所述文本预测框内，置信度大于预设的置信度阈值的像素点作为高置信度像素点（24）；根据所述高置信度像素点，计算所述文本预测框对应的最小外接矩形（26）；在重叠度大于预设的重叠度阈值时，通过所述最小外接矩形调整所述文本预测框的宽度（30）；在所述场景图像中切割所述调整后的文本预测狂，获得待识别文本图像（32）；识别所述待识别文本图像中的文本信息（34）。所述方法可以在使用EAST方法实现文本检测的基础上，通过高置信度的区域对文本预测框的宽度进行校正和调整，使其宽度可靠的被缩小，实现更加精确的文本识别。

Description

场景图像中的文本检测方法、装置、计算机设备及存储介质

本申请要求于2020年3月26日提交中国专利局、申请号为202010223195.1，发明名称为“场景图像中的文本检测方法、装置及计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及图像处理技术领域，具体涉及场景图像中的文本检测方法、装置及计算机设备。

背景技术

基于计算机视觉的文字识别在现今的大数据时代具有非常重大的使用意义。其是许多智能化功能(例如推荐系统、机器翻译等)的实现基础。而文本检测作为文字识别过程的前提条件，其检测精准度对于文字识别的效果具有显著的影响。

发明人意识到，在复杂的自然场景下，文本存在多种不同位置的分布、排布形式多样、分布方向不一致以及多语言混合等的特点，因此文本检测的任务极具挑战性。

传统技术中存在一种被称为CTPN的文本检测算法，其基于将完整文本先分割检测再合并的思路来实现自然场景下的文本检测。传统技术通过分割再合并的方式检测文本一方面检测精度不准确，另一方面会过度消耗检测时间，用户体验差，基于此，还有人提出了一种被称为EAST(an efficient and accurate scene text detector)的文本检测方法。其借助FCN的架构来进行特征提取和学习，直接进行端到端的训练和优化，消除不必要的中间步骤。

但是，在EAST的实际应用过程中，仍然存在着许多的局限性，无法很好的满足实际使用的需求。例如，最终获得的文本预测框的宽度与场景中实际的文本不相符，因此传统技术需要在EAST的实际应用基础上，进一步改进。

发明内容

本申请旨在解决现有的EAST算法识别精度无法满足实际使用需求的技术问题。

为解决上述技术问题，第一方面，本申请实施例提供了一种场景图像中的文本检测方法，包括：对全卷积网络模型进行训练优化；

通过训练后的所述全卷积网络模型，检测确定所述场景图像中的若干个文本预测框；筛选在所述文本预测框内，置信度大于预设的置信度阈值的像素点作为高置信度像素点，所述置信度为所述全卷积网络模型输出的，像素点属于文本预测框的概率；根据所述高置信度像素点，计算所述文本预测框对应的最小外接矩形，所述最小外接矩形为将所述文本预测框中所有高置信度像素点包含在内，面积最小的矩形；计算所述文本预测框与对应的最小外接矩形之间的重叠度；在所述重叠度大于预设的重叠度阈值时，通过所述最小外接矩形调整所述文本预测框的宽度；在所述场景图像中切割所述调整后的文本预测框，获得待识别文本图像；识别所述待识别文本图像中的文字。

第二方面，本申请实施例提供了一种场景图像的文本检测装置，包括：

训练单元，用于对全卷积网络模型进行训练优化；文本预测框检测单元单元，用于通过训练后的所述全卷积网络模型，检测确定所述场景图像中的若干个文本预测框；筛选单元，用于筛选在所述文本预测框内，置信度大于预设的置信度阈值的像素点作为高置信度像素点，所述置信度为所述全卷积网络模型输出的，像素点属于文本预测框的概率；最小外接矩形确定单元，用于根据所述高置信度像素点，计算所述文本预测框对应的最小外接矩形，所述最小外接矩形为将所述文本预测框中所有高置信度像素点包含在内，面积最小的矩形；重叠度计算单元，用于计算所述文本预测框与对应的最小外接矩形之间的重叠度；调整单元，用于在所述重叠度大于预设的重叠度阈值时，通过所述最小外接矩形调整所述文本预测框的宽度；切割单元，用于在所述场景图像中切割所述调整后的文本预测框，获得待识别文本图像；文本识别单元，用于识别所述待识别文本图像中的文本信息。

第三方面，本申请实施例又提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

对全卷积网络模型进行训练优化；

通过训练后的所述全卷积网络模型，检测确定所述场景图像中的若干个文本预测框；

筛选在所述文本预测框内，置信度大于预设的置信度阈值的像素点作为高置信度像素点，所述置信度为所述全卷积网络模型输出的，像素点属于文本预测框的概率；

根据所述高置信度像素点，计算所述文本预测框对应的最小外接矩形，所述最小外接矩形为将所述文本预测框中所有高置信度像素点包含在内，面积最小的矩形；

计算所述文本预测框与对应的最小外接矩形之间的重叠度；

在所述重叠度大于预设的重叠度阈值时，通过所述最小外接矩形调整所述文本预测框的宽度；

在所述场景图像中切割所述调整后的文本预测框，获得待识别文本图像；

识别所述待识别文本图像中的文本信息。

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行以下操作：

对全卷积网络模型进行训练优化；

计算所述文本预测框与对应的最小外接矩形之间的重叠度；

识别所述待识别文本图像中的文本信息。

本申请实施例提供的文本检测方法，可以在使用EAST方法实现文本检测的基础上，通过高置信度的区域对文本预测框的宽度进行校正和调整，使得文本预测框的宽度可靠的被缩小，实现更加精确的文本识别。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种计算机设备的结构示意图；

图2为本申请实施例提供的一种场景图像的文本检测方法的流程示意图；

图3为图1中步骤20的流程示意图；

图4为本申请实施例提供的筛选最小外接矩形的流程示意图；

图5为本申请实施例提供的一种场景图像的文本检测装置的示意图；

图6为本申请另一实施例提供的一种场景图像的文本检测装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本申请实施例首先提供一种场景图像的文本检测方法，应用本申请提供的场景图像的文本检测方法可以在使用EAST方法实现文本检测的基础上，通过高置信度的区域来调整文本检测框的宽度，实现更精确的文本识别。

以下首先对该调整方法的硬件环境进行介绍，请参阅图1，图1是本申请实施例提供的一种计算机设备100的结构示意图。该计算机设备100可以是计算机、计算机集群、主流计算机、专用于提供在线内容的计算装置，或者计算机网络，所述计算机网络包括一组以集中或分布方式操作的计算机。

如图1所示，所述计算机设备100包括：通过系统总线101连接的处理器102、存储器和网络接口105；其中，存储器可以包括非易失性存储介质103和内存储器104。

在本申请实施例中，根据所使用的硬件的类型，处理器102可以是中央处理单元(Central Processing Unit，CPU)，该处理器102还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。处理器102的数量可以是一个或者多个，一个或者多个处理器102可执行计算机程序指令的序列，以执行将在下文更详细地说明的各种场景图像的文本检测方法。

计算机程序指令由非易失性存储介质103存储、访问和从该非易失性存储介质103中读取，以便由处理器10执行，从而实现本申请下述实施例公开的调整方法。例如，非易失性存储介质103存储执行下述调整方法的软件应用。此外，非易失性存储介质103可存储整个软件应用或者只存储可由处理器102执行的软件应用的一部分。应注意，尽管图1中只示出一个框，但非易失性存储介质103可包括安装在中央处理装置或不同计算装置上的多个物理装置。

该网络接口105用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备100的限定，具体的计算机设备100可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本申请实施例还提供一种计算机可读存储介质。该计算机可读存储介质可以是非易失性，也可以是易失性。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本申请实施例公开的场景图像的文本检测方法。该计算机程序产品体现在含有计算机程序代码的一个或多个计算机可读存储介质上(包括但不限于，磁盘存储器、CD-ROM、光学存储器等)。

在用软件实施所述计算机设备100的情况下，图2示出了一实施例的场景文本的调整方法的示意图，以下对图2中的方法详细描述。请参阅图2，该方法包括如下步骤：

步骤20、对全卷积网络模型进行训练优化。

该全卷积网络模型是神经网络模型的一种。在使用前，需要利用训练数据进行离线训练，确定其中神经元之间的传递权重参数。

在一些实施例中，如图3所示，所述步骤20具体包括如下步骤：

步骤200、构建全卷积网络模型。

此步骤通过全卷积网络模型对输入的场景图片相关的图像数据进行特征提取，最终生成一个单通道像素级的文本分数特征图以及一个多通道的几何图形特征图。具体而言，该全卷积网络模型的网络结构可以分解为三个部分：特征提取层、特征合并和输出层。

首先，特征提取层采用通用的卷积网络作为基础网络。在训练时，对卷积网络的参数初始化后进行特征提取。训练完成后，获得优化的卷积网络参数。在实际应用中，可以根据实际情况的需要，选择使用加速模型性能(Pvanet，Performance Vs Accuracy)，VGG16模型(Visual Geometry Group16)等基础网络。本申请实施例经由该卷积网络提取可以获得四个级别的特征图，其大小依次为输入的图像数据的1/32，1/16，1/8以及1/4。由于定位大文本需要使用大的感受野，而定位小文本区域时则相应的需要使用小的感受野。因此，通过使用上述不同级别的特征图可以满足自然场景中，文本区域大小差别很大的使用要求。

其次，使用U型的思想逐层对上述四个级别的特征图进行合并，实现降低后期计算开销的效果。其中，该逐层合并的方法可以通过如下算式表示：

上述算式的具体过程如下：在每个合并阶段中，首先将来自上一个阶段特征图输入到上池化层(unpool层)，扩大其大小。然后，将其与当前层特征图进行合并。最后，通过卷积层(conv层)，具体为conv1ⅹ1层减少通道数量和计算量，并通过conv3ⅹ3层将局部信息融合以最终产生合并阶段的输出。在最后一个合并阶段之后(即i＝4)，conv3×3层会生成合并分支的最终特征图并将其送到输出层。

最后，在输出层输出尺寸为原图1/4的文本分数特征图与几何图形特征图，文本分数特征图通道数为1，几何图形特征图通道数为5。其中，文本分数特征图表示每个像素点属于文本预测框的置信度。

步骤202、标注训练标签，构建训练数据集。

此步骤具体可以采用现有任何合适的方式完成训练标签的标注，作为训练数据集对全卷积网络模型进行训练。在一些情况下，也可以直接使用已有的训练数据集进行训练或者测试。

步骤204、通过所述训练数据集和预设的损失函数，对所述全卷积网络模型进行训练优化。

训练优化是对全卷积网络模型的参数的学习优化过程。当参数优化完成后，完成训练的全卷积网络模型便可以被应用于实际场景的文本检测。

优化的过程除了需要标注好的训练数据以外，还需要提供合适的损失函数，用以评价全卷积网络模型的效果，通过最小化损失损失的方式来实现参数优化。

在本申请中，损失函数可以通过如下算式表示：

L＝Ls+λgLg

其中，L为损失函数，Ls为文本特征分数图的损失，Lg为几何图形特征图的损失，λg表示两个损失之间的重要性，可以设置为1。

具体而言，对于文本特征分数图的损失，可以使用类平衡交叉熵来计算。而对于几何图形特征图的损失则可以使用重叠度(IOU，interaction over union)损失函数来进行计算。

步骤22、通过训练后的所述全卷积网络模型，检测确定所述场景图像中的若干个文本预测框。

通过训练后的所述全卷积网络模型，可以确定待检测的场景图像中的文本预测框。亦即，场景图像中包含文字的区域。

如上所述，全卷积网络模型的输出层可以包括文本分数特征图与几何图形特征图。其中，文本分数特征图记录了每个像素点映射到待检测图像时，该像素点属于文本预测框的概率。几何图形特征图记录了每个像素点映射到待检测图像时，该像素点与文本预测框之间的距离。

该全卷积网络模型通常会输出数量较多的候选的文本预测框。由此，在较佳的实施例中，还可以应用非极大值抑制算法消除多余的文本预测框以确定最佳的文本预测框的位置，该最佳的文本预测框即为本申请实施例中的文本预测框。

该场景图片为在本实施例中可以解释为在真实场景下拍摄的图片，例如，通过任何合适的带摄像头的终端取景所获得图片。

步骤24、筛选在所述文本预测框内，置信度大于预设的置信度阈值的像素点作为高置信度像素点。

其中，所述置信度为所述全卷积网络模型输出的，像素点属于文本预测框的概率。亦即，文本特征分数图中表示了各个像素点的置信度，从而体现了不同位置可能存在文本预测框的情况。此步骤通过合适的筛选方式，筛选出一些较高置信度的像素点可以用于进行文本预测框进一步的调整和优化。

具体而言，可以通过设置合适的置信度阈值的方式，在文本特征分数图中筛选高置信度像素点。例如，可以将置信度阈值设置为0.7，然后，依次判断所述文本特征分数图中的像素点是否大于该置信度阈值。若是，则将该像素点确定为高置信度像素点。若否，则放弃该像素点。

在一个待检测图像中，可能存在着多个不同的文本预测框。因此，这些高置信度像素点可能是属于场景中不同的文本框。相应地，为避免出现调整或者校正的错误，需要对高置信度像素点进行标记和区分。具体而言，可以根据像素点所在的位置可以确定其具体属于哪一个文本预测框，从而将所述高置信度像素点分别归类到对应的文本预测框。

步骤26、根据所述高置信度像素点，计算所述文本预测框对应的最小外接矩形。

其中，最小外接矩形(MBR，minimum bounding rectangle)是以二维坐标表示的，同一个文本预测框中的高置信度像素点的最大范围。其表示由同一个文本预测框的高置信度像素点给定的矩形区域，是将所述文本预测框中所有高置信度像素点包含在内，面积最小的矩形。

具体可以使用任何合适的算法来计算确定每个文本预测框的最小外接矩形。

在一些实施例中，具体可以包括如下步骤：

首先，确定所述高置信度像素点中，距离最远的两个高置信度像素点为长度标定像素点。

然后，以所述长度标定像素点之间的连线作为第一方向，确定在与所述第一方向垂直的第二方向上，距离最远的两个高置信度像素点作为宽度标定像素点。

最后，以经过所述长度标定像素点并且与所述长度标定像素点之间的连线垂直的第一线段作为长的同时，以经过所述宽度标定像素点并且与所述宽度标定像素点之间的连线垂直的第二线段作为宽，即可围成所述最小外接矩形。

步骤28、计算所述文本预测框与对应的最小外接矩形之间的重叠度。

重叠度(IOU)又可以被称为“交并比”，用于表征文本预测框与对应的最小外接矩形之间的重合程度。其由两个框之间的交集和并集之间的面积比来计算获得。重叠度越高表明两个框之间的匹配程度越高。

在一些实施例中，具体可以通过如下步骤计算文本预测框与对应的最小外接矩形之间的重叠度：

首先，分别确定同时在所述文本预测框和所述最小外接矩形之内的像素点为第一像素点以及只属于所述文本预测框或所述最小外接矩形之内的像素点为第二像素点；

然后，计算所述第一像素点和所述第二像素点的数量之和。

最后，计算所述第一像素点的数量与所述第一像素点和所述第二像素点的数量之和之间的比值，作为所述重叠度。

步骤30、在所述重叠度大于预设的重叠度阈值时，通过所述最小外接矩形调整所述文本预测框的宽度。

重叠度阈值是一个经验性数值，可以根据实际情况的需要由技术人员设定。通常的，最小外接矩形的宽度是小于文本预测框的宽度的，其表示了在该最小外接矩形内的区域具有更大的可能是属于文本区域。由此，可以通过最小外接矩形来适当的调整文本预测框，使其宽度相应的缩小。

具体而言，在所述重叠度大于预设的重叠度阈值时，所述文本预测框通过如下公式调整：

P1＝w*p+(1-w)*d，

其中，P1为调整后的文本预测框宽度，w为权重系数，p为所述文本预测框的宽度，d为所述对应的最小外接矩形的宽度。

通过上述算式，赋予合适的w值以后，便可以根据较小的有效最小外接矩形对文本预测框的宽度进行校正和调整，使得文本预测框的宽度可以可靠的被缩小，实现更加精确的文本识别。

步骤32、在所述场景图像中切割所述调整后的文本预测框，获得待识别文本图像。

调整后的文本预测框提示了场景图像中包含了文本的位置。由此，可以将这些文本预测框从场景图像中切割出来，作为待识别文本图像。

步骤34、识别所述待识别文本图像中的文本信息。

具体可以选择使用任何类型的算法或者方式识别获取文本图像中的文本信息，得到最终的场景图像的文本检测结果。其为本领域技术人员所熟知，在此不作赘述。

应用本申请实施例提供的文本检测方法，可使得文本预测框的宽度可靠的被缩小，实现更加精确的文本识别，降低后续处理的难度和提升文本检测准确度。

由于最小外接矩形是作为最终调整文本检测框的宽度的标准的。因此，需要保证最小外接矩形具有良好的可靠性，否则后续的调整过程可能反而造成不良后果。

在一些实施例中，在执行步骤28之前，所述方法还可以包括如图4所示的筛选最小外接矩形的步骤：

步骤401：计算所述最小外接矩形内的高置信度像素点的置信度平均值。

该置信度平均值是指这些高置信度像素点的置信度均值，表示了该最小外接矩形总体上属于文本区域的概率。

步骤402：判断置信度平均值是否小于预设的筛选阈值。若是，执行步骤403。若否，执行步骤404。

步骤403：剔除所述最小外接矩形。

可以理解的是，那些置信度平均值较低的最小外接矩形实际上并没有很高的可靠性或者概率属于文本，不足以作为校正的标准。因此，可以将这些最小外接矩形剔除，不使用这些最小外接矩形进行文本预测框的宽度校正。

步骤404：保留所述最小外接矩形作为有效的最小外接矩形。这些有效的最小外接矩形可以用于进行下一步的处理，作为调整文本检测框的参考。

本申请实施例还提供一种与上述实施例中的场景图像的文本检测方法对应的文本检测装置，请参阅图5，图5提供了本申请实施例提供的一种场景图像的文本检测装置的结构框图，如图5所示，所述文本检测装置500包括：训练单元50、文本预测框检测单元52、筛选单元54、最小外接矩形确定单元56、重叠度计算单元58、调整单元60、切割单元62和文本识别单元64。

训练单元50用于对全卷积网络模型进行训练优化。

文本预测框检测单元52用于筛选在所述文本预测框内，置信度大于预设的置信度阈值的像素点作为高置信度像素点，所述置信度为所述全卷积网络模型输出的，像素点属于文本预测框的概率；最小外接矩形确定单元54用于根据所述高置信度像素点，计算所述文本预测框对应的最小外接矩形，所述最小外接矩形为将所述文本预测框中所有高置信度像素点包含在内，面积最小的矩形；重叠度计算单元58用于计算所述文本预测框与对应的最小外接矩形之间的重叠度。调整单元60用于在所述重叠度大于预设的重叠度阈值时，通过所述最小外接矩形调整所述文本预测框的宽度。切割单元62用于在所述场景图像中切割所述调整后的文本预测框，获得待识别文本图像。文本识别单元64用于识别所述待识别文本图像中的文本信息。

本申请实施例提供的场景图像的文本检测装置，可以在使用EAST方法实现文本检测的基础上，通过高置信度的区域对文本预测框的宽度进行校正和调整，使得文本预测框的宽度可靠的被缩小，实现更加精确的文本识别。

在一些实施例中，如图6所示，除了图5所示的功能模块外，所述文本检测装置500还可以包括：置信度计算单元66以及最小外接矩形筛选单元68。

其中，置信度计算单元66用于计算所述最小外接矩形内的高置信度像素点的置信度平均值。最小外接矩形筛选单元68用于在所述置信度平均值小于预设的筛选阈值时，剔除所述最小外接矩形。

最小外接矩形(MBR，minimum bounding rectangle)是以二维坐标表示的，同一个文本预测框中的高置信度像素点的最大范围。其表示由同一个文本预测框的高置信度像素点给定的矩形区域。该最小外接矩形可以使用任何合适的方式来确定或者计算，在已知多个像素点的情况下计算确定其对应的最小外接矩形为本技术领域人员所熟知，此处不再概述。

应用本申请实施例提供的场景图像的文本检测装置，可使得文本预测框的宽度可靠的被缩小，实现更加精确的文本识别。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种场景图像的文本检测方法，其中，包括：

对全卷积网络模型进行训练优化；

通过训练后的所述全卷积网络模型，检测确定所述场景图像中的若干个文本预测框；

筛选在所述文本预测框内，置信度大于预设的置信度阈值的像素点作为高置信度像素点，所述置信度为所述全卷积网络模型输出的，像素点属于文本预测框的概率；

根据所述高置信度像素点，计算所述文本预测框对应的最小外接矩形，所述最小外接矩形为将所述文本预测框中所有高置信度像素点包含在内，面积最小的矩形；

计算所述文本预测框与对应的最小外接矩形之间的重叠度；

在所述重叠度大于预设的重叠度阈值时，通过所述最小外接矩形调整所述文本预测框的宽度；

在所述场景图像中切割所述调整后的文本预测框，获得待识别文本图像；

识别所述待识别文本图像中的文本信息。
根据权利要求1所述的方法，其中，在计算所述文本预测框与对应的最小外接矩形之间的重叠度之前，所述方法还包括：

计算所述最小外接矩形内的高置信度像素点的置信度平均值；

在所述置信度平均值小于预设的筛选阈值时，剔除所述最小外接矩形。
根据权利要求2所述的方法，其中，所述对全卷积网络模型进行训练优化，包括：

构建全卷积网络模型；

标注训练标签，构建训练数据集；

通过所述训练数据集和预设的损失函数，对所述全卷积网络模型进行训练优化。
根据权利要求1所述的方法，其中，所述计算所述文本预测框与对应的最小外接矩形之间的重叠度，包括：

确定同时在所述文本预测框和所述最小外接矩形之内的像素点为第一像素点；

确定只属于所述文本预测框或所述最小外接矩形之内的像素点为第二像素点；

计算所述第一像素点和所述第二像素点的数量之和；

计算所述第一像素点的数量与所述第一像素点和所述第二像素点的数量之和之间的比值，作为所述重叠度。
根据权利要求1所述的方法，其中，在所述重叠度大于预设的重叠度阈值时，所述文本预测框通过如下公式调整：

P1＝w*p+(1-w)*d，

其中，P1为调整后的文本预测框宽度，w为权重系数，p为所述文本预测框的宽度，d为所述对应的最小外接矩形的宽度。
根据权利要求1所述的方法，其中，所述根据所述高置信度像素点，计算所述文本预测框对应的最小外接矩形，包括：

确定所述高置信度像素点中，距离最远的两个高置信度像素点为长度标定像素点；

以所述长度标定像素点之间的连线作为第一方向，确定在与所述第一方向垂直的第二方向上，距离最远的两个高置信度像素点作为宽度标定像素点；

以经过所述长度标定像素点并且与所述长度标定像素点之间的连线垂直的第一线段作为长的同时，以经过所述宽度标定像素点并且与所述宽度标定像素点之间的连线垂直的第二线段作为宽，围成所述最小外接矩形。
根据权利要求1所述的方法，其中，所述全卷积网络模型的网络结构包括特征提取层、特征合并和输出层；其中，所述特征提取层用于获取输入的图像数据的1/32，1/16，1/8以及1/4分别对应的特征图。
根据权利要求7所述的方法，其中，所述述全卷积网络模型的的输出层包括文本分数特征图与几何图形特征图；其中，文本分数特征图记录了每个像素点映射到待检测图像时，该像素点属于文本预测框的概率；几何图形特征图记录了每个像素点映射到待检测图像时，该像素点与文本预测框之间的距离。
一种场景图像的文本检测装置，其中，包括：

训练单元，用于对全卷积网络模型进行训练优化；

文本预测框检测单元，用于通过训练后的所述全卷积网络模型，检测确定所述场景图像中的若干个文本预测框；

筛选单元，用于筛选在所述文本预测框内，置信度大于预设的置信度阈值的像素点作为高置信度像素点，所述置信度为所述全卷积网络模型输出的，像素点属于文本预测框的概率；

最小外接矩形确定单元，用于根据所述高置信度像素点，计算所述文本预测框对应的最小外接矩形，所述最小外接矩形为将所述文本预测框中所有高置信度像素点包含在内，面积最小的矩形；

重叠度计算单元，用于计算所述文本预测框与对应的最小外接矩形之间的重叠度；

调整单元，用于在所述重叠度大于预设的重叠度阈值时，通过所述最小外接矩形调整所述文本预测框的宽度；

切割单元，用于在所述场景图像中切割所述调整后的文本预测框，获得待识别文本图像；

文本识别单元，用于识别所述待识别文本图像中的文本信息。
一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现以下步骤：

对全卷积网络模型进行训练优化；

通过训练后的所述全卷积网络模型，检测确定所述场景图像中的若干个文本预测框；

筛选在所述文本预测框内，置信度大于预设的置信度阈值的像素点作为高置信度像素点，所述置信度为所述全卷积网络模型输出的，像素点属于文本预测框的概率；

根据所述高置信度像素点，计算所述文本预测框对应的最小外接矩形，所述最小外接矩形为将所述文本预测框中所有高置信度像素点包含在内，面积最小的矩形；

计算所述文本预测框与对应的最小外接矩形之间的重叠度；

在所述重叠度大于预设的重叠度阈值时，通过所述最小外接矩形调整所述文本预测框的宽度；

在所述场景图像中切割所述调整后的文本预测框，获得待识别文本图像；

识别所述待识别文本图像中的文本信息。
根据权利要求10所述的计算机设备，其中，在计算所述文本预测框与对应的最小外接矩形之间的重叠度之前，所述方法还包括：

计算所述最小外接矩形内的高置信度像素点的置信度平均值；

在所述置信度平均值小于预设的筛选阈值时，剔除所述最小外接矩形。
根据权利要求11所述的计算机设备，其中，所述对全卷积网络模型进行训练优化，包括：

构建全卷积网络模型；

标注训练标签，构建训练数据集；

通过所述训练数据集和预设的损失函数，对所述全卷积网络模型进行训练优化。
根据权利要求10所述的计算机设备，其中，所述计算所述文本预测框与对应的最小外接矩形之间的重叠度，包括：

确定同时在所述文本预测框和所述最小外接矩形之内的像素点为第一像素点；

确定只属于所述文本预测框或所述最小外接矩形之内的像素点为第二像素点；

计算所述第一像素点和所述第二像素点的数量之和；

计算所述第一像素点的数量与所述第一像素点和所述第二像素点的数量之和之间的比值，作为所述重叠度。
根据权利要求10所述的计算机设备，其中，在所述重叠度大于预设的重叠度阈值时，所述文本预测框通过如下公式调整：

P1＝w*p+(1-w)*d，

其中，P1为调整后的文本预测框宽度，w为权重系数，p为所述文本预测框的宽度，d为所述对应的最小外接矩形的宽度。
根据权利要求10所述的计算机设备，其中，所述根据所述高置信度像素点，计算所述文本预测框对应的最小外接矩形，包括：

确定所述高置信度像素点中，距离最远的两个高置信度像素点为长度标定像素点；

以所述长度标定像素点之间的连线作为第一方向，确定在与所述第一方向垂直的第二方向上，距离最远的两个高置信度像素点作为宽度标定像素点；

以经过所述长度标定像素点并且与所述长度标定像素点之间的连线垂直的第一线段作为长的同时，以经过所述宽度标定像素点并且与所述宽度标定像素点之间的连线垂直的第二线段作为宽，围成所述最小外接矩形。
根据权利要求10所述的计算机设备，其中，所述全卷积网络模型的网络结构包括特征提取层、特征合并和输出层；其中，所述特征提取层用于获取输入的图像数据的1/32，1/16，1/8以及1/4分别对应的特征图。
根据权利要求16所述的计算机设备，其中，所述述全卷积网络模型的的输出层包括文本分数特征图与几何图形特征图；其中，文本分数特征图记录了每个像素点映射到待检测图像时，该像素点属于文本预测框的概率；几何图形特征图记录了每个像素点映射到待检测图像时，该像素点与文本预测框之间的距离。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行以下操作：

对全卷积网络模型进行训练优化；

通过训练后的所述全卷积网络模型，检测确定所述场景图像中的若干个文本预测框；

筛选在所述文本预测框内，置信度大于预设的置信度阈值的像素点作为高置信度像素点，所述置信度为所述全卷积网络模型输出的，像素点属于文本预测框的概率；

根据所述高置信度像素点，计算所述文本预测框对应的最小外接矩形，所述最小外接矩形为将所述文本预测框中所有高置信度像素点包含在内，面积最小的矩形；

计算所述文本预测框与对应的最小外接矩形之间的重叠度；

在所述重叠度大于预设的重叠度阈值时，通过所述最小外接矩形调整所述文本预测框的宽度；

在所述场景图像中切割所述调整后的文本预测框，获得待识别文本图像；

识别所述待识别文本图像中的文本信息。
根据权利要求18所述的计算机可读存储介质，其中，在计算所述文本预测框与对应的最小外接矩形之间的重叠度之前，所述方法还包括：

计算所述最小外接矩形内的高置信度像素点的置信度平均值；

在所述置信度平均值小于预设的筛选阈值时，剔除所述最小外接矩形。
根据权利要求19所述的计算机可读存储介质，其中，所述对全卷积网络模型进行训练优化，包括：

构建全卷积网络模型；

标注训练标签，构建训练数据集；

通过所述训练数据集和预设的损失函数，对所述全卷积网络模型进行训练优化。