WO2020024939A1

WO2020024939A1 - 文案区域识别方法和装置

Info

Publication number: WO2020024939A1
Application number: PCT/CN2019/098414
Authority: WO
Inventors: 吴立薪; 吕晶晶; 包勇军; 陈晓东
Original assignee: 北京京东尚科信息技术有限公司; 北京京东世纪贸易有限公司
Priority date: 2018-08-01
Filing date: 2019-07-30
Publication date: 2020-02-06
Also published as: US20210142513A1; EP3812965A1; CN110796133A; EP3812965A4; CN110796133B; US11763167B2

Abstract

本公开提出一种文案区域识别方法和装置，涉及图像处理技术领域。本公开的一种文案区域识别方法包括：提取待处理图像的多层的特征信息；对多层的特征信息分别编码，并根据多层编码信息联合解码，获取联合解码输出；根据联合解码输出获取像素信息，其中，像素信息包括每个像素点与文案区域的边框的距离及文案区域的旋转角度信息；根据像素信息确定文案区域的边框位置。通过这样的方法，能够通过特征提取获取多深度的特征信息，并通过编码和联合解码，同时考虑各个深度的特征，进而通过像素点信息的获取和分析实现文案区域边框位置的确定，提高识别图片中文案区域的速度和准确度。

Description

文案区域识别方法和装置

相关申请的交叉引用

本申请是以CN申请号为ZL201810861942.7，申请日为2018年8月1日的申请为基础，并主张其优先权，该CN申请的公开内容在此作为整体引入本申请中。

技术领域

本公开涉及图像处理技术领域，特别是一种文案区域识别方法和装置。

背景技术

电商网站每天有大量的商品广告在站内和站外以图片的形式进行展现，这些广告图片的存量达到百亿级别，同时每天的增量至少达到几十万量级。为了提高图片广告的点击率和转化率，平台会制定图片的文案设计规范，并在用户上传图片后进行人工审核，这一过程往往需要耗费大量的时间和人力。

发明内容

根据本公开一些实施例，提出一种文案区域识别方法，包括：提取待处理图像的多层的特征信息；对多层的特征信息分别编码，并根据多层编码信息联合解码，获取联合解码输出；根据联合解码输出获取像素信息，其中，像素信息包括每个像素点与文案区域的边框的距离，及文案区域的旋转角度信息；根据像素信息确定文案区域的边框位置。

在一些实施例中，根据联合解码输出获取像素信息包括：将每个像素的联合解码输出与前一个像素或后一个像素的联合解码输出中的至少一个融合，获取融合解码信息；根据融合解码信息输出获取像素信息。

在一些实施例中，多层的特征信息为通过CNN(Convolutional Neural Network，卷积神经网络)提取。

在一些实施例中，对提取的特征分别编码包括：将特征信息分别输入GCN(Graph Convolutional Network，图卷积神经网络)，获取每层的编码信息。

在一些实施例中，GCN将每个特征通过一个1*k的卷积后再通过一个k*1的卷积，获取第一编码，其中，k为预定常数；将每个特征通过一个k*1的卷积后再通过一个1*k的卷积，获取第二编码；将第一编码与第二编码求和，并卷积后输出，获取编码信息。

在一些实施例中，根据多层编码信息联合解码包括：对最高层特征解码，获取最高层解码输出；从高层到低层的顺序，利用上一层的解码输出和当前层的编码信息联合解码，并输出至下一层，直至当前层为最低层，输出联合解码信息。

在一些实施例中，利用上一层的解码输出和当前层的编码信息联合解码包括：将当前层的编码信息采样2倍，并与上一层的解码输出拼接，卷积后输出。

在一些实施例中，根据融合解码信息获取像素信息包括：将融合解码信息通过深度为5的卷积获取每个像素点在四个方向上分别与文案区域的边框的距离，以及文案区域的旋转角度信息；根据像素信息确定文案区域包括：根据各个像素点在四个方向上分别与文案边框的距离，以及文案区域的旋转角度信息，通过非极大值抑制算法确定文案区域的边框位置。

在一些实施例中，根据融合解码信息获取像素信息还包括：将融合解码信息通过深度为1的卷积获取每个像素点的位置是文案区域的概率；根据像素信息确定文案区域还包括：根据每个像素点位于文案区域的概率筛选出大于等于预定阈值的像素点；通过非极大值抑制算法确定文案区域的边框位置为：根据筛选出的像素点在四个方向上分别与文案边框的距离，以及文案区域的旋转角度信息，通过非极大值抑制算法确定文案区域的边框位置。

在一些实施例中，文案区域识别方法还包括：根据预定文案审核规则审核文案区域；在文案区域不满足预定文案审核规则的情况下，驳回待处理图像对应的文案方案。

在一些实施例中，预定文案审核规则包括以下至少一种：文案字号在预定字号范围内；或，文案区域不占用预定保护区域。

根据本公开的另一些实施例，提出一种文案区域识别装置，包括：特征提取模块，被配置为提取待处理图像的多层的特征信息；编解码模块，被配置为对多层的特征信息分别编码，并根据多层编码信息联合解码，获取联合解码输出；像素信息获取模块，被配置为根据联合解码输出获取像素信息，其中，像素信息包括每个像素点与文案区域的边框的距离及文案区域的旋转角度信息；区域确定模块，被配置为根据像素信息确定文案区域的边框位置。

在一些实施例中，像素信息获取模块包括：前后信息融合单元，被配置为将每个像素的联合解码输出与前一个像素或后一个像素的联合解码输出中的至少一个融合，获取融合解码信息；坐标回归单元，被配置为根据融合解码信息输出获取像素信息。

在一些实施例中，编解码模块包括GCN单元，被配置为根据特征信息获取每层的编码信息。

在一些实施例中，GCN单元被配置为：将每个特征通过一个1*k的卷积后再通过一个k*1的卷积，获取第一编码，其中，k为预定常数；将每个特征通过一个k*1的卷积后再通过一个1*k的卷积，获取第二编码；将第一编码与第二编码求和，并通过卷积输出，获取编码信息。

在一些实施例中，编解码模块包括解码单元，被配置为：对最高层特征解码，获取最高层解码输出；从高层到低层的顺序，利用上一层的解码输出和当前层的编码信息联合解码，并输出至下一层，直至当前层为最低层，输出联合解码信息。

在一些实施例中，坐标回归单元被配置为：将融合解码信息通过深度为5的卷积获取每个像素点在四个方向上分别与文案区域的边框的距离，以及文案区域的旋转角度信息；区域确定模块被配置为：根据各个像素点在四个方向上分别与文案边框的距离，以及文案区域的旋转角度信息，通过非极大值抑制算法确定文案区域的边框位置。

在一些实施例中，坐标回归单元还被配置为：将融合解码信息通过深度为1的卷积获取每个像素点的位置是文案区域的概率；区域确定模块还被配置为：根据每个像素点位于文案区域的概率筛选出大于等于预定阈值的像素点；通过非极大值抑制算法确定文案区域的边框位置为根据筛选出的像素点在四个方向上分别与文案边框的距离，以及文案区域的旋转角度信息，通过非极大值抑制算法确定文案区域的边框位置。

在一些实施例中，文案区域识别装置还包括审核单元，被配置为：根据预定文案审核规则审核文案区域；在文案区域不满足预定文案审核规则的情况下，驳回待处理图像对应的文案方案。

根据本公开的又一些实施例，提出一种文案区域识别装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器的指令执行如上文中任意一种文案区域识别方法。

根据本公开的再一些实施例，提出一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现上文中任意一种文案区域识别方法的步骤。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本公开的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1为本公开的文案区域识别方法的一个实施例的流程图。

图2为本公开的文案区域识别方法中Resnet(Residual Network，残差网络)层级结构图。

图3为本公开的文案区域识别方法的另一个实施例的流程图。

图4为本公开的文案区域识别方法中获取像素信息并获取文案区域边框位置的一个实施例。

图5为本公开的文案区域识别装置的一个实施例的示意图。

图6为本公开的文案区域识别装置中像素信息获取模块的一个实施例的示意图。

图7为本公开的文案区域识别装置中编解码模块的一个实施例的示意图。

图8为本公开的文案区域识别装置中前后信息融合单元的一个实施例的示意图。

图9为本公开的文案区域识别装置中坐标回归单元获取的像素信息的一个实施例的示意图。

图10为本公开的文案区域识别装置的另一个实施例的示意图。

图11为本公开的文案区域识别装置的又一个实施例的示意图。

具体实施方式

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

本公开的文案区域识别方法的一个实施例的流程图如图1所示。

在步骤101中，提取待处理图像的多层的特征信息。

在步骤102中，对多层的特征信息分别编码，并根据多层编码信息联合解码，获取联合解码输出。在一些实施例中，可以在对各层的特征信息分别编码后，在解码过程中将各层的编码或解码混合解码，获取联合解码输出。

在步骤103中，根据联合解码输出获取像素信息，其中，像素信息包括每个像素点与文案区域的边框的距离及文案区域的旋转角度信息。在一些实施例中，可以通过预定深度的卷积运算处理联合解码，获取像素信息，将得到的运算结果作为像素信息。

在步骤104中，根据像素信息确定文案区域的边框位置。在一些实施例中，可以基于每个像素点与文案区域的边框的相对位置，以及每个像素点的像素位置确定文案区域的边框位置。

相关技术中的文案检测算法，如EAST(Efficient and Accurate Scene Text Detector，准确高效的文本检测器)，只是在一些公开的英文数据集上通过了测试，验证了算法的正确性。但是，广告图片中的中文文案与英文文案差异较大，该技术不能直接用于中文广告图片的文案区域检测和字体大小判别；广告图片中的文案形式复杂多样，该技术并没有考虑复杂多变的中文文案，尤其针对较长、较短的文案效果很差，无法准确的检测出文案的边界框，影响文案检测的精度以及字体大小判别的精度。

采用上述实施例中的方式，能够通过特征提取获取多深度的特征信息，并通过编码和联合解码，同时考虑各个深度的特征，进而通过像素信息的获取和分析实现文案区域边框位置的确定，提高识别图片中文案区域的速度和准确度。

在一些实施例中，可以通过CNN提取待处理图像的多层的特征信息。CNN是局部连接网络，相对于全连接网络，具有局部连接性和权值共享性。对一副图像中的某个像素来说，一般离该像素点越近的像素对其影响也就越大(局部连接性)；另外，根据自然图像的统计特性，某个区域的权值也可以用于另一个区域(权值共享性)。这里的权值共享即卷积核共享，对于一个卷积核将其与给定的图像做卷积就可以提取一种图像的特征，不同的卷积核可以提取不同的图像特征。通过多层的CNN对待处理图像进行特征提取，网络越深，所能提取的特征表达越抽象。在一些实施例中，可以采用修正的Resnet模型作为原始输入图像的特征表达。Resnet模型的层级示意图可以如图2所示。通过采用CNN对待处理图像进行从浅到深的多层特征提取，能够提取出图像从具象到抽象的多重特征，提高图片中文案区域的准确度。

本公开的文案区域识别方法的另一个实施例的流程图如图3所示。

在步骤301中，通过CNN提取待处理图像中的多层的特征信息。在一些实施例中，为了兼顾精度和运算速度，可以采用Resnet-50模型进行特征提取，并去掉max-pool(最大池)层，选取第二至五层进行特征分析。

在步骤302中，将特征信息分别输入GCN，获取每层的编码信息，再根据GCN输出的多层编码信息联合解码。在一些实施例中，GCN将每个特征通过一个1*k的卷积后再通过一个k*1的卷积，获取第一编码，其中，k为预定常数，将每个特征通过一个k*1的卷积后再通过一个1*k的卷积，获取第二编码，进而将第一编码与第二编码求和，并卷积后输出，获取编码信息。由于GCN具有扩大感知野的能力，这样的方法能够提高对长短文案的检测能力。

在一些实施例中，联合解码的过程可以包括对最高层特征解码，获取最高层解码输出；从高层到低层的顺序，利用上一层的解码输出和当前层的编码信息联合解码，并输出至下一层，直至当前层为最低层，输出联合解码信息。在一些实施例中，利用上一层的解码输出和当前层的编码信息联合解码包括：将当前层的编码信息采样2倍，并与上一层的解码输出拼接，通过3*3卷积后输出。通过这样的方法，每个像素点的联合解码能够同时拥有高维和低维特征，丰富了联合解码的特征内容，提高了文本区域确定的准确度。

在步骤303中，将每个像素的联合解码输出与前一个像素或后一个像素的联合解码输出中的至少一个融合，获取融合解码信息；根据融合解码信息输出获取像素信息。通过这样的方法，每一个像素点的融合解码信息能够兼具有它之前和之后像素点的特征，有助于进一步提高文案区域确定的准确度。

在步骤304中，将融合解码信息通过深度为5的3*3卷积获取每个像素点在四个方向上分别与文案区域的边框的距离，以及文案区域的旋转角度信息。

在步骤305中，根据像素点在四个方向上分别与文案边框的距离，以及文案区域的旋转角度信息，通过非极大值抑制算法确定文案区域的边框位置。

在步骤306中，根据预定文案审核规则审核文案区域。在文案区域符合预定文案审核规则的情况下，执行步骤307；在文案区域不符合预定文案审核规则的情况下，执行步骤308。

在一些实施例中，预定文案审核规则可以包括要求文案字号在预定字号范围内。文案字号与文案的高度或宽度相对应(如若文案为横向排列，则字号与文案高度相对应；若文案为纵向排列，则字号与文案宽度相对应)，通过文案的高度或宽度可以确定文案的字号，进而与预定文案字号区间比较，若文案字号不在预定文案字号区间范围内，则不符合要求。

通过这样的方法，能够保证文案的字号在预定范围内，避免字号过小造成的阅读困难，或字号过大影响美观，优化了显示效果。

在另一些实施例中，预定文案审核规则可以包括要求文案区域不占用预定保护区域，如图片中展示物品的区域，或根据设计、美感的需要不能够被占用的区域，根据文案区域边框的坐标和预定保护区域的坐标进行匹配，保证文字区域不占用预定保护区域，避免文案遮挡造成图片损失重要信息。

在步骤307中，确定待处理图像对应的文案方案通过。

在步骤308中，驳回待处理图像对应的文案方案。

通过这样的方法，能够加入GCN以及循环神经网络进行了长文本信息的融合以及短文本信息的细化，从而提高了广告图片中长短文案区域的检测精度，降低审核的人力，提高效率。

本公开的文案区域识别方法中获取像素信息并获取文案区域边框位置的一个实施例如图4所示。

在步骤401中，将融合解码信息通过深度为1的3*3卷积，将结果(结果介于0～1之间)作为像素点的位置是文案区域的概率。

在步骤402中，将融合解码信息通过深度为5的3*3卷积获取每个像素点在四个方向上分别与文案区域的边框的距离，以及文案区域的旋转角度信息。

在步骤403中，根据像素点的位置是文案区域的概率将该概率值与预定阈值(如0.8)相比较。若像素点的位置是文案区域的概率大于等于预定阈值，则执行步骤405；若像素点的位置是文案区域的概率小于预定阈值，则执行步骤404。

在步骤404中，抛弃像素点的位置是文案区域的概率小于预定阈值的像素点。

在步骤405中，根据像素点在四个方向上分别与文案边框的距离，以及文案区域的旋转角度信息，通过非极大值抑制算法确定文案区域的边框位置，提高了运算效率。

通过这样的方法，能够先过滤掉确定不属于文案区域部分的像素点，再对筛选出的像素点进行进一步处理，得到文案区域的边界，降低运算量，提高处理效率。

本公开的文案区域识别装置的一个实施例的示意图如图5所示。

特征提取模块51能够提取待处理图像的多层的特征信息。在一些实施例中，特征提取模块51可以为CNN，提取出图像从具象到抽象的多重特征，提高图片中文案区域的准确度。

编解码模块52能够对多层的特征信息分别编码，并根据多层编码信息联合解码，获取联合解码输出。在一些实施例中，可以在对各层的特征信息分别编码后，在解码过程中将各层的编码或解码混合解码，获取联合解码输出。

像素信息获取模块53能够根据联合解码输出获取像素信息，其中，像素信息包括每个像素点与文案区域的边框的距离及文案区域的旋转角度信息。

区域确定模块54能够根据像素信息确定文案区域的边框位置。在一些实施例中，可以基于每个像素点与文案区域的边框的相对位置，以及每个像素点的像素位置确定文案区域的边框位置。

这样的装置能够通过特征提取获取多深度的特征信息，并通过编码和联合解码，同时考虑各个深度的特征，进而通过像素点信息的获取和分析实现文案区域边框位置的确定，提高识别图片中文案区域的速度和准确度。

在一些实施例中，文案区域识别装置还可以包括审核单元55，能够根据预定文案审核规则审核文案区域。文案区域符合预定文案审核规则的情况下，确定待处理图像对应的文案方案通过；在不符合预定文案审核规则的情况下，驳回待处理图像对应的文案方案。

这样的装置能够根据预定文案审核规则对文案区域进行审核判断，并输出审核结果，避免了人工操作，提高了执行效率。

本公开的文案区域识别装置中像素信息获取模块的一个实施例的示意图如图6所示。像素信息获取模块可以包括前后信息融合单元601和坐标回归单元602。

前后信息融合单元601能够将每个像素的联合解码输出与前一个像素或后一个像素的联合解码输出中的至少一个融合，获取融合解码信息。坐标回归单元602能够根据融合解码信息输出获取像素信息。利用这样的装置处理图像，每一个像素点的融合解码信息能够兼具有它之前和之后像素点的特征，有助于进一步提高文案区域确定的准确度。

本公开的文案区域识别装置中编解码模块的一个实施例的示意图如图7所示。通过特征提取模块51提取出的多层特征，如第二～五层特征分别输入GCN2～5中，并通过多层解码单元解码。在一些实施例中，GCN将每个特征通过一个1*k的卷积后再通过一个k*1的卷积，获取第一编码，其中，k为预定常数，将每个特征通过一个k*1的卷积后再通过一个1*k的卷积，获取第二编码，进而将第一编码与第二编码求和，并卷积后输出，获取编码信息。

在一些实施例中，如图7所示，除了对最高层的编码解码的解码单元之外，其他各个解码单元利用上一层的解码输出和当前层的编码信息联合解码，并输出至下一层，最低层的解码单元输出联合解码信息。在一些实施例中，解码单元将当前层的编码信息采样2倍，并与上一层的解码输出拼接，通过3*3卷积后输出，实现利用上一层的解码输出和当前层的编码信息的联合解码。

这样的装置能够使每个像素点的联合解码同时拥有高维和低维特征，丰富了联合解码的特征内容，提高了文本区域确定的准确度。

针对广告图片中各类宣传文案的变化较大，有些文案的长度可能会超出神经网络感知野的范围，因此无法获取长文案的精确边界框的问题，利用前后信息融合单元将编码解码模块的输出进行信息融合处理。本公开的文案区域识别装置中前后信息融合单元的一个实施例的示意图如图8所示，其中，左侧为BLSTM(Bidirectional Long Short-Term Memory，双向长短期记忆网络)结构图，右侧为单向LSTM(Long Short-Term Memory，长短期记忆网络)展开图。将编码解码模块输出的每一行所有窗口对应的维度为C的特征(C表示通道个数，C为正整数)输入到双向RNN(Recurrent Neural Network，循环神经网络)(BLSTM)中，得到256维(RNN隐藏层的个数)的输出，然后通过一个全连接层将特征大小变回C。经过递归神经网络的处理后，每一个像素点不仅拥有高维与低维特征，同时还兼具有它之前和之后像素点的特征。这样的装置在处理较长的文案信息时，能够优化获取的边界信息的准确度。

在一些实施例中，坐标回归单元602将前后信息融合模块的输出先通过3*3(深度为1)的卷积得到第一像素信息，然后通过另一个并行的3*3(深度为5)卷积得到第二像素信息。第一像素信息中每个点的幅度值代表该点是否为文字的概率(介于0和1之间)。第二像素信息包含5个通道，如图9所示，每个像素点的幅度值分别代表该像素点到包含该像素点的文案到边界框左侧的距离d_left，右侧的距离d_right，顶部的距离d_up，底部的距离d_down，以及文案边界框的旋转角度theta。

区域确定模块根据每个像素点位于文案区域的概率筛选出概率大于等于预定阈值的像素点；根据筛选出的像素点在四个方向上分别与文案边框的距离，以及文案区域的旋转角度信息，通过非极大值抑制算法确定文案区域的边框位置。

这样的装置能够先过滤掉确定不属于文案区域部分的像素点，再对筛选出的像素点进行进一步处理，得到文案区域的边界，降低运算量，提高处理效率。

本公开文案区域识别装置的一个实施例的结构示意图如图10所示。文案区域识别装置包括存储器1001和处理器1002。其中：存储器1001可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储上文中文案区域识别方法的对应实施例中的指令。处理器1002耦接至存储器1001，可以作为一个或多个集成电路来实施，例如微处理器或微控制器。该处理器1002用于执行存储器中存储的指令，能够提高识别图片中文案区域的速度和准确度。

在一些实施例中，文案区域识别装置还可以如图11所示，文案区域识别装置1100包括存储器1101和处理器1102。处理器1102通过BUS总线1103耦合至存储器1101。该文案区域识别装置1100还可以通过存储接口1104连接至外部存储装置1105以便调用外部数据，还可以通过网络接口1106连接至网络或者另外一台计算机系统(未标出)。此处不再进行详细介绍。

在该实施例中，通过存储器存储数据指令，再通过处理器处理上述指令，能够提高识别图片中文案区域的速度和准确度。

在另一个实施例中，一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现文案区域识别方法对应实施例中的方法的步骤。本领域内的技术人员应明白，本公开的实施例可提供为方法、装置、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

至此，已经详细描述了本公开。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

可能以许多方式来实现本公开的方法以及装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法以及装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

最后应当说明的是：以上实施例仅用以说明本公开的技术方案而非对其限制；尽管参照较佳实施例对本公开进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本公开的具体实施方式进行修改或者对部分技术特征进行等同替换；而不脱离本公开技术方案的精神，其均应涵盖在本公开请求保护的技术方案范围当中。

Claims

一种文案区域识别方法，包括：

提取待处理图像的多层的特征信息；

对多层的所述特征信息分别编码，并根据多层编码信息联合解码，获取联合解码输出；

根据所述联合解码输出获取像素信息，其中，所述像素信息包括每个像素点与文案区域的边框的距离，及文案区域的旋转角度信息；

根据所述像素信息确定文案区域的边框位置。
根据权利要求1所述的文案区域识别方法，其中，所述根据联合解码输出获取像素信息包括：

将每个像素的联合解码输出与前一个像素或后一个像素的联合解码输出中的至少一个融合，获取融合解码信息；

根据所述融合解码信息输出获取像素信息。
根据权利要求1所述的文案区域识别方法，其中，所述多层的特征信息为通过卷积神经网络CNN提取。
根据权利要求1所述的文案区域识别方法，其中，所述对提取的特征分别编码包括：

将所述特征信息分别输入图卷积神经网络GCN，获取每层的编码信息。
根据权利要求4所述的文案区域识别方法，其中，

所述GCN将每个特征通过一个1*k的卷积后再通过一个k*1的卷积，获取第一编码，其中，所述k为预定常数；

将每个特征通过一个k*1的卷积后再通过一个1*k的卷积，获取第二编码；

将所述第一编码与所述第二编码求和，并卷积后输出，获取所述编码信息。
根据权利要求1所述的文案区域识别方法，其中，所述根据多层编码信息联合解码包括：

对最高层特征解码，获取最高层解码输出；

从高层到低层的顺序，利用上一层的解码输出和当前层的编码信息联合解码，并输出至下一层，直至所述当前层为最低层，输出所述联合解码信息。
根据权利要求6所述的文案区域识别方法，其中，所述利用上一层的解码输出和当前层的编码信息联合解码包括：

将当前层的编码信息采样2倍，并与上一层的解码输出拼接，卷积后输出。
根据权利要求2所述的文案区域识别方法，其中，

所述根据所述融合解码信息获取像素信息包括：

将所述融合解码信息通过深度为5的卷积获取每个像素点在四个方向上分别与文案区域的边框的距离，以及文案区域的旋转角度信息；

所述根据所述像素信息确定文案区域包括：

根据各个像素点在四个方向上分别与文案边框的距离，以及文案区域的旋转角度信息，通过非极大值抑制算法确定文案区域的边框位置。
根据权利要求8所述的文案区域识别方法，其中，所述根据所述融合解码信息获取像素信息还包括：

将所述融合解码信息通过深度为1的卷积获取每个像素点的位置是文案区域的概率；

所述根据所述像素信息确定文案区域还包括：

根据每个像素点位于所述文案区域的概率筛选出大于等于预定阈值的像素点；

所述通过非极大值抑制算法确定文案区域的边框位置为根据筛选出的像素点在四个方向上分别与文案边框的距离，以及文案区域的旋转角度信息，通过非极大值抑制算法确定文案区域的边框位置。
根据权利要求1所述的文案区域识别方法，还包括：

根据预定文案审核规则审核所述文案区域；

在所述文案区域不满足所述预定文案审核规则的情况下，驳回所述待处理图像对应的文案方案。
根据权利要求10所述的文案区域识别方法，其中，所述预定文案审核规则包括以下至少一种：

文案字号在预定字号范围内；或，

所述文案区域不占用预定保护区域。
一种文案区域识别装置，包括：

特征提取模块，被配置为提取待处理图像的多层的特征信息；

编解码模块，被配置为对多层的所述特征信息分别编码，并根据多层编码信息联合解码，获取联合解码输出；

像素信息获取模块，被配置为根据所述联合解码输出获取像素信息，其中，所述像素信息包括每个像素点与文案区域的边框的距离及文案区域的旋转角度信息；

区域确定模块，被配置为根据所述像素信息确定文案区域的边框位置。
根据权利要求12所述的文案区域识别装置，其中，所述像素信息获取模块包括：

前后信息融合单元，被配置为将每个像素的联合解码输出与前一个像素或后一个像素的联合解码输出中的至少一个融合，获取融合解码信息；

坐标回归单元，被配置为根据所述融合解码信息输出获取像素信息。
根据权利要求12所述的文案区域识别装置，其中，所述编解码模块包括图卷积神经网络GCN单元，被配置为根据所述特征信息获取每层的编码信息。
根据权利要求14所述的文案区域识别装置，其中，所述GCN单元被配置为：将每个特征通过一个1*k的卷积后再通过一个k*1的卷积，获取第一编码，其中，所述k为预定常数；

将每个特征通过一个k*1的卷积后再通过一个1*k的卷积，获取第二编码；

将所述第一编码与所述第二编码求和，并卷积后输出，获取所述编码信息。
根据权利要求12所述的文案区域识别装置，其中，所述编解码模块包括解码单元，被配置为：

对最高层特征解码，获取最高层解码输出；

从高层到低层的顺序，利用上一层的解码输出和当前层的编码信息联合解码，并输出至下一层，直至所述当前层为最低层，输出所述联合解码信息。
根据权利要求13所述的文案区域识别装置，其中，

所述坐标回归单元被配置为：

将所述融合解码信息通过深度为5的卷积获取每个像素点在四个方向上分别与文案区域的边框的距离，以及文案区域的旋转角度信息；

所述区域确定模块还被配置为：

根据各个像素点在四个方向上分别与文案边框的距离，以及文案区域的旋转角度信息，通过非极大值抑制算法确定文案区域的边框位置。
根据权利要求17所述的文案区域识别装置，其中，所述坐标回归单元还被配置为：

将所述融合解码信息通过深度为1的卷积获取每个像素点的位置是文案区域的概率；

所述区域确定模块被配置为：

根据每个像素点位于所述文案区域的概率筛选出大于等于预定阈值的像素点；

所述通过非极大值抑制算法确定文案区域的边框位置为：根据筛选出的像素点在四个方向上分别与文案边框的距离，以及文案区域的旋转角度信息，通过非极大值抑制算法确定文案区域的边框位置。
根据权利要求12所述的文案区域识别装置，还包括审核单元，被配置为：

根据预定文案审核规则审核所述文案区域；

在所述文案区域不满足所述预定文案审核规则的情况下，驳回所述待处理图像对应的文案方案。
一种文案区域识别装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至11任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现权利要求1至11任意一项所述的方法的步骤。