WO2018010657A1

WO2018010657A1 - 结构化文本检测方法和系统、计算设备

Info

Publication number: WO2018010657A1
Application number: PCT/CN2017/092586
Authority: WO
Inventors: 向东来; 夏炎
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2016-07-15
Filing date: 2017-07-12
Publication date: 2018-01-18
Also published as: US20180342061A1; US10937166B2; CN106295629B; CN106295629A

Abstract

一种结构化文本检测方法和系统、计算设备，其中所述方法包括：卷积神经网络接收图片及文字区域模板（301）；所述图片包括结构化文本；所述文字区域模板包括至少一个文字区域的位置，所述至少一个文字区域的位置中各文字区域的位置分别基于与所述图片同类的至少一个样本图片中相应文字区域的位置获得；所述卷积神经网络根据所述文字区域模板获取所述图片的一组待检测区域的实际位置（302）。上述方法在保证结构化文本检测准确度的同时减小了计算量，并提高了检测效率。

Description

结构化文本检测方法和系统、计算设备

本申请要求在2016年7月15日提交中国知识产权局、申请号为201610561355.7、发明创造名称为“结构化文本检测方法和系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及图片处理领域，尤其涉及一种结构化文本检测方法和系统、计算设备。

背景技术

结构化文本是指布局结构基本固定的文本，例如身份证、护照、机动车驾驶证、票据等。在数字化时代，人们为了将这些信息录入计算机，往往需要手动打字，花费大量的时间。为了节省时间，人们开始采用将证件拍成图片，再利用计算机视觉技术从图片中自动获取文本的方法。

发明内容

本申请实施例提供一种结构化文本检测方案。

根据本申请实施例的一个方面，提供的一种结构化文本检测方法，包括：

卷积神经网络接收图片及文字区域模板；所述图片包括结构化文本；所述文字区域模板包括至少一个文字区域的位置，所述至少一个文字区域的位置中各文字区域的位置分别基于与所述图片同类的至少一个样本图片中相应文字区域的位置获得；

所述卷积神经网络根据所述文字区域模板获取所述图片的一组待检测区域的实际位置。根据本申请实施例的另一个方面，提供的一种结构化文本检测系统，包括：

接收模块，用于接收图片及文字区域模板；所述图片包括结构化文本；所述文字区域模板包括至少一个文字区域的位置，所述至少一个文字区域的位置中各文字区域的位置分别基于与所述图片同类的至少一个样本图片中相应文字区域的位置获得；

获取模块，用于根据所述文字区域模板获取所述图片的一组待检测区域的实际位置。

根据本申请实施例的又一个方面，提供的一种计算设备，包括：本申请任一实施例所述的结构化文本检测系统。

根据本申请实施例的又一个方面，提供的另一种计算设备，包括：

处理器和本申请任一实施例所述的结构化文本检测系统；

在处理器运行所述结构化文本检测系统时，本申请任一实施例所述的结构化文本检测系统中的单元被运行。

根据本申请实施例的又一个方面，提供的又一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行本申请任一实施例所述的结构化文本检测方法中各步骤的操作。

根据本申请实施例的又一个方面，提供的一种计算机系统，包括：

存储器，存储可执行指令；

一个或多个处理器，与存储器通信以执行可执行指令从而完成本申请任一实施例所述的结构化文本检测方法中各步骤的操作。

根据本申请实施例的再一个方面，提供的一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现本申请任一实施例所述的结构化文本检测方法中各步骤的指令。

根据本申请实施例的还一个方面，提供的一种计算机可读介质，用于存储计算机可读取的指令，所述指令被执行时实现本申请任一实施例所述的结构化文本检测方法中各步骤的操作。

本申请实施例提供的技术方案中，预先基于同类的至少一个样本图片中相应文字区域的位置获得文字区域模板，卷积神经网络接收待检测图片及文字区域模板后，根据该文字区域模板获取待检测图片的一组待检测区域的实际位置，待检测区域较少，检测结构化文本所需要的计算量减小，所花费的时间减少，检测速率明显加快，所需要的计算资源也明显减少。

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施例，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

本申请将在下面参考附图并结合实施例进行更完全地说明。

图1为适于实现本申请的一个示例性设备的框图。

图2为适于实现本申请的一个示例性设备的结构示意图。

图3为根据本申请结构化文本检测方法的一实施例的流程图。

图4为根据本申请结构化文本检测方法的另一实施例的流程图。

图5为根据本申请结构化文本检测方法的一应用实施例的流程图。

图6为图5所示应用实施例中使用的图片的一示意图。

图7为根据本申请结构化文本检测系统的一实施例的结构示意图。

图8为根据本申请结构化文本检测系统的另一实施例的结构示意图。

图9为根据本申请结构化文本检测系统的又一实施例的示意图。

图10为实现本申请结构化文本检测方法的计算设备一实施例的示意图。

为清晰起见，这些附图均为示意性及简化的图，它们只给出了对于理解本申请所必要的细节，而省略其他细节。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本申请实施例的结构化文本检测相关技术方案可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

可能以许多方式来实现本申请实施例的结构化文本检测相关技术方案，包括方法、系统和设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法、系统和设备。用于所述方法的步骤的上述顺序仅是为了进行说明，本申请的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

下面结合附图通过具体的实施例对本申请实施例的结构化文本检测技术方案进行详细介绍。

图1示出了适于实现本申请的一个示例性设备10(例如，计算机系统/服务器)的框图。图1显示的设备10仅仅是一个示例，不应对本申请的功能和使用范围带来任何限制。如图1所示，设备10可以以通用计算设备的形式表现。设备10的组件可以包括但不限于：一个或者多个处理器或者处理单元101，系统存储器102，连接不同系统组件(包括系统存储器102和处理单元101)的总线103。设备10可以包括多种计算机系统可读介质。这些介质可以是任何能够被设备10访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质等。

系统存储器102可以包括易失性存储器形式的计算机系统可读介质，例如，随机存取存储器(RAM)1021和/或高速缓存存储器1022。设备10可以进一步包括其他可移动的/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，ROM 1023可以用于读写不可移动的、非易失性磁介质(图1中未显示，通常称为“硬盘驱动器”)。尽管未在图1中示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其他光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线103相连。系统存储器102中可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请的功能。

具有一组(至少一个)程序模块1024的程序/实用工具1025，可以存储在例如系统存储器102中，这样的程序模块1024包括但不限于：操作系统、一个或者多个应用程序、其他程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块1024通常执行本申请所描述的功能和/或方法。

设备10也可以与一个或多个外部设备104(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口105进行，并且，设备10还可以通过网络适配器106与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或者公共网络，例如因特网)通信。如图1所示，网络适配器106通过总线103与设备10的其他模块(如处理单元101等)通信。应当明白，尽管图1中未示出，可以结合设备10使用其他硬件和/或软件模块。

处理单元101(即处理器)通过运行存储在系统存储器102中的计算机程序，从而执行各种功能应用以及数据处理，例如，执行用于实现本申请任一实施例所示结构化文本检测方法中的各步骤的指令；具体而言，处理单元101可以执行系统存储器102中存储的计算机程序，且该计算机程序被执行时，下述步骤被实现：卷积神经网络接收图片及文字区域模板；所述图片包括结构化文本；所述文字区域模板包括至少一个文字区域的位置，所述至少一个文字区域的位置中各文字区域的位置分别基于与所述图片同类的至少一个样本图片中相应文字区域的位置获得；所述卷积神经网络根据所述文字区域模板获取所述图片的一组待检测区域的实际位置。

图2示出了适于实现本申请的一个示例性设备20的结构示意图。其中，设备20可以是移动终端、个人计算机(PC)、平板电脑以及服务器等。图2中，计算机系统20包括一个或者多个处理器、通信部等，所述一个或者多个处理器可以为：一个或者多个中央处理单元(CPU)201，和/或，一个或者多个图像处理器(GPU)213等，处理器可以根据存储在只读存储器(ROM)202中的可执行指令或者从存储部分208加载到随机访问存储器(RAM)203中的可执行指令而执行各种适当的动作和处理。通信部212可以包括但不限于网卡，所述网卡可以包括但不限于IB(Infiniband)网卡。处理器可与只读存储器202和/或随机访问存储器230中通信以执行可执行指令，通过总线204与通信部212相连、并经通信部212与其他目标设备通信，从而完成本申请任一实施例所述方法中的相应步骤。在本申请的一个示例中，处理器所执行的步骤包括：卷积神经网络接收图片及文字区域模板；所述图片包括结构化文本；所述文字区域模板包括至少一个文字区域的位置，所述至少一个文字区域的位置中各文字区域的位置分别基于与所述图片同类的至少一个样本图片中相应文字区域的位置获得；所述卷积神经网络根据所述文字区域模板获取所述图片的一组待检测区域的实际位置。

此外，在RAM 203中，还可以存储有装置操作所需的各种程序以及数据。CPU201、ROM202以及RAM203通过总线204彼此相连。在有RAM203的情况下，ROM202为可选模块。RAM203存储可执行指令，或在运行时向ROM202中写入可执行指令，可执行指令使中央处理单元201执行本申请任一实施例所述方法所包括的步骤。输入/输出(I/O)接口205也连接至总线204。通信部212可以集成设置，也可以设置为具有多个子模块(例如，多个IB网卡)，并分别与总线连接。

以下部件连接至I/O接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207；包括硬盘等的存储部分208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装在存储部分208中。

需要说明的，如图2所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图2的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如，GPU和CPU可分离设置，再如理，可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上等。这些可替换的实施方式均落入本申请的保护范围。

特别地，根据本申请的实施方式，下文参考流程图描述的过程可以被实现为计算机软件程序，例如，本申请的实施方式包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的步骤的程序代码，程序代码可包括对应执行本申请任一实施例所述方法中各步骤对应的指令，例如，卷积神经网络接收图片及文字区域模板的指令；所述图片包括结构化文本；所述文字区域模板包括至少一个文字区域的位置，所述至少一个文字区域的位置中各文字区域的位置分别基于与所述图片同类的至少一个样本图片中相应文字区域的位置获得；所述卷积神经网络根据所述文字区域模板获取所述图片的一组待检测区域的实际位置的指令。

在这样的实施方式中，该计算机程序可以通过通信部分209从网络上被下载及安装，和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时，执行本申请中记载的上述指令。

图3为根据本申请的结构化文本检测方法的一实施例的流程图。如图3所示，该实施例的结构化文本检测方法包括：

操作301，卷积神经网络接收图片及文字区域模板。

其中，上述图片包括结构化文本，为需要进行结构化文本检测的图片，为便于区分，本申请实施例中可以称为待检测图片。上述文字区域模板包括至少一个文字区域的位置，该至少一个文字区域的位置中各文字区域的位置分别基于与上述待检测图片同类的至少一个样本图片中相应文字区域的位置获得。

在一种可选的实现方式中，文字区域模板中各文字区域的位置，例如可以由相应文字区域的中心坐标、宽度及长度确定，或者也可以由相应文字区域的上下左右边界的坐标确定。

在一种可选的实现方式中，上述操作301可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的接收模块601执行。

操作302，卷积神经网络根据上述文字区域模板获取上述待检测图片一组待检测区域的实际位置。

一种可选的实现方式中，上述操作302可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的获取模块602执行。

本申请实施例的结构化文本检测方法中，预先基于同类的至少一个样本图片中相应文字区域的位置获得文字区域模板，卷积神经网络接收待检测图片及文字区域模板后，根据该文字区域模板获取待检测图片的一组待检测区域的实际位置，待检测区域较少，检测结构化文本所需要的计算量减小，所花费的时间减少，检测速率明显加快，所需要的计算资源也明显减少。

图4为根据本申请结构化文本检测方法的另一实施例的流程图。如图4所示，与图3所示实施例相比，该实施例中，步骤302可以示例地通过如下方案实现：

操作401，对待检测图片进行卷积处理，获得该待检测图片的卷积特征图。

其中的卷积特征图即由从待检测图片提取的所有特征形成的特征图。

一种可选的实现方式中，上述操作401可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的特征提取单元701执行。

操作402，以上述文字区域模板中所有文字区域的位置作为待检测图片的一组待检测区域，对卷积特征图进行兴趣区域池化(Region of Interest Pooling，RoI Pooling)操作，提取该一组待检测区域中各待检测区域的局部特征。

一种可选的实现方式中，上述操作402可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的兴趣区域池化操作单元702执行。

操作403，分别根据各待检测区域的局部特征获取各待检测区域的分类分数和位置调整值。

一种可选的实现方式中，上述操作403可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的分类分数和位置调整值获取单元703执行。

操作404，分别根据上述一组待检测区域中各待检测区域的分类分数确定各检测区域是否有文字。

在一种可选示例中，该操作404中，可以通过卷积神经网络中的一个分类函数(softmax) 层，分别确定各待检测区域的分类分数；若待检测区域的分类分数大于预设阈值，确定该分类分数大于预设阈值的待检测区域有文字；否则，若待检测区域的分类分数不大于预设阈值，确定该分类分数不大于预设阈值的待检测区域没有文字。

分别针对各有文字的待检测区域，执行操作405。针对没有文字的待检测区域，不执行本实施例的后续流程。

一种可选的实现方式中，上述操作404可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的文字区域确定单元704执行。

操作405，根据有文字的待检测区域的位置调整值调整该有文字的待检测区域的坐标值，得到该有文字的一组待检测区域的实际位置。

在一种可选的实现方式中，待检测区域的实际位置可以表示为：[x+w*f1,y+h*f2,exp(f3)*w,exp(f4)*h]。

其中，(x+w*f1,y+h*f2)表示该有文字的待检测区域的中心坐标(X，Y)，exp(f3)*w表示所述待检测区域的长度，exp(f4)*h表示所述待检测区域的宽度；x、y、h、w分别表示与该有文字的待检测区域对应的文字区域的中心的X坐标、Y坐标、宽度和长度；[f1,f2,f3,f4]分别表示卷积神经网络在训练过程中，文字区域模板中各文字区域的回归目标，[f1,f2,f3,f4]＝[(x'-x)/w,(y'-y)/h,log(w'/w),log(h'/h)]，x'、y'、h'、w'分别表示至少一个样本图片中各样本图片的相应文字区域的中心的X坐标、Y坐标、宽度和长度。

一种可选的实现方式中，上述操作405可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的实际位置确定单元705执行。

另外，再参见图4，在基于本申请上述各结构化文本检测方法的另一可选实施例中，在操作301之前，还可以对待检测图片进行预处理，包括：截取和转正处理、并缩放到预设尺寸，即，本申请各实施例中，卷积神经网络接收到的图片为经预处理后的图片。其中，通过截取可以去除图片中的背景区域，通过转正可以使歪斜的图片变正。一种可选的实现方式中，该预处理操作可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的图片预处理模块603执行。

另外，再参见图4，在基于本申请上述各结构化文本检测方法的又一可选实施例中，在操作302或者405之后，对上述一组待检测区域的实际位置对应区域进行文字识别，获得待检测图片中的结构化文本信息。一种可选的实现方式中，该预处理操作可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的文字识别模块604执行。

另外，在基于本申请上述各结构化文本检测方法的再一可选实施例中，可以在操作301之前，获取待检测图片对应的文字区域模板。例如，在其中一种可选的实现方案中，可以通过如下方式获取该文字区域模板：

分别获取与上述待检测图片同类的至少一个样本图片中所有文字区域的正确位置；

分别针对该至少一个样本图片中的各相应文字区域，获取各对应文字区域的正确位置的平均值，根据该至少一个样本图片中所有文字区域的正确位置的平均值获得文字区域模板，即：该文字区域模板包括该至少一个样本图片中所有文字区域的正确位置的平均值。

一种可选的实现方式中，上述获取待检测图片对应的文字区域模板的操作可以由处理器调用存储器存储的指令执行，或者，可以由被处理器运行的文字区域模板模块605或者计算模块607执行。

本申请使用文字区域模板作为图片的待检测区域(Proposal))，提高了结构化文本的检测速度。对于结构化文本信息的获取，在对图片进行截取、转正、缩放到预设尺寸等预处理之后，由于截取和转正时的误差，以及结构化文本长度本身在不同图片中有所变化的原因，待检测区域在不同图片中的位置可能不同，但是其分布是围绕一个中心、中间多四周少的形式。我们将预先将大量同类结构化文本图片中的所有文字区域各计算一个位置的平均值，作为一组文字区域模板。然后将这些文字区域模板作为待检测区域输入卷积神经网络，利用兴趣区域池化操作，提取待检测区域的局部特征，然后根据该局部特征计算相应待检测区域的分类分数和位置调整量，以确定这个区域内是否有文本以及文本的位置，从而使得待检测区域的个数等于所有可能存在的文本区域的个数，减小了在识别结构化文本时的计算量，进而提高了识别速度。

图5为根据本申请结构化文本检测方法一个应用实施例的示意图。图6为图5所示应用实施例中使用的图片的一示意图。如图3中所示，该应用实施例中以身份证照片作为待检测图片为例，对本申请实施例进行说明。可以理解，除了身份证的结构化文件检测之外，本申请提供的技术方案还可应用于护照、机动车驾驶证、票据等其他文本结构化检测中，不再赘述。

如图6所示，身份证照片包括10个可能有文字信息的区域(即：文字区域)，其中住址最多分为三行，每行形成一个文字区域。每个文字区域的正确位置称为ground-truth框，通过左右边界的x坐标和上下边界的y坐标确定。如图5所示，该应用实施例包括：

操作501，对大量身份证样本照片进行预处理，包括：截取和转正处理，通过截取去除身份证照片中的背景区域，通过转正使歪斜的身份证照片变正，然后将身份证照片缩放到一个预设尺寸，得到身份证图片。

操作502，获取大量经预处理后的身份证图片中每一身份证图片的所有10个文字区域的位置，分别针对该10个文字区域中的任一文字区域，计算所有身份证图片的相应文字区域的位置的平均值，10个文字区域的位置的平均值作为一组文字区域模板，作为待检测身份证图片上文字区域的检测基础(本申请实施例中的待检测区域)，如图6中的“模板”所示。

其中，上述操作501-502为在对待检测图片进行结构化文本检测方法之前预先执行的操作，通过上述操作501-502获得文字区域模板后，通过本申请的结构化文本检测方法对待检测图片直接结构化文本检测时，直接进行以下操作503-508，而无需执行上述操作501-502。

操作503，对待检测的身份证照片进行预处理，包括：截取和转正处理、并缩放到预设尺寸，得到待检测身份证图片，将该待检测身份证图片和通过上述操作501-502获得的文字区域模板输入卷积神经网络。

操作504，对待检测身份证图片进行卷积、非线性变换等处理，获得该待检测身份证图片的卷积特征图。

操作505，以通过上述操作501-502获得的文字区域模板中的10个文字区域的位置作为该待检测身份证图片的一组待检测区域，共10个待检测区域，进行兴趣区域池化操作，提取10个文字区域的局部特征。

操作506，例如通过卷积神经网络中的一个或多个全连接(Fully Connected Layer，Fc)层，分别获取上述10个组待检测区域中各待检测区域的分类分数和位置调整值。

操作507，例如通过卷积神经网络中的一个分类函数(softmax)层，识别各待检测区域是否包含文字。

分别确定各待检测区域的分类分数，例如0.5；若待检测区域的分类分数大于该预设阈值，确定该分类分数大于预设阈值的待检测区域有文字；否则，若待检测区域的分类分数不大于该预设阈值，确定该分类分数不大于预设阈值的待检测区域没有文字。

上述预设阈值可根据实际情况设定，并可以根据实际情况调整。

分别针对各有文字的待检测区域，执行操作408。针对没有文字的待检测区域，舍弃该待检测区域，不执行本实施例的后续流程。

操作508，根据有文字的检测区域的位置调整值调整文字区别区域模板中相应待检测区域的坐标值，得到有文字的一组检测区域的实际位置。

具体地，各待检测区域的实际位置可以表示为[x+w*f1,y+h*f2,exp(f3)*w,exp(f4)*h]，其中，(x+w*f1,y+h*f2)为相应待检测区域的中心的X和Y坐标，exp(f3)*w为相应待检测区域的长度，exp(f4)*h为相应待检测区域的宽度，exp()为指数函数。

在确定待检测区域的实际位置后，即可采取各种文字识别技术对相应区域的文字进行自动识别。

进一步地，在本申请上述各结构化文本检测方法实施例之前，还可以包括：利用与上述待检测图片同类的至少一个样本图片对卷积神经网络进行训练，其中，该样本图片包括至少一个文字区域，样本图片标注有各文字区域的正确位置。训练完成后，即可通过本申请的上述各实施例，利用该卷积神经网络对图片进行结构化文本检测。

在其中一种可选的实现方式中，利用与图片同类的至少一个样本图片对卷积神经网络进行训练，包括：

卷积神经网络接收至少一个样本图片及文字区域模板，并分别针对该至少一个样本图片中的任一样本图片：对任一样本图片进行卷积处理，获得任一样本图片的卷积特征图；以文字区域模板中所有文字区域的位置作为任一样本图片的一组待检测区域，对卷积特征图进行兴趣区域池化操作，提取一组待检测区域中各待检测区域的局部特征；分别获取一组待检测区域中各待检测区域的预测分类分数和位置调整值；分别根据各待检测区域的预测分类分数确定各检测区域是否有文字；分别针对各有文字的待检测区域，根据有文字的待检测区域的位置调整值调整该有文字的待检测区域的坐标值，得到该有文字的待检测区域的预测位置。示例性地，该待检测区域的预测位置可以表示为[x+w*f1,y+h*f2,exp(f3)*w,exp(f4)*h]，其中(x+w*f1,y+h*f2)为该待检测区域的中心的X坐标和Y坐标，exp(f3)*w为该待检测区域的长度，exp(f4)*h为该待检测区域的宽度，exp()为指数函数；

根据上述至少一个样本图片标注的各文字区域的正确位置、各检测区域是否有文字的确定结果和预测位置，对卷积神经网络进行训练，调整卷积神经网络中网络参数的参数值。

其中，本申请对卷积神经网络进行训练的实施例中，卷积神经网络对样本图片的操作，与上述卷积神经网络对待检测图片的结构化文本检测方法实施例中的操作相同，可以看作待检测图片为样本图片时的结构化文本检测方法，因此，对卷积神经网络进行训练的实施例中的可选实现方式，可以参考采用上述结构化文本检测方法实施例中的相应方式，此处不再赘述。

在其中一种可选的实现方式中，根据上述至少一个样本图片标注的各文字区域的正确位置、各检测区域是否有文字的确定结果和预测位置，对卷积神经网络进行训练时，可以采用迭代更新法或者梯度更新法对卷积神经网络进行训练。

采用迭代更新法对卷积神经网络进行训练时，可以迭代执行上述利用与图片同类的至少一个样本图片对卷积神经网络进行训练的过程，在每次执行过程中，例如可以通过softmax损失函数，根据上述至少一个样本图片标注的各文字区域的正确位置和各检测区域是否有文字的确定结果计算第一损失函数值，例如可以通过smooth L1loss回归函数，根据上述至少一个样本图片标注的各文字区域的正确位置和预测位置，计算第二损失函数值，对于每一待检测区域，回归函数的回归目标例如可以是[f1,f2,f3,f4]＝[(x'-x)/w,(y'-y)/h,log(w'/w),log(h'/h)]，其中x',y',h',w'为每一样本图片的相应ground-truth框的X坐标和Y坐标、宽度和长度；x,y,h,w为相应待检测区域的X坐标和Y坐标、宽度和长度；或者统计对卷积神经网络的训练次数。根据第一损失函数值和/或第二损失函数值调整卷积神经网络中网络参数的参数值，以减小第一损失函数值和/或第二损失函数值，之后再执行下一次训练过程，直至满足预设条件，例如，对卷积神经网络的训练次数达到预设次数阈值、或者第一损失函数值和/或第二损失函数值分别小于对应的预设损失函数值，结束训练。

采用梯度更新法对卷积神经网络进行训练时，可以直接调整卷积神经网络中网络参数的参数值，以使第一损失函数值、第二损失函数值分别达到最小值。

在另一种可选的实现方式中，还可以在卷积神经网络接收至少一个样本图片之前，对上述任一样本图片进行截取和转正处理、并缩放到预设尺寸。

在又一种可选的实现方式中，对任一样本图片进行截取和转正处理、并缩放到预设尺寸之后，还可以通过如下方式获取文字区域模板：

分别针对上述缩放到预设尺寸后样本图片中的两个或以上样本图片中的各文字区域，计算两个或以上样本图片的相应文字区域的位置的平均值，得到两个或以上样本图片中的各文字区域的位置的平均值，文字区域模板具体包括两个或以上样本图片中的所有文字区域的位置的平均值。

上述本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现为通过网络下载的、原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的处理方法。此外，当通用计算机访问用于实现在此示出的处理的代码时，代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

图7为根据本申请结构化文本检测系统的一实施例的示意图，该实施例的结构化文本检测系统可用于实现本申请上述各结构化文本检测方法实施例。如图7所示，该实施例的系统包括：接收模块601和获取模块602。

接收模块601，用于接收图片及文字区域模板。其中，该图片包括结构化文本；文字区域模板包括至少一个文字区域的位置，该至少一个文字区域的位置中各文字区域的位置分别基于与该图片同类的至少一个样本图片中相应文字区域的位置获得。

在一种可选的实现方案中，文字区域模板中各文字区域的位置，可以由相应文字区域的中心坐标、宽度及长度确定。

获取模块602，用于根据上述文字区域模板获取图片的一组待检测区域的实际位置。

在一种可选的实现方案中，各待检测区域的实际位置可以表示为：[x+w*f1,y+h*f2,exp(f3)*w,exp(f4)*h]。

其中，(x+w*f1,y+h*f2)表示待检测区域的中心坐标(X，Y)，exp(f3)*w表示待检测区域的长度，exp(f4)*h表示待检测区域的宽度；x、y、h、w分别表示与待检测区域对应的文字区域的中心的X坐标、Y坐标、宽度和长度；[f1,f2,f3,f4]分别表示卷积神经网络在训练过程中，文字区域模板中各文字区域的回归目标，[f1,f2,f3,f4]＝[(x'-x)/w,(y'-y)/h,log(w'/w),log(h'/h)]，x'、y'、h'、w'分别表示至少一个样本图片中各样本图片的相应文字区域的中心的X坐标、Y坐标、宽度和长度。

在一种可选的实现方案中，本申请各结构化文本检测系统实施例中，上述接收模块601和获取模块602具体可以通过一个卷积神经网络实现。

本申请实施例的结构化文本检测系统中，预先基于同类的至少一个样本图片中相应文字区域的位置获得文字区域模板，卷积神经网络接收待检测图片及文字区域模板后，根据该文字区域模板获取待检测图片的一组待检测区域的实际位置，待检测区域较少，检测结构化文本所需要的计算量减小，所花费的时间减少，检测速率明显加快，所需要的计算资源也明显减少。

图8为根据本申请结构化文本检测系统的另一实施例的示意图，如图8所示，与图7 所示的实施例相比，该实施例中，获取模块602包括：特征提取单元701，兴趣区域池化操作单元702，分类分数和位置调整值获取单元703，文字区域确定单元704和实际位置确定单元705。其中：

特征提取单元701，用于对上述图片进行卷积处理，获得该图片的卷积特征图。

兴趣区域池化操作单元702，用于以上述文字区域模板中所有文字区域的位置作为上述图片的一组待检测区域，对上述卷积特征图进行兴趣区域池化操作，提取上述一组待检测区域中各待检测区域的局部特征。

分类分数和位置调整值获取单元703，用于分别根据各组待检测区域的局部特征获取各待检测区域的分类分数和位置调整值。

文字区域确定单元704，用于分别根据各待检测区域的分类分数确定各检测区域是否有文字。

在一种可选的实现方式中，文字区域确定单元704可以通过一个分类函数softmax层实现。分类函数层，用于分别确定各待检测区域的分类分数；若待检测区域的分类分数大于预设阈值，确定该分类分数大于预设阈值的待检测区域有文字。

实际位置确定单元705，用于分别针对各有文字的待检测区域，根据有文字的待检测区域的位置调整值调整该有文字的待检测区域的坐标值，得到该有文字的待检测区域的实际位置。

另外，再参见图8，在本申请各结构化文本检测系统的另一实施例中，还可以选择性地包括：图片预处理模块603，用于对上述图片进行截取和转正处理、并缩放到一个预设尺寸，然后发送给接收模块601。

另外，再参见图8，在本申请各结构化文本检测系统的又一实施例中，还可以选择性地包括：文字识别模块604，用于对一组待检测区域的实际位置对应区域进行文字识别，获得上述图片中的结构化文本信息。

另外，再参见图8，在本申请各结构化文本检测系统的再一实施例中，还可以选择性地包括：文字区域模板模块605，用于分别针对与上述图片同类的至少一个样本图片中的各相应文字区域，分别根据该对应文字区域的正确位置获取该对应文字区域的正确位置的平均值，根据上述至少一个样本图片中所有文字区域的正确位置的平均值获得文字区域模板。

图9为根据本申请结构化文本检测系统的又一实施例的示意图。如图9所示，接收模块601与获取模块602通过卷积神经网络60实现时，本申请结构化文本检测系统还可以包括网络训练模块606，用于利用与上述图片同类的至少一个样本图片对卷积神经网络进行训练，其中的样本图片包括至少一个文字区域，样本图片标注有各文字区域的正确位置。

该网络训练模块606，可以在对卷积神经网络60训练完成后移除。

在其中一种可选的实现方式中，卷积神经网络60具体用于：接收至少一个样本图片及文字区域模板，并分别针对该至少一个样本图片中的任一样本图片：对任一样本图片进行卷积处理，获得任一样本图片的卷积特征图；以上述文字区域模板中所有文字区域的位置作为任一样本图片的一组待检测区域，对卷积特征图进行兴趣区域池化操作，提取一组待检测区域中各待检测区域的局部特征；分别获取上述一组待检测区域中各待检测区域的预测分类分数和位置调整值；分别根据各待检测区域的预测分类分数确定各检测区域是否有文字；分别针对各有文字的待检测区域，根据有文字的待检测区域的位置调整值调整该有文字的待检测区域的坐标值，得到该有文字的待检测区域的预测位置。

相应地，网络训练模块606，具体用于根据至少一个样本图片标注的各文字区域的正确位置、各检测区域是否有文字的确定结果和预测位置，对卷积神经网络60进行训练。

另外，在本申请各结构化文本检测系统的进一步实施例中，图片预处理模块603，还可用于对任一样本图片进行截取和转正处理、并缩放到预设尺寸。再参见图9，该实施例的结构化文本检测系统还可以包括计算模块607，用于分别针对缩放到预设尺寸后的两个或以上样本图片中的各文字区域，计算该两个或以上样本图片的相应文字区域的位置的平均值，得到该两个或以上样本图片中的各文字区域的位置的平均值，其中的文字区域模板具体包括该两个或以上样本图片中的所有文字区域的位置的平均值。

在本申请各结构化文本检测系统的实施例中，基于样本图片获取文字区域模板时，可以选择通过文字区域模板模块605或者计算模块607两个或以上样本图片中的各文字区域的位置的平均值，来得到文字区域模板。

另外，本申请实施例还提供了一种计算设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等，该计算设备设置有本申请任一实施例的结构化文本检测系统。

本申请实施例还提供了另一种计算设备，包括：

处理器和本申请上述任一实施例的结构化文本检测系统；

在处理器运行结构化文本检测系统时，本申请上述任一实施例的结构化文本检测系统中的单元被运行。

本申请实施例还提供了又一种计算设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

存储器用于存放至少一可执行指令，可执行指令使处理器执行本申请上述任一实施例的结构化文本检测方法中各步骤的操作。

例如，图10示出了可以实现本申请的结构化文本检测方法的一个计算设备。该计算设备包括：处理器(processor)801、通信接口(Communications Interface)802、存储器(memory)803、以及通信总线804。

处理器801、通信接口802、以及存储器803通过通信总线804完成相互间的通信。

通信接口804，用于与其它设备比如客户端或数据采集设备等的网元通信。

处理器801，用于执行程序，具体可以执行上述方法实施例中的相关步骤。

处理器801可以是一个中央处理器(CPU)，或者是特定集成电路(Application Specific Integrated Circuit，ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

存储器506，用于存放程序，该程序包括至少一可执行指令，该可执行指令具体可以用于使得处理器801执行以下操作：卷积神经网络接收图片及文字区域模板；所述图片包括结构化文本；所述文字区域模板包括至少一个文字区域的位置，所述至少一个文字区域的位置中各文字区域的位置分别基于与所述图片同类的至少一个样本图片中相应文字区域的位置获得；所述卷积神经网络根据所述文字区域模板获取所述图片的一组待检测区域的实际位置。

存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

本申请实施例还提供一种计算机程序，包括计算机可读代码，当计算机可读代码在设备上运行时，设备中的处理器执行用于实现本申请任一实施例的结构化文本检测方法中各步骤的指令。

本申请各实施例中计算机程序中各步骤的具体实现可以参见上述实施例中的相应操作、模块、单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上面描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

本申请实施例还提供了一种计算机系统，包括：

存储器，存储可执行指令；

一个或多个处理器，与存储器通信以执行可执行指令从而完成本申请任一实施例的结构化文本检测方法中各步骤的操作。

本申请实施例还提供了一种计算机可读介质，用于存储计算机可读取的指令，该指令被执行时实现本申请任一的结构化文本检测方法中各步骤的操作。

除非明确指出，在此所用的单数形式“一”、“该”均包括复数含义(即具有“至少一”的意思)。应当进一步理解，说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、步骤、操作、元件和/或部件，但不排除存在或增加一个或多个其他特征、步骤、操作、元件、部件和/或其组合。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出，在此公开的任何方法的步骤不必精确按照所公开的顺序执行。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

在此提供的方法和显示不与任何特定计算机、虚拟系统或者其他设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统、设备、存储介质、程序等实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

一些实施例已经在前面进行了说明，但是应当强调的是，本申请不局限于这些实施例，而是可以本申请主题范围内的其它方式实现。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

一种结构化文本检测方法，其特征在于，所述方法包括：

卷积神经网络接收图片及文字区域模板；所述图片包括结构化文本；所述文字区域模板包括至少一个文字区域的位置，所述至少一个文字区域的位置中各文字区域的位置分别基于与所述图片同类的至少一个样本图片中相应文字区域的位置获得；

所述卷积神经网络根据所述文字区域模板获取所述图片的一组待检测区域的实际位置。
根据权利要求1所述的方法，其特征在于，根据所述文字区域模板获取所述图片的一组待检测区域的实际位置，包括：

对所述图片进行卷积处理，获得所述图片的卷积特征图；

以所述文字区域模板中所有文字区域的位置作为所述图片的一组待检测区域，对所述卷积特征图进行兴趣区域池化操作，提取所述一组待检测区域中各待检测区域的局部特征；

分别根据各待检测区域的局部特征获取所述一组待检测区域中各待检测区域的分类分数和位置调整值；

分别根据各待检测区域的分类分数确定各检测区域是否有文字；

分别针对各有文字的待检测区域，根据有文字的待检测区域的位置调整值调整该有文字的待检测区域的坐标值，得到该有文字的待检测区域的实际位置。
根据权利要求2所述的方法，其特征在于，所述分别根据各待检测区域的分类分数确定各检测区域是否有文字，包括：

通过所述卷积神经网络中的分类函数层，分别确定各待检测区域的分类分数；

若待检测区域的分类分数大于预设阈值，确定该分类分数大于预设阈值的待检测区域有文字。
根据权利要求1-3任一所述的方法，其特征在于，所述文字区域模板中各文字区域的位置，由相应文字区域的中心坐标、宽度及长度确定。
根据权利要求1-4任一所述的方法，其特征在于，卷积神经网络接收图片及文字区域模板之前，还包括：

对所述图片进行截取和转正处理、并缩放到预设尺寸。
根据权利要求1-5任一所述的方法，其特征在于，获取所述图片的一组待检测区域的实际位置之后，还包括：

对所述一组待检测区域的实际位置对应区域进行文字识别，获得所述图片中的结构化文本信息。
根据权利要求1-6任一所述的方法，其特征在于，所述卷积神经网络接收图片及文字区域模板之前，还包括：

分别获取与所述图片同类的至少一个样本图片中所有文字区域的正确位置；

分别针对所述至少一个样本图片中的各相应文字区域，获取各对应文字区域的正确位置的平均值，根据所述至少一个样本图片中所有文字区域的正确位置的平均值获得所述文字区域模板。
根据权利要求1-6任一所述的方法，其特征在于，所述卷积神经网络接收图片及文字区域模板之前，还包括：

利用与所述图片同类的至少一个样本图片对卷积神经网络进行训练，所述样本图片包括至少一个文字区域，所述样本图片标注有各文字区域的正确位置。
根据权利要求8所述的方法，其特征在于，所述利用与所述图片同类的至少一个样本图片对卷积神经网络进行训练，包括：

所述卷积神经网络接收所述至少一个样本图片及文字区域模板，并分别针对所述至少一个样本图片中的任一样本图片：对所述任一样本图片进行卷积处理，获得所述任一样本图片的卷积特征图；以所述文字区域模板中所有文字区域的位置作为所述任一样本图片的一组待检测区域，对所述卷积特征图进行兴趣区域池化操作，提取所述一组待检测区域中各待检测区域的局部特征；分别获取所述一组待检测区域中各待检测区域的预测分类分数和位置调整值；分别根据各待检测区域的预测分类分数确定各检测区域是否有文字；分别针对各有文字的待检测区域，根据有文字的待检测区域的位置调整值调整该有文字的待检测区域的坐标值，得到该有文字的待检测区域的预测位置；

根据所述至少一个样本图片标注的各文字区域的正确位置、各检测区域是否有文字的确定结果和所述预测位置，对所述卷积神经网络进行训练。
根据权利要求9所述的方法，其特征在于，所述卷积神经网络接收所述至少一个样本图片之前，还包括：

对所述任一样本图片进行截取和转正处理、并缩放到预设尺寸。
根据权利要求10所述的方法，其特征在于，所述对所述任一样本图片进行截取和转正处理、并缩放到预设尺寸之后，还包括：

分别针对缩放到预设尺寸后的两个或以上样本图片中的各文字区域，计算所述两个或以上样本图片的相应文字区域的位置的平均值，得到所述两个或以上样本图片中的各文字区域的位置的平均值，所述文字区域模板具体包括所述两个或以上样本图片中的所有文字区域的位置的平均值。
一种结构化文本检测系统，其特征在于，所述系统包括：

接收模块，用于接收图片及文字区域模板；所述图片包括结构化文本；所述文字区域模板包括至少一个文字区域的位置，所述至少一个文字区域的位置中各文字区域的位置分别基于与所述图片同类的至少一个样本图片中相应文字区域的位置获得；

获取模块，用于根据所述文字区域模板获取所述图片的一组待检测区域的实际位置。
根据权利要求12所述的系统，其特征在于，所述获取模块包括：

特征提取单元，用于对所述图片进行卷积处理，获得所述图片的卷积特征图；

兴趣区域池化操作单元，用于以所述文字区域模板中所有文字区域的位置作为所述图片的一组待检测区域，对所述卷积特征图进行兴趣区域池化操作，提取所述一组待检测区域中各待检测区域的局部特征；

分类分数和位置调整值获取单元，用于分别根据各组待检测区域的局部特征获取各待检测区域的分类分数和位置调整值；

文字区域确定单元，用于分别根据各待检测区域的分类分数确定各检测区域是否有文字；

实际位置确定单元，用于分别针对各有文字的待检测区域，根据有文字的待检测区域的位置调整值调整该有文字的待检测区域的坐标值，得到该有文字的待检测区域的实际位置。
根据权利要求13所述的系统，其特征在于，所述文字区域确定单元包括分类函数层；

所述分类函数层，用于分别确定各待检测区域的分类分数；若待检测区域的分类分数大于预设阈值，确定该分类分数大于预设阈值的待检测区域有文字。
根据权利要求12-14任一所述的系统，其特征在于，所述文字区域模板中各文字区域的位置，由相应文字区域的中心坐标、宽度及长度确定。
根据权利要求12-15任一所述的系统，其特征在于，还包括：

图片预处理模块，用于对所述图片进行截取和转正处理、并缩放到一个预设尺寸。
根据权利要求12-16任一所述的系统，其特征在于，还包括：

文字识别模块，用于对所述一组待检测区域的实际位置对应区域进行文字识别，获得所述图片中的结构化文本信息。
根据权利要求12-17任一所述的系统，其特征在于，还包括：

文字区域模板模块，用于分别针对所述至少一个样本图片中的各相应文字区域，分别根据对应文字区域的正确位置获取对应文字区域的正确位置的平均值，根据所述至少一个样本图片中所有文字区域的正确位置的平均值获得所述文字区域模板。
根据权利要求12-17任一所述的系统，其特征在于，所述接收模块与所述获取模块通过卷积神经网络实现；

所述系统还包括：

网络训练模块，用于利用与所述图片同类的至少一个样本图片对所述卷积神经网络进行训练，所述样本图片包括至少一个文字区域，所述样本图片标注有各文字区域的正确位置。
根据权利要求19所述的方法，其特征在于，所述卷积神经网络具体用于：接收所述至少一个样本图片及文字区域模板，并分别针对所述至少一个样本图片中的任一样本图片：对所述任一样本图片进行卷积处理，获得所述任一样本图片的卷积特征图；以所述文字区域模板中所有文字区域的位置作为所述任一样本图片的一组待检测区域，对所述卷积特征图进行兴趣区域池化操作，提取所述一组待检测区域中各待检测区域的局部特征；分别获取所述一组待检测区域中各待检测区域的预测分类分数和位置调整值；分别根据各待检测区域的预测分类分数确定各检测区域是否有文字；分别针对各有文字的待检测区域，根据有文字的待检测区域的位置调整值调整该有文字的待检测区域的坐标值，得到该有文字的待检测区域的预测位置；

所述网络训练模块，具体用于根据所述至少一个样本图片标注的各文字区域的正确位置、各检测区域是否有文字的确定结果和所述预测位置，对所述卷积神经网络进行训练。
根据权利要求20所述的方法，其特征在于，所述图片预处理模块，还用于对所述任一样本图片进行截取和转正处理、并缩放到预设尺寸；

所述系统还包括：

计算模块，用于分别针对缩放到预设尺寸后的两个或以上样本图片中的各文字区域，计算所述两个或以上样本图片的相应文字区域的位置的平均值，得到所述两个或以上样本图片中的各文字区域的位置的平均值，所述文字区域模板具体包括所述两个或以上样本图片中的所有文字区域的位置的平均值。
一种计算设备，其特征在于，包括：权利要求12至21任一所述的结构化文本检测系统。
一种计算设备，其特征在于，包括：

处理器和权利要求12至21任一所述的结构化文本检测系统；

在处理器运行所述结构化文本检测系统时，权利要求12至21任一所述的结构化文本检测系统中的单元被运行。
一种计算设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行权利要求1-11任一所述的结构化文本检测方法中各步骤的操作。
一种计算机系统，其特征在于，包括：

存储器，存储可执行指令；

一个或多个处理器，与存储器通信以执行可执行指令从而完成权利要求1-11任一所述的结构化文本检测方法中各步骤的操作。
一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现权利要求1-11任一所述的结构化文本检测方法中各步骤的指令。
一种计算机可读介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时实现权利要求1-11任一所述的结构化文本检测方法中各步骤的操作。