WO2019104879A1

WO2019104879A1 - 表格类图像的信息识别方法、电子装置及可读存储介质

Info

Publication number: WO2019104879A1
Application number: PCT/CN2018/076163
Authority: WO
Inventors: 王健宗; 王威; 刘鹏; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2017-11-30
Filing date: 2018-02-10
Publication date: 2019-06-06
Also published as: CN107862303A; CN107862303B

Abstract

本申请涉及一种表格类图像的信息识别方法、电子装置及可读存储介质，该方法包括：识别待处理的表格类图像的表格类别，确定与表格类图像的表格类别对应的第一标准模板及第二标准模板；利用预先确定的校正规则对表格类图像进行角度校正，使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行，将检测出的文本行与第一标准模板中的文本行位置进行比对，确定第一标准模板到角度校正后的表格类图像的位置对应关系；根据位置对应关系，将第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上，利用预先确定的字符识别模型识别表格类图像上的关键信息。本申请有效提高表格类图像的信息识别精度及效率。

Description

表格类图像的信息识别方法、电子装置及可读存储介质

优先权申明

本申请基于巴黎公约申明享有2017年11月30日递交的申请号为CN 201711240787.9、名称为“表格类图像的信息识别方法、电子装置及可读存储介质”中国专利申请的优先权，该中国专利申请的整体内容以参考的方式结合在本申请中。

技术领域

本申请涉及计算机技术领域，尤其涉及一种表格类图像的信息识别方法、电子装置及可读存储介质。

背景技术

随着国家信息化建设的不断深入，国家机关、企事业单位的纸质信息电子化的需求日益旺盛，为了将大量纸质信息电子化，现有的做法通常是将纸质文件扫描成图像档，再集中采用人工的方式批量将图像档的图像信息填录成电子表格信息或者其他格式文档信息。填录作业人员需填录的图像信息通常非常多，以致于填录作业人员的人力紧张，填录效率低下，而且，在填录表格类图像信息时经常会出现填录错误。

发明内容

本申请的目的在于提供一种表格类图像的信息识别方法、电子装置及可读存储介质，旨在有效提高表格类图像的信息识别精度及效率。

为实现上述目的，本申请第一方面提供一种电子装置，所述电子装置包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的表格类图像的信息识别系统，所述表格类图像的信息识别系统被所述处理器执行时实现如下步骤：

A、在收到待处理的表格类图像后，识别所述表格类图像的表格类别，并根据预先确定的表格类别与标准模板的映射关系，确定出与所述表格类图像的表格类别对应的第一标准模板及第二标准模板；其中，所述第一标准模板中预先设置有文本行位置标注框，所述第二标准模板中预先设置有关键信息位置标注框；

B、利用预先确定的校正规则对所述表格类图像进行角度校正，使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行，并将检测出的文本行与所述第一标准模板中的文本行位置进行比对，确定所述第一标准模板到角度校正后的表格类图像的位置对应关系；

C、根据所述位置对应关系，将所述第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上，得到角度校正后的表格类图像上的关键信息位置，并利用预先确定的字符识别模型识别出角度校正后的表格类图像上的关键信息。

此外，为实现上述目的，本申请第二方面还提供一种表格类图像的信息识别方法，所述表格类图像的信息识别方法包括：

在收到待处理的表格类图像后，识别所述表格类图像的表格类别，并根据预先确定的表格类别与标准模板的映射关系，确定出与所述表格类图像的表格类别对应的第一标准模板及第二标准模板；其中，所述第一标准模板中预先设置有文本行位置标注框，所述第二标准模板中预先设置有关键信息位置标注框；

利用预先确定的校正规则对所述表格类图像进行角度校正，使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行，并将检测出的文本行与所述第一标准模板中的文本行位置进行比对，确定所述第一标准模板到角度校正后的表格类图像的位置对应关系；

根据所述位置对应关系，将所述第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上，得到角度校正后的表格类图像上的关键信息位置，并利用预先确定的字符识别模型识别出角度校正后的表格类图像上的关键信息。

进一步地，为实现上述目的，本申请第三方面还提供一种计算机可读存储介质，所述计算机可读存储介质存储有表格类图像的信息识别系统，所述表格类图像的信息识别系统可被至少一个处理器执行，以使所述至少一个处理器执行如上述的表格类图像的信息识别方法的步骤。

本申请提出的表格类图像的信息识别方法、系统及可读存储介质，通过预先确定的带有文本行位置标注框的第一标准模板确定出待处理的表格类图像与该第一标准模板的位置对应关系，再根据确定的位置对应关系将预先确定的带有关键信息位置标注框的第二标准模板上的关键信息位置标注框映射到表格类图像上，以得到表格类图像上的关键信息位置，并利用预先确定的字符识别模型识别出表格类图像上的关键信息。由于通过第一标准模板能确定出表格类图像上各个文本行的位置，进而通过第二标准模板确定出表格类图像上的关键信息位置，从而对关键信息进行识别。减小了表格类图像的框架格式及框线对信息识别精度的影响，在对表格类图像上的关键信息进行识别时除字符信息之外的其它干扰因素会少很多，从而有效提高表格类图像的信息识别精度及效率。

附图说明

图1为本申请表格类图像的信息识别系统10较佳实施例的运行环境示意图；

图2为本申请表格类图像的信息识别方法一实施例的流程示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

本申请提供一种表格类图像的信息识别系统。请参阅图1，是本申请表格类图像的信息识别系统10较佳实施例的运行环境示意图。

在本实施例中，所述的表格类图像的信息识别系统10安装并运行于电子装置1中。该电子装置1可包括，但不仅限于，存储器11、处理器12及显示器13。图1仅示出了具有组件11-13的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器11为至少一种类型的可读计算机存储介质，所述存储器11在一些实施例中可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘或内存。所述存储器11在另一些实施例中也可以是所述电子装置1的外部存储设备，例如所述电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器11还可以既包括所述电子装置1的内部存储单元也包括外部存储设备。所述存储器11用于存储安装于所述电子装置1的应用软件及各类数据，例如所述表格类图像的信息识别系统10的程序代码等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行所述存储器11中存储的程序代码或处理数据，例如执行所述表格类图像的信息识别系统10等。

所述显示器13在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。所述显示器13用于显示在所述电子装置1中处理的信息以及用于显示可视化的用户界面，例如待处理的表格类图像、识别出的关键信息、字符信息等。所述电子装置1的部件11-13通过系统总线相互通信。

表格类图像的信息识别系统10包括至少一个存储在所述存储器11中的计算机可读指令，该至少一个计算机可读指令可被所述处理器12执行，以实现本申请各实施例。

其中，上述表格类图像的信息识别系统10被所述处理器12执行时实现如下步骤：

步骤S1，在收到待处理的表格类图像后，识别所述表格类图像的表格类别，并根据预先确定的表格类别与标准模板的映射关系，确定出与所述表格类图像的表格类别对应的第一标准模板及第二标准模板；其中，所述第一标准模板中预先设置有文本行位置标注框，所述第二标准模板中预先设置有关键信息位置标注框。

本实施例中，在收到待信息提取的表格类图像后，识别该表格类图像的表格类别，并根据表格类别确定出与该表格类图像对应的预先确定的带有文本行位置标注框的第一标准模板和带有关键信息位置标注框的第二标准模板，该第一标准模板和第二标准模板的框架格式与该图像的框架格式一致。例如，所述第一标准模板的获取过程为：在若干表格类图像样本的集合中挑选一张摆放位置比较正、背景较少的图像，人工手动标出挑选的图像上所有文本行的位置信息；每个文本行用一个文本行位置标注框(bounding box)标出，各个文本行位置标注框用四个数来表示，分别为左上角的横坐标与纵坐标，及右下角的横坐标与纵坐标，其中，坐标系原点选为图像左上角，向右为横轴正方向，向下为纵轴正方向。所述第二标准模板的获取过程为；在该第一标准模板对应的同一张图像上，标出关键信息位置和对应的关键信息栏位名称。

步骤S2，利用预先确定的校正规则对所述表格类图像进行角度校正，使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行，并将检测出的文本行与所述第一标准模板中的文本行位置进行比对，确定所述第一标准模板到角度校正后的表格类图像的位置对应关系。

本实施例中，首先利用预先确定的校正规则对所述表格类图像进行角度校正。在一种可选的实施方式中，所述预先确定的校正规则为：用霍夫变换(Hough)的概率算法找出所述表格类图像中尽可能多的小段直线；从找出的小段直线中确定出所有偏水平的直线，并将确定出的直线中x坐标值相差不大的直线按对应的y坐标值的大小顺序依次相连，按照x坐标值大小分为若干类，或者，将确定出的直线中y坐标值相差不大的直线按对应的x坐标值的大小顺序依次相连，按照y坐标值大小分为若干类；将属于一类的所有水平直线作为一个目标类直线，并通过最小二乘法找出最接近各个目标类直线的长直线；计算出各个长直线的斜率，计算出各个长直线的斜率的中位数和均值，比较计算出的斜率的中位数和均值的大小以确定出较小者，并根据确定出的较小者调整图像旋转角度，以将收到的所述表格类图像矫正为正常无倾角的图片。

在另一种可选的实施方式中，所述预先确定的校正规则为：预先选定一个最大旋转角度max_skew，选定旋转次数n，从-max_skew到max_skew平均分成n份，这样就得到一列备选的旋转角度；以灰度图的方式读入待校正的所述表格类图像，对于每一个备选的旋转角度，将灰度图按照这个角度大小进行旋转得到新的图像矩阵，把得到的新图像矩阵每行所有像素点的像素值求均值以得到一列均值，将得到的一列均值求方差，依此计算，每个备选的角度可得到对应的一个方差值；从上述方差值中挑选出最大方差值，该最大方差值对应的旋转角度即为对待校正的所述表格类图像进行的校正角度，从而利用得到的校正角度对所述表格类图像进行校正。该实施方式中，考虑到如果图像的文本行是水平的，那么图像矩阵某一行或者是文字、或者是空白，得到的均值相差就大；如果图像文本不是水平的，那么图像矩阵大多数行会同时穿过文本和文本行中间的空白，那么得到的均值相差就不大。因此，通过方差值来选取旋转角度的方式，能实现将待校正的所述表格类图像矫正为正常无倾角的图片。

在对所述表格类图像进行角度校正后，使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行。例如，在一种可选的实施方式中，所述文本行检测模型为联结文本提案网络(Connectionist Text Proposal Network，简称CTPN)模型，用于检测出角度校正后的表格类图像中文本行的位置，并用标注框标注出检测出的文本行的位置。CTPN本质上是一个全卷积网络，输入的图片可以是任意大小，它通过一个小的滑动窗口在卷积特征图上检测文本行，输出精细的文本提议区域序列。

在检测并用标注框标注出角度校正后的表格类图像上的所有文本行之后，可将检测出的文本行与所述第一标准模板中的文本行位置进行比对，确定所述第一标准模板到角度校正后的表格类图像的位置对应关系。由于所述第一标准模板中预先设置有文本行位置标注框，因此，可将表格类图像上标注的文本行与所述第一标准模板中的文本行进行对应，例如，可比较表格类图像与第一标准模板上相同位置的文本行位置标注框之间的坐标差别，如两个文本行位置标注框之间的左上角横坐标、纵坐标以及右下角横坐标、纵坐标之间的坐标差值，以确定所述第一标准模板到角度校正后的表格类图像的位置对应关系。

步骤S3，根据所述位置对应关系，将所述第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上，得到角度校正后的表格类图像上的关键信息位置，并利用预先确定的字符识别模型识别出角度校正后的表格类图像上的关键信息。

在确定出所述第一标准模板到角度校正后的表格类图像的位置对应关系之后，可根据所述位置对应关系，将所述第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上。例如，可根据角度校正后的表格类图像与第一标准模板上文本行位置标注框之间的坐标差值，以及所述第二标准模板上的关键信息位置标注框的坐标(如左上角横坐标、纵坐标以及右下角横坐标、纵坐标)，转换计算得到角度校正后的表格类图像上关键信息位置标注框的坐标(如左上角横坐标、纵坐标以及右下角横坐标、纵坐标)，从而确定出角度校正后的表格类图像上的关键信息位置。即可利用预先确定字符识别模型识别出角度校正后的表格类图像上的关键信息。其中，该预先确定字符识别模型可以为OCR字符识别引擎，也可以是经预先学习、训练得到的字符识别模型，如时间递归神经网络模型(Long-Short Term Memory，LSTM)等，在此不做限定。

与现有技术相比，本实施例通过预先确定的带有文本行位置标注框的第一标准模板确定出待处理的表格类图像与该第一标准模板的位置对应关系，再根据确定的位置对应关系将预先确定的带有关键信息位置标注框的第二标准模板上的关键信息位置标注框映射到表格类图像上，以得到表格类图像上的关键信息位置，并利用预先确定的字符识别模型识别出表格类图像上的关键信息。由于通过第一标准模板能确定出表格类图像上各个文本行的位置，进而通过第二标准模板确定出表格类图像上的关键信息位置，从而对关键信息进行识别。减小了表格类图像的框架格式及框线对信息识别精度的影响，在对表格类图像上的关键信息进行识别时除字符信息之外的其它干扰因素会少很多，从而有效提高表格类图像的信息识别精度及效率。

在一可选的实施例中，在上述实施例的基础上，所述识别所述表格类图像的表格类别的步骤包括：

利用预先训练的表格类图像识别模型对待处理的表格类图像的表格类别进行识别，并输出表格类图像的类别识别结果(例如，门诊票据、住院票据、保险收费收据、理赔出单单据以及其他类表格票据等)。

本实施例中，所述表格类图像识别模型为深度卷积神经网络模型(例如，该深度卷积神经网络模型可以为在CaffeNet的环境下选取的基于深度卷积神经网络SSD(Single Shot MultiBox Detector)算法模型)，该深度卷积神经网络模型由1个输入层、13个卷积层、5个池化层、2个全连接层、1个分类层构成。所述深度卷积神经网络模型的详细结构如下表1所示：

Layer Name	Batch Size	Kernel Size	Stride Size	Pad Size
Input	128	N/A	N/A	N/A
Conv1	128	3	1	1
Conv2	128	3	1	1
MaxPool1	128	2	2	0
Conv3	128	3	1	1
Conv4	128	3	1	1
MaxPool2	128	2	2	0
Conv5	128	3	1	1
Conv6	128	3	1	1
Conv7	128	3	1	1
MaxPool3	128	2	2	0
Conv8	128	3	1	1
Conv9	128	3	1	1
Conv10	128	3	1	1
MaxPool4	128	2	2	0
Conv11	128	3	1	1
Conv12	128	3	1	1
Conv13	128	3	1	1
MaxPool5	128	2	2	0
Fc1	4096	1	1	0
Fc2	2048	1	1	0
Softmax	3	N/A	N/A	N/A

表1

其中：Layer Name表示每一层的名称，Input表示输入层，Conv表示模型的卷积层，Conv1表示模型的第1个卷积层，MaxPool表示模型的最大值池化层，MaxPool1表示模型的第1个最大值池化层，Fc表示模型中的全连接层，Fc1表示模型中第1个全连接层，Softmax表示Softmax分类器；Batch Size表示当前层的输入图像数目；Kernel Size表示当前层卷积核的尺度(例如，Kernel Size可以等于3，表示卷积核的尺度为3x 3)；Stride Size表示卷积核的移动步长，即做完一次卷积之后移动到下一个卷积位置的距离；Pad Size表示对当前网络层之中的图像填充的大小。需要说明的是，本实施例中池化层的池化方式包括但不限于Mean pooling(均值采样)、Max pooling(最大值采样)、Overlapping(重叠采样)、L2 pooling(均方采样)、Local Contrast Normalization(归一化采样)、Stochasticpooling(随即采样)、Def-pooling(形变约束采样)等等。

所述表格类图像识别模型的训练过程如下：

B1、为每一个预设表格图像类别(例如，预设表格图像类别包括门诊票据、住院票据、保险收费收据、理赔出单单据等)准备预设数量(例如，1000张)的标注有对应的图像类别的表格图像样本。本实施例中，在训练之前，针对表格图像样本还做如下处理：

根据其高宽比信息以及印章的位置判断表格图像样本的转置情况，并做翻转调整：当高宽比大于1时，说明表格图像样本高宽颠倒，若印章位置在表格图像样本左侧，则对表格图像样本做顺时针旋转九十度处理，若印章位置在表格图像样本右侧，则对表格图像样本做逆时针旋转九十度处理；当高宽比小于1时，说明表格图像样本高宽未颠倒，若印章位置在表格图像样本下侧，则对表格图像样本做顺时针旋转一百八十度处理。

找出标注存在严重问题的数据，比如关键位置信息缺失或超出整张图片范围，以及印章标注位置位于表格图像样本中央等明显标注错误的数据，对这些数据进行清理，确保数据标注准确无误。

这样，能保证进行模型训练的表格图像样本均为高宽未颠倒且标注准确无误的图片，以利于后续的模型训练更加准确有效。

B2、将每一个预设表格图像类别对应的表格图像样本分为第一比例(例如，80％)的训练子集和第二比例(例如，20％)的验证子集，将各个训练子集中的表格图像样本进行混合以得到训练集，并将各个验证子集中的表格图像样本进行混合以得到验证集；

B3、利用所述训练集训练所述表格类图像识别模型；

B4、利用所述验证集验证训练的所述表格类图像识别模型的准确率，若准确率大于或者等于预设准确率，则训练结束，或者，若准确率小于预设准确率，则增加每一个预设表格图像类别对应的表格类图像样本的数量，并重新执行步骤B2、B3、B4。

在一可选的实施例中，在上述实施例的基础上，所述将检测出的文本行与所述第一标准模板中的文本行位置进行比对，确定所述第一标准模板到角度校正后的表格类图像的位置对应关系的步骤包括：

D1、对所述第一标准模板中的所有标注框和检测出的表格类图像中的所有标注框分别进行分组；在分组时，若所述第一标准模板或表格类图像中两个标注框左上角的纵坐标差值的绝对值小于预设值，例如，两个标注框左上角的纵坐标差值的绝对值小于该两个标注框高度值较小者的一半，则将该两个标注框分为一组。这样，处于同一组的标注框都位于同一行。

D2、对分组后的每一行标注框按照行内每个标注框左上角横坐标从小到大的顺序进行标注框排序；

D3、对所有行按照每行第一个标注框左上角的纵坐标从小到大的顺序进行行排序；

D4、若所述第一标准模板中有m行标注框，则从该表格类图像的标注框行排序中选出m行标注框，让从该表格类图像中选出的m行标注框按照行号从小到大的顺序依次与所述第一标准模板中的m行标注框对应，形成m对标注框行。需要说明的是，若所述第一标准模板中有大于m行的标注框，则从所述第一标准模板中挑选出m行预设类型(例如，保险单据上的标题、落款，医疗票据上的姓名、日期等)的标注框，或者，从预设位置处挑选出m行标注框，例如，可以从图像的上半部分和下半部分分别选出固定数量(例如，m/2)的标注框行。

D5、逐一从m对标注框行中选择配对的标注框行，在一对标注框行被选择后，若该对标注框行中第一标准模板对应的行有n个标注框，则分别从该表格类图像对应的行中取出p个标注框，直到无法选择出不同的p个标注框，其中，m、n、p为正整数，p≤n；在每次选择出p个标注框后，让该p个标注框依次与所述第一标准模板对应的行的n个标注框中的p个标注框对应，得到p对标注框；根据该P对标注框中每对标注框对应的位置框差值，并按预设规则计算得到选择的该对标注框行的位置行差值。例如，在一种可选的实施方式中，可将该P对标注框中每对标注框对应的位置框差值loss设定为配对的两个标注框左上角坐标差值的绝对值，每对标注框的位置框差值loss对应的权重设定为1/n；把这P对标注框对应的位置框差值loss分别乘以对应的权重后加起来就是本次随机取出的p对标注框对应的两个标注框行的位置行差值loss，将得到的所有位置行差值loss的最小值定义为该两个标注框行的位置行差值loss。

D6、在m对标注框行选择完毕后，得到m个位置行差值loss，根据m个位置行差值loss确定出所述第一标准模板到角度校正后的表格类图像的位置对应关系。例如，在一种可选的实施方式中，可从这m个位置行差值loss中找出最小的位置行差值loss，从找出的位置行差值loss对应的一对目标标注框行对应的各个位置框差值loss中，确定最小的位置框差值loss，该最小的位置框差值loss即作为所述第一标准模板到角度校正后的表格类图像的位置对应关系。

如图2所示，图2为本申请表格类图像的信息识别方法一实施例的流程示意图，该表格类图像的信息识别方法包括以下步骤：

步骤S10，在收到待处理的表格类图像后，识别所述表格类图像的表格类别，并根据预先确定的表格类别与标准模板的映射关系，确定出与所述表格类图像的表格类别对应的第一标准模板及第二标准模板；其中，所述第一标准模板中预先设置有文本行位置标注框，所述第二标准模板中预先设置有关键信息位置标注框。

步骤S20，利用预先确定的校正规则对所述表格类图像进行角度校正，使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行，并将检测出的文本行与所述第一标准模板中的文本行位置进行比对，确定所述第一标准模板到角度校正后的表格类图像的位置对应关系。

步骤S30，根据所述位置对应关系，将所述第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上，得到角度校正后的表格类图像上的关键信息位置，并利用预先确定的字符识别模型识别出角度校正后的表格类图像上的关键信息。

本实施例中，所述表格类图像识别模型为深度卷积神经网络模型(例如，该深度卷积神经网络模型可以为在CaffeNet的环境下选取的基于深度卷积神经网络SSD(Single Shot MultiBox Detector)算法模型)，该深度卷积神经网络模型由1个输入层、13个卷积层、5个池化层、2个全连接层、1个分类层构成。所述深度卷积神经网络模型的详细结构如下表2所示：

表2

所述表格类图像识别模型的训练过程如下：

B3、利用所述训练集训练所述表格类图像识别模型；

此外，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有表格类图像的信息识别系统，所述表格类图像的信息识别系统可被至少一个处理器执行，以使所述至少一个处理器执行如上述实施例中的表格类图像的信息识别方法的步骤，该表格类图像的信息识别方法的步骤S10、S20、S30等具体实施过程如上文所述，在此不再赘述。

Claims

一种电子装置，其特征在于，所述电子装置包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的表格类图像的信息识别系统，所述表格类图像的信息识别系统被所述处理器执行时实现如下步骤：

A、在收到待处理的表格类图像后，识别所述表格类图像的表格类别，并根据预先确定的表格类别与标准模板的映射关系，确定出与所述表格类图像的表格类别对应的第一标准模板及第二标准模板；其中，所述第一标准模板中预先设置有文本行位置标注框，所述第二标准模板中预先设置有关键信息位置标注框；

B、利用预先确定的校正规则对所述表格类图像进行角度校正，使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行，并将检测出的文本行与所述第一标准模板中的文本行位置进行比对，确定所述第一标准模板到角度校正后的表格类图像的位置对应关系；

C、根据所述位置对应关系，将所述第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上，得到角度校正后的表格类图像上的关键信息位置，并利用预先确定的字符识别模型识别出角度校正后的表格类图像上的关键信息。
如权利要求1所述的电子装置，其特征在于，所述识别所述表格类图像的表格类别包括：

利用预先训练的表格类图像识别模型对待处理的表格类图像的表格类别进行识别，所述表格类图像识别模型为深度卷积神经网络模型，该深度卷积神经网络模型由1个输入层、13个卷积层、5个池化层、2个全连接层、1个分类层构成，所述表格类图像的表格类别包括门诊票据、住院票据、保险收费收据和理赔出单单据。
如权利要求1所述的电子装置，其特征在于，所述预先确定的校正规则为：

预先设定一最大旋转角度max_skew及旋转次数n，从-max_skew到max_skew平均分成n份，得到一列备选的旋转角度；

以灰度图的方式读入所述表格类图像，对于每一个备选的旋转角度，将灰度图按照该备选的旋转角度大小进行旋转得到新图像矩阵，把得到的新图像矩阵每行所有像素点的像素值求均值以得到一列均值，将得到的一列均值求方差，依此计算，每一个备选的旋转角度对应一个方差值；

从所有备选的旋转角度对应的方差值中挑选出最大方差值，将该最大方差值对应的备选的旋转角度作为校正角度，并利用所述校正角度对所述表格类图像进行校正。
如权利要求1所述的电子装置，其特征在于，所述文本行检测模型为联结文本提案网络CTPN模型，该联结文本提案网络CTPN模型用于检测出角度校正后的表格类图像中文本行的位置，并用标注框标注出检测出的文本行的位置。
如权利要求2所述的电子装置，其特征在于，所述文本行检测模型为联结文本提案网络CTPN模型，该联结文本提案网络CTPN模型用于检测出角度校正后的表格类图像中文本行的位置，并用标注框标注出检测出的文本行的位置。
如权利要求3所述的电子装置，其特征在于，所述文本行检测模型为联结文本提案网络CTPN模型，该联结文本提案网络CTPN模型用于检测出角度校正后的表格类图像中文本行的位置，并用标注框标注出检测出的文本行的位置。
如权利要求4所述的电子装置，其特征在于，所述将检测出的文本行与所述第一标准模板中的文本行位置进行比对，确定所述第一标准模板到角度校正后的表格类图像的位置对应关系包括：

D1、对所述第一标准模板中的所有标注框和检测出的表格类图像中的所有标注框分别进行分组；在分组时，若所述第一标准模板或表格类图像中两个标注框左上角的纵坐标差值的绝对值小于预设值，则将该两个标注框分为一组，以使得处于同一组的标注框都位于同一行；

D2、对分组后的每一行标注框按照行内每个标注框左上角横坐标从小到大的顺序进行标注框排序；

D3、对所有行按照每行第一个标注框左上角的纵坐标从小到大的顺序进行行排序；

D4、若所述第一标准模板中有m行标注框，则从该表格类图像的标注框行排序中选出m行标注框，让从该表格类图像中选出的m行标注框按照行号从小到大的顺序依次与所述第一标准模板中的m行标注框对应，形成m对标注框行；

D5、逐一从m对标注框行中选择配对的标注框行，在一对标注框行被选择后，若该对标注框行中第一标准模板对应的行有n个标注框，则分别从该表格类图像对应的行中取出p个标注框，直到无法选择出不同的p个标注框，其中，m、n、p为正整数，p≤n；在每次选择出p个标注框后，让该p个标注框依次与所述第一标准模板对应的行的n个标注框中的p个标注框对应，得到p对标注框；根据该P对标注框中每对标注框对应的位置框差值，并按预设规则计算得到选择的该对标注框行的位置行差值；

D6、在m对标注框行选择完毕后，得到m个位置行差值，根据 m个位置行差值确定出所述第一标准模板到角度校正后的表格类图像的位置对应关系。
如权利要求5所述的电子装置，其特征在于，所述将检测出的文本行与所述第一标准模板中的文本行位置进行比对，确定所述第一标准模板到角度校正后的表格类图像的位置对应关系包括：

D1、对所述第一标准模板中的所有标注框和检测出的表格类图像中的所有标注框分别进行分组；在分组时，若所述第一标准模板或表格类图像中两个标注框左上角的纵坐标差值的绝对值小于预设值，则将该两个标注框分为一组，以使得处于同一组的标注框都位于同一行；

D2、对分组后的每一行标注框按照行内每个标注框左上角横坐标从小到大的顺序进行标注框排序；

D3、对所有行按照每行第一个标注框左上角的纵坐标从小到大的顺序进行行排序；

D4、若所述第一标准模板中有m行标注框，则从该表格类图像的标注框行排序中选出m行标注框，让从该表格类图像中选出的m行标注框按照行号从小到大的顺序依次与所述第一标准模板中的m行标注框对应，形成m对标注框行；

D5、逐一从m对标注框行中选择配对的标注框行，在一对标注框行被选择后，若该对标注框行中第一标准模板对应的行有n个标注框，则分别从该表格类图像对应的行中取出p个标注框，直到无法选择出不同的p个标注框，其中，m、n、p为正整数，p≤n；在每次选择出p个标注框后，让该p个标注框依次与所述第一标准模板对应的行的n个标注框中的p个标注框对应，得到p对标注框；根据该P对标注框中每对标注框对应的位置框差值，并按预设规则计算得到选择的该对标注框行的位置行差值；

D6、在m对标注框行选择完毕后，得到m个位置行差值，根据m个位置行差值确定出所述第一标准模板到角度校正后的表格类图像的位置对应关系。
如权利要求6所述的电子装置，其特征在于，所述将检测出的文本行与所述第一标准模板中的文本行位置进行比对，确定所述第一标准模板到角度校正后的表格类图像的位置对应关系包括：

D1、对所述第一标准模板中的所有标注框和检测出的表格类图像中的所有标注框分别进行分组；在分组时，若所述第一标准模板或表格类图像中两个标注框左上角的纵坐标差值的绝对值小于预设值，则将该两个标注框分为一组，以使得处于同一组的标注框都位于同一行；

D2、对分组后的每一行标注框按照行内每个标注框左上角横坐标从小到大的顺序进行标注框排序；

D3、对所有行按照每行第一个标注框左上角的纵坐标从小到大的顺序进行行排序；

D4、若所述第一标准模板中有m行标注框，则从该表格类图像的标注框行排序中选出m行标注框，让从该表格类图像中选出的m行标注框按照行号从小到大的顺序依次与所述第一标准模板中的m行标注框对应，形成m对标注框行；

D5、逐一从m对标注框行中选择配对的标注框行，在一对标注框行被选择后，若该对标注框行中第一标准模板对应的行有n个标注框，则分别从该表格类图像对应的行中取出p个标注框，直到无法选择出不同的p个标注框，其中，m、n、p为正整数，p≤n；在每次选择出p个标注框后，让该p个标注框依次与所述第一标准模板对应的行的n个标注框中的p个标注框对应，得到p对标注框；根据该P对标注框中每对标注框对应的位置框差值，并按预设规则计算得到选择的该对标注框行的位置行差值；

D6、在m对标注框行选择完毕后，得到m个位置行差值，根据m个位置行差值确定出所述第一标准模板到角度校正后的表格类图像的位置对应关系。
一种表格类图像的信息识别方法，其特征在于，所述表格类图像的信息识别方法包括：

在收到待处理的表格类图像后，识别所述表格类图像的表格类别，并根据预先确定的表格类别与标准模板的映射关系，确定出与所述表格类图像的表格类别对应的第一标准模板及第二标准模板；其中，所述第一标准模板中预先设置有文本行位置标注框，所述第二标准模板中预先设置有关键信息位置标注框；

利用预先确定的校正规则对所述表格类图像进行角度校正，使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行，并将检测出的文本行与所述第一标准模板中的文本行位置进行比对，确定所述第一标准模板到角度校正后的表格类图像的位置对应关系；

根据所述位置对应关系，将所述第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上，得到角度校正后的表格类图像上的关键信息位置，并利用预先确定的字符识别模型识别出角度校正后的表格类图像上的关键信息。
如权利要求10所述的表格类图像的信息识别方法，其特征在于，所述识别所述表格类图像的表格类别包括：

利用预先训练的表格类图像识别模型对待处理的表格类图像的表格类别进行识别，所述表格类图像识别模型为深度卷积神经网络模型，该深度卷积神经网络模型由1个输入层、13个卷积层、5个池化层、2个全连接层、1个分类层构成，所述表格类图像的表格类别包括门诊票据、住院票据、保险收费收据和理赔出单单据。
如权利要求10所述的表格类图像的信息识别方法，其特征在于，所述预先确定的校正规则为：

预先设定一最大旋转角度max_skew及旋转次数n，从-max_skew到max_skew平均分成n份，得到一列备选的旋转角度；

以灰度图的方式读入所述表格类图像，对于每一个备选的旋转角度，将灰度图按照该备选的旋转角度大小进行旋转得到新图像矩阵，把得到的新图像矩阵每行所有像素点的像素值求均值以得到一列均值，将得到的一列均值求方差，依此计算，每一个备选的旋转角度对应一个方差值；

从所有备选的旋转角度对应的方差值中挑选出最大方差值，将该最大方差值对应的备选的旋转角度作为校正角度，并利用所述校正角度对所述表格类图像进行校正。
如权利要求10所述的表格类图像的信息识别方法，其特征在于，所述文本行检测模型为联结文本提案网络CTPN模型，该联结文本提案网络CTPN模型用于检测出角度校正后的表格类图像中文本行的位置，并用标注框标注出检测出的文本行的位置。
如权利要求11所述的表格类图像的信息识别方法，其特征在于，所述文本行检测模型为联结文本提案网络CTPN模型，该联结文本提案网络CTPN模型用于检测出角度校正后的表格类图像中文本行的位置，并用标注框标注出检测出的文本行的位置。
如权利要求12所述的表格类图像的信息识别方法，其特征在于，所述文本行检测模型为联结文本提案网络CTPN模型，该联结文本提案网络CTPN模型用于检测出角度校正后的表格类图像中文本行的位置，并用标注框标注出检测出的文本行的位置。
如权利要求13所述的表格类图像的信息识别方法，其特征在于，所述将检测出的文本行与所述第一标准模板中的文本行位置进行比对，确定所述第一标准模板到角度校正后的表格类图像的位置对应关系包括：

D1、对所述第一标准模板中的所有标注框和检测出的表格类图像中的所有标注框分别进行分组；在分组时，若所述第一标准模板或表格类图像中两个标注框左上角的纵坐标差值的绝对值小于预设值，则将该两个标注框分为一组，以使得处于同一组的标注框都位于同一行；

D2、对分组后的每一行标注框按照行内每个标注框左上角横坐标从小到大的顺序进行标注框排序；

D3、对所有行按照每行第一个标注框左上角的纵坐标从小到大的顺序进行行排序；

D4、若所述第一标准模板中有m行标注框，则从该表格类图像的标注框行排序中选出m行标注框，让从该表格类图像中选出的m行标注框按照行号从小到大的顺序依次与所述第一标准模板中的m行标注框对应，形成m对标注框行；

D5、逐一从m对标注框行中选择配对的标注框行，在一对标注框行被选择后，若该对标注框行中第一标准模板对应的行有n个标注框，则分别从该表格类图像对应的行中取出p个标注框，直到无法选择出不同的p个标注框，其中，m、n、p为正整数，p≤n；在每次选择出p个标注框后，让该p个标注框依次与所述第一标准模板对应的行的n个标注框中的p个标注框对应，得到p对标注框；根据该P对标注框中每对标注框对应的位置框差值，并按预设规则计算得到选择的该对标注框行的位置行差值；

D6、在m对标注框行选择完毕后，得到m个位置行差值，根据m个位置行差值确定出所述第一标准模板到角度校正后的表格类图像的位置对应关系。
如权利要求14所述的表格类图像的信息识别方法，其特征在于，所述将检测出的文本行与所述第一标准模板中的文本行位置进行比对，确定所述第一标准模板到角度校正后的表格类图像的位置对应关系包括：

D1、对所述第一标准模板中的所有标注框和检测出的表格类图像中的所有标注框分别进行分组；在分组时，若所述第一标准模板或表格类图像中两个标注框左上角的纵坐标差值的绝对值小于预设值，则将该两个标注框分为一组，以使得处于同一组的标注框都位于同一行；

D2、对分组后的每一行标注框按照行内每个标注框左上角横坐标从小到大的顺序进行标注框排序；

D3、对所有行按照每行第一个标注框左上角的纵坐标从小到大的顺序进行行排序；

D4、若所述第一标准模板中有m行标注框，则从该表格类图像的标注框行排序中选出m行标注框，让从该表格类图像中选出的m行标注框按照行号从小到大的顺序依次与所述第一标准模板中的m行标注框对应，形成m对标注框行；

D5、逐一从m对标注框行中选择配对的标注框行，在一对标注框行被选择后，若该对标注框行中第一标准模板对应的行有n个标注框，则分别从该表格类图像对应的行中取出p个标注框，直到无法选择出不同的p个标注框，其中，m、n、p为正整数，p≤n；在每次选择出p个标注框后，让该p个标注框依次与所述第一标准模板对应的行的n个标注框中的p个标注框对应，得到p对标注框；根据该P对标注框中每对标注框对应的位置框差值，并按预设规则计算得到选择的该对标注框行的位置行差值；

D6、在m对标注框行选择完毕后，得到m个位置行差值，根据m个位置行差值确定出所述第一标准模板到角度校正后的表格类图像的位置对应关系。
如权利要求15所述的表格类图像的信息识别方法，其特征在于，所述将检测出的文本行与所述第一标准模板中的文本行位置进行比对，确定所述第一标准模板到角度校正后的表格类图像的位置对应关系包括：

D1、对所述第一标准模板中的所有标注框和检测出的表格类图像中的所有标注框分别进行分组；在分组时，若所述第一标准模板或表格类图像中两个标注框左上角的纵坐标差值的绝对值小于预设值，则将该两个标注框分为一组，以使得处于同一组的标注框都位于同一行；

D2、对分组后的每一行标注框按照行内每个标注框左上角横坐标从小到大的顺序进行标注框排序；

D3、对所有行按照每行第一个标注框左上角的纵坐标从小到大的顺序进行行排序；

D4、若所述第一标准模板中有m行标注框，则从该表格类图像的标注框行排序中选出m行标注框，让从该表格类图像中选出的m行标注框按照行号从小到大的顺序依次与所述第一标准模板中的m行标注框对应，形成m对标注框行；

D5、逐一从m对标注框行中选择配对的标注框行，在一对标注框行被选择后，若该对标注框行中第一标准模板对应的行有n个标注框，则分别从该表格类图像对应的行中取出p个标注框，直到无法选择出不同的p个标注框，其中，m、n、p为正整数，p≤n；在每次选择出p个标注框后，让该p个标注框依次与所述第一标准模板对应的行的n个标注框中的p个标注框对应，得到p对标注框；根据该P对标注框中每对标注框对应的位置框差值，并按预设规则计算得到选择的该对标注框行的位置行差值；

D6、在m对标注框行选择完毕后，得到m个位置行差值，根据m个位置行差值确定出所述第一标准模板到角度校正后的表格类图像的位置对应关系。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有表格类图像的信息识别系统，所述表格类图像的信息识别系统被处理器执行时实现如下步骤：

在收到待处理的表格类图像后，识别所述表格类图像的表格类别，并根据预先确定的表格类别与标准模板的映射关系，确定出与所述表格类图像的表格类别对应的第一标准模板及第二标准模板；其中，所述第一标准模板中预先设置有文本行位置标注框，所述第二标准模板中预先设置有关键信息位置标注框；

利用预先确定的校正规则对所述表格类图像进行角度校正，使用预先训练的文本行检测模型检测出角度校正后的表格类图像上的所有文本行，并将检测出的文本行与所述第一标准模板中的文本行位置进行比对，确定所述第一标准模板到角度校正后的表格类图像的位置对应关系；

根据所述位置对应关系，将所述第二标准模板上的关键信息位置标注框映射到角度校正后的表格类图像上，得到角度校正后的表格类图像上的关键信息位置，并利用预先确定的字符识别模型识别出角度校正后的表格类图像上的关键信息。
如权利要求19所述的计算机可读存储介质，其特征在于，所述识别所述表格类图像的表格类别包括：

利用预先训练的表格类图像识别模型对待处理的表格类图像的表格类别进行识别，所述表格类图像识别模型为深度卷积神经网络模型，该深度卷积神经网络模型由1个输入层、13个卷积层、5个池化层、2个全连接层、1个分类层构成，所述表格类图像的表格类别包括门诊票据、住院票据、保险收费收据和理赔出单单据。