WO2020232872A1

WO2020232872A1 - 表格识别方法、装置、计算机设备和存储介质

Info

Publication number: WO2020232872A1
Application number: PCT/CN2019/102726
Authority: WO
Inventors: 高梁梁; 孙双双
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-05-22
Filing date: 2019-08-27
Publication date: 2020-11-26
Also published as: CN110334585A; CN110334585B

Abstract

一种表格识别方法，包括：获取文档格式为PDF格式的目标文档；通过预训练的表格定位模型，确定所述目标文档中的表格内容所在的表格区域；从所述目标文档中裁剪出处于所述表格区域内的表格内容，并依据所述表格内容生成相应的表格图片；对所述表格图片进行图像识别，确定所述表格图片中的字符、及所述字符的位置信息；根据所述字符和所述位置信息，按预设格式生成相应的表格文件。

Description

表格识别方法、装置、计算机设备和存储介质

相关申请的交叉引用

本申请要求于2019年5月22日提交中国专利局，申请号为201910427255.9，申请名称为“表格识别方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及一种表格识别方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，越来越多的文档格式被开发出来并被广泛使用着，比如PDF(Portable Document Format，便携式文档格式)格式的文档。其中，PDF是一种被广泛使用的电子文档格式。现在越来越多的专业资料、电子图书、产品说明和电子邮件等在开始使用PDF格式的文档。

PDF格式的文档是一种不可直接编辑的文档，很多专业数据都是以PDF文件的形式展示。当涉及到表格数据时，通常是提前将表格转换成图片，再将表格图片嵌入PDF文档中。PDF文档对表格数据也没有特殊的定义，而只是线条与文字的位置组合。这样使得从PDF文档中提取出表格数据变得很困难。

发明内容

根据本申请公开的各种实施例，提供一种表格识别方法。一种表格识别方法包括：

获取文档格式为PDF格式的目标文档；

通过预训练的表格定位模型，确定所述目标文档中的表格内容所在的表格区域；

从所述目标文档中裁剪出处于所述表格区域内的表格内容，并依据所述表格内容生成相应的表格图片；

对所述表格图片进行图像识别，确定所述表格图片中的字符、及所述字符的位置信息；及

根据所述字符和所述位置信息，按预设格式生成相应的表格文件。

一种表格识别装置，所述装置包括：

获取模块，用于获取文档格式为PDF格式的目标文档；

确定模块，用于通过预训练的表格定位模型，确定所述目标文档中的表格内容所在的表格区域；

生成模块，用于从所述目标文档中裁剪出处于所述表格区域内的表格内容，并依据所述表格内容生成相应的表格图片；

所述确定模块还用于对所述表格图片进行图像识别，确定所述表格图片中的字符、及所述字符的位置信息；及

所述生成模块还用于根据所述字符和所述位置信息，按预设格式生成相应的表格文件。

一种计算机设备，包括存储器及一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器实现所述表格识别方法的步骤。

一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器实现所述表格识别方法的步骤。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为根据一个或多个实施例中表格识别方法的应用场景图。

图2为根据一个或多个实施例中表格识别方法的流程示意图。

图3为根据一个或多个实施例中对表格图片进行二值化处理步骤的流程示意图。

图4为根据一个或多个实施例中表格识别装置的框图。

图5为另一个实施例中表格识别装置的框图。

图6为根据一个或多个实施例中计算机设备的框图。

具体实施方式

为了使本申请的技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的表格识别方法，可以应用于如图1所示的应用环境中。终端110与服务器120通过网络进行通信。用户可通过终端110将PDF格式的目标文档发送至服务器120，服务器120获取该目标文档并执行所述表格识别方法。其中，终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一些实施例中，如图2所示，提供了一种表格识别方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S202，获取文档格式为PDF格式的目标文档。

其中，目标文档是以PDF格式存储的文档。PDF格式是一种便携式文档格式，是用于与应用程序、操作系统、和硬件等均无关的方式进行文件交换所发展出的文件格式。在实际应用中，很多专业数据都是以PDF文件的形式展示，并且，当涉及到表格数据时，通常提前将表格转换成图片，再将表格图片嵌入PDF文档中。

具体地，服务器可获取文档格式为PDF格式的目标文档，本实施例中的目标文档也可称作PDF文档。其中，目标文档包括有表格内容。在一些实施例中，终端上运行有表格识别客户端，用户可登陆该表格识别客户端，并通过表格识别客户端上传PDF文档，表格识别客户端将上传的PDF文档发送至服务器。或者，服务器可通过网络连接接收其他计算机设备发送的含有表格内容的PDF文档。

S204，通过预训练的表格定位模型，确定目标文档中的表格内容所在的表格区域。

其中，表格定位模型是一种用于定位表格的神经网络模型。在一些实施例中，表格定位模型具体可以是YOLO(You only look once，你只看一次)模型。YOLO模型是一种神经网络模型，具体是基于深度学习的目标检测模型。

其中，神经网络是卷积神经网络(Convolutional Neural Network，简称CNN)，是一种人工神经网络。卷积神经网络包括卷积层(Convolutional Layer)和子采样层(Pooling Layer)。

在卷积神经网络的卷积层中，存在多个特征图(Feature Map)，每个特征图包括多个神经元，同一个特征图的所有神经元共用一个卷积核。卷积核就是相应神经元的权值，卷积核代表一个特征。卷积核一般以随机小数矩阵的形式初始化，在网络的训练过程中将学习得到合理的卷积核。卷积层可以减少神经网络中各层之间的连接，同时又降低了过拟合的风险。在本实施例中，卷积层可以有一层也可以有多层。

子采样也叫做池化(Pooling)，通常有均值子采样(Mean Pooling)和最大值子采样(Max Pooling)两种形式。子采样可以看作一种特殊的卷积过程。卷积和子采样大大简化了神经网络的复杂度，减少了神经网络的参数。

具体地，服务器可将目标文档输入至表格定位模型中，通过表格定位模型确定目标文档中的表格内容，并输出该表格内容所在区域的坐标信息。这样，计算机设备就可确定目标文档中的表格内容所在的表格区域。

在一些实施例中，该表格定位模型的训练步骤具体包括：获取文档格式为PDF格式的样本文档；确定与样本文档相应的样本表格区域；标记与样本表格区域相对应的样本坐标；将样本文档输入至表格定位模型，得到中间定位结果；按照中间定位结果与样本坐标的差异，调整表格定位模型的模型参数并继续训练，直至满足训练停止条件时结束训练。

具体地，在训练表格定位模型的过程中，可预先获取文档格式为PDF格式的样本文档。通过人为或自动标注的方式确定样本文档中的样本表格区域。比如，用户可通过终端浏览样本文档，并通过输入装置选中样本文档中的样本表格区域。终端可将标注了样本表格区域的样本文档发送至服务器。服务器根据标注的样本表格区域，确定与该样本表格区域相对应的样本坐标。比如，定位该样本表格区域的左上角和右下角的坐标，将左上角和右下角的坐标作为样本坐标。

进一步地，服务器可将样本文档输入至表格定位模型，得到中间定位结果，并按照中间定位结果与样本坐标的差异，调整表格定位模型的模型参数并继续训练，直至满足训练停止条件时结束训练。

其中，中间定位结果是在训练过程中，向表格定位模型输入样本文档后，由该表格定位模型所输出的结果。训练停止条件是结束模型训练的条件。训练停止条件可以是达到预设的迭代次数，或者是调整模型参数后的表格定位模型的输出性能指标达到预设指标。

在一些实施例中，计算机设备可比较中间定位结果与样本坐标的差异，从而朝减少差异的方向，调整表格定位模型的模型参数。如果调整模型参数后，不满足训练停止条件，则返回将样本文档输入至表格定位模型，得到中间定位结果的步骤并继续训练，直到满足训练停止条件时结束训练。

在一些实施例中，调整表格定位模型的模型参数可以是局部调整表格定位模型的模型参数。具体可保持部分模型参数不变，对另一部分模型参数做调整。

上述实施例中，通过样本文档和样本文档中样本表格区域的样本坐标来训练表格定位模型，可使得表格定位模型习得定位表格区域的能力。在模型的训练过程中，通过调整模型参数，就可以尽快地训练出对PDF文档中的表格进行准确定位的模型，提高了训练效率。

在一些实施例中，该表格识别方法还包括文档转换的步骤，该步骤具体包括：确定目标文档中的多个文档页面；分别将各文档页面转换成相应的图片对象；将图片对象按预设尺寸进行图像缩放处理，得到标准图片对象。步骤S204具体包括：分别将标准图片对象输入至预训练的表格定位模型中，通过表格定位模型确定各标准图片对象中的表格内容所在的表格区域。

在一些实施例中，服务器可识别目标文档中的多个文档页面，按页码将目标文档转换成相应的多个图片对象。对各图片对象进行图像缩放处理，得到标准格式的标准图片对象。再将标准图片对象输入至预训练的表格定位模型中，通过表格定位模型确定各标准图片对象中的表格内容所在的表格区域。

在一些实施例中，执行对目标文档进行准换的服务器可以是执行对表格图片进行识别的服务器，也可以是其他的服务器。当对目标文档进行准换的服务器与对表格图片进行识别的服务器不同时，这两者之间可以通过接口进行数据传输。

上述实施例中，将目标文档按页码转换成多个图片对象，并进行图像缩放处理后输入至表格定位模型中，可同时并行对目标文档中的多个页面进行处理，大大提高了处理效率。

S206，从目标文档中裁剪出处于表格区域内的表格内容，并依据表格内容生成相应的表格图片。

具体地，服务器在确定了表格区域后，可直接从目标文档中裁剪出处于表格区域内的表格内容，或者从目标文档中提取出表格内容。服务器根据表格内容生成相应的表格图片。

S208，对表格图片进行图像识别，确定表格图片中的字符、及字符的位置信息。

具体地，服务器可通过OCR(Optical Character Recognition，光学字符识别)技术或其他的图像识别技术识别表格图片中的字符。服务器还可通过边缘检测技术确定字符在表格图片中的相对位置信息。比如，服务器可依据表格图片建立坐标系，根据字符周围的四个点确定字符所在的矩形框，以矩形框的中间位置坐标作为该字符的位置信息；或者，取矩形框的左上和右下两个坐标点作为该字符的位置信息。

S210，根据字符和位置信息，按预设格式生成相应的表格文件。

其中，预设格式是预先设置的文件格式，比如doc(Document，文件，是一种文本格式)、xls(一种电子表格的格式)、和PPT(一种演示文稿的格式)等预设文档格式，或者是预设的网页格式等。表格文件具体可以是表格文档，还可以是网页文件等。

具体地，服务器在确定了表格图片中的字符、及该字符的位置信息后，可将字符、以及该字符在表格图片中的位置信息存储至数据库中，具体可以[字符：位置信息]这样的数据组来关联存储。服务器根据关联存储的数据组，按预设格式生成相应的表格文件。

上述表格识别方法，获取文档格式为PDF格式的目标文档，通过预训练的表格定位模型，可以快速准确地定位出目标文档中该表格内容所在的表格区域，再从目标文档中裁剪出处于表格区域内的表格内容，并依据表格内容生成相应的表格图片。再对表格图片进行图像识别，确定表格图片中的字符、及字符的位置信息，并根据字符和相应的位置信息，按预设格式生成相应的表格文件。这样，先从目标文档中定位表格区域并生成表格图片，再识别表格图片中的表格信息并生成相应的表格文件，从而实现了从PDF文档中准确地提取出表格数据。并且，当需查询或定位表格内容时，就可直接从生成的表格文件中进行相应的查询和定位，大大提高了PDF文档的处理效率。

在一些实施例中，步骤S206之后，也就是从目标文档中裁剪出处于表格区域内的表格内容，并依据表格内容生成相应的表格图片的步骤之后，该表格识别方法还包括对表格图片进行二值化处理的步骤，该步骤具体包括：

S302，将表格图片转换成灰度化的表格图片。

其中，二值化是将图片的像素进行二值化处理，具体是将表格图片中的像素点的灰度值设置为预设的两个灰度值，例如0或255，使得表格呈现出明显的黑和白的视觉效果，可以有效地过滤掉表格图片中的干扰因素。

具体地，服务器可将表格图片转换成灰度化的表格图片，也就是将表格图片中各像素的RGB(red、green、blue，红绿蓝)值转化为灰度值。将表格图像中各像素的RGB值转化为灰度值的方法具体可以是加权平均法、最大值法或平均值法等。举例说明，加权平均法是将表格图片中每个像素点的灰度值设为该像素点的RGB值的加权平均值，比如Gray(灰度值)＝0.30R+0.59G+0.11B。

S304，从灰度化的表格图片中，将检测为边缘点、且像素值小于阈值的像素点作为表格内容像素点并置为第一像素值。

其中，边缘点是表格图像中灰度值变化最明显的点。具体地，服务器可从灰度化的表格图片中，将检测为边缘点、且像素值小于阈值的像素点作为表格内容像素点。并将所有表格内容像素点的像素值置为第一像素值，第一像素值比如0。

在一些实施例中，服务器可采用Sobel operator(索贝尔算子)检测表格图片中的边缘点。其中，索贝尔算子算法在图像检测领域的使用已很成熟，在此不做赘述。

在一些实施例中，服务器可预先设置阈值。阈值的选取有多种方式，比如，服务器可扫描表格图片中的所有像素点，计算所有像素点的平均灰度值，将平均灰度值作为阈值。又或者，服务器可使用直方图方法来确定阈值，具体是绘制表格图片中像素点的像素值的直方图，查找直方图中的两个最高的峰，然后将两个峰之间的峰谷最低处的像素值作为阈值。当计算机设备设置合理的阈值后，可将检测为边缘点、且像素值小于阈值的像素点作为表格内容像素点，并将所有的内容像素点的像素值置为第一像素值；将除表格内容像素点外的其他像素点作为背景像素点并置为第二像素值。

S306，从灰度化的表格图片中，将除表格内容像素点外的其他像素点作为背景像素点并置为第二像素值。

具体地，服务器在确定了表格内容像素点后，可将灰度化的表格图片中，除表格内容像素点外的其他像素点作为背景像素点，并将所有背景像素点的像素值置为第二像素值。其中，第二像素值比如255。并且，第二像素值不同于第一像素值。

上述实施例中，将灰度化的表格图片转化为二值化的表格图片，并将表格内容像素点置为第一像素值，将背景像素点置为第二像素值，可以明确地通过第一像素值和第二像素值区分开表格图片中的表格内容和背景，有效地过滤掉表格图片中的干扰像素。

在一些实施例中，位置信息包括位置坐标。步骤S208，也就是对表格图片进行图像识别，确定表格图片中的字符、及字符的位置信息的步骤，包括：对表格图片进行图像识别，确定表格图片中的字符；定位识别到的字符，得到字符在表格图片中的位置坐标；位置坐标包括横坐标和纵坐标。步骤S210，也就是根据字符和位置信息，按预设格式生成相应的表格文件的步骤具体包括：依据各字符所对应的位置坐标，将横坐标匹配的字符聚类作为同一行的表格内容，将纵坐标匹配的字符聚类作为同一列的表格内容；根据同一行的表格内容和同一列的表格内容，按照预设格式生成相应的表格文件。

具体地，服务器可通过OCR识别技术识别表格图片中的字符。服务器可根据表格图片建立坐标系，遍历识别到的所有字符，确定各字符在表格图片中的横坐标和纵坐标。服务器将横坐标匹配的字符聚类作为同一行的表格内容，将纵坐标匹配的字符聚类作为同一列的表格内容。其中，横/纵坐标匹配是指横/纵坐标相同或在预设误差范围内相近。进一步地，服务器可根据同一行的表格内容和同一列的表格内容，按照预设格式生成相应的表格文件。

在一些实施例中，根据同一行的表格内容和同一列的表格内容所生成的表格文件中仅对齐了表格中行列的数据。服务器可依据各行和各列的表格内容自动生成相应的表格线，或者直接生成无表格线的表格文件。

上述实施例中，根据表格图片中的字符、以及字符的横坐标和纵坐标，将横坐标匹配的字符聚类作为同一行的表格内容，将纵坐标匹配的字符聚类作为同一列的表格内容，从而可以快速准确地生成相应的表格文件。

在一些实施例中，位置信息包括字符所在的单元格。步骤S208，也就是对表格图片进行图像识别，确定表格图片中的字符、及字符的位置信息的步骤包括：定位表格图片中的表格线；确定由表格线交叉所形成的多个单元格、以及各单元格中的字符。步骤S210，也就是根据字符和位置信息，按预设格式生成相应的表格文件的步骤包括：根据表格线、以及处于由表格线所形成的单元格中的字符，按照预设格式生成相应的表格文件。

具体地，服务器可对表格图片进行图像检测，提取出表格图片中的横线和竖线。在一些实施例中，服务器可设置长度阈值，将达到长度阈值的横线和竖线作为表格线。再根据表格线的坐标，确定表格线交叉所形成的多个单元格。识别各单元格中的字符。进而，服务器可根据表格线、以及处于由表格线所形成的单元格中的字符，按照预设格式生成相应的表格文件。

上述实施例中，定位表格线，并确定由表格线交叉所形成的多个单元格、以及各单元格中的字符，从而可以准确地还原出表格图片中的表格。

在一些实施例中，步骤S210，也就是根据字符和位置信息，按预设格式生成相应的表格文件的步骤具体包括：将字符在表格图片中的位置信息，转换成与展示页面相匹配的位置坐标；根据字符和相应的位置坐标，按预设格式生成相应的表格文件；通过终端展示展示页面，并在展示页面中展示表格文件。

具体地，服务器在确定了表格图片中的字符和字符的位置信息后，可关联存储相应的字符和位置信息。服务器获取终端所展示的展示页面的尺寸规则，依据该尺寸规则将字符在表格图片中的位置信息，转换成与展示页面相匹配的位置坐标。再根据字符和相应的位置坐标，按预设格式生成相应的表格文件。通过终端展示展示页面，并在展示页面中展示该表格文件。

上述实施例中，通过将表格图片中的位置信息，转换成与展示页面相匹配的位置坐标后，依据字符和相应的位置坐标在展示页面上展示相应的表格内容时不会出现错落的情况，便于用户在展示页面上获取表格内容。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一些实施例中，如图4所示，提供了一种表格识别装置400，包括：获取模块401、确定模块402和生成模块403，其中：

获取模块401，用于获取文档格式为PDF格式的目标文档。

确定模块402，用于通过预训练的表格定位模型，确定目标文档中的表格内容所在的表格区域。

生成模块403，用于从目标文档中裁剪出处于表格区域内的表格内容，并依据表格内容生成相应的表格图片。

确定模块402还用于对表格图片进行图像识别，确定表格图片中的字符、及字符的位置信息。

生成模块403还用于根据字符和位置信息，按预设格式生成相应的表格文件。

在一些实施例中，该表格识别装置400还包括转换模块404和图像缩放处理模块405，其中：

确定模块402还用于确定目标文档中的多个文档页面。

转换模块404，用于分别将各文档页面转换成相应的图片对象。

图像缩放处理模块405，用于将图片对象按预设尺寸进行图像缩放处理，得到标准图片对象。

确定模块402还用于分别将标准图片对象输入至预训练的表格定位模型中，通过表格定位模型确定各标准图片对象中的表格内容所在的表格区域。

在一些实施例中，该表格识别装置400还包括设置模块406，其中：转换模块404还用于将表格图片转换成灰度化的表格图片。设置模块406，用于从灰度化的表格图片中，将检测为边缘点、且像素值小于阈值的像素点作为表格内容像素点并置为第一像素值；从灰度化的表格图片中，将除表格内容像素点外的其他像素点作为背景像素点并置为第二像素值。

在一些实施例中，位置信息包括位置坐标。确定模块402还用于对表格图片进行图像识别，确定表格图片中的字符；定位识别到的字符，得到字符在表格图片中的位置坐标；位置坐标包括横坐标和纵坐标。生成模块403还用于依据各字符所对应的位置坐标，将横坐标匹配的字符聚类作为同一行的表格内容，将纵坐标匹配的字符聚类作为同一列的表格内容；根据同一行的表格内容和同一列的表格内容，按照预设格式生成相应的表格文件。

在一些实施例中，位置信息包括字符所在的单元格。确定模块402还用于定位表格图片中的表格线；确定由表格线交叉所形成的多个单元格、以及各单元格中的字符。生成模块403还用于根据字符和位置信息，按预设格式生成相应的表格文件包括：根据表格线、以及处于由表格线所形成的单元格中的字符，按照预设格式生成相应的表格文件。

在一些实施例中，生成模块403还用于将字符在表格图片中的位置信息，转换成与展示页面相匹配的位置坐标；根据字符和相应的位置坐标，按预设格式生成相应的表格文件；通过终端展示展示页面，并在展示页面中展示表格文件。

参考图5，在一些实施例中，该表格识别装置400还包括模型训练模块407，其中：模型训练模块407用于获取文档格式为PDF格式的样本文档；确定与样本文档相应的样本表格区域；标记与样本表格区域相对应的样本坐标；将样本文档输入至表格定位模型，得到中间定位结果；按照中间定位结果与样本坐标的差异，调整表格定位模型的模型参数并继续训练，直至满足训练停止条件时结束训练。

上述表格识别装置，获取文档格式为PDF格式的目标文档，通过预训练的表格定位模型，可以快速准确地定位出目标文档中该表格内容所在的表格区域，再从目标文档中裁剪出处于表格区域内的表格内容，并依据表格内容生成相应的表格图片。再对表格图片进行图像识别，确定表格图片中的字符、及字符的位置信息，并根据字符和相应的位置信息，按预设格式生成相应的表格文件。这样，先从目标文档中定位表格区域并生成表格图片，再识别表格图片中的表格信息并生成相应的表格文件，从而实现了从PDF文档中准确地提取出表格数据。并且，当需查询或定位表格内容时，就可直接从生成的表格文件中进行相应的查询和定位，大大提高了PDF文档的处理效率。

关于表格识别装置的具体限定可以参见上文中对于表格识别方法的限定，在此不再赘述。上述表格识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种表格识别方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一些实施例中，提供了一种计算机设备，包括存储器及一个或多个处理器，存储器中储存有计算机可读指令，计算机可读指令被所述一个或多个处理器执行时，使得一个或多个处理器执行上述表格识别方法的步骤。此处表格识别方法的步骤可以是上述各个实施例的表格识别方法中的步骤。

在一些实施例中，提供了一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述表格识别方法的步骤。此处表格识别方法的步骤可以是上述各个实施例的表格识别方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种表格识别方法，所述方法包括：

获取文档格式为PDF格式的目标文档；

通过预训练的表格定位模型，确定所述目标文档中的表格内容所在的表格区域；

从所述目标文档中裁剪出处于所述表格区域内的表格内容，并依据所述表格内容生成相应的表格图片；

对所述表格图片进行图像识别，确定所述表格图片中的字符、及所述字符的位置信息；及

根据所述字符和所述位置信息，按预设格式生成相应的表格文件。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述目标文档中的多个文档页面；

分别将各文档页面转换成相应的图片对象；及

将所述图片对象按预设尺寸进行图像缩放处理，得到标准图片对象；

所述通过预训练的表格定位模型，确定所述目标文档中的表格内容所在的表格区域，包括：

分别将所述标准图片对象输入至预训练的表格定位模型中，通过所述表格定位模型确定各标准图片对象中的表格内容所在的表格区域。
根据权利要求1所述的方法，其特征在于，所述从所述目标文档中裁剪出处于所述表格区域内的表格内容，并依据所述表格内容生成相应的表格图片的步骤之后，所述方法还包括：

将所述表格图片转换成灰度化的表格图片；

从灰度化的表格图片中，将检测为边缘点、且像素值小于阈值的像素点作为表格内容像素点并置为第一像素值；及

从灰度化的表格图片中，将除所述表格内容像素点外的其他像素点作为背景像素点并置为第二像素值。
根据权利要求1所述的方法，其特征在于，所述位置信息包括位置坐标；所述对所述表格图片进行图像识别，确定所述表格图片中的字符、及所述字符的位置信息，包括：

对所述表格图片进行图像识别，确定所述表格图片中的字符；及

定位识别到的所述字符，得到所述字符在所述表格图片中的位置坐标；所述位置坐标包括横坐标和纵坐标；

所述根据所述字符和所述位置信息，按预设格式生成相应的表格文件包括：

依据各字符所对应的位置坐标，将横坐标匹配的字符聚类作为同一行的表格内容，将纵坐标匹配的字符聚类作为同一列的表格内容；及

根据所述同一行的表格内容和所述同一列的表格内容，按照预设格式生成相应的表格文件。
根据权利要求1所述的方法，其特征在于，所述位置信息包括字符所在的单元格；所述对所述表格图片进行图像识别，确定所述表格图片中的字符、及所述字符的位置信息，包括：

定位所述表格图片中的表格线；及

确定由所述表格线交叉所形成的多个单元格、以及各单元格中的字符；

所述根据所述字符和所述位置信息，按预设格式生成相应的表格文件包括：

根据所述表格线、以及处于由所述表格线所形成的单元格中的字符，按照预设格式生成相应的表格文件。
根据权利要求1所述的方法，其特征在于，所述根据所述字符和所述位置信息，按预设格式生成相应的表格文件，包括：

将所述字符在所述表格图片中的位置信息，转换成与展示页面相匹配的位置坐标；

根据所述字符和相应的位置坐标，按预设格式生成相应的表格文件；及

通过终端展示所述展示页面，并在所述展示页面中展示所述表格文件。
根据权利要求1至6中任一项所述的方法，其特征在于，所述表格定位模型的训练步骤包括：

获取文档格式为PDF格式的样本文档；

确定与所述样本文档相应的样本表格区域；

标记与所述样本表格区域相对应的样本坐标；

将所述样本文档输入至表格定位模型，得到中间定位结果；及

按照所述中间定位结果与所述样本坐标的差异，调整所述表格定位模型的模型参数并继续训练，直至满足训练停止条件时结束训练。
一种表格识别装置，其特征在于，所述装置包括：

获取模块，用于获取文档格式为PDF格式的目标文档；

确定模块，用于通过预训练的表格定位模型，确定所述目标文档中的表格内容所在的表格区域；

生成模块，用于从所述目标文档中裁剪出处于所述表格区域内的表格内容，并依据所述表格内容生成相应的表格图片；

所述确定模块还用于对所述表格图片进行图像识别，确定所述表格图片中的字符、及所述字符的位置信息；及

所述生成模块还用于根据所述字符和所述位置信息，按预设格式生成相应的表格文件。
根据权利要求8所述的装置，其特征在于，所述装置还包括：

所述确定模块还用于确定所述目标文档中的多个文档页面；

转换模块，用于分别将各文档页面转换成相应的图片对象；

图像缩放处理模块，用于将所述图片对象按预设尺寸进行图像缩放处理，得到标准图片对象；及

所述确定模块还用于分别将所述标准图片对象输入至预训练的表格定位模型中，通过所述表格定位模型确定各标准图片对象中的表格内容所在的表格区域。
根据权利要求8所述的装置，其特征在于，所述位置信息包括位置坐标；所述确定模块还用于对所述表格图片进行图像识别，确定所述表格图片中的字符；定位识别到的所述字符，得到所述字符在所述表格图片中的位置坐标；及所述位置坐标包括横坐标和纵坐标；所述生成模块还用于依据各字符所对应的位置坐标，将横坐标匹配的字符聚类作为同一行的表格内容，将纵坐标匹配的字符聚类作为同一列的表格内容；及根据所述同一行的表格内容和所述同一列的表格内容，按照预设格式生成相应的表格文件。
根据权利要求8所述的装置，其特征在于，所述位置信息包括字符所在的单元格；所述确定模块还用于定位所述表格图片中的表格线；及确定由所述表格线交叉所形成的多个单元格、以及各单元格中的字符；所述生成模块还用于根据所述表格线、以及处于由所述表格线所形成的单元格中的字符，按照预设格式生成相应的表格文件。
根据权利要求8所述的装置，其特征在于，所述生成模块还用于将所述字符在所述表格图片中的位置信息，转换成与展示页面相匹配的位置坐标；根据所述字符和相应的位置坐标，按预设格式生成相应的表格文件；及通过终端展示所述展示页面，并在所述展示页面中展示所述表格文件。
一种计算机设备，包括存储器及一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取文档格式为PDF格式的目标文档；

通过预训练的表格定位模型，确定所述目标文档中的表格内容所在的表格区域；

从所述目标文档中裁剪出处于所述表格区域内的表格内容，并依据所述表格内容生成相应的表格图片；

对所述表格图片进行图像识别，确定所述表格图片中的字符、及所述字符的位置信息；及

根据所述字符和所述位置信息，按预设格式生成相应的表格文件。
根据权利要求13所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

对所述表格图片进行图像识别，确定所述表格图片中的字符；

定位识别到的所述字符，得到所述字符在所述表格图片中的位置坐标；所述位置坐标包括横坐标和纵坐标；

依据各字符所对应的位置坐标，将横坐标匹配的字符聚类作为同一行的表格内容，将纵坐标匹配的字符聚类作为同一列的表格内容；及

根据所述同一行的表格内容和所述同一列的表格内容，按照预设格式生成相应的表格文件。
根据权利要求13所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

定位所述表格图片中的表格线；

确定由所述表格线交叉所形成的多个单元格、以及各单元格中的字符；及

根据所述表格线、以及处于由所述表格线所形成的单元格中的字符，按照预设格式生成相应的表格文件。
根据权利要求13所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

将所述字符在所述表格图片中的位置信息，转换成与展示页面相匹配的位置坐标；

根据所述字符和相应的位置坐标，按预设格式生成相应的表格文件；及

通过终端展示所述展示页面，并在所述展示页面中展示所述表格文件。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取文档格式为PDF格式的目标文档；

通过预训练的表格定位模型，确定所述目标文档中的表格内容所在的表格区域；

从所述目标文档中裁剪出处于所述表格区域内的表格内容，并依据所述表格内容生成相应的表格图片；

对所述表格图片进行图像识别，确定所述表格图片中的字符、及所述字符的位置信息；及

根据所述字符和所述位置信息，按预设格式生成相应的表格文件。
根据权利要求17所述的介质，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

对所述表格图片进行图像识别，确定所述表格图片中的字符；

定位识别到的所述字符，得到所述字符在所述表格图片中的位置坐标；所述位置坐标包括横坐标和纵坐标；

依据各字符所对应的位置坐标，将横坐标匹配的字符聚类作为同一行的表格内容，将纵坐标匹配的字符聚类作为同一列的表格内容；及

根据所述同一行的表格内容和所述同一列的表格内容，按照预设格式生成相应的表格文件。
根据权利要求17所述的介质，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

定位所述表格图片中的表格线；

确定由所述表格线交叉所形成的多个单元格、以及各单元格中的字符；及

根据所述表格线、以及处于由所述表格线所形成的单元格中的字符，按照预设格式生成相应的表格文件。
根据权利要求17所述的介质，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

将所述字符在所述表格图片中的位置信息，转换成与展示页面相匹配的位置坐标；

根据所述字符和相应的位置坐标，按预设格式生成相应的表格文件；及

通过终端展示所述展示页面，并在所述展示页面中展示所述表格文件。