WO2022105297A1

WO2022105297A1 - 表格结构的还原方法、系统、计算机设备及存储介质

Info

Publication number: WO2022105297A1
Application number: PCT/CN2021/109491
Authority: WO
Inventors: 王文浩; 徐国强
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2020-11-17
Filing date: 2021-07-30
Publication date: 2022-05-27
Also published as: CN112381010A

Abstract

一种表格结构的还原方法，构建待识别表格中各表格节点的节点特征，调用预设的表格识别模型，以供表格识别模型根据节点特征输出各表格节点相互之间的节点关系，其中，表格识别模型预先基于图卷积网络训练得到，表格识别模型可存储在区块链中；针对节点关系进行后处理以还原待识别表格的表格结构；其中表格识别模型可存储在区块链中。本申请涉及人工智能技术领域，其可在不依赖图像质量的情况下对表格结构进行准确地还原恢复。此外，还公开了实现方法的表格结构的还原系统，计算机设备及计算机存储介质。

Description

表格结构的还原方法、系统、计算机设备及存储介质

本申请要求于2020年11月17日提交中国专利局、申请号为CN202011290469.5、名称为“表格结构的还原方法、系统、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种表格结构的还原方法、系统、计算机设备以及计算机存储介质。

背景技术

表作为结构化数据的一种形式，既简单又标准化。表数据因为结构清晰的特点使得用户可以快速理解，从而财务数据、统计数据等数字信息，通常都是以表格的形式呈现，尤其是表格数据作为财务数据中的关键信息，在财务数据处理过程中越来越受到财务人员的重视。而尽管表数据提取是各种领域中已经司空见惯的处理操作，但是基于人工手动来提取出表格中的数据信息通常是一个冗长而耗时的过程。因此，各领域需要能够自动完成表格数据的提取方法来替换手动操作。

现有产品中，大都是通过图像识别的方法进行表格结构还原，发明人意识到该方法高度依赖对表格中线条的检测识别，从而，当表格图像的背景相对复杂或表格中线条打印断断续续、模糊不清时，表格结构还原的准确率将会大打折扣。同时，对于无框线的表格，还需要通过一些其他方法估计出线条的位置，然后再进行表格结构还原。因此。现有进行表格结构还原的方法，表格结构还原效果取决于图像质量，当图像质量不高时，表格结构还原效果相对较差。

综上，现有的方法难以在不依赖图像质量的情况下对表格结构进行准确地还原恢复。

发明内容

本申请实施例提供一种表格结构的还原方法，所述表格结构的还原方法包括：

构建待识别表格中各表格节点的节点特征；

调用预设的表格识别模型，以供所述表格识别模型根据所述节点特征输出各所述表格节点相互之间的节点关系，其中，所述表格识别模型预先基于图卷积网络训练得到；

针对所述节点关系进行后处理以还原所述待识别表格的表格结构。

本申请还提供一种表格结构的还原系统，所述表格结构的还原系统包括：

构建模块，用于构建待识别表格中各表格节点的节点特征；

识别模块，用于调用预设的表格识别模型，以供所述表格识别模型根据所述节点特征输出各所述表格节点相互之间的节点关系，其中，所述表格识别模型预先基于图卷积网络训练得到；

还原模块，用于针对所述节点关系进行后处理以还原所述待识别表格的表格结构。

本申请还提供一种计算机设备，所述计算机设备包括：存储器、处理器，通信总线以及存储在所述存储器上的表格结构的还原程序，

所述通信总线用于实现处理器与存储器间的通信连接；

所述处理器用于执行所述表格结构的还原程序，以实现以下步骤：

构建待识别表格中各表格节点的节点特征；

本申请还提供一种计算机存储介质，所述计算机存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序可被一个或者一个以上的处理器执行以用于：

构建待识别表格中各表格节点的节点特征；

附图说明

图1为本申请实施例方法涉及的计算机设备硬件运行环境的结构示意图；

图2为本申请表格结构的还原方法一实施例的流程示意图；

图3为本申请表格结构的还原方法一实施例所涉及的应用场景示意图；

图4本申请表格结构的还原系统的功能模块示意图。

本申请目的的实现、功能特点及优点将整合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例的主要解决方案是：通过构建待识别表格中各表格节点的节点特征；调用预设的表格识别模型，以供所述表格识别模型根据所述节点特征输出各所述表格节点相互之间的节点关系，其中，所述表格识别模型预先基于图卷积网络训练得到；针对所述节点关系进行后处理以还原所述待识别表格的表格结构。

由于表作为结构化数据的一种形式，既简单又标准化。表数据因为结构清晰的特点使得用户可以快速理解，从而财务数据、统计数据等数字信息，通常都是以表格的形式呈现，尤其是表格数据作为财务数据中的关键信息，在财务数据处理过程中越来越受到财务人员的重视。而尽管表数据提取是各种领域中已经司空见惯的处理操作，但是基于人工手动来提取出表格中的数据信息通常是一个冗长而耗时的过程。因此，各领域需要能够自动完成表格数据的提取方法来替换手动操作。

现有产品中，大都是通过图像识别的方法进行表格结构还原，但该方法高度依赖对表格中线条的检测识别，从而，当表格图像的背景相对复杂或表格中线条打印断断续续、模糊不清时，表格结构还原的准确率将会大打折扣。同时，对于无框线的表格，还需要通过一些其他方法估计出线条的位置，然后再进行表格结构还原。因此。现有进行表格结构还原的方法，表格结构还原效果取决于图像质量，当图像质量不高时，表格结构还原效果相对较差。

本申请提供的解决方案，在需要还原表数据表格结构的过程中，将表数据作为待识别表格并构建该待识别表格当中，各个表格节点各自的节点特征，然后，调用预先基于图卷积网络训练得到的表格识别模型，以将该各个表格节点各自的节点特征作为输入，供表格识别模型根据该节点特征预测并输出该待识别表格中各个表格节点相互之间的节点关系，最后，针对该各个表格节点相互之间的节点关系进行后处理操作从而还原出待识别表格的表格结构。

本申请实现了，基于图卷积网络训练得到的表格识别模型根据待识别表格的节点特征预测并输出节点关系，然后针对该节点关系进行后处理操作从而还原得到待识别表格的表格结构。从而，无需表格数据的图像具有较高质量即可自动识别出表格结构并进行还原，解除了识别和还原表格结构对于图像质量的依赖，提高了表格结构的识别准确性和表格还原效率。

如图1所示，图1是本申请实施例方案涉及的计算机设备硬件运行环境的设备结构示意图。

本申请实施例计算机设备可以是PC、智能手机、平板电脑和便携计算机等终端设备。

如图1所示，该计算机设备可以包括：处理器1001，例如CPU，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，该计算机设备还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在设备移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别设备姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的设备结构并不构成对计算机设备的限定，在其它实施方式当中，计算机设备还可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及表格结构的还原程序。

在图1所示的计算机设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的表格结构的还原程序，并执行以下步骤：

构建待识别表格中各表格节点的节点特征；

进一步地，所述图卷积网络包括但不限于两层图卷积网络，处理器1001可以用于调用存储器1005中存储的表格结构的还原程序，在执行调用预设的表格识别模型，以供所述表格识别模型根据所述节点特征输出各所述表格节点相互之间的节点关系的步骤之前，还执行以下步骤：

构建训练数据并利用所述训练数据针对两层图卷积网络进行训练以得到预设的表格识别模型。

进一步地，所述训练数据包括训练样本表格和训练测试表格，处理器1001可以用于调用存储器1005中存储的表格结构的还原程序，还执行以下步骤：

获取公开表格数据并针对所述公开表格数据进行预处理以构建得到所述训练样本表格和所述训练测试表格；

构建所述训练样本表格中各表格节点的第一节点特征，并将所述第一节点特征输入两层图卷积网络进行训练得到待确认表格识别模型；

构建所述训练测试表格中各表格节点的第二节点特征，并将所述第二节点特征输入所述待确认表格识别模型，以针对所述待确认表格识别模型进行测试并确定测试结果；

若所述测试结果符合预设的模型识别条件，则将所述待确认表格识别模型作为训练完成的表格识别模型。

进一步地，处理器1001可以用于调用存储器1005中存储的表格结构的还原程序，在执行构建所述训练测试表格中各表格节点的第二节点特征，并将所述第二节点特征输入所述待确认表格识别模型，以针对所述待确认表格识别模型进行测试并确定测试结果的步骤之后，还执行以下步骤：

若所述测试结果不符合预设的模型识别条件，则构建新的训练样本表格对所述两层图卷积网络重新进行训练。

进一步地，处理器1001可以用于调用存储器1005中存储的表格结构的还原程序，还执行以下步骤：

建立所述待识别表格中各所述表格节点的单元格特征；

分别提取各所述表格节点各自邻近表格节点的单元格特征形成单元格特征集；

针对所述单元格特征集进行聚合运算以得到各所述表格节点各自的节点特征。

进一步地，所述表格识别模型存储于区块链中，所述节点关系包括但不限于水平、垂直和不相关，处理器1001可以用于调用存储器1005中存储的表格结构的还原程序，还执行以下步骤：

从所述区块链中提取所述表格识别模型；

将所述待识别表格中各所述表格节点各自的所述节点特征输入所述表格识别模型，以供所述表格识别模型基于所述节点特征进行训练计算后，输出各所述表格节点相互两个表格节点之间水平、垂直或者不相关的节点关系。

利用预设的极大团算法针对所述节点关系进行后处理以还原所述待识别表格的表格结构得到完整的表格。

本申请表格结构的还原方法所涉及计算机设备的具体实施例与下述表格结构的还原方法的各具体实施例基本相同，在此不作赘述，此外，为便于表述，后文中均以终端设备替代计算机设备进行阐述。

本申请提供一种表格结构的还原方法。

请参照图2，图2为本申请表格结构的还原方法第一实施例的流程示意图，在本实施例中，该表格结构的还原方法包括：

步骤S100，构建待识别表格中各表格节点的节点特征；

终端设备在针对表格数据进行表格结构的过程中，将表格数据作为待识别表格并针对该待识别表格中的各个表格节点，依次构建该各个表格节点各自的节点特征。

需要说明的是，在本实施例中，待识别表格为终端设备所接收到的任意需要进行表格结构识别和/或者还原的表格数据，例如企业财务表格数据、企业人事统计表格数据等，应当理解的是，基于实际应用的不同设计需要，在其他可行的实时方式当中，该待识别表格当然也可以是不同于此处所列举的其它类型表格数据，本申请表格结构的还原方法，并不针对该待识别表格的表格数据类型进行具体限定。

此外，在本实施例中，待识别表格中的各个表格节点具体可以为该待识别表格中的各个单元格，应当理解的是，基于实际应用的不同设计需要，在其他可行的实时方式当中，当然也可以使用待识别表格中不同于此处所说单元格的其它元素作为表格节点，同样的，本申请表格结构的还原方法，也不针对表格节点在待识别表格的元素类型进行具体限定。

进一步地，在一种可行的实施例中，步骤S100，可以包括：

步骤S101，建立所述待识别表格中各所述表格节点的单元格特征；

需要说明的是，在本实施例中，各个表格节点的单元格特征包括但不限于：单元格坐标、单元格尺寸以及单元格文本类型的频率，具体地，例如，该单元格坐标具体可以为待识别表格中，各个表格节点(即单元格)的文字框位置左上角的横纵坐标、单元格的文字框位置右下角的横纵坐标以及单元格的文字框中心位置的坐标，该单元格尺寸具体可以为待识别表格中，各个单元格的文字框的宽高，该单元格文本类型的频率具体可以为待识别表格中，各个单元格中文本类型为数字的频率、文本类型为字母的频率、文本类型为空格的频率或者文本为其他类型数值的频率。

终端设备针对待识别表格中的各个表格节点，依次识别提取出各个表格节点的单元格坐标、单元格尺寸以及单元格文本类型的频率，然后整合每一个表格节点的单元格坐标、单元格尺寸以及单元格文本类型的频率作为该表格节点的单元格特征，进而建立得到该待识别表格中全部表格节点各自的单元格特征。

具体地，例如，终端设备通过现有成熟的OCR(Optical Character Recognition，光学字符识别)技术针对包含有待识别表格的图片，从而识别提取得到该待识别表格中，每个表格节点(即单元格)：N_u_1、N_u_2、N_u_3...N_u_i(i为正整数)，各自单元格的文字框位置左上角的横纵坐标：(x1，y1)、文字框位置右下角的横纵坐标：(x2，y2)、文字框中心位置的坐标：(center_x，center_y)，文字框的宽高：(w，h)，以及该单元格中文本类型为数字的频率：num、单元格中文本类型为字母的频率：char、单元格中文本类型为空格的频率：space或者单元格中文本为其他类型数值的频率：other，然后，终端设备将属于同一个表格节点(即单元格)的该(x1，y1)、(x2，y2)、(center_x，center_y)，(w，h)和num、char、space、other等数据，整合在一起作为每一个表格节点(即单元格)的单元格特征：f(N_u_i)＝[x1，y1，x2，y2，w，h，center_x，center_y，num，char，space，other]。

步骤S102，分别提取各所述表格节点各自邻近表格节点的单元格特征形成单元格特征集；

终端设备在建立得到待识别表格中全部表格节点各自的单元格特征之后，分别针对每一个表格节点依次提取出该表格节点的各个邻近表格节点各自的单元格特征，并将该各个单元格特征组合成单元格特征集。

具体地，例如，终端设备在整合建立得到待识别表格中每一个表格节点(即单元格)各自的单元格特征之后，终端设备通过利用现有成熟的KNN(K-NearestNeighbor，最邻近节点算法)技术，依次针对每个表格节点(即单元格)N_u_i附近(距离单元格N_u_i最近)的其他几个邻近表格节点(邻近单元格，通常为3个、6个或者9个)，然后，终端设备将该表格节点(即单元格)N_u_i附近3个、6个或者9个邻近表格节点(邻近单元格)各自的单元格特征f(N_u_1)、f(N_u_2)、…、f(N_u_9)作为一个单元格特征集。

步骤S103，针对所述单元格特征集进行聚合运算以得到各所述表格节点各自的节点特征。

终端设备分别针对每一个表格节点对应的单元格特征集进行聚合运算，并将聚合运算的结果作为该表格节点的节点特征，从而，即构建得到该待识别表格中全部表格节点各自的节点特征。

具体地，例如，终端设备分别针对待识别表格中的每一个表格节点(即单元格)N_u_i对应的单元格特征集f(N_u_1)、f(N_u_2)、…、f(N_u_9)进行聚合运算，从而得到该表格节点(即单元格)N_u_i的节点特征f(N)。具体运算过程为：

f(N)＝Aggregate(f(N_u_1)，f(N_u_2)，…，f(N_u_9)，f(N))；

N_u＝Neighbor(N)。

需要说明的是，在本实施例中，Aggregate为现有成熟的一种聚合运算操作，Aggregate通常指：求和或者求平均。

步骤S200，调用预设的表格识别模型，以供所述表格识别模型根据所述节点特征输出各所述表格节点相互之间的节点关系，其中，所述表格识别模型预先基于图卷积网络训练得到；

终端设备在构建得到待识别表格中各个表格节点各自节点特征之后，终端设备调用预先已经基于图卷积网络训练得到的表格识别模型，并将该各个表格节点各自节点特征输入至该表格识别模型当中，从而令该表格识别模型基于该节点特征进行训练计算，以针对待识别表格中各个表格节点相互之间的节点关系进行预测，并输出预测得到的该节点关系。

需要说明的是，在本实施例中，终端设备所调用的表格识别模型可以为终端设备预先基于图卷积网络训练得到的表格识别模型之后，将该表格识别模型存储在预先创建好的区块链的某一个节点当中以供后续调用。

进一步地，在一种可行的实施例中，步骤S200，可以包括：

步骤S201，从所述区块链中提取所述表格识别模型；

步骤S202，将所述待识别表格中各所述表格节点各自的所述节点特征输入所述表格识别模型，以供所述表格识别模型基于所述节点特征进行训练计算后，输出各所述表格节点相互两个表格节点之间水平、垂直或者不相关的节点关系。

需要说明的是，在本实施例中，表格识别模型具体可以是预先基于堆叠有两个相同(GCNLNReLUGCNLN)结构的两层图卷积网络：GCNLNReLUGCNLN训练得到。

具体地，例如，请参照如图3所示的应用场景，终端设备在构建出待识别表格中每一个表格节点(即单元格)N_u_i的节点特征f(N)之后，终端设备从预先存储基于图卷积网络训练的表格识别模型的区块链节点中，提取出该表格识别模型，然后，终端设备将构建的每一个表格节点(即单元格)N_u_i的节点特征f(N)，输入到提取的堆叠有两个相同(GCNLNReLUGCNLN)结构的表格识别模型当中，从而由该堆叠有两个相同(GCNLNReLUGCNLN)结构的先将节点特征f(N)经过第一个(GCNLNReLUGCNLN)结构计算后的输出特征，与将节点特征f(N)经过第二个(GCNLNReLUGCNLN)结构的输入特征直接相加形成一个残差连接，从而以将任意两个表格节点(即单元格)N_u_i的节点特征f(N)进行合并来预测两个表格节点(即单元格)N_u_i之间边的水平、垂直或者不相关的节点关系，并输出“水平”节点关系对应的标签“0”、“垂直”节点关系对应的标签“1”或者“不相关”节点关系对应的标签“2”。

在本实施例中，通过将预先基于图卷积网络训练得到的表格识别模型一区块链的节点中，如此，不仅能够确保该表格识别模型的稳定性，还能够确保终端设备在提取该表格识别模型时的响应积极性和准确性，进一步提升了基于图卷积网络训练表格识别模型针对待识别表格进行表格结构识别和还原的效率。

步骤S300，针对所述节点关系进行后处理以还原所述待识别表格的表格结构。

终端设备在基于调用预先训练得到的表格识别模型，根据待识别表格中各个表格节点的节点特征，训练预测并输出该待识别表格中各个表格节点相互之间的节点关系之后，终端设备进一步针对该节点关系进行后处理从而基于该待识别表格中相互两个表格节点之间的节点关系，整理形成一个完整的表格。

进一步地，在一种可行的实施例中，步骤S300，可以包括：

步骤S301，利用预设的极大团算法针对所述节点关系进行后处理以还原所述待识别表格的表格结构得到完整的表格。

需要说明的是，在本实施例中，极大团算法具体可以为图论中成熟的极大团算法，应当理解的是，基于实际应用的不同设计需要，在其它可行的实时方式当中，终端设备当然也可以采用其它不同于本实施例中的极大团算法来针对待识别表格中各个表格节点之间的节点关系进行后处理操作，本申请表格结构的还原方法，并不针对终端设针对节点关系进行后处理操作时所使用的算法等进行具体地限定。

具体地，例如，终端设备在基于表格识别模型根据待识别表格中任意两个表格节点(即单元格)N_u_i的节点特征f(N)进行合并来预测得到两个表格节点(即单元格)N_u_i之间边的水平、垂直或者不相关的节点关系，并输出“水平”节点关系对应的标签“0”、“垂直”节点关系对应的标签“1”或者“不相关”节点关系对应的标签“2”，从而确定出该待识别表格中全部表格节点(即单元格)N_u_i相互之间的节点关系之后，终端设备进一步利用图论中成熟的极大团算法，根据该待识别表格中全部表格节点(即单元格)N_u_i相互之间的节点关系，计算出全部表格节点(即单元格)N_u_i间的行极大团与列极大团，再根据每组极大团在表格中的位置信息，对极大团排序，从而还原出表格原逻辑结构。

在本实施例中，通过终端设备在针对表格数据进行表格结构的过程中，将表格数据作为待识别表格并针对该待识别表格中的各个表格节点，依次构建该各个表格节点各自的节点特征；终端设备在构建得到待识别表格中各个表格节点各自节点特征之后，终端设备调用预先已经基于图卷积网络训练得到的表格识别模型，并将该各个表格节点各自节点特征输入至该表格识别模型当中，从而令该表格识别模型基于该节点特征进行训练计算，以针对待识别表格中各个表格节点相互之间的节点关系进行预测，并输出预测得到的该节点关系；终端设备在基于调用预先训练得到的表格识别模型，根据待识别表格中各个表格节点的节点特征，训练预测并输出该待识别表格中各个表格节点相互之间的节点关系之后，终端设备进一步针对该节点关系进行后处理从而基于该待识别表格中相互两个表格节点之间的节点关系，整理形成一个完整的表格。

本申请实现了，在需要还原表数据表格结构的过程中，基于图卷积网络训练得到的表格识别模型根据待识别表格的节点特征预测并输出节点关系，然后针对该节点关系进行后处理操作从而还原得到待识别表格的表格结构。从而，无需表格数据的图像具有较高质量即可自动识别出表格结构并进行还原，解除了识别和还原表格结构对于图像质量的依赖，提高了表格结构的识别准确性和表格还原效率。

进一步地，基于上述本申请表格结构的还原方法的第一实施例，提出本申请表格结构的还原方法的第二实施例，在本申请表格结构的还原方法的第二实施例中，在上述步骤S200，调用预设的表格识别模型，以供所述表格识别模型根据所述节点特征输出各所述表格节点相互之间的节点关系之前，本申请表格结构的还原方法还可以包括：

步骤S400，构建训练数据并利用所述训练数据针对两层图卷积网络进行训练以得到预设的表格识别模型。

终端设备预先基于构建用于针对图卷积网络进行训练的训练数据，然后利用该训练数据来训练两层图卷积网络，从而将该两层图卷积网络训练成为用于针对待识别表格中相互两个表格节点之间节点关系进行预测识别的表格识别模型。

进一步地，在本实施例中，用于针对图卷积网络进行训练的训练数据包括但不限于：训练样本表格和训练测试表格，在一种可行的实施例中，步骤S400，可以包括：

步骤S401，获取公开表格数据并针对所述公开表格数据进行预处理以构建得到所述训练样本表格和所述训练测试表格；

终端设备从任意大数据平台中获取可正常共享的公开表格数据，然后针对该公开表格数据进行预处理，从而构建得到用于针对图卷积网络进行训练的训练样本表和训练测试表格。

需要说明的是，在本实施例中，公开表格数据具体可以为时下任意大数据平台上共享发布出来的公开数据集SciTSR，该公开数据集中包含有任意类型的表格数据。

具体地，例如，终端设备从任意大数据平台上，获取该大数据平台共享发布出来的公开数据集SciTSR，然后，终端设备从该公开数据集SciTSR提取出15000个任意类型的表格数据(即15000个表格)，并将该15000个表格数据中的12000个表格数据作为训练样本表格，而将，并将该15000个表格数据中的另外的3000个表格数据作为训练测试表格。

步骤S402，构建所述训练样本表格中各表格节点的第一节点特征，并将所述第一节点特征输入两层图卷积网络进行训练得到待确认表格识别模型；

终端设备针对构建得出的训练样本表格当中的每一个表格，均构建该表格中全部表格节点的第一节点特征，以及，构建该全部表格节点相互之间节点关系的标签，然后，终端设备将该每一个表格中全部表格节点的第一节点特征，和该全部表格节点相互之间节点关系的标签一起输入至两层图卷积网络进行训练直至训练完毕，最后，终端设备将该训练完的两层图卷积网络作为待确认表格识别模型。

需要说明的是，在本实施例中，终端设备针对构建得出的训练样本表格当中的每一个表格，均构建该表格中全部表格节点第一节点特征的过程，与上述终端设备构建待识别表格中各个表格节点的节点特征的过程相同，因此，此处不再针对终端设备针对构建得出的训练样本表格当中的每一个表格，均构建该表格中全部表格节点的第一节点特征进行赘述。

具体地，例如，终端设备在构建得到12000个训练样本表格各自全部表格节点的第一节点特征之后，定义该每一个表格中相互两个表格节点之间的“水平”的节点关系对应的标签为“0”、“垂直”的节点关系对应标签的为“1”以及“不相关”的节点关系对应的标签为“2”；然后，终端设备将构建的12000个训练样本表格各自全部表格节点的第一节点特征，连同该标签“0”、“1”和“2”一起输入到堆叠有两个相同(GCNLNReLUGCNLN)结构的两层图卷积网络：GCNLNReLUGCNLN中，从而由该两层图卷积网络：GCNLNReLUGCNLN，将节点特征经过第一个(GCNLNReLUGCNLN)结构计算后的输出特征，与第二个(GCNLNReLUGCNLN)结构的输入特征直接相加形成一个残差连接，以将任意两单元格的特征进行合并来预测两个单元格之间边的关系(水平/垂直/无关系)并输出对应的标签“0”、“1”和“2”，最后，该两层图卷积网络：GCNLNReLUGCNLN通过不断最小化预测关系与实际标注关系间的损失函数，来更新单元格特征进行训练，从而得到待确认表格识别模型。

步骤S403，构建所述训练测试表格中各表格节点的第二节点特征，并将所述第二节点特征输入所述待确认表格识别模型，以针对所述待确认表格识别模型进行测试并确定测试结果；

终端设备针对构建得出的训练测试表格当中的每一个表格，同样均构建该表格中全部表格节点的第二节点特征，然后，终端设备将该每一个表格中全部表格节点的第二节点特征，输入至针对两层图卷积网络进行训练后得到的待确认表格识别模型当中，以供该待确认表格识别模型基于该第一节点特征进行训练计算，以针对训练测试表格中各个表格节点相互之间的节点关系进行预测，并输出标识该节点关系的标签，最后，终端设备基于待确认表格识别模型输出的该标签与该训练测试表格中各个表格节点相互之间真实的节点关系进行对比从而确定测试结果。

需要说明的是，在本实施例中，终端设备针对构建得出的训练测试表格当中的每一个表格，均构建该表格中全部表格节点第二节点特征的过程，与上述终端设备构建待识别表格中各个表格节点的节点特征的过程相同，因此，此处不再针对终端设备针对构建得出的训练测试表格当中的每一个表格，均构建该表格中全部表格节点的第二节点特征进行赘述。

步骤S404，若所述测试结果符合预设的模型识别条件，则将所述待确认表格识别模型作为训练完成的表格识别模型。

需要说明的是，在本实施例中，测试结果具体可以为终端设备基于将待确认表格识别模型输出的该标签，与该训练测试表格中各个表格节点相互之间真实的节点关系进行对比，从而得到的待确认表格识别模型针对训练测试表格全部表格节点之间节点关系进行预测的准确率。此外，模型识别条件具体可以为，终端设备预先设定的标识表格识别模型准确预测得到待识别表格中两个表格节点之间节点关系的最低预测准确率。

终端设备在确定出待确认表格识别模型针对训练测试表格中，各表格节点之间节点关系进行预测的测试结果符合模型识别条件(待确认表格识别模型针对训练测试表格全部表格节点之间节点关系进行预测的准确率，大于或者等于终端设备预先设定的标识表格识别模型准确预测得到待识别表格中两个表格节点之间节点关系的最低预测准确率)时，终端设备即可将该待确认表格识别模型，作为用于针对待识别表格中相互两个表格节点之间节点关系进行预测识别的表格识别模型。

进一步地，在另一种可行的实施例中，在上述步骤S403，构建所述训练测试表格中各表格节点的第二节点特征，并将所述第二节点特征输入所述待确认表格识别模型，以针对所述待确认表格识别模型进行测试并确定测试结果之后，本申请表格结构的还原方法，还可以包括：

步骤S405，若所述测试结果不符合预设的模型识别条件，则构建新的训练样本表格对所述两层图卷积网络重新进行训练。

终端设备在确定出待确认表格识别模型针对训练测试表格中，各表格节点之间节点关系进行预测的测试结果不符合模型识别条件(待确认表格识别模型针对训练测试表格全部表格节点之间节点关系进行预测的准确率，小于终端设备预先设定的标识表格识别模型准确预测得到待识别表格中两个表格节点之间节点关系的最低预测准确率)时，终端设备即重新获取获取公开表格数据来构建新的训练样本表格以及新的训练测试表格，并构建新的训练样本表格中各表格节点的第一节点特征，以重新对两层图卷积网络进行训练得到新的待确认表格识别模型，再构建新的训练测试表格中各表格节点的第二节点特征，以针对新的待确认表格识别模型进行测试，如此循环直至针对待确认表格识别模型进行测试的测试结果符合模型识别条件。

需要说明是，在本实施例中，终端设备重新针对两层图卷积网络进行训练的过程，实质上与上述构建训练数据并利用训练数据针对两层图卷积网络进行训练的过程相同，因此，此处不再针对终端设备重新针对两层图卷积网络进行训练的过程进行赘述。

在本实施例中，通过终端设备预先基于构建用于针对图卷积网络进行训练的训练数据，然后利用该训练数据来训练两层图卷积网络，从而将该两层图卷积网络训练成为用于针对待识别表格中相互两个表格节点之间节点关系进行预测识别的表格识别模型。从而实现了，基于图卷积网络训练得到的表格识别模型根据待识别表格的节点特征预测并输出节点关系，然后针对该节点关系进行后处理操作从而还原得到待识别表格的表格结构。从而，无需表格数据的图像具有较高质量即可自动识别出表格结构并进行还原，解除了识别和还原表格结构对于图像质量的依赖，提高了表格结构的识别准确性和表格还原效率。

此外，本申请还提供了表格结构的还原系统，请参照图4，图4为本申请表格结构的还原系统的功能模块示意图，该表格结构的还原系统包括：

构建模块101，用于构建待识别表格中各表格节点的节点特征；

识别模块102，用于调用预设的表格识别模型，以供所述表格识别模型根据所述节点特征输出各所述表格节点相互之间的节点关系，其中，所述表格识别模型预先基于图卷积网络训练得到；

还原模块103，用于针对所述节点关系进行后处理以还原所述待识别表格的表格结构。

可选地，所述图卷积网络包括但不限于两层图卷积网络，本申请表格结构的还原系统，还包括：

模型训练模块，用于构建训练数据并利用所述训练数据针对两层图卷积网络进行训练以得到预设的表格识别模型。

可选地，所述训练数据包括训练样本表格和训练测试表格，所述模型训练模块，包括：

获取单元，用于获取公开表格数据并针对所述公开表格数据进行预处理以构建得到所述训练样本表格和所述训练测试表格；

第一构建单元，用于构建所述训练样本表格中各表格节点的第一节点特征，并将所述第一节点特征输入两层图卷积网络进行训练得到待确认表格识别模型；

第二构建单元，用于构建所述训练测试表格中各表格节点的第二节点特征，并将所述第二节点特征输入所述待确认表格识别模型，以针对所述待确认表格识别模型进行测试并确定测试结果；

确定单元，用于若所述测试结果符合预设的模型识别条件，则将所述待确认表格识别模型作为训练完成的表格识别模型。

可选地，所述模型训练模块，还包括：

重复训练单元，用于若所述测试结果不符合预设的模型识别条件，则构建新的训练样本表格对所述两层图卷积网络重新进行训练。

可选地，所述构建模块101，包括：

建立单元，用于建立所述待识别表格中各所述表格节点的单元格特征；

第一提取单元，用于分别提取各所述表格节点各自邻近表格节点的单元格特征形成单元格特征集；

聚合单元，用于针对所述单元格特征集进行聚合运算以得到各所述表格节点各自的节点特征。

可选地，所述表格识别模型存储于区块链中，所述节点关系包括但不限于水平、垂直和不相关，所述识别模块，包括：

第二提取单元，用于从所述区块链中提取所述表格识别模型；

结构识别单元，用于将所述待识别表格中各所述表格节点各自的所述节点特征输入所述表格识别模型，以供所述表格识别模型基于所述节点特征进行训练计算后，输出各所述表格节点相互两个表格节点之间水平、垂直或者不相关的节点关系。

可选地，所述还原模块103，还用于利用预设的极大团算法针对所述节点关系进行后处理以还原所述待识别表格的表格结构得到完整的表格。

本申请表格结构的还原系统的具体实施方式与上述表格结构的还原方法各实施例基本相同，在此不再赘述。

此外，本申请还提供了一种计算机存储介质，所述计算机存储介质可以是易失性的，也可以是非易失性的，该计算机存储介质存储有一个或者一个以上程序，该一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于：

构建待识别表格中各表格节点的节点特征；

此外，该一个或者一个以上程序还可被一个或者一个以上的处理器执行调用预设的表格识别模型，以供所述表格识别模型根据所述节点特征输出各所述表格节点相互之间的节点关系之前，还用于：

此外，所述训练数据包括训练样本表格和训练测试表格，该一个或者一个以上程序还可被一个或者一个以上的处理器执行还用于：

此外，该一个或者一个以上程序还可被一个或者一个以上的处理器执行构建所述训练测试表格中各表格节点的第二节点特征，并将所述第二节点特征输入所述待确认表格识别模型，以针对所述待确认表格识别模型进行测试并确定测试结果之后，还用于：

此外，所述表格识别模型存储于区块链中，所述节点关系包括但不限于水平、垂直和不相关，该一个或者一个以上程序还可被一个或者一个以上的处理器执行还用于：

从所述区块链中提取所述表格识别模型；

本申请计算机存储介质的具体实施方式与上述表格结构的还原方法各实施例基本相同，在此不再赘述。

需要说明的是，本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。此外，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的可选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种表格结构的还原方法，其中，所述表格结构的还原方法包括：

构建待识别表格中各表格节点的节点特征；

调用预设的表格识别模型，以供所述表格识别模型根据所述节点特征输出各所述表格节点相互之间的节点关系，其中，所述表格识别模型预先基于图卷积网络训练得到；

针对所述节点关系进行后处理以还原所述待识别表格的表格结构。
如权利要求1所述的表格结构的还原方法，其中，所述图卷积网络包括但不限于两层图卷积网络，在所述调用预设的表格识别模型，以供所述表格识别模型根据所述节点特征输出各所述表格节点相互之间的节点关系的步骤之前，所述方法还包括：

构建训练数据并利用所述训练数据针对两层图卷积网络进行训练以得到预设的表格识别模型。
如权利要求2所述的表格结构的还原方法，其中，所述训练数据包括训练样本表格和训练测试表格，

所述构建训练数据并利用所述训练数据针对两层图卷积网络进行训练以得到预设的表格识别模型的步骤，包括：

获取公开表格数据并针对所述公开表格数据进行预处理以构建得到所述训练样本表格和所述训练测试表格；

构建所述训练样本表格中各表格节点的第一节点特征，并将所述第一节点特征输入两层图卷积网络进行训练得到待确认表格识别模型；

构建所述训练测试表格中各表格节点的第二节点特征，并将所述第二节点特征输入所述待确认表格识别模型，以针对所述待确认表格识别模型进行测试并确定测试结果；

若所述测试结果符合预设的模型识别条件，则将所述待确认表格识别模型作为训练完成的表格识别模型。
如权利要求3所述的表格结构的还原方法，其中，在所述构建所述训练测试表格中各表格节点的第二节点特征，并将所述第二节点特征输入所述待确认表格识别模型，以针对所述待确认表格识别模型进行测试并确定测试结果的步骤之后，还包括：

若所述测试结果不符合预设的模型识别条件，则构建新的训练样本表格对所述两层图卷积网络重新进行训练。
如权利要求1所述的表格结构的还原方法，其中，所述构建待识别表格中各表格节点的节点特征的步骤，包括：

建立所述待识别表格中各所述表格节点的单元格特征；

分别提取各所述表格节点各自邻近表格节点的单元格特征形成单元格特征集；

针对所述单元格特征集进行聚合运算以得到各所述表格节点各自的节点特征。
如权利要求1所述的表格结构的还原方法，其中，所述表格识别模型存储于区块链中，所述节点关系包括但不限于水平、垂直和不相关，

所述调用预设的表格识别模型，以供所述表格识别模型根据所述节点特征输出各所述表格节点相互之间的节点关系的步骤，包括：

从所述区块链中提取所述表格识别模型；

将所述待识别表格中各所述表格节点各自的所述节点特征输入所述表格识别模型，以供所述表格识别模型基于所述节点特征进行训练计算后，输出各所述表格节点相互两个表格节点之间水平、垂直或者不相关的节点关系。
如权利要求1所述的表格结构的还原方法，其中，所述针对所述节点关系进行后处理以还原所述待识别表格的表格结构的步骤，包括：

利用预设的极大团算法针对所述节点关系进行后处理以还原所述待识别表格的表格结构得到完整的表格。
一种表格结构的还原系统，其中，所述表格结构的还原系统包括：

构建模块，用于构建待识别表格中各表格节点的节点特征；

识别模块，用于调用预设的表格识别模型，以供所述表格识别模型根据所述节点特征输出各所述表格节点相互之间的节点关系，其中，所述表格识别模型预先基于图卷积网络训练得到；

还原模块，用于针对所述节点关系进行后处理以还原所述待识别表格的表格结构。
一种计算机设备，其中，所述计算机设备包括：存储器、处理器，通信总线以及存储在所述存储器上的表格结构的还原程序，

所述通信总线用于实现处理器与存储器间的通信连接；

所述处理器用于执行所述基于互联网的表格结构的还原程序，以实现如下步骤：

构建待识别表格中各表格节点的节点特征；

调用预设的表格识别模型，以供所述表格识别模型根据所述节点特征输出各所述表格节点相互之间的节点关系，其中，所述表格识别模型预先基于图卷积网络训练得到；

针对所述节点关系进行后处理以还原所述待识别表格的表格结构。
如权利要求9所述的计算机设备，其中，所述图卷积网络包括但不限于两层图卷积网络，在所述调用预设的表格识别模型，以供所述表格识别模型根据所述节点特征输出各所述表格节点相互之间的节点关系的步骤之前，所述处理器执行所述基于互联网的表格结构的还原程序时还实现如下步骤：

构建训练数据并利用所述训练数据针对两层图卷积网络进行训练以得到预设的表格识别模型。
如权利要求10所述的计算机设备，其中，所述训练数据包括训练样本表格和训练测试表格，

所述构建训练数据并利用所述训练数据针对两层图卷积网络进行训练以得到预设的表格识别模型的步骤，包括：

获取公开表格数据并针对所述公开表格数据进行预处理以构建得到所述训练样本表格和所述训练测试表格；

构建所述训练样本表格中各表格节点的第一节点特征，并将所述第一节点特征输入两层图卷积网络进行训练得到待确认表格识别模型；

构建所述训练测试表格中各表格节点的第二节点特征，并将所述第二节点特征输入所述待确认表格识别模型，以针对所述待确认表格识别模型进行测试并确定测试结果；

若所述测试结果符合预设的模型识别条件，则将所述待确认表格识别模型作为训练完成的表格识别模型。
如权利要求11所述的计算机设备，其中，在所述构建所述训练测试表格中各表格节点的第二节点特征，并将所述第二节点特征输入所述待确认表格识别模型，以针对所述待确认表格识别模型进行测试并确定测试结果的步骤之后，所述处理器执行所述基于互联网的表格结构的还原程序时还实现如下步骤：

若所述测试结果不符合预设的模型识别条件，则构建新的训练样本表格对所述两层图卷积网络重新进行训练。
如权利要求9所述的计算机设备，其中，所述构建待识别表格中各表格节点的节点特征的步骤，包括：

建立所述待识别表格中各所述表格节点的单元格特征；

分别提取各所述表格节点各自邻近表格节点的单元格特征形成单元格特征集；

针对所述单元格特征集进行聚合运算以得到各所述表格节点各自的节点特征。
如权利要求9所述的计算机设备，其中，所述表格识别模型存储于区块链中，所述节点关系包括但不限于水平、垂直和不相关，

所述调用预设的表格识别模型，以供所述表格识别模型根据所述节点特征输出各所述表格节点相互之间的节点关系的步骤，包括：

从所述区块链中提取所述表格识别模型；

将所述待识别表格中各所述表格节点各自的所述节点特征输入所述表格识别模型，以供所述表格识别模型基于所述节点特征进行训练计算后，输出各所述表格节点相互两个表格节点之间水平、垂直或者不相关的节点关系。
如权利要求9所述的计算机设备，其中，所述针对所述节点关系进行后处理以还原所述待识别表格的表格结构的步骤，包括：

利用预设的极大团算法针对所述节点关系进行后处理以还原所述待识别表格的表格结构得到完整的表格。
一种计算机存储介质，其中，所述计算机存储介质上存储有表格结构的还原程序，所述表格结构的还原程序被处理器执行时实现如下步骤：

构建待识别表格中各表格节点的节点特征；

调用预设的表格识别模型，以供所述表格识别模型根据所述节点特征输出各所述表格节点相互之间的节点关系，其中，所述表格识别模型预先基于图卷积网络训练得到；

针对所述节点关系进行后处理以还原所述待识别表格的表格结构。
如权利要求16所述的计算机存储介质，其中，所述图卷积网络包括但不限于两层图卷积网络，在所述调用预设的表格识别模型，以供所述表格识别模型根据所述节点特征输出各所述表格节点相互之间的节点关系的步骤之前，所述表格结构的还原程序被处理器执行时还实现如下步骤：

构建训练数据并利用所述训练数据针对两层图卷积网络进行训练以得到预设的表格识别模型。
如权利要求17所述的计算机存储介质，其中，所述训练数据包括训练样本表格和训练测试表格，

所述构建训练数据并利用所述训练数据针对两层图卷积网络进行训练以得到预设的表格识别模型的步骤，包括：

获取公开表格数据并针对所述公开表格数据进行预处理以构建得到所述训练样本表格和所述训练测试表格；

构建所述训练样本表格中各表格节点的第一节点特征，并将所述第一节点特征输入两层图卷积网络进行训练得到待确认表格识别模型；

构建所述训练测试表格中各表格节点的第二节点特征，并将所述第二节点特征输入所述待确认表格识别模型，以针对所述待确认表格识别模型进行测试并确定测试结果；

若所述测试结果符合预设的模型识别条件，则将所述待确认表格识别模型作为训练完成的表格识别模型。
如权利要求18所述的计算机存储介质，其中，在所述构建所述训练测试表格中各表格节点的第二节点特征，并将所述第二节点特征输入所述待确认表格识别模型，以针对所述待确认表格识别模型进行测试并确定测试结果的步骤之后，所述表格结构的还原程序被处理器执行时还实现如下步骤：

若所述测试结果不符合预设的模型识别条件，则构建新的训练样本表格对所述两层图卷积网络重新进行训练。
如权利要求16所述的计算机存储介质，其中，所述构建待识别表格中各表格节点的节点特征的步骤，包括：

建立所述待识别表格中各所述表格节点的单元格特征；

分别提取各所述表格节点各自邻近表格节点的单元格特征形成单元格特征集；

针对所述单元格特征集进行聚合运算以得到各所述表格节点各自的节点特征。