WO2021129121A1

WO2021129121A1 - 表格识别方法和装置、计算机可读存储介质

Info

Publication number: WO2021129121A1
Application number: PCT/CN2020/124426
Authority: WO
Inventors: 祁立
Original assignee: 北京同邦卓益科技有限公司
Priority date: 2019-12-25
Filing date: 2020-10-28
Publication date: 2021-07-01
Also published as: CN111144282A; CN111144282B

Abstract

本公开涉及表格识别方法和装置、计算机可读存储介质。表格识别方法，包括：识别待识别表格的第一轮廓线；根据第一轮廓线，确定待识别表格的多个第一文字区域；对多个第一文字区域分别按行和列进行聚类，以计算待识别表格的行列分割点；根据行列分割点，识别待识别表格的第二轮廓线；根据第二轮廓线，确定待识别表格的多个第二文字区域，每个第二文字区域对应一个单元格；使用文本识别模型，识别每个第二文字区域中的文字；将识别出的各个第二文字区域中的文字内容分别填入相应的单元格中。

Description

表格识别方法和装置、计算机可读存储介质

相关申请的交叉引用

本申请是以CN申请号为201911357969.3，申请日为2019年12月25日的申请为基础，并主张其优先权，该CN申请的公开内容在此作为整体引入本申请中。

技术领域

本公开涉及计算机领域，特别涉及一种表格识别方法和装置、计算机可读存储介质。

背景技术

在各行各业都存在大量图像表格文件，随着目前信息化、智能化技术的快速发展，对图像表格文件的自动数字化处理，有着越来越广泛的应用场景。

图像表格文件的识别一般包括如下步骤如下：1)图像预处理(例如，灰度化、二值化、各种变换)；2)表格的轮廓线识别；3)文字区域识别；4)对文字进行切割或比对；5)使用训练好的识别模型识别具体文字。

在实际的表格图像中，存在各种各样的噪音或者水印等干扰信息，或者行列之间过于靠近，无法区分，导致识别出来文字分裂，或者缺失，不能很好地识别出整体表格。

发明内容

本公开提出了一种表格识别方案，能够进一步提高表格识别的准确性。

根据本公开的一些实施例，提供了一种表格识别方法，包括：识别待识别表格的第一轮廓线；

根据第一轮廓线，确定待识别表格的多个第一文字区域；

对多个第一文字区域分别按行和列进行聚类，以计算待识别表格的行列分割点；

根据行列分割点，识别待识别表格的第二轮廓线；

根据第二轮廓线，确定待识别表格的多个第二文字区域，每个第二文字区域对应一个单元格；

使用文本识别模型，识别每个第二文字区域中的文字；

将识别出的各个第二文字区域中的文字内容分别填入相应的单元格中。

在一些实施例中，对多个第一文字区域分别按照行和列进行聚类，以计算待识别表格的行列分割点包括：

提取多个第一文字区域的行坐标区间段和列坐标区间段；

分别根据行坐标区间段、列坐标区间段的交叠程度，判断是否合并相应的第一文字区域；

基于合并的结果，计算待识别表格的行列分割点。

在一些实施例中，判断是否合并相应的第一文字区域包括：

分别对第一文字区域的行坐标区间段、列坐标区间段有交叠的情况确定聚类评分；

在合并后的聚类评分大于合并前的聚类评分的情况下，判断为合并相应的第一文字区域。

在一些实施例中，分别对第一文字区域的行坐标区间段、列坐标区间段有交叠的情况确定聚类评分包括：

将提取出的行坐标区间段或列坐标区间段视为样本，样本数记为N，N为大于1的自然数；

根据聚类内有交集的样本对的数目和不同聚类间无交集的样本对的数目，对第一文字区域的行坐标区间段或列坐标区间段有交叠的情况确定聚类评分。

在一些实施例中，聚类评分与聚类内同质性正相关，其中聚类内同质性与聚类内有交集的样本对数目正相关；聚类评分与聚类间区分性负相关，其中聚类间区分性与不同聚类间无交集的样本对数目负相关。

在一些实施例中，聚类评分与聚类内同质性和聚类间区分性之间的比值正相关。

在一些实施例中，聚类评分表示为meric＝score(Ci,Ci)/score(Ci,Cj)×(N-k)/(k–1),其中，k为聚类数目，Ci和Cj分别表示聚类i和聚类j，score(Ci,Ci)表示聚类内同质性且与聚类内有交集的样本对数目正相关，score(Ci,Cj)表示聚类间区分性且与不同聚类间无交集的样本对数目负相关。

在一些实施例中，聚类内同质性与属于同一聚类的各个样本之间的交叠程度正相关，与属于同一聚类的样本对数目负相关；聚类间区分性与属于不同聚类的各个样本之间的交叠程度负相关，与属于不同聚类的样本对数目正相关。

在一些实施例中，聚类内同质性表示为score(Ci,Ci)＝∑is_inter(Sl,Sm)/n1，Sl和Sm分别表示属于同一聚类的样本l和m，n1为属于同一聚类的样本对数目， is_inter(Sl,Sm)表示样本l和m是否有交叠，有交叠的情况is_inter(Sl,Sm)＝1，无交叠的情况is_inter(Sl,Sm)＝0。

在一些实施例中，聚类间区分性表示为score(Ci,Cj)＝1-∑is_inter(Sl,Sm)/n2，Sl和Sm分别表示属于不同聚类的样本l和m，n2为属于不同聚类的样本对数目，is_inter(Sl,Sm)表示样本l和m是否有交叠，有交叠的情况is_inter(Sl,Sm)＝1，无交叠的情况is_inter(Sl,Sm)＝0。

在一些实施例中，所述表格识别方法还包括：对待识别表格进行图像预处理。

在一些实施例中，识别待识别表格的第一轮廓线包括：使用findContours函数，识别待识别表格的第一轮廓线。

在一些实施例中，根据第一轮廓线，确定待识别表格的多个第一文字区域包括：根据第一轮廓线，利用正负向偏置对比，确定待识别表格的多个第一文字区域。

根据本公开的另一些实施例，提供一种表格识别装置，包括：第一识别单元，被配置为识别待识别表格的第一轮廓线；

第一确定单元，被配置为根据第一轮廓线，确定待识别表格的多个第一文字区域；

聚类单元，被配置为对多个第一文字区域分别按行和列进行聚类，以计算待识别表格的行列分割点；

第二识别单元，被配置为确定待识别表格的第二轮廓线；

第二确定单元，被配置为根据第二轮廓线，确定待识别表格的多个第二文字区域，每个第二文字区域对应一个单元格；

第三识别单元，被配置为使用文本识别模型，识别每个第二文字区域中的文字；

填充单元，被配置为将识别出的各个第二文字区域中的文字内容，分别填入相应的单元格中。

根据本公开的又一些实施例，提供一种表格识别装置，包括：存储器以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器装置中的指令，执行上述任一个实施例所述的表格识别方法。

根据本公开的另一些实施例，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一个实施例所述的表格识别方法。

在上述实施例中，通过采用两阶段聚类策略，对所有识别出的文字区域信息分别进行行、列聚类，最终定位出整个表格的行列分割点；然后基于定位出的行列分割点重新划分表格，能够更准确地识别表格的轮廓线；最后基于准确识别的轮廓线重新识别文字区域，保证整体识别的准确性，有效解决了相关技术中识别不准确的问题。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1示出根据本公开的表格识别方法的一些实施例的流程图；

图2示出根据本公开的计算待识别表格的行列分割点的一些实施例的流程图；

图3示出根据本公开的表格识别装置的一些实施例的框图；

图4示出根据本公开的表格识别装置的另一些实施例的框图；

图5示出用于实现本公开一些实施例的计算机系统的框图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1示出根据本公开的表格识别方法的一些实施例的流程图。如图1所示，表格识别方法包括步骤S1-S7。

在步骤S1中，识别待识别表格的第一轮廓线。

在一些实施例中，使用findContours函数，识别待识别表格的第一轮廓线。第一轮廓线例如为表格的框线。使用findContours函数获取表格(table)列表和忽略列表，以分割待识别表格的单元格。例如，对图片中的待识别表格的轮廓进行粗定位，然后按单元格裁剪成多个小图片，以便后续分析及操作。

在另一些实施例中，为了提高识别的准确性，可以对待识别表格的图片进行图像预处理。图像预处理包括：灰度化、二值化、各种变换、等等。

在步骤S2中，根据第一轮廓线，确定待识别表格的多个第一文字区域。

在一些实施例中，根据第一轮廓线，利用正负向偏置对比，确定待识别表格的多个第一文字区域。例如，可以基于图片中背景和文字的灰度差异，确定待识别表格的多个第一文字区域。

在步骤S3中，对多个第一文字区域分别按行和列进行聚类，以计算待识别表格的行列分割点。

图2示出根据本公开的计算待识别表格的行列分割点的一些实施例的流程图。如图2所示，计算待识别表格的行列分割点包括步骤S31-S33。

在步骤S31中，提取多个第一文字区域的行坐标区间段和列坐标区间段。

在一些实施例中，可以将提取出的行坐标区间段或列坐标区间段视为样本，样本数记为N，N为大于1的自然数。

在步骤S32中，分别根据行坐标区间段、列坐标区间段的交叠程度，判断是否合并相应的第一文字区域。

在一些实施例中，分别对第一文字区域的行坐标区间段、列坐标区间段有交叠的情况确定聚类评分。例如，将提取出的行坐标区间段或列坐标区间段视为样本，样本数记为N，N为大于1的自然数；然后，根据聚类内有交集的样本对的数目和不同聚类间无交集的样本对的数目，对第一文字区域的行坐标区间段或列坐标区间段有交叠的情况确定聚类评分。

在一些实施例中，聚类评分与聚类内同质性正相关，其中聚类内同质性与聚类内有交集的样本对数目正相关；聚类评分与聚类间区分性负相关，其中聚类间区分性与不同聚类间无交集的样本对数目负相关。例如，聚类评分表示为meric＝score(Ci,Ci)/score(Ci,Cj)×(N-k)/(k–1),其中，k为聚类数目，Ci和Cj分别表示聚类i和聚类j，score(Ci,Ci)表示聚类内同质性且与聚类内有交集的样本对的数目正相关，score(Ci,Cj)表示聚类间区分性且与不同聚类间无交集的样本对的数目负相关。可以看出，聚类评分与聚类内同质性和聚类间区分性之间的比值正相关。

例如，聚类内同质性表示为score(Ci,Ci)＝∑is_inter(Sl,Sm)/n1，Sl和Sm分别表示属于同一聚类的样本l和m，n1为属于同一聚类的样本对的数目，is_inter(Sl,Sm)表示样本l和m是否有交叠，有交叠的情况is_inter(Sl,Sm)＝1，无交叠的情况is_inter(Sl,Sm)＝0。∑表示对属于同一聚类的样本对的is_inter(Sl,Sm)值求和。

聚类间区分性表示为score(Ci,Cj)＝1-∑is_inter(Sl,Sm)/n2，Sl和Sm分别表示属于不同聚类的样本l和m，n2为属于不同聚类的样本对的数目，is_inter(Sl,Sm)表示样本l和m是否有交叠，有交叠的情况is_inter(Sl,Sm)＝1，无交叠的情况is_inter(Sl,Sm)＝0。∑表示对属于不同聚类的样本对的is_inter(Sl,Sm)值求和。

在合并后的聚类评分大于合并前的聚类评分的情况下，判断为合并相应的第一文字区域。而在合并后的聚类评分小于合并前的聚类评分的情况下，判断为不合并相应的第一文字区域。在合并前后聚类评分不变的情况下，即合并后的聚类评分等于合并前的聚类评分的情况，可以判断为合并相应的第一文字区域，也可以判断为不合并相应的第一文字区域。

在步骤S33中，基于合并的结果，计算待识别表格的行列分割点。

在一些实施例中，对于合并的样本，合并出起始点坐标，对行列做交叉，可算出最终的表格行列分割点。

下面返回图1继续描述后面的步骤S4-S7。

在步骤S4中，根据行列分割点，识别待识别表格的第二轮廓线。例如，综合行列分割点，即可以得到表格的行列划分。

在步骤S5中，根据第二轮廓线，确定待识别表格的多个第二文字区域，每个第二文字区域对应一个单元格。在一些实施例中，可以采用与步骤S2类似的方式执行步骤S5。

在步骤S6中，使用文本识别模型，识别每个第二文字区域中的文字。在一些实施例中，可以采用光学字符识别(OCR)等文本识别模型，识别每个第二文字区域中的文字。

在步骤S7中，将识别出的各个第二文字区域中的文字内容分别填入相应的单元格中。由此，可以得到整体识别准确性高的表格。

图3示出根据本公开的表格识别装置的一些实施例的框图。

如图3所示，表格识别装置3包括：

第一识别单元31，被配置为识别待识别表格的第一轮廓线，例如执行步骤S1；

第一确定单元32，被配置为根据第一轮廓线，确定待识别表格的多个第一文字区域，例如执行步骤S2；

聚类单元33，被配置为对多个第一文字区域分别按行和列进行聚类，以计算待识别表格的行列分割点，例如执行步骤S3；

第二识别单元34，被配置为确定待识别表格的第二轮廓线，例如执行步骤S4；

第二确定单元35，被配置为根据第二轮廓线，确定待识别表格的多个第二文字区域，每个第二文字区域对应一个单元格，例如执行步骤S5；

第三识别单元36，被配置为使用文本识别模型，识别每个第二文字区域中的文字，例如执行步骤S6；

填充单元37，被配置为将识别出的各个第二文字区域中的文字内容，分别填入相应的单元格中，例如执行步骤S7。

图4示出根据本公开的表格识别装置的另一些实施例的框图。

如图4所示，该实施例的装置4包括：存储器41以及耦接至该存储器41的处理器42。存储器41用于存储执行表格识别方法对应实施例的指令。处理器42被配置为基于存储在存储器41中的指令，执行本公开中任意一些实施例中的表格识别方法。

除了表格识别方法、装置之外，本公开实施例还可采用在一个或多个包含有计算机程序指令的非易失性存储介质上实施的计算机程序产品的形式。因此，本公开实施例还包括一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现前述任意实施例中的表格识别方法。

图5是示出用于实现本公开一些实施例的计算机系统的框图。

如图5所示，计算机系统50可以通用计算设备的形式表现。计算机系统50包括存储器510、处理器520和连接不同系统组件的总线500。

存储器510例如可以包括系统存储器、非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。系统存储器可以包括易失性存储介质，例如随机存取存储器(RAM)和/或高速缓存存储器。非易失性存储介质例如存储有执行表格识别方法的对应实施例的指令。非易失性存储介质包括但不限于磁盘存储器、光学存储器、闪存等。

处理器520可以用通用处理器、数字信号处理器(DSP)、应用专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。相应地，诸如判断模块和确定模块的每个模块，可以通过中央处理器(CPU)运行存储器中执行相应步骤的指令来实现，也可以通过执行相应步骤的专用电路来实现。

总线500可以使用多种总线结构中的任意总线结构。例如，总线结构包括但不限于工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、外围组件互连(PCI)总线。

计算机系统50还可以包括输入输出接口530、网络接口540、存储接口550等。这些接口530、540、550以及存储器510和处理器520之间可以通过总线500连接。输入输出接口530可以为显示器、鼠标、键盘等输入输出设备提供连接接口。网络接口540为各种联网设备提供连接接口。存储接口540为软盘、U盘、SD卡等外部存储设备提供连接接口。

这里，参照根据本公开实施例的方法、装置和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个框以及各框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可提供到通用计算机、专用计算机或其他可编程表格识别装置的处理器，以产生一个机器，使得通过处理器执行指令产生实现在流程图和/或框图中一个或多个框中指定的功能的装置。

这些计算机可读程序指令也可存储在计算机可读存储器中，这些指令使得计算机以特定方式工作，从而产生一个制造品，包括实现在流程图和/或框图中一个或多个框中指定的功能的指令。

本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

至此，已经通过示例对本公开的一些实施例进行了详细说明。应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员可以对以上实施例进行变化、修改、替换、变型、组合，而不脱离本公开的范围。

Claims

一种表格识别方法，包括：

识别待识别表格的第一轮廓线；

根据第一轮廓线，确定待识别表格的多个第一文字区域；

对多个第一文字区域分别按行和列进行聚类，以计算待识别表格的行列分割点；

根据行列分割点，识别待识别表格的第二轮廓线；

根据第二轮廓线，确定待识别表格的多个第二文字区域，每个第二文字区域对应一个单元格；

使用文本识别模型，识别每个第二文字区域中的文字；

将识别出的各个第二文字区域中的文字内容分别填入相应的单元格中。
根据权利要求1所述的表格识别方法，其中，对多个第一文字区域分别按照行和列进行聚类，以计算待识别表格的行列分割点包括：

提取多个第一文字区域的行坐标区间段和列坐标区间段；

分别根据行坐标区间段、列坐标区间段的交叠程度，判断是否合并相应的第一文字区域；

基于合并的结果，计算待识别表格的行列分割点。
根据权利要求2所述的表格识别方法，其中，判断是否合并相应的第一文字区域包括：

分别对第一文字区域的行坐标区间段、列坐标区间段有交叠的情况确定聚类评分；

在合并后的聚类评分大于合并前的聚类评分的情况下，判断为合并相应的第一文字区域。
根据权利要求3所述的表格识别方法，其中，分别对第一文字区域的行坐标区间段、列坐标区间段有交叠的情况确定聚类评分包括：

将提取出的行坐标区间段或列坐标区间段视为样本，样本数记为N，N为大于1的自然数；

根据聚类内有交集的样本对的数目和不同聚类间无交集的样本对的数目，对第一文字区域的行坐标区间段或列坐标区间段有交叠的情况确定聚类评分。
根据权利要求4所述的表格识别方法，其中：

聚类评分与聚类内同质性正相关，其中聚类内同质性与聚类内有交集的样本对数目正相关；

聚类评分与聚类间区分性负相关，其中聚类间区分性与不同聚类间无交集的样本对数目负相关。
根据权利要求5所述的表格识别方法，其中，聚类评分与聚类内同质性和聚类间区分性之间的比值正相关。
根据权利要求5所述的表格识别方法，其中，聚类评分表示为meric＝score(Ci,Ci)/score(Ci,Cj)×(N-k)/(k–1),其中，k为聚类数目，Ci和Cj分别表示聚类i和聚类j，score(Ci,Ci)表示聚类内同质性，score(Ci,Cj)表示聚类间区分性。
根据权利要求5至7任一项所述的表格识别方法，其中：

聚类内同质性与属于同一聚类的各个样本之间的交叠程度正相关，与属于同一聚类的样本对数目负相关；

聚类间区分性与属于不同聚类的各个样本之间的交叠程度负相关，与属于不同聚类的样本对数目正相关。
根据权利要求8所述的表格识别方法，其中，聚类内同质性表示为score(Ci,Ci)＝∑is_inter(Sl,Sm)/n1，Sl和Sm分别表示属于同一聚类的样本l和m，n1为属于同一聚类的样本对数目，is_inter(Sl,Sm)表示样本l和m是否有交叠，有交叠的情况is_inter(Sl,Sm)＝1，无交叠的情况is_inter(Sl,Sm)＝0。
根据权利要求8所述的表格识别方法，其中，聚类间区分性表示为score(Ci,Cj)＝1-∑is_inter(Sl,Sm)/n2，Sl和Sm分别表示属于不同聚类的样本l和m，n2为属于不同聚类的样本对数目，is_inter(Sl,Sm)表示样本l和m是否有交叠，有交叠的情况is_inter(Sl,Sm)＝1，无交叠的情况is_inter(Sl,Sm)＝0。
根据权利要求1至5中任一项所述的表格识别方法，其中，根据第一轮廓线，确定待识别表格的多个第一文字区域包括：

根据第一轮廓线，利用正负向偏置对比，确定待识别表格的多个第一文字区域。
根据权利要求1至5中任一项所述的表格识别方法，其中，识别待识别表格的第一轮廓线包括：使用findContours函数，识别待识别表格的第一轮廓线。
一种表格识别装置，包括：

第一识别单元，被配置为识别待识别表格的第一轮廓线；

第一确定单元，被配置为根据第一轮廓线，确定待识别表格的多个第一文字区域；

聚类单元，被配置为对多个第一文字区域分别按行和列进行聚类，以计算待识别表格的行列分割点；

第二识别单元，被配置为确定待识别表格的第二轮廓线；

第二确定单元，被配置为根据第二轮廓线，确定待识别表格的多个第二文字区域，每个第二文字区域对应一个单元格；

第三识别单元，被配置为使用文本识别模型，识别每个第二文字区域中的文字；

填充单元，被配置为将识别出的各个第二文字区域中的文字内容，分别填入相应的单元格中。
一种表格识别装置，包括：

存储器；和

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1-12中任一项所述的表格识别方法。
一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-12中任一项所述的表格识别方法。