WO2023045298A1

WO2023045298A1 - 一种在图像中检测表格线的方法及装置

Info

Publication number: WO2023045298A1
Application number: PCT/CN2022/085400
Authority: WO
Inventors: 龙伟; 郭丰俊; 丁凯; 龙腾
Original assignee: 上海合合信息科技股份有限公司; 上海临冠数据科技有限公司; 上海生腾数据科技有限公司; 上海盈五蓄数据科技有限公司
Priority date: 2021-09-27
Filing date: 2022-04-06
Publication date: 2023-03-30
Also published as: CN113723362A

Abstract

本申请公开了一种在图像中检测表格线的方法。步骤S10：将图像输入语义分割网络，获得潜在表格线临近区域像素集合。步骤S20：对表格线临近区域像素集合进行线段拟合以得到表格线。步骤S30：移除虚假表格线，得到真实表格线。步骤S40：将所有表格线分别归入各个行、各个列的组别。步骤S50：得到完整的结构化的电子表格。步骤S60：如果步骤S50的电子表格结构化失败、并且是由于表格线检测错误导致的，则提取该失败场景的典型特征，并以此生成困难样本，重新训练所述语义分割网络。上述方法通过对语义分割网络的反复训练，提高了表格线检测的准确率，有助于提高电子表格结构化的成功率。

Description

一种在图像中检测表格线的方法及装置

技术领域

本申请涉及一种在图像(图片)中检测表格线的方法。

背景技术

表格在日常生活及办公中有广泛的应用，存在大量将图片中表格转化为电子表格的需求，而此类自动转化技术通常严重依赖于表格线的检测。表格线包括用于分隔表格内部与表格外部的外部边框线、以及在表格内部用于区分行、列的内部分隔线。

因为图像质量、拍摄角度、不均匀的光线、纸张弯曲褶皱、文字区域错位、图章水印干扰以及表格线本身的色彩、粗细、样式的多样性，会给检测表格线带来极大的挑战，进而影响表格的结构还原的准确性。

发明内容

本申请所要解决的技术问题是提出一种在图像中检测表格线的方法，具有准确率高、能够有效地辅助表格结构还原的特点。

为解决上述技术问题，本申请提出的在图像中检测表格线的方法包括如下步骤。步骤S10：将图像输入语义分割网络，获得潜在表格线临近区域像素集合；所述潜在表格线临近区域像素集合是指一些可能存在表格线的区域的孤立的像素点。步骤S20：对表格线临近区域像素集合进行线段拟合以得到表格线。步骤S30：根据对图像进行光学字符识别获取的文字行信息，对步骤S20得到的表格线进行过滤，移除虚假表格线，得到真实表格线。步骤S40：根据表格线之间的位置关系，将所有表格线分别归入各个行、各个列的组别。步骤S50：根据表格线所属组别构建单元格，并将每一单元格范围内的光学字符识别结果作为该单元格中的文字信息保存，最终得到完整的结构化的电子表格。步骤S60：如果步骤S50的电子表格结构化失败、并且是由于表格线检测错误导致的，则提取该失败场景的典型特征，并以此生成困难样本，重新训练所述语义分割网络，并利用重新训练后的所述语义分割网络重复步骤S10至步骤S50，直至步骤S50的电子表格结构化成功。上述方法通过对语义分割网络的反复训练，提高了表格线检测的准确率，有助于提高电子表格结构化的成功率。

进一步地，所述步骤S10中，图像的语义分割是对图像中每一个像素点进行分类，确定每个点的类别，从而进行区域划分；所述语义分割网络基于深度学习算法，包括卷积神经网络、深度卷积神经网络、全卷积网络的任意一种或多种。这是对步骤S10的详细说明。

进一步地，所述步骤S30中，所述文字行信息包括文字行的高度、单个文字的宽度、文字行的角度的任一种或多种。

进一步地，所述步骤S40中，对于水平线，按起始端点排序后进行循环处理，遇到垂直距离接近且水平部分有重叠的水平线就进行合并去重，如此将逻辑上属于上同一条水平线但实际被检测为多条的水平线组装为一条水平线；最终，每一表格行的水平线归为一组，组内根据是否有单元格合并情况包含一根或多根水平线；对竖直线的处理采用类似方法。这是对步骤S40的具体说明。

可选地，所述步骤S40中，处理过程使用并查集算法进行加速。

进一步地，所述步骤S60进一步包括如下子步骤。步骤S61：准备通用样本合成工具，所述困难样本合成工具具有多个可调整的参数，通过调整这些参数可生成各种特征的样本及标注。步骤S62：收集并分析由于表格线检测错误造成的电子表格结构化失败的场景下的典型特征。步骤S63：根据步骤S62得到的失败场景的典型特征，调整通用样本合成工具中的参数以生成具有相同特征的困难样本及标注。步骤S64：利用所生成的困难样本重新训练用于在图像中获得潜在表格线临近区域像素集合的所述语义分割网络。这是对步骤S60的具体说明。

进一步地，所述步骤S61中，所述困难样本合成工具将样本生成过程抽象为基础背景纹理、表格结构、正文内容与样式、表格线位置与样式、图章水印合成这五个部分；基础背景纹理部分的参数包括背景图片、背景颜色、纹理图案、纹理颜色的任一种或多种；表格结构部分的参数包括表格数目、大小、位置、行列数、合并单元格情况的任一种或多种；正文内容与样式部分的参数包括字号、字体、颜色、位置、对齐方式的任一种或多种；表格线位置与样式部分的参数包括表格线的类型风格、粗细、像素区域的任一种或多种；图章水印合成部分的参数包含图章水印的数目、位置、角度、色彩的任一种或多种。

进一步地，所述步骤S62中，所述失败场景的典型特征包括印刷错位或手写造成的字压线、长笔划汉字纵向重复排列造成的假线、图章遮挡引起的漏线、错误地将图章边缘识别为表格线、强光线拍摄造成表线与背景难区分、复杂纹理样本中通过彩色线或颜色块分隔单元格、使用两根平行线分隔邻接单元格、低矮稠密单元格中很短的表格线识别丢失的任一种或多种。

进一步地，所述步骤S63中，所述通用样本合成工具先根据基础背景纹理部分的参数生成基础图像，再根据表格结构部分的参数生成表格结构，再根据正文内容与样式部分的参数生成文本内容及样式，再根据表格线位置与样式部分的参数生成框线及样式，再根据图章水印合成部分的参数叠加图章水印，最终将上述各部分的图像、表格结构、正文、表格线、图章水印合成为一张图片，该图片具有标注。

本申请还提出了一种在图像中检测表格线的装置，包括语义分割单元、线段拟合单元、表格线过滤单元、表格线分组单元、电子表格结构化单元、重新训练单元。所述语义分割单元用于采用语义分割网络在输入的图像中获得潜在表格线临近区域像素集合。所述线段拟合单元用于对表格线临近区域像素集合进行线段拟合以得到表格线。所述表格线过滤单元用于根据对图像进行光学字符识别获取的文字行信息对表格线进行过滤，移除虚假表格线，得到真实表格线。所述表格线分组单元用于根据表格线之间的位置关系，将所有表格线分别归入各个行、各个列的组别。所述电子表格结构化单元用于根据表格线所属组别构建单元格，并将每一单元格范围内的光学字符识别结果作为该单元格中的文字信息保存，最终得到完整的结构化的电子表格。所述重新训练单元用于当所述电子表格结构化单元执行电子表格结构化失败、并且是由于表格线检测错误导致的，则提取该失败场景的典型特征，并以此生成困难样本，重新训练所述语义分割网络；重新训练后的所述语义分割网络送入所述语义分割单元，由语义分割单元、线段拟合单元、表格线过滤单元、表格线分组单元、电子表格结构化单元重复执行，直至所述电子表格结构化单元执行电子表格结构化成功。上述装置通过对语义分割网络的反复训练，提高了表格线检测的准确率，有助于提高电子表格结构化的成功率。

本申请取得的技术效果是：采用语义分割网络和线段拟合相结合的方式得到表格线，有效减少了表格线检测中的假线、漏线问题；针对字压线、重复字假线、图章遮挡、淡线、彩色线、色块、虚线、双线分隔、超短线等困难场景的表格线检测，通过提取失败场景的典型特征，生成困难样本对语义分割网络反复训练，从而提升表格线检测的准确性。

附图概述

本发明的特征、性能由以下的实施例及其附图进一步描述。

图1是本申请提出的在图像中检测表格线的方法的流程示意图。

图2是图1中步骤S60的子流程示意图。

图3是本申请提出的在图像中检测表格线的装置的结构示意图。

图中附图标记说明：10为语义分割单元、20为线段拟合单元、30为表格线过滤单元、40为表格线分组单元、50为电子表格结构化单元、60为重新训练单元。

本发明的较佳实施方式

请参阅图1，本申请提出的在图像中检测表格线的方法包括如下步骤。

步骤S10：将图像输入语义分割(Semantic Segmentation)网络，获得潜在表格线临近区域像素集合，就是一些可能存在表格线的区域的孤立的像素点。图像的语义分割是对图像中每一个像素点进行分类，确定每个点的类别，从而进行区域划分，这是一种现有技术。常见的语义分割网络基于深度学习算法，有卷积神经网络(CNN)、深度卷积神经网络、全卷积网络(FCN)等。这一步可有效去除图像中的非表格线，去除文字或背景条纹干扰，有效减少表格线检测中的假线、漏线问题。

步骤S20：对表格线临近区域像素集合进行线段拟合以得到表格线，也就是采用传统的线段拟合方法将前一步预测的孤立的像素点连接成线段。

步骤S30：根据对图像进行光学字符识别(OCR，Optical character recognition)获取的文字行信息，对步骤S20得到的表格线进行过滤，移除虚假表格线，得到干净的真实表格线。所述文字行信息包括文字行的高度、单个文字的宽度、文字行的角度等。

例如，某些文字笔划较长、或者相邻文字的笔划连接在一起，就可能在步骤S20中被检测为表格线，但属于虚假表格线，根据文字行高度、单个文字的宽度可以过滤掉。又如，当步骤S20检测出的某一条竖直表格线的长度小于文字行高度，则判定该条垂直表格线为虚假表格线。再如，将文字行的角度认为呈水平，那么竖直线也就确定了；如果步骤S20检测出的某一条表格线超出了水平线的容许角度范围，也超出了竖直线的容许角度范围，则判定该条表格线为虚假表格线。水平线的容许角度范围例如为水平线的正负15度。竖直线的容许角度范围例如为竖直线的正负15度。

步骤S40：根据表格线之间的位置关系，将所有表格线分别归入各个行、各个列的组别。由于图像质量不佳等因素，不可避免地存在同一条表格线被检测成多条表格线的情况。同时表格中也存在为格式需要，属于同一行、同一列的表格线分成多条表格线的情况。这一步就是为了准确还原单元格所属行、列，根据表格线中水平线之间的位置关系，将水平线归入不同行的组别；根据表格线中竖直线之间的位置关系，将竖直线归入不同列的组别。

例如，通过计算表格线的角度区分水平线和竖直线。对于水平线，按起始端点排序后进行循环处理，遇到垂直距离接近且水平部分有重叠的水平线就进行合并去重，如此可将逻辑上属于上同一条水平线但实际被检测为多条的水平线组装为一条水平线，处理过程可使用并查集(Union-Find)算法进行加速。最终，每一表格行的水平线归为一组，组内根据是否有单元格合并情况包含一根或多根水平线。对竖直线的处理采用类似方法。

步骤S50：根据表格线所属组别构建单元格，并将每一单元格范围内的光学字符识别结果作为该单元格中的文字信息保存，最终得到完整的结构化的电子表格。这使得电子表格的版式与原始图像中的表格的版式保持一致。

步骤S60：如果步骤S50的电子表格结构化失败、并且是由于表格线检测错误导致的，则提取该失败场景的典型特征，并以此生成困难样本，重新训练所述语义分割网络，并利用重新训练后的所述语义分割网络重复步骤S10至步骤S50，直至步骤S50的电子表格结构化成功。

请参阅图2，所述步骤S60进一步包括如下子步骤。

步骤S61：准备通用样本合成工具，所述困难样本合成工具可将所生成样本中的图文元素的存在性、大小、位置、样式风格等通过参数进行控制。这样在生成样本时只需要根据期望的样本特征调整参数，即可生成相应特征的样本及标注，规避了成本较高的数据收集及数据标注过程。

作为示例，所述困难样本合成工具例如将样本生成过程抽象为基础背景纹理、表格结构、正文内容与样式、表格线位置与样式、图章水印合成这五个部分，通过灵活配置各部分参数可生成各种样本。表格结构部分的参数包括表格数目、大小、位置、行列数、合并单元格情况等。正文内容与样式部分的参数包括字号、字体、颜色、位置、对齐方式等。表格线位置与样式部分的参数包括表格线的类型风格、粗细、像素区域等。图章水印合成部分的参数包含图章水印的数目、位置、角度、色彩等。

步骤S62：收集并分析由于表格线检测错误造成的电子表格结构化失败的场景下的典型特征。所述失败场景的典型特征例如包括印刷错位或手写造成的字压线、长笔划汉字纵向重复排列造成的假线、图章遮挡引起的漏线、错误地将图章边缘识别为表格线、强光线拍摄造成表线与背景难区分、复杂纹理样本中通过彩色线或颜色块分隔单元格、使用两根平行线分隔邻接单元格、低矮稠密单元格中很短的表格线识别丢失等。

步骤S63：根据步骤S62得到的失败场景的典型特征，调整通用样本合成工具中的参数以生成具有相同特征的困难样本及标注。所述通用样本合成工具在生成困难样本的同时也对所生成的困难样本进行标注。数据标注是指通过数据加工人员标记工具对人工智能算法的学习数据进行加工的一种行为。

作为示例，所述通用样本合成工具先根据基础背景纹理部分的参数生成基础图像，再根据表格结构部分的参数生成表格结构，再根据正文内容与样式部分的参数生成文本内容及样式，再根据表格线位置与样式部分的参数生成框线及样式，再根据图章水印合成部分的参数叠加图章水印，最终将上述各部分的图像、表格结构、正文、表格线、图章水印等合成为一张图片，该图片具有表格结构、表格线等内容的标注。

步骤S64：利用所生成的困难样本重新训练用于在图像中获得潜在表格线临近区域像素集合的所述语义分割网络。重新训练后的所述语义分割网络将用于重复进行步骤S10至步骤S50，并能带来更准确的线段拟合结果，进而提高整体电子表格结构化的成功率。

请参阅图3，本申请提出的在图像中检测表格线的装置包括语义分割单元10、线段拟合单元20、表格线过滤单元30、表格线分组单元40、电子表格结构化单元 50、重新训练单元60。

所述语义分割单元10用于采用语义分割网络在输入的图像中获得潜在表格线临近区域像素集合，就是一些可能存在表格线的区域的孤立的像素点。

所述线段拟合单元20用于对表格线临近区域像素集合进行线段拟合以得到表格线，也就是采用传统的线段拟合方法将前一步预测的孤立的像素点连接成线段。

所述表格线过滤单元30用于根据对图像进行光学字符识别获取的文字行信息，对表格线进行过滤，移除虚假表格线，得到真实表格线。

所述表格线分组单元40用于根据表格线之间的位置关系，将所有表格线分别归入各个行、各个列的组别。

所述电子表格结构化单元50用于根据表格线所属组别构建单元格，并将每一单元格范围内的光学字符识别结果作为该单元格中的文字信息保存，最终得到完整的结构化的电子表格。

所述重新训练单元60用于当所述电子表格结构化单元50执行电子表格结构化失败、并且是由于表格线检测错误导致的，则提取该失败场景的典型特征，并以此生成困难样本，重新训练所述语义分割网络。重新训练后的所述语义分割网络送入所述语义分割单元10，由语义分割单元10、线段拟合单元20、表格线过滤单元30、表格线分组单元40、电子表格结构化单元50重复执行，直至所述电子表格结构化单元50执行电子表格结构化成功。

本申请提出的在图像中检测表格线的方法及装置采用数据驱动(即语义分割网络先训练再使用，并根据失效场景生成困难样本重新训练再使用)与线段拟合相结合的方法，具有强稳健性(robustness，也称鲁棒性)。

以上仅为本申请的优选实施例，并不用于限定本申请。对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种在图像中检测表格线的方法，其特征是，包括如下步骤；

步骤S10：将图像输入语义分割网络，获得潜在表格线临近区域像素集合；所述潜在表格线临近区域像素集合是指一些可能存在表格线的区域的孤立的像素点；

步骤S20：对表格线临近区域像素集合进行线段拟合以得到表格线；

步骤S30：根据对图像进行光学字符识别获取的文字行信息，对步骤S20得到的表格线进行过滤，移除虚假表格线，得到真实表格线；

步骤S40：根据表格线之间的位置关系，将所有表格线分别归入各个行、各个列的组别；

步骤S50：根据表格线所属组别构建单元格，并将每一单元格范围内的光学字符识别结果作为该单元格中的文字信息保存，最终得到完整的结构化的电子表格；

步骤S60：如果步骤S50的电子表格结构化失败、并且是由于表格线检测错误导致的，则提取该失败场景的典型特征，并以此生成困难样本，重新训练所述语义分割网络，并利用重新训练后的所述语义分割网络重复步骤S10至步骤S50，直至步骤S50的电子表格结构化成功。
根据权利要求1所述的在图像中检测表格线的方法，其特征是，所述步骤S10中，图像的语义分割是对图像中每一个像素点进行分类，确定每个点的类别，从而进行区域划分；所述语义分割网络基于深度学习算法，包括卷积神经网络、深度卷积神经网络、全卷积网络的任意一种或多种。
根据权利要求1所述的在图像中检测表格线的方法，其特征是，所述步骤S30中，所述文字行信息包括文字行的高度、单个文字的宽度、文字行的角度的任一种或多种。
根据权利要求1所述的在图像中检测表格线的方法，其特征是，所述步骤S40中，对于水平线，按起始端点排序后进行循环处理，遇到垂直距离接近且水平部分有重叠的水平线就进行合并去重，如此将逻辑上属于上同一条水平线但实际被检测为多条的水平线组装为一条水平线；最终，每一表格行的水平线归为一组，组内根据是否有单元格合并情况包含一根或多根水平线；对竖直线的处理采用类似方法。
根据权利要求4所述的在图像中检测表格线的方法，其特征是，所述步骤 S40中，处理过程使用并查集算法进行加速。
根据权利要求1所述的在图像中检测表格线的方法，其特征是，所述步骤S60进一步包括如下子步骤；

步骤S61：准备通用样本合成工具，所述困难样本合成工具具有多个可调整的参数，通过调整这些参数可生成各种特征的样本及标注；

步骤S62：收集并分析由于表格线检测错误造成的电子表格结构化失败的场景下的典型特征；

步骤S63：根据步骤S62得到的失败场景的典型特征，调整通用样本合成工具中的参数以生成具有相同特征的困难样本及标注；

步骤S64：利用所生成的困难样本重新训练用于在图像中获得潜在表格线临近区域像素集合的所述语义分割网络。
根据权利要求6所述的在图像中检测表格线的方法，其特征是，所述步骤S61中，所述困难样本合成工具将样本生成过程抽象为基础背景纹理、表格结构、正文内容与样式、表格线位置与样式、图章水印合成这五个部分；基础背景纹理部分的参数包括背景图片、背景颜色、纹理图案、纹理颜色的任一种或多种；表格结构部分的参数包括表格数目、大小、位置、行列数、合并单元格情况的任一种或多种；正文内容与样式部分的参数包括字号、字体、颜色、位置、对齐方式的任一种或多种；表格线位置与样式部分的参数包括表格线的类型风格、粗细、像素区域的任一种或多种；图章水印合成部分的参数包含图章水印的数目、位置、角度、色彩的任一种或多种。
根据权利要求6所述的在图像中检测表格线的方法，其特征是，所述步骤S62中，所述失败场景的典型特征包括印刷错位或手写造成的字压线、长笔划汉字纵向重复排列造成的假线、图章遮挡引起的漏线、错误地将图章边缘识别为表格线、强光线拍摄造成表线与背景难区分、复杂纹理样本中通过彩色线或颜色块分隔单元格、使用两根平行线分隔邻接单元格、低矮稠密单元格中很短的表格线识别丢失的任一种或多种。
根据权利要求7所述的在图像中检测表格线的方法，其特征是，所述步骤S63中，所述通用样本合成工具先根据基础背景纹理部分的参数生成基础图像，再根据表格结构部分的参数生成表格结构，再根据正文内容与样式部分的参数生成文本内容及样式，再根据表格线位置与样式部分的参数生成框线及样式，再根据图章水印合成部分的参数叠加图章水印，最终将上述各部分的图像、表格结构、正文、表格线、图章水印合成为一张图片，该图片具有标注。
一种在图像中检测表格线的装置，其特征是，包括语义分割单元、线段拟合单元、表格线过滤单元、表格线分组单元、电子表格结构化单元、重新训练单元；

所述语义分割单元用于采用语义分割网络在输入的图像中获得潜在表格线临近区域像素集合；

所述线段拟合单元用于对表格线临近区域像素集合进行线段拟合以得到表格线；

所述表格线过滤单元用于根据对图像进行光学字符识别获取的文字行信息对表格线进行过滤，移除虚假表格线，得到真实表格线；

所述表格线分组单元用于根据表格线之间的位置关系，将所有表格线分别归入各个行、各个列的组别；

所述电子表格结构化单元用于根据表格线所属组别构建单元格，并将每一单元格范围内的光学字符识别结果作为该单元格中的文字信息保存，最终得到完整的结构化的电子表格；

所述重新训练单元用于当所述电子表格结构化单元执行电子表格结构化失败、并且是由于表格线检测错误导致的，则提取该失败场景的典型特征，并以此生成困难样本，重新训练所述语义分割网络；重新训练后的所述语义分割网络送入所述语义分割单元，由语义分割单元、线段拟合单元、表格线过滤单元、表格线分组单元、电子表格结构化单元重复执行，直至所述电子表格结构化单元执行电子表格结构化成功。