WO2023045277A1

WO2023045277A1 - 一种将图像中表格转换为电子表格的方法及装置

Info

Publication number: WO2023045277A1
Application number: PCT/CN2022/080926
Authority: WO
Inventors: 郭丰俊; 龙伟; 丁凯; 龙腾
Original assignee: 上海合合信息科技股份有限公司; 上海临冠数据科技有限公司; 上海生腾数据科技有限公司; 上海盈五蓄数据科技有限公司
Priority date: 2021-09-27
Filing date: 2022-03-15
Publication date: 2023-03-30
Also published as: CN113688795A

Abstract

本申请公开了一种将图像中表格转换为电子表格的方法。步骤S1：根据图像中的文字行及线，对图像做转正及矫正处理。步骤S2：在图像中采用无锚的目标检测方法来确定图像中表格的位置，也称图像的表格区域。步骤S3：在图像的表格区域中检测表格线。步骤S4：根据对图像的表格区域进行光学字符识别获取的文字行信息，移除虚假表格线，得到真实表格线。步骤S5：根据表格线之间的位置关系，将所有表格线分别归入各个行、各个列的组别。步骤S6：根据表格线所属组别构建单元格，并将每一单元格范围内的光学字符识别结果作为该单元格中的文字信息保存。步骤S7：如有缺失的单元格，在相应位置补齐单元格，以得到完整的结构化的电子表格。

Description

一种将图像中表格转换为电子表格的方法及装置

技术领域

本申请涉及一种图像识别方法，特别是涉及一种将图像中的表格识别出来并转换为电子表格(例如Excel文件)的方法。

背景技术

表格作为常见的文档形式，在办公、日常生活中得到广泛使用。在财务处理、数据分析等工作中，存在大量将图像(图片)中的表格转化为电子表格的需求。由于打印质量、拍摄角度、拍摄光线、纸张弯折等方面的问题，现有的转换方法经常出现表格线误检、表格线漏检、单元格位置错误、单元格丢失等情况，从而使电子表格的版式还原出现错误。

发明内容

本申请所要解决的技术问题是对于不同图像质量的图像中的不同版式的表格，给出一种具有良好的版式还原效果的转换为电子表格的方法。

为解决上述技术问题，本申请提出的将图像中表格转换为电子表格的方法包括如下步骤。步骤S1：根据图像中的文字行及线，对图像做转正及矫正处理。步骤S2：在图像中采用无锚的目标检测方法来确定图像中表格的位置，也称图像的表格区域。步骤S3：在图像的表格区域中检测表格线。步骤S4：根据对图像的表格区域进行光学字符识别获取的文字行信息，对步骤S3检测得到的表格线进行过滤，移除虚假表格线，得到真实表格线。步骤S5：根据表格线之间的位置关系，将所有表格线分别归入各个行、各个列的组别。步骤S6：根据表格线所属组别构建单元格，并将每一单元格范围内的光学字符识别结果作为该单元格中的文字信息保存。步骤S7：根据表格最外侧一圈的单元格是否结构完整、以及相邻单元格之间是否有间隙，判断是否有缺失的单元格；如有缺失的单元格，在相应位置补齐单元格，以使表格最外侧一圈的单元格的结构完整、并且相邻单元格之间没有间隙，得到完整的结构化的电子表格。上述方法针对图像质量较差的缺陷给出了多种检测和矫正方式，并且转换后的电子表格与图像中的表格具有相同的版式。

进一步地，所述步骤S1中，检测图像中的文字行及表格线的角度，并使图像中的每一行文字大致为水平排列，使表格线中的水平线大致为水平，使表格线中的竖直线大致为竖直的方式对整幅图像进行转正及矫正处理。这是对步骤S1的详细说明。

进一步地，所述步骤S2中，所述无锚的目标检测方法包括CornerNet算法、CenterNet算法、ExtremeNet算法、DenseBox算法、YOLO算法、FSAF算法、FCOS算法、FoveaBox算法、RepPoints算法、Sparse RCNN算法、CentripetalNet算法、SaccadeNet算法的任意一种或多种。这是步骤S2所用算法的一些优选示例。

进一步地，所述步骤S3具体包括如下子步骤。步骤S31：采用基于语义分割网络的算法在图像的表格区域中预测和提取表格线区域，表格线区域是指表格线可能出现的位置，就是一些孤立的像素点。步骤S32：在图像的表格线区域通过曲线拟合方法检测出表格线，也就是采用曲线拟合方法将前一步预测的孤立的像素点连接成线段。这是步骤S3的一种具体实现方式的详细说明。

进一步地，所述步骤S31中，所述基于语义分割网络的算法是先通过标注的表格线数据进行训练，然后再使用训练好的算法预测和提取表格线区域。这体现出本申请具有数据驱动的特点。

进一步地，所述步骤S4中，对图像的表格区域进行光学字符识别以获取文字行信息，在这一步或之前的任意步骤中进行，也包括对原始图像进行光学字符识别以获取文字行信息然后缩小到图像的表格区域内的文字行信息的方式。

进一步地，所述步骤S5中，对于水平线，按起始端点排序后进行循环处理，遇到垂直距离接近且水平部分有重叠的水平线就进行合并去重，如此将逻辑上属于上同一条水平线但实际被检测为多条的水平线组装为一条水平线；最终，每一表格行的水平线归为一组，组内根据是否有单元格合并情况包含一根或多根水平线；对竖直线的处理采用类似方法。这是对步骤S5的详细说明。

进一步地，所述步骤S6中，对单元格进行光学字符识别以获取识别结果，在这一步或之前的任意步骤中进行，包括对图像的表格区域进行光学字符识别以获取识别结果然后缩小到单元格范围内的识别结果的方式，也包括对原始图像进行光学字符识别以获取识别结果然后缩小到单元格范围内的识别结果的方式。

优选地，对图像的表格区域进行光学字符识别以获取文字行信息、对单元格进行光学字符识别以获取识别结果，两者同时进行。

本申请还提出了一种将图像中表格转换为电子表格的装置，包括转正及矫正处理单元、表格位置检测单元、表格线检测单元、表格线滤除单元、表格线分组单元、单元格构建单元、单元格补齐单元。所述转正及矫正处理单元用来根据图像中的文字行及线，对图像做转正及矫正处理。所述表格位置检测单元用来在图像中采用无锚的目标检测方法来确定图像中表格的位置，也称图像的表格区域。所述表格线检测单元用来在图像的表格区域中检测表格线。所述表格线滤除单元用来根据对图像的表格区域进行光学字符识别获取的文字行信息，移除虚假表格线，得到真实表格线。所述表格线分组单元用来根据表格线之间的位置关系，将所有表格线分别归入各个行、各个列的组别。所述单元格构建单元用来根据表格线所属组别构建单元格，并将每一单元格范围内的光学字符识别结果作为该单元格中的文字信息保存。所述单元格补齐单元用来根据表格最外侧一圈的单元格是否结构完整、以及相邻单元格之间是否有间隙，判断是否有缺失的单元格；如有缺失的单元格，在相应位置补齐单元格，以使表格最外侧一圈的单元格的结构完整、并且相邻单元格之间没有间隙，得到完整的结构化的电子表格。上述装置针对图像质量较差的缺陷给出了多种检测和矫正方式，并且转换后的电子表格与图像中的表格具有相同的版式。

本申请取得的技术效果是能够将图像质量较差或较好的图像转换为电子表格，准确性高；并且保持版式一致，电子表格具有良好的完整性。

附图说明

图1是本申请提出的将图像中表格转换为电子表格的方法的流程示意图。

图2是图1中步骤S3的子流程示意图。

图3是本申请提出的将图像中表格转换为电子表格的装置的结构示意图。

图中附图标记说明：1为转正及矫正处理单元、2为表格位置检测单元、3为表格线检测单元、4为表格线滤除单元、5为表格线分组单元、6为单元格构建单元、7为单元格补齐单元。

具体实施方式

请参阅图1，本申请提出的将图像中表格转换为电子表格的方法包括如下步骤。

步骤S1：根据图像中的文字行及表格线信息，对图像做转正及矫正处理。例如，图像中的文字通常为水平排列，表格线通常包括水平线与竖直线，由于拍摄角度、纸张弯曲的问题而使得图像中的文字和表格线有可能出现倾斜、扭曲等情况。这一步通过检测文字行及表格线的角度，并使图像中的每一行文字大致为水平排列，使接近水平的线大致为水平，使接近竖直的线大致为竖直的方式对整幅图像进行转正及矫正处理。这样处理后的图像能提高后续检测表格位置的准确性以及结构化电子表格的正确率。

步骤S2：在图像中采用无锚(Anchor free)的目标检测方法来确定图像中表格的位置，也称图像的表格区域。所述无锚的目标检测方法例如包括CornerNet算法、CenterNet算法、ExtremeNet算法、DenseBox算法、YOLO算法、FSAF算法、FCOS算法、FoveaBox算法、RepPoints算法、Sparse RCNN算法、CentripetalNet算法、SaccadeNet算法等，这些算法通过训练能在图像中识别出不同版式的表格，从而检测出图像中表格的位置。后续的检测表格线、结构化电子表格的操作都仅在图像的表格区域中进行。

步骤S3：在图像的表格区域中检测表格线。表格线包括用于分隔表格内部与表格外部的外部边框线、以及在表格内部用于区分行、列的内部分隔线。

步骤S4：根据对图像的表格区域进行光学字符识别(OCR，Optical character recognition)获取的文字行信息，对步骤S3检测得到的表格线进行过滤，移除虚假表格线，得到干净的真实表格线。所述文字行信息包括文字行的高度、单个文字的宽度、文字行的角度等。对图像的表格区域进行光学字符识别以获取文字行信息，可以在这一步或之前的任意步骤中进行，也包括对原始图像进行光学字符识别以获取文字行信息然后缩小到图像的表格区域内的文字行信息的方式(非优选)。

例如，某些文字笔划较长、或者相邻文字的笔划连接在一起，就可能在步骤S3中被检测为表格线，但属于虚假表格线，根据文字行高度、单个文字的宽度可以过滤掉。又如，当步骤S3检测出的某一条竖直表格线的长度小于文字行高度，则判定该条垂直表格线为虚假表格线。再如，将文字行的角度认为呈水平，那么竖直线也就确定了；如果步骤S3检测出的某一条表格线超出了水平线的容许角度范围，也超出了竖直线的容许角度范围，则判定该条表格线为虚假表格线。水平线的容许角度范围例如为水平线的正负15度。竖直线的容许角度范围例如为竖直线的正负15度。

步骤S5：根据表格线之间的位置关系，将所有表格线分别归入各个行、各个列的组别。由于图像质量不佳等因素，不可避免地存在同一条表格线被检测成多条表格线的情况。同时表格中也存在为格式需要，属于同一行、同一列的表格线分成多条表格线的情况。这一步就是为了准确还原单元格所属行、列，根据表格线中水平线之间的位置关系，将水平线归入不同行的组别；根据表格线中竖直线之间的位置关系，将竖直线归入不同列的组别。

例如，通过计算表格线的角度区分水平线和竖直线。对于水平线，按起始端点排序后进行循环处理，遇到垂直距离接近且水平部分有重叠的水平线就进行合并去重，如此可将逻辑上属于上同一条水平线但实际被检测为多条的水平线组装为一条水平线，处理过程可使用并查集(Union-Find)算法进行加速。最终，每一表格行的水平线归为一组，组内根据是否有单元格合并情况包含一根或多根水平线。对竖直线的处理采用类似方法。

步骤S6：根据表格线所属组别构建单元格，并将每一单元格范围内的光学字符识别结果作为该单元格中的文字信息保存。这使得电子表格的版式与原始图像中的表格的版式保持一致。对单元格进行光学字符识别以获取识别结果，可以在这一步或之前的任意步骤中进行，包括对图像的表格区域进行光学字符识别以获取识别结果然后缩小到单元格范围内的识别结果的方式(优选)，也包括对原始图像进行光学字符识别以获取识别结果然后缩小到单元格范围内的识别结果的方式(非优选)。

优选地，对图像的表格区域进行光学字符识别以获取文字行信息(步骤S4或之前任意步骤)、对单元格进行光学字符识别以获取识别结果(步骤S6或之前任意步骤)，同时进行。

步骤S7：根据表格最外侧一圈的单元格是否结构完整、以及相邻单元格之间是否有间隙，判断是否有缺失的单元格。如有缺失的单元格，在相应位置补齐单元格，以使表格最外侧一圈的单元格的结构完整、并且相邻单元格之间没有间隙，得到完整的结构化的电子表格。由于表格的版式中缺少外部边框、或者图像质量不佳、或者拍摄的表格不完整等情况，都会引起表格线丢失，这会导致某些单元格无法构建。这一步通过补齐单元格提高了结构化电子表格的完整性。

例如，根据在图像中检测到的表格位置、文本行位置、表格线位置判断是否需要补充表格的外部边框线。如需补充，根据已有的正交方向的线段信息补充外部边框线。例如表格最左边的竖直外部边框线需补充，则根据已有的水平线段的左侧端点进行拟合得出，其它位置的外部边框线采用类似方式处理。又如，单元结构构建完成后，可知单元格所属行、列的编号。因表格为矩形结构且内部不能存在空洞，根据已有的行、列编号信息可判断是否有缺失单元格。如有缺失单元格可根据已存在的相邻单元格推导出缺失单元格的行、列编号及位置信息并补全。再如，当相邻单元格之间的间隙超出文字行高度时，判定存在缺失的单元格。

请参阅图2，所述步骤S3具体包括如下子步骤。

步骤S31：采用基于语义分割(Semantic Segmentation)网络的算法在图像的表格区域中预测和提取表格线区域，表格线区域是指表格线可能出现的位置，就是一些孤立的像素点。所述基于语义分割网络的算法例如采用基于U-Net的像素分类方法，U-Net是一种用于生物医学图像分割(image segmentation)的卷积神经网络(convolutional neural network)算法。

优选地，所述基于语义分割网络的算法是先通过标注的表格线数据进行训练，然后再使用训练好的算法预测和提取表格线区域。所述标注的表格线数据是指已经明确标注为“是”表格线的图像、以及明确标注为“不是”表格线的图像。

步骤S32：在图像的表格线区域通过曲线拟合(curve fitting)方法检测出表格线，也就是采用传统的曲线拟合方法将前一步预测的孤立的像素点连接成线段。

图2所示方法结合了数据驱动(先训练算法再用于预测和提取)和经典图像处理算法(曲线拟合)，不仅能有效抑制噪声，而且对不同版式的表格线的检测具有良好的健壮性(robustness，也称鲁棒性)。

请参阅图3，本申请提出的将图像中表格转换为电子表格的装置包括转正及矫正处理单元1、表格位置检测单元2、表格线检测单元3、表格线滤除单元4、表格线分组单元5、单元格构建单元6、单元格补齐单元7。

所述转正及矫正处理单元1用来根据图像中的文字行及线，对图像做转正及矫正处理。

所述表格位置检测单元2用来在图像中采用无锚的目标检测方法来确定图像中表格的位置，也称图像的表格区域。

所述表格线检测单元3用来在图像的表格区域中检测表格线。

所述表格线滤除单元4用来根据对图像的表格区域进行光学字符识别获取的文字行信息，移除虚假表格线，得到真实表格线。

所述表格线分组单元5用来根据表格线之间的位置关系，将所有表格线分别归入各个行、各个列的组别。

所述单元格构建单元6用来根据表格线所属组别构建单元格，并将每一单元格范围内的光学字符识别结果作为该单元格中的文字信息保存。

所述单元格补齐单元7用来根据表格最外侧一圈的单元格是否结构完整、以及相邻单元格之间是否有间隙，判断是否有缺失的单元格。如有缺失的单元格，在相应位置补齐单元格，以使表格最外侧一圈的单元格的结构完整、并且相邻单元格之间没有间隙，得到完整的结构化的电子表格。

本申请提出的将图像中表格转换为电子表格的方法及装置具有如下有益的技术效果。

第一，先检测确定图像中表格的位置，然后对图像的表格区域(仅为原始图像的一部分)进行检测表格线、光学字符识别、构建单元格等操作。这与对整幅图像进行相应操作相比，简化了各项操作的工作量，减少了各项操作的处理时间。

第二，针对图像变形对表格检测的影响，先对图像做转正及矫正处理，再检测图像中的表格，提高了表格检测和后续结构化电子表格的准确性。

第三，根据表格版式多样的特点，采用无锚的目标检测方法检测图像中的表格，能准确检测出不同长宽比及不同分隔样式的有线或无线表格。无线表格就是指文档内容按照表格的格式被分隔开来，但是没有表格线。

第四，针对图像质量差及文字干扰造成的表格线容易误检或漏检的情况，采用基于语义分割网络的算法，先通过已标注数据的训练，再用于检测表格线区域，从而能够去除干扰。同时结合曲线拟合方法实现表格线的检测。

第五，对表格线基于距离进行分组，根据组别得到单元格行列位置从而构建单元格。同时为避免因为单元格边界线缺失而导致的单元格无法构建的问题，判断并补全缺失的单元格，提高了电子表格的完整性。

以上仅为本申请的优选实施例，并不用于限定本申请。对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种将图像中表格转换为电子表格的方法，其特征是，包括如下步骤；

步骤S1：根据图像中的文字行及线，对图像做转正及矫正处理；

步骤S2：在图像中采用无锚的目标检测方法来确定图像中表格的位置，也称图像的表格区域；

步骤S3：在图像的表格区域中检测表格线；

步骤S4：根据对图像的表格区域进行光学字符识别获取的文字行信息，对步骤S3检测得到的表格线进行过滤，移除虚假表格线，得到真实表格线；

步骤S5：根据表格线之间的位置关系，将所有表格线分别归入各个行、各个列的组别；

步骤S6：根据表格线所属组别构建单元格，并将每一单元格范围内的光学字符识别结果作为该单元格中的文字信息保存；

步骤S7：根据表格最外侧一圈的单元格是否结构完整、以及相邻单元格之间是否有间隙，判断是否有缺失的单元格；如有缺失的单元格，在相应位置补齐单元格，以使表格最外侧一圈的单元格的结构完整、并且相邻单元格之间没有间隙，得到完整的结构化的电子表格。
根据权利要求1所述的将图像中表格转换为电子表格的方法，其特征是，所述步骤S1中，检测图像中的文字行及表格线的角度，并使图像中的每一行文字大致为水平排列，使表格线中的水平线大致为水平，使表格线中的竖直线大致为竖直的方式对整幅图像进行转正及矫正处理。
根据权利要求1所述的将图像中表格转换为电子表格的方法，其特征是，所述步骤S2中，所述无锚的目标检测方法包括CornerNet算法、CenterNet算法、ExtremeNet算法、DenseBox算法、YOLO算法、FSAF算法、FCOS算法、FoveaBox算法、RepPoints算法、Sparse RCNN算法、CentripetalNet算法、SaccadeNet算法的任意一种或多种。
根据权利要求1所述的将图像中表格转换为电子表格的方法，其特征是，所述步骤S3具体包括如下子步骤；

步骤S31：采用基于语义分割网络的算法在图像的表格区域中预测和提取表格线区域，表格线区域是指表格线可能出现的位置，就是一些孤立的像素点；

步骤S32：在图像的表格线区域通过曲线拟合方法检测出表格线，也就是采用曲线拟合方法将前一步预测的孤立的像素点连接成线段。
根据权利要求4所述的将图像中表格转换为电子表格的方法，其特征是，所述步骤S31中，所述基于语义分割网络的算法是先通过标注的表格线数据进行训练，然后再使用训练好的算法预测和提取表格线区域。
根据权利要求1所述的将图像中表格转换为电子表格的方法，其特征是，所述步骤 S4中，对图像的表格区域进行光学字符识别以获取文字行信息，在这一步或之前的任意步骤中进行，也包括对原始图像进行光学字符识别以获取文字行信息然后缩小到图像的表格区域内的文字行信息的方式。
根据权利要求1所述的将图像中表格转换为电子表格的方法，其特征是，所述步骤S5中，对于水平线，按起始端点排序后进行循环处理，遇到垂直距离接近且水平部分有重叠的水平线就进行合并去重，如此将逻辑上属于上同一条水平线但实际被检测为多条的水平线组装为一条水平线；最终，每一表格行的水平线归为一组，组内根据是否有单元格合并情况包含一根或多根水平线；对竖直线的处理采用类似方法。
根据权利要求1所述的将图像中表格转换为电子表格的方法，其特征是，所述步骤S6中，对单元格进行光学字符识别以获取识别结果，在这一步或之前的任意步骤中进行，包括对图像的表格区域进行光学字符识别以获取识别结果然后缩小到单元格范围内的识别结果的方式，也包括对原始图像进行光学字符识别以获取识别结果然后缩小到单元格范围内的识别结果的方式。
根据权利要求6或8所述的将图像中表格转换为电子表格的方法，其特征是，对图像的表格区域进行光学字符识别以获取文字行信息、对单元格进行光学字符识别以获取识别结果，两者同时进行。
一种将图像中表格转换为电子表格的装置，其特征是，包括转正及矫正处理单元、表格位置检测单元、表格线检测单元、表格线滤除单元、表格线分组单元、单元格构建单元、单元格补齐单元；

所述转正及矫正处理单元用来根据图像中的文字行及线，对图像做转正及矫正处理；

所述表格位置检测单元用来在图像中采用无锚的目标检测方法来确定图像中表格的位置，也称图像的表格区域；

所述表格线检测单元用来在图像的表格区域中检测表格线；

所述表格线滤除单元用来根据对图像的表格区域进行光学字符识别获取的文字行信息，移除虚假表格线，得到真实表格线；

所述表格线分组单元用来根据表格线之间的位置关系，将所有表格线分别归入各个行、各个列的组别；

所述单元格构建单元用来根据表格线所属组别构建单元格，并将每一单元格范围内的光学字符识别结果作为该单元格中的文字信息保存；

所述单元格补齐单元用来根据表格最外侧一圈的单元格是否结构完整、以及相邻单元格之间是否有间隙，判断是否有缺失的单元格；如有缺失的单元格，在相应位置补齐单元格，以使表格最外侧一圈的单元格的结构完整、并且相邻单元格之间没有间隙，得到完整的结构化的电子表格。