WO2015021737A1

WO2015021737A1 - 一种将纸质文件转换为电子文件的方法

Info

Publication number: WO2015021737A1
Application number: PCT/CN2014/000694
Authority: WO
Inventors: 熊雨前; 周美玲
Original assignee: 福建福昕软件开发股份有限公司北京分公司
Priority date: 2013-08-12
Filing date: 2014-07-22
Publication date: 2015-02-19
Also published as: US20160180164A1; CN104376317A; CN104376317B

Abstract

一种将纸质文件转换为电子文件的方法。该方法包括：步骤1：将纸质文件扫描为电子图片文件；步骤2：按块对电子图片文件所包含的非空白部分进行切分，使非空白部分被切分为若干个块；其中，块为行和列中的一种；步骤3：将每个块切分为一个以上的字符图片；步骤4：确定块之间的位置关系以及属于同一块的字符图片之间的位置关系；步骤5：将属于同一块的所有字符图片按照相互之间的位置关系排列为一个新块；步骤6：将所有新块按照块之间的位置关系排列，得到电子文件。该方法能同时提高转换效率以及电子文件与纸质文件内容的相符程度。

Description

一种将纸质文件转换为电子文件的方法技术领域

本发明涉及将紙质文件转换为电子文件的技术领域，特别是涉及一种将纸质文件转换为电子文件的方法。背景技术

平板电脑、电纸书等技术的出现，使得阅读对象逐渐从纸质文件转换为电子文件，而目前纸质文件浩如烟海，这就需要有将纸质文件转换为电子文件的技术与之相适应来满足读者的阅读需求。

常见的将纸质文件转换为电子文件的技术为 OCR (Optical Character Recognition , 光学字符识别）技术，其具体过程为：将紙质文件扫描为电子图片文件；将该电子图片文件切分为多个字符图片，每个字符图片仅包括一个字符；逐个识别每个字符图片中的字符，这其中包括纠错和联想功能以减少错误率；将字符的识别结果按顺序输出，从而得到最终的电子文件。

OCR技术的核心是对字符图片逐个识别，其判断依据是字符图片的轮廓。由于轮廓相似的字符有很多，因而识别的正确率不高，最终得到的电子文件也就不会太准确。而为了提高识别正确率， OCR技术要花费大量的时间来进行字符识别、查找可疑字符、纠错等处理，因而 OCR技术的效率也较低。发明内容

本发明所要解决的技术问题是提供一种将紙质文件转换为电子文件的方法，能同时提高转换效率以及电子文件与纸质文件内容的相符程度。

本发明解决上述技术问题的技术方案如下：一种将纸质文件转换为电子文件的方法，该方法包括：

步骤 1 : 将所述紙质文件扫描为电子图片文件；

步骤 2 : 按块对所述电子图片文件所包含的非空白部分进行切分，使所述非空白部分被切分为若干个所述块；其中，所述块为行和列中的一种；

步骤 3 : 将每个所述块切分为一个以上的字符图片；

步骤 4 : 确定所述块之间的位置关系以及属于同一块的所述字符图片之间的位置关系；

步驟 5 : 将属于同一块的所有字符图片按照相互之间的位置关系排列为一个新块；步骤 6 : 将所有所述新块按照所述块之间的位置关系排列，得到所述电子文件。本发明的有益效果是：本发明中，将纸质文件扫描为电子图片文件，按块对电子图片文件的非空白部分进行切分得到若干个块，然后将块切分为字符图片之后，本发明根据字符图片之间的位置关系将字符图片重新排列为一个新块，根据块之间的位置关系将得到的新块排列为电子文件。因此，本发明无需进行现有的 OCR技术中的字符识别、查找可疑字符、纠错、联想等处理，只需利用切分电子图片文件得到的字符图片即可实现转换任务，这大大提高了转换效率，同时，由于本发明利用切分得到的字符图片重新排布得到电子文件，不会引入识别错误，也就大大提高了电子文件与纸质文件内容的相符程度，字符正确率基本可达到 100%。

在上述技术方案的基础上，本发明还可以做如下改进：

进一步，在所述步骤 1之后，在所述步骤 2之前，还包括步骤 1-2 : 旋转所述电子图片文件，使其中的字符处于正向。

进一步，在所述步骤 1-2中，在旋转所述电子图片文件之前，还包括：删除所述电子图片文件中的污点和划痕。

进一步，在所述步骤 1-2中，在删除所述电子图片文件中的污点和划痕之前，还包括：放大所述电子图片文件。

进一步，在所述步骤 1-2中，在旋转所述电子图片文件使其中的字符处于正向之后，还包括：将所述电子图片文件中处于上边距、下边距、左边距及右边距范围内的白边部分切除。附图说明

图 1为本发明提出的将纸质文件转换为电子文件的方法的流程图；

图 2为本发明扫描得到的一个电子图片文件的示意图；

图 3为利用本发明对电子图片文件进行旋转后的示意图；

图 4为利用本发明切除电子图片文件四个边距范围内的白边部分后的示意图；图 5为利用本发明按行对电子图片文件所包含的非空白部分进行切分后的示意图；图 6为利用本发明将块切分为字符图片后的示意图。具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

本发明提出了一种将纸质文件转换为电子文件的方法，图 1 为该方法的流程图。如图 1所示，该方法包括：

步骤 101 : 将纸质文件扫描为电子图片文件。

本发明中的紙质文件可以为书籍、画册等任一记载在紙张上的文件。

对紙质文件进行扫描从而得到电子图片文件是实现紙质文件电子化的第一步，该步骤可利用扫描仪来完成。

步骤 102 : 按块对电子图片文件所包含的非空白部分进行切分，使非空白部分被切分为若干个块。

本发明中的块指的是行和列中的一种。

电子图片文件由步骤 101 中的扫描步骤得来，紙质文件中的字符、图、表格等内容必然会在电子图片文件中以某种形式（如以图片的形式等）反映出来，这就对应着电子图片文件中的非空白部分。而除去上述的非空白部分之外，电子图片文件中还必然包含空白部分，例如其上边距、下边距、左边距、右边距范围内的白边部分，等等。

该步骤仅对电子图片文件中的非空白部分进行切分，切分结果为若干个块。当然，这里的切分结果也都是电子图片的形式。例如，按照行对非空白部分进行切分，则切分结果为若干个电子图片形式的行。进一步，如果非空白部分的内容是文字，则本步骤得到的切分结果为文字的每一行的电子图片；如果非空白部分的内容是表格，则切分时会区分该表格是带边框的表格还是不带边框的表格，如果是带边框的表格，则将该表格作为一行来处理，即切分结果为该表格的电子图片，如果是不带边框的表格，则将该表格的内容按行来分成块，即切分结果为表格的每一行的电子图片；这里应该注意，本步骤对电子图片文件中内容为图片的部分的切分结果仍为该图片的电子图片，即如果非空白部分的内容为图片，则切分结果仍为该图片的电子图片。按列对非空白部分进行切分的方法与此类此，如果非空白部分的内容是文字，则本步骤得到的切分结果为文字的每一列的电子图片；如果非空白部分的内容是表格，也要区分该表格是带边框的表格还是不带边框的表格，如果是带边框的表格，则将该表格作为一列来处理，即切分结果为该表格的电子图片，如果是不带边框的表格，则将该表格的内容按列来分成块，即切分结果为表格的每一列的电子图片；如果非空白部分的内容为图片，则切分结果仍为该图片的电子图片，这一点与按行进行切分的结果相同。在切分表格时之所以要区分表格是否带有边框，是因为其边框的框线将表格联接为一个整体，不会被分成更小的行或列，因而只能将该表格作为一个整体（即一行或一列）来处理。

由于电子图片文件中的空白部分不会与紙质文件中的内容相对应，因而本步驟无需对其进行处理。

步骤 103 : 将每个块切分为一个以上的字符图片。

步骤 102所得到的块只是对电子图片文件中非空白部分的初步切分，事实上，每个块的信息量（即与紙质文件中的内容相对应的内容）仍然较大，所包含的空白部分有时也较多，因而本步骤对每个块进一步进行了切分，得到的结果称为字符图片。由于将块切分成了一个以上的字符图片，因而在多数情况下，每个字符图片所包含的信息量要小于其所属的块，当然，也不排除一个块被切分为一个字符图片，或者块中的所有信息量都被切分到一个字符图片中，其余字符图片全部不包含信息量的情形，在这两种情形中，某个字符图片的信息量与其所属的块相同。

本步骤中的字符图片仍是电子图片的形式，其包含的信息不能变化。

步骤 104：确定块之间的位置关系以及属于同一块的字符图片之间的位置关系。

本步骤是确定电子图片文件中非空白部分的布局的步驟。通过确定块之间的位置关系，可确定行与行之间、或者列与列之间的先后顺序，通过确定属于同一块的字符图片之间的位置关系，可以确定同一行的各个字符图片之间的先后顺序。

步骤 105：将属于同一块的所有字符图片按照相互之间的位置关系排列为一个新块。本步骤是重新排布各字符图片从而得到新块的步骤，排布的规则为步骤 104所确定的属于同一块的字符图片之间的位置关系。这样，所得到的新块的内容与相应字符图片所属的块是相同的，而且，由于排布未涉及字符的识别，因而不会出现字符被误读的情况，只要各字符图片的排列顺序正确，各新块中的字符正确率完全可以达到 100%。

由于每个新块中的各字符图片都来自步骤 102所得到的某个块，因而这里的新块与块之间实际上就具有了——对应关系。

步骤 106 : 将所有新块按照块之间的位置关系排列，得到电子文件。

本步骤是将步骤 105排列得到的新块重新排布的步骤，排布的规则为步骤 104所确定的块之间的位置关系。也就是说，本步骤是将新块按照其对应的块在电子图片文件中的顺序来"#列，从而得到布局与电子图片文件的布局，同时也是纸质文件的布局一致的电子文件。由此可见，本发明中，将紙质文件扫描为电子图片文件，按块对电子图片文件的非空白部分进行切分得到若干个块，然后将块切分为字符图片之后，本发明根据字符图片之间的位置关系将字符图片重新排列为一个新块，根据块之间的位置关系将得到的新块排列为电子文件。因此，本发明无需进行现有的 OCR技术中的字符识别、查找可疑字符、纠错、联想等处理，只需利用切分电子图片文件得到的字符图片即可实现转换任务，这大大提高了转换效率，同时，由于本发明利用切分得到的字符图片重新排布得到电子文件，不会引入识别错误，也就大大提高了电子文件与纸质文件内容的相符程度，字符正确率基本可达到 100%。

在步骤 101之后，在步骤 102之前，还可以包括步骤 101-102 : 旋转电子图片文件，使其中的字符处于正向。

在步骤 101402中， "字符处于正向" 的含义是：如果对字符所处的电子图片文件在屏幕上进行显示，则屏幕上显示的该字符所处的角度与其标准角度完全一致。例如，数字 "1 " 的标准角度为与屏幕或紙面的左右边平行，但在步骤 101的扫描步骤中，常常因紙质文件的放置位置不标准而造成扫描得到的电子图片文件发生了一定角度的转动，这样，该电子图片文件中所显示的数字 "1 " 就不再处于其标准角度，而是与电子图片文件 (或屏幕）的左右边有了一定的夹角，因而需要在执行步骤 102之前对电子图片文件进行旋转，使其中的字符处于正向，以提高步骤 102和步骤 103切分的正确率。

在步骤 101-102中，在旋转电子图片文件之前，还可以包括：删除电子图片文件中的污点和划痕。

利用该步骤，可以减少或消除污点、划痕等噪音数据对本发明转换正确性的影响，并可以节约转换时间，提高转换效率。

进一步，在步骤 101-102中，在删除电子图片文件中的污点和划痕之前，还可以包括：放大电子图片文件。

放大电子图片文件有利于降低污点、划痕判断的难度，提高判断正确率。

此外，在步骤 101- 102中，在旋转电子图片文件使其中的字符处于正向之后，还可以包括：将电子图片文件中处于上边距、下边距、左边距及右边距范围内的白边部分切除。

通过切除电子图片文件中处于上边距、下边距、左边距及右边距范围内的白边部分，可以减少电子图片文件的页面范围，降低后续步骤的工作量，提高转换效率和正确率。

图 2为本发明扫描得到的一个电子图片文件的示意图，直观看去，图 2所显示的内容与扫描前的紙质文件的内容相比，在顺时针方向发生了一定角度的旋转。图中处于上、下、左、右的四条黑线表示该电子图片文件的边界，并无实际意义，图 3-图 6中各黑线的含义与此相同。

图 3-图 6是对图 2电子图片文件进行本发明所述的某些操作步骤后的示意图。其中，图 3为利用本发明对电子图片文件进行旋转后的示意图，如图 3所示，整个电子图片文件均在逆时针方向相对于图 2旋转了一定角度，从而使顶部的图片（标有 "Foxit Software" 文字及图标、 "Company Brochure" 文字的黑底图片）及下面的文字都处于各自正向。在图 3中，标号 301所指示的范围为图 3 电子图片文件的左边距范围内的白边部分，与此类此，标号 302所指示的范围为图 3电子图片文件的右边距范围内的白边部分，标号 303 所指示的范围为图 3 电子图片文件的上边距范围内的白边部分，标号 304所指示的范围为图 3 电子图片文件的下边距范围内的白边部分。这样，利用本发明切除电子图片文件上边距、下边距、左边距和右边距这四个边距范围内的白边部分后，得到了图 4所示的示意图。在此基础上，再按行对电子图片文件所包含的非空白部分进行切分，就得到图 5 示意图，进而对图 5 中的各行（包括顶部的图片）进行步骤 103所述的进一步切分，就得到图 6。由图 6 可以看出，这里的字符图片可以仅包含一个字符，如将 "Company Brochure" 切分为 15个字母及多个空格，当然，这里的字母和空格仍以电子图片的形式存在。图 6中的字符图片还可以包括多个字符，如单词 "Solution"、 "details" 等。处于顶部的图片在图 6中仍为一个字符图片。

由此可见，本发明具有以下优点：

( 1 ) 本发明中，将紙质文件扫描为电子图片文件，按块对电子图片文件的非空白部分进行切分得到若干个块，然后将块切分为字符图片之后，本发明才艮据字符图片之间的位置关系将字符图片重新排列为一个新块，根据块之间的位置关系将得到的新块排列为电子文件。因此，本发明无需进行现有的 OCR技术中的字符识别、查找可疑字符、纠错、联想等处理，只需利用切分电子图片文件得到的字符图片即可实现转换任务，这大大提高了转换效率，同时，由于本发明利用切分得到的字符图片重新排布得到电子文件，不会引入识别错误，也就大大提高了电子文件与纸质文件内容的相符程度，字符正确率基本可达到 100%。

(2) 本发明中，在对电子图片文件进行切分之前，还将电子图片文件进行了旋转，使其中的字符处于正向，这有利于提高切分步骤的正确率。

(3)本发明中，在旋转电子图片文件之前，还删除了电子图片文件中的污点和划痕，可以减少或消除污点、划痕等噪音数据对本发明转换正确性的影响，并可以节约转换时间，提高转换效率。

(4) 本发明通过切除电子图片文件中处于上边距、下边距、左边距及右边距范围内的白边部分，可以减少电子图片文件的页面范围，降低后续步驟的工作量，提高转换效率和正确率。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

权利要求

1. 一种将纸质文件转换为电子文件的方法，其特征在于，该方法包括：步骤 1 : 将所述纸质文件扫描为电子图片文件；

步骤 3 : 将每个所述块切分为一个以上的字符图片；

步骤 5：将属于同一块的所有字符图片按照相互之间的位置关系排列为一个新块；步骤 6 : 将所有所述新块按照所述块之间的位置关系排列，得到所述电子文件。

2. 根据权利要求 1 所述的方法，其特征在于，在所述步骤 1之后，在所述步骤 2 之前，还包括步骤 1-2 : 旋转所述电子图片文件，使其中的字符处于正向。

3. 根据权利要求 2所述的方法，其特征在于，在所述步驟 1-2 中，在旋转所述电子图片文件之前，还包括：删除所述电子图片文件中的污点和划痕。

4. 根据权利要求 3所述的方法，其特征在于，在所述步驟 1-2 中，在删除所述电子图片文件中的污点和划痕之前，还包括：放大所述电子图片文件。

5. 根据权利要求 2所述的方法，其特征在于，在所述步骤 1-2 中，在旋转所述电子图片文件使其中的字符处于正向之后，还包括：将所述电子图片文件中处于上边距、下边巨、左边距及右边距范围内的白边部分切除。