WO2023123763A1

WO2023123763A1 - 一种文档图像的方向校正方法与装置

Info

Publication number: WO2023123763A1
Application number: PCT/CN2022/088550
Authority: WO
Inventors: 刘鹏伟; 郭丰俊; 龙腾; 丁凯; 张彬; 镇立新
Original assignee: 上海合合信息科技股份有限公司; 上海临冠数据科技有限公司; 上海生腾数据科技有限公司; 上海盈五蓄数据科技有限公司
Priority date: 2021-12-31
Filing date: 2022-04-22
Publication date: 2023-07-06
Also published as: CN114267046A

Abstract

本申请公开了一种文档图像的方向校正方法。寻找输入图像中文档区域的边和四个角点，使用透视变换方法对所述输入图像进行切边和小角度方向校正。将所述切边和小角度方向校正后的图像通过一个角度分类模型得到偏差角度检测值；所述偏差角度检测值仅有四种取值——0度、或90度、或180度、或270度。根据所述偏差角度检测值对所述切边和小角度方向校正后的图像的方向进行校正。

Description

一种文档图像的方向校正方法与装置

交叉引用

本申请基于申请号为“202111679610.5”、申请日为2021年12月31日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此以引入方式并入本申请。

技术领域

本申请涉及一种文档图像的方向校正方法。

背景技术

文档图像是指图像格式的文档，通常是由纸质文档采用拍照、扫描等方式转换为图像格式的文档。一般将能够正确阅读文档的方向视为正确方向，有些文档图像的方向并非正确方向，例如颠倒了180度。为了进行浏览阅读、OCR(optical character recognition，光学字符识别)识别等操作，文档图像的方向需要校正为正确方向。

申请公布号为CN112329777A、申请公布日为2021年2月5日的中国发明专利申请《基于方向检测的文字识别方法、装置、设备及介质》公开了：对切片样本进行旋转处理，得到第一训练样本；利用第一训练样本训练MobileNet-v2网络，得到文本方向检测模型；当接收到待检测图片时，对待检测图片进行文本位置检测，得到至少一个文字切片；将预处理后的每个文字切片输入至所述文本方向检测模型，并获取文本方向检测模型的输出作为每个文字切片的文本方向。该文献主要涉及文档图像中单行文字的阅读方向检测，而不是整张文档图像的方向检测。

发明内容

本申请提出了一种文档图像的方向校正方法，包括如下步骤。步骤S10：寻找输入图像中文档区域的边和四个角点，使用透视变换方法对输入图像进行切边和小角度方向校正；如果输入图像是文档图像，那么切边后的图像就是输入图像的文档区域；小角度方向校正是指将输入图像的文档区域校正为与正确方向的偏差角度为0度、或90度、或180度、或270度的四种形态之一，输入图像的文档区域与四种形态的哪一种最接近，就校正为哪一种形态。步骤S20：将切边和小角度方向校正后的图像通过一个角度分类模型得到偏差角度检测值；偏差角度检测值仅有四种取值——0度、或90度、或180度、或270度。角度分类模型采用如下方式得到：(1)收集多张切边后的文档图像以及无文档的背景类图像及相应的方向标签作为训练数据集合；切边后的文档图像的实际方向与正确方向的偏差角度或者为0度，或者为90度，或者为180度，或者为270度；切边后的文档图像的方向标签用来记载该张切边后的文档图像的实际方向与正确方向的偏差角度；背景类图像的方向标签表示该张图像为背景类图像；(2)对训练数据集合中的部分或全部图像以90度为单位进行随机旋转，并相应地改变旋转后的切边后的文档图像的方向标签，得到增强的训练数据集合；(3)使用增强的训练数据集合训练一个角度分类模型，角度分类模型用于区分文档图像与背景类图像，还用于识别每张文档图像的实际方向与正确方向的偏差角度是四种取值中的哪一种。步骤S30：根据偏差角度检测值对切边和小角度方向校正后的图像的方向进行校正。

本申请还提出了一种文档图像的方向校正装置，包括切边和小角度方向校正单元、偏差角度检测单元、以及大角度方向校正单元。切边和小角度方向校正单元用于寻找输入图像中文档区域的边和四个角点，使用透视变换方法对输入图像进行切边和小角度方向校正；如果输入图像是文档图像，那么切边后的图像就是输入图像的文档区域；小角度方向校正是指将输入图像的文档区域校正为与正确方向的偏差角度为0度、或90度、或180度、或270度的四种形态之一，输入图像的文档区域与四种形态的哪一种最接近，就校正为哪一种形态。偏差角度检测单元用于将切边和小角度方向校正后的图像通过一个角度分类模型得到偏差角度检测值；偏差角度检测值仅有四种取值——0度、或90度、或180度、或270度；角度分类模型采用如下方式得到：(1)收集多张切边后的文档图像以及无文档的背景类图像及相应的方向标签作为训练数据集合；切边后的文档图像的实际方向与正确方向的偏差角度或者为0度，或者为90度，或者为180度，或者为270度；切边后的文档图像的方向标签用来记载该张切边后的文档图像的实际方向与正确方向的偏差角度；背景类图像的方向标签表示该张图像为背景类图像；(2)对训练数据集合中的部分或全部图像以90度为单位进行随机旋转，并相应地改变旋转后的切边后的文档图像的方向标签，得到增强的训练数据集合；(3)使用增强的训练数据集合训练一个角度分类模型，角度分类模型用于区分文档图像与背景类图像，还用于识别每张文档图像的实际方向与正确方向的偏差角度是四种取值中的哪一种。大角度方向校正单元用于根据偏差角度检测值对切边和小角度方向校正后的图像的方向进行校正。

附图说明

图1是本申请提出的文档图像的方向校正方法的流程示意图；

图2至图5是透视变换进行小角度方向校正之前的几张切边后的图像的示意图；

图6至图9是透视变换进行小角度方向校正之后的几张切边后的图像的示意图；

图10是本申请提出的文档图像的方向校正装置的结构示意图；

图中附图标记说明：10为切边和小角度方向校正单元、20为偏差角度检测单元、30为大角度方向校正单元。

具体实施方式

本申请所要解决的技术问题是提供一种文档图像的方向校正方法，利用了文档图像中文档区域的信息对图像方向进行判断和快速准确地校正。

本申请取得的技术效果是：针对文档图像提出了一套快速准确切边并校正方向的解决方案。输入一张图片后，系统会自动依据检测算法检测图片中文档区域并给出文档区域的四个角点，通过透视变换切出文档区域并同时进行小角度方向校正，随后通过角度分类模型检测并进行大角度方向校正，为浏览文档图像或其他后续处理操作提供方便。本申请解决的是整张图像的方向检测与校正，而不是其中单行文字的方向。本申请在文档图像的方向转正之前进行了切边处理，提高文档图像方向转正的准确率。本申请在文档图像的方向分类过成中增加了背景类图像，提升了文档图像方向分类的准确率。

请参阅图1，本申请提出的文档图像的方向校正方法包括如下步骤。

步骤S10：寻找输入图像中文档区域的边和四个角点(corner)，使用透视变换(perspective transformation)方法对输入图像进行切边和小角度方向校正，得到切边和小角度方向校正后的图像。如果输入图像是文档图像，那么切边后的图像就是输入图像的文档区域。小角度方向校正是指将输入图像的文档区域校正为与正确方向的偏差角度为0度、或90度、或180度、或270度的四种形态之一，输入图像的文档区域与上述四种形态的哪一种最接近，就校正为哪一种形态。

这一步中如果无法找到输入图像中文档区域的边和四个角点，则表明输入图像属于背景类图像，退出整个流程。

请参阅图2至图5，这是透视变换进行小角度方向校正之前的切边后的图像。请参阅图6至图9，这是透视变换进行小角度方向校正之后的切边后的图像。其中虚线表示切边后的图像的正确方向，实线表示切边后的图像的实际方向，将偏差角度α定义为从切边后的图像的正确方向开始沿着顺时针方向到切边后的图像的实际方向之间的角度，偏差角度α的取值范围是0度≤α＜360度。小角度方向校正具体是指：(1)将0度＜α＜45度以及315度＜α＜360度的切边后的图像，均校正为α＝0度的切边后的图像。图2所示的切边后的图像经过透视变换进行小角度方向校正后就得到图6所示的切边后的图像。(2)将45度＜α＜135度的切边后的图像，均校正为α＝90度的切边后的图像。图3所示的切边后的图像经过透视变换进行小角度方向校正后就得到图7所示的切边后的图像。(3)将135度＜α＜225度的切边后的图像，均校正为α＝180度的切边后的图像。图4所示的切边后的图像经过透视变换进行小角度方向校正后就得到图8所示的切边后的图像。(4)将225度＜α＜315度的切边后的图像，均校正为α＝270度的切边后的图像。图5所示的切边后的图像经过透视变换进行小角度方向校正后就得到图9所示的切边后的图像。还有几种特殊情况说明如下。当α＝0度时，无需进行小角度校正。当α＝45度时，既可以校正为为α＝0度的切边后的图像，也可以校正为α＝90度的切边后的图像。当α＝135度时，既可以校正为α＝90度的切边后的图像，也可以校正为α＝180度的切边后的图像。当α＝225度时，既可以校正为为α＝180度的切边后的图像，也可以校正为α＝270度的切边后的图像。当α＝315度时，既可以校正为为α＝270度的切边后的图像，也可以校正为α＝0度的切边后的图像。小角度方向校正之后得到的切边后的图像的偏差角度α只有四种取值——0度，90度，180度，270度——分别如图6至图9所示。

进一步地，小角度方向校正还包括：当α＝0度时，不进行小角度校正；当α＝45度时，或者校正为为α＝0度的切边后的图像，或者校正为α＝90度的切边后的图像；当α＝135度时，或者校正为为α＝90度的切边后的图像，或者校正为α＝180度的切边后的图像；当α＝225度时，或者校正为为α＝180度的切边后的图像，或者校正为α＝270度的切边后的图像；当α＝315度时，或者校正为为α＝270度的切边后的图像，或者校正为α＝0度的切边后的图像。

步骤S20：将切边和小角度方向校正后的图像通过一个角度分类模型得到偏差角度检测值。偏差角度检测值仅有四种取值——0度、或90度、或180度、或270度。

角度分类模型采用如下方式得到。(1)收集多张图像及相应的方向标签作为训练数据集合(training dataset)。多张图像中，大部分是切边后的文档图像，剩余的小部分是背景类图像。切边后的文档图像是指将边缘的空白区域去除、仅保留图像中的文档区域的图像；并且这些切边后的文档图像的实际方向与正确方向的偏差角度或者为0度，或者为90度，或者为180度，或者为270度。背景类图像是指无文档的图像。切边后的文档图像的方向标签用来记载该张切边后的文档图像的实际方向与正确方向的偏差角度。背景类图像的方向标签固定为一个，表示该张图像为背景类图像。(2)对训练数据集合中的部分或全部图像以90度为单位进行随机旋转，并相应地改变旋转后的切边后的文档图像的方向标签。这样处理后的训练数据集合称为增强的训练数据集合，其目的是使切边后的文档图像在不同方向的分布尽量均匀。(3)使用增强的训练数据集合训练一个角度分类模型，角度分类模型用于区分文档图像与背景类图像，还用于识别每张文档图像的实际方向与正确方向的偏差角度是四种取值中的哪一种。优选地，角度分类模型采用轻量级神经网络(Neural Network，NN)训练得到，例如SqueezeNet、MobileNet、ShuffleNet、EffNet等，以便于部署在智能手机等移动端。优选地，训练过程中增强的训练数据集合中的所有图像的输入尺寸统一缩放到一个固定尺寸，以获得较好的训练效果。

优选地，这一步先将切边和小角度方向校正后的图像缩放为角度分类模型训练时输入图像的固定尺寸，再将缩放后的切边和小角度方向校正后的图像送入角度分类模型。

这一步中，如果角度分类模型判定切边和小角度方向校正后的图像属于背景类图像，则无法给出偏差角度检测值，退出整个流程。

这一步中，如果角度分类模型判定切边和小角度方向校正后的图像的偏差角度检测值为0度，则无需对切边和小角度方向校正后的图像的方向进行校正，退出整个流程。

步骤S30：如果角度分类模型给出了切边和小角度方向校正后的图像的偏差角度检测值，表明切边和小角度方向校正后的图像属于文档图像，此时根据偏差角度检测值对切边和小角度方向校正后的图像的方向进行校正，将切边和小角度方向校正后的图像旋转为正确方向。这一步是针对切边和小角度方向校正后的图像进行旋转校正，方便对方向校正后的图像的阅读与打印。

请参阅图10，本申请提出的文档图像的方向校正装置包括切边和小角度方向校正单元10、偏差角度检测单元20、大角度方向校正单元30。

切边和小角度方向校正单元10用于寻找输入图像中文档区域的边和四个角点，使用透视变换方法对输入图像进行切边和小角度方向校正，得到切边和小角度方向校正后的图像。

偏差角度检测单元20用于将切边和小角度方向校正后的图像通过一个角度分类模型得到偏差角度检测值。偏差角度检测值仅有四种取值——0度、或90度、或180度、或270度。角度分类模型采用如下方式得到。(1)收集多张图像及相应的方向标签作为训练数据集合。多张图像中，大部分是切边后的文档图像，剩余的小部分是背景类图像。切边后的文档图像的实际方向与正确方向的偏差角度或者为0度，或者为90度，或者为180度，或者为270度。背景类图像是指无文档的图像。切边后的文档图像的方向标签用来记载该张切边后的文档图像的实际方向与正确方向的偏差角度。背景类图像的方向标签固定为一个，表示该张图像为背景类图像。(2)对训练数据集合中的部分或全部图像以90度为单位进行随机旋转，并相应地改变旋转后的切边后的文档图像的方向标签。这样处理后的训练数据集合称为增强的训练数据集合。(3)使用增强的训练数据集合训练一个角度分类模型，角度分类模型用于区分文档图像与背景类图像，还用于识别每张文档图像的实际方向与正确方向的偏差角度是四种取值中的哪一种。

大角度方向校正单元30用于根据偏差角度检测值对切边和小角度方向校正后的图像的方向进行校正，将切边和小角度方向校正后的图像旋转为正确方向。

本申请提出的文档图像的方向校正方法和装置具有如下有益效果。

第一，本申请基于深度学习(deep learning)技术，鲁棒性(robustness，也称健壮性、稳健性)高。

第二，本申请将文档图像的方向计算问题改为背景类图像、四个大角度方向(0度、90度、180度、270度)分类问题，运算速度快。本申请不做每个小角度处理，简化文档图像的方向校正的复杂度，便于神经网络学习。

第三，本申请使用轻量级神经网络训练得到角度分类模型，运算速度快、体积小，特别适合部署在移动端。

以上仅为本申请的优选实施例，并不用于限定本申请。对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种文档图像的方向校正方法，包括如下步骤；

步骤S10：寻找输入图像中文档区域的边和四个角点，使用透视变换方法对所述输入图像进行切边和小角度方向校正；如果所述输入图像是文档图像，那么切边后的图像就是所述输入图像的文档区域；所述小角度方向校正是指将输入图像的文档区域校正为与正确方向的偏差角度为0度、或90度、或180度、或270度的四种形态之一，输入图像的文档区域与所述四种形态的哪一种最接近，就校正为哪一种形态；

步骤S20：将所述切边和小角度方向校正后的图像通过一个角度分类模型得到偏差角度检测值；所述偏差角度检测值仅有四种取值——0度、或90度、或180度、或270度；

所述角度分类模型采用如下方式得到：(1)收集多张切边后的文档图像以及无文档的背景类图像及相应的方向标签作为训练数据集合；所述切边后的文档图像的实际方向与正确方向的偏差角度或者为0度，或者为90度，或者为180度，或者为270度；所述切边后的文档图像的方向标签用来记载该张切边后的文档图像的实际方向与正确方向的偏差角度；所述背景类图像的方向标签表示该张图像为背景类图像；(2)对所述训练数据集合中的部分或全部图像以90度为单位进行随机旋转，并相应地改变旋转后的切边后的文档图像的方向标签，得到增强的训练数据集合；(3)使用所述增强的训练数据集合训练一个角度分类模型，所述角度分类模型用于区分文档图像与背景类图像，还用于识别每张文档图像的实际方向与正确方向的偏差角度是四种取值中的哪一种；

步骤S30：根据所述偏差角度检测值对所述切边和小角度方向校正后的图像的方向进行校正。
根据权利要求1所述的文档图像的方向校正方法，其中，所述步骤S10中，如果无法找到输入图像中文档区域的边和四个角点，则表明所述输入图像不是文档图像，退出整个流程。
根据权利要求1或2所述的文档图像的方向校正方法，其中，所述步骤S10中，将偏差角度α定义为从切边后的图像的正确方向开始沿着顺时针方向到切边后的图像的实际方向之间的角度，偏差角度α的取值范围是0度≤α＜360 度；所述小角度方向校正包括：将0度＜α＜45度以及315度＜α＜360度的切边后的图像均校正为α＝0度的切边后的图像；将45度＜α＜135度的切边后的图像均校正为α＝90度的切边后的图像；将135度＜α＜225度的切边后的图像均校正为α＝180度的切边后的图像；将225度＜α＜315度的切边后的图像均校正为α＝270度的切边后的图像。
根据权利要求1至3中任意一项所述的文档图像的方向校正方法，其中，所述小角度方向校正还包括：当α＝0度时，不进行小角度校正；当α＝45度时，或者校正为为α＝0度的切边后的图像，或者校正为α＝90度的切边后的图像；当α＝135度时，或者校正为为α＝90度的切边后的图像，或者校正为α＝180度的切边后的图像；当α＝225度时，或者校正为为α＝180度的切边后的图像，或者校正为α＝270度的切边后的图像；当α＝315度时，或者校正为为α＝270度的切边后的图像，或者校正为α＝0度的切边后的图像。
根据权利要求1至4中任意一项所述的文档图像的方向校正方法，其中，所述步骤S20中，所述角度分类模型采用轻量级神经网络训练得到。
根据权利要求1至5中任意一项所述的文档图像的方向校正方法，其中，所述步骤S20中，所述角度分类模型在训练时，将所述增强的训练数据集合中的所有图像的输入尺寸统一缩放到一个固定尺寸。
根据权利要求6所述的文档图像的方向校正方法，其中，所述步骤S20中，先将所述切边和小角度方向校正后的图像缩放为所述角度分类模型训练时输入图像的固定尺寸，再将缩放后的所述切边和小角度方向校正后的图像送入所述角度分类模型。
根据权利要求1至7中任意一项所述的文档图像的方向校正方法，其中，所述步骤S20中，如果所述角度分类模型判定所述切边和小角度方向校正后的图像属于背景类图像，则退出整个流程。
根据权利要求1至8中任意一项所述的文档图像的方向校正方法，其中，所述步骤S20中，如果所述角度分类模型判定所述切边和小角度方向校正后的图像的偏差角度检测值为0度，则退出整个流程。
一种文档图像的方向校正装置，包括切边和小角度方向校正单元、偏差角度检测单元、以及大角度方向校正单元；

所述切边和小角度方向校正单元用于寻找输入图像中文档区域的边和四个角点，使用透视变换方法对所述输入图像进行切边和小角度方向校正；如果所述输入图像是文档图像，那么切边后的图像就是所述输入图像的文档区域；所述小角度方向校正是指将输入图像的文档区域校正为与正确方向的偏差角度为0度、或90度、或180度、或270度的四种形态之一，输入图像的文档区域与所述四种形态的哪一种最接近，就校正为哪一种形态；

所述偏差角度检测单元用于将所述切边和小角度方向校正后的图像通过一个角度分类模型得到偏差角度检测值；所述偏差角度检测值仅有四种取值——0度、或90度、或180度、或270度；所述角度分类模型采用如下方式得到：(1)收集多张切边后的文档图像以及无文档的背景类图像及相应的方向标签作为训练数据集合；所述切边后的文档图像的实际方向与正确方向的偏差角度或者为0度，或者为90度，或者为180度，或者为270度；所述切边后的文档图像的方向标签用来记载该张切边后的文档图像的实际方向与正确方向的偏差角度；所述背景类图像的方向标签表示该张图像为背景类图像；(2)对所述训练数据集合中的部分或全部图像以90度为单位进行随机旋转，并相应地改变旋转后的切边后的文档图像的方向标签，得到增强的训练数据集合；(3)使用所述增强的训练数据集合训练一个角度分类模型，所述角度分类模型用于区分文档图像与背景类图像，还用于识别每张文档图像的实际方向与正确方向的偏差角度是四种取值中的哪一种；

所述大角度方向校正单元用于根据所述偏差角度检测值对所述切边和小角度方向校正后的图像的方向进行校正。