WO2018053756A1

WO2018053756A1 - 一种图像检测方法及终端

Info

Publication number: WO2018053756A1
Application number: PCT/CN2016/099730
Authority: WO
Inventors: 秦超
Original assignee: 华为技术有限公司
Priority date: 2016-09-22
Filing date: 2016-09-22
Publication date: 2018-03-29
Also published as: CN108604374B; CN108604374A

Abstract

本发明实施例提供一种图像检测方法及终端，以至少解决现有的文档校正过程中矩形误判率高的问题。方法包括：终端获取拍摄目标矩形的图像以及图像中的深度信息；终端检测图像的边缘，获得多个候选四边形；根据深度信息，确定第一候选四边形的各边是否在三维空间的同一平面上；若在，确定第一候选四边形的内角值序列{θi(i＝1,2,3,4)、以及目标矩形在图像中投影的目标四边形的内角值序列{ψi(i＝1,2,3,4)}；并根据内角值序列{θi(i＝1,2,3,4)}和内角值序列{ψi(i＝1,2,3,4)}，确定第一候选四边形与目标四边形匹配的可信度；将多个候选四边形中与目标四边形匹配的可信度最高的四边形确定为目标矩形在图像中投影的实际四边形。本发明适用于图像检测技术领域。

Description

一种图像检测方法及终端

技术领域

本发明图像检测技术领域，尤其涉及一种图像检测方法及终端。

背景技术

近年来，手机的拍照功能在快速的发展，涌现出了很多新的拍照技术，如全景拍照、全焦模式、文档校正等。其中，这里的文档校正，其实是一种图像检测、变换、处理的方法，输入是图像，输出也是图像。而文档也泛指类似文档的矩形的含有信息的图像，如文件、发票、书本、名片、证件、讲义、照片、广告、展板、电视、电影、屏幕等。

现有技术中，在进行文档校正时，通常采用较为粗略的规则来判断矩形。比如，规定四边形的相对的边的夹角小于30°；或者，四边形相对边的距离，在图像的长或宽中占据一定的比例，比如五分之一；或者，相邻边的夹角要接近垂直(90°)，允许30°的偏差；或者，四边形要足够大，比如周长要大于图片宽高的一定比例。

然而，由于上述矩形判断的规则都是粗略的规则，因此容易受到来自矩形内部或外部的干扰线的干扰，比如图1所示的桌子边缘或书本边缘的干扰，从而会影响矩形状的判断，导致误判率高。

发明内容

本发明实施例提供一种图像检测方法及终端，以至少解决现有的文档校正过程中矩形误判率高的问题。

为达到上述目的，本发明实施例提供如下技术方案：

一方面，本发明实施例提供一种图像检测方法，该方法包括：终端获取拍摄目标矩形的图像以及该图像中的深度信息，其中，该深度信息用于表征该目标矩形距离摄像头的远近；该终端检测该图像的边缘，获得多个候选四边形；该终端对该多个候选四边形中的每一候选四边形，均按照下面针对第一候选四边形的操作进行处理：该终端根据该深度信息，确定该第一候选四边形的各边是否在三维空间的同一平面上；若该第一候选四边形的各边在三维空间的同一平面上，该终端确定该第一候选四边形的内角值序列{θi(i＝1,2,3,4)、以及该目标矩形在该图像中投影的目标四边形的内角值序列{ψi(i＝1,2,3,4)}；该终端根据该第一候选四边形的内角值序列{θi(i＝1,2,3,4)}和该目标四边形的内角值序列{ψi(i＝1,2,3,4)}，确定该第一候选四边形与该目标四边形匹配的可信度；在该终端对该多个候选四边形中的每一候选四边形均按照上面针对该第一候选四边形的操作处理后，该终端将该多个候选四边形中与该目标四边形匹配的可信度最高的四边形确定为该目标矩形在该图像中投影的实际四边形。

基于本发明实施例提供的图像检测方法，因为本发明实施例在文档校正的过程中，考虑到了来自矩形内部或外部的干扰线的干扰，从原始图像检测出多个候选四边形，将多个候选四边形中与目标矩形在图像中投影的目标四边形匹配的可信度最高的四边形确定为目标矩形在图像中投影的实际四边形，因此可以达到准确消除矩形内外部干扰的效果。这是文档校正中的一个重要的问题，因为如果这一步四边形检测错误，后续步骤的处理就基于这个错误的四边形进行，从而对校正结果产生不可恢复的误导。

在一种可能的设计中，该终端确定该目标矩形在该图像中投影的目标四边形的内角值序列{ψi(i＝1,2,3,4)}，包括：该终端确定该目标矩形的矩形姿态参数；该终端根据该目标矩形的矩形姿态参数，匹配预先存储的角度库，确定该目标矩形在该图像中投影的目标四边形的内角值序列{ψi(i＝1,2,3,4)}，其中，该角度库中包含多种矩形姿态中的每种矩形姿态对应的目标四边形的内角值序列。

在一种可能的设计中，该目标矩形的矩形姿态参数包括：该目标矩形所在的物平面与该图像所在的像平面的夹角α、以及该目标矩形的一边与该物平面和该像平面相交线的夹角β。

由于当确定了物平面和像平面的夹角为α，并且确定了矩形的一边与物平面和像平面的相交线的夹角为β，则矩形所成的四边形的像的形状,即四边形各内角的大小θi(i＝1,2,3,4)，就可以唯一的确定，因此通过将候选四边形与该矩形姿态下匹配角度库获得的目标四边形进行匹配确定出的实际四边形更为准确。

在一种可能的设计中，该目标矩形的矩形姿态参数包括：该第一候选四边形中两组对边的夹角中较大的夹角γ。

由于该方法将上述实施例中的夹角α和夹角β简化为该第一候选四边形中两组对边的夹角中较大的夹角γ，因此实现相对简单。

在一种可能的设计中，该角度库中还包含该多种矩形姿态中的每种矩形姿态对应的相邻两边的单位长度的投影的比值λ；该方法还包括：该终端根据该目标矩形的矩形姿态参数，匹配该角度库，确定该目标矩形对应的相邻两边的单位长度的投影的比值λ1；在该终端将该多个候选四边形中与该目标四边形匹配的可信度最高的四边形确定为该目标矩形在该图像中投影的实际四边形之后，还包括：该终端根据该比值λ1、以及该实际四边形相邻两边的投影比值，确定该实际四边形相邻两边的真实比值；该终端根据该目标四边形相邻两边长度的真实比值，获取并输出该目标矩形。

通过本发明实施例提供的图像检测方法，不仅可以找到目标矩形对应的实际四边形，并且可以得到宽高的真实比例，进而终端可以根据真实的矩形的比例，求出投影变换矩阵，从而把四边形恢复为真实的矩形。

在一种可能的设计中，在该终端获取拍摄目标矩形的图像以及该图像中的深度信息之前，还包括：该终端获取并存储该角度库。

在一种可能的设计中，该终端获取该角度库，包括：该终端接收角度库获取设备发送的角度库；或者，该终端分别检测该多种矩形姿态中的每种矩形姿态对应的目标四边形，并计算该每种矩形姿态对应的目标四边形的内角值序列、以及该每种矩形姿态对应的目标四边形相邻两边的单位长度的投影的比值，获得该角度库。

在一种可能的设计中，若该第一候选四边形的各边在同一平面上，在该终端根据该目标矩形的矩形姿态参数，匹配预先存储的角度库之前，还包括：该终端确定该目标矩形与该摄像头的距离d；该终端根据该距离d，匹配预先存储的数据库，确定与该d对应的角度库为该预先存储的角度库。

即，考虑到当目标矩形与摄像头的距离d取不同的值时，目标矩形在同样的姿态下，顶角值可能会出现轻微的变化，比如当目标矩形远离摄像头时，在像平面中大于90度的角会变得更大，小于90度的角会变得更小，等于90度的角不变。通过匹配根据目标矩形与摄像头的距离d确定出的角度库来确定目标四边形的内角值序列，可以使得确定出的目标四边形的内角值序列更为准确，进而图像检测结果也更为准确。

在一种可能的设计中，该终端确定该目标矩形在该图像中投影的目标四边形的内角值序列为{90°，90°，90°，90°}。

由于该实施例不需要预置数据，因此实现最简单。

在一种可能的设计中，该终端根据该第一候选四边形的内角值序列{θi(i＝1,2,3,4)}和该目标四边形的内角值序列{ψi(i＝1,2,3,4)}，确定该第一候选四边形与该目标四边形匹配的可信度，包括：该终端根据该第一候选四边形的内角值序列{θi(i＝1,2,3,4)}和该目标四边形的内角值序列{ψi(i＝1,2,3,4)}，将该第一候选四边形和该目标四边形的四个内角分别求差后求统计值；该终端根据该统计值，确定该第一候选四边形与该目标四边形匹配的可信度。

一种可能的设计中，该终端根据该统计值，确定该第一候选四边形与该目标四边形匹配的可信度，包括：该终端将预设值与该统计值的差值确定为该第一候选四边形与该目标四边形匹配的可信度；或者，该终端根据该统计值，查询预先存储的对应关系，确定该第一候选四边形与该目标四边形匹配的可信度，该对应关系包括多个值对应的可信度。

另一方面，本发明实施例提供一种终端，其特征在于，该终端包括：处理模块和摄像模块；该摄像模块，用于获取拍摄目标矩形的图像以及该图像中的深度信息，其中，该深度信息用于表征该目标矩形距离摄像头的远近；该处理模块，用于检测该图像的边缘，获得多个候选四边形；该处理模块，还用于对该多个候选四边形中的每一候选四边形，均按照下面针对第一候选四边形的操作进行处理：根据该深度信息，确定该第一候选四边形的各边是否在三维空间的同一平面上；若该第一候选四边形的各边在三维空间的同一平面上，确定该第一候选四边形的内角值序列{θi(i＝1,2,3,4)、以及该目标矩形在该图像中投影的目标四边形的内角值序列{ψi(i＝1,2,3,4)}；根据该第一候选四边形的内角值序列{θi(i＝1,2,3,4)}和该目标四边形的内角值序列{ψi(i＝1,2,3,4)}，确定该第一候选四边形与该目标四边形匹配的可信度；该处理模块，还用于在对该多个候选四边形中的每一候选四边形均按照上面针对该第一候选四边形的操作处理后，将该多个候选四边形中与该目标四边形匹配的可信度最高的四边形确定为该目标矩形在该图像中投影的实际四边形。

在一种可能的设计中，该处理模块具体用于：确定该目标矩形的矩形姿态参数；根据该目标矩形的矩形姿态参数，匹配预先存储的角度库，确定该目标矩形在该图像中投影的目标四边形的内角值序列{ψi(i＝1,2,3,4)}，其中，该角度库中包含多种矩形姿态中的每种矩形姿态对应的目标四边形的内角值序列。

在一种可能的设计中，该终端还包括显示模块；该角度库中还包含该多种矩形姿态中的每种矩形姿态对应的相邻两边的单位长度的投影的比值λ；该处理模块，还用于根据该目标矩形的矩形姿态参数，匹配该角度库，确定该目标矩形对应的相邻两边的单位长度的投影的比值λ1；该处理模块，还用于在将该多个候选四边形中与该目标四边形匹配的可信度最高的四边形确定为该目标矩形在该图像中投影的实际四边形之后，根据该比值λ1、以及该实际四边形相邻两边的投影比值，确定该实际四边形相邻两边的真实比值；该处理模块，还用于根据该目标四边形相邻两边长度的真实比值，获取该目标矩形；该显示模块，用于显示该目标矩形。

在一种可能的设计中，该终端还包括存储模块；该处理模块，还用于在该获取拍摄目标矩形的图像以及该图像中的深度信息之前，获取该角度库；该存储模块，用于存储该角度库。

在一种可能的设计中，该终端还包括：通信模块；该处理模块具体用于：通过该通信模块接收角度库获取设备发送的角度库；或者，该处理模块具体用于：分别检测该多种矩形姿态中的每种矩形姿态对应的目标四边形，并计算该每种矩形姿态对应的目标四边形的内角值序列、以及该每种矩形姿态对应的目标四边形相邻两边的单位长度的投影的比值，获得该角度库。

在一种可能的设计中，该处理模块，还用于若该第一候选四边形的各边在同一平面上，在该根据该目标矩形的矩形姿态参数，匹配预先存储的角度库之前，确定该目标矩形与该摄像头的距离d；该处理模块，还用于根据该距离d，匹配预先存储的数据库，确定与该d对应的角度库为该预先存储的角度库。

在一种可能的设计中，该处理模块确定该目标四边形的内角值序列为{90°，90°，90°，90°}。

在一种可能的设计中，该处理模块具体用于：根据该第一候选四边形的内角值序列{θi(i＝1,2,3,4)}和该目标四边形的内角值序列{ψi(i＝1,2,3,4)}，将该第一候选四边形和该目标四边形的四个内角分别求差后求统计值；根据该统计值，确定该第一候选四边形与该目标四边形匹配的可信度。

在一种可能的设计中，该处理模块具体用于：将预设值与该统计值的差值确定为该第一候选四边形与该目标四边形匹配的可信度；或者，根据该统计值，查询预先存储的对应关系，确定该第一候选四边形与该目标四边形匹配的可信度，该对应关系包括多个值对应的可信度。

由于本发明实施例提供的终端可用于执行上述的图像检测方法，因此其所能获得的技术效果可参考上述方法实施例，此处不再赘述。

又一方面，本发明实施例提供一种终端，该终端包括：处理器和摄像头；该摄像头，用于获取拍摄目标矩形的图像以及该图像中的深度信息，其中，该深度信息用于表征该目标矩形距离摄像头的远近；该处理器，用于检测该图像的边缘，获得多个候选四边形；该处理器，还用于对该多个候选四边形中的每一候选四边形，均按照下面针对第一候选四边形的操作进行处理：根据该深度信息，确定该第一候选四边形的各边是否在三维空间的同一平面上；若该第一候选四边形的各边在三维空间的同一平面上，确定该第一候选四边形的内角值序列{θi(i＝1,2,3,4)、以及该目标矩形在该图像中投影的目标四边形的内角值序列{ψi(i＝1,2,3,4)}；根据该第一候选四边形的内角值序列{θi(i＝1,2,3,4)}和该目标四边形的内角值序列{ψi(i＝1,2,3,4)}，确定该第一候选四边形与该目标四边形匹配的可信度；该处理器，还用于在对该多个候选四边形中的每一候选四边形均按照上面针对该第一候选四边形的操作处理后，将该多个候选四边形中与该目标四边形匹配的可信度最高的四边形确定为该目标矩形在该图像中投影的实际四边形。

在一种可能的设计中，该处理器具体用于：确定该目标矩形的矩形姿态参数；根据该目标矩形的矩形姿态参数，匹配预先存储的角度库，确定该目标矩形在该图像中投影的目标四边形的内角值序列{ψi(i＝1,2,3,4)}，其中，该角度库中包含多种矩形姿态中的每种矩形姿态对应的目标四边形的内角值序列。

在一种可能的设计中，该终端还包括显示器；该角度库中还包含该多种矩形姿态中的每种矩形姿态对应的相邻两边的单位长度的投影的比值λ；该处理器，还用于根据该目标矩形的矩形姿态参数，匹配该角度库，确定该目标矩形对应的相邻两边的单位长度的投影的比值λ1；该处理器，还用于在将该多个候选四边形中与该目标四边形匹配的可信度最高的四边形确定为该目标矩形在该图像中投影的实际四边形之后，根据该比值λ1、以及该实际四边形相邻两边的投影比值，确定该实际四边形相邻两边的真实比值；该处理器，还用于根据该目标四边形相邻两边长度的真实比值，获取该目标矩形；该显示器，用于显示该目标矩形。

在一种可能的设计中，该终端还包括存储器；该处理器，还用于在该获取拍摄目标矩形的图像以及该图像中的深度信息之前，获取该角度库；该存储器，用于存储该角度库。

在一种可能的设计中，该终端还包括：通信接口；该处理器具体用于：通过该通信接口接收角度库获取设备发送的角度库；或者，该处理器具体用于：分别检测该多种矩形姿态中的每种矩形姿态对应的目标四边形，并计算该每种矩形姿态对应的目标四边形的内角值序列、以及该每种矩形姿态对应的目标四边形相邻两边的单位长度的投影的比值，获得该角度库。

在一种可能的设计中，该处理器，还用于若该第一候选四边形的各边在同一平面上，在该根据该目标矩形的矩形姿态参数，匹配预先存储的角度库之前，确定该目标矩形与该摄像头的距离d；该处理器，还用于根据该距离d，匹配预先存储的数据库，确定与该d对应的角度库为该预先存储的角度库。

在一种可能的设计中，该处理器确定该目标四边形的内角值序列为{90°，90°，90°，90°}。

在一种可能的设计中，该处理器具体用于：根据该第一候选四边形的内角值序列{θi(i＝1,2,3,4)}和该目标四边形的内角值序列{ψi(i＝1,2,3,4)}，将该第一候选四边形和该目标四边形的四个内角分别求差后求统计值；根据该统计值，确定该第一候选四边形与该目标四边形匹配的可信度。

在一种可能的设计中，该处理器具体用于：将预设值与该统计值的差值确定为该第一候选四边形与该目标四边形匹配的可信度；或者，根据该统计值，查询预先存储的对应关系，确定该第一候选四边形与该目标四边形匹配的可信度，该对应关系包括多个值对应的可信度。

又一方面，本发明实施例提供了一种计算机存储介质，用于储存为上述终端所用的计算机软件指令，其包含用于执行上述方面所设计的程序。

又一方面，本发明实施例提供一种图像检测方法，该方法包括：终端获取拍摄目标矩形的图像；该终端检测该图像的边缘，获得多个候选四边形；该终端对该多个候选四边形中的每一候选四边形，均按照下面针对第一候选四边形的操作进行处理：该终端确定该第一候选四边形的内角值序列{θi(i＝1,2,3,4)}；该终端根据该第一候选四边形的内角值序列{θi(i＝1,2,3,4)}与该目标矩形在该图像中投影的目标四边形的内角值序列{90°，90°，90°，90°}，确定该第一候选四边形与该目标四边形匹配的可信度；在该终端对该多个候选四边形中的每一候选四边形均按照上面针对该第一候选四边形的操作处理后，该终端将该多个候选四边形中与该目标四边形匹配的可信度最高的四边形确定为该目标矩形在该图像中投影的实际四边形。

基于本发明实施例提供的图像检测方法，因为本发明实施例在文档校正的过程中，考虑到了来自矩形内部或外部的干扰线的干扰，从原始图像检测出多个候选四边形，将多个候选四边形中与目标矩形在图像中投影的目标四边形匹配的可信度最高的四边形确定为目标矩形在图像中投影的实际四边形，因此可以达到准确消除矩形内外部干扰的效果。并且该实施例不需要预置数据，因此相对于上述图像检测方法，实现最简单。

一种可能的设计中，该终端根据该第一候选四边形的内角值序列{θi(i＝1,2,3,4)}和该目标矩形在该图像中投影的目标四边形的内角值序列{90°，90°，90°，90°}，确定该第一候选四边形与该目标四边形匹配的可信度，包括：该终端根据该第一候选四边形的内角值序列{θi(i＝1,2,3,4)}和该目标矩形在该图像中投影的目标四边形的内角值序列{90°，90°，90°，90°}，将该第一候选四边形和该目标四边形的四个内角分别求差后求统计值；该终端根据该统计值，确定该第一候选四边形与该目标四边形匹配的可信度。

又一方面，本发明实施例提供一种终端，该终端包括：摄像模块和处理模块；该摄像模块，用于获取拍摄目标矩形的图像；该处理模块，用于检测该图像的边缘，获得多个候选四边形；该处理模块，还用于对该多个候选四边形中的每一候选四边形，均按照下面针对第一候选四边形的操作进行处理：确定该第一候选四边形的内角值序列{θi(i＝1,2,3,4)}；根据该第一候选四边形的内角值序列{θi(i＝1,2,3,4)}与该目标矩形在该图像中投影的目标四边形的内角值序列{90°，90°，90°，90°}，确定该第一候选四边形与该目标四边形匹配的可信度；该处理模块，还用于在对该多个候选四边形中的每一候选四边形均按照上面针对该第一候选四边形的操作处理后，将该多个候选四边形中与该目标四边形匹配的可信度最高的四边形确定为该目标矩形在该图像中投影的实际四边形。

在一种可能的设计中，该处理模块具体用于：根据该第一候选四边形的内角值序列{θi(i＝1,2,3,4)}和该目标矩形在该图像中投影的目标四边形的内角值序列{90°，90°，90°，90°}，将该第一候选四边形和该目标四边形的四个内角分别求差后求统计值；根据该统计值，确定该第一候选四边形与该目标四边形匹配的可信度。

又一方面，本发明实施例提供一种终端，该终端包括：摄像头和处理器；该摄像头，用于获取拍摄目标矩形的图像；该处理器，用于检测该图像的边缘，获得多个候选四边形；该处理器，还用于对该多个候选四边形中的每一候选四边形，均按照下面针对第一候选四边形的操作进行处理：确定该第一候选四边形的内角值序列{θi(i＝1,2,3,4)}；根据该第一候选四边形的内角值序列{θi(i＝1,2,3,4)}与该目标矩形在该图像中投影的目标四边形的内角值序列{90°，90°，90°，90°}，确定该第一候选四边形与该目标四边形匹配的可信度；该处理器，还用于在对该多个候选四边形中的每一候选四边形均按照上面针对该第一候选四边形的操作处理后，将该多个候选四边形中与该目标四边形匹配的可信度最高的四边形确定为该目标矩形在该图像中投影的实际四边形。

在一种可能的设计中，该处理器具体用于：根据该第一候选四边形的内角值序列{θi(i＝1,2,3,4)}和该目标矩形在该图像中投影的目标四边形的内角值序列{90°，90°，90°，90°}，将该第一候选四边形和该目标四边形的四个内角分别求差后求统计值；根据该统计值，确定该第一候选四边形与该目标四边形匹配的可信度。

综上，基于本发明实施例提供的图像检测方法和终端，因为本发明实施例在文档校正的过程中，考虑到了来自矩形内部或外部的干扰线的干扰，从原始图像检测出多个候选四边形，将多个候选四边形中与目标矩形在图像中投影的目标四边形匹配的可信度最高的四边形确定为目标矩形在图像中投影的实际四边形，因此可以达到准确消除矩形内外部干扰的效果。这是文档校正中的一个重要的问题，因为如果这一步四边形检测错误，后续步骤的处理就基于这个错误的四边形进行，从而对校正结果产生不可恢复的误导。

附图说明

图1为现有的图像检测结果示意图；

图2为本发明实施例提供的矩形成像的抽象示意；

图3为本发明实施例提供的矩形成像时夹角β不为0的情况示意图；

图4为本发明实施例提供的一种终端的硬件结构示意图；

图5为本发明实施例提供的一种图像检测方法流程示意图；

图6为本发明实施例提供的图像的深度信息的示意图；

图7为本发明实施例提供的夹角α的表示示意图；

图8为本发明实施例提供的夹角β的表示示意图；

图9为本发明实施例提供的一种夹角α和夹角β的简化示意图；

图10为本发明实施例提供的一种角度库的获取流程示意图；

图11为本发明实施例提供的角度旋转示意图；

图12为本发明实施例提供的候选四边形1的示意图；

图13为本发明实施例提供的候选四边形2的示意图；

图14为现有的一种文档校正结果；

图15为本发明实施例提供的另一种图像检测方法流程示意图；

图16为本发明实施例提供的又一种图像检测方法流程示意图；

图17为本发明实施例提供的另一种终端的结构示意图。

具体实施方式

为了下述各实施例的描述清楚简洁，首先给出本发明实施例提出的一个思路：

图2为本发明实施例提供的一个矩形成像的抽象示意。在世界坐标中物平面w上一个宽为W，高为H的矩形的四个顶点是Pi(i＝1，2，3，4)。当用户或相机以一定角度观察该矩形时，所成的四边形的像位于与视线垂直的像平面c上。像平面c与物平面w的夹角为α矢量，矩形在像平面上的像为四边形，顶点为pi(i＝1，2，3，4)。矩形所成的四边形像，在该成像姿态下，是一一对应的关系，不可能成像为其他形状的四边形。该姿态可由像平面c与物平面w的夹角α以及物平面w上矩形的一边与物平面w和像平面c相交线AB的夹角β唯一的确定。假设物平面w上矩形的一边为P3P4，则由图2可以看出，P3P4与AB平行，因此夹角β为0，没有标示出来。图3示意了一种夹角β不为0的情况。

也就是说，当确定了物平面和像平面的夹角为α，并且确定了矩形的一边与物平面和像平面的相交线的夹角为β，则矩形所成的四边形的像的形状,即四边形各内角的大小θi(i＝1,2,3,4)，就可以唯一的确定。在进行图像检测时，只有检测到的四边形的内角接近或符合θi(i＝1,2,3,4)时，才可认为该四边形是一个由矩形映射过来的四边形。其他符合α与β角，但是不接近或符合θi(i＝1,2,3,4)内角值的四边形，都不是由矩形映射而来的四边形。

前面说明了一种相机姿态下的矩形判断原理，可以很容易的扩展到更一般的姿态情况下。只要改变α和β角，就可以表示任意的矩形姿态。改变α，即改变物平面和像平面的夹角；改变β，即改变矩形在该平面内的倾斜角度。任意α和任意β的组合，即可以覆盖从任意角度拍摄矩形的场景。

理论上，可以预先获得在所有α和所有β情况下，一个矩形在图像中所成四边形的各顶角值θi(i＝1,2,3,4)。在拍照时，通过技术手段获得物平面和像平面的夹角α，以及矩形的一边与物平面和像平面的相交线的夹角β，进而算出像平面上的四边形的顶角值θi(i＝1,2,3,4)，与预先获得的该α和β下的顶角值比较，若θi(i＝1,2,3,4)与预置的值相符，则四边形是矩形的投影，否则不是矩形的投影。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

需要说明的是，为了便于清楚描述本发明实施例的技术方案，在本发明的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分，本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。

需要说明的是，本文中的“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。“多个”是指两个或多于两个。

如本申请所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号，以本地和/或远程过程的方式进行通信。

本申请将围绕可包括多个设备、组件、模块等的系统来呈现各个方面、实施例或特征。应当理解和明白的是，各个系统可以包括另外的设备、组件、模块等，并且/或者可以并不包括结合附图讨论的所有设备、组件、模块等。此外，还可以使用这些方案的组合。

另外，在本发明实施例中，“示例的”一词用于表示作例子、例证或说明。本申请中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用示例的一词旨在以具体方式呈现概念。

本发明实施例描述的场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着新场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

如图4所示，为本发明实施例提供的一种终端的硬件结构示意图。该终端400包括处理器401、摄像头402、显示器403、通信接口404、存储器405和总线406。其中，处理器401、摄像头402、显示器403、通信接口404和存储器405通过总线406相互连接。

处理器401是终端400的控制中心，通过总线406连接整个终端400的各个部分，通过运行或执行存储在存储器405内的软件程序和/或模块，以及调用存储在存储器405内的数据，执行终端400的各种功能和处理数据，从而对终端400进行整体监控。可选的，处理器401可包括一个或多个处理单元；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

摄像头402用于对目标物进行拍摄，获得目标物的图像数据。其中，该摄像头402可以是深度摄像头或双摄像头，本发明实施例对此不作具体限定。可选的，若摄像头402未深度摄像头，则摄像头402还用于获取图像的深度数据。

显示器403用于显示对目标物进行拍摄并且处理后的图像。

通信接口404用于支持终端与其它外部设备的通信。

存储器405可用于存储软件程序以及模块，处理器401通过运行存储在存储器405中的软件程序以及模块，从而执行终端400的各种功能应用以及数据处理。存储器405主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如拍照功能，文档校正功能)等；存储数据区可存储根据终端400的使用所创建的数据(比如预置的矩形姿态的角度库)等。此外，存储器405可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

总线406可以是外设部件互连标准(英文：peripheral component interconnect，缩写：PCI)总线或扩展工业标准结构(英文：extended industry standard architecture，缩写：EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

尽管未示出，终端400还可能包括射频(英文：radio freqency，缩写：RF)电路、音频电路、和/或多种传感器，本发明实施例对此不作具体限定。

下面将基于图4所示的终端，对本发明实施例提供的图像检测方法进行介绍。如图5所示，为本发明实施例提供的一种图像检测方法，包括步骤S501-S504：

S501、终端获取拍摄目标矩形的图像以及该图像中的深度信息。

其中，该深度信息用于表征该目标矩形距离摄像头的远近。

图6给出了图像的深度信息的示意图，图中标出了部分的深度值，数字表示目标矩形距离摄像头的远近。当然，实际的深度信息的示意图中的采样点更密集，本发明实施例仅是示意性说明，对此不做具体限定。

S502、终端检测该图像的边缘，获得多个候选四边形。

其中，该多个候选四边形是由终端检测该图像的边缘获得众多边缘线后，由众多边缘线组成的。

S503、终端对该多个候选四边形中的每一候选四边形，均按照下面T1-T3中针对第一候选四边形的操作进行处理：

T1：终端根据深度信息，确定该第一候选四边形的各边是否在三维空间的同一平面上。

T2：若第一候选四边形的各边在三维空间的同一平面上，终端确定第一候选四边形的内角值序列{θi(i＝1,2,3,4)、以及目标矩形在图像中投影的目标四边形的内角值序列{ψi(i＝1,2,3,4)}。

其中，这里的目标四边形具体是指理论上目标矩形在图像中投影的四边形，比如图2中顶点为pi(i＝1，2，3，4)的四边形。

T3：终端根据第一候选四边形的内角值序列{θi(i＝1,2,3,4)}和目标四边形的内角值序列{ψi(i＝1,2,3,4)}，确定第一候选四边形与目标四边形匹配的可信度。

S504、终端将多个候选四边形中与目标四边形匹配的可信度最高的四边形确定为目标矩形在图像中投影的实际四边形。

具体的，本发明实施例步骤S503中的T1中：

结合图6所示的图像的深度信息的示意图，给出本发明实施例中终端根据深度信息，确定该第一候选四边形的各边是否在三维空间的同一平面上的具体实现，包括：

首先，终端确定该第一候选四边形的边和角的位置，区分出该第一候选四边形的内部和外部。

其次，终端对该第一候选四边形的内部，从某一边(比如下边)或角(比如左下角)的小块区域开始，计算小块区域内深度值在不同方向上(比如向上、向右、向右上等)的变化量(图6中为向上方每10单位深度/格)。

然后，终端从该小块区域沿不同方向向周围扩展，并同时计算扩展区域在该方向上的深度变化量是否与初始变化量保持一致，直到扩展区域覆盖该第一候选四边形的全部内部区域，若没有出现不一致的区域，则该第一候选四边形的各边是在同一个平面上，若出现不一致的区域，则该第一候选四边形的各边不是在同一个平面上。其中，该深度变化应考虑随着深度绝对值的增加，其变化量也随着增大。

具体的，本发明实施例步骤S503中的T2中：

终端确定第一候选四边形的内角值序列{θi(i＝1,2,3,4)，具体可以包括：

终端确定四边形两邻边的夹角θ1的大小，进而从夹角θ1开始，按顺时针或逆时针方向，依次确定其余的夹角θ2，夹角θ3的值，最后的夹角θ4可由四边形内角和360°减去前三个内角的值而得到。

其中，夹角θ1可以取最左边和最下边的夹角，或者在深度图中最近或最远的夹角，等等，本发明实施例对此不作具体限定。

具体的，本发明实施例步骤S503中的T2中：

终端确定目标矩形在图像中投影的目标四边形的内角值序列{ψi(i＝1,2,3,4)}，具体可以包括：

终端确定目标矩形的矩形姿态参数，进而根据该目标矩形的矩形姿态参数，匹配预先存储的角度库，确定该目标矩形在图像中投影的目标四边形的内角值序列{ψi(i＝1,2,3,4)}。其中，角度库中包含多种矩形姿态中的每种矩形姿态对应的目标四边形的内角值序列。

优选的，本发明实施例中的内角值序列可以按照从一个方向开始(比如从左下开始)，顺时针或逆时针方向的方式排列，也可以按照从大到小或者从小到大的方式排列，或者还可以根据图像中的深度信息，从距离摄像头最近的一个角开始，等等，本发明实施例对此不作具体限定。

可选的，一种可能的实现方式中，本发明实施例中目标矩形的矩形姿态参数具体可以包括：目标矩形所在的物平面与图像所在的像平面的夹角α、以及目标矩形的一边与物平面和像平面相交线的夹角β。

示例性的，终端可以通过如下方式确定目标矩形的矩形姿态参数：

一、确定夹角α

如图7所示，夹角α可以分解为大小分量αv和方向分量αd表示。由于相机获得的图片是矩形的，因此，很自然的，以像平面c为参考，以图片的邻边为轴，可以形成直角坐标系xOy。其中，像平面c的法线矢量为v1，物平面w的法线矢量为v2。

把v2平移到与v1的起点相同，则两者的夹角的大小为大小分量αv＝|α|。

另外一个分量是夹角的方向，(v2-v1)得到矢量d，d的方向表示了夹角的方向；把矢量d投影到xOy平面上得到矢量d’，与某一轴比如Oy的夹角为方向分量αd。设e是物平面和像平面的交线，则d’与e是互相垂直的；因此也可以根据交线e的倾斜角度，来表示两平面夹角α的方向分量αd。

二、确定夹角β

如具体实施方式前述部分所述，当夹角α的大小|α|一定时，影响目标矩形在像平面中的投影形状的因素，是目标矩形的一边与物平面和像平面相交线的夹角β。即当物像平面的相对倾角，以及目标矩形相对物像平面的位置确定时，平移或旋转像平面，并不会影响矩形投影的内角的值。

如图8所示，夹角β投影到像平面变成β’，两个角度单调相关，但不相等，即β≠β’。

由于成像图像直观得到，因此β’比较容易计算。β’＝λ-αd，即β’等于目标矩形的边与图像边的夹角和物像平面交线与图像边的夹角的差。角度间的关系由公式

cosβ’cosα＝cosβ，可得：β＝acos(cosβ’cosα)。

当终端确定目标矩形的矩形姿态参数之后，即可根据上述方法分别确定出第一候选四边形的内角值序列{θi(i＝1,2,3,4)和目标四边形的内角值序列{ψi(i＝1,2,3,4)}。

可选的，一种可能的实现方式中，本发明实施例中目标矩形的矩形姿态参数具体可以包括：第一候选四边形中两组对边的夹角中较大的夹角γ。即，本发明实施例可以简化上述实施例中的夹角α和夹角β为四边形中两组对边的夹角中较大的一个角，因此实现相对简单。

示例性的，如图9所示，可以简化上述实施例中的夹角α和夹角β为图9中的θ1或θ2。该角度与α角度呈正相关的关系，而受β的影响较小，因此可作为一个简单近似。

具体的，本发明实施例中的角度库为终端提前获取并存储的，其中，终端可以通过如下两种方式获取角度库：

其一，终端分别检测多种矩形姿态中的每种矩形姿态对应的目标四边形，并计算该每种矩形姿态对应的目标四边形的内角值序列，获得该角度库。

其二，终端接收角度库获取设备发送的角度库。其中，角度库获取设备可以按照其一中终端获取角度库的方式获取该角度库，此处不再赘述。

示例性的，这里以终端获取角度库为例进行说明。

假设矩形姿态参数具体包括：目标矩形所在的物平面与图像所在的像平面的夹角α、以及目标矩形的一边与物平面和像平面相交线的夹角β，则终端可以通过如下方式获取角度库：

S1001、初始化目标矩形所在的物平面与图像所在的像平面的夹角α＝0。

S1002、初始化目标矩形的一边与物平面和像平面相交线的夹角β＝0。

S1003、检测该姿态下，目标矩形在图像中投影的目标四边形，并计算和存储该目标四边形的内角值序列。

S1004、将夹角β递增1步长，并判断是否达到90度。

若达到90度，执行步骤S1005；

若未达到90度，执行步骤S1003。

S1005、将夹角α递增1步长，并判断是否达到90度。

若达到90度，结束；

若未达到90度，执行步骤S1002。

其中，每种矩形姿态对应的目标四边形的内角值序列可存储在图4所示的存储器中，存储格式为可以为数据库或普通文件，本发明实施例对此不作具体限定。示例性的，矩形姿态对应的目标四边形的内角值序列的存储示意可以表一所示。

表一

编号	α	β	内角1	内角2	内角3
1	0	0	90°	90°	90°
…	…	…	…	…	…
i	0	10°	90°	90°	90°
…	…	…	…	…	…
x	30°	0	86°	86°	94°
…	…	…	…	…	…

其中，表一中的角度可以用另外一种形式进行表征，比如90°＝π/2，30°＝π/6，等等，本发明实施例对此不作具体限定。

其中，表一中仅是示例性的给出了矩形姿态对应的目标四边形的内角值序列中其中三个内角的值，本领域技术人员可以理解，矩形姿态对应的目标四边形的内角值序列中第四个内角的值可由四边形内角和360°减去表一中前三个内角的值而得到。当然，存储器中存储的每种矩形姿态对应的目标四边形的内角值序列也可以包含全部四个内角的值，本发明实施例对此不作具体限定。

需要说明的是，该示例中步骤S1001和步骤S1002中的角度初始化都是从0开始的，步骤S1004和步骤S1005中的角度递增都是以90度结束的，当然，也可以以其它值开始进行初始化，只要能枚举所有可能的夹角α和夹角β，就可以覆盖所有相机倾斜的场景。另外，由于角度的中心对称性，夹角α和夹角β的取值范围都是0°到90°，通过镜像对称特性，即可覆盖所有的拍摄场景下的姿态。

其中，由于角度是连续的，获取所有的α和β情况是不可能的。但可以把角度离散化，取很小的间隔(也就是上述的步长)来近似，间隔越小则精确度越高。比如可以取0.1°到10°之间的间隔，通常取1°为间隔，精度就比较高了，需要预先获得的数据是90x90＝8100组。落在两个整数角度中间的数据，可以根据相邻角度的数据插值得出。

需要说明的是，该示例中内角值的获取方法，可以通过用实际的矩形平板，与背景明显区分，步进的旋转矩形或者移动摄像头的位置的方式获取，如图11所示；也可以用3D软件虚拟的矩形，通过角度步进的方式获取，本发明实施例对此具体限定。

具体的，本发明实施例步骤S503中的T3中：

终端根据第一候选四边形的内角值序列{θi(i＝1,2,3,4)}和目标四边形的内角值序列{ψi(i＝1,2,3,4)}，确定第一候选四边形与目标四边形匹配的可信度，具体可以包括T31和T32：

T31、终端根据第一候选四边形的内角值序列{θi(i＝1,2,3,4)}和目标四边形的内角值序列{ψi(i＝1,2,3,4)}，将第一候选四边形和目标四边形的四个内角分别求差后求统计值。

T32、终端根据统计值，确定第一候选四边形与目标四边形匹配的可信度。

其中，在步骤T31中，统计的方法可以是，四个差值的绝对值的均值，或者方差，或者标准差，或者四个差值的平方的和，或者可以把上述平方的和再开根号，等等，本发明实施例对此不作具体限定。

其中，在步骤T32中，终端根据统计值，确定第一候选四边形与目标四边形匹配的可信度，具体可以包括：

终端将预设值与统计值的差值确定为第一候选四边形与目标四边形匹配的可信度。

即，考虑到统计值越小，匹配的可信度越高，因此将预设值与统计值求差值，可以确定第一候选四边形与目标四边形匹配的可信度。

或者，终端根据统计值，确定第一候选四边形与目标四边形匹配的可信度，具体可以包括：

终端根据统计值，查询预先存储的对应关系，确定第一候选四边形与目标四边形匹配的可信度，该对应关系包括多个值对应的可信度。

示例性的，该对应关系可以如表二所示：

表二

统计值(X)	可信度
0≤X＜0.1	10
0.1≤X＜0.2	9
…	…
0.9≤X＜1	1

需要说明的是，表二仅是示例性的给出了一组多个值对应的可信度的数据，当然，统计值和可信度的数值对应关系可能为其它，本发明实施例对此不作具体限定。

进一步的，若第一候选四边形的各边在同一平面上，在终端根据目标矩形的矩形姿态参数，匹配预先存储的角度库之前，还可以包括：终端确定该目标矩形与摄像头的距离d；终端根据距离d，匹配预先存储的数据库，确定与d对应的角度库为预先存储的角度库。

综上，基于本发明实施例提供的图像检测方法，因为本发明实施例在文档校正的过程中，考虑到了来自矩形内部或外部的干扰线的干扰，从原始图像检测出多个候选四边形，将多个候选四边形中与目标矩形在图像中投影的目标四边形匹配的可信度最高的四边形确定为目标矩形在图像中投影的实际四边形，因此可以达到准确消除矩形内外部干扰的效果。这是文档校正中的一个重要的问题，因为如果这一步四边形检测错误，后续步骤的处理就基于这个错误的四边形进行，从而对校正结果产生不可恢复的误导。

示例性的，假设终端检测出的候选四边形1(粗线条对应的线构成的四边形)和候选四边形2(粗线条对应的线构成的四边形)分别如图12和图13所示，并且候选四边形1和候选四边形2的各边均在三维空间的同一平面上，则终端可以根据上述方法确定目标矩形在图像中投影的目标四边形的内角值序列{ψi(i＝1,2,3,4)}，并且在分别确定候选四边形1的内角值序列{θi(i＝1,2,3,4)和候选四边形2的内角值序列{θi(i＝1,2,3,4)之后，分别确定候选四边形1和候选四边形2与目标四边形匹配的可信度。假设候选四边形1与目标四边形匹配的可信度较高，则终端将候选四边形1确定为目标矩形在图像中投影的实际四边形。

进一步的，考虑到现有的宽高比估计技术，在大角度倾斜拍摄的情况下，焦距变化剧烈，焦距的估计会产生很大偏差，从而给矩形原始的宽高比估计带来很大误差，进而导致宽高比估计会非常不准确。如图14所示，为现有的一种文档校正结果，可以看出，在图14中，目标矩形对应的实际四边形检测正确，但是宽高比却估计错误。为解决该问题，上述角度库中还可以包含多种矩形姿态中的每种矩形姿态对应的相邻两边的单位长度的投影的比值λ。相应的，本发明实施例提供的图像检测方法还可以包括：

终端根据目标矩形的矩形姿态参数，匹配该角度库，确定目标矩形对应的相邻两边的单位长度的投影的比值λ1。

在终端将多个候选四边形中与目标四边形匹配的可信度最高的四边形确定为目标矩形在图像中投影的实际四边形(步骤S504)之后，还可以包括：

终端根据比值λ1、以及实际四边形相邻两边的投影比值，确定该实际四边形相邻两边的真实比值。进而，终端根据该目标四边形相邻两边长度的真实比值，获取并输出该目标矩形。

其中，在表一的基础上，多种矩形姿态中的每种矩形姿态对应的相邻两边的单位长度的投影的比值λ的存储示意可以表三所示。

表三

编号	α	β	内角1	内角2	内角3	投影比例
1	0	0	90°	90°	90°	1
…	…	…	…	…	…	…
i	0	10°	90°	90°	90°	1
…	…	…	…	…	…	…
x	30°	0	86°	86°	94°	0.936
…	…	…	…	…	…	…

示例性的，假设存储的目标矩形对应的相邻两边的单位长度的投影的比值λ＝0.9，图像中投影的实际四边形的左下与右下边的长度分别为{0.9,1.5}，则根据存储的比值，目标矩形的真实的长度比值为0.9/0.9/1.5＝1/1.5。

可选的，一种可能的实现方式中，考虑到当物平面与像平面平行时，两平面没有相交线，并且，一个矩形无论在物平面内的倾斜角度如何，其在像平面内的投影还是矩形，也就是内角的序列为{90°，90°，90°，90°}，因此，终端在进行图形检测时，可以简化为只使用四边形的四个内角与矩形内角差的统计值来判断合理性。即，步骤S503中的T2中：终端确定目标矩形在图像中投影的目标四边形的内角值序列为{90°，90°，90°，90°}。进而，终端可以分别确定检测出的候选四边形与该目标四边形匹配的可信度，并将匹配的可信度最高的四边形确定为目标矩形在图像中投影的实际四边形。

由于该实施例不需要预置数据，因此实现最简单，不过也是最粗略的判断，并且对矩形的宽高比例可能也无法准确估计。

可选的，基于图4所示的终端，本发明实施例还提供一种图像检测方法，如图15所示，方法包括步骤S1501-S1504：

S1501、终端获取拍摄目标矩形的图像。

S1502、终端检测该图像的边缘，获得多个候选四边形。

S1503、终端对该多个候选四边形中的每一候选四边形，均按照下面K1-K2中针对第一候选四边形的操作进行处理：

K1：终端确定第一候选四边形的内角值序列{θi(i＝1,2,3,4)}。

K2：终端根据该第一候选四边形的内角值序列{θi(i＝1,2,3,4)}与目标四边形的内角值序列{90°，90°，90°，90°}，确定第一候选四边形与目标矩形匹配的可信度。

S1504、终端将多个候选四边形中与目标四边形匹配的可信度最高的四边形确定为目标矩形在图像中投影的实际四边形。

具体的，本发明实施例步骤S1503中的K1中：

终端确定第一候选四边形的内角值序列{θi(i＝1,2,3,4)}的方式可参考图5所示的实施例，本发明实施例在此不再赘述。

具体的，如图16所示，本发明实施例步骤S1503中的K2中：

终端根据该第一候选四边形的内角值序列{θi(i＝1,2,3,4)}与目标四边形的内角值序列{90°，90°，90°，90°}，确定第一候选四边形与目标矩形匹配的可信度，具体可以包括：

K21：终端根据该第一候选四边形的内角值序列{θi(i＝1,2,3,4)}和目标四边形的内角值序列{90°，90°，90°，90°}，将该第一候选四边形和该目标四边形的四个内角分别求差后求统计值。

K22：终端根据该统计值，确定该第一候选四边形与该目标四边形匹配的可信度。

其中，在步骤K21中，统计的方法可以是，四个差值的绝对值的均值，或者方差，或者标准差，或者四个差值的平方的和，或者可以把上述平方的和再开根号，等等，本发明实施例对此不作具体限定。

其中，步骤K22的具体实现可参考图5所示的实施例，本发明实施例在此不再赘述。

上述主要从终端侧对本发明实施例提供的方案进行了介绍。可以理解的是，终端为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本发明能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

本发明实施例可以根据上述方法示例对终端进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本发明实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用集成的单元的情况下，图17示出了上述实施例中所涉及的终端的一种可能的结构示意图。终端1700包括：摄像模块1701和处理模块1702。摄像模块1701用于支持终端1700执行图5中的步骤S501，处理模块1402用于支持终端1700执行图5中的步骤S502-S504；或者，摄像模块1701用于支持终端1700执行图15和图16中的步骤S1501，处理模块1402用于支持终端1700执行图15和图16中的步骤S1502-S1504。可选的，终端1700还可以包括显示模块1703和通信模块1704。其中，显示模块1703用于支持终端1700显示目标矩形，通信模块1704用于支持终端与其他外部设备的通信，例如与上述角度库获取设备的通信。当然，终端1700还可以包括存储模块1705，用于存储基站的程序代码和数据，本发明实施例对此不作具体限定。

其中，摄像模块1701可以是图4中的摄像头402。

处理模块1702可以是处理器或控制器，例如可以是图4中的处理器401，也可以是通用处理器，数字信号处理器(英文：digital signal processor，缩写：DSP)，专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)，现场可编程门阵列(英文：field programmable gate array，缩写：FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。该处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。

显示模块1703可以是图4中的显示器403。

通信模块1704可以是图4中的通信接口404，也可以是收发器等。

存储模块1705可以是图4中的存储器405。

当摄像模块1701为摄像头，处理模块1702为处理器，显示模块1703为显示器，通信模块1704为通信接口、存储模块1705为存储器时，本发明实施例所涉及的终端可以为图4所示的终端，具体可参见图4部分的相关描述，此处不再赘述。

基于本发明实施例提供的终端，因为本发明实施例在文档校正的过程中，考虑到了来自矩形内部或外部的干扰线的干扰，从原始图像检测出多个候选四边形，将多个候选四边形中与目标矩形在图像中投影的目标四边形匹配的可信度最高的四边形确定为目标矩形在图像中投影的实际四边形，因此可以达到准确消除矩形内外部干扰的效果。这是文档校正中的一个重要的问题，因为如果这一步四边形检测错误，后续步骤的处理就基于这个错误的四边形进行，从而对校正结果产生不可恢复的误导。

结合本发明公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(英文：random access memory，缩写：RAM)、闪存、只读存储器(英文：read only memory，缩写：ROM)、可擦除可编程只读存储器(英文：erasable programmable ROM，缩写：EPROM)、电可擦可编程只读存储器(英文：electrically EPROM，缩写：EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于核心网接口设备中。当然，处理器和存储介质也可以作为分立组件存在于核心网接口设备中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

一种图像检测方法，其特征在于，所述方法包括：

终端获取拍摄目标矩形的图像以及所述图像中的深度信息，其中，所述深度信息用于表征所述目标矩形距离摄像头的远近；

所述终端检测所述图像的边缘，获得多个候选四边形；

所述终端对所述多个候选四边形中的每一候选四边形，均按照下面针对第一候选四边形的操作进行处理：

所述终端根据所述深度信息，确定所述第一候选四边形的各边是否在三维空间的同一平面上；

若所述第一候选四边形的各边在三维空间的同一平面上，所述终端确定所述第一候选四边形的内角值序列{θi(i＝1,2,3,4)、以及所述目标矩形在所述图像中投影的目标四边形的内角值序列{ψi(i＝1,2,3,4)}；

所述终端根据所述第一候选四边形的内角值序列{θi(i＝1,2,3,4)}和所述目标四边形的内角值序列{ψi(i＝1,2,3,4)}，确定所述第一候选四边形与所述目标四边形匹配的可信度；

在所述终端对所述多个候选四边形中的每一候选四边形均按照上面针对所述第一候选四边形的操作处理后，所述终端将所述多个候选四边形中与所述目标四边形匹配的可信度最高的四边形确定为所述目标矩形在所述图像中投影的实际四边形。
根据权利要求1所述的方法，其特征在于，所述终端确定所述目标矩形在所述图像中投影的目标四边形的内角值序列{ψi(i＝1,2,3,4)}，包括：

所述终端确定所述目标矩形的矩形姿态参数；

所述终端根据所述目标矩形的矩形姿态参数，匹配预先存储的角度库，确定所述目标矩形在所述图像中投影的目标四边形的内角值序列{ψi(i＝1,2,3,4)}，其中，所述角度库中包含多种矩形姿态中的每种矩形姿态对应的目标四边形的内角值序列。
根据权利要求2所述的方法，其特征在于，所述目标矩形的矩形姿态参数包括：所述目标矩形所在的物平面与所述图像所在的像平面的夹角α、以及所述目标矩形的一边与所述物平面和所述像平面相交线的夹角β。
根据权利要求2所述的方法，其特征在于，所述目标矩形的矩形姿态参数包括：所述第一候选四边形中两组对边的夹角中较大的夹角γ。
根据权利要求2-4任一项所述的方法，其特征在于，所述角度库中还包含所述多种矩形姿态中的每种矩形姿态对应的相邻两边的单位长度的投影的比值λ；所述方法还包括：

所述终端根据所述目标矩形的矩形姿态参数，匹配所述角度库，确定所述目标矩形对应的相邻两边的单位长度的投影的比值λ1；

在所述终端将所述多个候选四边形中与所述目标四边形匹配的可信度最高的四边形确定为所述目标矩形在所述图像中投影的实际四边形之后，还包括：

所述终端根据所述比值λ1、以及所述实际四边形相邻两边的投影比值，确定所述实际四边形相邻两边的真实比值；

所述终端根据所述目标四边形相邻两边长度的真实比值，获取并输出所述目标矩形。
根据权利要求2-5任一项所述的方法，其特征在于，在所述终端获取拍摄目标矩形的图像以及所述图像中的深度信息之前，还包括：

所述终端获取并存储所述角度库。
根据权利要求6所述的方法，其特征在于，所述终端获取所述角度库，包括：

所述终端接收角度库获取设备发送的角度库；或者，

所述终端分别检测所述多种矩形姿态中的每种矩形姿态对应的目标四边形，并计算所述每种矩形姿态对应的目标四边形的内角值序列、以及所述每种矩形姿态对应的目标四边形相邻两边的单位长度的投影的比值，获得所述角度库。
根据权利要求2-7任一项所述的方法，其特征在于，若所述第一候选四边形的各边在同一平面上，在所述终端根据所述目标矩形的矩形姿态参数，匹配预先存储的角度库之前，还包括：

所述终端确定所述目标矩形与所述摄像头的距离d；

所述终端根据所述距离d，匹配预先存储的数据库，确定与所述d对应的角度库为所述预先存储的角度库。
根据权利要求1所述的方法，其特征在于，所述终端确定所述目标矩形在所述图像中投影的目标四边形的内角值序列为{90°，90°，90°，90°}。
根据权利要求1-9任一项所述的方法，其特征在于，所述终端根据所述第一候选四边形的内角值序列{θi(i＝1,2,3,4)}和所述目标四边形的内角值序列{ψi(i＝1,2,3,4)}，确定所述第一候选四边形与所述目标四边形匹配的可信度，包括：

所述终端根据所述第一候选四边形的内角值序列{θi(i＝1,2,3,4)}和所述目标四边形的内角值序列{ψi(i＝1,2,3,4)}，将所述第一候选四边形和所述目标四边形的四个内角分别求差后求统计值；

所述终端根据所述统计值，确定所述第一候选四边形与所述目标四边形匹配的可信度。
根据权利要求10所述的方法，其特征在于，所述终端根据所述统计值，确定所述第一候选四边形与所述目标四边形匹配的可信度，包括：

所述终端将预设值与所述统计值的差值确定为所述第一候选四边形与所述目标四边形匹配的可信度；

或者，所述终端根据所述统计值，查询预先存储的对应关系，确定所述第一候选四边形与所述目标四边形匹配的可信度，所述对应关系包括多个值对应的可信度。
一种图像检测方法，其特征在于，所述方法包括：

终端获取拍摄目标矩形的图像；

所述终端检测所述图像的边缘，获得多个候选四边形；

所述终端对所述多个候选四边形中的每一候选四边形，均按照下面针对第一候选四边形的操作进行处理：

所述终端确定所述第一候选四边形的内角值序列{θi(i＝1,2,3,4)}；

所述终端根据所述第一候选四边形的内角值序列{θi(i＝1,2,3,4)}与所述目标矩形在所述图像中投影的目标四边形的内角值序列{90°，90°，90°，90°}，确定所述第一候选四边形与所述目标四边形匹配的可信度；

在所述终端对所述多个候选四边形中的每一候选四边形均按照上面针对所述第一候选四边形的操作处理后，所述终端将所述多个候选四边形中与所述目标四边形匹配的可信度最高的四边形确定为所述目标矩形在所述图像中投影的实际四边形。
根据权利要求12所述的方法，其特征在于，所述终端根据所述第一候选四边形的内角值序列{θi(i＝1,2,3,4)}和所述目标矩形在所述图像中投影的目标四边形的内角值序列{90°，90°，90°，90°}，确定所述第一候选四边形与所述目标四边形匹配的可信度，包括：

所述终端根据所述第一候选四边形的内角值序列{θi(i＝1,2,3,4)}和所述目标矩形在所述图像中投影的目标四边形的内角值序列{90°，90°，90°，90°}，将所述第一候选四边形和所述目标四边形的四个内角分别求差后求统计值；

所述终端根据所述统计值，确定所述第一候选四边形与所述目标四边形匹配的可信度。
根据权利要求13所述的方法，其特征在于，所述终端根据所述统计值，确定所述第一候选四边形与所述目标四边形匹配的可信度，包括：

所述终端将预设值与所述统计值的差值确定为所述第一候选四边形与所述目标四边形匹配的可信度；

或者，所述终端根据所述统计值，查询预先存储的对应关系，确定所述第一候选四边形与所述目标四边形匹配的可信度，所述对应关系包括多个值对应的可信度。
一种终端，其特征在于，所述终端包括：处理器和摄像头；

所述摄像头，用于获取拍摄目标矩形的图像以及所述图像中的深度信息，其中，所述深度信息用于表征所述目标矩形距离摄像头的远近；

所述处理器，用于检测所述图像的边缘，获得多个候选四边形；

所述处理器，还用于对所述多个候选四边形中的每一候选四边形，均按照下面针对第一候选四边形的操作进行处理：

根据所述深度信息，确定所述第一候选四边形的各边是否在三维空间的同一平面上；

若所述第一候选四边形的各边在三维空间的同一平面上，确定所述第一候选四边形的内角值序列{θi(i＝1,2,3,4)、以及所述目标矩形在所述图像中投影的目标四边形的内角值序列{ψi(i＝1,2,3,4)}；

根据所述第一候选四边形的内角值序列{θi(i＝1,2,3,4)}和所述目标四边形的内角值序列{ψi(i＝1,2,3,4)}，确定所述第一候选四边形与所述目标四边形匹配的可信度；

所述处理器，还用于在对所述多个候选四边形中的每一候选四边形均按照上面针对所述第一候选四边形的操作处理后，将所述多个候选四边形中与所述目标四边形匹配的可信度最高的四边形确定为所述目标矩形在所述图像中投影的实际四边形。
根据权利要求15所述的终端，其特征在于，所述处理器具体用于：

确定所述目标矩形的矩形姿态参数；

根据所述目标矩形的矩形姿态参数，匹配预先存储的角度库，确定所述目标矩形在所述图像中投影的目标四边形的内角值序列{ψi(i＝1,2,3,4)}，其中，所述角度库中包含多种矩形姿态中的每种矩形姿态对应的目标四边形的内角值序列。
根据权利要求16所述的终端，其特征在于，所述目标矩形的矩形姿态参数包括：所述目标矩形所在的物平面与所述图像所在的像平面的夹角α、以及所述目标矩形的一边与所述物平面和所述像平面相交线的夹角β。
根据权利要求17所述的终端，其特征在于，所述目标矩形的矩形姿态参数包括：所述第一候选四边形中两组对边的夹角中较大的夹角γ。
根据权利要求16-18任一项所述的终端，其特征在于，所述终端还包括显示器；

所述角度库中还包含所述多种矩形姿态中的每种矩形姿态对应的相邻两边的单位长度的投影的比值λ；

所述处理器，还用于根据所述目标矩形的矩形姿态参数，匹配所述角度库，确定所述目标矩形对应的相邻两边的单位长度的投影的比值λ1；

所述处理器，还用于在将所述多个候选四边形中与所述目标四边形匹配的可信度最高的四边形确定为所述目标矩形在所述图像中投影的实际四边形之后，根据所述比值λ1、以及所述实际四边形相邻两边的投影比值，确定所述实际四边形相邻两边的真实比值；

所述处理器，还用于根据所述目标四边形相邻两边长度的真实比值，获取所述目标矩形；

所述显示器，用于显示所述目标矩形。
根据权利要求16-19任一项所述的终端，其特征在于，所述终端还包括存储器；

所述处理器，还用于在所述获取拍摄目标矩形的图像以及所述图像中的深度信息之前，获取所述角度库；

所述存储器，用于存储所述角度库。
根据权利要求20所述的终端，其特征在于，所述终端还包括：通信接口；

所述处理器具体用于：

通过所述通信接口接收角度库获取设备发送的角度库；或者，

所述处理器具体用于：

分别检测所述多种矩形姿态中的每种矩形姿态对应的目标四边形，并计算所述每种矩形姿态对应的目标四边形的内角值序列、以及所述每种矩形姿态对应的目标四边形相邻两边的单位长度的投影的比值，获得所述角度库。
根据权利要求16-21任一项所述的终端，其特征在于，

所述处理器，还用于若所述第一候选四边形的各边在同一平面上，在所述根据所述目标矩形的矩形姿态参数，匹配预先存储的角度库之前，确定所述目标矩形与所述摄像头的距离d；

所述处理器，还用于根据所述距离d，匹配预先存储的数据库，确定与所述d对应的角度库为所述预先存储的角度库。
根据权利要求15所述的终端，其特征在于，所述处理器确定所述目标四边形的内角值序列为{90°，90°，90°，90°}。
根据权利要求15-23任一项所述的终端，其特征在于，所述处理器具体用于：

根据所述第一候选四边形的内角值序列{θi(i＝1,2,3,4)}和所述目标四边形的内角值序列{ψi(i＝1,2,3,4)}，将所述第一候选四边形和所述目标四边形的四个内角分别求差后求统计值；

根据所述统计值，确定所述第一候选四边形与所述目标四边形匹配的可信度。
根据权利要求24所述的终端，其特征在于，所述处理器具体用于：

将预设值与所述统计值的差值确定为所述第一候选四边形与所述目标四边形匹配的可信度；

或者，根据所述统计值，查询预先存储的对应关系，确定所述第一候选四边形与所述目标四边形匹配的可信度，所述对应关系包括多个值对应的可信度。
一种终端，其特征在于，所述终端包括：摄像头和处理器；

所述摄像头，用于获取拍摄目标矩形的图像；

所述处理器，用于检测所述图像的边缘，获得多个候选四边形；

所述处理器，还用于对所述多个候选四边形中的每一候选四边形，均按照下面针对第一候选四边形的操作进行处理：

确定所述第一候选四边形的内角值序列{θi(i＝1,2,3,4)}；

根据所述第一候选四边形的内角值序列{θi(i＝1,2,3,4)}与所述目标矩形在所述图像中投影的目标四边形的内角值序列{90°，90°，90°，90°}，确定所述第一候选四边形与所述目标四边形匹配的可信度；

所述处理器，还用于在对所述多个候选四边形中的每一候选四边形均按照上面针对所述第一候选四边形的操作处理后，将所述多个候选四边形中与所述目标四边形匹配的可信度最高的四边形确定为所述目标矩形在所述图像中投影的实际四边形。
根据权利要求26所述的终端，其特征在于，所述处理器具体用于：

根据所述第一候选四边形的内角值序列{θi(i＝1,2,3,4)}和所述目标矩形在所述图像中投影的目标四边形的内角值序列{90°，90°，90°，90°}，将所述第一候选四边形和所述目标四边形的四个内角分别求差后求统计值；

根据所述统计值，确定所述第一候选四边形与所述目标四边形匹配的可信度。
根据权利要求27所述的终端，其特征在于，所述处理器具体用于：

将预设值与所述统计值的差值确定为所述第一候选四边形与所述目标四边形匹配的可信度；

或者，根据所述统计值，查询预先存储的对应关系，确定所述第一候选四边形与所述目标四边形匹配的可信度，所述对应关系包括多个值对应的可信度。