WO2012075817A1

WO2012075817A1 - 一种文本图像的切边方法

Info

Publication number: WO2012075817A1
Application number: PCT/CN2011/077914
Authority: WO
Inventors: 龙腾; 张彬; 罗希平
Original assignee: 上海合合信息科技发展有限公司
Priority date: 2010-12-10
Filing date: 2011-08-02
Publication date: 2012-06-14
Also published as: JP2014504400A; JP5896245B2; US9082192B2; CN102201053A; PT2650821T; CN102201053B; ES2609953T3; EP2650821A4; US20130251262A1; EP2650821A1; KR101784919B1; EP2650821B1; KR20130126929A

Description

一种文本图像的切边方法技术领域

本发明属于图像处理技术领域，涉及一种图像处理方法，尤其涉及一种文本图像的切边方法。背景技术

近年来，数码相机等数字成像设备的应用越来越广泛，目前自带的数码相机已经成为了手机等移动设备的标准配置了。这些数字成像设备经常被用来拍摄各种文本图像，文本图像是指包含有一行或者多行印刷体文字的图像，比如名片，菜单，票据等等。相机拍摄跟扫描仪扫描所得到的图像是有区别的，区别包括相机拍摄得到的图像不如扫描仪扫描的图像清晰，相机拍摄的图像包含了所拍摄物体如名片的投影形变使得图像中的名片看上去不如扫描的到的那么方正，相机拍摄的图像包含了所拍摄物体外部的背景等等。由于拍摄习惯，取景需求等的不同，用户拍摄到的文本图像，一般是包含有背景的，而用户需要的图像，通常是去掉了背景区域的图像，就像扫描仪扫描得到的图像。

将文本图像中从其背景中分离出来的技术，目前已有应用，比如苹果公司 app s tore 的名片处理软件 mobiReader 在拍摄名片时，通过指定一个预览框，要求用户拍摄时时名片刚好在预览框内，从而使拍摄得到的图像只有名片的区域，达到将名片切边的效果。这是一种手动切边的方法。因为文本的图像的形状比如名片，菜单，票据一般是具有明显边缘的四边形，很多软件会通过图像处理中的直线检测的方法检测出文本区域，比如苹果公司 app s tore 的软件 genius Scar

但是到文本中有其它的明显的边缘时，这种检测方法常常会将文本内部的直线当成文本的边缘。对这种包含有文字的图片仍然可以根据一些特定的线索来辅助寻找文本图像的区域，提高检测文本区域的准确性，保证切边的效果。

无论是扫描得到的文本图像还是相机拍摄得到的文本图像，现有的软件如名片识别软件以及一般扫描仪带有的 OCR软件都可以自动的检测出图像中的文字并进行识别。发明内容

本发明所要解决的技术问题是：提供一种文本图像的切边方法，可自动检测文本区域的边缘，并通过文字检测的方法，利用检测到的文字区域对文本边缘进行验证和纠正，大幅度提高了检测到文本区域的准确性，从而去掉了不相关的冗余信息，使用户浏览图像数据时看到的图像是有只含有文本区域的对用户有价值的部分。

为解决上述技术问题，本发明釆用如下技术方案：

一种文本图像的切边方法，其特征在于，所述方法包括如下步骤：步骤 110, 获取文本图像数据；

步骤 120 , 通过直线检测的方法检测出文本图像的直线，得到切边四边形的边缘；

步骤 130, 对图像数据进行文本检测，得到文本区域的边界点的坐标；步骤 140, 根据步骤 120和步骤 130的结果得到最后的切边结果；步骤 150, 结束。

作为本发明的一种优选方案，所述步骤 140具体包括如下步骤：

步骤 210, 将步骤 120得到的所有切边四边形组成一个候选四边形集合；步骤 220, 如果候选四边形集合为空，转入步骤 260 , 否则进入步骤 230; 步骤 230, 从四边形候选集合移取下一个候选四边形；

步骤 240 , 判断文本区域的所有边界点是否在候选四边形中，如果是则该文本区域为有效的切边四边形转步骤 250, 如果否，转步骤 220;

步骤 250, 返回有效的切边四边形；

步骤 260, 将整张图像返回给用户供其手工确定切边四边形。

作为本发明的一种优选方案，所述步骤 110获取图像数据的方法包括以下三种之一：

方法之一是用数码相机拍摄得到的图像；

方法之二是用扫描仪得到的图像数据；方法之三是打开一个预先存在的包含有图像数据的文件，读取该文件中的数据并按照标准算法解压缩后得到的图像数据。为了实现本发明，需具备如下硬件条件：该设备中需要有一般的运算和存储装置，包括一定频率的 CPU (中央处理器），有一定用来运算的内存和用来存储系统软件，应用软件和各种数据的存储空间等。如果需要通过数码相机拍摄或者扫描仪扫描来得到图像数据，还需要有数码相机或扫描仪。本发明针对用户需要保存或进行浏览的文本图像数据，自动检测文本区域的边缘，并通过文字检测的方法，利用检测到的文字区域对文本边缘进行验证和纠正，大幅度提高了检测到文本区域的准确性。本发明的有益效果在于：本发明提出的文本图像的切边方法，利用图像处理、模式识别等的领域的技术，在对文本图像进行切边的时候，通过判断切边四边形是否包含文本区域，从而得到准确的文本区域。该方法能从切边的候选四边形中得到准确的切边区域，减少用户手工裁减区域和由于切边不准丟失数据的麻烦。附图说明

图 1为本发明文本图像切边方法的流程图；

图 2为判断切边四边形是否有效步骤的流程图；

图 3为原始文本图像效果示意图；

图 4为经本发明文本图像切边方法处理后的文本图像效果示意图。具体实施方式

下面结合附图详细说明本发明的优选实施例。

实施例一

请参阅图 1 , 本发明揭示了一种文本图像的切边方法，所述方法包括如下步骤：【步骤 110】获取文本图像数据。

获取图像数据的方法包括以下三种之一：

方法之一是用数码相机拍摄得到的图像；

方法之二是用扫描仪得到的图像数据；

方法之三是打开一个预先存在的包含有图像数据的文件，读取该文件中的数据并按照标准算法解压缩后得到的图像数据。

【步骤 120】通过直线检测的方法检测出文本图像的直线，得到切边四边形的边缘。

【步骤 130】对图像数据进行文本检测，得到文本区域的边界点的坐标；【步骤 140】才艮据步骤 120和步骤 130的结果得到最后的切边结果；请参阅图 2 , 步骤 140具体包括如下步骤：

步骤 250, 返回有效的切边四边形；

步骤 260, 将整张图像返回给用户供其手工确定切边四边形。

【步骤 150】结束。综上所述，本发明提出的文本图像的切边方法，利用图像处理、模式识别等的领域的技术，在对文本图像进行切边的时候，通过判断切边四边形是否包含文本区域，从而得到准确的文本区域。该方法能从切边的候选四边形中得到准确的切边区域，减少用户手工裁减区域和由于切边不准丟失数据的麻烦。实施例二

在一般的计算机上，对拍摄到的票据单如图 3 所示，使用本发明所述的方法，读取其中的图像数据，经过自动切边和文本检测的纠正算法，得到如图所示的图像如图 4所示。实施例三

在 iPhone 上，该手机自带 300 万像素的摄像头，使用本发明所述的方法，对拍摄得到的名片图像，经过自动切边和文本检测的纠正算法，得到矩形图像。这里本发明的描述和应用是说明性的，并非想将本发明的范围限制在上述实施例中。这里所披露的实施例的变形和改变是可能的，对于那些本领域的普通技术人员来说实施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是，在不脱离本发明的精神或本质特征的情况下，本发明可以以其它形式、结构、布置、比例，以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下，可以对这里所披露的实施例进行其它变形和改变。

Claims

权利要求书

1、一种文本图像的切边方法，其特征在于，所述方法包括如下步骤：

步骤 110, 获取文本图像数据；获取图像数据的方法包括以下三种之一：方法之一是用数码相机拍摄得到的图像；方法之二是用扫描仪得到的图像数据；方法之三是打开一个预先存在的包含有图像数据的文件，读取该文件中的数据并按照标准算法解压缩后得到的图像数据；

步骤 120, 通过直线检测的方法检测出文本图像的直线，得到切边四边形的边缘；通过检测到的直线得到多个候选的四边形区域；

步骤 130, 对图像数据进行文本检测，得到文本区域的边界点的坐标；步骤 140, 才艮据步骤 120和 130的结果得到最后的切边结果；步骤 140的具体步骤如下：

-步骤 210, 将步骤 120得到的所有切边四边形组成一个候选四边形集合； -步骤 220, 如果候选四边形集合为空，转入步骤 260, 否则进入步骤 230; -步骤 230, 从四边形候选集合移取下一个候选四边形；

-步骤 240, 判断文本区域的所有边界点是否在候选四边形中，如果是则该文本区域为有效的切边四边形转步骤 250, 如果否，转步骤 220;

-步骤 250, 返回有效的切边四边形；

-步骤 260, 将整张图像返回给用户供其手工确定切边四边形；

步骤 150, 结束。

2、一种文本图像的切边方法，其特征在于，所述方法包括如下步骤：

步骤 110, 获取文本图像数据；

步骤 120, 通过直线检测的方法检测出文本图像的直线，得到切边四边形的边缘；

步骤 130, 对图像数据进行文本检测，得到文本区域的边界点的坐标；步骤 140, 根据步骤 120和步骤 130的结果得到最后的切边结果；

步骤 150, 结束。

3、根据权利要求 2所述的文本图像的切边方法，其特征在于：

所述步骤 140具体包括如下步骤：

步骤 240 , 判断文本区域的所有边界点是否在候选四边形中，如果是则该文本区域为有效的切边四边形转步骤 250 , 如果否，转步骤 220;

步骤 250, 返回有效的切边四边形；

步骤 260, 将整张图像返回给用户供其手工确定切边四边形。

4、根据权利要求 2所述的文本图像的切边方法，其特征在于：

所述步骤 110获取图像数据的方法包括以下三种之一：

方法之一是用数码相机拍摄得到的图像；

方法之二是用扫描仪得到的图像数据；