WO2017148282A1

WO2017148282A1 - 文本检测方法和设备

Info

Publication number: WO2017148282A1
Application number: PCT/CN2017/073939
Authority: WO
Inventors: 张庆久; 乐宁; 吴波; 江淑红
Original assignee: 夏普株式会社; 张庆久
Priority date: 2016-03-01
Filing date: 2017-02-17
Publication date: 2017-09-08
Also published as: CN107145883A

Abstract

本发明涉及文本检测方法和设备，能够支持多语言，且能够以高精度识别文本。根据本发明的文本检测方法包括：对待检测的图像进行二值化，以得到二值化图像并提取连通域，得到连通域的特征；对提取的连通域进行组合，以检测水平行和垂直行；以及针对检测到的结果进行滤波，以消除噪声。

Description

文本检测方法和设备

技术领域

本发明涉及文本检测技术，更具体地，涉及一种从自然场景图像中检测文本的方法和设备，能够支持多语言，且能够检测水平行和垂直行。

背景技术

随着信息技术的发展，电子设备(例如，个人数字助理、手持电脑、手机)等的使用在人们的生活中越来越普及。配备有摄像装置的电子设备的使用也越来越普及。当人们通过摄像装置拍摄自然场景图像时，可能需要对所拍摄的图像中的文本行进行识别。

中国专利申请201410334436.4提出了一种中文文本定位设备，其可以从自然场景图像中提取文本。其中，通过最大稳定极值区域MSER方法对图像进行二值化，并根据中文字符的特征来检测文本。但是，所提取的文本局限于中文字符。

现有的文本检测方法局限于一种或某几种特定语言，而无法普适于所有语言。当在图像中出现未知语言时，得到的结果非常差。

此外，现有的文本检测方法通常仅能够处理水平行，而无法同时处理水平行和垂直行。

以高精度来检测自然场景图像中的文本非常困难。一方面，在图像中可能存在非常多的非文本内容，而这些内容可能导致大量噪声并降低检测精度。另一方面，真实世界中的文本具有各种各样的布局和大小，这种复杂的情况非常难以处理。

因此，需要一种能够支持多语言且能够检测水平行和垂直行的文本检测机制。

发明内容

本公开提出了一种文本检测方法和设备，能够支持多语言，且能够检测水平行和垂直行。

根据本发明的一个方面，提出了一种文本检测方法，包括：对待检测的图像进行二值化，以得到二值化图像并提取连通域，得到连通域的特征；对提取的连通域进行组合，以检测水平行和垂直行；以及针对检测到的结果进行滤波，以消除噪声。

优选地，通过最大稳定极值区域MSER方法对待检测的图像进行二值化。

优选地，所述连通域的特征至少包括以下之一：外界矩形；前景面积；前景面积与外界矩形的面积之比；笔画粗细；以及连通域的颜色。

优选地，在提取连通域之后，所述方法还包括：从提取的连通域中移除具有明显不属于文本的特征的连通域。

优选地，检测水平行和垂直行包括：先检测水平行，然后检测垂直行。

优选地，检测水平行包括：根据连通域的特征，将水平相距小于第一阈值的相邻的连通域组合为一个候选水平子行；根据第二阈值，将水平相距小于第二阈值的相邻的候选水平子行组合为一个候选水平行；将候选水平行中连通域的数量大于2的行作为水平行，并将剩余的行作为垂直行候选项。

优选地，检测垂直行包括：将垂直距离小于第三阈值的相邻的垂直行候选项组合为一个候选垂直子行；根据第四阈值，将垂直距离小于第四阈值的相邻的候选垂直子行组合为一个候选垂直行；将候选垂直行中连通域的数量大于或等于3的行作为垂直行。

优选地，针对检测到的结果进行滤波，以消除噪声包括：根据预设的噪声特征，识别检测到的结果中存在的具有预设的噪声特征的行，并从结果中移除所识别的行。

根据本发明的另一方面，提出了一种文本检测设备，包括：文本提取模块，被配置为对待检测的图像进行二值化，以得到二值化图像并提取连通域，得到连通域的特征；行检测模块，被配置为对提取的连通域进行组合，以检测水平行和垂直行；以及后处理模块，被配置为针对检测到的结果进行滤波，以消除噪声。

与现有技术不同，根据本发明实施例的文本检测方法和设备在多个方面改善了文本检测的性能，至少包括：

1.不局限于某种或某些特定语言，而可以识别任何语言的文本行；

2.能够同时检测存在的水平行和垂直行；

3.可以以高精度定位文本行。

附图说明

通过下面结合附图说明本发明的优选实施例，将使本发明的上述及其它目的、特征和优点更加清楚，其中：

图1是示出了根据本发明实施例的文本检测设备的示意框图。

图2示出了一个示例的待检测的图像。

图3示出了图2所示的待检测的图像的二值化结果和连通域。

图4示出了图3所示的二值化结果中移除了明显不属于文本的特征的连通域后的结果。

图5示出了图2所示的待检测的图像的行检测结果。

图6示出了另一个示例的待检测的图像和行检测结果。

图7示出了根据本发明实施例的文本检测方法的流程图。

图8示出了利用根据本发明实施例的文本检测方法的一个应用示例。

具体实施方式

以下参照附图，对本发明的示例实施例进行详细描述。在以下描述中，一些具体实施例仅用于描述目的，而不应该理解为对本发明有任何限制，而只是本发明的示例。在可能导致对本发明的理解造成混淆时，将省略常规结构或构造。

图1是示出了根据本发明实施例的文本检测设备100的示意框图。该文本检测设备100包括：输入模块110，被配置为输入待检测的图像；文本提取模块120，被配置为对待检测的图像进行二值化，以得到二值化图像并提取连通域，得到连通域的特征；行检测模块130，被配置为对提取的连通域进行组合，以检测水平行和垂直行；以及后处理模块140，被配置为针对检测到的结果进行滤波，以消除噪声。

根据本实施例的文本检测设备100可以在诸如智能电话、写字板、笔记本或其他手持电子设备上实现。

输入模块110用于输入待检测的图像。例如，输入模块110可以是智能电话上的摄像机，用于拍摄自然场景图像，作为待检测的图像。又例如，输入模块110可以是笔记本上的通信模块，用于从外部接收待检测的图像。图2示出了一个示例的待检测的图像。

文本提取模块120被配置为通过从待检测的图像中提取连通域，来进行文本提取。根据一个实施例，文本提取模块120被配置为通过最大稳定极值区域MSER方法对待检测的图像进行二值化，得到二值化的图像。然后从图像中提取连通域，并得到连通域的特征。图3示出了图2所示的待检测的图像的二值化结果和连通域。连通域的特征至少包括以下之一：外界矩形；前景面积；前景面积与外界矩形的面积之比；笔画粗细；以及连通域的颜色。

外界矩形是能够将一个连通域包围起来的最小矩形区域。前景面积是一个连通域的面积。笔画粗细表示连通域中的笔画的粗细。连通域的颜色表示该连通域在原始图像中的颜色。这些特征并不与特定的语言类型相关，因此文本检测设备100可以普适于多种语言。

这些连通域的特征可用于进行行的检测和噪声消除。

文本检测模块120还被配置为：从提取的连通域中移除具有明显不属于文本的特征的连通域。

例如，当检测到一条直线时，其高宽比明显与其它的连通域的宽高比不同。因此，可以将其从提取的连通域中删除。再例如，当检测到一个噪声点时，其所占像素数目明显小于其他的连通域所占的像素数目。因此，可以将其从提取的连通域中删除。移除这些连通域以提高检测精度。图4示出了图3所示的二值化结果中移除了明显不属于文本的特征的连通域后的结果。

可以预先设置文本的特征，以便在提取到连通域之后对提取的连通域进行过滤。当然，例如作为输入模块的摄像机可以输入所拍摄的图像的信息，文本检测模块可以根据图像的信息对提取的连通域进行过滤。图像的信息包括例如图像的像素数目、图像的宽度、高度等。

行检测模块130被配置为对提取的连通域进行组合，以检测水平行和垂直行。可以分别处理水平行和垂直行。在现实世界中，水平行出现的概率远高于垂直行出现的概率。因此，可以首先检测水平行以确保水平行检测相比于垂直行检测具有较高的优先级。

针对水平行检测，其算法如下。根据连通域的特征，将水平距离小于第一阈值的相邻的连通域组合为一个候选水平子行；根据第二阈值，将水平距离小于第二阈值的相邻的候选水平子行组合为一个候选水平行；将候选水平行中连通域的数量大于2的行作为水平行，并将剩余的行作为垂直行候选项。

假定提取的连通域表示为C_all，所有连通域可以组合为组。组合方法是根据连通域的水平位置关系和其他特征，例如笔画粗细、笔画颜色等。仅将水平距离很近的相邻连通域组合到相同的组中。例如，根据连通域的特征，假定连通域的外界矩形的平均大小是10*10，则可以将第一阈值设置为5，并将水平距离小于第一阈值的相邻的连通域组合到相同的组中，作为一个候选水平子行。假定CH_group1是组合后的结果，其中该组可以具有一个或多个连通域。然后，根据较大的水平距离再次对CH_group1进行组合。例如，假定连通域的外界矩形的平均大小是10*10，则可以将第二阈值设置为10，将水平距离小于第二阈值的相邻候选水平子行组合为一个候选水平行。假定结果是CH_group2。由于亚洲语言的一些字符具有左右部分，因此可以仅将在每一个CH_group2中的连通域的数量大于2的CH_group2选择为水平行。因此，CH_group2将分为两个部分L_hor和C_rest，L_hor是检测到的水平行，C_rest将作为垂直行候选项，参与垂直行检测。

针对垂直行检测，其算法如下。将垂直距离小于第三阈值的相邻的垂直行候选项组合为一个候选垂直子行；根据第四阈值，将垂直距离小于第四阈值的相邻的候选垂直子行组合为一个候选垂直行；将候选垂直行中连通域的数量大于或等于3的行作为垂直行。

例如，根据垂直位置关系对C_rest进行组合。仅将垂直距离很近的垂直行候选项组合到相同的组中。例如，根据连通域的特征，假定连通域的外界矩形的平均大小是10*10，则可以将第三阈值设置为5，并将垂直距离小于第三阈值的相邻的垂直行候选项组合到相同的组中，作为一个候选垂直子行。假定CV_group1是组合结果。然后，根据较大的垂直距离再次对CV_group1进行组合。例如，假定连通域的外界矩形的平均大小是10*10，则可以将第四阈值设置为10，将垂直距离小于第四阈值的相邻候选垂直子行组合为一个候选垂直行。假定最终组合结果是CV_group2。仅将在每一组CV_group2中的连通域的数量大于3的CV_group2选择为垂直行L_ver。L_hor和L_ver是检测到的水平行和垂直行。图5示出了图2所示的待检测的图像的行检测结果。图6示出了另一个示例的待检测的图像和行检测结果，其中图6(a)示出了待检测的图像，图6(b)示出了行检测结果。

后处理模块140被配置为针对检测到的结果进行滤波，以提高检测的精度。实际上，可能会提取出一些噪声行，因为根据本发明实施例的文本检测设备不局限于特定的语音类型。例如，可能会将墙壁上的砖块识别为文本行。根据本发明实施例，可以通过以下步骤滤除噪声：1)提取行的特征，这些特征包括字符的平均大小、前景面积与外界矩形的面积的平均填充比等。2)根据行特征识别噪声，然后从结果中移除噪声。例如，可以预设噪声特征。例如，可以预设可能识别的窗、墙壁、书本页面等的噪声对象的特征。根据预设的噪声特征，识别检测到的结果中存在的具有预设的噪声特征的行，并从结果中移除所识别的行。

图1还示出了，根据本发明实施例的文本检测设备100还包括显示器150，用于显示文本检测结果。

图7示出了根据本发明实施例的文本检测方法700的流程图。根据本发明实施例的文本检测方法应用于电子设备，能够对电子设备上的待检测的图像进行文本设备。当需要识别文本行时，根据本发明实施例的文本识别方法启动。首先，在步骤S710处，对待检测的图像进行二值化，以得到二值化图像并提取连通域，得到连通域的特征。然后，在步骤S720处，对提取的连通域进行组合，以检测水平行和垂直行。在步骤S730处，针对检测到的结果进行滤波，以消除噪声。

步骤S710中得到的连通域的特征至少包括以下之一：外界矩形；前景面积；前景面积与外界矩形的面积之比；笔画粗细；以及连通域的颜色。

在步骤S710中，在提取连通域之后，还包括：从提取的连通域中移除具有明显不属于文本的特征的连通域。

在步骤S720中，先检测水平行，然后检测垂直行。具体地，检测水平行包括：根据连通域的特征，将水平相距小于第一阈值的相邻的连通域组合为一个候选水平子行；根据第二阈值，将水平相距小于第二阈值的相邻的候选水平子行组合为一个候选水平行；将候选水平行中连通域的数量大于2的行作为水平行，并将剩余的行作为垂直行候选项。检测垂直行包括：将垂直距离小于第三阈值的相邻的垂直行候选项组合为一个候选垂直子行；根据第四阈值，将垂直距离小于第四阈值的相邻的候选垂直子行组合为一个候选垂直行；将候选垂直行中连通域的数量大于或等于3的行作为垂直行。

在步骤S730中，可以根据预设的噪声特征，识别检测到的结果中存在的具有预设的噪声特征的行，并从结果中移除所识别的行。

根据本发明实施例的文本检测方法和设备可以应用于各种电子设备，包括智能电话、写字板、笔记本或其他手持电子设备。用户可以在这种电子设备上输入待检测的图像。电子设备可以高效且高精确地对图像中的文本行进行识别。通过提取连通域并根据提取的连通域的特征来进行行的检测，所以对于文本的语言没有限制，而可以支持各种语言。此外，由于在执行了水平行检测之后进行垂直行检测，可以同时检测水平行和垂直行。由于在检测到行之后进行噪声移除处理，可以以高精度进行行检测。

图8示出了利用根据本发明实施例的文本检测方法的一个应用示例。如图8所示，在智能电话上运行根据本发明实施例的文本检测方法。当用户在外旅行时，需要识别他看到的文字。假定该智能电话具有摄像头。首先，利用摄像机捕获现实世界的图像，得到待检测的图像。然后，根据本发明实施例的文本检测方法对待检测的图像进行文本识别，得到一个水平行和一个垂直行。然后，可以在该智能电话上运行光学字符识别OCR方法，识别水平行和垂直行中的文本。可以在该智能电话上运行翻译程序，以将识别的文本翻译为用户所需的语言，从而该用户可以方便地了解所看到的文字内容。

这里所公开的本发明实施例的其他设置包括执行在先概述的方法实施例的步骤和操作的软件程序。更具体地，计算机程序产品是如下的一种实施例：具有计算机可读介质，计算机可读介质上编码有计算机程序逻辑，当在计算设备上执行时，计算机程序逻辑提供相关的操作，从而提供上述技术方案。当在计算系统的至少一个处理器上执行时，计算机程序逻辑使得处理器执行本发明实施例所述的操作(方法)。本发明的这种设置典型地提供为设置或编码在例如光介质(例如CD-ROM)、软盘或硬盘等的计算机可读介质上的软件、代码和/或其他数据结构、或者诸如一个或多个ROM或RAM或PROM芯片上的固件或微代码的其他介质、或专用集成电路(ASIC)、或一个或多个模块中的可下载的软件图像、共享数据库等。软件或固件或这种配置可安装在计算设备上，以使得计算设备中的一个或多个处理器执行本发明实施例所述的技术。结合诸如一组数据通信设备或其他实体中的计算设备进行操作的软件过程也可以提供根据本发明的设备。根据本发明的设备也可以分布在多个数据通信设备上的多个软件过程、或者在一组小型专用计算机上运行的所有软件过程、或者单个计算机上运行的所有软件过程之间。

应该理解，严格地讲，本发明的实施例可以实现为计算机设备上的软件程序、软件和硬件、或者单独的软件和/或单独的电路。

应当注意的是，在以上的描述中，仅以示例的方式，示出了本发明的技术方案，但并不意味着本发明局限于上述步骤和单元结构。在可能的情形下，可以根据需要对步骤和单元结构进行调整和取舍。因此，某些步骤和单元并非实施本发明的总体发明思想所必需的元素。因此，本发明所必需的技术特征仅受限于能够实现本发明的总体发明思想的最低要求，而不受以上具体实例的限制。

至此已经结合优选实施例对本发明进行了描述。应该理解，本领域技术人员在不脱离本发明的精神和范围的情况下，可以进行各种其它的改变、替换和添加。因此，本发明的范围不局限于上述特定实施例，而应由所附权利要求所限定。

Claims

一种文本检测方法，包括：

对待检测的图像进行二值化，以得到二值化图像并提取连通域，得到连通域的特征；

对提取的连通域进行组合，以检测水平行和垂直行；以及

针对检测到的结果进行滤波，以消除噪声。
根据权利要求1所述的文本检测方法，其中，通过最大稳定极值区域MSER方法对待检测的图像进行二值化。
根据权利要求1所述的文本检测方法，其中，所述连通域的特征至少包括以下之一：

外界矩形；

前景面积；

前景面积与外界矩形的面积之比；

笔画粗细；以及

连通域的颜色。
根据权利要求1所述的文本检测方法，其中，在提取连通域之后，所述方法还包括：

从提取的连通域中移除具有明显不属于文本的特征的连通域。
根据权利要求1所述的文本检测方法，其中，检测水平行和垂直行包括：

先检测水平行，然后检测垂直行。
根据权利要求5所述的文本检测方法，其中，检测水平行包括：

根据连通域的特征，将水平相距小于第一阈值的相邻的连通域组合为一个候选水平子行；

根据第二阈值，将水平相距小于第二阈值的相邻的候选水平子行组合为一个候选水平行；

将候选水平行中连通域的数量大于2的行作为水平行，并将剩余的行作为垂直行候选项。
根据权利要求6所述的文本检测方法，其中，检测垂直行包括：

将垂直距离小于第三阈值的相邻的垂直行候选项组合为一个候选垂直子行；

根据第四阈值，将垂直距离小于第四阈值的相邻的候选垂直子行组合为一个候选垂直行；

将候选垂直行中连通域的数量大于或等于3的行作为垂直行。
根据权利要求1所述的文本检测方法，其中，针对检测到的结果进行滤波，以消除噪声包括：

根据预设的噪声特征，识别检测到的结果中存在的具有预设的噪声特征的行，并从结果中移除所识别的行。
一种文本检测设备，包括：

文本提取模块，被配置为对待检测的图像进行二值化，以得到二值化图像并提取连通域，得到连通域的特征；

行检测模块，被配置为对提取的连通域进行组合，以检测水平行和垂直行；以及

后处理模块，被配置为针对检测到的结果进行滤波，以消除噪声。
根据权利要求9所述的文本检测设备，其中，所述文本提取模块被配置为通过最大稳定极值区域MSER方法对待检测的图像进行二值化。
根据权利要求9所述的文本检测设备，其中，所述连通域的特征至少包括以下之一：

外界矩形；

前景面积；

前景面积与外界矩形的面积之比；

笔画粗细；以及

连通域的颜色。
根据权利要求9所述的文本检测设备，其中，所述文本检测模块还被配置为：

从提取的连通域中移除具有明显不属于文本的特征的连通域。
根据权利要求9所述的文本检测设备，其中，所述行检测模块被配置为：

先检测水平行，然后检测垂直行。
根据权利要求13所述的文本检测设备，其中，所述行检测模块被配置为：

根据连通域的特征，将水平距离小于第一阈值的相邻的连通域组合为一个候选水平子行；

根据第二阈值，将水平距离小于第二阈值的相邻的候选水平子行组合为一个候选水平行；以及

将候选水平行中连通域的数量大于2的行作为水平行，并将剩余的行作为垂直行候选项。
根据权利要求14所述的文本检测设备，其中，所述行检测模块被配置为：

将垂直距离小于第三阈值的相邻的垂直行候选项组合为一个候选垂直子行；

根据第四阈值，将垂直距离小于第四阈值的相邻的候选垂直子行组合为一个候选垂直行；以及

将候选垂直行中连通域的数量大于或等于3的行作为垂直行。
根据权利要求9所述的文本检测设备，其中，所述后处理模块被配置为：

根据预设的噪声特征，识别检测到的结果中存在的具有预设的噪声特征的行，并从结果中移除所识别的行。
根据权利要求9所述的文本检测设备，其中，所述文本检测设备实现在智能电话、写字板、笔记本或其他手持电子设备上。