WO2018145470A1

WO2018145470A1 - 一种图像检测方法和装置

Info

Publication number: WO2018145470A1
Application number: PCT/CN2017/103283
Authority: WO
Inventors: 李红匣
Original assignee: 广州视源电子科技股份有限公司
Priority date: 2017-02-13
Filing date: 2017-09-25
Publication date: 2018-08-16
Also published as: CN106846339A

Abstract

本发明实施例公开了一种图像检测方法和装置。其中，一种图像检测方法，包括获取待检测图像，从所述待检测图像中提取最大稳定极值MSER区域，其中，所述MSER区域为连通区域，过滤所述MSER区域，得到所述待检测图像中的文本区域。通过从待检测图像中提取MSER区域，以划分连通区域的方式提取MSER区域作为候选区域，再对提取到的MSER区域进行过滤筛选，最终得到待检测图像中的文本区域，区域划分有利于减少计算量、提高检测效率，同时提取MSER区域可减少图像背景的干扰，可提高在检测背景复杂的图像时的准确率。

Description

一种图像检测方法和装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图像检测方法和装置。

背景技术

随着数码摄像设备的成熟和普及，人们已经能够非常方便快捷地记录现实世界在不同视角下的方方面面。而作为人类语言的可视化文本，在人类活动中具有特殊而不可替代的地位。自然场景文字检测是计算机视觉与模式识别技术在目标检测与识别领域中的重要研究课题之一。该技术目的在于在所拍摄的自然场景图像中准确地检测出文字信息，其在自然场景理解与分析、机器人辅助导航、视频检索、盲人辅助阅读及文字翻译等方面有广泛的应用前景。

目前，自然场景文本检测方法分为两种：基于滑动窗口的方法和基于连通区域的方法。

基于滑动窗口的方法，是指将多尺度的窗口在图像中从左到右、从上到下进行滑动，并对滑动窗口内的图像进行分类，判断其是否为文字区域，为了能够检测所有的文本区域，该方法通常需要大量的滑动窗口，导致计算复杂度增高，并不能达到实时的要求。

基于连通区域的方法，是指根据文本固有的属性，如颜色、纹理、笔划宽度等，对像素进行相似性聚类，生成大量的连通区域，并对连通区域进行特征(如文字高度、宽度和间距等)提取，过滤非文本区域，从而完成文本检测，相对于基于滑动窗口的方法，该方法的计算量相对减少，但是对要求连通区域的提取有很高的要求，即所提取的连通区域要包括所有的文字区域，并且很难有效地应对复杂背景的情况。

发明内容

为解决相关技术问题，本发明提供一种图像检测方法和装置，可实现快速、准确地在复杂自然场景中提检测出文字区域。

为实现上述目的，本发明实施例采用如下技术方案：

第一方面，本发明实施例提供了一种图像检测方法，包括：

获取待检测图像；

从所述待检测图像中提取最大稳定极值MSER区域，其中，所述MSER区域为连通区域；

过滤所述MSER区域，得到所述待检测图像中的文本区域。

第二方面，本发明实施例还对应地提供了一种图像检测装置，包括：

待检测图像获取模块，用于获取待检测图像；

MSER区域提取模块，用于从所述待检测图像中提取最大稳定极值MSER区域，其中，所述MSER区域为连通区域；

MSER区域过滤模块，用于过滤所述MSER区域，得到所述待检测图像中的文本区域。

本发明实施例提供的技术方案带来的有益效果：

本技术方案中，获取待检测图像，从待检测图像中提取最大稳定极值MSER区域，其中，最大稳定极值区域为连通区域，过滤MSER区域，得到待检测图像中的文本区域。通过从待检测图像中提取MSER区域，以划分连通区域的方式提取MSER区域作为候选区域，再对提取到的MSER区域进行过滤筛选，最终得到待检测图像中的文本区域，区域划分有利于减少计算量、提高检测效率，同时提取MSER区域可减少图像背景的干扰，可提高在检测背景复杂的待检测图像时的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据本发明实施例的内容和这些附图获得其他的附图。

图1是本发明实施例一提供的一种图像检测方法的流程示意图；

图2A是本发明实施例二提供的一种图像检测方法的流程示意图；

图2B是图2A中S250的可选实施方式的流程示意图；

图2C是本发明实施例二中使用的卷积神经网络模型的结构示意图；

图3是本发明实施例三提供的一种图像检测装置的架构示意图；

图4A是本发明实施例四提供的一种图像检测装置的架构示意图；

图4B是图4A中MSER区域过滤模块450的可选实施方式的架构示意图。

具体实施方式

为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚，下面将结合附图对本发明实施例的技术方案作进一步的详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

请参考图1，其是本发明实施例一提供的一种图像检测方法的流程示意图。本实施例的方法可以由配置有摄像头的智能手机、平板电脑或笔记本电脑等移动设备来执行，可适用于检测识别自然场景图像中文本区域的情况。

本实施例提供的一种图像检测方法，可以包括以下步骤：

S110：获取待检测图像。

示例性的，在本发明实施例中，待检测图像可以为原始图像，也可以为对原始图像经过预处理的得到的图像。在本发明的一个实施例中，优选将原始图像进行预处理得到待检测图像。

S120：从待检测图像中提取最大稳定极值MSER区域。

示例性的，最大稳定极值(Maximally Stable Extrernal Regions，MSER)区域是指待检测图像经过一定的阈值变化后形成的连通区域，可以从待检测图像中提取出多个MSER区域，可以连通区域的最小外接矩形来表示MSER区域。其中，同一个连通区域内的颜色、纹理、字符笔画宽度等特征基本相同。

在待检测图像中所显示的每个矩形框均代表一个MSER区域，可以从待检测图像中提取出多个MSER区域，也可能提取不出MSER区域，即待检测图像中没有文本区域。

S130：过滤MSER区域，得到待检测图像中的文本区域。

示例性的，过滤MSER区域的方法有很多，例如根据MSER区域的区域特征来过滤。在本发明的实施例二提供了一种过滤MSER区域的可选实施方式，在此不加以赘述。

综上，在本技术方案中，获取待检测图像，从待检测图像中提取最大稳定极值MSER区域，其中，最大稳定极值区域为连通区域，过滤MSER区域，得到待检测图像中的文本区域。通过从待检测图像中提取MSER区域，以划分连通区域的方式提取MSER区域作为候选区域，再对提取到的MSER区域进行过滤筛选，最终得到待检测图像中的文本区域，区域划分有利于减少计算量、提高检测效率，同时提取MSER区域可减少图像背景的干扰，可提高在检测背景复杂的图像时的准确率。

实施例二

请参考图2A、图2B和图2C，其中，图2A是本发明实施例二提供的一种图像检测方法的流程示意图，图2B是图2A中S250的可选实施方式的流程示意图，图2C是本发明实施例二中使用的卷积神经网络模型的结构示意图。本实施例与实施例一的主要区别在于，在实施例一的基础上增加了S210、S220、S260和S270的内容，并进一步提供了S250的可选实施方式。

本实施例提供的一种图像检测方法，可以包括如下步骤：

S210：接收初始图像。

示例性的，初始图像可以是通过摄像头拍摄自然场景得到的图像，通常是RGB图像。

S220：对初始图像进行颜色空间转换，以获得待检测图像。

示例性的，通过对初始图像进行颜色空间转换，得到R、G、B、Grayscale、H、S、V共7个通道的图像，作为待检测图像，后续步骤中均是对这7个图像进行操作。

S230：获取待检测图像。

S240：从待检测图像中提取最大稳定极值MSER区域。

示例性的，可以通过MSER算法从待检测图像中提取MSER区域，主要过程为：对待检测图像进行二值化处理，调节二值化阈值在[0，255]范围内变化，当连通区域的面积变化幅度V(i)小于设定的变化幅度值时，确定连通区域为MSER区域；举例来说，对检测图像的灰度图二值化处理时，将像素值小于二值化阈值的像素点均设置像素值为0，将像素值不小于二值化阈值的像素点均设置像素值为255，则对应的二值化图像就经历一个从全黑到全白的过程(就像水位不断上升的俯瞰图)，在这个过程中，有些连通区域的面积随着二值化阈值的变化而变化很小，即V(i)小于设定的变化幅度值(如0.25)，这种连通区域就是MSER区域。

其中，

Q_i表示二值化阈值为i时连通区域的面积；Δ表示二值化阈值的微小变化；面积变化幅度V(i)表示当二值化阈值为i发生微小变化时，连通区域的面积变化程度。

S250：过滤MSER区域，得到待检测图像中的文本区域。

可选的，如图2B所示，过滤MSER区域可以包括S251、S252、S253和S254四个步骤，其中：

S251：统计MSER区域的像素值或区域长宽比。

示例性的，在实际应用中，拍摄到的自然场景图像几乎没有少于30个像素的文字图像，并且一般文字区域的长宽比也在一定的范围内，例如，文字区域的长宽比通常在0.3-3的范围内，因此可以根据确定的MSER区域矩形框内的像素值或长宽比，来初步过滤MSER区域中的非文本区域。

S252：将像素值小于预设像素阈值或区域长宽比不在预设范围内的MSER区域过滤。

示例性的，将像素数少于30，或区域长宽比不在0.3-3范围内的MSER区域过滤。

此外，当一个文字区域有多个矩形框时，为减少计算量，可以从多个矩形框中选取其中一个来代表该文字区域。例如，对于任意一个矩形框A，当另一个矩形框B与矩形框A的重叠区域面积，与矩形框A和矩形框B并集的总面积的比值大于0.8时，则认为矩形框A和矩形框B位于同一个位置、代表的是同一个文字区域，将矩形框A和矩形框B合并，遍历剩余所有矩形框，将符合上述合并条件的矩形框与矩形框A合并，同时也对待检测图像中其他矩形框进行类似操作，可最大限度地减少后续计算量。

S253：连续对过滤后剩余的MSER区域进行卷积和下采样处理，获得特征映射图。

示例性的，本实施例采用MSER区域提取的二值化图像对卷积神经网络模型进行训练。如图2C所示，首先输入一张32*32的图像，经过6个5*5的核矩阵对输入图像进行卷积，得到C1层6个28*28的特征映射图；对C1层的特征映射图进行下采样处理，每4个像素(2*2)得到一个值，则得到S2层6个14*14的特征映射图；然后利用5*5的核矩阵对S2层的特征映射图进行卷积，得到C3层的16个10*10的特征映射图；和S2同理，对C3层的特征映射图进行下采样处理，可以得到S4层的16个5*5的特征映射图；利用5*5的核矩阵对S4层的特征映射图进行卷积，得到C5层的120个1*1的特征映射图；同理，对C5层的特征映射图进行下采样处理，可以得到F6层的84个1*1的特征映射图。

S254：将特征映射图输入到分类器中，根据分类器的输出结果确定MSER区域为文本区域。

示例性的，将上述S253中获得的F6层的特征映射图输入到softmax分类器中，根据softmax分类器的输出结果确定输入的图像为文本图像，相应的MSER 区域为文本区域。在其他实施例中，也可采用SVM等其他分类器。

经卷积神经网络模型对MSERA区域进行分类后，基本可以确定待检测图像中单个字符或文字的区域，基本过滤了非文本区域的矩形框，保留了文本区域矩形框。

S260：在水平方向上合并相邻文本区域。

示例性的，对于包含英文单词的待检测图像，还需要将各字符组合合并为单词。计算所有相邻字符区域之间的距离，并计算出平均距离；找到未被处理的最左侧的字符区域，然后在水平方向上依次寻找与字符区域最近的字符区域，当相邻两个字符区域的高度比在预设的高度比值范围内时，例如，高度比在0.5-2之间时，将这两个字符区域合并，当相邻两个字符区域之间的距离大于设定距离(如上述平均距离的3倍)时，停止迭代，这样可以划分出处于同一行的文本区域。

S270：对合并后的文本区域进行区域内单词分割。

示例性的，对于经上述S260合并后的每组文本区域内，若相邻两个字符区域之间的距离大于上述平均距离，则将该相邻的两个字符区域分割开，这样可以分割同一行中的不同单词。

重复S260和S270，直到所有文本区域均被处理。

需要说明的是，本发明实施例中所述的MSER区域，也表示MSER区域对应的区域图像。

综上，在本技术方案中，接收初始图像，对初始图像进行颜色空间转换，获取待检测图像，从待检测图像中提取最大稳定极值MSER区域，其中，最大稳定极值区域为连通区域，过滤MSER区域，得到待检测图像中的文本区域，并进一步对文本区域进行区域间合并及区域内单词分割。通过从待检测图像中提取MSER区域，以划分连通区域的方式提取MSER区域作为候选区域，再对提取到的MSER区域进行过滤筛选，最终得到待检测图像中的文本区域，区域划分有利于减少计算量、提高检测效率，同时提取MSER区域可减少图像背景的干扰，可提高在检测背景复杂的图像时的准确率。

以下为本发明实施例提供的一种图像检测装置的实施例，图像检测装置与上述图像检测方法属于同一个发明构思，在装置的实施例中未详尽描述的细节内容，请参考上述方法的实施例。

实施例三

请参考图3，其是本发明实施例三提供的一种图像检测装置的架构示意图。

本实施例提供的一种图像检测装置300，可以包括以下内容：

待检测图像获取模块310，用于获取待检测图像。

MSER区域提取模块320，用于从待检测图像中提取最大稳定极值MSER区域，其中，MSER区域为连通区域。

MSER区域过滤模块330，用于过滤MSER区域，得到待检测图像中的文本区域。

实施例四

请参考图4A和图4B，其中，图4A是本发明实施例四提供的一种图像检测装置的架构示意图，图4B是图4A中MSER区域过滤模块450的可选实施方式的架构示意图。本实施例与实施例三的主要区别在于，在实施例三的基础上增加了初始图像接收模块410、颜色空间转换模块420、文本区域合并模块460和单词分割模块470的内容，并进一步提供了MSER区域过滤模块450的可选实施方式。

本实施例提供的一种图像检测装置400，可以包括如下内容：

初始图像接收模块410，用于接收初始图像。

颜色空间转换模块420，用于对初始图像进行颜色空间转换，以获得待检测图像。

待检测图像获取模块430，用于获取待检测图像。

MSER区域提取模块440，用于从待检测图像中提取最大稳定极值MSER区域，其中，MSER区域为连通区域。

优选的，MSER区域提取模块440，具体用于：

对待检测图像进行二值化处理，调节二值化阈值在[0，255]范围内变化，当连通区域的面积变化幅度V(i)小于设定的变化幅度值时，确定连通区域为MSER区域；

其中，

Q_i表示二值化阈值为i时连通区域的面积，Δ表示二值化阈值的微小变化。

MSER区域过滤模块450，用于过滤MSER区域，得到待检测图像中的文本区域。

可选的，如图4B所示，MSER区域过滤模块450可以包括统计单元451、过滤单元452、特征映射图获得单元453和文本区域确定单元454，其中：

统计单元451，用于统计MSER区域的像素值或区域长宽比。

过滤单元452，用于将像素值小于预设像素阈值或区域长宽比不在预设范围内的MSER区域过滤。

特征映射图获得单元453，用于连续对过滤后剩余的MSER区域进行卷积和下采样处理，获得特征映射图。

文本区域确定单元454，用于将特征映射图输入到分类器中，根据分类器的输出结果确定MSER区域为文本区域。

文本区域合并模块460，用于在水平方向上合并相邻文本区域。

单词分割模块470，用于对合并后的文本区域进行区域内单词分割。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

一种图像检测方法，其特征在于，包括：

获取待检测图像；

从所述待检测图像中提取最大稳定极值MSER区域，其中，所述MSER区域为连通区域；

过滤所述MSER区域，得到所述待检测图像中的文本区域。
如权利要求1所述的方法，其特征在于，所述接收待检测图像之前，还包括：

接收初始图像；

对所述初始图像进行颜色空间转换，以获得所述待检测图像。
如权利要求2所述的方法，其特征在于，所述从所述待检测图像中提取最大稳定极值MSER区域，包括：

对所述待检测图像进行二值化处理，调节二值化阈值在[0，255]范围内变化，当所述连通区域的面积变化幅度V(i)小于设定的变化幅度值时，确定所述连通区域为MSER区域；

其中，
Q_i表示所述二值化阈值为i时所述连通区域的面积，Δ表示所述二值化阈值的微小变化。
如权利要求3所述的方法，其特征在于，所述对所述过滤所述MSER区域，得到所述待检测图像中的文本区域，包括：

统计所述MSER区域的像素值或区域长宽比；

将像素值小于预设像素阈值或区域长宽比不在预设范围内的MSER区域过滤。
如权利要求4所述的方法，其特征在于，所述将像素值小于预设像素阈值或区域长宽比不在预设范围内的MSER区域过滤之后，还包括：

连续对过滤后剩余的MSER区域进行卷积和下采样处理，获得特征映射图；

将所述特征映射图输入到分类器中，根据所述分类器的输出结果确定MSER区域为文本区域。
如权利要求1-5任一项所述的方法，其特征在于，所述过滤所述MSER区域，得到所述待检测图像中的文本区域之后，还包括：

在水平方向上合并相邻文本区域；

对合并后的文本区域进行区域内单词分割。
一种图像检测装置，其特征在于，包括：

待检测图像获取模块，用于获取待检测图像；

MSER区域提取模块，用于从所述待检测图像中提取最大稳定极值MSER区域，其中，所述MSER区域为连通区域；

MSER区域过滤模块，用于过滤所述MSER区域，得到所述待检测图像中的文本区域。
如权利要求7所述的装置，其特征在于，所述装置还包括：

初始图像接收模块，用于接收初始图像；

颜色空间转换模块，用于对所述初始图像进行颜色空间转换，以获得所述待检测图像；

文本区域合并模块，用于在水平方向上合并相邻文本区域；

单词分割模块，用于对合并后的文本区域进行区域内单词分割。
如权利要求8所述的装置，其特征在于，所述MSER区域提取模块，具体用于：

对所述待检测图像进行二值化处理，调节二值化阈值在[0，255]范围内变化，当所述连通区域的面积变化幅度V(i)小于设定的变化幅度值时，确定所述连通区域为MSER区域；

其中，
Q_i表示所述二值化阈值为i时所述连通区域的面积，Δ表示所述二值化阈值的微小变化。
如权利要求9所述的装置，其特征在于，所述MSER区域过滤模块包括：

统计单元，用于统计所述MSER区域的像素值或区域长宽比；

过滤单元，用于将像素值小于预设像素阈值或区域长宽比不在预设范围内的MSER区域过滤；

特征映射图获得单元，用于连续对过滤后剩余的MSER区域进行卷积和下采样处理，获得特征映射图；

文本区域确定单元，用于将所述特征映射图输入到分类器中，根据所述分类器的输出结果确定MSER区域为文本区域。