WO2010037332A1

WO2010037332A1 - 分类器的训练方法及装置、识别图片的方法及装置

Info

Publication number: WO2010037332A1
Application number: PCT/CN2009/074110
Authority: WO
Inventors: 付立波; 王建宇; 陈波
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2008-09-26
Filing date: 2009-09-22
Publication date: 2010-04-08
Also published as: CN101359372A; US8611644B2; US20100310158A1; CN101359372B

Description

分类器的训练方法及装置、识别图片的方法及装置

技术领域

本发明涉及图像识别领域，尤其涉及一种分类器的训练方法及装置、识别图片的方法及装置。发明背景

随着互联网信息量的日益丰富，不良信息也越来越多。不良信息中的色情图片等敏感图片污染社会风气，危害青少年的身心健康，识别并拦截这类敏感图片是净化互联网内容的一项关键任务。

考虑到敏感图片绝大多数都是存在大面积人体皮肤棵露的，而检测人体棵露皮肤相对比直接检测出敏感图片容易，因此人体棵露皮肤检测是达到敏感图片识别的一种有效的启发式办法。通过人体棵露皮肤检测，可以检测出疑似度相当高的一类敏感图片，然后交给人工审核，可以大大降低人工审核的工作量。

现有技术中存在一种基于肤色检测技术及人体区域形状特征的人体棵露皮肤检测方法。通过肤色检测技术检测出待审核图片的肤色或类似肤色区域，然后在这些区域上提取出能够区分人体皮肤区域和非人体皮肤的背景区域的区域形状特征，再经过一个事先训练好的分类器进行判别。

现有的肤色检测技术主要是基于人体皮肤颜色的统计概率分布来进行的，目前使用比较广泛的肤色检测方法是 Bayes决策法。该方法在一个大样本集上统计皮肤颜色和非皮肤颜色的分布，对一种给定的颜色，根据这两个分布使用 Bayes公式计算出该颜色是皮肤颜色的后验概率，根据概率大小决定其是肤色区域还是非肤色区域。现有技术中常用的人体区域形状特征主要有皮肤区域与图像的面积比（皮肤区域指所有的皮肤像素组成的区域，不要求连续），最大皮肤 Blob与图像的面积比（皮肤 Blob指皮肤像素组成的连通区域），皮肤 Blob个数，皮肤 Blob与外接矩形（或凸包）面积比、皮肤 Blob的等价椭圆的半轴长、离心率、方向等，皮肤区域的矩不变量，以及人脸区域面积等。

在训练图片集上提取这些区域形状特征，训练出一个能够自动分类出敏感图片和正常图片的分类器。训练图片集由正例样本集（敏感图片组成）和反例样本集（正常图片组成），在每个样本集上提取的特征分别打上各自的标签，然后用于训练分类器。用于该问题的分类器主要有支持向量机（SVM )、感知器网络（MLP )、决策树等。

由于现有技术中将各类反例图片合在一起构成反例样本集，致使反例图片的某些区域形状特征的分布进一步分散化，增大了正例与反例图片的特征重叠程度，例如，反例照片中的肖像图片与敏感图片的很多彼此重叠的特征被强行标注成不同的标签，造成训练出的分类器出现过度拟合，分类面发生扭曲，使得肖像图片的误检率和敏感图片的漏检率都会增大，场景图片的分类结果也会受到不易预料的影响。因此，现有技术训练出的分类器存在漏检率和误检率高的问题。发明内容

本发明实施例提供了一种图片分类器的训练方法及装置，能够使训练得到的分类器的漏检率和误检率降低；

一种图片分类器的训练方法，包括步骤：

A, 将用于分类器训练的训练图片集划分为正例样本集和两个以上的反例样本集； B , 针对每一反例样本集，确定用于区分所述正例样本集与该反例样本集的特征组；

C, 通过确定的特征组训练获得第二分类器。

本发明还公开了一种图片分类器的训练装置，包括：

训练图片集，所述训练图片集包括正例样本集和两个以上的反例样本集；

特征确定模块，针对每一反例样本集，确定用于区分所述正例样本集与该反例样本集的特征组；

特征训练模块，用于通过特征组的特征进行分类器训练获得分类器。

本发明将反例样本集进行了分类，针对每种类型的反例样本集对大量的区域形状特征进行可分性实验，分别找出了用于区分不同反例图片与敏感图片的特征组，使用不同的特征组训练多个分类器，从而使的训练出的分类器的漏检率和误检率大大降低。

本发明实施例还提供了一种识别图片的方法及装置，能够提高识别图片的准确率。

一种利用上述图片分类器识别图片的方法，包括步骤：

获取待审核图片的肤色或类似肤色区域；

在所述肤色或类似肤色区域提取包含在特征组的区域形状特征，根据该区域形状特征和通过包含该区域形状特征的特征组训练出的分类器识别所述待审核图片。

本发明还公开了一种图片的识别装置，包括：

肤色区域图测模块，用于获取待审核图片的肤色或类似肤色区域；

分类器，用于在所述肤色或类似肤色区域提取包含在特征组的区域形状特征，根据该区域形状特征识别所述待审核图片。

本发明中，识别待审核图片所使用的分类器中的区域形状特征是针对每种类型的反例样本集进行可分性实验后找出的区分性较好的区域形状特征，因此对各种类型的反例图片能达到较好的区分精度，从而能够提高敏感图片识别的精确度。附图简要说明

图 la为本发明的一实施例中图片分类器的训练基本流程图；图 lb为本发明的一实施例中图片分类器的训练详细流程图；图 2a为本发明的一实施例中识别图片的方法的基本流程图；图 2b为本发明的一实施例中识别图片的方法的详细流程图；图 3为肤色检验结果的一实例图；

图 4a为本发明一实施例中图片分类器的训练装置基本结构图；图 4b为本发明一实施例中图片分类器的训练装置详细结构图；图 5为本发明一实施例中识别图片的装置的原理框图。实施本发明的方式

请参见图 la, 图 la为本发明实施例提供的图片分类器的训练基本流程图。如图 la所示，该流程可包括以下步骤：

步骤 101a, 将用于分类器训练的训练图片集区分为正例样本集、两个以上的反例样本集。

由于现有技术中仅将训练图片集区分为正例样本集和反例样本集，比如，正例样本集为敏感图片，反例样本集为除敏感图片之外的所有图片，这样，就会增大敏感图片的漏检率等问题，基于此，本发明实施例对现有技术中的反例样本进行了进一步的层次细分，比如，根据实际情况比如根据与正例图片的特征重叠程度的大小等情况将反例图片细分为第一反例样本集、第二反例样本集等，避免了一些反例图片的某些区域形状特征的分布进一步分散化的问题，增大了正例与反例图片的特征重叠程度。

值得指出的是，正例样本集的种类和各个反例样本集的种类并非有数量限制，还可以根据实际情况进行相应的调整。可以看出，本发明实施例并非按照现有技术的操作将所有反例图片都归纳为反例图片集，步骤 102a, 针对每一反例样本集，确定用于区分所述正例样本集与该反例样本集的特征组。

这里，如果步骤 101a中划分的反例样本集为第一反例样本集和第二反例样本集，则步骤 102a中确定的特征组分别为：用于区分所述正例样本集与第一反例样本集的第一特征组，和用于区分所述正例样本集与第二反例样本集的第二特征组，其中，每一特征组中分别包含了对应的区域形状特征。这里，确定各个特征组中包含的区域形状特征的操作在具体实现时可有多种实现形式，比如：可预先根据实际情况设定；也可根据区域形状特征在正例样本集与各个反例样本集的分布确定等。其中，根据区域形状特征在正例样本集与各个反例样本集的分布确定具体可参见图 lb中的步骤 102b至步骤 103b。

步骤 103a, 通过确定的特征组训练获得分类器。

这里，如果步骤 102a中确定的特征组分别为：用于区分所述正例样本集与第一反例样本集的第一特征组，和用于区分所述正例样本集与第二反例样本集的第二特征组，则本步骤 103a包括：通过确定的第一特征组训练获得第一分类器，通过确定的第二特征组训练获得第二分类器。其中，步骤 103a的具体描述可参见图 lb所示的详细流程中的步骤 104b。

至此，通过上述步骤实现了本发明实施例提供的基本流程图。为使本发明实施例提供的方法更加清楚，下面对本发明实施例提供的方法进行详细描述。参见图 lb, 图 lb为本发明实施例提供的图片分类器的训练详细流程图。为便于叙述，本实施例以将反例样本集细分为第一反例样本集和第二反例样本集为例。当然，本实施例也可继续将反例样本集细分，具体操作与图 lb类似，这里不再——举例。本实施例中，划分的反例样本集主要是按照与正例样本集具有的重叠特征的多少的原则来确定，比如，第一反例样本集通常为与正例样本集具有的重叠特征最少的样本集，第二反例样本集为与正例样本集具有的重叠特征多于第一反例样本集与正例样本集具有的重叠特征。本实施例中，为了方便叙述，以场景图片作为第一反例，肖像图片作为第二反例，敏感图片作为正例的情况进行阐述，当然，本实施例还可采用其他图片，图 lb 所示的只是一种举例，并非限定本发明实施例。如图 lb所示，该流程可包括以下步骤：

当使用上述训练图片集进行分类器训练时，首先对区域形状特征进行可分性实验：分别在三类样本集中提取区域形状特征（步骤 100b ), 测量所提取的区域形状特征在正例样本集、第一反例样本集和第二反例样本集中的不同分布特征（步骤 101b ); 然后根据分布特征确定区域形状特征的可分性（步骤 102b )。针对不同区域形状特征在不同的样本集中的可分性不同，选择可分性较好的区域形状特征，将相对于正例样本集与第一反例样本集具有较好可分性的区域形状特征标注为第一特征组，将相对于正例样本集与第二反例样本集具有较好可分性的区域形状特征标注为第二特征组（步骤 103b ); 最后使用第一特征组的区域形状特征来训练分类器获得第一分类器，通过第二特征组的区域形状特征来训练分类器获得第二分类器（步骤 104b )。

本实施例经过对区域形状特征进行可分性试验，可以得出区分场景图片与敏感图片的区域形状特征、和区分肖像图片与敏感图片的区域形状特征不同的情况，为此，本实施例提出了两组特征组，训练生成两种分类器，对待识别图片进行多层分类，可以降低分类器的误检率。

在执行步骤 100b 时，为了使可分性实验的结果更加真实的反应事实，本发明在尽可能广泛的各种区域形状特征中提取区域形状特征。通常区域形状特征包含但不限于以下几种类型：

1) 区域统计特征：

皮肤区域与图像面积比，皮肤 Blob个数，最大皮肤 Blob与图像的面积比，最大皮肤 Blob的偏心率（转动惯量与最大皮肤 Blob的转动惯量相等的椭圆的偏心率）、紧凑性（Blob轮虞长度与 Blob面积之比）、近圆性（Blob面积与外接圆面积之比）、近矩形性（Blob面积与最小外接矩形面积之比）；

2)轮廓特征：

最大皮肤 Blob的轮虞曲率的均值、方差、曲率能量（曲率平方的均值）和曲率的一阶差分的能量（曲率的一阶差分的平方的均值），最大皮肤 Blob的轮廓 Fourier描述子的低频分量与高频分量（低频（高频）分量是指 Fourier描述子在最低频率点（最高频率点 )处的取值 );

3) 矩不变量特征：

皮肤区域的 Hu矩、 Zernike矩（前 8阶），最大皮肤 Blob的 Hu矩、 Zernike矩（前 8阶）；

4) 结构元素统计特征：

最大皮肤 Blob 的边缘像素的密度（边缘像素指该点位于图像的 Canny边缘线条上）、最大皮肤 Blob中的中长直线段的个数 (中长直线段指包含像素数大于一定阈值的线段，用线检测器检出并过滤）；

5)人脸相关的统计特征（具体为用于检测出人脸的肖像图片）：人脸 Blob与最大皮肤 Blob的面积比，人脸 Blob的重心距离最大皮肤 Blob的重心的水平、垂直距离与人脸 Blob的高、宽之比。

在本发明的一个实施例中，执行步骤 100b 时可提取以上各类区域形状特征中的至少一个，值得指出的是也可以提取其他的区域形状特征进行特征可分性实验。

对于步骤 101b,现有技术中存在多种测量所提取的区域形状特征在各个样本集的不同分布特征的方法，例如，基于散度矩阵的方法、基于分布直方图的方法等。在本发明的一个优选实施例中，将基于分布直方图的方法作为获得分布特征的途径。具体过程如下所述：

在肤色检测的结果上（如图 3 ), 对每个区域形状特征，统计该区域形状特征在每个样本集中的分布直方图。然后，对直方图进行归一化，依次对比该区域形状特征在敏感图片中的分布直方图与在场景图片中的分布直方图、以及在敏感图片中的分布直方图与在肖像图片中的分布直方图，之后使用直方图的相交比来衡量该区域形状特征对正例样本集与某个反例样本集的可区分性。作为本发明的一个实施例，归一化分布直方图的相交比就是两个归一化的分布直方图的相交区域的面积：

ΣΓ:¹ ]:" ,² (5) 其中， ^]表示区域形状特征在第 j类样本中的分布直方图的第个 bin的值， W是分布直方图的 bin数， = l，2代表的两类，分别指正例与某个反例（例如敏感图片与场景图片、敏感图片与肖像图片）。式 (4)是相交比的定义，式 (5)表示分布直方图 H是归一化的。

对于步骤 102b,可以根据上述相交比 r确定区域形状特征的可分性， r越小，则该区域形状特征对两种样本集比如正例样本与某个反例样本的可区分性越强，反之越弱，具体实现时，可以根据具体应用确定预定的阈值，根据基于某个区域形状特征的相交比 r和预定的阈值的大小确定该区域形状特征对于各反例样本集是否具有可分性。

经过上述的特征可分性实验，可以获知对于敏感图片与场景图片，上述的一些区域形状特征具有不同程度的可分性，可以从该些区域形状特征中选取至少一个区域形状特征作为第一特征组中的区域形状特征，其中，选取的区域形状特征包括下述中的至少一个包括：

1)皮肤区域 Hu矩的前 3分量、最大皮肤 Blob的 Zemike前 4阶矩中的、 Z22、 Z40、 Z42, 最大皮肤 Blob的 Fourier描述子高频分量、曲率能量、近矩形性等，经实验数据证明，利用这些特征分别在场景图片类中的概率分布（分布直方图）和在敏感图片类中的概率分布（分布直方图）训练出的 Bayes分类器在进行识别场景图片和敏感图片时总体识别错误率在 30%左右，相对而言，这些特征在区分敏感图片与场景图片时具有弱可分性；

2) 最大皮肤 Blob的 Zemike矩中的 Z11 , 最大皮肤 Blob的偏心率，经实验数据证明，利用这些特征分别在场景图片类中的概率分布（直方图）和在敏感图片类中的概率分布（分布直方图）训练出的 Bayes分类器在进行识别场景图片和敏感图片时总体识别错误率 <20%；相对而言，这些特征在区分敏感图片与场景图片时具有中等可分性；

3) 最大皮肤 Blob与图像面积比、紧凑性、边缘像素的密度，经实验数据证明，利用这些特征分别在场景图片类中的概率分布（分布直方图）和在敏感图片类中的概率分布（分布直方图）训练出的 Bayes分类器在进行识别场景图片和敏感图片时总体识别错误率 <10%, 相对而言，这些特征在区分敏感图片与场景图片时具有强可分性。

作为本发明的一个实施例，在执行步骤 103b 时，将以上选取的区域形状特征标注为第一特征组。

对于敏感图片与一般肖像图片（包括人脸图片）：

在能检出人脸的前提下，人脸相关的统计特征分别在人脸图片类中的概率分布（分布直方图）和在敏感图片类中的概率分布（分布直方图）训练出的 Bayes分类器在进行识别敏感图片和敏感图片时总体识别错误率<10%, 即具有可分性，利用这些区域形状特征能够区分出敏感图片与肖像图片。作为本发明的一个实施例，在执行步骤 103b 时，将该人脸相关的统计特征标注为第二特征组。

在执行步骤 104b 时，使用敏感图片构成正例样本集和场景图片构成第一反例样本集，通过第一特征组中的区域形状特征训练出第一分类器，然后使用敏感图片构成正例样本集和肖像图片构成第二反例样本集，通过第二特征组中的特征训练出第二分类器。可以使用的分类器主要有支持向量机（SVM )、感知器网络（MLP )、决策树等。作为本发明的一个实施例，第一分类器和第二分类器都可以使用朴素 Bayes分类：该分类器假定特征的各维之间彼此独立，其形式为：

P( j I … ） = \^₌₁ P( j I X! )； (1)

其中， _c] , = i，2表示两个类别，即分别表示正例（敏感图片）和第一反例（场景图片） /第二反例（肖像图片）；当， = 1,2分别表示正例和第一反例时， w ^是所述第一特征组的 N维区域形状特征； _c] ,

7 = 1,2分别表示正例和第二反例时， … _¾是所述第二特征组的 N维区域形状特征。值得指出的是，在本发明的各实施例中的第一特征组的区域形状特征的维数与第二特征组的区域形状特征的维数可以相同也可以不同，两组区域形状特征可以有重合的也可以有不同的。公式（1 ) 中的表示某个区域形状特征属于类的概率。由公式（ 1 ) 可以获知一个 Ν 维的特征向量属于类的分布概率

P(_Cj \_Xlx₂--x_N) . 公式（ 1 )表明了一个假设： N维特征向量的各维对判断该特征向量属于哪个类的作用是彼此独立的，因此，由式 (1)的假设，当已知每个 _Ρ(^ Ι ,) = i，2; = l，2，〜N , 就能推断出任意一个样本（其特征是一个 N维特征向量 ^2··· )分别属于两个类的后验概率。通过公式（2) 的 Bayes 公式，从两类的先验概率 P(_c 和第一 /第二特征组概率分布 Ρ( , Ι ）推算出 ρ( | ,)。公式（2) 中两类的先验概率 Ρ( ）根据业务中的先险知识确定， Ρ( , Ι ）为正例样本集（ = l )、反例样本样本集（ = 2 ) 的各个区域形状特征的分布概率，可以从正、反例样本集中估计得到。

如上所述，朴素 Bayes分类器的训练过程即是从正、反例样本集统计 lc 的过程。

另夕卜，作为对公式 (1)的进一步改进，在本发明的一个优选实施例中，当利用公式（1)训练第一或第二分类器时，考虑到第一特征组中的不同特征的可分性不同，可以对（1) 式中各维特征进行指数加权：

(₃) 当 j' = l，2分别表示正例和第一反例时，所述第一特征组的 N维区域形状特征； _Cj , 7 = 1,2分别表示正例和第二反例时，； … _¾ 是所述第二特征组的 N维区域形状特征；第一特征组的区域形状特征的维数与第二特征组的区域形状特征的维数可以相同也可以不同，两组区域形状特征可以有重合的也可以有不同的。是根据所述相交比确定的指数加权因子，其值大于零，其值越大表示权重越大，对可分性好的特征可以使用较大的加权因子。使用正例样本集和第一反例样本集估计第一特征组的区域形状特征在两类（正例和第一反例即敏感图片和场景图片）中的分布⁷^' ¹ ），从而获得第一分类器，使用正例样本集和第二反例样本集估计第二特征组的区域形状特征在两类（正例和第二反例即敏感图片和肖像图片）中的分布从而获得第二分类器，同样，作为一个实施例，可以使用概率直方图来表示其概率分布，具体过程可以参照上文所述的 "特征的可分性实验" 中的步骤。

通过上文所述的方法训练出的图片分类器可以识别出各个图片。下面对利用图 la所述的图片分类器识别图片的方法进行描述。如图 2a所示，该流程包括以下步骤：

步骤 200a, 获取待审核图片的肤色或类似肤色区域；

这里，步骤 200a的描述具体可参见图 2b所示的 200b, 这里不再详述。

步骤 201a,在所述肤色或类似肤色区域提取包含在特征组的区域形状特征，根据该区域形状特征和通过包含该区域形状特征的特征组训练出的分类器识别所述待审核图片。

由于图 la对反例图片进行了进一步地细分，如此，利用图 la所示的方法获得的分类器能够准确识别出图片。

为便于理解，本实施例对本发明实施例提供的利用上文的分类器对图片进行识别的流程进行详细描述。图 2b 为本发明提供的利用上文的分类器对图片进行识别的详细流程图。通常，通过上文所述的方法训练出的图片分类器的一个典型用途是用于识别敏感图片。本实施例以识别敏感图片，并且以图 lb 中所示的将反例样本集细分为第一反例样本集和第二范例样本集例，其中，正例样本集为敏感图片，第一反例样本集为场景图片，第二反例样本集为肖像图片。请结合图 lb, 参见图 2b, 本发明首先通过肤色检测技术检测出待审核图片的肤色或类似肤色区域（步骤 200b ); 在肤色或类似肤色区域提取第一特征组的第一区域形状特征（步骤 201b ), 其中，这里在识别敏感图片时先利用用于区分第一反例样本集和正例样本集的第一区域形状特征，主要是因为由于第一反例样本集与正例样本集具有的重叠特征比较少，比较容易判断，如此，若在本步骤的判断结果为是时，则可直接结束当前流程，节省资源；根据第一区域形状特征和按照上文的方法获得的第一分类器识别待审核图片是否为场景图片（步骤 202b ); 如果是，则判断为场景图片，即该场景图片相对于敏感图片为正常图片（步骤 205b ), 如果否，则在肤色或类似肤色区域提取第二特征组的第二区域形状特征（步骤 203b ), 这里，为便于描述，将该提取出的区域形状特征记为第二区域形状特征；根据第二区域形状特征和通过第二分类器进行识别待审核图片是否为敏感图片（步骤 204b )如果否，则判断为该图片相对于敏感图片为正常图片（步骤 205b ), 否则，判断为敏感图片（步骤 206b ), 交给人工继续进行进一步审核。

本发明在特征可分性实验的基础上挑选了一组可分性较好的区域形状特征，对场景图片和敏感图片能达到较高的区分精度；并针对场景图片和肖像图片与敏感图片的可区分性不同的情况，提出了两组特征组，分别训练出两种分类器，通过两个分类器对两种正常图片分别处理，大大提高了敏感图片识别的准确度。

对于步骤 200b,目前使用比较广泛的肤色检测方法是 Bayes决策法。该方法在一个大样本集上统计皮肤颜色和非皮肤颜色的分布，对一种给定的颜色，根据两个分布使用 Bayes公式计算出该颜色是皮肤颜色的后验概率，根据概率大小决定其是皮肤色还是非皮肤色。以对像素 x进行肤色分类为例，假定像素 X的颜色为 , X在两类中的似然概率为 P(«^r | ")和 P(«^r |i ") ,两类的先验概率为和

P(skin

, 同样可以得到 x属于非肤色的后验概率。

Bayes 决策规贝' J 可以表示为 Ρ( ·/ψοΖοΓ) > Ρ(ι /ψοΖοΓ) , 即肤

验

通常两类先验概率假定为相等，则上式中后验概率可筒化为似然概率。可以证明，通过 Bayes决策法得到的分类结果的总体概风险（错误率）是最小的。使用该方法进行肤色检验的前提条件是已知类内的总体分布，也就是在大样本集上统计出肤色类与非肤色类中的颜色分布。

另外，由于自然界中的非人体皮肤颜色与人体皮肤颜色总存在一定的重叠，且人体皮肤颜色受环境光照、成像条件的影响而有所变化，因此肤色检测技术检出的 "肤色区域" 中总会不同程度的包含被误检的类似皮肤颜色的场景区域。另外，大量的肖像图片中皮肤区域占整个图片的面积比例很高，这类图片与敏感图片的自动区分也比较困难。如果在检出的 "肤色区域" 上提取出的区域形状特征的区分性不够好，就会造成大量的正常图片（如颜色与皮肤色近似的自然场景图片、肖像图片等）被误判为敏感图片，作为对上述 Bayes决策法检验肤色的一种改进，本发明在执行步骤 200b时还可以使用申请人在申请号为 2008100841302, 发明名称为《一种肤色检测方法及装置》中公开的肤色检验技术。该专利申请提供了多肤色概率模型的训练方法，以及利用多肤色概率模型进行肤色检测的方法。与现有的单肤色概率模型不同，其提供的多肤色概率模型是针对不同光照条件下的肤色或不同类的肤色训练得到的多个肤色概率模型，因此，在对待检测图像进行肤色检测时，可为待检测图像选择合适的肤色概率模型，从而降低误检率或漏检率。以下对该方案中的肤色检测技术做一筒要描述，以作参考，其他细节请详见该申请文件。

在进行肤色检验前，首先将训练样本集中的肤色像素在颜色空间中聚类得到至少一个肤色色度类；提取训练样本中的候选肤色区域，计算候选肤色区域的色度均值与肤色色度类中心的距离，将训练样本归入所述距离最小的肤色色度类，得到与肤色色度类对应的训练子集；统计每一个训练子集的肤色概率分布和非肤色概率分布，得到每一肤色色度类对应的肤色概率模型。

如此，步骤 200b中获取待审核图片的肤色或类似肤色区域则包括：提取待审核图像的候选肤色区域，计算所述候选肤色区域色度均值与肤色色度类中心的距离，根据所述距离最小的肤色色度类对应的肤色概率模型对所述待检测图像中的像素进行肤色判别，由判别为肤色的像素构成肤色或类似肤色区域。

在执行步骤 202b及步骤 204b时，在一个实施例中，使用上文所述的朴素 Bayes分类器对待审核图片进行分类（识别）的过程如下：

使用上文所述的公式（1 )或（3 )计算待审核的第一特征组的区域形状特征；^ = ( 一_¾)通过第一分类器（朴素 Bayes分类器 )得到的后验概率 7 = 1,2；然后使用阈值进行 Bayes决策：

τ的取值一般是 0.5, 也可以根据两类错分的风险不同进行调整。将上式中的 P^IJW• _A,)/(P(c₁1 χ ₂ ---x_N) + P(c₂1 x_xx₂ ---x_N))称为置信值，当这个置信值低于阈值 Γ时，将待审核图片识别为场景图片，否则，将待审核图片执行下述步骤进行进一步识别：

待审核的第二特征组的区域形状 = ( ₂… _¾ )通过第二分类器（朴素 Bayes分类器）得到的类后验概率 Ρ( ^) , j = l,2,值得注意的是, 第一特征组的区域形状特征的维数与第二特征组的区域形状特征的维数可以相同也可以不同，两组区域形状特征可以有重合的也可以有不同的，然后使用阈值 ^进行 Bayes决策：

τ的取值一般也是 0.5 , 也可以根据两类错分的风险不同进行调整，跟使用第一分类器进行 Bayes决策时的阈值 Γ可以相同也可以不同，无必然关系。

当上式中置信值 P( I x,x₂ · · ))低于阈值 Γ时，将待审核图片识别为肖像图片，否则，将待审核图片识别为敏感图片。

针对以上分类器的训练方法，本发明还提出了相应的分类器的训练装置，请结合图 1, 参见图 4a, 本发明公开的图片分类器的训练装置基本包括：训练图片集 401a, 如上文所述，训练图片集可以包括正例样本集和两个以上的反例样本集；优选地，该反例样本集具体可包含第一反例样本集和第二反例样本集。特征确定模块 402a,针对每一反例样本集，确定用于区分所述正例样本集与该反例样本集的特征组；和特征训练模块 403a, 用于通过所述特征组的特征进行分类器训练获得分类器。

为使本实施例提供的训练装置更加清楚，下面结合具体实施例对该训练装置进行详述。

参见图 4b, 图 4b为本发明实施例提供的训练装置详细结构图。如图 5所示，该装置中包括：训练图片集 401b、特征确定模块 402b和特征训练模块 403b, 其中，训练图片集 401b、特征确定模块 402b和特征训练模块 403b的功能分别与训练图片集 401a、特征确定模块 402a和特征训练模块 403a的功能类似，这里不再赘述。

优选地，当训练图片集 401包含的反例样本集为第一反例样本集和第二反例样本集时，如图 4b所示，特征确定模块 402b具体可包括：特征可分性判决模块 4021b和特征标记模块 4022b。

以下阐述各模块的工作原理：特征可分性判决模块 4021b分别在正例样本集、第一反例样本集和第二反例样本集中获取区域形状特征，针对每一区域形状特征，测量该区域形状特征在正例样本集、第一反例样本集和第二反例样本集中的分布特征；并根据分布特征确定区域形状特征的可分性；这里，确定可分性的途径可通过上文所述的方法中任意一种方式实现，在此不再赘述。

特征标记模块 4022b, 根据特征可分性判决模块 4021b的可分性实验结果，将相对于第一反例样本集具有可分性的区域形状特征标注为第一特征组；将相对于所述第二反例样本集具有可分性的区域形状特征标注为第二特征组。如此，特征训练模块 403b, 用于通过确定的第一特征组训练获得第一分类器，通过确定的第二特征组训练获得第二分类器。

另外，该装置的第一特征组还可以包括第一子特征组、第二子特征组、第三子特征组中的至少一个，各子特征组包含经过可分性实验得出的各种可分性较好的区域形状特征。例如第一子特征组包括至少一项以下区域形状特征：皮肤区域 Hu矩的前 3个分量、最大皮肤 Blob的 Zemike 前 4阶矩中的、 Z22、 Z40、 Z42, 最大皮肤 Blob的 Fourier描述子高频分量、曲率能量、近矩形性。第二子特征组包括至少一项以下区域形状特征：最大皮肤 Blob的 Zemike矩中的 Z11 , 最大皮肤 Blob的偏心率。第三子特征组包括至少一项以下区域形状特征：最大皮肤 Blob与图像面积比、紧凑性、边缘像素的密度。

作为本发明的一个实施例，如图 4b所示，特征可分性判决模块 4021b 可以包括：

分布概率统计模块 4023b, 用于针对提取出的每一区域形状特征，分别统计该区域形状特征在所述正例样本集、第一反例样本集和第二反例样本集中的分布直方图；

可分性模块 4024b, 用于对所述分布直方图进行归一化，并确定归一化后的直方图的相交比；根据所述相交比确定所述区域形状特征的可分性。

对于图 4a或者图 4b所示的图片分类器的训练装置的实现方法可以按照上文所述的分类器的训练方法中提到的各有关方式实现，再次不再赘述。值得指出的是，图 4a或者图 4b中的分类器的训练装置仅仅为分类器的训练方法的其中一个实例化装置，而并非可实现该分类器的训练方法的唯一实体装置。

针对以上图片的识别方法，本发明还提出了相应的图片的识别装置，请结合图 2, 参见图 5 , 图片的识别装置包括肤色区域图测模块 501和分类器 502。

以下阐述该图片的识别装置的工作原理：肤色区域图测模块获取待审核图片的肤色或类似肤色区域；分类器用于在所述肤色或类似肤色区域提取包含在特征组的区域形状特征，根据该区域形状特征识别所述待审核图片。

本发明实施例以识别敏感图片为例。如图 5所示，分类器包括第一分类器 5021和第二分类器 5022, 其中，

第一分类器 5021 ,在所述肤色或类似肤色区域提取第一特征组的第一区域形状特征，所述第一特征组为用于区分所述正例样本集与所述第一反例样本集的特征组，所述第一反例样本集为场景图片集；根据所述第一区域形状特征识别所述待审核图片是否为场景图片，如果否，则通知第二分类器 5022;

第二分类器 5022与第一分类器 5021连接，用于在所述肤色或类似肤色区域提取第二特征组的第二区域形状特征，所述第二特征组为用于区分所述正例样本集与所述第二反例样本集的特征组，所述正例样本集为敏感图片集；根据第二区域形状特征识别所述待审核图片是否为敏感图片。这里的第一分类器与第二分类器的实现方法如上文图 lb所述，在此不再赘述。

作为本发明的一个实施例，第一分类器或第二分类器为 Bayes分类器，该 Bayes分类器可以包括：后验概率计算模块，用于通过第一特征组计算所述第一特征组的特征向量属于正例或第一反例的后验概率；通过第二特征组计算所述第二特征组的特征向量属于正例或第二反例的后验概率；以及决策模块，用于根据后验概率进行 Bayes决策，识别待审核图片是否为场景图片或敏感图片。

另外，值得指出的是，对于肤色区域图像检测模块所获取的待审核图片的肤色或类似肤色区域，可以通过现有技术中的 Bayes决策法实现，还可以通过上文所述的申请人在申请号为 2008100841302的申请文件中公开的技术方案实现。敏感图片的识别装置还可以包括各个与检测肤色或类似肤色区域有关的模块，例如，包含：候选肤色区域提取模块，用于提取所述待检测图像的候选肤色区域图像；肤色区域图像检测模块，用于计算所述候选肤色区域的色度均值，根据肤色色度类中心与所述色度均值最近的肤色色度类对应的肤色概率模型，对所述待检测图像中的像素进行肤色判别，由判别为肤色的像素构成肤色区域图像；肤色色度类通过将训练样本集中的肤色像素在颜色空间中聚类得到；所述肤色概率模型通过计算每一训练样本的候选肤色区域的色度均值与所述肤色色度类中心的距离，将训练样本归入所述距离最小的肤色色度类，得到与肤色色度类对应的训练子集，统计每一个训练子集的肤色概率分布和非肤色概率分布得到；如此，肤色区域图像检测模块 501提取待审核图像的候选肤色区域，计算所述候选肤色区域色度均值与肤色色度类中心的距离，根据所述距离最小的肤色色度类对应的肤色概率模型对所述待检测图像中的像素进行肤色判别，由判别为肤色的像素构成肤色或类似肤色区域。

以上所述的本发明实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的权利要求保护范围之内。

Claims

权利要求书

1、一种图片分类器的训练方法，其特征在于，包括步骤：

A, 将用于分类器训练的训练图片集划分为正例样本集、两个以上的反例样本集；

B , 针对每一反例样本集，确定用于区分所述正例样本集与该反例样本集的特征组；

C, 通过确定的特征组训练获得分类器。

2、根据权利要求 1 所述的图片分类器的训练方法，其特征在于，当步骤 A中划分的反例样本集为第一反例样本集和第二反例样本集时，所述步骤 B包括：

B1 , 分别在正例样本集、第一反例样本集和第二反例样本集中提取出区域形状特征；

B2, 针对提取出的每一区域形状特征，测量提取出的区域形状特征在正例样本集、第一反例样本集和第二反例样本集中的分布特征，根据所述分布特征确定该区域形状特征的可分性；

B3 ,根据确定的可分性确定用于区分所述正例样本集与所述第一反例样本集的第一特征组和用于区分所述正例样本集与所述第二反例样本集的第二特征组；

所述步骤 C包括：通过确定的第一特征组训练获得第一分类器，通过确定的第二特征组训练获得第二分类器。

3、根据权利要求 2所述的图片分类器的训练方法，其特征在于，所述第一特征组包括：

皮肤区域 Hu矩的前 3个分量，最大皮肤 Blob的 Zemike前 4阶矩中的 Z22、 Z40、 Z42, 以及最大皮肤 Blob的 Fourier描述子高频分量、曲率能量、近矩形性中的至少一个；或者

最大皮肤 Blob的 Zernike矩中的 Zll、最大皮肤 Blob的偏心率中的至少一个；或者

最大皮肤 Blob与图像面积比、紧凑性、边缘像素的密度中的至少一个。

4、根据权利要求 2所述的图片分类器的训练方法，其特征在于：所述步骤 B2包括：

针对提取出的每一区域形状特征，分别统计该区域形状特征在所述正例样本集、第一反例样本集和第二反例样本集中的分布直方图；对所述分布直方图进行归一化，并确定归一化后的直方图的相交比；

根据所述相交比确定所述区域形状特征的可分性。

5、根据权利要求 2所述的图片分类器的训练方法，其特征在于：所述第一分类器或第二分类器为 Bayes分类器，所述 Bayes分类器的形式为： p(cj I ¾¾···½) = Πι^ρ( · I !·) . (i)

P(_c \χ) = 、、 ' L

^{1 1} Pic^Pix^c^ + Pic^Pix^c,) _? 7=1,2 ₍₂) 其中， _Cj, = 1,2分别表示正例和第一反例时， w ^是所述第一特征组的 N维区域形状特征向量， P(_Cj I _Λ · · · _¾ )为所述第一特征组的的特征向量 ν ·· ^属于正例或第一反例的后验概率； _c] , = i,2分别表示正例和第二反例时， _1¾ · · · χ_Ν是所述第二特征组的 N维区域形状特征向量， Pi I ； ¾… ¾ )为第二特征组的特征向量 ₁ … ¾属于正例或第二反例的后验概率； p(_c 为正例或第一反例或第二反例的先验概率； P(_Cj ,)表示所述区域形状特征向量的各维属于类 _C]的概率； P(_Xi I )为所述区域形状特征向量的各维在正例或第一 /第二反例中的概率分布；

通过在所述正例样本集和第一 /第二反例样本集上估计所述先验概率 P(c 和统计第一 /第二特征组的区域形状特征向量的各维在正例或第一 /第二反例中的概率分布 , 得到第一或第二分类器。

6、根据权利要求 2所述的图片分类器的训练方法，其特征在于：所述第一分类器或第二分类器为 Bayes分类器，所述 Bayes分类器的形式为：

(3)

P(c.)P{x. \c ) ,

P(c_i \x_i) = ^J ' ³ , 7=1,2 (〜2)

¹ Pic^Pix^c^ + Pic^Pix^c,) 其中， _Cj , = 1,2分别表示正例和第一反例时， w ^是所述第一特征组的 N维区域形状特征向量， P(c j I ₁ · · · _¾ )为所述第一特征组的特征向量 ν ··^属于正例或第一反例的后验概率； _c] , = i,2分别表示正例和第二反例时， ₁ · · · χ_Ν是所述第二特征组的 N维区域形状特征向量，

P(_Cj I _1¾… ¾ )为第二特征组的特征向量 ₁ … _¾属于正例或第二反例的后验概率； P(_C 为正例或第一反例或第二反例的先验概率； P(_C l ,)表示所述区域形状特征向量的各维属于类的概率；为所述区域形状特征向量的各维在正例或第一 /第二反例中的概率分布；是根据所述相交比确定的指数加权因子，大于零；

通过在所述正例样本集和第一 /第二反例样本集上估计所述先验概率 P(_Cj)和统计第一 /第二特征组的区域形状特征向量的各维在正例或第一 /第二反例中的概率分布 , 得到第一或第二分类器。

7、一种利用权利要求 1至 6任一项所述的图片分类器识别图片的方法，其特征在于，包括步骤：

A, 获取待审核图片的肤色或类似肤色区域；

B,在所述肤色或类似肤色区域提取包含在特征组的区域形状特征，根据该区域形状特征和通过包含该区域形状特征的特征组训练出的分类器识别所述待审核图片。

8、根据权利要求 7 所述的利用图片分类器识别图片的方法，其特征在于，所述步骤 B包括：

B 1 ,在所述肤色或类似肤色区域提取第一特征组的第一区域形状特征，所述第一特征组为用于区分所述正例样本集与所述第一反例样本集的特征组，所述第一反例样本集为场景图片集；根据所述第一区域形状特征和通过第一特征组训练出的第一分类器识别所述待审核图片是否为场景图片，如果不是，执行步骤 B2;

B2,在所述肤色或类似肤色区域提取第二特征组的第二区域形状特征，所述第二特征组为用于区分所述正例样本集与所述第二反例样本集的特征组，所述正例样本集为敏感图片集；根据第二区域形状特征和通过第一特征组训练出的第二分类器识别所述待审核图片是否为敏感图片。

9、根据权利要求 8 所述的利用图片分类器识别图片的方法，其特征在于，所述获取待审核图片的肤色或类似肤色区域之前还包括步骤：将训练样本集中的肤色像素在颜色空间中聚类得到至少一个肤色色度类；

提取训练样本中的候选肤色区域，计算候选肤色区域的色度均值与肤色色度类中心的距离，将训练样本归入所述距萬最小的肤色色度类，得到与肤色色度类对应的训练子集；统计每一个训练子集的肤色概率分布和非肤色概率分布，得到每一肤色色度类对应的肤色概率模型；

所述获取待审核图片的肤色或类似肤色区域的步骤包括：提取待审核图像的候选肤色区域，计算所述候选肤色区域色度均值与肤色色度类中心的距离，根据所述距离最小的肤色色度类对应的肤色概率模型对所述待检测图像中的像素进行肤色判别，由判别为肤色的像素构成肤色或类似肤色区域。

10、根据权利要求 8所述的利用图片分类器识别图片的方法，其特征在于，所述根据第一区域形状特征和第一分类器识别待审核图片是否为场景图片包括：

计算第一区域形状特征通过第一分类器得到的后验概率

, 其中， j = 1,2 , 分别表示正例和第一反例；

判断得到的 P(cl I χ_χχ₂ · · · x_N)/(P(cl \x_xx₂---x_N) + P(c21 x_xx₂ ···¾))是否氏于预设的阈值 T, 如果是，确定待审核图片为场景图片；否则，确定待审核图片不为场景图片；

所述根据第二区域形状特征和第二分类器识别待审核图片是否为敏感图片包括：

计算第二区域形状特征通过第二分类器得到的后验概率 J^ W'XN) , 其中， j' = 1,2, 分别表示正例和第二反例；

判断得到的 P(cl I χ_χχ₂ · · · x_N)/(P(cl \x_xx₂---x_N) + P(c21 x_xx₂ ···¾))是否氏于预设的阈值 T, 如果是，确定待审核图片不为敏感图片；否则，确定待审核图片为敏感图片。

11、一种图片分类器的训练装置，其特征在于，包括：

特征训练模块，用于通过所述特征组的特征进行分类器训练获得分类器。

12、根据权利要求 11所述的图片分类器的训练装置，其特征在于，当所述训练图片集包含的反例样本集为第一反例样本集和第二反例样本集时，所述特征确定模块包括：

特征可分性判决模块，分别在正例样本集、第一反例样本集和第二反例样本集中提取出区域形状特征，针对每一区域形状特征，测量该区域形状特征在所述正例样本集、第一反例样本集和第二反例样本集中的特征标记模块，用于将相对于所述第一反例样本集具有可分性的区域形状特征标注为第一特征组；将相对于所述第二反例样本集具有可分性的区域形状特征标注为第二特征组；

所述特征训练模块，用于通过确定的第一特征组训练获得第一分类器，通过确定的第二特征组训练获得第二分类器。

13、根据权利要求 12所述的图片分类器的训练装置，其特征在于，所述第一特征组包括：

最大皮肤 Blob的 Zemike矩中的 Z11、最大皮肤 Blob的偏心率中的至少一个；或者

14、根据权利要求 12所述的图片分类器的训练装置，其特征在于，所述特征可分性判决模块包括：

分布概率统计模块，用于针对提取出的每一区域形状特征，分别统计所述区域形状特征在所述正例样本集、第一反例样本集和第二反例样本集中的分布直方图；

可分性模块，用于对所述分布直方图进行归一化，并确定归一化后的直方图的相交比；根据所述相交比确定所述区域形状特征的可分性。

15、一种图片的识别装置，其特征在于，该装置包括：

16、根据权利要求 15 所述的图片的识别装置，其特征在于，所述分类器包括：第一分类器和第二分类器；其中，

第一分类器，在所述肤色或类似肤色区域提取第一特征组的第一区域形状特征，所述第一特征组为用于区分所述正例样本集与所述第一反例样本集的特征组，所述第一反例样本集为场景图片集；根据所述第一区域形状特征识别所述待审核图片是否为场景图片，如果否，则通知所述第二分类器；

第二分类器，与所述第一分类器连接，用于在所述肤色或类似肤色区域提取第二特征组的第二区域形状特征，所述第二特征组为用于区分所述正例样本集与所述第二反例样本集的特征组，所述正例样本集为敏感图片集；根据第二区域形状特征识别所述待审核图片是否为敏感图片。

17、根据权利要求 15 所述的图片的识别装置，其特征在于，该装置还包括：

候选肤色区域提耳 ^莫块，用于提取所述待检测图像的候选肤色区域图像；

所述肤色区域图像检测模块，用于计算所述候选肤色区域的色度均值，根据肤色色度类中心与所述色度均值最近的肤色色度类对应的肤色概率模型，对所述待检测图像中的像素进行肤色判别，由判别为肤色的像素构成肤色区域图像；

所述肤色色度类，通过将训练样本集中的肤色像素在颜色空间中聚类得到；

所述肤色概率模型，通过计算每一训练样本的候选肤色区域的色度均值与所述肤色色度类中心的距离，将训练样本归入所述距离最小的肤色色度类，得到与肤色色度类对应的训练子集，统计每一个训练子集的肤色概率分布和非肤色概率分布得到；

所述肤色区域图测模块提取待审核图像的候选肤色区域，计算所述候选肤色区域色度均值与肤色色度类中心的距离，根据所述距离最小的肤色色度类对应的肤色概率模型对所述待检测图像中的像素进行肤色判别，由判别为肤色的像素构成肤色或类似肤色区域。

18、根据权利要求 16所述的图片的识别装置，其特征在于，所述第一分类器或第二分类器为 Bayes分类器，所述 Bayes分类器包括：后验概率计算模块，用于通过所述第一特征组计算所述第一特征组的特征向量属于正例或第一反例的后验概率；通过所述第二特征组计算所述第二特征组的特征向量属于正例或第二反例的后验概率；

决策模块，用于根据所述后验概率进行 Bayes决策，识别所述待审核图片是否为场景图片或敏感图片。