WO2015096565A1

WO2015096565A1 - 图像中的目标物的识别方法及装置

Info

Publication number: WO2015096565A1
Application number: PCT/CN2014/090976
Authority: WO
Inventors: 江焯林; 宋阳秋; 杨强
Original assignee: 华为技术有限公司
Priority date: 2013-12-27
Filing date: 2014-11-13
Publication date: 2015-07-02
Also published as: US9798956B2; CN104751198A; US20160307070A1; CN104751198B

Abstract

一种图像中的目标物的识别方法及装置，其中所述方法包括：从图像中提取特征数据，并将所述提取的特征数据转换为统一的表达；根据所述统一表达后的特征数据和历史聚类结果，对图像中的特征进行自动聚类；对于所述自动聚类结果中包括的已知的分类，归类为对应的已知分类，以对所述图像中的已知目标物进行识别；对于所述自动聚类结果中包括的未知分类，通过机器学习的方式训练分类器，以对所述图像中的未知目标物进行识别。可实现对未知分类的目标物进行识别。

Description

图像中的目标物的识别方法及装置

本申请要求于2013年12月27日提交中国专利局，申请号为201310739555.3、发明名称为“图像中的目标物的识别方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及计算机技术领域，尤其涉及一种图像中的目标物的识别方法及装置。

背景技术

数字图像理解包含几个层次，如图像分割、边缘检测、图像目标检测和识别等。其中图像目标检测和识别是用来识别图像中的人或物体，对图像进行类别标注(如，将图像中区域分别标注为“天空”、“海滩”、“太阳”等)，其中一类最典型的问题是识别图像中某一类型的物体，如Caltech101数据集即为类似的问题。图像目标检测和识别是计算机视觉领域的核心问题之一，也是人工智能领域的重要突破口之一。

目前的目标检测方法多是通过固定某一类物体，通过对其形状或边缘(甚至bounding box)进行建模，通过扫描图像中物体的位置并进行拟合得到。边缘检测可以使用Canny算子等方法获得；形状或边缘建模和跟踪可以使用Condensation、Kalman filter或Meanshift等方法获得。

由于目标检测多对于已知一类物体(如人脸、人体、某类特定物体等)进行判断，对未知物体的理解还没有涉及。如果新来一个目标没有出现在需要跟踪的对象里面，则很难进行判断。

发明内容

本发明实施例提供一种图像中的目标物的识别方法及装置，可对未知分类的目标物进行识别。

本发明第一方面提供一种图像中的目标物的识别方法，其可包括：

从图像中提取特征数据，并将所述提取的特征数据转换为统一的表达；

根据所述统一表达后的特征数据和历史聚类结果，对图像中的特征进行自动聚类；

对于所述自动聚类结果中包括的已知的分类，归类为对应的已知分类，以对所述图像中的已知目标物进行识别；

对于所述自动聚类结果中包括的未知分类，通过机器学习的方式训练分类器，以对所述图像中的未知目标物进行识别。

结合第一方面，在第一种可行的实施方式中，所述对于所述自动聚类结果中包括的未知分类，通过机器学习的方式训练分类器，以对所述图像中的未知目标物进行识别，可包括：

对于所述自动聚类结果中包括的未知的分类，进行类别标注；

通过迁移学习，对所述带有类别标注的未知的分类训练分类器，以对所述图像中的未知目标物进行识别。

结合第一方面的第一种可行的实施方式，在第二种可行的实施方式中，所述进行类别标注，包括：

通过人机交互的方式，获取用户输入的类别标注信息；

或者，从互联网查找与所述未知的分类相似性达到指定要求的图像，并通过互联网对所述图像的标注信息，对所述未知的分类进行类别标注。

结合第一方面的第一种可行的实施方式，在第三种可行的实施方式中，通过迁移学习，对所述带有类别标注的未知的分类训练分类器，以对所述图像中的未知目标物进行识别，包括：

根据自动聚类的结果，对已有的分类器进行更新；

使用迁移学习方法和所述更新后的已有的分类器为所述带有类别标注的未知的分类训练分类器，以对所述图像中的未知目标物进行识别。

结合第一方面至第一方面的第三种可行的实施方式中任一种，在第四种可行的实施方式中，所述对图像中的特征进行自动聚类之后，还包括：

根据所述自动聚类结果，更新所述历史聚类结果。

本发明第二方面提供一种图像处理装置，其可包括：

特征获取模块，用于从图像中提取特征数据，并将所述提取的特征数据转换为统一的表达；

自动聚类模块，用于根据所述特征获取模块统一表达后的特征数据和历史聚类结果，对图像中的特征进行自动聚类；

第一分类模块，用于对于所述自动聚类结果中包括的已知的分类，归类为对应的已知分类，以对所述图像中的已知目标物进行识别；

第二分类模块，用于对于所述自动聚类结果中包括的未知分类，通过机器学习的方式训练分类器，以对所述图像中的未知目标物进行识别。

结合第二方面，在第一种可行的实施方式中，所述第二分类模块，包括：

标注模块，用于对于所述自动聚类结果中包括的未知的分类，进行类别标注；

分类学习模块，用于通过迁移学习，对所述带有类别标注的未知的分类训练分类器，以对所述图像中的未知目标物进行识别。

结合第二方面的第一种可行的实施方式，在第二种可行的实施方式中，标注模块具体用于通过人机交互的方式，获取用户输入的类别标注信息；或者，从互联网查找与所述未知的分类相似性达到指定要求的图像，并通过互联网对所述图像的标注信息，对所述未知的分类进行类别标注。

结合第二方面的第一种可行的实施方式，在第三种可行的实施方式中，所述分类学习模块具体用于根据自动聚类的结果，对已有的分类器进行更新，并使用迁移学习方法和所述更新后的已有的分类器为所述带有类别标注的未知的分类训练分类器，以对所述图像中的未知目标物进行识别。

结合第二方面至第二方面的第三种可行的实施方式中任一种，在第四种可行的实施方式中，所述自动聚类模块还用于根据所述自动聚类结果，更新所述历史聚类结果。

由上可见，在本发明的一些可行的实施方式中，从图像中提取特征数据，并对所述提取的特征数据进行表达处理；根据所述表达处理后的特征数据和历史聚类结果，对图像中的特征进行自动聚类；对于所述自动聚类结果中包括的已知的分类，归类为对应的已知分类，以对所述图像中的已知目标物进行识别；对于所述自动聚类结果中包括的未知分类，通过机器学习的方式训练分类器，以对所述图像中的未知目标物进行识别。由此，本发明实施例可在待识别的图像中包含不属于已有类别的目标物时，对不属于已有类别的目标物进行学习，得到新的分类器，从而实现对未知分类的目标物进行识别。

附图说明

图1为本发明的图像中的目标物的识别方法的一实施例的流程示意图；

图2为图1中步骤S104的一实施例的流程示意图；

图3为本发明的图像处理装置的一实施例的结构组成示意图；

图4为本发明图3中的第二分类模块的一实施例的结构组成示意图；

图5为本发明的图像处理装置的另一实施例的结构组成示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述。

图1为本发明的图像中的目标物的识别方法的一实施例的流程示意图。如图1所示，其可包括以下步骤：

S101，从图像中提取特征数据，并将所述提取的特征数据转换为统一的表达。

在一些可行的实施方式中，本发明实施例所述的图像的特征数据包括但不限于：几何特征、形状特征、颜色特征、纹理特征等。

具体实现中，步骤S101中，可采用Canny算子、拉普拉斯算子或拉普拉斯高斯(Laplacian of Gassian，LOG)算子提取图像的边缘特征；采用奇异值分解(Singular Value Decomposition，SVD)算法提取图像的纹理特征；采用方向梯度直方图(Histogram of Oriented Gradient，HOG)描述子或尺度不变特征转换(Scale-Invariant Feature Transform，SIFT)算法得到图像的特征向量；采用主成分分析(Principal Component Analysis，PCA)算法、线性判别分析(Linear Discriminant Analysis，LDA)算法或独立成分分析(Independent components analysis，ICA)算法等提取图像的全局或局部特征等。以达到去噪、提高识别效果的作用。例如， PCA是通过使用一个低维的特征向量来和投影矩阵来重建样本，通过最小化重建误差来对特征向量进行建模。同时，它是把方差大的维度留下，方差小的维度去掉。去掉方差小的维度可以帮助样本空间减小不确定性，留下方差大的维度可以保持样本和样本之间的局部距离。

S102，根据所述统一表达后的特征数据和历史聚类结果，对图像中的特征进行自动聚类。

具体实现中，本发明的自动聚类可指无监督分类，即不需要任何先验知识，事先不了解各待识别的图像中的每一个图像的类别，而根据各待识别的图像的特征进行分类，将具有相似或相同特征的图像划分到同一子类。

在一些可行的实施方式中，无法预先得知子类的个数，可采用基于概率分布模型的方法进行聚类分析，如狄利克雷过程聚类(Dirichlet Processes Clustering)算法；或先采用Canopy聚类算法进行预处理，再采用基于划分的方法进行聚类分析，如K-均值(K-Means)聚类算法。

在一些可行的实施方式中，还可根据自动聚类结果，更新所述历史聚类结果。

步骤S103，对于所述自动聚类结果中包括的已知的分类，归类为对应的已知分类，以对所述图像中的已知目标物进行识别。

步骤S104，对于所述自动聚类结果中包括的未知分类，通过机器学习的方式训练分类器，以对所述图像中的未知目标物进行识别。

在一些可行的实施方式中，如图2，步骤S104可进一步包括：

步骤S1041，对于所述自动聚类结果中包括的未知的分类，进行类别标注。步骤S1042，通过迁移学习，对所述带有类别标注的未知的分类训练分类器，以对所述图像中的未知目标物进行识别。

具体实现中，在步骤S1041，所述进行类别标注，包括：

通过人机交互的方式，获取用户输入的类别标注信息；

比如，假设已知类别中，不包括“高山”这样的类别，则在步骤S104，对于自动聚类的结果，可通过用户给予“高山”的类别标注。或者，通过查找互联网，发现局聚类结果中的某一未知的分类的相似度很高的物体被称之为“高山”，则可采用互联网上的“高山”对所述未知的分类进行类别标注。

具体实现中，在步骤S1042，通过迁移学习，对所述带有类别标注的未知的分类训练分类器，以对所述图像中的未知目标物进行识别时，具体可根据自动聚类的结果，对已有的分类器进行更新；使用迁移学习方法和所述更新后的已有的分类器为所述带有类别标注的未知的分类训练分类器，以对所述图像中的未知目标物进行识别。

在一些可行的实施方式中，已有和训练出的分类器可以是支持向量机(Support Vector Machine，SVM)分类器、贝叶斯分类器、决策树分类器、朴素贝叶斯分类器(Naive Bayes Classifier，NBC)等。

具体实现中，本发明实施例所述的迁移学习方法包括但不限于：covariance shift，TrAdaboost，基于多任务的学习等方法。

本发明实施例，当采用迁移学习方式后，其随着时间的增加，数据的增加，使学习的起点更高，收敛速度更快，训练出的分类器更优。并且，其可用新的聚类结果更新历史聚类，以及通过自动聚类结果更新已有的分类器，由此可实现整个系统的不断更新和不断学习，进而使系统不断优化。

相应的，本发明实施例还提供了一种可用于实施本发明的图像中的目标物的识别方法的图像处理装置。

图3为本发明的图像处理装置的一实施例的结构组成示意图。如图3所示，其可包括：特征获取模块31、自动聚类模块32、第一分类模块33以及第二分类模块34，其中：

特征获取模块31，用于从图像中提取特征数据，并将所述提取的特征数据转换为统一的表达；

自动聚类模块32，用于根据所述特征获取模块31统一表达后的特征数据和历史聚类结果，对图像中的特征进行自动聚类；

第一分类模块33，用于对于所述自动聚类模块32自动聚类的结果中包括的已知的分类，归类为对应的已知分类，以对所述图像中的已知目标物进行识别；

第二分类模块34，用于对于所述自动聚类模块32自动聚类的结果中包括的未知分类，通过机器学习的方式训练分类器，以对所述图像中的未知目标物进行识别。

具体实现中，本发明实施例所述的图像的特征数据包括但不限于：几何特征、形状特征、颜色特征、纹理特征等。

具体实现中，特征获取模块31可采用Canny算子、拉普拉斯算子或拉普拉斯高斯(Laplacian of Gassian，LOG)算子提取图像的边缘特征；采用奇异值分解(Singular Value Decomposition，SVD)算法提取图像的纹理特征；采用方向梯度直方图(Histogram of Oriented Gradient，HOG)描述子或尺度不变特征转换(Scale-Invariant Feature Transform，SIFT)算法得到图像的特征向量；采用主成分分析(Principal Component Analysis，PCA)算法、线性判别分析(Linear Discriminant Analysis，LDA)算法或独立成分分析(Independent components analysis，ICA)算法等提取图像的全局或局部特征等。以达到去噪、提高识别效果的作用。例如，PCA是通过使用一个低维的特征向量来和投影矩阵来重建样本，通过最小化重建误差来对特征向量进行建模。同时，它是把方差大的维度留下，方差小的维度去掉。去掉方差小的维度可以帮助样本空间减小不确定性，留下方差大的维度可以保持样本和样本之间的局部距离。

具体实现中，所述自动聚类模块32可不需要任何先验知识，事先不了解各待识别的图像中的每一个图像的类别，而根据各待识别的图像的特征进行分类，将具有相似或相同特征的图像划分到同一子类。

具体实现中，当无法预先得知子类的个数，自动聚类模块32可采用基于概率分布模型的方法进行聚类分析，如狄利克雷过程聚类(Dirichlet Processes Clustering)算法；或先采用Canopy聚类算法进行预处理，再采用基于划分的方法进行聚类分析，如K-均值(K-Means)聚类算法。

具体实现中，所述自动聚类模块32还可可根据自动聚类结果，更新所述历史聚类结果。

具体实现中，如图4所示，所述第二分类模块34可进一步包括：

标注模块341，用于对于所述自动聚类结果中包括的未知的分类，进行类别标注；

分类学习模块342，用于通过迁移学习，对所述带有类别标注的未知的分类训练分类器，以对所述图像中的未知目标物进行识别。

具体实现中，标注模块341具体可用于通过人机交互的方式，获取用户输入的类别标注信息；或者，从互联网查找与所述未知的分类相似性达到指定要求的图像，并通过互联网对所述图像的标注信息，对所述未知的分类进行类别标注。

具体实现中，所述分类学习模块342具体可用于根据自动聚类的结果，对已有的分类器进行更新，并使用迁移学习方法和所述更新后的已有的分类器为所述带有类别标注的未知的分类训练分类器，以对所述图像中的未知目标物进行识别。在一些可行的实施方式中，已有和训练出的分类器可以是支持向量机(Support Vector Machine，SVM)分类器、贝叶斯分类器、决策树分类器、朴素贝叶斯分类器(Naive Bayes Classifier，NBC)等。

图5为本发明的图像处理装置的另一实施例的结构组成示意图。如图5所述，其可包括：存储器51和处理器52，其中，处理器52调用存储器51中存储的程序代码，并执行如下步骤：

在一些可行的实施方式中，所述处理器执行对于所述自动聚类结果中包括的未知分类，通过机器学习的方式训练分类器，以对所述图像中的未知目标物进行识别的步骤时，可具体执行如下步骤：

在一些可行的实施方式中，所述处理器52进行类别标注，包括：

通过人机交互的方式，获取用户输入的类别标注信息；

在一些可行的实施方式中，所述处理器52通过迁移学习，对所述带有类别标注的未知的分类训练分类器，以对所述图像中的未知目标物进行识别时，具体执行如下步骤：

根据自动聚类的结果，对已有的分类器进行更新；

在一些可行的实施方式中，当所述处理器52所述对图像中的特征进行自动聚类之后，还包括：

根据所述自动聚类结果，更新所述历史聚类结果。

本发明实施例的模块,可用通用集成电路(如中央处理器CPU),或以专用集成电路(ASIC)来实现。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

以上所列举的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

一种图像中的目标物的识别方法，其特征在于，包括：

从图像中提取特征数据，并将所述提取的特征数据转换为统一的表达；

根据所述统一表达后的特征数据和历史聚类结果，对图像中的特征进行自动聚类；

对于所述自动聚类结果中包括的已知的分类，归类为对应的已知分类，以对所述图像中的已知目标物进行识别；

对于所述自动聚类结果中包括的未知分类，通过机器学习的方式训练分类器，以对所述图像中的未知目标物进行识别。
如权利要求1所述的图像中的目标物的识别方法，其特征在于，所述对于所述自动聚类结果中包括的未知分类，通过机器学习的方式训练分类器，以对所述图像中的未知目标物进行识别，包括：

对于所述自动聚类结果中包括的未知的分类，进行类别标注；

通过迁移学习，对所述带有类别标注的未知的分类训练分类器，以对所述图像中的未知目标物进行识别。
如权利要求2所述的图像中的目标物的识别方法，其特征在于，所述进行类别标注，包括：

通过人机交互的方式，获取用户输入的类别标注信息；

或者，从互联网查找与所述未知的分类相似性达到指定要求的图像，并通过互联网对所述图像的标注信息，对所述未知的分类进行类别标注。
如权利要求2所述的图像中的目标物的识别方法，其特征在于，通过迁移学习，对所述带有类别标注的未知的分类训练分类器，以对所述图像中的未知目标物进行识别，包括：

根据自动聚类的结果，对已有的分类器进行更新；

使用迁移学习方法和所述更新后的已有的分类器为所述带有类别标注的未知的分类训练分类器，以对所述图像中的未知目标物进行识别。
如权利要求1-4中任一项所述的图像中的目标物的识别方法，所述对图像中的特征进行自动聚类之后，还包括：

根据所述自动聚类结果，更新所述历史聚类结果。
一种图像处理装置，其特征在于，包括：

特征获取模块，用于从图像中提取特征数据，并将所述提取的特征数据转换为统一的表达；

自动聚类模块，用于根据所述特征获取模块统一表达后的特征数据和历史聚类结果，对图像中的特征进行自动聚类；

第一分类模块，用于对于所述自动聚类结果中包括的已知的分类，归类为对应的已知分类，以对所述图像中的已知目标物进行识别；

第二分类模块，用于对于所述自动聚类结果中包括的未知分类，通过机器学习的方式训练分类器，以对所述图像中的未知目标物进行识别。
如权利要求6所述的图像处理装置，其特征在于，所述第二分类模块，包括：

标注模块，用于对于所述自动聚类结果中包括的未知的分类，进行类别标注；

分类学习模块，用于通过迁移学习，对所述带有类别标注的未知的分类训练分类器，以对所述图像中的未知目标物进行识别。
如权利要求7所述的图像处理装置，其特征在于，标注模块具体用于通过人机交互的方式，获取用户输入的类别标注信息；或者，从互联网查找与所述未知的分类相似性达到指定要求的图像，并通过互联网对所述图像的标注信息，对所述未知的分类进行类别标注。
如权利要求7所述的图像处理装置，其特征在于，所述分类学习模块具体用于根据自动聚类的结果，对已有的分类器进行更新，并使用迁移学习方法和所述更新后的已有的分类器为所述带有类别标注的未知的分类训练分类器，以对所述图像中的未知目标物进行识别。
如权利要求6-9中任一项所述的图像处理装置，所述自动聚类模块还用于根据所述自动聚类结果，更新所述历史聚类结果。