WO2017088125A1 - 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置 - Google Patents

基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置 Download PDF

Info

Publication number
WO2017088125A1
WO2017088125A1 PCT/CN2015/095552 CN2015095552W WO2017088125A1 WO 2017088125 A1 WO2017088125 A1 WO 2017088125A1 CN 2015095552 W CN2015095552 W CN 2015095552W WO 2017088125 A1 WO2017088125 A1 WO 2017088125A1
Authority
WO
WIPO (PCT)
Prior art keywords
queried
similarity
rgb
reference object
dense matching
Prior art date
Application number
PCT/CN2015/095552
Other languages
English (en)
French (fr)
Inventor
黄凯奇
赵鑫
程衍华
Original Assignee
中国科学院自动化研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中国科学院自动化研究所 filed Critical 中国科学院自动化研究所
Priority to US15/746,568 priority Critical patent/US10496897B2/en
Priority to PCT/CN2015/095552 priority patent/WO2017088125A1/zh
Publication of WO2017088125A1 publication Critical patent/WO2017088125A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features

Definitions

  • An RGB-D object recognition method based on a dense matching sub-adaptive similarity measure may at least include:
  • denotes a scaling factor
  • I q ) denotes a similarity score between the reference object and the object to be queried.
  • s ⁇ refers to the similarity score corresponding thereto
  • w ⁇ refers to the weight coefficient
  • b represents the fusion bias factor
  • w represents the fused weight vector
  • represents the fused score vector
  • the object to be queried is classified, and specifically includes:
  • an RGB-D object recognition apparatus based on a dense matching sub-adaptive similarity measure, the apparatus comprising at least:
  • a similarity measurement module configured to measure a similarity between the reference object and the object to be queried based on a result of the dense matching
  • the reference object and the object to be queried are closely matched by combining the convolutional neural network feature with the RGB and the depth information, and based on the result of the dense matching, the similarity between the reference object and the object to be queried is measured. Sex, based on the similarity, classify the objects to be queried. Thereby, the complementarity of RGB and depth can be well utilized, and the robustness of object recognition is improved.
  • FIG. 1 is a flowchart of an RGB-D object recognition method based on a dense matching sub-adaptive similarity measure, according to an exemplary embodiment
  • FIG. 2 is a flowchart of an RGB-D object recognition method based on a dense matching sub-adaptive similarity measure, according to another exemplary embodiment
  • FIG. 3 is a schematic structural diagram of an RGB-D object recognition apparatus based on a dense matching sub-adaptive similarity measure according to an exemplary embodiment
  • the core idea of the embodiment of the present invention is to utilize the intensive matching to adapt the scale, the angle of view and the posture of the object to be queried, thereby more robustly searching for objects in the database, and designing a plurality of dense matching elements to effectively fuse the RGB and depth information. To obtain high-precision object recognition.
  • Step S102 Extracting convolutional neural network features of the object to be queried and the reference object.
  • Step S104 Based on the convolutional neural network feature and combining the RGB and the depth information, the reference object and the object to be queried are closely matched.
  • dense matching is to enable the reference objects to be deformed in accordance with the object to be queried so that they have similar scales, angles of view and posture.
  • dense matching is to find the mapping relationship from the reference object to the object to be queried.
  • each pixel in Ir can find the corresponding matching pixel in I q , namely:
  • the data item It is used to measure the difference between RGB and depth features of the two objects to be queried and reference objects.
  • the data items in the embodiments of the present invention contain RGB and depth information as compared to data items of conventional optical flow.
  • Step S106 Measure the similarity between the reference object and the object to be queried based on the result of the dense matching.
  • the method may include:
  • the embodiment of the present invention further provides an RGB-D object recognition device 30 based on a dense matching sub-adaptive similarity measure.
  • the apparatus 30 can include at least a feature extraction module 32, a dense matching module 34, a similarity measurement module 36, and a classification module 38.
  • the feature extraction module 32 is configured to extract convolutional neural network features of the object to be queried and the reference object; the dense matching module 34 is used for the base. Convolving the neural network features and combining the RGB and depth information to densely match the reference object and the object to be queried; the similarity metric module 36 is configured to measure the similarity between the reference object and the object to be queried based on the result of the dense matching.
  • the classification module 38 is configured to classify the objects to be queried based on the similarity between the reference object and the object to be queried.
  • the various steps of the present invention can be implemented with a general-purpose computing device, for example, they can be centralized on a single computing device, such as a personal computer, a server computer, a handheld device or a portable device, a tablet device, or a multi-processor device. It may be distributed over a network of computing devices, which may perform the steps shown or described in a different order than the ones described herein, or separate them into individual integrated circuit modules, or multiple of them. Or the steps are made into a single integrated circuit module. Thus, the invention is not limited to any specific hardware or software or combination thereof.
  • the method provided by the present invention may be implemented using a programmable logic device, or may be implemented as computer program software or program modules (including routines, programs, objects, components that perform particular tasks or implement particular abstract data types). Or a data structure, etc., for example, an embodiment of the invention may be a computer program product that is executed to cause a computer to perform the method for the demonstration.
  • the computer program product comprises a computer readable storage medium having computer program logic or code portions for implementing the method.
  • the computer readable storage medium may be a built-in medium installed in a computer or a removable medium detachable from a computer main body (for example, a storage device using hot plug technology).

Abstract

一种基于密集匹配子自适应相似性度量的RGB-D物体识别方法和装置,其中,该方法至少可以包括:提取待查询物体和参考物体的卷积神经网络特征(S102);基于卷积神经网络特征,并融合RGB和深度信息,对参考物体和待查询物体进行密集匹配(S104);基于密集匹配的结果,度量参考物体和所述待查询物体之间的相似性(S106);基于参考物体和待查询物体之间的相似性,对待查询物体进行分类(S108)。通过所述方法和装置,至少部分地解决了如何提高物体识别的鲁棒性的技术问题。

Description

基于密集匹配子自适应相似性度量的RGB-D物体识别方法和装置 技术领域
本发明实施例涉及模式识别、机器学习、计算机视觉技术领域,尤其是涉及一种基于密集匹配子自适应相似性度量的RGB-D物体识别方法和装置。
背景技术
随着计算机运算能力的飞速提升,计算机视觉、人工智能、机器感知等领域也迅猛发展。图像分类作为计算机视觉中的一个基本问题之一,也得到了长足的发展。图像分类就是利用计算机对图像进行智能分析,进而判断图像所属的类别。传统的图像分类算法一般仅仅依靠RGB图片来对物体进行识别,很容易受到光线变化、物体颜色变化以及背景嘈杂的干扰,在实际运用中很不鲁棒,精度也很难到用户需求。
深度传感技术的发展,像微软的Kinect,能够捕捉到高精度的深度图片,很好地弥补了传统的RGB图片的上述缺陷,为鲁棒性好、精度高的物体识别提供了可能性。在计算机视觉和机器人领域,有大量的研究探索如何有效地利用RGB和深度信息来提高物体识别的精度。这些算法基本上都可以归纳为模式识别中的三大环节:模式(特征)表达、相似性度量和分类器设计。由于现在的特征表达方法基本上都是与输入无关的,无法自适应输入图片中物体的任意尺度、视角和姿态,所以物体识别的鲁棒性差。
有鉴于此,特提出本发明。
发明内容
本发明实施例的主要目的在于提供一种基于密集匹配子自适应相似性度量的RGB-D物体识别方法和装置,其至少部分地解决了如何提高物体识别的鲁棒性的技术问题。
为了实现上述目的,根据本发明的一个方面,提供了以下技术方案:
一种基于密集匹配子自适应相似性度量的RGB-D物体识别方法,至少可以包括:
提取待查询物体和参考物体的卷积神经网络特征;
基于所述卷积神经网络特征,并融合RGB和深度信息,对所述参考物体和所述待查询物体进行密集匹配;
基于所述密集匹配的结果,度量所述参考物体和所述待查询物体之间的相似性;
基于所述参考物体和所述待查询物体之间的相似性,对所述待查询物体进行分类。
进一步地,利用以下公式来对所述参考物体和所述待查询物体进行密集匹配:
Figure PCTCN2015095552-appb-000001
平滑项;ti表示待查询物体中第i个像素点在参考物体中找到的对应像素点的位移量;tj表示待查询物体中第j个像素点在参考物体中找到的对应像素点的位移量;Di(ti)表示两个匹配的像素点的卷积神经网络特征之间的差异;λ表示限定待查询物体中相邻像素点的结构关系的一个阈值;α和β表示数据项、平移项和平滑项之间的加权系数。
进一步地,所述数据项具体包括:
Di(ti)=θ·[frgb(pi|Ir)-frgb(pi+ti|Iq)]+
                                          ;
(1-θ)·[fdepth(pi|Ir)-fdepth(pi+ti|Iq)].
其中,frgb(pi|Iq),frgb(pi|Ir)是指待查询物体和参考物体的RGB图片中第i个像素点提取的卷积神经网络特征;fdepth(pi|Iq),fdepth(pi|Ir)是指提取的深度特征;θ是指RGB和深度信息的融合系数。
进一步地,所述度量所述参考物体和所述待查询物体之间的相似性,具体包括:
利用以下公式来度量所述参考物体和所述待查询物体之间的相似性:
Figure PCTCN2015095552-appb-000002
其中,γ表示尺度化因子;sθ(Ir|Iq)表示参考物体和待查询物体之间的相似度分数。
进一步地,所述利用以下公式来度量所述参考物体和所述待查询物体之间的相似性,还具体包括:
Figure PCTCN2015095552-appb-000003
其中,sθ是指与其对应的相似度分数,wθ是指权重系数,b表示融合的偏差因子;w表示融合的权重向量,Φ表示融合的分数向量。
进一步地,所述w通过ranking SVM算法,并利用以下公式来求解:
Figure PCTCN2015095552-appb-000004
Figure PCTCN2015095552-appb-000005
Figure PCTCN2015095552-appb-000006
Figure PCTCN2015095552-appb-000007
其中,
Figure PCTCN2015095552-appb-000008
表示三元组数据库;Ii表示待查询物体;
Figure PCTCN2015095552-appb-000009
表示与所示待查询物体同类别的参考物体;
Figure PCTCN2015095552-appb-000010
表示与所示待查询物体不同类别的参考物体;ξ表示松弛变量;C表示惩罚参数。
进一步地,所述对待查询物体进行分类,具体包括:
利用以下公式来对所述待查询物体进行分类:
Figure PCTCN2015095552-appb-000011
其中,It表示待查询物体;ci表示检索的候选类的类别;K表示候选类中参考物体的个数。
根据本发明的另一个方面,还提供了一种基于密集匹配子自适应相似性度量的RGB-D物体识别装置,所述装置至少包括:
特征提取模块,用于提取待查询物体和参考物体的卷积神经网络特征;
密集匹配模块,用于基于所述卷积神经网络特征,并融合RGB和深度信息,对所述参考物体和所述待查询物体进行密集匹配;
相似性度量模块,用于基于所述密集匹配的结果,度量所述参考物体和所述待查询物体之间的相似性;
分类模块,用于基于所述参考物体和所述待查询物体之间的相似性,对所述待查询物体进行分类。
与现有技术相比,上述技术方案至少具有以下有益效果:
本发明实施例通过将卷积神经网络特征与RGB和深度信息相融合,来对参考物体和待查询物体进行密集匹配,并基于该密集匹配的结果,度量参考物体和待查询物体之间的相似性,再基于该相似性,对待查询物体进行分类。由此,能够很好地利用RGB和深度的互补性,提高了物体识别的鲁棒性。
当然,实施本发明的任一产品不一定需要同时实现以上所述的所有优点。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其它优点可通过在所写的说明书、权利要求书以及附图中所特别指出的方法来实现和获得。
需要说明的是,发明内容部分并非旨在标识出请求保护的主题的必要技术特征,也并非是用来确定请求保护的主题的保护范围。所要求保护的主题不限于解决在背景技术中提及的任何或所有缺点。
附图说明
附图作为本发明的一部分,用来提供对本发明的进一步的理解,本发明的示意性实施例及其说明用于解释本发明,但不构成对本发明的不当限定。显然,下面描述中的附图仅仅是一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。在附图中:
图1为根据一示例性实施例示出的基于密集匹配子自适应相似性度量的RGB-D物体识别方法的流程图;
图2为根据另一示例性实施例示出的基于密集匹配子自适应相似性度量的RGB-D物体识别方法的流程图;
图3为根据一示例性实施例示出的基于密集匹配子自适应相似性度量的RGB-D物体识别装置的结构示意图;
图4为根据一示例性实施例示出的基于密集匹配的相似性度量的示意图;
图5a为根据一示例性实施例示出的基于密集匹配的重排序示意图;
图5b为根据另一示例性实施例示出的基于密集匹配的重排序示意图。
这些附图和文字描述并不旨在以任何方式限制本发明的构思范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
下面结合附图以及具体实施例对本发明实施例解决的技术问题、所采用的技术方案以及实现的技术效果进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请的一部分实施例,并不是全部实施例。基于本申请中的实施例,本领域普通技术人员在不付出创造性劳动的前提下,所获的所有其它等同或明显变型的实施例均落在本发明的保护范围内。本发明实施例可以按照权利要求中限定和涵盖的多种不同方式来具体化。
需要说明的是,在下面的描述中,为了方便理解,给出了许多具体细节。但是很明显,本发明的实现可以没有这些具体细节。
需要说明的是,在没有明确限定或不冲突的情况下,本发明中的各个实施例及其中的技术特征可以相互组合而形成技术方案。
本发明实施例的核心思想是利用密集匹配来自适应待查询物体的尺度、视角、姿态,从而更加鲁棒的来检索数据库中的物体,并且设计多种密集匹配子来有效的融合RGB和深度信息来获得高精度的物体识别。
图1为根据一示例性实施例示出的基于密集匹配子自适应相似性度量的RGB-D物体识别方法的流程图。如图1所示,该方法至少可以包括步骤S102至步骤S108。
步骤S102:提取待查询物体和参考物体的卷积神经网络特征。
在该步骤中,卷积神经网络特征是三维矩阵特征。采用卷积神经网络特征来表达每个像素点,比单纯地用像素值来表达每个像素点具有更强的表达能力。优选地,采用无监督的卷积神经网络特征来表达每个像素点。通过卷积神经网络特征,来捕捉更加鲁棒的物体浅层特征(例如边沿信息)以及中层特征(例如物体部件信息),以对物体进行更好的表达。
步骤S104:基于卷积神经网络特征,并融合RGB和深度信息,对参考物体和待查询物体进行密集匹配。
在该步骤中,密集匹配的目的是使得参考物体能够按照待查询物体进行形变,从而使得它们具有相似的尺度、视角和姿态。在本质上,密集匹配是找到从参考物体到待查询物体的映射关系。
举例而言,做出如下定义:Iq表示待查询物体,Ir表示参考物体,pi=(x,y)表示参考物体Ir的一个像素点,p′i=(x′,y′)表示待查询物体Iq中与pi相匹配的那个像素点,记ti=(dx,dy)为位移量。
则:Ir中的每个像素都能在Iq中找到对应的匹配像素,即:
(x′,y′)=(x,y)+(dx,dy)   (1)
在一个可选的实施例中,为了对参考物体和待查询物体进行密集匹配,借鉴光流中的图匹配方法,并将RGB和深度信息融合进来,定义一个包含数据项
Figure PCTCN2015095552-appb-000012
位移项
Figure PCTCN2015095552-appb-000013
和平滑项
Figure PCTCN2015095552-appb-000014
的能量函数E(ti):
Figure PCTCN2015095552-appb-000015
其中,ti表示待查询物体中第i个像素点在参考物体中找到的对应像素点的位移量;tj表示待查询物体中第j个像素点在参考物体中找到的对应像素点的位移量;Di(ti)表示两个匹配的像素点的卷积神经网络特征之间的差异;λ表示限定待查询物体中相邻像素点的结构关系的一个阈值;α和β表示数据项、平移项和平滑项之间的加权系数。
本领域技术人员应该能够理解:上述定义只是为了更好地说明本发明实施例,不视为是对本发明保护范围的不当限定。
通过对公示(2)中的能量函数进行最小化,就可以使得Iq中每个像素点都尽可能的在Ir中找到最相似的像素点,并且保证Iq中邻近的像素点在Ir中找到的相似点也是邻近的。这样,就能找到Iq中每一点在Ir中相对应的点,即得到映射关系M:Ir→Iq
下面对公示(2)中的每一项进行说明。
数据项
Figure PCTCN2015095552-appb-000016
是用来衡量待查询物体和参考物体这两个物体RGB和深度特征的差异性。与传统的光流的数据项相比,本发明实施例中的数据项包含了RGB和深度信息。
在一个可选的实施例中:
Di(ti)=θ·[frgb(pi|Ir)-frgb(pi+ti|Iq)]+
                                           (3)
(1-θ)·[fdepth(pi|Ir)-fdepth(pi+ti|Iq)].
其中,frgb(pi|Iq),frgb(pi|Ir)是指待查询物体和参考物体的RGB图片中第i个像素点提取的卷积神经网络特征;fdepth(pi|Iq),fdepth(pi|Ir)是指提取的深度特征;θ是指RGB和深度信息的融合系数。
位移项α∑||ti||1为L1范数,用来对不期望出现的较大的形变进行惩罚。
平滑项
Figure PCTCN2015095552-appb-000017
用来保证邻近的像素的位移具有相似性,从而保证 物体的局部结构具有相似性。
在实际应用中,在对能量函数E(ti)进行最小化的时候,即在使得待查询物体和参考物体的匹配关系满足下列关系:a.表观特征相似的像素点尽可能地匹配在一起(由数据项控制);b.相匹配的像素点位移不会太大,即限制物体之间不会存在太大的形变变化(由位移项控制);c.在待查询物体中邻近的局部像素点在参考物体中找到的匹配点也是邻近的(由平滑项控制),这样能够保证物体的局部结构进行相似性匹配。
经过密集匹配之后,参考物体能够自适应待查询物体的尺度、视角以及姿态。
步骤S106:基于密集匹配的结果,度量参考物体和待查询物体之间的相似性。
为了对物体进行识别,在一个可选的实施例中,将公式(2)得到的能量函数量化成相似度分数,即为:
Figure PCTCN2015095552-appb-000018
其中,γ表示尺度化因子;Di(ti)表示两个匹配的像素点的卷积神经网络特征之间的差异;sθ(Ir|Iq)表示参考物体和待查询物体之间的相似度分数。
图4为根据一示例性实施例示出的基于密集匹配的相似性度量的示意图。图4示出了带匹配的物体对经过密集匹配之后的结果,以及再对密集匹配结果进行相似性度量之后的结果的示意图。从图中可以了解到经过相似性度量之后得到的RGB图片和深度图片的情况。
由于密集匹配可能会出现错误的匹配,造成误差。因此,在估计γ时采用的是鲁棒预测法。即:丢掉前5%误差最大的匹配能量值,将剩下的求其平均值作为γ。这一策略对噪声具有很大的鲁棒性。相似度分数的物理意义是:经过物体匹配(公式(2))之后,两个物体之间的尺度、视角以及姿态能够保存一致。这样,通过度量两者之间的相似度分数(公式(4)),即可以很好地衡量两个物体之间的相似度关系,相似度分数越高,说明待查询的物体的类别就越可能与参考物体的类别相同。
由于不存在一个完美的融合比例能够适应所有的类别或者任何一个类别。这是因为不同的类别对表观(RGB)和空间几何形状(深度)的依赖程度是不同的,即使是某一个类别,由于类内差和视角差异性,对表观和空间几何形状的依赖也会发生变化。
这就需要设计一组对应不同融合比例的密集匹配子,并且通过学习的方法来融合所有的匹配子,这称之为学习-融合策略。学习融合策略的目的就是要融合所有的匹配子得到一个最终的分数。
在一个可选的实施例中,假设一组θ∈[0,1],从而得到一组相似度分数sθ,融合所有的匹配子,得到一个最终的相似度分数:
Figure PCTCN2015095552-appb-000019
对于任意一个融合系数θ,sθ是指与其对应的相似度分数,wθ是指权重系数,b表示融合的偏差因子。将线性叠加写成向量点乘的形式,其中,
Figure PCTCN2015095552-appb-000020
w表示融合的权重向量,Φ表示融合的分数向量。
本领域技术人员应该能够理解,上述假设仅仅是为了更好地说明本发明,不应视为是对本发明的不当限定。
公式(5)的物理意义是:给定一个待查询物体Iq以及参考物体Ir,在度量两者之间的相似度时,本发明实施例采用不同的融合参数θ来得到不同的匹配关系(即匹配子),每种匹配子都可以通过公式(4)得到一个相似度分数Sθ。基于学习-融合的策略就是探究有效的融合所有的相似度分数来得到一个最终的分数,利用该最终的分数来度量物体之间最终的相似度关系。
在学习w的过程中,目标是
Figure PCTCN2015095552-appb-000021
其中,
Figure PCTCN2015095552-appb-000022
和Iq Iq来自同一个类别,而
Figure PCTCN2015095552-appb-000023
来自不同的类别。
学习的目的就是让同类之间相似度高于不同类之间的样本。
为了求解最优的w,在一个可选的实施例中,采用的是ranking SVM算法,其目标函数为:
Figure PCTCN2015095552-appb-000024
其中,
Figure PCTCN2015095552-appb-000025
在此表示要优化的融合权重向量,
Figure PCTCN2015095552-appb-000026
表示融合的分数向量;
Figure PCTCN2015095552-appb-000027
表示三元组数据库;Ii表示待查询物体;
Figure PCTCN2015095552-appb-000028
表示与所示待查询物体同类别的参考物体;
Figure PCTCN2015095552-appb-000029
表示与所示待查询物体不同类别的参考物体;ξ表示松弛变量;C表示惩罚参数。
为了优化这一目标函数,需要预先构造
Figure PCTCN2015095552-appb-000030
这样的三元组数据库。在该数据库中,对于每个待查询物体Ii,会找到一个与待查询物体同类别的参考物体
Figure PCTCN2015095552-appb-000031
以及与待查询物体不同类别的参考物体
Figure PCTCN2015095552-appb-000032
这样Ii
Figure PCTCN2015095552-appb-000033
Figure PCTCN2015095552-appb-000034
组成一个三元组。数据库Ω由大量的这种三元组组成。
利用ranking SVM算法来优化公式(6)的目的就是为了融合权重向量w能够保证同类别的物体之间的相似度分数要大于非同类物体之间的相似度分数。这样,提高了top-1的物体识别精度。
步骤S108:基于参考物体和待查询物体之间的相似性,对待查询物体进行分类。
在一个可选的实施例中,给定一个待查询物体It,利用基于特征的方法来检索最相近的T个候选类,在每个候选类中选取K个参考物体,则:
将物体It分为类别ci的投票值为:
Figure PCTCN2015095552-appb-000035
其中,ci表示检索的候选类的类别。
投票值是指每个待查询物体与候选类中所有的参考物体的相似度分数的均值,它衡量的是待查询物体与该候选类的相似性关系,投票值最大也就是候选类的类别即为待查询物体的类别,即:It的类别就取决于投票值的大小。
这种分类是基于重排序的。图5a为根据一示例性实施例示出的基于密集匹配的重排序示意图。图5b为根据另一示例性实施例示出的基于密集匹配的重排序示意图。对于每个待查询物体,第一行给出的是传统的最好的方法所检索的top-3结果,第二行给出的是本发明实施例的方法的检索结果。其中,图5a显示的是本发明实施例的方法能够很好地将同类的物体排在#1位置;图5b显示了本发明实施例的方法和传统的方法都不能正确的将同类的物体排在#1位置,但是本发明实施例的方法能够很好地将同类别物体的位置往前排列,即:表明本发明实施例的方法依然能够给出更合理的结果。通过重排序的方法,提高了物体识别的精度。
下面提供一优选的实施例来更好地说明本发明。如图2所示,该方法可以包括:
步骤S202:对每个物体的RGB和深度图片分别提取三维卷积神经网络特征。
步骤S204:利用双层的松弛置信度传播算法求解任意两个物体之间的密集匹配,并且求取相似度分数。
步骤S206:定义一系列融合比例,得到一系列的密集匹配子,并利用学习-融合策略来最优化RGB和深度的融合。
步骤S208:给定一个待查询样本,按照公式(7)求其与某个类别的投票值,并将投票值最大的类别作为待查询样本的类别。
上述方法实施例中将各个步骤按照上述先后次序的方式进行了描述,本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时执行或执行次序颠倒,这些简单的变化都在本发明的保护范围之内。
基于与方法实施例相同的技术构思,本发明实施例还提供一种基于密集匹配子自适应相似性度量的RGB-D物体识别装置30。如图3所示,该装置30至少可以包括:特征提取模块32、密集匹配模块34、相似性度量模块36及分类模块38。其中,特征提取模块32用于提取待查询物体和参考物体的卷积神经网络特征;密集匹配模块34用于基 于卷积神经网络特征,并融合RGB和深度信息,对参考物体和待查询物体进行密集匹配;相似性度量模块36用于基于密集匹配的结果,度量参考物体和待查询物体之间的相似性;分类模块38用于基于参考物体和待查询物体之间的相似性,对待查询物体进行分类。
上述装置实施例可以用于执行上述方法实施例,其技术原理、所解决的技术问题及产生的技术效果相似,所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是:上述实施例提供的基于密集匹配子自适应相似性度量的RGB-D物体识别装置在进行物体识别时,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
以上对本发明实施例所提供的技术方案进行了详细的介绍。虽然本文应用了具体的个例对本发明的原理和实施方式进行了阐述,但是,上述实施例的说明仅适用于帮助理解本发明实施例的原理;同时,对于本领域技术人员来说,依据本发明实施例,在具体实施方式以及应用范围之内均会做出改变。
需要说明的是:附图中的标记只是为了更清楚地说明本发明,不视为对本发明保护范围的不当限定。
术语“包括”、“包含”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备/装置中还存在另外的要素,即“包括一个”的意思还涵盖“包括另一个”的意思。
本发明的各个步骤可以用通用的计算装置来实现,例如,它们可以集中在单个的计算装置上,例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备或者多处理器装置,也可以分布在多个计算装置所组成的网络上,它们可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。因此,本发明不限于任何特定的硬件和软件或者其结合。
本发明提供的方法可以使用可编程逻辑器件来实现,也可以实施为计算机程序软件或程序模块(其包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件 或数据结构等等),例如根据本发明的实施例可以是一种计算机程序产品,运行该计算机程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质,该介质上包含计算机程序逻辑或代码部分,用于实现所述方法。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可以从计算机主体上拆卸下来的可移动介质(例如:采用热插拔技术的存储设备)。所述内置介质包括但不限于可重写的非易失性存储器,例如:RAM、ROM、快闪存储器和硬盘。所述可移动介质包括但不限于:光存储介质(例如:CD-ROM和DVD)、磁光存储介质(例如:MO)、磁存储介质(例如:磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如:存储卡)和具有内置ROM的媒体(例如:ROM盒)。
本发明并不限于上述实施方式,在不背离本发明实质内容的情况下,本领域普通技术人员可以想到的任何变形、改进或替换均落入本发明的范围。
尽管上文已经示出、描述和指出了适用于各种实施方式的本发明的基本新颖特征的详细描述,但是将会理解,在不脱离本发明意图的情况下,本领域技术人员可以对系统的形式和细节进行各种省略、替换和改变。

Claims (8)

  1. 一种基于密集匹配子自适应相似性度量的RGB-D物体识别方法,其特征在于,至少包括:
    提取待查询物体和参考物体的卷积神经网络特征;
    基于所述卷积神经网络特征,并融合RGB和深度信息,对所述参考物体和所述待查询物体进行密集匹配;
    基于所述密集匹配的结果,度量所述参考物体和所述待查询物体之间的相似性;
    基于所述参考物体和所述待查询物体之间的相似性,对所述待查询物体进行分类。
  2. 根据权利要求1所述的方法,其特征在于,利用以下公式来对所述参考物体和
    所述待查询物体进行密集匹配:
    Figure PCTCN2015095552-appb-100001
    tj表示待查询物体中第j个像素点在参考物体中找到的对应像素点的位移量;Di(ti)表示两个匹配的像素点的卷积神经网络特征之间的差异;λ表示限定待查询物体中相邻像素点的结构关系的一个阈值;α和β表示数据项、平移项和平滑项之间的加权系数。
  3. 根据权利要求2所述的方法,其特征在于,所述数据项具体包括:
    Figure PCTCN2015095552-appb-100002
    其中,frgb(pi|Iq),frgb(pi|Ir)是指待查询物体和参考物体的RGB图片中第i个像素点提取的卷积神经网络特征;fdepth(pi|Iq),fdepth(pi|Ir)是指提取的深度特征;θ是指RGB和深度信息的融合系数。
  4. 根据权利要求3所述的方法,其特征在于,所述度量所述参考物体和所述待查
    询物体之间的相似性,具体包括:
    利用以下公式来度量所述参考物体和所述待查询物体之间的相似性:
    Figure PCTCN2015095552-appb-100003
    其中,γ表示尺度化因子;sθ(Ir|Iq)表示参考物体和待查询物体之间的相似度分数。
  5. 根据权利要求4所述的方法,其特征在于,所述利用以下公式来度量所述参考
    物体和所述待查询物体之间的相似性,还具体包括:
    Figure PCTCN2015095552-appb-100004
    其中,sθ是指与其对应的相似度分数,wθ是指权重系数,b表示融合的偏差因子;w表示融合的权重向量,Φ表示融合的分数向量。
  6. 根据权利要求5所述的方法,其特征在于,所述w通过ranking SVM算法,并利用以下公式来求解:
    Figure PCTCN2015095552-appb-100005
    Figure PCTCN2015095552-appb-100006
    Figure PCTCN2015095552-appb-100007
    Figure PCTCN2015095552-appb-100008
    其中,
    Figure PCTCN2015095552-appb-100009
    表示三元组数据库;Ii表示待查询物体;
    Figure PCTCN2015095552-appb-100010
    表示与所示待查询物体同类别的参考物体;
    Figure PCTCN2015095552-appb-100011
    表示与所示待查询物体不同类别的参考物体;ξ表示松弛变量;C表示惩罚参数。
  7. 根据权利要求6所述的方法,其特征在于,所述对待查询物体进行分类,具体包括:
    利用以下公式来对所述待查询物体进行分类:
    Figure PCTCN2015095552-appb-100012
    其中,It表示待查询物体;ci表示检索的候选类的类别;K表示候选类中参考物体的个数。
  8. 一种基于密集匹配子自适应相似性度量的RGB-D物体识别装置,其特征在于,所述装置至少包括:
    特征提取模块,用于提取待查询物体和参考物体的卷积神经网络特征;
    密集匹配模块,用于基于所述卷积神经网络特征,并融合RGB和深度信息,对所述参考物体和所述待查询物体进行密集匹配;
    相似性度量模块,用于基于所述密集匹配的结果,度量所述参考物体和所述待查询物体之间的相似性;
    分类模块,用于基于所述参考物体和所述待查询物体之间的相似性,对所述待查询物体进行分类。
PCT/CN2015/095552 2015-11-25 2015-11-25 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置 WO2017088125A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US15/746,568 US10496897B2 (en) 2015-11-25 2015-11-25 Method and apparatus for recognizing RGB-D objects based on adaptive similarity measure of dense matching item
PCT/CN2015/095552 WO2017088125A1 (zh) 2015-11-25 2015-11-25 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2015/095552 WO2017088125A1 (zh) 2015-11-25 2015-11-25 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置

Publications (1)

Publication Number Publication Date
WO2017088125A1 true WO2017088125A1 (zh) 2017-06-01

Family

ID=58762834

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2015/095552 WO2017088125A1 (zh) 2015-11-25 2015-11-25 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置

Country Status (2)

Country Link
US (1) US10496897B2 (zh)
WO (1) WO2017088125A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596256A (zh) * 2018-04-26 2018-09-28 北京航空航天大学青岛研究院 一种基于rgb-d物体识别分类器构造方法
CN109299639A (zh) * 2017-07-25 2019-02-01 虹软(杭州)多媒体信息技术有限公司 一种用于表情识别的方法和装置
CN109389621A (zh) * 2018-09-11 2019-02-26 淮阴工学院 基于多模式深度特征融合的rgb-d目标跟踪方法
CN110084141A (zh) * 2019-04-08 2019-08-02 南京邮电大学 一种基于私有信息的跨领域场景识别方法
CN110874608A (zh) * 2018-09-03 2020-03-10 北京京东金融科技控股有限公司 分类方法、系统和电子设备
CN113469731A (zh) * 2021-06-10 2021-10-01 云南电网有限责任公司 基于电力物联网大数据服务智能推荐方法、平台及服务器

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825902B (zh) * 2019-09-20 2020-11-24 深圳云天励飞技术有限公司 特征相似性搜索的实现方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104599275A (zh) * 2015-01-27 2015-05-06 浙江大学 基于概率图模型的非参数化的rgb-d场景理解方法
CN104679863A (zh) * 2015-02-28 2015-06-03 武汉烽火众智数字技术有限责任公司 一种基于深度学习的以图搜图方法和系统
CN104850825A (zh) * 2015-04-18 2015-08-19 中国计量学院 一种基于卷积神经网络的人脸图像颜值计算方法
CN105512674A (zh) * 2015-11-25 2016-04-20 中国科学院自动化研究所 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3497550B1 (en) * 2016-08-12 2023-03-15 Packsize, LLC Systems and methods for automatically generating metadata for media documents

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104599275A (zh) * 2015-01-27 2015-05-06 浙江大学 基于概率图模型的非参数化的rgb-d场景理解方法
CN104679863A (zh) * 2015-02-28 2015-06-03 武汉烽火众智数字技术有限责任公司 一种基于深度学习的以图搜图方法和系统
CN104850825A (zh) * 2015-04-18 2015-08-19 中国计量学院 一种基于卷积神经网络的人脸图像颜值计算方法
CN105512674A (zh) * 2015-11-25 2016-04-20 中国科学院自动化研究所 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SCHWARZ, M. ET AL.: "RGB-D Object Recognition and Pose Estimation Based on Pre-trained Convolutional Neural Network Features", IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION (ICRA), 30 May 2015 (2015-05-30), ISSN: 1050-4729 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299639A (zh) * 2017-07-25 2019-02-01 虹软(杭州)多媒体信息技术有限公司 一种用于表情识别的方法和装置
CN109299639B (zh) * 2017-07-25 2021-03-16 虹软科技股份有限公司 一种用于表情识别的方法和装置
CN108596256A (zh) * 2018-04-26 2018-09-28 北京航空航天大学青岛研究院 一种基于rgb-d物体识别分类器构造方法
CN108596256B (zh) * 2018-04-26 2022-04-01 北京航空航天大学青岛研究院 一种基于rgb-d物体识别分类器构造方法
CN110874608A (zh) * 2018-09-03 2020-03-10 北京京东金融科技控股有限公司 分类方法、系统和电子设备
CN110874608B (zh) * 2018-09-03 2024-04-05 京东科技控股股份有限公司 分类方法、系统和电子设备
CN109389621A (zh) * 2018-09-11 2019-02-26 淮阴工学院 基于多模式深度特征融合的rgb-d目标跟踪方法
CN109389621B (zh) * 2018-09-11 2021-04-06 淮阴工学院 基于多模式深度特征融合的rgb-d目标跟踪方法
CN110084141A (zh) * 2019-04-08 2019-08-02 南京邮电大学 一种基于私有信息的跨领域场景识别方法
CN113469731A (zh) * 2021-06-10 2021-10-01 云南电网有限责任公司 基于电力物联网大数据服务智能推荐方法、平台及服务器
CN113469731B (zh) * 2021-06-10 2022-06-07 云南电网有限责任公司 基于电力物联网大数据服务智能推荐方法、平台及服务器

Also Published As

Publication number Publication date
US20180268251A1 (en) 2018-09-20
US10496897B2 (en) 2019-12-03

Similar Documents

Publication Publication Date Title
WO2017088125A1 (zh) 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置
Jourabloo et al. Pose-invariant face alignment via CNN-based dense 3D model fitting
Wang et al. Linear neighborhood propagation and its applications
Kao et al. Visual aesthetic quality assessment with a regression model
Kim et al. Canonical correlation analysis of video volume tensors for action categorization and detection
Leng et al. 3D object understanding with 3D convolutional neural networks
Liu Discriminative face alignment
CN107545276B (zh) 联合低秩表示和稀疏回归的多视角学习方法
CN107590505B (zh) 联合低秩表示和稀疏回归的学习方法
Yang et al. Geodesic clustering in deep generative models
CN105512674B (zh) 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置
Lin A review on low-rank models in data analysis
Tian et al. Joint gender classification and age estimation by nearly orthogonalizing their semantic spaces
Tong et al. Cross-view gait recognition based on a restrictive triplet network
Tong et al. A deep discriminative and robust nonnegative matrix factorization network method with soft label constraint
Yang et al. Recognizing cartoon image gestures for retrieval and interactive cartoon clip synthesis
Vezhnevets et al. Associative embeddings for large-scale knowledge transfer with self-assessment
Shao et al. Deep multi-center learning for face alignment
Sun et al. Perceptual multi-channel visual feature fusion for scene categorization
Rastegar et al. Designing a new deep convolutional neural network for content-based image retrieval with relevance feedback
Li et al. Differential geometric representations and algorithms for some pattern recognition and computer vision problems
Jabberi et al. Face shapenets for 3d face recognition
CN108229552B (zh) 一种模型处理方法、装置及存储介质
Li et al. 3D object retrieval based on multi-view convolutional neural networks
Demontis et al. Super-sparse regression for fast age estimation from faces at test time

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15909037

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15746568

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15909037

Country of ref document: EP

Kind code of ref document: A1