WO2017088125A1 - 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置 - Google Patents
基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置 Download PDFInfo
- Publication number
- WO2017088125A1 WO2017088125A1 PCT/CN2015/095552 CN2015095552W WO2017088125A1 WO 2017088125 A1 WO2017088125 A1 WO 2017088125A1 CN 2015095552 W CN2015095552 W CN 2015095552W WO 2017088125 A1 WO2017088125 A1 WO 2017088125A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- queried
- similarity
- rgb
- reference object
- dense matching
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
Definitions
- An RGB-D object recognition method based on a dense matching sub-adaptive similarity measure may at least include:
- ⁇ denotes a scaling factor
- I q ) denotes a similarity score between the reference object and the object to be queried.
- s ⁇ refers to the similarity score corresponding thereto
- w ⁇ refers to the weight coefficient
- b represents the fusion bias factor
- w represents the fused weight vector
- ⁇ represents the fused score vector
- the object to be queried is classified, and specifically includes:
- an RGB-D object recognition apparatus based on a dense matching sub-adaptive similarity measure, the apparatus comprising at least:
- a similarity measurement module configured to measure a similarity between the reference object and the object to be queried based on a result of the dense matching
- the reference object and the object to be queried are closely matched by combining the convolutional neural network feature with the RGB and the depth information, and based on the result of the dense matching, the similarity between the reference object and the object to be queried is measured. Sex, based on the similarity, classify the objects to be queried. Thereby, the complementarity of RGB and depth can be well utilized, and the robustness of object recognition is improved.
- FIG. 1 is a flowchart of an RGB-D object recognition method based on a dense matching sub-adaptive similarity measure, according to an exemplary embodiment
- FIG. 2 is a flowchart of an RGB-D object recognition method based on a dense matching sub-adaptive similarity measure, according to another exemplary embodiment
- FIG. 3 is a schematic structural diagram of an RGB-D object recognition apparatus based on a dense matching sub-adaptive similarity measure according to an exemplary embodiment
- the core idea of the embodiment of the present invention is to utilize the intensive matching to adapt the scale, the angle of view and the posture of the object to be queried, thereby more robustly searching for objects in the database, and designing a plurality of dense matching elements to effectively fuse the RGB and depth information. To obtain high-precision object recognition.
- Step S102 Extracting convolutional neural network features of the object to be queried and the reference object.
- Step S104 Based on the convolutional neural network feature and combining the RGB and the depth information, the reference object and the object to be queried are closely matched.
- dense matching is to enable the reference objects to be deformed in accordance with the object to be queried so that they have similar scales, angles of view and posture.
- dense matching is to find the mapping relationship from the reference object to the object to be queried.
- each pixel in Ir can find the corresponding matching pixel in I q , namely:
- the data item It is used to measure the difference between RGB and depth features of the two objects to be queried and reference objects.
- the data items in the embodiments of the present invention contain RGB and depth information as compared to data items of conventional optical flow.
- Step S106 Measure the similarity between the reference object and the object to be queried based on the result of the dense matching.
- the method may include:
- the embodiment of the present invention further provides an RGB-D object recognition device 30 based on a dense matching sub-adaptive similarity measure.
- the apparatus 30 can include at least a feature extraction module 32, a dense matching module 34, a similarity measurement module 36, and a classification module 38.
- the feature extraction module 32 is configured to extract convolutional neural network features of the object to be queried and the reference object; the dense matching module 34 is used for the base. Convolving the neural network features and combining the RGB and depth information to densely match the reference object and the object to be queried; the similarity metric module 36 is configured to measure the similarity between the reference object and the object to be queried based on the result of the dense matching.
- the classification module 38 is configured to classify the objects to be queried based on the similarity between the reference object and the object to be queried.
- the various steps of the present invention can be implemented with a general-purpose computing device, for example, they can be centralized on a single computing device, such as a personal computer, a server computer, a handheld device or a portable device, a tablet device, or a multi-processor device. It may be distributed over a network of computing devices, which may perform the steps shown or described in a different order than the ones described herein, or separate them into individual integrated circuit modules, or multiple of them. Or the steps are made into a single integrated circuit module. Thus, the invention is not limited to any specific hardware or software or combination thereof.
- the method provided by the present invention may be implemented using a programmable logic device, or may be implemented as computer program software or program modules (including routines, programs, objects, components that perform particular tasks or implement particular abstract data types). Or a data structure, etc., for example, an embodiment of the invention may be a computer program product that is executed to cause a computer to perform the method for the demonstration.
- the computer program product comprises a computer readable storage medium having computer program logic or code portions for implementing the method.
- the computer readable storage medium may be a built-in medium installed in a computer or a removable medium detachable from a computer main body (for example, a storage device using hot plug technology).
Abstract
一种基于密集匹配子自适应相似性度量的RGB-D物体识别方法和装置,其中,该方法至少可以包括:提取待查询物体和参考物体的卷积神经网络特征(S102);基于卷积神经网络特征,并融合RGB和深度信息,对参考物体和待查询物体进行密集匹配(S104);基于密集匹配的结果,度量参考物体和所述待查询物体之间的相似性(S106);基于参考物体和待查询物体之间的相似性,对待查询物体进行分类(S108)。通过所述方法和装置,至少部分地解决了如何提高物体识别的鲁棒性的技术问题。
Description
本发明实施例涉及模式识别、机器学习、计算机视觉技术领域,尤其是涉及一种基于密集匹配子自适应相似性度量的RGB-D物体识别方法和装置。
随着计算机运算能力的飞速提升,计算机视觉、人工智能、机器感知等领域也迅猛发展。图像分类作为计算机视觉中的一个基本问题之一,也得到了长足的发展。图像分类就是利用计算机对图像进行智能分析,进而判断图像所属的类别。传统的图像分类算法一般仅仅依靠RGB图片来对物体进行识别,很容易受到光线变化、物体颜色变化以及背景嘈杂的干扰,在实际运用中很不鲁棒,精度也很难到用户需求。
深度传感技术的发展,像微软的Kinect,能够捕捉到高精度的深度图片,很好地弥补了传统的RGB图片的上述缺陷,为鲁棒性好、精度高的物体识别提供了可能性。在计算机视觉和机器人领域,有大量的研究探索如何有效地利用RGB和深度信息来提高物体识别的精度。这些算法基本上都可以归纳为模式识别中的三大环节:模式(特征)表达、相似性度量和分类器设计。由于现在的特征表达方法基本上都是与输入无关的,无法自适应输入图片中物体的任意尺度、视角和姿态,所以物体识别的鲁棒性差。
有鉴于此,特提出本发明。
发明内容
本发明实施例的主要目的在于提供一种基于密集匹配子自适应相似性度量的RGB-D物体识别方法和装置,其至少部分地解决了如何提高物体识别的鲁棒性的技术问题。
为了实现上述目的,根据本发明的一个方面,提供了以下技术方案:
一种基于密集匹配子自适应相似性度量的RGB-D物体识别方法,至少可以包括:
提取待查询物体和参考物体的卷积神经网络特征;
基于所述卷积神经网络特征,并融合RGB和深度信息,对所述参考物体和所述待查询物体进行密集匹配;
基于所述密集匹配的结果,度量所述参考物体和所述待查询物体之间的相似性;
基于所述参考物体和所述待查询物体之间的相似性,对所述待查询物体进行分类。
进一步地,利用以下公式来对所述参考物体和所述待查询物体进行密集匹配:
平滑项;ti表示待查询物体中第i个像素点在参考物体中找到的对应像素点的位移量;tj表示待查询物体中第j个像素点在参考物体中找到的对应像素点的位移量;Di(ti)表示两个匹配的像素点的卷积神经网络特征之间的差异;λ表示限定待查询物体中相邻像素点的结构关系的一个阈值;α和β表示数据项、平移项和平滑项之间的加权系数。
进一步地,所述数据项具体包括:
Di(ti)=θ·[frgb(pi|Ir)-frgb(pi+ti|Iq)]+
;
(1-θ)·[fdepth(pi|Ir)-fdepth(pi+ti|Iq)].
其中,frgb(pi|Iq),frgb(pi|Ir)是指待查询物体和参考物体的RGB图片中第i个像素点提取的卷积神经网络特征;fdepth(pi|Iq),fdepth(pi|Ir)是指提取的深度特征;θ是指RGB和深度信息的融合系数。
进一步地,所述度量所述参考物体和所述待查询物体之间的相似性,具体包括:
利用以下公式来度量所述参考物体和所述待查询物体之间的相似性:
其中,γ表示尺度化因子;sθ(Ir|Iq)表示参考物体和待查询物体之间的相似度分数。
进一步地,所述利用以下公式来度量所述参考物体和所述待查询物体之间的相似性,还具体包括:
其中,sθ是指与其对应的相似度分数,wθ是指权重系数,b表示融合的偏差因子;w表示融合的权重向量,Φ表示融合的分数向量。
进一步地,所述w通过ranking SVM算法,并利用以下公式来求解:
进一步地,所述对待查询物体进行分类,具体包括:
利用以下公式来对所述待查询物体进行分类:
其中,It表示待查询物体;ci表示检索的候选类的类别;K表示候选类中参考物体的个数。
根据本发明的另一个方面,还提供了一种基于密集匹配子自适应相似性度量的RGB-D物体识别装置,所述装置至少包括:
特征提取模块,用于提取待查询物体和参考物体的卷积神经网络特征;
密集匹配模块,用于基于所述卷积神经网络特征,并融合RGB和深度信息,对所述参考物体和所述待查询物体进行密集匹配;
相似性度量模块,用于基于所述密集匹配的结果,度量所述参考物体和所述待查询物体之间的相似性;
分类模块,用于基于所述参考物体和所述待查询物体之间的相似性,对所述待查询物体进行分类。
与现有技术相比,上述技术方案至少具有以下有益效果:
本发明实施例通过将卷积神经网络特征与RGB和深度信息相融合,来对参考物体和待查询物体进行密集匹配,并基于该密集匹配的结果,度量参考物体和待查询物体之间的相似性,再基于该相似性,对待查询物体进行分类。由此,能够很好地利用RGB和深度的互补性,提高了物体识别的鲁棒性。
当然,实施本发明的任一产品不一定需要同时实现以上所述的所有优点。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其它优点可通过在所写的说明书、权利要求书以及附图中所特别指出的方法来实现和获得。
需要说明的是,发明内容部分并非旨在标识出请求保护的主题的必要技术特征,也并非是用来确定请求保护的主题的保护范围。所要求保护的主题不限于解决在背景技术中提及的任何或所有缺点。
附图作为本发明的一部分,用来提供对本发明的进一步的理解,本发明的示意性实施例及其说明用于解释本发明,但不构成对本发明的不当限定。显然,下面描述中的附图仅仅是一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。在附图中:
图1为根据一示例性实施例示出的基于密集匹配子自适应相似性度量的RGB-D物体识别方法的流程图;
图2为根据另一示例性实施例示出的基于密集匹配子自适应相似性度量的RGB-D物体识别方法的流程图;
图3为根据一示例性实施例示出的基于密集匹配子自适应相似性度量的RGB-D物体识别装置的结构示意图;
图4为根据一示例性实施例示出的基于密集匹配的相似性度量的示意图;
图5a为根据一示例性实施例示出的基于密集匹配的重排序示意图;
图5b为根据另一示例性实施例示出的基于密集匹配的重排序示意图。
这些附图和文字描述并不旨在以任何方式限制本发明的构思范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
下面结合附图以及具体实施例对本发明实施例解决的技术问题、所采用的技术方案以及实现的技术效果进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请的一部分实施例,并不是全部实施例。基于本申请中的实施例,本领域普通技术人员在不付出创造性劳动的前提下,所获的所有其它等同或明显变型的实施例均落在本发明的保护范围内。本发明实施例可以按照权利要求中限定和涵盖的多种不同方式来具体化。
需要说明的是,在下面的描述中,为了方便理解,给出了许多具体细节。但是很明显,本发明的实现可以没有这些具体细节。
需要说明的是,在没有明确限定或不冲突的情况下,本发明中的各个实施例及其中的技术特征可以相互组合而形成技术方案。
本发明实施例的核心思想是利用密集匹配来自适应待查询物体的尺度、视角、姿态,从而更加鲁棒的来检索数据库中的物体,并且设计多种密集匹配子来有效的融合RGB和深度信息来获得高精度的物体识别。
图1为根据一示例性实施例示出的基于密集匹配子自适应相似性度量的RGB-D物体识别方法的流程图。如图1所示,该方法至少可以包括步骤S102至步骤S108。
步骤S102:提取待查询物体和参考物体的卷积神经网络特征。
在该步骤中,卷积神经网络特征是三维矩阵特征。采用卷积神经网络特征来表达每个像素点,比单纯地用像素值来表达每个像素点具有更强的表达能力。优选地,采用无监督的卷积神经网络特征来表达每个像素点。通过卷积神经网络特征,来捕捉更加鲁棒的物体浅层特征(例如边沿信息)以及中层特征(例如物体部件信息),以对物体进行更好的表达。
步骤S104:基于卷积神经网络特征,并融合RGB和深度信息,对参考物体和待查询物体进行密集匹配。
在该步骤中,密集匹配的目的是使得参考物体能够按照待查询物体进行形变,从而使得它们具有相似的尺度、视角和姿态。在本质上,密集匹配是找到从参考物体到待查询物体的映射关系。
举例而言,做出如下定义:Iq表示待查询物体,Ir表示参考物体,pi=(x,y)表示参考物体Ir的一个像素点,p′i=(x′,y′)表示待查询物体Iq中与pi相匹配的那个像素点,记ti=(dx,dy)为位移量。
则:Ir中的每个像素都能在Iq中找到对应的匹配像素,即:
(x′,y′)=(x,y)+(dx,dy) (1)
其中,ti表示待查询物体中第i个像素点在参考物体中找到的对应像素点的位移量;tj表示待查询物体中第j个像素点在参考物体中找到的对应像素点的位移量;Di(ti)表示两个匹配的像素点的卷积神经网络特征之间的差异;λ表示限定待查询物体中相邻像素点的结构关系的一个阈值;α和β表示数据项、平移项和平滑项之间的加权系数。
本领域技术人员应该能够理解:上述定义只是为了更好地说明本发明实施例,不视为是对本发明保护范围的不当限定。
通过对公示(2)中的能量函数进行最小化,就可以使得Iq中每个像素点都尽可能的在Ir中找到最相似的像素点,并且保证Iq中邻近的像素点在Ir中找到的相似点也是邻近的。这样,就能找到Iq中每一点在Ir中相对应的点,即得到映射关系M:Ir→Iq。
下面对公示(2)中的每一项进行说明。
在一个可选的实施例中:
Di(ti)=θ·[frgb(pi|Ir)-frgb(pi+ti|Iq)]+
(3)
(1-θ)·[fdepth(pi|Ir)-fdepth(pi+ti|Iq)].
其中,frgb(pi|Iq),frgb(pi|Ir)是指待查询物体和参考物体的RGB图片中第i个像素点提取的卷积神经网络特征;fdepth(pi|Iq),fdepth(pi|Ir)是指提取的深度特征;θ是指RGB和深度信息的融合系数。
位移项α∑||ti||1为L1范数,用来对不期望出现的较大的形变进行惩罚。
在实际应用中,在对能量函数E(ti)进行最小化的时候,即在使得待查询物体和参考物体的匹配关系满足下列关系:a.表观特征相似的像素点尽可能地匹配在一起(由数据项控制);b.相匹配的像素点位移不会太大,即限制物体之间不会存在太大的形变变化(由位移项控制);c.在待查询物体中邻近的局部像素点在参考物体中找到的匹配点也是邻近的(由平滑项控制),这样能够保证物体的局部结构进行相似性匹配。
经过密集匹配之后,参考物体能够自适应待查询物体的尺度、视角以及姿态。
步骤S106:基于密集匹配的结果,度量参考物体和待查询物体之间的相似性。
为了对物体进行识别,在一个可选的实施例中,将公式(2)得到的能量函数量化成相似度分数,即为:
其中,γ表示尺度化因子;Di(ti)表示两个匹配的像素点的卷积神经网络特征之间的差异;sθ(Ir|Iq)表示参考物体和待查询物体之间的相似度分数。
图4为根据一示例性实施例示出的基于密集匹配的相似性度量的示意图。图4示出了带匹配的物体对经过密集匹配之后的结果,以及再对密集匹配结果进行相似性度量之后的结果的示意图。从图中可以了解到经过相似性度量之后得到的RGB图片和深度图片的情况。
由于密集匹配可能会出现错误的匹配,造成误差。因此,在估计γ时采用的是鲁棒预测法。即:丢掉前5%误差最大的匹配能量值,将剩下的求其平均值作为γ。这一策略对噪声具有很大的鲁棒性。相似度分数的物理意义是:经过物体匹配(公式(2))之后,两个物体之间的尺度、视角以及姿态能够保存一致。这样,通过度量两者之间的相似度分数(公式(4)),即可以很好地衡量两个物体之间的相似度关系,相似度分数越高,说明待查询的物体的类别就越可能与参考物体的类别相同。
由于不存在一个完美的融合比例能够适应所有的类别或者任何一个类别。这是因为不同的类别对表观(RGB)和空间几何形状(深度)的依赖程度是不同的,即使是某一个类别,由于类内差和视角差异性,对表观和空间几何形状的依赖也会发生变化。
这就需要设计一组对应不同融合比例的密集匹配子,并且通过学习的方法来融合所有的匹配子,这称之为学习-融合策略。学习融合策略的目的就是要融合所有的匹配子得到一个最终的分数。
在一个可选的实施例中,假设一组θ∈[0,1],从而得到一组相似度分数sθ,融合所有的匹配子,得到一个最终的相似度分数:
本领域技术人员应该能够理解,上述假设仅仅是为了更好地说明本发明,不应视为是对本发明的不当限定。
公式(5)的物理意义是:给定一个待查询物体Iq以及参考物体Ir,在度量两者之间的相似度时,本发明实施例采用不同的融合参数θ来得到不同的匹配关系(即匹配子),每种匹配子都可以通过公式(4)得到一个相似度分数Sθ。基于学习-融合的策略就是探究有效的融合所有的相似度分数来得到一个最终的分数,利用该最终的分数来度量物体之间最终的相似度关系。
学习的目的就是让同类之间相似度高于不同类之间的样本。
为了求解最优的w,在一个可选的实施例中,采用的是ranking SVM算法,其目标函数为:
其中, 在此表示要优化的融合权重向量, 表示融合的分数向量;表示三元组数据库;Ii表示待查询物体;表示与所示待查询物体同类别的参考物体;表示与所示待查询物体不同类别的参考物体;ξ表示松弛变量;C表示惩罚参数。
为了优化这一目标函数,需要预先构造这样的三元组数据库。在该数据库中,对于每个待查询物体Ii,会找到一个与待查询物体同类别的参考物体以及与待查询物体不同类别的参考物体这样Ii、和组成一个三元组。数据库Ω由大量的这种三元组组成。
利用ranking SVM算法来优化公式(6)的目的就是为了融合权重向量w能够保证同类别的物体之间的相似度分数要大于非同类物体之间的相似度分数。这样,提高了top-1的物体识别精度。
步骤S108:基于参考物体和待查询物体之间的相似性,对待查询物体进行分类。
在一个可选的实施例中,给定一个待查询物体It,利用基于特征的方法来检索最相近的T个候选类,在每个候选类中选取K个参考物体,则:
将物体It分为类别ci的投票值为:
其中,ci表示检索的候选类的类别。
投票值是指每个待查询物体与候选类中所有的参考物体的相似度分数的均值,它衡量的是待查询物体与该候选类的相似性关系,投票值最大也就是候选类的类别即为待查询物体的类别,即:It的类别就取决于投票值的大小。
这种分类是基于重排序的。图5a为根据一示例性实施例示出的基于密集匹配的重排序示意图。图5b为根据另一示例性实施例示出的基于密集匹配的重排序示意图。对于每个待查询物体,第一行给出的是传统的最好的方法所检索的top-3结果,第二行给出的是本发明实施例的方法的检索结果。其中,图5a显示的是本发明实施例的方法能够很好地将同类的物体排在#1位置;图5b显示了本发明实施例的方法和传统的方法都不能正确的将同类的物体排在#1位置,但是本发明实施例的方法能够很好地将同类别物体的位置往前排列,即:表明本发明实施例的方法依然能够给出更合理的结果。通过重排序的方法,提高了物体识别的精度。
下面提供一优选的实施例来更好地说明本发明。如图2所示,该方法可以包括:
步骤S202:对每个物体的RGB和深度图片分别提取三维卷积神经网络特征。
步骤S204:利用双层的松弛置信度传播算法求解任意两个物体之间的密集匹配,并且求取相似度分数。
步骤S206:定义一系列融合比例,得到一系列的密集匹配子,并利用学习-融合策略来最优化RGB和深度的融合。
步骤S208:给定一个待查询样本,按照公式(7)求其与某个类别的投票值,并将投票值最大的类别作为待查询样本的类别。
上述方法实施例中将各个步骤按照上述先后次序的方式进行了描述,本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时执行或执行次序颠倒,这些简单的变化都在本发明的保护范围之内。
基于与方法实施例相同的技术构思,本发明实施例还提供一种基于密集匹配子自适应相似性度量的RGB-D物体识别装置30。如图3所示,该装置30至少可以包括:特征提取模块32、密集匹配模块34、相似性度量模块36及分类模块38。其中,特征提取模块32用于提取待查询物体和参考物体的卷积神经网络特征;密集匹配模块34用于基
于卷积神经网络特征,并融合RGB和深度信息,对参考物体和待查询物体进行密集匹配;相似性度量模块36用于基于密集匹配的结果,度量参考物体和待查询物体之间的相似性;分类模块38用于基于参考物体和待查询物体之间的相似性,对待查询物体进行分类。
上述装置实施例可以用于执行上述方法实施例,其技术原理、所解决的技术问题及产生的技术效果相似,所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是:上述实施例提供的基于密集匹配子自适应相似性度量的RGB-D物体识别装置在进行物体识别时,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
以上对本发明实施例所提供的技术方案进行了详细的介绍。虽然本文应用了具体的个例对本发明的原理和实施方式进行了阐述,但是,上述实施例的说明仅适用于帮助理解本发明实施例的原理;同时,对于本领域技术人员来说,依据本发明实施例,在具体实施方式以及应用范围之内均会做出改变。
需要说明的是:附图中的标记只是为了更清楚地说明本发明,不视为对本发明保护范围的不当限定。
术语“包括”、“包含”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备/装置中还存在另外的要素,即“包括一个”的意思还涵盖“包括另一个”的意思。
本发明的各个步骤可以用通用的计算装置来实现,例如,它们可以集中在单个的计算装置上,例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备或者多处理器装置,也可以分布在多个计算装置所组成的网络上,它们可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。因此,本发明不限于任何特定的硬件和软件或者其结合。
本发明提供的方法可以使用可编程逻辑器件来实现,也可以实施为计算机程序软件或程序模块(其包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件
或数据结构等等),例如根据本发明的实施例可以是一种计算机程序产品,运行该计算机程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质,该介质上包含计算机程序逻辑或代码部分,用于实现所述方法。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可以从计算机主体上拆卸下来的可移动介质(例如:采用热插拔技术的存储设备)。所述内置介质包括但不限于可重写的非易失性存储器,例如:RAM、ROM、快闪存储器和硬盘。所述可移动介质包括但不限于:光存储介质(例如:CD-ROM和DVD)、磁光存储介质(例如:MO)、磁存储介质(例如:磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如:存储卡)和具有内置ROM的媒体(例如:ROM盒)。
本发明并不限于上述实施方式,在不背离本发明实质内容的情况下,本领域普通技术人员可以想到的任何变形、改进或替换均落入本发明的范围。
尽管上文已经示出、描述和指出了适用于各种实施方式的本发明的基本新颖特征的详细描述,但是将会理解,在不脱离本发明意图的情况下,本领域技术人员可以对系统的形式和细节进行各种省略、替换和改变。
Claims (8)
- 一种基于密集匹配子自适应相似性度量的RGB-D物体识别方法,其特征在于,至少包括:提取待查询物体和参考物体的卷积神经网络特征;基于所述卷积神经网络特征,并融合RGB和深度信息,对所述参考物体和所述待查询物体进行密集匹配;基于所述密集匹配的结果,度量所述参考物体和所述待查询物体之间的相似性;基于所述参考物体和所述待查询物体之间的相似性,对所述待查询物体进行分类。
- 一种基于密集匹配子自适应相似性度量的RGB-D物体识别装置,其特征在于,所述装置至少包括:特征提取模块,用于提取待查询物体和参考物体的卷积神经网络特征;密集匹配模块,用于基于所述卷积神经网络特征,并融合RGB和深度信息,对所述参考物体和所述待查询物体进行密集匹配;相似性度量模块,用于基于所述密集匹配的结果,度量所述参考物体和所述待查询物体之间的相似性;分类模块,用于基于所述参考物体和所述待查询物体之间的相似性,对所述待查询物体进行分类。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/746,568 US10496897B2 (en) | 2015-11-25 | 2015-11-25 | Method and apparatus for recognizing RGB-D objects based on adaptive similarity measure of dense matching item |
PCT/CN2015/095552 WO2017088125A1 (zh) | 2015-11-25 | 2015-11-25 | 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2015/095552 WO2017088125A1 (zh) | 2015-11-25 | 2015-11-25 | 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2017088125A1 true WO2017088125A1 (zh) | 2017-06-01 |
Family
ID=58762834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2015/095552 WO2017088125A1 (zh) | 2015-11-25 | 2015-11-25 | 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10496897B2 (zh) |
WO (1) | WO2017088125A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596256A (zh) * | 2018-04-26 | 2018-09-28 | 北京航空航天大学青岛研究院 | 一种基于rgb-d物体识别分类器构造方法 |
CN109299639A (zh) * | 2017-07-25 | 2019-02-01 | 虹软(杭州)多媒体信息技术有限公司 | 一种用于表情识别的方法和装置 |
CN109389621A (zh) * | 2018-09-11 | 2019-02-26 | 淮阴工学院 | 基于多模式深度特征融合的rgb-d目标跟踪方法 |
CN110084141A (zh) * | 2019-04-08 | 2019-08-02 | 南京邮电大学 | 一种基于私有信息的跨领域场景识别方法 |
CN110874608A (zh) * | 2018-09-03 | 2020-03-10 | 北京京东金融科技控股有限公司 | 分类方法、系统和电子设备 |
CN113469731A (zh) * | 2021-06-10 | 2021-10-01 | 云南电网有限责任公司 | 基于电力物联网大数据服务智能推荐方法、平台及服务器 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110825902B (zh) * | 2019-09-20 | 2020-11-24 | 深圳云天励飞技术有限公司 | 特征相似性搜索的实现方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104599275A (zh) * | 2015-01-27 | 2015-05-06 | 浙江大学 | 基于概率图模型的非参数化的rgb-d场景理解方法 |
CN104679863A (zh) * | 2015-02-28 | 2015-06-03 | 武汉烽火众智数字技术有限责任公司 | 一种基于深度学习的以图搜图方法和系统 |
CN104850825A (zh) * | 2015-04-18 | 2015-08-19 | 中国计量学院 | 一种基于卷积神经网络的人脸图像颜值计算方法 |
CN105512674A (zh) * | 2015-11-25 | 2016-04-20 | 中国科学院自动化研究所 | 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3497550B1 (en) * | 2016-08-12 | 2023-03-15 | Packsize, LLC | Systems and methods for automatically generating metadata for media documents |
-
2015
- 2015-11-25 WO PCT/CN2015/095552 patent/WO2017088125A1/zh active Application Filing
- 2015-11-25 US US15/746,568 patent/US10496897B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104599275A (zh) * | 2015-01-27 | 2015-05-06 | 浙江大学 | 基于概率图模型的非参数化的rgb-d场景理解方法 |
CN104679863A (zh) * | 2015-02-28 | 2015-06-03 | 武汉烽火众智数字技术有限责任公司 | 一种基于深度学习的以图搜图方法和系统 |
CN104850825A (zh) * | 2015-04-18 | 2015-08-19 | 中国计量学院 | 一种基于卷积神经网络的人脸图像颜值计算方法 |
CN105512674A (zh) * | 2015-11-25 | 2016-04-20 | 中国科学院自动化研究所 | 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置 |
Non-Patent Citations (1)
Title |
---|
SCHWARZ, M. ET AL.: "RGB-D Object Recognition and Pose Estimation Based on Pre-trained Convolutional Neural Network Features", IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION (ICRA), 30 May 2015 (2015-05-30), ISSN: 1050-4729 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299639A (zh) * | 2017-07-25 | 2019-02-01 | 虹软(杭州)多媒体信息技术有限公司 | 一种用于表情识别的方法和装置 |
CN109299639B (zh) * | 2017-07-25 | 2021-03-16 | 虹软科技股份有限公司 | 一种用于表情识别的方法和装置 |
CN108596256A (zh) * | 2018-04-26 | 2018-09-28 | 北京航空航天大学青岛研究院 | 一种基于rgb-d物体识别分类器构造方法 |
CN108596256B (zh) * | 2018-04-26 | 2022-04-01 | 北京航空航天大学青岛研究院 | 一种基于rgb-d物体识别分类器构造方法 |
CN110874608A (zh) * | 2018-09-03 | 2020-03-10 | 北京京东金融科技控股有限公司 | 分类方法、系统和电子设备 |
CN110874608B (zh) * | 2018-09-03 | 2024-04-05 | 京东科技控股股份有限公司 | 分类方法、系统和电子设备 |
CN109389621A (zh) * | 2018-09-11 | 2019-02-26 | 淮阴工学院 | 基于多模式深度特征融合的rgb-d目标跟踪方法 |
CN109389621B (zh) * | 2018-09-11 | 2021-04-06 | 淮阴工学院 | 基于多模式深度特征融合的rgb-d目标跟踪方法 |
CN110084141A (zh) * | 2019-04-08 | 2019-08-02 | 南京邮电大学 | 一种基于私有信息的跨领域场景识别方法 |
CN113469731A (zh) * | 2021-06-10 | 2021-10-01 | 云南电网有限责任公司 | 基于电力物联网大数据服务智能推荐方法、平台及服务器 |
CN113469731B (zh) * | 2021-06-10 | 2022-06-07 | 云南电网有限责任公司 | 基于电力物联网大数据服务智能推荐方法、平台及服务器 |
Also Published As
Publication number | Publication date |
---|---|
US20180268251A1 (en) | 2018-09-20 |
US10496897B2 (en) | 2019-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017088125A1 (zh) | 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置 | |
Jourabloo et al. | Pose-invariant face alignment via CNN-based dense 3D model fitting | |
Wang et al. | Linear neighborhood propagation and its applications | |
Kao et al. | Visual aesthetic quality assessment with a regression model | |
Kim et al. | Canonical correlation analysis of video volume tensors for action categorization and detection | |
Leng et al. | 3D object understanding with 3D convolutional neural networks | |
Liu | Discriminative face alignment | |
CN107545276B (zh) | 联合低秩表示和稀疏回归的多视角学习方法 | |
CN107590505B (zh) | 联合低秩表示和稀疏回归的学习方法 | |
Yang et al. | Geodesic clustering in deep generative models | |
CN105512674B (zh) | 基于密集匹配子自适应相似性度量的rgb-d物体识别方法和装置 | |
Lin | A review on low-rank models in data analysis | |
Tian et al. | Joint gender classification and age estimation by nearly orthogonalizing their semantic spaces | |
Tong et al. | Cross-view gait recognition based on a restrictive triplet network | |
Tong et al. | A deep discriminative and robust nonnegative matrix factorization network method with soft label constraint | |
Yang et al. | Recognizing cartoon image gestures for retrieval and interactive cartoon clip synthesis | |
Vezhnevets et al. | Associative embeddings for large-scale knowledge transfer with self-assessment | |
Shao et al. | Deep multi-center learning for face alignment | |
Sun et al. | Perceptual multi-channel visual feature fusion for scene categorization | |
Rastegar et al. | Designing a new deep convolutional neural network for content-based image retrieval with relevance feedback | |
Li et al. | Differential geometric representations and algorithms for some pattern recognition and computer vision problems | |
Jabberi et al. | Face shapenets for 3d face recognition | |
CN108229552B (zh) | 一种模型处理方法、装置及存储介质 | |
Li et al. | 3D object retrieval based on multi-view convolutional neural networks | |
Demontis et al. | Super-sparse regression for fast age estimation from faces at test time |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 15909037 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 15746568 Country of ref document: US |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 15909037 Country of ref document: EP Kind code of ref document: A1 |