WO2010121568A1

WO2010121568A1 - 训练方法、设备和估计图像中对象姿势视角的方法、设备

Info

Publication number: WO2010121568A1
Application number: PCT/CN2010/072150
Authority: WO
Inventors: 李亮; 吴伟国
Original assignee: 索尼公司
Priority date: 2009-04-24
Filing date: 2010-04-23
Publication date: 2010-10-28
Also published as: EP2423878A1; CN101872476A; JP5500245B2; JP2012524920A; US20120045117A1

Description

- -

训练方法、设备和估计图像中对象姿势视角的方法、设备

技术领域

[01] 本发明涉及对象姿势估计，尤其涉及旨在进行对象姿势视角估计的训练方法、设备和估计图像中对象姿势视角的方法、设备。

背景技术

[02] 在单个图像中估计对象 (例如人、动物、物体等)姿势的方法从技术原理上可以分为基于模型和基于学习的。基于学习的方法直接从图像特征推断对象的三维姿势。使用得较多的图像特征是对象轮廓信息。

[03] 现有的对象姿势估计的方法没有区分对象姿势的视角。由于对象姿势变化的复杂性，对象姿势的不同视角会带来更大的模糊性。因此，不同视角的图像姿势估计的准确度要远低于单一视角的姿势估计。

发明内容

[04] 鉴于现有技术的上述不足，本发明旨在提供一种基于输入图像的进行训练的方法、设备和估计图像中对象姿势视角的方法、设备，以利于在对象姿势估计中区分对象姿势视角。

[05] 本发明的一个实施例是一种基于输入图像进 1|练的方法，包括：从具有视角类别的多个输入图像的每个输入图像中提取图像特征；针对多个视角类别中的每个视角类别，通过线性回归分析估计将 M于所述视角类别的输入图像中提取的图像特征转换为与所述输入图像相应的三维对象姿势信息的映射模型；和基于通过将所述图像特征与相应三维对象姿势信息连接而得到的样本，计算联合概率分布模型，其中所述联合概率分布模型所基于的单概率分布模型对应于不同视角类别，并且每个所述单概率分布模型基于包含从相应视角类别的输入图像提取的图像特征的样本。

[06] 本发明的另一个实施例是一种基于输入图像进行训练的设备，包括：提取单元，其从具有视角类别的多个输入图像的每个输入图像中提取图像特征；映射估计单元，其针对多个视角类别中的每个视角类别，通过线性 - - 回归分析估计将从属于所述视角类别的输入图像中提取的图像特征转换为与所述输入图像相应的三维对象姿势信息的映射模型；和概率模型计算单元，其基于通过将所述图像特征与相应三维对象姿势信息连接而得到的样本，计算联合概率分布模型，其中所述联合概率分布模型所基于的单概率分布模型对应于不同视角类别，并且每个所述单概率分布模型基于包含目应视角类别的输入图像提取的图像特征的样本。

[07] 根据本发明的上述实施例，各个输入图像具有各自的视角类别。可从每个输入图像中提取图像特征。按照视角类别，可通过线性回归分析估计出映射模型。这种映射模型充当将该视角类别的图像特征转换为相应三维对象姿势信息的函数的作用。可将图像特征与相应三维对象姿势信息连接以得到样本，从而基于这些样本计算联合概率分布模型。联合概率分布模型基于若干单概率分布模型，其中每个视角类别有一个单概率分布模型。基于包含相应视角类别的图像特征的样本可得到相应的单概率分布模型。因此，通过本发明的实施例可训练出用于对象姿势视角估计的模型，即各姿势视角的映射模型和联合概率分布模型。

[08] 进一步地，在上述实施例中，可以利用降维方法计算将图像特征降维的特征变换模型。相应地，可以利用特征变换模型变换图像特征，以用于映射模型的估计和联合概率分布模型的计算。经过特征变换模型的变换的图像特征具有更低的维数，利于降低后续估计和计算的处理量。

[09] 本发明的另一个实施例是一种估计图像中对象姿势视角的方法，包括：从输入图像中提取图像特征；针对多个视角类别中的每个视角类别，基于与该视角类别对应的、用于将图像特征映射到三维对象姿势信息的映射模型，获得所述图像特征的相应三维对象姿势信息；根据基于针对所述视角类别的单概率分布模型的联合概率分布模型，计算每个视角类别的包含所述图像特征和相应三维对象姿势信息的联合特征的联合概率；根据所述联合概率计算在所述相应三维对象姿势信息的条件下所述图像特征的概率；和将所述条件概率中最大的条件概率所对应的视角类别估计为所述输入图像中的对象姿势视角。

[10] 本发明的另一个实施例是一种估计图像中对象姿势视角的设备，包括：提取单元，其从输入图像中提取图像特征；映射单元，其针对多个视角类别中的每个视角类别，基于与该视角类别对应的、用于将图像特征映射到三维对象姿势信息的映射模型，获得所述图像特征的相应三维对象姿势信息；概率计算单元，其根据基于针对所述视角类别的单概率分布模型 - - 的联合概率分布模型，计算每个视角类别的包含所述图像特征和相应三维对象姿势信息的联合特征的联合概率，并且根据所述联合概率计算在所述相应三维对象姿势信息的条件下所述图像特征的条件概率；和估计单元，其将所述条件概率中最大的条件概率所对应的视角类别估计为所述输入图像中的对象姿势视角。

[11] 根据本发明的上述实施例，可从输入图像中提取图像特征。由于每个视角类别均有相应的用于将该视角类别的图像特征转换为三维对象姿势信息的映射模型，可分别假设图像特征具有各个视角类别，从而利用相应的映射模型，获得图像特征的相应三维对象姿势信息。根据联合概率分布模型可计算出在假设的各个视角类别下出现该图像特征和相应三维对象姿势信息的联合概率。根据此联合概率可计算出在出现该相应三维对象姿势信息的 frfr下出现该图像特征的 H 概率。可以看出，最大 ^概率所对应的视角类别假设可以被估计为输入图像中的对象姿势视角。因而本发明的实施例能够估计出对象姿势视角。

[12] 进一步地，在上述实施例中，可以通过用于降维的特征变换模型将图像特征变换，以用于获得三维对象姿势信息。经过特征变换模型的变换的图像特征具有更低的维数，利于降低后续映射和概率计算的处理量。

[13] 现有的对象姿势估计的方法没有区分对象姿势的视角，而由于对象姿势变化的复杂性，对象姿势的不同视角会带来很大的估计模糊性，因此不同视角的图像姿势估计的准确度要远低于单一视角的姿势估计，本发明的目的是估计图像和视频中的对象视角，从而进一步估计单一视角中的对象姿势，实验结果表明本发明能有效估计图像和视频中的对象姿势。

附图说明

[14] 参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。在附图中，相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。

[15] 图 1 的框图示出了根据本发明一个实施例的用于基于输入图像进行训练的设备的结构。

[16] 图 2的示意图示出了从输入图像中提取方块的模式。

[17] 图 3 示出了根据本发明一个实施例的用于基于输入图练的方法的流程图。 - -

[18] 图 4 的框图示出了根据本发明一个优选实施例的用于基于输入图像进行训练的设备的结构。

[19] 图 5 示出了根据本发明一个优选实施例的用于基于输入图像进行训练的方法的流程图。

[20] 图 6 的框图示出了根据本发明一个实施例的用于估计图像中对象姿势视角的设备的结构。

[21] 图 7 示出了根据本发明一个实施例的用于估计图像中对象姿势视角的方法的流程图。

[22] 图 8 的框图示出了根据本发明一个优选实施例的用于估计图像中对象姿势视角的设备的结构。

[23] 图 9 示出了根据本发明一个优选实施例的用于估计图像中对象姿势视角的方法的流程图。

[24] 图 10是示出其中实现本发明实施例的计算机的示例性结构的框图。

具体实施方式

[25] 下面参照附图来说明本发明的实施例。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

[26] 图 1 的框图示出了根据本发明一个实施例的用于基于输入图像进行训练的设备 100的结构。

[27] 如图 1所示，设备 100包括提取单元 101、映射估计单元 102和概率模型计算单元 103。

[28] 输入图像是包含具有各种姿势视角类别的对象的图像。各个姿势视角类别分别表示对象所取的不同视角。例如，姿势视角类别可以包括 -80°、 -40°、 0°、 +40°和 +80°，其中 -80°是表示对 # 目对于摄像机镜头右转 80度的姿势视角类别、 -40°是表示对象相对于摄像机镜头右转 40度的姿势视角类别、 0°是表示对象正对摄像机镜头的姿势视角类别、 +40°是表示对象相对于摄像机镜头左转 40度的姿势视角类别，而 +80°是表示对象相对于摄像机镜头左转 80度的姿势视角类别。

[29] 当然，姿势视角类别也可以代表视角范围。例如，将对象的正面视角 - - 从左侧面至右侧面的 180° 范围划分为 5个视角范围： [-90°, -54°】， [-54°, -18°】， [-18°， 18°】， [18°， 54°】， [54°， 90°】，即 5个姿势视角类别。

[30] 姿势视角类别的数目和所代表的具体姿势视角可以根据需要任意设定，并不限于上述例子。

[31] 在本发明的实施例中，输入图像和相应的姿势视角类别均被提供给设备 100。

[32] 优选地，输入图像包含不含背景的各种姿势视角的对象图像和含有背景的各种姿势视角的对象图像。

[33] 提取单元 101 从具有视角类别的多个输入图像的每个输入图像中提取图像特征。图像特征可以是各种用于对象姿势估计的特征。优选地，图像特征是输入图像中边缘方向的统计特征，例如梯度方向直方图 HOG特征和尺度不变特征变换 SIFT特征。

[34] 在一个具体示例中，假定以梯度方向直方图作为图像特征，并且输入图像具有统一的宽和高（ 120像素 X 100像素）。然而本发明的实施例并不限于所假定的具体特征和尺寸。

[35] 在这个示例中，提取单元 101可分别计算输入图像中每一个像素在水平方向和垂直方向的梯度，即，

水平梯度： ( y) = d(I(x, y))/dx = I(x + l, y) - I(x - 1, y)

垂直梯度： (， = ^d^ ) ^{1 d}y = (， y + _ y _

其中 /( 表示像素的灰度值， x,y分别表示像素在水平方向和垂直方向的坐标。

[36] 于是，提取单元 101可根据输入图像中每一个像素的水平和垂直梯度分别计算该像素的梯度方向和梯度大小，即，

梯度方向： , y) = ar_g (| /_x|) 梯度大小： Grad(x, y) = ^I_x ² + I_y ² 其中梯度方向 S 3 的范围为 [0, ]。

[37] 在这个示例中，提取单元 101可在输入图像中从左至右、从上至下依次取 24个 32 x 32大小的方块，其中水平方向每行 6个方块，垂直方向每列 4个方块。在水平方向和垂直方向相邻的任意两个方块之间重叠一半。

[38] 图 2的示意图示出了从输入图像中提取方块的模式。图 2中示出了三 - - 个 32 x 32大小的方块 201、 202和 203。方块 202在垂直方向与方块 201 重叠 16个像素，而方块 203在水平方向与方块 201重叠 16个像素。

[39] 提取单元 101可将每一个 32 X 32的方块划分为 16个 8 x 8的小方块，其中水平方向每行 4个小方块，垂直方向每列 4个小方块。小方块按照先水平再垂直的顺序排列。

[40] 对于每一个 8 x 8的小方块，提取单元 101计算小方块中 64个像素的梯度方向直方图，其中将梯度方向划分为 8个方向区间，即从 0到 Γ范围内每 ϊ 8为一个方向区间。也就是说，基于每个 8 x 8的小方块的 64个像素，针对 8个方向区间中的每个方向区间，计算梯度方向属于该方向区间的像素的梯度大小的和，从而得到一个 8维向量。相应地，每一个 32 X 32的方块得到一个 128维向量。

[41] 对于每一个输入图像，提取单元 101将每一个方块的向量依次连接得到图像特征，因而图像特征的维数为 3072维，即 128 X 24 = 3072。

[42] 应当注意，本发明的实施例并不限于上述示例中方块和小方块的划分模式和具体数字，也可以采用其它划分模式和具体数字。本发明的实施例并不限于上述示例中提取特征的方法，也可以使用其它提取用于对象姿势估计的图像特征的方法。

[43] 回到图 1，映射估计单元 102针对多个视角类别中的每个视角类别，通过线性回归分析估计将从属于该视角类别的输入图像中提取的图像特征转换为与该输入图像相应的三维对象姿势信息的映射模型。也就是说，对于每个姿势视角类别，可以认为存在某种函数关系或映射关系，通过该关系，能够将从该姿势视角类别的输入图像提取的图像特征转换或映射为该输入图像的相应三维对象姿势信息。通过线性回归分析，可根据所提取的图像特征和相应的三维对象姿势信息，估计出这样的函数或映射关系，即映射模型。

[44] 对于每个输入图像，预先准备有与该输入图像所包含的对象的姿势相应的三维对象姿势信息。

[45] 在一个具体示例中，从输入图像中提取的图像特征 (特征向量)表示为 X_m, 其中 m是图像特征的维数。从"个输入图像中提取的所有图像特征表示为矩阵 X_m*„。另外，与提取的图像特征 X_m相应的三维对象姿势信息 (向量)表示为 Y_P，其中 ρ是三维对象姿势信息的维数。从"个输入图像中提取的所有图像特征的相应三维对象姿势信息表示为矩阵 Υ_ρ*_η。 [46] Y_≠n=A_≠m^X_M 于是采用线性回归分析，例如最小二乘方法可计算使得 (1>„- * ^*„)²取最小值的 Α„ 就是映射模型。

[47] 回到图 1，概率模型计算单元 103基于通过将图像特征与相应三维对象姿势信息连接而得到的样本，计算联合概率分布模型，其中联合概率分布模型所基于的单概率分布模型对应于不同视角类别，并且每个单概率分布模型基于包含从相应视角类别的输入图像提取的图像特征的样本。

[48] 也就是说，上述联合概率分布模型基于针对不同视角类别的单概率分布模型。通过已知的方法，能够根据每个视角类别的样本的集合，能够计算出相应的单概率分布模型 (即模型，进而能够计算出所有姿势视角类别的单概率分布模型的联合概率分布模型 (即模型参数)。

[49] 适合使用的联合概率分布模型包括但不限于混合高斯模型、隐马尔科夫模型和 frfr随机场。

[50] 在一个具体示例中，采用混合高斯模型。在这个示例中，利用图像特征 (向量 )X和三维对象姿势信息 (向量) Γ组成联合特征 (即样本) [Χ，7]^τ。假设联合特征 [Χ，7]^τ满足概率分布公式：

其中 Μ为姿势视角类别的数目， V( | _i? 为针对姿势视角类别 i的单高斯模型，即正态分布模型。和；是正态分布模型的参数， A表示针对姿势视角类别的单高斯模型在混合高斯模型中的权重。根据所有姿势视角类别的联合特征集，通过已知的估计方法，例如期望最大化方法 EM能够计算最优的 A， ^∑ i=l, ..., , 即映射模型。

[51] 图 3 示出了根据本发明一个实施例的用于基于输入图像进行训练的方法 300的流程图。

[52] 如图 3所示，方法 300从步骤 301开始。在步骤 303，从具有视角类别的多个输入图像的每个输入图像中提取图像特征。输入图像和姿势视角类别可以是前面参照图 1的实施例描述的输入图像和姿势视角类别。图像特征可以是各种用于对象姿势估计的特征。优选地，图像特征是输入图像中边缘方向的统计特征，例如梯度方向直方图 HOG特征和尺度不变特征变换 SIFT特征。

[53] 在步骤 305，针对多个视角类别中的每个视角类别，通过线性回归分析估计将从属于该视角类别的输入图像中提取的图像特征转换为与该输 - - 入图像相应的三维对象姿势信息的映射模型。也就是说，对于每个姿势视角类别，可以认为存在某种函数关系或映射关系，通过该关系，能够将从该姿势视角类别的输入图像提取的图像特征转换或映射为该输入图像的相应三维对象姿势信息。通过线性回归分析，可根据所提取的图像特征和相应的三维对象姿势信息，估计出这样的函数或映射关系，即映射模型。

[54] 对于每个输入图像，预先准备有与该输入图像所包含的对象的姿势相应的三维对象姿势信息。

[55] 在一个具体示例中，从输入图像中提取的图像特征 (特征向量)表示为 X_m, 其中 m是图像特征的维数。从"个输入图像中提取的所有图像特征表示为矩阵 X_m*„。另外，与提取的图像特征 X_m相应的三维对象姿势信息 (向量)表示为 Y_P，其中 ρ是三维对象姿势信息的维数。从"个输入图像中提取的所有图像特征的相应三维对象姿势信息表示为矩阵 Υ_ρ*_η。

[56] i . Ύ_≠η=Α_ρ^Χ_Μ 于是采用线性回归分析，例如最小二乘方法可计算使得 (1>„- * ^*„)²取最小值的 Α„ 就是映射模型。如果有 Q 个视角类别，则会产生 Q个相应的映射模型。

[57] 接着在步骤 307，基于通过将图像特征与相应三维对象姿势信息连接而得到的样本，计算联合概率分布模型，其中联合概率分布模型所基于的单概率分布模型对应于不同视角类别，并且每个单概率分布模型基于包含目应视角类别的输入图像提取的图像特征的样本。

[58] 也就是说，上述联合概率分布模型基于针对不同视角类别的单概率分布模型。通过已知的方法，能够根据每个视角类别的样本的集合，能够计算出相应的单概率分布模型 (即模型，进而能够计算出所有姿势视角类别的单概率分布模型的联合概率分布模型 (即模型参数)。

[59] 适合使用的联合概率分布模型包括但不限于混合高斯模型、隐马尔科夫模型和 ^随机场。

[60] 在一个具体示例中，采用混合高斯模型。在这个示例中，利用图像特征 (向量 )X和三维对象姿势信息 (向量) Γ组成联合特征 (即样本) [Χ，7]^τ。假设联合特征 [Χ，7]^τ满足概率分布公式：

其中 Μ为姿势视角类别的数目， V( | _i? ;)为针对姿势视角类别 i的单高斯模型，即正态分布模型。和；是正态分布模型的参数， A表示针对 - - 姿势视角类别的单高斯模型在混合高斯模型中的权重。根据所有姿势视角类别的联合特征集，通过已知的估计方法，例如期望最大化方法 EM能够计算最优的 A， ^∑ i=l, ..., , 即映射模型。

[61] 接着，方法 ³00在步骤 ³0⁹结束。

[62] 图 4 的框图示出了根据本发明一个优选实施例的用于基于输入图像进行训练的设备 400的结构。

[63] 如图 4所示，设备 400包括提取单元 401、映射估计单元 402、概率模型计算单元 403、变换模型计算单元 404和特征变换单元 405。提取单元 401、映射估计单元 402、概率模型计算单元 403的功能与图 1中的提取单元 101、映射估计单元 102、概率模型计算单元 103相同，不再重复说明。然而应当注意，提取单元 401 被配置为向变换模型计算单元 404 和特征变换单元 405输出所提取的图像特征，并且输入映射估计单元 402、概率模型计算单元 403的图像特征来自于特征变换单元 405。

[64] 变换模型计算单元 404 利用降维方法计算将图像特征降维的特征变换模型。降维方法包括但不限于主成份分析方法、因子分析方法、单值分解、多维尺度分析、局部线性嵌入、等距映射、线性鉴别分析、局部切空间排列和最大方差展开。所得到的特征变换模型可用来将提取单元 401 提取的图像特征变换为维数更小的图像特征。

[65] 在一个具体示例中，从输入图像中提取的图像特征 (特征向量)表示为 X_m, 其中 m是图像特征的维数。从"个输入图像中提取的所有图像特征表示为矩阵 X_m*_n。可利用主成份分析方法根据图像特征 X 计算矩阵

其中 d<m。

[66] 特征变换单元 405利用特征变换模型变换图像特征，以用于映射模型的估计和联合概率分布模型的计算。例如，在前面的示例中，可通过下式来计算变换的图像特征：

变换的图像特征 (维数为被提供给映射估计单元 402、概率模型计算单元 403。

[67] 在上述实施例中，由于经过特征变换模型的变换的图像特征具有更低的维数，利于降低后续估计和计算的处理量。

[68] 图 5 示出了根据本发明一个优选实施例的用于基于输入图像进行训 - - 练的方法 500的流程图。

[69] 如图 5所示，方法 500从步骤 501开始。在步骤 502，与方法 300的步骤 303相同，从具有视角类别的多个输入图像的每个输入图像中提取图像特征。

[70] 在步骤 503，利用降维方法计算将在步骤 502提取的图像特征降维的特征变换模型。降维方法包括但不限于主成份分析方法、因子分析方法、单值分解、多维尺度分析、局部线性嵌入、等距映射、线性鉴别分析、局部切空间排列和最大方差展开。所得到的特征变换模型可用来将提取的图像特征变换为维数更小的图像特征。

[71] 在一个具体示例中，从输入图像中提取的图像特征 (特征向量)表示为 X_m, 其中 m是图像特征的维数。从"个输入图像中提取的所有图像特征表示为矩阵 X_m*_n。可利用主成份分析方法根据图像特征 X 计算矩阵

MapcPmi 其中 d<m。

[72] 在步骤 504，利用特征变换模型变换图像特征，以用于映射模型的估计和联合概率分布模型的计算。例如，在前面的示例中，可通过下式来计算变换的图像特征：

[73] 在步骤 505，与方法 300的步骤 305相同，针对多个视角类别中的每个视角类别，通过线性回归分析估计将从属于该视角类别的输入图像中提取的图像特征 (已经过变换)转换为与该输入图像相应的三维对象姿势信息的映射模型。

[74] 接着在步骤 507，与方法 300的步骤步骤 307相同，基于通过将图像特征 (已经过变换)与相应三维对象姿势信息连接而得到的样本，计算联合概率分布模型，其中联合概率分布模型所基于的单概率分布模型对应于不同视角类别，并且每个单概率分布模型基于包含目应视角类别的输入图像提取的图像特征的样本。

[75] 接着，方法 ⁵00在步骤 ⁵0⁹结束。

[76] 图 6 的框图示出了根据本发明一个实施例的用于估计图像中对象姿势视角的设备 600的结构。

[77] 如图 6所示，设备 600包括提取单元 601、映射单元 602、概率计算单元 603和估计单元 604。 - -

[78] 提取单元 601从输入图像中提取图像特征。输入图像的规格与前面参照图 1的实施例描述的输入图目同。图像特征和提取图像特征的方法与要采用的映射模型所基于的图像特征及其提取方法 (如前面参照图 1的实施例所描述的)相同。

[79] 映射单元 602针对多个视角类别中的每个视角类别，基于与该视角类别对应的、用于将图像特征映射到三维对象姿势信息的映射模型，获得图像特征的相应三维对象姿势信息。映射模型是前面参照图 1的实施例描述的映射模型。这里，对于从输入图像中提取的图像特征 ^，其中 m是图像特征的维数，映射单元 602假设所有的视角类别对于该输入图是可能的。相应地，映射单元 602针对每个假设的视角类别，用相应的映射模型获得相应的三维对象姿势信息 ί^Α * ^

[80] 概率计算单元 603根据基于针对视角类别的单概率分布模型的联合概率分布模型，计算每个视角类别的包含图像特征和相应三维对象姿势信息的联合特征的联合概率，并且根据联合概率计算在相应三维对象姿势信息的下图像特征的概率。联合概率分布模型是前面参照图 1的实施例描述的联合概率分布模型。也就是说，对于每个假设的视角类别，概率计算单元 603用图像特征 X和相应的三维对象姿势信息 Γ组成联合特征 [X, η^τ，利用联合概率分布模型计算联合特征 [X， 7]^τ的联合概率值 ρ([Χ， 7]^τ)ο根据所得到的联合概率值 ρ([Χ， 7]^τ),概率计算单元 603例如使用贝叶斯法则计算 ^概率 p(y|X)，即 ρ(ί1Χ)= ρ([Χ, Υ]^Ύ)/ίρ([Χ, 7]^τ)ί Χ。

[81] 估计单元 604将针对所有可能视角类别计算的条件概率中最大的 ^概率所对应的视角类别估计为输入图像中的对象姿势视角。

[82] 图 7 示出了根据本发明一个实施例的用于估计图像中对象姿势视角的方法 700的流程图。

[83] 如图 7所示，方法 700从步骤 701开始。在步骤 703，从输入图像中提取图像特征。输入图像的与前面参照图 1的实施例描述的输入图像相同。图像特征和提取图像特征的方法与要采用的映射模型所基于的图像特征及其提取方法 (如前面参照图 1的实施例所描述的)相同。

[84] 在步骤 705，针对多个视角类别中的每个视角类别，基于与该视角类别对应的、用于将图像特征映射到三维对象姿势信息的映射模型，获得图像特征的相应三维对象姿势信息。映射模型是前面参照图 1的实施例描述的映射模型。这里，对于从输入图像中提取的图像特征 ^，其中 m是图 - - 像特征的维数，在步骤 705假设所有的视角类别对于该输入图像都是可能的。相应地，在步骤 705针对每个假设的视角类别，用相应的映射模型

A 获得相应的三维对象姿势信息 =A *X_m。

[85] 在步骤 707，根据基于针对视角类别的单概率分布模型的联合概率分布模型，计算每个视角类别的包含图像特征和相应三维对象姿势信息的联合特征的联合概率，并且根据联合概率计算在相应三维对象姿势信息的条件下图像特征的条件概率。联合概率分布模型是前面参照图 1的实施例描述的联合概率分布模型。也就是说，对于每个假设的视角类别，在步骤 707用图像特征 X和相应的三维对象姿势信息组成联合特征 [X， 7]^τ,利用联合概率分布模型计算联合特征 [Χ， 7]^τ的联合概率值 ρ([Χ， 7]^τ)„ 根据所得到的联合概率值 p([X， Yf) > 例如使用贝叶斯法则计算条件概率 ρ(Υ\Χ), 即 ρ(ηΧ)= ρ([Χ, Υ]^Ύ)/ίρ([Χ, ίΊ^Τ) 。

[86] 在步骤 708，将针对所有可能视角类别计算的条件概率中最大的条件概率所对应的视角类别估计为输入图像中的对象姿势视角。方法 700在步骤 709结束。

[87] 图 8 的框图示出了根据本发明一个优选实施例的用于估计图像中对象姿势视角的设备 800的结构。

[88] 如图 8所示，设备 800包括提取单元 801、变换单元 805、映射单元 802、概率计算单元 803和估计单元 804。提取单元 801、映射单元 802、概率计算单元 803和估计单元 804分别与图 6的实施例的提取单元 601、映射单元 602、概率计算单元 603和估计单元 604功能相同，不再重复说明。然而应当注意，提取单元 801被配置为向变换单元 805输出所提取的图像特征，并且映射单元 802、概率计算单元 803的图像特征来自于变换单元 805„

[89] 变换单元 805通过用于降维的特征变换模型将图像特征变换，以用于获得三维对象姿势信息。特征变换模型可以是前面参照图 4的实施例描述的特征变换模型。

[90] 在上述实施例中，由于经过特征变换模型的变换的图像特征具有更低的维数，利于降低后续映射和计算的处理量。

[91] 图 9 示出了根据本发明一个优选实施例的用于估计图像中对象姿势视角的方法 900的流程图。

[92] 如图 9所示，方法 900从步骤 901开始。在步骤 903，与步骤 703相 - - 同，从输入图像中提取图像特征。

[93] 在步骤 904，通过用于降维的特征变换模型将图像特征变换，以用于获得三维对象姿势信息。特征变换模型可以是前面参照图 4的实施例描述的特征变换模型。

[94] 在步骤 905，与步骤 705相同，针对多个视角类别中的每个视角类别，基于与该视角类别对应的、用于将图像特征映射到三维对象姿势信息的映射模型，获得图像特征的相应三维对象姿势信息。

[95] 在步骤 907，与步骤 707相同，根据基于针对视角类别的单概率分布模型的联合概率分布模型，计算每个视角类别的包含图像特征和相应三维对象姿势信息的联合特征的联合概率，并且根据联合概率计算在相应三维对象姿势信息的条件下图像特征的条件概率。

[96] 在步骤 908，与步骤 708相同，将针对所有可能视角类别计算的条件概率中最大的条件概率所对应的视角类别估计为输入图像中的对象姿势视角。方法 900在步骤 909结束。

[97] 虽然前面针对图像说明了本发明的实施例，然而本发明的实施例也可以应用于视频，其中将视频作为图像的序列来处理。

[98] 图 10是示出其中实现本发明实施例的计算机的示例性结构的框图。

[99] 在图 10中，中央处理单元 (CPU)lOOl根据只读映射数据 (ROM)1002 中存储的程序或从存储部分 1008加载到随机存取映射数据 (RAM)1003的程序执行各种处理。在 RAM 1003中，也根据需要存储当 CPU 1001执行各种处理等等时所需的数据。

[100] CPU 1001、 ROM 1002和 RAM 1003经由总线 1004彼此连接。输入 /输出接口 1005也连接到总线 1004。

[101] 下述部件连接到输入 /输出接口 1005: 输入部分 1006，包括键盘、鼠标等等；输出部分 1007，包括显示器，比如阴极射线管 (CRT)、液晶显示器 (LCD)等等，和扬声器等等；存储部分 1008，包括硬盘等等；和通信部分 1009，包括网络接口卡比如 LAN卡、调制解调器等等。通信部分 1009 经由网络比如因特网执行通信处理。

[102] 根据需要，驱动器 1010也连接到输入 /输出接口 1005。可拆卸介质 1011 比如磁盘、光盘、磁光盘、半导体映射数据等等根据需要被安装在驱动器 1010上，使得从中读出的计算才 ^序根据需要被安装到存储部分 - -

1008中。

[103] 在通过软件实现上述步骤和处理的情况下，从网络比如因特网或存储介质比如可拆卸介质 1011安装构成软件的程序。

[104] 本领域的技术人员应当理解，这种存储介盾不局限于图 10所示的其中存储有程序、与方法相分离地分发以向用户提供程序的可拆卸介质 1011。可拆卸介质 1011 的例子包含磁盘、光盘 (包含光盘只读映射数据 (CD-ROM)和数字通用盘 (DVD))、磁光盘（包含迷你盘 (MD)和半导体映射数据。或者，存储介质可以是 ROM 1002、存储部分 1008中包含的硬盘等等，其中存有程序，并且与包含它们的方法一起被分发给用户。

[105] 在前面的说明书中参照特定实施例描述了本发明。然而本领域的普通技术人员理解，在不偏离如权利要求书限定的本发明的范围的前提下可以进行各种修改和改变。

Claims

权利要求书

1. 一种估计图像中对象姿势视角的方法，包括：

从输入图像中提取图像特征；

针对多个视角类别中的每个视角类别，基于与该视角类别对应的、用于将图像特征映射到三维对象姿势信息的映射模型，获得所述图像特征的相应三维对象姿势信息；

根据基于针对所述视角类别的单概率分布模型的联合概率分布模型，计算每个视角类别的包含所述图像特征和相应三维对象姿势信息的联合特征的联合概率；

根据所述联合概率计算在所述相应三维对象姿势信息的条件下所述图像特征的 ^概率；和

将所述条件概率中最大的条件概率所对应的视角类别估计为所述输入图像中的对象姿势视角。

2. 如权利要求 1所述的方法，还包括：

通过用于降维的特征变换模型将所述图像特征变换，以用于获得所述三维对象姿势信息。

3. 如权利要求 1或 2所述的方法，其中所述图像特征为图像边缘方向的统计特征。

4. 如权利要求 1或 2所述的方法，其中所述联合概率分布模型基于混合高斯模型、隐马尔科夫模型或条件随机场。

5. 一种估计图像中对象姿势视角的设备，包括：

提取单元，其从输入图像中提取图像特征；

映射单元，其针对多个视角类别中的每个视角类别，基于与该视角类别对应的、用于将图像特征映射到三维对象姿势信息的映射模型，获得所述图像特征的相应三维对象姿势信息；

概率计算单元，其根据基于针对所述视角类别的单概率分布模型的联合概率分布模型，计算每个视角类别的包含所述图像特征和相应三维对象姿势信息的联合特征的联合概率，并且根据所述联合概率计算在所目应三维对象姿势信息的条件下所述图像特征的条件概率；和

估计单元，其将所述条件概率中最大的条件概率所对应的视角类别估计为所述输入图像中的对象姿势视角。

6. 如权利要求 5所述的设备，还包括：

变换单元，其通过用于降维的特征变换模型将所述图像特征变换，以用于获得所述三维对象姿势信息。

7. 如权利要求 5或 6所述的设备，其中所述图像特征为图像边缘方向的统计特征。

8. 如权利要求 5或 6所述的设备，其中所述联合概率分布模型基于混合高斯模型、隐马尔科夫模型或条件随机场。