WO2017000764A1

WO2017000764A1 - 一种手势检测识别方法及系统

Info

Publication number: WO2017000764A1
Application number: PCT/CN2016/085625
Authority: WO
Inventors: 张宏鑫
Original assignee: 芋头科技（杭州）有限公司
Priority date: 2015-06-30
Filing date: 2016-06-13
Publication date: 2017-01-05
Also published as: US20180293433A1; US10318800B2; JP2018524726A; EP3318955A4; EP3318955A1; HK1231590A1; CN106325485A; JP6608465B2; TW201701187A; CN106325485B

Abstract

本发明公开了一种手势检测识别方法及系统，手势检测识别方法为：采集图像，并存储；采用预设的多个用于检测不同手势的分类器按照预设顺序依据隔帧交替的方式对每一帧所述图像进行检测，以获取手势目标；基于所述手势目标区域的像素分布建立肤色模型；根据肤色模型获取所述手势目标前后两个状态的所述手势频率，将所述手势频率与预设手势状态匹配，以获取手势转换的状态，并输出。手势检测识别方法可实现在特定场景下提取肤色，可在光照剧烈变化后逐步消除其产生的影响，从而实现提取手势转换状态的目的。手势检测识别系统能够检测光线、拍摄角度、大小、肤色不同的手势，且识别正确率可达到90％以上，准确性高。

Description

一种手势检测识别方法及系统

技术领域

本发明涉及人机交互领域，尤其涉及一种基于机器人系统的手势检测识别方法及系统。

背景技术

随着计算机技术的发展，计算机的处理技术越来越强，原始的人机交互技术越来越不能满足人们的需求，人们开始寻找更加自然和智能的交互方式。手势检测及状态识别技术普遍采用2D或3D技术。由于手是弹性物体，同一种手势之间会有较大差别，不同手势之间可能会很相似，不同的人做出的手势也会不同，且手势具有较大的冗余信息，在无意识的状况下人会产生非常多的手势，因此对识别技术的运算能力和识别正确度要求很高。然而现有的识别技术无法快速识别多手势变化，识别的正确率低，实时性差；且对光线比较敏感，不同强度、方向的光照(如偏光或无补偿光源的情况下)会产生不同的阴影直接影响识别的准确定性，无法在复杂的背景条件中提取出感兴趣的手部区域目标。

发明内容

针对现有的识别技术存在的上述问题，现提供一种旨在实现可在偏光或无补偿光源的情况下快速识别手势变化的手势检测识别方法及系统。

具体技术方案如下：

一种手势检测识别方法，包括下述步骤：

A1.采集图像，并存储；

A2.采用预设的多个用于检测不同手势的分类器按照预设顺序依据隔帧交替的方式对每一帧所述图像进行检测，以获取手势目标；

A3.基于所述手势目标区域的像素分布建立肤色模型；

A4.根据肤色模型获取所述手势目标前后两个状态的所述手势频率，将所述手势频率与预设手势状态匹配，以获取手势转换的状态，并输出。

优选的，在执行所述步骤A2之前，对所述图像进行预处理。

优选的，每个所述分类器均通过一预设滑动窗口对所述图像进行多尺度目标检测，以获取所述手势目标。

优选的，获取所述手势目标后将所述窗口扩大4倍对所述手势目标进行检测。

优选的，所述分类器采用级连分类器。

一种手势检测识别系统，包括：

采集单元，用以采集图像；

存储单元，连接所述采集单元，用以存储所述图像；

复数个用于检测不同手势的分类器，分别连接所述存储单元，用以在预设顺序下采用隔帧交替的方式对每一帧所述图像进行检测，以获取手势目标；

肤色建模单元，连接所述存储单元，用以基于所述手势目标区域的像素分布建立肤色模型；

决策单元，分别连接复数个所述分类器和所述肤色建模单元，根据肤色模型获取所述手势目标前后两个状态的所述手势频率，将所述手势频率与预设手势状态匹配，以获取手势转换的状态，并输出。

所述采集单元采用摄像机。

所述分类器采用级连分类器。

所述分类器均通过一预设滑动窗口对所述图像进行多尺度目标检测，以获取所述手势目标。

所述分类器获取所述手势目标后将所述窗口扩大4倍对所述手势目标进行检测。

上述技术方案的有益效果：

在本技术方案中，手势检测识别方法可在检测到的手势目标区域，基于像素分布进行实时的肤色建模，以实现在特定场景下提取肤色，可在光照剧烈变化后逐步消除其产生的影响，从而实现提取手势转换状态的目的。手势检测识别系统能够检测光线、拍摄角度、大小、肤色不同的手势，且识别正确率可达到90％以上，准确性高。

附图说明

图1为本发明所述手势检测识别系统的一种实施例的模块图；

图2为拳-掌和掌-拳关于手势频率变化的曲线图；

图3为手势音乐控制系统的原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

一种手势检测识别方法，包括下述步骤：

A1.采集图像，并存储；

A2.采用预设的多个用于检测不同手势的分类器按照预设顺序依据隔帧交替的方式对每一帧图像进行检测，以获取手势目标；

A3.基于手势目标区域的像素分布建立肤色模型；

A4.根据肤色模型获取手势目标前后两个状态的手势频率，将手势频率与预设手势状态匹配，以获取手势转换的状态，并输出。

在本实施例中，手势检测识别方法可在检测到的手势目标区域，基于像素分布进行实时的肤色建模，以实现在特定场景下提取肤色，可在光照剧烈变化后逐步消除其产生的影响，从而实现提取手势转换状态的目的。手势检测识别方法可应用于在机器人系统中，机器人可在各种光照条件，包括偏光或者无补偿光源的情况采集视野中任意位置出现的各种姿势的手势，可实时获取手势转换状态。

在建立肤色模型的过程中可将检测出的手势目标区域图像色彩空间转为YUV(YUV是被欧洲电视系统所采用的一种颜色编码方法(属于PAL)，是PAL(帕尔制)和SECAM(塞康制)模拟彩色电视制式采用的颜色空间)空间，去除Y分量来消除光照影响。由于在此区域内肤色像素呈高斯分布，计算得到该区域UV值的均值和方差来更新总体肤色的均值方差，便可以实时建立肤色模型，去除背景，提高准确率。

在优选的实施例中，在执行步骤A2之前，对图像进行预处理。

在本实施例中的预处理可采用直方图均衡化的方式，通过使用累积函数对灰度值进行“调整”以实现对比度的增强，从而消除光照影响，增加了象素灰度值的动态范围从而可达到增强图像整体对比度的效果。

在优选的实施例中，每个分类器均通过一预设滑动窗口对图像进行多尺度目标检测，以获取手势目标。

分类器采用了Adaboost算法进行训练。Adaboost是一种迭代算法，主要思想是对一个训练集训练出多个不同的弱分类器(Weak Classifier)，再将这些弱分类器联合起来，组合成一个强分类器。它根据每次训练集中每个样本分类是否正确以及上次总体分类的正确率来确定每个样本的权值，下层分类器就根据这些新权值的数据集进行训练。最后获得的级联分类器就是将每次训练得到的分类器加权组合而成。

进一步地，分类器可采用LBP特征(Local Binary Pattern，局部二值模式)进行训练。LBP特征是一种用来描述图像局部纹理特征的算子，它具有旋转不变性和灰度不变性等显著的优点。

在本实施例中采用和训练图像大小相同的滑动窗口对图像进行多尺度目标检测。

在优选的实施例中，获取手势目标后将窗口扩大4倍对手势目标进行检测。

由于在每帧图像之间手部运动变化距离并不大，为了提高速度，每当检测到手势目标后，可通过扩大检测窗口作为下一帧手势目标存在位置的预判，下一帧输入图像只取此窗口图像部分，以提高检测速度。

进一步地，可将原窗口的长度与宽度各扩大2倍的。

在优选的实施例中，分类器采用级连分类器。

在本实施例中采用级连分类器能够检测光线、拍摄角度、大小、肤色不同的手势，识别正确率可达到90％以上，准确性高。

如图1所示，一种手势检测识别系统，包括：

采集单元1，用以采集图像；

存储单元2，连接采集单元1，用以存储图像；

复数个用于检测不同手势的分类器3，分别连接存储单元2，用以在预设顺序下采用隔帧交替的方式对每一帧图像进行检测，以获取手势目标；

肤色建模单元4，连接存储单元2，用以基于手势目标区域的像素分布建立肤色模型；

决策单元5，分别连接复数个分类器3和肤色建模单元4，根据肤色模型获取手势目标前后两个状态的手势频率，将手势频率与预设手势状态匹配，以获取手势转换的状态，并输出。

在本实施例中，手势检测识别系统中的分类器3能够检测光线、拍摄角度、大小、肤色不同的手势，且识别正确率可达到90％以上，准确性高。

肤色建模单元4可根据检测到的手势目标区域，基于像素分布进行实时的肤色建模，可以针对特定场景提取肤色，并且在光照剧烈变化后逐步消除其产生的影响。肤色建模单元4可将检测出的手势目标区域图像色彩空间转为YUV空间，去除Y分量来消除光照影响。由于在此区域内肤色像素呈高斯分布，计算得到该区域UV值的均值和方差来更新总体肤色的均值方差，便可以实时建立肤色模型，去除背景，提高准确率。

在优选的实施例中，采集单元1采用摄像机。

进一步地，摄像机可采用采集速度为30帧/秒的高清摄像头。

在优选的实施例中，分类器3采用级连分类器。

在本实施例中采用级连分类器3能够检测光线、拍摄角度、大小、肤色不同的手势，识别正确率可达到90％以上，准确性高。

在优选的实施例中，分类器3均通过一预设滑动窗口对图像进行多尺度目标检测，以获取手势目标。

分类器3采用了Adaboost算法进行训练。Adaboost是一种迭代算法，主要思想是对一个训练集训练出多个不同的弱分类器(Weak Classifier)，再将这些弱分类器联合起来，组合成一个强分类器。它根据每次训练集中每个样本分类是否正确以及上次总体分类的正确率来确定每个样本的权值，下层分类器就根据这些新权值的数据集进行训练。最后获得的级联分类器就是将每次训练得到的分类器加权组合而成。

进一步地，分类器3可采用LBP特征(Local Binary Pattern，局部二值模式)进行训练。LBP特征是一种用来描述图像局部纹理特征的算子，它具有旋转不变性和灰度不变性等显著的优点。

在优选的实施例中，分类器3获取手势目标后将窗口扩大4倍对手势目标进行检测。

进一步地，可将原窗口的长度与宽度各扩大2倍的。

对于不同的手势，可训练出相应手势对应的分类器。以特定的拳-掌训练出了对应的拳分类器和掌分类器为例进行手势检测识别：为了提高计算速度，可采用隔帧交替的方式采用不同分类器的方法进行手势的检测，在实际生活中，手势可以在一定时间内是恒定的，因此在某帧使用其中一个分类器检测到手势，若下一帧另一个分类器未检测到时，可以假设之前的手势状态依旧存在。为了识别状态改变，假设了手势频率F(gesture)＝手势存在时间/检测时间，它可以平滑误检，减少对状态识别的干扰。理想条件下，拳-掌和掌-拳关于手势频率的变化应该符合图2所示，二者的交点即为手势状态改变。实际应用中：当检测出某个手势存在之后，选择其附近区域作为下一帧的检测窗口，以提高检测速度并且降低误检率。为了对手势变化作出快速响应，在计算手势频率F时使用了一个较短的滑动窗口，其长度与手势变化时间相关。由于两个频率f1，f2交点的横坐标并不一定是整数，因此设立一个阈值T，当f1与f2的绝对差值在阈值T范围内，则认为发生了一次状态改变。此阈值T对响应速度以及准确率有较大影响。通过观察频率曲线可以得知，从状态B变为状态C时，f1下降，f2上升。因此根据计算得到的两个手势频率可以判断出，此变化是拳-掌还是掌-拳。

在手势检测识别过程中：拳-掌，掌-拳的改变通常发生在0.5秒之内，因此可选择长度为15帧的滑动窗口。通过隔帧交替使用分类器、缩小检测范围的方式可提高检测识别速度同时降低误检率，采用定义的频率函数平滑误检噪声，通过频率的变化识别出对应的状态改变，且识别快速准确，响应速度可保持在100ms以内。

于上述技术方案基础上，进一步的，如图3所示，可将手势检测识别技术应用于手势音乐控制中，可采用一高清摄像头，通过MIPI或者USB接口连接到机器人的嵌入式系统，机器人嵌入式计算系统可包含硬件和软件运行环境，系统中包括影像采集单元、手势检测识别单元和音乐播放单元。

手势音乐控制系统的具体控制过程为：机器人播放音乐的同时请求到影像采集单元，驱动软件接受请求，将摄像头采集到的影像传送给手势检测识别单元，用于检测并确定具体手势，计算后将结果发送给音乐播放单元，音乐播放单元得到结果后执行预先指定的对应命令。如：用户发出握拳(掌-拳)的操作，音乐暂停；用户发出伸开五指(拳-掌)的操作，音乐继续。

本发明的优点有：现有的识别技术采用的预先建立肤色模型对某些特定场景并不适用，而本发明采用的实时建立肤色模型能够适用于当时场景，并且能够消除光照剧烈变化的影响；本技术方案可嵌入于机器人系统中，因此采用的是LBP特征，它是整数运算，相比方向梯度直方图(Histogram of Oriented Gradient，HOG)，极大降低运算量，使得系统计算更加快速；本发明在前一帧的基础上进行手势目标区域的位置预判从而减少图像区域大小，能够极大的提升运行速度，消除部分背景影响，降低误检率；通过隔帧使用不同手势分类器可以提高检测速度；通过手势频率来平滑误检噪声，使用一个较短的滑动窗口对手势的状态变化作出实时响应。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

一种手势检测识别方法，其特征在于，包括下述步骤：

A1.采集图像，并存储；

A2.采用预设的多个用于检测不同手势的分类器按照预设顺序依据隔帧交替的方式对每一帧所述图像进行检测，以获取手势目标；

A3.基于所述手势目标区域的像素分布建立肤色模型；

A4.根据肤色模型获取所述手势目标前后两个状态的所述手势频率，将所述手势频率与预设手势状态匹配，以获取手势转换的状态，并输出。
如权利要求1所述手势检测识别方法，其特征在于，在执行所述步骤A2之前，对所述图像进行预处理。
如权利要求1所述手势检测识别方法，其特征在于，每个所述分类器均通过一预设滑动窗口对所述图像进行多尺度目标检测，以获取所述手势目标。
如权利要求3所述手势检测识别方法，其特征在于，获取所述手势目标后将所述窗口扩大4倍对所述手势目标进行检测。
如权利要求1所述手势检测识别方法，其特征在于，所述分类器采用级连分类器。
一种手势检测识别系统，其特征在于，包括：

采集单元，用以采集图像；

存储单元，连接所述采集单元，用以存储所述图像；

复数个用于检测不同手势的分类器，分别连接所述存储单元，用以在预设顺序下采用隔帧交替的方式对每一帧所述图像进行检测，以获取手势目标；

肤色建模单元，连接所述存储单元，用以基于所述手势目标区域的像素分布建立肤色模型；

决策单元，分别连接复数个所述分类器和所述肤色建模单元，根据肤色模型获取所述手势目标前后两个状态的所述手势频率，将所述手势频率与预设手势状态匹配，以获取手势转换的状态，并输出。
如权利要求6所述手势检测识别系统，其特征在于，所述采集单元采用摄像机。
如权利要求6所述手势检测识别系统，其特征在于，所述分类器采用级连分类器。
如权利要求6所述手势检测识别系统，其特征在于，所述分类器均通过一预设滑动窗口对所述图像进行多尺度目标检测，以获取所述手势目标。
如权利要求9所述手势检测识别系统，其特征在于，所述分类器获取所述手势目标后将所述窗口扩大4倍对所述手势目标进行检测。