WO2019023921A1

WO2019023921A1 - 一种手势识别方法、装置及设备

Info

Publication number: WO2019023921A1
Application number: PCT/CN2017/095388
Authority: WO
Inventors: 王亮; 许松岑; 刘传建; 何俊
Original assignee: 华为技术有限公司
Priority date: 2017-08-01
Filing date: 2017-08-01
Publication date: 2019-02-07
Also published as: EP3651055A1; KR102364993B1; BR112020001729A2; KR20200036002A; US20200167554A1; EP3651055A4; BR112020001729A8; CN110959160A; US11450146B2

Abstract

本申请提供了一种手势识别方法，涉及人机交互技术领域，所述方法包括：从视频流中的第一视频段中提取出的M幅图像；通过深度学习算法对该M幅图像进行手势识别，获得该第一视频段对应的手势识别结果，对包含第一视频段在内的连续N个视频段的手势识别结果进行结果融合，获得融合后的手势识别结果。在上述识别过程中，不需要对视频流中的手势进行分割和跟踪，而是通过计算速度较快的深度学习算法来识别各个阶段动作，再将各个阶段动作融合，从而达到提高手势识别的速度，降低手势识别的延迟的效果。

Description

一种手势识别方法、装置及设备

技术领域

本申请涉及人机交互技术领域，特别涉及一种手势识别方法、装置及设备。

背景技术

手势输入是实现自然、直接人机交互不可缺少的关键技术。基于计算机视觉的手势识别方法以其不依赖于设备，更自然的人机交互效果，更好的沉浸感成为当今研究的热点。

在相关技术中，基于计算机视觉的手势识别方案如下：首先通过摄像头拍摄手势图像视频流，并将视频流转化为图像帧；接着根据特定的图像跟踪算法从图像帧中分割并跟踪提取出手势的形状、特征以及位置信息，最后根据提取出的手势的形状、特征以及位置信息，结合预先建立的分类准则对手势进行识别。

在相关技术中，从图像帧中提取手势的形状、特征以及位置信息时，需要对图像中的手势进行分割和跟踪，而分割和跟踪的过程需要消耗较多的处理时间，延时过大。

发明内容

为了降低手势识别的延时，本申请的实施例提供了一种手势识别方法、装置及设备。

第一方面，提供了一种手势识别方法，所述方法包括：获取M幅图像，所述M幅图像是从视频流中的第一视频段中提取出的，其中，所述第一视频段是所述视频流中任意一个视频段，M为大于或等于2的整数；通过深度学习算法对所述M幅图像进行手势识别，获得所述第一视频段对应的手势识别结果；在获得所述视频流中包含所述第一视频段在内的连续N个视频段的手势识别结果后，对所述连续N个视频段的手势识别结果进行结果融合，获得融合后的手势识别结果；N≥2，且N为整数。

在上述手势识别方法中，针对视频流中的每一个视频段，获取该视频段中的M幅图像，并通过深度学习算法对该M幅图像进行手势识别，以获得该视频段对应的手势识别结果，最后将该视频段在内的连续N个视频段的手势识别结果进行融合，获得对该连续N个视频段的的手势识别结果，即在上述识别过程中，不需要对视频流中的手势进行分割和跟踪，而是通过计算速度较快的深度学习算法来识别各个阶段动作，并将各个阶段动作进行融合，从而达到提高手势识别的速度，降低手势识别的延迟的效果。

在一种可能的实现方案中，所述对所述连续N个视频段的手势识别结果进行结果融合，获得融合后的手势识别结果，包括：

将所述连续N个视频段的手势识别结果输入预先训练的第一机器学习模型，获得所述融合后的手势识别结果，所述第一机器学习模型用于确定输入的连续N个手势识别结果所构成的整体手势运动趋势，并将所述整体手势运动趋势对应的手势输出为所述融合后的手势识别结果。

在实际应用中，用户在执行某个手势操作时，可能在一个手势操作的过程中，短时间内做出不符合当前手势操作的手势动作，而通过上述可能的实现方案，在识别出各个视频段的手势识别结果后，可以根据连续多个视频段的手势识别结果所指示的手势运动趋势获得最终的手势识别结果，消除用户在短时间内的错误手势对最终获得的手势识别结果的影响，从而提高手势识别的准确度。

在一种可能的实现方案中，所述第一机器学习模型为神经网络模型，且所述神经网络模型的神经元数量为N；或者，所述第一机器学习模型为支持向量机SVM模型。

获取预先设置的，所述连续N个视频段的手势识别结果各自对应的权重系数；

根据所述连续N个视频段的手势识别结果各自对应的权重系数，对所述连续N个视频段的手势识别结果进行加权平均，获得所述融合后的手势识别结果。

通过上述可能的实现方案，在识别出各个视频段的手势识别结果后，可以根据预先设置的权重对连续多个视频段的手势识别结果进行加权平均，以减弱用户在短时间内的错误手势对最终获得的手势识别结果的影响，从而提高手势识别的准确度。

在一种可能的实现方案中，所述通过深度学习算法对所述M幅图像进行手势识别，获得所述第一视频段对应的手势识别结果，包括：

对所述M幅图像进行图像处理，获得所述第一视频段对应的光流信息图像，所述光流信息图像包含所述M幅图像中的第一图像与所述第一图像之前的第p幅图像之间的光流信息，所述第一图像是所述M幅图像中的任意一幅，所述光流信息包含图像中的像素点的瞬时速度矢量信息，并通过第一深度学习算法对所述光流信息图像进行手势识别，获得第一识别结果，p为大于或等于1的整数；对所述M幅图像进行图像处理，获得所述第一视频段对应的彩色信息图像，所述彩色信息图像包含所述M幅图像的彩色信息，所述彩色信息包含图像中的各个像素点的色值，并通过第二深度学习算法对所述彩色信息图像进行手势识别，获得第二识别结果；对所述第一识别结果和所述第二识别结果进行融合，获得所述第一视频段的手势识别结果。

上述可能的实现方案根据M幅图像提取视频段的光流信息和彩色信息，并根据提取的光流信息和彩色信息分别进行手势识别，再将分别识别出的手势识别结果进行融合，改善了通过单一的深度学习算法识别出的手势不准确的问题，以提高对视频段的手势识别结果的准确性。

在一种可能的实现方案中，所述对所述M幅图像进行图像处理，获得所述第一视频段对应的光流信息图像，包括：

对于所述第一图像，按预设规则获取所述视频流中处于所述第一图像之前的第p幅图像；计算所述第一图像与所述第p幅图像之间的光流信息，并生成包含所述第一图像与所述第p幅图像之间的光流信息的光流信息图像；其中，所述第一图像与所述第p幅图像之间的时间间隔不小于所述第一深度学习算法的前向计算时间以及计算所述光流信息图像所需的时间；

或者，

对于所述第一图像，按预设规则获取所述视频流中处于所述第一图像之前的全部p幅图像；计算所述第一图像以及所述M幅图像中每相邻两幅图像之间的光流信息，将所述每相邻两幅图像之间的光流信息进行累加后，生成包含累加后的光流信息的光流信息图像；其中，所述第一图像与所述第一图像之前的第p幅图像之间的时间间隔不小于所述第一深度学习算法的前向计算时间以及计算所述光流信息图像所需的时间。

在上述可能的实现方案中，根据当前获取到的图像，以及当前图像之前的p幅图像，即可以获得当前图像与当前图像之前的第p幅图像之间的光流信息图像，以便后续通过深度学习算法对光流信息图像进行手势识别，不需要对图像中的手势进行分割和跟踪，从而简化了手势识别结果的处理过程，提高手势识别的速度，降低了手势识别的延迟。

在上述可能的实现方案中，所述对所述M幅图像进行图像处理，获得所述第一视频段对应的彩色信息图像，包括：

提取所述M幅图像中的m幅图像的彩色信息，根据提取到的彩色信息生成所述m幅图像各自对应的彩色信息图像，将所述m幅图像各自对应的彩色信息图像获取为所述第一视频段对应的彩色信息图像；所述m幅图像是所述M幅图像中随机的m幅图像，或者，所述m幅图像是所述M幅图像中，相对于各自在视频流中的前一幅图像变化最大的m幅图像，m为大于或等于1的整数；

或者，检测所述M幅图像中图像内容随时间变化的像素位置，计算所述M幅图像中对应识别出的像素位置处的彩色信息的平均值，获得所述识别出的像素位置处的新的彩色信息，根据所述识别出的像素位置处的新的彩色信息生成所述第一视频段对应的彩色信息图像。

在一种可能的实现方案中，所述获取M幅图像之前，所述方法还包括：

确定所述视频流中的一个预设时间长度的时间窗，所述时间窗的结束时刻处于所述第一视频段对应的时间段内；根据所述时间窗内的最后一幅图像以及至少一幅参考图像，判断所述第一视频段中是否有动作发生，所述至少一幅参考图像是所述时间窗内除了所述最后一幅图像之外的其它任意一幅图像；若判断结果为所述第一视频段中有动作发生，则执行所述获取M幅图像的步骤。

由于手势操作必然会涉及到手势动作，因此，通过上述可能的实现方案，在对视频段进行手势识别之前，首选通过视频段内的图像与该图像之前的至少一幅图像来判断该视频段内是否有动作发生，并在判断出有动作发生时，才执行后续的识别操作，从而减少了不必要的识别步骤，节约计算资源，同时提高识别效率。

在一种可能的实现方案中，所述根据所述时间窗内的最后一幅图像以及所述至少一幅参考图像，判断所述第一视频段中是否有动作发生，包括：

针对所述至少一幅参考图像中的每一幅参考图像，计算所述最后一幅图像的偏导图像，所述偏导图像中的每个像素的值，是所述最后一幅图像中对应像素的值相对于所述参考图像中对应像素的值的偏导；对所述偏导图像中的各个像素的值进行归一化处理，获得归一化之后的偏导图像；根据预设的二值化阈值，对所述归一化之后的偏导图像进行二值化处理，获得所述偏导图像的二值化图像，所述二值化图像中的各个像素的值为0或1；计算所述二值化图像中各个像素的灰度值之和；当所述灰度值之和大于0时，确定所述第一视频段中有动作发生。

在一种可能的实现方案中，所述对所述第一识别结果和所述第二识别结果进行融合，获得所述第一视频段的手势识别结果，包括：

对所述第一识别结果和所述第二识别结果进行平均值计算，根据所述平均值计算的计算结果获得所述第一视频段的手势识别结果；或者，将所述第一识别结果和所述第二识别结果输入预先训练的第二机器学习模型，以获得所述第一视频段的手势识别结果。

第二方面，提供了一种手势识别装置，该装置具有实现上述第一方面及第一方面的可能的实现方案所提供的手势识别方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多于一个与上述功能相对应的单元。

第三方面，提供了一种手势识别设备，该设备包括：处理器和存储器；该设备中的处理器，通过执行存储器中存储的程序或指令以实现上述第一方面及第一方面的可能的实现方案所提供的手势识别方法。

第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有可执行程序，该可执行程序由处理器执行以实现上述第一方面及第一方面的可能的实现方案所提供的手势识别方法。

附图说明

图1是本申请涉及的一种手势识别系统的架构图；

图2是图1所示实施例涉及的一种手势识别示意图；

图3是本申请一个示例性实施例提供的手势识别方法的方法流程图；

图4是图3所示实施例涉及的两种时间窗跨度示意图；

图5是图3所示实施例涉及的一种通过识别结果融合示意图；

图6是图3所示实施例涉及的一种手势识别的流程示意图；

图7是本申请一个示例性实施例提供的一种手势识别设备的结构示意图；

图8是本申请一个示例性实施例提供的一种手势识别装置的结构方框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请实施例涉及的一种手势识别系统的系统架构图。该手势识别系统可以包括以下设备：图像采集设备110以及手势识别设备120。

图像采集设备110可以是摄像头。比如，该图像采集设备110可以是单个摄像头，或者，该图像采集设备110也可以是由两个或两个以上的摄像头组成的摄像模组。

图像采集设备110可以固定设置，或者，图像采集设备110也可以集成有伺服电机，该伺服电机可以在手势识别设备的控制下，带动图像采集设备110转动或移动，以改变图像采集设备110的拍摄角度或拍摄位置。

手势识别设备120可以是通用计算机，或者，手势识别设备也可以是嵌入式计算设备。

其中，图像采集设备110和手势识别设备120可以是相互独立的设备，且图像采集设备110和手势识别设备120之间通过有线或者无线网络相连。

或者，图像采集设备110和手势识别设备120也可以集成在同一个实体设备中，且图像采集设备110和手势识别设备120之间用过通信总线相连。

可选的，手势识别设备120在识别出视频流中的手势之后，将识别出的手势传输给控制设备130，由控制设备130根据识别出的手势确定相应的控制指令，根据确定出的控制指令执行相应的控制操作，比如，根据控制指令控制图形显示，或者，根据控制指令控制被控设备执行某项操作等等。

在本申请实施例中，图像采集设备110将采集到的视频流传输给手势识别设备120，由手势识别设备120对视频流进行图像分析和手势识别，以即时识别视频流中的手势。请参考图2，其示出了本申请实施例涉及的一种手势识别示意图。如图2所示，在进行手势识别时，手势识别设备120可以从视频流的一个视频段中提取M幅图像(其中，M为大于或等于2的整数)，手势识别设备120，通过深度学习算法对该M幅图像进行手势识别，获得该视频段对应的手势识别结果，在获得该视频流中包含该视频段在内的连续N个视频段的手势识别结果后，对该连续N个视频段的手势识别结果进行结果融合，获得融合后的手势识别结果。

即在本申请实施例所示的方案中，将一个完整的手势动作划分为多个阶段动作，通过深度学习算法来识别每一个阶段动作，最后将识别出的各个阶段动作融合为完整的手势动作，在识别过程中，不需要对视频流中的手势进行分割和跟踪，而是通过计算速度较快的深度学习算法来识别各个阶段动作，从而达到提高手势识别的速度，降低手势识别的延迟的效果。

以上述深度学习算法是基于光流信息和彩色信息的双通道深度学习算法为例，请参考图3，其是本申请一个示例性实施例提供的手势识别方法的方法流程图。如图3所示，该手势识别方法可以包括如下步骤：

步骤301，对于视频流中的第一视频段，确定视频流中的一个预设时间长度的时间窗，该时间窗的结束时刻处于该第一视频段对应的时间段内。

第一视频段是该视频流中任意一个视频段，在本申请实施例中，手势识别设备可以将视频流划分为首尾相连的若干个视频段，并针对每个视频段分别进行手势识别。

视频流由一系列对应不同时间点的视频图像组成，在本申请实施例中，上述时间窗可以是两个不同的视频图像对应的时间点之间的时间窗，即视频流在该时间窗内的第一幅图像对应的时间点与该时间窗内的最后一幅图像对应的时间点之间的时间长度为上述预设时间长度。

上述时间窗内的最后一幅图像是待识别的第一视频段中的一幅图像，而视频流在该时间窗内的其它图像可以是该第一视频段内的图像，也可以是该视频流中处于该第一视频段之前的图像。

比如，请参考图4，其示出了本申请实施例涉及的两种时间窗跨度示意图，在图4中，时间窗的起始时刻为t₁，结束时刻为t₂，而第一视频段的起始时刻为t₃，结束时刻为t₄。

如图4(a)所示，在一种可能的实现方式中，t₁和t₂处于t₃和t₄之间，即上述时间窗完全处于上述第一视频段之内。

如图4(b)所示，在另一种可能的实现方式中，t₂处于t₃和t₄之间，而t₁处于t₃之前，即上述时间窗部分处于上述第一视频段之内，另一部分处于上述第一视频段之前。

此外，上述预设时间长度可以由为开发人员预先设置在手势识别设备中。

步骤302，根据该时间窗内的最后一幅图像以及至少一幅参考图像，判断该第一视频段中是否有动作发生；若是，进入步骤303，否则，返回步骤301，确定下一个预设时间长度的时间窗。

该至少一幅参考图像是该时间窗内除了最后一幅图像之外的其它任意一幅图像。

在本申请实施例中，手势识别设备根据视频流在该时间窗内的最后一幅图像，以及视频流在该时间窗内的其它至少一幅图像之间的差异，来判断该第一视频段中是否有动作发生。

在实际应用中，上述根据该时间窗内的最后一幅图像，以及该时间窗内其它至少一幅图像，判断该第一视频段中是否有动作发生的步骤可以分为如下几个子步骤：

步骤302a，针对该至少一幅参考图像中的每一幅参考图像，计算该最后一幅图像的偏导图像，该偏导图像中的每个像素的值，是该最后一幅图像中对应像素的值相对于该参考图像中对应像素的值的偏导。

在本申请实施例，可以定义输入的视频流中的图像为f(x,y,t)，其中x是图像的水平分量，y是图像的竖直分量；t代表时间t＝1,2,…,t₀,…。输入的视频流的两帧图像f(x,y,t₀)，f(x,y,t₀-q)，对于相邻两帧图像，q＝1。

定义：在时间t₀的一帧图像为f(x,y,t₀),其中，t₀时刻的图像为上述时间窗中的最后一幅图像，则其前q时刻的图像为f(x,y,t₀-q)，手势识别设备计算视频流关于时间t在t₀时刻相对于t₀-q时刻的偏导：

步骤302b，对该偏导图像中的各个像素的值进行归一化处理，获得归一化之后的偏导图像。

手势识别设备可以将g(x,y,t₀)归一化至范围[a,b]，例如，归一化范围选择[a,b]＝[0,1]。即手势识别设备对g(x,y,t₀)中的每个像素的值分别归一化至[0,1]区间内的某个值。

步骤302c，根据预设的二值化阈值，对该归一化之后的偏导图像进行二值化处理，获得该偏导图像的二值化图像，该二值化图像中的各个像素的值为0或1。

在本申请实施例中，在获得归一化之后的偏导图像后，可以根据归一化之后的偏导图像中每个像素的值与预设的二值化阈值之间的大小关系，对归一化之后的偏导图像进行二值化处理，将归一化之后的偏导图像中每个像素的值二值化为0或者1，其二值化的公式如下：

在上述公式2中，Z为预设的二值化阈值，对于归一化之后的偏导图像g_b(x,y,t₀)中的像素的值，当该像素的值大于Z时，将该像素的值二值化为1，当该像素的值小于或者等于T时，将该像素的值二值化为0。

其中，上述预设的二值化阈值为预先设置的，处于(0，1)之间的某一个数值，比如，该预设的二值化阈值可以为0.5，或者，该预设的二值化阈值也可以为0.4或者0.6等等。该二值化阈值可以由开发人员根据实际处理效果预先设定。

步骤302d，计算该二值化图像中各个像素的灰度值之和。

步骤302e，当该灰度值之和大于0时，确定该第一视频段中有动作发生。

在本申请实施例中，手势识别设备在获得二值化图像g_b(x,y,t₀)之后，计算g_b(x,y,t₀)灰度值总和Sum(t₀),当总和Sum(t₀)大于0，即可以确定该第一视频段中有动作发生。否则认为该第一视频段中“无动作”。其公式如下：

Sum(t₀)＝∑_(x,y)g_b(x,y,t₀) ⑶

if Sum(t₀)＞0，则判断有动作发生，进入步骤303；if Sum(t₀)≤0，则判断没有动作发生，返回步骤301。

步骤303，获取M幅图像，该M幅图像是从该第一视频段中提取出的M幅图像。

当上述步骤302中判断出第一视频段内有动作发生时，手势识别设备可以从该第一视频段中提取出M幅图像，M为大于或等于2的整数。

在实际应用中，手势识别设备可以提取出该第一视频段中的每一幅图像，获得该M幅图像。或者，手势识别设备也可以在第一视频段中每隔一幅或多幅图像提取出一幅图像，以获得M幅图像。

步骤304，对该M幅图像进行图像处理，获得该第一视频段对应的光流信息图像。

上述光流信息图像包含M幅图像中的第一图像与该第一图像之前的第p幅图像之间的光流信息，该第一图像是该M幅图像中的任意一幅，该光流信息包含图像中的像素点的瞬时速度矢量信息，p为大于或等于1的整数。

其中，光流是空间运动物体在观察成像平面上的像素运动的瞬时速度，手势识别设备可以利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到之前一幅图像与当前图像之间存在的对应关系，从而计算出前后两幅图像之间物体的运动信息，该计算出的前后两幅图像之间物体的运动信息就是这两幅图像之间的光流信息。上述计算前后两幅图像之间物体的运动信息的方法称为光流法。其中，光流信息也称为光流场(optical flow field)，是指图像灰度模式的表观运动，其是一个二维矢量场，它包含的信息即是各像点的瞬时运动速度矢量信息，因此，光流信息可以表现为一个与元图像大小相同的双通道图像。

在提取光流信息图像时，手势识别设备可以利用第一视频段内的RGB图像序列，获得一个光流信息图像(不论第一视频段内包含多少个帧)。在本申请实施例中，获得该第一视频段对应的光流信息图像的方式可以由如下两种：

一、对于该M幅图像中的第一图像，按预设规则获取该视频流中处于该第一图像之前的第p幅图像；计算第一图像与该第p幅图像之间的光流信息，并生成包含所述第一图像与所述第p幅图像之间的光流信息的光流信息图像。

其中，该第一图像与该第p幅图像之间的时间间隔不小于第一深度学习算法的前向计算时间以及计算光流信息图像所需的时间。其中，该第一深度学习算法是手势识别设备后续根据光流信息图像识别手势所使用的算法。

其中，上述预设规则可以是开发人员或者用户自行设置的规则，比如，开发人员或者用户可以人工设置上述p的数值。或者，手势识别设备也可以按照预设规则，根据设备的处理性能自行设置上述p的数值；比如，手势识别设备可以预先运行一次第一深度学习算法的前向计算以及光流信息图像的计算，并记录该前向计算时间和计算光流信息图像的时间，并根据前向计算时间、计算光流信息图像的时间以及视频流的帧率(即每秒钟的视频中包含多少幅图像)来设置p的数值，具体比如，手势识别设备可以确定上述前向计算时间和计算光流信息图像的时间中的较大值对应在视频流中的图像数量，并将确定出的图像数量对应的数值设置为p的数值。

对于实时视频，假设T是某一幅图像与该幅图像之前的第p幅图像之间的时间间隔，则T的最小值可以是手势识别设备通过光流信息图像进行手势识别的深度学习网络前向计算所需要的时间和手势识别设备计算光流信息图像所需的时间这两者中的较大值。

假设OF[·]代表光流算法，在一种可能的实现方式中，手势识别设备可以通过欧拉光流场(Eulerian motion field)算法，根据p幅图像中的一幅图像I_t(x,y)，以及I_t(x,y)之前的第p幅图像I_t-T(x,y)，直接计算获得该M幅图像中的一幅图像对应的光流信息，并生成包含计算出的光流信息的光流信息图像，并将该光流信息图像作为该第一视频段对应的光流信息图像。其计算公式可以简单表示如下：

U_t(x,y)＝OF[I_t-T(x,y),I_t(x,y)] ⑷

其中，在上述公式(4)中，U_t(x,y)为图像I_t(x,y)对应的光流信息图像。OF[·]代表上述欧拉光流场算法。

二、对于该M幅图像中的第一图像，按预设规则获取该视频流中处于第一图像之前的全部p幅图像；计算第一图像以及该p幅图像中每相邻两幅图像之间的光流信息，将每相邻两幅图像之间的光流信息进行累加后，生成包含累加后的光流信息的光流信息图像。

在另一种可能的实现方式中，手势识别设备可以通过拉格朗日光流场(Lagrangian motion field)算法，计算M幅图像中的一幅图像I_t(x,y)，以及I_t(x,y)之前的p幅图像I_t-1(x,y)，I_t-2(x,y)，……，I_t-T(x,y)中的每两个临近图像之间的光流信息，然后累加每两个临近图像之间的光流信息，生成包含累加后的光流信息的图像U_t(x,y)。其中，累加光流信息的过程中涉及到缺失数据插补，可以选线性(linear)，双线性(bilinear)，三次曲线(cubic)等插补方式。

其计算公式可以简单表示如下：

其中，在上述公式(4)中，U_t(x,y)为图像I_t(x,y)对应的光流信息图像。OF[·]代表上述拉格朗日光流场算法。

对于方式一，只需要计算一次光流场,因此需要选择较准确的光流场算法。对于方式二，需要计算多次光流场，允许使用准确性低但速度快的光流场算法。

步骤305，对该M幅图像进行图像处理，获得该第一视频段对应的彩色信息图像。

其中，上述彩色信息图像包含该M幅图像的彩色信息。其中，彩色信息包含图像中的各个像素点的彩色色值。

手势识别设备处理第一视频段内的图像序列，输出m幅彩色信息图像，比如RGB(red green blue，红绿蓝)图像，来代表该第一视频段对应的彩色信息图像，m为大于或等于1的整数。假设输入第一视频段内的所有图像I_t-T(x,y),I_t-T+1(x,y)，…,I_t-1(x,y),I_t(x,y)，而输出的则是在该视频段的结束时刻，用m幅图像

来代表该第一视频段内的图像的彩色信息。

其中，在对该M幅图像进行图像处理，获得该第一视频段对应的彩色信息图像时，手势识别设备可以通过以下方法获得彩色信息图像：

1)提取该M幅图像中的m幅图像的彩色信息，根据提取到的彩色信息生成该m幅图像各自对应的彩色信息图像，将该m幅图像各自对应的彩色信息图像获取为该第一视频段对应的彩色信息图像。比如，手势识别设备提取到m幅图像中的任意一幅图像的彩色信息后，即生成对应于该任意一幅图像的彩色信息图像，且生成的该彩色信息图像包含该任意一幅图像的彩色信息。

其中，该m幅图像是该M幅图像中随机的m幅图像。比如，以获取单幅彩色信息图像为例，在本申请实施例中，当第一视频段的时间长度比较小时，可以直接从第一视频段内随机选择一幅图像对应的彩色信息图像来表示

即：

其中，t-T为第一视频段内的第一幅图像对应的时间点，t为第一视频段内的最后一幅图像对应的时间点。

可选的，除了随机选择m幅图像的彩色信息图像作为第一视频段对应的彩色信息图像之外，手势识别设备还可以通过其它策略选择出m幅图像的彩色信息图像作为第一视频段对应的彩色信息图像。比如，手势识别设备可以将上述M幅图像中，对应时间处于最前或最后的m幅图像的彩色信息图像作为第一视频段对应的彩色信息图像。

在另一种可能的实现方式中，该m幅图像可以是该M幅图像中，相对于各自在视频流中的前一幅图像变化最大的m幅图像。

比如，针对M幅图像中的每一幅图像，手势识别设备可以检测该图像中，与视频流中处于该图像之前的一幅图像相比发生变化的像素；手势识别设备可以将该M幅图像中，相对于各自的前一幅图像发生变化的像素数量最多的m幅图像对应的彩色信息图像获取为该第一视频段对应的彩色信息图像。

2)检测该M幅图像中图像内容随时间变化的像素位置，计算该M幅图像中对应识别出的像素位置处的彩色信息的平均值，获得该识别出的像素位置处的新的彩色信息，根据识别出的像素位置处的新的彩色信息生成该第一视频段对应的彩色信息图像。

在本申请实施例中，手势识别设备还可以将该M幅图像中相同位置的像素点进行比对，以识别出该M幅图像中图像内容随时间变化而改变的像素位置(像素位置可以是像素点在图像中的坐标)，并对该M幅图像中对应识别出的像素位置处的像素点的彩色信息取平均值，获得对应识别出的像素位置处的新的彩色信息，并生成新的彩色信息图像，其中，新的彩色信息图像中，对应上述识别出的像素位置处的彩色信息为上述取平均值获得的新的彩色信息。

其中，上述检测图像中与前一幅图像相比发生变化的像素的算法，以及检测图像中随时间变化而改变的像素位置的算法，可以统称为时空显著性图像检测算法。

3)提取该M幅图像中的全部或部分图像的彩色信息，获得该全部或部分图像各自对应的彩色信息图像，计算该全部或部分图像各自对应的彩色信息图像中，各个像素处的彩色信息的平均值，获得该第一视频段对应的彩色信息图像。

比如，以上述M幅图像为是频段内的全部图像，且获取单幅彩色信息图像为例，将第一视频段内的各个图像的彩色信息的平均值作为第一视频段的彩色信息图像的计算公式可以如下：

其中，t-T为第一视频段内的第一幅图像对应的时间点，t为第一视频段内的最后一幅图像对应的时间点；n为第一视频段内的图像的数量。

4)提取该M幅图像中的全部或部分图像的彩色信息，生成该全部或部分图像各自对应的彩色信息图像，计算该全部或部分图像各自对应的彩色信息图像中，各个像素处的彩色信息的平均值，再将该全部或部分图像各自对应的彩色信息图像中的各个像素的彩色信息减去上述计算出的各个像素处的彩色信息后，将获得的彩色信息图像作为该第一视频段对应的彩色信息图像。

由于在上述M幅图像中，发生变化的像素通常是图像中的前景部分(即对应人手的部分)，而背景部分对应的像素通常是不变的，因此，在上述全部或部分图像各自对应的彩色信息图像中，对应背景部分的像素的彩色信息与该处的彩色信息的平均值通常是相同或相近的，而对应背景部分的像素的彩色信息与该处的彩色信息的平均值通常差别较大，因此，在本申请实施例中，还可以将全部或部分图像各自对应的彩色信息图像中的各个像素的彩色信息减去对应像素位置的平均值，可以获得上述全部或部分图像各自对应的，去除背景部分后的彩色信息图像，手势识别设备可以将全部或部分图像各自对应的，去除背景部分后的彩色信息图像作为第一视频段对应的彩色信息图像。

步骤306，通过第一深度学习算法对该光流信息图像进行手势识别，获得第一识别结果，并通过第二深度学习算法对该彩色信息图像进行手势识别，获得第二识别结果。

在本申请实施例中，可以根据输入的视频流，在前序步骤获得彩色信息图像(例如RGB图像)和光流信息图像，在此步骤306分别用两个深度学习模型进行手势识别，并将两个深度学习模型识别的结果在下一个步骤进行融合。

本申请实施例使用了双通道深度学习模型来做手势识别，其中一个通道是Temporal stream(对应上述第一深度学习算法)，其输入的是光流信息图像，最后输出对当前光流信息图像的手势识别结果；比如，在上述步骤304中，对于M幅图像中的每一幅图像，手势识别设备获取到该幅图像的光流信息图像之后，即缓存该光流信息图像，在该光流信息图像进行手势识别时，手势识别设备将最近存储的X个光流信息图像输入深度学习通道Temporal stream，以输出该X个光流信息图像对应的手势识别结果，并将输出的该手势识别结果作为对该第一视频段的光流信息图像进行手势识别的结果。

上述双通道深度学习模型中，另外一个通道为Spatial stream(对应上述第二深度学习算法)，其输入的是步骤305中获得的，表示第一视频段中的至少一幅彩色信息图像，输出是对该至少一幅彩色信息图像的手势识别结果。

其中，上述双通道深度学习模型是预先训练好的机器学习模型。

步骤307，对该第一识别结果和该第二识别结果进行融合，获得该第一视频段的手势识别结果。

本申请实施例中，由于上述步骤306中获得光流信息图像的手势识别结果和彩色信息图像包含的手势识别结果，是对同一段视频段的手势识别结果，因此，手势识别设备在获取到光流信息图像的手势识别结果和彩色信息图像包含的手势识别结果后，可以对这两个结果进行融合，以获得第一视频段的手势识别结果。

其中，对第一识别结果和第二识别结果进行融合的方式可以有两种：

一种是对该第一识别结果和该第二识别结果进行平均值计算，根据该平均值计算的计算结果获得该第一视频段的手势识别结果。

另一种是将该第一识别结果和该第二识别结果输入预先训练的第二机器学习模型，比如线性支持向量机(Support Vector Machine，SVM)模型，以获得该第一视频段的手势识别结果。其中，上述第二机器学习模型是用于根据输入的两个识别结果确定出单个识别结果的学习模型，该第二机器学习模型可以通过预先标注好手势的视频段进行训练获得。具体比如，上述两个识别结果可以是两个数值，手势识别设备可以将两个数值输入第二机器学习模型，第二机器学习模型按照预先训练好的计算公式以及输入的两个数值计算出一个融合后的数值，并将融合后的数值输出为第一视频段的手势识别结果。

对于每个视频段，手势识别设备实时获得该视频段对应的一个阶段性的手势识别结果，并存入临时手势识别结果库。

步骤308，在获得该视频流中包含上述第一视频段在内的连续N个视频段的手势识别结果后，对该连续N个视频段的手势识别结果进行结果融合，获得融合后的手势识别结果。

其中，N≥2，且N为整数。

在本申请实施例中，在对连续N个视频段的手势识别结果进行结果融合时，手势识别设备可以将该连续N个视频段的手势识别结果输入预先训练的第一机器学习模型，获得该融合后的手势识别结果，该第一机器学习模型用于确定输入的连续N个手势识别结果所构成的整体手势运动趋势，并将该整体手势运动趋势对应的手势输出为融合后的手势识别结果。具体比如，连续N个手势识别结果可以是N个数值，手势识别设备可以将N个数值按照N个视频段的时间顺序输入第一机器学习模型，第一机器学习模型按照预先训练好的计算公式以及先后输入的N个数值计算出一个融合后的数值，并将融合后的数值输出为融合后的手势识别结果。

其中，该第一机器学习模型为神经网络模型，且该神经网络模型的神经元数量为N；或者，该第一机器学习模型为支持向量机SVM模型。

或者，在本申请实施例中，对该连续N个视频段的手势识别结果进行结果融合时，手势识别设备可以获取预先设置的，该连续N个视频段的手势识别结果各自对应的权重系数；根据该连续N个视频段的手势识别结果各自对应的权重系数，对该连续N个视频段的手势识别结果进行加权平均，获得该融合后的手势识别结果。

在实际应用中，用户在执行单个手势操作的过程中，总体上的手势运动趋势符合用户想要做出的手势动作，但是可能会有一小段时间内，其手势不符合用户想要做出的手势动作。比如，以用户想要做出的手势操作为向上抬手为例，用户在1s内做出向上抬手的手势操作，但是在这1s内的某一个很短的时间段(比如0.2s)内，用户并没有向上抬手，而是微微向下压手，而在这很短的时间段之后，用户又继续向上抬手，此时，手势识别设备识别出的上述很短的时间段内的手势识别结果，并不符合用户当前想要执行的手势操作。因此，在本申请实施例中，为了提高手势识别的准确性，手势识别设备可以对连续多个视频段的手势识别结果(即一个手势识别结果的序列)进行融合，将多个视频段的手势识别结果所反映出的整体手势运动趋势作为融合后的手势识别结果。

具体的，定义在实时连续视频流中，在N*T₁时间(T₁为一个视频段的时间长度)里，手势识别设备计算了N次动作识别阶段性结果，利用这N次识别阶段性结果的融合决策(经过N*T₁时间)而给出最终一个识别结果。根据用户做出一个手势动作的平均时间长度，这里N*T₁可以取值为1秒左右。进行N次识别阶段性结果的融合有多种实现方式，例如下面两种方式：

(1)线性组合：

Result＝α₁r₁+α₂r₂+……+α_Nr_N ⑻

这里，r₁,r₂,…,r_N是阶段性识别结果，每个结果之前的权重系数是α₁,α₂,…,α_N，这些权重系数可以是预先通过机器学习算法确定的系数，不同的系数组合将产生不同的组合方式。

(2)支持向量机方法SVM：

请参考图5，其示出了本申请实施例涉及的一种通过识别结果融合示意图。如图5所示，在本申请实施例中，可以把阶段性识别结果r₁,r₂,…,r_N输入到预先训练好的机器学习模型，即图5所示的SVM模块(SVM模块中的SVM核函数是预先设置或者训练出的核函数)中，输出融合结果。

在获得融合后的手势识别结果后，手势识别设备可以根据手势识别结果调用相应的模块(例如：幻灯片演示、图片全屏播放等)达到人机互动的目的。

在本申请实施例中，如果判断视频段中没有动作发生，则手势识别设备可不对该视频段进行手势识别，以减少手势识别的频率，避免不必要的识别过程。具体的，手势识别设备可以将该视频段内的手势识别结果直接设置为空，或者，不设置该视频段的手势识别结果。

请参考图6，其示出了本申请实施例涉及的一种手势识别的流程示意图。以该流程用于图1所示的手势识别系统为例，如图6所示，图像采集设备将采集到的视频流输入手势识别设备，手势识别设备提取到视频流中的一幅图像后，通过上述步骤302所示的方法，根据该幅图像以及该幅图像之前一段时间内的至少一幅图像，判断该幅图像相对于之前的至少一幅图像是否有动作发生，若判断出有动作发生，则手势识别设备针对视频流中当前图像所在的一个视频段内的各幅图像(或者，也可以针对其中部分图像)，按照步骤304和步骤305的方法分别提取该视频段的光流信息图像和彩色信息图像，并按照步骤306所示的方法对光流信息图像和彩色信息图像分别进行手势识别，再按照步骤307所示的方法将对光流信息图像和彩色信息图像分别进行手势识别获得的手势识别结果进行融合，获得该视频段对应的阶段性手势识别结果。当连续获得N个阶段性手势识别结果后，手势识别设备通过步骤308所示的方法对该N个手势识别结果进行融合，获得一个融合后的手势识别结果。

可选的，上述涉及到的机器学习模型(包括上述第一机器学习模型、第二机器学习模型以及步骤306中的双通道深度学习模型等)，可以通过预先标注好对应的手势的视频样本进行机器训练来获得。

上述机器训练的过程可以由模型训练设备来实现，具体比如，以上述第一机器学习模型、第二机器学习模型以及双通道深度学习模型都通过机器训练获得为例，在一种可能的实现方式中，开发人员可以向模型训练设备中输入若干个视频流样本，每个视频流样本中包含一个手势，且开发人员预先标注好每个视频流样本中的手势，并且，开发人员将每个视频流划分为多个视频段，并标注每个视频段对应的阶段性手势。在进行机器训练时，模型训练设备按照步骤304和步骤305所示的方案，对每个视频段提取光流信息图像和彩色信息图像，并将视频段的光流信息图像和彩色信息图像输入双通道深度学习模型，将双通道深度学习模型输出的两个识别结果，以及该视频段已标注的阶段性手势，输入第二机器学习模型，以对双通道深度学习模型和第二机器学习模型进行模型训练。此外，对于每一个视频流样本，模型训练设备将该视频流样本中的各个视频段的阶段性手势以及预先标注的该视频流样本的手势输入第一机器学习模型进行机器训练，以获得该第一机器学习模型。

再比如，以上述第一机器学习模型、第二机器学习模型以及双通道深度学习模型都通过机器训练获得为例，在另一种可能的实现方式中，开发人员可以向模型训练设备中输入若干个视频流样本，每个视频流样本中包含一个手势，且开发人员预先标注好每个视频流样本中的手势，模型训练设备将视频流划分为多个视频段，并对每个视频段提取光流信息图像和彩色信息图像，并将视频段的光流信息图像和彩色信息图像输入双通道深度学习模型，将双通道深度学习模型输出的两个识别结果输入第二机器学习模型，再将第二机器学习模型输出的，对多个视频段的阶段性手势识别结果输入第一机器学习模型，同时，模型训练设备将该视频流对应的已标注的手势输入该第一机器学习模型，以同时对第一机器学习模型、第二机器学习模型以及双通道深度学习模型进行机器训练。

需要说明的是，本发明实施例所示的方法以上述双通道深度学习模型为例进行说明，在实际应用中，手势识别设备在对每一个视频段进行识别时，可以通过其它深度学习算法识别单个视频段的手势，比如，手势识别设备可以只通过光流信息图像识别视频段对应的手势识别结果，或者，手势识别设备也可以只通过彩色信息图像识别视频段对应的手势识别结果，对于上述用于识别视频段的手势识别结果的深度学习算法，本发明实施例不做限定。

综上所述，本申请实施例所示的方法，针对视频流中的每一个视频段，对该视频段分别提取光流信息图像和彩色信息图像，并通过深度学习算法对光流信息图像和彩色信息图像分别进行手势识别，在手势识别之后，在对两种图像分别对应的手势识别结果进行融合，以确定该视频段对应的手势识别结果，最后将该视频段在内的连续N个视频段的手势识别结果进行融合，获得对该连续N个视频段的的手势识别结果，即在上述方法中，将一个完整的手势动作划分为多个阶段动作，通过深度学习算法来识别每一个阶段动作，最后将识别出的各个阶段动作融合为完整的手势动作，在识别过程中，不需要对视频流中的手势进行分割和跟踪，而是通过计算速度较快的深度学习算法来识别各个阶段动作，从而达到提高手势识别的速度，降低手势识别的延迟的效果。

图7是本申请一个示例性实施例提供的手势识别设备70的结构示意图，该手势识别设备70可以实现为图1所示的系统中的手势识别设备120。如图7所示，该手势识别设备70可以包括：处理器71以及存储器73。

处理器71可以包括一个或者一个以上处理单元，该处理单元可以是中央处理单元(英文：central processing unit，CPU)或者网络处理器(英文：network processor，NP)等。

可选的，该手势识别设备70还可以包括存储器73。存储器73可用于存储软件程序，该软件程序可以由处理器71执行。此外，该存储器73中还可以存储各类业务数据或者用户数据。该软件程序可以包括图像获取模块、识别模块以及融合模块；可选的，该软件程序还可以包括时间窗确定模块以及判断模块；

其中，图像获取模块由处理器71执行，以实现上述图3所示实施例中有关获取视频流的第一视频段中提取出的M幅图像的功能。

识别模块由处理器71执行，以实现上述图3所示实施例中有关识别第一视频段对应的手势识别结果的功能。

融合模块由处理器71执行，以实现上述图3所示实施例中有关对连续N个视频段的手势识别结果进行融合的功能。

时间窗确定模块由处理器71执行，以实现上述图3所示实施例中有关确定时间窗的功能。

判断模块由处理器71执行，以实现上述图3所示实施例中有关判断第一视频段中是否有动作发生的功能。

可选的，该手势识别设备70还可以包括通信接口74，该通信接口74可以包括网络接口。其中，该网络接口用于连接图像采集设备。具体的，该网络接口可以包括有线网络接口，比如以太网接口或者光纤接口，或者，网络接口也可以包括无线网络接口，比如无线局域网接口或者蜂窝移动网络接口。手势识别设备70通过该网络接口74与其它设备进行通信。

可选的，处理器71可以用总线与存储器73和通信接口74相连。

可选地，该手势识别设备70还可以包括输出设备75以及输入设备77。输出设备75和输入设备77与处理器71相连。输出设备75可以是用于显示信息的显示器、播放声音的功放设备或者打印机等，输出设备75还可以包括输出控制器，用以提供输出到显示屏、功放设备或者打印机。输入设备77可以是用于用户输入信息的诸如鼠标、键盘、电子触控笔或者触控面板之类的设备，输入设备77还可以包括输出控制器以用于接收和处理来自鼠标、键盘、电子触控笔或者触控面板等设备的输入。

下述为本申请的装置实施例，可以用于执行本申请的方法实施例。对于本申请的装置实施例中未披露的细节，请参照本申请的方法实施例。

图8是本申请一个示例性实施例提供的一种手势识别装置的结构方框图，该手势识别装置可以通过硬件电路或者软件硬件的结合实现成为手势识别设备的部分或者全部，该手势识别设备可以是上述图1所示的实施例中的手势识别设备120。该手势识别装置可以包括：图像获取单元801、识别单元802以及融合单元803；可选的，该软件程序还可以包括时间窗确定单元804以及判断单元805。

其中，图像获取单元801由处理器执行，以实现上述图3所示实施例中有关获取视频流的第一视频段中提取出的M幅图像的功能。

识别单元802由处理器执行，以实现上述图3所示实施例中有关获得第一视频段对应手势识别结果的功能。

融合单元803由处理器执行，以实现上述图3所示实施例中有关对连续N个视频段的手势识别结果进行融合的功能。

时间窗确定单元804由处理器执行，以实现上述图3所示实施例中有关确定时间窗的功能。

判断单元805由处理器执行，以实现上述图3所示实施例中有关判断第一视频段中是否有动作发生的功能。

需要说明的是：上述实施例提供的手势识别装置在进行手势识别时，仅以上述各功能单元的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元完成，即将设备的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。另外，上述实施例提供的手势识别装置与手势识别方法的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述本申请的实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种手势识别设备，其特征在于，所述设备包括：处理器和存储器；

所述处理器，用于获取M幅图像，所述M幅图像是从视频流中的第一视频段中提取出的，其中，所述第一视频段是所述视频流中任意一个视频段，M为大于或等于2的整数；

所述处理器，用于通过深度学习算法对所述M幅图像进行手势识别，获得所述第一视频段对应的手势识别结果；

所述处理器，用于在获得所述视频流中包含所述第一视频段在内的连续N个视频段的手势识别结果后，对所述连续N个视频段的手势识别结果进行结果融合，获得融合后的手势识别结果，N为大于或等于2的整数。
根据权利要求1所述的设备，其特征在于，在对所述连续N个视频段的手势识别结果进行结果融合，获得融合后的手势识别结果时，所述处理器，具体用于：

将所述连续N个视频段的手势识别结果输入预先训练的第一机器学习模型，获得所述融合后的手势识别结果，所述第一机器学习模型用于确定输入的连续N个手势识别结果所构成的整体手势运动趋势，并将所述整体手势运动趋势对应的手势输出为所述融合后的手势识别结果。
根据权利要求2所述的设备，其特征在于，

所述第一机器学习模型为神经网络模型，且所述神经网络模型的神经元数量为N；

或者，

所述第一机器学习模型为支持向量机SVM模型。
根据权利要求1所述的设备，其特征在于，在对所述连续N个视频段的手势识别结果进行结果融合，获得融合后的手势识别结果时，所述处理器，具体用于：

获取预先设置的，所述连续N个视频段的手势识别结果各自对应的权重系数；

根据所述连续N个视频段的手势识别结果各自对应的权重系数，对所述连续N个视频段的手势识别结果进行加权平均，获得所述融合后的手势识别结果。
根据权利要求1所述的设备，其特征在于，在通过深度学习算法对所述M幅图像进行手势识别，获得所述第一视频段对应的手势识别结果时，所述处理器，具体用于：

对所述M幅图像进行图像处理，获得所述第一视频段对应的光流信息图像，所述光流信息图像包含所述M幅图像中的第一图像与所述第一图像之前的第p幅图像之间的光流信息，所述第一图像是所述M幅图像中的任意一幅，所述光流信息包含图像中的像素点的瞬时速度矢量信息，并通过第一深度学习算法对所述光流信息图像进行手势识别，获得第一识别结果，p为大于或等于1的整数；

对所述M幅图像进行图像处理，获得所述第一视频段对应的彩色信息图像，所述彩色信息图像包含所述M幅图像的彩色信息，所述彩色信息包含图像中的各个像素点的色值，并通过第二深度学习算法对所述彩色信息图像进行手势识别，获得第二识别结果；

对所述第一识别结果和所述第二识别结果进行融合，获得所述第一视频段的手势识别结果。
根据权利要求5所述的设备，其特征在于，在对所述M幅图像进行图像处理，获得所述第一视频段对应的光流信息图像时，所述处理器，具体用于：

对于所述第一图像，按预设规则获取所述视频流中处于所述第一图像之前的第p幅图像；计算所述第一图像与所述第p幅图像之间的光流信息，并生成包含所述第一图像与所述第p幅图像之间的光流信息的光流信息图像；其中，所述第一图像与所述第p幅图像之间的时间间隔不小于所述第一深度学习算法的前向计算时间以及计算所述光流信息图像所需的时间；

或者，

对于所述第一图像，按预设规则获取所述视频流中处于所述第一图像之前的全部p幅图像；计算所述第一图像以及所述M幅图像中每相邻两幅图像之间的光流信息，将所述每相邻两幅图像之间的光流信息进行累加后，生成包含累加后的光流信息的光流信息图像；其中，所述第一图像与所述第一图像之前的第p幅图像之间的时间间隔不小于所述第一深度学习算法的前向计算时间以及计算所述光流信息图像所需的时间。
根据权利要求5所述的设备，其特征在于，在对所述M幅图像进行图像处理，获得所述第一视频段对应的彩色信息图像时，所述处理器，具体用于：

提取所述M幅图像中的m幅图像的彩色信息，根据提取到的彩色信息生成所述m幅图像各自对应的彩色信息图像，将所述m幅图像各自对应的彩色信息图像获取为所述第一视频段对应的彩色信息图像；所述m幅图像是所述M幅图像中随机的m幅图像，或者，所述m幅图像是所述M幅图像中，相对于各自在视频流中的前一幅图像变化最大的m幅图像,，m为大于或等于1的整数；

或者，检测所述M幅图像中图像内容随时间变化的像素位置，计算所述M幅图像中对应识别出的像素位置处的彩色信息的平均值，获得所述识别出的像素位置处的新的彩色信息，根据所述识别出的像素位置处的新的彩色信息生成所述第一视频段对应的彩色信息图像。
根据权利要求1至7任一所述的设备，其特征在于，在获取M幅图像之前，所述处理器，还用于：

确定所述视频流中的一个预设时间长度的时间窗，所述时间窗的结束时刻处于所述第一视频段对应的时间段内；

根据所述时间窗内的最后一幅图像以及至少一幅参考图像，判断所述第一视频段中是否有动作发生，所述参考图像是所述时间窗内除了所述最后一幅图像之外的其它任意一幅图像；

若判断结果为所述第一视频段中有动作发生，则执行所述获取M幅图像的步骤。
根据权利要求8所述的设备，其特征在于，在根据所述时间窗内的最后一幅图像以及至少一幅参考图像，判断所述第一视频段中是否有动作发生时，所述处理器，具体用于：

针对所述至少一幅参考图像中的每一幅参考图像，计算所述最后一幅图像的偏导图像，所述偏导图像中的每个像素的值，是所述最后一幅图像中对应像素的值相对于所述参考图像中对应像素的值的偏导；

对所述偏导图像中的各个像素的值进行归一化处理，获得归一化之后的偏导图像；

根据预设的二值化阈值，对所述归一化之后的偏导图像进行二值化处理，获得所述偏导图像的二值化图像，所述二值化图像中的各个像素的值为0或1；

计算所述二值化图像中各个像素的灰度值之和；

当所述灰度值之和大于0时，确定所述第一视频段中有动作发生。
根据权利要求5至7任一所述的设备，其特征在于，所述处理器，在对所述第一识别结果和所述第二识别结果进行融合，获得所述第一视频段的手势识别结果时，具体用于

对所述第一识别结果和所述第二识别结果进行平均值计算，根据所述平均值计算的计算结果获得所述第一视频段的手势识别结果；

或者，

将所述第一识别结果和所述第二识别结果输入预先训练的第二机器学习模型，以获得所述第一视频段的手势识别结果。
一种手势识别装置，其特征在于，所述装置包括：

图像获取单元，用于获取M幅图像，所述M幅图像是从视频流中的第一视频段中提取出的，其中，所述第一视频段是所述视频流中任意一个视频段，M为大于或等于2的整数；

识别单元，用于通过深度学习算法对所述M幅图像进行手势识别，获得所述第一视频段对应的手势识别结果；

融合单元，还用于在获得所述视频流中包含所述第一视频段在内的连续N个视频段的手势识别结果后，对所述连续N个视频段的手势识别结果进行结果融合，获得融合后的手势识别结果；N≥2，且N为整数。
根据权利要求11所述的装置，其特征在于，在对所述连续N个视频段的手势识别结果进行结果融合，获得融合后的手势识别结果时，所述融合单元，具体用于：

将所述连续N个视频段的手势识别结果输入预先训练的第一机器学习模型，获得所述融合后的手势识别结果，所述第一机器学习模型用于确定输入的连续N个手势识别结果所构成的整体手势运动趋势，并将所述整体手势运动趋势对应的手势输出为所述融合后的手势识别结果。
根据权利要求12所述的装置，其特征在于，

所述第一机器学习模型为神经网络模型，且所述神经网络模型的神经元数量为N；

或者，

所述第一机器学习模型为支持向量机SVM模型。
根据权利要求11所述的装置，其特征在于，在对所述连续N个视频段的手势识别结果进行结果融合，获得融合后的手势识别结果时，所述融合单元，具体用于：

获取预先设置的，所述连续N个视频段的手势识别结果各自对应的权重系数；

根据所述连续N个视频段的手势识别结果各自对应的权重系数，对所述连续N个视频段的手势识别结果进行加权平均，获得所述融合后的手势识别结果。
根据权利要求11所述的装置，其特征在于，所述识别单元，具体用于：

对所述M幅图像进行图像处理，获得所述第一视频段对应的光流信息图像，所述光流信息图像包含所述M幅图像中的第一图像与所述第一图像之前的第p幅图像之间的光流信息，所述第一图像是所述M幅图像中的任意一幅，所述光流信息包含图像中的像素点的瞬时速度矢量信息，并通过第一深度学习算法对所述光流信息图像进行手势识别，获得第一识别结果，p为大于或等于1的整数；

对所述M幅图像进行图像处理，获得所述第一视频段对应的彩色信息图像，所述彩色信息图像包含所述M幅图像的彩色信息，所述彩色信息包含图像中的各个像素点的色值，并通过第二深度学习算法对所述彩色信息图像进行手势识别，获得第二识别结果；

对所述第一识别结果和所述第二识别结果进行融合，获得所述第一视频段的手势识别结果。
根据权利要求15所述的装置，其特征在于，在对所述M幅图像进行图像处理，获得所述第一视频段对应的光流信息图像时，所述识别单元，具体用于：

对于所述第一图像，按预设规则获取所述视频流中处于所述第一图像之前的第p幅图像；计算所述第一图像与所述第p幅图像之间的光流信息，并生成包含所述第一图像与所述第p幅图像之间的光流信息的光流信息图像；其中，所述第一图像与所述第p幅图像之间的时间间隔不小于所述第一深度学习算法的前向计算时间以及计算所述光流信息图像所需的时间；

或者，

对于所述第一图像，按预设规则获取所述视频流中处于所述第一图像之前的全部p幅图像；计算所述第一图像以及所述M幅图像中每相邻两幅图像之间的光流信息，将所述每相邻两幅图像之间的光流信息进行累加后，生成包含累加后的光流信息的光流信息图像；其中，所述第一图像与所述第一图像之前的第p幅图像之间的时间间隔不小于所述第一深度学习算法的前向计算时间以及计算所述光流信息图像所需的时间。
根据权利要求15所述的装置，其特征在于，在对所述M幅图像进行图像处理，获得所述第一视频段对应的彩色信息图像时，所述识别单元，具体用于：

提取所述M幅图像中的m幅图像的彩色信息，根据提取到的彩色信息生成所述m幅图像各自对应的彩色信息图像，将所述m幅图像各自对应的彩色信息图像获取为所述第一视频段对应的彩色信息图像；所述m幅图像是所述M幅图像中随机的m幅图像，或者，所述m幅图像是所述M幅图像中，相对于各自在视频流中的前一幅图像变化最大的m幅图像，m为大于或等于1的整数；

或者，检测所述M幅图像中图像内容随时间变化的像素位置，计算所述M幅图像中对应识别出的像素位置处的彩色信息的平均值，获得所述识别出的像素位置处的新的彩色信息，根据所述识别出的像素位置处的新的彩色信息生成所述第一视频段对应的彩色信息图像。
根据权利要求11至17任一所述的装置，其特征在于，所述装置还包括：

时间窗确定单元，用于在所述图像获取单元获取M幅图像之前，确定所述视频流中的一个预设时间长度的时间窗，所述时间窗的结束时刻处于所述第一视频段对应的时间段内；

判断单元，用于根据所述时间窗内的最后一幅图像以及至少一幅参考图像，判断所述第一视频段中是否有动作发生，所述至少一幅参考图像是所述时间窗内除了所述最后一幅图像之外的其它任意一幅图像；

所述图像获取单元，用于在判断结果为所述第一视频段中有动作发生时，执行所述获取M幅图像的步骤。
根据权利要求18所述的装置，其特征在于，所述判断单元，具体用于：

针对所述至少一幅参考图像中的每一幅参考图像，计算所述最后一幅图像的偏导图像，所述偏导图像中的每个像素的值，是所述最后一幅图像中对应像素的值相对于所述参考图像中对应像素的值的偏导；

对所述偏导图像中的各个像素的值进行归一化处理，获得归一化之后的偏导图像；

根据预设的二值化阈值，对所述归一化之后的偏导图像进行二值化处理，获得所述偏导图像的二值化图像，所述二值化图像中的各个像素的值为0或1；

计算所述二值化图像中各个像素的灰度值之和；

当所述灰度值之和大于0时，确定所述第一视频段中有动作发生。
根据权利要求15至17任一所述的装置，其特征在于，在对所述第一识别结果和所述第二识别结果进行融合，获得所述第一视频段的手势识别结果时，所述识别单元，具体用于：

对所述第一识别结果和所述第二识别结果进行平均值计算，根据所述平均值计算的计算结果获得所述第一视频段的手势识别结果；

或者，

将所述第一识别结果和所述第二识别结果输入预先训练的第二机器学习模型，以获得所述第一视频段的手势识别结果。
一种手势识别方法，其特征在于，所述方法包括：

获取M幅图像，所述M幅图像是从视频流中的第一视频段中提取出的，其中，所述第一视频段是所述视频流中任意一个视频段，M为大于或等于2的整数；

通过深度学习算法对所述M幅图像进行手势识别，获得所述第一视频段对应的手势识别结果；

在获得所述视频流中包含所述第一视频段在内的连续N个视频段的手势识别结果后，对所述连续N个视频段的手势识别结果进行结果融合，获得融合后的手势识别结果；N≥2，且N为整数。
根据权利要求21所述的方法，其特征在于，所述对所述连续N个视频段的手势识别结果进行结果融合，获得融合后的手势识别结果，包括：

将所述连续N个视频段的手势识别结果输入预先训练的第一机器学习模型，获得所述融合后的手势识别结果，所述第一机器学习模型用于确定输入的连续N个手势识别结果所构成的整体手势运动趋势，并将所述整体手势运动趋势对应的手势输出为所述融合后的手势识别结果。
根据权利要求22所述的方法，其特征在于，

所述第一机器学习模型为神经网络模型，且所述神经网络模型的神经元数量为N；

或者，

所述第一机器学习模型为支持向量机SVM模型。
根据权利要求21所述的方法，其特征在于，所述对所述连续N个视频段的手势识别结果进行结果融合，获得融合后的手势识别结果，包括：

获取预先设置的，所述连续N个视频段的手势识别结果各自对应的权重系数；

根据所述连续N个视频段的手势识别结果各自对应的权重系数，对所述连续N个视频段的手势识别结果进行加权平均，获得所述融合后的手势识别结果。
根据权利要求21所述的装置，其特征在于，所述通过深度学习算法对所述M幅图像进行手势识别，获得所述第一视频段对应的手势识别结果，包括：

对所述M幅图像进行图像处理，获得所述第一视频段对应的光流信息图像，所述光流信息图像包含所述M幅图像中的第一图像与所述第一图像之前的第p幅图像之间的光流信息，所述第一图像是所述M幅图像中的任意一幅，所述光流信息包含图像中的像素点的瞬时速度矢量信息，并通过第一深度学习算法对所述光流信息图像进行手势识别，获得第一识别结果，p为大于或等于1的整数；

对所述M幅图像进行图像处理，获得所述第一视频段对应的彩色信息图像，所述彩色信息图像包含所述M幅图像的彩色信息，所述彩色信息包含图像中的各个像素点的色值，并通过第二深度学习算法对所述彩色信息图像进行手势识别，获得第二识别结果；

对所述第一识别结果和所述第二识别结果进行融合，获得所述第一视频段的手势识别结果。
根据权利要求25所述的方法，其特征在于，所述对所述M幅图像进行图像处理，获得所述第一视频段对应的光流信息图像，包括：

对于所述第一图像，按预设规则获取所述视频流中处于所述第一图像之前的第p幅图像；计算所述第一图像与所述第p幅图像之间的光流信息，并生成包含所述第一图像与所述第p幅图像之间的光流信息的光流信息图像；其中，所述第一图像与所述第p幅图像之间的时间间隔不小于所述第一深度学习算法的前向计算时间以及计算所述光流信息图像所需的时间；

或者，

对于所述第一图像，按预设规则获取所述视频流中处于所述第一图像之前的全部p幅图像；计算所述第一图像以及所述M幅图像中每相邻两幅图像之间的光流信息，将所述每相邻两幅图像之间的光流信息进行累加后，生成包含累加后的光流信息的光流信息图像；其中，所述第一图像与所述第一图像之前的第p幅图像之间的时间间隔不小于所述第一深度学习算法的前向计算时间以及计算所述光流信息图像所需的时间。
根据权利要求25所述的方法，其特征在于，所述对所述M幅图像进行图像处理，获得所述第一视频段对应的彩色信息图像，包括：

提取所述M幅图像中的m幅图像的彩色信息，根据提取到的彩色信息生成所述m幅图像各自对应的彩色信息图像，将所述m幅图像各自对应的彩色信息图像获取为所述第一视频段对应的彩色信息图像；所述m幅图像是所述M幅图像中随机的m幅图像，或者，所述m幅图像是所述M幅图像中，相对于各自在视频流中的前一幅图像变化最大的m幅图像，m为大于或等于1的整数；

或者，检测所述M幅图像中图像内容随时间变化的像素位置，计算所述M幅图像中对应识别出的像素位置处的彩色信息的平均值，获得所述识别出的像素位置处的新的彩色信息，根据所述识别出的像素位置处的新的彩色信息生成所述第一视频段对应的彩色信息图像。
根据权利要求21至27任一所述的方法，其特征在于，所述获取M幅图像之前，所述方法还包括：

确定所述视频流中的一个预设时间长度的时间窗，所述时间窗的结束时刻处于所述第一视频段对应的时间段内；

根据所述时间窗内的最后一幅图像以及至少一幅参考图像，判断所述第一视频段中是否有动作发生，所述至少一幅参考图像是所述时间窗内除了所述最后一幅图像之外的其它任意一幅图像；

若判断结果为所述第一视频段中有动作发生，则执行所述获取M幅图像的步骤。
根据权利要求28所述的方法，其特征在于，所述根据所述时间窗内的最后一幅图像以及所述至少一幅参考图像，判断所述第一视频段中是否有动作发生，包括：

针对所述至少一幅参考图像中的每一幅参考图像，计算所述最后一幅图像的偏导图像，所述偏导图像中的每个像素的值，是所述最后一幅图像中对应像素的值相对于所述参考图像中对应像素的值的偏导；

对所述偏导图像中的各个像素的值进行归一化处理，获得归一化之后的偏导图像；

根据预设的二值化阈值，对所述归一化之后的偏导图像进行二值化处理，获得所述偏导图像的二值化图像，所述二值化图像中的各个像素的值为0或1；

计算所述二值化图像中各个像素的灰度值之和；

当所述灰度值之和大于0时，确定所述第一视频段中有动作发生。
根据权利要求25至27任一所述的方法，其特征在于，所述对所述第一识别结果和所述第二识别结果进行融合，获得所述第一视频段的手势识别结果，包括：

对所述第一识别结果和所述第二识别结果进行平均值计算，根据所述平均值计算的计算结果获得所述第一视频段的手势识别结果；

或者，

将所述第一识别结果和所述第二识别结果输入预先训练的第二机器学习模型，以获得所述第一视频段的手势识别结果。