WO2022217598A1

WO2022217598A1 - 肢体识别方法和装置

Info

Publication number: WO2022217598A1
Application number: PCT/CN2021/087863
Authority: WO
Inventors: 朱伟; 于华洲; 陈志凯
Original assignee: 华为技术有限公司
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2022-10-20
Also published as: CN115485647A

Abstract

本申请提供了一种识别方法和装置，该方法包括：获取用户肢体的多帧图像信息和多个位置信息；根据多帧图像信息和多个位置信息，确定用户的指令；触发用户的指令对应的操作。本申请的识别方法，可以用于自动驾驶或智能驾驶场景中提高识别用户采用肢体动作做出的指令的准确率，尤其对于采用动态肢体动作做出的指令具有很好的识别效果。

Description

肢体识别方法和装置

技术领域

本申请涉及人机交互领域，并且更具体地，涉及一种肢体识别方法和装置。

背景技术

计算机视觉是各个应用领域，如制造业、检验、文档分析、医疗诊断，和军事等领域中各种智能/自主系统中不可分割的一部分，它是一门关于如何运用照相机/摄像机和计算机来获取我们所需的，被拍摄对象的数据与信息的学问。形象地说，就是给计算机安装上眼睛(照相机/摄像机)和大脑(算法)用来代替人眼对目标进行识别、跟踪和测量等，从而使计算机能够感知环境。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。总的来说，计算机视觉就是用各种成像系统代替视觉器官获取输入信息，再由计算机来代替大脑对这些输入信息完成处理和解释。

在计算机视觉领域中，用户的肢体识别(例如手势识别)是一种非常重要的人机交互方式。例如肢体识别中的手势识别，由于手势可以通过非接触式的方法表达丰富的信息，使得手势识别在人机交互、智能驾驶、智能手机、智能电视、智能穿戴、增强现实(augmented reality，AR)和虚拟现实(virtual reality，VR)等产品中有广泛的应用。例如在自动驾驶、智能驾驶或辅助驾驶场景中，驾驶员可以通过语音交互、手势交互等方式对车辆进行控制，但在某些情况下例如车内其他乘客正在休息，不便发出声响，此时更适用于手势交互的方式，而相较于通过触控屏对车机进行操作的触控交互方式，隔空手势更具有安全性的优势。

肢体识别中包括静态肢体识别和动态肢体识别，在实际应用中，由于动态肢体在每个时刻的姿势、朝向都可能不同，通过目前的计算机视觉技术对动态肢体的识别准确度不高，因此亟需一种方法提升肢体识别的准确度。

发明内容

本申请提供一种肢体识别方法和装置，可以提高识别用户采用肢体动作做出的指令的准确率。

第一方面，提供了一种肢体识别方法，包括：获取用户肢体的多帧图像信息和多个位置信息；根据多帧图像信息和多个位置信息，确定用户的指令；触发用户的指令对应的操作。

本申请的肢体识别方法，可以用于识别用户采用肢体动作做出的指令，通过用户肢体的图像信息和位置信息共同确定用户的指令，可以提高识别的准确率，尤其对于采用动态肢体动作做出的指令具有很好的识别效果。

结合第一方面，在第一方面的某些实现方式中，多帧图像信息用于确定用户肢体的姿态，多个位置信息用于确定用户肢体的动作轨迹。

结合第一方面，在第一方面的某些实现方式中，根据多帧图像信息和多个位置信息，确定用户的指令，包括：根据预设图像信息、预设位置信息与预设指令的对应关系以及多帧图像信息和多个位置信息，确定用户的指令。

对应关系为预设的对应关系，具体形式可以是表格或函数等，该预设的对应关系可以存储在云端或本地设备，可以在出厂时就设置好，也可以支持用户自定义或用户在使用过程中按需求更新对应关系，例如可以在用户第一次使用时要求用户定义该对应关系，或者在未识别成功用户的指令时提示用户更新该对应关系等。

结合第一方面，在第一方面的某些实现方式中，预设图像信息包括多种预设姿态，预设位置信息包括多种预设动作轨迹，多种预设姿态中不同的预设姿态对应相同的预设指令，或，多种预设动作轨迹中不同的预设动作轨迹对应相同的预设指令。

多种预设姿态中不同的预设姿态对应相同的预设指令是指该不同的预设姿态间易混淆，多种预设动作轨迹中不同的预设动作轨迹对应相同的预设指令是指该不同的预设动作轨迹间易混淆。为易混淆的预设姿态或易混淆的预设动作轨迹均定义相同的预设指令，可以避免用户在做出姿态或动作轨迹时，误触发易混淆的预设姿态或预设动作轨迹所对应的预设指令。此外，为易混淆的预设姿态或易混淆的预设动作轨迹均定义相同的预设指令使得用户宽容度更高，例如用户希望触发第一预设姿态对应的预设指令，可以做出第一预设姿态，也可以做出与第一预设姿态相似的第二预设姿态，即允许用户的姿态与预设姿态可以有一定差别。

结合第一方面，在第一方面的某些实现方式中，预设图像信息包括多种预设姿态，预设位置信息包括多种预设动作轨迹，同一预设动作轨迹、不同的预设姿态对应相同的预设指令，或，同一预设姿态、不同的预设动作轨迹对应相同的预设指令。

这里的同一预设动作轨迹和同一预设姿态为具有典型性的动作轨迹和姿态，具有典型性的姿态或动作轨迹具有较高的用户宽容度，用户只需做出具有典型性的姿态或动作轨迹即可触发对应的指令，而无所谓对应的动作轨迹或对应的姿态，在用户不方便做出复杂动作时，具有典型性的姿态或动作轨迹可以给用户的操作带来更大的便利性。

结合第一方面，在第一方面的某些实现方式中，多帧图像信息和多个位置信息对应相同的时间段。

结合第一方面，在第一方面的某些实现方式中，获取用户肢体的多帧图像信息和多个位置信息，包括：获取第一时间段内用户肢体的图像信息或位置信息；确定第一时间段内用户肢体的有效图像信息或有效位置信息所在的第二时间段；获取第二时间段内的有效图像信息和有效位置信息，以作为多帧图像和多个位置信息。

由于传感器直接获取的图像信息和位置信息并不都是有效信息，例如有的图像信息质量较差(亮度、分辨率、信噪比较低)，或者获取到用户肢体的位置信息时还没有获取到用户肢体的图像信息，此时的位置信息由于与图像信息时间段不相同，可能是无效的信息；或者获取到用户肢体的图像信息时还没有获取到用户的位置信息，此时的图像信息由于与位置信息时间段不相同，可能是无效的信息，因此需要对传感器直接获取的图像信息和位置信息进行筛选。

结合第一方面，在第一方面的某些实现方式中，根据多帧图像信息和多个位置信息，确定用户的指令，包括：根据方向信息，确定用户的指令，方向信息由多帧图像信息或多个位置信息确定。

结合第一方面，在第一方面的某些实现方式中，方法还包括：在由多帧图像信息确定的姿态的方向与由多个位置信息确定的动作轨迹的方向相同时，确定用户的指令。

由动作轨迹方向和姿态方向共同确定用户所表示的方向，可以避免动作回撤时引起的方向误判。

结合第一方面，在第一方面的某些实现方式中，多帧图像信息来自图像传感器，多帧位置信息来自雷达传感器。

第二方面，提供了一种肢体识别方法，包括：获取用户肢体的多个位姿；根据多个位姿的变化，确定用户的指令；触发用户的指令对应的操作。

第三方面，提供了一种肢体识别装置，包括：获取模块，用于获取用户肢体的多帧图像信息和多个位置信息；处理模块，用于根据多帧图像信息和多个位置信息，确定用户的指令；处理模块还用于触发用户的指令对应的操作。

结合第三方面，在第三方面的某些实现方式中，多帧图像信息用于确定用户肢体的姿态，多个位置信息用于确定用户肢体的动作轨迹。

结合第三方面，在第三方面的某些实现方式中，处理模块根据多帧图像信息和多个位置信息，确定用户的指令，包括：根据预设图像信息、预设位置信息与预设指令的对应关系以及多帧图像信息和多个位置信息，确定用户的指令。

结合第三方面，在第三方面的某些实现方式中，预设图像信息包括多种预设姿态，预设位置信息包括多种预设动作轨迹，多种预设姿态中不同的预设姿态对应相同的预设指令，或，多种预设动作轨迹中不同的预设动作轨迹对应相同的预设指令。

结合第三方面，在第三方面的某些实现方式中，预设图像信息包括多种预设姿态，预设位置信息包括多种预设动作轨迹，同一预设动作轨迹、不同的预设姿态对应相同的预设指令，或，同一预设姿态、不同的预设动作轨迹对应相同的预设指令。

结合第三方面，在第三方面的某些实现方式中，多帧图像信息和多个位置信息对应相同的时间段。

结合第三方面，在第三方面的某些实现方式中，获取模块获取用户肢体的多帧图像信息和多个位置信息，包括：获取第一时间段内用户肢体的图像信息或位置信息；确定第一时间段内用户肢体的有效图像信息或有效位置信息所在的第二时间段；获取第二时间段内的有效图像信息和有效位置信息，以作为多帧图像和多个位置信息。

结合第三方面，在第三方面的某些实现方式中，处理模块根据多帧图像信息和多个位置信息，确定用户的指令，包括：根据方向信息，确定用户的指令，方向信息由多帧图像信息或多个位置信息确定。

结合第三方面，在第三方面的某些实现方式中，处理模块还用于：在由多帧图像信息确定的姿态的方向与由多个位置信息确定的动作轨迹的方向相同时，确定用户的指令。

结合第三方面，在第三方面的某些实现方式中，多帧图像信息来自图像传感器，多帧位置信息来自雷达传感器。

第四方面，提供了一种肢体识别装置，该装置包括处理器和存储器，存储器用于存储程序指令，处理器用于程序指令来执行上述第一方面和第一方面中任一中实现方式所述的方法。

第五方面，提供了一种芯片，该芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，以执行上述第一方面和第一方面中任一中实现方式所述的方法。

第六方面，提供了一种计算设备，该计算设备包括：存储器，用于存储计算机程序，处理器，用于从所述存储器调用计算机程序，当所述计算机程序被执行时，使得所述计算设备执行上述第一方面和第一方面中任一中实现方式所述的方法。

其中，该计算设备可以是车辆，车载装置或车载芯片。

应理解，本申请的肢体识别方法可以提高用户采用肢体做出指令时的识别准确率，尤其在用户采用动态的肢体动作做出指令时，通过获取肢体的图像信息和位置信息共同确定用户发出的指令，从而提高识别准确率。在获取肢体的图像信息和位置信息后对其进行筛选，选出有效且图像信息对应的时间段和位置信息对应的时间段相同的图像信息和位置信息以作为有效信息，可以进一步提高识别的准确率。本申请的肢体识别方法还定义了图像信息、位置信息和用户指令的对应关系，为易混淆的预设姿态(或易混淆的预设动作轨迹)均定义相同的预设指令，可以避免用户在做出姿态或动作轨迹时，误触发易混淆的预设姿态或预设动作轨迹所对应的预设指令；为具有典型性的动作轨迹(或姿态)均定义同一预设指令，用户只需做出具有典型性的姿态或动作轨迹即可触发对应的指令，而无所谓对应的动作轨迹或对应的姿态，在用户不方便做出复杂动作时，具有典型性的姿态或动作轨迹可以给用户的操作带来更大的便利性。此外，本申请的肢体识别方法在识别过程中还考虑图像信息和位置信息的方向性，从而进一步提高识别准确率。

附图说明

图1是本申请的肢体识别方法应用的系统架构的示意性框图；

图2是本申请的肢体识别方法的示意性流程图；

图3是本申请的用户动作轨迹确定方法的示意图；

图4是本申请的用户手势识别的示意性流程图；

图5是本申请的确定有效位置信息和有效图像信息的示意图；

图6是本申请的肢体识别方法应用的驾驶场景图；

图7是本申请的驾驶场景中传感器的视角图；

图8是本申请的肢体识别方法应用的手机交互场景图；

图9是本申请的肢体识别装置的示意性框图；

图10是本申请的肢体识别装置的结构示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

以肢体中的手部为例，人机交互中的手势识别包括静态手势识别和动态手势识别，其中，静态手势的识别可以通过计算机视觉实现，具体的可以通过识别来自图像传感器采集的图像判断手部的形状，然后映射到预设的姿势定义类型，最终识别出用户的手势。而动态手势的识别也可以通过计算机视觉来实现，通过图像传感器采集多张图像，识别手部的形状和位置变化，然后与训练集中的数据进行对比，最终识别出用户的手势。然而由于受到图像传感器器件规格的限制，一般来说每秒输出的图像为30帧，对于一个动态手势的过程来说，有效的图像数量太少，无法准确还原手部移动的轨迹，给动态手势的准确判断带来困难。此外，采用计算机视觉算法识别手部动作的前提是可以在复杂背景中识别出手部，这就要求用户手部的姿势、朝向和训练集高度一致，然而在实际应用中，由于动态手势在每个时刻都可能发生改变，用户很难保证手部的姿势、朝向与训练集一致，导致计算机视觉算法对动态手势中部分帧无法正确识别。计算机视觉方法对动态手势的识别准确度不高，但如果降低识别标准，又会导致误触发频繁。

因此本申请提供一种肢体识别方法，将图像传感器和雷达传感器相结合，其中雷达传感器用于识别用户肢体运动的轨迹，图像传感器用于识别用户肢体的姿态，以此提高识别的准确率。

本申请的方案可以应用在电子设备的人机交互和车载系统的人机交互场景中。其中，电子设备具体可以包括智能手机、个人数字助理(personal digital assistant，PDA)以及平板电脑等等。车载系统具体可以是车载芯片、车载装置(例如车机、车载电脑、具有手势或肢体识别功能的传感器等)和服务器，服务器包括实体服务器和虚拟服务器，服务器接收端侧(例如车机)上传的数据，对数据进行处理后将处理后的数据发送给端侧。

下面对两种较为常用的应用场景进行简单的介绍，其中用户肢体以手势为例进行说明，应理解，在本申请中，用户的手势包括用户手指、手掌、手臂等部位做出的动作。还应理解，在本申请中，对于肢体的识别不仅包括手部的识别，还可以包括头部、腿部等肢体部位。

应用场景1：智能手机手势交互

在智能手机的手势交互场景中，通过手势识别，可以实现简单、自然、便捷的操作智能手机，甚至通过手势交互可以代替触摸屏。具体地，智能手机可以使用毫米波传感器获取手部的运动轨迹，使用摄像头或者其它外围摄像头作为图像传感器来获取包含手部图像流的图像信息，然后再通过运算单元判断手部的运动轨迹和姿势，得到手势识别信息，然后将手势识别信息上报给操作系统进行响。通过手势识别，可以实现上下翻页、音视频播放、音量控制、阅读浏览等功能，大大提高了智能手机的科技感与交互的便利性。

应用场景2：车载系统手势交互

肢体识别的另外一个重要应用场景是车载系统中的手势交互。在车载系统中，通过手势交互，只需做特定手势，就可以实现对车辆的控制，可以提升车载系统的交互体验。具体地，在车载系统中，可以利用雷达(例如毫米波雷达)获取用户手部的位置，图像传感器进行数据采集得到包含手部图像流的图像信息，然后采用运算单元判断手部的运动轨迹和姿势，最后在车载系统及应用中对检测到的手势进行响应，从而达到手势交互的目的。

图1示出了本申请实施例肢体识别方法应用的系统架构的示意性框图。如图1所示，该系统架构包括摄像头、雷达、运算单元和功能单元。其中运算单元可以是具有运算功能的装置，例如上述智能手机中的运算单元或车载系统中的车机、车载电脑等车载装置或车载芯片等。功能单元可以是应用软件或系统的功能单元等。摄像头通过光线(可见光或红外光)捕捉用户肢体图像，雷达通过发射无线电波并捕捉回波判断用户肢体所在位置。运算单元根据用户肢体图像和位置判断动作轨迹和姿势，识别出对应的指令，并将指令发送给功能单元执行。应理解，图1中的摄像头和雷达可以同时工作，也可以分时工作，本申请实施例在此不做限定。还应理解，图1中的单元可以集成在一起，也可以分开设置。

下面简单介绍雷达捕捉用户肢体运动的原理。

雷达主要利用无线电波的反射来进行成像，具体的，当物体靠近雷达运动，其反射波的波长会变短；当物体远离雷达运动，其反射波的波长则会变长；物体的运动速度越大，波长的变化也越大。如此，通过计算从天线发射无线电波到天线接收到反射波的延时，可以得到物体的位置；通过比较发射波与反射波的波长变化(多普勒频移)，可以计算出物体的速度。

雷达所发射的信号通过锯齿波函数进行调制后由天线进行发射，然后接收手部的反射回波；对于锯齿波调制，由于回波延迟导致的频移和拍频(回波与发射波的频率差)被耦合在一起，需要通过距离-多普勒映射(range Doppler map，RDM)算法进行解耦，再将发射波与回波相乘，然后进行低通滤波；将得到的结果进一步离散采样，进行二维离散傅里叶变换，得到手部的位置延时和多普勒频移等信息，进而得到手部的位置和运动速度。

图2示出了本申请的肢体识别方法的示意性流程图，如图2所示，包括步骤201至步骤203，以下分别进行介绍。

S201，获取用户肢体的多帧图像信息和多个位置信息。

用户的肢体包括用户的手部、胳膊、腿部、头部等可以运动的肢体部位中的一个或多个，在座舱领域中，一般建议采用手部、胳膊或头部中的一个或多个来进行用户指令传达和判决。例如，用户在传达车窗关闭的指令时，可以伸出一个手指向上指，同时胳膊向上挥动，从而传达车窗向上关闭的指令。

这里，多帧图像信息可以用于确定用户肢体的姿态，多个位置信息可以用于确定用户肢体的动作轨迹。具体的，对多帧图像信息进行检测，确定多帧图像信息中每帧图像的用户肢体的姿态，将每帧图像的用户肢体的姿态与预定义的多个姿态集合比较，如果一定比例的图像的用户肢体的姿态属于第一姿态集合，则判定用户肢体的姿态为第一姿态集合对应的姿态；确定多个位置信息中每个位置信息对应的位置点，以用户的手部为例，如图3所示，可以将每个位置信息中用户的手掌中心作为该时刻的位置点，也可以将每个位置信息中用户的手臂中心作为该时刻的位置点，其他肢体也可以类似地人为预设，本申请实施例在此不做限定，然后按照时间顺序将多个位置点连接起来，则可以得到用户肢体的动作轨迹。

应理解，多帧图像信息和多个位置信息对应于相同的时间段。其中相同的含义是指，多帧图像信息的起始时间点与多个位置信息的起始时间点的误差在允许范围内，多帧图像信息的结束时间点与多个位置信息的结束时间点的误差在允许范围内，这里的允许范围可以由人为预设确定，例如允许范围可以是[-0.05秒(s),0.05s]。为了保证多帧图像信息和多个位置信息对应于相同的时间段，可以先获取第一时间段内的用户肢体的第一图像信息和第一位置信息，然后确定第一时间段内用户肢体的有效图像信息或有效位置信息所在的第二时间段，最后获取第二时间段内的有效图像信息和有效位置信息，以作为多帧图像信息和多个位置信息。其中，第一时间段和第二时间段可以是连续的，例如，第一时间段为[0.02s,2.00s]，则第二时间段可以是[0.04s,1.80s]，或者第二时间段也可以是[0.04s,0.80s]与[1.20s,1.80s]两个时间段组成；或者第一时间段和第二时间段也可以是离散的，例如第一时间段为0.02s、0.04s、0.06s、0.08s、0.10s，则第二时间段可以是0.04s、0.06s、0.08s，或者第二时间段也可以是0.04s、0.06s、0.10s。具体实现包括如下三种方式：

(1)获取第一时间段内用户的肢体的第一图像信息和第一位置信息，假设这里的时间段均为连续的时间，例如第一时间段为[0.01s,1.00s]。确定第一位置信息中的有效位置信息，其中有效位置信息可以理解为手势动作内的位置信息。例如，在用户执行手势动作的时候，倘若手势动作为向下挥手，但是用户需要先把手抬到一定高度后再往下挥，那么用户抬手的动作可以理解为无效动作，对应的位置信息可以理解为无效位置信息。类似的，手势动作向下挥的动作，可以理解为有效动作，对应的位置信息可以理解为有效位置信息。在具体实施过程中，为了提高有效位置信息的识别效率，可以利用训练好的机器模型来实现。例如，将标注好有效动作和无效动作中的一个或多个标签的动作图片或位置信息作为训练样本，并将具有大量上述训练样本的训练集输入机器模型中进行训练，并以识别出有效动作或无效动作作为目标(label)，通过深度学习方法来进行训练，以获得与目标接近的结果，并获得相应的神经网络模型。可以通过计算识别正确率的损失参数来评估训练效果，例如，最小均值误差(minimum mean square error，MMSE)，或者，L1范数，或者，感知损失(perception loss)等。然后确定有效位置信息所对应的第二时间段，例如有效位置信息所对应的时间段为[0.02s,0.08s]。最后获取第二时间段内的有效图像信息和有效位置信息，其中由于第二时间段是根据有效位置信息确定的，则有效位置信息已经确定，则在第一图像信息中选取时间戳在[0.02s,0.08s]内的图像信息，即有效图像信息，得到的有效图像信息和有效位置信息即为用户肢体的多帧图像信息和多个位置信息。由于传感器直接获取的图像信息和位置信息并不都是有效信息，例如有的位置信息是用户在为了执行该手势动作时经历的位置信息，例如向下挥手的时候，有些用户会先将手部扬起。或者获取到用户肢体的图像信息时还没有获取到用户的位置信息，此时的图像信息由于与位置信息时间段不相同，可能是无效的信息，因此需要对传感器直接获取的图像信息和位置信息进行筛选。(1)的方法通过只筛选有效位置信息，从而确定有效位置信息和有效图像信息，保证了用户肢体的多帧图像信息和多个位置信息对应于相同的时间段，且可以避免再对图像信息进行筛选，从而减少计算量，提高计算效率，降低计算功耗。

(2)获取第一时间段内用户的肢体的第一图像信息和第一位置信息，假设这里的时间段均为离散的时间戳，例如第一时间段为0.02s、0.04s、0.06s、0.08s、0.10s。确定第一图像信息中的有效图像信息，其中有效图像信息为质量高便于识别的图像信息，例如亮度、分辨率、信噪高于预设阈值的图像信息，然后确定有效图像信息所对应的第二时间段，例如有效图像信息所对应的时间戳为0.04s、0.06s、0.08s。最后获取第二时间段内的有效图像信息和有效位置信息，其中由于第二时间段是根据有效图像信息确定的，则有效图像信息已经确定，则在第一位置信息中选取时间戳为0.04s、0.06s、0.08s的位置信息，即有效位置信息，得到的有效图像信息和有效位置信息即为用户肢体的多帧图像信息和多个位置信息。由于传感器直接获取的图像信息和位置信息并不都是有效信息，例如有的图像信息质量较差(亮度、分辨率、信噪比较低)，或者获取到用户肢体的位置信息时还没有获取到用户肢体的图像信息，此时的位置信息由于与图像信息时间段不相同，可能是无效的信息，因此需要对传感器直接获取的图像信息和位置信息进行筛选。(2)的方法通过只筛选有效图像信息，从而确定有效位置信息和有效图像信息，保证了用户肢体的多帧图像信息和多个位置信息对应于相同的时间段，且可以避免再对位置信息进行筛选，从而减少计算量，提高计算效率，降低计算功耗。

(3)在获取第一时间段内用户的肢体的第一图像信息和第一位置信息之后，还可以按时间窗对第一图像信息或第一位置信息进行扫描，其中时间窗小于第一时间段，扫描得到有效图像信息或有效位置信息，然后再根据有效图像信息或有效位置信息确定有效图像信息和有效位置信息，确定方法可以参照上述，为了简洁，在此不再赘述。

应理解，得到的多帧图像信息和多个位置信息可以全部用于确定用户肢体的姿态和用户肢体的动作轨迹，也可以选取多帧图像信息和多个位置信息中的部分用于确定用户肢体的姿态和用户肢体的动作轨迹。

S202，根据多帧图像信息和多个位置信息，确定用户的指令。

具体的，根据预设图像信息、预设位置信息与预设指令的对应关系以及多帧图像信息和多个位置信息，确定用户的指令。其中，预设图像信息、预设位置信息与预设指令的对应关系为预设的对应关系，具体形式可以是表格或函数等，该预设的对应关系可以存储在云端或本地设备，可以在出厂时就设置好，也可以支持用户自定义或用户在使用过程中按需求更新或新建对应关系，例如可以在用户第一次使用时要求用户定义该对应关系，或者在未识别成功用户的指令时提示用户更新该对应关系等。预设图像信息可以是预设的用户肢体的姿态，预设位置信息可以是预设的用户肢体的动作轨迹。例如预设的对应关系为表格，则在获取了用户肢体的多帧图像信息和多个位置信息后查询表格，即可获取用户肢体的多帧图像信息和多个位置信息所对应的用户指令。

在定义预设对应关系时，如果预设的用户肢体的姿态(以下简称预设姿态)具有典型性，则该预设的用户肢体的姿态无论与何种预设的用户肢体的动作轨迹(以下简称预设动作轨迹)组合，均对应同样的预设指令。即当用户做出具有典型性的姿态时，此时不考虑用户的动作轨迹，均触发同样的指令。其中典型性的姿态可以定义为，当一种预设姿态与其他预设姿态的相似度均低于预设阈值(例如20％)时，则认为该预设姿态具有典型性。

类似的，如果预设动作轨迹具有典型性，则该动作轨迹无论与何种预设姿态组合，均对应同样的预设指令。即当用户做出具有典型性的动作轨迹时，此时不考虑用户的姿态，均触发同样的指令。其中典型性的动作轨迹可以定义为，当一种预设动作轨迹与其他预设动作轨迹的相似度均低于预设阈值(例如20％)时，则认为该预设动作轨迹具有典型性。

具有典型性的姿态或动作轨迹具有较高的用户宽容度，用户只需做出具有典型性的姿态或动作轨迹即可触发对应的指令，而无需再做出特定的动作，在用户不方便做出复杂动作时，具有典型性的姿态或动作轨迹可以给用户的操作带来更大的便利性。

对于不具有典型性的预设姿态和预设动作轨迹，则一种预设姿态和一种预设轨迹的组合共同对应一种预设指令。

如果存在易混淆的预设姿态，例如第一预设姿态与第二预设姿态的相似度大于预设阈值(例如90％)，则判定第一预设姿态与第二预设姿态为易混淆的预设姿态。此时为第一预设姿态与第二预设姿态均定义相同的预设指令，例如第一预设姿态与第一预设动作轨迹对应第一预设指令，第二预设姿态与第一预设动作轨迹也对应第一预设指令，即不同的预设姿态、相同的预设动作轨迹对应相同的预设指令。类似的，对于易混淆的预设动作轨迹，为易混淆的预设动作轨迹均定义相同的预设指令，即不同的预设动作轨迹、相同的预设姿态对应相同的预设指令。为易混淆的预设姿态或易混淆的预设动作轨迹均定义相同的预设指令，可以避免用户在做出姿态或动作轨迹时，误触发易混淆的预设姿态或预设动作轨迹所对应的预设指令，例如如果第一预设姿态与第二预设姿态对应不同的预设指令，则用户做出第一预设姿态时可能会被识别为第二预设姿态，从而误触发第二预设姿态对应的预设指令。此外，为易混淆的预设姿态或易混淆的预设动作轨迹均定义相同的预设指令使得用户宽容度更高，例如用户希望触发第一预设姿态对应的预设指令，可以做出第一预设姿态，也可以做出与第一预设姿态相似的第二预设姿态，即允许用户的姿态与预设姿态可以有一定差别。

此外，还可以根据方向信息，确定用户的指令，其中方向信息由多帧图像信息或多个位置信息确定。例如用户姿态为伸出大拇指，则姿态具有方向性，当大拇指朝左时，表示向左，当大拇指朝右时，表示向右。可选的，在多帧图像信息和多个位置信息均具有方向性时，则在由多帧图像信息确定的姿态的方向与由多个位置信息确定的动作轨迹的方向相同时，确定用户的指令。例如，用户在做出挥手动作时，其动作轨迹具有方向性，例如方向为左-右-左，同时用户伸出大拇指，则姿态也具有方向性，此时当动作轨迹向右且大拇指朝右时，才表示向右，动作轨迹向左且大拇指朝左时，才表示向左。当动作轨迹方向和姿态方向不同时，则判定此时用户做出的指令无效，可以忽略或向用户做出提示。由动作轨迹方向和姿态方向共同确定用户所表示的方向，可以避免动作回撤时引起的方向误判。

S203，触发用户的指令对应的操作。

确定了用户的指令后，则获取该指令对应的操作，并且执行该操作，或者将操作指令发送至执行设备，使执行设备执行相应的操作。

可选的，上述对于用户的图像信息的获取可以通过图像传感器实现，图像传感器包括普通彩色(RGB)摄像头、深度(TOF)摄像头、红外(IR)摄像头等；上述对于用户的位置信息的获取可以通过雷达传感器实现，雷达传感器具体可以是毫米波雷达。位置信息的也可以通过图像传感器确定，或者处理器基于图像信息确定位置信息，即图像信息和位置信息可以直接来自于图像传感器，也可以由图像传感器先获取图像信息，再根据图像信息获取位置信息，还可以图像信息来自于图像传感器，而位置信息来自于雷达传感器。

本申请还提供一种肢体识别方法，该方法包括：获取用户肢体的多个位姿；根据多个位姿的变化，确定用户的指令；触发用户的指令对应的操作。其中位姿的变化包括位置的变化和姿态的变化，以用户的手部为例，位置的变化可以是用户的手部动作轨迹，姿态的变化可以是用户的手部姿态。根据多个位姿的变化，确定用户的指令，具体可以参照上述对于S202的描述，为了简洁，本申请实施例在此不再赘述。

本申请的肢体识别方法可以提高用户采用肢体做出指令时的识别准确率，尤其在用户采用动态的肢体动作做出指令时，通过获取肢体的图像信息和位置信息共同确定用户发出的指令，从而提高识别准确率。在获取肢体的图像信息和位置信息后对其进行筛选，选出有效且图像信息对应的时间段和位置信息对应的时间段相同的图像信息和位置信息以作为有效信息，可以进一步提高识别的准确率。本申请的肢体识别方法还定义了图像信息、位置信息和用户指令的对应关系，为易混淆的预设姿态(或易混淆的预设动作轨迹)均定义相同的预设指令，可以避免用户在做出姿态或动作轨迹时，误触发易混淆的预设姿态或预设动作轨迹所对应的预设指令；为具有典型性的动作轨迹(或姿态)均定义同一预设指令，用户只需做出具有典型性的姿态或动作轨迹即可触发对应的指令，而无所谓对应的动作轨迹或对应的姿态，在用户不方便做出复杂动作时，具有典型性的姿态或动作轨迹可以给用户的操作带来更大的便利性。此外，本申请的肢体识别方法在识别过程中还考虑图像信息和位置信息的方向性，从而进一步提高识别准确率。

下面结合图4、图5具体介绍本申请实施例的肢体识别方法，以下介绍以用户的手势为例进行说明。

如图4所示，首先通过摄像头持续捕捉用户在通过手势做出动作指令的过程中的手部图像，通过毫米波雷达持续定位手部位置。然后根据手部图像或手部位置确定用户发出动作指令的时间段，例如，可以通过手部位置确定用户发出指令的时间段，具体的，在用户通过手势做出动作指令的过程中，雷达算法模块用户的手部位置首先判定动作指令的开始时间为T1，动作指令的结束时间为T2。

根据预先的训练数据，使用分类算法确定每一帧手部图像对应的手部姿态，并将手部位置按时间顺序连接成动作轨迹。视觉算法模块从识别的手部姿态中选出发生时间在T1和T2之间的手部姿态，即对应于图5中的t2至t6的手部姿态。可选的，还可以判定该运动轨迹是否属于预先定义的动作轨迹，如果属于，则继续后续动作指令的判定；如果不属于，则丢弃此次获取的动作轨迹和上述手部图像对应的手部姿态。

当t2至t6的手部姿态结果中一定比例的手部姿态属于同一个手部姿态集，则将T1至T2期间用户的手部姿态识别为该手部姿态。然后在预先定义的指令表中查找该手部姿态和T1至T2期间的动作轨迹共同指示的指令。其中指令表可以定义如表1所示。

表1

	动作轨迹1	动作轨迹2	动作轨迹3	动作轨迹4
手部姿态1	指令A	指令A	指令C	指令D
手部姿态2	指令C	指令C	指令C	指令C
手部姿态3	指令B	指令B	指令C	NA
手部姿态4	指令B	指令B	指令C	NA

如表1所示，假设T1至T2期间用户的手部姿态识别为手部姿态1，通过毫米波雷达获取的用户动作轨迹为动作轨迹1，则根据表1可知，手部姿态1和动作轨迹1共同指示的指令为指令A，因此可以确定用户在T1至T2期间做出指令A。

在识别到指令后，运算单元向对应的应用程序或者显示界面发送指令对应的控制命令。

在实际的应用中，有的动作轨迹之间由于相似度较高而容易发生混淆，例如动作轨迹1与动作轨迹2相似度高，则用户在做出动作轨迹1时容易误触发动作轨迹2所对应的指令。因此本申请实施例的手势识别方法在定义指令表时，为相似度高的动作轨迹定义相同的指令。例如在表1中，手部姿态1与动作轨迹1的组合、手部姿态1与动作轨迹2的组合均对应指令A，手部姿态3与动作轨迹1的组合、手部姿态3与动作轨迹2的组合均对应指令B，由于动作轨迹1与动作轨迹2对应的指令均相同，因此用户在做出指令A或指令B时便不会发生判断混淆。也可以理解为，用户在做出指令时具有更高的宽容度，例如，用户希望做出指令A，可以做出手部姿态1的同时做出动作轨迹1，也可以做出手部姿态1的同时做出与动作轨迹1相似的动作轨迹2，而不要求用户必须严格做出与动作轨迹1 完全相同的动作轨迹。

相应的，有的手部姿态之间由于相似度较高而容易发生混淆，在定义指令表时，可以为相似度高的手部姿态定义相同的指令。例如在表1中，手部姿态3与手部姿态4相似度高，在手部姿态3与动作轨迹1、动作轨迹2、动作轨迹3分别组合触发指令B、指令B、指令C，因此在手部姿态4与动作轨迹1、动作轨迹2、动作轨迹3分别组合时也触发指令B、指令B、指令C，由此可以避免手部姿态相似而导致的误触发。

对于具有典型性，即具有显著识别性的动作轨迹，无需再叠加手部姿态的判断，这样用户在做出指令时具有更高的宽容度。因此本申请中为具有典型性的动作轨迹均定义同样的指令，例如表1中动作轨迹3具有典型性，因此动作轨迹3与手部姿态1、2、3、4分别组合均对应指令C，由此用户在做出动作轨迹3时均触发指令C，而无需再判断用户此时的手部姿态，在提高用户宽容度的同时降低计算功耗。

相应的，对于具有典型性的手部姿态均定义同样的指令，例如表1中的手部姿态2，与动作轨迹1、2、3、4组合均对应指令C。

由于用户在交互期间可能会做出日常活动的动作，例如拿东西或与其他人交流时做出的动作，这些动作的手部姿态或动作轨迹可能与指令表中定义的手部姿态、动作轨迹相似，从而可能导致指令的误触发。因此本申请在定义指令表时，将与日常活动相似的手部姿态和动作轨迹不定义到指令表中。此外，对于指令表中定义的有的手部姿态与动作轨迹的组合可能与日常活动的动作相似，对于这样的组合，则不为其定义指令，即表1中的NA，由此可以避免用户在日常活动中误触发指令。

本申请在定义手部姿态与动作轨迹时，还考虑到手部姿态与动作轨迹的方向性。在某些场景中，例如用户做多次向右挥手，此时动作轨迹为向右-向左-向右，而向左其实为撤回动作，但可能被识别为向左挥手。因此本申请将动作轨迹与手部姿态的方向相结合，例如在动作轨迹向右+大拇指向右的情况下才表示向右，在动作轨迹向左+大拇指向左的情况下才表示向左，或者仅大拇指向右的情况下表示向右，仅大拇指向左的情况下表示向左，此时大拇指具有方向性的手部姿态即为上述具有典型性的手部姿态，而仅动作轨迹向右或向左时不能触发指令。

本申请将手部姿态与动作轨迹组合，可以实现指令的扩展。例如仅适用动作轨迹，动作轨迹1只能对应一个指令，而与多个手部姿态组合后，形成的多个组合可以表示多个指令。在一些场景例如驾驶场景中，识别率高、用户容易完成且不易误触发的动作轨迹并不多，而将动作轨迹与手部姿态组合，可以增加指令的数量。

本申请的识别方法可以应用在图6所示的驾驶场景中，如图6所示，在驾驶员驾驶过程中，可以通过车内的图像传感器和雷达传感器采集驾驶员的数据。图像传感器可以是普通彩色(RGB)摄像头、深度(TOF)摄像头、红外(IR)摄像头等，雷达传感器具体可以是毫米波雷达。如图6所示，图像传感器和雷达传感器可以设置在车内挡风玻璃周围，也可以设置在后视镜周围、方向盘周围等不影响驾驶的位置，图像传感器可以设置在靠近的位置，也可以分开设置在不同的位置。

图7示出了驾驶场景中传感器的视角，如图7所示，驾驶员在做出指令(例如采用手势的方式做出指令)后，采用本申请的识别方法对驾驶员的指令进行识别，然后触发该指令对应的操作。例如，驾驶员可以用手势做出指令从而以非接触的方式控制显示屏，或者控制音响播放音乐，或者控制座椅进行调节，或者控制车窗的升降等。如此，可以实现驾驶员在无需发出声音且无需触碰的情况下对车辆或车辆内部的设备进行控制，方便驾驶员的操作，提高驾驶安全性。

本申请的肢体识别方法可以应用在图8所示的手机交互场景中，如图8所示，可以通过手机内置的摄像头和雷达获取用户的手部数据，然后采用本申请的识别方法对用户的指令进行识别，最后触发该指令对应的操作。例如，用户可以在不触碰手机的情况下，实现手机的开机、唤醒、关机或对手机内的应用程序进行操作，提升用户体验。

以手势为例，用户手部的姿态和动作轨迹可以包括如下：

(1)伸出一根手指连续画圈，画圈方向包括顺时针、逆时针；圆圈的转动轴方向包括竖直方向和水平方向。

(2)大拇指伸出，向左、右、上、下挥动。

(3)五指张开，向传感器方向接近或远离。

(4)以固定的手势做复杂的动作轨迹，例如画S、M、N、Z、L、U、V、W等字母。

应理解，上述只是对用户手部的姿态和动作轨迹的举例说明，并不构成对本申请中用户的图像信息和位置信息的限定。用户的预设图像信息和预设位置信息可以根据实际应用需求灵活定义。

上文结合附图对本申请实施例的肢体识别方法进行了详细的描述，下面对本申请实施例的肢体识别装置进行描述，应理解，本申请实施例的肢体识别装置能够执行本申请的肢体识别方法的各个步骤，下面在介绍本申请实施例的肢体识别装置时适当省略重复的描述。

图9为本申请的肢体识别装置的示意性框图，该肢体识别装置可以是终端，也可以是终端内部的芯片，如图9所示，包括获取模块901，处理模块902，以下进行简要介绍。

获取模块901，用于获取用户肢体的多帧图像信息和多个位置信息。

处理模块902，用于根据多帧图像信息和多个位置信息，确定用户的指令。

处理模块902还用于触发用户的指令对应的操作。

可选的，多帧图像信息用于确定用户肢体的姿态，多个位置信息用于确定用户肢体的动作轨迹。

可选的，处理模块902根据多帧图像信息和多个位置信息，确定用户的指令，包括：根据预设图像信息、预设位置信息与预设指令的对应关系以及多帧图像信息和多个位置信息，确定用户的指令。

可选的，预设图像信息包括多种预设姿态，预设位置信息包括多种预设动作轨迹，多种预设姿态中不同的预设姿态对应相同的预设指令，或，多种预设动作轨迹中不同的预设动作轨迹对应相同的预设指令。

可选的，预设图像信息包括多种预设姿态，预设位置信息包括多种预设动作轨迹，同一预设动作轨迹、不同的预设姿态对应相同的预设指令，或，同一预设姿态、不同的预设动作轨迹对应相同的预设指令。

可选的，多帧图像信息和多个位置信息对应相同的时间段。

可选的，获取模块901获取用户肢体的多帧图像信息和多个位置信息，包括：获取第一时间段内用户肢体的图像信息或位置信息；确定第一时间段内用户肢体的有效图像信息或有效位置信息所在的第二时间段；获取第二时间段内的有效图像信息和有效位置信息，以作为多帧图像和多个位置信息。

可选的，处理模块902根据多帧图像信息和多个位置信息，确定用户的指令，包括：根据方向信息，确定用户的指令，方向信息由多帧图像信息或多个位置信息确定。

可选的，处理模块902还用于：在由多帧图像信息确定的姿态的方向与由多个位置信息确定的动作轨迹的方向相同时，确定用户的指令。

可选的，获取模块901可以是图像传感器，用于获取多帧图像信息，获取模块901可以是雷达传感器，用于获取多个位置信息。

应理解，图9所示的肢体识别装置可以用于实现上述肢体识别方法200，其中获取模块901用于实现步骤201，处理模块用于实现步骤202和步骤203，图9所示的肢体识别装置还可以用于实现图3至图8所述的肢体识别方法，具体步骤可以参照上述对于图3至图8的描述，为了简洁，本申请在此不再赘述。

应理解的是，本申请实施例中的肢体识别装置可以由软件实现，例如，具有上述功能的计算机程序或指令来实现，相应计算机程序或指令可以存储在终端内部的存储器中，通过处理器读取该存储器内部的相应计算机程序或指令来实现上述功能。或者，本申请实施例中的肢体识别装置还可以由硬件来实现。其中处理模块902为处理器(如NPU、GPU、系统芯片中的处理器)，获取模块901为数据接口。或者，本申请实施例中的肢体识别装置还可以由处理器和软件模块的结合实现。具体地，获取模块901可以为处理器的接口电路，或者，终端的图像传感器或雷达传感器等。例如，终端的图像传感器或雷达传感器将获取的用户肢体图像信息和位置信息，发送给处理器接口电路。

图10是本申请实施例的识别装置的结构示意图。图10所示的识别装置1000包括存储器1001、处理器1002、通信接口1003以及总线1004。其中，存储器1001、处理器1002、通信接口1003通过总线1004实现彼此之间的通信连接。

应理解，图9中的获取模块901可以相当于识别装置1000中的传感器(图10中未示出传感器)，处理模块902可以相当于识别装置1000中的处理器1002。下面对识别装置1000中的各个模块和单元进行详细的介绍。

存储器1001可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器1001可以存储程序，当存储器1001中存储的程序被处理器1002执行时，处理器1002用于执行本申请实施例的识别方法的各个步骤。

具体地，处理器1002可用于执行图2所示的方法中的步骤202至步骤203。另外，处理器1002还可以执行图3至图8所示的过程。

当处理器1002执行步骤202至步骤203时，处理器1002可以通过通信接口1003从识别装置1000的传感器获取用户肢体的多帧图像信息和多个位置信息，并根据多帧图像信息和多个位置信息确定用户的指令。

处理器1002可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的识别方法。

处理器1002还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的识别方法的各个步骤可以通过处理器1002中的硬件的集成逻辑电路或者软件形式的指令完成。

上述处理器1002还可以是通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1001，处理器1002读取存储器1001中的信息，结合其硬件完成识别装置中包括的单元所需执行的功能，或者执行本申请方法实施例的识别方法。

通信接口1003使用例如但不限于收发器一类的收发装置，来实现装置1000与其他设备或通信网络之间的通信。例如，可以通过通信接口1003获取用户肢体的多帧图像信息和多个位置信息。

总线1004可包括在装置1000各个部件(例如，存储器1001、处理器1002、通信接口1003)之间传送信息的通路。

本申请还提供一种芯片，该芯片包括处理器与数据接口，处理器通过数据接口读取存储器上存储的指令，以执行上述图2至图8中的方法。

本申请还提供一种计算设备，该计算设备包括：存储器，用于存储计算机程序，处理器，用于从存储器调用计算机程序，当计算机程序被执行时，使得计算设备执行上述图2至图8中的方法。

本申请还提供一种车载系统，包括：图像传感器，用于获取用户肢体的多帧图像信息；雷达传感器，用于获取用户肢体的多个位置信息；以及上述的计算设备。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种肢体识别方法，其特征在于，包括：

获取用户肢体的多帧图像信息和多个位置信息；

根据所述多帧图像信息和所述多个位置信息，确定所述用户的指令；

触发所述用户的指令对应的操作。
如权利要求1所述的方法，其特征在于，所述多帧图像信息用于确定所述用户肢体的姿态，所述多个位置信息用于确定所述用户肢体的动作轨迹。
如权利要求1或2所述的方法，其特征在于，所述根据所述多帧图像信息和所述多个位置信息，确定所述用户的指令，包括：

根据预设图像信息、预设位置信息与预设指令的对应关系以及所述多帧图像信息和所述多个位置信息，确定所述用户的指令。
如权利要求3所述的方法，其特征在于，所述预设图像信息包括多种预设姿态，所述预设位置信息包括多种预设动作轨迹，

所述多种预设姿态中不同的预设姿态对应相同的预设指令，或，

所述多种预设动作轨迹中不同的预设动作轨迹对应相同的预设指令。
如权利要求3或4所述的方法，其特征在于，所述预设图像信息包括多种预设姿态，所述预设位置信息包括多种预设动作轨迹，

同一预设动作轨迹、不同的预设姿态对应相同的预设指令，或，

同一预设姿态、不同的预设动作轨迹对应相同的预设指令。
如权利要求1至5中任一项所述的方法，其特征在于，所述多帧图像信息和所述多个位置信息对应相同的时间段。
如权利要求1至6中任一项所述的方法，其特征在于，所述获取用户肢体的多帧图像信息和多个位置信息，包括：

获取第一时间段内用户肢体的图像信息或位置信息；

确定所述第一时间段内用户肢体的有效图像信息或有效位置信息所在的第二时间段；

获取所述第二时间段内的有效图像信息和有效位置信息，以作为所述多帧图像和所述多个位置信息。
如权利要求1至7中任一项所述的方法，其特征在于，所述根据所述多帧图像信息和所述多个位置信息，确定所述用户的指令，包括：

根据方向信息，确定所述用户的指令，所述方向信息由所述多帧图像信息或所述多个位置信息确定。
如权利要求8所述的方法，其特征在于，所述方法还包括：

在由所述多帧图像信息确定的姿态的方向与由所述多个位置信息确定的动作轨迹的方向相同时，确定所述用户的指令。
如权利要求1至9中任一项所述的方法，其特征在于，所述多帧图像信息来自图像传感器，所述多个位置信息来自雷达传感器。
一种肢体识别装置，其特征在于，包括：

获取模块，用于获取用户肢体的多帧图像信息和多个位置信息；

处理模块，用于根据所述多帧图像信息和所述多个位置信息，确定所述用户的指令；

所述处理模块还用于触发所述用户的指令对应的操作。
如权利要求11所述的装置，其特征在于，所述多帧图像信息用于确定所述用户肢体的姿态，所述多个位置信息用于确定所述用户肢体的动作轨迹。
如权利要求11或12所述的装置，其特征在于，所述处理模块根据所述多帧图像信息和所述多个位置信息，确定所述用户的指令，包括：

根据预设图像信息、预设位置信息与预设指令的对应关系以及所述多帧图像信息和所述多个位置信息，确定所述用户的指令。
如权利要求13所述的装置，其特征在于，所述预设图像信息包括多种预设姿态，所述预设位置信息包括多种预设动作轨迹，

所述多种预设姿态中不同的预设姿态对应相同的预设指令，或，

所述多种预设动作轨迹中不同的预设动作轨迹对应相同的预设指令。
如权利要求13或14所述的装置，其特征在于，所述预设图像信息包括多种预设姿态，所述预设位置信息包括多种预设动作轨迹，

同一预设动作轨迹、不同的预设姿态对应相同的预设指令，或，

同一预设姿态、不同的预设动作轨迹对应相同的预设指令。
如权利要求11至15中任一项所述的装置，其特征在于，所述多帧图像信息和所述多个位置信息对应相同的时间段。
如权利要求11至16中任一项所述的装置，其特征在于，所述获取模块获取用户肢体的多帧图像信息和多个位置信息，包括：

获取第一时间段内用户肢体的图像信息或位置信息；

确定所述第一时间段内用户肢体的有效图像信息或有效位置信息所在的第二时间段；

获取所述第二时间段内的有效图像信息和有效位置信息，以作为所述多帧图像和所述多个位置信息。
如权利要求11至17中任一项所述的装置，其特征在于，所述处理模块根据所述多帧图像信息和所述多个位置信息，确定所述用户的指令，包括：

根据方向信息，确定所述用户的指令，所述方向信息由所述多帧图像信息或所述多个位置信息确定。
如权利要求18所述的装置，其特征在于，所述处理模块还用于：

在由所述多帧图像信息确定的姿态的方向与由所述多个位置信息确定的动作轨迹的方向相同时，确定所述用户的指令。
如权利要求11至19中任一项所述的装置，其特征在于，所述多帧图像信息来自图像传感器，所述多个位置信息来自雷达传感器。
一种肢体识别装置，其特征在于，包括处理器和存储器，所述存储器用于存储程序指令，所述处理器用于调用所述程序指令来执行如权利要求1至10中任一项所述的方法。
一种芯片，其特征在于，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，以执行如权利要求1至10中任一项所述的方法。
一种计算设备，其特征在于，包括：

存储器，用于存储计算机程序，

处理器，用于从所述存储器调用计算机程序，当所述计算机程序被执行时，使得所述计算设备执行如权利要求1至10中任一项所述的方法。