WO2020244075A1

WO2020244075A1 - 手语识别方法、装置、计算机设备及存储介质

Info

Publication number: WO2020244075A1
Application number: PCT/CN2019/103387
Authority: WO
Inventors: 朱文和
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-06-05
Filing date: 2019-08-29
Publication date: 2020-12-10
Also published as: CN110363077A

Abstract

一种手语识别方法、手语识别装置、计算机设备及非易失性可读存储介质，所述方法包括：获取多组用户手部深度图像信息；确定每一组手部深度图像信息中每张图片信息内用户左右手手掌及手指骨骼的三维空间坐标；将每组手部深度图像信息内的多张图片中用户左右手手掌及手指骨骼的三维空间坐标组成一组向量，为每组向量打标签，将多组向量及其对应的标签作为训练样本数据集，所述标签用于标识每组向量对应的手语单词的语义；构建手语识别训练模型，将所述训练样本数据集输入所述手语识别模型对所述手语识别模型进行训练；测试所述手语识别模型；所述手语识别模型对输入的手语图像进行识别。该方法使得手语识别更加准确、智能且高效。

Description

手语识别方法、装置、计算机设备及存储介质

本申请要求于2019年06月05日提交中国专利局，申请号为201910484375.2发明名称为“手语识别方法、装置、计算机装置及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，具体涉及一种手语识别方法、手语识别装置、计算机设备及非易失性可读存储介质。

背景技术

世界上聋哑人的数量众多，他们主要通过手语与人进行交流，但与没有手语学习基础的人进行交流存在严重的障碍。目前出现了基于数据手套的手语识别的方法，使用手语的人需要佩戴专用的数据手套，手套上的传感器将采集到的位置、速度等信息反馈给计算机进行手势识别。该方法的优点是可以精确地追踪目标的位置和轨迹，实时性强；缺点是设备昂贵，用户需要佩戴专用的手套,削弱了人机交互的自然性，所以难以在现实生活中推广。

发明内容

鉴于以上内容，有必要提出一种手语识别方法及装置、计算机设备和非易失性可读存储介质，使得手语识别更加准确、高效和智能化。

一种手语识别方法，所述方法包括：

获取深度摄像机拍摄的多组手部深度图像信息，其中，每组手部深度图像信息中均包括左右手手掌及手指骨骼的一系列连续手语动作对应的多张的深度图像；

确定每一组手部深度图像信息中每张深度图像内左右手手掌及手指骨骼在三维空间坐标系中的三维空间坐标；

将每组手部深度图像信息内的多张深度图像中左右手手掌及手指骨骼的三维空间坐标组成一组向量，并为每组向量打标签，将多组所述向量及向量对应的标签作为训练样本数据集，其中，所述标签用于标识每组向量对应的手语单词的语义；

构建手语识别模型，将所述训练样本数据集输入所述手语识别模型对所述手语识别模型进行训练；

获取测试样本数据集，将所述测试样本数据集输入所述手语识别模型测试所述手语识别模型；

获取用户输入的手语图像，将所述手语图像输入所述手语识别模型，对所述用户输入的手语图像进行手语识别。

一种手语识别装置，所述装置包括：

手部图像获取模块，用于获取深度摄像机拍摄的多组手部深度图像信息，其中，每组手部深度图像信息中均包括左右手手掌及手指骨骼的一系列连续手语动作对应的多张的深度图像；

三维空间坐标确定模块，用于确定每一组手部深度图像信息中每张深度图像内左右手手掌及手指骨骼在三维空间坐标系中的三维空间坐标；

训练样本数据集生成模块，用于将每组手部深度图像信息内的多张深度图像中左右手手掌及手指骨骼的三维空间坐标组成一组向量，并为每组向量打标签，将多组所述向量及所述向量对应的标签作为训练样本数据集，其中，所述标签用于标识每组向量对应的手语单词的语义；

模型训练模块，用于构建手语识别模型，将所述训练样本数据集输入所述手语识别模型对所述手语识别模型进行训练；

模型测试模块，用于获取测试样本数据集，将所述测试样本数据集输入所述手语识别模型测试所述手语识别模型；

手语识别模块，用于获取用户输入的手语图像，使用所述手语识别模型对所述用户输入的手语图像进行手语识别。

一种计算机设备，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机可读指令时实现如前所述的手语识别方法。

一种非易失性可读存储介质，其上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如前所述的手语识别方法。

本申请通过获取用户手部深度图像信息作为训练样本，并通过手语识别模型来自动识别用户的手语，使得手语识别更加准确、智能且高效，为聋哑人和正常人的交流提供了方便。

附图说明

图1手语识别是本申请一实施例提供的手语识别方法的应用环境架构示意图。

图2是本申请一实施例提供的手语识别方法流程图。

图3是本申请一实施例提供的手语识别装置的结构示意图。

图4是本申请一实施例提供的计算机设备示意图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施例对本申请进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

参阅图1所示，为本申请一实施例提供的手语识别方法的应用环境架构示意图。

本申请中的手语识别方法应用在计算机设备1中，所述计算机设备1可以为安装有手语识别软件的电子设备，例如平板电脑、智能手机、台式计算机、服务器等，其中，所述服务器可以是单一的服务器、服务器集群或云服务器等。

所述计算机设备1和至少一个深度摄像装置2交互通信。所述深度摄像装置2用于拍摄三维图像。其中，所述深度摄像装置2可以是Kinect深度摄像机等具有深度摄像功能的装置。所述深度摄像装置2可以直接设置于所述计算机设备1中，也可以和所述计算机设备1通过有线或无线方式建立通信连接从而实现交互通信。

请参阅图2所示，是本申请一实施例提供的手语识别方法的流程图。根据不同的需求，所述流程图中步骤的顺序可以改变，某些步骤可以省略。

步骤S1、获取深度摄像机拍摄的用户的多组手部深度图像信息，其中，每组手部深度图像信息中均包括左右手手掌及手指骨骼进行的一系列连续手语动作对应的多张的深度图像。

世界上每一种手语是由多个手语单词组成的，例如这些手语单词可以是“你好”、“我”、“明天”等，每个手语单词都对应一系列连续的动作。所述从深度摄像机获取的每一组用户手部深度图像信息中的多张图片信息均对应一种手语中的一个单词，举例而言，手语单词“你好”对应一系列连续动作的多张(例如5张)图像信息，手语单词“明天”也对应一系列连续动作的多张(例如5张)图像信息。

所述用户手部深度图像信息可以是利用Kinect摄像机获取的，所述Kinnect摄像机采集用户手部一系列动作的视频图像数据，所述一系列动作的视频图像数据中包括多张手部图像。

本申请一实施方式中，所述步骤S1还可以包括：将所述从深度摄像机获取的多组用户手部深度图像信息进行降噪处理。

由于深度摄像机在采集用户手部深度图像信息时可能受到环境中灯光、背景等因素影响，导致采集的图像质量不高，常常包含毛刺噪声，为了保证识别精度，需要对采集到的深度图像进行降噪处理。

一个实施方式中，对所述深度图像进行降噪处理具体可以是对所述深度图像中的离散点进行滤波处理，所述降噪处理步骤如下：

(1)计算点云中的点的欧氏距离；

(2)取一阈值，将欧氏距离小于此阈值的归为同类；

(3)统计每一类的点云数，将点云数最少的预设类别删除，例如将点云数最少的5％的类删除。

步骤S2、确定每一组手部深度图像信息中每张深度图像内左右手手掌及手指骨骼在三维空间坐标系中的三维空间坐标。

本实施方式中，用户手部操作空间与所述三维空间坐标系成线性对应关系，其中，所述手部操作空间为手部一系列连续动作的真实空间，利用深度摄像机从所述手部操作空间采集的图像数据可以获取手部一系列连续的深度图像。上述三维空间坐标系是指用于显示三维图像的立体图像数据所对应的空间坐标系。所述方法中，从深度摄像机获取用户手部的深度图像后，根据左右手手掌及左右手手指骨骼信息及深度信息结合获得左右手手掌及手指骨骼在所述三维空间坐标系中对应的三维空间坐标点。

本实施方式中，由于每一组用户手部深度图像中都包含有一系列连续动作对应的多张图片信息，所述步骤S2中是提取每张图片信息中的用户左右手手掌及手指骨骼的三维空间坐标。举例而言，一组用户手部深度图像中包括5张深度图像，所述步骤S2中确定这5张身度图像中每一张深度图像的用户左手手掌三维空间坐标值。

步骤S3、将每组手部深度图像信息内的多张深度图像中左右手手掌及手指骨骼的三维空间坐标组成一组向量，并为每组向量打标签，将多组所述向量及其对应的标签作为训练样本数据集，其中，所述标签用于标识每组向量对应的手语单词的语义。

由于每一组用户手部深度图像中都包含有连续手语动作对应的多张深度图片，因此每一组向量由一组用手部深度图像中连续手语动作对应的多张图片中的用户左手手掌三维空间坐标、左手手指骨骼三维空间坐标、右手手掌的空间坐标、右手手指骨骼的三维空间坐标组成。

举例而言，当第一组用户手部深度图像中包括1-5共5张深度图像，第1张深度图像中用户左右手手掌及手指骨骼的三维空间坐标分别为(a1,a2,a3,a4)；第2张深度图像中用户左右手手掌及手指骨骼的三维空间坐标分别为(b1,b2,b3,b4)；第3张深度图像中用户左右手手掌及手指骨骼的三维空间坐标分别为(c1,c2,c3,c4)；第4张深度图像中用户左右手手掌及手指骨骼的三维空间坐标分别为(d1,d2,d3,d4)；第5张深度图像中用户左右手手掌及手指骨骼的三维空间坐标分别为(e1,e2,e3,e4)，那么所述第一组向量I ₁为：

以此类推，得到多组用户手部深度图像对应的多组向量I ₁-I _n。

本实施方式中，每一组向量对应的标签代表所述向量对应的手语单词的语义所述标签可以用数字符号代表，例如第一组向量的标签L＝01，代表手语单词“你好”，第二组向量的标签L＝02代表手语单词“我”，第三组向量的标签L＝03代表手语单词“明天”。

本实施方式中，所述标签是通过人工方式添加的。

一实施方式中，所述步骤S3还可以包括统一向量大小，具体包括如下步骤：

1)设置向量最大值；

2)确定每组向量是否达到所述向量最大值，若未达到所述向量最大值，则将该组向量用0补齐，使得该组向量值与所述设置的向量最大值的数据量相等。

手语单词之前的差异导致每个手语单词对应的手势的动作和持续时间不同，相应地每个手语单词对应获取的深度图片数量也不同，这样就导致每组向量中的数据量不同，通过设置向量最大值将每组向量统一大小，便于计算。

步骤S4、构建手语识别模型，将所述训练样本数据集输入所述手语识别模型对所述手语识别模型进行训练。

在一个实施例中，可以采用LSTM(Long Short-Term Memory，长短期记忆网络)神经网络训练所述手语识别模型。

LSTM型神经网络的基本思想是通过输入门(Input Gate)、输出门(Output Gate)和遗忘门(Forget Gate)这些不同类型的门结构来控制信息的流动。在本实施例中，所述LSTM型神经网络采用下式控制信息的流动：

I _t＝σ(W _ixI _t+W _imm _t-1+W _icC _t-1+b _i)；

F _t＝σ(W _FxI _t+W _Fmm _t-1+W _FcC _t-1+b _F)；

c _t＝F _t⊙c _t-1+It⊙g(W _cxI _t+W _cmm _t-1+b _c)；

O _t＝σ(W _OxI _t+W _Omm _t-1+W _OcC _t-1+b _O)；

m _t＝O _t⊙h(C _t)；

其中，给定输入序列I＝(I1,I2...IT)，T为输入序列的长度，I _t为t时刻的输入，W为权重矩阵，b为偏置矩阵，I、F、c、O、m分别代表输入Input Gate、Forget Gate、Output Gate、状态单元以及LSTM结构的输出；

其中，σ为三个控制门的激励函数，公式为:

其中，h为状态的激励函数，公式为：

通过结构和计算公式可以看出LSTM型神经网络具有缓存历史的状态信息的作用，并且通过门结构对历史信息进行维护，从而扩展了大范围上下文信息对当前信息的影响，提升了连续手语识别的准确率。

步骤S5、获取测试样本数据集，对训练完成的所述手语识别模型进行测试。

在一个实施例中，所述测试样本数据集的获取方法与所述训练样本数据集的获取方法相同。

在另一个实施例中，所述测试样本数据集也可以是由网络数据库中获取的测试样本数据集，例如由网络数据库中获取的三维手语视频图像。

在一个实施例中，所述测试所述手语识别模型包括：

(1)将测试样本数据集中的多组手语所对应的用户手部深度图像输入到所述手语识别模型，获得所述手语识别模型对应输出的手语语义；

(2)确定所述手语识别模型输出正确手语语义的正确率,根据所确定的正确率确定是否要重新训练所述手语识别模型。

在一个实施例中，若所述手语识别模型输出正确手语的正确率小于一个预设值，则回到步骤S1，获取更多样本数据，通过步骤S2-S4对新增的样本数据进行处理，将处理后的所述新增的样本数据结合前一次的样本数据重新训练所述手语识别模型。若正确率大于所述预设值，则所述手语模型训练完成。

步骤S6、获取用户输入的手语图像，将所述手语图像输入所述手语识别模型，对所述输入的手语图像进行手语识别。

上述图2详细介绍了本申请的手语识别方法，下面结合第3-4图，对实现所述手语识别方法的软件装置的功能模块以及实现所述手语识别方法的硬件装置架构进行介绍。

应所述了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

图3为本申请手语识别装置较佳实施例的结构图。

在一些实施例中，手语识别装置10运行于计算机设备中。所述手语识别装置10可以包括多个由程序代码段所组成的功能模块。所述手语识别装置10中的各个程序段的程序代码可以存储于计算机设备的存储器中，并由所述至少一个处理器所执行，以实现手语识别功能。

本实施例中，所述手语识别装置10根据其所执行的功能，可以被划分为多个功能模块。参阅图3所示，所述功能模块可以包括：手部图像获取模块101、三维空间坐标确定模块102、训练样本数据集生成模块103、模型训练模块104、模型测试模块105、手语识别模块106。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机可读指令段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

所述手部图像获取模块101用于从深度摄像机获取多组用户手部深度图像信息，其中，每组手部深度图像信息中包括用户左右手手掌及手指骨骼进行的一系列连续手语动作对应的多张的深度图像。

本申请一实施方式中，所述手部图像获取模块101还用于将所述从深度摄像机获取的多组用户手部深度图像信息进行降噪处理。

(1)计算点云中的点的欧氏距离；

(2)取一阈值，将欧氏距离小于此阈值的归为同类；

三维空间坐标确定模块102用于确定每一组手部深度图像信息中每张图片信息内用户左右手手掌及手指骨骼在三维空间坐标系中的三维空间坐标。

本实施方式中，由于每一组用户手部深度图像中都包含有一系列连续动作对应的多张图片信息，所述三维空间坐标确定模块102是提取每张图片信息中的用户左右手手掌及手指骨骼的三维空间坐标。举例而言，一组用户手部深度图像中包括5张深度图像，所述三维空间坐标确定模块102确定这5张身度图像中每一张深度图像的用户左手手掌三维空间坐标值。

所述训练样本数据集生成模块103用于将每组手部深度图像信息内的多张图片中用户左右手手掌及手指骨骼的三维空间坐标组成一组向量，并为每组向量打标签，将多组向量及其对应的标签作为训练样本数据集，其中，所述标签用于标识每组向量对应的手语单词的语义。

本实施方式中，所述标签是通过人工方式添加的。

一实施方式中，训练样本数据集生成模块103还用于统一向量大小，具体包括如下步骤：

1)设置向量最大值；

所述模型训练模块104用于构建手语识别训练模型，将所述训练样本数据集输入所述手语识别模型对所述手语识别模型进行训练。

I _t＝σ(W _ixI _t+W _imm _t-1+W _icC _t-1+b _i)；

F _t＝σ(W _FxI _t+W _Fmm _t-1+W _FcC _t-1+b _F)；

c _t＝F _t⊙c _t-1+It⊙g(W _cxI _t+W _cmm _t-1+b _c)；

O _t＝σ(W _OxI _t+W _Omm _t-1+W _OcC _t-1+b _O)；

m _t＝O _t⊙h(C _t)；

其中，给定输入序列I＝(I1,I2...IT)，T为输入序列的长度，It为t时刻的输入，W为权重矩阵，b为偏置矩阵，I、F、c、O、m分别代表输入Input Gate、Forget Gate、Output Gate、状态单元以及LSTM结构的输出；

其中，σ为三个控制门的激励函数，公式为:

其中，h为状态的激励函数，公式为：

模型测试模块105用于获取测试样本数据集，对所述步骤S4训练完成的手语识别模型进行测试。

在一个实施例中，所述测试所述手语识别模型包括：

(2)确定所述手语识别模型输出正确手语语义的正确率,根据所确定的正确率确定是否要重新训练所述手语识别模型在一个实施例中，若所述手语识别模型输出正确手语的正确率小于一个预设值，则继续获取训练样本数据集对所述模型进行训练，对新增的样本数据进行处理，将处理后的所述新增的样本数据结合前一次的样本数据重新训练所述手语识别模型。若正确率大于所述预设值，则所述手语模型训练完成。

手语识别模块106获取用户输入的手语图像，使用步骤S4-S5中训练完成并通过测试的手语识别模型对所述用户输入的手语图像进行手语识别。

图4为本申请计算机设备较佳实施例的示意图。

所述计算机设备1包括存储器20、处理器30以及存储在所述存储器20中并可在所述处理器30上运行的计算机可读指令40，例如手语识别程序。所述处理器30执行所述计算机可读指令40时实现上述手语识别方法实施例中的步骤，例如图2所示的步骤S1～S6。或者，所述处理器30执行所述计算机可读指令40时实现上述手语识别装置实施例中各模块/单元的功能，例如图3中的模块101-106。

示例性的，所述计算机可读指令40可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器20中，并由所述处理器30执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，所述指令段用于描述所述计算机可读指令40在所述计算机设备1中的执行过程。例如，所述计算机可读指令40可以被分割成图3中的手部图像获取模块101、三维空间坐标确定模块102、训练样本数据集生成模块103、模型训练模块104、模型测试模块105、手语识别模块106。各模块具体功能参见实施例三。

所述计算机设备1可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解，所述示意图仅仅是计算机设备1的示例，并不构成对计算机设备1的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述计算机设备1还可以包括输入输出设备、网络接入设备、总线等。

所称处理器30可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者所述处理器30也可以是任何常规的处理器等，所述处理器30是所述计算机设备1的控制中心，利用各种接口和线路连接整个计算机设备1的各个部分。

所述存储器20可用于存储所述计算机可读指令40和/或模块/单元，所述处理器30通过运行或执行存储在所述存储器20内的计算机可读指令和/或模块/单元，以及调用存储在存储器20内的数据，实现所述计算机设备1的各种功能。所述存储器20可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备1的使用所创建的数据(比如音频数据等)等。此外，存储器20可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

在本申请所提供的几个实施例中，应所述理解到，所揭露的计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的计算机设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

最后应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。

Claims

一种手语识别方法，其特征在于，所述方法包括：

获取深度摄像机拍摄的多组手部深度图像信息，其中，每组手部深度图像信息中均包括左右手手掌及手指骨骼的一系列连续手语动作对应的多张的深度图像；

确定每一组手部深度图像信息中每张深度图像内左右手手掌及手指骨骼在三维空间坐标系中的三维空间坐标；

将每组手部深度图像信息内的多张深度图像中左右手手掌及手指骨骼的三维空间坐标组成一组向量，并为每组向量打标签，将多组所述向量及向量对应的标签作为训练样本数据集，其中，所述标签用于标识每组向量对应的手语单词的语义；

构建手语识别模型，将所述训练样本数据集输入所述手语识别模型对所述手语识别模型进行训练；

获取测试样本数据集，将所述测试样本数据集输入所述手语识别模型测试所述手语识别模型；

获取用户输入的手语图像，将所述手语图像输入所述手语识别模型，对所述用户输入的手语图像进行手语识别。
如权利要求1所述的手语识别方法，其特征在于，所述方法还包括：将从所述深度摄像机获取的多组手部深度图像信息进行降噪处理。
如权利要求2中所述的手语识别方法，其特征在于，所述降噪处理包括：

计算点云中的点的欧氏距离；

取一阈值，将欧氏距离小于此阈值的归为同类；

统计每一类的点云数，将点云数最少的预设类别删除。
如权利要求1所述的手语识别方法，其特征在于，所述方法还包括：

设置向量最大值；

确定每组向量是否达到所述向量最大值，若未达到所述向量最大值，则将该组向量用零补齐，使得该组向量值与所述设置的向量最大值的数据量相等。
如权利要求1所述的手语识别方法，其特征在于，采用长短期记忆网络训练所述手语识别模型。
如权利要求1所述的手语识别方法，其特征在于，所述测试所述手语识别模型包括：

将测试样本数据集中的多组手语所对应的用户手部深度图像输入到所述手语识别模型，获得所述手语识别模型对应输出的手语语义；

确定所述手语识别模型输出正确手语语义的正确率,根据所确定的正确率确定是否要重新训练所述手语识别模型。
如权利要求1所述的手语识别方法，其特征在于，所述多组用户手部深度图像信息是从Kinnet摄像装置获取的。
一种手语识别装置，其特征在于，所述装置包括：

手部图像获取模块，用于获取深度摄像机拍摄的多组手部深度图像信息，其中，每组手部深度图像信息中均包括左右手手掌及手指骨骼的一系列连续手语动作对应的多张的深度图像；

三维空间坐标确定模块，用于确定每一组手部深度图像信息中每张深度图像内左右手手掌及手指骨骼在三维空间坐标系中的三维空间坐标；

训练样本数据集生成模块，用于将每组手部深度图像信息内的多张深度图像中左右手手掌及手指骨骼的三维空间坐标组成一组向量，并为每组向量打标签，将多组所述向量及所述向量对应的标签作为训练样本数据集，其中，所述标签用于标识每组向量对应的手语单词的语义；

模型训练模块，用于构建手语识别模型，将所述训练样本数据集输入所述手语识别模型对所述手语识别模型进行训练；

模型测试模块，用于获取测试样本数据集，将所述测试样本数据集输入所述手语识别模型测试所述手语识别模型；

手语识别模块，用于获取用户输入的手语图像，使用所述手语识别模型对所述用户输入的手语图像进行手语识别。
如权利要求8所述的手语识别装置，其特征在于，所述手部图像获取模块还用于将从所述深度摄像机获取的多组手部深度图像信息进行降噪处理，其中，所述降噪处理包括：

计算点云中的点的欧氏距离；

取一阈值，将欧氏距离小于此阈值的归为同类；

统计每一类的点云数，将点云数最少的预设类别删除。
如权利要求8所述的手语识别装置，其特征在于，所述训练样本数据集生成模块还用于：

设置向量最大值；

确定每组向量是否达到所述向量最大值，若未达到所述向量最大值，则将该组向量用零补齐，使得该组向量值与所述设置的向量最大值的数据量相等。
如权利要求8所述的手语识别装置，其特征在于，采用长短期记忆网络训练所述手语识别模型。
一种计算机设备，其特征在于，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机可读指令时实现以下步骤：

获取深度摄像机拍摄的多组手部深度图像信息，其中，每组手部深度图像信息中均包括左右手手掌及手指骨骼的一系列连续手语动作对应的多张的深度图像；

确定每一组手部深度图像信息中每张深度图像内左右手手掌及手指骨骼在三维空间坐标系中的三维空间坐标；

将每组手部深度图像信息内的多张深度图像中左右手手掌及手指骨骼的三维空间坐标组成一组向量，并为每组向量打标签，将多组所述向量及向量对应的标签作为训练样本数据集，其中，所述标签用于标识每组向量对应的手语单词的语义；

构建手语识别模型，将所述训练样本数据集输入所述手语识别模型对所述手语识别模型进行训练；

获取测试样本数据集，将所述测试样本数据集输入所述手语识别模型测试所述手语识别模型；

获取用户输入的手语图像，将所述手语图像输入所述手语识别模型，对所述用户输入的手语图像进行手语识别。
如权利要求12所述的计算机设备，其特征在于，所述处理器执行计算机可读指令时还实现以下步骤：

将从所述深度摄像机获取的多组手部深度图像信息进行降噪处理，其中，所述降噪处理包括：

计算点云中的点的欧氏距离；

取一阈值，将欧氏距离小于此阈值的归为同类；

统计每一类的点云数，将点云数最少的预设类别删除。
如权利要求12所述的计算机设备，其特征在于，所述处理器执行计算机可读指令时还实现以下步骤：

设置向量最大值；

确定每组向量是否达到所述向量最大值，若未达到所述向量最大值，则将该组向量用零补齐，使得该组向量值与所述设置的向量最大值的数据量相等。
如权利要求12所述的计算机设备，其特征在于，所述处理器执行计算机可读指令以实现所述测试所述手语识别模型时，包括：

将测试样本数据集中的多组手语所对应的用户手部深度图像输入到所述手语识别模型，获得所述手语识别模型对应输出的手语语义；

确定所述手语识别模型输出正确手语语义的正确率,根据所确定的正确率确定是否要重新训练所述手语识别模型。
如权利要求12所述的计算机设备，其特征在于，所述多组用户手部深度图像信息是从Kinnet摄像装置获取的。
一种非易失性可读存储介质，其上存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现以下步骤：

获取深度摄像机拍摄的多组手部深度图像信息，其中，每组手部深度图像信息中均包括左右手手掌及手指骨骼的一系列连续手语动作对应的多张的深度图像；

确定每一组手部深度图像信息中每张深度图像内左右手手掌及手指骨骼在三维空间坐标系中的三维空间坐标；

将每组手部深度图像信息内的多张深度图像中左右手手掌及手指骨骼的三维空间坐标组成一组向量，并为每组向量打标签，将多组所述向量及向量对应的标签作为训练样本数据集，其中，所述标签用于标识每组向量对应的手语单词的语义；

构建手语识别模型，将所述训练样本数据集输入所述手语识别模型对所述手语识别模型进行训练；

获取测试样本数据集，将所述测试样本数据集输入所述手语识别模型测试所述手语识别模型；

获取用户输入的手语图像，将所述手语图像输入所述手语识别模型，对所述用户输入的手语图像进行手语识别。
如权利要求17所述的存储介质，其特征在于，所述计算机可读指令被处理器执行时还实现以下步骤：

将从所述深度摄像机获取的多组手部深度图像信息进行降噪处理，其中，所述降噪处理包括：

计算点云中的点的欧氏距离；

取一阈值，将欧氏距离小于此阈值的归为同类；

统计每一类的点云数，将点云数最少的预设类别删除。
如权利要求17所述的存储介质，其特征在于，所述计算机可读指令被处理器执行时还实现以下步骤：

设置向量最大值；

确定每组向量是否达到所述向量最大值，若未达到所述向量最大值，则将该组向量用零补齐，使得该组向量值与所述设置的向量最大值的数据量相等。
如权利要求16所述的存储介质，其特征在于，所述计算机可读指令被处理器执行以实现所述测试所述手语识别模型时，包括：

将测试样本数据集中的多组手语所对应的用户手部深度图像输入到所述手语识别模型，获得所述手语识别模型对应输出的手语语义；

确定所述手语识别模型输出正确手语语义的正确率,根据所确定的正确率确定是否要重新训练所述手语识别模型。