WO2022110564A1

WO2022110564A1 - 智能家居多模态人机自然交互系统及其方法

Info

Publication number: WO2022110564A1
Application number: PCT/CN2021/078420
Authority: WO
Inventors: 奚雪峰; 邵帮丽; 崔志明; 付保川; 杨敬晶
Original assignee: 苏州科技大学; 苏州金比特信息科技有限公司
Priority date: 2020-11-25
Filing date: 2021-03-01
Publication date: 2022-06-02
Also published as: CN112462940A

Abstract

本发明涉及一种智能家居多模态人机自然交互系统及方法，手势识别模型预训练模块，利用符合场景的手势数据集训练搭建的网络模型，并保存训练好的手势识别模型；语音识别模型预训练模块，利用中文语音数据集，依次训练声学模型和语言模型，并保存训练好的语音识别模型；手势识别模块，利用保存好的手势识别模型对采集的手势进行预测；语音识别模块，调用保存好的语音识别模型对采集的音频进行识别；多模态融合模块，对手势识别模块和语音识别模块两种模态结果进行融合，得出最终指令。将手势识别与语音识别两种模态融合，允许家居设备接收多种形式的指令，以提高指令的正确性。

Description

智能家居多模态人机自然交互系统及其方法

技术领域

本发明涉及一种智能家居多模态人机自然交互系统及其方法，属于智能家居人机交互领域。

背景技术

多模态融合主要用来实现不同模态间的模型融合，目的是用一个总的模型输出多个信息渠道获取的信息特征，这样由于学习到多个模态的信息，模型就能获得更全面的特征信息，并且做到即使某种模态失效或缺失时仍能正常工作，得到正确信息输出，大大提高模型的鲁棒性。因为被用来融合的这些模型之间往往并不相关，所以这些模型各自的错误也不会互相影响，因此不会造成错误的累加情况出现。

手势识别的研究目的是设计出可以单纯依靠手势驱动的系统，随着手势的变化而做出不同的反应。手势检测与分割是首要任务，常规方法是通过手的肤色、形状、像素值、运动等等视觉特征的组合来检测手部动作，然后进行手势跟踪提供手或手指外观位置的帧间坐标，从而产生手部运动的轨迹以便进行后续识别阶段，手势识别最后要实现的目标就是对所做手势想表达的语义进行解释。

语音识别本质是统计模式识别，依赖于两个模型，声学模型和语言模型，前者是文字和拼音的对应转换，而后者是字词在整个句子中出现的概率。声学模型可以对语音的声学特征进行分类，并将其对应到类似音素的单元，而语言模型可以把声学模型获得的音素拼接成一个完整句子，最后对识别的结果进行一些文本处理操作，就可以得到最终的结果。

智能家居已经发展到一定程度，但现有的智能家居人机交互仍存在着一些问题，借助遥控器或者手机进行的红外遥控，通过按键或者触屏进行操作，需要借助第三方移动设备，不够便捷；依托语音助手控制家居设备，输入数据来源单一，没有充分利用人的肢体灵活性，不能解决接收模糊输入问题等。手势识别与语音识别以及多模态技术的发展为此提供一种解决方案。

发明内容

本发明的目的是克服现有技术存在的不足，提供一种智能家居多模态人机自然交互系统及其方法。

本发明的目的通过以下技术方案来实现：

智能家居多模态人机自然交互系统，其特点是：包含手势识别模型预训练模块、语音识别模型预训练模块、手势识别模块、语音识别模块和多模态融合模块，所述手势识别模型预训练模块，利用手势数据集训练搭建的网络模型，并保存训练好的手势识别模型；所述语音识别模型预训练模块，加载中文语音数据集，依次训练声学模型和语言模型，并保存训练好的语音识别模型；所述手势识别模块，利用手势识别模型预训练模块保存的手势识别模型对采集的手势进行预测；所述语音识别模块，调用语音识别模型预训练模块保存的语音识别模型对采集的音频进行识别；所述多模态融合模块，对手势识别模块和语音识别模块两种模态结果进行融合，得出最终指令。

进一步地，上述的智能家居多模态人机自然交互系统，其中，所述手势识别模型预训练模块包含构建数据集模块、数据预处理模块、模型构建模块和模型训练模块，所述构建数据集模块，预设的五类标签，即关闭close、打开open、调高up、调低down、无nothing各自对应采集同等数量的手势图片，并利用数据增强的方法扩大数据规模，为手势识别模型训练提供数据支撑；所述数据预处理模块，经过去噪、肤色分割、二值化处理、形态学处理和轮廓提取，得到模型的标准化输入；所述模型构建模块，搭建网络模型，用于提取手势图片特征；所述模型训练模块，将构建数据集模块的数据集分批次作为模型构建模块的网络模型的输入，利用反向传播算法更新模型参数，并保存训练好的手势识别模型。

进一步地，上述的智能家居多模态人机自然交互系统，其中，构建数据集模块利用摄像头采集自定义的五种指令的图片，利用数据增强的方法，添加椒盐噪声、添加高斯噪声、降低图片亮度、提高图片亮度、以随机角度旋转以及翻转，对数据集进行扩充，从而完成数据集的构建；数据预处理模块，去噪、肤色分割和二值化处理，形态学处理、轮廓提取，采用高斯滤波实现去噪，用卷积模板扫描图像中的每一个像素并确定其邻域内像素点的加权平均灰度值，用以替代中心处的像素点的值，如果二维模板大小为m×n，则卷积模板上的点(x,y)有如下公式：

其中，σ是正态分布的标准差，其值越小图像越清晰；m和n表示卷积模板的尺寸；

两种肤色分割第一种是基于自适应阈值法的肤色分割，先计算灰度直方图并归一化；再计算灰度的均值；接着根据直方图计算零阶矩u[i]和一阶矩v[i]；之后计算最大类间方差f[i]，此时，得出的这个方差的灰度值便是自适应阈值，其公式如下：

另一种是基于HSV颜色空间的肤色分割，SkinMask模式的操作为先获取手势框图，将其转换到HSV空间；再获取图片每个像素点的HSV值，即一个二维矩阵拆成三个二维矩阵；最后根据肤色范围定义H、S、V值的遮罩，设置判断条件，未在肤色范围内把遮罩设为黑色即可；肤色分割完成后对选中的图像进行二值化处理操作，二值化算法用以下公式计算，其中T为阈值：

形态学处理对肤色分割残存的黑点，或是背景上留有的白点，进行腐蚀和膨胀操作，膨胀是求局部最大值操作，腐蚀是求最小值的操作；

采用肤色提取手势轮廓的方法，在取得预处理的图像后先去除伪轮廓并定位面积的最大轮廓；再计算各个轮廓的各阶矩、周长、面积、质心、最短最长径长、外接矩形的特征；之后取得各个轮廓的外包络和缺陷点的集合；接着二次去除伪轮廓后计算轮廓基于质心的特征向量；最后对轮廓中可能是手指的点依次定位。

进一步地，上述的智能家居多模态人机自然交互系统，其中，所述语音识别模型预训练模块包含数据集加载模块、声学模型构建模块、语言模型构建模块以及模型训练模块，所述数据集加载模块，下载中文语音数据集并指定文件路径；所述声学模型构建模块，基于Keras和TensorFlow框架，参考VGG构建深度卷积神经网络，结合CTC解码将连续相同的符号合并为同一个符号，然后再去除静音分隔标记符，得到实际的语音拼音符号序列；所述语言模型构建模块，为将声学模型构建模块得到的拼音序列转换为最终的文字结果并输出；所述模型训练模块，将数据集加载模块得到的数据依次输入声学模型构建模块，语言模型构建模块进行训练，并保存训练好的语音识别模型。

进一步地，上述的智能家居多模态人机自然交互系统，其中，所述手势识别模块包含手势采集模块、模型调用模块和可视化模块，所述手势采集模块，用于获取新的单个手势输入；所述模型调用模块，调用手势识别模型预训练模块训练好的模型，将手势采集模块采集的手势作为输入，得到手势预测结果；所述可视化模块，在新的窗口将预测结果显示出来。

进一步地，上述的智能家居多模态人机自然交互系统，其中，所述语音识别模块包含录音模块、模型调用模块和文本映射模块，录音模块限时采集音频，保存为wav文件；模型调用模块调用语音识别模型预训练模块中保存好的模型文件，将录音模块保存的wav文件作为模型新的输入，得到语音识别成文字的结果；文本映射模块将文字结果与手势识别模型预训练模块中预设的各个标签对应的中文作相似度计算，选取相似度值最大的对应的标签作为语音识别对应的指令结果。

进一步地，上述的智能家居多模态人机自然交互系统，其中，所述多模态融合模块对手势识别模块和语音识别模块的两种模态结果进行融合，基于投票方法完成预测手势识别和语音识别两个分类器中最高概率的类，得出最终指令。

本发明智能家居多模态人机自然交互的方法，包括以下步骤：

a)首先采用OpenCV获取手势图片，利用数据增强的方法扩充数据集，并对数据集中的图片进行预处理标准化输入；并搭建手势识别部分使用的CNN模型，共十二层组成，并调用keras内部封装好的Resnet50模型，利用预处理好的数据集分别训练两个网络模型，并保存训练好的手势识别模型；

b)接着搭建声学模型，基于Keras和TensorFlow框架搭建的深层卷积神经网络，并结合CTC解码；语言模型采用bigram模型；利用THCHS30中文语音数据集，分别对声学和语言模型进行训练,并保存训练好的语音识别模型；

c)采集用户当前手势图片，依次进行高斯去噪，基于自适应阈值法的binary模式或者基于HSV颜色空间的SkinMask模式的肤色分割，接着进行二值化处理，把目标从图像的背景和噪声区中提取出来，再经过腐蚀、膨胀，最后肤色提取手势轮廓，将处理后的图片分别作为CNN、Resnet50模型输入，得到两个模型预测的当前手势对应的指令；

d)采集用户的音频保存为wav文件，对wav文件进行分帧加窗操作，得到语谱图，将得到的语谱图作为训练好的声学模型输入，结合CTC解码，得到汉语拼音序列，然后将汉语拼音序列作为语言模型输入，得到拼音序列对应的文字组合，即语音识别结果；

e)将语音识别的文字结果与手势识别中各个标签做相似度计算，从而将语音结果映射到手势标签中，然后对手势识别结果与语音识别映射结果进行加权投票，得到最高概率的类别作为最终指令。

更进一步地，上述的智能家居多模态人机自然交互的方法，步骤a)，采用的数据增强方法有添加椒盐噪声、添加高斯噪声、降低图片亮度、提高图片亮度、以随机角度旋转以及翻转，用以扩充数据集；对数据集中的图片采用高斯滤波实现去噪，然后利用基于自适应阈值法的Binary模式和基于HSV颜色空间的SkinMask模式进行肤色分割，接着再进行二值化处理以及腐蚀和膨胀的形态学处理，最后采用肤色提取手势轮廓的方法，完成数据的预处理。

本发明与现有技术相比具有显著的优点和有益效果，具体体现在以下方面：

①本发明智能家居多模态人机自然交互系统及其方法，利用人的手势和语音来多指令控制家居设备，克服单种模态准确率不高的缺陷，提高指令准确性，使人机交互更加自然；

②从人的感知方式出发，使家居设备可以接受多种指令，用户以多种方式控制家居设备，摆脱对传统按键的依赖，做到无接触控制；

③语音识别与手势识别两种模态相融合，克服手势识别容易受到光照影响以及语音识别易受环境噪声影响的局限，并且模态间的错误不会叠加，互不干扰，某一种模态失效时，家居设备仍然能够工作。

本发明的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明具体实施方式了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1：本发明系统的原理示意图；

图2：本发明系统的架构示意图；

图3：手势识别模型预训练模块架构原理示意图；

图4a：预定义手势(打开)示意图；

图4b：预定义手势(调高)示意图；

图4c：预定义手势(调低)示意图；

图4d：预定义手势(关闭)示意图；

图5：数据预处理模块的流程示意图；

图6：语音识别模型预训练模块架构原理示意图；

图7：手势识别模块架构原理示意图；

图8：语音识别模块架构原理示意图；

图9：多模态融合模块原理示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，方位术语和次序术语等仅用于区分描述，而不能理解为指示或暗示相对重要性。

针对现有的接触式的家居设备控制方法的局限性，如手指潮湿或有污渍不便于调控，考虑到手势识别与语音识别技术发展的成熟度，以及智能家居人机交互的重要性，本发明应用于智能家居领域的家居设备控制，以空调为例，采用无接触的方法，并采用决策融合的方法进行多模态融合，融合涉及的模型互不影响，满足应用需求。

如图1～2所示，智能家居多模态人机自然交互系统，包含手势识别模型预训练模块1、语音识别模型预训练模块2、手势识别模块3、语音识别模块4和多模态融合模块5；手势识别模型预训练模块1、语音识别模型预训练模块2分别构建手势识别、语音识别两个预训练模型，手势识别模块3及语音识别模块4调用预训练的模型进行现场采集预测，多模态融合模块5对两种模态的结果按照加权投票的方法进行融合。

手势识别模型预训练模块1包含构建数据集模块101、数据预处理模块102、模型构建模块103和模型训练模块104；构建数据集模块101，预设的五类标签，即关闭close、打开open、调高up、调低down、无nothing各自对应采集同等数量的手势图片，并利用数据增强的方法扩大数据规模，为手势识别模型训练提供数据支撑；数据预处理模块102，经过去噪、肤色分割、二值化处理、形态学处理和轮廓提取，得到模型的标准化输入；所述模型构建模块103，搭建网络模型，用于提取手势图片特征；模型训练模块104，将构建数据集模块101的数据集分批次作为模型构建模块103的网络模型的输入，利用反向传播算法更新模型参数，并保存训练好的手势识别模型；

手势识别模型预训练模块1的流程如图3所示，构建数据集模块101开始构建手势数据集，利用摄像头采集自定义的手势，如图4a～4d所示，“ok”对应打开如图4a，“V”对应调高如图4b，“握拳”对应调低如图4c，“竖掌”对应关闭指令如图4d；额外定义一种“nothing”，即不符合以上4种手势的干扰图片；然后采用数据增强的方法，添加椒盐噪声、添加高斯噪声、降低图片亮度、提高图片亮度、以随机角度旋转以及翻转，对数据集进行扩充，最终数据集包括28105张手势的图片，共计五种手势，每种手势5621张，为模型训练提供数据支撑；

数据预处理模块102对构建数据集模块101中的数据进行预处理，得到标准化输入，如图5，数据预处理包括去噪，肤色分割，二值化处理，形态学处理，轮廓提取等操作。首先采用高斯滤波来实现去噪，高斯滤波的具体操作是：用卷积模板扫描图像中的每一个像素并确定其邻域内像素点的加权平均灰度值，用以替代中心处的像素点的值；设二维模板大小为m×n，则卷积模板上的点(x,y)有如下公式：

其中，σ是正态分布的标准差，其值越小图像越清晰；m和n表示卷积模板的尺寸。

肤色分割是对图像中人体皮肤所在像素区域进行筛选检测分离，两种肤色分割的方法，一种是基于自适应阈值法的肤色分割，具体操作为先计算灰度直方图并归一化；再计算灰度的均值；接着根据直方图计算零阶矩u[i]和一阶矩v[i]；之后计算最大类间方差f[i]，此时，得出的方差的灰度值便是自适应阈值，其公式如下：

另一种基于HSV颜色空间的SkinMask模式，SkinMask模式的操作为先获取手势框图，将其转换到HSV空间；再获取图片每个像素点的HSV值，即一个二维矩阵拆成三个二维矩阵；最后根据肤色范围定义H,S,V值的遮罩，设置判断条件，不在肤色范围内把遮罩设为黑色即可。从模型中可以便看出，当不断增加白色时，参数V会保持不变而参数S会不断减小，当光线充足时，此模式非常有效。然后对选中的图像进行二值化处理，可以根据这个灰度值将图像中的像素分成两种，二值化算法用以下公式计算：

具体方法就是事先设定一个阈值T，将图像的像素对照这个阈值进行划分，当像素的灰度小于阈值T时，就表示为黑色；当灰度大于或等于阈值T时，表示为白色。

形态学处理两种操作，分别是腐蚀和膨胀，膨胀是求局部最大值操作，腐蚀是求最小值的操作。

采用肤色提取手势轮廓的方法，在取得预处理的图像后先去除伪轮廓并定位面积的最大轮廓；再计算各个轮廓的各阶矩、周长、面积、质心、最短最长径长、外接矩形的特征；之后取得各个轮廓的外包络和缺陷点的集合；接着二次去除伪轮廓后计算轮廓基于质心的特征向量；最后就是对轮廓中可能是手指的点依次定位；

然后模型构建模块103搭建网络模型，用于提取图片特征，CNN模型由两层卷积层，一层池化层，两层全连接层，两层dropout层用于缓解过拟合，一层flatten层用于连接卷积层和全连接层，四个激活函数，共十二层组成，用该CNN模型训练了15轮；另外，直接调用keras封装的Resnet50模型，网络层数为50，调整输入大小为200*200，将预处理的图片数据作为输入进行10轮的训练；模型训练模块104将构建数据集模块101中的数据集中20％作为测试集，再抽取20％作为验证集，最后得到共有17987张图片的数据集用于训练，保存训练好的两个模型。

语音识别模型预训练模块2，如图6所示，数据集加载模块201下载语音数据集并加载，THCHS30内含1万余条中文语音文件，总时长超过30个小时，采样频率为16kHz，采样大小为16bits；声学模型构建模块202，为得到实际的语音拼音符号序列，基于Keras和TensorFlow框架，参考VGG构建深度卷积神经网络；语言模型构建模块203，使用统计语言模型，得出各拼音对应的最大概率的字，将拼音转换为最终的识别文本并输出，将声学模型构建模块202得到的拼音转换为最终的识别文本并输出；模型训练模块204，将数据集加载模块201得到的数据依次输入声学模型构建模块202，语言模型构建模块203进行训练，并保存训练好的模型。

手势识别模块3的手势预测流程如图7所示，假设手势采集模块301中摄像头捕捉到的手势是“握拳”，如图4c所示；遮罩模式是新的捕获方式，通过拍摄背景图像来删除背景内容，从ROI窗口的新帧内容中减去背景内容的方式捕获手势；预测模式开启后就会出现模型训练时的各种标签以待和摄像头捕获到的手势比较，此时可选择变化手势，摆好“伸掌”，也可以保持“握拳”手势不变，此处展示变换为“伸掌”手势，如图4d 所示；模型调用模块302，直接调用手势识别模型预训练模块1训练好的模型，将手势采集模块301采集的手势，经过高斯去噪，肤色分割和二值化处理，形态学处理，轮廓提取，作为模型输入，ResNet50模型与CNN模型的结果选取概率最大的类别在可视化模块303显示出来。

语音识别模块4的语音识别流程如图8所示，录音模块401限时采集音频，假设此时采集的是“关闭空调”，保存为wav文件；模型调用模块402调用语音识别模型预训练模块2中保存好的模型文件，将录音模块401保存的wav文件作为模型新的输入，经过声学模型和CTC解码，得到拼音序列“guan1 bi4 kong1 tiao2”，再经过语言模型得到拼音对应的文字结果“关闭空调”，将文字结果与手势识别模型预训练模块1中预设的五种手势标签对应的文字作余弦相似度计算，选择相似度值最大的对应的标签作为结果；

如图9所示，多模态融合模块5对手势识别模块3和语音识别模块4中两种模态结果进行融合，基于投票方法，手势识别中Resnet50的结果权重为0.5，CNN模型结果权重为0.3，语音识别结果映射到手势标签中的结果权重为0.2，对三种结果加权求和，选择最高概率的类，作为最终的空调指令。此时，手势识别与语音识别预测类别都是关闭，因此最终指令是关闭指令，如果出现不同结果，则将上述三种结果乘上各自权重，并将同一标签的概率值相加，最终选取概率最高的类别作为最终指令。

综上所述，本发明智能家居多模态人机自然交互系统及其方法，利用人的手势和语音来多指令控制家居设备，克服单种模态准确率不高的缺陷，使人机交互更加自然；从人的感知方式出发，使家居设备可以接受多种指令，用户以多种方式控制家居设备，摆脱对传统按键的依赖，做到无接触控制；语音识别与手势识别两种模态相融合，克服手势识别容易受到光照影响以及语音识别易受环境噪声影响的局限，并且模态间的错误不会叠加，互不干扰，某一种模态失效时，家居设备仍然能够工作；将多模态融合应用于家居设备的控制上，提高指令的正确性。

采用语音识别与手势识别两种模态相融合的方法进行交互过程，非接触式的多模态融合的方法进行智能家居人机交互。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

上述仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

智能家居多模态人机自然交互系统，其特征在于：包含手势识别模型预训练模块(1)、语音识别模型预训练模块(2)、手势识别模块(3)、语音识别模块(4)和多模态融合模块(5)，所述手势识别模型预训练模块(1)，利用手势数据集训练搭建的网络模型，并保存训练好的手势识别模型；所述语音识别模型预训练模块(2)，加载中文语音数据集，依次训练声学模型和语言模型，并保存训练好的语音识别模型；所述手势识别模块(3)，利用手势识别模型预训练模块(1)保存的手势识别模型对采集的手势进行预测；所述语音识别模块(4)，调用语音识别模型预训练模块(2)保存的语音识别模型对采集的音频进行识别；所述多模态融合模块(5)，对手势识别模块(3)和语音识别模块(4)两种模态结果进行融合，得出最终指令。
根据权利要求1所述的智能家居多模态人机自然交互系统，其特征在于：所述手势识别模型预训练模块(1)包含构建数据集模块(101)、数据预处理模块(102)、模型构建模块(103)和模型训练模块(104)，所述构建数据集模块(101)，预设的五类标签，即关闭close、打开open、调高up、调低down、无nothing各自对应采集同等数量的手势图片，并利用数据增强的方法扩大数据规模，为手势识别模型训练提供数据支撑；所述数据预处理模块(102)，经过去噪、肤色分割、二值化处理、形态学处理和轮廓提取，得到模型的标准化输入；所述模型构建模块(103)，搭建网络模型，用于提取手势图片特征；所述模型训练模块(104)，将构建数据集模块(101)的数据集分批次作为模型构建模块(103)的网络模型的输入，利用反向传播算法更新模型参数，并保存训练好的手势识别模型。
根据权利要求2所述的智能家居多模态人机自然交互系统，其特征在于：构建数据集模块(101)利用摄像头采集自定义的五种指令的图片，利用数据增强的方法，添加椒盐噪声、添加高斯噪声、降低图片亮度、提高图片亮度、以随机角度旋转以及翻转，对数据集进行扩充，从而完成数据集的构建；数据预处理模块(102)，包括去噪、肤色分割和二值化处理，形态学处理、轮廓提取流程，采用高斯滤波实现去噪，用卷积模板扫描图像中的每一个像素并确定其邻域内像素点的加权平均灰度值，用以替代中心处的像素点的值，如果二维模板大小为m×n，则卷积模板上的点(x,y)有如下公式：

其中，σ是正态分布的标准差，其值越小图像越清晰；m和n表示卷积模板的尺寸；

两种肤色分割第一种是基于自适应阈值法的肤色分割，先计算灰度直方图并归一化；再计算灰度的均值；接着根据直方图计算零阶矩u[i]和一阶矩v[i]；之后计算最大类间方差f[i]，此时，得出的方差的灰度值便是自适应阈值，其公式如下：

另一种是基于HSV颜色空间的肤色分割，SkinMask模式的操作为先获取手势框图，将其转换到HSV空间；再获取图片每个像素点的HSV值，即一个二维矩阵拆成三个二维矩阵；最后根据肤色范围定义H、S、V值的遮罩，设置判断条件，未在肤色范围内把遮罩设为黑色即可；肤色分割完成后对选中的图像进行二值化处理操作，二值化算法用以下公式计算，其中T为阈值：

形态学处理对肤色分割残存的黑点，或是背景上留有的白点，进行腐蚀和膨胀操作，膨胀是求局部最大值操作，腐蚀是求最小值的操作；

采用肤色提取手势轮廓的方法，在取得预处理的图像后先去除伪轮廓并定位面积的最大轮廓；再计算各个轮廓的各阶矩、周长、面积、质心、最短最长径长、外接矩形的特征；之后取得各个轮廓的外包络和缺陷点的集合；接着二次去除伪轮廓后计算轮廓基于质心的特征向量；最后对轮廓中可能是手指的点依次定位。
根据权利要求1所述的智能家居多模态人机自然交互系统，其特征在于：所述语音识别模型预训练模块(2)包含数据集加载模块(201)、声学模型构建模块(202)、语言模型构建模块(203)以及模型训练模块(204)，所述数据集加载模块(201)，下载中文语音数据集并指定文件路径；所述声学模型构建模块(202)，为得到实际的语音拼音符号序列；所述语言模型构建模块(203)，为将声学模型构建模块(202)得到的拼音序列转换为最终的文字结果并输出；所述模型训练模块(204)，将数据集加载模块(201)得到的数据依次输入声学模型构建模块(202)，语言模型构建模块(203)进行训练，并保存训练好的语音识别模型。
根据权利要求1所述的智能家居多模态人机自然交互系统，其特征在于：所述手势识别模块(3)包含手势采集模块(301)、模型调用模块(302)和可视化模块(303)，所述手势采集模块(301)，用于获取新的单个手势输入；所述模型调用模块(302)，调用手势识别模型预训练模块(1)训练好的模型，将手势采集模块(301)采集的手势作为输入，得到手势预测结果；所述可视化模块(303)，在新的窗口将预测结果显示出来。
根据权利要求1所述的智能家居多模态人机自然交互系统，其特征在于：所述语音识别模块(4)包含录音模块(401)、模型调用模块(402) 和文本映射模块(403)，录音模块(401)限时采集音频，保存为wav文件；模型调用模块(402)调用语音识别模型预训练模块(2)中保存好的模型文件，将录音模块(401)保存的wav文件作为模型新的输入，得到语音识别成文字的结果；文本映射模块(403)将文字结果与手势识别模型预训练模块(1)中预设的各个标签对应的中文作相似度计算，选取相似度值最大的对应的标签作为语音识别对应的指令结果。
根据权利要求1所述的智能家居多模态人机自然交互系统，其特征在于：所述多模态融合模块(5)对手势识别模块(3)和语音识别模块(4)的两种模态结果进行融合，基于投票方法完成预测手势识别和语音识别两个分类器中最高概率的类，得出最终指令。
智能家居多模态人机自然交互的方法，其特征在于：包括以下步骤：

a)首先采用OpenCV获取手势图片，利用数据增强的方法扩充数据集，并对数据集中的图片进行预处理标准化输入；并搭建手势识别部分使用的CNN模型，共十二层组成，并调用keras内部封装好的Resnet50模型，利用预处理好的数据集分别训练两个网络模型，并保存训练好的手势识别模型；

b)接着搭建声学模型，基于Keras和TensorFlow框架搭建的深层卷积神经网络，并结合CTC解码；语言模型采用bigram模型；利用THCHS30中文语音数据集，分别对声学和语言模型进行训练,并保存训练好的语音识别模型；

c)采集用户当前手势图片，依次进行高斯去噪，基于自适应阈值法的binary模式或者基于HSV颜色空间的SkinMask模式的肤色分割，接着进行二值化处理，把目标从图像的背景和噪声区中提取出来，再经过腐蚀、膨胀，最后肤色提取手势轮廓，将处理后的图片分别作为CNN、Resnet50 模型输入，得到两个模型预测的当前手势对应的指令；

d)采集用户的音频保存为wav文件，对wav文件进行分帧加窗操作，得到语谱图，将得到的语谱图作为训练好的声学模型输入，结合CTC解码，得到汉语拼音序列，然后将汉语拼音序列作为语言模型输入，得到拼音序列对应的文字组合，即语音识别结果；

e)将语音识别的文字结果与手势识别中各个标签做相似度计算，从而将语音结果映射到手势标签中，然后对手势识别结果与语音识别映射结果进行加权投票，得到最高概率的类别作为最终指令。
根据权利要求8所述的智能家居多模态人机自然交互的方法，其特征在于：步骤a)，采用的数据增强方法有添加椒盐噪声、添加高斯噪声、降低图片亮度、提高图片亮度、以随机角度旋转以及翻转，用以扩充数据集；对数据集中的图片采用高斯滤波实现去噪，然后利用基于自适应阈值法的Binary模式和基于HSV颜色空间的SkinMask模式进行肤色分割，接着再进行二值化处理以及腐蚀和膨胀的形态学处理，最后采用肤色提取手势轮廓的方法，完成数据的预处理。