WO2014048348A1

WO2014048348A1 - 一种多媒体设备语音控制系统及方法、计算机存储介质

Info

Publication number: WO2014048348A1
Application number: PCT/CN2013/084348
Authority: WO
Inventors: 王洪智; 刘乐元; 桑农; 刘国华
Original assignee: 深圳市国华识别科技开发有限公司
Priority date: 2012-09-29
Filing date: 2013-09-26
Publication date: 2014-04-03
Also published as: JP6012877B2; CN102945672A; US9955210B2; EP2897126A4; US20150222948A1; EP2897126B1; CN102945672B; JP2015535952A; EP2897126A1

Abstract

提供了一种多媒体设备语音控制系统和方法，所述系统包括：图像感应模块（10），用于采集用户动作图像；图像识别模块（11），用于根据用户动作图像确定控制指令类型或状态；语音识别状态管理模块（12），用于根据当前的控制指令类型激活或暂停语音识别；拾音模块（14），用于采集语音数据；语音识别模块（15），用于对采集到的语音数据进行识别，形成控制指令；多媒体功能模块（16），用于执行控制指令，向用户提供相应的多媒体功能。所述多媒体设备语音控制系统和方法结合图像识别和语音识别技术，实现不依赖手持遥控器，不限于近距离拾音模块实现自由便捷的语音控制，有效避免了多媒体设备输出的声音、环境背景声音以及用户的非控制指令语音信号对控制指令语音识别的干扰，有利于实现准确识别用户发出的控制指令。

Description

一种多媒体设备语音控制系统及方法、计算机存储介质

【技术领域】

本发明涉及语音遥控技术，更具体地说，涉及一种多媒体设备语音控制系统及方法、计算机存储介质。

【背景技术】

继手机智能化后，电视、投影仪、游戏机等多种多媒体设备的智能化成为必然趋势。现有多种多媒体设备电视一般配备高性能控制芯片，具有开放式平台和操作系统；可由用户自行安装和卸载应用程序，此类应用程序扩展多媒体设备的功能；支持用户通过网络进行信息浏览和网络社交。以智能电视机为例，电视机不再局限于传统的电视节目播放功能，还通过运行应用程序实现音视频分享，交互娱乐游戏等多种功能。而传统的按键式遥控器已经无法满足多种多媒体功能选择和操作需求。

现有技术提出包括触摸控制、声音控制、手势识别、体感控制等多种人机交互方案以实现智能控制，但由于电视机的使用场景限制和使用习惯问题，仍然没有一种智能控制方式能够完全取代手持遥控器，用户必须借助手持遥控器上的特定功能键和数字键组合来进行操控。例如触摸控制方案需要在借助遥控器上安装的触摸感应模块；手势识别方案其无法快捷地进行常用的节目频道跳转控制：如用户想从当前的1频道切换到55频道，仅采用手势识别方式操作显然不如使用传统遥控器更加快捷；而体感控制方案的问题类似手势识别方案，通常还需要安装价格昂贵的深度图像感应模块才能有利于实现准确的体感控制功能。而现有技术声音识别控制方案的问题在于，一般为清晰地采集用户的声音而在遥控器上安装麦克风模块，仍然需要借助手持遥控器。

随着声音识别技术的发展，声音识别、语义识别等都已经基本达到实用的阶段，而且随着云计算技术的普及，许多基于云服务的语音识别服务商与智能电视结合实现语音控制电视。但目前现有技术方案大多在遥控器上加装麦克风拾音模块，获取用户声音经处理后再传至云端进行识别处理；即使是采用可以远距离拾音的麦克风阵列技术，也存在因电视输出的声音、环境声音干扰和用户的非控制指令语音被错误解读为控制指令等问题，影响语音控制电视机等多媒体设备的效果。

【发明内容】

本发明要解决的技术问题在于，提出一种多媒体设备语音控制系统。

本发明解决其技术问题所采用的技术方案是提供一种多媒体设备语音控制系统，包括：图像感应模块，采集用户动作图像；图像识别模块，根据用户动作图像确定控制指令类型或状态；语音识别状态管理模块，根据当前的控制指令类型激活或暂停语音识别；拾音模块，采集语音数据；语音识别模块，对采集到的语音数据进行识别，形成控制指令；多媒体功能模块，执行控制指令，向用户提供相应的多媒体功能。

优选地，上述图像识别模块将用户动作图像与预设的图像模版比对，选取与用户动作图像匹配的控制指令类型；若比对结果为找到与用户动作图像匹配的控制指令类型，则认为用户所在位置为目标音源位置，向语音识别状态管理模块发送目标音源所在位置信息、启动语音识别信息和/或控制指令类型；或若未找到与用户动作图像匹配的控制指令类型，则向语音识别状态管理模块发出比对失败信息。

优选地，上述多媒体设备语音控制系统还包括音束形成模块，根据目标音源所在位置信息确定拾音方向和拾音接收角。

优选地，上述拾音模块为阵列拾音模块，包括规则排列的至少一拾音传感器，根据拾音方向和拾音接收角的限定采集目标音源发出的语音信号，进行数

字化处理形成语音数据后发送给语音识别模块。

优选地，上述语音识别状态管理模块根据接收到的启动语音识别信息，向语音识别模块发送启动指令及控制指令类型以激活语音识别，向音束形成模块发送目标音源所在位置信息，并控制多媒体功能模块减小多媒体输出声音的音量；或根据接收到的比对失败信息,向语音识别模块发送指令暂停语音识别。

优选地，上述语音识别模块根据来自语音识别状态管理模块的启动指令和控制指令类型，对来自拾音模块的语音数据进行识别，形成属于控制指令类型的控制指令，发送给多媒体功能模块。

优选地，上述语音识别模块包括本地语音识别模块和云端语音识别模块；本地语音识别模块识别语音数据，形成属于控制指令类型的控制指令，发送给多媒体功能模块；云端语音识别模块对本地语音识别模块无法识别的语音数据进行语义识别处理，形成属于控制指令类型的控制指令，发送给多媒体功能模块。

本发明还提出一种多媒体设备语音控制方法，包括：图像感应模块采集用户动作图像的步骤；图像识别模块根据用户动作图像确定控制指令类型或状态的步骤；语音识别状态管理模块根据当前的控制指令类型激活或暂停语音识别的步骤；音束形成模块确定拾音方向和拾音接收角的步骤；阵列拾音模块根据拾音方向和拾音接收角的限定采集用户发出的语音信号，进行数字化处理形成语音数据的步骤；语音识别模块对采集到的语音数据进行识别，形成控制指令的步骤；多媒体功能模块执行控制指令，向用户提供相应的多媒体功能的步骤。

优选地，上述图像感应模块采集用户动作图像；图像识别模块将用户动作图像与预设的图像模版比对，选取与用户动作图像匹配的控制指令类型；若比对结果为找到与用户动作图像匹配的控制指令类型，则认为用户所在位置为目标音源位置，向语音识别状态管理模块发送目标音源所在位置信息、启动语音识别信息和/或控制指令类型；若未找到与用户动作图像匹配的控制指令类型，则向语音识别状态管理模块发出比对失败信息；语音识别状态管理模块根据接收到的启动语音识别信息，向语音识别模块发送启动指令及控制指令类型以激活语音识别，向音束形成模块发送目标音源所在位置信息，并控制多媒体功能模块减小多媒体输出声音的音量；或根据接收到的比对失败信息,向语音识别模块发送指令暂停语音识别；音束形成模块根据目标音源所在位置信息确定拾音方向和拾音接收角；阵列拾音模块根据拾音方向和拾音接收角的限定采集目标音源发出的语音信号，进行数字化处理形成语音数据后发送给语音识别模块；语音识别模块根据来自语音识别状态管理模块的启动指令和控制指令类型，对来自阵列拾音模块的语音数据进行识别，形成属于控制指令类型的控制指令，发送给多媒体功能模块；多媒体功能模块执行控制指令，向用户提供相应的多媒体功能。

优选地，上述多媒体设备语音控制方法，其中语音识别模块包括本地语音识别模块和云端语音识别模块，语音识别模块预设语音指令词典，包括：本地语音识别模块识别语音数据，将语音数据与语音指令词典中的单词模型对比，若语音数据与至少一单词模型相似度大于预设阈值，则将语音数据解释为与单词模型对应的控制指令，发送给多媒体功能模块；若语音数据与至少一单词模型相似度不大于预设阈值，则将语音数据通过网络发送给云端语音识别模块；云端语音识别模块对语音数据进行语义识别处理，形成控制指令，通过网络发送给多媒体功能模块。

本发明还提出一种用于存储计算机可执行指令的计算机存储介质所述计算机可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序被一个或者一个以上的处理器用来执行指令用于执行多媒体设备语音控制方法，所述方法包括：

采集用户动作图像；

根据所述用户动作图像确定控制指令类型或状态，

将发出用户动作图像的用户所在位置确定为目标音源位置，发送目标音源所在位置信息，所述目标用户即为操控者；

根据所述控制指令类型激活语音识别，

发送目标音源所在位置信息，并减小多媒体输出声音的音量；

根据目标音源所在位置确定拾音方向和拾音接收角；

根据所述拾音方向和拾音接收角的限定采集用户发出的语音信号，进行数字化处理形成语音数据；

对采集到的语音数据进行识别，形成控制指令；

执行控制指令，向用户提供相应的多媒体功能。

本发明结合图像识别和语音识别技术、计算机存储介质，实现不依赖手持遥控器，不限于近距离拾音模块实现自由便捷的语音控制，有效避免了多媒体设备输出的声音、环境背景声音以及用户的非控制指令语音信号对控制指令语音识别的干扰，有利于实现准确识别用户发出的控制指令。

【附图说明】

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明一实施例多媒体设备语音控制系统模块结构示意图；

图2是本发明一实施例预设图像模板示意图；

图3是本发明一实施例多媒体设备语音控制系统详细工作流程图；

图4是本发明一实施例阵列拾音模块14排布示意图；

图5是本发明一实施例多媒体设备语音控制系统基本工作流程图；

图6是本发明一实施例语音识别模块15详细流程示意图。

【具体实施方式】

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1示出的多媒体设备语音控制系统模块结构示意图，本发明一实施例多媒体设备1包括图像感应模块10，采集用户动作图像；图像识别模块11，根据用户动作图像确定控制指令类型或状态；语音识别状态管理模块12，根据当前的控制指令类型激活或唤醒语音识别；拾音模块14，采集语音数据；语音识别模块15，对采集到的语音数据进行识别，形成控制指令；多媒体功能模块16，执行控制指令，向用户提供相应的多媒体功能。

参照图2所示的预设图像模板示意图，本发明一实施例的图像识别模块11预设至少一图像模版，不同的控制指令类型分别对应不同的图像模板，将对用户动作图像与至少一图像模板比对，若找到与用户动作图像相符的图像模板，则认为用户是目标音源，用户接下来发出的语音是属于相应控制指令类型的控制指令，如果比对失败，没有找到与用户动作图像相符的图像模板，则认为用户的动作不是发出控制指令，暂停对其语音进行识别。

参照图3示出的多媒体设备语音控制系统详细工作流程图，图像识别模块11对图像感应模块10发来的用户动作图像进行处理，将处理结果与预设的图像模版数据进行比对，选取与用户动作图像匹配的控制指令类型；

若比对结果为找到与用户动作图像匹配的控制指令类型，则认为用户所在位置为目标音源位置，向语音识别状态管理模块12发送目标音源所在位置信息、启动语音识别信息和/或控制指令类型；

若未找到与用户动作图像匹配的控制指令类型，则向语音识别状态管理模块12发出比对失败信息。

本发明的最佳实施例中，图像识别模块11需要对特定的用户动作进行训练。例如多媒体设备1通过向用户播放人机交互内容，引导用户将右手自然放置嘴边做喊话状的动作，直到动作符合预设的与“开始语音遥控”控制指令类型相应的第一图像模版。又如，多媒体设备1可引导用户将手掌平摊遮住口部，直到动作符合预设的与“静音”控制指令类型相应的第二图像模板。

本发明提出一实施例还包括音束形成模块13，根据目标音源所在位置信息确定拾音方向和拾音接收角，结合阵列拾音技术可有效消除噪声，提高语音识别的准确度。

本实施例的拾音模块14为阵列拾音模块，包括规则排列的至少一拾音传感器，根据拾音方向和拾音接收角的限定采集目标音源发出的语音信号，进行数字化处理，消除背景杂音，形成语音数据后发送给语音识别模块15。参照图4示出的阵列拾音模块14排布示意图，阵列拾音模块14可包括多个按照规则几何形状排列的拾音传感器，例如使用等间隔直线排列方式，将多个拾音传感器水平等间隔排列在图像感应模块10的两侧。

参照图3示出的多媒体设备语音控制系统详细工作流程图，音束形成模块13确定阵列拾音模块14采集声音信号的音束主瓣方向和范围大小，即拾音方向和拾音接收角，据此限定阵列拾音模块14采集目标音源发出的语音信号。现有常见的音束形成方法包括延迟－累加方法（传统波束法）、自适应波束法及基于后置自适应滤波法，这三种方法各有优缺点，延迟－累加波束法和后置自适应滤波法适用于非相干噪声和弱相干噪声消除；而自适应波束法适用于消除相干噪声，对非相干噪声或散射噪声消除效果较差。而在本实施例使用环境中，通常是既有相干噪音，又有非相干噪音，本实施例通过图像识别确定目标音源位置的方式来巧妙地实现确定拾音方向和拾音接收角。即使有多个电视观众且都处于图像感应识别范围内，也只对目标用户发出的语音信号进行识别。

参照图3示出的多媒体设备语音控制系统详细工作流程图，本发明还提出语音识别状态管理模块12主要负责管理控制多媒体设备语音控制系统的识别状态。当接收到的是启动语音识别信息，则向语音识别模块15发送启动指令及控制指令类型以激活语音识别，向音束形成模块13发送目标音源所在位置信息，此时用户发出的语音信号才被当作控制指令，由阵列拾音模块14发给语音识别模块15进行处理；当接收到的是比对失败信息，则向语音识别模块15发送指令以暂停语音识别。

更进一步的，语音识别状态管理模块12激活语音识别，并控制多媒体功能16模块减小多媒体输出声音的音量，以智能电视为例即控制电视输出的声音强度减小至适当小于当前目标音源的语音信号强度。不失一般性的，可以将智能电视输出的声音临时置为静音状态，从而避免电视背景成为噪音干扰语音识别。而若完成语音识别或比对失败而暂停语音识别，则不启动语音识别模块15，智能电视输出的声音调至正常音量，用户的语音信号将被忽略，从而达到避免用户无意识语音命令干扰的目的。

本发明又提出，语音识别模块15根据来自语音识别状态管理模块12的启动指令和控制指令类型，对来自拾音模块14的语音数据进行识别，形成属于控制指令类型的控制指令，发送给多媒体功能模块16。

本实施例提出，语音识别模块15预设内置语音指令词典，该语音指令词典中保存经过处理的控制指令语音信号单词模型，包括但不限于“上一频道”、“下一频道”、“增大音量”、“减小音量”、“中央一台”、“湖南卫视”等。语音识别模块15将语音数据与语音指令词典中的单词模型对比，若语音数据与至少一单词模型相似度大于预设阈值，则将语音数据解释为与单词模型对应的控制指令，发送给多媒体功能模块16。

为实现复杂的语义识别控制指令，本发明更进一步提出，语音识别模块15包括本地语音识别模块151和云端语音识别模块152；前者负责简单控制指令的识别和处理，包括但不限于换台、调整音量、开关机等；后者负责包含语义识别内容的复杂控制指令的识别和处理，采用语音识别云服务的方式实现。

参照图3示出的多媒体设备语音控制系统详细工作流程图，本地语音识别模块151识别语音数据，形成属于控制指令类型的控制指令，发送给多媒体功能模块16；

云端语音识别模块152可采用具有语义识别能力的语音识别服务商如科大讯飞提供的在线服务。如果用户的语音数据在本地语音识别模块152中无法识别，即语音数据与语音指令词典中的所有单词模型相似度都不大于预设阈值，则将语音数据通过网络发送给云端语音识别模块152进行语义识别处理，形成属于控制指令类型的控制指令，发送给多媒体功能模块16。

本发明还提出一种多媒体设备语音控制方法，参照图5示出的多媒体设备语音控制系统基本工作流程图，包括：

步骤S1、图像感应模块10采集用户动作图像；

步骤S2、图像识别模块11根据用户动作图像确定控制指令类型或状态；

步骤S3、语音识别状态管理模块12根据当前的控制指令类型激活或唤醒语音识别；

步骤S4、音束形成模块13确定拾音方向和拾音接收角；

步骤S5、阵列拾音模块14根据拾音方向和拾音接收角的限定采集用户发出的语音信号，进行数字化处理形成语音数据；

步骤S6、语音识别模块15对采集到的语音数据进行识别，形成控制指令；

步骤S7、多媒体功能模块16执行控制指令，向用户提供相应的多媒体功能。

参照图3示出的多媒体设备语音控制系统详细工作流程图，本发明提出一实施例，包括：

步骤S1、图像感应模块10采集用户动作图像；

步骤S21、图像识别模块11将用户动作图像与预设的图像模版比对，选取与用户动作图像匹配的控制指令类型；若比对结果为找到与用户动作图像匹配的控制指令类型，则进行步骤S22；若未找到与用户动作图像匹配的控制指令类型，则进行步骤S23；

步骤S22、图像识别模块11认为用户所在位置为目标音源位置，向语音识别状态管理模块12发送目标音源所在位置信息、启动语音识别信息和/或控制指令类型；

步骤S23、图像识别模块11向语音识别状态管理模块12发出比对失败信息；

步骤S31、语音识别状态管理模块12分析接收到的信息，如果是启动语音识别信息则进行步骤S32；如果是比对失败信息则进行步骤S35；

步骤S32、语音识别状态管理模块12向语音识别模块15发送启动指令及控制指令类型以激活语音识别；

步骤S33、语音识别状态管理模块12向音束形成模块13发送目标音源所在位置信息；

步骤S34、语音识别状态管理模块12控制多媒体功能模块16减小多媒体输出声音的音量；

步骤S35、语音识别状态管理模块12向语音识别模块15发送指令暂停语音识别；

步骤S4、音束形成模块13根据目标音源所在位置信息确定拾音方向和拾音接收角；

步骤S51、阵列拾音模块14根据拾音方向和拾音接收角的限定采集目标音源发出的语音信号；

步骤S52、阵列拾音模块14对采集到的语音信号进行数字化处理形成语音数据，发送给语音识别模块15；

步骤S61、语音识别模块15根据来自语音识别状态管理模块12的启动指令和控制指令类型，对来自阵列拾音模块14的语音数据进行识别，形成属于控制指令类型的控制指令，发送给多媒体功能模块16；

本实施例的多个模块及其间的工作关系均与上述实施例相似，故不赘述。

以下举一具体应用示例：

智能电视1的图像感应模块10采集到用户甲在感应范围内做出如图2所示动作。图像识别模块11将用户动作图像与预设的图像模版比对，发现与预设的“开始语音遥控”控制指令类型对应的图像模板相一致，则认为用户甲所在位置为目标音源位置，向语音识别状态管理模块12发送目标音源所在位置信息、启动语音识别信息和/或控制指令类型；语音识别状态管理模块12根据收到的启动语音识别信息向语音识别模块15发送启动指令及控制指令类型以激活语音识别，向音束形成模块13发送目标音源所在位置信息，保证即使有多个电视观众且都处于图像感应识别范围内，只有用户甲才是目标用户，只对他发出的语音信号进行识别。音束形成模块13根据目标音源所在位置信息确定拾音方向和拾音接收角；阵列拾音模块14根据拾音方向和拾音接收角的限定采集用户甲发出的语音信号“湖南卫视”，对其进行数字化处理形成语音数据，发送给语音识别模块15。语音识别模块15对该语音数据进行识别，发现语音数据与一单词模型的相似度大于预设阈值，形成“频道调整至湖南卫视频道”控制指令，发送给多媒体功能模块16。多媒体功能模块16执行控制指令，将频道调整至湖南卫视频道。

基于上述实施例，本发明还提出一种多媒体设备语音控制方法。参照图6示出的语音识别模块15详细流程示意图，语音识别模块15包括本地语音识别模块151和云端语音识别模块152，语音识别模块15预设语音指令词典，还包括：

步骤S611、本地语音识别模块151识别语音数据，将语音数据与语音指令词典中的单词模型对比，若语音数据与至少一单词模型相似度大于预设阈值，则进行步骤S612，否则进行步骤S613；

步骤S612、本地语音识别模块151将语音数据解释为与单词模型对应的控制指令，发送给多媒体功能模块16；

步骤S613、将语音数据通过网络发送给云端语音识别模块152；

步骤S614、云端语音识别模块152对语音数据进行语义识别处理，形成控制指令，通过网络发送给多媒体功能模块16。

以下举一具体应用示例，本示例的步骤S1到S51均与上一具体应用示例相同，故不赘述。阵列拾音模块14根据拾音方向和拾音接收角的限定采集用户甲发出的语音信号“给我来一首刘德华的歌”，对其进行数字化处理形成语音数据，发送给语音识别模块15。语音识别模块15的本地语音识别模块151识别语音数据，将语音数据与语音指令词典中的单词模型对比，结果没有找到与语音数据相似度大于预设阈值的单词模型，则将语音数据通过网络发送给云端语音识别模块152。云端语音识别模块152对语音数据进行语义识别处理，根据用户语音数据形成“播放刘德华的歌曲”控制指令，通过网络发送给多媒体功能模块16。多媒体功能模块16执行该控制指令，通过搜索引擎自动搜索一首刘德华的歌曲，将音视频数据下载并发送给智能电视1内置的音乐播放模块，播放音视频数据。

本发明结合图像识别和语音识别技术、计算机存储介质，实现不依赖手持遥控器，不限于近距离拾音器件实现自由便捷的语音控制，有效避免了多媒体设备输出的声音、环境背景声音以及用户的非控制指令语音信号对控制指令语音识别的干扰，有利于实现准确识别用户发出的控制指令，还可实现多用户分别或共同控制多媒体设备。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random Access Memory，RAM）等。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

一种多媒体设备语音控制系统，其特征在于，包括：

图像感应模块，用于采集用户动作图像；

图像识别模块，用于根据用户动作图像确定控制指令类型或状态，将发出用户动作图像的用户所在位置确定为目标音源位置，发送目标音源所在位置信息，根据所述目标音源位置确定目标用户，所述目标用户即为操控者；

语音识别状态管理模块，用于根据当前的控制指令类型激活或唤醒语音识别，

向音束形成模块发送目标音源所在位置信息，并控制多媒体功能模块减小多媒体输出声音的音量；

音束形成模块，用于根据目标音源所在位置确定拾音方向和拾音接收角；

拾音模块，用于根据所述拾音方向和拾音接收角采集目标音源发出的语音信号，

进行数字化处理形成语音数据；

语音识别模块，用于对采集到的语音数据进行识别，形成控制指令；

多媒体功能模块，用于执行控制指令，向用户提供相应的多媒体功能。
如权利要求1所述的多媒体设备语音控制系统，其特征在于，所述图像识别模块用于将用户动作图像与预设的图像模版比对，选取与用户动作图像匹配的控制指令类型；

若比对结果为找到与用户动作图像匹配的控制指令类型，则认为所述用户所在位置为目标音源位置，向语音识别状态管理模块发送目标音源所在位置信息、启动语音识别信息和/或控制指令类型；若未找到与用户动作图像匹配的控制指令类型，则向语音识别状态管理模块发出比对失败信息。
如权利要求2所述的多媒体设备语音控制系统，其特征在于，所述图像识别模块用于向用户播放人机交互内容，引导用户做动作，直至动作符合预设的图像模板。
如权利要求2所述的多媒体设备语音控制系统，其特征在于，

所述拾音模块为阵列拾音模块或者至少一拾音传感器，所述拾音传感器是规则或不规则排列的，所述拾音传感器根据拾音方向和拾音接收角的限定采集目标音源发出的语音信号，进行数字化处理形成语音数据后发送给语音识别模块。
如权利要求2所述的多媒体设备语音控制系统，其特征在于，所述语音识别状态管理模块根据接收到的启动语音识别信息，向语音识别模块发送启动指令及控制指令类型以激活或唤醒语音识别，向音束形成模块发送目标音源所在位置信息，并控制多媒体功能模块减小多媒体输出声音的音量，待所述拾音模块完成语音信号采集后将所述多媒体输出声音的音量调至正常音量。
如权利要求5所述的多媒体设备语音控制系统，其特征在于，所述语音识别模块根据来自语音识别状态管理模块的启动指令和控制指令类型，对来自拾音模块的语音数据进行识别，形成属于所述控制指令类型的控制指令，发送给多媒体功能模块。
如权利要求6所述的多媒体设备语音控制系统，其特征在于，所述语音识别模块预设内置的语音指令词典，所述语音指令词典中保存经过处理的控制指令语音信号单词模型；

所述语音识别模块将语音数据与语音指令词典中的单词模型对比，若语音数据与至少一单词模型相似度大于预设阈值，则将所述语音数据解释为与所述单词模型对应的控制指令，发送给多媒体功能模块。
如权利要求6所述的多媒体设备语音控制系统，其特征在于，所述语音识别模块包括本地语音识别模块和云端语音识别模块；

本地语音识别模块识别语音数据，形成属于所述控制指令类型的控制指令，发送给多媒体功能模块；

云端语音识别模块对本地语音识别模块无法识别的语音数据进行语义识别处理，形成属于所述控制指令类型的控制指令，发送给多媒体功能模块。
如权利要求1所述的多媒体设备语音控制系统，其特征在于，所述多媒体功能模块执行控制指令，根据所述控制指令通过搜索引擎进行自动搜索得到音视频数据，下载并播放音视频数据。
一种多媒体设备语音控制方法，包括：

采集用户动作图像；

根据所述用户动作图像确定控制指令类型或状态，将发出用户动作图像的用户所在位置确定为目标音源位置，发送目标音源所在位置信息，根据所述目标音源位置确定目标用户，所述目标用户即为操控者；

根据所述控制指令类型激活或唤醒语音识别，

发送目标音源所在位置信息，并减小多媒体输出声音的音量；

根据目标音源所在位置确定拾音方向和拾音接收角；

根据所述拾音方向和拾音接收角的限定采集用户发出的语音信号，进行数字化处理形成语音数据；

对采集到的语音数据进行识别，形成控制指令；

执行控制指令，向用户提供相应的多媒体功能。
如权利要求10所述的一种多媒体设备语音控制方法，其特征在于，所述根据所述用户动作图像确定控制指令类型或状态，将发出用户动作图像的用户所在位置确定为目标音源位置，发送目标音源所在位置信息的步骤为：

将用户动作图像与预设的图像模版比对，选取与用户动作图像匹配的控制指令类型；

若比对结果为找到与用户动作图像匹配的控制指令类型，则认为所述用户所在位置为目标音源位置，发送目标音源所在位置信息、启动语音识别信息和/或控制指令类型；若未找到与用户动作图像匹配的控制指令类型，发出比对失败信息。
如权利要求11所述的多媒体设备语音控制方法，其特征在于，还包括：

向用户播放人机交互内容，引导用户做动作，直至动作符合预设的图像模板。
如权利要求11所述的多媒体设备语音控制方法，其特征在于，所述根据所述拾音方向和拾音接收角采集目标音源发出的语音信号，形成语音数据的步骤为：

规则或不规则排列的至少一拾音传感器，通过所述拾音传感器根据拾音方向和拾音接收角的限定采集目标音源发出的语音信号，进行数字化处理形成语音数据后发送所述语音数据。
如权利要求11所述的多媒体设备语音控制方法，其特征在于，所述控制指令类型激活语音识别，发送目标音源所在位置信息，并减小多媒体输出声音的音量的步骤还包括：

根据接收到的启动语音识别信息，发送启动指令及控制指令类型以激活或唤醒语音识别，发送目标音源所在位置信息，减小多媒体输出声音的音量，待完成语音信号采集后将所述多媒体输出声音的音量调至正常音量。
如权利要求14所述的多媒体设备语音控制方法，其特征在于，所述根据接收到的启动语音识别信息，发送启动指令及控制指令类型以激活语音识别的步骤为：

根据启动指令和控制指令类型，对语音数据进行识别，形成属于所述控制指令类型的控制指令，发送所述控制指令。
如权利要求15所述的多媒体设备语音控制方法，其特征在于，所述对语音数据进行识别，形成属于所述控制指令类型的控制指令，发送所述控制指令的步骤为：

将语音数据与语音指令词典中的单词模型对比，所述语音指令词典中保存经过处理的控制指令语音信号单词模型；

若语音数据与至少一单词模型相似度大于预设阈值，则将所述语音数据解释为与所述单词模型对应的控制指令，发送所述控制指令。
如权利要求15所述的多媒体设备语音控制方法，其特征在于，所述对语音数据进行识别，形成属于所述控制指令类型的控制指令，发送所述控制指令的步骤为：

本地识别语音数据，形成属于所述控制指令类型的控制指令，发送所述控制指令；

对本地无法识别的语音数据进行语义识别处理，形成属于所述控制指令类型的控制指令，发送所述控制指令。
如权利要求10所述的多媒体设备语音控制方法，其特征在于，所述执行控制指令，向用户提供相应的多媒体功能的步骤为：

执行控制指令，根据所述控制指令通过搜索引擎进行自动搜索得到音视频数据，下载并播放音视频数据。
一种用于存储计算机可执行指令的计算机存储介质所述计算机可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序被一个或者一个以上的处理器用来执行指令用于执行多媒体设备语音控制方法，其特征在于，所述方法包括：

采集用户动作图像；

根据所述用户动作图像确定控制指令类型或状态，将发出用户动作图像的用户所在位置确定为目标音源位置，发送目标音源所在位置信息，根据所述目标音源位置确定目标用户，所述目标用户即为操控者；

根据所述控制指令类型激活或唤醒语音识别，

发送目标音源所在位置信息，并减小多媒体输出声音的音量；

根据目标音源所在位置确定拾音方向和拾音接收角；

根据所述拾音方向和拾音接收角的限定采集用户发出的语音信号，进行数字化处理形成语音数据；

对采集到的语音数据进行识别，形成控制指令；

执行控制指令，向用户提供相应的多媒体功能。