WO2015165257A1

WO2015165257A1 - 语音识别方法、装置、系统及计算机存储介质

Info

Publication number: WO2015165257A1
Application number: PCT/CN2014/092162
Authority: WO
Inventors: 刘海军; 缪川扬
Original assignee: 中兴通讯股份有限公司
Priority date: 2014-04-30
Filing date: 2014-11-25
Publication date: 2015-11-05
Also published as: EP3139376A4; EP3139376A1; EP3139376B1; CN105023575B; CN105023575A; US20170047066A1

Abstract

公开了语音识别方法、装置、系统及计算机存储介质。一种语音识别方法包括：语音识别装置发布支持的语音的清单、和/或所述支持的语音对应的指令的清单；另一种语音识别方法包括：语音识别控制装置获取支持的语音的清单、和/或所述语音识别装置支持的语音对应的指令的清单。

Description

语音识别方法、装置、系统及计算机存储介质

技术领域

本发明涉及通信与信息领域的语音识别技术，尤其涉及语音识别方法、装置、系统及计算机存储介质。

背景技术

数字多媒体和网络的发展，丰富了用户日常生活中的娱乐体验。目前的技术让用户在家里能够观看高清电视，电视节目的来源可能来自数字光盘、有线电视、互联网等等，能够体验立体声、5.1声道、7.1声道乃至更逼真的声音效果，而且用户还能够使用平板电脑(PAD)、手机来实现这些体验，相关技术还包括，用户能够通过网络在不同设备之间转移数字内容以进行播放，以及通过遥控器、语音控制一个设备的播放，例如控制切换上一频道、下一频道节目等等。

传统的对多个设备的控制中常见的是，分别使用遥控器控制对应的设备，而这些遥控器往往是互不通用的，遥控器大多不具备网络功能，例如传统的电视机、音响；也有一些支持网络的遥控器，例如在具有计算和网络通信能力的设备如手机、上加载支持互通协议的软件，来控制另一设备。

随着技术的发展，多个设备之间的内容播放共享、转移需求越来越多，上述操控方式显得并不够方便，例如，用户需要在一堆遥控器中挑选出对应设备的遥控器并随着控制不同的设备而不断地更换遥控器，或者，由熟悉电脑基本操作的人来操作PAD、手机来控制设备，或者以简单的语音来控制单一的设备。为了使用不同设备往往要学习使用不同的操控工具。

语音控制是当前比较新颖的一种方式，一台设备上的麦克风采集语音并进行分析识别，最后转换成对对应的可执行指令以控制设备。

相关技术和一些产品能够让用户使用语音来操控设备，例如，通过在电视机上增加一个麦克风以采集(人的)语音，识别语音并按照预定义的语音与操控指令对应关系，确定相应操作指令并执行，达到通过语音操控电视机的效果，已经实现的操控包括开机、关机等。

语音识别这样的技术和产品，要求被操控的设备要具有一个麦克风以采集语音，但在某些环境中如家庭环境中，一些设备由于设备尺寸、成本等原因并不具备麦克风，但是用户也需要通过语音来操控这些不具备麦克风的设备。

综上所述，如何帮助用户使用更简单、更自然的操作方式来控制在较小范围内的更多设备，使用户不需要学习掌握更多的使用方法，还能够降低企业生产、用户消费的成本，相关技术尚无有效解决方案。

发明内容

本发明实施例提供语音识别方法、装置、系统及计算机存储介质，能够使不具备语音采集能力的设备也能够接受语音的控制，方便用户使用语音控制设备，提升用户体验。

本发明实施例提供一种语音识别方法，所述方法包括：

语音识别装置发布支持的语音的清单、和/或所述支持的语音对应的指令的清单。

本发明实施例还提供一种语音识别方法，所述方法包括：

语音识别控制装置获取语音识别装置支持的语音的清单、和/或所述语音识别装置支持的语音对应的指令的清单。

本发明实施例还提供一种语音识别装置，所述语音识别装置包括：

第一通信单元，配置为发布支持的语音的清单、和/或所述支持的语音对应的指令的清单。

本发明实施例还提供一种语音识别控制装置，所述语音识别控制装置包括：

第二通信单元，配置为获取语音识别装置支持的语音的清单、和/或所述语音识别装置支持的语音对应的指令的清单。

本发明实施例还提供一种语音识别系统，所述语音识别系统包括语音识别装置，和/或语音识别控制装置；其中，

所述语音识别装置，配置为发布支持的语音的清单、和/或所述支持的语音对应的指令的清单；

所述语音识别控制装置，配置为获取语音识别装置支持的语音的清单、和/或所述语音识别设备支持的语音对应的指令的清单。

本发明实施例还提供一种计算机存储介质，存储有可执行指令，配置为执行上述的语音识别方法。

本发明实施例提供的技术方案，通过在网络中发布语音识别装置支持的语音的清单、和/或所述支持的语音对应的指令的清单；能够使设置了语音识别装置的且不具备语音采集能力的设备也能够接受语音的控制，从而，能够帮助用户使用更简单、更自然的操作方式来控制在一定范围内的设备，且用户不需要学习掌握多个设备的控制使用方法即可对设备进行快速方便地控制，同时降低了企业生产、用户消费的成本。

附图说明

图1为本发明实施例中语音识别方法的示意图一；

图2为本发明实施例中语音识别方法的示意图二；

图3为本发明实施例中语音识别装置的组成示意图；

图4为本发明实施例中语音识别控制装置的组成示意图；

图5a是本发明实施例中的一个场景的示意图；

图5b为本发明实施例中语音识别装置和语音识别控制装置的工作流程图；

图6为本发明实施例中实现语音控制时的消息交互示意图。

具体实施方式

发明人在实施本发明的过程中发现，已经有相关技术实现通过网络在不同设备之间传递控制信息，以实现设备之间的互相发现和控制，例如相关的通用即插即用(UPnP，Universal Plug and Play)技术规定了设备之间如何发送、接收网络消息来实现发现和控制，该技术以网络地址及数字编码作为设备的标识，是一种机器标识，最终的控制需要用户根据设备的机器标识进行选择再操作；如果能够提供一种语音识别方法，帮助用户使用更简单、更自然的操作方式来控制一定范围内的更多设备，使用户不需要学习掌握更多的使用方法，还能够降低企业生产、用户消费的成本。

本发明实施例记载一种语音识别方法，如图1所示，语音识别装置(例如，在网络中)发布支持的语音的清单、和/或所述支持的语音对应的指令的清单。

需要指出的是，所述语音识别装置设置于待操控设备中，所述待操控设备可以为任意常规设备，且无需具有语音采集能力和语音识别能力；上述的两种清单均包括语音识别装置所处的待操控设备的标识、以及语音识别装置支持的指令，由于语音识别装置与待操控设备是一一对应的关系，语音识别装置支持的指令用于控制待操控设备，因此，待操控设备的标识可以等同于(作为)语音识别装置的标识，语音识别装置支持的指令也可以等同于待操控设备支持的指令；语音识别装置支持的语音的清单的一个示例为：

本机(对应待操控设备)标识＝客厅电视机；关机.wav；开机.wav；增加音量.wav；降低音量.wav；

语音识别装置支持的语音对应的指令的清单的一个示例为：

本机(对应待操控设备)标识＝客厅电视机；指令1＝关机；指令2＝开机；3＝增加音量；4＝降低音量；

语音识别装置支持的语音对应的指令的清单的又一个示例为：

本机标识＝客厅电视机.wav；指令1＝关机.wav；指令2＝开机.wav；3＝增加音量.wav；4＝降低音量.wav；

其中，“wav”文件名是编码的语音数据文件，语音数据文件中存储诸如“关机”等语音的编码数字数据。

如上所述，语音识别装置可以发布上述任一示例的形式所对应的清单，也可以发布包括与上述两个示例的形式所对应的清单。

对于不同的待操控设备，可以预设相同的清单，也可以预设不同的清单，清单中的设备标识(本机标识)唯一，以区分不同的待操控设备。

作为一个实施方式，语音识别装置还接收被采集到的语音；执行所述采集到的语音对应的指令；或，

转发所述被采集到的语音或所述被采集到的语音对应的指令；其中，语音识别装置执行被采集到的语音对应的指令之前，还需识别被采集到的语音，得到被采集到的语音对应的指令。

其中，语音识别装置通过执行指令，实现对语音识别装置所处的待操控设备的控制，例如开始、结束等；在转发所述被采集到的语音时，语音识别装置可以转发所有被采集到的语音(或语音对应的指令)。

作为一个实施方式，所述转发所述被采集到的语音或所述被采集到的语音对应的指令，包括：所述语音识别装置根据预设策略，转发所述被采集到的语音或所述被采集到的语音对应的指令；

这里，所述的转发可以通过在网络中发送消息的方式实现，或通过语音识别装置之间的通信接口实现；所述在网络中发送的消息包括多播、广播和单播消息；所述预设策略包括以下策略的至少之一：接收到的被采集到的语音为预设特定语音时，转发所述被采集到的语音或所述被采集到的语音对应的指令；不支持所述被采集到的语音时，转发所述被采集到的语音或所述被采集到的语音对应的指令，即语音识别装置接收到语音识别控制装置识别的语音时，如果无法识别所接收到语音，或者支持识别出的语音对应的指令，但不支持所识别出的指令，则说明所接收到的语音的目标语音识别装置不是所述语音识别装置，相应地，所述语音识别装置转发被采集的语音或被采集的语音对应的指令至其他语音识别装置，以使接收到语音或指令的目标识别装置能够进行处理；例如，当接收到语音“开机”和语音“关机”时，如果语音识别装置只支持“开机”对应的开机指令，则在网络中发布“关机”语音或“关机”指令，以使其他语音识别装置进行处理。

语音的采集可以由语音识别控制装置实现，以使语音识别装置接收语音识别控制装置采集的语音。这里所述的语音，用计算机编码数据来表示，例如包括声音的采样频率数据，编码格式可以采用国际电信联盟远程通信标准化组(ITU-T)制定的G.711等标准。语音识别装置接收到语音时，识别出与所接收的语音对应的指令，并触发语音识别装置所处的待操控设备执行所识别出的指令，以实现对语音识别装置所处的待操控设备的控制。

作为一个实施方式，所述语音识别装置发布支持的语音的清单、和/或所述支持的语音对应的指令的清单，包括：

所述语音识别装置发布(例如在网络中发布)支持的语音的清单、和/或所述支持的语音对应的指令的清单，即语音识别装置自发发布；

或者，所述语音识别装置在接收到查询语音识别能力的请求消息后，响应支持的语音的清单、和/或所述支持的语音对应的指令的清单，即语音识别装置在网络中被动响应发送；例如，可以在网络中以单播、多播或广播消息的形式进行响应；

其中，所述语音识别装置发布的支持的语音的清单、和/或所述支持的语音对应的指令的清单时，可以周期性发布，也可以非周期性发布；所述语音的清单包括以下信息至少之一：语音文本；编码的语音数据；设备标识的语音文本和/或设备标识的编码的语音数据。

由于在一些使用场景中可能有多个待操控设备，相应地，每个待操控设备中都设置语音识别装置，每个语音识别装置所支持的语音可能不同，语音识别控制装置可以将所采集的语音进行识别，即确定一个或多个支持自身所采集的语音的语音识别装置，并向目标语音识别装置对应发送语音对应的指令，相应地，作为一个实施方式，所述方法还包括：所述语音识别装置接收被采集到的语音对应的指令，并执行指令；

本实施方式中，语音识别装置所接收到的被采集到的语音对应的指令，为语音识别装置所支持的指令，因此，可以直接执行所接收的指令。

语音识别装置可以设置于待操控设备中，利用自身的语音识别能力进行语音识别。

作为一个实施方式，由于在一些使用场景中可能有多个待操控设备，相应地，每个待操控设备中都设置语音识别装置，这就有必要对不同待操控设备中的语音识别装置进行区分；相应地，所述语音识别装置在网络中发布支持的语音的清单、和/或所述支持的语音对应的指令的清单还包括语音识别装置的标识；所述标识包括以下形式标识至少之一：

所述语音识别装置的标识对应的语音文本；

所述语音识别装置的标识对应的编码的语音数据。

本发明实施例还记载一种语音识别方法，如图2所示，所述方法包括：

作为一个实施方式，所述语音识别控制装置还(通过麦克风)采集语音，将所采集的语音发送至所述语音识别装置；这样，对于不具备语音采集能力的待操控设备，通过接收语音识别控制装置采集的语音，相当于具备了语音采集能力；

其中，所述语音包括以下形式语音至少之一：语音文本；编码的语音数据。

作为一个实施方式，所述语音识别控制装置采集语音，将所采集的语音发送至所述语音识别装置；即语音识别装置将所采集的语音发送至全部语音识别装置，由语音识别装置自身进行识别处理；当然，语音识别控制装置也可以对所采集的语音进行识别，识别出所采集的语音对应的指令，并将所识别出的指令发送至全部语音识别装置。

作为一个实施方式，由于在一些使用场景中可能有多个待操控设备，相应地，每个待操控设备中都设置语音识别装置，语音识别控制装置采集到语音时，可以对语音进行识别，识别出语音对应的指令、以及语音的目标语音识别装置(由于语音识别装置与待操控设备一一对应，因此识别语音的目标语音识别装置也可以等同于识别语音的目标操控设备)，将所采集的语音(或语音对应的指令)发送至目标语音识别装置；

其中，所述语音识别装置支持的语音的清单、以及所述语音识别装置支持的语音对应的指令的清单，均包括所述语音识别装置的标识；

相应地，语音识别控制装置确定所采集到的语音指示操控的目标语音识别装置时，可以通过以下方式实现：语音识别控制装置识别所采集到的语音，将识别结果与所述语音识别装置的标识匹配；将匹配到的语音识别装置确定为所采集到的语音指示操控的目标语音识别装置。

其中，所述语音识别装置的标识包括以下形式标识至少之一：

所述语音识别装置(或为语音识别装置所处的待操控设备)的对应的语音文本；

所述语音识别装置(或为语音识别装置所处的待操控设备)对应的编码的语音数据；例如当编码的语音数据为“客厅电视机.wav”时，标识语音的目标语音识别装置为客厅电视机中设置的语音识别装置。

作为一个实施方式，所述语音识别控制装置获取(例如可以通过网络获取)语音识别装置支持的语音的清单、和/或所述支持的语音对应的指令的清单，包括：

所述语音识别控制装置接收(例如可以通过网络接收)语音识别装置发布的支持的语音的清单、和/或所述支持的语音对应的指令的清单，也就是说，所述语音识别控制装置接收语音识别装置主动发布上述清单装置；或，

所述语音识别控制装置向所述语音识别装置发送(例如可以通过网络发送)语音识别能力请求消息，以接收所述语音识别装置响应的支持的语音的清单、和/或所述支持的语音对应的指令的清单。

本发明实施例还记载一种计算机存储介质，所述计算机存储介质中存储有可执行指令，所述可执行指令配置为执行图1或图2所示的语音识别方法。

本发明实施例还记载一种语音识别装置，如图3所示，所述语音识别装置包括：

第一通信单元31，配置为发布(例如，可以在网络中发布)支持的语音的清单、和/或所述支持的语音对应的指令的清单。

其中，所述语音识别装置还包括：

第一接收单元32，配置为接收被采集到的语音；

第一执行单元33，配置为执行所述被采集到的语音对应的指令；或，

转发所述被采集到的语音或所述被采集到的语音对应的指令。

其中，所述第一执行单元33，还配置为识别所述被采集到的语音，得到所述被采集到的语音对应的指令；确定支持所述被采集到的语音时，确定所述被采集到的语音对应的指令，并执行所确定的指令。

其中，所述第一执行单元33，还配置为根据预设策略，转发所述被采集到的语音或所述被采集到的语音对应的指令；所述预设策略包括以下策略至少之一：

所述被采集到的语音为预设特定语音时，转发所述被采集到的语音或所述被采集到的语音对应的指令；

不支持所述被采集到的语音时，转发所述被采集到的语音或所述被采集到的语音对应的指令。

其中，所述第一通信单元31，还配置为自发发布(例如可以在网络中发布)支持的语音的清单、和/或所述支持的语音对应的指令的清单；

或者，在接收到查询语音识别能力的请求消息时，响应(例如可以在网络中响应)支持的语音的清单、和/或所述支持的语音对应的指令的清单。

其中，所述语音识别装置还包括：

第二接收单元34，配置为被采集到的语音所对应的指令；

第二执行单元35，配置为执行所述第二接收单元34所接收到的指令。

其中，所述语音的清单中的语音包括以下形式语音至少之一：

语音文本；编码的语音数据。

其中，所述语音识别装置在网络中发布支持的语音的清单、和/或所述支持的语音对应的指令的清单，还包括所述语音识别装置的标识；所述标识包括以下形式标识至少之一：

所述语音识别装置的标识对应的语音文本；

所述语音识别装置的标识对应的编码的语音数据。

实际应用中，所述第一通信单元31、所述第一接收单元32和所述第二接收单元34可由语音识别装置中支持相应通信协议的芯片实现，所述通信协议包括：IEEE 802.11b/g/n、IEEE 802.3；所述第一执行单元33和所述第二执行单元35可由语音识别装置中的中央处理器(CPU，Central Processing Unit)、数字信号处理器(DSP，Digital Signal Processor)或现场可编程门阵列(FPGA，Field Programmable Gate Array)实现。

本发明实施例还记载一种语音识别控制装置，如图4所示，所述语音识别控制装置包括：

第二通信单元41，配置为获取(例如，可以通过网络获取)语音识别装置支持的语音的清单、和/或所述语音识别装置支持的语音对应的指令的清单。

其中，所述语音识别控制装置还包括：

第一采集单元42，配置为采集语音，将所采集的语音通过所述第二通信单元41发送至所述语音识别装置。

其中，所述语音识别控制装置还包括：

第二采集单元43，配置为采集语音；

第一识别单元44，配置为识别所述第二采集单元43所采集到的语音对应的指令，通过所述第二通信单元41将所识别出的指令发送至所述语音识别装置。

第三采集单元45，配置为采集语音；

第二识别单元46，配置为识别所述第三采集单元45所采集到的语音指示操控的目标语音识别装置，触发所述第二通信单元41将所述第三采集单元45采集到的语音，或所述第三采集单元45采集到的语音对应的指令，发送至所述目标语音识别装置。

相应地，所述第二识别单元46，还配置为识别第三采集单元45所采集到的语音，将识别结果与所述语音识别装置的标识匹配；

将匹配到的语音识别装置确定为所述第三采集单元45所采集到的语音指示操控的目标语音识别装置。

所述语音识别装置的对应的语音文本；

所述语音识别装置对应的编码的语音数据。

其中，所述第二通信单元41，还配置为接收(例如，可以通过网络接收)语音识别装置发布的支持的语音的清单、和/或所述支持的语音对应的指令的清单；或，

向所述语音识别装置发送(例如可以通过网络发送)语音识别能力请求消息，以接收所述语音识别装置响应的支持的语音的清单、和/或所述支持的语音对应的指令的清单。

实际应用中，所述第二通信单元41可由语音识别控制装置中支持相应通信协议的芯片实现，所述通信协议包括：IEEE 802.11b/g/n、IEEE 802.3；所述第一采集单元42、所述第二采集单元43、第三采集单元45可由语音识别控制装置具有语音采集功能的麦克风实现；所述第一识别单元44、第二识别单元46可由语音识别控制装置中的CPU、DSP或FPGA实现。

本发明实施例还记载一种语音识别系统，所述语音识别系统语音识别装置、和/或语音识别控制装置；

其中，所述语音识别装置，配置为发布支持的语音的清单、和/或所述支持的语音对应的指令的清单；

其中，所述语音识别装置还配置为接收被采集到的语音；

执行所述被采集到的语音对应的指令；或，

其中，所述语音识别装置还配置为识别所述被采集到的语音，得到所述被采集到的语音对应的指令。

其中，所述语音识别装置还配置为根据预设策略，转发所述被采集到的语音或所述被采集到的语音对应的指令；所述预设策略包括以下策略至少之一：

其中，所述语音识别装置还配置为自发发布支持的语音的清单、和/或所述支持的语音对应的指令的清单；

或者，所述语音识别装置在接收到查询语音识别能力的请求消息时，响应支持的语音的清单、和/或所述支持的语音对应的指令的清单。

其中，所述语音识别装置还配置为接收被采集到的语音所对应的指令，并执行所述指令。

所述语音的清单中的语音包括以下形式语音至少之一：

语音文本；编码的语音数据。

其中，所述语音识别装置所发布的支持的语音的清单、和/或所述支持的语音对应的指令的清单，还包括所述语音识别装置的标识；所述标识包括以下形式标识至少之一：

所述语音识别装置的标识对应的语音文本；

所述语音识别装置的标识对应的编码的语音数据。

其中，所述语音识别控制装置还配置为采集语音，将所采集的语音发送至所述语音识别装置。

其中，所述语音识别控制装置还配置为采集语音，识别所采集的语音对应的指令，将识别出的指令发送至所述语音识别装置。

所述语音包括以下形式语音至少之一：语音文本；编码的语音数据。

其中，所述语音识别控制装置还配置为采集语音；

确定所采集到的语音指示操控的目标语音识别装置；

将所采集到的语音或所采集到的语音对应的指令，发送至所述目标语音识别装置。

所述语音识别装置支持的语音的清单、以及所述语音识别装置支持的语音对应的指令的清单，均包括所述语音识别装置的标识。

其中，所述语音识别控制装置还配置为识别所采集到的语音，将识别结果与所述语音识别装置的标识匹配；

将匹配到的语音识别装置确定为所采集到的语音指示操控的目标语音识别装置。

所述语音识别装置的标识包括以下形式标识至少之一：

所述语音识别装置的对应的语音文本；

所述语音识别装置对应的编码的语音数据。

其中，所述语音识别控制装置还配置为接收语音识别装置发布的支持的语音的清单、和/或所述支持的语音对应的指令的清单；或，

所述语音识别控制装置向所述语音识别装置发送语音识别能力请求消息，以接收所述语音识别装置响应的支持的语音的清单、和/或所述支持的语音对应的指令的清单。

下面再结合具体使用场景对本发明实施例记载的方法进行说明，图5a是本发明实施例中的一个场景的示意图，如图5a所示的四个设备，分别是语音识别控制装置、电视机、DVD播放机和家庭存储服务器。其中，电视机、家庭存储服务器支持语音控制，但没有麦克风以支持语音识别，为说明上的方便，DVD播放机不支持语音控制，只能用传统遥控器来控制。

四个设备上都有网络接口，例如支持IEEE 802.11b/g/n，或者支持IEEE 802.3，从而可以连接到网际协议(IP，Internet Protocol)网络，四个设备中任一设备能够与其他设备通信，以及处理指令、或转交指令。

这种四个设备在网络上的互相发现、连接、发送与接收消息的能力，可以使用相关的UPnP技术实现，也可以使用多播域名系统(mDNS)或基于域名系统的服务发现(DNS-SD)技术实现，这一类技术用在IP网络中，以单播、多播查询方式，按照预先定义的报文格式响应查询、提供功能调用。例如，UPnP技术规定了媒体显示设备(如电视机)、服务器(如DVD播放机、家庭存储服务器)如何响应查询、提供哪些调用功能。

语音识别控制装置通过麦克风进行语音采集，以实现语音识别；还可实现数据存储、控制和网络服务的功能。

本发明实施例中，语音识别控制装置也可以是一种可穿戴设备，例如戴在手上的指环式设备、戴在手臂上的手表式设备，这种可穿戴设备能够采集、识别或编码用户发出的语音，并且也具备网络功能。

本发明实施例中，语音识别控制装置能够根据接收到的语音控制装置的能力信息，识别出设备装置的标识，查找到设备装置的网络地址、惟一标识等信息，从而能够确定目标语音识别装置，将采集到的语音或采集到的语音对应的指令，发给目标语音识别装置。

在本发明实施例中，电视机、家庭存储服务器等待操控设备在开机时，待操控设备中的语音识别装置以多播方式发送报文，报文中包括：

语音识别装置的惟一标识，用于指示本装置是语音识别装置，可以采用预先定义的编码类型，例如网络地址、或不同于网络地址的标识，例如字符串等；

语音识别装置支持语音对应的指令的清单，例如当语音采用文本形式时，清单的一个示例为：“本机标识＝客厅电视机；指令1＝关机；指令2＝开机；3＝增加音量；4＝降低音量”；

当语音采用编码的数据时，清单的一个示例为：“本机标识＝客厅电视机.wav；指令1＝关机.wav；指令2＝开机.wav；3＝增加音量.wav；4＝降低音量.wav”；

报文中还可以包括：语音识别装置支持的语音对应的指令参数，例如语音表示的持续时间。

下面对图5a中的语音识别装置和语音识别控制装置进行配合，完成对设备语音控制的处理进行说明，图5b为本发明实施例中语音识别装置和语音识别控制装置的工作流程图，如图5b所示，包括以下步骤：

步骤501，待控制设备中的语音识别装置启动，或收到了查询请求。

所述查询请求为图5b中的语音识别控制装置发出，用于请求图5a中的各设备(包括家庭存储服务器、电视机、DVD播放机)中设置的语音识别装置的语音识别能力，所述语音识别能力采用所述语音识别装置支持的语音的清单、和/或所述支持的语音对应的指令的清单。

步骤502，语音识别装置发出语音识别能力消息。

所述语音识别能力消息包括语音识别装置的标识(采用文本形式、或编码的语音数据形式)和一组语音描述信息，语音描述信息包括语音识别装置支持的语音对应的指令的清单，和/或支持的语音的清单；语音的清单中的语音采用的形式包括：语音文本形式、编码的语音数据形式；由于图5a中语音识别装置与待操控设备是一一对应的，因此语音识别装置的标识也可以作为待操控设备的标识。

语音识别装置可以广播或多播消息的形式主动发出语音识别能力消息；也可以在接收到查询待操控设备是否支持语音识别的查询消息时，以单播、多播或广播消息的形式发出语音识别能力消息。

步骤503，语音识别控制装置接收语音识别能力消息。

步骤504，语音识别控制装置采集语音。

这里，所述的采集可以通过计算机采集方式，例如通过麦克风捕获语音数据对语音进行分析识别，也可以是通过穿戴设备采集语音数据对语音进行分析识别。

步骤505，语音识别控制装置采集语音，并确定采集到的语音对应的指令、或确定采集到的语音的描述信息，发送所确定的指令或语音描述信息至语音识别装置。

语音识别控制装置采集到语音后，确定采集到的语音的目标语音识别装置，由于图5b中语音识别装置与待操控设备是一一对应的，因此确定目标语音识别装置等同与确定语音的目标操控设备，即确定采集到的语音是用来控制哪个设备的，这里确定目标语音识别装置，可以通过将采集的语音与清单中的语音识别装置的标识进行匹配的方式确定；

采集到的语音的描述信息为文本形式或编码的语音数据形式。

步骤506a，语音识别控制装置将所确定的指令或语音的描述信息发送至目标语音识别装置。

即发送至语音的目标操控设备中的语音识别装置。

步骤507a，目标语音识别装置接收到指令时，执行所接收的指令；目标语音识别装置接收到语音描述信息时，根据语音的描述信息进行二次识别，确定对应的指令，并执行指令。

步骤506a和步骤507a也可以对应用步骤506b和步骤507b代替。

步骤506b，语音识别控制装置将所确定的指令或语音的描述信息发送至语音识别装置。

即发送至图5a中的设备(包括家庭存储服务器、电视机、DVD播放机) 中所设置的语音识别装置。

步骤507b，语音识别装置根据预设策略处理接收的指令或语音描述信息。

所述预设策略包括：所述被采集到的语音为预设特定语音(如语音识别装置已经转发过语音)时，转发所述被采集到的语音；不支持所述被采集到的语音时，转发所述被采集到的语音。

以设置于电视机中的语音识别装置(设为语音识别装置1)接收到指令(即步骤505中语音识别控制装置确定的指令)的处理为例，当语音识别装置1接收到指令时，如果语音识别装置1支持所接收的指令，则标识用户的语音的目标控制设备为电视机，相应地，语音识别装置1控制电视机执行指令，完成对用户语音控制的响应；如果语音识别装置1不支持所接收的指令，标识用户语音的目标控制设备不是电视机，则将接收到的指令转发至图5a中其他设备(包括家庭存储服务器、DVD播放器)中设置的语音识别装置，并由其他设备中的语音识别装置分别判断是否支持所接收的指令，在确定支持所接收的指令时执行指令，完成对用户语音控制的响应；

当设置于电视机中的语音识别装置(设为语音识别装置1)接收到语音描述信息(即步骤505中语音识别控制装置确定的语音描述信息)时，语音识别装置1需要根据语音描述信息确定对应的指令，其余的处理与以上所述相同，这里不再赘述；

当设置于电视机中的语音识别装置(设为语音识别装置1)接收到指令(即步骤505中语音识别控制装置确定的指令)时，如果该指令为语音识别装置1之前转发过的指令，标识该指令为语音识别装置所不支持的指令，则转发该指令至图5中其他设备(包括家庭存储服务器、DVD播放器)中设置的语音识别装置，并由其他设备中的语音识别装置分别判断是否支持所接收的指令，在确定支持所接收的指令时执行指令，完成对用户语音控制的响应。

语音识别装置控制自身所处的设备响应所接收的指令，从而，实现了对设备的语音控制。

本实施例中，还能够避免用户多个语音识别装置根据用户实施的语音进行误操作，例如当多个设备中的语音识别装置均支持同一语音(对应关机指令)，而用户本意只是要关闭一个设备，这样，通过上述步骤中对目标语音操控设备的确认，能够避免对用户实施语音的错误响应。

图6是本发明实施例中实现语音控制时的消息交互示意图，设备1和设备2中分别设置有以上所述的语音识别装置，语音识别控制设备中设置有以上所述的语音识别控制装置；如图6所示，本发明实施例中语音控制包括以下步骤：

步骤601，设备1发出多播消息。

多播消息中包括设备1中的语音识别装置支持的语音对应的指令的清单。

从而，使网络中的语音识别控制设备接收到了设备1支持的语音对应的指令的清单。

步骤602，语音识别控制设备向设备2发出查询语音识别能力的请求消息。

步骤602中发出的消息可以使用广播、多播、或单播消息的形式发出。

步骤603，设备2发出单播消息。

单播消息中包括设备2支持的语音对应的指令的清单。

步骤604，语音识别控制设备采集语音。

步骤605，语音识别控制设备向设备1发送语音控制指令。

这一指令的发出，是因为语音识别控制设备确定在步骤604采集到用户的语音是要操控设备1，并且确定设备1支持采集到的语音。

从而，实现了设备1虽然不具备麦克风、穿戴设备等部件，仍然支持语音控制。

其中，上述的设备1和设备2可以为电视机、播放机、存储服务器等待控制设备，而本发明实施例中所述的待操控设备并不仅限于上述提到的设备，其他设备例如电脑、音响、音箱、投影仪、机顶盒等等都可以作为待操控设备，甚至工业上其它设备如汽车、机床、轮船等等都可以由本发明实施例记载的语音识别控制装置来操控。

上述实施例中，语音识别控制装置中的麦克风可以是各种规格，例如单声道采集麦克风、麦克风阵列等等。

上述流程，是实现本发明的实施例，并不是限定只能用上述实施例来实现，本方实施例中也不限定具体流程执行的方法，本发明实施例还可以用类似的方式实现，例如将装置替换为单元、更改本发明实施例中记载的各种消息的名称、类型等，这仅仅是命名形式的变化，仍然属于本发明的保护范围。

为了清楚起见，本发明实施例中没有示出和描述设备的所有的常规特征。当然，应当理解，在任何实际设备的研制中，必需做出特定实现方式的决定以便实现研制者的特定目标，例如符合与应用及业务相关的约束，这些特定的目标随着不同的实现方式而变化，并且随着不同的研制者而变化。而且，应当理解，这种研制工作是复杂和耗时的，但是尽管如此，对于受到本发明公开内容启发的普通技术人员而言所进行的技术工作是常规的。

根据这里描述的主题，能够利用各种类型的操作系统、计算平台、计算机程序、和/或通用机器来制造、操作和/或执行各种部件、系统、装置、处理步骤和/或数据结构。此外，本领域的普通技术人员将会明白，也可以利用不太通用的装置，而不脱离这里公开的发明构思的范围和精神实质。其中，所包含的方法由计算机、装置或机器执行，并且该方法可以被存储为机器可读的指令，它们可以存储在确定的介质上，例如计算机存储装置，包括但不限于ROM(例如，只读存储器、FLASH存储器、转移装置等)、磁存储介质(例如，磁带、磁盘驱动器等)、光学存储介质(例如，CD-ROM、DVD-ROM、纸卡、纸带等)以及其他熟知类型的程序存储器。此外，应当认识到，该方法可以利用软件工具的选择由人类操作者执行，而不需要人或创造性的判断。

上述实施例，网络相关的，可适用于基于IEEE 802.3、IEEE 802.11b/g/n、电力线网路(POWELINE)、电缆(CABLE)、公共交换电话网络(PSTN，Public Switched Telephone Network)、第三代合作伙伴计划(3GPP，3rd Generation Partnership Project，)网络、3GPP2网络等通讯网络所支持的IP网络，各装置的操作系统可适用于UNIX类操作系统、WINDOWS类操作系统、ANDROID类操作系统、IOS操作系统，对消费者接口可适用于JAVA语言接口等。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、随机存取存储器(RAM，Random Access Memory)、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、RAM、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

一种语音识别方法，所述方法包括：

语音识别装置发布支持的语音的清单、和/或所述支持的语音对应的指令的清单。
如权利要求1所述的语音识别方法，其中，所述方法还包括：

所述语音识别装置接收被采集到的语音；

执行所述被采集到的语音对应的指令；或，

转发所述被采集到的语音或所述被采集到的语音对应的指令。
如权利要求2所述的语音识别方法，其中，所述执行所述被采集到的语音对应的指令之前，所述方法还包括：

识别所述被采集到的语音，得到所述被采集到的语音对应的指令。
如权利要求2所述的语音识别方法，其中，所述转发所述被采集到的语音或所述被采集到的语音对应的指令，包括：

根据预设策略，转发所述被采集到的语音或所述被采集到的语音对应的指令；所述预设策略包括以下策略至少之一：

所述被采集到的语音为预设特定语音时，转发所述被采集到的语音或所述被采集到的语音对应的指令；

不支持所述被采集到的语音时，转发所述被采集到的语音或所述被采集到的语音对应的指令。
如权利要求1所述的语音识别方法，其中，所述语音识别装置发布支持的语音的清单、和/或所述支持的语音对应的指令的清单，包括：

所述语音识别装置自发发布支持的语音的清单、和/或所述支持的语音对应的指令的清单；

或者，所述语音识别装置在接收到查询语音识别能力的请求消息时，响应支持的语音的清单、和/或所述支持的语音对应的指令的清单。
如权利要求1所述的语音识别方法，其中，所述方法还包括：

所述语音识别装置接收被采集到的语音所对应的指令，并执行所述指令。
如权利要求1所述的语音识别方法，其中，所述语音的清单中的语音包括以下形式语音至少之一：

语音文本；编码的语音数据。
如权利要求1至7任一项所述的语音识别方法，其中，

所述语音识别装置发布支持的语音的清单、和/或所述支持的语音对应的指令的清单，还包括所述语音识别装置的标识；所述标识包括以下形式标识至少之一：

所述语音识别装置的标识对应的语音文本；

所述语音识别装置的标识对应的编码的语音数据。
一种语音识别方法，所述方法包括：

语音识别控制装置获取语音识别装置支持的语音的清单、和/或所述语音识别装置支持的语音对应的指令的清单。
如权利要求9所述的语音识别方法，其中，所述方法还包括：

所述语音识别控制装置采集语音，将所采集的语音发送至所述语音识别装置。
如权利要求9所述的语音识别方法，其中，所述方法还包括：

所述语音识别控制装置采集语音，识别所采集的语音对应的指令，将识别出的指令发送至所述语音识别装置。
如权利要求9所述的语音识别方法，其中，

所述语音包括以下形式语音至少之一：语音文本；编码的语音数据。
如权利要求9所述的语音识别方法，其中，所述方法还包括：

所述语音识别控制装置采集语音；

确定所采集到的语音指示操控的目标语音识别装置；

将所采集到的语音或所采集到的语音对应的指令，发送至所述目标语音识别装置。
如权利要求13所述的语音识别方法，其中，所述语音识别装置支持的语音的清单、以及所述语音识别装置支持的语音对应的指令的清单，均包括所述语音识别装置的标识。
如权利要求14所述的语音识别方法，其中，所述确定所采集到的语音指示操控的目标语音识别装置，包括：

识别所采集到的语音，将识别结果与所述语音识别装置的标识匹配；

将匹配到的语音识别装置确定为所采集到的语音指示操控的目标语音识别装置。
如权利要求9所述的语音识别方法，其中，所述语音识别装置的标识包括以下形式标识至少之一：

所述语音识别装置的对应的语音文本；

所述语音识别装置对应的编码的语音数据。
如权利要求9至16任一项所述的语音识别方法，其中，所述语音识别控制装置获取语音识别装置支持的语音的清单、和/或所述支持的语音对应的指令的清单，包括：

所述语音识别控制装置接收语音识别装置发布的支持的语音的清单、和/或所述支持的语音对应的指令的清单；或，

所述语音识别控制装置向所述语音识别装置发送语音识别能力请求消息，以接收所述语音识别装置响应的支持的语音的清单、和/或所述支持的语音对应的指令的清单。
一种语音识别装置，所述语音识别装置包括：

第一通信单元，配置为发布支持的语音的清单、和/或所述支持的语音对应的指令的清单。
如权利要求18所述的语音识别装置，其中，所述语音识别装置还包括：

第一接收单元，配置为接收被采集到的语音；

第一执行单元，配置为执行所述被采集到的语音对应的指令；或，

转发所述被采集到的语音或所述被采集到的语音对应的指令。
如权利要求19所述的语音识别装置，其中，

所述第一执行单元，还配置为识别所述被采集到的语音，得到所述被采集到的语音对应的指令。
如权利要求19所述的语音识别装置，其中，

所述第一执行单元，还配置为根据预设策略，转发所述被采集到的语音或所述被采集到的语音对应的指令；所述预设策略包括以下策略至少之一：

所述被采集到的语音为预设特定语音时，转发所述被采集到的语音或所述被采集到的语音对应的指令；

不支持所述被采集到的语音时，转发所述被采集到的语音或所述被采集到的语音对应的指令。
如权利要求18至21任一项所述的语音识别装置，其中，

所述第一通信单元，还配置为在网络中自发发布支持的语音的清单、和/或所述支持的语音对应的指令的清单；

或者，在接收到查询语音识别能力的请求消息后，响应支持的语音的清单、和/或所述支持的语音对应的指令的清单。
如权利要求18至21任一项所述的语音识别装置，其中，所述语音识别装置还包括：

第二接收单元，配置为接收被采集到的语音所对应的指令；

第二执行单元，配置为执行所述第二接收单元所接收的指令。
一种语音识别控制装置，所述语音识别控制装置包括：

第二通信单元，配置为获取语音识别装置支持的语音的清单、和/或所述语音识别装置支持的语音对应的指令的清单。
如权利要求24所述的语音识别控制装置，其中，所述语音识别控制装置还包括：

第一采集单元，配置为采集语音，触发所述第二通信单元将所采集的语音发送至所述语音识别装置。
如权利要求24所述的语音识别控制装置，其中，所述语音识别控制装置还包括：

第二采集单元，配置为采集语音；

第一识别单元，配置为识别所述第二采集单元所采集到的语音对应的指令，触发所述第二通信单元将所识别出的指令发送至所述语音识别装置。
如权利要求24所述的语音识别控制装置，其中，所述语音识别控制装置还包括：

第三采集单元，配置为采集语音；

第二识别单元，配置为识别所述第三采集单元所采集到的语音指示操控的目标语音识别装置，触发所述第二通信单元将所述第三采集单元到的语音，或所述第三采集单元采集到的语音对应的指令，发送至所述目标语音识别装置。
如权利要求27所述的语音识别控制装置，其中，所述语音识别装置支持的语音的清单、以及所述语音识别装置支持的语音对应的指令的清单，均包括所述语音识别装置的标识。
如权利要求28所述的语音识别控制装置，其中，

所述第二识别单元，还配置为识别所采集到的语音，将识别结果与所述语音识别装置的标识匹配；

将匹配到的语音识别装置确定为所采集到的语音指示操控的目标语音识别装置。
如权利要求24至29任一项所述的语音识别控制装置，其中，

所述第二通信单元，还配置为接收语音识别装置发布的支持的语音的清单、和/或所述支持的语音对应的指令的清单；或，

向所述语音识别装置发送语音识别能力请求消息，以接收所述语音识别装置响应的支持的语音的清单、和/或所述支持的语音对应的指令的清单。
一种语音识别系统，所述语音识别系统包括语音识别装置，和/或语音识别控制装置；其中，

所述语音识别装置，配置为发布支持的语音的清单、和/或所述支持的语音对应的指令的清单；

所述语音识别控制装置，配置为获取语音识别装置支持的语音的清单、和/或所述语音识别设备支持的语音对应的指令的清单。
一种计算机存储介质，所述计算机存储介质中存储有可执行指令，所述可执行指令配置为执行权利要求1至8任一项所述的语音识别方法。
一种计算机存储介质，所述计算机存储介质中存储有可执行指令，所述可执行指令配置为执行权利要求9至17任一项所述的语音识别方法。