WO2020215736A1

WO2020215736A1 - 语音识别设备及其唤醒响应方法、计算机存储介质

Info

Publication number: WO2020215736A1
Application number: PCT/CN2019/123811
Authority: WO
Inventors: 何瑞澄
Original assignee: 广东美的白色家电技术创新中心有限公司; 美的集团股份有限公司
Priority date: 2019-04-26
Filing date: 2019-12-06
Publication date: 2020-10-29
Also published as: EP3944231A4; JP2022529708A; US20220044685A1; CN111862988A; KR20210141581A; CN111862988B; JP7279992B2; EP3944231A1

Abstract

一种语音识别设备的唤醒响应方法、语音识别设备及计算机存储介质，其中，多个语音识别设备构成区域网络，多个语音识别设备分为一个中枢设备和至少一个非中枢设备；唤醒响应方法包括：中枢设备分析采集的语音信号，以获得中枢设备的响应因子（S201）；接收非中枢设备的响应因子，非中枢设备的响应因子由非中枢设备分析采集的语音信号而获得（S202）；比较中枢设备的响应因子和非中枢设备的响应因子；确定待响应语音识别设备（S203），待响应语音识别设备为区域网络中响应语音信号的语音识别设备。该唤醒响应方法能够在多个可响应该语音信号的语音识别设备中确定一个响应该语音信号的设备。

Description

语音识别设备及其唤醒响应方法、计算机存储介质

本申请要求于2019年4月26日提交的申请号为2019103430678，发明名称为“语音识别设备及其唤醒响应方法、计算机存储介质”的中国专利申请的优先权，其通过引用方式全部并入本申请。

【技术领域】

本申请涉及语音唤醒领域，特别是涉及一种语音识别设备的唤醒响应方法、语音识别设备及计算机存储介质。

【背景技术】

语音识别，语音交互等技术已应用在多个领域，对于搭载了语音识别系统的设备一般在收到语音信号时会被唤醒后对语音信号进行响应。

对于同一区域内或多个相邻区域内的多个语音识别设备，可能出现同时被语音信号唤醒并响应的情况，而在一般的应用场景中，用户显然只会对一个语音识别设备进行唤醒，并且多个语音识别设备的同时唤醒并响应会导致多个语音识别设备之间相互干扰的问题，例如一个语音识别设备响应所述语音信号而播报的声音会被另一个语音识别设备接收并响应，反之亦然，即产生相互干扰的问题。

【发明内容】

本申请提供一种语音识别设备的唤醒响应方法、语音识别设备及计算机存储介质，以解决现有技术中多个语音识别设备同时响应唤醒语音，而造成的相互干扰问题。

为解决上述技术问题，本申请提供一种语音识别设备的唤醒响应方法，多个语音识别设备构成区域网络，多个语音识别设备分为一个中枢设备和至少一个非中枢设备；唤醒响应方法包括：中枢设备分析采集的语音信号，以获得中枢设备的响应因子；接收非中枢设备的响应因子，非中枢设备的响应因子由非中枢设备分析采集的语音信号而获得；比较中枢设备的响应因子和非中枢设备的响应因子；确定待响应语音识别设备，待响应语音识别设备为区域网络中响应语音信号的语音识别设备。

为解决上述技术问题，本申请提供一种语音识别设备的唤醒响应方法，多个语音识别设备构成区域网络，多个语音识别设备分为一个中枢设备和至少一个非中枢设备；唤醒响应方法包括：非中枢设备分析采集的语音信号，以获得非中枢设备的响应因子；向中枢设备发送非中枢设备的响应因子，以由中枢设备比较非中枢设备的响应因子和中枢设备的响应因子，来确定待响应语音识别设备，待响应语音识别设备为区域网络中响应语音信号的语音识别设备。

为解决上述技术问题，本申请提供一种语音识别设备，其包括处理器和存储器，存储器中存储有计算机程序，处理器用于执行计算机程序以实现唤醒响应方法的步骤。

为解决上述技术问题，本申请提供一种计算机存储介质，其中存储有计算机程序，计算机程序被执行时实现上述唤醒响应方法的步骤。

本申请唤醒响应方法中多个语音识别设备构成区域网络，其中，语音识别设备均采集语音信号，并分析所采集到的语音信号以获得响应因子。多个语音识别设备分为一个中枢设备和至少一个非中枢设备。中枢设备获取其自身的响应因子，并接收非中枢设备的响应因子；然后比较自身的响应因子和非中枢设备的响应因子，从而确定待响应语音识别设备，该待响应语音识别设备即本区域网络中响应语音信号的语音识别设备。本申请中对于构成区域网络的语音识别设备，在被语音信号唤醒后，暂时不响应，先由中枢设备来确定该由哪个进行响应，从而避免多个语音识别设备均响应造成的相互干扰的问题。

【附图说明】

图1是本申请语音识别设备相互连接所构成网络的结构示意图；

图2是本申请语音识别设备的唤醒响应方法应用在单区域网络的流程示意图；

图3是本申请语音识别设备的唤醒响应方法应用在多区域网络的流程示意图；

图4是本申请语音识别设备的唤醒响应方法的中枢设备端工作流程示意图；

图5是本申请语音识别设备唤醒响应方法的非中枢设备端工作流程示意图；

图6是本申请语音识别设备一实施例的结构示意图；

图7是本申请计算机存储介质一实施例的结构示意图。

【具体实施方式】

为使本领域的技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本申请所提供的一种语音识别设备的唤醒响应方法、语音识别设备及计算机存储介质做进一步详细描述。

本申请唤醒响应方法应用于多个语音识别设备均可对同一语音信号进行响应的情况，对于这种情况，以家电领域为例，在同一区域或多个相邻区域存在多个家电设备，其中家电设备均具有语音识别功能，即作为语音识别设备。例如客厅区域存在电视机、空调、冰箱等语音识别设备；厨房区域存在冰箱、微波炉、热水壶、电饭煲等语音识别设备。当用户在客厅区域发出语音信号时，由于声音传播特性，在客厅区域内的多个家电设备均可能接收到该语音信号，并对该语音信号进行响应，此时则会出现多个家电设备均进行回应的情况，在该情况下，A家电设备回应的声音可能又被B家电设备接收并响应，继而导致家电设备之间相互干扰，而无法正常回应用户的需求。还例如当用户在客厅区域和厨房区域之间发出语音信号时，两个区域均可接收到语音信号，并对该语音信号进行响应，也会出现相互干扰的问题。

对于本申请语音识别设备来说，为先唤醒后响应的模式，即先被用户发出的语音信号唤醒，然后再对该语音信号进行响应回复。对此，本申请在唤醒和响应之间引入选择确定机制，即在被语音信号唤醒后，暂时不响应，在确定需要响应时再回复。

具体来说对于单个区域，将多个语音识别设备相互连接构成区域网络，其中一个语音识别设备作为该区域网络中的中枢设备，由中枢设备来确定本区域网络中由哪个语音识别设备来响应该语音信号。

对于多个区域，首先每个区域网络的中枢设备确定本区域网络中响应语音信号的待响应语音识别设备，此后，再由所有中枢设备中一个第一中枢设备来确定由哪个区域网络中的待响应语音识别设备来响应，从而解决多个语音识别设备均响应语音信号而造成相互干扰的问题。

在家电领域的应用中，由于中枢设备需要随时能够应对用户的语音信号，以确定响应语音信号的设备，因此一般选择长时间连接电源，基本不会断电的家电设备；且优先选择具有交互屏幕的家电设备来作为网络中枢设备，方便通过交互屏幕进行相关设置。例如，冰箱作为中枢设备。

一般来说，每个区域，例如客厅区域、厨房区域中的家电设备均可分别构成区域网络，该区域网络对应于区域的划分，在网络连接上，不一定构成单独的区域网络，即可能在一个家庭中所有区域的家电设备可相互连接构成整体的家电设备网络。

本申请中所构成的网络包括并不仅限于WIFI无线网络组成的局域网、有线网络组成的局域网、蓝牙mesh组成的局域网、zigbee组成的局域网、RS485组成的局域网、LoRa组成的局域网、1394组成的局域网、CAN组成的局域网等等。所构成网络的通讯机制包括并不仅限于UDP、TCP/IP、HTTP、MQTT、CoAP等等，确保同一网络的每个语音识别设备能够快速和可靠地进行信息交互。

对于本申请的唤醒响应方法，下面从语音识别设备所构成的网络出发，对唤醒响应方法进行说明。

请参阅图1，图1是本申请语音识别设备相互连接所构成网络的结构示意图。图1中区域划分为客厅区域A、厨房区域B、卧室区域C；在客厅区域A，语音识别设备包括：冰箱A1、电视机A2、空气净化器A3；在厨房区域B，语音识别设备包括：抽油烟机B1、电饭煲B2、破壁机B3；在卧室区域C，语音识别设备包括：空调C1、加湿器C2。所有的语音识别设备连接构成网络，每个区域中的语音识别设备也构成区域网络。

每个区域网络中的语音设备分为一个中枢设备和至少一个非中枢设备，由中枢设备确定本区域网络中响应语音信号的待响应语音识别设备。而所有区域网络的中枢设备又分为一个第一中枢设备和至少一个第二中枢设备，由第一中枢设备来确定具体由哪个区域网络中的待响应语音识别设备来响应语音信号。

在本申请一些实施例中，区域网络中的语音设备不仅仅分为中枢设备和非中枢设备，其还进一步具有唤醒优先级，唤醒优先级可由厂商在出厂语音识别设备时进行设置，在连接构成网络后，最高唤醒优先级的语音识别设备自动作为区域网络的中枢设备；唤醒优先级也可以在构建网络时设置，由用户自主设置，或由搭建网络的服务商设置；根据所设置的唤醒优先级，最高唤醒优先级的语音识别设备作为网络的中枢设备。

在图1所示网络中，客厅区域A的优先级排序为A1＞A2＞A3，厨房区域B的优先级排序为B1＞B2＞B3，卧室区域C的优先级排序为C1＞C2；其中A1、 B1、C1分别作为各自所在区域网络的中枢设备。各个区域网络的中枢设备之间也有优先级排序A1＞B1＞C1，本申请中，A1作为第一中枢设备，B1和C1作为第二中枢设备。

图1所示网络可实现在单区域内的唤醒响应，以及在多区域的唤醒响应。具体请参阅图2和图3，图2是本申请语音识别设备的唤醒响应方法应用在单区域网络的流程示意图，图3是本申请语音识别设备的唤醒响应方法应用在多区域网络的流程示意图。

如图2，对于单区域网络中唤醒响应方法的实现，包括以下步骤。

S201：语音识别设备分析采集的语音信号，获得响应因子。

本步骤中语音识别设备主要进行两个动作，采集和分析。在用户即信号源发出语音信号后，语音识别设备均可对语音信号进行采集，每个语音识别设备由于与用户的相对位置不同，其所采集到的语音信号也不同。其中距离用户比较远的语音识别设备，虽然在区域网络中，也可能并不能采集到语音信号。

语音识别设备对各自所采集到的语音信号进行分析，本实施例每个区域网络中所有语音识别设备对语音信号的分析机制均是相同的，以便于后续的比较计算。对语音信号进行分析计算获得响应因子，响应因子表示了语音识别设备对于该语音信号的对应程度，即该语音信号有多大可能是对该语音识别设备发出的。

由于需要根据响应因子以确定响应语音信号的待响应语音识别设备，因而响应因子中包括语音识别设备的标识，以及用于判断的能量值，响应因子的能量值具体可根据语音信号的语音特征及语音信号与语音识别设备中唤醒模板的匹配度计算获得。其中，语音特征可以是语音信号的音量，越大即表示用户距离该语音识别设备越近；与该语音识别设备中唤醒模板的匹配度越高即表示用户越大可能是针对该语音识别设备发出的语音信号。

进一步的，响应因子能量值的计算方式可以如下：

根据语音信号的语音特征计算得到唤醒能量E1，根据语音识别设备所处环境中环境噪声的语音特征计算得到底噪能量E2，以唤醒能量和底噪能量的差值作为有效能量E＝E1-E2；

根据语音信号和唤醒模板的匹配度计算置信度P；置信度P表示了语音信号与唤醒模板的匹配度，在语音识别设备被语音信号唤醒时，会判断语音信号和唤醒模板的匹配程度，例如完全匹配记为100％，大部分匹配可记为90％、80％或70％等，而当匹配程度超过一定阈值时，判定语音识别设备可被唤醒。相应的，在计算唤醒因子能量时所计算的置信度P，也是对应于在被唤醒时，语音信号与唤醒模板的匹配程度；例如P可以是1、0.9、0.8、0.7等。

对有效能量E和置信度P进行加权求和，以获得响应因子的能量值K；

K＝xE+yP，其中x为有效能量E的权重系数，y为置信度P的权重系数。

其中，权重系数x，y可以是固定数值，也可以是在多组固定数值中变换，还可以根据最后所确定的响应语音信号的语音识别设备的准确度来变化调整。

对于本实施例区域A中，设备A1所获得响应因子的能量值记为K1，设备A2所获得响应因子的能量值记为K2，设备A3所获得响应因子的能量值记为K3。

本步骤S201中中枢设备分析采集的语音信号，获得中枢设备的响应因子；而非中枢设备分析采集的语音信号，获得非中枢设备的响应因子。

S202：中枢设备接收非中枢设备的响应因子。

语音识别设备计算获得响应因子后，其中，非中枢设备将自身获得的响应因子发送至中枢设备。本实施例中，中枢设备A1接收到非中枢设备发送的响应因子。

S203：中枢设备比较中枢设备的响应因子和非中枢设备的响应因子，确定待响应语音识别设备。

本步骤中，中枢设备比较中枢设备的响应因子和非中枢设备的响应因子，从而确定区域网络中响应语音信号的待语音识别设备。具体来说，中枢设备采用排序算法来比较响应因子能量值，获得所有响应因子的能量值的排序，从而得到能量值最大的响应因子。排序算法包括且不限于插入排序、希尔排序、选择排序、堆排序、冒泡排序、快速排序、归并排序、计算排序、桶排序、基数排序等等。本实施例对响应因子能量值的排序为K2＞K1＞K3。

根据对响应因子能量值的比较，可确定待响应语音识别设备。具体确定过程有多种方式。

例如：在得到能量值最大的响应因子后，可确定其所对应的语音识别设备为待响应语音识别设备。

还例如：在得到能量值最大的响应因子后，响应于能量值最大的响应因子为中枢设备的响应因子，即若能量值最大的响应因子为中枢设备的响应因子，则确定中枢设备为待响应语音识别设备。

响应于能量值最大的响应因子为非中枢设备的响应因子，即若能量值最大的响应因子为非中枢设备的响应因子，本实施例给出的情况，能量值最大的为K2；则进一步计算能量值最大的响应因子与中枢设备的响应因子的能量差值，即计算能量差值δ＝K2-K1。

比较能量差值δ与唤醒阈值δd；若能量差值δ大于唤醒阈值δd，确定能量值最大的响应因子对应的语音识别设备为待响应语音识别设备；响应于能量差值δ小于等于唤醒阈值δd，确定中枢设备为待响应语音识别设备。

在对响应因子进行比较分析时，所得到的能量值最大响应因子可能有两个甚至多个，此时，则进一步依据语音识别设备的唤醒优先级排序来确定响应语音信号的设备，即在能量值最大的响应因子对应的语音识别设备中，确定优先级最高的作为待响应语音识别设备。

S204：中枢设备向非中枢设备发送是否响应语音信号的通知。

中枢设备在确定响应语音信号的待响应语音识别设备后，则可通过网络向非中枢设备，即向区域网络中所有被唤醒但还未响应的语音识别设备发送是否响应该语音信号的通知，该通知可为具体的是响应或无需响应，也可为所确定的响应该语音信号的语音识别设备的设备信息。也可仅向待响应语音识别设备发送通知，其他未接到通知的语音识别设备不做响应，而接收到通知的则做响应。

S205：待响应语音识别设备响应语音信号。

所确定的语音识别设备即可响应语音信号，而其他的语音识别设备则不响应。保证了只有一个语音识别设备来响应该语音信号，而不会造成相互干扰的问题。

以上图2所示的方法应用于单区域网络的语音唤醒识别，单区域网络中语音识别设备被语音信息唤醒后，并不立即响应，而是由单区域网络的中枢设备确定响应的设备后，再做响应。

多区域网络的唤醒响应方法的实现，基于图2所示单区域网络中待响应语音识别设备的确认。具体来说，多区域网络即多个相互连接的区域网络，每个区域网络的中枢设备相互连接，区分为一个第一中枢设备和至少一个第二中枢设备，在每个区域网络确定其待响应语音识别设备后，再由第一中枢设备进一步确认响应语音信号的语音识别设备。

多区域网络中每个区域网络实现唤醒响应方法的步骤不再赘述，另请参阅图3，多区域网络的唤醒响应方法还包括以下步骤。

S301：第二中枢设备向第一中枢设备发送第二响应因子，第一中枢设备接收第二响应因子。

在多区域网络中，第一中枢设备需比较所有区域网络中待响应语音识别设备的响应因子，从而确定响应语音信号的语音识别设备，待响应语音识别设备为在单个区域网络中所判断出的响应语音信号的语音识别设备；而在多区域网络的应用中，单个区域网络所确定出的待响应语音识别设备，并不立刻进行响应；而是由第一中枢设备再从多个待响应语音识别设备中确认由哪个来响应语音信号，即确定最终的响应语音信号的语音识别设备。因而本步骤S301中第二中枢设备将其第二响应因子发送给第一中枢设备，第二响应因子即第二中枢设备所在区域的待响应语音识别设备的响应因子。

例如，区域A中，由A1比较KA1、KA2、KA3，确定待响应语音识别设备为A2；区域B中，由B1比较KB1、KB2、KB3，确定待响应语音识别设备为B3；区域C中，由C1比较KC1、KC2，确定待响应设备为C1。

B1将其所在区域网络的待响应语音识别设备B3的响应因子KB3发送给A1，C1也将响应因子KC1发送给A1，而A1自身所确定的待响应语音识别设备A2的响应因子为KA2。

S302：第一中枢设备比较第二响应因子和第一响应因子，确定响应语音信号的语音识别设备。

第一中枢设备比较每个待响应语音识别设备的响应因子，即第一响应因子和第二响应因子，第一响应因子为第一中枢设备所在区域网络中的待响应语音识别设备的响应因子。

本步骤S302的比较过程与上述步骤S203的比较过程类似，具体不再赘述。

例如，可比较第一响应因子的能量值和第二响应因子的能量值，得到能量值最大的响应因子；确定由能量值最大的响应因子对应的语音识别设备响应语音信号。

还例如，比较第一响应因子的能量值和第二响应因子的能量值，得到能量值最大的响应因子；若能量值最大的响应因子为第一响应因子，则第一中枢设备响应语音信号；若能量值最大的响应因子为第二响应因子，则计算能量值最大的响应因子与第一响应因子的能量差值；比较能量差值与唤醒阈值，若能量差值大于唤醒阈值，则以能量值最大的响应因子对应的语音识别设备响应语音信号；若能量差值小于等于唤醒阈值，则以第一中枢设备响应语音信号。

本实施例中A1比较KA2、KB3、KC1；从而确定响应语音信号的语音识别设备，例如为B2。

同样，所得到的能量值最大响应因子可能有两个甚至多个，此时，则进一步依据语音识别设备的唤醒优先级排序来确定响应语音信号的设备，即在能量值最大的响应因子对应的语音识别设备中，确定优先级最高的作为待响应语音识别设备。

S303：第一中枢设备向多区域网络中的其他语音识别设备发送是否响应语音信号的通知。

第一中枢设备在确定响应语音信号的语音识别设备后，可直接向全网，即多个区域网络发送通知，或者也可首先向各个区域网络的中枢设备发送通知，再由各个中枢设备向非中枢设备发送通知。同样，也可仅发送给响应语音信号的语音识别设备，其他未接收到通知的不作响应。

S304：所确定的语音识别设备响应语音信号。

本步骤S304与上述步骤S205类似，不再赘述。

图3所示的方法应用于多区域的语音唤醒识别，在每个区域确定本区域应响应的语音设备后，再由第一中枢设备来进一步确定由哪个区域的语音设备响应，从而保证仅有一个语音识别设备来响应语音信号。

在图2和图3所应用的网络中，语音识别设备具有唤醒优先级的排序，因而在最高优先级的语音识别设备出现故障时，可根据唤醒优先级的排序来确定下一唤醒优先级的语音识别设备作为中枢设备或第一中枢设备。

对于语音识别设备来说，可周期性的检测其自身在区域网络中是否为最高唤醒优先级，也可在区域网络发生变化时检测自身是否为最高唤醒优先级；若检测到自身为当前区域网络中的最高唤醒优先级，即响应于检测到在区域网络中为最高唤醒优先级，则作为中枢设备运行。

本实施例网络中实现唤醒响应方法，所基于的是网络中语音识别设备具有唤醒优先级排序，且语音识别设备作为网络中枢设备可进行响应因子的比较。因而对于新加入到网络中的语音识别设备，也需要符合本实施例的唤醒机制，可由中枢设备来进行相关设置。

中枢设备可获取加入网络的语音识别设备的设备信息。根据预设规则分析设备信息，以重新对网络中的语音识别设备进行唤醒优先级的排序。

每个语音识别设备均搭载有语音识别系统，语音识别系统决定了唤醒优先级，语音识别算法，唤醒模板等。若新加入的语音识别设备具有不同语音识别系统，即其具有不同的唤醒优先级设置，网络中枢设备则可根据其本身的唤醒优先级设置来重新排序。例如网络A1-A2-A3，新加入的语音识别设备A4，其唤醒优先级的设置为大于A3，则可对将唤醒优先级重新排序为A1＞A2＞A4＞A3。

若新加入的语音识别设备具有相同的语音识别系统，即其具有相同的唤醒优先级设置，则将以先加入网络的语音识别设备的唤醒优先级为更高。例如，新加入的语音识别设备A3，与之前的A3具有相同的语音识别系统，则之前的A3作为A31，新加入的作为A32，唤醒优先级的重新排序为A1＞A2＞A31＞A32。

对于本实施例网络来说，其中实现唤醒响应方法的所有步骤均可在网络内部完成，因而本实施例的语音识别设备可离线运行。

在以上语音识别设备相互连接所构成的单区域网络中，语音识别设备可作为两种角色，一是作为中枢设备运作，另一是作为非中枢设备运作。对于每一语音识别设备，其可作为中枢设备，具有较强较多的功能；也可仅作为非中枢设备，具有轻量化的功能。

在家电领域，对于大型家电，例如冰箱、电视机等，可在其中加载功能较强较多的语音识别系统，使其能够作为中枢设备；而对于小型家电，如电饭煲，电水壶等，可在其中加载轻量级功能的语音识别系统，使其仅作为非中枢设备。

对于能够作为网络中枢设备的语音识别装置，其实现唤醒响应方法的步骤请参阅图4，图4是本申请语音识别设备的唤醒响应方法的中枢设备端工作流程示意图。作为网络中枢设备，其实现唤醒响应方法包括以下步骤。

S401：分析采集的语音信号，以获得中枢设备的响应因子。

对于每个区域网络中的中枢设备时，本步骤S401在上述步骤S201中完成，具体不再赘述。

S402：接收非中枢设备的非中枢设备的响应因子。

本步骤S402与上述步骤S202对应，具体不再赘述。

S403：比较中枢设备的响应因子和非中枢设备的响应因子，确定区域网络中的待响应语音识别设备。

本步骤S403与上述步骤S203类似，具体不再赘述。

上述步骤以语音识别设备作为中枢设备的角色，来说明其在实现单区域唤醒响应方法时的步骤，其中每个步骤的具体细节，中枢设备运行的具体细节也已在上文中描述，因此不再赘述。本实施例语音识别设备可从多个语音识别设备中确定响应该语音信号的一个语音识别设备，从而避免了均响应而相互干扰的问题。

进一步的，对于多区域网络，中枢设备还分为第一中枢设备和第二中枢设备，对于第一中枢设备来说，其进一步执行以下步骤。

S404：第一中枢设备接收第二响应因子。

本步骤S404在上述步骤S301中完成，具体不再赘述。

S406：比较第一响应因子和第二响应因子，确定响应语音信号的语音识别设备。

本步骤S406与上述步骤S302类似，具体不再赘述。

对于第二中枢设备来说，其则执行以下步骤。

S405：第二中枢设备向第一中枢设备发送第二响应因子，以由第一中枢设备比较第一响应因子和第二响应因子，从而确定响应语音信号的语音识别设备。

本步骤S405在上述步骤S301-S302中完成，具体不再赘述。

进一步的，在多区域网络中，由第一中枢设备进一步确定由哪个区域网络中的待响应语音识别设备来响应语音信号。

从非中枢设备的角度来看，其实现唤醒响应方法的步骤请参阅图5，图5是本申请语音识别设备唤醒响应方法的非中枢设备端工作流程示意图。该语音识别设备作为非中枢设备，本实施例唤醒响应方法包括以下步骤。

S501：分析采集的语音信号，以获得非中枢设备的响应因子。

本步骤S501与上述步骤S201类似，均为获取响应因子，具体过程不再赘述。

S502：向中枢设备发送非中枢设备的响应因子，以由中枢设备比较非中枢设备的响应因子和中枢设备的响应因子，来确定待响应语音识别设备。

作为非中枢设备，其在采集到语音信号后，并不立刻响应该语音信号，而是进行计算分析获得响应因子，然后再将该响应因子传送给中枢设备进行分析比较，由中枢设备来确认响应语音信号的语音识别设备。

本实施例以语音识别设备作为非中枢设备的角色，来说明其在实现唤醒响应方法时的步骤，其中每个步骤的具体细节，非中枢设备运行的具体细节也已在上文中描述，因此不再赘述。本实施例语音识别设备在接收到语音信号后不会立即响应，而是在收到通知后再决定是否响应，避免了与其他语音识别设备同时响应，造成的相互干扰的问题。

上述唤醒响应方法由语音识别设备实现，因而本申请还提出语音识别设备，请参阅图6，图6是本申请语音识别设备一实施例的结构示意图，本实施例语音识别设备100可以是家用电器，其包括相互连接的语音采集器11，处理器12和存储器13，本实施例语音识别设备100可实现上述唤醒响应方法的实施例。其中，语音采集器11用于采集语音信号，存储器13中存储有计算机程序，处理器12用于执行计算机程序以实现上述唤醒响应方法。

具体来说，语音采集器11用于采集语音信号；处理器12用于分析采集的语音信号获得响应因子，并根据预设算法比较所有的响应因子，以确定响应语音信号的语音识别设备；向其他语音识别设备发送是否响应语音信号的通知。

或者，语音采集器11用于采集语音信号；处理器12用于分析采集的语音信号获得响应因子，将响应因子发送至中枢设备，根据所接收到的中枢设备发送的是否响应语音信号的通知，来确定是否响应。

其中，处理器12可以是一种集成电路芯片，具有信号的处理能力。处理器12还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

对于上述实施例的方法，其可以计算机程序的形式存在，因而本申请提出一种计算机存储介质，请参阅图7，图7是本申请计算机存储介质一实施例的结构示意图。本实施例计算机存储介质200中存储有计算机程序21，其可被执行以实现上述实施例中的方法。

本实施例计算机存储介质200可以是U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等可以存储程序指令的介质，或者也可以为存储有该程序指令的服务器，该服务器可将存储的程序指令发送给其他设备运行，或者也可以自运行该存储的程序指令。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和设备，可以通过其它的方式实现。例如，以上所描述的设备实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种语音识别设备的唤醒响应方法，其特征在于，所述多个语音识别设备构成区域网络，所述多个语音识别设备分为一个中枢设备和至少一个非中枢设备；所述唤醒响应方法包括：

所述中枢设备分析采集的语音信号，以获得所述中枢设备的响应因子；

接收所述非中枢设备的响应因子，所述非中枢设备的响应因子由所述非中枢设备分析采集的所述语音信号而获得；

比较所述中枢设备的响应因子和所述非中枢设备的响应因子；

确定待响应语音识别设备，所述待响应语音识别设备为所述区域网络中响应所述语音信号的语音识别设备。
根据权利要求1所述的唤醒响应方法，其特征在于，所述比较所述中枢设备的响应因子和所述非中枢设备的响应因子，确定待响应语音识别设备，包括：

比较所述中枢设备的响应因子的能量值和所述非中枢设备的响应因子的能量值，得到能量值最大的响应因子；

确定所述能量值最大的响应因子对应的语音识别设备为所述待响应语音识别设备。
根据权利要求1所述的唤醒响应方法，其特征在于，所述比较所述中枢设备的响应因子和所述非中枢设备的响应因子，确定待响应语音识别设备，包括：

比较所述中枢设备的响应因子的能量值和所述非中枢设备的响应因子的能量值，得到能量值最大的响应因子；

判断所述能量值最大的响应因子是否为所述中枢设备的响应因子；

响应于所述能量值最大的响应因子为所述中枢设备的响应因子，确定所述中枢设备为所述待响应语音识别设备；

响应于所述能量值最大的响应因子不为所述中枢设备的响应因子，计算所述能量值最大的响应因子与所述中枢设备的响应因子的能量差值；

比较所述能量差值与唤醒阈值；

响应于所述能量差值大于所述唤醒阈值，确定所述能量值最大的响应因子对应的语音识别设备为所述待响应语音识别设备；

响应于所述能量差值小于等于所述唤醒阈值，确定所述中枢设备为所述待响应语音识别设备。
根据权利要求2或3所述的唤醒响应方法，其特征在于，所述多个语音识别设备具有唤醒优先级；所述确定所述能量值最大的响应因子对应的语音识别设备为所述待响应语音识别设备，包括：

在所述能量值最大的响应因子对应的语音识别设备中，确定唤醒优先级最高的作为所述待响应语音识别设备。
根据权利要求1所述的唤醒响应方法，其特征在于，所述唤醒响应方法包括：

所述中枢设备向所述非中枢设备发送是否响应所述语音信号的通知。
根据权利要求1所述的唤醒响应方法，其特征在于，多个所述区域网络相互连接，所有区域网络中的多个中枢设备分为一个第一中枢设备和至少一个第二中枢设备；所述唤醒响应方法进一步包括：

所述第二中枢设备向所述第一中枢设备发送第二响应因子，以由所述第一中枢设备比较所述第二响应因子和第一响应因子，从而确定响应所述语音信号的语音识别设备；

所述第一响应因子为所述第一中枢设备所在区域网络的待响应语音识别设备的响应因子，所述第二响应因子为所述第二中枢设备所在的区域网络中待响应语音识别设备的响应因子。
根据权利要求1所述的唤醒响应方法，其特征在于，多个所述区域网络相互连接，所有区域网络中的多个中枢设备分为一个第一中枢设备和至少一个第二中枢设备；所述唤醒响应方法进一步包括：

所述第一中枢设备接收第二响应因子，所述第二响应因子为所述第二中枢设备所在区域网络的待响应语音识别设备的响应因子；

比较所述第二响应因子和第一响应因子，以确定响应所述语音信号的语音识别设备，所述第一响应因子为所述第一中枢设备所在的区域网络中待响应语音识别设备的响应因子。
根据权利要求6或7所述的唤醒响应方法，其特征在于，所述比较所述第二响应因子和第一响应因子，以确定响应所述语音信号的语音识别设备，包括：

比较所述第一响应因子的能量值和所述第二响应因子的能量值，得到能量值最大的响应因子；

确定所述能量值最大的响应因子对应的语音识别设备响应所述语音信号。
根据权利要求8所述的唤醒响应方法，其特征在于，所述多个语音识别设备具有唤醒优先级；所述确定所述能量值最大的响应因子对应的语音识别设备为所述待响应语音识别设备，包括：

在所述能量值最大的响应因子对应的语音识别设备中，确定唤醒优先级最高的语音识别设备响应所述语音信号。
根据权利要求6或7所述的唤醒响应方法，其特征在于，所述比较所述第二响应因子和所述第一中枢设备的第一响应因子，以确定响应所述语音信号的语音识别设备，包括：

比较所述第一响应因子的能量值和所述第二响应因子的能量值，得到能量值最大的响应因子；

判断所述能量值最大的响应因子是否为所述第一响应因子；

响应于所述能量值最大的响应因子为所述第一响应因子，确定所述第一中枢设备响应所述语音信号；

响应于所述能量值最大的响应因子不为所述第一响应因子，计算所述能量值最大的响应因子与所述第一响应因子的能量差值；

比较所述能量差值与所述唤醒阈值；

响应于所述能量差值大于所述唤醒阈值，确定所述能量值最大的响应因子对应的语音识别设备响应所述语音信号；

响应于所述能量差值小于等于所述唤醒阈值，确定所述第一中枢设备响应所述语音信号。
根据权利要求10所述的唤醒响应方法，其特征在于，所述多个语音识别设备具有唤醒优先级；所述确定所述能量值最大的响应因子对应的语音识别设备响应所述语音信号，包括：

在所述能量值最大的响应因子对应的语音识别设备中，确定唤醒优先级最高的语音识别设备响应所述语音信号。
根据权利要求6或7所述的唤醒响应方法，其特征在于，所述唤醒响应方法进一步包括：

所述第一中枢设备向所述多个区域网络中的其他语音识别设备发送是否响应所述语音信号的通知。
根据权利要求1、6、7中任一项所述的唤醒响应方法，其特征在于，所述中枢设备的响应因子与所述非中枢设备的响应因子统称为响应因子；分析采集的语音信号获得响应因子，包括：

根据所述语音信号的语音特征及所述语音信号与所述语音识别设备的唤醒模板的匹配度，计算获得所述响应因子的能量值。
根据权利要求13所述的唤醒响应方法，其特征在于，所述根据所述语音信号的语音特征及所述语音信号与所述语音识别设备的唤醒模板的匹配度，计算获得所述响应因子的能量值，包括：

根据所述语音信号的语音特征计算得到唤醒能量，根据所述语音识别设备所处环境中环境噪声的语音特征计算得到底噪能量，以所述唤醒能量和所述底噪能量的差值作为有效能量；

根据所述语音信号与所述唤醒模板的匹配程度计算置信度；

对所述有效能量和所述置信度进行加权求和，以获得所述响应因子的能量值。
一种语音识别设备的唤醒响应方法，其特征在于，所述多个语音识别设备构成区域网络，所述多个语音识别设备分为一个中枢设备和至少一个非中枢设备；所述唤醒响应方法包括：

所述非中枢设备分析采集的语音信号，以获得所述非中枢设备的响应因子；

向所述中枢设备发送所述非中枢设备的响应因子，以由所述中枢设备比较所述非中枢设备的响应因子和所述中枢设备的响应因子，来确定待响应语音识别设备，所述待响应语音识别设备为所述区域网络中响应所述语音信号的语音识别设备。
根据权利要求15所述的唤醒响应方法，其特征在于，所述中枢设备比较所述非中枢设备的响应因子和所述中枢设备的响应因子，来确定待响应语音识别设备，包括：

所述中枢设备比较所述中枢设备的响应因子的能量值和所述非中枢设备的响应因子的能量值，得到能量值最大的响应因子；

确定所述能量值最大的响应因子对应的语音识别设备为所述待响应语音识别设备。
根据权利要求15所述的唤醒响应方法，其特征在于，

所述中枢设备比较所述中枢设备的响应因子的能量值和所述非中枢设备的响应因子的能量值，得到能量值最大的响应因子；

判断所述能量值最大的响应因子是否为中枢设备的响应因子；

响应于所述能量值最大的响应因子为所述中枢设备的响应因子，确定所述中枢设备为所述待响应语音识别设备；

响应于所述能量值最大的响应因子不为所述中枢设备的响应因子，计算所述能量值最大的响应因子与所述中枢设备的响应因子的能量差值；

比较所述能量差值与唤醒阈值；

响应于所述能量差值大于所述唤醒阈值，确定所述能量值最大的响应因子对应的语音识别设备为所述待响应语音识别设备；

响应于所述能量差值小于等于所述唤醒阈值，确定所述中枢设备为所述待响应语音识别设备。
根据权利要求16或17所述的唤醒响应方法，其特征在于，所述多个语音识别设备具有唤醒优先级；所确定所述能量值最大的响应因子对应的语音识别设备为所述待响应语音识别设备，包括：

在所述能量值最大的响应因子对应的语音识别设备中，确定唤醒优先级最高的作为所述待响应语音识别设备。
根据权利要求15所述的唤醒方法，其特征在于，所述唤醒响应方法进一步包括：

接收所述中枢设备发送的是否响应所述语音信号的通知。
根据权利要求15所述的唤醒响应方法，其特征在于，所述中枢设备的响应因子与所述非中枢设备的响应因子统称为响应因子；分析采集的语音信号获得响应因子，包括：

根据所述语音信号的语音特征及所述语音信号与所述语音识别设备的唤醒模板的匹配度，计算获得所述响应因子的能量值。
根据权利要求20所述的唤醒响应方法，其特征在于，所述根据所述语音信号的语音特征及所述语音信号与所述语音识别设备的唤醒模板的匹配度，计算获得所述响应因子的能量值，包括：

根据所述语音信号的语音特征计算得到唤醒能量，根据所述语音识别设备所处环境中环境噪声的语音特征计算得到底噪能量，以所述唤醒能量和所述底噪能量的差值作为有效能量；

根据所述语音信号与所述唤醒模板的匹配程度计算置信度；

对所述有效能量和所述置信度进行加权求和，以获得所述响应因子的能量值。
一种语音识别设备，其特征在于，所述语音识别设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器用于执行所述计算机程序以实现如权利要求1-21中任一项所述方法的步骤。
一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序被执行以实现如权利要求1-21中任一项所述方法的步骤。