WO2020000427A1

WO2020000427A1 - 一种语音控制方法、可穿戴设备及终端

Info

Publication number: WO2020000427A1
Application number: PCT/CN2018/093829
Authority: WO
Inventors: 张龙; 黎椿键; 仇存收; 常青
Original assignee: 华为技术有限公司
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2020-01-02
Also published as: EP3790006A4; CN112420035A; RU2763392C1; CN110574103B; KR102525294B1; KR20210015917A; EP3790006A1; US20210256979A1; CN110574103A

Abstract

本申请实施例公开了一种语音控制方法、可穿戴设备及终端，涉及终端领域，可在用户使用语音控制终端时提高声纹识别的准确性和安全性。该方法包括：终端与可穿戴设备建立通信连接；当发声用户向可穿戴设备输入语音信息时，终端根据所述语音信息中第一语音分量的第一声纹识别结果和所述语音信息中第二语音分量的第二声纹识别结果，对所述发声用户进行身份鉴权；所述第一语音分量是由所述可穿戴设备的第一语音传感器采集到的，所述第二语音分量是由所述可穿戴设备的第二语音传感器采集到的；若所述终端对所述发声用户的身份鉴权结果为所述发声用户为合法用户，则所述终端执行与所述语音信息对应的操作指令。

Description

一种语音控制方法、可穿戴设备及终端

技术领域

本申请涉及终端领域，尤其涉及一种语音控制方法、可穿戴设备及终端。

背景技术

声纹(voiceprint)是指用户发声时携带言语信息的声波频谱，能够反映出用户的音频特征。由于不同人在讲话时使用的发声器官(例如，舌、牙齿、喉头、肺、鼻腔等)在尺寸和形态方面具有差异，所以任意两个人的声波频谱一般具有差异性。因此，通过声纹识别(speaker recognition，SR)可以对一种或多种语音信息进行分析，从而达到对未知声音进行辨别的目的。

目前，传统的声纹识别方式主要利用常规麦克风采集经过空气传播的说话人声音信号，进而根据采集到的说话人声音信号识别说话人身份。但是，如果说话人身处嘈杂的环境，采集到的说话人声音信号噪音较大，容易干扰声纹识别的准确性。并且，如果有人恶意使用说话人的录音模拟说话人声音信号，手机等终端会因无法准确辨识而增加安全风险。

发明内容

本申请提供一种语音控制方法、可穿戴设备及终端，可在用户使用语音控制终端时提高声纹识别的准确性和安全性。

为达到上述目的，本申请采用如下技术方案：

第一方面，本申请提供一种语音控制方法，包括：终端与可穿戴设备建立通信连接；当发声用户向可穿戴设备输入语音信息时，终端根据该语音信息中第一语音分量的第一声纹识别结果和该语音信息中第二语音分量的第二声纹识别结果，对发声用户进行身份鉴权；其中，第一语音分量是由可穿戴设备的第一语音传感器采集到的，第二语音分量是由可穿戴设备的第二语音传感器采集到的；若终端对发声用户的身份鉴权结果为该发声用户是合法用户，则终端执行与该语音信息对应的操作指令。

可以看出，可穿戴设备在采集发声用户的语音信息时使用两个语音传感器采集到了两路语音信息(即上述第一语音分量和第二语音分量)。这样，终端可针对这两路语音信息分别进行声纹识别，当这两路语音信息的声纹识别结果均与合法用户匹配时，可确认此时的发声用户为合法用户。显然，这种两路语音信息的双重声纹识别过程相比于一路语音信息的声纹识别过程能够显著提高用户身份鉴权时的准确性和安全性。

另外，如果第二语音分量是由可穿戴设备的骨传导麦克风采集到的，则说明用户在发声时已经佩戴该可穿戴设备，从而避免非法用户使用合法用户的录音恶意控制合法用户的终端的情况。

在一种可能的设计方法中，在终端根据该语音信息中第一语音分量的第一声纹识别结果和该语音信息中第二语音分量的第二声纹识别结果，对该发声用户进行身份鉴权之前，还包括：终端从可穿戴设备获取第一声纹识别结果和第二声纹识别结果，第一声纹识别结果为可穿戴设备对第一语音分量进行声纹识别后得到的，第二声纹识别结果为可穿戴设备对第二语音分量进行声纹识别后得到的。也就是说，可穿戴设备采集到发声用户语音信息中的第一语音分量和第二语音分量后，可在本地对这两路语音分量分别进行声纹识别，进而将识别结果发送给终端，从而可降低终端在实现语音控制时的实现复杂度。

在一种可能的设计方法中，在终端根据该语音信息中第一语音分量的第一声纹识别结果和该语音信息中第二语音分量的第二声纹识别结果，对该发声用户进行身份鉴权之前，还包括：终端从可穿戴设备获取第一语音分量和第二语音分量；终端对第一语音分量和第二语音分量分别进行声纹识别，得到与第一语音分量对应的第一声纹识别结果以及与第二语音分量对应的第二声纹识别结果。也就是说，可穿戴设备采集到发声用户语音信息中的第一语音分量和第二语音分量后，可将这两路语音分量发送给终端进行声纹识别，从而降低可穿戴设备的功耗和实现复杂度。

在一种可能的设计方法中，终端对第一语音分量和第二语音分量分别进行声纹识别，包括：当该语音信息中包括预设的关键词时，终端对第一语音分量和第二语音分量进行声纹识别；或者；当接收到用户输入的预设操作时，终端对第一语音分量和第二语音分量进行声纹识别。否则，说明用户此时没有进行声纹识别的需求，则终端无需开启声纹识别功能，从而降低终端的功耗。

在一种可能的设计方法中，终端对第一语音分量和第二语音分量分别进行声纹识别，包括：终端判断第一语音分量与合法用户的第一声纹模型是否匹配，第一声纹模型用于反映第一语音传感器采集到的该合法用户的音频特征；终端判断第二语音分量与合法用户的第二声纹模型是否匹配，第二声纹模型用于反映第二语音传感器采集到的该合法用户的音频特征；

此时，终端根据该语音信息中第一语音分量的第一声纹识别结果和该语音信息中第二语音分量的第二声纹识别结果，对该发声用户进行身份鉴权，包括：若第一语音分量与合法用户的第一声纹模型匹配，且第二语音分量与合法用户的第二声纹模型匹配，则终端确定该发声用户为合法用户；否则，终端确定该发声用户为非法用户。

在一种可能的设计方法中，终端判断第一语音分量与合法用户的第一声纹模型是否匹配，包括：终端计算第一语音分量与该合法用户的第一声纹模型之间的第一匹配度；若第一匹配度大于第一阈值，则终端确定第一语音分量与该合法用户的第一声纹模型匹配；终端判断第二语音分量与合法用户的第二声纹模型是否匹配，包括：终端计算第二语音分量与该合法用户的第二声纹模型之间的第二匹配度；若第二匹配度大于第二阈值，则终端确定第二语音分量与该合法用户的第二声纹模型匹配。

在一种可能的设计方法中，在终端根据该语音信息中第一语音分量的第一声纹识别结果和该语音信息中第二语音分量的第二声纹识别结果，对该发声用户进行身份鉴权之前，还包括：终端获取可穿戴设备发送的启动指令，该启动指令是可穿戴设备响应于用户输入的唤醒语音生成的；响应于该启动指令，终端打开声纹识别功能。

在一种可能的设计方法中，在终端从可穿戴设备获取第一语音分量和第二语音分量之后，还包括：终端根据第一语音分量和第二语音分量确定该语音信息中是否包含预设的唤醒词；若包含预设的唤醒词，则终端打开声纹识别功能。

也就是说，用户可以通过说出唤醒词触发终端开启声纹识别功能，否则，说明用户此时没有进行声纹识别的需求，则终端无需开启声纹识别功能，从而降低终端的功耗。

在一种可能的设计方法中，若该发声用户为合法用户，则该方法还包括：终端自动执行解锁操作。这样，用户只需要输入一次语音信息即可完成用户身份鉴权、手机解锁以及打开手机某一功能等一些列操作，从而大大提高了用户对手机的操控效率和用户体验。

在一种可能的设计方法中，在终端执行与该语音信息对应的操作指令之前，还包括：终端获取可穿戴设备的设备标识；其中，终端执行与该语音信息对应的操作指令，包括：若可穿戴设备的设备标识为预设的合法设备标识，则终端执行与该语音信息对应的操作指令。这样，终端可以接收和执行合法蓝牙设备发来的相关操作指令，而当非法蓝牙设备向终端发送操作指令时，终端可丢弃该操作指令以提高安全性。

第二方面，本申请提供一种语音控制方法，包括：可穿戴设备与终端建立通信连接；可穿戴设备使用第一语音传感器采集语音信息中的第一语音分量；可穿戴设备使用第二语音传感器采集该语音信息中的第二语音分量；可穿戴设备对第一语音分量和第二语音分量分别进行声纹识别，以便对发声用户进行身份鉴权。

结合上述第二方面，在第二方面的第一种可能的设计方法中，第一语音传感器位于可穿戴设备上不与用户接触的一侧，第二语音传感器位于可穿戴设备上与用户接触的一侧。例如，第一语音传感器为气传导麦克风，第二语音传感器为骨传导麦克风。

结合上述第二方面的第一种可能的设计方法，在第二方面的第二种可能的设计方法中，在可穿戴设备使用第一语音传感器采集语音信息中的第一语音分量之前，还包括：使用可穿戴设备上的接近光传感器检测环境光强；使用可穿戴设备上的加速度传感器检测加速度值；若该环境光强小于预设的光强阈值；或该加速度值大于预设的加速度阈值；或该环境光强小于预设的光强阈值且该加速度值大于预设的加速度阈值；则确定可穿戴设备处于佩戴状态。

结合上述第二方面以及第二方面中任意一种可能的设计方法，在第二方面的第三种可能的设计方法中，在可穿戴设备使用第二语音传感器采集该语音信息中的第二语音分量之后，还包括：可穿戴设备对第一语音分量进行语音活动检测(VAD)，得到第一VAD取值；可穿戴设备对第二语音分量进行VAD，得到第二VAD取值；其中，可穿戴设备对第一语音分量和第二语音分量进行声纹识别，包括：当第一VAD取值和第二VAD取值均满足预设条件时，对第一语音分量和第二语音分量进行声纹识别。

结合上述第二方面以及第二方面中任意一种可能的设计方法，在第二方面的第四种可能的设计方法中，可穿戴设备对第一语音分量和第二语音分量进行声纹识别，包括：当该语音信息中包括预设的关键词时，可穿戴设备对第一语音分量和第二语音分量进行声纹识别；或者；当接收到用户输入的预设操作时，可穿戴设备对第一语音分量和第二语音分量进行声纹识别。

结合上述第二方面以及第二方面中任意一种可能的设计方法，在第二方面的第五种可能的设计方法中，可穿戴设备对第一语音分量和第二语音分量进行声纹识别，包括：可穿戴设备判断第一语音分量与合法用户的第一声纹模型是否匹配，第一声纹模型用于反映第一语音传感器采集到的该合法用户的音频特征；可穿戴设备判断第二语音分量与合法用户的第二声纹模型是否匹配，第二声纹模型用于反映第二语音传感器采集到的该合法用户的音频特征；

其中，在可穿戴设备对第一语音分量和第二语音分量进行声纹识别之后，还包括：若第一语音分量与合法用户的第一声纹模型匹配，且第二语音分量与合法用户的第二声纹模型匹配，则可穿戴设备确定该发声用户为合法用户；否则，可穿戴设备确定该发声用户为非法用户。

结合上述第二方面中任意第五种可能的设计方法，在第二方面的第六种可能的设计方法中，该方法还包括：可穿戴设备使用第一语音传感器采集该合法用户输入的注册语音中的第一注册分量，以便建立该合法用户的第一声纹模型；可穿戴设备使用第二语音传感器采集该合法用户输入的注册语音中的第二注册分量，以便建立该合法用户的第二声纹模型。

结合上述第二方面中任意第五或第六种可能的设计方法，在第二方面的第七种可能的设计方法中，可穿戴设备判断第一语音分量与合法用户的第一声纹模型是否匹配，包括：可穿戴设备计算第一语音分量与该合法用户的第一声纹模型之间的第一匹配度；若第一匹配度大于第一阈值，则可穿戴设备确定第一语音分量与该合法用户的第一声纹模型匹配；可穿戴设备判断第二语音分量与合法用户的第二声纹模型是否匹配，包括：可穿戴设备计算第二语音分量与该合法用户的第二声纹模型之间的第二匹配度；若第二匹配度大于第二阈值，则可穿戴设备确定第二语音分量与该合法用户的第二声纹模型匹配。

结合上述第二方面以及第二方面中任意一种可能的设计方法，在第二方面的第八种可能的设计方法中，在可穿戴设备对第一语音分量和第二语音分量进行声纹识别之后，还包括：若该发声用户为合法用户，则可穿戴设备向终端发送鉴权通过消息或解锁指令。

结合上述第二方面以及第二方面中任意一种可能的设计方法，在第二方面的第九种可能的设计方法中，在可穿戴设备对第一语音分量和第二语音分量进行声纹识别之后，还包括：若该发声用户为合法用户，则可穿戴设备向终端发送与该语音信息对应的操作指令。

结合上述第二方面以及第二方面中任意一种可能的设计方法，在第二方面的第十种可能的设计方法中，在可穿戴设备对第一语音分量和第二语音分量进行声纹识别之前，还包括：可穿戴设备对第一语音分量和第二语音分量进行降噪处理；和/或，可穿戴设备使用回声消除算法消除第一语音分量和第二语音分量中的回声信号。

结合上述第二方面以及第二方面中任意一种可能的设计方法，在第二方面的第十一种可能的设计方法中，在可穿戴设备使用第一语音传感器采集语音信息中的第一语音分量之前，还包括：可穿戴设备接收用户输入的唤醒语音，该唤醒语音中包括预设的唤醒词；响应于该唤醒语音，可穿戴设备向终端发送启动指令，该启动指令用于指示终端打开声纹识别功能。

第三方面，本申请提供一种终端，包括连接单元、获取单元、识别单元、鉴权单元以及执行单元。其中，连接单元用于：与可穿戴设备建立通信连接；鉴权单元用于：当发声用户向可穿戴设备输入语音信息时，根据该语音信息中第一语音分量的第一声纹识别结果和该语音信息中第二语音分量的第二声纹识别结果，对该发声用户进行身份鉴权，第一语音分量是由可穿戴设备的第一语音传感器采集到的，第二语音分量是由可穿戴设备的第二语音传感器采集到的；执行单元用于：若终端对该发声用户的身份鉴权结果为该发声用户为合法用户，则执行与该语音信息对应的操作指令。

在一种可能的设计方法中，上述获取单元用于：从可穿戴设备获取第一声纹识别结果和第二声纹识别结果，第一声纹识别结果为可穿戴设备对第一语音分量进行声纹识别后得到的，第二声纹识别结果为可穿戴设备对第二语音分量进行声纹识别后得到的。

在一种可能的设计方法中，上述获取单元用于：从可穿戴设备获取第一语音分量和第二语音分量；上述识别单元用于：对第一语音分量和第二语音分量分别进行声纹识别，得到与第一语音分量对应的第一声纹识别结果以及与第二语音分量对应的第二声纹识别结果。

在一种可能的设计方法中，上述识别单元具体用于：当该语音信息中包括预设的关键词时，对第一语音分量和第二语音分量进行声纹识别；或者；当接收到用户输入的预设操作时，对第一语音分量和第二语音分量进行声纹识别。

在一种可能的设计方法中，上述识别单元具体用于：判断第一语音分量与合法用户的第一声纹模型是否匹配，第一声纹模型用于反映第一语音传感器采集到的该合法用户的音频特征；判断第二语音分量与合法用户的第二声纹模型是否匹配，第二声纹模型用于反映第二语音传感器采集到的该合法用户的音频特征；上述鉴权单元具体用于：若第一语音分量与合法用户的第一声纹模型匹配，且第二语音分量与合法用户的第二声纹模型匹配，则确定该发声用户为合法用户；否则，确定该发声用户为非法用户。

在一种可能的设计方法中，上述识别单元具体用于：计算第一语音分量与该合法用户的第一声纹模型之间的第一匹配度；若第一匹配度大于第一阈值，则确定第一语音分量与该合法用户的第一声纹模型匹配；计算第二语音分量与该合法用户的第二声纹模型之间的第二匹配度；若第二匹配度大于第二阈值，则确定第二语音分量与该合法用户的第二声纹模型匹配。

在一种可能的设计方法中，上述获取单元还用于：获取可穿戴设备发送的启动指令，该启动指令是可穿戴设备响应于用户输入的唤醒语音生成的；上述执行单元还用于：响应于该启动指令，打开声纹识别功能。

在一种可能的设计方法中，上述识别单元还用于：根据第一语音分量和第二语音分量确定该语音信息中是否包含预设的唤醒词；上述执行单元还用于：若包含预设的唤醒词，则打开声纹识别功能。

在一种可能的设计方法中，上述执行单元还用于：若该发声用户为合法用户，则自动执行解锁操作。

在一种可能的设计方法中，上述获取单元还用于：获取可穿戴设备的设备标识；上述执行单元具体用于：若可穿戴设备的设备标识为预设的合法设备标识，则执行与该语音信息对应的操作指令。

第四方面，本申请提供一种可穿戴设备，包括连接单元、检测单元、识别单元、鉴权单元以及发送单元。其中，连接单元用于：与终端建立通信连接；检测单元用于：使用第一语音传感器采集语音信息中的第一语音分量；可穿戴设备使用第二语音传感器采集该语音信息中的第二语音分量；识别单元用于：对第一语音分量和第二语音分量分别进行声纹识别。

在一种可能的设计方法中，上述检测单元还用于：使用可穿戴设备上的接近光传感器检测环境光强；使用可穿戴设备上的加速度传感器检测加速度值；若该环境光强小于预设的光强阈值；或该加速度值大于预设的加速度阈值；或该环境光强小于预设的光强阈值且该加速度值大于预设的加速度阈值；则确定可穿戴设备处于佩戴状态。

在一种可能的设计方法中，上述检测单元还用于：对第一语音分量进行语音活动检测 (VAD)，得到第一VAD取值；对第二语音分量进行VAD，得到第二VAD取值；上述识别单元具体用于：当第一VAD取值和第二VAD取值均满足预设条件时，对第一语音分量和第二语音分量进行声纹识别。

在一种可能的设计方法中，上述识别单元具体用于：当该语音信息中包括预设的关键词时，可穿戴设备对第一语音分量和第二语音分量进行声纹识别；或者；当接收到用户输入的预设操作时，对第一语音分量和第二语音分量进行声纹识别。

在一种可能的设计方法中，上述发送单元还用于：若该发声用户为合法用户，则向终端发送鉴权通过消息或解锁指令。

在一种可能的设计方法中，上述发送单元还用于：若该发声用户为合法用户，则向终端发送与该语音信息对应的操作指令。

在一种可能的设计方法中，上述检测单元还用于：检测用户输入的唤醒语音，该唤醒语音中包括预设的唤醒词；上述发送单元还用于：向终端发送启动指令，该启动指令用于指示终端打开声纹识别功能。

第五方面，本申请提供一种终端，包括：触摸屏、一个或多个处理器、存储器、以及一个或多个程序；其中，处理器与存储器耦合，上述一个或多个程序被存储在存储器中，当终端运行时，该处理器执行该存储器存储的一个或多个程序，以使终端执行上述任一项语音控制方法。

第六方面，本申请提供一种可穿戴设备，包括：设置在可穿戴设备外部的第一语音传感器以及设置在可穿戴设备内部的第二语音传感器、一个或多个处理器、存储器、以及一个或多个程序；其中，处理器与存储器耦合，上述一个或多个程序被存储在存储器中，当可穿戴设备运行时，该处理器执行该存储器存储的一个或多个程序，以使可穿戴设备执行上述任一项语音控制方法。

第七方面，本申请提供一种计算机存储介质，包括计算机指令，当计算机指令在终端上运行时，使得终端或可穿戴设备执行上述任一项所述的语音控制方法。

第八方面，本申请提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如第一方面或第一方面的可能的实现方式中任一项所述的语音控制方法。

可以理解地，上述提供的第三方面和第五方面所述的终端、第四方面和第六方面所述的可穿戴设备、第七方面所述的计算机存储介质，以及第八方面所述的计算机程序产品均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

附图说明

图1为本申请实施例提供的一种语音控制方法的场景架构图一；

图2为本申请实施例提供的一种可穿戴设备的结构示意图一；

图3为本申请实施例提供的一种终端的结构示意图一；

图4为本申请实施例提供的一种语音控制方法的交互示意图一；

图5为本申请实施例提供的一种语音控制方法的场景架构图二；

图6为本申请实施例提供的一种语音控制方法的交互示意图二；

图7为本申请实施例提供的一种语音控制方法的场景架构图三；

图8为本申请实施例提供的一种终端的结构示意图二；

图9为本申请实施例提供的一种可穿戴设备的结构示意图二；

图10为本申请实施例提供的一种终端的结构示意图三。

具体实施方式

下面将结合附图对本申请实施例的实施方式进行详细描述。

如图1所示，本申请实施例提供的一种语音控制方法可以应用于可穿戴设备11与终端12组成的语音控制系统中。

其中，可穿戴设备11可以是无线耳机、有线耳机、智能眼镜、智能头盔或者智能腕表等具有语音采集功能的设备。终端12可以是手机、平板电脑、笔记本电脑、超级移动个人计算机(Ultra-mobile Personal Computer，UMPC)、个人数字助理(Personal Digital Assistant，PDA)等设备，本申请实施例对此不做任何限制。

如图2所示，可穿戴设备11具体可以包括设置在可穿戴设备11外部的第一语音传感器201以及设置在可穿戴设备11内部的第二语音传感器202。其中，可穿戴设备11内部是指用户使用可穿戴设备11时与用户直接接触的一侧，穿戴设备11外部是指不与用户直接接触的一侧。例如，上述第一语音传感器201可以是气传导麦克风，上述第二语音传感器202可以是骨传导麦克风、光学振动传感器、加速度传感器或气传导麦克风等能够采集用户发生时产生的振动信号的传感器。其中，气传导麦克风采集语音信息的方式是通过空气将发生时的振动信号传至麦克风，骨传导麦克风采集语音信息的方式是通过骨头将发生时的振动信号传至麦克风。

以第一语音传感器201为气传导麦克风，第二语音传感器202为骨传导麦克风为例，在本申请实施例中，用户佩戴可穿戴设备11说话时，可穿戴设备11既可以通过第一语音传感器201采集经空气传播后用户发出的语音信息，还可以通过第二语音传感器202采集经骨头传播后用户发出的语音信息。

另外，可穿戴设备11中的第一语音传感器201可以有多个。以第一语音传感器201为气传导麦克风为例，可以在可穿戴设备11外部设置两个气传导麦克风，由这两个气传导麦克风共同采集经空气传播后用户发出的语音信息，得到该语音信息中的第一语音分量。并且，可由骨传导麦克风采集经骨头传播后用户发出的语音信息，得到该语音信息中的第二语音分量。

仍如图2所示，可穿戴设备11中还可以包括加速度传感器203(加速度传感器203也可作为上述第二语音传感器202)、接近光传感器204、通信模块205、扬声器206、计算模块207、存储模块208以及电源209等部件。可以理解的是，上述可穿戴设备11可以具有比图2中所示出的更多的或者更少的部件，可以组合两个或更多的部件，或者可以具有不同的部件配置。图2中所示出的各种部件可以在包括一个或多个信号处理或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

如图3所示，上述语音控制系统中的终端12具体可以为手机100。如图3所示，手机100具体可以包括：处理器101、射频(radio frequency，RF)电路102、存储器103、触摸屏104、蓝牙装置105、一个或多个传感器106、Wi-Fi装置107、定位装置108、音频电路109、外设接口110、电源装置111等部件。这些部件可通过一根或多根通信总线或信号线(图3中未示出)进行通信。本领域技术人员可以理解，图3中示出的硬件结构并不构成对手机100的限定，手机100可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图3对手机100的各个部件进行具体的介绍：

处理器101是手机100的控制中心，利用各种接口和线路连接手机100的各个部分，通过运行或执行存储在存储器103内的应用程序，以及调用存储在存储器103内的数据和指令，执行手机100的各种功能和处理数据。在一些实施例中，处理器101可包括一个或多个处理单元；处理器101还可以集成应用处理器和调制解调处理器；其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器101中。举例来说，处理器101可以是华为技术有限公司制造的麒麟960多核处理器。

射频电路102可用于在收发信息或通话过程中，无线信号的接收和发送。具体地，射频电路102可以将基站的下行数据接收后，给处理器101处理；另外，将涉及上行的数据发送给基站。通常，射频电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频电路102还可以通过无线通信和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统、通用分组无线服务、码分多址、宽带码分多址、长期演进、电子邮件、短信服务等。

存储器103用于存储应用程序以及数据，处理器101通过运行存储在存储器103的应用程序以及数据，执行手机100的各种功能以及数据处理。存储器103主要包括存储程序区以及存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)；存储数据区可以存储根据使用手机100时所创建的数据(比如音频数据、电话本等)。此外，存储器103可以包括高速随机存取存储器，还可以包括非易失存储器，例如磁盘存储器件、闪存器件或其他易失性固态存储器件等。存储器103可以存储各种操作系统，例如苹果公司所开发的

操作系统，谷歌公司所开发的

操作系统等。

触摸屏104可以包括触敏表面104-1和显示器104-2。

其中，触敏表面104-1(例如触控面板)可采集手机100的用户在其上或附近的触摸事件(比如用户使用手指、触控笔等任何适合的物体在触敏表面104-1上或在触敏表面104-1附近的操作)，并将采集到的触摸信息发送给其他器件例如处理器101。其中，用户在触敏表面104-1附近的触摸事件可以称之为悬浮触控；悬浮触控可以是指，用户无需为了选择、移动或拖动目标(例如图标等)而直接接触触控板，而只需用户位于终端附近以便执行所想要的功能。在悬浮触控的应用场景下，术语“触摸”、“接触”等不会暗示用于直接接触触摸屏，而是在其附近或接近的接触。能够进行悬浮触控的触敏表面104-1可以采用电容式、红外光感以及超声波等实现。触敏表面104-1可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再发送给处理器101，触摸控制器还可以接收处理器101发送的指令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型来实现触敏表面104-1。

显示器(也称为显示屏)104-2可用于显示由用户输入的信息或提供给用户的信息以及手机100的各种菜单。可以采用液晶显示器、有机发光二极管等形式来配置显示器104-2。触敏表面104-1可以覆盖在显示器104-2之上，当触敏表面104-1检测到在其上或附近的触摸事件后，传送给处理器101以确定触摸事件的类型，随后处理器101可以根据触摸事件的类型在显示器104-2上提供相应的视觉输出。虽然在图3中，触敏表面104-1与显示屏104-2是作为两个独立的部件来实现手机100的输入和输出功能，但是在某些实施例中，可以将触敏表面104-1与显示屏104-2集成而实现手机100的输入和输出功能。可以理解的是，触摸屏104是由多层材料堆叠而成，本申请实施例中只展示出了触敏表面(层)和显示屏(层)，其他层在本申请实施例中不予记载。另外，在本申请其他一些实施例中，触敏表面104-1可以覆盖在显示器104-2之上，并且触敏表面104-1的尺寸大于显示屏104-2的尺寸，使得显示屏104-2全部覆盖在触敏表面104-1下面，或者，上述触敏表面104-1可以以全面板的形式配置在手机100的正面，也即用户在手机100正面的触摸均能被手机感知，这样就可以实现手机正面的全触控体验。在其他一些实施例中，触敏表面104-1以全面板的形式配置在手机100的正面，显示屏104-2也可以以全面板的形式配置在手机100的正面，这样在手机的正面就能够实现无边框的结构。在本申请其他一些实施例中，触摸屏104还可以包括一组或多组传感器阵列，用于触摸屏104在感测用户在其上的触摸事件的同时也可以感测到用户在其上施加的压力等。

手机100还可以包括蓝牙装置105，用于实现手机100与其他短距离的终端(例如，上述可穿戴设备11等)之间的数据交换。本申请实施例中的蓝牙装置可以是集成电路或者蓝牙芯片等。

手机100还可以包括至少一种传感器106，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器。其中，环境光传感器可根据环境光线的明暗来调节触摸屏104的显示器的亮度，接近传感器可在手机100移动到耳边时，关闭显示器的电源。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机100还可配置的指纹识别器件、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不予赘述。

Wi-Fi装置107，用于为手机100提供遵循Wi-Fi相关标准协议的网络接入，手机100可以通过Wi-Fi装置107接入到Wi-Fi接入点，进而帮助用户收发电子邮件、浏览网页和访问流媒体等，它为用户提供了无线的宽带互联网访问。在其他一些实施例中，该Wi-Fi 装置107也可以作为Wi-Fi无线接入点，可以为其他终端提供Wi-Fi网络接入。

定位装置108，用于为手机100提供地理位置。可以理解的是，该定位装置108具体可以是全球定位系统(global positioning system，GPS)、北斗卫星导航系统等定位系统的接收器。定位装置108在接收到上述定位系统发送的地理位置后，将该信息发送给处理器101进行处理，或者发送给存储器103进行保存。在另外的一些实施例中，该定位装置108可以是辅助全球卫星定位系统(assisted global positioning system，AGPS)的接收器，AGPS是一种在一定辅助配合下进行GPS定位的运行方式，它可以利用基站的信号，配合GPS卫星信号，可以让手机100定位的速度更快；在AGPS系统中，该定位装置108可通过与辅助定位服务器(例如手机定位服务器)的通信而获得定位辅助。AGPS系统通过作为辅助服务器来协助定位装置108完成测距和定位服务，在这种情况下，辅助定位服务器通过无线通信网络与终端例如手机100的定位装置108(即GPS接收器)通信而提供定位协助。

音频电路109、扬声器113、麦克风114可提供用户与手机100之间的音频接口。音频电路109可将接收到的音频数据转换后的电信号，传输到扬声器113，由扬声器113转换为声音信号输出；另一方面，麦克风114将收集的声音信号转换为电信号，由音频电路109接收后转换为音频数据，再将音频数据输出至RF电路102以发送给比如另一手机，或者将音频数据输出至存储器103以便进一步处理。

外设接口110，用于为外部的输入/输出设备(例如键盘、鼠标、外接显示器、外部存储器、用户识别模块卡等)提供各种接口。例如通过通用串行总线接口与鼠标连接，通过用户识别模块卡卡槽上的金属触点与电信运营商提供的用户识别模块(subscriber identity module，SIM)卡电连接。外设接口110可以被用来将上述外部的输入/输出外围设备耦接到处理器101和存储器103。

手机100还可以包括给各个部件供电的电源装置111(比如电池和电源管理芯片)，电池可以通过电源管理芯片与处理器101逻辑相连，从而通过电源装置111实现管理充电、放电、以及功耗管理等功能。

尽管图3未示出，手机100还可以包括摄像头、闪光灯、微型投影装置、近场通信(near field communication，NFC)装置等，在此不予赘述。

结合上述图1-图3，以可穿戴设备11为蓝牙耳机、终端12为手机举例，蓝牙耳机与手机之间可以通过蓝牙连接进行通信。在本申请实施例中，用户可在佩戴蓝牙耳机时向蓝牙耳机输入语音信息，此时，蓝牙耳机可通过外部设置的第一语音传感器201和内部设置的第二语音传感器202分别采集该语音信息。例如，第一语音传感器201采集到的语音信息为第一语音分量，第二语音传感器202采集到的语音信息为第二语音分量。

这样，蓝牙耳机可以分别对第一语音分量和第二语音分量进行声纹识别，得到与第一语音分量对应的第一声纹识别结果以及与第二语音分量对应的第二声纹识别结果。例如，蓝牙耳机内可预先存储合法用户的第一声纹模型和第二声纹模型，第一声纹模型是根据合法用户预先向第一语音传感器201输入的注册语音生成的，第二声纹模型是根据合法用户预先向第二语音传感器202输入的注册语音生成的。那么，蓝牙耳机可以将第一声纹模型与采集到的第一语音分量进行匹配，并且，将第二声纹模型与采集到的第二语音分量进行匹配。

当上述第一语音分量与第一声纹模型匹配，且第二语音分量与第二声纹模型匹配时，说明蓝牙耳机此时采集到的语音信息为合法用户输入的。例如，蓝牙耳机可通过一定算法计算第一语音分量与第一声纹模型的第一匹配度，以及第二语音分量与第二声纹模型的第二匹配度。当匹配度越高时，说明该语音分量与对应的声纹模型越吻合，此时发声用户为合法用户的可能性越高。例如，当第一匹配度与第二匹配度的平均值大于80分时，蓝牙耳机可确定第一语音分量与第一声纹模型匹配，且第二语音分量与第二声纹模型匹配。又或者，当第一匹配度与第二匹配度分别大于85分时，蓝牙耳机可确定第一语音分量与第一声纹模型匹配，且第二语音分量与第二声纹模型匹配。进而，蓝牙耳机可向手机发送与该语音信息对应的操作指令，例如，解锁指令、关机指令或者向特定联系人打电话等指令。使得手机可以根据该操作指令执行对应的操作，实现用户通过语音操控手机的功能。

当然，蓝牙耳机也可以将采集到的第一语音分量和第二语音分量发送给手机，由手机分别对第一语音分量和第二语音分量进行声纹识别，并根据识别结果判断输入上述语音信息的用户是否为合法用户。若是合法用户，则手机可执行该语音信息对应的操作指令。

其中，上述合法用户是指能够通过手机预设的身份认证措施的用户，例如，终端预设的身份认证措施为输入密码、指纹识别和声纹识别，那么，通过密码输入或者预先在终端内存储有经过用户身份认证的指纹信息和声纹模型的用户可认为是该终端的合法用户。当然，一个终端的合法用户可以包括一个或多个，除合法用户之外的任意用户都可以视为该终端的非法用户。非法用户通过一定的身份认证措施后也可转变为合法用户，本申请实施例对此不做任何限制。

可以看出，在本申请实施例中，当用户通过向可穿戴设备11输入语音信息以达到控制终端12的目的时，可穿戴设备11可采集用户发声时在耳道内产生的语音信息以及在耳道外产生的语音信息，此时可穿戴设备11内产生了两路语音信息(即上述第一语音分量和第二语音分量)。这样，可穿戴设备11(或终端12)可针对这两路语音信息分别进行声纹识别，当这两路语音信息的声纹识别结果均与合法用户的声纹模型匹配时，可确认此时输入语音信息的用户为合法用户。显然，这种两路语音信息的双重声纹识别过程相比于一路语音信息的声纹识别过程能够显著提高用户身份鉴权时的准确性和安全性。

并且，由于用户必须佩戴该可穿戴设备11后，可穿戴设备11才能通过骨传导这种方式采集到用户输入的语音信息，因此，当可穿戴设备11通过骨传导这种方式采集到的语音信息能够通过声纹识别时，也说明了上述语音信息的来源是佩戴可穿戴设备11的合法用户发声产生的，从而避免非法用户使用合法用户的录音恶意控制合法用户的终端的情况。

为了便于理解，以下结合附图对本申请实施例提供的一种语音控制方法进行具体介绍。以下实施例中均以手机作为终端，以蓝牙耳机作为可穿戴设备举例说明。

图4为本申请实施例提供的一种语音控制方法的流程示意图。如图4所示，该语音控制方法可以包括：

S401、手机与蓝牙耳机建立蓝牙连接。

当用户希望使用蓝牙耳机时，可打开蓝牙耳机的蓝牙功能。此时，蓝牙耳机可对外发送配对广播。如果手机已经打开蓝牙功能，则手机可以接收到该配对广播并提示用户已经扫描到相关的蓝牙设备。当用户在手机上选中蓝牙耳机后，手机可与蓝牙耳机进行配对并建立蓝牙连接。后续，手机与蓝牙耳机之间可通过该蓝牙连接进行通信。当然，如果手机与蓝牙耳机在建立本次蓝牙连接之前已经成功配对，则手机可自动与扫描到的蓝牙耳机建立蓝牙连接。

另外，如果用户希望使用的耳机具有Wi-Fi功能，用户也可操作手机与该耳机建立Wi-Fi连接。又或者，如果用户希望使用的耳机为有线耳机，用户也将耳机线的插头插入手机相应的耳机接口中建立有线连接，本申请实施例对此不做任何限制。

S402(可选的)、蓝牙耳机检测是否处于佩戴状态。

如图2所示，蓝牙耳机中可设置接近光传感器和加速度传感器，其中，接近光传感器设置在用户佩戴时与用户接触的一侧。该接近光传感器和加速度传感器可定期启动以获取当前检测到的测量值。

由于用户佩戴蓝牙耳机后会挡住射入接近光传感器的光线，因此，当接近光传感器检测到的光强小于预设的光强阈值时，蓝牙耳机可确定此时自身处于佩戴状态。又因为，用户佩戴蓝牙耳机后蓝牙耳机会随用户一起运动，因此，当加速度传感器检测到的加速度值大于预设的加速度阈值时，蓝牙耳机可确定此时自身处于佩戴状态。或者，当接近光传感器检测到的光强小于预设的光强阈值时，如果检测到此时加速度传感器检测到的加速度值是否大于预设的加速度阈值，则蓝牙耳机可确定此时自身处于佩戴状态。

进一步地，由于蓝牙耳机内还设置有通过骨传导的方式采集语音信息的第二语音传感器(例如骨传导麦克风或光学振动传感器等)，因此，蓝牙耳机可进一步通过第二语音传感器采集当前环境中产生的振动信号。当蓝牙耳机处于佩戴状态时与用户直接接触，因此第二语音传感器采集到的振动信号相较于未佩戴状态下较为强烈，那么，如果第二语音传感器采集到的振动信号的能量大于能量阈值，则蓝牙耳机可确定出自身处于佩戴状态。又或者，由于用户佩戴蓝牙耳机时采集到的振动信号中的谐波、共振等频谱特征与蓝牙耳机未被佩戴时采集到的频谱特征具有显著区别，因此，如果第二语音传感器采集到的振动信号满足预设频谱特征，则蓝牙耳机可确定出自身处于佩戴状态。这样可以减少用户将蓝牙耳机放入口袋等场景下，蓝牙耳机无法通过接近光传感器或加速度传感器准确检测佩戴状态的几率。

其中，上述能量阈值或者预设频谱特征可以是通过抓取大量用户佩戴蓝牙耳机后发声或者运动等方式产生的各种振动信号后统计得到的，与用户没有佩戴蓝牙耳机时第二语音传感器检测到的语音信号的能量或频谱特征具有明显差异。另外，由于蓝牙耳机外部的第一语音传感器(例如气传导麦克风)的功耗一般较大，因此，在蓝牙耳机检测出当前处于佩戴状态之前，无需开启第一语音传感器。当蓝牙耳机检测出当前处于佩戴状态后，可开启第一语音传感器采集用户发声时产生的语音信息，以降低蓝牙耳机的功耗。

当蓝牙耳机检测出当前处于佩戴状态后，可继续执行下述步骤S403-S407；否则，蓝牙耳机可进入休眠状态，直到检测出当前处于佩戴状态后继续执行下述步骤S403-S407。也就是说，蓝牙耳机可在检测出用户佩戴了蓝牙耳机，即用户对蓝牙耳机具有使用意图时，才会触发蓝牙耳机采集用户输入的语音信息以及声纹识别等过程，从而降低蓝牙耳机的功耗。当然，上述步骤S402为可选步骤，即无论用户是否佩戴了蓝牙耳机，蓝牙耳机均可续执行下述步骤S403-S407，本申请实施例对此不做任何限制。

S403、若处于佩戴状态，则蓝牙耳机通过第一语音传感器采集用户输入的语音信息中的第一语音分量，并通过第二语音传感器采集上述语音信息中的第二语音分量。

当确定出蓝牙耳机处于佩戴状态时，蓝牙耳机可启动语音检测模块，分别使用上述第一语音传感器和第二语音传感器采集用户输入的语音信息，得到该语音信息中的第一语音分量和第二语音分量。以第一语音传感器为气传导麦克风，第二语音传感器为骨传导麦克风举例，用户在使用蓝牙耳机的过程中可以输入语音信息“小E，使用微信支付”。此时，由于气传导麦克风暴露在空气中，因此，蓝牙耳机可使用气传导麦克风接收用户发声后由空气振动产生的振动信号(即上述语音信息中的第一语音分量)。同时，由于骨传导麦克风能够通过皮肤与用户耳骨接触，因此，蓝牙耳机可使用骨传导麦克风接收用户发声后由耳骨和皮肤振动产生的振动信号(即上述语音信息中的第二语音分量)。

在本申请的一些实施例中，当蓝牙耳机检测到用户输入的语音信息后，还可以通过VAD(voice activity detection，语音活动检测)算法区分上述语音信息中的语音信号和背景噪音。具体的，蓝牙耳机可以分别将上述语音信息中的第一语音分量和第二语音分量输入至相应的VAD算法中，得到与第一语音分量对应的第一VAD取值以及与第二语音分量对应的第二VAD取值。其中，VAD取值可用于反映上述语音信息是说话人正常的语音信号还是噪音信号。例如，可将VAD取值范围设置在0至100的区间内，当VAD取值大于某一VAD阈值时可说明该语音信息是说话人正常的语音信号，当VAD取值小于某一VAD阈值时可说明该语音信息是噪音信号。又例如，可将VAD取值设置为0或1，当VAD取值为1时，说明该语音信息是说话人正常的语音信号，当VAD取值为0时，说明该语音信息是噪音信号。

那么，蓝牙耳机可结合上述第一VAD取值和第二VAD取值这两个VAD取值确定上述语音信息是否为噪音信号。例如，当第一VAD取值和第二VAD取值均为1时，蓝牙耳机可确定上述语音信息不是噪音信号，而是说话人正常的语音信号。又例如，当第一VAD取值和第二VAD取值分别大于预设取值时，蓝牙耳机可确定上述语音信息不是噪音信号，而是说话人正常的语音信号。

另外，当第二VAD取值为1或者第二VAD取值大于预设取值时，可一定程度上说明此时采集到的语音信息为活体用户发出的，因此，蓝牙耳机也可以仅根据第二VAD取值确定上述语音信息是否为噪音信号。

通过对上述第一语音分量和第二语音分量分别进行语音活动检测，如果蓝牙耳机确定出上述语音信息是噪音信号，则蓝牙耳机可丢弃该语音信息；如果蓝牙耳机确定出上述语音信息不是噪音信号，则蓝牙耳机可继续执行下述步骤S404-S407。即用户向蓝牙耳机输入有效的语音信息时，才会触发蓝牙耳机进行后续声纹识别等过程，从而降低蓝牙耳机的功耗。

另外，当蓝牙耳机获取到与第一语音分量和第二语音分量分别对应的第一VAD取值和第二VAD取值后，还可以使用噪声估计算法(例如，最小值统计算法或最小值控制递归平均算法等)分别测算上述语音信息中的噪声值。例如，蓝牙耳机可以设置专门用于存储噪声值的存储空间，蓝牙耳机每次计算出新的噪声值后，可以将新的噪声值更新在上述存储空间中。即该存储空间中一直保存有最近测算出的噪声值。

这样，蓝牙耳机通过上述VAD算法确定出上述语音信息为有效的语音信息后，可使用上述存储空间中的噪声值分别对上述第一语音分量和第二语音分量进行降噪处理，使得后续蓝牙耳机(或手机)分别对第一语音分量和第二语音分量进行声纹识别时的识别结果更加准确。

S404、蓝牙耳机通过蓝牙连接向手机发送第一语音分量和第二语音分量。

蓝牙耳机获取到上述第一语音分量和第二语音分量后，可将第一语音分量和第二语音分量发送给手机，进而由手机执行下述步骤S705-S707，以实现对用户输入的语音信息的声纹识别、用户身份鉴权等操作。

S405、手机分别对第一语音分量和第二语音分量进行声纹识别，得到与第一语音分量对应的第一声纹识别结果以及第二语音分量对应的第二声纹识别结果。

手机内可预先存储一个或多个合法用户的声纹模型。其中，每个合法用户均具有两个声纹模型，一个是根据气传导麦克风(即第一语音传感器)工作时采集到的用户的语音特征建立的第一声纹模型，另一个是根据骨传导麦克风(即第二语音传感器)工作时采集到的用户的语音特征建立的第二声纹模型。

其中，第一声纹模型和第二声纹模型的建立需要经过两个阶段。第一阶段是背景模型训练阶段。在第一阶段中，开发人员可采集大量说话人佩戴上述蓝牙耳机发声时产生的相关文本的语音(例如，“你好，小E”等)。进而，手机可对这些相关文本的语音进行滤波、降噪后可提取背景语音中的音频特征(例如，时频语谱图，或gammatone-like谱图等)，并使用GMM(gaussian mixed model，高斯混合模型)或者SVM(support vector machines，支持向量机)或者深度神经网络类框架等机器学习算法建立声纹识别的背景模型。手机或蓝牙耳机可基于该背景模型根据某一用户输入的注册语音建立属于该用户的第一声纹模型和第二声纹模型。其中，上述深度神经网络类框架包括但不限于DNN(deep neural network，深度神经网络)算法、RNN(recurrent neural network，循环神经网络)算法和LSTM(long short term memory，长短时记忆)算法等。

第二阶段是用户在手机上首次使用语音控制功能时，通过输入注册语音建立属于该用户的第一声纹模型和第二声纹模型的过程。例如，合法用户1首次使用手机内安装的语音助手APP时，语音助手APP可提示用户佩戴蓝牙耳机并说出“你好，小E”的注册语音。同样，由于蓝牙耳机上包括气传导麦克风和骨传导麦克风，因此，蓝牙耳机可获取到该注册语音中通过气传导麦克风采集到的第一注册分量以及通过骨传导麦克风采集到的第二注册分量。进而，蓝牙耳机将第一注册分量和第二注册分量发送给手机后，手机可分别提取第一注册分量和第二注册分量中用户1的音频特征，进而将用户1的音频特征输入至上述背景模型中，得到用户1的第一声纹模型和第二声纹模型。手机可以将合法用户1的第一声纹模型和第二声纹模型保存在手机本地，也可以将合法用户1的第一声纹模型和第二声纹模型发送给蓝牙耳机进行保存。

另外，在建立合法用户1的第一声纹模型和第二声纹模型时，手机还可以将此时连接的蓝牙耳机作为合法蓝牙设备。例如，手机可以将该合法蓝牙设备的标识(例如蓝牙耳机的MAC地址等)保存在手机本地。这样，手机可以接收和执行合法蓝牙设备发来的相关操作指令，而当非法蓝牙设备向手机发送操作指令时，手机可丢弃该操作指令以提高安全性。一个手机可以管理一个或多个合法蓝牙设备。如图7中的(a)所示，用户可以从设置功能中进入声纹识别功能的设置界面701，用户点击设置按钮705后可进入如图7中的(b)所示的合法设备管理界面706。用户在合法设备管理界面806中可以添加或删除合法蓝牙设备。

在步骤S405中，手机获取到上述语音信息中的第一语音分量和第二语音分量后，可分别提取第一语音分量和第二语音分量中的音频特征，进而使用合法用户1的第一声纹模型与第一语音分量中的音频特征进行匹配，并使用合法用户1的第二声纹模型与第二语音分量中的音频特征进行匹配。例如，手机可通过一定算法计算上述第一声纹模型与第一语音分量的第一匹配度(即第一声纹识别结果)，以及上述第二声纹模型与第二语音分量的第二匹配度(即第二声纹识别结果)。一般，当匹配度越高时，说明上述语音信息中的音频特征与合法用户1的音频特征越相似，输入该语音信息的用户是合法用户1的概率越高。

如果手机内存储有多个合法用户的声纹模型，则手机还可以按照上述方法逐一计算上述第一语音分量与其他合法用户(例如合法用户2、合法用户3)的第一匹配度，以及上述第二语音分量与其他合法用户的第二匹配度。进而，蓝牙耳机可以将匹配度最高的合法用户(例如合法用户A)确定为此时的发声用户。

另外，在手机对第一语音分量和第二语音分量进行声纹识别之前，还可以先判断是否需要对第一语音分量和第二语音分量进行声纹识别。例如，如果蓝牙耳机或者手机可以从用户输入的语音信息中识别出预设的关键词，例如，“转账”、“支付”、“**银行”或者“聊天记录”等涉及用户隐私或资金行为的关键词，说明用户此时通过语音控制手机所需的安全需求较高，因此，手机可执行步骤S405进行声纹识别。又例如，如果蓝牙耳机接收到用户执行的预先设置的用于开启声纹识别功能的操作，例如，敲击蓝牙耳机或者同时按下音量+和音量－按键等操作，说明用户此时需要通过声纹识别验证用户身份，因此，蓝牙耳机可通知手机执行步骤S405进行声纹识别。

又或者，还可以在手机内预先设置与不同安全等级对应的关键词。例如，安全等级最高的关键词包括“支付”、“付款”等，安全等级较高的关键词包括“拍照”、“打电话”等，安全等级最低的关键词包括“听歌”、“导航”等。

这样，当检测到上述采集到的语音信息中包含安全等级最高的关键词时，可触发手机分别对第一语音分量和第二语音分量进行声纹识别，即对采集到的两路音源均进行声纹识别以提高语音控制手机时的安全性。当检测到上述采集到的语音信息中包含安全等级较高的关键词时，由于此时用户通过语音控制手机的安全性需求一般，因此可触发手机仅对第一语音分量或第二语音分量进行声纹识别。当检测到上述采集到的语音信息中包含安全等级最低的关键词时，手机无需对第一语音分量和第二语音分量进行声纹识别。

当然，如果蓝牙耳机采集到的语音信息中没有包含关键词，说明此时采集到的语音信息可能只是用户在正常交谈时发出的语音信息，因此，手机无需对第一语音分量和第二语音分量进行声纹识别，从而可降低手机的功耗。

又或者，手机还可以预先设置一个或多个唤醒词用于唤醒手机打开声纹识别功能。例如，该唤醒词可以为“你好，小E”。当用户向蓝牙耳机输入语音信息后，蓝牙耳机或手机可识别该语音信息是否是包含唤醒词的唤醒语音。例如，蓝牙耳机可将采集到的语音信息中的第一语音分量和第二语音分量发送给手机，如果手机进一步识别出该语音信息中包含上述唤醒词，则手机可打开声纹识别功能(例如为声纹识别芯片上电)。后续如果蓝牙耳机采集到的语音信息中包含上述关键词，则手机可使用已开启的声纹识别功能按照步骤S405的方法进行声纹识别。

又例如，蓝牙耳机采集到语音信息后也可进一步识别该语音信息中是否包含上述唤醒词。如果包含上述唤醒词，则说明后续用户可能需要使用声纹识别功能，那么，蓝牙耳机可向手机发送启动指令，使得手机响应于该启动指令打开声纹识别功能。

S406、手机根据第一声纹识别结果和第二声纹识别结果对用户身份鉴权。

在步骤S706中，手机通过声纹识别得到与第一语音分量对应的第一声纹识别结果以及与第二语音分量对应的第二声纹识别结果后，可综合这两个声纹识别结果对输入上述语音信息的用户身份鉴权，从而提高用户身份鉴权时的准确性和安全性。

示例性的，合法用户的第一声纹模型与上述第一语音分量的第一匹配度为第一声纹识别结果，合法用户的第二声纹模型与上述第二语音分量的第二匹配度为第二声纹识别结果。在对用户身份鉴权时，如果上述第一匹配度和第二匹配度满足预设的鉴权策略，例如，鉴权策略为当上述第一匹配度大于第一阈值，且上述第二匹配度大于第二阈值(第二阈值与第一阈值相同或不同)时，手机确定发出该第一语音分量和第二语音分量的用户为合法用户；否则，手机可确定发出该第一语音分量和第二语音分量的用户为非法用户。

又例如，手机可计算上述第一匹配度和第二匹配度的加权平均值，当该加权平均值大于预设阈值时，手机可确定发出该第一语音分量和第二语音分量的用户为合法用户；否则，手机可确定发出上述第一语音分量和第二语音分量的用户为非法用户。

又或者，手机可以在不同的声纹识别场景下使用不同的鉴权策略。例如，当采集到的语音信息中包含安全等级最高的关键词时，手机可将上述第一阈值和第二阈值均设置为99分。这样，只有当第一匹配度和第二匹配度均大于99分时，手机确定当前的发声用户为合法用户。而当采集到的语音信息中包含安全等级较低的关键词时，手机可将上述第一阈值和第二阈值均设置为85分。这样，当第一匹配度和第二匹配度均大于85分时，手机便可确定当前的发声用户为合法用户。也就是说，对于不同安全等级的声纹识别场景，手机可使用不同安全等级的鉴权策略对用户身份鉴权。

另外，如果手机内存储有或多个合法用户的声纹模型，例如，手机内存储有合法用户A、合法用户B和合法用户C的声纹模型，每个合法用户的声纹模型均包括第一声纹模型和第二声纹模型。那么，手机可以按照上述方法将采集到的第一语音分量和第二语音分量分别与每个合法用户的声纹模型进行匹配。进而，手机可以将满足上述鉴权策略，且匹配度最高的合法用户(例如合法用户A)确定为此时的发声用户。

在本申请的另一些实施例中，手机内存储的合法用户的声纹模型也可以是手机对上述注册语音中的第一注册分量以及第二注册分量进行融合后建立的。此时，每个合法用户均具有一个声纹模型，且该声纹模型既能反映出合法用户的声音通过空气传导时的音频特征，也能反映出合法用户的声音通过骨传导时的音频特征。

这样，手机接收到蓝牙耳机发送的语音信息中的第一语音分量和第二语音分量后，可将第一语音分量和第二语音分量融合后进行声纹识别，例如，计算第一语音分量和第二语音分量融合后与合法用户的声纹模型之间的匹配度。进而，手机根据该匹配度也能够对用户身份鉴权。由于这种身份鉴权方法中合法用户的声纹模型被融合为一个，因此声纹模型的复杂度和所需的存储空间都相应降低，同时由于利用了第二语音分量的声纹特征信息所以也具有双重声纹保障和活体检测功能。

S407、若上述用户为合法用户，则手机执行与上述语音信息对应的操作指令。

通过上述步骤S406的鉴权过程，如果手机确定出步骤S402中输入语音信息的发声用户为合法用户，则手机可生成与上述语音信息对应的操作指令。例如，当上述语音信息为 “小E，使用微信支付”时，与其对应的操作指令为打开微信APP的支付界面。这样，手机生成打开微信APP中支付界面的操作指令后，可自动打开微信APP，并显示微信APP中的支付界面。

另外，由于手机已经确定出上述用户为合法用户，因此，如图5所示，如果当前手机处于锁定状态，手机还可以先解锁屏幕，再执行打开微信APP中支付界面的操作指令，显示显示微信APP中的支付界面501。

示例性的，上述步骤S401-S407提供的语音控制方法可以是语音助手APP提供的一项功能。蓝牙耳机与手机交互时，如果通过声纹识别确定此时的发声用户为合法用户，手机可将生成的操作指令或语音信息等数据发送给应用程序层运行的语音助手APP。进而，由语音助手APP调用应用程序框架层的相关接口或服务执行与上述语音信息对应的操作指令。

可以看出，本申请实施例中提供的语音控制方法可以在利用声纹识别用户身份的同时，对手机解锁并执行语音信息中的相关操作指令。即用户只需要输入一次语音信息即可完成用户身份鉴权、手机解锁以及打开手机某一功能等一些列操作，从而大大提高了用户对手机的操控效率和用户体验。

在上述步骤S401-S407中，是以手机作为执行主体进行声纹识别以及用户身份鉴权等操作。可以理解的是，上述步骤S401-S407中的部分或全部内容也可以由蓝牙耳机完成，这可以降低手机的实现复杂度以及手机的功耗。如图6所示，该语音控制方法可以包括：

S601、手机与蓝牙耳机建立蓝牙连接。

S602(可选的)、蓝牙耳机检测是否处于佩戴状态。

S603、若处于佩戴状态，则蓝牙耳机通过第一语音传感器采集用户输入的语音信息中的第一语音分量，并通过第二语音传感器采集上述语音信息中的第二语音分量。

其中，步骤S601-S603中蓝牙耳机与手机建立蓝牙连接，检测蓝牙耳机是否处于佩戴状态，以及检测语音信息中的第一语音分量和第二语音分量的具体方法可参见上述步骤S401-S403的相关描述，故此处不再赘述。

需要说明的时，蓝牙耳机获取到上述第一语音分量和第二语音分量后，还可以对检测到的第一语音分量和第二语音分量进行VAD检测、降噪或滤波等操作，本申请实施例对此不做任何限制。

在本申请的一些实施例中，由于蓝牙耳机具有音频播放功能，而当蓝牙耳机的扬声器在工作时，蓝牙耳机上的气传导麦克风和骨传导麦克风可能会接收到扬声器所播放的音源的回声信号。因此，当蓝牙耳机获取到上述第一语音分量和第二语音分量后，还可以使用回声消除算法(adaptive echo cancellation，AEC)消除第一语音分量和第二语音分量中的回声信号，以提高后续声纹识别的准确性。

S604、蓝牙耳机分别对第一语音分量和第二语音分量进行声纹识别，得到与第一语音分量对应的第一声纹识别结果以及与第二语音分量对应的第二声纹识别结果。

与上述步骤S401-S407不同的是，在步骤S604中，蓝牙耳机内可预先存储一个或多个合法用户的声纹模型。这样，蓝牙耳机获取到上述第一语音分量和第二语音分量后，可使用蓝牙耳机本地存储的声纹模型对对第一语音分量和第二语音分量进行声纹识别。其中，蓝牙耳机分别对第一语音分量和第二语音分量进行声纹识别的具体方法，可参见上述步骤 S405中手机分别对第一语音分量和第二语音分量进行声纹识别的具体方法，故此处不再赘述。

S605、蓝牙耳机根据第一声纹识别结果和第二声纹识别结果对用户身份鉴权。

其中，蓝牙耳机根据第一声纹识别结果和第二声纹识别结果对用户身份鉴权的过程可参见上述步骤S406中手机根据第一声纹识别结果和第二声纹识别结果对用户身份鉴权的相关描述，故此处不再赘述。

S606、若上述用户为合法用户，则蓝牙耳机通过蓝牙连接向手机发送与上述语音信息对应的操作指令。

S607、手机执行上述操作指令。

如果蓝牙耳机确定出输入上述语音信息的发声用户为合法用户，则蓝牙耳机可生成与上述语音信息对应的操作指令。例如，当上述语音信息为“小E，使用微信支付”时，与其对应的操作指令为打开微信APP的支付界面。这样，蓝牙耳机可通过已建立的蓝牙连接向手机发送打开微信APP中支付界面的操作指令，如图5所示，手机接收到该操作指令后可自动打开微信APP，并显示微信APP中的支付界面501。

另外，由于蓝牙耳机已经确定出上述用户为合法用户，因此，当手机处于锁定状态时，蓝牙耳机还可以向手机发送用户身份鉴权通过的消息或者解锁指令，使得手机可以先解锁屏幕，再执行与上述语音信息对应的操作指令。当然，蓝牙耳机也可以将采集到的语音信息发送给手机，由手机根据该语音信息生成对应的操作指令，并执行该操作指令。

在本申请的一些实施例中，蓝牙耳机向手机发送上述语音信息或对应的操作指令时，还可以将自身的设备标识(例如MAC地址)发送给手机。由于手机内存储有已经通过鉴权的合法蓝牙设备的标识，因此，手机可根据接收到的设备标识确定当前连接的蓝牙耳机是否为合法蓝牙设备。如果该蓝牙耳机是合法蓝牙设备，则手机可进一步执行该蓝牙耳机发送来的操作指令，或者对该蓝牙耳机发送来的语音信息进行语音识别等操作，否则，手机可丢弃该蓝牙耳机发来的操作指令，从而避免非法蓝牙设备恶意操控手机导致的安全性问题。

或者，手机与合法蓝牙设备可以预先约定传输上述操作指令时的口令或密码。这样，蓝牙耳机向手机发送上述语音信息或对应的操作指令时，还可以向手机发送预先约定的口令或密码，使得手机确定当前连接的蓝牙耳机是否为合法蓝牙设备。

又或者，手机与合法蓝牙设备可以预先约定传输上述操作指令时使用的加密和解密算法。这样，蓝牙耳机向手机发送上述语音信息或对应的操作指令前，可使用约定的加密算法对该操作指令进行加密。手机接收到加密后的操作指令后，如果使用约定的解密算法能够解密出上述操作指令，则说明当前连接的蓝牙耳机为合法蓝牙设备，则手机可进一步执行该蓝牙耳机发送来的操作指令；否则，说明当前连接的蓝牙耳机为非法蓝牙设备，手机可丢弃该蓝牙耳机发来的操作指令。

需要说明的是，上述步骤S401-S407以及步骤S601-S607仅为在本申请提供的语音控制方法的两种实现方式。可以理解的是，本领域技术人员可以根据实际应用场景或实际经验设置上述实施例中哪些步骤由蓝牙耳机执行，哪些步骤由手机执行，本申请实施例对此不做任何限制。

例如，蓝牙耳机也可以在对第一语音分量和第二语音分量进行声纹识别之后，将得到的第一声纹识别结果和第二声纹识别结果发送给手机，后续由手机根据该声纹识别结果进行用户身份鉴权等操作。

又例如，蓝牙耳机也可以在获取到上述第一语音分量和第二语音分量后，先判断是否需要对第一语音分量和第二语音分量进行声纹识别。如果需要对第一语音分量和第二语音分量进行声纹识别，则蓝牙耳机可向手机发送该第一语音分量和第二语音分量，进而由手机完成后续声纹识别、用户身份鉴权等操作；否则，蓝牙耳机无需向手机发送该第一语音分量和第二语音分量，避免增加手机处理该第一语音分量和第二语音分量的功耗。

另外，如图7中的(a)所示，用户还可以进入手机的设置界面701中开启或关闭上述语音控制控能。如果用户开启上述语音控制控能，用户可通过设置按钮702设置触发该语音控制的关键词，例如“小E”、“支付”等，用户也可以通过设置按钮703管理合法用户的声纹模型，例如添加或删除合法用户的声纹模型，用户还可以通过设置按钮704设置语音助手能够支持的操作指令，例如支付、拨打电话、订餐等。这样，用户可以获得定制化的语音控制体验。

在本申请的一些实施例中，本申请实施例公开了一种终端，如图8所示，该终端用于实现以上各个方法实施例中记载的方法，其包括：连接单元801、获取单元802、识别单元803、鉴权单元804以及执行单元805。其中，连接单元801用于支持终端执行图4中的过程S401，以及图6中的过程S601；获取单元802支持终端执行图4中的过程S404，以及图6中的过程S606；识别单元803用于支持终端执行图4中的过程S405；鉴权单元804用于支持终端执行图4中的过程S406；执行单元805用于支持终端执行图4中的过程S407和图6中的过程S607。其中，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

在本申请的一些实施例中，本申请实施例公开了一种可穿戴设备，如图9所示，该可穿戴设备用于实现以上各个方法实施例中记载的方法，其包括：连接单元901、检测单元902、发送单元903、识别单元904以及鉴权单元905。其中，连接单元801用于支持终端执行图4中的过程S401，以及图6中的过程S601；检测单元902用于支持终端执行图4中的过程S402-S403，以及图6中的过程S602-S603；识别单元904用于支持终端执行图6中的过程S604；鉴权单元905用于支持终端执行图6中的过程S605；发送单元903用于支持终端执行图4中的过程S404，以及图6中的过程S606。其中，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

在本申请的另一些实施例中，本申请实施例公开了一种终端，如图10所示，该终端可以包括：触摸屏1001，其中，所述触摸屏1001包括触敏表面1006和显示屏1007；一个或多个处理器1002；存储器1003；一个或多个应用程序(未示出)；以及一个或多个计算机程序1004，上述各器件可以通过一个或多个通信总线1005连接。其中该一个或多个计算机程序1004被存储在上述存储器1003中并被配置为被该一个或多个处理器1002执行，该一个或多个计算机程序1004包括指令，上述指令可以用于执行如图4、图6及相应实施例中的各个步骤。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请实施例的具体实施方式，但本申请实施例的保护范围并不局限于此，任何在本申请实施例揭露的技术范围内的变化或替换，都应涵盖在本申请实施例的保护范围之内。因此，本申请实施例的保护范围应以所述权利要求的保护范围为准。

Claims

一种语音控制方法，其特征在于，包括：

当发声用户向可穿戴设备输入语音信息时，终端根据所述语音信息中第一语音分量的第一声纹识别结果和所述语音信息中第二语音分量的第二声纹识别结果，对所述发声用户进行身份鉴权；所述可穿戴设备与所述终端通信连接，所述第一语音分量是由所述可穿戴设备的第一语音传感器采集到的，所述第二语音分量是由所述可穿戴设备的第二语音传感器采集到的；

若所述终端对所述发声用户的身份鉴权结果为所述发声用户为合法用户，则所述终端执行与所述语音信息对应的操作指令。
根据权利要求1所述的语音控制方法，其特征在于，在终端根据所述语音信息中第一语音分量的第一声纹识别结果和所述语音信息中第二语音分量的第二声纹识别结果，对所述发声用户进行身份鉴权之前，还包括：

所述终端从所述可穿戴设备获取第一声纹识别结果和第二声纹识别结果，所述第一声纹识别结果为所述可穿戴设备对所述第一语音分量进行声纹识别后得到的，所述第二声纹识别结果为所述可穿戴设备对所述第二语音分量进行声纹识别后得到的。
根据权利要求1所述的语音控制方法，其特征在于，在终端根据所述语音信息中第一语音分量的第一声纹识别结果和所述语音信息中第二语音分量的第二声纹识别结果，对所述发声用户进行身份鉴权之前，还包括：

所述终端从所述可穿戴设备获取所述第一语音分量和所述第二语音分量；

所述终端对所述第一语音分量和所述第二语音分量分别进行声纹识别，得到与所述第一语音分量对应的第一声纹识别结果以及与所述第二语音分量对应的第二声纹识别结果。
根据权利要求3所述的语音控制方法，其特征在于，所述终端对所述第一语音分量和所述第二语音分量分别进行声纹识别，包括：

当所述语音信息中包括预设的关键词时，所述终端对所述第一语音分量和所述第二语音分量进行声纹识别；或者；

当接收到用户输入的预设操作时，所述终端对所述第一语音分量和所述第二语音分量进行声纹识别。
根据权利要求3或4所述的语音控制方法，其特征在于，所述终端对所述第一语音分量和所述第二语音分量分别进行声纹识别，包括：

所述终端判断所述第一语音分量与合法用户的第一声纹模型是否匹配，所述第一声纹模型用于反映所述第一语音传感器采集到的所述合法用户的音频特征；

所述终端判断所述第二语音分量与合法用户的第二声纹模型是否匹配，所述第二声纹模型用于反映所述第二语音传感器采集到的所述合法用户的音频特征；

其中，终端根据所述语音信息中第一语音分量的第一声纹识别结果和所述语音信息中第二语音分量的第二声纹识别结果，对所述发声用户进行身份鉴权，包括：

若所述第一语音分量与合法用户的第一声纹模型匹配，且所述第二语音分量与合法用户的第二声纹模型匹配，则所述终端确定所述发声用户为合法用户；否则，所述终端确定所述发声用户为非法用户。
根据权利要求5所述的语音控制方法，其特征在于，所述终端判断所述第一语音分量与合法用户的第一声纹模型是否匹配，包括：

所述终端计算所述第一语音分量与所述合法用户的第一声纹模型之间的第一匹配度；

若所述第一匹配度大于第一阈值，则所述终端确定所述第一语音分量与所述合法用户的第一声纹模型匹配；

其中，所述终端判断所述第二语音分量与合法用户的第二声纹模型是否匹配，包括：

所述终端计算所述第二语音分量与所述合法用户的第二声纹模型之间的第二匹配度；

若所述第二匹配度大于第二阈值，则所述终端确定所述第二语音分量与所述合法用户的第二声纹模型匹配。
根据权利要求1-6中任一项所述的语音控制方法，其特征在于，在所述终端根据所述语音信息中第一语音分量的第一声纹识别结果和所述语音信息中第二语音分量的第二声纹识别结果，对所述发声用户进行身份鉴权之前，还包括：

所述终端获取所述可穿戴设备发送的启动指令，所述启动指令是所述可穿戴设备响应于用户输入的唤醒语音生成的；

响应于所述启动指令，所述终端打开声纹识别功能。
根据权利要求3-6中任一项所述的语音控制方法，其特征在于，在所述终端从所述可穿戴设备获取所述第一语音分量和所述第二语音分量之后，还包括：

所述终端根据所述第一语音分量和所述第二语音分量确定所述语音信息中是否包含预设的唤醒词；

若包含预设的唤醒词，则所述终端打开声纹识别功能。
根据权利要求1-8中任一项所述的语音控制方法，其特征在于，若所述发声用户为合法用户，则所述方法还包括：

所述终端自动执行解锁操作。
根据权利要求1-9中任一项所述的语音控制方法，其特征在于，在所述终端执行与所述语音信息对应的操作指令之前，还包括：

所述终端获取所述可穿戴设备的设备标识；

其中，所述终端执行与所述语音信息对应的操作指令，包括：

若所述可穿戴设备的设备标识为预设的合法设备标识，则所述终端执行与所述语音信息对应的操作指令。
一种终端，其特征在于，包括：

触摸屏，其中，所述触摸屏包括触敏表面和显示器；

一个或多个处理器；

一个或多个存储器；

以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述一个或多个存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述终端执行时，使得所述终端执行以下步骤：

当发声用户向可穿戴设备输入语音信息时，根据所述语音信息中第一语音分量的第一声纹识别结果和所述语音信息中第二语音分量的第二声纹识别结果，对所述发声用户进行身份鉴权；所述可穿戴设备与所述终端通信连接，所述第一语音分量是由所述可穿戴设备的第一语音传感器采集到的，所述第二语音分量是由所述可穿戴设备的第二语音传感器采集到的；

若对所述发声用户的身份鉴权结果为所述发声用户为合法用户，则执行与所述语音信息对应的操作指令。
根据权利要求11所述的终端，其特征在于，在终端根据所述语音信息中第一语音分量的第一声纹识别结果和所述语音信息中第二语音分量的第二声纹识别结果，对所述发声用户进行身份鉴权之前，所述终端还用于执行：

从所述可穿戴设备获取第一声纹识别结果和第二声纹识别结果，所述第一声纹识别结果为所述可穿戴设备对所述第一语音分量进行声纹识别后得到的，所述第二声纹识别结果为所述可穿戴设备对所述第二语音分量进行声纹识别后得到的。
根据权利要求11所述的终端，其特征在于，在终端根据所述语音信息中第一语音分量的第一声纹识别结果和所述语音信息中第二语音分量的第二声纹识别结果，对所述发声用户进行身份鉴权之前，所述终端还用于执行：

从所述可穿戴设备获取所述第一语音分量和所述第二语音分量；

对所述第一语音分量和所述第二语音分量分别进行声纹识别，得到与所述第一语音分量对应的第一声纹识别结果以及与所述第二语音分量对应的第二声纹识别结果。
根据权利要求13所述的终端，其特征在于，所述终端对所述第一语音分量和所述第二语音分量分别进行声纹识别，具体包括：

当所述语音信息中包括预设的关键词时，对所述第一语音分量和所述第二语音分量进行声纹识别；或者；

当接收到用户输入的预设操作时，对所述第一语音分量和所述第二语音分量进行声纹识别。
根据权利要求13或14所述的终端，其特征在于，所述终端对所述第一语音分量和所述第二语音分量分别进行声纹识别，具体包括：

判断所述第一语音分量与合法用户的第一声纹模型是否匹配，所述第一声纹模型用于反映所述第一语音传感器采集到的所述合法用户的音频特征；

判断所述第二语音分量与合法用户的第二声纹模型是否匹配，所述第二声纹模型用于反映所述第二语音传感器采集到的所述合法用户的音频特征；

其中，终端根据所述语音信息中第一语音分量的第一声纹识别结果和所述语音信息中第二语音分量的第二声纹识别结果，对所述发声用户进行身份鉴权，具体包括：

若所述第一语音分量与合法用户的第一声纹模型匹配，且所述第二语音分量与合法用户的第二声纹模型匹配，则确定所述发声用户为合法用户；否则，确定所述发声用户为非法用户。
根据权利要求15所述的终端，其特征在于，所述终端判断所述第一语音分量与合法用户的第一声纹模型是否匹配，具体包括：

计算所述第一语音分量与所述合法用户的第一声纹模型之间的第一匹配度；

若所述第一匹配度大于第一阈值，则确定所述第一语音分量与所述合法用户的第一声纹模型匹配；

所述终端判断所述第二语音分量与合法用户的第二声纹模型是否匹配，具体包括：

计算所述第二语音分量与所述合法用户的第二声纹模型之间的第二匹配度；

若所述第二匹配度大于第二阈值，则确定所述第二语音分量与所述合法用户的第二声纹模型匹配。
根据权利要求11-16中任一项所述的终端，其特征在于，在所述终端根据所述语音信息中第一语音分量的第一声纹识别结果和所述语音信息中第二语音分量的第二声纹识别结果，对所述发声用户进行身份鉴权之前，所述终端还用于执行：

获取所述可穿戴设备发送的启动指令，所述启动指令是所述可穿戴设备响应于用户输入的唤醒语音生成的；

响应于所述启动指令，打开声纹识别功能。
根据权利要求13-16中任一项所述的终端，其特征在于，在所述终端从所述可穿戴设备获取所述第一语音分量和所述第二语音分量之后，所述终端还用于执行：

根据所述第一语音分量和所述第二语音分量确定所述语音信息中是否包含预设的唤醒词；

若包含预设的唤醒词，则打开声纹识别功能。
根据权利要求11-18中任一项所述的终端，其特征在于，若所述发声用户为合法用户，则所述终端还用于执行：

自动执行解锁操作。
根据权利要求11-19中任一项所述的终端，其特征在于，在所述终端执行与所述语音信息对应的操作指令之前，所述终端还用于执行：

获取所述可穿戴设备的设备标识；

其中，所述终端执行与所述语音信息对应的操作指令，具体包括：

若所述可穿戴设备的设备标识为预设的合法设备标识，则执行与所述语音信息对应的操作指令。
一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，其特征在于，当所述指令在终端上运行时，使得所述终端执行如权利要求1-10中任一项所述的语音控制方法。
一种包含指令的计算机程序产品，其特征在于，当所述计算机程序产品在终端上运行时，使得所述终端执行如权利要求1-10中任一项所述的语音控制方法。