WO2017092189A1

WO2017092189A1 - 语音唤醒实现方法、装置及终端、计算机存储介质

Info

Publication number: WO2017092189A1
Application number: PCT/CN2016/075627
Authority: WO
Inventors: 刘汝虎; 刘攀
Original assignee: 中兴通讯股份有限公司
Priority date: 2015-11-30
Filing date: 2016-03-04
Publication date: 2017-06-08
Also published as: EP3385947A1; US20180350372A1; JP2019502947A; CN106815507A; EP3385947A4

Abstract

本发明提供了一种语音唤醒实现方法、装置及终端、计算机存储介质，属于智能终端领域。其中，语音唤醒实现方法，应用于智能终端，所述方法包括：接收用户输入的语音唤醒指令；利用预设的语音唤醒词对所述语音唤醒指令进行唤醒词识别判断得到第一判断结果，所述语音唤醒词包括有声纹信息；利用所述语音唤醒词对所述语音唤醒指令进行声纹判断得到第二判断结果；当所述第一判断结果与所述第二判断结果均符合预设条件时，对所述智能终端进行解锁和唤醒。本发明的技术方案能够简化用户唤醒并操控智能终端的过程。

Description

语音唤醒实现方法、装置及终端、计算机存储介质

技术领域

本发明涉及智能终端领域，特别是指一种语音唤醒实现方法、装置及终端、计算机存储介质。

背景技术

在现有的智能终端中，语音唤醒和声纹加密分别属于两个独立的不同硬件模块。在语音唤醒培训过程中，将成功录制的唤醒词直接设置到语音芯片中；在声纹培训过程中，将成功录制的唤醒词存储到应用处理器(AP，Application Processor)侧，两者的录制是分开进行的，彼此之间没有联系。

在使用智能终端时，需要先通过唤醒词进行语音唤醒，声纹加密状态下还需要继续进行声纹的验证，声纹验证通过之后才可以进行语音指令的操控。

基于上面的实现方法，唤醒培训和声纹培训是独立的两个过程，如果语音唤醒和声纹解锁设置成不同的语音指令，用户就需要记两个唤醒词，容易混淆或忘记；如果语音唤醒和声纹解锁录制成一样的语音指令，重复录制次数就比较多，给用户带来不好的使用体验；另一方面，由于在使用智能终端时，需要分别进行语音唤醒和声纹解锁，由于语音唤醒的唤醒词没有进行专门的声纹验证，也存在着一定的误唤醒几率。

发明内容

本发明实施例要解决的技术问题是提供一种语音唤醒实现方法、装置及终端、计算机存储介质，能够简化用户唤醒并操控智能终端的过程。

为解决上述技术问题，本发明实施例提供的技术方案如下：

一方面，本发明实施例提供了一种语音唤醒实现方法，应用于智能终端，所述方法包括：

接收用户输入的语音唤醒指令；

利用预设的语音唤醒词对所述语音唤醒指令进行唤醒词识别判断得到第一判断结果，所述语音唤醒词包括有声纹信息；

利用所述语音唤醒词对所述语音唤醒指令进行声纹判断得到第二判断结果；

当所述第一判断结果与所述第二判断结果均符合预设条件时，对所述智能终端进行解锁和唤醒。

上述方案中，所述接收用户输入的语音唤醒指令之前还包括：

完成包括声纹信息的所述语音唤醒词的合一培训录音，并存储所述语音唤醒词。

上述方案中，所述完成包括声纹信息的所述语音唤醒词的合一培训录音之前还包括：

对合一培训录音的环境进行噪音检测；

所述完成包括声纹信息的所述语音唤醒词的合一培训录音具体为：

在所述噪音的音量低于预设分贝时，完成包括声纹信息的所述语音唤醒词的合一培训录音。

上述方案中，所述完成包括声纹信息的所述语音唤醒词的合一培训录音包括：

同时进行语音唤醒词的唤醒词培训录音和声纹培训录音，分别进行录音结果的判断；

若声纹培训录音成功次数达到n，唤醒词培训录音成功次数为0时，重新开始合一培训录音；或若唤醒词培训录音成功次数达到m，声纹培训录音成功次数为0时，重新开始合一培训录音，其中m，n为大于1的整数。

若唤醒词培训录音成功次数达到m，声纹培训录音成功次数小于n，则保存唤醒词培训录音数据，并停止唤醒词培训录音，继续声纹培训录音，当声纹培训录音成功次数达到n时，保存声纹培训录音数据，完成合一培训录音，其中m，n为大于1的整数。

若声纹培训录音成功次数达到n，唤醒词培训录音成功次数小于m，则保存声纹培训录音数据，并停止声纹培训录音，继续唤醒词培训录音，当唤醒词培训录音成功次数达到m时，保存唤醒词培训录音数据，完成合一培训录音，其中m，n为大于1的整数。

记录唤醒词培训录音和声纹培训录音同时成功的次数，当所述次数达到m时，保存唤醒词培训录音数据和声纹培训录音数据，完成合一培训录音，其中m为大于1的整数。

本发明实施例还提供了一种语音唤醒实现装置，包括：

接收模块，配置为接收用户输入的语音唤醒指令；

判断模块，配置为利用预设的语音唤醒词对所述语音唤醒指令进行唤醒词识别判断得到第一判断结果，所述语音唤醒词包括有声纹信息，利用所述语音唤醒词对所述语音唤醒指令进行声纹判断得到第二判断结果；

处理模块，配置为当所述第一判断结果与所述第二判断结果均符合预设条件时，对所述智能终端进行解锁和唤醒。

上述方案中，所述装置还包括：

录音培训模块，配置为完成包括声纹信息的所述语音唤醒词的合一培训录音；

语音芯片，配置为存储所述语音唤醒词。

上述方案中，所述装置还包括：

录音处理模块，配置为在进行合一培训录音过程前，对合一培训录音的环境进行噪音检测；

所述录音培训模块具体配置为在所述噪音的音量低于预设分贝时，完成包括声纹信息的所述语音唤醒词的合一培训录音。

上述方案中，所述录音培训模块包括：

并发录音子模块，配置为在合一培训录音过程中，控制所述智能终端的左声道存储唤醒词培训录音数据，所述智能终端的右声道存储声纹培训录音数据；或者制所述智能终端的右声道存储唤醒词培训录音数据，所述智能终端的左声道存储声纹培训录音数据。

所述接收模块、所述判断模块、所述处理模块、所述录音培训模块、所述录音处理模块、所述并发录音子模块在执行处理时，可以采用中央处理器(CPU，Central Processing Unit)、数字信号处理器(DSP，Digital Singnal Processor)或可编程逻辑阵列(FPGA，Field－Programmable Gate Array)实现。

本发明实施例还提供了一种智能终端，包括如上所述的语音唤醒实现装置。

本发明实施例还提供了一种计算机存储介质，其中存储有计算机程序，该计算机程序用于执行本发明实施例的上述语音唤醒实现方法。

本发明的实施例具有以下有益效果：

本发明实施例的语音唤醒实现方法，包括：接收用户输入的语音唤醒指令，利用预设的语音唤醒词对语音唤醒指令同时进行唤醒词识别判断和声纹判断，当判断结果均符合预设条件时，对智能终端进行解锁和唤醒，采用本发明实施例，能将原来的两步操作简化成一步操作，省略了唤醒后要进行声纹解锁后才能使用智能终端的步骤，简化用户唤醒并操控智能终端的过程。

附图说明

图1为现有技术进行培训录音的示意图；

图2为本发明实施例进行合一培训录音的示意图；

图3为现有技术对智能终端进行唤醒和声纹解锁的示意图；

图4为本发明实施例对智能终端进行唤醒和声纹解锁的示意图；

图5为本发明实施例语音唤醒实现装置的结构示意图；

图6为本发明实施例四进行合一培训录音的示意图；

图7为本发明实施例四进行合一培训录音的示意图；

图8为本发明实施例五进行合一培训录音的示意图。

具体实施方式

为使本发明的实施例要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明的实施例针对现有技术中语音唤醒和声纹解锁分开进行，导致用户的操作繁琐的问题，提供一种语音唤醒实现方法、装置及终端，能够简化用户唤醒并操控智能终端的过程。

实施例一

本实施例提供一种语音唤醒实现方法，应用于智能终端，所述方法包括：

接收用户输入的语音唤醒指令；

本实施例中，接收用户输入的语音唤醒指令，利用预设的语音唤醒词对语音唤醒指令同时进行唤醒词识别判断和声纹判断，当判断结果均符合预设条件时，对智能终端进行解锁和唤醒，本发明的技术方案能将原来的两步操作简化成一步操作，省略了唤醒后要进行声纹解锁后才能使用智能终端的步骤，简化用户唤醒并操控智能终端的过程。

在本发明实施例一实施方式中，所述接收用户输入的语音唤醒指令之前还包括：

在本发明实施例一实施方式中，所述完成包括声纹信息的所述语音唤醒词的合一培训录音之前还包括：

对合一培训录音的环境进行噪音检测；

在本发明实施例一实施方式中，所述完成包括声纹信息的所述语音唤醒词的合一培训录音包括：

如图1所示，现有技术在进行培训录音时，唤醒词培训录音和声纹培训录音是分别进行的，如图3所示，在操作智能终端时，唤醒和声纹解锁也是分别进行的。而如图2所示，本发明实施例在进行培训录音时，唤醒词培训录音和声纹培训录音是同时进行的，如图4所示，在操作智能终端时，唤醒和声纹解锁也是同时进行的。

实施例二

本实施例提供了一种语音唤醒实现装置，如图5所示，本实施例包括：

接收模块，配置为接收用户输入的语音唤醒指令；

在本发明实施例一实施方式中，所述装置还包括：

语音芯片，配置为存储所述语音唤醒词。

接收用户输入的语音唤醒指令，利用预设的语音唤醒词对语音唤醒指令同时进行唤醒词识别判断和声纹判断，当判断结果均符合预设条件时，对智能终端进行解锁和唤醒，本发明的技术方案能将原来的两步操作简化成一步操作，省略了唤醒后要进行声纹解锁后才能使用智能终端的步骤，简化用户唤醒并操控智能终端的过程。

在本发明实施例一实施方式中，所述装置还包括：

录音培训模块可以对每次的录音结果进行控制并判断当次录音是否成功，以及是否进入下一次录音。

录音处理模块在进行合一培训录音前先进行环境噪音判断，并且在合一培训录音过程中适当增强对信噪比(SNR)的判断，以提升录音培训模块的数据质量，进而提升识别的成功率。

在本发明实施例一实施方式中，所述录音培训模块包括：

实施例三

本实施例提供了一种智能终端，包括如上所述的语音唤醒实现装置。

本实施例的智能终端，接收用户输入的语音唤醒指令，利用预设的语音唤醒词对语音唤醒指令同时进行唤醒词识别判断和声纹判断，当判断结果均符合预设条件时，对智能终端进行解锁和唤醒，本发明的技术方案能将原来的两步操作简化成一步操作，省略了唤醒后要进行声纹解锁后才能使用智能终端的步骤，简化用户唤醒并操控智能终端的过程。

该智能终端的语音唤醒实现方法，具体步骤为：

第一步：用户使用智能终端前先进行带声纹信息的语音唤醒词的合一培训录音；

第二步：设置智能终端的安全锁屏；

第三步：智能终端处在黑屏或待机可以正常工作的状态；

第四部：用户说出唤醒词，进行唤醒词识别判断和声纹判断，如果两者都符合条件后，直接响应用户进行语音操控智能终端；否则，提示错误。

实施例四

本实施例的语音唤醒实现方法包括：

步骤一、在合一培训录音前，先进行环境噪音的检测，若当前环境符合录制条件，则继续进行合一培训录音，否则提示到安静环境录制。条件判断的标准依据从不同的环境状态下测试得到的经验值来确定的；

步骤二、在合一培训录音过程中，假设唤醒词培训录音成功次数要达到m，声纹培训录音成功次数要达到n，合一培训录音原则为唤醒词或声纹任一方先录制成功则成功的先退出合一培训录音，未成功的一方则独立进行合一培训录音。合一培训录音的基本流程如下：

2.1)若声纹培训录音成功次数达到n，唤醒词培训录音成功次数为0时，重新开始合一培训录音；或若唤醒词培训录音成功次数达到m，声纹培训录音成功次数为0时，重新开始合一培训录音，其中m，n为大于1的整数。

2.2)如图6所示，若唤醒词培训录音成功次数达到m，声纹培训录音成功次数小于n，则保存唤醒词培训录音数据，并停止唤醒词培训录音，继续声纹培训录音，当声纹培训录音成功次数达到n时，保存声纹培训录音数据，完成合一培训录音，其中m，n为大于1的整数。

2.3)如图7所示，若声纹培训录音成功次数达到n，唤醒词培训录音成功次数小于m，则保存声纹培训录音数据，并停止声纹培训录音，继续唤醒词培训录音，当唤醒词培训录音成功次数达到m时，保存唤醒词培训录音数据，完成合一培训录音，其中m，n为大于1的整数。

2.4)由于唤醒词培训录音或者声纹培训录音过程中，唤醒词由对应唤醒语音芯片处理，声纹由对应的声纹引擎处理，所需处理的过程中可能存在时序差异，本发明中对每一次合一培训这两者间不同时序问题的处理方式如表1所示：

表1

步骤三、每次合一培训录音时则切换到对应的合一路由，同时采用左右声道，分别存储唤醒词培训录音数据和声纹培训录音数据。独立进行培训录音时，则切换到独立录音路由，采用左声道存储当前的录音数据；

步骤四、合一培训录制成功后将唤醒词培训录音数据存储到语音芯片，声纹培训录音数据存储到AP侧，随即智能终端进入待机工作状态；

步骤五、用户说出唤醒词，进行唤醒词识别判断和声纹判断，如果两者都符合条件后，直接响应用户进行语音操控智能终端；否则，提示错误。

本实施例中，用户在培训完成唤醒词后，设置安全锁屏方式。在黑屏或待机状态，说出唤醒词，智能终端进行唤醒词识别判断和声纹解锁判断，如果两者都符合条件后，直接响应用户进行语音操控，此方法简化了用户唤醒并操控智能终端的方式。

实施例五

本实施例的语音唤醒实现方法包括：

由于唤醒词培训录音或者声纹培训录音过程中，唤醒词由对应唤醒语音芯片处理，声纹由对应的声纹引擎处理，所需处理的过程中可能存在时序差异，本发明中对每一次合一培训这两者间不同时序问题的处理方式如表1所示：

此说明书中所描述的许多功能部件都被称为模块，以便更加特别地强调其实现方式的独立性。

本发明实施例中，模块可以用软件实现，以便由各种类型的处理器执行。举例来说，一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块，举例来说，其可以被构建为对象、过程或函数。尽管如此，所标识模块的可执行代码无需物理地位于一起，而是可以包括存储在不同物理上的不同的指令，当这些指令逻辑上结合在一起时，其构成模块并且实现该模块的规定目的。

实际上，可执行代码模块可以是单条指令或者是许多条指令，并且甚至可以分布在多个不同的代码段上，分布在不同程序当中，以及跨越多个存储器设备分布。同样地，操作数据可以在模块内被识别，并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集，或者可以分布在不同位置上(包括在不同存储设备上)，并且至少部分地可以仅作为电子信号存在于系统或网络上。

在模块可以利用软件实现时，考虑到现有硬件工艺的水平，所以可以以软件实现的模块，在不考虑成本的情况下，本领域技术人员都可以搭建对应的硬件电路来实现对应的功能，所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备，诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。

在本发明各方法实施例中，所述各步骤的序号并不能用于限定各步骤的先后顺序，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，对各步骤的先后变化也在本发明的保护范围之内。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

工业实用性

Claims

一种语音唤醒实现方法，应用于智能终端，所述方法包括：

接收用户输入的语音唤醒指令；

利用预设的语音唤醒词对所述语音唤醒指令进行唤醒词识别判断得到第一判断结果，所述语音唤醒词包括有声纹信息；

利用所述语音唤醒词对所述语音唤醒指令进行声纹判断得到第二判断结果；

当所述第一判断结果与所述第二判断结果均符合预设条件时，对所述智能终端进行解锁和唤醒。
根据权利要求1所述的语音唤醒实现方法，其中，所述接收用户输入的语音唤醒指令之前还包括：

完成包括声纹信息的所述语音唤醒词的合一培训录音，并存储所述语音唤醒词。
根据权利要求2所述的语音唤醒实现方法，其中，所述完成包括声纹信息的所述语音唤醒词的合一培训录音之前还包括：

对合一培训录音的环境进行噪音检测；

所述完成包括声纹信息的所述语音唤醒词的合一培训录音具体为：

在所述噪音的音量低于预设分贝时，完成包括声纹信息的所述语音唤醒词的合一培训录音。
根据权利要求2所述的语音唤醒实现方法，其中，所述完成包括声纹信息的所述语音唤醒词的合一培训录音包括：

同时进行语音唤醒词的唤醒词培训录音和声纹培训录音，分别进行录音结果的判断；

若声纹培训录音成功次数达到n，唤醒词培训录音成功次数为0时，重新开始合一培训录音；或若唤醒词培训录音成功次数达到m，声纹培训录音成功次数为0时，重新开始合一培训录音，其中m，n为大于1的整数。
根据权利要求2所述的语音唤醒实现方法，其中，所述完成包括声纹信息的所述语音唤醒词的合一培训录音包括：

同时进行语音唤醒词的唤醒词培训录音和声纹培训录音，分别进行录音结果的判断；

若唤醒词培训录音成功次数达到m，声纹培训录音成功次数小于n，则保存唤醒词培训录音数据，并停止唤醒词培训录音，继续声纹培训录音，当声纹培训录音成功次数达到n时，保存声纹培训录音数据，完成合一培训录音，其中m，n为大于1的整数。
根据权利要求2所述的语音唤醒实现方法，其中，所述完成包括声纹信息的所述语音唤醒词的合一培训录音包括：

同时进行语音唤醒词的唤醒词培训录音和声纹培训录音，分别进行录音结果的判断；

若声纹培训录音成功次数达到n，唤醒词培训录音成功次数小于m，则保存声纹培训录音数据，并停止声纹培训录音，继续唤醒词培训录音，当唤醒词培训录音成功次数达到m时，保存唤醒词培训录音数据，完成合一培训录音，其中m，n为大于1的整数。
根据权利要求2所述的语音唤醒实现方法，其中，所述完成包括声纹信息的所述语音唤醒词的合一培训录音包括：

同时进行语音唤醒词的唤醒词培训录音和声纹培训录音，分别进行录音结果的判断；

记录唤醒词培训录音和声纹培训录音同时成功的次数，当所述次数达到m时，保存唤醒词培训录音数据和声纹培训录音数据，完成合一培训录音，其中m为大于1的整数。
一种语音唤醒实现装置，包括：

接收模块，配置为接收用户输入的语音唤醒指令；

判断模块，配置为利用预设的语音唤醒词对所述语音唤醒指令进行唤醒词识别判断得到第一判断结果，所述语音唤醒词包括有声纹信息，利用所述语音唤醒词对所述语音唤醒指令进行声纹判断得到第二判断结果；

处理模块，配置为当所述第一判断结果与所述第二判断结果均符合预设条件时，对所述智能终端进行解锁和唤醒。
根据权利要求8所述的语音唤醒实现装置，其中，所述装置还包括：

录音培训模块，配置为完成包括声纹信息的所述语音唤醒词的合一培训录音；

语音芯片，配置为存储所述语音唤醒词。
根据权利要求9所述的语音唤醒实现装置，其中，所述装置还包括：

录音处理模块，配置为在进行合一培训录音过程前，对合一培训录音的环境进行噪音检测；

所述录音培训模块具体配置为在所述噪音的音量低于预设分贝时，完成包括声纹信息的所述语音唤醒词的合一培训录音。
根据权利要求9所述的语音唤醒实现装置，其中，所述录音培训模块包括：

并发录音子模块，配置为在合一培训录音过程中，控制所述智能终端的左声道存储唤醒词培训录音数据，所述智能终端的右声道存储声纹培训录音数据；或者制所述智能终端的右声道存储唤醒词培训录音数据，所述智能终端的左声道存储声纹培训录音数据。
一种智能终端，包括如权利要求8-11中任一项所述的语音唤醒实现装置。
一种计算机存储介质，所述计算机存储介质中存储有计算机程序，该计算机程序用于上述权利要求1-7任一项所述的语音唤醒实现方法。