WO2023207149A1

WO2023207149A1 - 一种语音识别方法和电子设备

Info

Publication number: WO2023207149A1
Application number: PCT/CN2022/140339
Authority: WO
Inventors: 陆彩霞
Original assignee: 荣耀终端有限公司
Priority date: 2022-04-29
Filing date: 2022-12-20
Publication date: 2023-11-02
Also published as: CN117012189A

Abstract

一种语音识别方法和电子设备。该方法可应用于手机、平板电脑等终端设备上。终端设备可接收用户设定自定义唤醒词，然后利用语音合成器合成各种场景下的内容为上述自定义唤醒词的语音样本。利用语音样本，终端设备可以优化当前使用的自定义唤醒词识别模型，使之成为可以在各种场景下识别到自定义唤醒词的识别模型，从而提升识别准确率，提升用户使用体验。

Description

一种语音识别方法和电子设备

本申请要求于2022年04月29日提交中国专利局、申请号为202210468803.4、申请名称为“一种语音识别方法和电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及终端领域，尤其涉及一种语音识别方法和电子设备。

背景技术

目前，用户可以根据自身需求在个人的手机等终端设备上设置个性化的唤醒词，即自定义唤醒词。与默认唤醒词相比，自定义唤醒词缺少了针对唤醒词的涵盖各种音量、噪声、情绪的训练样本，所以识别自定义唤醒词的可靠性远低于默认唤醒词。

发明内容

本申请提供了一种语音识别方法，实施该方法手机等终端设备可以利用语音合成器合成各种场景下的内容为自定义唤醒词的语音样本，然后利用上述语音样本，终端设备可以优化当前使用的自定义唤醒词识别模型，使之成为可以在各种场景下识别到自定义唤醒词的识别模型。

第一方面，本申请提供了一种语音识别方法，该方法包括：确定第一唤醒词，第一唤醒词是用户设定的；根据第一唤醒词和预设的控制参数合成语音样本，语音样本是语音内容包括第一唤醒词的音频数据，控制参数用于控制合成的语音样本中所表现出的说话方式和/或说话场景；利用合成的语音样本对第一语音识别模型进行训练得到第二语音识别模型；第一语音识别模型为训练前用于识别第一唤醒词的语音识别模型，第二语音识别模型为训练后用于识别第一唤醒词的语音识别模型；使用第二语音识别模型识别麦克风采集的音频数据；当从麦克风采集的音频数据中识别到第一唤醒词时，唤醒终端设备。

实施第一方面提供的方法，手机等终端设备可以接收用户输入的自定义唤醒词，并合成各种场景下内容为自定义唤醒词的语音样本，然后，终端设备可利用上述语音样本优化当前使用的自定义唤醒词识别模型，从而提升该模式的识别准确率，使得优化后的模型可以在任何背景环境下都能识别到用户说出的自定义唤醒词。

结合第一方面提供的实施例，在一些实施例中，该方法还包括：确定麦克风采集的音频数据中成功唤醒终端设备的音频数据为有效音频数据；利用有效音频数据和合成的语音样本对第二语音识别模型进行优化，得到第三语音识别模型；使用第三语音识别模型处理麦克风采集的音频数据。

实施上述实施例提供的方法，终端设备还可在实施自定义唤醒词检测中，将包括自定义唤醒词并成功唤醒终端设备的环境音频确定为有效音频数据。然后终端设备可使用有效音频设备和合成语音样本优化当前使用的语音识别模型，从而周期地更新语音识别模型，提升语音识别模型的识别效果，提升用户使用体验。

结合第一方面提供的实施例，在一些实施例中，该方法还包括：确定麦克风采集的音频数据中成功唤醒终端设备的音频数据为有效音频数据；利用有效音频数据对第二语音识别模型进行优化，得到第三语音识别模型；使用第三语音识别模型处理麦克风采集的音频数据。

实施上述实施例提供的方法，终端设备还可在实施自定义唤醒词检测中，将包括自定义唤醒词并成功唤醒终端设备的环境音频确定为有效音频数据。然后终端设备可使用有效音频设备优化当前使用的语音识别模型，从而周期地更新语音识别模型，提升语音识别模型的识别效果，提升用户使用体验。

结合第一方面提供的实施例，在一些实施例中，在利用有效音频数据和合成的语音样本对第二语音识别模型进行优化之前，该方法还包括：确认有效音频数据的数量大于等于第一数量阈值，第一数量阈值为预设的。

实施上述实施例提供的方法，终端设备可以积累有效音频数据，在累积的有效音频数据的数量达到预设的第一数量阈值之后，终端设备再利用有效音频数据和合成的语音样本对第二语音识别模型进行优化，以避免每确定一条有效音频数据就立即更新当前使用的语音识别模型造成的计算资源浪费。

结合第一方面提供的实施例，在一些实施例中，在利用有效音频数据对第二语音识别模型进行优化之前，该方法还包括：确认有效音频数据的数量大于等于第二数量阈值，第二数量阈值为预设的。

实施上述实施例提供的方法，终端设备可以积累有效音频数据，在累积的有效音频数据的数量达到预设的第二数量阈值之后，终端设备再利用有效音频数据对第二语音识别模型进行优化，以避免每确定一条有效音频数据就立即更新当前使用的语音识别模型造成的计算资源浪费。

结合第一方面提供的实施例，在一些实施例中，在对第二语音识别模型进行优化之前，该方法还包括：确认当前时刻在预设的更新时间范围内。

实施上述实施例提供的方法，终端设备可以避免在用户正在使用终端设备时更新语音识别模型，从而避免超负荷导致系统卡顿或异常、影响用户使用体验。

结合第一方面提供的实施例，在一些实施例中，控制参数包括韵律特征；韵律特征用于控制合成的语音样本中说话人的说话方式，说话人的说话方式包括下一项或多项：说话人的说话时的情绪、停顿。

这样，终端设备在合成语音样本时，可通过韵律特征控制合成语音样本中说话人的说话方式说话情景，以模拟各种情绪状态下说话人说出自定义唤醒词的音频。

结合第一方面提供的实施例，在一些实施例中，根据第一唤醒词和预设的控制参数合成语音样本，具体包括：将第一唤醒词和预设的韵律特征输入语音合成器；利用语音合成器合成N条语音样本，N≥1；

结合第一方面提供的实施例，在一些实施例中，该方法还包括：依次对N条语音样本进行数据增强处理，得到M条语音样本，述M≥N。

实施上述实施例提供的方法，终端设备可以通过数据增强处理将合成的多条语音样本进行进一步扩充，得到数量更多的语音样本。这些语音样本之间存在些微的速度差异、音量差异、音调差异等等，从而进一步丰富合成的语音样本，模拟更多不同场景下的说话人说出的自定义唤醒词音频。

结合第一方面提供的实施例，在一些实施例中，控制参数还包括噪声参数，噪声参数用于控制合成的语音样本中说话人的说话场景，依次对N条语音样本进行数据增强处理，具体包括：通过噪声参数对N条语音样本进行数据加噪。

实施上述实施例提供的方法，终端设备可以通过数据加噪模拟说话人在不同遭横环境中说出自定义唤醒词的音频数据。

结合第一方面提供的实施例，在一些实施例中，数据增强处理包括数据加噪，数据加噪所使用的噪声包括以下一项或多项：人声噪声、风声噪声、建筑噪声、交通噪声；或者，数据加噪所使用的噪声包括以下一项或多项：居家噪声、办公室噪声、商场噪声、公园噪声。

这样，终端设备在合成语音样本时，可通过数据加噪进一步获得基于不同使用环境的说话人说出自定义唤醒词的音频，从而获得更丰富的训练样本，以提升语音识别模型的鲁棒性。

结合第一方面提供的实施例，在一些实施例中，该方法还包括：从有效音频数据中提取韵律特征；利用第一唤醒词、控制参数中的韵律特征和提取的韵律特征更新合成的语音样本。

实施上述实施例提供的方法，终端设备还可从确定的包括自定义唤醒词并成功唤醒终端的有效音频数据中提取说话人的韵律特征。然后，终端可将上述提取的说话人的韵律特征与语音合成器中预设的韵律特征参数结合，合成新的语音样本，从而使得合成语音样本更加丰富。这样，基于更丰富的语音样本，终端可以得到更有的唤醒词识别模型。

结合第一方面提供的实施例，在一些实施例中，第一语音识别模型的输入层与第二语音识别模型的输入层中包括的数据处理层的数量相同；第一语音识别模型的输入层与第二语音识别模型的输入层中对应的数据处理层的参数相同。

实施上述实施例提供的方法，终端设备在优化模型的过程中，可以保持在前的数据处理层的数量相同以及参数相同，从而节省优化过程中的算法成本、时间成本等，提升模型优化的效率。

第二方面，本申请提供了一种电子设备，该电子设备包括一个或多个处理器和一个或多个存储器；其中，一个或多个存储器与一个或多个处理器耦合，一个或多个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当一个或多个处理器执行计算机指令时，使得电子设备执行如第一方面以及第一方面中任一可能的实现方式描述的方法。

第三方面，本申请提供一种计算机可读存储介质，包括指令，当上述指令在电子设备上运行时，使得上述电子设备执行如第一方面以及第一方面中任一可能的实现方式描述的方法。

可以理解地，上述第二方面提供的电子设备、第三方面提供的计算机存储介质均用于执行本申请所提供的方法。因此，其所能达到的有益效果可参考对应方法中的有益效果，此处不再赘述。

附图说明

图1是本申请实施例提供的一种语音识别方法的流程图；

图2是本申请实施例提供的语音合成器合成样本语音的示意图；

图3是本申请实施例提供的模型优化的示意图；

图4A是本申请实施例提供的另一种语音识别方法的流程图；

图4B是本申请实施例提供的另一种语音识别方法的流程图；

图5A是本申请实施例提供的另一种语音识别方法的流程图；

图5B是本申请实施例提供的另一种语音识别方法的流程图；

图6A-图6I是本申请实施例提供的一组用户界面示意图；

图7A-图7D是本申请实施例提供的另一组用户界面示意图；

图8是本申请实施例提供的终端设备的系统结构示意图；

图9是本申请实施例提供的终端设备的硬件结构示意图。

具体实施方式

本申请以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。

手机、平板电脑等终端设备(终端100)可通过预设的唤醒词进入语音控制模式。语音控制模式是指用户通过说话控制终端100执行一个或多个操作。例如，在语音控制模式下，终端100可检测到用户说的“播放音乐”的命令，响应于上述命令，终端100可打开音乐应用播放音乐。

上述用于触发进入语音控制模式的唤醒词一般都是开发人员设定的，即默认唤醒词。可选的，现在终端100也支持用户在使用终端100的过程中设定个性化的唤醒词，即自定义唤醒词。

例如，在用户初始打开终端100时，终端100所使用的唤醒词为默认唤醒词，例如“你好，YOYO”。用户可根据终端100上提供的设置接口，将上述默认唤醒词更换为自定义唤醒词，例如“小花小花”。然后，终端100可通过检测唤醒词“小花小花”确认是否唤醒终端100并进入语音控制模式。

不限于手机、平板电脑，终端100还可以是桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmented reality，AR)设备、虚拟现实(virtual reality，VR)设备、人工智能(artificial intelligence,AI)设备、可穿戴式设备、车载设备、智能家居设备和/或智慧城市设备，本申请实施例对终端100的具体类型不作特殊限制。

然而，用户设定的自定义唤醒词具有很大的随机性。因此，终端100预置的唤醒词识别模型无法预先针对唤醒词对模型进行优化，更缺少涵盖各种音量、噪声、情绪的训练样本。因此，该模型针对自定义唤醒词的识别准确率低，鲁棒性低(对不同复杂使用场景，用户的不同发音习惯的适应能力)。

例如，当用户说出的自定义唤醒词的音量较小而环境噪声较大时，或用户情绪较为激动语速较快时，终端100往往难以准确快速地识别到上述自定义唤醒词。终端100对自定义唤醒词的识别准确率低，鲁棒性低，使得用户使用体验降低。

不限于唤醒词，在语音控制场景中，命令词等其他用于语音控制的词句也面临上述问题。

在本申请提供的一种实施例中，在确定用户设定的自定义唤醒词之后，终端100可向云获取其他终端设备采集并上传的内容为上述自定义唤醒词的语音样本。上述语音样本可涵盖各种音量、噪声、情绪场景。例如，在设定自定义唤醒词“小花小花”后，终端100可向云获取内容为“小花小花”的语音样本。若其他终端设备在此之前使用过“小花小花”这一自定义唤醒词，那么云上可存储有其他终端设备采集并上传的内容为“小花小花”的语音样本。这时，终端100可向云获取上述语音样本。

然后，终端100可利用上述语音样本对当前使用的唤醒词识别模型进行优化，使得上述唤醒词识别模型能够很好地适用于自定义唤醒词识别。

然而，云如果能提供上述涵盖各种音量、噪声、情绪的自定义唤醒词的语音样本，那就意味着，云需要从它所覆盖的终端设备中获取各个用户设定的自定义唤醒词，并经常地从各个用户的终端设备中获取包含自定义唤醒词的音频数据。这不仅需要极大地运维成本，还存在严重的隐私问题。在一些情况中，云上也可能不包括内容为用户设定的自定义唤醒词的语音样本，例如“小花小花”的语音样本，这时，终端100也就无法从云上获取内容为上述自定义唤醒词的语音样本。

为了解决自定义唤醒词识别准确率较低，鲁棒性较差的问题，同时又要保证用户个人数据是安全的，本申请实施例提供了一种语音识别方法。该方法可应用于终端100上。

首先，终端100可预置有泛化的唤醒词识别模型，简称粗模型。该粗模型可用于识别任意设定的自定义唤醒词。上述粗模型可以是原来用于识别默认唤醒词的唤醒词识别模型，也可以是单独的一个语音识别模型。但是，上述粗模型的识别准确率较低，容易受用户的情绪、停顿和使用环境的影响，可靠性较低。

这时，终端100可利用用户设定的自定义唤醒词文本、韵律特征，合成大量的模拟说话人在不同情景中说出自定义唤醒词的语音样本(合成语音样本)。韵律特征用于反映说话人说话方式，包括但不限于说话人情绪、停顿等特征。

合成语音样本可用于扩充粗模型中的自定义唤醒词的训练集。基于扩充后的训练集，终端100可以对上述粗模型进行再训练，得到适用于在各种语境和环境中检测自定义唤醒词的唤醒词识别模型，记为细模型。

基于上述细模型，终端100可以在各种语境和环境中识别用户是否说出自定义唤醒词，从而提升识别自定义唤醒词的准确率，提升用户使用体验。

进一步的，在使用上述细模型识别自定义唤醒词时，终端100还可将内容为自定义唤醒词且成功唤醒终端100有效音频数据加入到训练集中，不断更新当前使用的细模型，从而不断提高细模型的鲁棒性。

其中，终端100还可从上述有效音频数据中提取韵律特征。然后，终端100可使用预设的韵律特征控制参数和上述提取的韵律特征，控制合成的语音样本的韵律效果。其中，韵律特征控制参数的一个具体取值即一个韵律特征。然后，终端100再使用上述合成的语音样本和/或有效音频数据，更新当前使用的细模型，从而进一步提升自定义唤醒词识别准确率和鲁棒性，提升用户使用体验。

与家庭使用的智能电视，智能音响等终端设备不同的，手机、平板电脑的用户通常只有一个人。因此，这一类终端设备往往还具有声纹识别能力，即识别说话人是否为机主。因此，在一些示例中，终端100还可在自定义唤醒词的过程中，进行声纹验证。在确定说话人为机主的情况下，才唤醒自身进入语音控制模式。

这时，有效音频数据进一步限定为机主喊出自定义唤醒词并成功唤醒终端100的音频数据。这样，利用上述有效音频数据，或利用基于上述有效音频数据提取的韵律特征，优化当前使用的细模型，可以进一步提升识别自定义唤醒词的识别能力，避免他人误唤醒的情况，提升用户使用体验。

图1示例性示出了本申请实施例提供的一种语音识别方法的流程图。下面结合图1具体介绍终端100实施该方法的具体过程。

S101、终端100确定自定义唤醒词。

初始场景下，终端100所使用的唤醒词为默认唤醒词，例如“你好，YOYO”。

终端100可为用户提供设定自定义唤醒词的接口。当用户想使用个性化的唤醒词时，用户可通过上述接口设定自定义唤醒词。例如，用户可通过上述接口将上述默认唤醒词“你好，YOYO”更换为自定义唤醒词，例如“小花小花”。例如，上述接口可以为输入文本框。终端100可通过上述输入文本框接收用户的输入的自定义唤醒词。

具体的，终端100中预置有粗模型。粗模型可用于识别任意唤醒词。在接收到用户输入的自定义唤醒词之后，终端100可设定上述粗模型的目标识别对象为上述自定义唤醒词。然后，终端100可利用上述粗模型检测用户是否说出自定义唤醒词。

例如，终端100接收到用户输入的自定义唤醒词为“小花小花”。这时，终端100中粗模型的目标识别对象可被设定为“小花小花”。然后，粗模型可用于识别任意音频数据中是否包括语音内容“小花小花”。

但是，由于缺少对于自定义唤醒词的深度训练，粗模型准确率较低。因此，当用户的情绪、语速和环境噪声发生变化时，粗模型容易识别不到用户说出的自定义唤醒词，或将用户说出的其他词语误识别为上述自定义唤醒词，影响用户使用体验。

S102、终端100根据自定义唤醒词文本和预设的韵律特征合成语音样本。

使用大量的内容为自定义唤醒词的音频数据训练粗模型，可以实现对粗模型的优化，从而得到自定义唤醒词识别准确率更高，识别效果更好的唤醒词识别模型，即细模型。然而，由于用户设定的自定义唤醒词是随机的，终端100无法通过麦克风采集或下载的方式，获取大量的内容为自定义唤醒词的音频数据。

这时，终端100可以利用用户输入的自定义唤醒词的文本和语音合成器，合成大量的内容为自定义唤醒词的音频数据。例如，在接收到用户输入的自定义唤醒词为“小花小花”之后，终端100可将“小花小花”的文本输入到语音合成器。然后，语音合成器可生成N 条内容为“小花小花”的音频数据。终端100可以控制合成的音频数据的数量，即N的取值。例如，N可以为1200等等，这样，终端100就可以得到1200条内容为“小花小花”的音频数据。

上述利用语音合成器合成的包含自定义唤醒词的音频数据称为合成语音样本。图2示例性示出了语音合成器合成语音样本的示意图。

首先，在使用语音合成器合成语音之前，终端100需要设定语音合成器的参数。上述参数包括目标语音内容，韵律特征控制参数。

目标语音内容用于指示语音合成器合成什么内容的语音。在本申请实施例中，输入语音合成器的自定义唤醒词文本指示了语音合成器的目标语音内容。韵律特征控制参数用于设定各种韵律特征。韵律特征用于反映说话人的说话方式情境，包括但不限于说话人说话时的情绪、停顿、抑扬顿挫等特征。韵律特征控制参数设定的各种韵律特征使得语音合成器合成的N条语音样本是丰富多样的，可以表示说话人在各种情绪状态下说出的自定义唤醒词。

例如：合成语音样本1、合成语音样本2的语音内容均为“小花小花”，其中，合成语音样本1还包括开心、快(停顿少)的特点；合成语音样本2还包括哭泣、较慢(停顿多)的特点。这样，合成语音样本1可以表示说话人在开心、快速地说出自定义唤醒词时的音频数据。合成语音样本2可以表示说话人在哭泣、较慢地说出自定义唤醒词时的音频数据。

在设定目标语音内容，韵律特征控制参数之后，语音合成器可合成相应的语音样本。

其中，一组参数组合可以合成一条或多条语音样本。一般的，一组参数组合可以合成多条语音样本。例如，在一次语音合成过程中，语音合成器接收到的参数包括：目标语音内容＝“小花小花”，韵律特征控制参数＝“开心、较快”。基于上述参数，终端100可以合成20条模拟用户在开心、较快语速的场景下说出的内容为“小花小花”的语音样本。这20条合成语音样本之间各存在一定的差异。上述差异是合成过程中固有的。

终端100还可以一次性设定多组参数，进而快速合成覆盖更多场景的样本数据。例如，语音合成器可以一次性接收到的10组参数。这10组参数的具体内容这里不再赘述。假设，语音合成器可针对每一组参数合成20条语音样本，这样，语音合成器最终可以合成200条语音样本。

经过语音合成器的处理，终端100可以获取到大量的内容为自定义唤醒词的音频数据，来模拟各种场景下采集到的说话人说出的自定义唤醒词音频。

进一步的，在上述合成的语音样本的基础上，语音合成器还可以对上述语音样本进行数据增强处理，以获得更多的语音样本。

上述数据增强技术包括但不限于时频遮掩(时域遮掩、频域遮掩)、速度增强、音量增强、音调增强、数据加噪等增强技术。其中，数据加噪是指对生成的语音样本附加噪声效果，使得加噪后的语音样本还模拟了说话人所处的使用环境。数据加噪所使用的噪声包括但不限于人声噪声、风声噪声、建筑噪声、交通噪声等等。或者，根据空间场景划分，数据加噪所使用的噪声还可是居家噪声、办公室噪声、商场噪声、公园噪声等等。本申请实施例对此不作限制。其中，各类噪声又可包括[I、II、III]等不同强度。例如I类人声噪声可表示人声噪声较小，III类人声噪声可表示人声噪声较大。

结合上述示例，在合成200条语音样本后，语音合成器可对上述合成语音样本中的任意一条合成语音样本进行一次或多次数据增强处理，从而将一条合成语音样本进一步扩充到多条合成语音样本。例如，语音合成器可对合成语音样本001分别进行5次数据增强处理，上述5次数据增强处理可以为上述介绍的时域遮掩、频域遮掩、速度增强、音量增强、音调增强以及数据加噪(人声、风声、建筑、交通等)中的任意组合。合成语音样本001是上述200条合成语音样本中的任意一条。这样，经过数据增强处理，语音合成器可根据合成语音样本001得到另外5条合成语音样本。于是，上述200条合成语音样本可进一步扩充到1200条。

S103、终端100基于合成语音样本对粗模型进行优化，生成适用于自定义唤醒词的细模型。

在经过语音合成器处理后，终端100可获得大量的内容为自定义唤醒词的合成语音样本。这时，终端100可利用上述大量的合成语音样本对当前使用的粗模型进行训练，使其学习到更多内容为自定义唤醒词的音频数据的特征。训练后的模型即适用于识别自定义唤醒词的细模型。

具体的，图3示例性示出了对粗模型进行优化的示意图。

如图3所示，左侧矩形框31可表示粗模型的网络结构31。网络结构31可包括7个数据处理层(“1”～“7”)。上述数据处理层可以为卷积神经网络中的卷积层，本申请实施例对此不作限制。上述数据处理层的数量为示例性的，也可以包括更多或更少的处理层。

网络结构31中的数据处理层可分为输入层和输出层。网络结构中在前的数据处理层可称为输入层，在后的数据处理层可称为输出层。如图3所示，示例性的网络结构31中的前3层为输入层(“1”～“3”)，后4层为输出层(“4”～“7”)。

在对粗模型进行优化得到细模型的过程中，终端100会将合成语音样本输入网络结构31，并调整网络结构31的数据处理层，包括调整数据处理层的数量，和/或，调整数据处理层的参数等等。在本申请实施例中，终端100保持原始粗模型的输入层不变动，即不增加输入层的数量，也不变更输入层的参数。终端100只调整输出层的配置(数据处理层的数量，和/或，数据处理层的参数)，以使得更加适用于识别各种场景下的自定义唤醒词。这样，终端100可以优化时的计算成本，提高模型优化过程中的模型训练效率。

在使用合成语音样本训练粗模型，调整粗模型的输出层的配置之后，终端100可以得到适用于自定义唤醒词的细模型。右侧矩形框32可表示细模型的网络结构32。其中，网络结构32中的输入层(“1”～“3”)的配置与网络结构31中的输入层一致，但是，网络结构32中的输出层(“4'”～“6'”)的配置与网络结构31中的输出层不同。上述输出层不同包括输出层中的数据处理层的数量不同，和/或，数据处理层的参数不同。

实施图3所示的方法，终端100可以在预置的粗模型的基础上，通过合成的语音样本的对该粗模型进行优化，得到适用于自定义唤醒词的细模型，从而实现在各种场景下检测用户是否说出自定义唤醒词，为用户提供更好的唤醒词识别服务。

特别的，相比于利用合成语音样本直接训练得到一个识别自定义唤醒词的方法，基于预置的粗模型的训练方法为终端100节省了一定的训练成本，包括算法成本、时间成本等等，使得终端100可以在执行更少的计算的前提下，得到适用于自定义唤醒词的语音识别模型。

S104、终端100通过麦克风获取环境音频。

终端100的麦克风可实时地采集环境声音，生成环境音频。终端100可将采集到的环境音频输入到细模型中，识别上述环境音频中是否包括自定义唤醒词，即检测说话人是否说出自定义唤醒词。

S105、终端100判断是否识别到自定义唤醒词。

当识别到环境音频中包括自定义唤醒词时，终端100可唤醒自身，并进入语音控制模式。

例如，在灭屏状态或灭屏AOD(Always on Display)的状态下，在识别到自定义唤醒词后，终端100可点亮屏幕并显示语音助手图标，示意用户自身已被唤醒。在显示主界面或其他应用程序界面的状态下，在识别到自定义唤醒词后，终端100可显示语音助手图标等等。这样，用户可继续向终端100下发语音指令。终端100可根据识别到的语音指令执行相应地操作。

当输入的环境音频中不包括自定义唤醒词时，终端100会重新识别麦克风输入的新采集到的环境音频，直到识别到自定义唤醒词。

实施上述方法，终端100可以在用户设定自定义唤醒词后，自动生成内容为自定义唤醒词的语音样本。基于上述语音样本，终端100可对现有的唤醒词识别模型进行优化，从而得到准确率更高、环境适应性更强的唤醒词识别模型，以实现在各种场景下准确识别用户自定义唤醒词的功能。

在一些示例中，在基于合成语音样本得到的适用于自定义唤醒词的细模型之后，终端100还可在实施自定义唤醒词检测中，将真实采集到的内容为自定义唤醒词的音频数据输入到细模型中，进一步优化细模型，提升细模型的识别效率，提升用户使用体验。

如图4A所示，在执行S101～S105所示的步骤之后，终端100还可执行步骤S106、S107，将真实采集到的内容为自定义唤醒词的音频数据输入到细模型中，进一步优化细模型。

S106、终端100将唤醒终端100的有效音频数据加入到细模型中。

麦克风采集环境声音生成的环境音频中可能包括自定义唤醒词，也可能不包括自定义唤醒词。当环境音频包括自定义唤醒词时，细模型可识别到自定义唤醒词，于是，终端100可确认唤醒自身。上述包括自定义唤醒词并成功唤醒终端100的环境音频可称为有效音频数据。

相比于语音合成器合成的语音样本，有效音频数据是终端100真实采集到的说话人在某一场景下说出自定义唤醒词的音频数据。利用有效音频数据训练当前使用的基于合成语音样本生成的细模型，可以进一步提升该细模型的识别效果，使得终端100可以更准确更快速地检测用户是否说出自定义唤醒词。

因此，在每次确认识别到自定义唤醒词之后，终端100可将对应的有效音频数据加入到当前使用的细模型的训练集中。然后，细模型可使用语音合成器合成的语音样本和上述有效音频数据进行再训练，从而更新当前使用的细模型。

相比于更新前的细模型，更新后的细模型的识别准确率高。在各种环境中，终端100可以更加快速准确地识别到用户说出的自定义唤醒词。

S107、终端100确认有效语音样本数量是否足够且是否在更新时间内？

可以理解的，每加入一条有效音频数据到当前使用的细模型就更新该模型，是十分浪费终端100计算资源的。

因此，终端100可以监测新增的有效音频数据的数量。当新增的有效音频数据的数量满足数量阈值的要求时，终端100可利用上述新增的全部有效音频数据和合成语音样本更新当前使用的细模型。可选的，终端100也可全部使用有效音频数据进一步优化当前使用的细模型。

例如，上述数量阈值可以为100。当新增的有效音频数据的数量达到100条时，终端100可开始优化当前使用的细模型。终端100可利用上述100条新增的有效音频数据和前述合成的1200条合成语音样本优化当前使用的细模型，得到更新后的细模型，例如细模型2.0。然后，终端100可使用更新后的细模型(细模型2.0)检测自定义唤醒词。

当然，如果累计的有效音频的数量较大，终端100也可直接利用上述累计的有效音频数据优化当前使用的细模型，得到更新后的细模型。例如，上述数量阈值可以为1000。当新增的有效音频数据的数量达到1000条时，终端100可直接利用上述1000条新增的有效音频数据优化当前使用的细模型，而不再需要使用合成语音样本。

进一步的，在累计的有效音频数据的数量满足数量阈值的基础上，终端100还可检测当前时间是否符合更新时间的要求。这里，更新时间是指在预设的不会影响用户当前使用体验的空闲时间，例如凌晨1点～4点。上述更新时间还可以是用户指定的时间。

这样，终端100可以避免在用户正在使用该设备时更新细模型，从而避免超负荷导致系统卡顿或异常、影响用户使用体验。

在一些示例中，在开始更新前，终端100可以在屏幕上显示包含更新提示的弹窗。用户在看到上述弹窗之后，可确定识别自定义唤醒词的模型已更新，以后可以获取更好的自定义唤醒词识别服务。

当然，在一些示例中，在开始更新前，终端100可以在屏幕上显示包含更新提示和选择控件的弹窗。用户可以选择更新或不更新。进一步的，用户可以选择立即更新，或稍后更新，或设定一个时间进行更新，以避免在终端100繁忙的时候更新，影响用户使用体验。

在一些示例中，终端100还可从有效音频数据中提取说话人的韵律特征。然后，终端100可以结合上述提取的说话人的韵律特征和预设的韵律特征控制参数，并使用结合后的韵律特征控制合成语音样本。

参考图4B，在S106之后，终端100可从确定的包括自定义唤醒词并成功唤醒终端100的有效音频数据中提取说话人的韵律特征。然后，终端100可将上述提取的说话人的韵律特征与语音合成器中预设的韵律特征控制参数结合，并使用上述提取的和预设的韵律特征合成新的语音样本。参考图2，这时，图2中的韵律特征既包括预设的韵律特征控制参数，还包括提取的韵律特征。这样，终端100可以得到更多的韵律特征，从而使得合成语音样本覆盖更多的不同情绪、不同停顿的说话方式。

然后，终端100可利用上述新的语音样本训练当前使用的细模型，进而实现进一步的细模型优化。这时，优化后的细模型的准确率更高，识别效果更好。

在一些示例中，终端100在识别唤醒词等语音指令时还会进行声纹识别，即识别说话人是否为机主。当识别到唤醒词且确认该唤醒词是机主说出的时，终端100才会被唤醒。

图5A示例性示出了本申请实施例提供的另一种语音识别方法的流程图。

S201、终端100确定自定义唤醒词，同时进行用户注册，确定机主的声纹信息。

终端100在设定自定义唤醒词时，除了像S101中介绍的确定自定义唤醒词的文本之外，还可以获取机主的声纹信息。声纹信息是指描述说话人身份的音频信息。一个用户的声纹信息的唯一的，用于标记该用户。

示例性的，在接收到上述自定义唤醒词的文本数据之后，终端100可指示当前用户进行用户注册。在进行用户注册的过程中，终端100可确定该用户的声纹信息(机主声纹信息)。例如，终端100可指示用户重复3次自定义唤醒词。在用户重复自定义唤醒词时，终端100的麦克风可采集对应的音频数据，即注册语音数据。上述注册语音数据可用于提取机主的声纹信息。

在一些示例中，终端100还可从以往采集的默认唤醒词的音频数据中提取机主的声纹信息。

S202、终端100根据自定义唤醒词文本和预设的韵律特征控制参数合成语音样本。

S203、终端100基于合成语音样本对粗模型进行优化，生成适用于自定义唤醒词的细模型。

S204、终端100通过麦克风获取环境音频。上述S202～S204可参考图1中S102～S104的介绍，这里不再赘述。

S205、终端100判断是否识别到自定义唤醒词。

在本申请实施例中，在接收到麦克风采集的环境音频后，优化后得到的细模型可识别首先识别上述音频中是否包括自定义唤醒词。当上述音频中不包括自定义唤醒词时，终端100会重新将新采集到的环境音频输入到细模型中，继续识别，直到识别到自定义唤醒词。

S206、终端100判断说话人是否为机主。

在本申请实施例中，在识别到自定义唤醒词后，终端100还会进行声纹验证，确定采集到的环境音频中包括的自定义唤醒词是否是机主说出的，即确定说话人是否为机主。

在确认说话人是机主后，终端100可确认唤醒自身，然后进入语音控制模式。当确认说话人不是机主时，终端100不会唤醒自身。这时，终端100会继续采集到的当前的环境音频，继续识别新采集的音频是否包括自定义唤醒词，是否为机主说出的，直到识别到机主说出自定义唤醒词。

可以理解的，终端100执行S205、S206的顺序还可交换，即先确认说话人是否为机主，再确认语音内容是否包括自定义唤醒词。在一些示例中，终端100识别麦克风输入的环境音频后，同时输出声纹识别结果和自定义唤醒词识别结果。这时，当声纹识别结果和自定义唤醒词识别结果分别满足上述要求时，终端100确认唤醒自身。存在任意一个不满足要求，则终端100不唤醒自身。

S207、终端100将唤醒终端100的有效音频数据加入到细模型中。

这时，在S205、S206中，能够唤醒终端100的环境音频(包括自定义唤醒词且说话人为机主)可称为有效音频数据。在确定有效音频数据之后，终端100可将有效音频数据加入到细模型中，扩充细模型的语音样本，进而提升细模型的识别效果。

S208、终端100确认有效语音样本数量是否足够且是否在更新时间内？

参考S107，在加入有效音频数据之后，终端100可监测新增的有效音频数据的数量以及当前时间。当新增的有效音频数据的数量满足数量阈值的要求，且在更新时间内时，终端100可确定更新当前使用细模型。终端100可使用上述有效音频数据和/或合成语音样本更新当前使用细模型，得到准确率更高，识别效果更好的细模型。

结合图4B所示的方法，在确定有效音频数据之后，终端100也可从上述有效音频数据中提取韵律特征，结合预设的韵律特征控制参数合成新的语音样本，进而进一步更新当前使用的细模型，这里不再赘述。

在一些实施例中，在确定自定义唤醒词后，终端100也可不立即使用合成的语音样本更新粗模型。

参考图5B，在确定自定义唤醒词之后，终端100预置的粗模型可识别音频数据中是否为内容包括上述自定义唤醒词的音频数据。这时，终端100即可识别麦克风采集的环境音频是否为内容包括自定义唤醒词的音频数据，即检测是否有用户说出自定义唤醒词。当识别到自定义唤醒词且确认说话人为机主时，终端100可从确认唤醒自身，并确认上述包含自定义唤醒词且确认说话人为机主的音频为有效音频数据。

然后，终端100可从上述有效音频数据中提取韵律特征。利用上述提取的韵律特征和自定义唤醒词文本、预设的韵律特征控制参数合成语音样本。当合成的语音样本的数量足够，且在更新时间内时，终端100可将原始的粗模型更新为识别准确率更高、鲁棒性更好的细模型。

这样，终端100可以通过更少的计算操作得到一个适用于识别用户自定义唤醒词的识别模型，例如，减少了图1中S102所示的利用自定义唤醒词文本、预设的韵律特征控制参数合成语音样本的计算操作；减少了图1中S103所示的利用上述语音样本训练粗模型的计算操作等等。

在本申请实施例中：

在图1中，终端100接收的用户设定的自定义唤醒词(例如“小花小花”)可称为第一唤醒词。终端100在确定自定义唤醒词之后首先确定的识别自定义唤醒词的粗模型可称为第一语音识别模型，使用合成语音样本训练后得到的适应于识别自定义唤醒词的细模型可称为第二语音识别模型。在图4A中，利用有效音频数据和/或合成语音样本对当前使用的细模型进行训练后得到的细模型，例如细模型2.0可称为第三语音识别模型。在图4B中，利用基于有效音频数据提取到的韵律特征更新合成语音样本，进而更新当前使用的细模型之后，得到的细模型(细模型2.0)也可称为第三语音识别模型。

在图2中，语音合成器中的韵律特征控制参数和噪声可称为控制参数。

对应使用有效音频数据和合成语音样本优化细模型的方法中，设定的有效音频数据数量阈值(例如100)可称为第一数量阈值。对应全部使用有效音频数据优化细模型的方法中，设定的有效音频数据数量阈值(例如1000)可称为第二数量阈值。

图6A-图6I、图7A-图7D示例性示出了终端100实施上述语音识别方法的一组用户界面。

首先，图6A-图6I示出了终端100为用户提供设定自定义唤醒词功接口的一组用户界面。

图6A示例性示出了终端100上的设置自定义唤醒词的用户界面61。

如图6A所示，该界面可包括多个设置选项，例如“应用”、“电池”等选项。在本申请实施例中，用户界面61中还包括“智慧助手”选项。该选项可用于设置语音助手、快捷动作等与快捷控制相关的设置项。

终端100可检测到作用于上述“智慧助手”选项的用户操作，例如点击操作。响应于上述操作，终端100可显示图6B所示的用户界面62。

用户界面62可包括多个用于设置语音助手、快捷动作等与快捷控制相关的设置项，例如“智慧语音”、“辅助视觉”、“智慧识屏”等设置项。其中，“智慧语音”可用于设置唤醒词、命令词等于语音控制相关的设置项。

终端100可检测到作用于上述“智慧语音”选项的用户操作，响应于上述操作，终端100可显示图6C所示的用户界面63。

用户界面63可包括“语音唤醒”和“智能服务”设置项。

“语音唤醒”可用于设置开启或关闭唤醒词识别功能，以及设置默认唤醒词或自定义唤醒词。“智能服务”可用于设置开启或关闭自学习更新功能。上述自学习更新功能是指：终端100根据用户使用唤醒词控制功能的实际情况，调整语音识别模型的结果和/或参数，以提升识别准确率的功能。

如用户界面63所示，此时，终端100的“语音唤醒”功能为关闭的，“智能服务”功能也是关闭的。首先，终端100可检测到作用于上述“语音唤醒”选项的用户操作，响应于上述操作，终端100可显示图6D所示的用户界面64。

用户界面64可包括控件641。

控件641可用于设置开启或关闭唤醒词识别功能。首先，控件641为关闭的(OFF)，参考用户界面63中控件631。控件641关闭对应“语音唤醒”功能关闭。当检测到作用于控件641的用户操作时，控件641可变为开启的(ON)。这时，终端100启用“语音唤醒” 功能，即终端100开始识别用户是否说出唤醒词。

用户界面64还包括控件642，控件643。

控件642可用于设置默认唤醒词。控件643可用于设置自定义唤醒词。在开启“语音唤醒”功能时，终端100可首先选定默认唤醒词。用户可以通过作用于控件643上的操作，将默认唤醒词切换为自定义唤醒词。当检测到作用于控件643上的用户操作时，终端100可显示图6E所示用户界面65。

用户界面65可包括窗口651。窗口651可用于设置自定义唤醒词。

窗口651可包括输入框652。输入框652可用于接收用户输入的自定义唤醒词。窗口651还包括输入框652。当检测到作用于取消控件653上的用户操作时，终端100可取消使用自定义唤醒词并关闭窗口651。当检测到作用于确认控件654上的用户操作时，终端100可确定使用自定义唤醒词并关闭窗口651。

如图6E所示，终端100可接收到用户输入并确定使用自定义唤醒词“小花小花”的操作，响应于上述操作，终端100可显示图6F所示的用户界面66。

如用户界面66所示，此时，终端100可显示已选定自定义唤醒词，并在自定义唤醒词控件643中显示用户设定的自定义唤醒词的具体内容(“小花小花”)。然后，终端100可检测到作用于退出控件644上的用户操作，响应于上述操作，终端100可显示图6G所示的用户界面67。

此时，在用户界面67中，“语音唤醒”选项中可显示“已开启”，以提示用户已开启唤醒词识别功能。

然后，终端100还可检测到作用于用户界面67中“智能服务”选项的用户操作，响应于上述操作，终端100可显示图6H所示的用户界面68。在用户界面68中，控件631由关闭(OFF)状态变更为开启状态(ON)。这时，终端100可在后续识别自定义唤醒词的过程中，记录用户说出的自定义唤醒词，以及用户唤醒终端100之后的操作，进而改进语音识别模型，使得终端100可以更准确识别地自定义唤醒词。

在设定自定义唤醒词之后，终端100可在“智慧助手”设置界面显示用户设定的自定义唤醒词“小花小花”，参考图6I所示的用户界面69。这样，用户在每次打开上述界面时，可以清楚地了解到当前使用的唤醒词。

结合图4A中S106、S107的介绍，在终端100累计的成功唤醒终端100的有效音频数据满足预设数量后，终端100可使用上述有效音频数据更新当前使用的唤醒词识别模型。

在一些示例中，终端100可以自动更新，无需用户确认是否更新。在更新完之后，终端100可显示更新完成的通知，以提示用户享用更好的唤醒词识别服务。图7A示例性示出了终端100显示更新完成的通知的用户界面71。用户界面71中可包括通知711。通知711中可显示“已优化语音识别系统到2.0版本”，以提示用户。

在一些示例中，终端100可以询问用户是否更新。图7B示例性示出了终端100询问用户是否更新的用户界面72。用户界面71中可包括通知721。通知721中可显示“检测到可更新到语音识别系统2.0”，以提示用户可以更新唤醒词识别模型。通知721还可包括取消控件722、更新控件723。当检测到作用于取消控件722的用户操作时，终端100可取消更新唤醒词识别模型。检测到作用于更新控件723的用户操作时，终端100可开始更新唤醒词识别模型。

进一步的，在一些示例中，在确定更新唤醒词识别模型后，终端100可以从用户处获取优选的更新时间。在检测到作用于更新控件723的用户操作后，如图7C所示的用户界面73，终端100可显示窗口731。窗口731可包括选项732和选项733。选项732可为用户提供设置自定义更新时间的功能。例如，终端100可在检测到作用于选项732上的操作之后，接收到用户设定的1小时的更新时间设置。然后，终端100可开始计时1个小时，并在计时1小时结束后开始更新唤醒词识别模型。选项733。可用于设定在空闲时间(夜晚，例如1:00-4:00)更新。

可选的，在更新唤醒词识别模型后，终端100可在“智慧助手”设置界面显示当前使用的自定义唤醒词识别模型的版本，参考图7D所示的用户界面74中示出的“小花小花V2.0最新版本”。这样，当用户打开“智慧助手”设置界面时，用户可以了解当前使用的唤醒词识别模型的版本，以及是否是最新的。当上述版本不是最新的是，用户可指示终端100更新到最新的，以获取更好唤醒词识别服务。

图8为本申请实施例提供的终端100的系统结构示意图。

分层架构将系统分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将系统分为五层，从上至下分别为应用程序层(应用层)，应用程序框架层(框架床)、硬件抽象层、驱动层以及硬件层。

应用层可以包括一系列应用程序包，例如拨号应用、图库应用等等。在本申请实施例中，应用程序包还包括语音识别SDK(software development kit)。终端100的系统和终端100上安装的第三应用程序，可通过语音识别SDK获取唤醒词识别在内的语音识别功能。

框架层为应用层的应用程序提供应用编程接口(application programming interface，API)和编程框架。框架层包括一些预先定义的函数。在本申请实施例中，框架层可以包括麦克风服务接口和唤醒词识别服务接口。其中，唤醒词识别服务接口可为获取唤醒词识别服务的应用提供应用编程接口和编程框架。麦克风服务可用于为调用麦克风的应用提供应用编程接口和编程框架。

硬件抽象层为位于框架层以及驱动层之间的接口层，为操作系统提供虚拟硬件平台。本申请实施例中，硬件抽象层可以包括麦克风硬件抽象层以及唤醒词识别算法库。麦克风硬件抽象层可以提供麦克风1、麦克风2或更多的麦克风设备的虚拟硬件。唤醒词识别算法库可包括实现本申请实施例提供的唤醒词识别方法的运行代码和数据。

驱动层为硬件和软件之间的层。驱动层包括各种硬件的驱动。驱动层可以包括麦克风设备驱动、数字信号处理器驱动等。麦克风设备驱动用于驱动麦克风传感器采集声音信号，以及驱动音频信号处理器对声音信号进行预处理，得到音频数字信号。数字信号处理器驱动用于驱动数字信号处理器处理音频数字信号。

硬件层包括传感器和音频信号处理器。其中，传感器包括麦克风1、麦克风2.传感器中包括的麦克风与麦克风硬件抽象层中包括的虚拟的麦克风一一对应。音频信号处理器可用于将麦克风采集的声音信号转化为音频数字信号。数字信号处理器可用于处理音频数字信号。

下面结合上述硬件结构以及系统结构，对本申请实施例中方法进行具体描述：

一般的，终端100在开机状态下，唤醒词唤醒功能是常开的。因此，在终端100开机时，语音识别SDK就会被启用。响应于启用语音识别SDK，语音识别SDK可调用唤醒词识别服务接口，获取唤醒词识别服务提供应用编程接口和编程框架。

一方面，唤醒词识别服务可调用框架层的麦克风服务，通过麦克风服务采集环境中的声音信号。其中，麦克风服务可通过调用麦克风硬件抽象层中的麦克风1，向硬件层的麦克风1传感器发送采集声音信号的指令。麦克风硬件抽象层将该指令发送到驱动层的麦克风设备驱动。麦克风设备驱动依据上述指令可以启动麦克风1，从而获取到环境中的声音信号，并通过音频信号处理器生成数字音频信号。

另一方面，唤醒词识别服务可初始化唤醒词识别算法。唤醒词识别算法可通过麦克风硬件抽象层获取音频信号处理器生成数字音频信号。然后，根据唤醒词识别算法中存储的数字音频信号处理方法，唤醒词识别算法可利用数字信号处理器对获取到的数字音频信号进行计算，从而确定是否检测到唤醒词(默认唤醒词/自定义唤醒词)。

可以理解的，结合前面图1、图4A、图4B、图5A以及图5B所示方法流程图，当唤醒词为默认唤醒词时，上述唤醒词算法库所使用的唤醒词识别模型为默认唤醒词的识别模型。当唤醒词为自定义唤醒词时，上述唤醒词算法库所使用的唤醒词识别模型为自定义唤醒词识别模型，即前述介绍的适用于识别自定义唤醒词的细模型。

最后，唤醒词识别算法可将识别结果传回唤醒词识别服务，进而传回应用层。当识别到唤醒词时，语音识别SDK可触发唤醒终端100，进入语音控制模式；反之，语音识别SDK不会触发唤醒终端100。

图9示出了终端100的硬件结构示意图。

终端100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对终端100的具体限定。在本申请另一些实施例中，终端100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

在本申请实施例中，处理器110包括应用处理器、音频信号处理器、数字信号处理器。其中，应用处理器可用于维持终端100上操作系统以及各类应用程序正常运行。音频信号处理器可用于将麦克风采集的声音信号转化为音频数字信号。数字信号处理器可用于处理音频数字信号，以实现本申请实施例提供的语音识别功能。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuit sound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purpose input/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对终端100的结构限定。在本申请另一些实施例中，终端100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，显示屏194，摄像头193，和无线通信模块160等供电。

终端100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。天线1和天线2用于发射和接收电磁波信号。移动通信模块150可以提供应用在终端100上的包括2G/3G/4G/5G等无线通信的解决方案。调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。无线通信模块160可以提供应用在终端100上的包括无线局域网(wireless local area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。

终端100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)。显示面板还可以采用有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，miniled，microled，micro-oled，量子点发光二极管(quantum dot light emitting diodes，QLED)等制造。在一些实施例中，电子设备可以包括1个或N个显示屏194，N为大于1的正整数。

在本申请实施例中，响应于识别到唤醒词终端100点亮屏幕，以及终端100显示图6A-图6I、图7A-图7D所示的用户界面，依赖于GPU，显示屏194，以及应用处理器等提供的显示功能。

终端100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。摄像头193用于捕获静态图像或视频。ISP用于处理摄像头193反馈的数据。视频编解码器用于对数字视频压缩或解压缩。终端100可以支持一种或多种视频编解码器。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现终端100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

在本申请实施例中，终端100利用使用过程中积累的唤醒词音频数据更新唤醒词识别模型，可通过NPU为神经网络计算处理器完成。

内部存储器121可以包括一个或多个随机存取存储器(random access memory，RAM)和一个或多个非易失性存储器(non-volatile memory，NVM)。

随机存取存储器可以包括静态随机存储器(static random-access memory，SRAM)、动态随机存储器(dynamic random access memory，DRAM)、同步动态随机存储器(synchronous dynamic random access memory,SDRAM)、双倍资料率同步动态随机存取存储器(double data rate synchronous dynamic random access memory,DDR SDRAM，例如第五代DDR SDRAM一般称为DDR5SDRAM)等。非易失性存储器可以包括磁盘存储器件、快闪存储器(flash memory)。

在本申请实施例中，实现本申请实施例所提供的语音识别方法的可执行代码可存放在终端100的NVM中，例如SD卡等。在终端100运行上述代码以提供唤醒词识别功能时，终端100可将上述代码加载到RAM中。

终端100在运行上述代码的过程中，可将麦克风采集并生成的音频信号数据存储在RAM或NVM的缓存中，其中，终端100确定为有效音频数据的音频可被终端100进一步存储在NVM中，以供后续优化唤醒词识别模型使用。

随机存取存储器可以由处理器110直接进行读写，可以用于存储操作系统或其他正在运行中的程序的可执行程序(例如机器指令)，还可以用于存储用户及应用程序的数据等。

非易失性存储器也可以存储可执行程序和存储用户及应用程序的数据等，可以提前加载到随机存取存储器中，用于处理器110直接进行读写。

外部存储器接口120可以用于连接外部的非易失性存储器，实现扩展终端100的存储能力。外部的非易失性存储器通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部的非易失性存储器中。

终端100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。终端100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当终端100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。终端100可以设置至少一个麦克风170C。在另一些实施例中，终端100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，终端100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

在本申请实施例中，终端100可通过麦克风170C采集环境音频。基于麦克风170C采集并生成的音频信号，终端100可检测是否包含唤醒词，进而确定是否唤醒自身、进入语音控制模式。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。陀螺仪传感器180B可以用于确定终端100的运动姿态。气压传感器180C用于测量气压。磁传感器180D包括霍尔传感器。终端100可以利用磁传感器180D检测翻盖皮套的开合。加速度传感器180E可检测终端100在各个方向上(一般为三轴)加速度的大小。距离传感器180F用于测量距离。终端100可以通过红外或激光测量距离。接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。终端100使用光电二极管检测来自附近物体的红外反射光，以确定终端100附近没有物体。环境光传感器180L用于感知环境光亮度。指纹传感器180H用于采集指纹。温度传感器180J用于检测温度。

触摸传感器180K，也称“触控器件”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于终端100的表面，与显示屏194所处的位置不同。

在本申请实施例中，终端100检测用户作用于终端100屏幕上的点击、滑动等操作，依赖于触摸传感器180K。

骨传导传感器180M可以获取振动信号。按键190包括开机键，音量键等。终端100可以接收按键输入，产生与终端100的用户设置以及功能控制有关的键信号输入。马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。SIM卡接口195用于连接SIM卡。

本申请的说明书和权利要求书及附图中的术语“用户界面(user interface，UI)”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。应用程序的用户界面是通过java、可扩展标记语言(extensible markup language，XML)等特定计算机语言编写的源代码，界面源代码在终端设备上经过解析，渲染，最终呈现为用户可以识别的内容，比如图片、文字、按钮等控件。控件(control)也称为部件(widget)，是用户界面的基本元素，典型的控件有工具栏(toolbar)、菜单栏(menu bar)、文本框(text box)、按钮(button)、滚动条(scrollbar)、图片和文本。界面中的控件的属性和内容是通过标签或者节点来定义的，比如XML通过<Textview>、<ImgView>、<VideoView>等节点来规定界面所包含的控件。一个节点对应界面中一个控件或属性，节点经过解析和渲染之后呈现为用户可视的内容。此外，很多应用程序，比如混合应用(hybrid application)的界面中通常还包含有网页。网页，也称为页面，可以理解为内嵌在应用程序界面中的一个特殊的控件，网页是通过特定计算机语言编写的源代码，例如超文本标记语言(hyper text markup language，GTML)，层叠样式表(cascading style sheets，CSS)，java脚本(JavaScript，JS)等，网页源代码可以由浏览器或与浏览器功能类似的网页显示组件加载和显示为用户可识别的内容。网页所包含的具体内容也是通过网页源代码中的标签或者节点来定义的，比如GTML通过<p>、<img>、<video>、<canvas>来定义网页的元素和属性。

用户界面常用的表现形式是图形用户界面(graphic user interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在终端设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、 “所述”、“上述”、“该”和“这一”旨在也包括复数表达形式，除非其上下文中明确地有相反指示。还应当理解，本申请中使用的术语“和/或”是指并包含一个或多个所列出项目的任何或所有可能组合。上述实施例中所用，根据上下文，术语“当…时”可以被解释为意思是“如果…”或“在…后”或“响应于确定…”或“响应于检测到…”。类似地，根据上下文，短语“在确定…时”或“如果检测到(所陈述的条件或事件)”可以被解释为意思是“如果确定…”或“响应于确定…”或“在检测到(所陈述的条件或事件)时”或“响应于检测到(所陈述的条件或事件)”。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

一种语音识别方法，应用于终端设备，其特征在于，所述方法包括：

确定第一唤醒词，所述第一唤醒词是用户设定的；

根据所述第一唤醒词和预设的控制参数合成语音样本，所述语音样本是语音内容包括第一唤醒词的音频数据，所述控制参数用于控制合成的语音样本中所表现出的说话方式和/或说话场景；

利用所述合成的语音样本对第一语音识别模型进行训练得到第二语音识别模型；所述第一语音识别模型为训练前用于识别所述第一唤醒词的语音识别模型，所述第二语音识别模型为训练后用于识别所述第一唤醒词的语音识别模型；

使用所述第二语音识别模型识别麦克风采集的音频数据；

当从所述麦克风采集的音频数据中识别到所述第一唤醒词时，唤醒所述终端设备。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述麦克风采集的音频数据中成功唤醒所述终端设备的音频数据为有效音频数据；

利用所述有效音频数据和合成的语音样本对所述第二语音识别模型进行优化，得到第三语音识别模型；

使用所述第三语音识别模型处理麦克风采集的音频数据。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述麦克风采集的音频数据中成功唤醒所述终端设备的音频数据为有效音频数据；

利用所述有效音频数据对所述第二语音识别模型进行优化，得到第三语音识别模型；

使用所述第三语音识别模型处理麦克风采集的音频数据。
根据权利要求3所述的方法，其特征在于，在利用所述有效音频数据和合成的语音样本对所述第二语音识别模型进行优化之前，所述方法还包括：

确认所述有效音频数据的数量大于等于第一数量阈值，所述第一数量阈值为预设的。
根据权利要求4所述的方法，其特征在于，在利用所述有效音频数据对所述第二语音识别模型进行优化之前，所述方法还包括：

确认所述有效音频数据的数量大于等于第二数量阈值，所述第二数量阈值为预设的。
根据权利要求4或5所述的方法，其特征在于，在对所述第二语音识别模型进行优化之前，所述方法还包括：

确认当前时刻在预设的更新时间范围内。
根据权利要求2-6中任一项所述的方法，其特征在于，所述控制参数包括韵律特征；所述韵律特征用于控制合成的语音样本中说话人的说话方式，所述说话人的说话方式包括下一项或多项：说话人的说话时的情绪、停顿。
根据权利要求7所述的方法，其特征在于，所述根据所述第一唤醒词和预设的控制参数合成语音样本，具体包括：

将所述第一唤醒词和预设的韵律特征输入语音合成器；

利用所述语音合成器合成N条语音样本，所述N≥1。
根据权利要求8所述的方法，其特征在于，所述方法还包括：依次对所述N条语音样本进行数据增强处理，得到M条语音样本，述M≥N。
根据权利要求9所述的方法，其特征在于，所述控制参数还包括噪声参数，所述噪声参数用于控制合成的语音样本中说话人的说话场景，所述依次对所述N条语音样本进行数据增强处理，具体包括：通过所述噪声参数对所述N条语音样本进行数据加噪。
根据权利要求7-10中任一项所述的方法，其特征在于，所述方法还包括：

从所述有效音频数据中提取韵律特征；

利用所述第一唤醒词、所述控制参数中的韵律特征和提取的韵律特征更新合成的语音样本。
根据权利要求1-11中任一项所述的方法，其特征在于，

所述第一语音识别模型的输入层与所述第二语音识别模型的输入层中包括的数据处理层的数量相同；所述第一语音识别模型的输入层与所述第二语音识别模型的输入层中对应的数据处理层的参数相同。
一种电子设备，其特征在于，包括一个或多个处理器和一个或多个存储器；其中，所述一个或多个存储器与所述一个或多个处理器耦合，所述一个或多个存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，使得执行如权利要求1-12任一项所述的方法。
一种计算机可读存储介质，包括指令，其特征在于，当所述指令在电子设备上运行时，使得执行如权利要求1-12任一项所述的方法。