WO2021169711A1

WO2021169711A1 - 指令执行方法、装置、存储介质及电子设备

Info

Publication number: WO2021169711A1
Application number: PCT/CN2021/073831
Authority: WO
Inventors: 陈喆
Original assignee: Oppo广东移动通信有限公司
Priority date: 2020-02-27
Filing date: 2021-01-26
Publication date: 2021-09-02
Also published as: EP4095850A1; CN111369992A

Abstract

一种指令执行方法、装置、存储介质及电子设备。该方法包括：在处理器处于休眠状态时，由专用语音识别芯片控制麦克风采集得到第一音频数据（101）；基于专用语音识别芯片校验第一音频数据，若校验通过，则唤醒处理器（102）；基于处理器校验第一音频数据，若校验通过，则控制麦克风采集得到第二音频数据（103）；基于处理器调用预训练的指令识别模型识别第二音频数据携带的语音指令，并执行该语音指令（104）。

Description

指令执行方法、装置、存储介质及电子设备

本申请要求于2020年02月27日提交中国专利局、申请号为202010125950.2、发明名称为“指令执行方法、装置、存储介质及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及语音处理技术领域，具体涉及一种指令执行方法、装置、存储介质及电子设备。

背景技术

目前，用户可以在不方便直接操控电子设备的情况下说出唤醒词来唤醒电子设备，以及说出语音指令来控制电子设备执行特定操作等。

发明内容

本申请实施例提供了一种指令执行方法、装置、存储介质及电子设备，能够提高语音控制的易用性，同时降低电子设备实现语音唤醒的功耗。

第一方面，本申请实施例提供了一种指令执行方法，应用于电子设备，所述电子设备包括处理器、专用语音识别芯片和麦克风，且所述专用语音识别芯片的功耗小于所述处理器的功耗，所述指令执行方法包括：

在所述处理器处于休眠状态时，通过所述专用语音识别芯片控制所述麦克风进行音频采集，得到第一音频数据；

通过所述专用语音识别芯片校验所述第一音频数据，若校验通过，则唤醒所述处理器；

通过所述处理器校验所述第一音频数据，若校验通过，则通过所述处理器控制所述麦克风进行音频采集，得到第二音频数据；

通过所述处理器调用预训练的指令识别模型识别所述第二音频数据携带的语音指令，并执行所述语音指令。

第二方面，本申请实施例提供了一种指令执行装置，应用于电子设备，所述电子设备包括处理器、专用语音识别芯片和麦克风，且所述专用语音识别芯片的功耗小于所述处理器的功耗，所述指令执行装置包括：

音频采集模块，用于在所述处理器处于休眠状态时，通过所述专用语音识别芯片控制所述麦克风进行音频采集，得到第一音频数据；

第一校验模块，用于通过所述专用语音识别芯片校验所述第一音频数据，若校验通过，则唤醒所述处理器；

第二校验模块，用于通过所述处理器校验所述第一音频数据，若校验通过，则通过所述处理器控制所述麦克风进行音频采集，得到第二音频数据；

指令执行模块，用于通过所述处理器调用预训练的指令识别模型识别所述第二音频数据携带的语音指令，并执行所述语音指令。

第三方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，当所述计算机程序在包括处理器、专用语音识别芯片和麦克风的电子设备运行时，使得所述电子设备执行本申请实施例提供的指令执行方法中的步骤，其中，所述专用语音识别芯片的功耗小于所述处理器的功耗。

第四方面，本申请实施例还提供了一种电子设备，所述电子设备包括音频采集单元、处理器、专用语音识别芯片和麦克风，且所述专用语音识别芯片的功耗小于所述处理器的功耗，其中，

所述专用语音识别芯片用于在所述处理器处于休眠状态时，控制所述麦克风采集的外部的第一音频数据；以及

校验所述第一音频数据，若校验通过，则唤醒所述处理器；

所述处理器用于校验所述第一音频数据，若校验通过，则控制所述麦克风采集的外部的第二音频数据；以及

调用预训练的指令识别模型识别所述第二音频数据携带的语音指令，并执行所述语音指令。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的指令执行方法的一流程示意图。

图2是本申请实施例中调用一级文本校验模型的示意图。

图3是本申请实施例提供的指令执行方法的另一流程示意图。

图4是本申请实施例提供的指令执行装置的结构示意图。

图5是本申请实施例提供的电子设备的结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

本申请实施例首先提供一种指令执行方法，该指令执行方法的执行主体可以是本申请实施例提供的电子设备，该电子设备包括处理器、专用语音识别芯片和麦克风，且专用语音识别芯片的功耗小于处理器的功耗，该电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等配置有处理器而具有处理能力的设备。

本申请提供一种指令执行方法，应用于电子设备，所述电子设备包括处理器、专用语音识别芯片和麦克风，且所述专用语音识别芯片的功耗小于所述处理器的功耗，所述指令执行方法包括：

可选地，在一实施例中，所述指令识别模型包括多个对应不同语音指令的指令识别模型，所述通过所述处理器调用预训练的指令识别模型识别所述第二音频数据携带的语音指令，包括：

通过所述处理器调用每一指令识别模型对所述第二音频数据进行评分；

将评分最高的指令识别模型所对应的语音指令作为所述第二音频数据携带的语音指令。

可选地，在一实施例中，所述将评分最高的指令识别模型所对应的语音指令作为所述第二音频数据携带的语音指令，包括：

将评分最高且达到预设评分的指令识别模型所对应的语音指令作为所述第二音频数据携带的语音指令。

可选地，在一实施例中，所述通过所述专用语音识别芯片校验所述第一音频数据，包括：

通过所述专用语音识别芯片调用预训练的场景分类模型对所述第一音频数据进行场景分类，得到场景分类结果；

通过所述专用语音识别芯片调用预训练的对应所述场景分类结果的一级文本校验模型校验所述第一音频数据中是否包括预设唤醒词。

可选地，在一实施例中，所述通过所述处理器校验所述第一音频数据，包括：

通过所述处理器调用预训练的对应所述预设唤醒词的二级文本校验模型，校验所述第一音频数据中是否包括所述预设唤醒词；

当所述第一音频数据中包括所述预设唤醒词时，通过所述处理器调用预训练的二级声纹校验模型，其中，所述二级声纹校验模型通过预设用户说出所述预设唤醒词的样本语音训练得到；

通过所述二级声纹校验模型校验所述第一音频数据的声纹特征是否与所述样本语音的声纹特征匹配。

可选地，在一实施例中，还包括：

通过所述处理器获取预训练的对应所述预设唤醒词的通用校验模型，将所述通用校验模型设为所述二级文本校验模型；

通过所述处理器控制所述麦克风采集预设用户说出所述预设唤醒词的样本语音；

通过所述处理器利用所述样本语音对所述通用校验模型进行自适应训练，得到所述二级声纹校验模型。

可选地，在一实施例中，所述唤醒所述处理器之后，还包括：

控制所述专用语音识别芯片休眠。

可选地，在一实施例中，所述通过所述处理器调用预训练的指令识别模型识别所述第二音频数据携带的语音指令之后，还包括：

当未识别到所述第二音频数据携带的语音指令时，通过所述处理器后台启动语音交互应用；

通过所述语音交互应用识别所述第二音频数据携带的语音指令，所述语音交互应用的识别能力大于所述指令识别模型的识别能力。

可选地，在一实施例中，还包括：

通过所述处理器切换所述电子设备的屏幕至亮屏状态。

请参照图1，图1为本申请实施例提供的指令执行方法的流程示意图。该指令执行方法应用于本申请提供的电子设备，该电子设备包括处理器、专用语音识别芯片和麦克风，如图1所示，本申请实施例提供的指令执行方法的流程可以如下：

在101中，在处理器处于休眠状态时，通过专用语音识别芯片控制麦克风进行音频采集，得到第一音频数据。

应当说明的是，本申请实施例中的专用语音识别芯片是以语音识别为目的而设计的专用芯片，比如以语音为目的而设计的数字信号处理芯片，以语音为目的而设计的专用集成电路芯片等，其相较于通用的处理器，具有更低的功耗。其中，专用语音识别芯片、处理器之间通过通信总线(比如I2C总线)建立通信连接，实现数据的交互。其中，处理器在电子设备的屏幕处于熄屏状态时休眠，而专用语音识别芯片在屏幕处于亮屏状态时休眠。此外，电子设备所包括的麦克风可以是内置的麦克风，也可以是外置的麦克风(可以是有线的麦克风，也可以是无线的麦克风)。

本申请实施例中，在处理器处于休眠状态时(专用语音识别芯片处于唤醒状态)，专用语音识别芯片控制麦克风对外部的声音进行采集，将采集得到的音频数据记为第一音频数据。

在102中，通过专用语音识别芯片校验第一音频数据，若校验通过，则唤醒处理器。

其中，专用语音识别芯片对第一音频数据的校验包括但不限于校验第一音频数据的文本特征和/或声纹特征。

通俗的说，校验第一音频数据的文本特征也即是校验第一音频数据中是否包括预设唤醒词，只要第一音频数据包括预设唤醒词，即校验第一音频数据的文本特征通过，而不论该预设唤醒词由谁说出。比如，第一音频数据包括了预设用户(比如，电子设备的机主，或者机主授权使用电子设备的其他用户)设置的预设唤醒词，但是该预设唤醒词由用户A说出，而不是预设用户，专用语音识别芯片在通过第一校验算法校验第一音频数据的文本特征时，将校验通过。

而校验第一音频数据的文本特征以及声纹特征也即是校验第一音频数据中是否包括预设用户说出的预设唤醒词，若第一音频数据中包括预设用户说出的预设唤醒词，则第一音频数据的文本特征以及声纹特征校验通过，否则校验不通过。比如，第一音频数据包括了预设用户设置的预设唤醒词，且该预设唤醒词由预设用户说出，则该第一音频数据的文本特征以及声纹特征校验通过；又比如，第一音频数据包括了预设用户之外的其他用户说出的预设唤醒词，或者第一音频数据不包括任何用户说出的预设唤醒词时，则该第一音频数据的文本特征以及声纹特征将校验失败(或者说未校验通过)。

本申请实施例中，专用语音识别芯片在校验第一音频数据通过时，通过其与处理器之间的通信连接发送预设的中断信号至处理器，以唤醒处理器。

应当说明的是，若第一音频数据未校验通过，则专用语音识别芯片继续控制麦克风进行音频采集，直至第一音频数据通过校验。

在103中，通过处理器校验第一音频数据，若校验通过，则通过处理器控制麦克风进行音频采集，得到第二音频数据。

其中，专用语音识别芯片在唤醒处理器之后，还将第一音频数据提供给处理器，由处理器再次对第一音频数据进行校验。以安卓系统为例，专用语音识别芯片可以通过SoundTrigger框架将第一音频数据提供给处理器。

应当说明的是，处理器对第一音频数据的校验包括但不限于校验前述第一音频数据的文本特征和/或声纹特征。

处理器在对第一音频数据的校验通过时，控制麦克风进行音频采集，并将采集得到的音频数据记为第二音频数据。

此外，若处理器校验第一音频数据通过，处理器还切换屏幕至亮屏状态。

在104中，通过处理器调用预训练的指令识别模型识别第二音频数据携带的语音指令，并执行前述语音指令。

应当说明的是，本申请实施例中还预先采用机器学习算法训练有指令识别模型，该指令识别模型被配置为识别输入的音频数据所携带的语音指令。

相应的，处理器在采集得到第二音频数据之后即调用预训练的指令识别模型，将第二音频数据输入指令识别模型进行识别，得到第二音频数据所携带的语音指令，并执行该语音指令。

比如，当识别到第二音频数据所携带的语音指令为“启动语音交互应用”时，则处理器启动语音交互应用，以通过语音交互应用与用户进行更为复杂的语音交互。

又比如，识别到第二音频数据所携带的语音指令为“播放音乐”时，则处理器启动默认的音乐播放器，以供用户播放期望的音乐。

由上可知，通过在处理器处于休眠状态时，由功耗低于处理器的专用语音识别芯片控制麦克风进行音频采集，得到第一音频数据；然后通过专用语音识别芯片校验第一音频数据，若校验通过，则唤醒处理器；再通过处理器校验第一音频数据，若校验通过，则通过处理器控制麦克风进行音频采集，得到第二音频数据；最后通过处理器调用预训练的指令识别模型识别第二音频数据携带的语音指令，并执行语音指令。由此，能够降低电子设备实现语音唤醒的功耗，同时，由于无需启动语音交互应用来实现语音指令的识别，还提高了语音控制的易用性。

在一实施例中，指令识别模型包括多个对应不同语音指令的指令识别模型，通过处理器调用预训练的指令识别模型识别第二音频数据携带的语音指令，包括：

(1)通过处理器调用每一指令识别模型对第二音频数据进行评分；

(2)将评分最高的指令识别模型所对应的语音指令作为第二音频数据携带的语音指令。

应当说明的是，本申请实施例中预先训练有多个对应不同语音指令的指令识别模型。

示例性的，语音指令比如“播放音乐”、“打开微信”、“启动语音交互应用”等。对于每一语音指令，采集包括该语音指令的样本语音，并提取其语谱图。然后，利用卷积神经网络对提取的语谱图进行训练，得到对应该语音之类的指令识别模型。由此，可以训练得到多个对应不同语音指令的指令识别模型，比如对应“播放音乐”的指令识别模型、对应“打开微信”的指令识别模型、对应“启动语音交互应用”的指令识别模型等。

相应的，在识别第二音频数据携带的语音指令时，处理器调用每一指令识别模型对第二音频数据进行评分，评分高低即反映了第二音频数据携带某一语音指令的概率，一指令识别模型的评分越高，第二音频数据携带该指令识别模型所对应的语音指令的概率越高。

相应的，处理器可以将评分最高的指令识别模型所对应的语音指令作为第二音频数据携带的语音指令。

可选地，为确保识别的准确性，处理器还可以将评分最高且达到预设评分的指令识别模型所对应的语音指令作为第二音频数据携带的语音指令。

在一实施例中，通过专用语音识别芯片校验第一音频数据，包括：

(1)通过专用语音识别芯片调用预训练的场景分类模型对第一音频数据进行场景分类，得到场景分类结果；

(2)通过专用语音识别芯片调用预训练的对应场景分类结果的一级文本校验模型校验第一音频数据中是否包括预设唤醒词。

本申请实施例中，以专用语音识别芯片进行的一级校验包括文本特征的校验为例进行说明。

应当说明的是，本申请实施例中还根据不同已知场景的样本语音，采用机器学习算法预训练有场景分类模型，利用该场景分类模型可以实现对电子设备所处场景的分类。

此外，本申请实施例在电子设备中预先设置有一级文本校验模型集合，一级文本校验模型集合中包括多个预先在不同场景下训练得到的对应预设唤醒词的一级文本校验模型，以适于专用语音识别芯片在不同的场景下加载，从而更灵活准确的对第一音频数据中是否包括预设唤醒词进行校验。

相应的，在得到对应第一音频数据的场景分类结果之后，电子设备即通过专用语音识别芯片从一级文本校验模型集合中调用对应该场景分类结果的一级文本校验模型，并通过该一级文本校验模型校验第一音频数据中是否包括预设唤醒词，是则校验通过，否则校验失败。

比如，请参照图2，一级文本校验模型集合中包括四个一级文本校验模型，分别为适于在A场景进行音频校验的一级文本校验模型A、适于在B场景进行音频校验的一级文本校验模型B、适于在C场景进行音频校验的一级文本校验模型C以及适于在D场景进行音频校验的一级文本校验模型D。假设场景分类结果指示第一音频数据对应的场景为B场景，则电子设备通过专用语音识别芯片从一级文本校验模型集合中加载一级文本校验模型B；假设场景分类结果指示第一音频数据对应的场景为B场景，则电子设备通过专用语音识别芯片从一级文本校验模型集合中加载一级文本校验模型B，以此类推。

在一实施例中，通过处理器校验第一音频数据，包括：

(1)通过处理器调用预训练的对应预设唤醒词的二级文本校验模型，校验第一音频数据中是否包括预设唤醒词；

(2)当第一音频数据中包括预设唤醒词时，通过处理器调用预训练的二级声纹校验模型，其中，二级声纹校验模型通过预设用户说出预设唤醒词的样本语音训练得到；

(3)通过二级声纹校验模型校验第一音频数据的声纹特征是否与样本语音的声纹特征匹配。

本申请实施例中，以处理器进行文本特征和声纹特征的校验为例进行说明。

其中，首先通过处理器调用预训练的对应预设唤醒词的二级文本校验模型，利用该二级文本校验模型校验第一音频数据中是否包括预设唤醒词。

示例性的，二级文本校验模型可由评分函数训练得到，其中，评分函数用于将向量映射到数值，以此为约束，可由本领域普通技术人员根据实际需要选取合适的函数作为评分函数，本发明实施例对此不做具体限制。

在利用二级文本校验模型校验第一音频数据中是否包括预设唤醒词时，首先提取能够表征第一音频数据的特征向量，将该特征向量输入到二级文本校验模型中进行评分，得到对应的评分分值。然后，比较该评分分值以及二级文本校验模型对应的判别分值，若评分分值达到二级文本校验模型对应的判别分值，则判定第一音频数据中包括预设唤醒词。

其中，在校验出第一音频数据中包括预设唤醒词时，进一步通过处理器调用预训练的二级声纹校验模型，该二级声纹校验模型通过预设用户说出预设唤醒词的样本语音训练得到。然后，利用该二级声纹校验模型校验第一音频数据的声纹特征是否与样本语音的声纹特征匹配。

示例性的，二级声纹校验模型可由二级文本校验模型通过样本语音进一步训练得到。在利用二级声纹校验模型校验第一音频数据的声纹特征是否与样本语音的声纹特征匹配时，首先提取能够表征第一音频数据的特征向量，将该特征向量输入到二级声纹校验模型中进行评分，得到对应的评分分值。然后，比较该评分分值以及二级声纹校验模型对应的判别分值，若评分分值达到二级声纹校验模型对应的判别分值，则判定第一音频数据的声纹特征与样本语音的声纹特征匹配，此时判定校验通过，否则判定校验失败。

在一实施例中，本申请提供的指令执行方法还包括：

(1)通过处理器获取预训练的对应预设唤醒词的通用校验模型，将通用校验模型设为二级文本校验模型；

(2)通过处理器控制麦克风采集预设用户说出预设唤醒词的样本语音；

(3)通过处理器利用样本语音对通用校验模型进行自适应训练，得到二级声纹校验模型。

比如，可以预先采集多人(比如200人)说出预设唤醒词的样本信号，然后分别提取这些样本信号的声学特征(比如梅尔频率倒谱系数)，再根据这些样本信号的声学特征训练得到一个与预设唤醒词对应的通用校验模型。由于通用校验模型采用大量与特定人(即用户)无关的音频信号训练得到，其仅拟合人的声学特征分布，并不代表某个具体的人。

本申请实施例中，可以通过处理器获取预训练的对应预设唤醒词的通用校验模型，将该通用校验模型设为二级文本校验模型。

此外，还通过处理器控制麦克风采集预设用户说出预设唤醒词的样本语音。然后，通过处理器提取样本语音的声学特征，并通过通用校验模型对声学特征进行自适应训练，将自适应训练后的通用校验模型设为二级声纹校验模型。其中，该自适应训练可以采用最大后验估计算法实现。

在一实施例中，唤醒处理器之后，还包括：

控制专用语音识别芯片休眠。

本申请实施例中，在唤醒处理器之后，可以控制专用语音识别芯片休眠，以节省电量。

在一实施例中，通过处理器调用预训练的指令识别模型识别第二音频数据携带的语音指令之后，还包括：

(1)当未识别到第二音频数据携带的语音指令时，通过处理器后台启动语音交互应用；

(2)通过语音交互应用识别第二音频数据携带的语音指令，语音交互应用的识别能力大于指令识别模型的识别能力。

应当说明的是，本申请中的指令识别模型相较于语音交互应用的识别能力较弱，其适用于快捷操作的执行。因此，可能存在指令识别模型识别失败的情况(可能是指令识别模型未识别到，也可能是第二音频数据中不存在语音指令)，此时，由处理器在后台启动识别能力更强的语音交互应用，并通过该语音交互应用识别第二音频数据携带的语音指令，若识别到，则执行识别到的语音指令。

图3为本申请实施例提供的指令执行方法的另一流程示意图。该指令执行方法应用于本申请提供的电子设备，该电子设备包括处理器、专用语音识别芯片和麦克风，如图3所示，本申请实施例提供的指令执行方法的流程可以如下：

在201中，在处理器处于休眠状态时，通过专用语音识别芯片控制麦克风进行音频采集，得到第一音频数据。

在202中，通过专用语音识别芯片调用预训练的场景分类模型对第一音频数据进行场景分类，得到场景分类结果。

在203中，通过专用语音识别芯片调用预训练的对应场景分类结果的一级文本校验模型校验第一音频数据中是否包括预设唤醒词，若校验通过，则唤醒处理器。

在204中，通过处理器调用预训练的对应预设唤醒词的二级文本校验模型，校验第一音频数据中是否包括预设唤醒词。

在205中，当第一音频数据中包括预设唤醒词时，通过处理器调用预训练的二级声纹校验模型，其中，二级声纹校验模型通过预设用户说出预设唤醒词的样本语音训练得到。

在206中，通过二级声纹校验模型校验第一音频数据的声纹特征是否与样本语音的声纹特征匹配，若校验通过，则通过处理器控制麦克风进行音频采集，得到第二音频数据。

在207中，通过处理器调用预训练的指令识别模型识别第二音频数据携带的语音指令，并执行语音指令。

请参照图4，图4为本申请实施例提供的指令执行装置的结构示意图。该指令执行装置可以应用于电子设备，该电子设备包括处理器、专用语音识别芯片和麦克风，且专用语音识别芯片的功耗小于处理器的功耗。指令执行装置可以包括音频采集模块401、第一校验模块402、第二校验模块403以及指令执行模块404，其中，

音频采集模块401，用于在处理器处于休眠状态时，通过专用语音识别芯片控制麦克风进行音频采集，得到第一音频数据；

第一校验模块402，用于通过专用语音识别芯片校验第一音频数据，若校验通过，则唤醒处理器；

第二校验模块403，用于通过处理器校验第一音频数据，若校验通过，则通过处理器控制麦克风进行音频采集，得到第二音频数据；

指令执行模块404，用于通过处理器调用预训练的指令识别模型识别第二音频数据携带的语音指令，并执行前述语音指令。

在一实施例中，指令识别模型包括多个对应不同语音指令的指令识别模型，在通过处理器调用预训练的指令识别模型识别第二音频数据携带的语音指令时，指令执行模块404用于：

通过处理器调用每一指令识别模型对第二音频数据进行评分；

将评分最高的指令识别模型所对应的语音指令作为第二音频数据携带的语音指令。

在一实施例中，在将评分最高的指令识别模型所对应的语音指令作为第二音频数据携带的语音指令时，指令执行模块404用于：

将评分最高且达到预设评分的指令识别模型所对应的语音指令作为第二音频数据携带的语音指令。

在一实施例中，在通过专用语音识别芯片校验第一音频数据，第一校验模块402用于：

通过专用语音识别芯片调用预训练的场景分类模型对第一音频数据进行场景分类，得到场景分类结果；

通过专用语音识别芯片调用预训练的对应场景分类结果的一级文本校验模型校验第一音频数据中是否包括预设唤醒词。

在一实施例中，在通过处理器校验第一音频数据时，第二校验模块403还用于：

通过处理器调用预训练的对应预设唤醒词的二级文本校验模型，校验第一音频数据中是否包括预设唤醒词；

当第一音频数据中包括预设唤醒词时，通过处理器调用预训练的二级声纹校验模型，其中，二级声纹校验模型通过预设用户说出预设唤醒词的样本语音训练得到；

通过二级声纹校验模型校验第一音频数据的声纹特征是否与样本语音的声纹特征匹配。

在一实施例中，本申请实施例提供的指令执行装置还包括模型获取模块，用于：

通过处理器获取预训练的对应预设唤醒词的通用校验模型，将通用校验模型设为二级文本校验模型；

通过处理器控制麦克风采集预设用户说出预设唤醒词的样本语音；

通过处理器利用样本语音对通用校验模型进行自适应训练，得到二级声纹校验模型。

在一实施例中，在唤醒处理器之后，第一校验模块402还用于：

控制专用语音识别芯片休眠。

在一实施例中，在通过处理器调用预训练的指令识别模型识别第二音频数据携带的语音指令之后，指令执行模块404还用于：

当未识别到第二音频数据携带的语音指令时，通过处理器后台启动语音交互应用；

通过语音交互应用识别第二音频数据携带的语音指令，语音交互应用的识别能力大于指令识别模型的识别能力。

在一实施例中，本申请实施例提供的指令执行装置还包括状态切换模块，用于切换电子设备的屏幕至亮屏状态。

本申请实施例提供一种存储介质，其上存储有指令执行程序，当其存储的指令执行程序在本申请实施例提供的电子设备上执行时，使得电子设备执行如本申请实施例提供的指令执行方法中的步骤。其中，存储介质可以是磁碟、光盘、只读存储器(Read Only Memory，ROM)或者随机存取器(Random Access Memory，RAM)等。

本申请实施例还提供一种电子设备，请参照图5，电子设备包括处理器501、专用语音识别芯片502、麦克风503和存储器504，且专用语音识别芯片502的功耗小于处理器501的功耗，其中，专用语音识别芯片502、处理器501以及音频采集单元501任意二者之间通过通信总线(比如I2C总线)建立通信连接，实现数据的交互。

应当说明的是，本申请实施例中的专用语音识别芯片502是以语音识别为目的而设计的专用芯片，比如以语音为目的而设计的数字信号处理芯片，以语音为目的而设计的专用集成电路芯片等，其相较于通用处理器，具有更低的功耗。

本申请实施例中的处理器是通用处理器，比如ARM架构的处理器。

存储器504中存储有指令执行程序，其可以为高速随机存取存储器，还可以为非易失性存储器，比如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。相应地，存储器504还可以包括存储器控制器，以提供处理器501、专用语音识别芯片501对存储器504的访问，实现如下功能：

专用语音识别芯片502用于在处理器501处于休眠状态时，控制麦克风进行音频采集，得到第一音频数据；以及

校验第一音频数据，并在校验通过时唤醒处理器501；

处理器501用于校验第一音频数据，并在校验通过时控制麦克风进行音频采集，得到第二音频数据；以及

调用预训练的指令识别模型识别第二音频数据携带的语音指令，并执行前述语音指令。

在一实施例中，指令识别模型包括多个对应不同语音指令的指令识别模型，在调用预训练的指令识别模型识别第二音频数据携带的语音指令时，处理器501用于：

调用每一指令识别模型对第二音频数据进行评分；

在一实施例中，在将评分最高的指令识别模型所对应的语音指令作为第二音频数据携带的语音指令时，处理器501用于：

在一实施例中，在校验第一音频数据时，专用语音识别芯片502用于：

调用预训练的场景分类模型对第一音频数据进行场景分类，得到场景分类结果；

调用预训练的对应场景分类结果的一级文本校验模型校验第一音频数据中是否包括预设唤醒词。

在一实施例中，在校验第一音频数据时，处理器501用于：

调用预训练的对应预设唤醒词的二级文本校验模型，校验第一音频数据中是否包括预设唤醒词；

当第一音频数据中包括预设唤醒词时，调用预训练的二级声纹校验模型，其中，二级声纹校验模型通过预设用户说出预设唤醒词的样本语音训练得到；

在一实施例中，处理器501还用于：

获取预训练的对应预设唤醒词的通用校验模型，将通用校验模型设为二级文本校验模型；

控制麦克风采集预设用户说出预设唤醒词的样本语音；

利用样本语音对通用校验模型进行自适应训练，得到二级声纹校验模型。

在一实施例中，专用语音识别芯片502还在唤醒处理器501之后休眠。

在一实施例中，在调用预训练的指令识别模型识别第二音频数据携带的语音指令之后，处理器501还用于：

当未识别到第二音频数据携带的语音指令时，后台启动语音交互应用；

在一实施例中，处理器501还用于切换电子设备的屏幕至亮屏状态。

应当说明的是，本申请实施例提供的电子设备与上文实施例中的指令执行方法属于同一构思，在电子设备上可以运行指令执行方法实施例中提供的任一方法，其具体实现过程详见特征提取方法实施例，此处不再赘述。

需要说明的是，对本申请实施例的指令执行方法而言，本领域普通测试人员可以理解实现本申请实施例的指令执行方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的处理器和专用语音识别芯片执行，在执行过程中可包括如指令执行方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

以上对本申请实施例所提供的一种指令执行方法、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种指令执行方法，应用于电子设备，其中，所述电子设备包括处理器、专用语音识别芯片和麦克风，且所述专用语音识别芯片的功耗小于所述处理器的功耗，所述指令执行方法包括：

在所述处理器处于休眠状态时，通过所述专用语音识别芯片控制所述麦克风进行音频采集，得到第一音频数据；

通过所述专用语音识别芯片校验所述第一音频数据，若校验通过，则唤醒所述处理器；

通过所述处理器校验所述第一音频数据，若校验通过，则通过所述处理器控制所述麦克风进行音频采集，得到第二音频数据；

通过所述处理器调用预训练的指令识别模型识别所述第二音频数据携带的语音指令，并执行所述语音指令。
根据权利要求1所述的指令执行方法，其中，所述指令识别模型包括多个对应不同语音指令的指令识别模型，所述通过所述处理器调用预训练的指令识别模型识别所述第二音频数据携带的语音指令，包括：

通过所述处理器调用每一指令识别模型对所述第二音频数据进行评分；

将评分最高的指令识别模型所对应的语音指令作为所述第二音频数据携带的语音指令。
根据权利要求2所述的指令执行方法，其中，所述将评分最高的指令识别模型所对应的语音指令作为所述第二音频数据携带的语音指令，包括：

将评分最高且达到预设评分的指令识别模型所对应的语音指令作为所述第二音频数据携带的语音指令。
根据权利要求1所述的指令执行方法，其中，所述通过所述专用语音识别芯片校验所述第一音频数据，包括：

通过所述专用语音识别芯片调用预训练的场景分类模型对所述第一音频数据进行场景分类，得到场景分类结果；

通过所述专用语音识别芯片调用预训练的对应所述场景分类结果的一级文本校验模型校验所述第一音频数据中是否包括预设唤醒词。
根据权利要求4所述的指令执行方法，其中，所述通过所述处理器校验所述第一音频数据，包括：

通过所述处理器调用预训练的对应所述预设唤醒词的二级文本校验模型，校验所述第一音频数据中是否包括所述预设唤醒词；

当所述第一音频数据中包括所述预设唤醒词时，通过所述处理器调用预训练的二级声纹校验模型，其中，所述二级声纹校验模型通过预设用户说出所述预设唤醒词的样本语音训练得到；

通过所述二级声纹校验模型校验所述第一音频数据的声纹特征是否与所述样本语音的声纹特征匹配。
根据权利要求5所述的指令执行方法，其中，还包括：

通过所述处理器获取预训练的对应所述预设唤醒词的通用校验模型，将所述通用校验模型设为所述二级文本校验模型；

通过所述处理器控制所述麦克风采集预设用户说出所述预设唤醒词的样本语音；

通过所述处理器利用所述样本语音对所述通用校验模型进行自适应训练，得到所述二级声纹校验模型。
根据权利要求1所述的指令执行方法，其中，所述唤醒所述处理器之后，还包括：

控制所述专用语音识别芯片休眠。
根据权利要求1所述的指令执行方法，其中，所述通过所述处理器调用预训练的指令识别模型识别所述第二音频数据携带的语音指令之后，还包括：

当未识别到所述第二音频数据携带的语音指令时，通过所述处理器后台启动语音交互应用；

通过所述语音交互应用识别所述第二音频数据携带的语音指令，所述语音交互应用的识别能力大于所述指令识别模型的识别能力。
根据权利要求1所述的指令执行方法，其中，还包括：

通过所述处理器切换所述电子设备的屏幕至亮屏状态。
一种指令执行装置，应用于电子设备，其中，所述电子设备包括处理器、专用语音识别芯片和麦克风，且所述专用语音识别芯片的功耗小于所述处理器的功耗，所述指令执行装置包括：

音频采集模块，用于在所述处理器处于休眠状态时，通过所述专用语音识别芯片控制所述麦克风进行音频采集，得到第一音频数据；

第一校验模块，用于通过所述专用语音识别芯片校验所述第一音频数据，若校验通过，则唤醒所述处理器；

第二校验模块，用于通过所述处理器校验所述第一音频数据，若校验通过，则通过所述处理器控制所述麦克风进行音频采集，得到第二音频数据；

指令执行模块，用于通过所述处理器调用预训练的指令识别模型识别所述第二音频数据携带的语音指令，并执行所述语音指令。
一种存储介质，其中，当所述存储介质中存储的计算机程序在包括处理器、专用语音识别芯片和麦克风的电子设备运行时，使得所述处理器和执行专用语音识别芯片执行：

在所述处理器处于休眠状态时，所述专用语音识别芯片控制所述麦克风进行音频采集，得到第一音频数据；

所述专用语音识别芯片校验所述第一音频数据，若校验通过，则唤醒所述处理器；

所述处理器校验所述第一音频数据，若校验通过，则控制所述麦克风进行音频采集，得到第二音频数据；

所述处理器调用预训练的指令识别模型识别所述第二音频数据携带的语音指令，并执行所述语音指令；

其中，所述专用语音识别芯片的功耗小于所述处理器的功耗。
一种电子设备，其中，所述电子设备包括处理器、专用语音识别芯片和麦克风，且所述专用语音识别芯片的功耗小于所述处理器的功耗，其中，

所述专用语音识别芯片用于在所述处理器处于休眠状态时，控制所述麦克风采集的外部的第一音频数据；以及

校验所述第一音频数据，若校验通过，则唤醒所述处理器；

所述处理器用于校验所述第一音频数据，若校验通过，则控制所述麦克风采集的外部的第二音频数据；以及

调用预训练的指令识别模型识别所述第二音频数据携带的语音指令，并执行所述语音指令。
根据权利要求12所述的电子设备，其中，所述指令识别模型包括多个对应不同语音指令的指令识别模型，所述处理器用于调用每一指令识别模型对所述第二音频数据进行评分；以及将评分最高的指令识别模型所对应的语音指令作为所述第二音频数据携带的语音指令。
根据权利要求13所述的电子设备，其中，所述处理器用于将评分最高且达到预设评分的指令识别模型所对应的语音指令作为所述第二音频数据携带的语音指令。
根据权利要求12所述的电子设备，其中，所述专用语音识别芯片用于调用预训练的场景分类模型对所述第一音频数据进行场景分类，得到场景分类结果；以及调用预训练的对应所述场景分类结果的一级文本校验模型校验所述第一音频数据中是否包括预设唤醒词。
根据权利要求15所述的电子设备，其中，所述处理器用于调用预训练的对应所述预设唤醒词的二级文本校验模型，校验所述第一音频数据中是否包括所述预设唤醒词；以及当所述第一音频数据中包括所述预设唤醒词时，调用预训练的二级声纹校验模型，其中，所述二级声纹校验模型通过预设用户说出所述预设唤醒词的样本语音训练得到；以及通过所述二级声纹校验模型校验所述第一音频数据的声纹特征是否与所述样本语音的声纹特征匹配。
根据权利要求16所述的电子设备，其中，所述处理器还用于获取预训练的对应所述预设唤醒词的通用校验模型，将所述通用校验模型设为所述二级文本校验模型；以及控制所述麦克风采集预设用户说出所述预设唤醒词的样本语音；以及利用所述样本语音对所述通用校验模型进行自适应训练，得到所述二级声纹校验模型。
根据权利要求16所述的电子设备，其中，所述专用语音识别芯片还用于在唤醒所述处理器后休眠。
根据权利要求16所述的电子设备，其中，所述处理器还用于当未识别到所述第二音频数据携带的语音指令时，通过所述处理器后台启动语音交互应用；以及通过所述语音交互应用识别所述第二音频数据携带的语音指令，所述语音交互应用的识别能力大于所述指令识别模型的识别能力。
根据权利要求12所述的电子设备，其中，所述处理器还用于切换所述电子设备的屏幕至亮屏状态。