WO2024093460A9

WO2024093460A9 - 语音检测方法及其相关设备

Info

Publication number: WO2024093460A9
Application number: PCT/CN2023/114481
Authority: WO
Inventors: 常文蕾; 高欢; 王志超
Original assignee: 荣耀终端有限公司
Priority date: 2022-10-31
Filing date: 2023-08-23
Publication date: 2024-06-27
Also published as: WO2024093460A1; CN117995225A

Abstract

本申请提供了一种语音检测方法及其相关设备，涉及音频处理领域，该语音检测方法包括：获取音频数据，音频数据为第一麦克风和第二麦克风在同一环境中采集的数据；对音频数据进行VAD检测，确定并筛选出语音信号；对VAD检测出的语音信号进行风噪检测，确定并筛选出语音信号。本申请通过结合多路麦克风获取的多路音频信号，进行VAD检测和风噪检测，既可避免对语音质量的影响，又能提高检测的准确性。

Description

语音检测方法及其相关设备

本申请要求于2022年10月31日提交国家知识产权局、申请号为202211350590.1、申请名称为“语音检测方法及其相关设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及音频处理领域，具体涉及一种语音检测方法及其相关设备。

背景技术

随着电子设备的普及和发展，电子设备已经成为我们日常生活和娱乐中不可或缺的一环。通常情况下，在进行语音通话或者进行语音操作的过程中，由于外界声音的干扰，电子设备输入的音频数据可能受到影响。那么，为了提高音频的质量，电子设备需要对输入的音频数据进行一些处理。

相关技术中通常会进行降噪、利用神经网络模型进行语音识别等。但是，降噪效果较好时，又可能会导致语音失真；神经网络模型又需要提前进行训练，通常样本还比较有限，导致使用时无法准确识别出语音，影响检测的质量；因此，亟需一种新的语音检测方法，既能避免对语音质量的影响，又能提高检测的准确性。

发明内容

本申请提供了一种语音检测方法及其相关设备，通过结合多路麦克风获取的多路音频信号，进行VAD检测和风噪检测，既可避免对语音质量的影响，又能提高检测的准确性。

第一方面，提供了一种语音检测方法，应用于包括第一麦克风和第二麦克风的电子设备，所述方法包括：

获取音频数据，所述音频数据为所述第一麦克风和所述第二麦克风在同一环境中采集的数据；

对所述音频数据进行VAD检测，确定并筛选出语音信号；

对VAD检测出的所述语音信号进行风噪检测，确定并筛选出语音信号。

在本申请实施例中，用户在使用包括多个麦克风的电子设备进行语音通话或语音操作的过程中，电子设备可以对多个麦克风接收到的音频数据先进行VAD检测，区分出其中的语音信号和其他信号；然后，针对筛选出的语音信号再进行风噪检测，相当于对语音信号再次进行筛选，从而可以区分出真正的语音信号和误判为语音信号的风噪信号，风噪检测出的语音信号为最终的检测结果。由此，结合多路麦克风产生的待测信号，经过VAD和风噪两个阶段的检测，从而可以区分出真正的语音信号、风噪信号和其他信号。这样简单的检测方法，不涉及硬件更改，既能避免对语音质量的影响，又能提高检测的准确性。

其中，本申请所指的其他信号指的是除了语音信号和风噪信号之外的信号。

结合第一方面，在第一方面的一种实现方式中，当所述音频数据为位于时域的数据时，所述方法还包括：

对所述音频数据进行预处理，所述预处理至少包括分帧和时频变换。

可选地，预处理至少包括分帧和时频变换。

应理解，针对多路待测信号流利用相同长度进行分帧后，得到的多帧第一时域信号和多帧第二时域信号的数量相同，并且在次序上具有一一对应的关系。由此，针对分帧后的多帧第一时域信号和多帧第二时域信号进行频域转换后，得到的多帧第一频域信号和多帧第二频域信号的数量也相同，并且在次序上也具有一一对应的关系。

在本申请实施例中，进行预处理，可以使得音频数据便于后续进行检测。

结合第一方面，在第一方面的一种实现方式中，所述音频数据包括所述第一麦克风采集的第一路待测信号流和所述第二麦克风采集的第二路待测信号流；

对所述音频数据进行预处理包括：

对所述第一路待测信号流进行所述分帧，得到多帧第一时域信号；

对多帧所述第一时域信号进行所述时频变换，得到多帧第一频域信号；

对所述第二路待测信号流进行所述分帧，得到多帧第二时域信号；

对多帧所述第二时域信号进行所述时频变换，得到多帧第二频域信号；

其中，多帧所述第一时域信号和多帧所述第一频域信号一一对应，多帧所述第二时域信号和多帧所述第二频域信号一一对应。

在本申请实施例中，可以根据第一路待测信号流得到多帧第一时域信号和多帧第一频域信号，根据第二路待测信号流得到多帧第二时域信号和多帧第二频域信号，从而后续可以将相同次序的多个信号，配合起来进行语音检测。

结合第一方面，在第一方面的一种实现方式中，对所述音频数据进行VAD检测，确定并筛选出语音信号，包括：

针对所述第一时域信号，根据所述第一时域信号和与所述第一时域信号对应的所述第一频域信号，确定所述第一时域信号所对应的第一数据，所述第一数据至少包括过零率、谱熵和平坦度；

基于所述第一数据，对所述第一时域信号进行VAD检测，确定并筛选出语音信号。

在本申请实施例中，可以基于语音信号和其他信号在第一数据方面的表现不同，来作为区分的标准，进而针对第一时域信号可以辨别出为语音信号或其他信号。

结合第一方面，在第一方面的一种实现方式中，基于所述第一数据，对所述第一时域信号进行VAD检测，确定并筛选出语音信号，包括：

当所述第一数据满足第一条件时，确定所述第一时域信号的暂定状态为语音信号；

当所述第一数据不满足所述第一条件时，确定所述第一时域信号的暂定状态为其他信号，所述其他信号用于指示除语音信号和风噪信号之外的信号；

针对所述第一时域信号，确定所述暂定状态与当前状态是否相同；

当不同，且所述暂定状态为语音信号时，第一帧数标志位的值加1，并确定所述第一帧数标志位的值是否大于第一预设帧数阈值；

当所述第一帧数标志位的值大于所述第一预设帧数阈值时，修改所述当前状态，当所述当前状态为语音信号时，修改为其他信号，当所述当前状态为其他信号时，修改为语音信号；

当不同，且所述暂定状态为其他信号时，第二帧数标志位的值加1，并确定所述第二帧数标志位的值是否大于第二预设帧数阈值；

当所述第二帧数标志位的值大于所述第二预设帧数阈值时，修改所述当前状态；

确定并筛选出修改后的当前状态为语音信号的第一时域信号。

由于语音字词通常会持续几帧，且字词之间会有间隔，为了能完整的判断语句的开始和结束，防止语句中间断掉，每帧第一时域信号都设置有暂定状态和当前状态。其中，暂定状态和当前状态都可以分为三种状态：语音信号、风噪信号和其他信号。

在本申请实施例中，当暂定状态与当前状态不同时，说明两次判断不一致，此时有可能至少有一次是判断错的，因此，可以进行帧数累计。当帧数累计到大于帧数阈值时，修改对应的当前状态，相当于依靠算法确定出的该帧第一时域信号前面多帧待测信号之间的连续性，来预测确定出该帧第一时域信号所对应的状态。

结合第一方面，在第一方面的一种实现方式中，所述方法还包括：

当相同，确定并筛选出所述当前状态为语音信号的第一时域信号；或者，

当不同，且所述第一帧数标志位的值小于或等于所述第一预设帧数阈值时，确定并筛选出所述当前状态为语音信号的第一时域信号；或者，

当不同，且所述第二帧数标志位的值小于或等于所述第二预设帧数阈值时，确定并筛选出所述当前状态为语音信号的第一时域信号。

在本申请实施例中，当暂定状态与当前状态相同，或者，虽然不同，但是当帧数累计小于帧数阈值时，不修改对应的当前状态，相当于为了保证语句的完整性，防止语句中间断掉，可以忽略短暂这几帧的异常，将其依然当作语音信号。或者，相当于为了避免错误的将少量其他信号识别为语音信号，将其依然当作其他信号。

结合第一方面，在第一方面的一种实现方式中，在当所述第一数据满足第一条件之前，所述方法还包括：进行第一初始化处理，所述第一初始化处理至少包括对所述第一帧数标志位的值和所述第二帧数标志位的值归零。

在本申请实施例中，通过进行第一初始化处理，可以避免数据错误，或者其他阶段的一些检测结果的干扰。

结合第一方面，在第一方面的一种实现方式中，当所述第一数据包括所述过零率、所述谱熵和所述平坦度时，所述第一条件包括：

所述过零率大于过零率阈值，所述谱熵小于谱熵阈值，且所述平坦度小于平坦度阈值。

结合第一方面，在第一方面的一种实现方式中，对VAD检测出的所述语音信号进行风噪检测，确定并筛选出语音信号，包括：

针对VAD检测出的为语音信号的第一时域信号，根据所述第一时域信号与所述第一时域信号对应的第一频域信号，以及与所述第一频域信号次序相同的第二频域信号，确定所述第一时域信号所对应的第二数据，所述第二数据至少包括频谱重心、低频能量和相关性；

确定所述第二数据，对所述第一时域信号进行风噪检测，确定并筛选出语音信号。

在本申请实施例中，由于风噪信号与语音信号的特性相似，此时，仅经过第一阶段的VAD检测后，并不能十分准确地将风噪信号和语音信号作出区分，可能存在误将风噪信号当成语音信号的情况，也即是说，经过VAD检测之后，得到的第一检测结果中的语音信号仅为疑似语音信号，可能包括风噪信号。那么，继续进行风噪检测，则可以进一步区分出真正的语音信号和假的语音信号(即风噪信号)。由此经过连续的VAD检测和风噪检测之后，检测的准确度可以大幅提升。

结合第一方面，在第一方面的一种实现方式中，基于所述第二数据，对所述第一时域信号进行风噪检测，确定并筛选出语音信号，包括：

当所述第二数据满足第二条件时，确定所述第一时域信号的暂定状态为风噪信号；

当所述第二数据不满足所述第二条件时，确定所述第一时域信号的暂定状态为语音信号；

当不同，且所述暂定状态为风噪信号时，第三帧数标志位的值加1，并确定所述第三帧数标志位的值是否大于第三预设帧数阈值；

当所述第三帧数标志位的值大于所述第三预设帧数阈值时，修改所述当前状态，当所述当前状态为语音信号时，修改为风噪信号，当所述当前状态为风噪信号时，修改为语音信号；

当不同，且所述暂定状态为语音信号时，第一帧数标志位的值加1，并确定所述第一帧数标志位的值是否大于第四预设帧数阈值；

当所述第一帧数标志位的值大于所述第四预设帧数阈值时，修改所述当前状态；

在本申请实施例中，当暂定状态与当前状态不同时，说明两次判断不一致，此时有可能至少有一次是判断错的，或者是用户说话时词语之间的间隔，因此，可以进行帧数累计。帧数累计到大于帧数阈值时，修改对应的当前状态，相当于依靠算法确定出的该帧第一时域信号前面多帧待测信号之间的连续性，来预测确定出该帧第一时域信号所对应的状态。

当不同，且所述第三帧数标志位的值小于或等于所述第三预设帧数阈值时，确定并筛选出所述当前状态为语音信号的第一时域信号；或者，

当不同，且所述第一帧数标志位的值小于或等于所述第四预设帧数阈值时，确定并筛选出所述当前状态为语音信号的第一时域信号。

在本申请实施例中，当暂定状态与当前状态相同，或者，虽然不同，但是当帧数累计小于帧数阈值时，不修改对应的当前状态，相当于为了保证语句的完整性，防止语句中间断掉，可以忽略短暂这几帧的异常，将其依然当作语音信号。或者，相当于为了避免错误的将少量风噪信号识别为语音信号，将其依然当作风噪信号。

结合第一方面，在第一方面的一种实现方式中，在当所述第二数据满足第二条件之前，所述方法还包括：进行第二初始化处理，所述第二初始化处理至少包括对所述第一帧数标志的值和所述第三帧数标志位的值归零。

在本申请实施例中，通过进行第二初始化处理，可以避免数据错误，或者其他阶段的一些检测结果的干扰。

结合第一方面，在第一方面的一种实现方式中，当所述第二数据包括频谱重心、低频能量和相关性时，所述第二条件包括：

所述频谱重心小于频谱重心阈值，所述低频能量大于低频能量阈值，且所述相关性小于所述相关性阈值。

结合第一方面，在第一方面的一种实现方式中，所述第一麦克风包括1个或多个第一麦克风，和/或，所述第二麦克风包括1个或多个第二麦克风。

结合第一方面，在第一方面的一种实现方式中，所述第一麦克风为所述电子设备设置在底部的麦克风，所述第二麦克风为所述电子设备设置在顶部或背面的麦克风。

第二方面，提供了一种电子设备，所述电子设备包括：一个或多个处理器、存储器和显示屏；所述存储器与所述一个或多个处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，所述一个或多个处理器调用所述计算机指令以使得所述电子设备执行第一方面中的任一种语音检测方法。

第三方面，提供了一种语音检测装置，包括用于执行第一方面中任一种语音检测方法的单元。

在一种可能的实现方式中，当该语音检测装置是电子设备时，该处理单元可以是处理器，该输入单元可以是通信接口；该电子设备还可以包括存储器，该存储器用于存储计算机程序代码，当该处理器执行该存储器所存储的计算机程序代码时，使得该电子设备执行第一方面中的任一种方法。

第四方面，提供了一种芯片系统，所述芯片应用于电子设备，所述芯片包括一个或多个处理器，所述处理器用于调用计算机指令以使得所述电子设备执行第一方面中的任一种语音检测方法。

第五方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序代码，当所述计算机程序代码被电子设备运行时，使得该电子设备执行第一方面中的任一种语音检测方法。

第六方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码被电子设备运行时，使得该电子设备执行第一方面中的任一种语音检测方法。

本申请实施例提供一种语音检测方法及其相关设备，用户在使用包括至少两个麦克风的电子设备进行语音通话或语音操作的过程中，电子设备可以对多个麦克风接收到的多路待测信号先进行分帧、时频变换等预处理，再进行VAD检测，区分出其中的语音信号和其他信号；然后，针对筛选出的语音信号再进行风噪检测，从而可以对语音信号再次进行筛选，区分出真正的语音信号和误判为语音信号的风噪信号。结合多路麦克风产生的待测信号，经过连续的VAD检测和风噪检测之后，检测的准确度可以大幅提升，可以区分出真正的语音信号、风噪信号和其他信号，方法简单，既能避免对语音质量的影响，又能提高检测的准确性。

此外，由于本申请提供的语音检测方法，仅涉及方法，不涉及硬件上改进，更不需要增设复杂的声学结构，因此，相对于相关技术，本申请提供的语音检测方法，对小型电子设备更加友好，适用性更强。

附图说明

图1是本申请实施例提供的一种麦克风的布局示意图；

图2是一种适用于本申请的应用场景的示意图；

图3是另一种适用于本申请的应用场景的示意图；

图4是本申请实施例提供的一种语音检测方法的流程示意图；

图5是本申请实施例提供的另一种语音检测方法的流程示意图；

图6是本申请实施例提供的一种VAD检测的流程示意图；

图7是本申请实施例提供的一种风噪检测的流程示意图；

图8是本申请实施例提供的一种VAD检测的示例；

图9是本申请实施例提供的一种用于风噪检测的数据的示例；

图10是本申请实施例提供的一种风噪检测的示例；

图11是本申请实施例提供的一种相关界面示意图；

图12是一种适用于本申请的电子设备的硬件系统的示意图；

图13是一种适用于本申请的电子设备的软件系统的示意图；

图14是本申请提供的一种语音检测装置的结构示意图；

图15是本申请提供的一种电子设备的结构示意图。

具体实施方式

下面将结合附图，对本申请实施例中的技术方案进行描述。

首先，对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

1、噪声，一般来说是指声源背景中其他声源产生的声音。

2、降噪，指的是减少音频数据中噪声的过程。

3、风噪(wind noise)，是由麦克风附近的空气湍流产生的声音，包括风造成的空气湍流所产生的声音；应理解，风噪的声源就是麦克风附近。

4、语音识别，是指电子设备根据预先配置的语音识别算法，处理采集得到语音信号，从而获得表示该语音信号的含义的识别结果的技术。

5、分帧，是为了后续进行批量处理，根据指定的长度(时间段或者采样数)进行分段，将整段的音频数据结构化为一定的数据结构。应理解，分帧处理后的信号为时域信号。

6、时频变换，也即将音频数据从时域(时间与振幅的关系)转化成频域(频率与振幅的关系)。例如，具体可以利用傅立叶变换、快速傅立叶变换等方法进行时频变换。

7、傅立叶变换，傅立叶变换是一种线性积分变换，用于表示信号在时域(或者，空域)与频域之间的变换。

8、快速傅立叶变换(fast fourier transform，FFT)，FFT是指离散傅立叶变换的快速算法，可以将一个信号由时域变换到频域。

9、语音活性检测(voice activity detection，VAD)，语音活性检测是一项用于语音处理的技术，目的是检测语音信号是否存在。

以上是对本申请实施例所涉及的名词的简单介绍，以下不再赘述。

本申请实施例提供的语音检测方法可以适用于各种电子设备。

在本申请的一些实施例中，该电子设备可以是手机、智慧屏、平板电脑、可穿戴电子设备、车载电子设备、增强现实(augmented reality，AR)设备、虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)、投影仪、智能词典笔、智能录音笔、智能翻译器、智能音箱、耳机、助听器、会议电话设备等等包括至少两个麦克风的设备，本申请实施例对电子设备的具体类型不作任何限制。

以电子设备为手机为例，图1示出了手机上设置的麦克风的布局示意图。

示例性地，如图1所示，该电子设备10拥有两个麦克风(microphone，MIC)。麦克风，也称“话筒”、“传声器”或“拾音装置”，用于将声音信号转换为电信号。本申请实施例中，电子设备可以基于多个麦克风接收声音信号，并将声音信号转换为可以进行后续处理的电信号。

通常电子设备10包括的两个麦克风，一个设置在手机的底部，另一个设置在手机的顶部。在用户手持手机进行通话时，设置在手机底部的麦克风接近用户的嘴部，该麦克风也可以称为主麦克风，而另一个可称为辅麦克风。主麦克风也可以称为底部麦克风，辅麦克风也可以称为顶部麦克风。在只有一个底部麦克风和一个顶部麦克风的情况下，电子设备执行的本申请提供的语音检测方法也可以称为双麦克风语音检测方法。

图1仅为一种麦克风布局示例，当电子设备10包括两个麦克风时，该两个麦克风的设置位置也可以根据需要进行调整。例如，还可以将一个麦克风设置在手机的底部，另一个设置在手机的背面。

当然，电子设备10还可以包括三个及三个以上的麦克风，本申请实施例对此不进行任何限制。例如，当电子设备为具有两个可以折叠起来的显示屏的手机时，电子设备可以在一个显示屏上设置一个底部麦克风和一个顶部麦克风，另一个显示屏上设置一个底部麦克风；或者，在每个显示屏上均设置一个底部麦克风和一个顶部麦克风；又或者，还可以每个显示屏上设置多个底部麦克风和多个顶部麦克风，对此，可以根据需要进行设置和调整，本申请实施例不进行任何限制。

结合上述电子设备10，图2和图3为本申请实施例提供的两种应用场景的示意图。

如图2所示，当用户使用电子设备进行语音通话时，由于发音吐气的原因，可能会导致用户在说话的过程中，对着电子设备中的麦克风进行吐气，从而导致电子设备接收到的音频数据不仅包括语音内容，还可能包括吹气造成的风噪。

如图3所示，当用户在边奔跑边使用电子设备进行语音操作(例如，唤醒语音助手打开电子设备上的地图应用程序)时，由于用户在快速奔跑，携带的电子设备也随之快速移动；此时，电子设备周边形成较快的风速，导致电子设备接收到的音频数据不仅包括语音内容，还包括麦克风附近较快气流产生的风噪。由于风噪与语音的一些特性比较相似，比如都是低频、非稳定的信号，这样就有可能导致电子设备中的语音助手误将风噪当作语音，进而导致出现误唤醒，误操作等情况。

此外，麦克风除了接收用户产生的语音之外，一般还会接收到周围环境中的其他声音。例如，汽车鸣笛的声音、金属撞击声音、走路时踩在地面上的声音等等。

目前，相关技术针对电子设备接收到的音频数据通常进行的处理包括降噪、利用已训练的神经网络模型进行语音识别等。

然而，针对音频数据进行降噪，在降噪效果较好时，可能会同时将语音内容也进行一定程度的降噪，导致后期语音失真；针对音频数据利用已训练的神经网络模型进行语音识别时，由于神经网络模型训练时的样本通常比较有限，学习不完善，导致训练出的神经网络模型在使用时无法准确识别出语音，另外，在电子设备上布置神经网络模型的成本也比较高。

此外，对于手机、耳机等小型电子设备来说，由于电子设备体积的限制，也无法使用复杂的声学结构来减弱、消除风噪。

针对这些问题，亟需一种新的语音检测方法进行解决。

有鉴于此，本申请实施例提供一种语音检测方法，用户在使用包括多个麦克风的电子设备进行语音通话或语音操作的过程中，电子设备可以对多个麦克风接收到的多路待测信号先进行分帧等预处理，再进行VAD检测，区分出其中的语音信号和其他信号；然后，针对筛选出的语音信号再进行风噪检测，相当于对语音信号再次进行筛选，从而可以区分出真正的语音信号和误判为语音信号的风噪信号，风噪检测出的语音信号为最终的检测结果。由此，结合多路麦克风产生的待测信号，经过VAD和风噪两个阶段的检测，从而可以区分出真正的语音信号、风噪信号和其他信号。这样简单的检测方法，不涉及硬件更改，既能避免对语音质量的影响，又能提高检测的准确性。

下面结合图4至图10对本申请实施例提供的语音检测方法进行说明。

图4是本申请实施例提供的一种语音检测方法的流程示意图。该语音检测方法100可以由图1所示的电子设备10执行，该两个麦克风用于采集同一环境中的声音。该语音检测方法包括以下S110至S150，下面分别对S110至S150进行详细地描述。

示例性地，麦克风用于采集同一环境中的声音，可以是指用户在室外利用手机拨打电话时，手机上两个麦克风均采集用户的通话声音、风噪以及周围环境中的其他声音。

示例性地，麦克风用于采集同一环境中的声音，可以是指多个用户在室内利用会议电话设备开会时，会议电话设备上的多个麦克风均采集该多个用户的语音、风噪以及室内环境中的其他声音。

S110、获取音频数据。该音频数据包括多路待测信号流。

待测信号流指的是包括语音、风噪以及其他声音且具有一定时间顺序的信号序列。

例如，一个麦克风用于获取一路待测信号流，两个麦克风可以获取两路待测信号流，比如，第一麦克风用于获取第一路待测信号，第二麦克风用于获取第二路待测信号。应理解，该多路待测信号流应具有相同的起始时刻和结束时刻。一路也可以理解为一个通道。

示例性地，以电子设备为耳机为例，响应于用户的操作，电子设备启用语音通话应用程序；在运行语音通话应用程序进行语音通话的过程中，电子设备可以获取用户的通话内容等音频数据。

示例性地，以电子设备为智能录音笔为例，响应于用户的操作，电子设备启用录音应用程序；在运行录音应用程序进行录制的过程中，电子设备可以获取用户的唱歌声音等音频数据。

示例性地，以电子设备为智能音箱为例，响应于用户的操作，电子设备启用语音助手应用程序；在运行语音助手应用程序进行人机交互的过程中，电子设备获取用户的关键词指令等音频数据。

示例性地，以电子设备为平板电脑为例，音频数据也可以是电子设备在运行第三方应用程序(例如微信)时，电子设备接收到的其他人的语音等音频数据。

S120、对多路待测信号流进行预处理。

可选地，预处理至少包括分帧和时频变换，且按照执行顺序，分帧在前，时频变换在后。当然，预处理还可以包括其他步骤，本申请实施例对此不进行任何限制。

例如，可以以20ms为一帧的长度进行分帧。

例如，针对第一麦克风获取第一路待测信号流可以进行分帧，划分成多帧第一时域信号，针对多帧第一时域信号进行时频变换，可以得到多帧第一频域信号。第一时域信号位于时域，第一频域信号频域，第一时域信号和第一频域信号具有一一对应关系。

同理，针对第二麦克风获取的第二路待测信号流可以进行分帧，划分成多帧第二时域信号，针对多帧第二时域信号进行时频变换，可以得到多帧第二频域信号。第二时域信号位于时域，第二频域信号位于频域，第二时域信号和第二频频域信号具有一一对应关系。

还应理解，分帧生成的多帧第一时域信号和多帧第二时域信号，以及时频变换后生成的多帧第一频域信号和多帧第二频域信号，均可以按照次序存储起来，以便于提高后续处理的效率。

S130、针对预处理后的多路待测信号流的至少一路待测信号流进行VAD检测，得到第一检测结果。

VAD检测用于检测待测信号流中是否包括语音信号，第一检测结果包括多帧语音信号和/或其他信号。

可选地，可以重复执行VAD检测多次，从多次检测结果的交集中，区分出语音信号和其他信号，来作为第一检测结果。

例如，针对预处理后的一路待测信号流可以进行两次VAD检测，将两次均确定为语音信号的信号、以及一次确定为语音信号，另一次确定为其他信号的信号都作为第一检测结果中的语音信号；而将两次均确定为其他信号的信号作为第一检测结果中的其他信号。

或者，还可以将两次均确定为语音信号的信号作为第一检测结果中的语音信号，而将一次确定为语音信号另一次确定为其他信号的信号、以及两次均确定为其他信号的信号均作为第一检测结果中的其他信号。

又例如，针对预处理后的两路待测信号流，均可以实时进行VAD检测。将其中一路待测信号流作为主要检测信号流，另一路待测信号流作为辅助检测信号流，然后，在进行VAD检测后，可以利用辅助检测信号流的检测结果辅助主要检测信号流中的检测结果。比如，当两路信号流中次序相同的待测信号均为语音信号时，确定主要检测流中的该信号为语音信号。

S140、结合预处理后的多路待测信号流，针对第一检测结果中的语音信号进行风噪检测，得到第二检测结果。

风噪检测用于区分语音信号和风噪信号，第二检测结果包括多帧语音信号和/或风噪信号。

S150、确定语音信号为检测结果。

应理解，针对预处理后的多路待测信号进行VAD检测，可以确定待测信号是否包括语音信号，进而从中可以区分出语音信号和其他信号；又由于风噪信号与语音信号的特性相似，此时，仅经过第一阶段的VAD检测后，并不能十分准确地将风噪信号和语音信号作出区分，可能存在误将风噪信号当成语音信号的情况，也即是说，经过VAD检测之后，得到的第一检测结果中的语音信号仅为疑似语音信号，可能包括风噪信号。那么，继续进行风噪检测，则可以进一步区分出真正的语音信号和假的语音信号(即风噪信号)。由此经过连续的VAD检测和风噪检测之后，检测的准确度可以大幅提升。又因为本申请提供的VAD检测和风噪检测并未对信号本身的质量造成影响，因此，不会存在损失待测信号质量的问题。

可选地，当第一检测结果中不包括语音信号时，则可以不执行S140步骤。

可选地，可以重复执行风噪检测多次，从多次第二检测结果中的交集中，区分出语音信号和风噪信号。

例如，针对第一检测结果中的语音信号进行三次风噪检测，将三次中任意两次确定为语音信号的信号作为第二检测结果中的语音信号。

应理解，在执行整个方法的过程中，执行VAD检测和风噪检测次数可以不相同，具体重复次数可以根据需要进行设置和修改，本申请实施例对此不进行任何限制。

可选地，可以针对预处理后的待测信号流中的一段时间段内的多帧待测信号进行VAD检测和风噪检测之后，再针对下一段时间段内的多帧待测信号重复执行VAD检测和风噪检测，后续依次类推。

应理解，该方式对执行该方法的硬件性能要求相对更低，更容易实现。

可选地，可以针对预处理后的待测信号流中的一帧待测信号进行VAD检测和风噪检测之后，再针对下一帧待测信号重复执行VAD检测和风噪检测，后续依次类推。

可选地，还可以针对一帧待测信号进行VAD检测和风噪检测，在对该帧待测信号进行风噪检测的同时，可以针对下一帧待测信号进行VAD检测。

应理解，该方式响应速度、处理速度比较快，可以边采集边实时检测信号中的语音信号、风噪信号和其他信号。

本申请实施例提供一种语音检测方法，用户在使用包括至少两个麦克风的电子设备进行语音通话或语音操作的过程中，电子设备可以对多个麦克风接收到的多路待测信号先进行分帧、时频变换等预处理，再进行VAD检测，区分出其中的语音信号和其他信号；然后，针对筛选出的语音信号再进行风噪检测，从而可以对语音信号再次进行筛选，区分出真正的语音信号和误判为语音信号的风噪信号。结合多路麦克风产生的待测信号，经过连续的VAD检测和风噪检测之后，检测的准确度可以大幅提升，可以区分出真正的语音信号、风噪信号和其他信号，方法简单，既能避免对语音质量的影响，又能提高检测的准确性。

示例性地，可以针对预处理后的多路待测信号流中的第一路待测信号流进行VAD检测，得到第一检测结果。针对预处理后的其他多路待测信号不进行VAD检测。

然后，再针对第一检测结果中的语音信号，结合对应次序的预处理后的其他路待测信号流的待测信号，进行风噪检测，确定第一检测结果中的语音信号是否保持为语音信号或是更改为风噪信号。

应理解，此种方式中，第一路待测信号相当于是主要被检测信号，其他路待测信号用于辅助检测第一路待测信号中的语音信号。

下面结合图5对该示例进行详细说明。图5示出了本申请实施例提供的另一种语音检测的流程示意图，该语音检测方法可以包括以下S210至S250，下面分别对步骤S210至步骤S250进行说明。

S210、获取第一路待测信号流和第二路待测信号流。

应理解，第一路待测信号和第二路待测信号流即为音频数据，本申请用于针对一段时间内的音频数据进行处理。例如，第一时域信号流和第二时域信号流的时长为600ms。

S220、针对第一路待测信号流和第二路待测信号流进行预处理，得到第一路待测信号流对应的多帧第一时域信号、多帧第一频域信号，以及第二路待测信号流对应的多帧第二时域信号、多帧第二频域信号。其中，预处理包括分帧和时频变换。

可选地，如图5所示，上述S220可以包括：

S221、对第一路待测信号进行分帧，得到多帧第一时域信号；针对第二路待测信号流进行分帧，得到多帧第二时域信号。

例如，对600ms的第一路待测信号进行分帧，得到30帧第一时域信号；针对600ms的第二路待测信号流进行分帧，得到30帧第二时域信号。

应理解，多帧第一时域信号和多帧第二时域信号均为时域信号。

S222、对S221得到的多帧第一时域信号进行时频变换，得到对应帧数的第一频域信号；对多帧第二时域信号进行时频变换，得到对应帧数的第二频域信号。

例如，对30帧第一时域信号进行时频变换，得到30帧第一频域信号；针对30帧第二时域信号进行时频变换，得到30帧第二频域信号。

S230、针对预处理后的第一路待测信号流进行VAD检测。

上述S230也可以表达为：结合第一路待测信号流对应的多帧第一时域信号、多帧第一频域信号进行VAD检测。其中，多帧第一时域信号与多帧第一频域信号具有一一对应关系。

此处，针对预处理后的第二路待测信号流不进行VAD检测。

可选地，如图5所示，上述S230可以包括：

S231、针对第一时域信号，确定对应的过零率(zero crossing rate，ZCR)。

过零率是指在每帧第一时域信号中，语音信号通过零点(从正变为负或从负变为正)的比率。一般来说，噪声或其他声音的过零率偏小，而语音信号的过零率相对偏大一些。

例如，可以通过以下公式(1)确定第一时域信号的过零率的值。

公式(1)为：

其中，t为帧内的时间点，T为每帧的长度，S表示信号的幅值(S有正负之分)；相邻两个时间点的幅值若同为正或者同为负，则π{A}为0；若是一正一负，则π{A}为1；统计了帧内T-1对相邻点的π值，求和，然后再除以T-1，即为一帧内过零点的比率，简称为过零率。

S232、针对与第一时域信号对应的第一频域信号，确定分别对应的谱熵、平坦度。

应理解，谱熵描述了功率谱和熵率之间的关系。在本申请中，可以描述信号的分散程度。若信号为噪声，信号相对分散，对应较高的谱熵；若信号为语音，信号相当于聚集，对应较低的谱熵。平坦度用于描述信号的平坦程度。噪声的平坦度偏大，语音信号的平坦度相对偏小。

[根据细则26改正 17.05.2024]
例如，可以通过以下一组公式(2)确定第一时域信号的谱熵的值。公式(2)为：X_power(k,m)＝X(k,m),1≤k≤N/2

其中，r(n)表示每帧信号的短时自相关函数，L为窗长，N为FFT变换长度，X(k，m)表示第m帧第k频率点的功率谱幅度；对实际信号来说，X(k，m)是关于N/2+1对称的，所以，X_power(k，m)与X(k，m)相等，X_power(k，m)表示功率谱能量；P(i，m)表示每一个频率分量的功率谱能量占整个这一帧的功率谱能量的概率；每帧对应的功率谱熵大小可以表示为H(m)。

例如，可以通过以下公式(3)确定第一时域信号的平坦度的值。公式(3)为：

其中，L为FFT变换后的第L个频率点，N为FFT变换后的第N个频率点，Y(L)为第L个频率点的能量，计算公式与X_power(k)计算公式相同；exp(x)即为e的x次方。

S233、至少结合每帧第一时域信号对应的过零率、谱熵和平坦度的值，判断该帧第一时域信号是语音信号还是其他信号。

应理解，除了过零率、谱熵和平坦度之外，还可以确定其他相关数据，以区分第一时域信号是语音信号还是其他信号，相关数据可以根据需要进行设置和修改，本申请对此不进行任何限制。

S234、筛选出确定为语音信号的第一时域信号。

若该第一时域信号为语音信号，可以将该第一时域信号截取出来；同时，还可以将该第一时域信号进行时频变换后对应的第一频域信号截取出来，便于后续继续进行检测。

S240、结合预处理后的第二路待测信号流，对S230中确定出为语音信号进行风噪检测。

上述S240也可以表达为：结合第二路待测信号流对应的多帧第二频域信号，对从预处理后的第一路待测信号流中确定为语音信号的第一时域信号进行风噪检测。风噪检测时，可以利用VAD检测中确定为语音信号的第一时域信号所对应的第一频域信号作为被检对象。

可选地，如图5所示，上述S240可以包括：

S241、基于VAD检测中确定为语音信号的多帧第一时域信号所对应的多帧第一频域信号，确定每帧第一频域信号对应的频谱重心和低频能量。

应理解，频谱重心用于描述信号的重心位置。风噪信号的频谱重心偏低，语音信号的频谱重心偏高。低频能量用于描述信号中的低频能量大小。风噪信号的低频能量偏高，语音信号的低频能量偏小。

例如，可以通过以下公式(4)确定第一时域信号的频谱重心的值。

[根据细则26改正 17.05.2024]
公式(4)为：

其中，r为频谱重心，i为频谱上每点的坐标值，f_ndata(i)为频谱上每点的幅度。

[根据细则26改正 17.05.2024]
例如，可以通过以下公式(5)确定第一时域信号的低频能量的值。公式(5)为：

其中，E为低频能量，X(f)为频率f对应的FFT结果，取绝对值再平方即计算其能量。f₁、f₂表示选取的低频频率范围的起止频率；例如，选取低频范围为100-500Hz，则f₁＝100，f₂＝500。

S242、基于VAD检测中确定为语音信号的多帧第一时域信号所对应的多帧第一频域信号，以及从预处理后的第二路待测信号流中，按照对应次序筛选出多帧第二频域信号，确定相同次序的一组第一频域信号和第二频域信号对应的相关性。

应理解，相关性用于描述两路信号之间的相似度。风噪的相关性比较低，语音信号的相关性比较高。

[根据细则26改正 17.05.2024]
例如，可以通过以下公式(6)确定第一时域信号的相关性的值。公式(6)为：

其中，X为第一频域信号，Y为第二频域信号，r(X，Y)为两者的相关性大小；Cov(X，Y)为X和Y的协方差，D(X)、D(Y)分别为X、Y的方差。

S243、至少结合每帧第一时域信号对应的相关性、频谱重心和低频能量的值，判断该帧第一时域信号是语音信号还是风噪信号。

应理解，除了相关性、频谱重心和低频能量，还可以确定其他相关数据，以区分第一时域信号是语音信号还是风噪信号，相关数据可以根据需要进行设置和修改，本申请对此不进行任何限制。

S244、筛选出再次确定为语音信号的第一时域信号。

若该第一时域信号为语音信号，可以将该第一时域信号截取出来，作为最终检测出的语音信号。

S250、得到检测结果。

针对一帧第一时域信号进行上述检测时，得到的检测结果为该帧第一时域信号确定为语音信号、其他信号或风噪信号。针对多帧第一时域信号进行上述检测时，得到的检测结果包括多帧第一时域信号中每帧第一时域信号分别为语音信号、其他信号或风噪信号的信息，以及截取出的确定为语音信号的信号。

示例性地，第一路待测信号流为手机利用底部麦克风获取的信号，第二路待测信号流为手机利用顶部麦克风获取的信号。结合上述流程，底部麦克风接收到待测信号相当于是主要被检测信号，顶部麦克风接收到的待测信号用于辅助检测底部麦克风接收到待测信号中的语音信号。结合顶部麦克风接收的信号，可以确定出底部麦克风中所有信号为语音信号、风噪信号或其他信号，同时可以截取出语音信号。

应理解，确定出的多帧语音信号可以按照次序重新排序存储或进行识别等其他处理，本申请实施例对此不进行任何限制。

本申请实施例提供的语音检测方法中，用户在使用包括两个麦克风的电子设备进行语音通话或语音操作的过程中，电子设备可以对两个麦克风接收到的两路待测信号先进行分帧、时频变换等预处理；再结合第一路待测信号流预处理时产生的多帧第一时域信号、多帧第一频域信号，确定过零率、谱熵和平坦度；再结合过零率、谱熵和平坦度判断第一时域信号是语音信号还是其他信号，筛选出确定为语音信号的第一时域信号和与之对应的第一频域信号；然后，针对筛选出的语音信号所对应的第一频域信号，以及第二路待测信号流预处理后对应相同次序的第二频域信号，确定相关性、频谱重心和低频能量；再结合相关性、频谱重心和低频能量判断VAD检测阶段确定的语音信号是真正的语音信号，还是误判为语音信号的风噪信号。由此，经过双路待测信号的配合，以及VAD检测和风噪检测两个阶段针对信号特性连续的检测，从而可以区分出真正的语音信号、风噪信号和其他信号。方法简单，既避免对语音质量的影响能提高检测的准确性，既能避免对语音质量的影响，又能提高检测的准确性。

可选地，图6示出了本申请实施例提供的一种结合每帧第一时域信号对应的过零率、谱熵和平坦度的值，判断该帧第一时域信号是语音信号还是其他信号(即S233)的流程示意图。如图6所示，该判断方法300可以包括以下S301至S310。

S301、进行第一初始化处理。

应理解，多帧第一时域信号除了包括信号数据本身之外，还可以包括：三个帧数标志位(i、j和k)以及每帧第一时域信号对应有两个信号标志位(int、SF)。

例如，信号标志位int用于表示第一时域信号的暂定状态；int等于1时表示该帧第一时域信号暂定为语音信号；int等于0时，表示该帧第一时域信号暂定为其他信号；int等于-1时，表示该帧第一时域信号暂定为风噪信号。

信号标志位SF用于表示第一时域信号的当前状态；SF等于1时，表示该帧第一时域信号当前确定为语音信号，SF等于0时，表示该帧第一时域信号当前确定为其他信号；SF等于-1时，表示该帧第一时域信号当前确定为风噪信号。

帧数标志为i用于表示暂定状态为语音信号时所对应累计的帧数数量，比如，i等于1表示暂定状态为语音信号的信号累计数量为1帧。第二帧数标志位j用于表示暂定状态为其他状态时所对应累计的帧数数量，比如，j等于2表示暂定状态为其他信号的信号累计数量为2帧。第三帧数标志位k用于表示暂定状态为风噪信号时所对应累计的帧数数量，比如，k等于3表示暂定状态为风噪信号的信号累计数量为3帧。

基于此，针对多帧第一时域信号，进行第一初始化处理相当于对三个帧数标志位，以及每个第一时域信号对应的两个信号标志位进行归零处理，避免干扰，使其均为0。

S302、确定第一时域信号对应的谱熵、平坦度和过零率是否符合第一条件？

第一条件包括：过零率大于过零率阈值、谱熵小于谱熵阈值，并且平坦度小于平坦度阈值。

上述S302还可以表述为：确定第一时域信号对应的过零率是否大于过零率阈值？确定该第一时域信号转成的第一频域信号所确定出的谱熵是否小于谱熵阈值？且平坦度是否小于平坦度阈值？

应理解，过零率阈值、谱熵阈值和平坦度阈值都根据可以根据需要进行设置和修改，本申请实施例对此不进行任何限制。

S303、当第一时域信号对应的谱熵、平坦度和过零率符合第一条件时，确定第一时域信号的暂定状态为语音信号，修改第一信号标志位的值为X。

应理解，由于语音字词通常会持续几帧，且字词之间会有间隔，为了能完整的判断语句的开始和结束，防止语句中间断掉，每帧第一时域信号都设置有暂定状态和当前状态。其中，暂定状态和当前状态都可以分为三种状态：语音信号、风噪信号和其他信号。

S304、当第一时域信号对应的谱熵、平坦度和过零率不符合第一条件时，确定第一时域信号的暂定状态为其他信号，修改第一信号标志位为Y。

也即，当第一时域信号对应的过零率大于过零率阈值；转成的第一频域信号所确定出的谱熵小于谱熵阈值；平坦度也小于平坦度阈值时，可以认为该第一时域信号符合语音信号的特点，可以确定第一时域信号的暂定状态为语音信号，该第一时域信号对应用于表示暂定状态的信号标志位int等于1，即X等于1。

除此之外，当第一时域信号对应的过零率、谱熵、平坦度中的任意一项不满足各自对应的条件时，可以认为该第一时域信号不符合语音信号的特点，可以确定第一时域信号的暂定状态为其他信号，该第一时域信号对应用于表示暂定状态的信号标志位int等于0，即Y等于0。

S305、确定出第一时域信号对应的暂定状态后，无论第一时域信号的暂定状态是语音信号还是其他信号，确定该第一时域信号判断出的暂定状态与其对应的当前状态是否相同。

用于表示当前状态的信号标志位为SF，因此，确定第一时域信号判断出的暂定状态与其对应的当前状态是否相同，可以通过比对信号标志位int的值和信号标志位SF的值来确定出。

S306、当暂定状态与当前状态不同时，进行帧数累计。若暂定状态为语音信号，则第一帧数标志位i累计加1；若暂定状态为其他信号，则第二帧数标志位j累计加1。

S307、当第一帧数标志位i累计的帧数大于第一预设帧数阈值时，修改当前状态，也即将对应的当前状态从语音信号修改为其他信号，或者从其他信号修改为语音信号。

同理，当第二帧数标志位j累计的帧数大于第二预设帧数阈值时，修改当前状态，也即将对应的当前状态从语音信号修改为其他信号，或者从其他信号修改为语音信号。

应理解，当暂定状态与当前状态不同时，说明两次判断不一致，此时有可能至少有一次是判断错的，因此，可以进行帧数累计。当帧数累计到大于帧数阈值时，修改对应的当前状态，相当于依靠算法确定出的该帧第一时域信号前面多帧待测信号之间的连续性，来预测确定出该帧第一时域信号所对应的状态。

例如，第6帧第一时域信号的暂定状态为语音信号，当前状态为其他信号，而进行帧数统计后，暂定状态为语音信号的帧数已经是6，说明前面5帧第一时域信号都是语音信号，此时该第6帧第一时域信号还是语音信号的可能性比较大，不再信任原来的当前状态，而将当前状态从其他信号修改为语音信号。

应理解，第一预设帧数阈值和第二预设帧数阈值可以根据需要进行设置和修改，本申请实施例对此不进行任何限制。

S308、在上述S305中，当暂定状态与当前状态相同时，继续确定当前状态是否为语音信号；或者，在S306之后，当第一帧数标志位i小于或等于第一预设帧数阈值，或第二帧数标志位j小于或等于第二预设帧数阈值，继续确定当前状态是否为语音信号；又或者在S307中，修改当前状态之后，继续确定当前状态是否为语音信号。

应理解，两次判断结果一致相对于一次判断结果的准确程度更高。因此，当暂定状态与当前状态相同时，判断出的第一时域信号对应的状态结果较为准确，不用修改当前状态。

或者，暂定状态与当前状态虽然不同，但是对应帧数累计数量没有超过预设帧数阈值，此时可以认为由于连续同一暂定状态的第一时域信号的数量太少，可以忽略，所以不用修改，继续保持当前状态为语音信号或其他信号。

S309、若当前状态对应为其他信号，剔除对应的信号标志位SF等于0的第一时域信号，SF等于0表示确定出的第一时域信号为其他信号。

S310、若当前状态对应为语音信号，筛选对应的信号标志位SF等于1的第一时域信号，作为第一检测结果，SF等于1表示确定出的第一时域信号为语音信号。

此处，若暂定状态与当前状态不同，修改了当前状态时，此处的当前状态指的是修改后的当前状态。若暂定状态与当前状态相同，此处的当前状态指的是原有的当前状态。

可选地，图7示出了本申请实施例提供的一种结合每帧第一时域信号对应的相关性、频谱重心和低频能量的值，判断该帧第一时域信号是语音信号还是风噪信号(即S242)的流程示意图。如图7所示，该判断方法400可以包括以下S401至S410。

S401、针对S310确定出的为语音信号的多帧第一时域信号，进行第二初始化处理。

应理解，由于用于表示当前状态的信号标志位SF已在图6所示的方法中确定出了为语音信号，等于1。此处，进行第二初始化处理时，可以对信号标志位SF不进行处理，同时对暂定状态对应为其他信号的第二帧数标志位j不进行处理；仅对信号标志位int、用于表示暂定状态对应为语音信号的第一帧数标志位i，以及用于表示暂定状态对应风噪信号的第三帧数标志位k进行归零处理，使其均为0。

当然，由于在VAD检测阶段进行第一初始化时，对第三帧数标志位k进行了归零处理，且没有用到，此处进行风噪检测时对第三帧数标志位k可以不用进行归零处理。若在进行第一初始化处理时，没有对第三帧数标志位k进行归零处理，此时，在进行风噪检测前，可以对第三帧数标志位k进行归零处理，以避免计算错误。

S402、确定第一时域信号对应的相关性、频谱重心和低频能量是否符合第二条件？

第二条件包括：相关性小于相关性阈值、频谱重心小于频谱重心阈值，并且低频能量大于低频能量阈值。

上述S402还可以表述为：结合第一时域信号时频变换后对应的第一频域信号，以及从预处理后的第二路待测信号流包括的多帧第二频域信号中，确定出的次序一致的第二频域信号，确定该两个第一频域信号和第二频域信号的相关性、频域重心和低频能量，以作为该第一时域信号对应的相关性、频谱重心和低频能量的值。

应理解，相关性阈值、频谱重心阈值和低频能量阈值都可以根据需要进行设置和修改，本申请实施例对此不进行任何限制。

S403、当第一时域信号对应的相关性、频谱重心和低频能量符合第二条件时，确定第一时域信号的暂定状态为风噪信号，修改第一信号标志位的值为Z。

S404、当第一时域信号对应的相关性、频谱重心和低频能量不符合第二条件时，确定第一时域信号的暂定状态为语音信号，修改第一信号标志位的值为X。

也即，当第一时域信号对应的第一频域信号与该第一频域信号次序相同的第二频域信号所确定出的相关性小于相关性阈值、频谱重心小于频谱重心阈值、低频能量大于低频能量阈值时，可以认为该第一时域信号符合风噪信号的特点，可以确定第一时域信号的暂定状态为风噪信号，该第一时域信号的信号标志位int等于-1，即Z等于-1。

除此之外，当第一时域信号对应的相关性、频谱重心和低频能量中的任意一项不满足各自对应的条件时，可以认为该第一时域信号不符合风噪信号的特点，可以确定第一时域信号的暂定状态为语音信号，该第一时域信号的信号标志位int等于1，即X等于1。

S405、确定输出第一时域信号对应的暂定状态后，无论第一时域信号的暂定状态是语音信号还是风噪信号，确定该第一时域信号判断出的暂定状态与其对应的当前状态是否相同。

S406、当暂定状态与当前状态不同时，进行帧数累计。若暂定状态为语音信号，则第一帧数标志位i累计加1；若暂定状态为风噪信号，则第三帧数标志位k累计加1。

S407、当第三帧数标志位k累计的帧数大于第三预设帧数阈值时，修改当前状态，也即将对应的当前状态从语音信号修改为风噪信号，或者从风噪信号修改为语音信号。

当第一帧数标志位i的累计的帧数大于第四预设帧数阈值时，修改当前状态，也即将对应的当前状态从语音信号修改为风噪信号，或者从风噪信号修改为语音信号。

应理解，当暂定状态与当前状态不同时，说明两次判断不一致，此时有可能至少有一次是判断错的，或者是用户说话时词语之间的间隔，因此，可以进行帧数累计。当帧数累计小于帧数阈值时，不修改对应的当前状态，相当于为了保证语句的完整性，防止语句中间断掉，可以忽略短暂这几帧的异常，将其依然当作语音信号。

例如，第7帧第一时域信号的暂定状态为风噪信号，当前状态为语音信号，而进行帧数统计后，暂定状态为语音信号的帧数是6帧，暂定状态为风噪信号的帧数为1帧，数量比较小，说明前面6帧第一时域信号都是语音信号，此时，该第7帧第一时域信号还是语音信号的可能性比较大，或者说该第7帧第一时域信号虽然可能是风噪信号，但为了保证语句的完整性，防止语句中间断掉，可以继续保持当前状态为语音信号，不做修改。

当帧数累计到大于帧数阈值时，修改对应的当前状态，相当于依靠算法确定出的该帧第一时域信号前面多帧待测信号之间的连续性，来预测确定出该帧第一时域信号所对应的状态。

应理解，第三预设帧数阈值和第四预设帧数阈值可以根据需要进行设置和修改，本申请实施例对此不进行任何限制。

S408、在上述S405中，当暂定状态与当前状态相同时，继续确定当前状态是否为风噪信号；或者，在S406之后，当第三帧数标志位k小于或等于第三预设帧数阈值，或第一帧数标志位i小于或等于第四预设帧数阈值，继续确定当前状态是否为风噪信号；又或者，在S407中，修改当前状态之后，可以继续确定当前状态是否为风噪信号。

或者，暂定状态与当前状态虽然不同，但是对应帧数累计数量没有超过预设帧数阈值，此时可以认为由于连续同一暂定状态的第一时域信号的数量太少，可以忽略，所以不用修改，继续保持当前状态为语音信号或风噪信号。

S409、若当前状态对应为风噪信号，剔除对应的信号标志位SF等于-1的第一时域信号，SF等于-1表示确定出的第一时域信号为风噪信号。

S410、若当前状态对应为语音信号，筛选对应的信号标志位SF等于1的第一时域信号，作为第二检测结果；SF等于1表示确定出的第一时域信号为语音信号。

此处，若暂定状态与当前状态不同，修改了当前状态时，此处的当前状态指的是修改后的当前状态。若暂定状态与当前状态相同，此处的当前状态指的是VAD检测确定出的当前状态。

结合图5至图7，例如，图8至图10为本申请实施例提供的一种语音检测方法的示例。

如图8中的(a)所示，针对第一路待测信号流进行分帧后可以得到30帧第一时域信号。针对该30帧多帧第一时域信号所涉及的三个帧数标志位，以及每个第一时域信号所对应的两个信号标志位进行第一初始化处理，使其均为0。

然后，如图8中的(b)所示，从第1帧第一时域信号开始进行VAD检测，确定第1帧第一时域信号对应的过零率大小，以及利用第1帧第一时域信号时频变换后对应的第一频域信号，所对应的谱熵和平坦度大小。并确定过零率、谱熵和平坦度的值是否符合第一条件？当第1帧第一时域信号确定出的过零率、谱熵和平坦度的值不符合第一条件时，确定第1帧第一时域信号的暂定状态为其他信号，int＝0；用于表示暂定状态为其他信号的累计帧数的帧数标志位更新为1，j＝1。

此时，由于第1帧第一时域信号对应的信号标志位SF＝0；暂定状态和当前状态相同，继续确定当前状态是否为语音信号，此处不为语音信号。由此，第1帧第一时域信号的当前状态对应的信号标志位SF保持为0，即SF＝0。

接着，对第2帧第一时域信号进行VAD检测，利用上述方法确定第2帧第一时域信号暂定状态为其他信号，int＝0；暂定状态和当前状态相同，继续确定当前状态是否为语音信号，此处部位语音信号，由此，第2帧第一时域信号的当前状态对应的信号标志位SF保持为0，即SF＝0。

对第3帧第一时域信号开始进行VAD检测，利用上述方法确定第3帧第一时域信号对应的过零率大小，以及利用第3帧第一时域信号时频变换后对应的第一频域信号，所对应的谱熵和平坦度大小。并确定过零率、谱熵和平坦度的值是否符合第一条件？当第3帧第一时域信号确定出的过零率、谱熵和平坦度的值符合第一条件时，确定第3帧第一时域信号暂定状态为语音信号，int＝1；由于初始化后当前状态对应的信号标志位SF为0，因此，可以判断到暂定状态和当前状态不同，用于表示暂定状态为语音信号的累计帧数的帧数标志位更新为1，即i＝1；i的值小于第一预设帧数阈值(例如2帧)，此时可以认为该暂定状态为语音信号的数量太少，判断不可靠。然后，确定到当前状态对应的是其他信号，可以保持当前状态对应的信号标志位SF的值，即SF＝0。

对第4帧第一时域信号进行VAD检测，利用上述方法确定第4帧第一时域信号对应的过零率大小，以及利用第4帧第一时域信号时频变换后对应的第一频域信号，所对应的谱熵和平坦度大小。并确定过零率、谱熵和平坦度的值是否符合第一条件？当第4帧第一时域信号确定出的过零率、谱熵和平坦度的值符合第一条件时，确定第4帧第一待测电信号暂定状态为语音信号，int＝1；由于初始化后当前状态对应的信号标志位SF为0，因此，可以判断到暂定状态和当前状态还是不同，用于表示暂定状态为语音信号的累计帧数的帧数标志位更新为2，即i＝2；i的值小于第一预设帧数阈值，此时，可以继续认为该暂定状态为语音信号的数量不达标，判断不可靠。然后，确定到当前状态对应的其他信号，可以保持当前状态对应的信号标志位SF为0，即SF＝0。

同理，对第5帧第一时域信号至第8帧第一时域信号分别进行VAD检测后，可以确定第5帧第一时域信号至第8帧第一时域信号保持当前状态为其他信号，信号标志位SF为0，即SF＝0。

接着，对第9帧第一时域信号进行VAD检测，利用上述方法确定第9帧第一时域信号暂定状态为其他信号，int＝0；暂定状态和当前状态相同，继续确定当前状态是否为语音信号，此处部位语音信号，由此，第9帧第一时域信号的当前状态对应的信号标志位SF保持为0，即SF＝0。

后续帧数依次类推，在此不再赘述。

可选地，还可以结合该第一次VAD检测中所检测出的语音信号，继续进行第二次VAD检测判断。需要说明的是，在进行第二次VAD检测开始进行第一初始化时，则不需要对当前状态的标志信号位进行归零，应保留第一次VAD检测出的当前状态结果，作为第二次VAD检测初始的当前状态数据。

在此基础上，如图9中的(a)所示，以前9帧第一时域信号中检测出的语音信号为例，虽然第一路待测信号中包括的第5帧至第8帧第一时域信号的当前状态为语音信号，但是，其中可能包括误判断为语音信号的风噪信号。由此，如图9中的(b)所示，可以筛选出第一路待测信号流中的第5帧至第8帧第一时域信号所对应的第一频域信号。同时，还需要确定出与第5帧至第8帧第一时域信号次序相同的第二路待测信号流中的第5帧至第8帧第二时域信号，所对应的第二频域信号。再结合第一频域信号和第二频域信号继续进行风噪检测，以区分真正的语音信号和风噪信号。

如图10中的(a)所示，针对第一路待测信号流确定出的第5帧至第8帧第一时域信号所涉及的当前状态信号标志位SF不进行处理，仅对暂定状态对应的信号标志位int进行归零；同时，对暂定状态对应为其他信号的第二帧数标志位j可以不进行处理，仅对用于表示暂定状态对应为语音信号的帧数标志为i和用于表示暂定状态对应风噪信号的第三帧数标志位k进行第二初始化处理，使其均为0。

如图10中的(b)所示，从第5帧第一时域信号开始进行风噪检测，根据第5帧第一时域信号具有关联关系的第一频域信号、第二频域信号，来确定第5帧第一时域信号对应的相关性、频谱重心和低频能量的值。并确定相关性、频谱重心和低频能量的值是否符合第二条件？当第5帧第一时域信号确定出的相关性、频谱重心和低频能量的值不符合第二条件时，确定第5帧第一时域信号的暂定状态为语音信号，int＝1。

此时，由于第5帧第一时域信号对应的信号标志位SF＝1；暂定状态和当前状态相同，继续确定当前状态是否为语音信号，此处为语音信号。由此，第5帧第一时域信号的当前状态对应的信号标志位SF保持为1，即SF＝1。

接着，对第6帧第一时域信号进行风噪检测，根据第6帧第一时域信号具有关联关系的第一频域信号、第二频域信号，来确定第6帧第一时域信号对应的相关性、频谱重心和低频能量的值。并确定相关性、频谱重心和低频能量的值是否符合第二条件？当第6帧第一时域信号确定出的相关性、频谱重心和低频能量的值符合第二条件时，确定第6帧第一时域信号的暂定状态为风噪信号，int＝-1；当前状态为语音信号，SF＝1，暂定状态和语音状态不同，用于表示暂定状态为风噪信号的累计帧数的第三帧数标志位k更新为1，即k＝1；k的值小于第三预设帧数阈值(例如4帧)，此时可以认为该暂定状态为风噪信号的数量太少，判断不可靠，或者，认为该风噪属于用户说话时字词之间的间隔。然后，确定到当前状态对应的是语音信号，可以保持当前状态对应的信号标志位SF的值，即SF＝1。

对第7帧第一时域信号进行风噪检测，利用上述方法确定第7镇第一时域信号对应的暂定状态为风噪信号，int＝-1；由于暂定状态与当前状态不同，用于表示暂定状态为风噪信号的累计帧数的第三帧数标志位k更为2，即k＝2；k的值还是小于第三预设帧数阈值，此时继续保持当前状态对应的信号标志位SF的值，即SF＝1。

对第8帧第一时域信号进行风噪检测，根据第8帧第一时域信号具有关联关系的第一频域信号、第二频域信号，来确定第8帧第一时域信号对应的相关性、频谱重心和低频能量的值。并确定相关性、频谱重心和低频能量的值是否符合第二条件？当第8帧第一时域信号确定出的相关性、频谱重心和低频能量的值不符合第二条件时，确定第8帧第一时域信号的暂定状态为语音信号，int＝1；由于暂定状态与当前状态相同，继续确定当前状态是否为语音信号，此处为语音信号。由此，第8帧第一时域信号的当前状态对应的信号标志位SF保持为1，即SF＝1。

下面结合图11对电子设备中的界面示意图进行举例描述。

在一种可能的实现方式中，可以在电子设备的设置界面中设置开启“语音检测”的功能，在电子设备中用于通话的应用程序运行后，可以自动开启“语音检测”的功能执行本申请实施例的语音检测方法。

在另一种可能的实现方式中，可以在电子设备的录音应用程序中设置开启“语音检测”功能，根据设置可以在录制音频时可以开启“语音检测”的功能，执行本申请实施例的语音检测方法。

在又一种可能的实现方式中，可以自动开启“语音检测”的功能执行本申请实施例的语音检测方法。

结合第三种实现方式，以电子设备自动开启“语音检测”功能为例，图6是本申请实施例提供的一种电子设备的界面示意图。

例如，如图11所示，以电子设备是手机为例，电子设备显示锁屏界面501，如图11中的(a)所示。当电子设备接收到用户的音频数据时，比如“你好，YoYo！”时，运行智慧助手应用程序，自动执行本申请的语音检测方法，然后，可以根据检测结果进一步确定出关键词，并根据关键词，从文本库中筛选出合适的内容进行播报答复，比如，“在呢”；同时，显示如图11中的(b)所示的界面502。

当电子设备再次接收到用户的音频数据，比如“打开地图”时，可以显示如图11中的(c)所示的界面503；同时，自动执行本申请的语音检测方法，根据检测结果进一步确定出关键词，然后，响应于关键词，运行地图应用程序，并加载、显示如图11中的(d)所示的地图应用程序中的首页504。

应理解，上述举例说明是为了帮助本领域技术人员理解本申请实施例，而非要将本申请实施例限于所例示的具体数值或具体场景。本领域技术人员根据所给出的上述举例说明，显然可以进行各种等价的修改或变化，这样的修改或变化也落入本申请实施例的范围内。

上文结合图1至图11，描述了本申请实施例的语音检测方法和相关显示界面。下面将结合图12至图15，详细描述本申请适用的电子设备的软件系统、硬件系统、装置以及芯片。应理解，本申请实施例中的软件系统、硬件系统、装置以及芯片系统可以执行前述本申请实施例的各种方法，即以下各种产品的具体工作过程，可以参考前述方法实施例中的对应过程。

图12示出了一种适用于本申请的电子设备的硬件系统。电子设备600可用于实现上述方法实施例中描述的语音检测方法。

电子设备600可以包括处理器610，外部存储器接口620，内部存储器621，通用串行总线(universal serial bus，USB)接口630，充电管理模块640，电源管理模块641，电池642，天线1，天线2，移动通信模块650，无线通信模块660，音频模块670，扬声器670A，受话器670B，麦克风670C，耳机接口670D，传感器模块680，按键690，马达691，指示器692，摄像头693，显示屏694，以及用户标识模块(subscriber identification module，SIM)卡接口695等。其中传感器模块680可以包括压力传感器680A，陀螺仪传感器680B，气压传感器680C，磁传感器680D，加速度传感器680E，距离传感器680F，接近光传感器680G，指纹传感器680H，温度传感器680J，触摸传感器680K，环境光传感器680L，骨传导传感器680M等。

示例性地，音频模块670用于将数字音频信息转换成模拟音频信号输出，也可以用于将模拟音频输入转换为数字音频信号。音频模块670还可以用于对音频信号编码和解码。在一些实施例中，音频模块670或者音频模块670的部分功能模块可以设置于处理器610中。

例如，在本申请的实施例中，音频模块670可以将麦克风采集的音频数据向处理器610发送。

需要说明的是，图12所示的结构并不构成对电子设备600的具体限定。在本申请另一些实施例中，电子设备600可以包括比图12所示的部件更多或更少的部件，或者，电子设备600可以包括图12所示的部件中某些部件的组合，或者，电子设备600可以包括图12所示的部件中某些部件的子部件。图12示的部件可以以硬件、软件、或软件和硬件的组合实现。

处理器610可以包括一个或多个处理单元。例如，处理器610可以包括以下处理单元中的至少一个：应用处理器(application processor，AP)、调制解调处理器、图形处理器(graphics processing unit，GPU)、图像信号处理器(image signal processor，ISP)、控制器、视频编解码器、数字信号处理器(digital signal processor，DSP)、基带处理器、神经网络处理器(neural-network processing unit，NPU)。其中，不同的处理单元可以是独立的器件，也可以是集成的器件。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器610中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器610中的存储器为高速缓冲存储器。该存储器可以保存处理器610刚用过或循环使用的指令或数据。如果处理器610需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器610的等待时间，因而提高了系统的效率。

在一些实施例中，处理器610可以包括一个或多个接口。例如，处理器610可以包括以下接口中的至少一个：内部集成电路(inter-integrated circuit，I2C)接口、内部集成电路音频(inter-integrated circuit sound，I2S)接口、脉冲编码调制(pulse code modulation，PCM)接口、通用异步接收传输器(universal asynchronous receiver/transmitter，UART)接口、移动产业处理器接口(mobile industry processor interface，MIPI)、通用输入输出(general-purpose input/output，GPIO)接口、SIM接口、USB接口。

示例性地，处理器610可以用于执行本申请实施例的视频处理方法；例如，获取音频数据，音频数据为第一麦克风和第二麦克风在同一环境中采集的数据；对音频数据进行VAD检测，确定并筛选出语音信号；对VAD检测出的语音信号进行风噪检测，确定并筛选出语音信号。

图12所示的各模块间的连接关系只是示意性说明，并不构成对电子设备600的各模块间的连接关系的限定。可选地，电子设备600的各模块也可以采用上述实施例中多种连接方式的组合。

电子设备600的无线通信功能可以通过天线1、天线2、移动通信模块650、无线通信模块660、调制解调处理器以及基带处理器等器件实现。天线1和天线2用于发射和接收电磁波信号。电子设备600中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。

在一些实施例中，电子设备600的天线1和移动通信模块650耦合，电子设备600的天线2和无线通信模块660耦合，使得电子设备600可以通过无线通信技术与网络和其他电子设备通信。

电子设备600可以通过GPU、显示屏694以及应用处理器实现显示功能。GPU为图像处理的微处理器，连接显示屏694和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器610可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏694可以用于显示图像或视频。

电子设备600可以通过ISP、摄像头693、视频编解码器、GPU、显示屏694以及应用处理器等实现拍摄功能。

ISP用于处理摄像头693反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP可以对图像的噪点、亮度和色彩进行算法优化，ISP还可以优化拍摄场景的曝光和色温等参数。在一些实施例中，ISP可以设置在摄像头693中。

摄像头693用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的红绿蓝(red green blue，RGB)，YUV等格式的图像信号。在一些实施例中，电子设备600可以包括1个或N个摄像头693，N为大于1的正整数。

示例性地，在本申请的实施例中，可以在处理器610中执行语音检测方法。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备600在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备600可以支持一种或多种视频编解码器。这样，电子设备600可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1、MPEG2、MPEG3和MPEG4。

外部存储器接口620可以用于连接外部存储卡，例如安全数码(secure digital，SD)卡，实现扩展电子设备600的存储能力。外部存储卡通过外部存储器接口620与处理器610通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器621可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器621可以包括存储程序区和存储数据区。

电子设备600可以通过音频模块670、扬声器670A、受话器670B、麦克风670C、耳机接口670D以及应用处理器等实现音频功能，例如，音乐播放和录音。

扬声器670A，也称为喇叭，用于将音频电信号转换为声音信号。电子设备600可以通过扬声器670A收听音乐或免提通话。受话器670B，也称为听筒，用于将音频电信号转换成声音信号。

指纹传感器680H用于采集指纹。电子设备600可以利用采集的指纹特性实现解锁、访问应用锁、拍照和接听来电等功能。

触摸传感器680K，也称为触控器件。触摸传感器680K可以设置于显示屏694，由触摸传感器680K与显示屏694组成触摸屏，触摸屏也称为触控屏。触摸传感器680K用于检测作用于其上或其附近的触摸操作。触摸传感器680K可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏694提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器680K也可以设置于电子设备600的表面，并且与显示屏694设置于不同的位置。

上文详细描述了电子设备600的硬件系统，下面介绍电子设备600的软件系统。软件系统可以采用分层架构、事件驱动架构、微核架构、微服务架构或云架构，本申请实施例以分层架构为例，示例性地描述电子设备600的软件系统。

如图13所示，采用分层架构的软件系统分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，软件系统可以分为四层，从上至下分别为应用程序层、应用程序框架层、安卓运行时(Android Runtime)和系统库、以及内核层。

应用程序层可以包括通话、导航、录音、语音助手等应用程序。

示例性地，本申请实施例提供的语音检测方法可以应用于通话应用程序；例如，运行通话应用程序，获取音频数据，音频数据为第一麦克风和第二麦克风在同一环境中采集的数据；对音频数据进行VAD检测，确定并筛选出语音信号；对VAD检测出的语音信号进行风噪检测，确定并筛选出语音信号。

示例性地，本申请实施例提供的语音检测方法可以应用于录音应用程序；例如，运行录音应用程序，获取音频数据，音频数据为第一麦克风和第二麦克风在同一环境中采集的数据；对音频数据进行VAD检测，确定并筛选出语音信号；对VAD检测出的语音信号进行风噪检测，确定并筛选出语音信号。

示例性地，本申请实施例提供的语音检测方法可以应用于导航助手应用程序；例如，运行导航助手应用程序，获取音频数据，音频数据为第一麦克风和第二麦克风在同一环境中采集的数据；对音频数据进行VAD检测，确定并筛选出语音信号；对VAD检测出的语音信号进行风噪检测，确定并筛选出语音信号。

示例性地，本申请实施例提供的语音检测方法可以应用于语音助手应用程序；例如，运行语音助手应用程序，获取音频数据，音频数据为第一麦克风和第二麦克风在同一环境中采集的数据；对音频数据进行VAD检测，确定并筛选出语音信号；对VAD检测出的语音信号进行风噪检测，确定并筛选出语音信号。

应用程序框架层为应用程序层的应用程序提供应用程序编程接口(application programming interface，API)和编程框架。应用程序框架层可以包括一些预定义的函数。

例如，应用程序框架层包括窗口管理器、内容提供器、视图系统、电话管理器、资源管理器和通知管理器。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏、锁定屏幕和截取屏幕。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频、图像、音频、拨打和接听的电话、浏览历史和书签、以及电话簿。

视图系统包括可视控件，例如显示文字的控件和显示图片的控件。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成，例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备的通信功能，例如通话状态(接通或挂断)的管理。

资源管理器为应用程序提供各种资源，比如本地化字符串、图标、图片、布局文件和视频文件。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。

Android Runtime包括核心库和虚拟机。Android Runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理、堆栈管理、线程管理、安全和异常的管理、以及垃圾回收等功能。

系统库可以包括多个功能模块，例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：针对嵌入式系统的开放图形库(open graphics library for embedded systems，OpenGL ES)和2D图形引擎(例如：skia图形库(skia graphics library，SGL))。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D图层和3D图层的融合。

媒体库支持多种音频格式的回放和录制、多种视频格式回放和录制以及静态图像文件。媒体库可以支持多种音视频编码格式，例如:MPEG4、H.264、动态图像专家组音频层面3(moving picture experts group audio layer III，MP3)、高级音频编码(advanced audio coding，AAC)、自适应多码率(adaptive multi-rate，AMR)、联合图像专家组(joint photographic experts group，JPG)和便携式网络图形(portable network graphics，PNG)。

三维图形处理库可以用于实现三维图形绘图、图像渲染、合成和图层处理。

二维图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层可以包括音频驱动和显示驱动等驱动模块。

图14是本申请实施例提供的语音检测装置的结构示意图。该语音检测装置700包括获取单元710和处理单元720。

获取单元710用于获取音频数据，音频数据为第一麦克风和第二麦克风在同一环境中采集的数据。

处理单元720用于对音频数据进行VAD检测，确定并筛选出语音信号；对VAD检测出的语音信号进行风噪检测，确定并筛选出语音信号。

需要说明的是，上述语音检测装置700以功能单元的形式体现。这里的术语“单元”可以通过软件和/或硬件形式实现，对此不作具体限定。

例如，“单元”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specific integrated circuit，ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。

因此，在本申请的实施例中描述的各示例的单元，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

图15示出了本申请提供的一种电子设备的结构示意图。图15中的虚线表示该单元或该模块为可选的，电子设备800可用于实现上述方法实施例中描述的语音检测方法。

电子设备800包括一个或多个处理器801，该一个或多个处理器801可支持电子设备800实现方法实施例中的方法。处理器801可以是通用处理器或者专用处理器。例如，处理器801可以是中央处理器(central processing unit，CPU)、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其它可编程逻辑器件，如分立门、晶体管逻辑器件或分立硬件组件。

处理器801可以用于对电子设备800进行控制，执行软件程序，处理软件程序的数据。电子设备800还可以包括通信单元805，用以实现信号的输入(接收)和输出(发送)。

例如，电子设备800可以是芯片，通信单元805可以是该芯片的输入和/或输出电路，或者，通信单元805可以是该芯片的通信接口，该芯片可以作为终端设备或其它电子设备的组成部分。

又例如，电子设备800可以是终端设备，通信单元805可以是该终端设备的收发器，或者，通信单元805可以是该终端设备的收发电路。

电子设备800中可以包括一个或多个存储器802，其上存有程序804，程序804可被处理器801运行，生成指令803，使得处理器801根据指令803执行上述方法实施例中描述的语音检测方法。

可选地，存储器802中还可以存储有数据。可选地，处理器801还可以读取存储器802中存储的数据，该数据可以与程序804存储在相同的存储地址，该数据也可以与程序804存储在不同的存储地址。

处理器801和存储器802可以单独设置，也可以集成在一起；例如，集成在终端设备的系统级芯片(system on chip，SOC)上。

示例性地，存储器802可以用于存储本申请实施例中提供的语音检测方法的相关程序804，处理器801可以用于在转场处理时调用存储器802中存储的语音检测方法的相关程序804，执行本申请实施例的语音检测方法。例如：获取音频数据，音频数据为第一麦克风和第二麦克风在同一环境中采集的数据。对音频数据进行VAD检测，确定并筛选出语音信号；对VAD检测出的语音信号进行风噪检测，确定并筛选出语音信号。

本申请还提供了一种计算机程序产品，该计算机程序产品被处理器801执行时实现本申请中任一方法实施例所述的语音检测方法。

该计算机程序产品可以存储在存储器802中，例如是程序804，程序804经过预处理、编译、汇编和链接等处理过程最终被转换为能够被处理器801执行的可执行目标文件。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机执行时实现本申请中任一方法实施例所述的语音检测方法。该计算机程序可以是高级语言程序，也可以是可执行目标程序。

可选地，该计算机可读存储介质例如是存储器802。存储器802可以是易失性存储器或非易失性存储器，或者，存储器802可以同时包括易失性存储器和非易失性存储器。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的电子设备的实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

应理解，在本申请的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请的实施例的实施过程构成任何限定。

另外，本文中的术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准总之，以上所述仅为本申请技术方案的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种语音检测方法，其特征在于，应用于包括第一麦克风和第二麦克风的电子设备，所述方法包括：

获取音频数据，所述音频数据为所述第一麦克风和所述第二麦克风在同一环境中采集的数据；

对所述音频数据进行VAD检测，确定并筛选出语音信号；

对VAD检测出的所述语音信号进行风噪检测，确定并筛选出语音信号。
根据权利要求1所述的语音检测方法，其特征在于，当所述音频数据为位于时域的数据时，所述方法还包括：

对所述音频数据进行预处理，所述预处理至少包括分帧和时频变换。
根据权利要求2所述的语音检测方法，其特征在于，所述音频数据包括所述第一麦克风采集的第一路待测信号流和所述第二麦克风采集的第二路待测信号流；

对所述音频数据进行预处理包括：

对所述第一路待测信号流进行所述分帧，得到多帧第一时域信号；

对多帧所述第一时域信号进行所述时频变换，得到多帧第一频域信号；

对所述第二路待测信号流进行所述分帧，得到多帧第二时域信号；

对多帧所述第二时域信号进行所述时频变换，得到多帧第二频域信号；

其中，多帧所述第一时域信号和多帧所述第一频域信号一一对应，多帧所述第二时域信号和多帧所述第二频域信号一一对应。
根据权利要求3所述的语音检测方法，其特征在于，对所述音频数据进行VAD检测，确定并筛选出语音信号，包括：

针对所述第一时域信号，根据所述第一时域信号和与所述第一时域信号对应的所述第一频域信号，确定所述第一时域信号所对应的第一数据，所述第一数据至少包括过零率、谱熵和平坦度；

基于所述第一数据，对所述第一时域信号进行VAD检测，确定并筛选出语音信号。
根据权利要求4所述的语音检测方法，其特征在于，基于所述第一数据，对所述第一时域信号进行VAD检测，确定并筛选出语音信号，包括：

当所述第一数据满足第一条件时，确定所述第一时域信号的暂定状态为语音信号；

当所述第一数据不满足所述第一条件时，确定所述第一时域信号的暂定状态为其他信号，所述其他信号用于指示除语音信号和风噪信号之外的信号；

针对所述第一时域信号，确定所述暂定状态与当前状态是否相同；

当不同，且所述暂定状态为语音信号时，第一帧数标志位的值加1，并确定所述第一帧数标志位的值是否大于第一预设帧数阈值；

当所述第一帧数标志位的值大于所述第一预设帧数阈值时，修改所述当前状态，当所述当前状态为语音信号时，修改为其他信号，当所述当前状态为其他信号时，修改为语音信号；

当不同，且所述暂定状态为其他信号时，第二帧数标志位的值加1，并确定所述第二帧数标志位的值是否大于第二预设帧数阈值；

当所述第二帧数标志位的值大于所述第二预设帧数阈值时，修改所述当前状态；

确定并筛选出修改后的当前状态为语音信号的第一时域信号。
根据权利要求5所述的语音检测方法，其特征在于，所述方法还包括：

当相同，确定并筛选出所述当前状态为语音信号的第一时域信号；或者，

当不同，且所述第一帧数标志位的值小于或等于所述第一预设帧数阈值时，确定并筛选出所述当前状态为语音信号的第一时域信号；或者，

当不同，且所述第二帧数标志位的值小于或等于所述第二预设帧数阈值时，确定并筛选出所述当前状态为语音信号的第一时域信号。
根据权利要求5或6所述的语音检测方法，其特征在于，在当所述第一数据满足第一条件之前，所述方法还包括：进行第一初始化处理，所述第一初始化处理至少包括对所述第一帧数标志位的值和所述第二帧数标志位的值归零。
根据权利要求5至7中任一项所述的语音检测方法，其特征在于，当所述第一数据包括所述过零率、所述谱熵和所述平坦度时，所述第一条件包括：

所述过零率大于过零率阈值，所述谱熵小于谱熵阈值，且所述平坦度小于平坦度阈值。
根据权利要求1至8中任一项所述的语音检测方法，其特征在于，对VAD检测出的所述语音信号进行风噪检测，确定并筛选出语音信号，包括：

针对VAD检测出的为语音信号的第一时域信号，根据所述第一时域信号与所述第一时域信号对应的第一频域信号，以及与所述第一频域信号次序相同的第二频域信号，确定所述第一时域信号所对应的第二数据，所述第二数据至少包括频谱重心、低频能量和相关性；

确定所述第二数据，对所述第一时域信号进行风噪检测，确定并筛选出语音信号。
根据权利要求9所述的语音检测方法，其特征在于，基于所述第二数据，对所述第一时域信号进行风噪检测，确定并筛选出语音信号，包括：

当所述第二数据满足第二条件时，确定所述第一时域信号的暂定状态为风噪信号；

当所述第二数据不满足所述第二条件时，确定所述第一时域信号的暂定状态为语音信号；

针对所述第一时域信号，确定所述暂定状态与当前状态是否相同；

当不同，且所述暂定状态为风噪信号时，第三帧数标志位的值加1，并确定所述第三帧数标志位的值是否大于第三预设帧数阈值；

当所述第三帧数标志位的值大于所述第三预设帧数阈值时，修改所述当前状态，当所述当前状态为语音信号时，修改为风噪信号，当所述当前状态为风噪信号时，修改为语音信号；

当不同，且所述暂定状态为语音信号时，第一帧数标志位的值加1，并确定所述第一帧数标志位的值是否大于第四预设帧数阈值；

当所述第一帧数标志位的值大于所述第四预设帧数阈值时，修改所述当前状态；

确定并筛选出修改后的当前状态为语音信号的第一时域信号。
根据权利要求10所述的语音检测方法，其特征在于，所述方法还包括：

当相同，确定并筛选出所述当前状态为语音信号的第一时域信号；或者，

当不同，且所述第三帧数标志位的值小于或等于所述第三预设帧数阈值时，确定并筛选出所述当前状态为语音信号的第一时域信号；或者，

当不同，且所述第一帧数标志位的值小于或等于所述第四预设帧数阈值时，确定并筛选出所述当前状态为语音信号的第一时域信号。
根据权利要求10或11所述的语音检测方法，其特征在于，在当所述第二数据满足第二条件之前，所述方法还包括：进行第二初始化处理，所述第二初始化处理至少包括对所述第一帧数标志的值和所述第三帧数标志位的值归零。
根据权利要求10至12中任一项所述的语音检测方法，其特征在于，当所述第二数据包括频谱重心、低频能量和相关性时，所述第二条件包括：

所述频谱重心小于频谱重心阈值，所述低频能量大于低频能量阈值，且所述相关性小于所述相关性阈值。
根据权利要求1至13中任一项所述的语音检测方法，其特征在于，所述第一麦克风包括1个或多个第一麦克风，和/或，所述第二麦克风包括1个或多个第二麦克风。
根据权利要求1或14所述的语音检测方法，其特征在于，所述第一麦克风为所述电子设备设置在底部的麦克风，所述第二麦克风为所述电子设备设置在顶部或背面的麦克风。
一种电子设备，其特征在于，包括处理器和存储器；

所述存储器，用于存储可在所述处理器上运行的计算机程序；

所述处理器，用于执行如权利要求1至15中任一项所述的语音检测方法。
一种芯片系统，其特征在于，所述芯片系统应用于电子设备，所述芯片系统包括一个或多个处理器，所述处理器用于调用计算机指令以使得所述电子设备执行如权利要求1至15中任一项所述的语音检测方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，使所述处理器执行如权利要求1至15中任一项所述的语音检测方法。