WO2017181772A1

WO2017181772A1 - 语音检测方法、装置及存储介质

Info

Publication number: WO2017181772A1
Application number: PCT/CN2017/074798
Authority: WO
Inventors: 范海金
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2016-04-22
Filing date: 2017-02-24
Publication date: 2017-10-26
Also published as: US20180247662A1; EP3447769A4; JP2018532155A; CN107305774B; US10872620B2; EP3447769A1; EP3447769B1; KR20180063282A; KR102037195B1; CN107305774A; JP6705892B2

Abstract

一种语音检测方法、装置及存储介质。该方法包括：将待检测的音频信号划分为多个音频段（S302）；提取每个音频段中的音频特征，其中，音频特征至少包括音频段的时域特征及频域特征（S304）；根据音频段的音频特征从音频段中检测出目标语音段（S306）。该方法解决了其它语音检测方法导致的语音检测准确率较低的技术问题。

Description

语音检测方法、装置及存储介质

本申请要求于2016年04月22日提交中国专利局、优先权号为2016102572447、发明名称为“语音检测方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施例涉及计算机领域，具体而言，涉及一种语音检测方法、装置及存储介质。

背景技术

目前，为了简化操作，改善用户体验，在很多领域都开始应用语音信号实现控制。例如，将语音信号作为语音输入密码。但在相关技术中，对语音信号所采用的语音检测方式通常是对输入信号进行单个特征提取，这样提取到的单个特征，往往对噪声较为敏感，无法准确区分干扰声音和语音信号，从而导致语音检测的准确率下降。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语音检测方法、装置及存储介质，以至少解决由于采用相关的语音检测方法所导致的语音检测的准确率较低的技术问题。

根据本发明实施例的一个方面，提供了一种语音检测方法，包括：将待检测的音频信号划分为多个音频段；提取每个上述音频段中的音频特征，其中，上述音频特征至少包括上述音频段的时域特征及频域特征；根据上述音频段的上述音频特征从上述音频段中检测出目标语音段。

根据本发明实施例的另一方面，还提供了一种语音检测装置，包括：划分单元，设置为将待检测的音频信号划分为多个音频段；提取单元，设置为提取每个上述音频段中的音频特征，其中，上述音频特征至少包括上述音频段的时域特征及频域特征；检测单元，设置为根据上述音频段的上述音频特征从上述音频段中检测出目标语音段。

根据本发明实施例的又一方面，还提供了一种存储介质，该存储介质被设置为存储用于执行以下步骤的程序代码：将待检测的音频信号划分为多个音频段；提取每个音频段中的音频特征，其中，音频特征至少包括音频段的时域特征及频域特征；根据音频段的音频特征从音频段中检测出目标语音。

在本发明实施例中，通过将待检测的音频信号划分为多个音频段，并提取每个音频段中的音频特征，其中，音频特征至少包括音频段的时域特征及频域特征，从而实现融合音频段在不同域的多个特征来从上述多个音频段中准确检测出目标语音段，以降低音频段中的噪声信号对语音检测过程的干扰，达到提高检测语音准确率的目的，进而克服相关技术中仅通过单个特征来检测语音方式所导致的检测准确率较低的问题。

进一步，在准确检测出目标语音段的同时，还可以使人机交互设备快速实时地判断出由目标语音段构成的语音段的起始时刻及终止时刻，从而实现人机交互设备对检测出的语音进行准确实时地反应，达到人机自然交互的效果。此外，人机交互设备通过准确检测出目标语音段构成的语音段的起始时刻及终止时刻，还将实现提高人机交互效率的效果，进而克服相关技术中由交互人员通过按下控制按钮来触发启动人机交互过程所导致的人机交互效率较低的问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的语音检测法的应用环境示意图；

图2是根据本发明实施例的另一种可选的语音检测方法的应用环境示意图；

图3是根据本发明实施例的一种可选的语音检测方法的流程示意图；

图4是根据本发明实施例的一种可选的语音检测方法的波形示意图；

图5是根据本发明实施例的另一种可选的语音检测方法的波形示意图；

图6是根据本发明实施例的又一种可选的语音检测方法的波形示意图；

图7是根据本发明实施例的又一种可选的语音检测方法的波形示意图；

图8是根据本发明实施例的又一种可选的语音检测方法的波形示意图；

图9是根据本发明实施例的另一种可选的语音检测方法的流程示意图；

图10是根据本发明实施例的一种可选的语音检测装置的示意图；以及

图11是根据本发明实施例的一种可选的语音检测设备的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种上述语音检测方法的实施例。可选地，在本实施例中，该语音检测方法可以但不限于应用于如图1所示的应用环境中。通过终端102获取待检测的音频信号，将该待检测的音频信号通过网络104发送给服务器106，服务器106将待检测的音频信号划分为多个音频段；提取每个音频段中的音频特征，其中，音频特征至少包括音频段的时域特征及频域特征；并根据音频段的音频特征从音频段中检测出目标语音段。通过融合音频段在时频和频域中多个特征，利用各个特征的互补性，以实现从音频信号的多个音频段中准确检测出目标语音段，从而保证由目标语音段构成的语音段被检测出的准确率。

可选地，在本实施例中，上述语音检测方法还可以但不限于应用于如图2所示的应用环境中。也就是说，在终端102获取到待检测的音频信号后，由终端102来执行上述语音检测方法中对音频段的检测过程，具体过程可以如上，这里不再赘述。

需要说明的是，在本实施例中，图1-2所示的终端仅为一种示例。可选地，在本实施例中，上述终端可以包括但不限于以下至少之一：手机、平板电脑、笔记本电脑、台式PC机、数字电视及其他人机交互设备。上述只是一种示例，本实施例对此不做任何限定。可选地，在本实施例中，上述网络可以包括但不限于以下至少之一：广域网、城域网、局域网。上述只是一种示例，本实施例对此不做任何限定。

根据本发明实施例，提供了一种语音检测方法，如图3所示，该方法包括：

S302，将待检测的音频信号划分为多个音频段；

S304，提取每个音频段中的音频特征，其中，音频特征至少包括音频段的时域特征及频域特征；

S306，根据音频段的音频特征从音频段中检测出目标语音段。

可选地，在本实施例中，上述语音检测方法可以但不限于应用于以下至少一种场景中：智能机器人聊天系统、自动问答系统、人机聊天软件等。也就是说，将本实施例中所提供的语音检测方法应用于人机交互过程中，通过提取音频段中至少包括音频段的时域特征及频域特征的音频特征，来准确检测出对待检测的音频信号中所划分的多个音频段中的目标语音段，从而使用于人机交互的设备可以获知由目标语音段构成的语音段的起始时刻及终止时刻，以便于设备在获取所要表达的完整的语音信息后再进行准确答复。这里，在本实施例中，上述语音段可以包括但不限于：一个目标语音段或连续多个目标语音段。其中，每一个目标语音段包括该目标语音段的起始时刻及终止时刻。本实施例中对此不做任何限定。

需要说明的是，在本实施例中，人机交互设备通过将待检测的音频信号划分为多个音频段，并提取每个音频段中的音频特征，其中，音频特征至少包括音频段的时域特征及频域特征，从而实现融合音频段在不同域的多个特征来从上述多个音频段中准确检测出目标语音段，以降低音频段中的噪声信号对语音检测过程的干扰，达到提高语音检测的准确率的目的，进而克服相关技术中仅通过单个特征来检测语音的方式所导致的检测准确率较低的问题。

进一步，在准确检测出目标语音段的同时，还可以使人机交互设备快速实时地判断出由目标语音段构成的语音段的起始时刻及终止时刻，从而实现人机交互设备对检测获取到的语音信息进行准确实时地反应，达到人机自然交互的效果。此外，人机交互设备通过准确检测出目标语音段构成的语音段的起始时刻及终止时刻，还将实现提高人机交互效率的效果，进而克服相关技术中由交互人员通过按下控制按钮来触发启动人机交互过程所导致的人机交互效率较低的问题。

可选地，在本实施例中，上述音频特征可以包括但不限于以下至少之一：在时域的信号过零率、在时域的短时能量、在频域的谱平度、在时域的信号信息熵、自相关性系数、小波变换后信号、信号复杂度等。

需要说明的是，1)上述信号过零率可以但不限于用于去除一些脉冲噪声的干扰；2)上述短时能量可以但不限于用于衡量音频信号的幅度大小，配合一定的阈值以去除不相关人群说话语音的干扰；3)上述谱平度可以但不限于用于在频域内计算信号的频率分布特性，根据该特征的大小，以判断音频信号是否为背景高斯白噪声；4)上述信号时域信息熵可以但不限于用于度量音频信号在时域的分布特性，该特征用于区别语音信号和一般噪声。在本实施例中，通过在语音检测过程中融合上述在时域及频域的多个特征来抵抗脉冲和背景噪声的干扰，增强鲁棒性，以实现从待检测的音频信号所划分的多个音频段中准确检测出目标语音段，进而达到准确获取该目标语音段构成的语音段的起始时刻及终止时刻，以实现人机自然交互。

可选地，在本实施例中，根据音频段的音频特征从音频信号的多个音频段中检测出目标语音段的方式可以包括但不限于：判断音频段的音频特征是否满足预定阈值条件；在音频段的音频特征满足预定阈值条件时，则检测出该音频段为目标语音段。

需要说明的是，在本实施例中，在判断音频段的音频特征是否满足预定阈值条件时，可以按照以下至少一种顺序从多个音频段获取用于进行判断的当前音频段：1)按照音频信号的输入顺序；2)按照预定顺序。其中，上述预定顺序可以为随机顺序，也可以为按照预定原则排列的顺序，例如按照音频段的大小顺序。上述仅是一种示例，本实施例中对此不做任何限定。

此外，在本实施例中，上述预定阈值条件可以但不限于将根据变化的场景进行自适应更新调整。通过不断更新用于与音频特征进行比较的预定阈值条件，以保证在检测过程中根据不同场景准确从多个音频段中检测出目标语音段。进一步，对于音频段在多个域的多个特征，通过分别判断是否满足对应的预定阈值条件，以实现对音频段进行多次判断筛选，从而保证准确地检测出目标语音段。

可选地，在本实施例中，在按照音频信号的输入顺序从多个音频段中获取音频段，以判断音频段的音频特征是否满足预定阈值条件的情况下，根据音频段的音频特征从音频段中检测出目标语音段包括：重复执行以下步骤，直至当前音频段为多个音频段中的最后一个音频段，其中，当前音频段被初始化为多个音频段中的第一个音频段：

S1，判断当前音频段的音频特征是否满足预定阈值条件；

S2，在当前音频段的音频特征满足预定阈值条件时，则检测出当前音频段为目标语音段；

S3，在当前音频段的音频特征不满足预定阈值条件时，至少根据当前音频段的音频特征更新预定阈值条件，得到更新后的预定阈值条件；

S4，判断当前音频段是否为多个音频段中的最后一个音频段，若不是，则将当前音频段的下一个音频段作为当前音频段。

需要说明的是，在本实施例中，上述预定阈值条件可以但不限于至少根据当前音频段的音频特征更新，以得到更新后的预定阈值条件。也就是说，在更新上述预定阈值条件时，是根据当前音频段(历史音频段)的音频特征来确定下一个音频段所需的预定阈值条件，从而使对音频段的检测过程更加准确。

可选地，在本实施例中，在将待检测的音频信号划分为多个音频段之后，还包括：

S1，获取多个音频段中前N个音频段，其中，N为大于1的整数；

S2，根据前N个音频段构建抑噪模型，其中，抑噪模型用于对多个音频段中第N+1个音频段及其之后的音频段进行抑噪处理；

S3，根据前N个音频段获取初始预定阈值条件。

需要说明的是，为了保证语音检测过程的准确率，在本实施例中将对多个音频段进行抑噪处理，以避免噪声对语音信号的干扰。例如，采用最小均方误差对数谱幅度估计方式来消除音频信号的背景噪声。

可选地，在本实施例中，上述前N个音频段可以但不限于为无语音输入的音频段。也就是说，在人机交互过程开启前，执行初始化操作，通过无语音输入的音频段来构建抑噪模型，并获取用于判断音频特征的初始预定阈值条件。其中，上述初始预定阈值条件可以但不限于根据前N个音频段的音频特征的平均值确定。

可选地，在本实施例中，在提取每个音频段中的音频特征之前，还包括：对采集到的待检测的音频信号进行二次量化，其中，第二次量化的量化级小于第一次量化的量化级。

需要说明的是，在本实施例中，第一次量化可以但不限于在采集音频信号时进行；第二次量化可以但不限于在执行抑噪处理后进行。此外，在本实施例中，量化级越大，干扰越敏感，也就是说，在量化级较大时，由于量化间隔较小，因而较小的噪声信号也会被执行量化操作，这样量化后的结果既包括语音信号，也包括噪声信号，对语音信号检测造成了很大干扰。在本实施例中，通过调整量化级实现二次量化，即第二次量化的量化级小于第一次量化的量化级，从而实现对噪声信号进行二次过滤，以达到降低干扰的效果。

可选地，在本实施例中，将待检测的音频信号划分为多个音频段可以包括但不限于：通过定长窗口采样设备采集到的音频信号。其中，在本实施例中，上述定长窗口的长度较小，例如，采用的窗口的长度为256(信号个数)。即，通过小窗口实现对音频信号的划分，从而实现实时地返回处理结果，以便完成语音信号的实时检测。

通过本申请提供的实施例，通过将待检测的音频信号划分为多个音频段，并提取每个音频段中的音频特征，其中，音频特征至少包括音频段的时域特征及频域特征，从而实现融合音频段在不同域的多个特征来从上述多个音频段中准确检测出目标语音段，以降低音频段中的噪声信号对语音检测过程的干扰，达到提高语音检测的准确率的目的，进而克服相关技术中仅通过单个特征来检测语音的方式所导致的检测准确率较低的问题。

作为一种可选的方案，根据音频段的音频特征从音频段中检测出目标语音段包括：

S1，判断当前音频段的音频特征是否满足预定阈值条件，其中，当前音频段的音频特征包括：当前音频段在时域的信号过零率、当前音频段在时域的短时能量、当前音频段在频域的谱平度、当前音频段在时域的信号信息熵；

S2，在当前音频段的音频特征满足预定阈值条件时，则检测出当前音频段为目标语音段。

可选地，在本实施例中，对N个音频段中的当前音频段x(i)的音频特征可以通过如下公式获取：

1)在时域的信号过零率(即短时过零率)计算：

其中sgn[]是符号函数：

2)在时域的短时能量计算：

其中h[i]是窗口函数，当采用下列函数

3)在频域的谱平度计算：

首先对音频段x(i)i＝0，1，2…，N-1进行傅立叶变换得到频域幅度值大小f(i)i＝0，1，2…，N-1；

根据以下公式计算谱平度：

4)在时域的信号信息熵计算：

首先计算信号绝对值归一化后的相对概率大小：

再根据以下公式计算信号信息熵：

具体结合以下示例进行说明，如图4示出了带有脉冲噪声的原始音频信号，中间带((横轴50000-150000之间的信号)有一些脉冲噪声，语音信号为最后一段(横轴230000-240000之间的信号)；图5示出了对原始音频信号单独提取信号过零率的音频信号，可以看到根据信号过零率特征能够很好地区别出脉冲噪声，如中间带((横轴50000-150000之间的信号)的脉冲噪声可以被直接过滤，但是对于低能量的非脉冲噪声(横轴210000-220000之间的信号)却不能被区分出来；图6示出了对原始音频信号单独提取短时能量的音频信号，可以看到根据短时能量特征可以过滤低能量的非脉冲噪声(横轴210000-220000之间的信号)，但是却无法区分中间带((横轴50000-150000之间的信号)的脉冲噪声(脉冲信号也有比较大的能量)；图7示出了对原始音频信号提取谱平度和信号信息熵音频信号，这两者能过把语音信号和脉冲噪声都检测出来，能够最大程度的保留所有类语音信号；进一步，图8示出了采用本实施例中提供的方式：在提取谱平度和信号信息熵的基础上结合短时能量特征及信号过零率特征，可以分辨脉冲噪声和其他低能量噪声的干扰，把实际的语音信号检测出来。由上述附图所示信号可知，本实施例中提取出的音频信号将更利于准确检测出目标语音段。

通过本申请提供的实施例，通过在语音检测过程中融合上述在时域及频域的多个特征来抵抗脉冲和背景噪声的干扰，增强鲁棒性，以实现从待检测的音频信号所划分的多个音频段中准确检测出目标语音段，进而达到准确获取该目标语音段对应的语音信号的起始时间及终止时间，实现人机之间的自然交互。

S1，重复执行以下步骤，直至当前音频段为多个音频段中的最后一个音频段，其中，当前音频段被初始化为多个音频段中的第一个音频段：

S11，判断当前音频段的音频特征是否满足预定阈值条件；

S12，在当前音频段的音频特征满足预定阈值条件时，则检测出当前音频段为目标语音段；

S13，在当前音频段的音频特征不满足预定阈值条件时，至少根据当前音频段的音频特征更新预定阈值条件，得到更新后的预定阈值条件；

S14，判断当前音频段是否为多个音频段中的最后一个音频段，若不是，则将当前音频段的下一个音频段作为当前音频段。

可选地，在本实施例中，上述预定阈值条件可以但不限于将根据变化的场景进行自适应更新调整。其中，在本实施例中，在按照音频信号的输入顺序从多个音频段中获取音频段，以判断音频段的音频特征是否满足预定阈值条件的情况下，上述预定阈值条件可以但不限于至少根据当前音频段的音频特征更新。也就是说，在需要更新预定阈值条件时，基于当前音频段(历史音频段)获取下一个更新后的预定阈值条件。

需要说明的是，对于待检测的音频信号来说，包括多个音频段，上述判断过程将对各个音频段重复执行，直至遍历上述待检测音频信号所划分的多个音频段。即，直至当前音频段为多个音频段中的最后一个音频段。

通过本申请提供的实施例，通过不断更新用于与音频特征进行比较的预定阈值条件，以保证在检测过程中根据不同场景准确从多个音频段中检测出目标语音段。进一步，对于音频段在多个域的多个特征，通过分别判断是否满足对应的预定阈值条件，以实现对音频段进行多次判断筛选，从而保证检测出准确的目标语音段。

作为一种可选的方案，

S1，判断当前音频段的音频特征是否满足预定阈值条件包括：S11，判断当前音频段在时域的信号过零率是否大于第一阈值；在当前音频段的信号过零率大于第一阈值时，判断当前音频段在时域的短时能量是否大于第二阈值；在当前音频段的短时能量大于第二阈值时，判断当前音频段在频域的谱平度是否小于第三阈值；在当前音频段在频域的谱平度小于第三阈值时，判断当前音频段在时域的信号信息熵是否小于第四阈值；

S2，在当前音频段的音频特征满足预定阈值条件时，则检测出当前音频段为目标语音段包括：S21，在判断出当前音频段的信号信息熵小于第四阈值时，则检测出当前音频段为目标语音段。

可选地，在本实施例中，上述根据当前音频段在时域及频域的多个特征来检测目标语音段的过程可以但不限于在对音频信号进行第二次量化后执行。本实施例中对此不做任何限定。

需要说明的是，上述音频特征在语音检测过程的作用如下：

1)信号过零率：获取当前音频段在时域的信号过零率；该信号过零率表示一段音频信号中波形穿过零轴的次数，一般情况下，语音信号的过零率比非语音信号大；

2)短时能量：获取当前音频段在时域幅度上的时域能量；该短时能量信号用于在信号能量上区分非语音信号和语音信号；一般情况下，语音信号的短时能量大于非语音信号的短时能量；

3)谱平度：对当前音频段进行傅立叶变换并计算其谱平度；其中，语音信号的频率分布比较集中，对应的谱平度较小；高斯白噪声信号频率分布比较分散，对应的谱平度较大；

4)信号信息熵：对当前音频段进行归一化后计算信号信息熵；其中，语音信号分布比较集中，对应的信号信息熵小，非语音信号特别是高斯白噪声分布比较分散，对应的信号信息熵比较大。

具体结合图9所示示例进行说明：

S902，获取当前音频段的音频特征；

S904，判断当前音频段的信号过零率是否大于第一阈值，如果当前音频段的信号过零率大于第一阈值，则进行下一步操作；如果当前音频段的信号过零率小于等于第一阈值，那么当前音频段直接判定为非目标语音段；

S906，判断当前音频段的短时能量是否大于第二阈值，如果大于第二阈值，则进行下一步的判断；如果当前音频段的短时能量小于等于第二阈值，那么当前音频段直接判定为非目标语音段，并根据该当前音频段的短时能量更新第二阈值；

S908，判断当前音频段的谱平度是否小于第三阈值，如果小于第三阈值，则进行下一步的判断；如果当前音频段的谱平度大于等于第三阈值，那么当前音频段直接判定为非目标语音段，并根据该当前音频段的谱平度更新第三阈值；

S910，判断当前音频段的信号信息熵是否小于第四阈值，如果小于第四阈值，则进行下一步的判断；如果当前音频段的信号信息熵大于等于第四阈值，那么当前音频段直接判定为非目标语音段，并根据该当前音频段的谱平度更新第四阈值。

在执行完步骤S910后，在判断出上述四个特征均满足所对应的预定阈值条件时，则判定当前音频段为目标语音段。

通过本申请提供的实施例，通过融合音频段在不同域的多个特征来从上述多个音频段中准确检测出目标语音段，以降低音频段中的噪声信号对语音检测过程的干扰，达到提高语音检测的准确率的目的。

作为一种可选的方案，至少根据当前音频段的音频特征更新预定阈值条件包括：

1)在当前音频段的短时能量小于等于第二阈值时，至少根据当前音频段的短时能量更新第二阈值；或者

2)在当前音频段的谱平度大于等于第三阈值时，至少根据当前音频段的谱平度更新第三阈值；或者

3)在当前音频段的信号信息熵大于等于第四阈值时，至少根据当前音频段的信号信息熵更新第四阈值。

可选地，在本实施例中，至少根据当前音频段的音频特征更新预定阈值条件包括：

A＝a×A'+(1-a)×B (8)

其中，a表示衰减系数，在B表示当前音频段的短时能量时，A’表示第二阈值，A表示更新后的第二阈值；在B表示当前音频段的谱平度时，A’表示第三阈值，A表示更新后的第三阈值；在B表示当前音频段的信号信息熵时，A’表示第四阈值，A表示更新后的第四阈值。

也就是说，在更新上述预定阈值条件时，是根据当前音频段(历史音频段)的音频特征来确定下一个音频段所需的预定阈值条件，从而使对目标语音检测过程更加准确。

通过本申请提供的实施例，通过不断更新用于与音频特征进行比较的预定阈值条件，以保证在检测过程中根据不同场景准确从多个音频段中检测出目标语音段。

作为一种可选的方案，在根据音频段的音频特征从音频段中检测出目标语音段之后，还包括：

S1，根据目标语音段在多个音频段中的位置确定目标语音段构成的连续语音段的起始时刻及终止时刻。

可选地，在本实施例中，上述语音段可以包括但不限于一个目标语音段，或连续多个目标语音段。其中，每一个目标语音段包括目标语音段的起始时刻，及目标语音段的终止时刻。

需要说明的是，在本实施例中，在从多个音频段检测出目标语音段的同时，即可根据目标语音段的时间标签，如目标语音段的起始时刻及目标语音段的终止时刻，来获取目标语音段构成的语音段的起始时刻及终止时刻。

可选地，在本实施例中，根据目标语音段在多个音频段中的位置确定目标语音段构成的连续语音段的起始时刻及终止时刻包括：

S1，获取连续K个目标语音段中的第一个目标语音段的起始时刻，作为连续语音段的起始时刻；

S2，在确认连续语音段的起始时刻后，获取在第K个目标语音段之后，连续M个非目标语音段中的第一个非目标语音段的起始时刻，作为连续语音段的终止时刻。

可选地，在本实施例中，上述K为大于等于1的整数，上述M可以根据不同场景设置为不同取值，本实施例中对此不做任何限定。

具体结合以下示例进行说明，假设从多个(例如，20个)音频段(假设每段时长均为T)中检测出的目标语音段包括：P1-P5，P7-P8，P10，P17-P20。进一步，假设M为5。

基于上述假设可知，前5个目标语音段连续，P5与P7之间包括一个非目标语音段(即P6)，P8与P10之间包括一个非目标语音段(即P9)，P10与P17之间包括6个非目标语音段(即P11-P16)。

根据前K个(即前5个)连续目标语音段可以确认：从待检测的音频信号中检测出一个包含语音信号的语音段A，其中，该语音段A的起始时刻为前5个目标语音段中的第一个目标语音段的起始时刻(即P1的起始时刻)。进一步，由于P5与P7之间非目标语音段的数量为1，即小于M(M＝5)；由于P8与P10之间非目标语音段的数量为1，即小于M(M＝5)，则可以判定在非目标语音段P6及非目标语音段P9时，上述语音段A并未终止。而由于P10与P17之间非目标语音段的数量为6，即大于M(M＝5)，即连续非目标语音段(P11-P16)的数量已满足M个的预设阈值，则可以判定上述语音段A在连续非目标语音段(即P11-P16)中的第一个非目标语音段的起始时刻(即P11的起始时刻)终止，则将P11的起始时刻作为语音段A的终止时刻。也就是说，语音段A的起始时刻为P1的起始时刻0，终止时刻为P11的起始时刻10T。

这里，需要说明的是，在本示例中，上述连续目标语音段P17-P20将用于判定下一个语音段B的检测过程。检测过程可以参照上述过程执行，本实施例中在此不再赘述。

此外，在本实施例中，可以但不限于实时获取待检测的音频信号，以便于检测音频信号中的音频段是否为目标语音段，从而达到准确检测出目标语音段构成的语音段的起始时刻及语音段的终止时刻，进而实现人机交互设备可以根据完整的语音段所要表达的语音信息后再进行准确答复，实现人机交互。需要说明的是，在实时获取待检测的音频信号的过程中，对于语音检测可以但不限于重复执行上述检测步骤。本实施例中在此不再赘述。

通过本申请提供的实施例，在准确检测出目标语音段的同时，还可以使人机交互设备快速实时地判断出目标语音段构成的语音段的起始时刻及终止时刻，从而实现人机交互设备对检测获取到的语音信息进行准确实时地反应，达到人机自然交互的效果。此外，人机交互设备通过准确检测出目标语音段所对应的语音信号的起始时间及终止时间，还将实现提高人机交互效率的效果，进而克服相关技术中由交互人员通过按下控制按钮来触发启动人机交互过程所导致的人机交互效率较低的问题。

作为一种可选的方案，在将待检测的音频信号划分为多个音频段之后，还包括：

S3，根据前N个音频段获取初始预定阈值条件。

例如，具体通过以下方式根据前N个音频段构建抑噪模型。假设音频信号包括纯净语音信号和独立的高斯白噪声，则可以通过以下方式来抑噪：对前N个音频段的背景噪声进行傅立叶变换，得到信号的频域信息；根据该背景噪声的频域信息，估计出噪声的频域对数普特征，以构建抑噪模型。进一步，对第N+1个音频段及其之后的音频段，可以但不限于基于上述抑噪模型采用最大释然估计方法，实现对音频信号进行消除噪声处理。

又例如，在人机交互过程开启前，执行初始化操作，通过无语音输入的音频段来构建抑噪模型，并获取用于判断音频特征的初始预定阈值条件。其中，上述初始预定阈值条件可以但不限于根据前N个音频段的音频特征的平均值确定。

通过本申请提供的实施例，利用多个音频段中前N个音频段来实现人机交互的初始化操作，如构建抑噪模型，以对多个音频段进行抑噪处理，避免噪声对语音信号的干扰。如获取用于判断音频特征的初始预定阈值条件，以便于对多个音频段进行语音检测。

作为一种可选的方案，在提取每个音频段中的音频特征之前，还包括：

S1，采集待检测的音频信号，其中，在采集音频信号时对音频信号进行第一次量化；

S2，对采集到的音频信号进行第二次量化，其中，第二次量化的量化级小于第一次量化的量化级。

需要说明的是，在本实施例中，第一次量化可以但不限于在采集音频信号时进行；第二次量化可以但不限于在执行抑噪处理后进行。此外，在本实施例中，量化级越大，干扰越敏感，也就是说，较小的干扰越容易对语音信号造成干扰，通过调整量化级进行二次干扰，以实现对干扰的二次过滤的效果。

具体结合以下示例进行说明，例如，在第一次量化时，采用16比特，在第二次量化时，采用8比特，即[-128--127]的范围；从而实现通过再次过滤，来准确区分语音信号与噪声。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述语音检测方法的语音检测装置，如图10所示，该装置包括：

1)划分单元1002，设置为将待检测的音频信号划分为多个音频段；

3)提取单元1004，设置为提取每个音频段中的音频特征，其中，音频特征至少包括音频段的时域特征及频域特征；

3)检测单元1006，设置为根据音频段的音频特征从音频段中检测出目标语音段。

可选地，在本实施例中，上述语音检测装置可以但不限于应用于以下至少一种场景中：智能机器人聊天系统、自动问答系统、人机聊天软件等。也就是说，将本实施例中所提供的语音检测装置应用于人机交互过程中，通过提取音频段中至少包括音频段的时域特征及频域特征的音频特征，来准确检测出对待检测的音频信号中所划分的多个音频段中的目标语音段，从而使用于人机交互的设备可以获知由目标语音段构成的语音段的起始时刻及终止时刻，以便于设备在获取所要表达的完整的语音信息后再进行准确答复。这里，在本实施例中，上述语音段可以包括但不限于：一个目标语音段或连续多个目标语音段。其中，每一个目标语音段包括该目标语音段的起始时刻及终止时刻。本实施例中对此不做任何限定。

S1，判断当前音频段的音频特征是否满足预定阈值条件；

可选地，在本实施例中，上述装置还包括：

1)第一获取单元，设置为在将待检测的音频信号划分为多个音频段之后，获取多个音频段中前N个音频段，其中，N为大于1的整数；

2)构建单元，设置为根据前N个音频段构建抑噪模型，其中，抑噪模型用于对多个音频段中第N+1个音频段及其之后的音频段进行抑噪处理；

3)第二获取单元，设置为根据前N个音频段获取初始预定阈值条件。

作为一种可选的方案，检测单元1006包括：

1)判断模块，设置为判断当前音频段的音频特征是否满足预定阈值条件，其中，当前音频段的音频特征包括：当前音频段在时域的信号过零率、当前音频段在时域的短时能量、当前音频段在频域的谱平度、当前音频段在时域的信号信息熵；

2)检测模块，设置为在当前音频段的音频特征满足预定阈值条件时，则检测出当前音频段为目标语音段。

1)在时域的信号过零率(即短时过零率)计算：

其中sgn[]是符号函数：

2)在时域的短时能量计算：

其中h[i]是窗口函数，当采用下列函数

3)在频域的谱平度计算：

根据以下公式计算谱平度：

4)在时域的信号信息熵计算：

首先计算信号绝对值归一化后的相对概率大小：

再根据以下公式计算信号信息熵：

具体结合以下示例进行说明，如图4示出了带有脉冲噪声的原始音频信号，中间带((横轴50000-150000之间的信号)有一些脉冲噪声，语音信号为最后一段(横轴230000-240000之间的信号)；图5示出了对原始音频信号单独提取信号过零率的音频信号，可以看到根据信号过零率特征能够很好地区别出脉冲噪声，如中间带((横轴50000-150000之间的信号)的脉冲噪声可以被直接过滤，但是对于低能量的非脉冲噪声(横轴210000-220000之间的信号)却不能被区分出来；图6示出了对原始音频信号单独提取短时能量的音频信号，可以看到根据短时能量特征可以过滤低能量的非脉冲噪声(横轴210000-220000之间的信号)，但是却无法区分中间带((横轴50000-150000之间的信号)的脉冲噪声(脉冲信号也有比较大的能量)；图7示出了对原始音频信号提取谱平度和信号信息熵音频信号，这两者能过把语音信号和脉冲噪声都检测出来，能够最大程度的保留所有类语音信号；进一步，此外，图8示出了采用本实施例中提供的方式：在提取谱平度和信号信息熵的基础上结合提取短时能量上述四个特征及信号过零率特征的音频信号。，可以分辨脉冲噪声和其他低能量噪声的干扰，把实际的语音信号检测出来。由上述附图所示信号可知，本实施例中提取出的音频信号将更利于准确检测出目标语音段。

作为一种可选的方案，检测单元1006包括：

1)判断模块，设置为重复执行以下步骤，直至当前音频段为多个音频段中的最后一个音频段，其中，当前音频段被初始化为多个音频段中的第一个音频段：

S1，判断当前音频段的音频特征是否满足预定阈值条件；

作为一种可选的方案，

1)判断模块包括：(1)判断子模块，设置为判断当前音频段在时域的信号过零率是否大于第一阈值；在当前音频段的信号过零率大于第一阈值时，判断当前音频段在时域的短时能量是否大于第二阈值；在当前音频段的短时能量大于第二阈值时，判断当前音频段在频域的谱平度是否小于第三阈值；在当前音频段在频域的谱平度小于第三阈值时，判断当前音频段在时域的信号信息熵是否小于第四阈值；

2)检测模块包括：(1)检测子模块，设置为在判断出当前音频段的信号信息熵小于第四阈值时，则检测出当前音频段为目标语音段。

需要说明的是，上述音频特征在语音检测过程的作用如下：

具体结合图9所示示例进行说明：

S902，获取当前音频段的音频特征；

作为一种可选的方案，判断模块通过以下步骤实现至少根据当前音频段的音频特征更新预定阈值条件包括：

可选地，在本实施例中，判断模块通过以下步骤实现至少根据当前音频段的音频特征更新预定阈值条件包括：

A＝a×A'+(1-a)×B (8)

作为一种可选的方案，还包括：

1)确定单元，设置为在根据音频段的音频特征从音频段中检测出目标语音段之后，根据目标语音段在多个音频段中的位置确定目标语音段构成的连续语音段的起始时刻及终止时刻。

可选地，在本实施例中，上述确定单元包括：

1)第一获取模块，设置为获取连续K个目标语音段中的第一个目标语音段的起始时刻，作为连续语音段的起始时刻；

2)第二获取模块，设置为在确认连续语音段的起始时刻后，获取在第K个目标语音段之后，连续M个非目标语音段中的第一个非目标语音段的起始时刻，作为连续语音段的终止时刻

根据前K个(即前5个)连续目标语音段可以确认：从待检测的音频信号中检测出一个包含语音信号的语音段A，其中，该语音段A的起始时刻为前5个目标语音段中的第一个目标语音段的起始时刻(即P1的起始时刻)。进一步，由于P5与P7之间非目标语音段的数量为1，即小于M(M＝5)；由于P8与P10之间非目标语音段的数量为1，即小于 M(M＝5)，则可以判定在非目标语音段P6及非目标语音段P9时，上述语音段A并未终止。而由于P10与P17之间非目标语音段的数量为6，即大于M(M＝5)，即连续非目标语音段(P11-P16)的数量已满足M个的预设阈值，则可以判定上述语音段A在连续非目标语音段(即P11-P16)中的第一个非目标语音段的起始时刻(即P11的起始时刻)终止，则将P11的起始时刻作为语音段A的终止时刻。也就是说，语音段A的起始时刻为P1的起始时刻0，终止时刻为P11的起始时刻10T。

通过本申请提供的实施例，在准确检测出目标语音段的同时，还可以使人机交互设备快速实时地判断出目标语音段构成的语音段的起始时刻及终止时刻，从而实现人机交互设备对获取到的语音信息进行准确实时地反应，达到人机自然交互的效果。此外，人机交互设备通过准确检测出目标语音段所对应的语音信号的起始时间及终止时间，还将实现提高人机交互效率的效果，进而克服相关技术中由交互人员通过按下控制按钮来触发启动人机交互过程所导致的人机交互效率较低的问题。

作为一种可选的方案，还包括：

1)采集单元，设置为在提取每个音频段中的音频特征之前，采集待检测的音频信号，其中，在采集音频信号时对音频信号进行第一次量化；

2)量化单元，设置为对采集到的音频信号进行第二次量化，其中，第二次量化的量化级小于第一次量化的量化级。

实施例3

根据本发明实施例，还提供了一种用于实施上述语音检测方法的语音检测设备，如图11所示，该设备包括：

1)通讯接口1102，设置为获取待检测的音频信号；

2)处理器1104，与通讯接口1102连接，设置为将待检测的音频信号划分为多个音频段；还设置为提取每个音频段中的音频特征，其中，音频特征至少包括音频段的时域特征及频域特征；还设置为根据音频段的音频特征从音频段中检测出目标语音段；

3)存储器1106，与通讯接口1102及处理器1104连接，设置为存储音频信号中的多个音频段及目标语音段。

可选地，本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例，本实施例在此不再赘述。

实施例4

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S1，将待检测的音频信号划分为多个音频段；

S2，提取每个音频段中的音频特征，其中，音频特征至少包括音频段的时域特征及频域特征；

S3，根据音频段的音频特征从音频段中检测出目标语音。

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：判断当前音频段的音频特征是否满足预定阈值条件，其中，当前音频段的音频特征包括：当前音频段在时域的信号过零率、当前音频段在时域的短时能量、当前音频段在频域的谱平度、当前音频段在时域的信号信息熵；在当前音频段的音频特征满足预定阈值条件时，则检测出当前音频段为目标语音段。

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：根据音频段的音频特征从音频段中检测出目标语音段包括：重复执行以下步骤，直至当前音频段为多个音频段中的最后一个音频段，其中，当前音频段被初始化为多个音频段中的第一个音频段：判断当前音频段的音频特征是否满足预定阈值条件；在当前音频段的音频特征满足预定阈值条件时，则检测出当前音频段为目标语音段；在当前音频段的音频特征不满足预定阈值条件时，至少根据当前音频段的音频特征更新预定阈值条件，得到更新后的预定阈值条件；判断当前音频段是否为多个音频段中的最后一个音频段，若不是，则将当前音频段的下一个音频段作为当前音频段。

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：判断当前音频段的音频特征是否满足预定阈值条件包括：判断当前音频段在时域的信号过零率是否大于第一阈值；在当前音频段的信号过零率大于第一阈值时，判断当前音频段在时域的短时能量是否大于第二阈值；在当前音频段的短时能量大于第二阈值时，判断当前音频段在频域的谱平度是否小于第三阈值；在当前音频段在频域的谱平度小于第三阈值时，判断当前音频段在时域的信号信息熵是否小于第四阈值；在当前音频段的音频特征满足预定阈值条件时，则检测出当前音频段为目标语音段包括：在判断出当前音频段的信号信息熵小于第四阈值时，则检测出当前音频段为目标语音段。

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：在当前音频段的短时能量小于等于第二阈值时，至少根据当前音频段的短时能量更新第二阈值；或者在当前音频段的谱平度大于等于第三阈值时，至少根据当前音频段的谱平度更新第三阈值；或者在当前音频段的信号信息熵大于等于第四阈值时，至少根据当前音频段的信号信息熵更新第四阈值。

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：

A＝a×A'+(1-a)×B，

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：在根据音频段的音频特征从音频段中检测出目标语音段之后，根据目标语音段在多个音频段中的位置确定目标语音段构成的连续语音段的起始时刻及终止时刻。

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：获取连续K个目标语音段中的第一个目标语音段的起始时刻，作为连续语音段的起始时刻；在确认连续语音段的起始时刻后，获取在第K个目标语音段之后，连续M个非目标语音段中的第一个非目标语音段的起始时刻，作为连续语音段的终止时刻。

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：在将待检测的音频信号划分为多个音频段之后，获取多个音频段中前N个音频段，其中，N为大于1的整数；根据前N个音频段构建抑噪模型，其中，抑噪模型用于对多个音频段中第N+1个音频段及其之后的音频段进行抑噪处理；根据前N个音频段获取初始预定阈值条件。

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：在提取每个音频段中的音频特征之前，采集待检测的音频信号，其中，在采集音频信号时对音频信号进行第一次量化；对采集到的音频信号进行第二次量化，其中，第二次量化的量化级小于第一次量化的量化级。

可选地，在本实施例中，存储介质还被设置为存储用于执行以下步骤的程序代码：在对采集到的音频信号进行第二次量化之前，对采集到的音频信号进行抑噪处理。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

工业实用性

Claims

一种语音检测方法，包括：

将待检测的音频信号划分为多个音频段；

提取每个所述音频段中的音频特征，其中，所述音频特征至少包括所述音频段的时域特征及频域特征；

根据所述音频段的所述音频特征从所述音频段中检测出目标语音段。
根据权利要求1所述的方法，其中，根据所述音频段的所述音频特征从所述音频段中检测出所述目标语音段包括：

判断当前音频段的音频特征是否满足预定阈值条件，其中，所述当前音频段的音频特征包括：所述当前音频段在时域的信号过零率、所述当前音频段在时域的短时能量、所述当前音频段在频域的谱平度、所述当前音频段在时域的信号信息熵；

在所述当前音频段的音频特征满足所述预定阈值条件时，则检测出所述当前音频段为所述目标语音段。
根据权利要求1所述的方法，其中，根据所述音频段的所述音频特征从所述音频段中检测出所述目标语音段包括：重复执行以下步骤，直至当前音频段为所述多个音频段中的最后一个音频段，其中，所述当前音频段被初始化为所述多个音频段中的第一个音频段：

判断所述当前音频段的音频特征是否满足预定阈值条件；

在所述当前音频段的音频特征满足所述预定阈值条件时，则检测出所述当前音频段为所述目标语音段；

在所述当前音频段的音频特征不满足所述预定阈值条件时，至少根据所述当前音频段的音频特征更新所述预定阈值条件，得到更新后的所述预定阈值条件；

判断所述当前音频段是否为所述多个音频段中的最后一个音频段，若不是，则将所述当前音频段的下一个音频段作为所述当前音频段。
根据权利要求2或3所述的方法，其中，

判断所述当前音频段的音频特征是否满足所述预定阈值条件包括：判断所述当前音频段在时域的信号过零率是否大于第一阈值；在所述当前音频段的所述信号过零率大于所述第一阈值时，判断所述当前音频段在时域的短时能量是否大于第二阈值；在所述当前音频段的所述短时能量大于所述第二阈值时，判断所述当前音频段在频域的谱平度是否小于第三阈值；在所述当前音频段在频域的所述谱平度小于所述第三阈值时，判断所述当前音频段在时域的信号信息熵是否小于第四阈值；

在所述当前音频段的音频特征满足所述预定阈值条件时，则检测出所述当前音频段为所述目标语音段包括：在判断出所述当前音频段的所述信号信息熵小于所述第四阈值时，则检测出所述当前音频段为所述目标语音段。
根据权利要求4所述的方法，其中，至少根据所述当前音频段的音频特征更新所述预定阈值条件包括：

在所述当前音频段的所述短时能量小于等于所述第二阈值时，至少根据所述当前音频段的所述短时能量更新所述第二阈值；或者

在所述当前音频段的所述谱平度大于等于所述第三阈值时，至少根据所述当前音频段的所述谱平度更新所述第三阈值；或者

在所述当前音频段的所述信号信息熵大于等于所述第四阈值时，至少根据所述当前音频段的所述信号信息熵更新所述第四阈值。
根据权利要求5所述的方法，其中，至少根据所述当前音频段的音频特征更新所述预定阈值条件包括：

A＝a×A'+(1-a)×B，

其中，所述a表示衰减系数，在所述B表示所述当前音频段的所述短时能量时，所述A’表示所述第二阈值，所述A表示更新后的所述第二阈值；在所述B表示所述当前音频段的所述谱平度时，所述A’表示所述第三阈值，所述A表示更新后的所述第三阈值；在所述B表示所述当前音频段的所述信号信息熵时，所述A’表示所述第四阈值，所述A表示更新后的所述第四阈值。
根据权利要求1所述的方法，其中，在根据所述音频段的所述音频特征从所述音频段中检测出目标语音段之后，还包括：

根据所述目标语音段在所述多个音频段中的位置确定所述目标语音段构成的连续语音段的起始时刻及终止时刻。
根据权利要求7所述的方法，其中，所述根据所述目标语音段在所述多个音频段中的位置确定所述目标语音段构成的连续语音段的起始时刻及终止时刻包括：

获取连续K个所述目标语音段中的第一个目标语音段的起始时刻，作为所述连续语音段的所述起始时刻；

在确认所述连续语音段的起始时刻后，获取在第K个目标语音段之后，连续M个非目标语音段中的第一个非目标语音段的起始时刻，作为所述连续语音段的所述终止时刻。
根据权利要求2或3所述的方法，其中，在将待检测的所述音频信号划分为所述多个音频段之后，还包括：

获取所述多个音频段中前N个音频段，其中，所述N为大于1的整数；

根据所述前N个音频段构建抑噪模型，其中，所述抑噪模型用于对所述多个音频段中第N+1个音频段及其之后的音频段进行抑噪处理；

根据所述前N个音频段获取初始预定阈值条件。
根据权利要求1所述的方法，其中，在提取每个所述音频段中的音频特征之前，还包括：

采集待检测的所述音频信号，其中，在采集所述音频信号时对所述音频信号进行第一次量化；

对采集到的所述音频信号进行第二次量化，其中，所述第二次量化的量化级小于所述第一次量化的量化级。
根据权利要求10所述的方法，其中，在所述对采集到的所述音频信号进行第二次量化之前，还包括：

对所述采集到的所述音频信号进行抑噪处理。
一种语音检测装置，包括：

划分单元，设置为将待检测的音频信号划分为多个音频段；

提取单元，设置为提取每个所述音频段中的音频特征，其中，所述音频特征至少包括所述音频段的时域特征及频域特征；

检测单元，设置为根据所述音频段的所述音频特征从所述音频段中检测出目标语音段。
根据权利要求12所述的装置，其中，所述检测单元包括：

判断模块，设置为判断当前音频段的音频特征是否满足预定阈值条件，其中，所述当前音频段的音频特征包括：所述当前音频段在时域的信号过零率、所述当前音频段在时域的短时能量、所述当前音频段在频域的谱平度、所述当前音频段在时域的信号信息熵；

检测模块，设置为在所述当前音频段的音频特征满足所述预定阈值条件时，则检测出所述当前音频段为所述目标语音段。
根据权利要求12所述的装置，其中，所述检测单元包括：

判断模块，设置为重复执行以下步骤，直至当前音频段为所述多个音频段中的最后一个音频段，其中，所述当前音频段被初始化为所述多个音频段中的第一个音频段：

判断所述当前音频段的音频特征是否满足预定阈值条件；

在所述当前音频段的音频特征满足所述预定阈值条件时，则检测出所述当前音频段为所述目标语音段；

在所述当前音频段的音频特征不满足所述预定阈值条件时，至少根据所述当前音频段的音频特征更新所述预定阈值条件，得到更新后的所述预定阈值条件；

判断所述当前音频段是否为所述多个音频段中的最后一个音频段，若不是，则将所述当前音频段的下一个音频段作为所述当前音频段。
根据权利要求13或14所述的装置，其中，

所述判断模块包括：判断子模块，设置为判断所述当前音频段在时域的信号过零率是否大于第一阈值；在所述当前音频段的所述信号过零率大于所述第一阈值时，判断所述当前音频段在时域的短时能量是否大于第二阈值；在所述当前音频段的所述短时能量大于所述第二阈值时，判断所述当前音频段在频域的谱平度是否小于第三阈值；在所述当前音频段在频域的所述谱平度小于所述第三阈值时，判断所述当前音频段在时域的信号信息熵是否小于第四阈值；

所述检测模块包括：检测子模块，设置为在判断出所述当前音频段的所述信号信息熵小于所述第四阈值时，则检测出所述当前音频段为所述目标语音段。
根据权利要求15所述的装置，其中，所述判断模块通过以下步骤实现至少根据所述当前音频段的音频特征更新所述预定阈值条件：

在所述当前音频段的所述短时能量小于等于所述第二阈值时，至少根据所述当前音频段的所述短时能量更新所述第二阈值；或者

在所述当前音频段的所述谱平度大于等于所述第三阈值时，至少根据所述当前音频段的所述谱平度更新所述第三阈值；或者

在所述当前音频段的所述信号信息熵大于等于所述第四阈值时，至少根据所述当前音频段的所述信号信息熵更新所述第四阈值。
根据权利要求16所述的装置，其中，所述判断模块通过以下步骤实现至少根据所述当前音频段的音频特征更新所述预定阈值条件：

A＝a×A'+(1-a)×B，

其中，所述a表示衰减系数，在所述B表示所述当前音频段的所述短时能量时，所述A’表示所述第二阈值，所述A表示更新后的所述第二阈值；在所述B表示所述当前音频段的所述谱平度时，所述A’表示所述第三阈值，所述A表示更新后的所述第三阈值；在所述B表示所述当前音频段的所述信号信息熵时，所述A’表示所述第四阈值，所述A表示更新后的所述第四阈值。
根据权利要求12所述的装置，其中，还包括：

确定单元，设置为在根据所述音频段的所述音频特征从所述音频段中检测出目标语音段之后，根据所述目标语音段在所述多个音频段中的位置确定所述目标语音段构成的连续语音段的起始时刻及终止时刻。
根据权利要求18所述的装置，其中，所述确定单元包括：

第一获取模块，设置为获取连续K个所述目标语音段中的第一个目标语音段的起始时刻，作为所述连续语音段的所述起始时刻；

第二获取模块，设置为在确认所述连续语音段的起始时刻后，获取在第K个目标语音段之后，连续M个非目标语音段中的第一个非目标语音段的起始时刻，作为所述连续语音段的所述终止时刻。
根据权利要求13或14所述的装置，其中，还包括：

第一获取单元，设置为在将待识别的所述音频信号划分为所述多个音频段之后，获取所述多个音频段中前N个音频段，其中，所述N为大于1的整数；

构建单元，设置为根据所述前N个音频段构建抑噪模型，其中，所述抑噪模型用于对所述多个音频段中第N+1个音频段及其之后的音频段进行抑噪处理；

第二获取单元，设置为根据所述前N个音频段获取初始预定阈值条件。
根据权利要求12所述的装置，其中，还包括：

采集单元，设置为在提取每个所述音频段中的音频特征之前，采集待识别的所述音频信号，其中，在采集所述音频信号时对所述音频信号进行第一次量化；

量化单元，设置为对采集到的所述音频信号进行第二次量化，其中，所述第二次量化的量化级小于所述第一次量化的量化级。
根据权利要求21所述的装置，其中，还包括：

抑噪单元，设置为在所述对采集到的所述音频信号进行第二次量化之前，对所述采集到的所述音频信号进行抑噪处理。
一种存储介质，所述存储介质被设置为存储用于执行以下步骤的程序代码：

将待检测的音频信号划分为多个音频段；

提取每个所述音频段中的音频特征，其中，所述音频特征至少包括所述音频段的时域特征及频域特征；

根据所述音频段的所述音频特征从所述音频段中检测出目标语音段。
根据权利要求23所述的存储介质，其中，所述存储介质还被设置为存储用于执行以下步骤的程序代码：

判断当前音频段的音频特征是否满足预定阈值条件，其中，所述当前音频段的音频特征包括：所述当前音频段在时域的信号过零率、所述当前音频段在时域的短时能量、所述当前音频段在频域的谱平度、所述当前音频段在时域的信号信息熵；

在所述当前音频段的音频特征满足所述预定阈值条件时，则检测出所述当前音频段为所述目标语音段。
根据权利要求23所述的存储介质，其中，所述存储介质还被设置为存储用于执行以下步骤的程序代码：

根据所述音频段的所述音频特征从所述音频段中检测出所述目标语音段包括：重复执行以下步骤，直至当前音频段为所述多个音频段中的最后一个音频段，其中，所述当前音频段被初始化为所述多个音频段中的第一个音频段：

判断所述当前音频段的音频特征是否满足预定阈值条件；

在所述当前音频段的音频特征满足所述预定阈值条件时，则检测出所述当前音频段为所述目标语音段；

在所述当前音频段的音频特征不满足所述预定阈值条件时，至少根据所述当前音频段的音频特征更新所述预定阈值条件，得到更新后的所述预定阈值条件；

判断所述当前音频段是否为所述多个音频段中的最后一个音频段，若不是，则将所述当前音频段的下一个音频段作为所述当前音频段。
根据权利要求24或25所述的存储介质，其中，所述存储介质还被设置为存储用于执行以下步骤的程序代码：

判断所述当前音频段的音频特征是否满足所述预定阈值条件包括：判断所述当前音频段在时域的信号过零率是否大于第一阈值；在所述当前音频段的所述信号过零率大于所述第一阈值时，判断所述当前音频段在时域的短时能量是否大于第二阈值；在所述当前音频段的所述短时能量大于所述第二阈值时，判断所述当前音频段在频域的谱平度是否小于第三阈值；在所述当前音频段在频域的所述谱平度小于所述第三阈值时，判断所述当前音频段在时域的信号信息熵是否小于第四阈值；

在所述当前音频段的音频特征满足所述预定阈值条件时，则检测出所述当前音频段为所述目标语音段包括：在判断出所述当前音频段的所述信号信息熵小于所述第四阈值时，则检测出所述当前音频段为所述目标语音段。
根据权利要求26所述的存储介质，其中，所述存储介质还被设置为存储用于执行以下步骤的程序代码：

在所述当前音频段的所述短时能量小于等于所述第二阈值时，至少根据所述当前音频段的所述短时能量更新所述第二阈值；或者

在所述当前音频段的所述谱平度大于等于所述第三阈值时，至少根据所述当前音频段的所述谱平度更新所述第三阈值；或者

在所述当前音频段的所述信号信息熵大于等于所述第四阈值时，至少根据所述当前音频段的所述信号信息熵更新所述第四阈值。
根据权利要求27所述的存储介质，其中，所述存储介质还被设置为存储用于执行以下步骤的程序代码：

A＝a×A'+(1-a)×B，

其中，所述a表示衰减系数，在所述B表示所述当前音频段的所述短时能量时，所述A’表示所述第二阈值，所述A表示更新后的所述第二阈值；在所述B表示所述当前音频段的所述谱平度时，所述A’表示所述第三阈值，所述A表示更新后的所述第三阈值；在所述B表示所述当前音频段的所述信号信息熵时，所述A’表示所述第四阈值，所述A表示更新后的所述第四阈值。
根据权利要求23所述的存储介质，其中，所述存储介质还被设置为存储用于执行以下步骤的程序代码：

在根据所述音频段的所述音频特征从所述音频段中检测出目标语音段之后，根据所述目标语音段在所述多个音频段中的位置确定所述目标语音段构成的连续语音段的起始时刻及终止时刻。
根据权利要求29所述的存储介质，其中，所述存储介质还被设置为存储用于执行以下步骤的程序代码：

获取连续K个所述目标语音段中的第一个目标语音段的起始时刻，作为所述连续语音段的所述起始时刻；

在确认所述连续语音段的起始时刻后，获取在第K个目标语音段之后，连续M个非目标语音段中的第一个非目标语音段的起始时刻，作为所述连续语音段的所述终止时刻。
根据权利要求24或25所述的存储介质，其中，所述存储介质还被设置为存储用于执行以下步骤的程序代码：

在将待检测的所述音频信号划分为所述多个音频段之后，获取所述多个音频段中前N个音频段，其中，所述N为大于1的整数；

根据所述前N个音频段构建抑噪模型，其中，所述抑噪模型用于对所述多个音频段中第N+1个音频段及其之后的音频段进行抑噪处理；

根据所述前N个音频段获取初始预定阈值条件。
根据权利要求23所述的存储介质，其中，所述存储介质还被设置为存储用于执行以下步骤的程序代码：

在提取每个所述音频段中的音频特征之前，采集待检测的所述音频信号，其中，在采集所述音频信号时对所述音频信号进行第一次量化；

对采集到的所述音频信号进行第二次量化，其中，所述第二次量化的量化级小于所述第一次量化的量化级。
根据权利要求32所述的存储介质，其中，所述存储介质还被设置为存储用于执行以下步骤的程序代码：

在所述对采集到的所述音频信号进行第二次量化之前，对所述采集到的所述音频信号进行抑噪处理。