WO2021098153A1

WO2021098153A1 - 目标用户改变的检测方法、系统、电子设备和存储介质

Info

Publication number: WO2021098153A1
Application number: PCT/CN2020/087744
Authority: WO
Inventors: 陆成; 叶顺舟; 康力; 巴莉芳
Original assignee: 锐迪科微电子科技（上海）有限公司
Priority date: 2019-11-18
Filing date: 2020-04-29
Publication date: 2021-05-27
Also published as: CN110838296B; CN110838296A

Abstract

一种语音交互中目标用户改变的检测方法、系统、电子设备和存储介质，检测方法包括：在录音设备开始录音后，在检测到目标用户开始输入语音信号时获取第一设定帧数的第一语音信号；获取第一基音周期及第一基音周期序列；在设定时长后，获取第二设定帧数的第二语音信号；获取第二基音周期及第二基音周期序列；根据第一基音周期序列和第二基音周期序列确定输入第二语音信号的当前用户不是目标用户时，控制录音设备停止录音，该方法实现在目标用户已经停止说话且有非目标用户录入语音时及时停止录音，以避免对后续的语音识别和语义理解产生误差；能够有效地提高VAD检测录入语音的起始点和结束点的准确性，提升了用户的使用体验。

Description

目标用户改变的检测方法、系统、电子设备和存储介质

本申请要求申请日为2019/11/18的中国专利申请2019111265954的优先权。本申请引用上述中国专利申请的全文。

技术领域

本发明涉及人工智能设备技术领域，特别涉及一种语音交互中目标用户改变的检测方法、系统、电子设备和存储介质。

背景技术

随着人工智能技术的快速发展，智能音箱也随之应运而生。智能音箱大多采用麦克风阵列拾音，然后通过用户输入唤醒词(如“你好小锐”)来激活，唤醒后再执行相应的控制指令。

VAD(Voice Activity Detection，语音活动检测)算法，在语音信号处理方面主要用于区分出语音信号中有语音区域和无语音区域，从而让语音处理算法集中处理语音信号中的有效部分，既减少了计算消耗，也避免了影响部分算法的性能。在现有的语音产品应用中，VAD的作用主要就是在设备或产品的语音交互功能被唤醒之后判断麦克风录入语音的起始点和结束点，如果没有VAD算法就只能通过人为地去干预设备的录音。但是，在实际应用场景中存在如下情况：当设备唤醒成功且开启录音功能后，目标用户开始录音，当目标用户说完之后，如果周围突然有其他非目标用户开始说话，此时麦克风仍然会继续拾音，即VAD算法无法准确检测到目标用户的录音结束点，这样就会造成录入非期望的语音，导致后续的语音识别和语义理解产生误差，进而降低了用户体验。

目前，主要通过如下两种方式解决上述存在的问题：1)放弃采用VAD算法，通过人工手动控制录音的开始和结束，这样的录音方式无疑会大大地降低用户的使用体验；2)使用复杂度高的VAD算法，以达到较好的检测效果，但是由于移动终端和嵌入式设备计算资源有限，能耗控制要求严格，因此不仅会造成很难达到实时性的标准，还会导致能耗消耗过快，所以使用复杂的VAD算法难以解决上述问题。

发明内容

本发明要解决的技术问题是为了克服现有技术中无法有效地解决在录音过程中会录入非目标用户的语音数据造成后续的语音识别和语义理解产生误差，降低用户使用体验的缺陷，提供一种语音交互中目标用户改变的检测方法、系统、电子设备和存储介质。

本发明是通过下述技术方案来解决上述技术问题：

本发明提供一种语音交互中目标用户改变的检测方法，所述检测方法包括：

在录音设备开始录音后，判断是否检测到目标用户开始输入语音信号，若是，则获取所述目标用户输入的第一设定帧数的第一语音信号；

获取每帧所述第一语音信号对应的第一基音周期；

根据所述第一基音周期获取与所述第一设定帧数对应的第一基音周期序列；

在设定时长后，获取当前用户输入所述录音设备的第二设定帧数的第二语音信号；

获取每帧所述第二语音信号对应的第二基音周期；

根据所述第二基音周期获取与所述第二设定帧数对应的第二基音周期序列；

计算所述第一基音周期序列和所述第二基音周期序列的相似度；

判断所述相似度是否大于第一设定阈值，若是，则确定输入所述第二语音信号的当前用户是所述目标用户，控制所述录音设备继续录音，并重新执行所述在设定时长后，获取第二设定帧数的第二语音信号的步骤；

若否，则确定输入所述第二语音信号的当前用户不是所述目标用户，并控制所述录音设备停止录音。

较佳地，所述获取每帧所述第一语音信号对应的第一基音周期的步骤包括：

对每帧所述第一语音信号进行预处理；

采用短时能量对预处理后的每帧所述第一语音信号进行处理，获取每帧所述第一语音信号中的第一浊音信号；

采用中心削波法对所述第一浊音信号进行处理，获取第一中间语音信号；

采用波形估计法、自相关处理法或倒谱法对所述第一中间语音信号进行处理，获取每帧所述第一语音信号对应的所述第一基音周期；和/或，

所述获取每帧所述第二语音信号对应的第二基音周期的步骤包括：

对每帧所述第二语音信号进行预处理；

采用短时能量对预处理后的每帧所述第二语音信号进行处理，获取每帧所述第二语音信号中的第二浊音信号；

采用中心削波法对所述第二浊音信号进行处理，获取第二中间语音信号；

采用波形估计法、自相关处理法或倒谱法对所述第二中间语音信号进行处理，获取每帧所述第二语音信号对应的所述第二基音周期。

较佳地，所述计算所述第一基音周期序列和所述第二基音周期序列的相似度的步骤包括：

采用DTW(动态时间规整算法)计算所述第一基音周期序列和所述第二基音周期序列之间的欧氏距离；

根据所述欧氏距离确定所述第一基音周期序列和所述第二基音周期序列的相似度；

其中，所述欧氏距离与所述相似度呈负相关。

较佳地，所述在录音设备开始录音后，判断是否检测到目标用户开始输入语音信号的步骤包括：

在所述录音设备开始录音后，依次获取每帧第一输入信号；

获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率；

当获取的所述第一输入信号的总帧数大于或者等于所述第一设定帧数时，则获取目标输入信号；

其中，当所述第一设定帧数为N时，所述目标输入信号包括当前帧i以及当前帧之前的N-1帧数对应的所述第一输入信号，i≥N＞1且取整数；

根据所述目标输入信号中每帧所述第一输入信号的所述目标语音概率和所述目标非语音概率确定是否检测到所述目标用户开始输入语音信号。

较佳地，所述获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率的步骤之后、所述根据所述目标输入信号中每帧所述第一输入信号的所述目标语音概率和所述目标非语音概率确定是否检测到所述目标用户开始输入语音信号的步骤之前还包括：

对于同一帧所述第一输入信号，判断所述目标语音概率是否大于所述目标非语音概率，若是，则确定当前帧为语音帧；若否，确定当前帧为非语音帧；

获取所述目标输入信号中语音帧对应的第一帧数和非语音帧对应的第二帧数；

计算所述目标输入信号中每帧所述第一输入信号的所述目标语音概率之和得到第一总概率，以及计算所述目标输入信号中每帧所述第一输入信号的所述目标非语音概率之和得到第二总概率；

所述根据所述目标输入信号中每帧所述第一输入信号的所述目标语音概率和所述目标非语音概率确定是否检测到所述目标用户开始输入语音信号的步骤包括：

当所述第一总概率大于或者等于所述第二总概率、所述第一帧数大于或者等于第四设定阈值且当前帧为语音帧时，则确定检测到所述目标用户开始输入语音信号。

较佳地，所述控制所述录音设备继续录音的步骤之后、所述在设定时长后，获取第二设定帧数的第二语音信号的步骤之前还包括：

判断是否检测到所述目标用户结束语音信号输入，若是，则控制所述录音设备停止录音；若否，继续执行所述在设定时长后，获取第二设定帧数的第二语音信号的步骤。

较佳地，所述判断是否检测到目标用户结束语音信号输入，若是，则控制所述录音设备停止录音的步骤包括：

当所述第二总概率大于所述第一总概率、所述第二帧数大于或者等于第五设定阈值且当前帧为非语音帧时，则确定检测到所述目标用户结束语音信号输入，并控制所述录音设备停止录音。

较佳地，当确定所述目标用户未开始输入语音信号时，所述检测方法还包括：

继续获取下一帧所述第一输入信号；

根据下一帧所述第一输入信号获取新的所述目标输入信号；

根据新的所述目标输入信号中每帧所述第一输入信号的所述目标语音概率和所述目标非语音概率确定是否检测到所述目标用户开始输入语音信号；和/或，

在检测到所述目标用户开始输入语音信号时，所述获取所述目标用户输入的第一设定帧数的第一语音信号的步骤包括：

从第i-N+1帧开始获取目标用户输入的所述第一设定帧数的所述第一输入信号。

较佳地，所述获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率的步骤包括：

根据每帧所述第一输入信号对应的能量和/或采用DNN(深度神经网络算法)获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率。

较佳地，当根据每帧所述第一输入信号对应的能量获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率时，所述根据每帧所述第一输入信号对应的能量获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率的步骤包括：

获取每帧所述第一输入信号在设定频率范围内对应的平均能量值；

根据所述平均能量值获取每帧所述第一输入信号对应的所述目标语音概率和所述目标非语音概率。

较佳地，当采用深度神经网络算法获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率时，所述采用深度神经网络算法获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率的步骤包括：

获取历史设定时间内所述目标用户输入至所述录音设备中的每帧历史输入信号以及与每帧所述历史输入信号对应的信号类型；

其中，所述信号类型包括语音信号和非语音信号；

将所述历史输入信号作为输入，所述信号类型作为输出，采用深度神经网络建立用于预测每帧输入信号为语音信号的概率模型；

将每帧所述第一输入信号分别输入至所述预测模型，获取每帧所述第一输入信号对应的所述目标语音概率；

根据所述目标语音概率计算每帧所述第一输入信号对应的所述目标非语音概率。

较佳地，当根据每帧所述第一输入信号对应的能量和采用深度神经网络算法获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率时，所述根据每帧所述第一输入信号对应的能量和采用深度神经网络算法获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率的步骤包括：

根据所述平均能量值获取每帧所述第一输入信号对应的第一语音概率和第一非语音概率；

当采用深度神经网络算法获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率时，所述采用深度神经网络算法获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率的步骤包括：

其中，所述信号类型包括语音信号和非语音信号；

将每帧所述第一输入信号分别输入至所述预测模型，获取每帧所述第一输入信号对应的第二语音概率；

根据所述第二语音概率计算每帧所述第一输入信号对应的第二非语音概率；

采用加权平均法对同一帧所述第一输入信号的所述第一语音概率和所述第二语音概率进行处理，以及同一帧所述第一输入信号的所述第一非语音概率和所述第二非语音概率进行处理，获取每帧所述第一输入信号对应的所述目标语音概率和所述目标非语音概率。

较佳地，所述获取每帧所述第一输入信号在设定频率范围内对应的平均能量值的步骤包括：

将与时域对应的每帧所述第一输入信号转换为与频域对应的第二输入信号；

计算每帧所述第二输入信号在设定频率范围内中每个频带对应的子带能量值；

根据所述子带能量值获取每帧所述第二输入信号对应的所述平均能量值；和/或，

所述根据所述平均能量值获取每帧所述第一输入信号对应的所述目标语音概率和所述目标非语音概率的步骤包括：

当所述平均能量值大于第二设定阈值时，则确定当前帧为语音的第一概率；

当所述平均能量值小于或者等于所述第二设定阈值且大于第三设定阈值时，则根据所述平均能量值、所述第二设定阈值和所述第三设定阈值确定当前帧为语音的第二概率；

当所述平均能量值小于或者等于所述第三设定阈值时，则确定当前帧为语音的第三概率；

其中，所述第一概率、所述第二概率和所述第三概率从大到小依次排序；

根据所述第一概率、所述第二概率或所述第三概率确定每帧所述第二输入信号对应的所述目标语音概率和所述目标非语音概率。

较佳地，所述根据所述平均能量值、所述第二设定阈值和所述第三设定阈值确定当前帧为语音的第二概率的步骤对应的计算公式如下：

Prob_energy＝(energy-A)/(B-A)

其中，Prob_energy表示所述第二概率，energy表示所述平均能量值，A表示所述第三设定阈值，B表示所述第二设定阈值；和/或，

在所述录音设备开始录音之前，所述检测方法还包括：

采用唤醒词唤醒所述录音设备。

本发明还提供一种语音交互中目标用户改变的检测系统，所述检测系统包括第一判断模块、第一语音信号获取模块、第一基音周期获取模块和第一周期序列获取模块、第二语音信号获取模块、第二基音周期获取模块和第二周期序列获取模块、相似度计算模块和第二判断模块；

所述第一判断模块用于在录音设备开始录音后，判断是否检测到目标用户开始输入语音信号，若是，则调用所述第一语音信号获取模块获取所述目标用户输入的第一设定帧数的第一语音信号；

所述第一基音周期获取模块用于获取每帧所述第一语音信号对应的第一基音周期；

所述第一周期序列获取模块用于根据所述第一基音周期获取与所述第一设定帧数对应的第一基音周期序列；

所述第二语音信号获取模块用于在设定时长后，获取当前用户输入所述录音设备的第二设定帧数的第二语音信号；

所述第二基音周期获取模块用于获取每帧所述第二语音信号对应的第二基音周期；

所述第二周期序列获取模块用于根据所述第二基音周期获取与所述第二设定帧数对应的第二基音周期序列；

所述相似度计算模块用于计算所述第一基音周期序列和所述第二基音周期序列的相似度；

所述第二判断模块用于判断所述相似度是否大于第一设定阈值，若是，则确定输入所述第二语音信号的当前用户是所述目标用户，控制所述录音设备继续录音，并重新调用所述第二语音信号获取模块；

较佳地，所述第一基音周期获取模块包括第一预处理单元、第一短时能量处理单元、第一中心削波处理单元和第一基音周期获取单元；

所述第一预处理单元用于对每帧所述第一语音信号进行预处理；

所述第一短时能量处理单元用于采用短时能量对预处理后的每帧所述第一语音信号进行处理，获取每帧所述第一语音信号中的第一浊音信号；

所述第一中心削波处理单元用于采用中心削波法对所述第一浊音信号进行处理，获取第一中间语音信号；

所述第一基音周期获取单元用于采用波形估计法、自相关处理法或倒谱法对所述第一中间语音信号进行处理，获取每帧所述第一语音信号对应的所述第一基音周期；

所述第一周期序列获取模块用于根据所述第一设定帧数中每帧所述第一语音信号对应的所述第一基音周期构成所述第一基音周期序列；和/或，

所述第二基音周期获取模块包括第二预处理单元、第二短时能量处理单元、第二中心削波处理单元和第二基音周期获取单元；

所述第二预处理单元用于对每帧所述第二语音信号进行预处理；

所述第二短时能量处理单元用于采用短时能量对预处理后的每帧所述第二语音信号进行处理，获取每帧所述第二语音信号中的第二浊音信号；

所述第二中心削波处理单元用于采用中心削波法对所述第二浊音信号进行处理，获取第二中间语音信号；

所述第二基音周期获取单元用于采用波形估计法、自相关处理法或倒谱法对所述第二中间语音信号进行处理，获取每帧所述第二语音信号对应的所述第二基音周期；

所述第二周期序列获取模块用于根据所述第二设定帧数中每帧所述第二语音信号对应的所述第二基音周期构成所述第二基音周期序列。

较佳地，所述相似度计算模块包括欧式距离计算单元和相似度确定单元；

所述欧式距离计算单元用于采用动态时间规整算法计算所述第一基音周期序列和所述第二基音周期序列之间的欧氏距离；

所述相似度确定单元用于根据所述欧氏距离确定所述第一基音周期序列和所述第二基音周期序列的相似度；

其中，所述欧氏距离与所述相似度呈负相关。

较佳地，所述第一判断模块包括第一输入信号获取单元、目标概率获取单元、目标输入信号获取单元和信号输入确定单元；

所述第一输入信号获取单元用于在所述录音设备开始录音后，依次获取每帧第一输入信号；

所述目标概率获取单元用于获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率；

所述目标输入信号获取单元用于当获取的所述第一输入信号的总帧数大于或者等于所述第一设定帧数时，则获取目标输入信号；

所述信号输入确定单元用于根据所述目标输入信号中每帧所述第一输入信号的所述目标语音概率和所述目标非语音概率确定是否检测到所述目标用户开始输入语音信号。

较佳地，所述第一判断模块还包括语音帧确定单元、帧数获取单元和总概率计算单元；

对于同一帧所述第一输入信号，所述语音帧确定单元用于判断所述目标语音概率是否大于所述目标非语音概率，若是，则确定当前帧为语音帧；若否，确定当前帧为非语音帧；

所述帧数获取单元用于获取所述目标输入信号中语音帧对应的第一帧数和非语音帧对应的第二帧数；

所述总概率计算单元用于计算所述目标输入信号中每帧所述第一输入信号的所述目标语音概率之和得到第一总概率，以及计算所述目标输入信号中每帧所述第一输入信号的所述目标非语音概率之和得到第二总概率；

所述信号输入确定单元用于当所述第一总概率大于或者等于所述第二总概率、所述第一帧数大于或者等于第四设定阈值且当前帧为语音帧时，则确定检测到所述目标用户开始输入语音信号。

较佳地，在所述第二判断模块控制所述录音设备继续录音时，所述第一判断模块还用于判断是否检测到所述目标用户结束语音信号输入，若是，则控制所述录音设备停止录音；若否，继续调用所述第二语音信号获取模块。

较佳地，所述信号输入确定单元还用于当所述第二总概率大于所述第一总概率、所述第二帧数大于或者等于第五设定阈值且当前帧为非语音帧时，则确定检测到所述目标用户结束语音信号输入，并控制所述录音设备停止录音。

较佳地，当确定所述目标用户未开始输入语音信号时，所述第一输入信号获取单元还用于继续获取下一帧所述第一输入信号；

所述目标输入信号获取单元还用于根据下一帧所述第一输入信号获取新的所述目标输入信号；

所述信号输入确定单元还用于根据新的所述目标输入信号中每帧所述第一输入信号的所述目标语音概率和所述目标非语音概率确定是否检测到所述目标用户开始输入语音信号；和/或，

在检测到所述目标用户开始输入语音信号时，所述第一语音信号获取模块用于从第i-N+1帧开始获取目标用户输入的所述第一设定帧数的所述第一输入信号。

较佳地，所述目标概率获取单元用于根据每帧所述第一输入信号对应的能量和/或采用深度神经网络算法获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率。

较佳地，当根据每帧所述第一输入信号对应的能量获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率时，所述目标概率获取单元用于能量值获取子单元和目标概率获取子单元；

所述能量值获取子单元用于获取每帧所述第一输入信号在设定频率范围内对应的平均能量值；

所述目标概率获取子单元用于根据所述平均能量值获取每帧所述第一输入信号对应的所述目标语音概率和所述目标非语音概率。

较佳地，当采用深度神经网络算法获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率时，所述目标概率获取单元包括历史信号获取子单元、模型建立子单元和目标概率获取子单元；

所述历史信号获取子单元用于获取历史设定时间内所述目标用户输入至所述录音设备中的每帧历史输入信号以及与每帧所述历史输入信号对应的信号类型；

其中，所述信号类型包括语音信号和非语音信号；

所述模型建立子单元用于将所述历史输入信号作为输入，所述信号类型作为输出，采用深度神经网络建立用于预测每帧输入信号为语音信号的概率模型；

所述目标概率获取子单元用于将每帧所述第一输入信号分别输入至所述预测模型，获取每帧所述第一输入信号对应的所述目标语音概率；

所述目标概率获取子单元还用于根据所述目标语音概率计算每帧所述第一输入信号对应的所述目标非语音概率。

较佳地，当根据每帧所述第一输入信号对应的能量和采用深度神经网络算法获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率时，所述目标概率获取单元用于能量值获取子单元、目标概率获取子单元、历史信号获取子单元、模型建立子单元和加权计算子单元；

所述目标概率获取子单元用于根据所述平均能量值获取每帧所述第一输入信号对应的第一语音概率和第一非语音概率；

其中，所述信号类型包括语音信号和非语音信号；

所述目标概率获取子单元用于将每帧所述第一输入信号分别输入至所述预测模型，获取每帧所述第一输入信号对应的第二语音概率；

所述目标概率获取子单元还用于根据所述第二语音概率计算每帧所述第一输入信号对应的第二非语音概率；

所述加权计算子单元用于采用加权平均法对同一帧所述第一输入信号的所述第一语音概率和所述第二语音概率进行处理，以及同一帧所述第一输入信号的所述第一非语音概率和所述第二非语音概率进行处理，获取每帧所述第一输入信号对应的所述目标语音概率和所述目标非语音概率。

较佳地，所述能量值获取子单元用于将与时域对应的每帧所述第一输入信号转换为与频域对应的第二输入信号；

所述能量值获取子单元还用于计算每帧所述第二输入信号在设定频率范围内中每个频带对应的子带能量值；

所述能量值获取子单元还用于根据所述子带能量值获取每帧所述第二输入信号对应的平均能量值；和/或，

所述目标概率获取子单元用于当所述平均能量值大于第二设定阈值时，则确定当前帧为语音的第一概率；

所述目标概率获取子单元还用于根据所述第一概率、所述第二概率或所述第三概率确定每帧所述第二输入信号对应的所述目标语音概率和所述目标非语音概率。

较佳地，所述目标概率获取子单元根据所述平均能量值、所述第二设定阈值和所述第三设定阈值确定当前帧为语音的第二概率对应的计算公式如下：

Prob_energy＝(energy-A)/(B-A)

所述检测系统还包括唤醒模块；

所述唤醒模块用于在所述录音设备开始录音之前，采用唤醒词唤醒所述录音设备。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行计算机程序时实现上述的语音交互中目标用户改变的检测方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的语音交互中目标用户改变的检测方法的步骤。

本发明的积极进步效果在于：

本发明中，能够快速有效地检测到在目标用户已停止说话后发生对非目标用户的说话内容继续录音的情况，并及时控制录音设备停止录音，从而缩短了语音交互的响应时间，保证了能够及时响应目标用户的请求，且避免了对后续的语音识别和语义理解产生误差，提高了语音处理结果的准确性，进而提升了用户的使用体验；另外，减少了对录音设备的资源占用，避免了占用过多资源的情况。另外，通过每帧第一输入信号对应的能量和采用深度神经网络算法获取每帧第一输入信号对应的目标语音概率和目标非语音概率，有效地提高了VAD检测录入语音的起始点和结束点的准确性，在保证数据录入的完整性的同时进一步地减少了对录音设备的资源占用。

附图说明

图1为本发明实施例1的语音交互中目标用户改变的检测方法的流程图。

图2为本发明实施例2的语音交互中目标用户改变的检测方法的第一流程图。

图3为本发明实施例2的语音交互中目标用户改变的检测方法的第二流程图。

图4为本发明实施例3的语音交互中目标用户改变的检测方法的流程图。

图5为本发明实施例4的语音交互中目标用户改变的检测系统的模块示意图。

图6为本发明实施例5的语音交互中目标用户改变的检测系统的模块示意图。

图7为本发明实施例6的语音交互中目标用户改变的检测系统中第一判断模块的模块示意图。

图8为本发明实施例7中的实现语音交互中目标用户改变的检测方法的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

如图1所示，本实施例的语音交互中目标用户改变的检测方法包括：

S100、采用唤醒词唤醒录音设备；其中，录音设备在被唤醒之后会自动进入录音状态，采用麦克风进行拾音。

S101、判断是否检测到目标用户开始输入语音信号，若是，则获取目标用户输入的第一设定帧数的第一语音信号；

S102、获取每帧第一语音信号对应的第一基音周期；

S103、根据第一基音周期获取与第一设定帧数对应的第一基音周期序列；

S104、在设定时长后，获取当前用户输入录音设备的第二设定帧数的第二语音信号；

S105、获取每帧第二语音信号对应的第二基音周期；

S106、根据第二基音周期获取与第二设定帧数对应的第二基音周期序列；

S107、计算第一基音周期序列和第二基音周期序列的相似度；

S108、判断相似度是否大于第一设定阈值，若是，则执行步骤S109；若否，则执行步骤S1010；

S109、确定输入第二语音信号的当前用户是目标用户，控制录音设备继续录音，并重新执行步骤S104；

S1010、确定输入第二语音信号的当前用户不是目标用户，并控制录音设备停止录音。

另外，在确定输入第二语音信号的当前用户是目标用户之后，持续监测目标用户是否结束语音信号输入，若是，则控制录音设备停止录音；若否，继续执行步骤S104。

例如，在检测到有语音输入后，自动获取初始m帧的第一语音信号，进而获取其对应的第一基音周期序列并保存至录音设备的第一缓冲存储区，同时持续检测目标用户是否结束语音信号输入；在目标用户没有结束语音信号输入时，每隔一段时间(如100ms)获取当前用户输入的n帧的第二语音信号，获取其对应的第二基音周期序列并保存至录音设备的第二缓冲存储区；其中，考虑到基音周期并不具有严格的周期性，所以n可以在[m-5,m+5]的范围内随机取值；然后将每次获取的第二基音周期序列与第一基音周期序列进行对比，以确定说话者是否发生变化，若发生变化则表示目标用户已经停止说话且发生继续录制非目标用户的说话内容的情况，此时需要及时停止录音。

本实施例中，通过在目标用户开始输入语音信号后，根据目标用户输入的设定帧数的语音信号获取第一基音周期序列，然后每隔设定时长检测当前输入的语音信号对应的第二基音周期序列，通过比较两个基音周期序列以实现快速有效地检测到在目标用户已停止说话后对非目标用户的说话内容继续录音的情况，并及时控制录音设备停止录音，从而保证了能够及时响应目标用户的请求，缩短了语音交互的响应时间，且避免了对后续的语音识别和语义理解产生误差，提高了语音处理结果的准确性，提升了用户的使用体验；另外，减少了对录音设备的资源占用，避免了占用过多资源的情况。

实施例2

本实施例的语音交互中目标用户改变的检测方法是对实施例1的进一步改进，具体地：

如图2所示，步骤S102包括：

S1021、对每帧第一语音信号进行预处理；

S1022、采用短时能量对预处理后的每帧第一语音信号进行处理，获取每帧第一语音信号中的第一浊音信号；

S1023、采用中心削波法对第一浊音信号进行处理，获取第一中间语音信号；

S1024、对第一中间语音信号进行处理，获取每帧第一语音信号对应的第一基音周期；

其中，采用波形估计法、自相关处理法或倒谱法等方法对第一中间语音信号进行处理，获取每帧第一语音信号对应的第一基音周期。

步骤S103包括：

S1031、根据第一设定帧数中每帧第一语音信号对应的第一基音周期构成第一基音周期序列。

如图3所示，步骤S105包括：

S1051、对每帧第二语音信号进行预处理；

S1052、采用短时能量对预处理后的每帧第二语音信号进行处理，获取每帧第二语音信号中的第二浊音信号；

S1053、采用中心削波法对第二浊音信号进行处理，获取第二中间语音信号；

S1054、对第二中间语音信号进行处理，获取每帧第二语音信号对应的第二基音周期；

其中，采用波形估计法、自相关处理法或倒谱法等方法对第二中间语音信号进行处理，获取每帧第二语音信号对应的第二基音周期。

步骤S106包括：

S1061、根据第二设定帧数中每帧第二语音信号对应的第二基音周期构成第二基音周期序列。

步骤S107包括：

S1071、采用动态时间规整算法计算第一基音周期序列和第二基音周期序列之间的欧氏距离；

S1072、根据欧氏距离确定第一基音周期序列和第二基音周期序列的相似度；

其中，欧氏距离与相似度呈负相关。

实施例3

本实施例的语音交互中目标用户改变的检测方法是对实施例2的进一步改进，具体地：

如图4所示，步骤S101包括：

S1011、在录音设备开始录音后，依次获取每帧第一输入信号；

S1012、获取每帧第一输入信号对应的目标语音概率和目标非语音概率；

其中，根据每帧第一输入信号对应的能量和/或采用深度神经网络算法获取每帧第一输入信号对应的目标语音概率和目标非语音概率。具体地，

(1)当根据每帧第一输入信号对应的能量获取每帧第一输入信号对应的目标语音概率和目标非语音概率时，根据每帧第一输入信号对应的能量获取每帧第一输入信号对应的目标语音概率和目标非语音概率的步骤包括：

获取每帧第一输入信号在设定频率范围内对应的平均能量值；

根据平均能量值获取每帧第一输入信号对应的目标语音概率和目标非语音概率。

其中，获取每帧第一输入信号在设定频率范围内对应的平均能量值的步骤包括：

将与时域对应的每帧第一输入信号转换为与频域对应的第二输入信号；

计算每帧第二输入信号在设定频率范围内中每个频带对应的子带能量值；

根据子带能量值获取每帧第二输入信号对应的平均能量值。

当平均能量值大于第二设定阈值时，则确定当前帧为语音的第一概率；

当平均能量值小于或者等于第二设定阈值且大于第三设定阈值时，则根据平均能量值、第二设定阈值和第三设定阈值确定当前帧为语音的第二概率；

当平均能量值小于或者等于第三设定阈值时，则确定当前帧为语音的第三概率；

其中，第一概率、第二概率和第三概率从大到小依次排序；

根据第一概率、第二概率或第三概率确定每帧第二输入信号对应的目标语音概率和目标非语音概率。

具体地，第一概率为1，第三概率为0。

根据平均能量值、第二设定阈值和第三设定阈值确定当前帧为语音的第二概率的步骤对应的计算公式如下：

Prob_energy＝(energy-A)/(B-A)

其中，Prob_energy表示第二概率，energy表示平均能量值，A表示第三设定阈值，B表示第二设定阈值。

第二设定阈值和第三设定阈值根据实际经验设置，也可以根据实际情况进行调整。或，

(2)当采用深度神经网络算法获取每帧第一输入信号对应的目标语音概率和目标非语音概率时，采用深度神经网络算法获取每帧第一输入信号对应的目标语音概率和目标非语音概率的步骤包括：

获取历史设定时间内目标用户输入至录音设备中的每帧历史输入信号以及与每帧历史输入信号对应的信号类型；

其中，信号类型包括语音信号和非语音信号；

将历史输入信号作为输入，信号类型作为输出，采用深度神经网络建立用于预测每帧输入信号为语音信号的概率模型；

将每帧第一输入信号分别输入至预测模型，获取每帧第一输入信号对应的目标语音概率；

根据目标语音概率计算每帧第一输入信号对应的目标非语音概率。或，

(3)当根据每帧第一输入信号对应的能量和采用深度神经网络算法获取每帧第一输入信号对应的目标语音概率和目标非语音概率时，根据每帧第一输入信号对应的能量和采用深度神经网络算法获取每帧第一输入信号对应的目标语音概率和目标非语音概率的步骤包括：

根据平均能量值获取每帧第一输入信号对应的第一语音概率和第一非语音概率；

当采用深度神经网络算法获取每帧第一输入信号对应的目标语音概率和目标非语音概率时，采用深度神经网络算法获取每帧第一输入信号对应的目标语音概率和目标非语音概率的步骤包括：

其中，信号类型包括语音信号和非语音信号；

将每帧第一输入信号分别输入至预测模型，获取每帧第一输入信号对应的第二语音概率；

根据第二语音概率计算每帧第一输入信号对应的第二非语音概率；

采用加权平均法对同一帧第一输入信号的第一语音概率和第二语音概率进行处理，以及同一帧第一输入信号的第一非语音概率和第二非语音概率进行处理，获取每帧第一输入信号对应的目标语音概率和目标非语音概率。

即此时同一帧第一输入信号的目标语音概率对应的计算公式如下：

Prob＝a*prob_energy1+(1-a)*prob_dnnspeech

其中，Prob表示目标语音概率，a表示加权系数(如0.7)，prob_energy1表示该帧第一输入信号的第一语音概率，prob_dnnspeech表示该帧第一输入信号的第二语音概率。

S1013、当获取的第一输入信号的总帧数大于或者等于第一设定帧数时，则获取目标输入信号；

其中，当第一设定帧数为N时，目标输入信号包括当前帧i以及当前帧之前的N-1帧数对应的第一输入信号，i≥N＞1且取整数；

S1014、对于同一帧第一输入信号，判断目标语音概率是否大于目标非语音概率，若是，则确定当前帧为语音帧；若否，确定当前帧为非语音帧；

S1015、获取目标输入信号中语音帧对应的第一帧数和非语音帧对应的第二帧数；

S1016、计算目标输入信号中每帧第一输入信号的目标语音概率之和得到第一总概率，以及计算目标输入信号中每帧第一输入信号的目标非语音概率之和得到第二总概率；

S1017、根据目标输入信号中每帧第一输入信号的目标语音概率和目标非语音概率确定是否检测到目标用户开始输入语音信号。

具体地，当第一总概率大于或者等于第二总概率、第一帧数大于或者等于第四设定阈值且当前帧为语音帧时，则确定检测到目标用户开始输入语音信号。

另外，当第二总概率大于第一总概率、第二帧数大于或者等于第五设定阈值且当前帧为非语音帧时，则确定检测到目标用户结束语音信号输入，并控制录音设备停止录音。

当确定目标用户未开始输入语音信号时，本实施例的检测方法还包括：

继续获取下一帧第一输入信号；

根据下一帧第一输入信号获取新的目标输入信号；

根据新的目标输入信号中每帧第一输入信号的目标语音概率和目标非语音概率确定是否检测到目标用户开始输入语音信号。

在检测到目标用户开始输入语音信号时，步骤S101中获取目标用户输入的第一设定帧数的第一语音信号具体包括：

从第i-N+1帧开始获取目标用户输入的第一设定帧数的第一输入信号。

下面结合实例具体说明：

1)当录音设备被唤醒且开始录音后，依次录入每帧第一输入信号；

2)根据每帧第一输入信号对应的能量和深度神经网络算法获取每帧第一输入信号对应的目标语音概率p1和目标非语音概率(1-p1)；

3)当前帧为i，第一设定帧数为N，当i＜N时，则继续依次录入每帧第一输入信号；当i≥N时，则获取提取当前帧i以及当前帧之前的N-1帧数对应的第一输入信号构成目标输入信号；例如，i＝40，N＝30，此时提取第11帧至40帧的第一输入信号构成目标输入信号(对应30帧)。

4)对于同一帧第一输入信号，当目标语音概率p1大于目标非语音概率(1-p1)时，则确定该帧为语音帧；否则，确定为非语音帧；

5)计算目标输入信号中语音帧对应的第一帧数N1和非语音帧对应的第二帧数N2；

6)计算目标输入信号中30帧第一输入信号的目标语音概率p1之和P1，以及30帧第一输入信号的目标语音概率(1-p1)之和P2；

7)当P1≥P2、N1＞C且i为语音帧，则确定检测到目标用户开始输入语音信号，其中C表示第四设定阈值；

当P2＞P1、N2＞D且i为非语音帧，则确定检测到目标用户结束语音信号输入，其中，D表示第五设定阈值。

另外，当通过第11帧至40帧的第一输入信号构成的目标输入信号确定目标用户未开始输入语音信号时，则继续提取第12帧至41帧的第一输入信号构成的新的目标输入信号，并重新执行上述步骤4)-7)，直至提取到目标输入信号能够确定检测到目标用户开始输入语音信号。

8)若通过第11帧至40帧的第一输入信号构成的目标输入信号确定检测到目标用户开始输入语音信号，则控制从第i-N+1＝40-30+1＝11帧开始获取目标用户输入中连续30帧的第一输入信号作为第一语音信号；

此处，也可以从第11帧的前几帧(如第8帧)开始获取，以保证目标用户输入的语音信号的完整性，进而确保后续语音处理结果的准确性。

若通过第11帧至40帧的第一输入信号构成的目标输入信号确定检测到目标用户结束语音信号输入，则停止录制，语音信号录入停止在第i帧。

本实施例中，能够快速有效地检测到在目标用户已停止说话后发生对非目标用户的说话内容继续录音的情况，并及时控制录音设备停止录音，从而缩短了语音交互的响应时间，保证了能够及时响应目标用户的请求，且避免了对后续的语音识别和语义理解产生误差，提高了语音处理结果的准确性，进而提升了用户的使用体验；另外，减少了对录音设备的资源占用，避免了占用过多资源的情况。另外，通过每帧第一输入信号对应的能量和采用深度神经网络算法获取每帧第一输入信号对应的目标语音概率和目标非语音概率，有效地提高了VAD检测录入语音的起始点和结束点的准确性，在保证数据录入的完整性的同时进一步地减少了对录音设备的资源占用。

实施例4

如图5所示，本实施例的语音交互中目标用户改变的检测系统包括唤醒模块1、第一判断模块2、第一语音信号获取模块3、第一基音周期获取模块4和第一周期序列获取模块5、第二语音信号获取模块6、第二基音周期获取模块7、第二周期序列获取模块8、相似度计算模块9和第二判断模块10。

唤醒模块1用于采用唤醒词唤醒所述录音设备；其中，录音设备在被唤醒之后会自动进入录音状态，采用麦克风进行拾音。

第一判断模块2用于判断是否检测到目标用户开始输入语音信号，若是，则调用第一语音信号获取模块3获取目标用户输入的第一设定帧数的第一语音信号；

第一基音周期获取模块4用于获取每帧第一语音信号对应的第一基音周期；

第一周期序列获取模块5用于根据第一基音周期获取与第一设定帧数对应的第一基音周期序列；

第二语音信号获取模块6用于在设定时长后，获取当前用户输入录音设备的第二设定帧数的第二语音信号；

第二基音周期获取模块7用于获取每帧第二语音信号对应的第二基音周期；

第二周期序列获取模块8用于根据第二基音周期获取与第二设定帧数对应的第二基音周期序列；

相似度计算模块9用于计算第一基音周期序列和第二基音周期序列的相似度；

第二判断模块10用于判断相似度是否大于第一设定阈值，若是，则确定输入第二语音信号的当前用户是目标用户，控制录音设备继续录音，并重新调用第二语音信号获取模块6；

若否，则确定输入第二语音信号的当前用户不是目标用户，并控制录音设备停止录音。

实施例5

如图6所示，本实施例的语音交互中目标用户改变的检测系统是对实施例4的进一步改进，具体地：

第一基音周期获取模块4包括第一预处理单元11、第一短时能量处理单元12、第一中心削波处理单元13和第一基音周期获取单元14。

第一预处理单元11用于对每帧第一语音信号进行预处理；

第一短时能量处理单元12用于采用短时能量对预处理后的每帧第一语音信号进行处理，获取每帧第一语音信号中的第一浊音信号；

第一中心削波处理单元13用于采用中心削波法对第一浊音信号进行处理，获取第一中间语音信号；

第一基音周期获取单元14用于对第一中间语音信号进行处理，获取每帧第一语音信号对应的第一基音周期；

具体地，采用波形估计法、自相关处理法或倒谱法等方法对第一中间语音信号进行处理，获取每帧第一语音信号对应的第一基音周期。

第一周期序列获取模块5用于根据第一设定帧数中每帧第一语音信号对应的第一基音周期构成第一基音周期序列。

第二基音周期获取模块7包括第二预处理单元15、第二短时能量处理单元16、第二中心削波处理单元17和第二基音周期获取单元18。

第二预处理单元15用于对每帧第二语音信号进行预处理；

第二短时能量处理单元16用于采用短时能量对预处理后的每帧第二语音信号进行处理，获取每帧第二语音信号中的第二浊音信号；

第二中心削波处理单元17用于采用中心削波法对第二浊音信号进行处理，获取第二中间语音信号；

第二基音周期获取单元18用于对第二中间语音信号进行处理，获取每帧第二语音信号对应的第二基音周期；

具体地，采用波形估计法、自相关处理法或倒谱法等方法对第二中间语音信号进行处理，获取每帧第二语音信号对应的第二基音周期。

第二周期序列获取模块8用于根据第二设定帧数中每帧第二语音信号对应的第二基音周期构成第二基音周期序列。

相似度计算模块9包括欧式距离计算单元19和相似度确定单元20。

欧式距离计算单元19用于采用动态时间规整算法计算第一基音周期序列和第二基音周期序列之间的欧氏距离；

相似度确定单元20用于根据欧氏距离确定第一基音周期序列和第二基音周期序列的相似度；

其中，欧氏距离与相似度呈负相关。

实施例6

本实施例的语音交互中目标用户改变的检测方法是对实施例5的进一步改进，具体地：

如图7所示，第一判断模块2包括第一输入信号获取单元21、目标概率获取单元22、语音帧确定单元23、帧数获取单元24、总概率计算单元25、目标输入信号获取单元26和信号输入确定单元27。

第一输入信号获取单元21用于在录音设备开始录音后，依次获取每帧第一输入信号；

目标概率获取单元22用于获取每帧第一输入信号对应的目标语音概率和目标非语音概率；

其中，目标概率获取单元22用于根据每帧第一输入信号对应的能量和/或采用深度神经网络算法获取每帧第一输入信号对应的目标语音概率和目标非语音概率。

具体地，(1)当根据每帧第一输入信号对应的能量获取每帧第一输入信号对应的目标语音概率和目标非语音概率时，目标概率获取单元22用于能量值获取子单元和目标概率获取子单元；

能量值获取子单元用于获取每帧第一输入信号在设定频率范围内对应的平均能量值；

目标概率获取子单元用于根据平均能量值获取每帧第一输入信号对应的目标语音概率和目标非语音概率。

其中，能量值获取子单元用于将与时域对应的每帧第一输入信号转换为与频域对应的第二输入信号；

能量值获取子单元还用于计算每帧第二输入信号在设定频率范围内中每个频带对应的子带能量值；

能量值获取子单元还用于根据子带能量值获取每帧第二输入信号对应的平均能量值。

目标概率获取子单元用于当平均能量值大于第二设定阈值时，则确定当前帧为语音的第一概率；

其中，第一概率、第二概率和第三概率从大到小依次排序；

目标概率获取子单元还用于根据第一概率、第二概率或第三概率确定每帧第二输入信号对应的目标语音概率和目标非语音概率。

具体地，第一概率为1，第三概率为0。

Prob_energy＝(energy-A)/(B-A)

(2)当采用深度神经网络算法获取每帧第一输入信号对应的目标语音概率和目标非语音概率时，目标概率获取单元22包括历史信号获取子单元、模型建立子单元和目标概率获取子单元；

历史信号获取子单元用于获取历史设定时间内目标用户输入至录音设备中的每帧历史输入信号以及与每帧历史输入信号对应的信号类型；

其中，信号类型包括语音信号和非语音信号；

模型建立子单元用于将历史输入信号作为输入，信号类型作为输出，采用深度神经网络建立用于预测每帧输入信号为语音信号的概率模型；

目标概率获取子单元用于将每帧第一输入信号分别输入至预测模型，获取每帧第一输入信号对应的目标语音概率；

目标概率获取子单元还用于根据目标语音概率计算每帧第一输入信号对应的目标非语音概率。或，

(3)当根据每帧第一输入信号对应的能量和采用深度神经网络算法获取每帧第一输入信号对应的目标语音概率和目标非语音概率时，目标概率获取单元22用于能量值获取子单元、目标概率获取子单元、历史信号获取子单元、模型建立子单元和加权计算子单元。

目标概率获取子单元用于根据平均能量值获取每帧第一输入信号对应的第一语音概率和第一非语音概率；

其中，信号类型包括语音信号和非语音信号；

目标概率获取子单元用于将每帧第一输入信号分别输入至预测模型，获取每帧第一输入信号对应的第二语音概率；

目标概率获取子单元还用于根据第二语音概率计算每帧第一输入信号对应的第二非语音概率；

加权计算子单元用于采用加权平均法对同一帧第一输入信号的第一语音概率和第二语音概率进行处理，以及同一帧第一输入信号的第一非语音概率和第二非语音概率进行处理，获取每帧第一输入信号对应的目标语音概率和目标非语音概率。

Prob＝a*prob_energy1+(1-a)*prob_dnnspeech

目标输入信号获取单元26用于当获取的第一输入信号的总帧数大于或者等于第一设定帧数时，则获取目标输入信号；

对于同一帧第一输入信号，语音帧确定单元23用于判断目标语音概率是否大于目标非语音概率，若是，则确定当前帧为语音帧；若否，确定当前帧为非语音帧；

帧数获取单元24用于获取目标输入信号中语音帧对应的第一帧数和非语音帧对应的第二帧数；

总概率计算单元25用于计算目标输入信号中每帧第一输入信号的目标语音概率之和得到第一总概率，以及计算目标输入信号中每帧第一输入信号的目标非语音概率之和得到第二总概率；

信号输入确定单元27用于根据目标输入信号中每帧第一输入信号的目标语音概率和目标非语音概率确定是否检测到目标用户开始输入语音信号。

具体地，信号输入确定单元27用于当第一总概率大于或者等于第二总概率、第一帧数大于或者等于第四设定阈值且当前帧为语音帧时，则确定检测到目标用户开始输入语音信号。

另外，信号输入确定单元27还用于当第二总概率大于第一总概率、第二帧数大于或者等于第五设定阈值且当前帧为非语音帧时，则确定检测到目标用户结束语音信号输入，并控制录音设备停止录音。

当确定目标用户未开始输入语音信号时，第一输入信号获取单元21还用于继续获取下一帧第一输入信号；

目标输入信号获取单元26还用于根据下一帧第一输入信号获取新的目标输入信号；

信号输入确定单元27还用于根据新的目标输入信号中每帧第一输入信号的目标语音概率和目标非语音概率确定是否检测到目标用户开始输入语音信号。

在检测到目标用户开始输入语音信号时，第一语音信号获取模块3用于从第i-N+1帧开始获取目标用户输入的第一设定帧数的第一输入信号。

下面结合实例具体说明：

实施例7

图8为本发明实施例7提供的一种电子设备的结构示意图。电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现实施例1至3中任意一实施例中的语音交互中目标用户改变的检测方法。图8显示的电子设备30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，电子设备30可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备30的组件可以包括但不限于：上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器，例如随机存取存储器(RAM)321和/或高速缓存存储器322，还可以进一步包括只读存储器(ROM)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325，这样的程序模块324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1至3中任意一实施例中的语音交互中目标用户改变的检测方法。

电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且，模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图8所示，网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备30使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例8

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时实现实施例1至3中任意一实施例中的语音交互中目标用户改变的检测方法中的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行实现实施例1至3中任意一实施例中的语音交互中目标用户改变的检测方法中的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改。因此，本发明的保护范围由所附权利要求书限定。

Claims

一种语音交互中目标用户改变的检测方法，其特征在于，所述检测方法包括：

在录音设备开始录音后，判断是否检测到目标用户开始输入语音信号，若是，则获取所述目标用户输入的第一设定帧数的第一语音信号；

获取每帧所述第一语音信号对应的第一基音周期；

根据所述第一基音周期获取与所述第一设定帧数对应的第一基音周期序列；

在设定时长后，获取当前用户输入所述录音设备的第二设定帧数的第二语音信号；

获取每帧所述第二语音信号对应的第二基音周期；

根据所述第二基音周期获取与所述第二设定帧数对应的第二基音周期序列；

计算所述第一基音周期序列和所述第二基音周期序列的相似度；

判断所述相似度是否大于第一设定阈值，若是，则确定输入所述第二语音信号的当前用户是所述目标用户，控制所述录音设备继续录音，并重新执行所述在设定时长后，获取第二设定帧数的第二语音信号的步骤；

若否，则确定输入所述第二语音信号的当前用户不是所述目标用户，并控制所述录音设备停止录音。
如权利要求1所述的语音交互中目标用户改变的检测方法，其特征在于，所述获取每帧所述第一语音信号对应的第一基音周期的步骤包括：

对每帧所述第一语音信号进行预处理；

采用短时能量对预处理后的每帧所述第一语音信号进行处理，获取每帧所述第一语音信号中的第一浊音信号；

采用中心削波法对所述第一浊音信号进行处理，获取第一中间语音信号；

采用波形估计法、自相关处理法或倒谱法对所述第一中间语音信号进行处理，获取每帧所述第一语音信号对应的所述第一基音周期；和/或，

所述获取每帧所述第二语音信号对应的第二基音周期的步骤包括：

对每帧所述第二语音信号进行预处理；

采用短时能量对预处理后的每帧所述第二语音信号进行处理，获取每帧所述第二语音信号中的第二浊音信号；

采用中心削波法对所述第二浊音信号进行处理，获取第二中间语音信号；

采用波形估计法、自相关处理法或倒谱法对所述第二中间语音信号进行处理，获取每帧所述第二语音信号对应的所述第二基音周期。
如权利要求1或2所述的语音交互中目标用户改变的检测方法，其特征在于，所述计算所述第一基音周期序列和所述第二基音周期序列的相似度的步骤包括：

采用动态时间规整算法计算所述第一基音周期序列和所述第二基音周期序列之间的欧氏距离；

根据所述欧氏距离确定所述第一基音周期序列和所述第二基音周期序列的相似度；

其中，所述欧氏距离与所述相似度呈负相关。
如权利要求2或3所述的语音交互中目标用户改变的检测方法，其特征在于，所述在录音设备开始录音后，判断是否检测到目标用户开始输入语音信号的步骤包括：

在所述录音设备开始录音后，依次获取每帧第一输入信号；

获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率；

当获取的所述第一输入信号的总帧数大于或者等于所述第一设定帧数时，则获取目标输入信号；

其中，当所述第一设定帧数为N时，所述目标输入信号包括当前帧i以及当前帧之前的N-1帧数对应的所述第一输入信号，i≥N＞1且取整数；

根据所述目标输入信号中每帧所述第一输入信号的所述目标语音概率和所述目标非语音概率确定是否检测到所述目标用户开始输入语音信号。
如权利要求1-4中至少一项所述的语音交互中目标用户改变的检测方法，其特征在于，所述获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率的步骤之后、所述根据所述目标输入信号中每帧所述第一输入信号的所述目标语音概率和所述目标非语音概率确定是否检测到所述目标用户开始输入语音信号的步骤之前还包括：

对于同一帧所述第一输入信号，判断所述目标语音概率是否大于所述目标非语音概率，若是，则确定当前帧为语音帧；若否，确定当前帧为非语音帧；

获取所述目标输入信号中语音帧对应的第一帧数和非语音帧对应的第二帧数；

计算所述目标输入信号中每帧所述第一输入信号的所述目标语音概率之和得到第一总概率，以及计算所述目标输入信号中每帧所述第一输入信号的所述目标非语音概率之和得到第二总概率；

所述根据所述目标输入信号中每帧所述第一输入信号的所述目标语音概率和所述目标非语音概率确定是否检测到所述目标用户开始输入语音信号的步骤包括：

当所述第一总概率大于或者等于所述第二总概率、所述第一帧数大于或者等于第四设定阈值且当前帧为语音帧时，则确定检测到所述目标用户开始输入语音信号。
如权利要求5所述的语音交互中目标用户改变的检测方法，其特征在于，所述控制所述录音设备继续录音的步骤之后、所述在设定时长后，获取第二设定帧数的第二语音信号的步骤之前还包括：

判断是否检测到所述目标用户结束语音信号输入，若是，则控制所述录音设备停止录音；若否，继续执行所述在设定时长后，获取第二设定帧数的第二语音信号的步骤。
如权利要求5或6所述的语音交互中目标用户改变的检测方法，其特征在于，所述判断是否检测到目标用户结束语音信号输入，若是，则控制所述录音设备停止录音的步骤包括：

当所述第二总概率大于所述第一总概率、所述第二帧数大于或者等于第五设定阈值且当前帧为非语音帧时，则确定检测到所述目标用户结束语音信号输入，并控制所述录音设备停止录音。
如权利要求4-7中至少一项所述的语音交互中目标用户改变的检测方法，其特征在于，当确定所述目标用户未开始输入语音信号时，所述检测方法还包括：

继续获取下一帧所述第一输入信号；

根据下一帧所述第一输入信号获取新的所述目标输入信号；

根据新的所述目标输入信号中每帧所述第一输入信号的所述目标语音概率和所述目标非语音概率确定是否检测到所述目标用户开始输入语音信号；和/或，

在检测到所述目标用户开始输入语音信号时，所述获取所述目标用户输入的第一设定帧数的第一语音信号的步骤包括：

从第i-N+1帧开始获取目标用户输入的所述第一设定帧数的所述第一输入信号。
如权利要求4-7中至少一项所述的语音交互中目标用户改变的检测方法，其特征在于，所述获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率的步骤包括：

根据每帧所述第一输入信号对应的能量和/或采用深度神经网络算法获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率。
如权利要求9所述的语音交互中目标用户改变的检测方法，其特征在于，当根据每帧所述第一输入信号对应的能量获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率时，所述根据每帧所述第一输入信号对应的能量获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率的步骤包括：

获取每帧所述第一输入信号在设定频率范围内对应的平均能量值；

根据所述平均能量值获取每帧所述第一输入信号对应的所述目标语音概率和所述目标非语音概率。
如权利要求9或10所述的语音交互中目标用户改变的检测方法，其特征在于，当采用深度神经网络算法获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率时，所述采用深度神经网络算法获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率的步骤包括：

获取历史设定时间内所述目标用户输入至所述录音设备中的每帧历史输入信号以及与每帧所述历史输入信号对应的信号类型；

其中，所述信号类型包括语音信号和非语音信号；

将所述历史输入信号作为输入，所述信号类型作为输出，采用深度神经网络建立用于预测每帧输入信号为语音信号的概率模型；

将每帧所述第一输入信号分别输入至所述预测模型，获取每帧所述第一输入信号对应的所述目标语音概率；

根据所述目标语音概率计算每帧所述第一输入信号对应的所述目标非语音概率。
如权利要求9-11中至少一项所述的语音交互中目标用户改变的检测方法，其特征在于，当根据每帧所述第一输入信号对应的能量和采用深度神经网络算法获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率时，所述根据每帧所述第一输入信号对应的能量和采用深度神经网络算法获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率的步骤包括：

获取每帧所述第一输入信号在设定频率范围内对应的平均能量值；

根据所述平均能量值获取每帧所述第一输入信号对应的第一语音概率和第一非语音概率；

当采用深度神经网络算法获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率时，所述采用深度神经网络算法获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率的步骤包括：

获取历史设定时间内所述目标用户输入至所述录音设备中的每帧历史输入信号以及与每帧所述历史输入信号对应的信号类型；

其中，所述信号类型包括语音信号和非语音信号；

将所述历史输入信号作为输入，所述信号类型作为输出，采用深度神经网络建立用于预测每帧输入信号为语音信号的概率模型；

将每帧所述第一输入信号分别输入至所述预测模型，获取每帧所述第一输入信号对应的第二语音概率；

根据所述第二语音概率计算每帧所述第一输入信号对应的第二非语音概率；

采用加权平均法对同一帧所述第一输入信号的所述第一语音概率和所述第二语音概率进行处理，以及同一帧所述第一输入信号的所述第一非语音概率和所述第二非语音概率进行处理，获取每帧所述第一输入信号对应的所述目标语音概率和所述目标非语音概率。
如权利要求10-12中至少一项所述的语音交互中目标用户改变的检测方法，其特征在于，所述获取每帧所述第一输入信号在设定频率范围内对应的平均能量值的步骤包括：

将与时域对应的每帧所述第一输入信号转换为与频域对应的第二输入信号；

计算每帧所述第二输入信号在设定频率范围内中每个频带对应的子带能量值；

根据所述子带能量值获取每帧所述第二输入信号对应的所述平均能量值；和/或，所述根据所述平均能量值获取每帧所述第一输入信号对应的所述目标语音概率和所述目标非语音概率的步骤包括：

当所述平均能量值大于第二设定阈值时，则确定当前帧为语音的第一概率；

当所述平均能量值小于或者等于所述第二设定阈值且大于第三设定阈值时，则根据所述平均能量值、所述第二设定阈值和所述第三设定阈值确定当前帧为语音的第二概率；

当所述平均能量值小于或者等于所述第三设定阈值时，则确定当前帧为语音的第三概率；

其中，所述第一概率、所述第二概率和所述第三概率从大到小依次排序；

根据所述第一概率、所述第二概率或所述第三概率确定每帧所述第二输入信号对应的所述目标语音概率和所述目标非语音概率。
如权利要求13所述的语音交互中目标用户改变的检测方法，其特征在于，所述根据所述平均能量值、所述第二设定阈值和所述第三设定阈值确定当前帧为语音的第二概率的步骤对应的计算公式如下：

Prob_energy＝(energy-A)/(B-A)

其中，Prob_energy表示所述第二概率，energy表示所述平均能量值，A表示所述第三设定阈值，B表示所述第二设定阈值；和/或，

在所述录音设备开始录音之前，所述检测方法还包括：

采用唤醒词唤醒所述录音设备。
一种语音交互中目标用户改变的检测系统，其特征在于，所述检测系统包括第一判断模块、第一语音信号获取模块、第一基音周期获取模块和第一周期序列获取模块、第二语音信号获取模块、第二基音周期获取模块和第二周期序列获取模块、相似度计算模块和第二判断模块；

所述第一判断模块用于在录音设备开始录音后，判断是否检测到目标用户开始输入语音信号，若是，则调用所述第一语音信号获取模块获取所述目标用户输入的第一设定帧数的第一语音信号；

所述第一基音周期获取模块用于获取每帧所述第一语音信号对应的第一基音周期；

所述第一周期序列获取模块用于根据所述第一基音周期获取与所述第一设定帧数对应的第一基音周期序列；

所述第二语音信号获取模块用于在设定时长后，获取当前用户输入所述录音设备的第二设定帧数的第二语音信号；

所述第二基音周期获取模块用于获取每帧所述第二语音信号对应的第二基音周期；

所述第二周期序列获取模块用于根据所述第二基音周期获取与所述第二设定帧数对应的第二基音周期序列；

所述相似度计算模块用于计算所述第一基音周期序列和所述第二基音周期序列的相似度；

所述第二判断模块用于判断所述相似度是否大于第一设定阈值，若是，则确定输入所述第二语音信号的当前用户是所述目标用户，控制所述录音设备继续录音，并重新调用所述第二语音信号获取模块；

若否，则确定输入所述第二语音信号的当前用户不是所述目标用户，并控制所述录音设备停止录音。
如权利要求15所述的语音交互中目标用户改变的检测系统，其特征在于，所述第一基音周期获取模块包括第一预处理单元、第一短时能量处理单元、第一中心削波处理单元和第一基音周期获取单元；

所述第一预处理单元用于对每帧所述第一语音信号进行预处理；

所述第一短时能量处理单元用于采用短时能量对预处理后的每帧所述第一语音信号进行处理，获取每帧所述第一语音信号中的第一浊音信号；

所述第一中心削波处理单元用于采用中心削波法对所述第一浊音信号进行处理，获取第一中间语音信号；

所述第一基音周期获取单元用于采用波形估计法、自相关处理法或倒谱法对所述第一中间语音信号进行处理，获取每帧所述第一语音信号对应的所述第一基音周期；和/或，

所述第二基音周期获取模块包括第二预处理单元、第二短时能量处理单元、第二中心削波处理单元和第二基音周期获取单元；

所述第二预处理单元用于对每帧所述第二语音信号进行预处理；

所述第二短时能量处理单元用于采用短时能量对预处理后的每帧所述第二语音信号进行处理，获取每帧所述第二语音信号中的第二浊音信号；

所述第二中心削波处理单元用于采用中心削波法对所述第二浊音信号进行处理，获取第二中间语音信号；

所述第二基音周期获取单元用于采用波形估计法、自相关处理法或倒谱法对所述第二中间语音信号进行处理，获取每帧所述第二语音信号对应的所述第二基音周期。
如权利要求15或16所述的语音交互中目标用户改变的检测系统，其特征在于，所述相似度计算模块包括欧式距离计算单元和相似度确定单元；

所述欧式距离计算单元用于采用动态时间规整算法计算所述第一基音周期序列和所述第二基音周期序列之间的欧氏距离；

所述相似度确定单元用于根据所述欧氏距离确定所述第一基音周期序列和所述第二基音周期序列的相似度；

其中，所述欧氏距离与所述相似度呈负相关。
如权利要求16或17所述的语音交互中目标用户改变的检测系统，其特征在于，所述第一判断模块包括第一输入信号获取单元、目标概率获取单元、目标输入信号获取单元和信号输入确定单元；

所述第一输入信号获取单元用于在所述录音设备开始录音后，依次获取每帧第一输入信号；

所述目标概率获取单元用于获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率；

所述目标输入信号获取单元用于当获取的所述第一输入信号的总帧数大于或者等于所述第一设定帧数时，则获取目标输入信号；

其中，当所述第一设定帧数为N时，所述目标输入信号包括当前帧i以及当前帧之前的N-1帧数对应的所述第一输入信号，i≥N＞1且取整数；

所述信号输入确定单元用于根据所述目标输入信号中每帧所述第一输入信号的所述目标语音概率和所述目标非语音概率确定是否检测到所述目标用户开始输入语音信号。
如权利要求15-18中至少一项所述的语音交互中目标用户改变的检测系统，其特征在于，所述第一判断模块还包括语音帧确定单元、帧数获取单元和总概率计算单元；

对于同一帧所述第一输入信号，所述语音帧确定单元用于判断所述目标语音概率是否大于所述目标非语音概率，若是，则确定当前帧为语音帧；若否，确定当前帧为非语音帧；

所述帧数获取单元用于获取所述目标输入信号中语音帧对应的第一帧数和非语音帧对应的第二帧数；

所述总概率计算单元用于计算所述目标输入信号中每帧所述第一输入信号的所述目标语音概率之和得到第一总概率，以及计算所述目标输入信号中每帧所述第一输入信号的所述目标非语音概率之和得到第二总概率；

所述信号输入确定单元用于当所述第一总概率大于或者等于所述第二总概率、所述第一帧数大于或者等于第四设定阈值且当前帧为语音帧时，则确定检测到所述目标用户开始输入语音信号。
如权利要求19所述的语音交互中目标用户改变的检测系统，其特征在于，在所述第二判断模块控制所述录音设备继续录音时，所述第一判断模块还用于判断是否检测到所述目标用户结束语音信号输入，若是，则控制所述录音设备停止录音；若否，继续调用所述第二语音信号获取模块。
如权利要求19或20所述的语音交互中目标用户改变的检测系统，其特征在于，所述信号输入确定单元还用于当所述第二总概率大于所述第一总概率、所述第二帧数大于或者等于第五设定阈值且当前帧为非语音帧时，则确定检测到所述目标用户结束语音信号输入，并控制所述录音设备停止录音。
如权利要求18-21中至少一项所述的语音交互中目标用户改变的检测系统，其特征在于，当确定所述目标用户未开始输入语音信号时，所述第一输入信号获取单元还用于继续获取下一帧所述第一输入信号；

所述目标输入信号获取单元还用于根据下一帧所述第一输入信号获取新的所述目标输入信号；

所述信号输入确定单元还用于根据新的所述目标输入信号中每帧所述第一输入信号的所述目标语音概率和所述目标非语音概率确定是否检测到所述目标用户开始输入语音信号；和/或，

在检测到所述目标用户开始输入语音信号时，所述第一语音信号获取模块用于从第i-N+1帧开始获取目标用户输入的所述第一设定帧数的所述第一输入信号。
如权利要求18-21中至少一项所述的语音交互中目标用户改变的检测系统，其特征在于，所述目标概率获取单元用于根据每帧所述第一输入信号对应的能量和/或采用深度神经网络算法获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率。
如权利要求23所述的语音交互中目标用户改变的检测系统，其特征在于，当根据每帧所述第一输入信号对应的能量获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率时，所述目标概率获取单元用于能量值获取子单元和目标概率获取子单元；

所述能量值获取子单元用于获取每帧所述第一输入信号在设定频率范围内对应的平均能量值；

所述目标概率获取子单元用于根据所述平均能量值获取每帧所述第一输入信号对应的所述目标语音概率和所述目标非语音概率。
如权利要求23或24所述的语音交互中目标用户改变的检测系统，其特征在于，当采用深度神经网络算法获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率时，所述目标概率获取单元包括历史信号获取子单元、模型建立子单元和目标概率获取子单元；

所述历史信号获取子单元用于获取历史设定时间内所述目标用户输入至所述录音设备中的每帧历史输入信号以及与每帧所述历史输入信号对应的信号类型；

其中，所述信号类型包括语音信号和非语音信号；

所述模型建立子单元用于将所述历史输入信号作为输入，所述信号类型作为输出，采用深度神经网络建立用于预测每帧输入信号为语音信号的概率模型；

所述目标概率获取子单元用于将每帧所述第一输入信号分别输入至所述预测模型，获取每帧所述第一输入信号对应的所述目标语音概率；

所述目标概率获取子单元还用于根据所述目标语音概率计算每帧所述第一输入信号对应的所述目标非语音概率。
如权利要求23-25中至少一项所述的语音交互中目标用户改变的检测系统，其特征在于，当根据每帧所述第一输入信号对应的能量和采用深度神经网络算法获取每帧所述第一输入信号对应的目标语音概率和目标非语音概率时，所述目标概率获取单元用于能量值获取子单元、目标概率获取子单元、历史信号获取子单元、模型建立子单元和加权计算子单元；

所述能量值获取子单元用于获取每帧所述第一输入信号在设定频率范围内对应的平均能量值；

所述目标概率获取子单元用于根据所述平均能量值获取每帧所述第一输入信号对应的第一语音概率和第一非语音概率；

所述历史信号获取子单元用于获取历史设定时间内所述目标用户输入至所述录音设备中的每帧历史输入信号以及与每帧所述历史输入信号对应的信号类型；

其中，所述信号类型包括语音信号和非语音信号；

所述模型建立子单元用于将所述历史输入信号作为输入，所述信号类型作为输出，采用深度神经网络建立用于预测每帧输入信号为语音信号的概率模型；

所述目标概率获取子单元用于将每帧所述第一输入信号分别输入至所述预测模型，获取每帧所述第一输入信号对应的第二语音概率；

所述目标概率获取子单元还用于根据所述第二语音概率计算每帧所述第一输入信号对应的第二非语音概率；

所述加权计算子单元用于采用加权平均法对同一帧所述第一输入信号的所述第一语音概率和所述第二语音概率进行处理，以及同一帧所述第一输入信号的所述第一非语音概率和所述第二非语音概率进行处理，获取每帧所述第一输入信号对应的所述目标语音概率和所述目标非语音概率。
如权利要求24-26中至少一项所述的语音交互中目标用户改变的检测系统，其特征在于，所述能量值获取子单元用于将与时域对应的每帧所述第一输入信号转换为与频域对应的第二输入信号；

所述能量值获取子单元还用于计算每帧所述第二输入信号在设定频率范围内中每个频带对应的子带能量值；

所述能量值获取子单元还用于根据所述子带能量值获取每帧所述第二输入信号对应的平均能量值；和/或，

所述目标概率获取子单元用于当所述平均能量值大于第二设定阈值时，则确定当前帧为语音的第一概率；

当所述平均能量值小于或者等于所述第二设定阈值且大于第三设定阈值时，则根据所述平均能量值、所述第二设定阈值和所述第三设定阈值确定当前帧为语音的第二概率；

当所述平均能量值小于或者等于所述第三设定阈值时，则确定当前帧为语音的第三概率；

其中，所述第一概率、所述第二概率和所述第三概率从大到小依次排序；

所述目标概率获取子单元还用于根据所述第一概率、所述第二概率或所述第三概率确定每帧所述第二输入信号对应的所述目标语音概率和所述目标非语音概率。
如权利要求27所述的语音交互中目标用户改变的检测系统，其特征在于，所述目标概率获取子单元根据所述平均能量值、所述第二设定阈值和所述第三设定阈值确定当前帧为语音的第二概率对应的计算公式如下：

Prob_energy＝(energy-A)/(B-A)

其中，Prob_energy表示所述第二概率，energy表示所述平均能量值，A表示所述第三设定阈值，B表示所述第二设定阈值；和/或，

所述检测系统还包括唤醒模块；

所述唤醒模块用于在所述录音设备开始录音之前，采用唤醒词唤醒所述录音设备。
一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行计算机程序时实现权利要求1-14中任一项所述的语音交互中目标用户改变的检测方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-14中任一项所述的语音交互中目标用户改变的检测方法的步骤。