WO2022160593A1

WO2022160593A1 - 一种语音增强方法、装置、系统及计算机可读存储介质

Info

Publication number: WO2022160593A1
Application number: PCT/CN2021/103635
Authority: WO
Inventors: 陈国明
Original assignee: 歌尔股份有限公司
Priority date: 2021-01-28
Filing date: 2021-06-30
Publication date: 2022-08-04
Also published as: CN112767963A; CN112767963B; US20240079021A1

Abstract

一种语音增强方法、装置、系统及计算机可读存储介质，该方法包括：获取当前时刻的时域麦克风信号和时域骨导信号（S110）；判断时域麦克风信号和时域骨导信号是否为语音信号（S120），若是，则通过预先建立的DNN噪声消除模型对时域麦克风信号进行噪声消除处理，并对时域骨导信号进行频域的噪声消除处理（S130）；若否，则将与当前时刻对应的输出信号置为零（S140）；对经噪声消除后的时域麦克风信号进行高通滤波处理，得到第一输出时域信号，对经噪声消除后的时域骨导信号进行低通滤波处理，得到第二输出时域信号（S150）；依据第一输出时域信号和第二输出时域信号，得到与当前时刻对应的输出时域信号（S160）；该方法能够较好的消除背景噪声，有利于提高声音的音质，提升用户体验。

Description

一种语音增强方法、装置、系统及计算机可读存储介质

本申请要求于2021年01月28日提交中国专利局、申请号202110119855.6、申请名称为“一种语音增强方法、装置、系统及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及语音处理技术领域，特别是涉及一种语音增强方法、装置、系统及计算机可读存储介质。

背景技术

语音增强是解决噪声污染的有效方法，因此被广泛的用于数字移动电话、汽车中Hands-free电话系统、远距离电话会议(teleconferencing)、为听力障碍者降低背景干扰等等民用和军用场合。语音增强的主要目标就是在接收端尽可能从带噪语音信号中提取纯净的语音信号，降低听众的听觉疲劳程度，提高可懂度。

在正常情况下，如图1所示声波可以通过两条路径传入内耳：空气传导和骨传导。空气传导是我们所熟知的声波经耳廓由外耳道传递到中耳，再经听骨链传到内耳，语音频谱成份比较丰富。由于环境噪声的影响，经过空气传导的语音信号不可避免受到噪声的污染。

骨传导是指声波通过颅骨、颌骨等的振动传到内耳，在骨传导中声波无需经过外耳和中耳也可以传递到内耳。骨声纹传感器只能采集与骨导麦克风直接接触并产生振动的信息，理论上不能采集通过空气传播的语音，不受环境噪声的干扰，非常适用于噪声环境下的语音传输。但由于工艺影响，骨声纹传感器只能采集并传送较低频率的语音信号，导致语音听起来比较沉闷，影响音质及用户体验。

鉴于此，如何提供一种解决上述技术问题的语音增强方法、装置、系统及计算机可读存储介质成为本领域技术人员需要解决的问题。

发明内容

本申请实施例的目的是提供一种语音增强方法、装置、系统及计算机可读存储介质，在使用过程中可以使输出的声音信号更加好听，提高声音的音质，提升用户体验。

为解决上述技术问题，本申请实施例提供了一种语音增强方法，包括：

获取当前时刻的时域麦克风信号和时域骨导信号；

判断所述时域麦克风信号和所述时域骨导信号是否为语音信号，若是，则通过预先建立的DNN噪声消除模型对所述时域麦克风信号进行噪声消除处理得到经噪声消除后的时域麦克风信号，对所述时域骨导信号进行频域的噪声消除处理得到经噪声消除后的时域骨导信号；若否，则将与所述当前时刻对应的输出信号置为零；

对所述经噪声消除后的时域麦克风信号进行高通滤波处理，得到第一输出时域信号，对所述经噪声消除后的时域骨导信号进行低通滤波处理，得到第二输出时域信号；

依据所述第一输出时域信号和所述第二输出时域信号，得到与所述当前时刻对应的输出时域信号。

可选的，所述对所述时域骨导信号进行频域的噪声消除处理得到经噪声消除后的时域骨导信号的过程为：

将所述时域骨导信号通过时频转换，转换为频域骨导信号；

对所述频域骨导信号进行频域的噪声消除处理，得到经噪声消除后的频域骨导信号；

判断所述经噪声消除后的频域骨导信号的带宽是否达到预设带宽，若达到，则直接对所述经噪声消除后的频域骨导信号进行时频反变换，得到经噪声消除后的时域骨导信号；若不满足，则采用预先建立的DNN带宽扩展模型对所述经噪声消除后的频域骨导信号进行带宽扩展，使扩展后的带宽达到所述预设带宽，并将所述扩展后的频域骨导信号进行时频反变换，得到经噪声消除后的时域骨导信号。

可选的，所述通过预先建立的DNN噪声消除模型对所述时域麦克风信号进行噪声消除处理，得到消除噪声后的时域麦克风信号的过程为：

对所述时域麦克风信号进行时频变换，得到对应的频域麦克风信号；

提取所述频域麦克风信号的第一信号特征，并采用预先建立的DNN噪声消除模型对所述第一信号特性进行处理，得到与所述频域麦克风信号的各个第一频率点分别对应的第一增益；

计算所述频域麦克风信号中与每个所述第一频率点对应的频谱信号与对应的第一增益的乘积，得到与每个所述第一频率点各自对应的、消除噪声后的频谱信号，以得到消除噪声后的频域麦克风信号；

将所述消除噪声后的频域麦克风信号进行时频反变换，得到消除噪声后的时域麦克风信号。

可选的，所述判断所述时域麦克风信号和所述时域骨导信号是否为语音信号的过程为：

对所述时域骨导信号进行语音激活检测，以判断所述时域骨导信号是否为语音信号；

当所述时域骨导信号为语音信号时，所述时域麦克风信号为语音信号。

可选的，所述对所述时域骨导信号进行语音激活检测，判断所述时域骨导信号是否为语音信号的过程为：

计算所述时域骨导信号对应的过零率及基音周期；

对所述时域骨导信号进行时频变换，得到频域骨导信号；

计算所述频域骨导信号对应的频谱能量及谱质心；

对所述过零率、所述基音周期、所述频谱能量及所述谱质心进行融合判断，并得到与所述时域骨导信号对应的语音激活检测标记位；

依据所述语音激活检测标记位判断所述时域骨导信号是否为语音信号。

可选的，所述对所述过零率、所述基音周期、所述频谱能量及所述谱质心进行融合判断，并得到与所述时域骨导信号对应的语音激活检测标记位的过程为：

判断所述频谱能量是否小于第一预设值，若是，则与所述时域骨导信号对应的语音激活检测标记位为0；若否，则进入下一步判断；

判断所述过零率是否大于第二预设值，若是，则与所述时域骨导信号对应的语音激活检测标记位为0，若否，则进入下一步判断；

判断所述基音周期是否大于第三预设值或小于第四预设值，若是，则与所述时域骨导信号对应的语音激活检测标记位为0；否则，进入下一步判断；

判断所述谱质心是否大于第五预设值，若是，则与所述时域骨导信号对应的语音激活检测标记位为0；否则，则与所述时域骨导信号对应的语音激活检测标记位为1；

则，所述依据所述语音激活检测标记位判断所述时域骨导信号是否为语音信号的过程为：

当所述语音激活检测标记位为1时，所述时域骨导信号为语音信号；

当所述语音激活检测标记位为0时，所述当前的时域骨导信号为噪声信号。

可选的，所述依据所述第一输出时域信号和所述第二输出时域信号，得到与所述当前时刻对应的输出时域信号的过程为：

依据第一权重系数和第二权重系数对所述第一输出时域信号和所述第二输出时域信号进行融合，得到融合后的时域信号；

对融合后的时域信号进行动态调整，使调整后的时域信号在预设范围内，并将调整后的时域信号作为与所述当前时刻对应的输出时域信号。

本申请实施例还提供了一种语音增强装置，包括：

获取模块，用于获取当前时刻的时域麦克风信号和时域骨导信号；

判断模块，用于判断所述时域麦克风信号和所述时域骨导信号是否为语音信号，若是，则触发降噪模块；若否，则触发置零模块；

所述降噪模块，用于通过预先建立的DNN噪声消除模型对所述时域麦克风信号进行噪声消除处理得到经噪声消除后的时域麦克风信号，用于对所述时域骨导信号进行频域的噪声消除处理得到经噪声消除后的时域骨导信号；

所述置零模块，用于将与所述当前时刻对应的输出信号置为零；

滤波模块，用于对所述经噪声消除后的时域麦克风信号进行高通滤波处理，得到第一输出时域信号，对所述经噪声消除后的时域骨导信号进行低通滤波处理，得到第二输出时域信号；

融合模块，用于依据所述第一输出时域信号和所述第二输出时域信号，得到与所述当前时刻对应的输出时域信号。

本申请实施例还提供了一种语音增强系统，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述所述语音增强方法的步骤。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述语音增强方法的步骤。

本申请实施例提供了一种语音增强方法、装置、系统及计算机可读存储介质，该方法通过拾取时域麦克风信号和时域骨导信号，然后通过判断时域麦克风信号和时域骨导信号是否为语音信号，可以确定出当前时刻是否是用户在讲话，当是语音信号时进一步通过预先建立的DNN噪声消除模型对时域麦克风信号进行噪声消除处理，并对时域骨导信号进行频域的噪声消除处理，从而较好的消除背景噪声，再对经噪声消除后的时域麦克风信号进行高通滤波后得到高频部分的第一输出时域信号，对经噪声消除后的时域骨导信号进行低通滤波处理后，得到低频部分的第二输出时域信号，然后根据第一输出时域信号和第二输出时域信号即可得到既包含高频部分又包含低频部分的输出时域信号；本申请能够较好的消除背景噪声，有利于提高声音的音质，提升用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对现有技术和实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有的骨传导原理示意图；

图2为本申请实施例提供的一种语音增强方法的流程示意图；

图3为本申请实施例提供的一种语音增强装置的结构示意图。

具体实施方式

本申请实施例提供了一种语音增强方法、装置、系统及计算机可读存储介质，在使用过程中可以使输出的声音信号更加好听，提高声音的音质，提升用户体验。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参照图2，图2为本申请实施例提供的一种语音增强方法的流程示意图。该方法包括：

S110：获取当前时刻的时域麦克风信号和时域骨导信号；

具体的，在实际应用中可以通过麦克风拾取时域麦克风信号，通过骨声纹传感器采集时域骨导信号，并对每一时刻所获取的时域麦克风信号和时域骨导信号均采用本申请实施例所提供的语音增强方法进行处理。

S120：判断时域麦克风信号和时域骨导信号是否为语音信号，若是，则进入S130；若否，则进入S140；

需要说明的是，在获取当前时刻的时域麦克风信号和时域骨导信号后，可以判断时域麦克风信号和时域骨导信号是不是语音信号，其中，由于时域骨导信号能够准确的反应当前是不是用户在说话，因此通过判断时域骨导信号是不是语音信号，能够进一步确定当前时刻麦克风拾取到的时域麦克风信号是否为语音信号，也即，当确定出当前时刻的时域骨导信号为语音信号后，由于时域麦克风信号和时域骨导信号是同一时刻采集的信号，因此当前时刻的时域麦克风信号也是语音信号，则说明当前时刻的时域麦克风信号也是语音信号，当确定出当前时刻的时域骨导信号为噪声信号后，则说明当前时刻的时域麦克风信号也是噪声信号。

S130：通过预先建立的DNN噪声消除模型对所述时域麦克风信号进行噪声消除处理得到经噪声消除后的时域麦克风信号，对所述时域骨导信号进行频域的噪声消除处理得到经噪声消除后的时域骨导信号；

需要说明的是，本实施例中为了更好地消除噪声，可以预先建立DNN噪声消除模型，然后采用该DNN噪声消除模型对时域麦克风信号进行噪声消除处理，其中，DNN噪声消除模型的建立过程为：

实际录取时域噪声信号n'和时域麦克风语音信号s，计算时域噪声信号n'和时域麦克风语音信号s的混合信号s_mix，将时域噪声信号n'、时域麦克风语音信号以及混合信号分别做时频变换(如FFT),得到的频域信号分别为N'(k),S(k)和S_mix(k)，其中，k为频域序号。再对S_mix(k)进行特征提取，计算第一特征参数。

将时域麦克风语音信号s以及混合信号s_mix在频域上分别划分为多个第一子带(如18个第一子带)，第一子带划分的方式可以采用mel频率的划分方式也可以采用bark子带的划分方式，具体采用哪种方式可以根据实际需要进行确定。

划分完成后，计算各个子带上的语音信号能量和混合信号能量，其中，语音信号能量根据

进行计算，混合信号能量根据

进行计算，其中，b表示子带序号，b＝0,1,...,18；

然后计算第一子带增益，具体可以根据

进行计算，其中，g(b)表示第b个第一子带的增益。

具体的，深度神经网络DNN噪声消除模型的训练的过程中，将上述计算出的真实混合信号的第一特征参数为输入信号，将上述计算得到的真实的第一子带增益g作为输出信号，不断训练和调整深度神经网路中的权重系数W、U及偏置，使每次输出的第一增益g'不断接近真实的第一增益值g。当g'和g的误差小于对应的预设值后，网络训练成功，并依据此时的网络参数得到最终的DNN噪声消除模型。

另外，上述判断时域骨导信号是否为语音信号，并确定出时域骨导信号不是语言信号后，该方法还可以包括：

依据时域骨导信号对骨导噪声信号功率谱进行更新；具体的，将时域骨导信号通过时频转换，转换为频域骨导信号，然后可以根据计算关系式P _n(k,t)＝β*P _n(k,t-1)+(1-β)*|Y(k,t)| ²对骨导噪声信号功率谱进行更新，其中，P _n(k,t)表示t时刻骨导传感器接收到的噪声信号的功率，P _n(k,t-1)表示t-1时刻骨导传感器接收到的噪声信号的功率，Y(k,t)表示t时刻的第k个频域骨导信号，k表示频域序号，β表示迭代因子，β具体可以为0.9，当然，β的具体数值可以根据实际需要进行确定，本实施例不做特殊限定。

则相应的，上述对时域骨导信号进行频域的噪声消除处理，得到噪声消除后的时域骨导信号的过程，具体可以为：

依据计算关系式

对频域骨导信号进行噪声消除，得到消除后的频域骨导信号，其中，

Y _t(k)表示t时刻的频谱信号，

表示经过噪声消除后的频谱信号，H _t(k)表示增益函数，λ表示过减因子，λ为常数(例如为0.9)，γ _t(k)表示后验信噪比。

S140：将与当前时刻对应的输出信号置为零；

具体的，当确定出当前时刻的时域骨导信号为噪声信号后，对应的时域麦克风信号也是噪声信号，因此可以直接将与当前时刻对应的输出信号置为零。

S150：对经噪声消除后的时域麦克风信号进行高通滤波处理，得到第一输出时域信号，对经噪声消除后的时域骨导信号进行低通滤波处理，得到第二输出时域信号；

需要说明的是，由于麦克风采集到的声音信号中高频比较丰富，骨导传感器采集到的声音信号中低频比较清晰完整，因此，本申请实施例可以对经噪声消除后的时域麦克风信号进行高通滤波处理，得到高频部分的第一输出时域信号，对经噪声消除后的时域骨导信号进行低通滤波处理，得到低频部分的第二输出时域信号。

S160：依据第一输出时域信号和第二输出时域信号，得到与当前时刻对应的输出时域信号。

具体的，本申请可以将第一输出时域信号和第二输出时域信号进行融合，具体可以预先确定与第一输出时域信号对应的第一权重系数k1，以及与第二输出时域信号对应的第二权重系数k2，然后通过各自的权重系数求和得到融合后的时域信号，具体可以通过out＝k1*out1+k2*out2计算关系式得到融合后的时域信号out，其中，out1为第一输出时域信号，out2为第二输出时域信号。

另外，为了避免融合后的时域信号溢出，还可以对融合后的时域信号进行动态调整，将过大的信号进行压缩，将过小的信号适当放大，从而防止信号溢出，然后将调整后的时域信号作为与当前时刻对应的输出时域信号。

进一步的，对时域骨导信号进行频域的噪声消除处理得到经噪声消除后的时域骨导信号的过程，具体可以为：

将时域骨导信号通过时频转换，转换为频域骨导信号；

对频域骨导信号进行频域的噪声消除处理，得到经噪声消除后的频域骨导信号；

判断经噪声消除后的频域骨导信号的带宽是否达到预设带宽，若达到，则直接对经噪声消除后的频域骨导信号进行时频反变换，得到经噪声消除后的时域骨导信号；若不满足，则采用预先建立的DNN带宽扩展模型对经噪声消除后的频域骨导信号进行带宽扩展，使扩展后的带宽达到预设带宽，并将扩展后的频域骨导信号进行时频反变换，得到经噪声消除后的时域骨导信号。

需要说明的是，上述在得到经噪声消除后的频域骨导信号后，还可以进一步判断噪声消除后的频域骨导信号的带宽是否达到预设带宽(预设带宽可以为1kHz)，若达到，则直接对噪声消除后的频域骨导信号做时频反变换，得到噪声消除后的时域骨导信号；若不满足预设带宽，则可以采用预先建立的DNN带宽扩展模型对经噪声消除后的频域骨导信号进行带宽扩展，将其扩展后的带宽达到预设带宽即可，然后在将扩展后的频域骨导信号进行时频反变换，得到经噪声消除后的时域骨导信号。

其中，DNN带宽扩展模型的建立过程为：

实际获取降噪后残留的骨导噪声信号n _g和骨导语音信号s _g，计算骨导噪声信号n _g和骨导语音信号s _g的混合信号s _g_mix，将骨导噪声信号n _g、骨导语音信号s _g以及骨导混合信号s _g_mix分别做时频变换(如FFT),得到频域信号N _g(k),S _g(k)和S _g_mix(k)，再对N _g(k),S _g(k)和S _g_mix(k)分别进行特征提取，计算各自的第二特征参数。

同样将骨导语音信号s _g以及混合信号s _g_mix在频域上划分为多个第二子带(如5个第二子带)，第二子带划分的方式可以采用mel频率的划分方式也可以采用bark子带的划分方式，具体采用哪种方式可以根据实际需要进行确定；计算各个第二子带上的骨导语音信号能量和骨导混合信号能量：

其中，骨导语音信号能量可以采用计算关系式

进行计算，骨导混合信号能量根据

进行计算，b'表示第二子带序号，b'＝0,1,...,5；

然后计算第二子带增益，具体可以根据

进行计算，其中，g(b')表示第b'个第二子带的增益。

具体的，深度神经网络DNN带宽扩展模型的训练过程中，将上述计算得到的真实的第二特征参数作为输入信号，将上述计算得到的真实的第二子带增益g作为输出信号，不断训练和调整深度神经网路中的权重系数W、U偏置，使每次输出的第二增益不断接近真实值。当输出的第二增益和真实值的误差小于对应的预设值后，网络训练成功，并依据此时的网络参数得到最终的DNN带宽扩展模型。

具体的，采用预先建立的DNN带宽扩展模型对经噪声消除后的频域骨导信号进行带宽扩展的过程，具体可以为：对频域骨导信号进行特征提取，得到第二信号特征；采用上述预先建立的DNN带宽扩展模型对第二信号特征进行处理，得到与频域骨导信号的各个第二频域点分别对应的第二增益；

计算频域骨导信号中与每个第二频率点各自对应的频谱信号与对应的第二增益的乘积，得到与每个第二频率点各自对应的、消除噪声后的频谱信号，以得到消除噪声后的频域骨导信号。进一步的，通过预先建立的DNN噪声消除模型对时域麦克风信号进行噪声消除处理，得到消除噪声后的时域麦克风信号的过程，具体可以为：

对时域麦克风信号进行时频变换，得到对应的频域麦克风信号；

提取频域麦克风信号的第一信号特征，并采用预先建立的DNN噪声消除模型对第一信号特性进行处理，得到与频域麦克风信号的各个第一频率点分别对应的第一增益；

计算频域麦克风信号中与每个第一频率点对应的频谱信号与对应的第一增益的乘积，得到与每个第一频率点各自对应的、消除噪声后的频谱信号，以得到消除噪声后的频域麦克风信号；

将消除噪声后的频域麦克风信号进行时频反变换，得到消除噪声后的时域麦克风信号。

进一步的，上述S120中判断时域骨导信号是否为语音信号的过程，具体可以为：

对时域骨导信号进行语音激活检测，以判断时域骨导信号是否为语音信号。

其中，上述对时域骨导信号进行语音激活检测，判断时域骨导信号是否为语音信号的过程，具体可以为：

计算时域骨导信号对应的过零率及基音周期；

对时域骨导信号进行时频变换，得到频域骨导信号；具体可以采用FFT快速傅里叶变换对时域骨导信号进行处理得到频域骨导信号；

计算频域骨导信号对应的频谱能量及谱质心；

对过零率、基音周期、频谱能量及谱质心进行融合判断，并得到与时域骨导信号对应的语音激活检测标记位；

依据语音激活检测标记位判断时域骨导信号是否为语音信号。

具体的，上述计算时域骨导信号对应的过零率的过程为：

根据第一计算关系式，计算时域骨导信号对应的过零率，其中第一计算关系式为：

其中，Z _n表示过零数，x(m)表示与时间变量m对应的时域信号，x(m-1)表示与时间变量m-1对应的时域信号，x(n)表示与时间变量n对应的时域信号，x(n-1)表示与时间变量n-1对应的时域信号；n≤N，N表示当前时域信号x(n)的长度；

ZCR＝Z _n/(m2-m1+1)，其中，ZCR表示过零率，m1表示当前帧时域信号列中第m1个点，m2表示当前帧时域信号中第m2个点。

上述计算时域骨导信号对应的基音周期的过程为：

自相关函数为：

其中，R _m表示语音信号自相关函数，x(n+m)表示与时间变量n+m对应的时域信号；

基音周期为：Pitch＝max{R _m}，其中，Pitch表示基音周期。

上述计算频域骨导信号对应的频谱能量的过程为：

具体的，对于指定带宽的频谱能量，如时域骨导信号经FFT快速傅里叶变换后，将8khz带宽分为128个子带，取低24子带能量：

其中，E _g表示低24子带的对数能量，j表示低24子带序号，Y(j)表示频域信号，其中，低24子带指的是从128个子带中按照从低频到高频取24个子带。

上述计算频域骨导信号对应的谱质心的过程为：

E(k)＝|Y(k)| ²，其中，brightness表示谱质心，f(k)表示第k个频率点的频率，E(k)第k个频率点的频谱能量，U表示频率点数。

更进一步的，上述对过零率、基音周期、频谱能量及谱质心进行融合判断，并得到与时域骨导信号对应的语音激活检测标记位的过程，具体可以为：

判断频谱能量是否小于第一预设值，若是，则与时域骨导信号对应的语音激活检测标记位为0；若否，则进入下一步判断；

判断过零率是否大于第二预设值，若是，则与时域骨导信号对应的语音激活检测标记位为0，若否，则进入下一步判断；

判断基音周期是否大于第三预设值或小于第四预设值，若是，则与时域骨导信号对应的语音激活检测标记位为0；否则，进入下一步判断；

判断谱质心是否大于第五预设值，若是，则与时域骨导信号对应的语音激活检测标记位为0；否则，则与时域骨导信号对应的语音激活检测标记位为1；

需要说明的是，在实际应用中第一预设值可以为-9，第二预设值可以为03.6，第三预设值可以为143，第四预设值可以为8，第五预设值可以为3，当然，每个预设值的具体数值可以根据实际情况进行确定，本实施例不做特殊限定。

则，相应的上述依据语音激活检测标记位判断时域骨导信号是否为语音信号的过程，具体可以为：

当语音激活检测标记位为1时，时域骨导信号为语音信号；

当语音激活检测标记位为0时，当前的时域骨导信号为噪声信号。

进一步的，上述S130中对时域麦克风信号以及时域骨导信号进行噪声消除处理的过程，具体可以为：

通过预先建立的DNN噪声消除模型，对时域麦克风信号进行噪声消除处理，得到消除噪声后的时域麦克风信号；

对时域骨导信号进行频域的噪声消除处理，得到噪声消除后的时域骨导信号。

可见，本申请实施例通过麦克风拾取时域麦克风信号，通过骨声纹传感器采集时域骨导信号，然后通过判断时域麦克风信号和时域骨导信号是否为语音信号，可以确定出当前时刻是否是用户在讲话，当是语音信号时进一步通过预先建立的DNN噪声消除模型对时域麦克风信号进行噪声消除处理，并对时域骨导信号进行频域的噪声消除处理，从而较好的消除背景噪声，再对经噪声消除后的时域麦克风信号进行高通滤波后得到高频部分的第一输出时域信号，对经噪声消除后的时域骨导信号进行低通滤波处理后，得到低频部分的第二输出时域信号，然后根据第一输出时域信号和第二输出时域信号即可得到既包含高频部分又包含低频部分的输出时域信号；本申请能够较好的消除背景噪声，有利于提高声音的音质，提升用户体验。

在上述实施例的基础上，本申请实施例还提供了一种语音增强装置，具体请参照图3。该装置包括：

获取模块21，用于获取当前时刻的时域麦克风信号和时域骨导信号；

判断模块22，用于判断时域麦克风信号和时域骨导信号是否为语音信号，若是，则触发降噪模块23；若否，则触发置零模块24；

降噪模块23，用于通过预先建立的DNN噪声消除模型对时域麦克风信号进行噪声消除处理得到经噪声消除后的时域麦克风信号，用于对时域骨导信号进行频域的噪声消除处理得到经噪声消除后的时域骨导信号；

置零模块24，用于将与当前时刻对应的输出信号置为零；

滤波模块25，用于对经噪声消除后的时域麦克风信号进行高通滤波处理，得到第一输出时域信号，对经噪声消除后的时域骨导信号进行低通滤波处理，得到第二输出时域信号；

融合模块26，用于依据第一输出时域信号和第二输出时域信号，得到与当前时刻对应的输出时域信号。

需要说明的是，本申请实施例中提供的语音增强装置具有与上述实施例中所提供的语音增强方法相同的有益效果，并且对于本实施例中所涉及到的语音增强方法的具体介绍请参照上述实施例，本申请在此不再赘述。

在上述实施例的基础上，本申请实施例还提供了一种语音增强系统，该系统包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现如上述语音增强方法的步骤。

需要说明的是，本申请实施例中的处理器具体可以用于实现接收当前时刻的时域麦克风信号和时域骨导信号，其中，时域麦克风信号为通过麦克风拾取的，时域骨导信号为通过骨声纹传感器采集的；判断时域麦克风信号和时域骨导信号是否为语音信号，若是，则通过预先建立的DNN噪声消除模型对时域麦克风信号进行噪声消除处理得到经噪声消除后的时域麦克风信号，用于对时域骨导信号进行频域的噪声消除处理得到经噪声消除后的时域骨导信号；若否，则将与当前时刻对应的输出信号置为零；对经噪声消除后的时域麦克风信号进行高通滤波处理，得到第一输出时域信号，对经噪声消除后的时域骨导信号进行低通滤波处理，得到第二输出时域信号；依据第一输出时域信号和第二输出时域信号，得到与当前时刻对应的输出时域信号。

在上述实施例的基础上，本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述语音增强方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其他实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种语音增强方法，其特征在于，包括：

获取当前时刻的时域麦克风信号和时域骨导信号；

判断所述时域麦克风信号和所述时域骨导信号是否为语音信号，若是，则通过预先建立的DNN噪声消除模型对所述时域麦克风信号进行噪声消除处理得到经噪声消除后的时域麦克风信号，对所述时域骨导信号进行频域的噪声消除处理得到经噪声消除后的时域骨导信号；若否，则将与所述当前时刻对应的输出信号置为零；

对所述经噪声消除后的时域麦克风信号进行高通滤波处理，得到第一输出时域信号，对所述经噪声消除后的时域骨导信号进行低通滤波处理，得到第二输出时域信号；

依据所述第一输出时域信号和所述第二输出时域信号，得到与所述当前时刻对应的输出时域信号。
根据权利要求1所述的语音增强方法，其特征在于，所述对所述时域骨导信号进行频域的噪声消除处理得到经噪声消除后的时域骨导信号的过程为：

将所述时域骨导信号通过时频转换，转换为频域骨导信号；

对所述频域骨导信号进行频域的噪声消除处理，得到经噪声消除后的频域骨导信号；

判断所述经噪声消除后的频域骨导信号的带宽是否达到预设带宽，若达到，则直接对所述经噪声消除后的频域骨导信号进行时频反变换，得到经噪声消除后的时域骨导信号；若不满足，则采用预先建立的DNN带宽扩展模型对所述经噪声消除后的频域骨导信号进行带宽扩展，使扩展后的带宽达到所述预设带宽，并将所述扩展后的频域骨导信号进行时频反变换，得到经噪声消除后的时域骨导信号。
根据权利要求1所述的语音增强方法，其特征在于，所述通过预先建立的DNN噪声消除模型对所述时域麦克风信号进行噪声消除处理，得到消除噪声后的时域麦克风信号的过程为：

对所述时域麦克风信号进行时频变换，得到对应的频域麦克风信号；

提取所述频域麦克风信号的第一信号特征，并采用预先建立的DNN噪声消除模型对所述第一信号特性进行处理，得到与所述频域麦克风信号的各个第一频率点分别对应的第一增益；

计算所述频域麦克风信号中与每个所述第一频率点对应的频谱信号与对应的第一增益的乘积，得到与每个所述第一频率点各自对应的、消除噪声后的频谱信号，以得到消除噪声后的频域麦克风信号；

将所述消除噪声后的频域麦克风信号进行时频反变换，得到消除噪声后的时域麦克风信号。
根据权利要求1所述的语音增强方法，其特征在于，所述判断所述时域麦克风信号和所述时域骨导信号是否为语音信号的过程为：

对所述时域骨导信号进行语音激活检测，以判断所述时域骨导信号是否为语音信号；

当所述时域骨导信号为语音信号时，所述时域麦克风信号为语音信号。
根据权利要求4所述的语音增强方法，其特征在于，所述对所述时域骨导信号进行语音激活检测，判断所述时域骨导信号是否为语音信号的过程为：

计算所述时域骨导信号对应的过零率及基音周期；

对所述时域骨导信号进行时频变换，得到频域骨导信号；

计算所述频域骨导信号对应的频谱能量及谱质心；

对所述过零率、所述基音周期、所述频谱能量及所述谱质心进行融合判断，并得到与所述时域骨导信号对应的语音激活检测标记位；

依据所述语音激活检测标记位判断所述时域骨导信号是否为语音信号。
根据权利要求5所述的语音增强方法，其特征在于，所述对所述过零率、所述基音周期、所述频谱能量及所述谱质心进行融合判断，并得到与所述时域骨导信号对应的语音激活检测标记位的过程为：

判断所述频谱能量是否小于第一预设值，若是，则与所述时域骨导信号对应的语音激活检测标记位为0；若否，则进入下一步判断；

判断所述过零率是否大于第二预设值，若是，则与所述时域骨导信号对应的语音激活检测标记位为0，若否，则进入下一步判断；

判断所述基音周期是否大于第三预设值或小于第四预设值，若是，则与所述时域骨导信号对应的语音激活检测标记位为0；否则，进入下一步判断；

判断所述谱质心是否大于第五预设值，若是，则与所述时域骨导信号对应的语音激活检测标记位为0；否则，则与所述时域骨导信号对应的语音激活检测标记位为1；

则，所述依据所述语音激活检测标记位判断所述时域骨导信号是否为语音信号的过程为：

当所述语音激活检测标记位为1时，所述时域骨导信号为语音信号；

当所述语音激活检测标记位为0时，所述当前的时域骨导信号为噪声信号。
根据权利要求1所述的语音增强方法，其特征在于，所述依据所述第一输出时域信号和所述第二输出时域信号，得到与所述当前时刻对应的输出时域信号的过程为：

依据第一权重系数和第二权重系数对所述第一输出时域信号和所述第二输出时域信号进行融合，得到融合后的时域信号；

对融合后的时域信号进行动态调整，使调整后的时域信号在预设范围内，并将调整后的时域信号作为与所述当前时刻对应的输出时域信号。
一种语音增强装置，其特征在于，包括：

获取模块，用于获取当前时刻的时域麦克风信号和时域骨导信号；

判断模块，用于判断所述时域麦克风信号和所述时域骨导信号是否为语音信号，若是，则触发降噪模块；若否，则触发置零模块；

所述降噪模块，用于通过预先建立的DNN噪声消除模型对所述时域麦克风信号进行噪声消除处理得到经噪声消除后的时域麦克风信号，并对所述时域骨导信号进行频域的噪声消除处理得到经噪声消除后的时域骨导信号；

所述置零模块，用于将与所述当前时刻对应的输出信号置为零；

滤波模块，用于对所述经噪声消除后的时域麦克风信号进行高通滤波处理，得到第一输出时域信号，对所述经噪声消除后的时域骨导信号进行低通滤波处理，得到第二输出时域信号；

融合模块，用于依据所述第一输出时域信号和所述第二输出时域信号，得到与所述当前时刻对应的输出时域信号。
一种语音增强系统，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述语音增强方法的步骤。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音增强方法的步骤。