WO2011044853A1

WO2011044853A1 - 一种实现通信系统中背景噪声的跟踪的方法和装置

Info

Publication number: WO2011044853A1
Application number: PCT/CN2010/077777
Authority: WO
Inventors: 王喆
Original assignee: 华为技术有限公司
Priority date: 2009-10-15
Filing date: 2010-10-15
Publication date: 2011-04-21
Also published as: EP2437256A1; US20110238418A1; US20120084085A1; US8095361B2; US8447601B2; EP2437256B1; EP2437256A4; CN102044241A; CN102044241B

Description

一种实现通信系统中背景噪声的跟踪的方法和装置本申请要求了 2009年 10月 15 日提交的，申请号为 200910205300. 2，发明名称为 "一种实现通信系统中背景噪声的跟踪的方法和装置" 的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及通信领域，特别涉及一种实现通信系统中背景噪声的跟踪的方法和装置。背景技术

在语音通信系统中， f it VAD ( Vo i ce Act ivi ty Detec t ion, 语音激活检测）技术，可以获知语音何时是激活状态，从而可以实现只在激活状态传输信号，有效地节约带宽资源。另外，由于语音通信系统中，说话人输入给终端的语音信号中通常都夹带有背景噪声，通过赚 oi se Suppres s ion，噪声抑制）技术，可以有效降低或者抑制语音中夹带的背景噪声，显著改善听者的主观感受。

在语音激活检测 VAD 中，区别当前信号是语音还是非语音，本质上是看当前信号的特征是更接近背景噪声的特征还是更接近语音的特征，更接近的一方则为当前信号的类别。在噪声抑制 NS中，为了削弱背景噪声对语音的影响，也需要知道当前背景噪声的某些特征，这样才能把这些特征从语音信号中去除掉，从而达到抑制噪声的目的。于是无论是语音激活检测 VAD还是噪声抑制 NS，都要涉及到一个关键的技术，即背景噪声跟踪。

目前，广泛使用的背景噪声跟踪技术是 AMR ( Audio/Modem Ri ser , 声音 / 调制解调器插卡） VAD2 中所用的背景噪声跟踪技术。该技术首先计算当前帧的 SNR ( S i gna l to Noi se Ra t io , 信噪比），如果 SNR较小，小于背景噪声门限，则当前帧就被确认为是背景噪声帧；否则检测当前帧的基音和音调（tone)特征，如果当前帧具有基音和音调的特征，则将滞后计数器加 1，否则进一步计算当前帧与其之前相邻若干帧的谱波动大小，如果当前帧的谱波动较大，大于一个门限，则认为当前帧可能不是噪声帧且将滞后计数器加 1，否则认为当前帧可能是噪声帧且将连续噪声帧计数器加 1。如果连续噪声帧计数器达到了 50帧，则可确认当前帧应为背景噪声帧。并且，在连续噪声帧计数器累加的过程中，允许个别不确信的帧出现（以滞后计数器来表示）。当连续噪声计数器达到 50帧时，如果滞后计数器不大于 6 (即不确信的帧不大于 6帧）时，则确认当前帧为噪声帧，即此时不影响对当前噪声帧的确认。如果在连续噪声计数器累加的过程中，滞后计数器超过 6帧，则重置连续噪声帧计数器，当前信号不确认为背景噪声。

一方面，上述背景噪声跟踪技术在跟踪速度上存在缺陷，当背景噪声发生突变时（指向 SNR增大的方向变化，比如噪声电平突然升高的情况），依靠 SNR 和背景噪声门限的比较已无法识别出噪声信号，只能等待连续 50个噪声帧出现，导致跟踪速度慢。如果说话人的频率较快，无法满足出现连续 50个噪声帧的条件， AMR VAD2将无法跟踪上背景噪声。另一方面，上述背景噪声跟踪技术在跟踪的准确性上存在缺陷，由于很多音乐信号中没有明显的基音和音调特征，则如果依据连续噪声计数器大于等于 50且滞后计数器不大于 6的条件，会将某些音乐信号也错误的判断为是背景噪声。发明内容

为了提高跟踪背景噪声的速度、提高跟踪背景噪声的准确性，本发明实施例提供了一种实现通信系统中背景噪声的跟踪的方法和装置。所述技术方案如下：

一方面，提供了一种实现通信系统中背景噪声的跟踪的方法，所述方法包括：

才艮据输入的音频信号，计算当前帧的信噪比 SNR;

若所述当前帧的信噪比 SNR不小于门限 1，则累加帧计数器 cnt 2，并计算所述当前帧的音调特征以及信号稳定性特征；

当所述帧计数器 cnt 2累加至时间窗口长度时，则根据所述计算得到的所述时间窗口各帧的音调特征值和信号稳定性特征值，判断出所述时间窗口中含有噪声区间的可能性大小；

根据判断出的所述时间窗口含有噪声区间的可能性大小，提取所述时间窗口中的噪声特征。

再一方面，提供了一种实现通信系统中背景噪声的跟踪的装置，所述装置包括：第一处理模块，用于根据输入的音频信号，计算当前帧的信噪比 SNR ; 第二处理模块，用于若所述当前帧的信噪比 SNR不小于门限 1，则累加帧计数器 cnt 2，并计算所述当前帧的音调特征以及信号稳定性特征；

第三处理模块，用于当所述帧计数器 cn t 2累加至时间窗口长度时，则根据所述计算得到的所述时间窗口各帧的音调特征值和信号稳定性特征值，判断出所述时间窗口中含有噪声区间的可能性大小；

第四处理模块，用于根据判断出的所述时间窗口含有噪声区间的可能性大小，提取所述时间窗口中的噪声特征。

本发明实施例提供的技术方案的有益效果是：

通过连续的在一定长度的时间窗口中分析背景噪声的存在性，可以快速的检测或跟踪变化频繁且剧烈的背景噪声。同时，通过对音调特征，频谱峰值位置稳定性和最大峰谷比位置稳定性的检测显著的降低了发生在音乐信号的背景噪声误跟踪现象。附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图 1是本发明实施例 1提供的实现通信系统中背景噪声的跟踪的方法的流程示意图；

图 2是本发明实施例 2提供的实现通信系统中背景噪声的跟踪的方法的流程示意图；

图 3是本发明实施例 3提供的实现通信系统中背景噪声的跟踪的装置的示意图。具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例 1 本领域技术人员可以获知：背景噪声跟踪技术的性能可以用两个指标来衡量，即跟踪的速度和跟踪的准确性。其中，跟踪的速度指识别出某背景噪声信号的时间与该信号实际发生时间之间的距离，距离越短跟踪速度就越快。跟踪的准确性指能够正确识别出背景噪声信号和非背景噪声信号，进而只在背景噪声信号中提取特征参数。

如前所述，现有的噪声跟踪技术普遍在跟踪准确性和跟踪速度上都存在不足。跟踪速度的不足主要出现在有变化较剧烈的背景噪声存在时，现有噪声跟踪技术需要一段比较长的时间，只有在背景噪声变的平稳且持续一段较长的时间之后才能有效的跟踪上。跟踪准确性的不足主要出现在有音乐信号存在时，由于很多的音乐信号中没有明显的基音和音调特征，现有背景噪声跟踪技术会把此类音乐信号误当成噪声信号进行跟踪，需要特别注意的是，此处没有明显的基音和音调特征的音乐信号是一种泛指，传输的信号中除语音信号、背景噪声信号以外的任何信号，只要没有明显的基音和音调特征的都可称为音乐信号。

有鉴于此，本发明实施例提供了一种实现通信系统中背景噪声的跟踪的方法，旨在改善现有背景噪声跟踪技术在有突变背景噪声存在的场景下，跟踪速度较慢的问题，以及改善现有背景噪声跟踪技术在有音乐信号存在时的误跟踪问题，参见图 1，该方法内容如下：

Sl: 4艮据输入的音频信号，计算当前帧的信噪比 SNR;

S2:若当前帧的信噪比 SNR不小于门限 1，则累加帧计数器 cnt 2，并计算当前帧的音调特征以及信号稳定性特征；

其中，音调特征，包括但不限于提取——频谱的最大峰谷比，频谱的局部峰谷比的线性组合，频谱的局部峰值数量，部分频谱的局部峰值数量，频谱的最大峰均比，频谱的局部峰均比的线性组合等。其中，信号稳定性特征，包括但不限于提取一一总能量波动，子带能量波动，频谱最大峰值位置波动，频谱最大峰谷比位置波动，多个频谱局部峰值位置波动等。

S 3:当帧计数器 cnt 2 累加至时间窗口长度时，则根据计算得到的时间窗口各帧的音调特征值和信号稳定性特征值，判断出时间窗口中含有噪声区间的可能性大小；

时间窗中含有噪声区间的可能性大小指时间窗中是否含有噪声及含有噪声的位置。对于一个时间窗中的音频帧，可能存在下列噪声区间可能性：当前帧为噪声帧，存在噪声帧。

S4:才艮据判断出的时间窗口含有噪声区间的可能性大小，提取时间窗口中的噪声特征。

对于当前帧为噪声帧的情况，可以直接提起当前帧的噪声特性，对于存在噪声帧的情况又具体包括：全噪声区间、大部分为噪声区间而仅有少量非噪声区间。对不同的类型根据不同情况提取噪声特征。

本发明实施例提供的方法，通过连续的在一定长度的时间窗口中分析背景噪声的存在性，可以快速的检测或跟踪变化频繁且剧烈的背景噪声。同时，通过对音调特征，频谱峰值位置稳定性和最大峰谷比位置稳定性的检测显著的降低了发生在音乐信号的背景噪声误跟踪现象。

实施例 2

为了改善现有背景噪声跟踪技术在有突变背景噪声存在的场景下，跟踪速度较慢的问题，以及现有背景噪声跟踪技术在有音乐信号存在时的误跟踪问题，本发明实施例提供了一种实现通信系统中背景噪声的跟踪的方法，参见图 2，该方法内容如下：

101 : 才艮据输入的音频信号，计算当前帧的信噪比 SNR。

对于输入的音频信号，各音频信号以帧格式的形式进行传输，首先需要对于当前帧进行信噪比的计算，其中，计算方法如下：

101A:获取当前帧的频谱信息，将当前帧的频谱非均匀的划分为 16个子带。其中，本实施例以将当前帧的频谱非均匀的划分为 16个子带为例进行说明，具体实现时，可以采用均匀的划分方式，本实施例对此不做限制。另外，具体实现时，对划分得到的子带数目不做限制，例如，当对于频域分辨率要求较高的情况，则子带数目可以适当增加，但同时计算的复杂度会增大。具体应用时，根据技术人员的实际需要进行选择，本实施例对此不做限制。

101B: 根据得到的子带，计算每个子带的 snr (i)。

其中， snr (i) = Es (i) / En (i) ; snr (i)表示当前帧第 i个子带的 SNR， Es (i) 和 En (i)分别表示当前帧和背景噪声估计中第 i子带的能量。

101C: 根据计算得到的每个子带的 snr (i)，得到当前帧的 SNR。其中，当前帧的 SNR表示为所有子带 snr (i)的和，即 Μ? = Χ Γ( )。

102：判断当前帧的 SNR是否小于门限 1，如果是，执行步骤 103; 否则执行步骤 104

其中，该门限 1可以称为噪声门限，且该门限 1 的取值为一较小的数值，通常 SNR的数值单位为分贝 DB，相应地，该门限 1的数值单位也为 DB，具体实现时，对门限的数值单位不做限制。

103：确认当前帧是噪声帧。

进一步地，为了防止将能量较低的语音末尾当做背景噪声，由于该语音末尾由于能量较低，所以其 SNR会有可能小于上述门限 1，相应地，在步骤 103还包括：将连续噪声计数器 cnt l加 1，之后判断连续噪声计数器 cnt l是否大于门限 2，如果是，则将当前帧确认为噪声帧；否则，则当前帧是语音末尾，流程结束。

104：当前帧的 SNR不小于门限 1，将帧计数器 cnt 2加 1

105：在将帧计数器 cnt 2加 1 的同时，计算当前帧的音调特征值参数和信号稳定性参数；且对最小子带能量緩存进行更新。

其中，上述音调特征值参数包括但不限于：频谱的最大峰谷比，频谱的局部峰谷比的线性组合，频谱的局部峰值数量，部分频谱的局部峰值数量，频谱的最大峰均比，频谱的局部峰均比的线性组合等。优选地，本实施例是以频谱最大的 3个归一化峰谷比的和来表示音调特征值。详见如下： tonal = PVR_maxl + PVR_mm2 + PVR_max3

其中 ^^ ₃分别表示当前帧频谱中最大的 3个归一化峰谷比，归一化峰谷比表示为 PVR = [(peak - val, ) + (peak - val )] / E

其中？^樣示^!¹谱的某个局部峰值， ra/,和分别表示谱峰值左右两侧各 4个频点范围内搜索得到的最小值，表示 ?£>α洒侧距^ α撮近的局部谷值，

E_avg表示频谱能量的均值。

其中，上述信号稳定性参数包括但不限于：总能量波动，子带能量波动，频谱最大峰值位置波动，频谱最大峰谷比位置波动，多个频谱局部峰值位置波动等。优选地，本实施例以谱波动值、当前帧的频谱峰值位置波动值、当前帧的频谱最大峰谷比位置的波动值为例进行说明。分别详见如下：

1 普波动值（ spdev )，计算方法如下:

其中 M E_w(0的均值， E_w(0为第子带经谱减后的能量，表示为

E_W( ) = E ·)/ ()

其中表示当前帧第子带的能量， E_avg(0表示第子带的能量滑动平均，表示为

E_avg(i) = a-E_avg(i) + (\-a)-E_s(i)

其中《是遗忘系数

2、当前帧的频普峰值位置波动值（ ^_∞)，表示 FFT( Fast Fourier Transform, 傅立叶变换）谱最大峰值位置的前后变化大小，计算方法如下：

P idx_{p max} (0)― idx_{p max} (― 1)

其中^ ^ (0)和 _max(-l)分别表示当前和前一帧中频谱最大峰值的 FFr频点索引。 3、频谱最大峰谷比位置波动值 Mp_flux ), 表示帧内具有最大峰谷比的 FFT 谱峰值位置的前后变化大小，其计算方法如下。

^MP_flux = idx_pwmaK (0) - idx_pwmaK (-1)

其中 W~ max(0)和 W> _max(-l)分别表示当前帧和其前一帧具有最大峰谷比的^频点索引，峰谷比的计算方法为

其中 — 表示局部峰值^啲能量， — ,和分别表示^:左侧第个和右侧第个频点的能量。其中，该步骤 105 中所涉及的对最小子带能量緩存进行更新，其作用是存储当前时间窗口中各个子带的最小能量值。

106: 根据步骤 105得到的参数值，和各参数对应的门限进行比较后，针对各参数而言，对于满足各自的条件的参数对应的计数器加 1。详见如下：

106A:判断步骤 105得到的当前帧的谱波动值是否小于门限 3，如果是，则将弱谱波动计数器 cnt3加 1; 否则，保持弱谱波动计数器 cnt3不变。

106B:判断步骤 105得到的音调特征值是否小于门限 4，如果是，则将弱音调计数器 cnt4加 1; 否则，保持弱音调计数器 cnt4不变。

106C:判断步骤 105得到的频谱最大峰谷比位置波动值是否小于门限 5，如果是，则将稳定最大峰谷比位置计数器 cnt5加 1; 否则，保持稳定最大峰谷比位置计数器 cnt5不变。

106D:判断步骤 105得到的频谱峰值位置波动值是否大于门限 6，如果是，则将频谱峰值位置波动计数器 cnt6加 1; 否则，保持频谱峰值位置波动计数器 cnt6不变。

优选地，上述门限 3可以取值为 12、门限 4可以取值为 15、门限 5可以取值为 1、门限 6可以取值为 0。本实施例对各门限具体取值大小和取值单位不做限制，根据实际应用进行设置。

107: 判断帧计数器 cnt2 计数是否等于预设的时间窗口长度；如果是，则执行步骤 108; 否则，执行步骤 114。

其中，帧计数器 cnt2的目的是为了建立一个时间窗口，本实施例中将该时间窗口的长度预设为 30，即该时间窗口由 30帧帧长组成，相当于帧计数器 cnt2 计数达到 30，本实施例中在每一个这样的时间窗口内都会对信号特征进行分析，从中提取出可能存在的背景噪声特征。

108：判断弱音调计数器 cnt4是否大于门限 7，如果是，则执行步骤 109; 否则，执行步骤 112。

109：弱音调计数器 cnt4大于门限 7，则认为在过去的 30帧中存在噪声帧，则判断是否同时满足如下条件：弱谱波动计数器 cnt3>门限 8、稳定最大峰谷比位置计数器 cnt5〈门限 9、频谱峰值位置波动计数器 cnt6>门限 10、当前帧的谱波动 spdev〈门限 11，如果是，则执行步骤 113; 否则，执行步骤 110。

110：判断是否同时满足如下条件：稳定最大峰谷比位置计数器 cnt5〈门限 9、频谱峰值位置波动计数器 cnt6>门限 10; 如果是，则执行步骤 111; 否则，执行步骤 112。

111：将最小子带能量緩存中存储的子带能量作为噪声子带能量的特征。其中，若执行到步骤 111，则表示过去的 30帧中至少存在噪声帧，且将最小子带能量緩存中存储的子带能量作为噪声特征。

112：将各计数器 cntl-6重置为 0，并将最小子带能量緩存清空。

其中，若执行到步骤 112，则表示过去的 30帧中不存在噪声帧。

113: 确认当前帧为噪声帧。

其中，若执行到步骤 113，则可确认当前帧为噪声帧。

114：判断帧计数器 cnt2是否大于 30，如果否，则执行步骤 115; 否则，执行步骤 116。

115：继续读取当前帧的下一帧，返回执行步骤 101。

116: 判断谱波动是否小于门限 11，如果是，则执行步骤 113，即确认当前帧为噪声帧；否则，执行步骤 112，即将各计数器 cnt l-6重置为 0，并将最小子带能量緩存清空。

其中，若当前帧为非噪声帧，则可以不用提取时间窗口的噪声特征；若当前帧为噪声帧，则可以直接提取该噪声帧的特征值；若判断出时间窗户存在噪声帧，则可以通过以下方式方法，提取到该时间窗口的噪声特征，详见如下：进一步地，若判断结果为时间窗口存在噪声帧时，则根据上述音调特征统计值和信号稳定性统计值，可以判断得出该时间窗口中含有背景噪声区间的类型（即包括全噪声区间、大部分为噪声区间而仅有少量非噪声区间），具体如下：

1、判断该时间窗口中含有背景噪声区间是否为全噪声区间；例如，根据弱谱波动计数器 cnt 3，判断该弱谱波动计数器 cnt 3是否等于时间窗口长度，如果是，则认为该时间窗口中含有背景噪声区间为全噪声区间；否则，则认为该时间窗口中含有背景噪声区间不为全噪声区间；

2、判断该时间窗口中含有背景噪声区间是否是大部分为噪声区间而仅有少量非噪声区间；例如，根据弱谱波动计数器 cnt 3，判断该弱谱波动计数器 cnt 3 是否小于时间窗口长度且大于预设取值 (该预设取值为本领域技术根据实际需要所设定的经验值），如果是，则认为该时间窗口中是大部分为噪声区间而仅有少量非噪声区间；

3、判断该时间窗口中不存在噪声区间。即如前所述，若执行到步骤 112，则表示过去的 30帧中不存在噪声帧。

进一步地，若上述判断得出该时间窗口中含有背景噪声区间是大部分为噪声区间而仅有少量非噪声区间，则进一步包括：判断上述少量的非噪声区间在该时间窗口中出现的位置，例如，上述少量的非噪声区间是否位于该时间窗口的前端，或，上述少量的非噪声区间是否位于该时间窗口的末端，或，上述少量的非噪声区间是否位于该时间窗口的两端。方法如下：获取不满足令弱谱波动计数器 cnt 3+l的帧，对于获取的帧得到帧的位置信息，根据所得到的位置信息，可以得出帧所在时间窗口的位置。例如，对于输入的音频信号的每个帧，在进行处理时，都会在緩存中记录其相关的信息，例如，对于满足令弱谱波动计数器 cnt 3+l的帧，在緩存中将其标识记为 " 1" ; 对于满足令弱谱波动计数器 cnt 3+l的帧，在緩存中将其标识记为 " 0" ; 相应地，此时，可以才艮据緩存中记录的相关内容，可以获知不满足令弱谱波动计数器 cnt 3+l的帧的位置信息，并进而可以获知少量的非噪声区间在该时间窗口中出现的位置。

当需要提取背景噪声的特征时，本发明实施例提供的方法还包括：

1、当该时间窗口中含有背景噪声区间为全噪声区间时，根据实际需要进行背景噪声的特征的提取。例如：提取该时间窗口最末端的噪声区间的特征值作为该背景噪声在该时间窗口的特征；或，提取该时间窗口内所有噪声区间的特征均值作为该背景噪声在该时间窗口的特征；或，提取该时间窗口内部分或全部噪声区间的加权特征值作为该背景噪声在该时间窗口的特征，本发明实施例对提取的方式和方法不做限制。

2、当该时间窗口中含有背景噪声区间为大部分为噪声区间而仅有少量非噪声区间时，

1 )若非噪声区间不在时间窗口的末端时，则提取该时间窗口最末端的噪声区间的特征值作为该背景噪声在该时间窗口的特征；或，提取时间窗口中靠近末端的部分噪声区间的加权特征值作为该背景噪声在该时间窗口的特征；

2 )若非噪声区间在时间窗口的末端时，则提取时间窗口中的最小特征值作为该背景噪声在该时间窗口的特征；或，提取部分噪声区间的加权特征值作为该背景噪声在该时间窗口的特征。

综上所述，本发明实施例提供的方法，通过连续的在一定长度的时间窗口中分析背景噪声的存在性，可以快速的检测或跟踪变化频繁且剧烈的背景噪声。同时，通过对音调特征，频谱峰值位置稳定性和最大峰谷比位置稳定性的检测显著的降低了发生在音乐信号的背景噪声误跟踪现象。实施例 3

与上述方法实施例相应地，本发明实施例提供了一种实现通信系统中背景噪声的跟踪的装置，参见图 3，该装置包括：

第一处理模块 301，用于根据输入的音频信号，计算当前帧的信噪比 SNR ; 第二处理模块 302，用于若当前帧的信噪比 SNR不小于门限 1，则累加帧计数器 cnt 2，并计算当前帧的音调特征以及信号稳定性特征；

第三处理模块 303，用于当帧计数器 cn t 2 累加至时间窗口长度时，则根据计算得到的时间窗口各帧的音调特征值和信号稳定性特征值，判断出时间窗口中含有噪声区间的可能性大小；第四处理模块 304，用于根据判断出的时间窗口含有噪声区间的可能性大小，提取时间窗口中的噪声特征。

其中，第一处理模块 301，包括：

划分单元，用于根据输入的音频信号，获取当前帧的频谱信息，将当前帧的频谱划分为多个子带；

子带计算单元，用于根据得到的各子带，计算每个子带的信噪比 snr(i); 获得单元，用于根据计算得到的每个子带的 snr(i)，得到当前帧的 SNR。其中，第二处理模块 302，包括：

门限判断单元，用于判断当前帧的信噪比 SNR是否大于门限 1;

帧计数器累加单元，用于若判断单元判断结果为否时，累加帧计数器 cnt2; 计算单元，用于计算当前帧的谱波动值、当前帧的音调特征值、当前帧的频谱峰值位置波动值以及当前帧的频谱最大峰谷比位置波动值。

其中，第三处理模块 303，还包括：

累加单元，用于若当前帧的谱波动值小于门限 3，则累加弱谱波动计数器 cnt3;若当前帧的音调特征值小于门限 4，则累加弱音调计数器 cnt4; 若当前帧的频谱最大峰谷比位置波动值小于门限 5，则累加稳定最大峰谷比位置计数器 cnt5; 若当前帧的频谱峰值位置波动值大于门限 6，则累加频谱峰值位置波动计数器 cnt6;

判断单元，用于根据当前帧的谱波动值、音调特征值、频谱最大峰谷比位置波动值、频谱峰值位置波动值以及各计数器，判断时间窗口中是否存在噪声帧。

其中，判断单元具体用于如果弱音调计数器 cnt4大于门限 7，则时间窗口中无噪声帧；如果弱音调计数器 cnt4不大于门限 7，则若弱谱波动计数器 cnt3 大于门限 8、稳定最大峰谷比位置计数器 cnt5小于门限 9、频谱峰值位置波动计数器 cnt6大于门限 10，且当前帧的谱波动值小于门限 11，则当前帧为噪声帧；否则，若稳定最大峰谷比位置计数器 cnt5小于门限 9，且频谱峰值位置波动计数器 cnt6大于门限 10，则时间窗口中存在噪声帧；否则，时间窗口中无噪声帧。

其中，第三处理模块 303，具体用于若弱谱波动计数器 cnt3等于时间窗口长度，则时间窗口为全噪声区间；若弱谱波动计数器 cnt3小于时间窗口长度且大于预设长度，则时间窗口为大部分为噪声区间且存在少量的非噪声区间；若时间窗口中无噪声帧。

若时间窗口为大部分为噪声区间且存在少量的非噪声区间，第三处理模块 303还包括：位置类型判断单元，用于判断少量的非噪声区间在时间窗口出现的位置类型，位置类型包括：时间窗口的前端、时间窗口的末端、时间窗口的两端。

其中，位置类型判断单元具体用于根据弱谱波动计数器 cnt 3，获取不满足令弱谱波动计数器 cnt 3累加的帧，根据获取的帧，得到帧的位置，根据位置获得少量的非噪声区间在时间窗口出现的位置类型。

第四处理模块 304 具体用于若时间窗口为全噪声区间时，则提取时间窗口最末端的噪声区间的特征值；或，提取时间窗口内所有噪声区间的特征均值；或，提取时间窗口内部分或全部噪声区间的加权特征值；若时间窗口为大部分为噪声区间且存在少量的非噪声区间时，如果非噪声区间不在时间窗口的末端，则提取时间窗口最末端的噪声区间的特征值；或，提取时间窗口中靠近末端的部分噪声区间的加权特征值；如果非噪声区间在时间窗口的末端时，则提取时间窗口中噪声特征的最小值；或，提取部分噪声区间的加权特征值。所述第三处理模块，还用于当所述帧计数器 cnt 2大于所述时间窗口长度时，若所述当前帧的谱波动值小于门限 1 1，则所述当前帧为噪声帧；否则，所述当前帧为非噪声帧。

综上所述，本发明实施例提供的装置，通过连续的在一定长度的时间窗口中分析背景噪声的存在性，可以快速的检测或跟踪变化频繁且剧烈的背景噪声。同时，通过对音调特征，频谱峰值位置稳定性和最大峰谷比位置稳定性的检测显著的降低了发生在音乐信号的背景噪声误跟踪现象。本发明实施例中的 "接收" 一词可以理解为主动从其他模块获取也可以是接收其他模块发送来的信息。

本领域技术人员可以理解附图只是一个优选实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

权利要求书

1、一种实现通信系统中背景噪声的跟踪的方法，其特征在于，所述方法包括：

才艮据输入的音频信号，计算当前帧的信噪比 SNR;

2、如权利要求 1所述的方法，其特征在于，所述根据输入的音频信号，计算当前帧的信噪比 SNR的步骤，包括：

根据输入的音频信号，获取当前帧的频谱信息，将当前帧的频谱划分为多个子带；

根据得到的各子带，计算每个子带的信噪比 snr (i)；

根据计算得到的每个子带的 _{s nr} (i)，得到当前帧的 SNR。

3、如权利要求 1所述的方法，其特征在于，所述根据所述计算得到的所述时间窗口各帧的音调特征值和信号稳定性特征值，判断出所述时间窗口中含有噪声区间的可能性大小，包括：

根据所述音调特征值和信号稳定性特征值判断当前帧是否为噪声帧，若当前帧为噪声帧，则判断所述时间窗口中含有噪声区间的可能性大小。

4、如权利要求 1所述的方法，其特征在于，所述计算所述当前帧的音调特征以及信号稳定性特征的步骤，包括：

计算所述当前帧的音调特征值、所述当前帧的谱波动值、所述当前帧的频谱峰值位置波动值以及所述当前帧的频谱最大峰谷比位置波动值。

5、如权利要求 4所述的方法，其特征在于，计算所述当前帧的音调特征值包括计算频谱最大的 3个归一化峰谷比的和：

tonal = i + PVR ₂ + PVR

其中尸 ^₂,₃分别表示当前帧频谱中最大的 3个归一化峰谷比，归一化峰谷比表示为 PVR = [(peak - val, ) + (peak - val_r )] I E_avg

其中; 表示 FFr谱的某个局部峰值， ra/ n_V 分别表示 FFr谱峰值;? 左右两侧各 4个频点范围内搜索得到的最小值，表示;? ei^两侧距;? ei^最近的局部谷值，

E_avg表示 FFr频谱能量的均值。

6、如权利要求 4所述的方法，其特征在于，计算所述当前帧的谱波动值 s pdev 包括： spdev = ∑ (E_w (0 - Mf

N

其中 M E_w(;o的均值，为第子带经谱减后的能量，表示为

其中表示当前帧第子带的能量， E_avg«表示第子带的能量滑动平均，表示为

E_avg{i) = a-E_avg{i) + {l-a)-E_s{i)

其中《是遗忘系数

7、如权利要求 4所述的方法，其特征在于，计算所述当前帧的频谱峰值位置波动值包括：

Pflu, = idx_pm^ (0) - idx_pmax (- 1)

其中 idx_pmax O)和 Wx_pmax (-1)分别表示当前和前一帧中频谱最大峰值的频点索引。

8、如权利要求 4所述的方法，其特征在于，计算所述当前帧的频谱最大峰谷比位置波动值 Α ^包括：

^MPfl_UX = (°) - 其中 ^^ (0)和^^ (-1)分别表示当前帧和其前一帧具有最大峰谷比的 FFr频点索引，峰谷比? vr的计算方法为

其中表示局部峰值的能量， E, — — ,和 E,_A— ₊,分别表示^ 左侧第个和右侧第个 FFr频点的能量。

9、如权利要求 4至 8任一项所述的方法，其特征在于，所述判断出所述时间窗口中含有噪声区间的可能性大小的步骤之前，所述方法还包括：

若所述当前帧的谱波动值小于门限 3，则累加弱谱波动计数器 cnt 3;

若所述当前帧的音调特征值小于门限 4，则累加弱音调计数器 cnt 4 ;

若所述当前帧的频谱最大峰谷比位置波动值小于门限 5，则累加稳定最大峰谷比位置计数器 cnt 5 ;

若所述当前帧的频谱峰值位置波动值大于门限 6，则累加频谱峰值位置波动计数器 cnt 6 ;

根据所述当前帧的谱波动值、音调特征值、频谱最大峰谷比位置波动值、频谱峰值位置波动值以及各计数器，判断所述时间窗口中是否存在噪声帧。

10、如权利要求 9所述的方法，其特征在于，当所述帧计数器 cnt 2累加至时间窗口长度时，所述判断所述时间窗口中是否存在噪声帧的步骤，包括：如果所述弱音调计数器 cnt 4不大于门限 7，则所述时间窗口中无噪声帧；如果所述弱音调计数器 cnt 4大于门限 7，则若所述弱谱波动计数器 cnt 3大于门限 8、所述稳定最大峰谷比位置计数器 cnt 5小于门限 9、所述频谱峰值位置波动计数器 cnt 6大于门限 10，且所述当前帧的谱波动值小于门限 11，则所述当前帧为噪声帧；否则，若所述稳定最大峰谷比位置计数器 cnt 5小于门限 9，且所述频谱峰值位置波动计数器 cnt 6大于门限 10，则所述时间窗口中存在噪声帧；否则，所述时间窗口中无噪声帧。

11、如权利要求 10所述的方法，其特征在于，若所述时间窗口中存在噪声帧，所述判断出所述时间窗口中含有噪声区间的可能性大小的步骤，包括：若所述弱谱波动计数器 cnt 3等于所述时间窗口长度，则所述时间窗口为全噪声区间；

若所述弱谱波动计数器 cnt 3小于所述时间窗口长度且大于预设长度，则所述时间窗口为大部分为噪声区间且存在少量的非噪声区间。

12、如权利要求 11所述的方法，其特征在于，若所述时间窗口包含的噪声区间的类型为大部分为噪声区间且存在少量的非噪声区间，则所述方法还包括：判断所述少量的非噪声区间在所述时间窗口出现的位置类型，所述位置类型包括：时间窗口的前端、时间窗口的末端、时间窗口的两端。

1 3、如权利要求 12所述的方法，其特征在于，所述判断所述少量的非噪声区间在所述时间窗口出现的位置类型的步骤，包括：

根据所述弱谱波动计数器 cnt 3，获取不满足令所述弱谱波动计数器 cnt 3累加的帧，根据所述获取的帧，得到所述帧的位置，根据所述位置获得所述少量的非噪声区间在所述时间窗口出现的位置类型。

14、如权利要求 1 3所述的方法，其特征在于，所述根据判断出的所述时间窗口含有噪声区间的可能性大小，提取所述时间窗口的噪声特征的步骤，包括：若所述时间窗口为全噪声区间时，则提取所述时间窗口最末端的噪声区间的特征值；或，提取所述时间窗口内所有噪声区间的特征均值；或，提取所述时间窗口内部分或全部噪声区间的加权特征值；

若所述时间窗口为大部分为噪声区间且存在少量的非噪声区间时，如果所述非噪声区间不在所述时间窗口的末端，则提取所述时间窗口最末端的噪声区间的特征值；或，提取所述时间窗口中靠近末端的部分噪声区间的加权特征值；如果所述非噪声区间在时间窗口的末端时，则提取所述时间窗口中噪声特征的最小值；或，提取部分噪声区间的加权特征值。

15、如权利要求 1 所述的方法，其特征在于，所述判断出所述时间窗口中含有噪声区间的可能性大小的步骤之前，所述方法还包括：

根据所述音调特征值和信号稳定性特征值，和各音调特征值和信号稳定性特征值对应的门限进行比较，对于满足各自的条件的音调特征值和信号稳定性特征值对应的计数器进行累加。

16、如权利要求 15所述的方法，其特征在于，所述根据所述音调特征值和信号稳定性特征值，和各音调特征值和信号稳定性特征值对应的门限进行比较，对于满足各自的条件的音调特征值和信号稳定性特征值对应的计数器进行累力口，包括：

17、如权利要求 15或 16所述的方法，其特征在于，当所述帧计数器 cnt 2 累加至时间窗口长度时，根据所述计算得到的所述时间窗口各帧的音调特征值和信号稳定性特征值，判断出所述时间窗口中含有噪声区间的可能性大小包括：当所述帧计数器 cnt 2累加至时间窗口长度时，根据所述当前帧的音调特征值和信号稳定性特征值以及各音调特征值和信号稳定性特征值对应的计数器，判断所述时间窗口中是否存在噪声帧；

若所述时间窗口中存在噪声帧，则判断所述时间窗口中含有噪声区间的可能性大小。

18、如权利要求 17所述的方法，其特征在于，当所述帧计数器 cnt 2 累加至时间窗口长度时，所述判断所述时间窗口中是否存在噪声帧的步骤，包括：如果所述弱音调计数器 cnt 4不大于门限 7，则所述时间窗口中无噪声帧；如果所述弱音调计数器 cnt 4大于门限 7，则若所述弱谱波动计数器 cnt 3大于门限 8、所述稳定最大峰谷比位置计数器 cnt 5小于门限 9、所述频谱峰值位置波动计数器 cnt 6大于门限 10，且所述当前帧的谱波动值小于门限 11，则所述当前帧为噪声帧；否则，若所述稳定最大峰谷比位置计数器 cnt 5小于门限 9，且所述频谱峰值位置波动计数器 cnt 6大于门限 10，则所述时间窗口中存在噪声帧；否则，所述时间窗口中无噪声帧。

19、如权利要求 18所述的方法，其特征在于，若所述时间窗口中存在噪声帧，则判断所述时间窗口中含有噪声区间的可能性大小的步骤，包括：若所述弱谱波动计数器 cnt 3等于所述时间窗口长度，则所述时间窗口为全噪声区间；

20、如权利要求 19所述的方法，其特征在于，若所述时间窗口包含的噪声区间的类型为大部分为噪声区间且存在少量的非噪声区间，则所述方法还包括：判断所述少量的非噪声区间在所述时间窗口出现的位置类型，所述位置类型包括：时间窗口的前端、时间窗口的末端、时间窗口的两端。

21、如权利要求 20所述的方法，其特征在于，所述判断所述少量的非噪声区间在所述时间窗口出现的位置类型的步骤，包括：

22、如权利要求 21所述的方法，其特征在于，所述根据判断出的所述时间窗口含有噪声区间的可能性大小，提取所述时间窗口的噪声特征的步骤，包括：若所述时间窗口为全噪声区间时，则提取所述时间窗口最末端的噪声区间的特征值；或，提取所述时间窗口内所有噪声区间的特征均值；或，提取所述时间窗口内部分或全部噪声区间的加权特征值；

23、如权利要求 1所述的方法，其特征在于，当所述帧计数器 cnt 2大于所述时间窗口长度时，所述方法还包括：获得当前帧的谱波动值，若所述当前帧的谱波动值小于门限 1 1，则所述当前帧为噪声帧；否则，所述当前帧为非噪声帧。

24、一种实现通信系统中背景噪声的跟踪的装置，其特征在于，所述装置包括：

第一处理模块，用于根据输入的音频信号，计算当前帧的信噪比 SNR ;

第二处理模块，用于若所述当前帧的信噪比 SNR不小于门限 1，则累加帧计数器 cnt 2，并计算所述当前帧的音调特征以及信号稳定性特征；

第三处理模块，用于当所述帧计数器 cn t 2累加至时间窗口长度时，则根据所述计算得到的所述时间窗口各帧的音调特征值和信号稳定性特征值，判断出所述时间窗口中含有噪声区间的可能性大小。

第四处理模块，用于根据判断出的所述时间窗口中含有噪声区间的可能性大小，提取所述时间窗口中的噪声特征。

25、如权利要求 24所述的装置，其特征在于，所述第一处理模块，包括：划分单元，用于根据输入的音频信号，获取当前帧的频谱信息，将当前帧的频谱划分为多个子带；

子带计算单元，用于根据得到的各子带，计算每个子带的信噪比 snr (i) ; 获得单元，用于根据计算得到的每个子带的 snr (i)，得到当前帧的 SNR。

26、如权利要求 24所述的装置，其特征在于，所述第二处理模块，包括：门限判断单元，用于判断所述当前帧的信噪比 SNR是否大于门限 1；帧计数器累加单元，用于若所述判断单元判断结果为否时，累加帧计数器 cnt 2 ;

计算单元，用于计算所述当前帧的谱波动值、所述当前帧的音调特征值、所述当前帧的频谱峰值位置波动值以及所述当前帧的频谱最大峰谷比位置波动值。

27、如权利要求 26所述的装置，其特征在于，所述第三处理模块，还包括：累加单元，用于若所述当前帧的谱波动值小于门限 3，则累加弱谱波动计数器 cnt 3;若所述当前帧的音调特征值小于门限 4，则累加弱音调计数器 cnt 4 ; 若所述当前帧的频谱最大峰谷比位置波动值小于门限 5，则累加稳定最大峰谷比位置计数器 cnt 5 ; 若所述当前帧的频谱峰值位置波动值大于门限 6，则累加频谱峰值位置波动计数器 cnt 6 ;

判断单元，用于根据所述当前帧的谱波动值、音调特征值、频谱最大峰谷比位置波动值、频谱峰值位置波动值以及各计数器，判断所述时间窗口中是否存在噪声帧。

28、如权利要求 27所述的装置，其特征在于，所述判断单元具体用于如果所述弱音调计数器 cnt 4大于门限 7，则所述时间窗口中无噪声帧；如果所述弱音调计数器 cnt 4不大于门限 7，则若所述弱谱波动计数器 cnt 3大于门限 8、所述稳定最大峰谷比位置计数器 cnt 5小于门限 9、所述频谱峰值位置波动计数器 cnt 6大于门限 10，且所述当前帧的谱波动值小于门限 11，则所述当前帧为噪声帧；否则，若所述稳定最大峰谷比位置计数器 cnt 5小于门限 9，且所述频谱峰值位置波动计数器 cnt 6大于门限 1 0，则所述时间窗口中存在噪声帧；否则，所述时间窗口中无噪声帧。

29、如权利要求 28所述的装置，其特征在于，所述第三处理模块，具体用于若所述弱谱波动计数器 cnt 3等于所述时间窗口长度，则所述时间窗口为全噪声区间；若所述弱谱波动计数器 cnt 3小于所述时间窗口长度且大于预设长度，则所述时间窗口为大部分为噪声区间且存在少量的非噪声区间；若所述时间窗口中无噪声帧。

30、如权利要求 29所述的装置，其特征在于，若所述时间窗口为大部分为噪声区间且存在少量的非噪声区间，所述第三处理模块还包括：位置类型判断单元，用于判断所述少量的非噪声区间在所述时间窗口出现的位置类型，所述位置类型包括：时间窗口的前端、时间窗口的末端、时间窗口的两端。

31、如权利要求 30所述的装置，其特征在于，所述位置类型判断单元具体用于根据所述弱谱波动计数器 cnt 3，获取不满足令所述弱谱波动计数器 cnt 3累加的帧，根据所述获取的帧，得到所述帧的位置，根据所述位置获得所述少量的非噪声区间在所述时间窗口出现的位置类型。

32、如权利要求 30所述的装置，所述第四处理模块具体用于若所述时间窗口为全噪声区间时，则提取所述时间窗口最末端的噪声区间的特征值；或，提取所述时间窗口内所有噪声区间的特征均值；或，提取所述时间窗口内部分或全部噪声区间的加权特征值；若所述时间窗口为大部分为噪声区间且存在少量的非噪声区间时，如果所述非噪声区间不在所述时间窗口的末端，则提取所述时间窗口最末端的噪声区间的特征值；或，提取所述时间窗口中靠近末端的部分噪声区间的加权特征值；如果所述非噪声区间在时间窗口的末端时，则提取所述时间窗口中噪声特征的最小值；或，提取部分噪声区间的加权特征值。

33、如权利要求 26 所述的装置，其特征在于，所述第三处理模块，还用于当所述帧计数器 cnt 2大于所述时间窗口长度时，若所述当前帧的谱波动值小于门限 11，则所述当前帧为噪声帧；否则，所述当前帧为非噪声帧。