WO2009046658A1

WO2009046658A1 - Procédé et appareil de détermination du type d'un signal audio non-bruit

Info

Publication number: WO2009046658A1
Application number: PCT/CN2008/072455
Authority: WO
Inventors: Jun Wang; Zhe Wang
Original assignee: Huawei Technologies Co., Ltd.
Priority date: 2007-09-30
Filing date: 2008-09-23
Publication date: 2009-04-16
Also published as: CN101399039B; CN101399039A

Description

一种确定非噪声音频信号类别的方法及装置

技术领域

本发明实施例涉及无线通信技术领域，特别是涉及一种确定非噪声音频信号类别的方法及装置。背景技术

随着无线通信技术的迅速发展， VAD ( Voice Activity Detection, 语音活动检测）技术得到了广泛的应用。每一种 VAD方法都使用了多种特征参数，其中大部分来自或派生于编码器编码过程中产生的特征参数。例如 GSM ( Global System for Mobile communication, 全球移动通信系统）制订了四种语音编码器规范，即 GSM全速率、 GSM增强全速率、 GSM半速率和自适应多速率语音编码器，它们所依据的编码算法均有所区别，但是均包含了将语音信号从通信信号中检测出来的 VAD模块。其中， GSM全速率、增强全速率和半速率这三种 VAD算法的计算复杂度比较低，使用的参数都包含信号的能量、频谱稳定信息和基音信息等，其中，信号能量是主要判决依据，但它对噪声的敏感度比较高，后两种特征参数仅对判决阔值起作用，但对算法的依赖度比较高，即与编码算法有一定的耦合度。

ITU ( International Telecommunications Union, 国际电信联盟 )制订了 G.723.1和 G.729系列编码标准，其中， G.723.1本身已经将 VAD模块嵌入编码算法中，算法相对简单，性能一般； G.729则在其附件 B (简称为 G.729B )中融入了 VAD的功能。 G.729B的 VAD模块釆用了四维空间中的 14边界决策技术，并对多边界决策结果进行平滑以保证自然语音信号的长时平稳特性，即在多维空间中（4维）由 14项不等式确定的决策区域。 G.729B的 VAD算法用到了全带能量、低带能量、过零率和线谱对谱参数及其运行时的统计参数，与编码算法有相当的耦合度。

3GPP ( the 3rd Generation Partnership Project, 第三代伙伴组织计划）组织制订了 AMR、 AMR-WB和 AMR-WB+编码标准 , 它们也都含有 VAD模块，其基本原理都是将信号分成多个子带，在每一子带内计算子带参数，然后将这些子带参数在全带进行综合，最后在全带进行判决，其中的一个区别是 AMR计算输入信号的 9个子带能量，而 AMR-WB和 AMR-WB+则分为 12个子带能量。 AMR包含两种 VAD算法，有着不同的复杂度和性能。 AMR的 VAD模块主要特点是以信噪比作为背景噪声特征参数估计和判决逻辑的核心，复杂度较低，其包含的基音检测、音调检测和复杂信号分析模块都用到了编码器本身开环基因分析模块的参数 , 与编码器算法的耦合度比较紧。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：现有语音编码标准的算法所含的 VAD模块使用的特征参数与编码器算法的耦合度较紧，不利于算法的独立性和可移植性。

发明内容

本发明实施例提供一种确定非噪声音频信号类别的方法及装置，以实现釆用的特征参数不依赖于编码器算法，增强算法的独立性和可移植性。

为达到上述目的，本发明实施例的技术方案提供一种确定非噪声音频信号类别的方法，包括：获取非噪声音频信号的特征参数；根据所述特征参数，利用决策树初步判决所述非噪声音频信号的类别；根据所述非噪声音频信号的语境和所述初步判决的结果，确定所述非噪声音频信号的类别。

本发明实施例的技术方案还提供了一种确定非噪声音频信号类别的装置，包括：特征参数获取单元，用于获取非噪声音频信号的特征参数；第一判决单元，用于根据所述特征参数获取单元获取的特征参数，利用决策树初步判决所述非噪声音频信号的类别；第二判决单元，用于根据所述非噪声音频信号的语境和所述第一判决单元的初步判决的结果，确定所述非噪声音频信号的类别。本发明实施例通过不依赖于编码器算法的非噪声音频信号的特征参数，对所述非噪声音频信号的类别进行判定，增强了算法的独立性和可移植性。附图说明

图 1是本发明实施例的一种确定非噪声音频信号类别的装置结构图；

图 2是本发明实施例的一种确定非噪声音频信号类别的方法流程图；

图 3是本发明实施例的一种非噪声音频信号的状态转移示意图；图 4是本发明实施例的一种多变量决策树的结构图；

图 5是本发明实施例的一种非噪声音频信号的初步判决方法流程图；

图 6是本发明实施例的一种短时决策树的结构示意图；

图 7是本发明实施例的一种长时决策树的结构示意图。具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明实施例的一种确定非噪声音频信号类别的装置如图 1所示，包括特征参数获取单元 11、第一判决单元 12、第二判决单元 13 和状态转移单元 14。其中，第一判决单元 12分别与特征参数获取单元 11和第二判决单元 13连接；第二判决单元 13和状态转移单元 14连接。

特征参数获取单元 11用于获取非噪声音频信号的特征参数；第一判决单元 12用于根据特征参数获取单元 11获取的特征参数，利用决策树初步判决所述非噪声音频信号的类别；第二判决单元 13用于根据非噪声音频信号的语境和第一判决单元 12的初步判决的结果，确定所述非噪声音频信号的类别；状态转移单元 14用于在所述非噪声音频信号进行语音状态和音乐状态的转换之间加入过渡状态。

状态转移单元 14包括状态转移判断子单元 141、持续时间判断子单元 142和转换子单元 143 , 其中转换子单元 143分别与状态转移判断子单元 141和持续时间判断子单元 142连接。

状态转移判断子单元 141用于根据第二判决单元 13确定的非噪声音频信号的类别，与所述非噪声音频信号之前的类别，判断所述非噪声音频信号的状态是否转移；持续时间判断子单元 142用于判断所述非噪声音频信号的类别持续确定为同一类型的时间是否到达预先设置的持续时间门限值；转换子单元 143用于根据状态转移判断子单元 141的判断结果或持续时间判断子单元 142的判断结果，在所述非噪声音频信号的状态与过渡状态之间进行转换。

特征参数获取单元 11获取的非噪声音频信号的特征参数包括如下参数中的至少一个：归一化帧间谱波动 flux; 归一化帧间谱波动的方差 varflux; 归一化帧间谱波动的方差滑动平均 varmovflux; 归一化频带谱波动 fflux; 归一化频带谱波动的方差 varfflux; 归一化频带谱波动的方差滑动平均 varmovfflux; 归一化子带能量标准差 stdave; 能量比率 ratiol；能量比率的长时平均 mov— ratiol；能量比率的方差 var ratiol ; 时域过零率 zcr; 谐波结构稳定性特征 hss。

下面对所述非噪声音频信号的特征参数进行说明：

1.归一化帧间谱波动 flux及其衍生的归一化帧间谱波动的方差 varflux和归一化帧间谱波动的方差滑动平均 varmovflux。

归一化帧间谱波动 flux描述了非噪声音频信号的帧和帧之间频谱的变化。其中，音乐信号的 flux 比较低，平稳；语音信号的 flux通常比较高，变化大。归一化帧间谱波动 flux由公式

计算得到。

其中， SigFpw为在时域范围内所述非噪声音频信号经 FFT变换后得到的频谱幅度信号。

FLUX— F 1和 FLUX— F2为频带的边界 , 在 16KHz釆样模式下的一个实例是 FLUX— F 1=3 , FLUX— F2=95; 在 8KHz釆样模式下的一个实例是 FLUX— Fl=l, FLUX_F2=47₀

norm为归一化函数, norm的一个特例是：

norm = max(ave _ amp, AVE _E _ FL UX) 其中 , ave— amp为当前帧与前面连续多帧的平均频谱幅度。

AVE— E— FLUX用来避免出现极小分母的情况，其一个实例是

AVE— E— FLUX =1000。

2.归一化频带谱波动 fflux及其衍生的归一化频带谱波动的方差 varfflux和归一化频带谱波动的方差滑动平均 varmovfflux。

归一化频带谱波动 fflux描述了非噪声音频信号的同一帧中各子带间频谱的变化。其中，音乐信号的 fflux 比较低，平稳；语音信号的 fflux通常比较高，变化大。归一化频带谱波动 fflux由公式

- SigFpw(i,

fflux =——―

norm 计算得到。

FFLUX— F1为频带的边界，在 16KHz釆样模式下的一个实例是 FFLUX— F 1=63; 在 8KHz釆样模式下的一个实例是 FFLUX— F 1 =32。

norm为归一化函数, norm的一个特例是：

AVE— E— FLUX用来避免出现极小分母的情况，其一个实例是 AVE— E— FLUX =1000»

3.归一化子带能量标准差 stdave。

归一化子带能量标准差 stdave为归一化的几个连续帧间的子带能量的标准差的结果求平均。归一化子带能量标准差 stdave由公式

计算得到。

其中， 1为子带序列号；

j为帧序列号；

Tien为连续帧的个数：实例中的可取 Tlen=4个连续帧以提取短时特征，可取 Tlen=16个连续帧以提取长时特征；

Bent为频域划分出的子带的个数；

lev ( i, j ) 由公式

计算得到；

其中， Bi表示第 i个子带的频带边界。

4.能量比率 ratiol及能量比率的长时平均 mov— ratiol和能量比率的方差 var— ratio 1。

能量比率 ratiol为低带能量占全带能量的比率，语音信号的 ratiol 通常比较大，变化也大；大多数音乐信号的 ratiol 通常比较小，变化比较大。能量比率 ratiol由公式

Rl F2

. _Λ k=Rl FX

ratio! =

计算得到；

其中， Rl— Fl和 Rl— F2是频带边界并且满足 ^{0≤ 1}- ^F1U^2≤"^F^ 。 5.时域过零率 zcr。

在非噪声音频信号的语音中由于会间隔出现清音，所以会出现较音乐高的 zcr。时域过零率 zcr由公式 zcr = ¾ Il{ ( - l) < 0}

ί i-l 计算得到；

其中，当 A为 truth时， W 为 1 ; 当 A为 false时，为 0。

6.谐波结构稳定性特征 hss。

对于大多数音乐信号，其谐波结构的稳定性显著高于语音。现有技术中在计算该特征参数时，需要估计信号的谐波结构，复杂度很高。本发明实施例的一种获取所述谐波结构稳定性特征 hss的方法为：首先，根据 FFT频语信号的单调递增区间和单调递减区间，获取所述信号的本地峰值。本发明实施例将 FFT频语信号视为离散多峰值函数，搜索该函数的单调递增区间和单调递减区间，从而得到本地峰值和全局峰值，该算法只需对各频率点搜索一遍并且不需要迭代。

然后，根据多个最大的本地峰值，获取所述信号的多个归一化 log 峰值。本发明实施例以 A个最大的本地峰值为例，求最大的 A个本地峰值 [ ，，…， ] 及各个最大的本地峰值出现的位置，归一化并求 log 得到所述信号的多个归一化 log峰值 [ ，，···， ]。归一化 log峰值反映的是信号的谐波结构估计，该参数由公式

Li =log(^)-log(∑^)

(j=l , 2—, A )计算得到。最后，根据所述信号的多个归一化 log峰值，获取所述信号的归一化 log峰值的平均方差。本发明实施例中信号的归一化 log峰值的平均方差 VLP由公式

A i

VLP¹ = ^ ∑ ( 尸 - ALP ²

j=l k=i-l9 计算得到；

其中， ALP为 A个归一化 log峰值在 N帧内的均值，该参数由公式

计算得到；为简化复杂度， ALP还可用滑动平均代替。

由于在获取非噪声音频信号的特征参数时，不是在进行编码算法过程中获取的，因此特征参数的获取不依赖于任何编码器；而且特征参数的获取也不依赖带宽，从而使得 GSAD不依赖于信号釆样率，增强了系统的可移植性。

本实施例通过不依赖于编码器算法的非噪声音频信号的特征参数，对所述非噪声音频信号的类别进行判定，增强了算法的独立性和可移植性。

本发明实施例的一种确定非噪声音频信号类别的方法流程如图 2 所示，包括以下步骤：

步骤 s201 , 获取非噪声音频信号的特征参数。本发明实施例中，非噪声音频信号的特征参数包括如下参数中的至少一个：归一化帧间谱波动 flux; 归一 4匕帧间谱波动的方差 varflux; 归一 4匕帧间谱波动的方差滑动平均 varmovflux; 归一化频带谱波动 fflux; 归一化频带谱波动的方差 varfflux; 归一化频带谱波动的方差滑动平均 varmovfflux; 归一化子带能量标准差 stdave; 能量比率 ratiol ; 能量比率的长时平均 mov ratiol ; 能量比率的方差 var— ratiol ; 时域过零率 zcr; 谐波结构稳定性特征 hss。

步骤 s202, 根据获取的特征参数，利用决策树初步判决非噪声音频信号的类别。

本发明实施例中的决策树可以为多变量决策树，也可以为单变量决策树；当决策树为单变量决策树时，可以使用多棵单变量决策树，该多棵单变量决策树可以包括短时决策树和长时决策树。

步骤 s203 , 才艮据非噪声音频信号的语境和初步判决的结果，确定非噪声音频信号的类别。

本实施例中确定非噪声音频信号的类别的过程为：设置获取的非噪声音频信号的特征参数的拖尾保护值 Ηθ , Ηθ为一个固定值（本实施例中 Ho为 50 ), 该值在对所述非噪声音频信号的类别的判决开始时进行初始化，大于 0则减 1。如果拖尾保护的任何一个参数的拖尾保护值 Ho大于 0, 则置音乐特征 feature— mu或语音特征 feature— sp为 1。根据拖尾保护值和初步判决的结果，判定所述非噪声音频信号为语音信号、音乐信号或不确定信号。如果步骤 sl02中判决的结果为音乐信号，而 feature— mu为 0 , feature— sp为 1；或步骤 sl02中判决的结果为语音，而 feature— sp为 0 , feature— mu为 1 , 置不确定标' uncertainflg为 3。

在经过拖尾保护之后，还可以对中间参数进行更新。例如，当更新两个中间参数：音乐计数值 music— Cnt和语音计数值 speech— Cnt时，如果经过拖尾保护，判定的结果为语音信号或不确定信号，则 speech— Cnt力口 1 , music— Cnt置 0 , 并且置 speech— music— flgl为 1；如果经过拖尾保护，判定的结果为音乐信号，则 music— Cnt加 1 , speech— Cnt 置 0 , 并且置 speech— music— flgl为 0。其中 speech— music— flgl是用来对拖尾保护判决的不确定帧（uncertainflg不为 0的帧）进行判决，用变量 speech— music— flg2保存前一†j¾的 speech— music— flgl , 当拖尾保护判决的结果为不确定信号时，如果 speech— music— flg2为 1 , 则判决该不确定帧为语音信号，否则判决该不确定帧为音乐信号。

步骤 s204,在非噪声音频信号进行语音状态和音乐状态的转换之间加入过渡状态。本发明实施例的一种非噪声音频信号的状态转移示意图如图 3所示，该非噪声音频信号包括四种状态：语音状态、音乐状态、语音到音乐状态和音乐到语音状态，其中语音到音乐状态和音乐到语音状态为过渡状态。

当非噪声音频信号需要由音乐状态转换到语音状态，即当确定所述非噪声音频信号的类别为语音信号，且所述非噪声音频信号之前的类别为音乐信号时，所述非噪声音频信号由音乐状态进入音乐到语音状态；当所述非噪声音频信号的类别持续确定为语音信号的时间到达预先设置的持续时间门限值时，所述非噪声音频信号由音乐到语音状态进入语音信号状态。当非噪声音频信号需要由语音状态转换到音乐状态，即当确定所述非噪声音频信号的类别为音乐信号，且所述非噪声音频信号之前的类别为语音信号时 ,所述非噪声音频信号由语音状态进入语音到音乐状态；当所述非噪声音频信号的类别持续确定为音乐信号的时间到达预先设置的持续时间门限值时，所述非噪声音频信号由语音到音乐状态进入音乐信号状态。

当非噪声音频信号需要由音乐状态转换到语音状态，即当确定所述非噪声音频信号的类别为语音信号，且所述非噪声音频信号之前的类别为音乐信号时，所述非噪声音频信号由音乐状态进入音乐到语音状态；当所述非噪声音频信号的类别持续确定为语音信号的时间没有到达预先设置的持续时间门限值时，所述非噪声音频信号由音乐到语音状态进入音乐信号状态。

当非噪声音频信号需要由语音状态转换到音乐状态，即当确定所述非噪声音频信号的类别为音乐信号，且所述非噪声音频信号之前的类别为语音信号时 ,所述非噪声音频信号由语音状态进入语音到音乐状态；当所述非噪声音频信号的类别持续确定为音乐信号的时间没有到达预先设置的持续时间门限值时，所述非噪声音频信号由语音到音乐状态进入语音信号状态。

在步骤 s202中，当利用多变量决策树初步判决非噪声音频信号的类别时，可以利用包括多个特征参数的超平面决策树结点，初步判决所述非噪声音频信号为语音信号或音乐信号。本发明实施例的一种多变量决策树的结构如图 4所示，本实施例利用一个超平面决策树结点：判断 -0.1032*varflux + 0.4603 *varmovflux + 0.1662*varfflux + 0.0973 *varmovfflux + 0.9109*stdave + 0.2181 *stdaveshort + 0.2824 *mov— ratio 1 + 0.2688*ratiol -0.285 l *var— ratio 1 -0.0053*zcr是否小于或等于 1.3641完成初步判决；如果是，则判定非噪声音频信号为音乐信号，置 music— flag为 1 ; 否则判定非噪声音频信号为语音信号，置 speech— flag为 1。

在步骤 s202中，当利用单变量决策树初步判决非噪声音频信号的类别时，本发明实施例的一种非噪声音频信号的初步判决方法流程如图 5所示。参照图 5 , 本实施例包括以下步骤：

步骤 s501 , 利用一个或多个包括一个特征参数及预先设定的与所述特征参数对应的参数门限值的决策树结点，获取当前非噪声音频信号的音乐 /语音概率。本实施例中釆用两棵决策树，一棵决策树为长时决策树，釆用反映长时特征的参数组（如 { varmovflux, varmovfflux, stdAve, mov_ratiol } ), 另一棵决策树为短时决策树，釆用反映短时特征的参数组 ( ^口 { varflux, varfflux, stdAveshort, ratio 1, var ratiol, zcr} )。本实施例中短时决策树的结构如图 6所示，长时决策树的结构如图 7所示。以图 6所示的短时决策树为例，首先判断第一层树结点：如果 Varflux小于 1.02311成立，则进入左边的子结点，反之进入右边的子结点。假设 Varflux小于 1.02311, 则下一步判断 Var— ratiol是否小于 29.1444, 如果是，则进入叶子节点，即输出音乐概率为 95.7%, 语音概率为 4.3%; 否则继续判断其右子结点，依次类推，获取在短时决策树中当前非噪声音频信号的音乐 /语音概率。在图 7所示的长时决策树中获取当前非噪声音频信号的音乐 /语音概率的过程与图 6所示的短时决策树类似。

步骤 s502,选择所述短时决策树和长时决策树获取的音乐 /语音概率中最大的音乐 /语音概率，为当前非噪声音频信号的音乐 /语音概率。

步骤 s503 ,根据所述当前非噪声音频信号的音乐 /语音概率和预先设定的概率门限值，判定所述当前非噪声音频信号为语音信号、音乐信号或不确定信号。本实施例中如果决策树输出的音乐概率（或语音概率）大于预先设定的第一概率门限值（本实施例中为 0.8 ), 且语音概率（或音乐概率）小于或等于预先设定的第二概率门限值（本实施例中为 0.6 ), 则判定所述当前非噪声音频信号为音乐信号（或语音信号），否则判定所述当前非噪声音频信号为不确定信号，置不确定标志 uncertain为 1。

步骤 s504, 才艮据对所述当前非噪声音频信号的判定结果，和相邻连续语音信号帧或相邻连续音乐信号帧的帧数，判定所述当前非噪声音频信号为语音信号或音乐信号。本实施例中，对每次判决，预先设置两个全局的中间参数： music— Cnt和 speech— Cnt。 music— Cnt为所述非噪声音频信号的当前帧的前几帧中连续判决为音乐信号的帧数； speech— Cnt为所述非噪声音频信号的当前帧的前几帧中连续判决为语音信号的帧数。对于不确定标志 uncertain为 1的帧，如果 speech— Cnt 大于 1 , 则将当前帧判决为语音信号的帧，如果 music— Cnt大于 10, 则将当前帧判决为音乐信号的帧。对于在步骤 s503中已经确定的判决不进行改变。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明，可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质

(可以是 CD-ROM, U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

总之，以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

权利要求

1、一种确定非噪声音频信号类别的方法，其特征在于，包括：获取非噪声音频信号的特征参数；

根据所述特征参数，利用决策树初步判决所述非噪声音频信号的类别；

才艮据所述非噪声音频信号的语境和所述初步判决的结果，确定所述非噪声音频信号的类别。

2、如权利要求 1所述确定非噪声音频信号类别的方法，其特征在于，所述特征参数包括如下参数中的至少一个：

归一化帧间谱波动 flux; 归一化帧间谱波动的方差 varflux; 归一化帧间谱波动的方差滑动平均 varmovflux; 归一化频带谱波动 fflux; 归一化频带谱波动的方差 varfflux; 归一化频带谱波动的方差滑动平均 varmovfflux; 归一化子带能量标准差 stdave; 能量比率 ratiol ; 能量比率的长时平均 mov— ratiol ; 能量比率的方差 var— ratiol ; 时域过零率 zcr; 谐波结构稳定性特征 hss。

3、如权利要求 1所述确定非噪声音频信号类别的方法，其特征在于，当所述决策树为多变量决策树时，所述利用决策树初步判决非噪声音频信号的类别，具体包括：利用包括多个特征参数的超平面决策树结点，初步判决所述非噪声音频信号为语音信号或音乐信号。

4、如权利要求 1所述确定非噪声音频信号类别的方法，其特征在于，当所述决策树为单变量决策树时，所述利用决策树初步判决非噪声音频信号的类别，具体包括：

利用一个或多个包括一个特征参数及预先设定的与所述特征参数对应的参数门限值的决策树结点，获取当前非噪声音频信号的音乐 /语音概率；

根据所述当前非噪声音频信号的音乐 /语音概率和预先设定的概率门限值，判定所述当前非噪声音频信号为语音信号、音乐信号或不确定信号；才艮据对所述当前非噪声音频信号的判定结果，和相邻连续语音信号帧或相邻连续音乐信号帧的帧数，判定所述当前非噪声音频信号为语音信号或音乐信号。

5、如权利要求 4所述确定非噪声音频信号类别的方法，其特征在于，当利用多棵单变量决策树获取当前非噪声音频信号的音乐 /语音概率时，在每棵单变量决策树获取到音乐 /语音概率之后，还包括：选择所述多棵单变量决策树获取的音乐 /语音概率中最大的音乐 /语音概率为当前非噪声音频信号的音乐 /语音概率。

6、如权利要求 5所述确定非噪声音频信号类别的方法，其特征在于，所述多棵单变量决策树包括短时决策树和长时决策树。

7、如权利要求 1所述确定非噪声音频信号类别的方法，其特征在于，所述根据非噪声音频信号的语境和初步判决的结果，确定非噪声音频信号的类别，具体包括：

根据拖尾保护值和初步判决的结果，判定所述非噪声音频信号为语音信号或音乐信号。

8、如权利要求 1所述确定非噪声音频信号类别的方法，其特征在于，在确定非噪声音频信号的类别之后，还包括：在所述非噪声音频信号进行语音状态和音乐状态的转换之间加入过渡状态。

9、如权利要求 8所述确定非噪声音频信号类别的方法，其特征在于，所述在非噪声音频信号进行语音状态和音乐状态的转换之间加入过渡状态，具体包括：

当确定所述非噪声音频信号的类别为语音信号，且所述非噪声音频信号之前的类别为音乐信号时，所述非噪声音频信号由音乐状态进入过渡态；

当所述非噪声音频信号的类别持续确定为语音信号的时间到达预先设置的持续时间门限值时，所述非噪声音频信号由过渡状态进入语音信号状态；以及

当确定所述非噪声音频信号的类别为音乐信号，且所述非噪声音频信号之前的类别为语音信号时，所述非噪声音频信号由语音状态进入过渡态；

当所述非噪声音频信号的类别持续确定为音乐信号的时间到达预先设置的持续时间门限值时，所述非噪声音频信号由过渡状态进入音乐信号状态。

10、如权利要求 9所述确定非噪声音频信号类别的方法，其特征在于，所述在非噪声音频信号进行语音状态和音乐状态的转换之间加入过渡状态，具体包括：

当所述非噪声音频信号的类别持续确定为语音信号的时间没有到达预先设置的持续时间门限值时，所述非噪声音频信号由过渡状态进入音乐信号状态；以及

当所述非噪声音频信号的类别持续确定为音乐信号的时间没有到达预先设置的持续时间门限值时，所述非噪声音频信号由过渡状态进入语音信号状态。

11、如权利要求 2所述确定非噪声音频信号类别的方法，其特征在于，获取所述谐波结构稳定性特征 hss的方法包括以下步骤：

根据 FFT频谱信号的单调递增区间和单调递减区间，获取所述信号的本地峰值；

根据多个最大的本地峰值，获取所述信号的多个归一化 log峰值；根据所述信号的多个归一化 log峰值，获取所述信号的归一化 log 峰值的平均方差。

12、一种确定非噪声音频信号类别的装置，其特征在于，包括特征参数获取单元，用于获取非噪声音频信号的特征参数；第一判决单元，用于根据所述特征参数获取单元获取的特征参数，利用决策树初步判决所述非噪声音频信号的类别；第二判决单元，用于根据所述非噪声音频信号的语境和所述第一判决单元的初步判决的结果，确定所述非噪声音频信号的类别。

13、如权利要求 12所述确定非噪声音频信号类别的装置，其特征在于，还包括状态转移单元，用于在所述非噪声音频信号进行语音状态和音乐状态的转换之间加入过渡状态。

14、如权利要求 13所述确定非噪声音频信号类别的装置，其特征在于，所述状态转移单元包括：

状态转移判断子单元，用于根据所述第二判决单元确定的非噪声音频信号的类别，与所述非噪声音频信号之前的类别，判断所述非噪声音频信号的状态是否转移；

持续时间判断子单元，用于判断所述非噪声音频信号的类别持续确定为同一类型的时间是否到达预先设置的持续时间门限值；

转换子单元，用于根据所述状态转移判断子单元的判断结果或持续时间判断子单元的判断结果，在所述非噪声音频信号的状态与过渡状态之间进行转换。

15、如权利要求 12至 14任一项所述确定非噪声音频信号类别的装置，其特征在于，所述特征参数包括如下参数中的至少一个：