WO2012175054A1

WO2012175054A1 - 一种基音检测的方法和装置

Info

Publication number: WO2012175054A1
Application number: PCT/CN2012/077456
Authority: WO
Inventors: 齐峰岩; 苗磊; 塔勒布•阿里斯
Original assignee: 华为技术有限公司
Priority date: 2011-06-22
Filing date: 2012-06-25
Publication date: 2012-12-27
Also published as: JP2014507689A; US20140142931A1; CN102842305B; EP2662854A1; CN102842305A; KR20130117855A

Abstract

本发明公开了一种基音检测的方法和装置，属于语音与音频领域。该基音检测的方法，包括：在时域对所述语音信号进行基音检测，得到初始基音周期；将所述语音信号转换到频域，获得语音信号的频谱，该频谱包括频谱的幅度谱；根据初始基音周期和所述语音信号的频谱提取特征参数；根据初始基音周期和特征参数进行精细基音周期检测，得到精细基音周期。

Description

一种基音检测的方法和装置

本申请要求于 2011 年 06 月 22 日提交中国专利局、申请号为 201110170075.0、发明名称为 "一种基音检测的方法和装置" 的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域

本发明涉及一种基音检测的方法和装置，尤其涉及一种高精确度、运算复杂度较低的基音检测方法和装置。背景技术

在数字通信领域，语音、图像、音频、视频的传输有着非常广泛的应用需求，如手机通话、音视频会议、广播电视、多媒体娱乐等。为了降低音视频信号存储或者传输过程中占用的资源，音视频压缩编码技术应运而生。在语音与音频信号处理中，基音检测是各种语音与音频实际应用中的关键技术之一，在语音编码，语音识别，音调检索中基音都是重要的提取参数，基音检测的准确性直接影响最后编码的性能。对于基音周期的检测，现有技术中，一般采用两种方法：

一种方法是时域法，通过对语音信号进行预处理后，在时域对输入信号进行分析和计算，确定基音周期。

因为语音信号在时域内对语音信号进行基音检测，大多采用的是相关函数法，只在时域内对语音信号的相关值进行检测，而语音信号在真正基音周期整数倍上的相关值都会很大，很难进行准确区分检测，容易出现基音周期加倍错误，从而降低了基音参数检测的精度。

另一种方法是频域法，是将时域信号转换到频域，并在频域上进行峰值检测；根据检测到的峰值和基音跟踪算法，得到基音频率；对该基音频率进行相应的转换，获得基音周期。

在此过程中，将时域信号转换到频域并在频域进行基音搜索的运算复杂度较高，在实际应用中很难被采用。发明内容

本发明的实施例提供一种精确度高、运算复杂度较低的基音检测方法和装置。

为达到上述目的，本发明的实施例采用如下技术方案：

一种基音检测的方法，包括：

在时域对所述语音信号进行基音检测，得到初始基音周期；

将所述语音信号转换到频域，获得语音信号的频谱，该频谱包括频谱的幅度谱；

根据初始基音周期和所述语音信号的频谱提取特征参数；

根据初始基音周期和特征参数进行精细基音周期检测，得到精细基音周期。

一种基音检测的装置，包括：

初始基音周期获取模块：用于在时域对所述语音信号进行基音检测，得到初始基音周期；

时频转换模块：用于将所述语音信号转换到频域，获得语音信号的频谱，该频谱包括频谱的幅度谱；

特征参数提取模块：用于根据初始基音周期和所述语音信号的频谱提取特征参数；

精细基音周期获取模块：用于根据初始基音周期和特征参数进行精细基音周期检测，得到精细基音周期。

本发明实施例提供的一种基音检测的方法和装置，根据在时域上获取的初始基音周期和频域中所提取的特征参数对基音周期进行检测，避免基音周期加倍错误的出现，提高了基音周期检测的精确度。附图说明

图 1为本发明实施例一种基音检测的方法的流程图；

图 2为为本发明实施例一种基音检测的方法语音信息加窗的结构示意图；图 3为本发明实施例一种基音检测的方法时频转换的流程图；

图 4为本发明实施例一种基音检测的方法根据频点平均幅度与频点幅度的比值参数值和平均幅度参数值对三倍频进行倍频检测的流程图；

图 5为本发明实施例一种基音检测的方法根据频点平均幅度与频点幅度的比值参数值和平均幅度参数值对二倍频进行倍频检测的流程图；

图 6为本发明实施例一种基音检测的方法根据频点平均幅度与频点幅度的比值参数值和緩存数据对三倍频进行倍频检测的流程图；

图 7为本发明实施例一种基音检测的方法根据频点平均幅度与频点幅度的比值参数值和緩存数据对二倍频进行倍频检测的流程图；

图 8为本发明实施例一种基音检测的方法对幅度谱进行插值的流程图；图 9为本发明实施例一种基音检测的方法对语音信号进行补零的流程图；图 10为本发明实施例一种基音检测的方法对全频域进行检测的流程图。图 11为本发明实施例一种基音检测装置的结构示意图；

图 12为本发明实施例 2—种基音检测的装置时频转换模块的结构示意图；图 13为本发明实施例 3—种基音检测的装置时频转换模块的结构示意图。具体实施方式

数字信号处理领域，音频编解码器、视频编解码器广泛应用于各种电子设备中，例如：移动电话，无线装置，个人数据助理（PDA ), 手持式或便携式计算机， GPS接收机 /导航器，照相机，音频 /视频播放器，摄像机，录像机，监控设备等。通常，这类电子设备中包括音频编码器或音频解码器，音频编码器或者解码器可以直接由数字电路或芯片例如 DSP ( digital signal processor )实现，或者由软件代码驱动处理器执行软件代码中的流程而实现。音频编码器中通常会有基音检测的流程。下面结合附图对本发明实施例一种基音检测的方法进行详细描述。

实施例 1

一种基音检测的方法，如图 1所示，包括：

步骤 100、在时域对所述语音信号进行基音检测，得到初始基音周期在时域中，可根据感知加权后的语音信号进行开环基音检测，得到初始基因周期 τ'。

步骤 101、对所述语音信号进行预处理。对语音信号 ^s(n)进行预处理，例如预加重处理，以加重语音信号中的高频成分，提高语音编码的精确度。完成对于语音信号的预处理后，得到预处理语音信号 s_pre (n)。为将所述语音信号转换到频域，使基音检测更加精确，则需要对该语音信号进行前期处理。

步骤 102、为所述预处理后的帧信号加分析窗。

根据完成预处理的语音信号 ^Sp ⁿ) , 为所述预处理后的帧信号加分析窗，该分析窗函数为：

w_FFT (n) = |0.5 - 0.5cos

IQ ，其中为分析窗长度。

第一分析窗加在当前帧上，而第二分析窗加在当前帧的后半帧和未来帧的前半帧上，如图 2所示。

第一分析窗函数为： ^s[。]™_d (ⁿ) = ^WFFT (n) s_pre (n), n = 0, 1, 2, ... , _FT - 1

第二分析窗函数为： ^s[1]™a (ⁿ) = ^WFFT (n) s_pre (n + L^_FT / 2), n = 0, 1, 2, ... , L^_FT - 1 步骤 103、将所述语音信号转换到频域，获得语音信号的频谱，该频谱包括频谱的幅度谱。

为在频域中对语音信号进行检测，则需要获取语音信号在频域中的频谱，该频谱包括频谱的幅度谱，如图 3所示，该步骤的一个实施例包括：。

步骤 300、对所述加分析窗后的语音信号进行频域变换，得到频谱系数。为获取频谱系数，对加窗后的一帧语音信号进行傅立叶变换，例如帧长 FT为 256, 在实际应用中，就可以进行 256点的傅立叶变换，得到相应的频谱系数，该频谱系数函数为：

X(k) =∑ (n)e— J ， k = 0, 1, 2,… , Κ - 1

, 其中频谱系数为复数，包括实部和虚部。步骤 301、根据频谱系数，计算出能量谱取频谱系数中的实部和虚部进行平方和运算，计算出能量谱，该能量谱函数 E(k)为：

E(k) = X^(k) + X_I ²(k), k = 0，l，2，' ，K-l, 其中 X_RW和 X k)分别表示实部和虚部。

步骤 302、根据当前帧和前一帧对能量谱进行加权处理，使能量谱平滑。为进一步提高基音周期检测的精确度，可以根据当前帧和前一帧对能量谱进行加权，得到平滑能量谱，该平滑能量谱函数为：

E(k)=«E^[0](k) + (l-«)E^[1](k), k = 0,l,2,...,K-l, 0<«<1_? 其中 E[。](k)为才艮据第一分析窗生成的能量谱， ^E[1]W为根据第二分析窗生成的能量谱， "的值代表 E^[°^](^k)、！^ 在¹^¹^所占的比例，根据经验进行选取，例如可设置为 0.5。

步骤 303、根据能量谱，计算出频谱的幅度谱。

对能量谱函数进行开方运算，可得到幅度谱函数，在计算幅度谱函数的过程中，为防止所述幅度谱函数的值过大，对幅度谱函数进行对数运算，压缩幅度范围；当平滑能量谱的函数值为 0时，其对数值无限趋近于负无穷，在运算过程中会发生溢出现象，故设置一个较小的正数防止对数值溢出。所述幅度其^和为常数, 可根据设

置该常数的大小来调整频谱的幅度范围，例如可设置为 = ^{2 ?}7 = ^1Ο§ΙΟ(⁴^²ΡΡΤ) _Ο 步骤 104、根据初始基音周期和所述语音信号的频谱提取特征参数。

对初始基音周期 T'进行倒数运算，可得到基频 ^f'，并对该基频 ^f'进行倍数运算可得到倍频，例如 ^2f'和 ^f'^/2。

所述特征参数，包括：平均幅度参数，平均幅度与频点幅度的比值参数，峰值位置参数。

为对精细基音周期进行检测，以避免基音周期加倍错误的出现，则需要设置函数获取幅度大小和幅度谱的起伏特性来确定精细基音周期，例如设置的函数为：

∑ S(i + k)

S(k) = ^-^ , k= f 73, f 72, f ',2f ',3f '

2f '- 1

r(k) = -^, k= f 73, f 72, f ',2f ',3f '

S(k) 其中 S(k)为平均幅度函数， S(k)为幅度谱函数， f '为初始基音周期 T '对应在频域的频点，检测时的值代表以待测频点 k为中心，范围内的频点的平均幅度。 ^r (^k)为平均幅度与待测频点幅度的比值函数。

检测时，将基频、二倍频和三倍频的值代入函数，获取基频特征参数 ')、 r(f ') , 二倍频特征参数 S(^{2 f} ')、 ^r(^{2 f} ')，三倍频特征参数 S(^{3 f} ')、 ^r(^{3 f} ')。

步骤 105、根据初始基音周期和特征参数进行精细基音周期检测，得到精细基音周期。

根据初始基音周期和特征参数，对语音信号进行倍频检测。在实际检测中，基音周期加倍错误大部分发生在频域的基频点、二倍频点和三倍频点的位置，故当要求检测的精度不高时，为降低检测的复杂度，可只对基频、二倍频和三倍频进行检测。

当根据频点平均幅度与频点幅度的比值参数值和平均幅度参数值对三倍频检测，如图 4所示，包括：

步骤 400、判断基频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值是否大于第一默认值。

根据平均幅度参数^ ^，平均幅度与频点幅度的比值参数¹ "(^k) , 可知，被测频点的幅度值相对于平均幅度参数^ ^越大，则 r(^k)值越小，说明该频点处有峰值，幅度谱的起伏特性明显。

检测时，在真实基音频率的位置，会出现峰值，此时该频点处的幅度值 ^s(^k) 大于其周围 ^{2 f} '-¹范围内的平均幅度参数的值 , 则平均幅度与频点幅度的比值参数的值 ^r(^k)较小。故根据基频点、二倍频点和三倍频点的和¹ "(^k) , 可判定该已获取的基音周期是否发生基音周期加倍错误。

在做倍频检测时，首先判断 ^{3 f} '位置是否可能为精细基音频率，为使倍频的检测更加准确，则设置第一默认值，只有当¹ "( f)和¹" (^{3 f} ')的比值大于时，

³ 位置才可能为精细基音频率，该第一默认值可根据经验设置为 1.22。

步骤 401、如果基频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值大于第一默认值，则判断二倍频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值是否大于第二默认值。

当 r(f ')和 ι·(Μ')的比值大于第一默认值时，则判断 r(²f ')和 r(M')的比值是否大于第二默认值 , 该第二默认值可根据经验设置为 1.22。

步骤 402、如果二倍频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值大于第二默认值，则判断三倍频点平均幅度参数值与基频点平均幅度参数值的差值是否大于第三默认值。

当 i"(²f ')和 ι·(Μ')的比值大于第二默认值 A ,则判断 ³f')和 ^f')的差是否大于第三默认值 , 该第三默认值可根据经验设置为 0.6。

步骤 403、如果三倍频点平均幅度参数值与基频点平均幅度参数值的差值大于第三默认值，则确定三倍频为所需要的精细基音频率。

当同时满足上述三个条件时，则可以判断在基频、二倍频和三倍频中，三倍频为精细基音频率，根据该精细基音频率可确定所需要精细基音周期。

如果三倍频不是所需要的精细基音频率，则根据频点平均幅度与频点幅度的比值参数值和平均幅度参数值对二倍频检测，如图 5所示，包括：

步骤 500、判断基频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值是否大于第七默认值。

与检测基音周期三倍错误类似，判断¹ "(^f')和¹ "(^2f')比值是否大于该第七默认值可根据经验设置为 1.22。

步骤 501、如果基频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值大于第七默认值，则判断三倍频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值是否大于第八默认值。

当 r(f')和 r(²f')的比值大于第七默认值 A时，则继续判断 r(M')和 r(²f ')的比值是否大于第八默认值 ^ , 该第八默认值可根据经验设置为 1.22。

步骤 502、如果三倍频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值大于第八默认值，则进一步判断二倍频点平均幅度参数值与基频点平均幅度参数值的差值是否大于第九默认值。

当 1· (³ f ')和 r (² f ')的比值大于第八默认值 ,则继续判断 f ')和 f ')的差是否大于第九默认值 , 该第九默认值可根据经验设置为 0.4。步骤 503、如果二倍频点平均幅度参数值与基频点平均幅度参数值的差值大于第九默认值，则确定二倍频为所需要的精细基音频率。

当同时满足上述三个条件时，则可以判断在基频、二倍频和三倍频中，二倍频为精细基音频率，根据该精细基音频率可确定所需要精细基音周期。

实施例 2

在进行倍频检测时，还可以根据频点平均幅度与频点幅度的比值参数值和緩存中所存储的当前帧之前倍频的判断结果进行判断，如图 6所示，对三倍频检测，包括：

步骤 600、判断基频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值是否大于第四默认值。

判断 r ( f ')和 r (M ')比值是否大于 4 , 该第四默认值 4可根据经验设置为

1.05。

步骤 601、如果基频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值大于第四默认值，则判断二倍频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值是否大于第五默认值。

当 r ( f ')和 r 0 f ')的比值大于第四默认值 S₃时，则判断 r (² f ')和 r 0 f ')的比值是否大于第五默认值 ^ , 该第五默认值 ^可根据经验设置为 1.05。

步骤 602、如果二倍频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值大于第五默认值，则判断前一帧是否发生基音周期三倍错误。

当二倍频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值大于第五默认值 ^时，则根据緩存中所存储的前一帧标记，判断前一帧是否已经发生三倍周期加倍错误。

步骤 603、如果前一帧发生基音周期三倍错误，则判断当前帧之前发生基音周期三倍的次数是否大于第六默认值。

当确定前一帧中已发生三倍周期加倍错误，则进一步判断在当前帧之前发生基音周期三倍错误的次数是否大于第六默认值 ^Cl。如对当前帧的前 10帧进行判断，连续发生基音周期三倍错误的次数是否大于第六默认值 ^ci。该第六默认值 ^ei , 如果是根据整帧进行判断，则可设定为 3 , 如果根据半帧判断，则可设定为 6。

步骤 604、如果当前帧之前发生基音周期三倍错误的次数大于第六默认值，则确定三倍频为所需要的精细基音周期。

当 ^{3 f}'频点所在帧的前一帧已发生基音周期三倍错误，并且 ^{3 f}'频点所在帧的前 10帧中，緩存中记录连续发生了 3次基音周期三倍错误，则确定发生基音周期三倍错误，真实基音频率出现在 ^{3 f}'附近， ^{3 f}'为所需要的精细基音频率。

如果三倍频不是所需要的精细基音频率，则根据频点平均幅度与频点幅度的比值参数值和緩存数据对二倍频检测，如图 7所示，包括：

步骤 700、判断基频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值是否大于第十默认值。

判断 r ( f ')和 r (² f ')比值是否大于 , 该第十默认值可根据经验设置为

1.05。

步骤 701、如果基频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值大于第十默认值，则判断三倍频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值是否大于第十一默认值。

当 r ( f ')和 r (² Γ)的比值大于第十默认值 δ₄时，则判断 r (3 f ')和 r (2 Γ)的比值是否大于第十一默认值 , 该第十一默认值可根据经验设置为 1.05。

步骤 702、如果三倍频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值大于第十一默认值，则判断前一帧是否发生基音周期二倍错误

当三倍频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值大于第十一默认值 A时，则根据緩存中所存储的前一帧标记，判断前一帧是否已经发生二倍周期加倍错误。

步骤 703、如果前一帧发生基音周期二倍错误，则判断当前帧之前发生基音周期二倍的次数是否大于第十二默认值。

当确定前一帧中已发生三倍周期加倍错误，则进一步判断在当前帧之前发生基音周期二倍错误的次数是否大于第十二默认值。如对当前帧的前 10帧进行判断，连续发生基音周期二倍错误的次数是否大于第十二默认值该第十二默认值 2 , 如果是根据整帧进行判断，则可设定为 3 , 如果根据半帧判断，则可设定为 6。

步骤 704、如果当前帧之前发生基音周期二倍的次数大于第十二默认值，则确定二倍频为所需要检测的精细基音频率。

当 ^{2 f}'频点所在帧的前一帧已发生基音周期二倍错误，并且 ^{2 f}'频点所在帧的前 10帧中，緩存中记录连续发生了 3次基音周期二倍错误，则确定发生基音周期二倍错误，真实基音频率发生在 ^{2 f}'附近， ^{2 f}'为所需要的精细基音频率。

当倍频检测完成后，将检测结果保存到緩存的前一帧标记中，例如当判断当前帧发生基音周期二倍错误时，则在前一帧标记中记录发生了基音周期二倍错误，并记录连续发生的次数，用于对下一帧数据的检测。

实施例 3

在对基音周期进行倍频检测时，如实施例 1和实施例 2所述，可根据频点的平均幅度与频点幅度的比值参数值和平均幅度参数值进行判断和根据频点平均幅度与频点幅度的比值参数值和緩存数据进行判断两种方式对精细基音频率进行判断。在实际中进行判断时，根据或逻辑对两种判断方式的判断条件进行组合，当满足一种方式的判断条件时，便可以确定该频点为所需要的精细基音频率。

例如，对基音周期三倍错误进行判断时，只要满足根据频点平均幅度与频点幅度的比值参数值和平均幅度参数值进行判断的判断条件，便可以确定该三倍频为所需要的精细基音频率，或者只要满足根据平均幅度与频点幅度的比值参数值和緩存中所存储的当前帧之前倍频的判断结果进行判断的判断条件，也可以确定该三倍频为所需要的精细基音频率。

实施例 4

为使倍频检测更加精确，则需要获取频域中的高密度幅度谱，例如在原有的幅度谱中存在 256个频点，在各个频点间插入频点可获取所述幅度谱的高密度幅度谱。

在步骤 303后，根据已获取的幅度谱进行插值，如图 8所示，包括：步骤 800、为所述频谱的幅度谱进行插值，获取所述语音信号的高密度幅度谱。

根据插值算法在频域内已有的频点间进行插值，在本发明中采用三次 B样条插值，即在原 K个频点的基础上，扩充至 mK个频点， m为正整数。因三次 B 样条插值在边界处有一定的偏差，为降低此误差，在进行插值前，人为地在数据两端扩充一些伪数据，即对幅度谱进行 L点扩展，使边界条件不会影响实际数据的插值精度。所扩展的值分别等于频谱两端点的值，扩展后幅度谱为： S (0), ... , S (0), { S (k), ke[0,k-l]},S(k-l),...,S(k-l)

L L 所述三次 B样条插值函数为：

其中， ^f(x)表示待插入频点的幅度， k的取值为整数， (X)为三次 B样条基函数，其表达式为：

'2/3-1 xl² + lxl³/2, 0≤lxkl

(2-1 x I³)/ 6, l≤lxl<2

0, lxl≥2 c(^k)是三次 B样条插值系数，定义 c— (k) = c(k)/⁶, 对于给定的 K维输入矢量 y= {y(0),...,y(K-l)}_? c-(k)可通过一下两个公式的递归方程求得：

c⁺(k) = _y(k) + ac⁺(k-l) k = l，2，3 .，K- 1, 相当于一个因果滤波器。

c-(k) = a(c-(k + l)-c⁺(k)) k=K- 2,K- 3.K- 4,...,0,相当于一个非因果滤波器。其中， a = V^-², 这两个递归方程的初始值 c⁺(0)和 c— (K-1)分别为：

k

c⁺(0) =∑y(k)a^k

k=0

c (K-l) =—— _r(c⁺(K-l) + ac⁺(K-2))

1-a 其中， k^logA/logla l, A是为满足精度要求而设的常数。最后，将求解的三次 B样条插值系数 ^c(^k)带入公式 c^y + adk-¹) ^{k = 1}，²，3， ······，K-1, 可获得待插值序列，插值后的幅度谱为： ^S'W , i = 0，l，2，—，mK - 1。

步骤 801、根据当前帧和前一帧对高密度幅度谱进行加权处理，使高密度谱平滑。

完成插值后，为降低该高密度幅度谱的跳变，对其进行平滑处理，平滑后的高密度频谱函数为：

S(i)=^S'^[-^1](i) + (l-^)S'^[0](i), i = 0,l,2,...,mK -l, 0< ≤1 , 其中 S'^[- ^1](i)为前一†贞的高密度频谱，通过 ^设置 ^S'^[— ^1]«和⁸'^[°^]«在 )中所占的比例，例如可设置为 0.4。

为所需要的高密度幅度谱，根据该高密度幅度谱，对精细基音频率进行检测。

获得平滑后的高密度幅度谱后，对精细基音周期进行检测。在检测过程中，因为增加了频点的数量，提高了平均幅度的精确度，降低了频点幅度值跳变给检测带来的影响。所述检测步骤与实施例 1和实施例 2相同，不再赘述。

实施例 5

除可以对幅度谱进行三次 B样条插值外，还可以在时域对该语音信号进行补零插值，如图 9所示，包括：

步骤 900、对所述语音信号进行尾部补零插值后转换到频域，获得该语音信号的高密度幅度谱。

在该语音信号的尾部补充幅值为零的点，将补零后的语音信号转换到频域，通过时频变换，将原有语音信号中的频点以及尾部所补充的幅值为零的点转换到频域，即可以在原有频域的幅度谱的频点之间，插入频点。

在时域到频域的转换过程中，幅度谱中原有频点的幅值不受到所补零点的影响，即在幅度谱中保持原有的频点以及该频点所对应的幅度值，从而获得了所述时域信号在频域内所对应的高密度幅度谱。

步骤 901、根据当前帧和前一帧对高密度幅度谱进行加权处理，使高密度幅度谱平滑。

完成时频变换，获得所需要的高密度幅度谱后，为降低该高密度幅度谱的跳变，对其进行平滑处理，平滑后的高密度幅度谱函数为：

S(i)=^S'^[-^1](i) + (l-^)S'^[0](i), i = 0,...,mK -l, 0< ≤1 , 其中 S'^[- ^1](i)为前一帧的高密度幅度谱，通过设置 ^s'^[— ^1]«和⁸'^[°^]«在 )中所占的比例，例如可设置为 0.4。为所需要的高密度幅度谱，根据该高密度幅度谱，对精细基音频率进行检测。

实施例 6

当对高密度幅度谱进行倍频检测时，所获得的精细基音频率为初始基音频率的倍数，搜索范围只在基频、二倍频和三倍频位置，未对所有频域进行检测，不够精确。为得到精度更高的精细基音周期，在获取语音信号的高密度幅度谱后，还可以对该高密度幅度谱进行幅度的峰值搜索，并根据所对应的特征参数确定精细基音周期。

所述根据初始基音周期和特征参数进行精细基音周期检测，得到精细基音周期，如图 10所示，还包括：

步骤 1000、在所述高密度幅度谱中，对基频点和各倍频点附近一定范围内的幅度值进行比较，确定基频点和各倍频点附近一定范围内的峰值位置。

对频谱的幅度谱进行插值后，获取高密度幅度谱，在该高密度幅度谱中，在基频点和各倍频点附近一定范围内，例如以基频点 ^f '为中心的 ^{2 f} '_²的范围内，进行幅度值的峰值搜索，确定基频点和各倍频点附近一定范围内的峰值位置，其中，基频点和每一个倍频点分别对应一个峰值位置。另可以求出基频点和各倍频点所对应的幅度的峰值。

步骤 1001、判断基频点和各倍频点中是否存在一频点的平均幅度与频点幅度的比值参数值和其他频点的平均幅度与频点幅度的比值参数值的比值都大于第十三默认值，该一频点称为目标频点。

根据基频点和各倍频点的平均幅度与频点幅度的比值参数值进行比较，确定一个频点的平均幅度与频点幅度的比值参数值与其他所有频点的平均幅度与频点幅度的比值参数值的比值都大于第十三默认值 3 , 该第十三默认值 δ可根据经验进行设置，例如设置为 1.22。

步骤 1002、如果基频点和各倍频点中存在一频点的平均幅度与频点幅度的比值参数值和其他频点的平均幅度与频点幅度的比值参数值的比值都大于第十三默认值，则判断所述目标频点到该目标频点所对应的峰值位置的距离是否小于其他频点到所对应的峰值位置的距离。

当基频点和各倍频点中存在一频点的平均幅度与频点幅度的比值参数值和其他频点的平均幅度与频点幅度的比值参数值的比值都大于第十三默认值时，则判断所述目标频点到该目标频点所对应的峰值位置的距离是否小于其他频点到所对应的峰值位置的距离，即确定该目标频点到所对应的峰值位置的距离是否为所有频点中到所对应的峰值位置的距离最小。

步骤 1003、如果所述目标频点到该目标频点所对应的峰值位置的距离小于其他频点到所对应的峰值位置的距离，则确定该目标频点所对应的周期为精细基音周期。

如果满足上述两个条件，则可以确定该目标频点为所需要的精细基音频率。对该精细基音频率进行倒数运算，得到精细基音周期。

实施例 7

如实施例 1、实施例 2和实施例 6所述，当对高密度幅度谱中进行倍频检测时，所确定的精细基音频率为基频或各倍频点，精确度相对较低。当需要更高精确度的精细基音周期时，则可以根据实施例 1、实施例 2和实施例 6所检测出来的频点做进一步的搜索。

所述对基音周期加倍错误的检测步骤与实施例 1、实施例 2和实施例 6相同，不再赘述。

完成检测后，确定一倍频点，如系数为整数倍的三倍频点 ^{3 f} '。设置以该三倍频点 ³ 为中心，在其周围一定范围内（如二倍频点 ² 和四倍频点 ^{4 f} '之间 2 f ' - 2 ),对该高密度频谱进行峰值搜索。当所确定的倍频点的系数为分数倍的二分之一倍频点 f ' 时，可以设定峰值搜索范围为以 f ' 为中心 U ( k为所搜索的频点的频率 )范围内的峰值，则最终可确定该峰值位置为所述的精细基音频率，对该精细基音频率做倒数运算，可确定所需要的精细基音周期。

在该范围内所获得的峰值所对应的频点为所需要的精细基音频率。

与上述一种基音检测方法相对应，本发明还提供了一种基音检测装置。一种基音检测的装置，如图 11所示，包括：

所述精细基音周期获取模块，还包括：

倍频检测模块：用于对基频点和倍频点的特征参数进行比较，确定精细基音频率。

所述倍频检测模块，还包括：

峰值搜索模块：用于在精细基音频率附近一定范围内搜索幅度的峰值，对该峰值所对应的频点进行倒数运算，获取精细基音周期。

所述的一种基音检测的装置，还包括：

预处理模块：用于对所述语音信号进行预处理；

加窗模块：用于为所述预处理后的帧信号加分析窗。

所述时频转换模块，如图 12所示，还包括：

频谱系数获取模块：用于对所述加分析窗后的语音信号进行频域变换，得到频谱系数；

能量谱获耳 W莫块：用于根据频谱系数，计算出能量谱。

所述的一种基音检测的装置，还包括：

能量谱平滑模块：用于根据当前帧和前一帧对能量谱进行加权处理，使能量谱平滑。

所述的一种基音检测的装置，还包括：

幅度谱获取模块：用于根据能量谱，计算出频谱的幅度谱。

所述的一种基音检测的装置，还包括：

幅度谱插值模块：用于为所述频谱的幅度谱进行插值，获取所述语音信号的高密度幅度谱。

所述时频转换模块，如图 13所示，还包括：

语音信号插值模块：用于对所述语音信号进行尾部补零插值后转换到频域，获得该语音信号的高密度幅度谱。

所述的一种基音检测的装置，还包括：

高密度幅度谱平滑模块：用于根据当前帧和前一帧对高密度幅度谱进行加权处理，使高密度幅度谱平滑。

本发明实施例提供的一种基音检测的方法和装置，根据在时域上获取的初始基音周期和频域中所提取的特征参数对基音周期进行检测，避免基音周期加倍错误的出现，提高了基音周期检测的精确度。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

权利要求

1、一种基音检测的方法，其特征在于，包括：

在时域对所述语音信号进行基音检测，得到初始基音周期；

根据初始基音周期和所述语音信号的频谱提取特征参数；

2、根据权利要求 1所述的一种基音检测的方法，其特征在于，所述特征参数，包括：平均幅度参数，平均幅度与频点幅度的比值参数和峰值位置参数。

3、根据权利要求 1所述的一种基音检测的方法，其特征在于，所述根据初始基音周期和特征参数进行精细基音周期检测，得到精细基音周期，还包括：根据平均幅度与频点幅度的比值参数值大小和平均幅度参数值大小进行判断或者根据平均幅度与频点幅度的比值参数值大小和緩存中所存储的当前帧之前倍频的判断结果进行判断。

4、根据权利要求 3所述的一种基音检测的方法，其特征在于，所述根据平均幅度与频点幅度的比值参数值大小和平均幅度参数值大小进行判断，包括：

判断基频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值是否大于第一默认值；

如果基频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值大于第一默认值，则判断二倍频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值是否大于第二默认值；

如果二倍频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值大于第二默认值，则判断三倍频点平均幅度参数值与基频点平均幅度参数值的差值是否大于第三默认值；

如果三倍频点平均幅度参数值与基频点平均幅度参数值的差值大于第三默认值，则确定三倍频为所需要的精细基音频率。

5、根据权利要求 3所述的一种基音检测的方法，其特征在于，所述根据平均幅度与频点幅度的比值参数值大小和緩存中所存储的当前帧之前倍频的判断结果进行判断，包括：

判断基频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值是否大于第四默认值；

如果基频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值大于第四默认值，则判断二倍频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值是否大于第五默认值；

如果二倍频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值大于第五默认值，则判断前一帧是否发生基音周期三倍错误；

如果前一帧发生基音周期三倍错误，则判断当前帧之前发生基音周期三倍错误的次数是否大于第六默认值；

如果当前帧之前发生基音周期三倍错误的次数大于第六默认值，则确定三倍频为所需要的精细基音周期。

6、根据权利要求 3所述的一种基音检测的方法，其特征在于，所述根据平均幅度与频点幅度的比值参数值大小和平均幅度参数值大小进行判断，还包括：

判断基频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值是否大于第七默认值；

如果基频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值大于第七默认值，则判断三倍频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值是否大于第八默认值；

如果三倍频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值大于第八默认值，则判断二倍频点平均幅度参数值与基频点平均幅度参数值的差值是否大于第九默认值；

如果二倍频点平均幅度参数值与基频点平均幅度参数值的差值大于第九默认值，则确定二倍频为所需要的精细基音频率。

7、根据权利要求 3所述的一种基音检测的方法，其特征在于，所述根据平均幅度与频点幅度的比值参数值大小和緩存中所存储的当前帧之前倍频的判断结果进行判断，还包括：

判断基频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值是否大于第十默认值；

如果基频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值大于第十默认值，则判断三倍频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值是否大于第十一默认值；

如果三倍频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值大于第十一默认值，则判断前一帧是否发生基音周期二倍错误；

如果前一帧发生基音周期二倍错误，则判断当前帧之前发生基音周期二倍错误的次数是否大于第十二默认值；

如果当前帧的之前发生基音周期二倍错误的次数大于第十二默认值，则确定二倍频为所需要检测的精细基音频率。

8、根据权利要求 1所述的一种基音检测的方法，其特征在于，在所述根据初始基音周期和所述语音信号的频谱提取特征参数之前，包括：

为所述频谱的幅度谱进行插值，获取所述语音信号的高密度幅度谱。

9、根据权利要求 8所述的一种基音检测的方法，其特征在于，所述插值，包括：三次 B样条插值 f (x) = y _C(k)^³(x-k)

^ , 其中 f (^x)为待插值信号， ^c(^k)为三次 B样插值系数, 3(^x)为三次 B样条基函数。

10、根据权利要求 9所述的一种基音检测的方法，其特征在于，在所述三次 B样条插值之前，还包括：

在幅度谱前后端点分别插入 L个扩展点，该扩展点的值分别等于前后端点的值。

11、根据权利要求 1所述的一种基音检测的方法，其特征在于，在将所述语音信号转换到频域，获得语音信号的频谱，该频谱包括频谱的幅度谱，还包括：对所述语音信号进行尾部补零后转换到频域，获得该语音信号的高密度幅度谱。

12、根据权利要求 8或 11所述的一种基音检测的方法，其特征在于，获取所述语音信号的高密度幅度谱之后，包括：

根据当前帧和前一帧对高密度幅度谱进行加权处理，使高密度幅度谱平滑。

13、根据权利要求 12所述的一种基音检测的方法，其特征在于，所述根据初始基音周期和特征参数进行精细基音周期检测，得到精细基音周期，还包括：

在所述高密度幅度谱中，对基频点和各倍频点附近一定范围内的幅度值进行比较，确定基频点和各倍频点附近一定范围内的峰值位置；

判断基频点和各倍频点中是否存在一频点的平均幅度与频点幅度的比值参数值和其他频点的平均幅度与频点幅度的比值参数值的比值都大于第十三默认值，该一频点称为目标频点；

如果基频点和各倍频点中存在一频点的平均幅度与频点幅度的比值参数值和其他频点的平均幅度与频点幅度的比值参数值的比值都大于第十三默认值，则判断所述目标频点到该目标频点所对应的峰值位置的距离是否小于其他频点到所对应的峰值位置的距离；

如果所述目标频点到该目标频点所对应的峰值位置的距离小于其他频点到所对应的峰值位置的距离，则确定该目标频点所对应的周期为精细基音周期。

14、根据权利要求 1所述的一种基音检测的方法，其特征在于，所述根据初始基音周期和特征参数进行精细基音周期检测，得到精细基音周期，还包括：在精细基音频率附近一定范围内搜索幅度的峰值，对该峰值所对应的频点进行倒数运算，获取精细基音周期。

15、根据权利要求 1所述的一种基音检测的方法，其特征在于，在所述将所述语音信号转换到频域，获得语音信号的频谱之前，包括：

对所述语音信号进行预处理；

为所述预处理后的帧信号加分析窗。

16、根据权利要求 15所述的一种基音检测的方法，其特征在于，所述将所述语音信号转换到频域，包括：

对所述加分析窗后的语音信号进行频域变换，得到频谱系数；

根据频谱系数，计算出能量谱。

17、根据权利要求 16所述的一种基音检测的方法，其特征在于，在所述根据能量谱，计算出幅度谱之前，包括：

根据当前帧和前一帧对能量谱进行加权处理，使能量谱平滑。

18、根据权利要求 17所述的一种基音检测的方法，其特征在于，对所属能量谱进行平滑处理，得到平滑能量谱之后，包括：

根据能量谱，计算出频谱的幅度谱

S(k) = , ^log₁₀ (VTTE(k) ), k = 0,... , K -l _? 其中 S_(k)为幅度谱函数。

19、一种基音检测的装置，其特征在于，包括：

20、根据权利要求 19所述的一种基音检测的装置，其特征在于，所述特征参数，包括：平均幅度参数，平均幅度与频点幅度的比值参数，峰值位置参数。

21、根据权利要求 19所述的一种基音检测的装置，其特征在于，所述精细基音周期获取模块，还包括：

倍频检测模块：用于对基频点和倍频点的特征参数进行比较，确定精细基音频率，并对精细基音频率进行倒数运算，获取精细基音周期。

22、根据权利要求 19所述的一种基音检测的装置，其特征在于，所述倍频检测模块，还包括：

23、根据权利要求 19所述的一种基音检测的装置，其特征在于，包括：预处理模块：用于对所述语音信号进行预处理；

加窗模块：用于为所述预处理后的帧信号加分析窗。

24、根据权利要求 19所述的一种基音检测的装置，其特征在于，所述时频转换模块，还包括：

能量谱获取模块：用于根据频谱系数，计算出能量谱。

25、根据权利要求 24所述的一种基音检测的装置，其特征在于，还包括：能量谱平滑模块：用于根据当前帧和前一帧对能量谱进行加权处理，使能量谱平滑。

26、根据权利要求 25所述的一种基音检测的装置，其特征在于，还包括：幅度谱获取模块：用于根据能量谱，计算出频谱的幅度谱。

27、根据权利要求 26所述的一种基音检测的装置，其特征在于，还包括：幅度谱插值模块：用于为所述频谱的幅度谱进行插值，获取所述语音信号的高密度幅度谱。

28、根据权利要求 19所述的一种基音检测的装置，其特征在于，所述时频转换模块，还包括：

29、根据权利要求 27或 28所述的一种基音检测的装置，其特征在于，还包括：