JPWO2006006366A1 - ピッチ周波数推定装置およびピッチ周波数推定方法 - Google Patents
ピッチ周波数推定装置およびピッチ周波数推定方法 Download PDFInfo
- Publication number
- JPWO2006006366A1 JPWO2006006366A1 JP2006528586A JP2006528586A JPWO2006006366A1 JP WO2006006366 A1 JPWO2006006366 A1 JP WO2006006366A1 JP 2006528586 A JP2006528586 A JP 2006528586A JP 2006528586 A JP2006528586 A JP 2006528586A JP WO2006006366 A1 JPWO2006006366 A1 JP WO2006006366A1
- Authority
- JP
- Japan
- Prior art keywords
- pitch frequency
- pitch
- spectrum
- power
- average value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Measuring Frequencies, Analyzing Spectra (AREA)
Abstract
ピッチ周波数推定に要する演算量を低減しつつ、ピッチ周波数を正確に推定することができるピッチ周波数推定装置を提供する。この装置において、スペクトル抽出部(104)は、音声スペクトルからピッチ調波スペクトルを抽出する。スペクトル平均値計算部(106)は、スペクトル抽出部(104)によって抽出されたピッチ調波スペクトルのパワの平均値を、複数のピッチ周波数候補の各々に対応づけて計算する。推定部は、スペクトル平均値計算部(106)によって計算された平均値を用いてピッチ周波数を推定する。
Description
本発明は、ピッチ周波数推定装置およびピッチ周波数推定方法に関し、特に、周波数領域でピッチ周波数推定を行うピッチ周波数推定装置およびピッチ周波数推定方法に関する。
一般に、時間領域または周波数領域において音声のピッチ周波数を推定する方法としては、音声波形の自己相関関数による自己相関法や、LPC(Linear Predictive Coding)分析の残差信号の自己相関関数による変形相関法などが知られている。
また、雑音抑圧や音声符号化などの音声処理を周波数領域において行う場合は、周波数領域でピッチ周波数を推定すると整合性が良くなることがある。周波数領域でのピッチ周波数推定方法としては、周波数スペクトルに対する自己相関関数の最大化によりピッチ周波数を算出する方法があり、その一般式は次の式(1)によって表される。この式において、自己相関関数R(i)を最大にするピッチ周波数候補iを推定ピッチ周波数とする。
ここで、kは離散周波数成分であり、P(k)はピッチ調波スペクトルのパワであり、PMINおよびPMAXはそれぞれピッチ周波数候補iの最小値および最大値である。
ところで、周波数領域での自己相関を用いたピッチ周波数推定方法では、音声信号のホルマントの影響により誤って倍のピッチ周波数が算出されてしまうこと(倍ピッチ周波数誤り)がある。
ホルマントの影響を低減しつつピッチ周波数推定を行う従来の方法としては、例えば、非特許文献1に開示されたものがある。この方法では、スペクトル包絡の情報でスペクトルを平坦化した後のスペクトルが用いられる。
″A spectral autocorrelation method for measurement of the fundamental frequency of noise−corrupted speech″,M.Lahat,IEEE Trans.on Acoustics,Speech,and Signal Processing,vol.ASSP−35,no.6,pp.741−750,1987
″A spectral autocorrelation method for measurement of the fundamental frequency of noise−corrupted speech″,M.Lahat,IEEE Trans.on Acoustics,Speech,and Signal Processing,vol.ASSP−35,no.6,pp.741−750,1987
しかしながら、上記従来のピッチ周波数推定方法では、スペクトルの平坦化処理を伴うため、ピッチ周波数推定に要する演算量が増大するという問題がある。
本発明の目的は、ピッチ周波数推定に要する演算量を低減しつつ、ピッチ周波数を正確に推定することができるピッチ周波数推定装置およびピッチ周波数推定方法を提供することである。
本発明のピッチ周波数推定装置は、音声スペクトルからピッチ調波スペクトルを抽出する抽出手段と、前記ピッチ調波スペクトルのパワの平均値を、複数のピッチ周波数候補の各々に対応づけて計算する平均値計算手段と、前記平均値を用いてピッチ周波数を推定する推定手段と、を有する構成を採る。
本発明のピッチ周波数推定方法は、音声スペクトルからピッチ調波スペクトルを抽出する抽出ステップと、前記ピッチ調波スペクトルのパワの平均値を、複数のピッチ周波数候補の各々に対応づけて計算する平均値計算ステップと、前記平均値を用いてピッチ周波数を推定する推定ステップと、を有するようにした。
本発明のピッチ周波数推定プログラムは、音声スペクトルからピッチ調波スペクトルを抽出する抽出ステップと、前記ピッチ調波スペクトルのパワの平均値を、複数のピッチ周波数候補の各々に対応づけて計算する平均値計算ステップと、前記平均値を用いてピッチ周波数を推定する推定ステップと、をコンピュータに実現させるようにした。
本発明によれば、ピッチ周波数推定に要する演算量を低減しつつ、ピッチ周波数を正確に推定することができる。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明の一実施の形態に係るピッチ周波数推定装置の構成を示すブロック図である。ピッチ周波数推定装置100は、ハニング窓部101、FFT(Fast Fourier Transform)部102、有声性判定部103、スペクトル抽出部104、スペクトル振幅制限部105、スペクトル平均値計算部106、スペクトル加算部107、べき乗計算部108、乗算部109および最大値抽出部110を有する。
ハニング窓部101は、所定時間単位のフレーム単位に分割された入力音声信号に対して、ハニングウィンドウなどを利用した窓掛け処理を施してFFT部102に出力する。
FFT部102は、ハニング窓部101から入力されたフレーム、つまりフレーム単位に分割された音声信号に対してFFTを行って音声信号を周波数領域に変換する。これにより、音声パワスペクトルを取得する。よって、フレーム単位の音声信号は、所定の周波数帯域を有する音声パワスペクトルとなる。このようにして生成された音声パワスペクトルは、有声性判定部103、スペクトル抽出部104およびスペクトル振幅制限部105に出力される。
有声性判定部103は、FFT部102から音声パワスペクトルの有声性、つまり元の音声信号が有声であるか無声であるかを判定する。判定結果は、スペクトル抽出部104に出力される。
スペクトル抽出部104は、有声性判定部103によって音声パワスペクトルが有声性なしと判定された場合、ピッチ調波スペクトルの抽出を回避する。これによって、スペクトル抽出部104の演算量、ひいてはピッチ周波数推定装置100の全体の演算量を低減することができる。
一方、音声パワスペクトルが有声性ありと判定された場合、スペクトル抽出部104はピッチ調波スペクトルの抽出を行う。より具体的には、音声パワスペクトルにおけるピークを抽出することにより、ピッチ調波スペクトルの抽出を行う。
また、スペクトル抽出部104は、スペクトル振幅制限部105による音声パワスペクトルの振幅制限が行われた場合、抽出されたピッチ調波スペクトルにその振幅制限の結果を反映させることにより、ピッチ調波スペクトルの振幅を制限する。このようにして、ピッチ周波数推定の精度に与えられ得るホルマントの影響を低減することができる。ピッチ調波スペクトルは、スペクトル平均値計算部106およびスペクトル加算部107に出力される。
スペクトル振幅制限部105は、FFT部102によって取得された音声パワスペクトルの振幅が所定の閾値を超過しないように制限する。音声パワスペクトルの振幅制限の結果は、スペクトル抽出部104に出力される。
スペクトル平均値計算部106は、スペクトル抽出部104からのピッチ調波スペクトルのパワの平均値を、複数のピッチ周波数候補の各々に対応づけて計算する。すなわち、ピッチ調波スペクトルにおいて、ピッチ周波数候補を所定の最小値から所定の最大値までシフトさせながら、ピッチ周波数候補の整数倍に相当する周波数成分のパワの平均値を計算する。計算された平均値は、乗算部109に出力される。
また、スペクトル平均値計算部106は、平均値の計算を行うとき、パワの最大値に対応する周波数成分を、平均値計算対象の周波数帯域における基準周波数として用いる。
具体的には、基準周波数からピッチ周波数候補の整数倍に相当する周波数を減算して得られる周波数におけるパワと、基準周波数からピッチ周波数候補の整数倍に相当する周波数を加算して得られる周波数におけるパワと、を用いて、平均値の計算を行う。これにより、音声の準周期特性および雑音の影響ならびにピッチ周波数推定誤差により生じるピッチ高調波における誤差の累積を低減することができ、より正確にピッチ周波数の推定を行うことができる。
なお、ピッチ調波スペクトルのパワの平均値は、後述するピッチ調波スペクトルのパワの加算値を特定の値で除して得られる値である。よって、スペクトル平均値計算部106は、スペクトル加算部107によって計算された加算値を取得し、これを用いて平均値の算出を行っても良い。
スペクトル加算部107は、スペクトル抽出部104からのピッチ調波スペクトルのパワの加算値を、複数のピッチ周波数候補の各々に対応づけて計算する。すなわち、ピッチ調波スペクトルにおいて、ピッチ周波数候補を所定の最小値から所定の最大値までシフトさせながら、ピッチ周波数候補の整数倍に相当する周波数成分のパワを加算する。パワの加算によって得られた加算値はべき乗計算部108に出力される。
また、スペクトル加算部107は、パワの加算を行うとき、パワの最大値に対応する周波数成分を、加算値計算対象の周波数帯域における基準周波数として用いる。
具体的には、基準周波数からピッチ周波数候補の整数倍に相当する周波数を減算して得られる周波数におけるパワと、基準周波数からピッチ周波数候補の整数倍に相当する周波数を加算して得られる周波数におけるパワと、を用いて、加算値の計算を行う。これにより、音声の準周期特性および雑音の影響ならびにピッチ周波数推定誤差により生じるピッチ高調波における誤差の累積を低減することができ、より正確にピッチ周波数の推定を行うことができる。
べき乗計算部108は、スペクトル加算部107によって算出された加算値のべき乗の値を計算する。算出されたべき乗の値は乗算部109に出力される。また、べき乗計算部108は、べき乗の計算に用いられる乗数を可変に設定する。乗数の可変設定つまり乗数の調整については後述する。
乗算部109および最大値抽出部110の組み合わせは、複数のピッチ周波数候補の各々に対応づけて計算された平均値を用いてピッチ周波数を推定する推定部を構成する。
推定部において、乗算部109は、ピッチ調波スペクトルのパワの平均値とピッチ調波スペクトルのパワの加算値とを、複数のピッチ周波数候補の各々に対応づけて乗算する。より具体的には、加算値のべき乗計算結果を平均値に乗算する。乗算結果は、最大値抽出部110に出力される。
最大値抽出部110は、乗算部109で計算された乗算結果の最大値を抽出する。また、所定の最小値から所定の最大値までの複数のピッチ周波数候補のうち、乗算結果が最大となるときのピッチ周波数候補を推定ピッチ周波数として決定し、図示されない後段の処理部に出力する。
次いで、上記構成を有するピッチ周波数推定装置100におけるピッチ周波数推定動作について説明する。
まず、FFT部102では、次の式(2)で表される音声パワスペクトルSF 2(k)を取得する。ここで、kは離散周波数成分を示す。HFは、ピッチ周波数推定用の上限周波数成分であり、例えばHF=1[kHz]である。Re{DF(k)}およびIm{DF(k)}は、それぞれFFT変換後の入力音声スペクトルDF(k)の実数部および虚数部を示す。
なお、式(2)では、スペクトルのパワ値を用いているが、パワ値の代わりに、平方根をとったスペクトル振幅値を用いても良い。
また、有声性判定部103では、音声パワスペクトルSF 2(k)の有声性を判定する。
より具体的には、第1に、フレームmの音声パワスペクトルSF 2(k)の和S2(m)と、推定雑音スペクトルパワの移動平均値N2(m)と、を次の式(3)および(4)を用いてそれぞれ計算する。ここで、αは移動平均係数であり、ΘNは、音声か雑音かを判定するための閾値である。
そして、第2に、音声と雑音との比SNRを式(5)を用いて計算し、その計算結果に基づいて有声性判定を行う。例えば式(6)に示すように、比SNRが閾値ΘVよりも大きい場合は有声性ありと判定し、比SNRが閾値ΘV以下の場合は有声性なしと判定する。なお、ここでは有声性ありと判定された場合を例にとり、ピッチ周波数推定動作の説明を続ける。
このとき、音声の準周期特性および雑音の影響により生じ得るピッチ調波スペクトルの位置ずれを考慮して、抽出されたピークの近傍にある音声パワスペクトルSF 2(k−1)およびSF 2(k+1)を、ピッチ調波スペクトルPF(k−1)およびPF(k+1)として一緒に抽出し、これら以外の周波数成分における音声パワスペクトルをゼロとみなす。
また、スペクトル振幅制限部105で音声パワスペクトルの振幅制限が行われた場合、スペクトル抽出部104では、ピッチ調波スペクトルPF(k)にその振幅制限の結果を反映させることにより、ピッチ調波スペクトルPF(k)の振幅を制限する。
すなわち、抽出されたピッチ調波スペクトルPF(k)を所定値と比較する。所定値は、周波数帯域HFにおける音声パワスペクトルSF 2(k)の平均値と乗算係数δとの積であり、式(8)によって求められる。そして、ピッチ調波スペクトルPF(k)が所定値を超過する場合には、式(9)を用いてピッチ調波スペクトルPF(k)の振幅に減衰係数を乗算することにより、ピッチ調波スペクトルPF(k)の振幅を制限する。減衰係数は式(10)によって求められる。
ここで、N(i)=NF/iであり、NL(i)=j/iであり、NH(i)=(HF−j)/iである。また、iはピッチ周波数候補であり、PMINおよびPMAXはそれぞれピッチ周波数候補の最小値および最大値である。また、jは、周波数帯域HFにおける音声パワスペクトルSF 2(k)の最大値に対応する周波数成分であり、nは、ピッチ周波数の整数倍の係数である。
ここで、式(13)および(14)を比較して分かるように、平均値PA(i)および加算値PB(i)の間には式(15)で表される関係がある。したがって、スペクトル加算部107で式(14)を用いて加算値PB(i)を計算してから、スペクトル平均値計算部106で式(13)の代わりに式(15)を用いて平均値PA(i)を計算した場合は、ピッチ周波数推定における演算量をさらに低減することができる。
そして、最大値抽出部110では、乗算結果PD(i)の最大値PD−maxを抽出し、そのときのピッチ周波数候補pを推定ピッチ周波数として決定する。このようにしてピッチ周波数推定動作が行われる。
続いて、半ピッチ周波数誤りおよび倍ピッチ周波数誤りの発生を防止するための条件(以下「防止条件」と言う)について説明する。ここでは、ピッチ調波スペクトルのパワの平均値のみを用いてピッチ周波数推定を行った場合(以下「第1のケース」と言う)と、ピッチ調波スペクトルのパワの平均値および加算値を用いてピッチ周波数推定を行った場合(以下「第2のケース」と言う)と、を例にとって説明する。
まず、第1のケースにおける防止条件を定量的に求める。
ここで、xは、半ピッチ周波数p/2を推定したときの、ピッチ周波数pに対する加算値PB(p)の増加倍率を示す係数である。平均値PAのみの最大化によりピッチ周波数を推定する場合、式(18)および(19)を比較して分かるように、PA(p)>PA(p/2)つまりx<1の条件を満たすときに、半ピッチ周波数誤りの発生を防止することができる。すなわち、加算値PBの増加量がPB(p)未満のときに、半ピッチ周波数誤りの発生を防止することができる。
ここで、yは、倍ピッチ周波数2pを推定したときの、ピッチ周波数pに対する加算値PB(p)の減少倍率を示す係数である。平均値PAのみの最大化によりピッチ周波数を推定する場合、式(18)および(20)を比較して分かるように、PA(p)>PA(2p)つまりy>0.5の条件を満たすときに、倍ピッチ周波数誤りの発生を防止することができる。すなわち、加算値PBの減少量が0.5PB(p)より大きいときに、倍ピッチ周波数誤りの発生を防止することができる。
次いで、第2のケースにおける防止条件を定量的に求める。
式(17)で表される乗算結果PD(i)の最大化によってピッチ周波数を推定する場合、PD(p)>PD(p/2)の条件を満たすときに、半ピッチ周波数誤りの発生を防止することができる。また、PD(p)>PD(2p)の条件を満たすときに、倍ピッチ周波数誤りの発生を防止することができる。
ここで、スペクトル抽出部104で抽出された音声パワスペクトルSF 2(k)の例を図2Aに示す。この例において、P2、P4、P5およびP6で示されるピークによりピッチ調波スペクトルが構成されると仮定する。
また、図2Bに、加算値PB(i)のべき乗の乗数を1に設定した条件の下で、平均値PA(i)および加算値PB(i)を互いに乗算した結果の例を示し、図2Cに、加算値PB(i)のべき乗の乗数を3に設定した条件の下で、平均値PA(i)および加算値PB(i)を互いに乗算した結果の例を示す。
そして、式(21)を用いて半ピッチ周波数誤りの防止条件PD(p)>PD(p/2)を変換すると、乗数が1の場合はx<0.414となり、乗数が3の場合はx<0.189となる。また、式(22)を用いて倍ピッチ周波数誤りの防止条件PD(p)>PD(2p)を変換すると、乗数が1の場合はy>0.293となり、乗数が3の場合はy>0.159となる。すなわち、乗数が1の場合は加算値PBの増加量が0.414PB(p)未満のときに、または、乗数が3の場合は加算値PBの増加量が0.189PB(p)未満のときに、半ピッチ周波数誤りの発生を防止することができる。また、乗数が1の場合は加算値PBの減少量が0.293PB(p)より大きいときに、または、乗数が3の場合は加算値PBの減少量が0.159PB(p)より大きいときに、倍ピッチ周波数誤りの発生を防止することができる。
さらに、第1のケースにおける防止条件と第2のケースにおける防止条件とを比較する。この比較の結果として、倍ピッチ周波数誤りの防止条件については、第1のケースに比べて第2のケースの方が緩和されていることが分かる。すなわち、倍ピッチ周波数誤り発生の主因はホルマントによるピッチ調波スペクトル振幅値の変動であるが、この変動によって倍ピッチ周波数誤りの防止条件を満たさなくなる確率が、第1のケースよりも第2のケースの方が低くなる。したがって、ピッチ調波スペクトルのパワの平均値および加算値を用いてピッチ周波数推定を行うことにより、ホルマントの影響を低減することができ、ピッチ周波数推定の精度を向上することができる。
さらに、べき乗の乗数を調整することによって、半ピッチ周波数誤りの発生率または倍ピッチ周波数誤りの発生率を自在に調整することができる。例えば、前述のとおり、乗数が1の場合と比べて乗数が3の場合は、半ピッチ周波数誤りが生じやすくなるが、倍ピッチ周波数誤りが生じにくくなる。逆に言えば、乗数が3の場合に比べて乗数が1の場合は、倍ピッチ周波数誤りが生じやすくなるが、半ピッチ周波数誤りが生じにくくなる。したがって、実際の場合は、音声や雑音の状態に応じて乗数を選択することによって、より正確にピッチ周波数を推定することができる。例えば、雑音の多い環境下でピッチ周波数推定が行われる場合は、乗数をより小さい値とすることによって、半ピッチ周波数誤りの発生率を低減することができる。一方、乗数をより大きい値とすることによって、ホルマントの影響による倍ピッチ周波数誤りの発生を低減することができる。
ここで、同じ条件下で且つ同じピッチ調波スペクトルを用いてシミュレーションを行うことにより、式(1)で示される自己相関法に基づくピッチ周波数推定と本実施の形態に係るピッチ周波数推定との各推定誤り率を算出する。シミュレーションの諸条件は次のとおりである。ハニング窓長が320であり、FFT変換長は512であり、移動平均係数αは0.02であり、閾値ΘVは2であり、乗算係数δは6であり、ピッチ周波数候補の最小値PMINは62.5Hzであり、ピッチ周波数候補の最大値PMAXは390Hzである。また、乗数βは3とした。下記の表は、算出された推定誤り率の一覧である。この表から分かるように、適切な乗数を選択することによって、本実施の形態に係るピッチ周波数推定は自己相関法に基づくものに比べて推定誤り率を低減することができる。
このように、本実施の形態によれば、ピッチ調波スペクトルのパワの平均値であって、複数のピッチ周波数候補の各々に対応づけて計算された平均値を用いて、ピッチ周波数を推定する、すなわち、周波数スペクトル上での自己相関を用いることなくピッチ周波数推定を行うため、ホルマントの影響を低減するためのスペクトル平坦化処理を不要とすることができるとともに、例えば、ピッチ調波スペクトルのパワに関する所定の定量的な条件が満たされる場合に半ピッチ周波数誤りや倍ピッチ周波数誤りの発生を防止することができ、ピッチ周波数推定に要する演算量を低減しつつ、ピッチ周波数を正確に推定することができる。
また、本実施の形態によれば、ピッチ調波スペクトルのパワの平均値および加算値であって、複数のピッチ周波数候補の各々に対応づけて計算された平均値および加算値を、複数のピッチ周波数候補の各々に対応づけて互いに乗算し、乗算結果の最大値に対応するピッチ周波数候補を推定ピッチ周波数として決定する、すなわち、平均値および加算値の乗算値を関数としてピッチ周波数の推定を行うため、スペクトル平坦化処理を行うことなくホルマントの影響を低減することができ、ピッチ周波数推定の精度を向上することができる。
なお、本実施の形態のピッチ周波数推定装置およびピッチ周波数推定方法は、音声符号化や音声強調などの音声信号処理を行う音声信号処理装置および音声信号処理方法に適用することができる。
また、本発明は様々な実施の形態を採ることが可能であり、本実施の形態で説明したもののみに限定されない。例えば、上記のピッチ周波数推定方法をソフトウェアとしてコンピュータに実行させるようにしても良い。すなわち、上記の実施の形態で説明したピッチ周波数推定方法を実行するプログラムを予め例えばROM(Read Only Memory)等の記録媒体に記録しておき、そのプログラムをCPU(Central Processor Unit)によって動作させることで、本発明のピッチ周波数推定方法を実行することができる。
なお、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部又は全てを含むように1チップ化されても良い。
ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現しても良い。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてありえる。
本明細書は、2004年7月13日出願の特願2004−206387に基づく。この内容はすべてここに含めておく。
本発明のピッチ周波数推定装置およびピッチ周波数推定方法は、音声符号化や音声強調などの音声信号処理を行う装置および方法に適用することができる。
【0002】
al frequency of noise−corrupted speech”,M.Lahat,IEEE Trans.on Acoustics,Speech,and Signal Processing,vol.ASSP−35,no.6,pp.741−750,1987
【発明の開示】
【発明が解決しようとする課題】
[0006] しかしながら、上記従来のピッチ周波数推定方法では、スペクトルの平坦化処理を伴うため、ピッチ周波数推定に要する演算量が増大するという問題がある。
[0007] 本発明の目的は、ピッチ周波数推定に要する演算量を低減しつつ、ピッチ周波数を正確に推定することができるピッチ周波数推定装置およびピッチ周波数推定方法を提供することである。
【課題を解決するための手段】
[0008](補正後)本発明のピッチ周波数推定装置は、音声パワスペクトルからピッチ調波スペクトルを抽出する抽出手段と、前記ピッチ調波スペクトルのパワの平均値を複数のピッチ周波数候補毎に計算する平均値計算手段と、前記ピッチ調波スペクトルのパワの加算値を前記複数のピッチ周波数候補毎に計算する加算値計算手段と、前記複数のピッチ周波数候補毎に、1以上のいずれかの乗数を用いて前記加算値のべき乗の値を計算するべき乗計算手段と、前記複数のピッチ周波数候補毎に前記べき乗の値を前記平均値に乗算し、前記複数のピッチ周波数候補のうち最大の乗算結果を与えるピッチ周波数候補を推定ピッチ周波数として決定する決定手段と、を具備する構成を採る。
[0009](削除)
[0010](削除)
【発明の効果】
[0011] 本発明によれば、ピッチ周波数推定に要する演算量を低減しつつ、ピッチ周波数を正確に推定することができる。
【図面の簡単な説明】
2
al frequency of noise−corrupted speech”,M.Lahat,IEEE Trans.on Acoustics,Speech,and Signal Processing,vol.ASSP−35,no.6,pp.741−750,1987
【発明の開示】
【発明が解決しようとする課題】
[0006] しかしながら、上記従来のピッチ周波数推定方法では、スペクトルの平坦化処理を伴うため、ピッチ周波数推定に要する演算量が増大するという問題がある。
[0007] 本発明の目的は、ピッチ周波数推定に要する演算量を低減しつつ、ピッチ周波数を正確に推定することができるピッチ周波数推定装置およびピッチ周波数推定方法を提供することである。
【課題を解決するための手段】
[0008](補正後)本発明のピッチ周波数推定装置は、音声パワスペクトルからピッチ調波スペクトルを抽出する抽出手段と、前記ピッチ調波スペクトルのパワの平均値を複数のピッチ周波数候補毎に計算する平均値計算手段と、前記ピッチ調波スペクトルのパワの加算値を前記複数のピッチ周波数候補毎に計算する加算値計算手段と、前記複数のピッチ周波数候補毎に、1以上のいずれかの乗数を用いて前記加算値のべき乗の値を計算するべき乗計算手段と、前記複数のピッチ周波数候補毎に前記べき乗の値を前記平均値に乗算し、前記複数のピッチ周波数候補のうち最大の乗算結果を与えるピッチ周波数候補を推定ピッチ周波数として決定する決定手段と、を具備する構成を採る。
[0009](削除)
[0010](削除)
【発明の効果】
[0011] 本発明によれば、ピッチ周波数推定に要する演算量を低減しつつ、ピッチ周波数を正確に推定することができる。
【図面の簡単な説明】
2
本発明は、ピッチ周波数推定装置およびピッチ周波数推定方法に関し、特に、周波数領域でピッチ周波数推定を行うピッチ周波数推定装置およびピッチ周波数推定方法に関する。
一般に、時間領域または周波数領域において音声のピッチ周波数を推定する方法としては、音声波形の自己相関関数による自己相関法や、LPC(Linear Predictive Coding)分析の残差信号の自己相関関数による変形相関法などが知られている。
また、雑音抑圧や音声符号化などの音声処理を周波数領域において行う場合は、周波数領域でピッチ周波数を推定すると整合性が良くなることがある。周波数領域でのピッチ周波数推定方法としては、周波数スペクトルに対する自己相関関数の最大化によりピッチ周波数を算出する方法があり、その一般式は次の式(1)によって表される。この式において、自己相関関数R(i)を最大にするピッチ周波数候補iを推定ピッチ周波数とする。
ここで、kは離散周波数成分であり、P(k)はピッチ調波スペクトルのパワであり、PMINおよびPMAXはそれぞれピッチ周波数候補iの最小値および最大値である。
ところで、周波数領域での自己相関を用いたピッチ周波数推定方法では、音声信号のホルマントの影響により誤って倍のピッチ周波数が算出されてしまうこと(倍ピッチ周波数誤り)がある。
ホルマントの影響を低減しつつピッチ周波数推定を行う従来の方法としては、例えば、非特許文献1に開示されたものがある。この方法では、スペクトル包絡の情報でスペクトルを平坦化した後のスペクトルが用いられる。
"A spectral autocorrelation method for measurement of the fundamental frequency of noise-corrupted speech", M. Lahat, IEEE Trans. on Acoustics, Speech, and Signal Processing, vol. ASSP-35, no. 6, pp. 741-750, 1987
"A spectral autocorrelation method for measurement of the fundamental frequency of noise-corrupted speech", M. Lahat, IEEE Trans. on Acoustics, Speech, and Signal Processing, vol. ASSP-35, no. 6, pp. 741-750, 1987
しかしながら、上記従来のピッチ周波数推定方法では、スペクトルの平坦化処理を伴うため、ピッチ周波数推定に要する演算量が増大するという問題がある。
本発明の目的は、ピッチ周波数推定に要する演算量を低減しつつ、ピッチ周波数を正確に推定することができるピッチ周波数推定装置およびピッチ周波数推定方法を提供することである。
本発明のピッチ周波数推定装置は、音声パワスペクトルからピッチ調波スペクトルを抽出する抽出手段と、前記ピッチ調波スペクトルのパワの平均値を複数のピッチ周波数候補毎に計算する平均値計算手段と、前記ピッチ調波スペクトルのパワの加算値を前記複数のピッチ周波数候補毎に計算する加算値計算手段と、前記複数のピッチ周波数候補毎に、1以上のいずれかの乗数を用いて前記加算値のべき乗の値を計算するべき乗計算手段と、前記複数のピッチ周波数候補毎に前記べき乗の値を前記平均値に乗算し、前記複数のピッチ周波数候補のうち最大の乗算結果を与えるピッチ周波数候補を推定ピッチ周波数として決定する決定手段と、を有する構成を採る。
本発明によれば、ピッチ周波数推定に要する演算量を低減しつつ、ピッチ周波数を正確に推定することができる。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明の一実施の形態に係るピッチ周波数推定装置の構成を示すブロック図である。ピッチ周波数推定装置100は、ハニング窓部101、FFT(Fast Fourier Transform)部102、有声性判定部103、スペクトル抽出部104、スペクトル振幅制限部105、スペクトル平均値計算部106、スペクトル加算部107、べき乗計算部108、乗算部109および最大値抽出部110を有する。
ハニング窓部101は、所定時間単位のフレーム単位に分割された入力音声信号に対して、ハニングウィンドウなどを利用した窓掛け処理を施してFFT部102に出力する。
FFT部102は、ハニング窓部101から入力されたフレーム、つまりフレーム単位に分割された音声信号に対してFFTを行って音声信号を周波数領域に変換する。これにより、音声パワスペクトルを取得する。よって、フレーム単位の音声信号は、所定の周波数帯域を有する音声パワスペクトルとなる。このようにして生成された音声パワスペクトルは、有声性判定部103、スペクトル抽出部104およびスペクトル振幅制限部105に出力される。
有声性判定部103は、FFT部102から音声パワスペクトルの有声性、つまり元の音声信号が有声であるか無声であるかを判定する。判定結果は、スペクトル抽出部104に出力される。
スペクトル抽出部104は、有声性判定部103によって音声パワスペクトルが有声性なしと判定された場合、ピッチ調波スペクトルの抽出を回避する。これによって、スペクトル抽出部104の演算量、ひいてはピッチ周波数推定装置100の全体の演算量を低減することができる。
一方、音声パワスペクトルが有声性ありと判定された場合、スペクトル抽出部104はピッチ調波スペクトルの抽出を行う。より具体的には、音声パワスペクトルにおけるピークを抽出することにより、ピッチ調波スペクトルの抽出を行う。
また、スペクトル抽出部104は、スペクトル振幅制限部105による音声パワスペクトルの振幅制限が行われた場合、抽出されたピッチ調波スペクトルにその振幅制限の結果を反映させることにより、ピッチ調波スペクトルの振幅を制限する。このようにして、ピッチ周波数推定の精度に与えられ得るホルマントの影響を低減することができる。ピッチ調波スペクトルは、スペクトル平均値計算部106およびスペクトル加算部107に出力される。
スペクトル振幅制限部105は、FFT部102によって取得された音声パワスペクトルの振幅が所定の閾値を超過しないように制限する。音声パワスペクトルの振幅制限の結果は、スペクトル抽出部104に出力される。
スペクトル平均値計算部106は、スペクトル抽出部104からのピッチ調波スペクトルのパワの平均値を、複数のピッチ周波数候補の各々に対応づけて計算する。すなわち、ピッチ調波スペクトルにおいて、ピッチ周波数候補を所定の最小値から所定の最大値までシフトさせながら、ピッチ周波数候補の整数倍に相当する周波数成分のパワの平均値を計算する。計算された平均値は、乗算部109に出力される。
また、スペクトル平均値計算部106は、平均値の計算を行うとき、パワの最大値に対応する周波数成分を、平均値計算対象の周波数帯域における基準周波数として用いる。
具体的には、基準周波数からピッチ周波数候補の整数倍に相当する周波数を減算して得られる周波数におけるパワと、基準周波数からピッチ周波数候補の整数倍に相当する周波数を加算して得られる周波数におけるパワと、を用いて、平均値の計算を行う。これにより、音声の準周期特性および雑音の影響ならびにピッチ周波数推定誤差により生じるピッチ高調波における誤差の累積を低減することができ、より正確にピッチ周波数の推定を行うことができる。
なお、ピッチ調波スペクトルのパワの平均値は、後述するピッチ調波スペクトルのパワの加算値を特定の値で除して得られる値である。よって、スペクトル平均値計算部106は、スペクトル加算部107によって計算された加算値を取得し、これを用いて平均値の算出を行っても良い。
スペクトル加算部107は、スペクトル抽出部104からのピッチ調波スペクトルのパワの加算値を、複数のピッチ周波数候補の各々に対応づけて計算する。すなわち、ピッチ調波スペクトルにおいて、ピッチ周波数候補を所定の最小値から所定の最大値までシフトさせながら、ピッチ周波数候補の整数倍に相当する周波数成分のパワを加算する。パワの加算によって得られた加算値はべき乗計算部108に出力される。
また、スペクトル加算部107は、パワの加算を行うとき、パワの最大値に対応する周波数成分を、加算値計算対象の周波数帯域における基準周波数として用いる。
具体的には、基準周波数からピッチ周波数候補の整数倍に相当する周波数を減算して得られる周波数におけるパワと、基準周波数からピッチ周波数候補の整数倍に相当する周波数を加算して得られる周波数におけるパワと、を用いて、加算値の計算を行う。これにより、音声の準周期特性および雑音の影響ならびにピッチ周波数推定誤差により生じるピッチ高調波における誤差の累積を低減することができ、より正確にピッチ周波数の推定を行うことができる。
べき乗計算部108は、スペクトル加算部107によって算出された加算値のべき乗の値を計算する。算出されたべき乗の値は乗算部109に出力される。また、べき乗計算部108は、べき乗の計算に用いられる乗数を可変に設定する。乗数の可変設定つまり乗数の調整については後述する。
乗算部109および最大値抽出部110の組み合わせは、複数のピッチ周波数候補の各々に対応づけて計算された平均値を用いてピッチ周波数を推定する推定部を構成する。
推定部において、乗算部109は、ピッチ調波スペクトルのパワの平均値とピッチ調波スペクトルのパワの加算値とを、複数のピッチ周波数候補の各々に対応づけて乗算する。より具体的には、加算値のべき乗計算結果を平均値に乗算する。乗算結果は、最大値抽出部110に出力される。
最大値抽出部110は、乗算部109で計算された乗算結果の最大値を抽出する。また、所定の最小値から所定の最大値までの複数のピッチ周波数候補のうち、乗算結果が最大となるときのピッチ周波数候補を推定ピッチ周波数として決定し、図示されない後段の処理部に出力する。
次いで、上記構成を有するピッチ周波数推定装置100におけるピッチ周波数推定動作について説明する。
まず、FFT部102では、次の式(2)で表される音声パワスペクトルSF 2(k)を取得する。ここで、kは離散周波数成分を示す。HFは、ピッチ周波数推定用の上限周波数成分であり、例えばHF=1[kHz]である。Re{DF(k)}およびIm{DF(k)}は、それぞれFFT変換後の入力音声スペクトルDF(k)の実数部および虚数部を示す。
なお、式(2)では、スペクトルのパワ値を用いているが、パワ値の代わりに、平方根をとったスペクトル振幅値を用いても良い。
また、有声性判定部103では、音声パワスペクトルSF 2(k)の有声性を判定する。
より具体的には、第1に、フレームmの音声パワスペクトルSF 2(k)の和S2(m)と、推定雑音スペクトルパワの移動平均値N2(m)と、を次の式(3)および(4)を用いてそれぞれ計算する。ここで、αは移動平均係数であり、ΘNは、音声か雑音かを判定するための閾値である。
そして、第2に、音声と雑音との比SNRを式(5)を用いて計算し、その計算結果に基づいて有声性判定を行う。例えば式(6)に示すように、比SNRが閾値ΘVよりも大きい場合は有声性ありと判定し、比SNRが閾値ΘV以下の場合は有声性なしと判定する。なお、ここでは有声性ありと判定された場合を例にとり、ピッチ周波数推定動作の説明を続ける。
このとき、音声の準周期特性および雑音の影響により生じ得るピッチ調波スペクトルの位置ずれを考慮して、抽出されたピークの近傍にある音声パワスペクトルSF 2(k-1)およびSF 2(k+1)を、ピッチ調波スペクトルPF(k-1)およびPF(k+1)として一緒に抽出し、これら以外の周波数成分における音声パワスペクトルをゼロとみなす。
また、スペクトル振幅制限部105で音声パワスペクトルの振幅制限が行われた場合、スペクトル抽出部104では、ピッチ調波スペクトルPF(k)にその振幅制限の結果を反映させることにより、ピッチ調波スペクトルPF(k)の振幅を制限する。
すなわち、抽出されたピッチ調波スペクトルPF(k)を所定値と比較する。所定値は、周波数帯域HFにおける音声パワスペクトルSF 2(k)の平均値と乗算係数δとの積であり、式(8)によって求められる。そして、ピッチ調波スペクトルPF(k)が所定値を超過する場合には、式(9)を用いてピッチ調波スペクトルPF(k)の振幅に減衰係数を乗算することにより、ピッチ調波スペクトルPF(k)の振幅を制限する。減衰係数は式(10)によって求められる。
ここで、N(i)=NF/iであり、NL(i)=j/iであり、NH(i)=(HF-j)/iである。また、iはピッチ周波数候補であり、PMINおよびPMAXはそれぞれピッチ周波数候補の最小値および最大値である。また、jは、周波数帯域HFにおける音声パワスペクトルSF 2(k)の最大値に対応する周波数成分であり、nは、ピッチ周波数の整数倍の係数である。
ここで、式(13)および(14)を比較して分かるように、平均値PA(i)および加算値PB(i)の間には式(15)で表される関係がある。したがって、スペクトル加算部107で式(14)を用いて加算値PB(i)を計算してから、スペクトル平均値計算部106で式(13)の代わりに式(15)を用いて平均値PA(i)を計算した場合は、ピッチ周波数推定における演算量をさらに低減することができる。
そして、最大値抽出部110では、乗算結果PD(i)の最大値PD_maxを抽出し、そのときのピッチ周波数候補pを推定ピッチ周波数として決定する。このようにしてピッチ周波数推定動作が行われる。
続いて、半ピッチ周波数誤りおよび倍ピッチ周波数誤りの発生を防止するための条件(以下「防止条件」と言う)について説明する。ここでは、ピッチ調波スペクトルのパワの平均値のみを用いてピッチ周波数推定を行った場合(以下「第1のケース」と言う)と、ピッチ調波スペクトルのパワの平均値および加算値を用いてピッチ周波数推定を行った場合(以下「第2のケース」と言う)と、を例にとって説明する。
まず、第1のケースにおける防止条件を定量的に求める。
ここで、xは、半ピッチ周波数p/2を推定したときの、ピッチ周波数pに対する加算値PB(p)の増加倍率を示す係数である。平均値PAのみの最大化によりピッチ周波数を推定する場合、式(18)および(19)を比較して分かるように、PA(p)>PA(p/2)つまりx<1の条件を満たすときに、半ピッチ周波数誤りの発生を防止することができる。すなわち、加算値PBの増加量がPB(p)未満のときに、半ピッチ周波数誤りの発生を防止することができる。
ここで、yは、倍ピッチ周波数2pを推定したときの、ピッチ周波数pに対する加算値PB(p)の減少倍率を示す係数である。平均値PAのみの最大化によりピッチ周波数を推定する場合、式(18)および(20)を比較して分かるように、PA(p)>PA(2p)つまりy>0.5の条件を満たすときに、倍ピッチ周波数誤りの発生を防止することができる。すなわち、加算値PBの減少量が0.5PB(p)より大きいときに、倍ピッチ周波数誤りの発生を防止することができる。
次いで、第2のケースにおける防止条件を定量的に求める。
式(17)で表される乗算結果PD(i)の最大化によってピッチ周波数を推定する場合、PD(p)> PD(p/2)の条件を満たすときに、半ピッチ周波数誤りの発生を防止することができる。また、PD(p)> PD(2p)の条件を満たすときに、倍ピッチ周波数誤りの発生を防止することができる。
ここで、スペクトル抽出部104で抽出された音声パワスペクトルSF 2(k)の例を図2Aに示す。この例において、P2、P4、P5およびP6で示されるピークによりピッチ調波スペクトルが構成されると仮定する。
また、図2Bに、加算値PB(i)のべき乗の乗数を1に設定した条件の下で、平均値PA(i)および加算値PB(i)を互いに乗算した結果の例を示し、図2Cに、加算値PB(i)のべき乗の乗数を3に設定した条件の下で、平均値PA(i)および加算値PB(i)を互いに乗算した結果の例を示す。
そして、式(21)を用いて半ピッチ周波数誤りの防止条件PD(p)> PD(p/2)を変換すると、乗数が1の場合はx<0.414となり、乗数が3の場合はx<0.189となる。また、式(22)を用いて倍ピッチ周波数誤りの防止条件PD(p)> PD(2p)を変換すると、乗数が1の場合はy>0.293となり、乗数が3の場合はy>0.159となる。すなわち、乗数が1の場合は加算値PBの増加量が0.414PB(p)未満のときに、または、乗数が3の場合は加算値PBの増加量が0.189PB(p)未満のときに、半ピッチ周波数誤りの発生を防止することができる。また、乗数が1の場合は加算値PBの減少量が0.293PB(p)より大きいときに、または、乗数が3の場合は加算値PBの減少量が0.159PB(p)より大きいときに、倍ピッチ周波数誤りの発生を防止することができる。
さらに、第1のケースにおける防止条件と第2のケースにおける防止条件とを比較する。この比較の結果として、倍ピッチ周波数誤りの防止条件については、第1のケースに比べて第2のケースの方が緩和されていることが分かる。すなわち、倍ピッチ周波数誤り発生の主因はホルマントによるピッチ調波スペクトル振幅値の変動であるが、この変動によって倍ピッチ周波数誤りの防止条件を満たさなくなる確率が、第1のケースよりも第2のケースの方が低くなる。したがって、ピッチ調波スペクトルのパワの平均値および加算値を用いてピッチ周波数推定を行うことにより、ホルマントの影響を低減することができ、ピッチ周波数推定の精度を向上することができる。
さらに、べき乗の乗数を調整することによって、半ピッチ周波数誤りの発生率または倍ピッチ周波数誤りの発生率を自在に調整することができる。例えば、前述のとおり、乗数が1の場合と比べて乗数が3の場合は、半ピッチ周波数誤りが生じやすくなるが、倍ピッチ周波数誤りが生じにくくなる。逆に言えば、乗数が3の場合に比べて乗数が1の場合は、倍ピッチ周波数誤りが生じやすくなるが、半ピッチ周波数誤りが生じにくくなる。したがって、実際の場合は、音声や雑音の状態に応じて乗数を選択することによって、より正確にピッチ周波数を推定することができる。例えば、雑音の多い環境下でピッチ周波数推定が行われる場合は、乗数をより小さい値とすることによって、半ピッチ周波数誤りの発生率を低減することができる。一方、乗数をより大きい値とすることによって、ホルマントの影響による倍ピッチ周波数誤りの発生を低減することができる。
ここで、同じ条件下で且つ同じピッチ調波スペクトルを用いてシミュレーションを行うことにより、式(1)で示される自己相関法に基づくピッチ周波数推定と本実施の形態に係るピッチ周波数推定との各推定誤り率を算出する。シミュレーションの諸条件は次のとおりである。ハニング窓長が320であり、FFT変換長は512であり、移動平均係数αは0.02であり、閾値ΘVは2であり、乗算係数δは6であり、ピッチ周波数候補の最小値PMINは62.5Hzであり、ピッチ周波数候補の最大値PMAXは390Hzである。また、乗数βは3とした。下記の表は、算出された推定誤り率の一覧である。この表から分かるように、適切な乗数を選択することによって、本実施の形態に係るピッチ周波数推定は自己相関法に基づくものに比べて推定誤り率を低減することができる。
このように、本実施の形態によれば、ピッチ調波スペクトルのパワの平均値であって、複数のピッチ周波数候補の各々に対応づけて計算された平均値を用いて、ピッチ周波数を推定する、すなわち、周波数スペクトル上での自己相関を用いることなくピッチ周波数推定を行うため、ホルマントの影響を低減するためのスペクトル平坦化処理を不要とすることができるとともに、例えば、ピッチ調波スペクトルのパワに関する所定の定量的な条件が満たされる場合に半ピッチ周波数誤りや倍ピッチ周波数誤りの発生を防止することができ、ピッチ周波数推定に要する演算量を低減しつつ、ピッチ周波数を正確に推定することができる。
また、本実施の形態によれば、ピッチ調波スペクトルのパワの平均値および加算値であって、複数のピッチ周波数候補の各々に対応づけて計算された平均値および加算値を、複数のピッチ周波数候補の各々に対応づけて互いに乗算し、乗算結果の最大値に対応するピッチ周波数候補を推定ピッチ周波数として決定する、すなわち、平均値および加算値の乗算値を関数としてピッチ周波数の推定を行うため、スペクトル平坦化処理を行うことなくホルマントの影響を低減することができ、ピッチ周波数推定の精度を向上することができる。
なお、本実施の形態のピッチ周波数推定装置およびピッチ周波数推定方法は、音声符号化や音声強調などの音声信号処理を行う音声信号処理装置および音声信号処理方法に適用することができる。
また、本発明は様々な実施の形態を採ることが可能であり、本実施の形態で説明したもののみに限定されない。例えば、上記のピッチ周波数推定方法をソフトウェアとしてコンピュータに実行させるようにしても良い。すなわち、上記の実施の形態で説明したピッチ周波数推定方法を実行するプログラムを予め例えばROM(Read Only Memory)等の記録媒体に記録しておき、そのプログラムをCPU(Central Processor Unit)によって動作させることで、本発明のピッチ周波数推定方法を実行することができる。
なお、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部又は全てを含むように1チップ化されても良い。
ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現しても良い。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてありえる。
本明細書は、2004年7月13日出願の特願2004−206387に基づく。この内容はすべてここに含めておく。
本発明のピッチ周波数推定装置およびピッチ周波数推定方法は、音声符号化や音声強調などの音声信号処理を行う装置および方法に適用することができる。
Claims (11)
- 音声スペクトルからピッチ調波スペクトルを抽出する抽出手段と、
前記ピッチ調波スペクトルのパワの平均値を、複数のピッチ周波数候補の各々に対応づけて計算する平均値計算手段と、
前記平均値を用いてピッチ周波数を推定する推定手段と、
を有するピッチ周波数推定装置。 - 前記ピッチ調波スペクトルのパワの加算値を、前記複数のピッチ周波数候補の各々に対応づけて計算する加算値計算手段をさらに有し、
前記推定手段は、
前記加算値を用いてピッチ周波数を推定する、
請求項1記載のピッチ周波数推定装置。 - 前記推定手段は、
前記平均値および前記加算値を、前記複数のピッチ周波数候補の各々に対応づけて互いに乗算する乗算手段と、
前記複数のピッチ周波数候補のうち、前記乗算手段による乗算の結果の最大値に対応するピッチ周波数候補を、推定ピッチ周波数として決定する決定手段と、
を有する請求項2記載のピッチ周波数推定装置。 - 前記平均値計算手段は、
前記音声スペクトルにおけるパワの最大値に対応する周波数成分を基準周波数として用いて、前記平均値の計算を行う、
請求項2記載のピッチ周波数推定装置。 - 前記加算値計算手段は、
前記音声スペクトルにおけるパワの最大値に対応する周波数成分を基準周波数として用いて、前記加算値の計算を行う、
請求項2記載のピッチ周波数推定装置。 - 前記加算値のべき乗を計算するべき乗計算手段をさらに有し、
前記乗算手段は、
前記べき乗計算手段による計算の結果を前記平均値に乗算し、
前記べき乗計算手段は、
前記べき乗の計算に用いられる乗数を可変に設定する、
請求項3記載のピッチ周波数推定装置。 - 前記平均値計算手段は、
前記加算値を用いて、前記平均値の計算を行う、
請求項2記載のピッチ周波数推定装置。 - 前記ピッチ調波スペクトルの振幅を制限する振幅制限手段をさらに有する、
請求項2記載のピッチ周波数推定装置。 - 前記音声スペクトルの有声性を判定する判定手段をさらに有し、
前記抽出手段は、
前記判定手段による判定の結果、前記音声スペクトルの有声性が所定レベル以下の場合は、前記ピッチ調波スペクトルの抽出を回避する、
請求項2記載のピッチ周波数推定装置。 - 音声スペクトルからピッチ調波スペクトルを抽出する抽出ステップと、
前記ピッチ調波スペクトルのパワの平均値を、複数のピッチ周波数候補の各々に対応づけて計算する平均値計算ステップと、
前記平均値を用いてピッチ周波数を推定する推定ステップと、
を有するピッチ周波数推定方法。 - 音声スペクトルからピッチ調波スペクトルを抽出する抽出ステップと、
前記ピッチ調波スペクトルのパワの平均値を、複数のピッチ周波数候補の各々に対応づけて計算する平均値計算ステップと、
前記平均値を用いてピッチ周波数を推定する推定ステップと、
をコンピュータに実現させるためのピッチ周波数推定プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004206387 | 2004-07-13 | ||
JP2004206387 | 2004-07-13 | ||
PCT/JP2005/011533 WO2006006366A1 (ja) | 2004-07-13 | 2005-06-23 | ピッチ周波数推定装置およびピッチ周波数推定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2006006366A1 true JPWO2006006366A1 (ja) | 2008-04-24 |
Family
ID=35783714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006528586A Pending JPWO2006006366A1 (ja) | 2004-07-13 | 2005-06-23 | ピッチ周波数推定装置およびピッチ周波数推定方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20070299658A1 (ja) |
EP (1) | EP1783743A4 (ja) |
JP (1) | JPWO2006006366A1 (ja) |
CN (1) | CN1998045A (ja) |
WO (1) | WO2006006366A1 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8093484B2 (en) * | 2004-10-29 | 2012-01-10 | Zenph Sound Innovations, Inc. | Methods, systems and computer program products for regenerating audio performances |
US7598447B2 (en) * | 2004-10-29 | 2009-10-06 | Zenph Studios, Inc. | Methods, systems and computer program products for detecting musical notes in an audio signal |
KR100735343B1 (ko) * | 2006-04-11 | 2007-07-04 | 삼성전자주식회사 | 음성신호의 피치 정보 추출장치 및 방법 |
US8432057B2 (en) | 2007-05-01 | 2013-04-30 | Pliant Energy Systems Llc | Pliant or compliant elements for harnessing the forces of moving fluid to transport fluid or generate electricity |
CN101599272B (zh) * | 2008-12-30 | 2011-06-08 | 华为技术有限公司 | 基音搜索方法及装置 |
CN101853240B (zh) * | 2009-03-31 | 2012-07-04 | 华为技术有限公司 | 一种信号周期的估计方法和装置 |
US20120029926A1 (en) | 2010-07-30 | 2012-02-02 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals |
US9208792B2 (en) | 2010-08-17 | 2015-12-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for noise injection |
US8767978B2 (en) | 2011-03-25 | 2014-07-01 | The Intellisis Corporation | System and method for processing sound signals implementing a spectral motion transform |
US8548803B2 (en) | 2011-08-08 | 2013-10-01 | The Intellisis Corporation | System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain |
US9183850B2 (en) | 2011-08-08 | 2015-11-10 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal |
US8620646B2 (en) * | 2011-08-08 | 2013-12-31 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal using harmonic envelope |
US9922668B2 (en) | 2015-02-06 | 2018-03-20 | Knuedge Incorporated | Estimating fractional chirp rate with multiple frequency representations |
US9870785B2 (en) | 2015-02-06 | 2018-01-16 | Knuedge Incorporated | Determining features of harmonic signals |
US9842611B2 (en) | 2015-02-06 | 2017-12-12 | Knuedge Incorporated | Estimating pitch using peak-to-peak distances |
CN106034099B (zh) * | 2015-03-12 | 2019-06-21 | 富士通株式会社 | 多载波信号的限幅失真的估计装置、补偿装置以及接收机 |
JP6907859B2 (ja) * | 2017-09-25 | 2021-07-21 | 富士通株式会社 | 音声処理プログラム、音声処理方法および音声処理装置 |
JP6904198B2 (ja) * | 2017-09-25 | 2021-07-14 | 富士通株式会社 | 音声処理プログラム、音声処理方法および音声処理装置 |
CN110379438B (zh) * | 2019-07-24 | 2020-05-12 | 山东省计算中心(国家超级计算济南中心) | 一种语音信号基频检测与提取方法及系统 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4879748A (en) * | 1985-08-28 | 1989-11-07 | American Telephone And Telegraph Company | Parallel processing pitch detector |
US5365592A (en) * | 1990-07-19 | 1994-11-15 | Hughes Aircraft Company | Digital voice detection apparatus and method using transform domain processing |
US6470309B1 (en) * | 1998-05-08 | 2002-10-22 | Texas Instruments Incorporated | Subframe-based correlation |
TW430778B (en) * | 1998-06-15 | 2001-04-21 | Yamaha Corp | Voice converter with extraction and modification of attribute data |
US7117146B2 (en) * | 1998-08-24 | 2006-10-03 | Mindspeed Technologies, Inc. | System for improved use of pitch enhancement with subcodebooks |
US6370500B1 (en) * | 1999-09-30 | 2002-04-09 | Motorola, Inc. | Method and apparatus for non-speech activity reduction of a low bit rate digital voice message |
US6963833B1 (en) * | 1999-10-26 | 2005-11-08 | Sasken Communication Technologies Limited | Modifications in the multi-band excitation (MBE) model for generating high quality speech at low bit rates |
US20070110042A1 (en) * | 1999-12-09 | 2007-05-17 | Henry Li | Voice and data exchange over a packet based network |
JP2002149200A (ja) * | 2000-08-31 | 2002-05-24 | Matsushita Electric Ind Co Ltd | 音声処理装置及び音声処理方法 |
WO2002029782A1 (en) * | 2000-10-02 | 2002-04-11 | The Regents Of The University Of California | Perceptual harmonic cepstral coefficients as the front-end for speech recognition |
GB2375028B (en) * | 2001-04-24 | 2003-05-28 | Motorola Inc | Processing speech signals |
TW589618B (en) * | 2001-12-14 | 2004-06-01 | Ind Tech Res Inst | Method for determining the pitch mark of speech |
JP3960834B2 (ja) * | 2002-03-19 | 2007-08-15 | 松下電器産業株式会社 | 音声強調装置及び音声強調方法 |
JP4128848B2 (ja) * | 2002-10-28 | 2008-07-30 | 日本電信電話株式会社 | 音高音価決定方法およびその装置と、音高音価決定プログラムおよびそのプログラムを記録した記録媒体 |
US7305339B2 (en) * | 2003-04-01 | 2007-12-04 | International Business Machines Corporation | Restoration of high-order Mel Frequency Cepstral Coefficients |
JP3984207B2 (ja) * | 2003-09-04 | 2007-10-03 | 株式会社東芝 | 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム |
WO2005124739A1 (ja) * | 2004-06-18 | 2005-12-29 | Matsushita Electric Industrial Co., Ltd. | 雑音抑圧装置および雑音抑圧方法 |
US7788091B2 (en) * | 2004-09-22 | 2010-08-31 | Texas Instruments Incorporated | Methods, devices and systems for improved pitch enhancement and autocorrelation in voice codecs |
KR100590561B1 (ko) * | 2004-10-12 | 2006-06-19 | 삼성전자주식회사 | 신호의 피치를 평가하는 방법 및 장치 |
CN101199002B (zh) * | 2005-06-09 | 2011-09-07 | 株式会社A.G.I. | 检测音调频率的语音分析器和语音分析方法 |
KR100713366B1 (ko) * | 2005-07-11 | 2007-05-04 | 삼성전자주식회사 | 모폴로지를 이용한 오디오 신호의 피치 정보 추출 방법 및그 장치 |
CN101273404B (zh) * | 2005-09-30 | 2012-07-04 | 松下电器产业株式会社 | 语音编码装置以及语音编码方法 |
-
2005
- 2005-06-23 CN CNA2005800237482A patent/CN1998045A/zh active Pending
- 2005-06-23 JP JP2006528586A patent/JPWO2006006366A1/ja active Pending
- 2005-06-23 EP EP05753198A patent/EP1783743A4/en not_active Withdrawn
- 2005-06-23 WO PCT/JP2005/011533 patent/WO2006006366A1/ja not_active Application Discontinuation
- 2005-06-23 US US11/632,063 patent/US20070299658A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
WO2006006366A1 (ja) | 2006-01-19 |
CN1998045A (zh) | 2007-07-11 |
EP1783743A4 (en) | 2007-07-25 |
EP1783743A1 (en) | 2007-05-09 |
US20070299658A1 (en) | 2007-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPWO2006006366A1 (ja) | ピッチ周波数推定装置およびピッチ周波数推定方法 | |
US9064498B2 (en) | Apparatus and method for processing an audio signal for speech enhancement using a feature extraction | |
US8239191B2 (en) | Speech encoding apparatus and speech encoding method | |
WO2005124739A1 (ja) | 雑音抑圧装置および雑音抑圧方法 | |
US10032462B2 (en) | Method and system for suppressing noise in speech signals in hearing aids and speech communication devices | |
EP2394269A1 (en) | Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder | |
US9208799B2 (en) | Method and device for estimating a pattern in a signal | |
JP6289507B2 (ja) | エネルギー制限演算を用いて周波数増強信号を生成する装置および方法 | |
JP5325130B2 (ja) | Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム | |
JP4571871B2 (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
Tiwari et al. | Speech enhancement using noise estimation with dynamic quantile tracking | |
CN113035216B (zh) | 麦克风阵列语音的增强方法、及其相关设备 | |
JP6065488B2 (ja) | 帯域拡張装置及び方法 | |
Gu et al. | A discrete-cepstrum based spectrum-envelope estimation scheme and its example application of voice transformation | |
Islam et al. | Speech enhancement in adverse environments based on non-stationary noise-driven spectral subtraction and snr-dependent phase compensation | |
Schlesinger | Transient-based speech transmission index for predicting intelligibility in nonlinear speech enhancement processors | |
Noh et al. | Deep neural network ensemble for reducing artificial noise in bandwidth extension | |
Islam et al. | Speech Enhancement Based on Non-stationary Noise-driven Geometric Spectral Subtraction and Phase Spectrum Compensation | |
Farrokhi | Single Channel Speech Enhancement in Severe Noise Conditions | |
Mitani et al. | Cross-correlation functions with binary signal involving phase information for speech enhancement | |
Jang et al. | Noise Spectrum Estimation Using Line Spectral Frequencies for Robust Speech Recognition | |
Shahnaz et al. | A cepstral-domain algorithm for pitch estimation from noise-corrupted speech | |
BRPI0911932B1 (pt) | Equipamento e método para processamento de um sinal de áudio para intensificação de voz utilizando uma extração de característica | |
JPS6325699A (ja) | ホルマント抽出装置 |