JPWO2006006366A1 - ピッチ周波数推定装置およびピッチ周波数推定方法 - Google Patents

ピッチ周波数推定装置およびピッチ周波数推定方法 Download PDF

Info

Publication number
JPWO2006006366A1
JPWO2006006366A1 JP2006528586A JP2006528586A JPWO2006006366A1 JP WO2006006366 A1 JPWO2006006366 A1 JP WO2006006366A1 JP 2006528586 A JP2006528586 A JP 2006528586A JP 2006528586 A JP2006528586 A JP 2006528586A JP WO2006006366 A1 JPWO2006006366 A1 JP WO2006006366A1
Authority
JP
Japan
Prior art keywords
pitch frequency
pitch
spectrum
power
average value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006528586A
Other languages
English (en)
Inventor
王 幼華
幼華 王
吉田 幸司
幸司 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Publication of JPWO2006006366A1 publication Critical patent/JPWO2006006366A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Measuring Frequencies, Analyzing Spectra (AREA)

Abstract

ピッチ周波数推定に要する演算量を低減しつつ、ピッチ周波数を正確に推定することができるピッチ周波数推定装置を提供する。この装置において、スペクトル抽出部(104)は、音声スペクトルからピッチ調波スペクトルを抽出する。スペクトル平均値計算部(106)は、スペクトル抽出部(104)によって抽出されたピッチ調波スペクトルのパワの平均値を、複数のピッチ周波数候補の各々に対応づけて計算する。推定部は、スペクトル平均値計算部(106)によって計算された平均値を用いてピッチ周波数を推定する。

Description

本発明は、ピッチ周波数推定装置およびピッチ周波数推定方法に関し、特に、周波数領域でピッチ周波数推定を行うピッチ周波数推定装置およびピッチ周波数推定方法に関する。
一般に、時間領域または周波数領域において音声のピッチ周波数を推定する方法としては、音声波形の自己相関関数による自己相関法や、LPC(Linear Predictive Coding)分析の残差信号の自己相関関数による変形相関法などが知られている。
また、雑音抑圧や音声符号化などの音声処理を周波数領域において行う場合は、周波数領域でピッチ周波数を推定すると整合性が良くなることがある。周波数領域でのピッチ周波数推定方法としては、周波数スペクトルに対する自己相関関数の最大化によりピッチ周波数を算出する方法があり、その一般式は次の式(1)によって表される。この式において、自己相関関数R(i)を最大にするピッチ周波数候補iを推定ピッチ周波数とする。
Figure 2006006366
ここで、kは離散周波数成分であり、P(k)はピッチ調波スペクトルのパワであり、PMINおよびPMAXはそれぞれピッチ周波数候補iの最小値および最大値である。
ところで、周波数領域での自己相関を用いたピッチ周波数推定方法では、音声信号のホルマントの影響により誤って倍のピッチ周波数が算出されてしまうこと(倍ピッチ周波数誤り)がある。
ホルマントの影響を低減しつつピッチ周波数推定を行う従来の方法としては、例えば、非特許文献1に開示されたものがある。この方法では、スペクトル包絡の情報でスペクトルを平坦化した後のスペクトルが用いられる。
″A spectral autocorrelation method for measurement of the fundamental frequency of noise−corrupted speech″,M.Lahat,IEEE Trans.on Acoustics,Speech,and Signal Processing,vol.ASSP−35,no.6,pp.741−750,1987
しかしながら、上記従来のピッチ周波数推定方法では、スペクトルの平坦化処理を伴うため、ピッチ周波数推定に要する演算量が増大するという問題がある。
本発明の目的は、ピッチ周波数推定に要する演算量を低減しつつ、ピッチ周波数を正確に推定することができるピッチ周波数推定装置およびピッチ周波数推定方法を提供することである。
本発明のピッチ周波数推定装置は、音声スペクトルからピッチ調波スペクトルを抽出する抽出手段と、前記ピッチ調波スペクトルのパワの平均値を、複数のピッチ周波数候補の各々に対応づけて計算する平均値計算手段と、前記平均値を用いてピッチ周波数を推定する推定手段と、を有する構成を採る。
本発明のピッチ周波数推定方法は、音声スペクトルからピッチ調波スペクトルを抽出する抽出ステップと、前記ピッチ調波スペクトルのパワの平均値を、複数のピッチ周波数候補の各々に対応づけて計算する平均値計算ステップと、前記平均値を用いてピッチ周波数を推定する推定ステップと、を有するようにした。
本発明のピッチ周波数推定プログラムは、音声スペクトルからピッチ調波スペクトルを抽出する抽出ステップと、前記ピッチ調波スペクトルのパワの平均値を、複数のピッチ周波数候補の各々に対応づけて計算する平均値計算ステップと、前記平均値を用いてピッチ周波数を推定する推定ステップと、をコンピュータに実現させるようにした。
本発明によれば、ピッチ周波数推定に要する演算量を低減しつつ、ピッチ周波数を正確に推定することができる。
本発明の一実施の形態に係るピッチ周波数推定装置の構成を示すブロック図 本発明の一実施の形態において、抽出された音声パワスペクトルの例を示す図 本発明の一実施の形態において、乗数をある値に設定した条件の下で平均値および加算値を乗算した結果を示す図 本発明の一実施の形態において、乗数を他の値に設定した条件の下で平均値および加算値を乗算した結果を示す図
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明の一実施の形態に係るピッチ周波数推定装置の構成を示すブロック図である。ピッチ周波数推定装置100は、ハニング窓部101、FFT(Fast Fourier Transform)部102、有声性判定部103、スペクトル抽出部104、スペクトル振幅制限部105、スペクトル平均値計算部106、スペクトル加算部107、べき乗計算部108、乗算部109および最大値抽出部110を有する。
ハニング窓部101は、所定時間単位のフレーム単位に分割された入力音声信号に対して、ハニングウィンドウなどを利用した窓掛け処理を施してFFT部102に出力する。
FFT部102は、ハニング窓部101から入力されたフレーム、つまりフレーム単位に分割された音声信号に対してFFTを行って音声信号を周波数領域に変換する。これにより、音声パワスペクトルを取得する。よって、フレーム単位の音声信号は、所定の周波数帯域を有する音声パワスペクトルとなる。このようにして生成された音声パワスペクトルは、有声性判定部103、スペクトル抽出部104およびスペクトル振幅制限部105に出力される。
有声性判定部103は、FFT部102から音声パワスペクトルの有声性、つまり元の音声信号が有声であるか無声であるかを判定する。判定結果は、スペクトル抽出部104に出力される。
スペクトル抽出部104は、有声性判定部103によって音声パワスペクトルが有声性なしと判定された場合、ピッチ調波スペクトルの抽出を回避する。これによって、スペクトル抽出部104の演算量、ひいてはピッチ周波数推定装置100の全体の演算量を低減することができる。
一方、音声パワスペクトルが有声性ありと判定された場合、スペクトル抽出部104はピッチ調波スペクトルの抽出を行う。より具体的には、音声パワスペクトルにおけるピークを抽出することにより、ピッチ調波スペクトルの抽出を行う。
また、スペクトル抽出部104は、スペクトル振幅制限部105による音声パワスペクトルの振幅制限が行われた場合、抽出されたピッチ調波スペクトルにその振幅制限の結果を反映させることにより、ピッチ調波スペクトルの振幅を制限する。このようにして、ピッチ周波数推定の精度に与えられ得るホルマントの影響を低減することができる。ピッチ調波スペクトルは、スペクトル平均値計算部106およびスペクトル加算部107に出力される。
スペクトル振幅制限部105は、FFT部102によって取得された音声パワスペクトルの振幅が所定の閾値を超過しないように制限する。音声パワスペクトルの振幅制限の結果は、スペクトル抽出部104に出力される。
スペクトル平均値計算部106は、スペクトル抽出部104からのピッチ調波スペクトルのパワの平均値を、複数のピッチ周波数候補の各々に対応づけて計算する。すなわち、ピッチ調波スペクトルにおいて、ピッチ周波数候補を所定の最小値から所定の最大値までシフトさせながら、ピッチ周波数候補の整数倍に相当する周波数成分のパワの平均値を計算する。計算された平均値は、乗算部109に出力される。
また、スペクトル平均値計算部106は、平均値の計算を行うとき、パワの最大値に対応する周波数成分を、平均値計算対象の周波数帯域における基準周波数として用いる。
具体的には、基準周波数からピッチ周波数候補の整数倍に相当する周波数を減算して得られる周波数におけるパワと、基準周波数からピッチ周波数候補の整数倍に相当する周波数を加算して得られる周波数におけるパワと、を用いて、平均値の計算を行う。これにより、音声の準周期特性および雑音の影響ならびにピッチ周波数推定誤差により生じるピッチ高調波における誤差の累積を低減することができ、より正確にピッチ周波数の推定を行うことができる。
なお、ピッチ調波スペクトルのパワの平均値は、後述するピッチ調波スペクトルのパワの加算値を特定の値で除して得られる値である。よって、スペクトル平均値計算部106は、スペクトル加算部107によって計算された加算値を取得し、これを用いて平均値の算出を行っても良い。
スペクトル加算部107は、スペクトル抽出部104からのピッチ調波スペクトルのパワの加算値を、複数のピッチ周波数候補の各々に対応づけて計算する。すなわち、ピッチ調波スペクトルにおいて、ピッチ周波数候補を所定の最小値から所定の最大値までシフトさせながら、ピッチ周波数候補の整数倍に相当する周波数成分のパワを加算する。パワの加算によって得られた加算値はべき乗計算部108に出力される。
また、スペクトル加算部107は、パワの加算を行うとき、パワの最大値に対応する周波数成分を、加算値計算対象の周波数帯域における基準周波数として用いる。
具体的には、基準周波数からピッチ周波数候補の整数倍に相当する周波数を減算して得られる周波数におけるパワと、基準周波数からピッチ周波数候補の整数倍に相当する周波数を加算して得られる周波数におけるパワと、を用いて、加算値の計算を行う。これにより、音声の準周期特性および雑音の影響ならびにピッチ周波数推定誤差により生じるピッチ高調波における誤差の累積を低減することができ、より正確にピッチ周波数の推定を行うことができる。
べき乗計算部108は、スペクトル加算部107によって算出された加算値のべき乗の値を計算する。算出されたべき乗の値は乗算部109に出力される。また、べき乗計算部108は、べき乗の計算に用いられる乗数を可変に設定する。乗数の可変設定つまり乗数の調整については後述する。
乗算部109および最大値抽出部110の組み合わせは、複数のピッチ周波数候補の各々に対応づけて計算された平均値を用いてピッチ周波数を推定する推定部を構成する。
推定部において、乗算部109は、ピッチ調波スペクトルのパワの平均値とピッチ調波スペクトルのパワの加算値とを、複数のピッチ周波数候補の各々に対応づけて乗算する。より具体的には、加算値のべき乗計算結果を平均値に乗算する。乗算結果は、最大値抽出部110に出力される。
最大値抽出部110は、乗算部109で計算された乗算結果の最大値を抽出する。また、所定の最小値から所定の最大値までの複数のピッチ周波数候補のうち、乗算結果が最大となるときのピッチ周波数候補を推定ピッチ周波数として決定し、図示されない後段の処理部に出力する。
次いで、上記構成を有するピッチ周波数推定装置100におけるピッチ周波数推定動作について説明する。
まず、FFT部102では、次の式(2)で表される音声パワスペクトルS (k)を取得する。ここで、kは離散周波数成分を示す。Hは、ピッチ周波数推定用の上限周波数成分であり、例えばH=1[kHz]である。Re{D(k)}およびIm{D(k)}は、それぞれFFT変換後の入力音声スペクトルD(k)の実数部および虚数部を示す。
Figure 2006006366
なお、式(2)では、スペクトルのパワ値を用いているが、パワ値の代わりに、平方根をとったスペクトル振幅値を用いても良い。
また、有声性判定部103では、音声パワスペクトルS (k)の有声性を判定する。
より具体的には、第1に、フレームmの音声パワスペクトルS (k)の和S(m)と、推定雑音スペクトルパワの移動平均値N(m)と、を次の式(3)および(4)を用いてそれぞれ計算する。ここで、αは移動平均係数であり、Θは、音声か雑音かを判定するための閾値である。
Figure 2006006366
Figure 2006006366
そして、第2に、音声と雑音との比SNRを式(5)を用いて計算し、その計算結果に基づいて有声性判定を行う。例えば式(6)に示すように、比SNRが閾値Θよりも大きい場合は有声性ありと判定し、比SNRが閾値Θ以下の場合は有声性なしと判定する。なお、ここでは有声性ありと判定された場合を例にとり、ピッチ周波数推定動作の説明を続ける。
Figure 2006006366
Figure 2006006366
そして、スペクトル抽出部104では、式(7)を用いて音声パワスペクトルS (k)のピークを抽出することにより、ピッチ調波スペクトルP(k)の抽出を行う。
Figure 2006006366
このとき、音声の準周期特性および雑音の影響により生じ得るピッチ調波スペクトルの位置ずれを考慮して、抽出されたピークの近傍にある音声パワスペクトルS (k−1)およびS (k+1)を、ピッチ調波スペクトルP(k−1)およびP(k+1)として一緒に抽出し、これら以外の周波数成分における音声パワスペクトルをゼロとみなす。
また、スペクトル振幅制限部105で音声パワスペクトルの振幅制限が行われた場合、スペクトル抽出部104では、ピッチ調波スペクトルP(k)にその振幅制限の結果を反映させることにより、ピッチ調波スペクトルP(k)の振幅を制限する。
すなわち、抽出されたピッチ調波スペクトルP(k)を所定値と比較する。所定値は、周波数帯域Hにおける音声パワスペクトルS (k)の平均値と乗算係数δとの積であり、式(8)によって求められる。そして、ピッチ調波スペクトルP(k)が所定値を超過する場合には、式(9)を用いてピッチ調波スペクトルP(k)の振幅に減衰係数を乗算することにより、ピッチ調波スペクトルP(k)の振幅を制限する。減衰係数は式(10)によって求められる。
Figure 2006006366
Figure 2006006366
Figure 2006006366
また、抽出されたピッチ調波スペクトルP(k−1)およびP(k+1)に対しても同様に、式(11)および(12)を用いて振幅の制限を行う。
Figure 2006006366
Figure 2006006366
そして、スペクトル平均値計算部106では、式(13)を用いて、ピッチ調波スペクトルP(k)のパワの平均値P(i)を計算する。
Figure 2006006366
ここで、N(i)=N/iであり、N(i)=j/iであり、N(i)=(H−j)/iである。また、iはピッチ周波数候補であり、PMINおよびPMAXはそれぞれピッチ周波数候補の最小値および最大値である。また、jは、周波数帯域Hにおける音声パワスペクトルS (k)の最大値に対応する周波数成分であり、nは、ピッチ周波数の整数倍の係数である。
そして、スペクトル加算部107では、式(14)を用いて、ピッチ調波スペクトルP(k)のパワの加算値P(i)を計算する。
Figure 2006006366
ここで、式(13)および(14)を比較して分かるように、平均値P(i)および加算値P(i)の間には式(15)で表される関係がある。したがって、スペクトル加算部107で式(14)を用いて加算値P(i)を計算してから、スペクトル平均値計算部106で式(13)の代わりに式(15)を用いて平均値P(i)を計算した場合は、ピッチ周波数推定における演算量をさらに低減することができる。
Figure 2006006366
そして、べき乗計算部108では、例えば式(16)を用いて、加算値P(i)のべき乗を計算する。
Figure 2006006366
そして、乗算部109では、式(17)を用いて、べき乗計算結果P(i)を平均値P(i)に乗算する。
Figure 2006006366
そして、最大値抽出部110では、乗算結果P(i)の最大値PD−maxを抽出し、そのときのピッチ周波数候補pを推定ピッチ周波数として決定する。このようにしてピッチ周波数推定動作が行われる。
続いて、半ピッチ周波数誤りおよび倍ピッチ周波数誤りの発生を防止するための条件(以下「防止条件」と言う)について説明する。ここでは、ピッチ調波スペクトルのパワの平均値のみを用いてピッチ周波数推定を行った場合(以下「第1のケース」と言う)と、ピッチ調波スペクトルのパワの平均値および加算値を用いてピッチ周波数推定を行った場合(以下「第2のケース」と言う)と、を例にとって説明する。
まず、第1のケースにおける防止条件を定量的に求める。
正しく推定されたピッチ周波数pに対する平均値P(p)を式(18)で表した場合、半ピッチ周波数p/2に対する平均値P(p/2)は式(19)によって求められる。
Figure 2006006366
Figure 2006006366
ここで、xは、半ピッチ周波数p/2を推定したときの、ピッチ周波数pに対する加算値P(p)の増加倍率を示す係数である。平均値Pのみの最大化によりピッチ周波数を推定する場合、式(18)および(19)を比較して分かるように、P(p)>P(p/2)つまりx<1の条件を満たすときに、半ピッチ周波数誤りの発生を防止することができる。すなわち、加算値Pの増加量がP(p)未満のときに、半ピッチ周波数誤りの発生を防止することができる。
また、倍ピッチ周波数2pに対する平均値P(2p)は式(20)によって求められる。
Figure 2006006366
ここで、yは、倍ピッチ周波数2pを推定したときの、ピッチ周波数pに対する加算値P(p)の減少倍率を示す係数である。平均値Pのみの最大化によりピッチ周波数を推定する場合、式(18)および(20)を比較して分かるように、P(p)>P(2p)つまりy>0.5の条件を満たすときに、倍ピッチ周波数誤りの発生を防止することができる。すなわち、加算値Pの減少量が0.5P(p)より大きいときに、倍ピッチ周波数誤りの発生を防止することができる。
次いで、第2のケースにおける防止条件を定量的に求める。
前述の式(17)で表される乗算結果P(i)を、半ピッチ周波数p/2および倍ピッチ周波数2pに対してそれぞれ求めると、式(21)および(22)に示すとおりとなる。
Figure 2006006366
Figure 2006006366
式(17)で表される乗算結果P(i)の最大化によってピッチ周波数を推定する場合、P(p)>P(p/2)の条件を満たすときに、半ピッチ周波数誤りの発生を防止することができる。また、P(p)>P(2p)の条件を満たすときに、倍ピッチ周波数誤りの発生を防止することができる。
ここで、スペクトル抽出部104で抽出された音声パワスペクトルS (k)の例を図2Aに示す。この例において、P2、P4、P5およびP6で示されるピークによりピッチ調波スペクトルが構成されると仮定する。
また、図2Bに、加算値P(i)のべき乗の乗数を1に設定した条件の下で、平均値P(i)および加算値P(i)を互いに乗算した結果の例を示し、図2Cに、加算値P(i)のべき乗の乗数を3に設定した条件の下で、平均値P(i)および加算値P(i)を互いに乗算した結果の例を示す。
そして、式(21)を用いて半ピッチ周波数誤りの防止条件P(p)>P(p/2)を変換すると、乗数が1の場合はx<0.414となり、乗数が3の場合はx<0.189となる。また、式(22)を用いて倍ピッチ周波数誤りの防止条件P(p)>P(2p)を変換すると、乗数が1の場合はy>0.293となり、乗数が3の場合はy>0.159となる。すなわち、乗数が1の場合は加算値Pの増加量が0.414P(p)未満のときに、または、乗数が3の場合は加算値Pの増加量が0.189P(p)未満のときに、半ピッチ周波数誤りの発生を防止することができる。また、乗数が1の場合は加算値Pの減少量が0.293P(p)より大きいときに、または、乗数が3の場合は加算値Pの減少量が0.159P(p)より大きいときに、倍ピッチ周波数誤りの発生を防止することができる。
さらに、第1のケースにおける防止条件と第2のケースにおける防止条件とを比較する。この比較の結果として、倍ピッチ周波数誤りの防止条件については、第1のケースに比べて第2のケースの方が緩和されていることが分かる。すなわち、倍ピッチ周波数誤り発生の主因はホルマントによるピッチ調波スペクトル振幅値の変動であるが、この変動によって倍ピッチ周波数誤りの防止条件を満たさなくなる確率が、第1のケースよりも第2のケースの方が低くなる。したがって、ピッチ調波スペクトルのパワの平均値および加算値を用いてピッチ周波数推定を行うことにより、ホルマントの影響を低減することができ、ピッチ周波数推定の精度を向上することができる。
さらに、べき乗の乗数を調整することによって、半ピッチ周波数誤りの発生率または倍ピッチ周波数誤りの発生率を自在に調整することができる。例えば、前述のとおり、乗数が1の場合と比べて乗数が3の場合は、半ピッチ周波数誤りが生じやすくなるが、倍ピッチ周波数誤りが生じにくくなる。逆に言えば、乗数が3の場合に比べて乗数が1の場合は、倍ピッチ周波数誤りが生じやすくなるが、半ピッチ周波数誤りが生じにくくなる。したがって、実際の場合は、音声や雑音の状態に応じて乗数を選択することによって、より正確にピッチ周波数を推定することができる。例えば、雑音の多い環境下でピッチ周波数推定が行われる場合は、乗数をより小さい値とすることによって、半ピッチ周波数誤りの発生率を低減することができる。一方、乗数をより大きい値とすることによって、ホルマントの影響による倍ピッチ周波数誤りの発生を低減することができる。
ここで、同じ条件下で且つ同じピッチ調波スペクトルを用いてシミュレーションを行うことにより、式(1)で示される自己相関法に基づくピッチ周波数推定と本実施の形態に係るピッチ周波数推定との各推定誤り率を算出する。シミュレーションの諸条件は次のとおりである。ハニング窓長が320であり、FFT変換長は512であり、移動平均係数αは0.02であり、閾値Θは2であり、乗算係数δは6であり、ピッチ周波数候補の最小値PMINは62.5Hzであり、ピッチ周波数候補の最大値PMAXは390Hzである。また、乗数βは3とした。下記の表は、算出された推定誤り率の一覧である。この表から分かるように、適切な乗数を選択することによって、本実施の形態に係るピッチ周波数推定は自己相関法に基づくものに比べて推定誤り率を低減することができる。
Figure 2006006366
このように、本実施の形態によれば、ピッチ調波スペクトルのパワの平均値であって、複数のピッチ周波数候補の各々に対応づけて計算された平均値を用いて、ピッチ周波数を推定する、すなわち、周波数スペクトル上での自己相関を用いることなくピッチ周波数推定を行うため、ホルマントの影響を低減するためのスペクトル平坦化処理を不要とすることができるとともに、例えば、ピッチ調波スペクトルのパワに関する所定の定量的な条件が満たされる場合に半ピッチ周波数誤りや倍ピッチ周波数誤りの発生を防止することができ、ピッチ周波数推定に要する演算量を低減しつつ、ピッチ周波数を正確に推定することができる。
また、本実施の形態によれば、ピッチ調波スペクトルのパワの平均値および加算値であって、複数のピッチ周波数候補の各々に対応づけて計算された平均値および加算値を、複数のピッチ周波数候補の各々に対応づけて互いに乗算し、乗算結果の最大値に対応するピッチ周波数候補を推定ピッチ周波数として決定する、すなわち、平均値および加算値の乗算値を関数としてピッチ周波数の推定を行うため、スペクトル平坦化処理を行うことなくホルマントの影響を低減することができ、ピッチ周波数推定の精度を向上することができる。
なお、本実施の形態のピッチ周波数推定装置およびピッチ周波数推定方法は、音声符号化や音声強調などの音声信号処理を行う音声信号処理装置および音声信号処理方法に適用することができる。
また、本発明は様々な実施の形態を採ることが可能であり、本実施の形態で説明したもののみに限定されない。例えば、上記のピッチ周波数推定方法をソフトウェアとしてコンピュータに実行させるようにしても良い。すなわち、上記の実施の形態で説明したピッチ周波数推定方法を実行するプログラムを予め例えばROM(Read Only Memory)等の記録媒体に記録しておき、そのプログラムをCPU(Central Processor Unit)によって動作させることで、本発明のピッチ周波数推定方法を実行することができる。
なお、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部又は全てを含むように1チップ化されても良い。
ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現しても良い。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてありえる。
本明細書は、2004年7月13日出願の特願2004−206387に基づく。この内容はすべてここに含めておく。
本発明のピッチ周波数推定装置およびピッチ周波数推定方法は、音声符号化や音声強調などの音声信号処理を行う装置および方法に適用することができる。
【0002】
al frequency of noise−corrupted speech”,M.Lahat,IEEE Trans.on Acoustics,Speech,and Signal Processing,vol.ASSP−35,no.6,pp.741−750,1987
【発明の開示】
【発明が解決しようとする課題】
[0006] しかしながら、上記従来のピッチ周波数推定方法では、スペクトルの平坦化処理を伴うため、ピッチ周波数推定に要する演算量が増大するという問題がある。
[0007] 本発明の目的は、ピッチ周波数推定に要する演算量を低減しつつ、ピッチ周波数を正確に推定することができるピッチ周波数推定装置およびピッチ周波数推定方法を提供することである。
【課題を解決するための手段】
[0008](補正後)本発明のピッチ周波数推定装置は、音声パワスペクトルからピッチ調波スペクトルを抽出する抽出手段と、前記ピッチ調波スペクトルのパワの平均値を複数のピッチ周波数候補毎に計算する平均値計算手段と、前記ピッチ調波スペクトルのパワの加算値を前記複数のピッチ周波数候補毎に計算する加算値計算手段と、前記複数のピッチ周波数候補毎に、1以上のいずれかの乗数を用いて前記加算値のべき乗の値を計算するべき乗計算手段と、前記複数のピッチ周波数候補毎に前記べき乗の値を前記平均値に乗算し、前記複数のピッチ周波数候補のうち最大の乗算結果を与えるピッチ周波数候補を推定ピッチ周波数として決定する決定手段と、を具備する構成を採る。
[0009](削除)
[0010](削除)
【発明の効果】
[0011] 本発明によれば、ピッチ周波数推定に要する演算量を低減しつつ、ピッチ周波数を正確に推定することができる。
【図面の簡単な説明】


本発明は、ピッチ周波数推定装置およびピッチ周波数推定方法に関し、特に、周波数領域でピッチ周波数推定を行うピッチ周波数推定装置およびピッチ周波数推定方法に関する。
一般に、時間領域または周波数領域において音声のピッチ周波数を推定する方法としては、音声波形の自己相関関数による自己相関法や、LPC(Linear Predictive Coding)分析の残差信号の自己相関関数による変形相関法などが知られている。
また、雑音抑圧や音声符号化などの音声処理を周波数領域において行う場合は、周波数領域でピッチ周波数を推定すると整合性が良くなることがある。周波数領域でのピッチ周波数推定方法としては、周波数スペクトルに対する自己相関関数の最大化によりピッチ周波数を算出する方法があり、その一般式は次の式(1)によって表される。この式において、自己相関関数R(i)を最大にするピッチ周波数候補iを推定ピッチ周波数とする。
Figure 2006006366
ここで、kは離散周波数成分であり、P(k)はピッチ調波スペクトルのパワであり、PMINおよびPMAXはそれぞれピッチ周波数候補iの最小値および最大値である。
ところで、周波数領域での自己相関を用いたピッチ周波数推定方法では、音声信号のホルマントの影響により誤って倍のピッチ周波数が算出されてしまうこと(倍ピッチ周波数誤り)がある。
ホルマントの影響を低減しつつピッチ周波数推定を行う従来の方法としては、例えば、非特許文献1に開示されたものがある。この方法では、スペクトル包絡の情報でスペクトルを平坦化した後のスペクトルが用いられる。
"A spectral autocorrelation method for measurement of the fundamental frequency of noise-corrupted speech", M. Lahat, IEEE Trans. on Acoustics, Speech, and Signal Processing, vol. ASSP-35, no. 6, pp. 741-750, 1987
しかしながら、上記従来のピッチ周波数推定方法では、スペクトルの平坦化処理を伴うため、ピッチ周波数推定に要する演算量が増大するという問題がある。
本発明の目的は、ピッチ周波数推定に要する演算量を低減しつつ、ピッチ周波数を正確に推定することができるピッチ周波数推定装置およびピッチ周波数推定方法を提供することである。
本発明のピッチ周波数推定装置は、音声パワスペクトルからピッチ調波スペクトルを抽出する抽出手段と、前記ピッチ調波スペクトルのパワの平均値を複数のピッチ周波数候補毎に計算する平均値計算手段と、前記ピッチ調波スペクトルのパワの加算値を前記複数のピッチ周波数候補毎に計算する加算値計算手段と、前記複数のピッチ周波数候補毎に、1以上のいずれかの乗数を用いて前記加算値のべき乗の値を計算するべき乗計算手段と、前記複数のピッチ周波数候補毎に前記べき乗の値を前記平均値に乗算し、前記複数のピッチ周波数候補のうち最大の乗算結果を与えるピッチ周波数候補を推定ピッチ周波数として決定する決定手段と、を有する構成を採る。
本発明によれば、ピッチ周波数推定に要する演算量を低減しつつ、ピッチ周波数を正確に推定することができる。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明の一実施の形態に係るピッチ周波数推定装置の構成を示すブロック図である。ピッチ周波数推定装置100は、ハニング窓部101、FFT(Fast Fourier Transform)部102、有声性判定部103、スペクトル抽出部104、スペクトル振幅制限部105、スペクトル平均値計算部106、スペクトル加算部107、べき乗計算部108、乗算部109および最大値抽出部110を有する。
ハニング窓部101は、所定時間単位のフレーム単位に分割された入力音声信号に対して、ハニングウィンドウなどを利用した窓掛け処理を施してFFT部102に出力する。
FFT部102は、ハニング窓部101から入力されたフレーム、つまりフレーム単位に分割された音声信号に対してFFTを行って音声信号を周波数領域に変換する。これにより、音声パワスペクトルを取得する。よって、フレーム単位の音声信号は、所定の周波数帯域を有する音声パワスペクトルとなる。このようにして生成された音声パワスペクトルは、有声性判定部103、スペクトル抽出部104およびスペクトル振幅制限部105に出力される。
有声性判定部103は、FFT部102から音声パワスペクトルの有声性、つまり元の音声信号が有声であるか無声であるかを判定する。判定結果は、スペクトル抽出部104に出力される。
スペクトル抽出部104は、有声性判定部103によって音声パワスペクトルが有声性なしと判定された場合、ピッチ調波スペクトルの抽出を回避する。これによって、スペクトル抽出部104の演算量、ひいてはピッチ周波数推定装置100の全体の演算量を低減することができる。
一方、音声パワスペクトルが有声性ありと判定された場合、スペクトル抽出部104はピッチ調波スペクトルの抽出を行う。より具体的には、音声パワスペクトルにおけるピークを抽出することにより、ピッチ調波スペクトルの抽出を行う。
また、スペクトル抽出部104は、スペクトル振幅制限部105による音声パワスペクトルの振幅制限が行われた場合、抽出されたピッチ調波スペクトルにその振幅制限の結果を反映させることにより、ピッチ調波スペクトルの振幅を制限する。このようにして、ピッチ周波数推定の精度に与えられ得るホルマントの影響を低減することができる。ピッチ調波スペクトルは、スペクトル平均値計算部106およびスペクトル加算部107に出力される。
スペクトル振幅制限部105は、FFT部102によって取得された音声パワスペクトルの振幅が所定の閾値を超過しないように制限する。音声パワスペクトルの振幅制限の結果は、スペクトル抽出部104に出力される。
スペクトル平均値計算部106は、スペクトル抽出部104からのピッチ調波スペクトルのパワの平均値を、複数のピッチ周波数候補の各々に対応づけて計算する。すなわち、ピッチ調波スペクトルにおいて、ピッチ周波数候補を所定の最小値から所定の最大値までシフトさせながら、ピッチ周波数候補の整数倍に相当する周波数成分のパワの平均値を計算する。計算された平均値は、乗算部109に出力される。
また、スペクトル平均値計算部106は、平均値の計算を行うとき、パワの最大値に対応する周波数成分を、平均値計算対象の周波数帯域における基準周波数として用いる。
具体的には、基準周波数からピッチ周波数候補の整数倍に相当する周波数を減算して得られる周波数におけるパワと、基準周波数からピッチ周波数候補の整数倍に相当する周波数を加算して得られる周波数におけるパワと、を用いて、平均値の計算を行う。これにより、音声の準周期特性および雑音の影響ならびにピッチ周波数推定誤差により生じるピッチ高調波における誤差の累積を低減することができ、より正確にピッチ周波数の推定を行うことができる。
なお、ピッチ調波スペクトルのパワの平均値は、後述するピッチ調波スペクトルのパワの加算値を特定の値で除して得られる値である。よって、スペクトル平均値計算部106は、スペクトル加算部107によって計算された加算値を取得し、これを用いて平均値の算出を行っても良い。
スペクトル加算部107は、スペクトル抽出部104からのピッチ調波スペクトルのパワの加算値を、複数のピッチ周波数候補の各々に対応づけて計算する。すなわち、ピッチ調波スペクトルにおいて、ピッチ周波数候補を所定の最小値から所定の最大値までシフトさせながら、ピッチ周波数候補の整数倍に相当する周波数成分のパワを加算する。パワの加算によって得られた加算値はべき乗計算部108に出力される。
また、スペクトル加算部107は、パワの加算を行うとき、パワの最大値に対応する周波数成分を、加算値計算対象の周波数帯域における基準周波数として用いる。
具体的には、基準周波数からピッチ周波数候補の整数倍に相当する周波数を減算して得られる周波数におけるパワと、基準周波数からピッチ周波数候補の整数倍に相当する周波数を加算して得られる周波数におけるパワと、を用いて、加算値の計算を行う。これにより、音声の準周期特性および雑音の影響ならびにピッチ周波数推定誤差により生じるピッチ高調波における誤差の累積を低減することができ、より正確にピッチ周波数の推定を行うことができる。
べき乗計算部108は、スペクトル加算部107によって算出された加算値のべき乗の値を計算する。算出されたべき乗の値は乗算部109に出力される。また、べき乗計算部108は、べき乗の計算に用いられる乗数を可変に設定する。乗数の可変設定つまり乗数の調整については後述する。
乗算部109および最大値抽出部110の組み合わせは、複数のピッチ周波数候補の各々に対応づけて計算された平均値を用いてピッチ周波数を推定する推定部を構成する。
推定部において、乗算部109は、ピッチ調波スペクトルのパワの平均値とピッチ調波スペクトルのパワの加算値とを、複数のピッチ周波数候補の各々に対応づけて乗算する。より具体的には、加算値のべき乗計算結果を平均値に乗算する。乗算結果は、最大値抽出部110に出力される。
最大値抽出部110は、乗算部109で計算された乗算結果の最大値を抽出する。また、所定の最小値から所定の最大値までの複数のピッチ周波数候補のうち、乗算結果が最大となるときのピッチ周波数候補を推定ピッチ周波数として決定し、図示されない後段の処理部に出力する。
次いで、上記構成を有するピッチ周波数推定装置100におけるピッチ周波数推定動作について説明する。
まず、FFT部102では、次の式(2)で表される音声パワスペクトルSF 2(k)を取得する。ここで、kは離散周波数成分を示す。HFは、ピッチ周波数推定用の上限周波数成分であり、例えばHF=1[kHz]である。Re{DF(k)}およびIm{DF(k)}は、それぞれFFT変換後の入力音声スペクトルDF(k)の実数部および虚数部を示す。
Figure 2006006366
なお、式(2)では、スペクトルのパワ値を用いているが、パワ値の代わりに、平方根をとったスペクトル振幅値を用いても良い。
また、有声性判定部103では、音声パワスペクトルSF 2(k)の有声性を判定する。
より具体的には、第1に、フレームmの音声パワスペクトルSF 2(k)の和S2(m)と、推定雑音スペクトルパワの移動平均値N2(m)と、を次の式(3)および(4)を用いてそれぞれ計算する。ここで、αは移動平均係数であり、ΘNは、音声か雑音かを判定するための閾値である。
Figure 2006006366
Figure 2006006366
そして、第2に、音声と雑音との比SNRを式(5)を用いて計算し、その計算結果に基づいて有声性判定を行う。例えば式(6)に示すように、比SNRが閾値ΘVよりも大きい場合は有声性ありと判定し、比SNRが閾値ΘV以下の場合は有声性なしと判定する。なお、ここでは有声性ありと判定された場合を例にとり、ピッチ周波数推定動作の説明を続ける。
Figure 2006006366
Figure 2006006366
そして、スペクトル抽出部104では、式(7)を用いて音声パワスペクトルSF 2(k)のピークを抽出することにより、ピッチ調波スペクトルPF(k)の抽出を行う。
Figure 2006006366
このとき、音声の準周期特性および雑音の影響により生じ得るピッチ調波スペクトルの位置ずれを考慮して、抽出されたピークの近傍にある音声パワスペクトルSF 2(k-1)およびSF 2(k+1)を、ピッチ調波スペクトルPF(k-1)およびPF(k+1)として一緒に抽出し、これら以外の周波数成分における音声パワスペクトルをゼロとみなす。
また、スペクトル振幅制限部105で音声パワスペクトルの振幅制限が行われた場合、スペクトル抽出部104では、ピッチ調波スペクトルPF(k)にその振幅制限の結果を反映させることにより、ピッチ調波スペクトルPF(k)の振幅を制限する。
すなわち、抽出されたピッチ調波スペクトルPF(k)を所定値と比較する。所定値は、周波数帯域HFにおける音声パワスペクトルSF 2(k)の平均値と乗算係数δとの積であり、式(8)によって求められる。そして、ピッチ調波スペクトルPF(k)が所定値を超過する場合には、式(9)を用いてピッチ調波スペクトルPF(k)の振幅に減衰係数を乗算することにより、ピッチ調波スペクトルPF(k)の振幅を制限する。減衰係数は式(10)によって求められる。
Figure 2006006366
Figure 2006006366
Figure 2006006366
また、抽出されたピッチ調波スペクトルPF(k-1)およびPF(k+1)に対しても同様に、式(11)および(12)を用いて振幅の制限を行う。
Figure 2006006366
Figure 2006006366
そして、スペクトル平均値計算部106では、式(13)を用いて、ピッチ調波スペクトルPF(k)のパワの平均値PA(i)を計算する。
Figure 2006006366
ここで、N(i)=NF/iであり、NL(i)=j/iであり、NH(i)=(HF-j)/iである。また、iはピッチ周波数候補であり、PMINおよびPMAXはそれぞれピッチ周波数候補の最小値および最大値である。また、jは、周波数帯域HFにおける音声パワスペクトルSF 2(k)の最大値に対応する周波数成分であり、nは、ピッチ周波数の整数倍の係数である。
そして、スペクトル加算部107では、式(14)を用いて、ピッチ調波スペクトルPF(k)のパワの加算値PB(i)を計算する。
Figure 2006006366
ここで、式(13)および(14)を比較して分かるように、平均値PA(i)および加算値PB(i)の間には式(15)で表される関係がある。したがって、スペクトル加算部107で式(14)を用いて加算値PB(i)を計算してから、スペクトル平均値計算部106で式(13)の代わりに式(15)を用いて平均値PA(i)を計算した場合は、ピッチ周波数推定における演算量をさらに低減することができる。
Figure 2006006366
そして、べき乗計算部108では、例えば式(16)を用いて、加算値PB(i)のべき乗を計算する。
Figure 2006006366
そして、乗算部109では、式(17)を用いて、べき乗計算結果PC(i)を平均値PA(i)に乗算する。
Figure 2006006366
そして、最大値抽出部110では、乗算結果PD(i)の最大値PD_maxを抽出し、そのときのピッチ周波数候補pを推定ピッチ周波数として決定する。このようにしてピッチ周波数推定動作が行われる。
続いて、半ピッチ周波数誤りおよび倍ピッチ周波数誤りの発生を防止するための条件(以下「防止条件」と言う)について説明する。ここでは、ピッチ調波スペクトルのパワの平均値のみを用いてピッチ周波数推定を行った場合(以下「第1のケース」と言う)と、ピッチ調波スペクトルのパワの平均値および加算値を用いてピッチ周波数推定を行った場合(以下「第2のケース」と言う)と、を例にとって説明する。
まず、第1のケースにおける防止条件を定量的に求める。
正しく推定されたピッチ周波数pに対する平均値PA(p)を式(18)で表した場合、半ピッチ周波数p/2に対する平均値PA(p/2)は式(19)によって求められる。
Figure 2006006366
Figure 2006006366
ここで、xは、半ピッチ周波数p/2を推定したときの、ピッチ周波数pに対する加算値PB(p)の増加倍率を示す係数である。平均値PAのみの最大化によりピッチ周波数を推定する場合、式(18)および(19)を比較して分かるように、PA(p)>PA(p/2)つまりx<1の条件を満たすときに、半ピッチ周波数誤りの発生を防止することができる。すなわち、加算値PBの増加量がPB(p)未満のときに、半ピッチ周波数誤りの発生を防止することができる。
また、倍ピッチ周波数2pに対する平均値PA(2p)は式(20)によって求められる。
Figure 2006006366
ここで、yは、倍ピッチ周波数2pを推定したときの、ピッチ周波数pに対する加算値PB(p)の減少倍率を示す係数である。平均値PAのみの最大化によりピッチ周波数を推定する場合、式(18)および(20)を比較して分かるように、PA(p)>PA(2p)つまりy>0.5の条件を満たすときに、倍ピッチ周波数誤りの発生を防止することができる。すなわち、加算値PBの減少量が0.5PB(p)より大きいときに、倍ピッチ周波数誤りの発生を防止することができる。
次いで、第2のケースにおける防止条件を定量的に求める。
前述の式(17)で表される乗算結果PD(i)を、半ピッチ周波数p/2および倍ピッチ周波数2pに対してそれぞれ求めると、式(21)および(22)に示すとおりとなる。
Figure 2006006366
Figure 2006006366
式(17)で表される乗算結果PD(i)の最大化によってピッチ周波数を推定する場合、PD(p)> PD(p/2)の条件を満たすときに、半ピッチ周波数誤りの発生を防止することができる。また、PD(p)> PD(2p)の条件を満たすときに、倍ピッチ周波数誤りの発生を防止することができる。
ここで、スペクトル抽出部104で抽出された音声パワスペクトルSF 2(k)の例を図2Aに示す。この例において、P2、P4、P5およびP6で示されるピークによりピッチ調波スペクトルが構成されると仮定する。
また、図2Bに、加算値PB(i)のべき乗の乗数を1に設定した条件の下で、平均値PA(i)および加算値PB(i)を互いに乗算した結果の例を示し、図2Cに、加算値PB(i)のべき乗の乗数を3に設定した条件の下で、平均値PA(i)および加算値PB(i)を互いに乗算した結果の例を示す。
そして、式(21)を用いて半ピッチ周波数誤りの防止条件PD(p)> PD(p/2)を変換すると、乗数が1の場合はx<0.414となり、乗数が3の場合はx<0.189となる。また、式(22)を用いて倍ピッチ周波数誤りの防止条件PD(p)> PD(2p)を変換すると、乗数が1の場合はy>0.293となり、乗数が3の場合はy>0.159となる。すなわち、乗数が1の場合は加算値PBの増加量が0.414PB(p)未満のときに、または、乗数が3の場合は加算値PBの増加量が0.189PB(p)未満のときに、半ピッチ周波数誤りの発生を防止することができる。また、乗数が1の場合は加算値PBの減少量が0.293PB(p)より大きいときに、または、乗数が3の場合は加算値PBの減少量が0.159PB(p)より大きいときに、倍ピッチ周波数誤りの発生を防止することができる。
さらに、第1のケースにおける防止条件と第2のケースにおける防止条件とを比較する。この比較の結果として、倍ピッチ周波数誤りの防止条件については、第1のケースに比べて第2のケースの方が緩和されていることが分かる。すなわち、倍ピッチ周波数誤り発生の主因はホルマントによるピッチ調波スペクトル振幅値の変動であるが、この変動によって倍ピッチ周波数誤りの防止条件を満たさなくなる確率が、第1のケースよりも第2のケースの方が低くなる。したがって、ピッチ調波スペクトルのパワの平均値および加算値を用いてピッチ周波数推定を行うことにより、ホルマントの影響を低減することができ、ピッチ周波数推定の精度を向上することができる。
さらに、べき乗の乗数を調整することによって、半ピッチ周波数誤りの発生率または倍ピッチ周波数誤りの発生率を自在に調整することができる。例えば、前述のとおり、乗数が1の場合と比べて乗数が3の場合は、半ピッチ周波数誤りが生じやすくなるが、倍ピッチ周波数誤りが生じにくくなる。逆に言えば、乗数が3の場合に比べて乗数が1の場合は、倍ピッチ周波数誤りが生じやすくなるが、半ピッチ周波数誤りが生じにくくなる。したがって、実際の場合は、音声や雑音の状態に応じて乗数を選択することによって、より正確にピッチ周波数を推定することができる。例えば、雑音の多い環境下でピッチ周波数推定が行われる場合は、乗数をより小さい値とすることによって、半ピッチ周波数誤りの発生率を低減することができる。一方、乗数をより大きい値とすることによって、ホルマントの影響による倍ピッチ周波数誤りの発生を低減することができる。
ここで、同じ条件下で且つ同じピッチ調波スペクトルを用いてシミュレーションを行うことにより、式(1)で示される自己相関法に基づくピッチ周波数推定と本実施の形態に係るピッチ周波数推定との各推定誤り率を算出する。シミュレーションの諸条件は次のとおりである。ハニング窓長が320であり、FFT変換長は512であり、移動平均係数αは0.02であり、閾値ΘVは2であり、乗算係数δは6であり、ピッチ周波数候補の最小値PMINは62.5Hzであり、ピッチ周波数候補の最大値PMAXは390Hzである。また、乗数βは3とした。下記の表は、算出された推定誤り率の一覧である。この表から分かるように、適切な乗数を選択することによって、本実施の形態に係るピッチ周波数推定は自己相関法に基づくものに比べて推定誤り率を低減することができる。
Figure 2006006366
このように、本実施の形態によれば、ピッチ調波スペクトルのパワの平均値であって、複数のピッチ周波数候補の各々に対応づけて計算された平均値を用いて、ピッチ周波数を推定する、すなわち、周波数スペクトル上での自己相関を用いることなくピッチ周波数推定を行うため、ホルマントの影響を低減するためのスペクトル平坦化処理を不要とすることができるとともに、例えば、ピッチ調波スペクトルのパワに関する所定の定量的な条件が満たされる場合に半ピッチ周波数誤りや倍ピッチ周波数誤りの発生を防止することができ、ピッチ周波数推定に要する演算量を低減しつつ、ピッチ周波数を正確に推定することができる。
また、本実施の形態によれば、ピッチ調波スペクトルのパワの平均値および加算値であって、複数のピッチ周波数候補の各々に対応づけて計算された平均値および加算値を、複数のピッチ周波数候補の各々に対応づけて互いに乗算し、乗算結果の最大値に対応するピッチ周波数候補を推定ピッチ周波数として決定する、すなわち、平均値および加算値の乗算値を関数としてピッチ周波数の推定を行うため、スペクトル平坦化処理を行うことなくホルマントの影響を低減することができ、ピッチ周波数推定の精度を向上することができる。
なお、本実施の形態のピッチ周波数推定装置およびピッチ周波数推定方法は、音声符号化や音声強調などの音声信号処理を行う音声信号処理装置および音声信号処理方法に適用することができる。
また、本発明は様々な実施の形態を採ることが可能であり、本実施の形態で説明したもののみに限定されない。例えば、上記のピッチ周波数推定方法をソフトウェアとしてコンピュータに実行させるようにしても良い。すなわち、上記の実施の形態で説明したピッチ周波数推定方法を実行するプログラムを予め例えばROM(Read Only Memory)等の記録媒体に記録しておき、そのプログラムをCPU(Central Processor Unit)によって動作させることで、本発明のピッチ周波数推定方法を実行することができる。
なお、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部又は全てを含むように1チップ化されても良い。
ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現しても良い。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてありえる。
本明細書は、2004年7月13日出願の特願2004−206387に基づく。この内容はすべてここに含めておく。
本発明のピッチ周波数推定装置およびピッチ周波数推定方法は、音声符号化や音声強調などの音声信号処理を行う装置および方法に適用することができる。
本発明の一実施の形態に係るピッチ周波数推定装置の構成を示すブロック図 本発明の一実施の形態において、抽出された音声パワスペクトルの例を示す図 本発明の一実施の形態において、乗数をある値に設定した条件の下で平均値および加算値を乗算した結果を示す図 本発明の一実施の形態において、乗数を他の値に設定した条件の下で平均値および加算値を乗算した結果を示す図

Claims (11)

  1. 音声スペクトルからピッチ調波スペクトルを抽出する抽出手段と、
    前記ピッチ調波スペクトルのパワの平均値を、複数のピッチ周波数候補の各々に対応づけて計算する平均値計算手段と、
    前記平均値を用いてピッチ周波数を推定する推定手段と、
    を有するピッチ周波数推定装置。
  2. 前記ピッチ調波スペクトルのパワの加算値を、前記複数のピッチ周波数候補の各々に対応づけて計算する加算値計算手段をさらに有し、
    前記推定手段は、
    前記加算値を用いてピッチ周波数を推定する、
    請求項1記載のピッチ周波数推定装置。
  3. 前記推定手段は、
    前記平均値および前記加算値を、前記複数のピッチ周波数候補の各々に対応づけて互いに乗算する乗算手段と、
    前記複数のピッチ周波数候補のうち、前記乗算手段による乗算の結果の最大値に対応するピッチ周波数候補を、推定ピッチ周波数として決定する決定手段と、
    を有する請求項2記載のピッチ周波数推定装置。
  4. 前記平均値計算手段は、
    前記音声スペクトルにおけるパワの最大値に対応する周波数成分を基準周波数として用いて、前記平均値の計算を行う、
    請求項2記載のピッチ周波数推定装置。
  5. 前記加算値計算手段は、
    前記音声スペクトルにおけるパワの最大値に対応する周波数成分を基準周波数として用いて、前記加算値の計算を行う、
    請求項2記載のピッチ周波数推定装置。
  6. 前記加算値のべき乗を計算するべき乗計算手段をさらに有し、
    前記乗算手段は、
    前記べき乗計算手段による計算の結果を前記平均値に乗算し、
    前記べき乗計算手段は、
    前記べき乗の計算に用いられる乗数を可変に設定する、
    請求項3記載のピッチ周波数推定装置。
  7. 前記平均値計算手段は、
    前記加算値を用いて、前記平均値の計算を行う、
    請求項2記載のピッチ周波数推定装置。
  8. 前記ピッチ調波スペクトルの振幅を制限する振幅制限手段をさらに有する、
    請求項2記載のピッチ周波数推定装置。
  9. 前記音声スペクトルの有声性を判定する判定手段をさらに有し、
    前記抽出手段は、
    前記判定手段による判定の結果、前記音声スペクトルの有声性が所定レベル以下の場合は、前記ピッチ調波スペクトルの抽出を回避する、
    請求項2記載のピッチ周波数推定装置。
  10. 音声スペクトルからピッチ調波スペクトルを抽出する抽出ステップと、
    前記ピッチ調波スペクトルのパワの平均値を、複数のピッチ周波数候補の各々に対応づけて計算する平均値計算ステップと、
    前記平均値を用いてピッチ周波数を推定する推定ステップと、
    を有するピッチ周波数推定方法。
  11. 音声スペクトルからピッチ調波スペクトルを抽出する抽出ステップと、
    前記ピッチ調波スペクトルのパワの平均値を、複数のピッチ周波数候補の各々に対応づけて計算する平均値計算ステップと、
    前記平均値を用いてピッチ周波数を推定する推定ステップと、
    をコンピュータに実現させるためのピッチ周波数推定プログラム。
JP2006528586A 2004-07-13 2005-06-23 ピッチ周波数推定装置およびピッチ周波数推定方法 Pending JPWO2006006366A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004206387 2004-07-13
JP2004206387 2004-07-13
PCT/JP2005/011533 WO2006006366A1 (ja) 2004-07-13 2005-06-23 ピッチ周波数推定装置およびピッチ周波数推定方法

Publications (1)

Publication Number Publication Date
JPWO2006006366A1 true JPWO2006006366A1 (ja) 2008-04-24

Family

ID=35783714

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006528586A Pending JPWO2006006366A1 (ja) 2004-07-13 2005-06-23 ピッチ周波数推定装置およびピッチ周波数推定方法

Country Status (5)

Country Link
US (1) US20070299658A1 (ja)
EP (1) EP1783743A4 (ja)
JP (1) JPWO2006006366A1 (ja)
CN (1) CN1998045A (ja)
WO (1) WO2006006366A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8093484B2 (en) * 2004-10-29 2012-01-10 Zenph Sound Innovations, Inc. Methods, systems and computer program products for regenerating audio performances
US7598447B2 (en) * 2004-10-29 2009-10-06 Zenph Studios, Inc. Methods, systems and computer program products for detecting musical notes in an audio signal
KR100735343B1 (ko) * 2006-04-11 2007-07-04 삼성전자주식회사 음성신호의 피치 정보 추출장치 및 방법
US8432057B2 (en) 2007-05-01 2013-04-30 Pliant Energy Systems Llc Pliant or compliant elements for harnessing the forces of moving fluid to transport fluid or generate electricity
CN101599272B (zh) * 2008-12-30 2011-06-08 华为技术有限公司 基音搜索方法及装置
CN101853240B (zh) * 2009-03-31 2012-07-04 华为技术有限公司 一种信号周期的估计方法和装置
US20120029926A1 (en) 2010-07-30 2012-02-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
US8767978B2 (en) 2011-03-25 2014-07-01 The Intellisis Corporation System and method for processing sound signals implementing a spectral motion transform
US8548803B2 (en) 2011-08-08 2013-10-01 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
US9183850B2 (en) 2011-08-08 2015-11-10 The Intellisis Corporation System and method for tracking sound pitch across an audio signal
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US9922668B2 (en) 2015-02-06 2018-03-20 Knuedge Incorporated Estimating fractional chirp rate with multiple frequency representations
US9870785B2 (en) 2015-02-06 2018-01-16 Knuedge Incorporated Determining features of harmonic signals
US9842611B2 (en) 2015-02-06 2017-12-12 Knuedge Incorporated Estimating pitch using peak-to-peak distances
CN106034099B (zh) * 2015-03-12 2019-06-21 富士通株式会社 多载波信号的限幅失真的估计装置、补偿装置以及接收机
JP6907859B2 (ja) * 2017-09-25 2021-07-21 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
JP6904198B2 (ja) * 2017-09-25 2021-07-14 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
CN110379438B (zh) * 2019-07-24 2020-05-12 山东省计算中心(国家超级计算济南中心) 一种语音信号基频检测与提取方法及系统

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4879748A (en) * 1985-08-28 1989-11-07 American Telephone And Telegraph Company Parallel processing pitch detector
US5365592A (en) * 1990-07-19 1994-11-15 Hughes Aircraft Company Digital voice detection apparatus and method using transform domain processing
US6470309B1 (en) * 1998-05-08 2002-10-22 Texas Instruments Incorporated Subframe-based correlation
TW430778B (en) * 1998-06-15 2001-04-21 Yamaha Corp Voice converter with extraction and modification of attribute data
US7117146B2 (en) * 1998-08-24 2006-10-03 Mindspeed Technologies, Inc. System for improved use of pitch enhancement with subcodebooks
US6370500B1 (en) * 1999-09-30 2002-04-09 Motorola, Inc. Method and apparatus for non-speech activity reduction of a low bit rate digital voice message
US6963833B1 (en) * 1999-10-26 2005-11-08 Sasken Communication Technologies Limited Modifications in the multi-band excitation (MBE) model for generating high quality speech at low bit rates
US20070110042A1 (en) * 1999-12-09 2007-05-17 Henry Li Voice and data exchange over a packet based network
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
WO2002029782A1 (en) * 2000-10-02 2002-04-11 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
GB2375028B (en) * 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
TW589618B (en) * 2001-12-14 2004-06-01 Ind Tech Res Inst Method for determining the pitch mark of speech
JP3960834B2 (ja) * 2002-03-19 2007-08-15 松下電器産業株式会社 音声強調装置及び音声強調方法
JP4128848B2 (ja) * 2002-10-28 2008-07-30 日本電信電話株式会社 音高音価決定方法およびその装置と、音高音価決定プログラムおよびそのプログラムを記録した記録媒体
US7305339B2 (en) * 2003-04-01 2007-12-04 International Business Machines Corporation Restoration of high-order Mel Frequency Cepstral Coefficients
JP3984207B2 (ja) * 2003-09-04 2007-10-03 株式会社東芝 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム
WO2005124739A1 (ja) * 2004-06-18 2005-12-29 Matsushita Electric Industrial Co., Ltd. 雑音抑圧装置および雑音抑圧方法
US7788091B2 (en) * 2004-09-22 2010-08-31 Texas Instruments Incorporated Methods, devices and systems for improved pitch enhancement and autocorrelation in voice codecs
KR100590561B1 (ko) * 2004-10-12 2006-06-19 삼성전자주식회사 신호의 피치를 평가하는 방법 및 장치
CN101199002B (zh) * 2005-06-09 2011-09-07 株式会社A.G.I. 检测音调频率的语音分析器和语音分析方法
KR100713366B1 (ko) * 2005-07-11 2007-05-04 삼성전자주식회사 모폴로지를 이용한 오디오 신호의 피치 정보 추출 방법 및그 장치
CN101273404B (zh) * 2005-09-30 2012-07-04 松下电器产业株式会社 语音编码装置以及语音编码方法

Also Published As

Publication number Publication date
WO2006006366A1 (ja) 2006-01-19
CN1998045A (zh) 2007-07-11
EP1783743A4 (en) 2007-07-25
EP1783743A1 (en) 2007-05-09
US20070299658A1 (en) 2007-12-27

Similar Documents

Publication Publication Date Title
JPWO2006006366A1 (ja) ピッチ周波数推定装置およびピッチ周波数推定方法
US9064498B2 (en) Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
US8239191B2 (en) Speech encoding apparatus and speech encoding method
WO2005124739A1 (ja) 雑音抑圧装置および雑音抑圧方法
US10032462B2 (en) Method and system for suppressing noise in speech signals in hearing aids and speech communication devices
EP2394269A1 (en) Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
US9208799B2 (en) Method and device for estimating a pattern in a signal
JP6289507B2 (ja) エネルギー制限演算を用いて周波数増強信号を生成する装置および方法
JP5325130B2 (ja) Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム
JP4571871B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
Tiwari et al. Speech enhancement using noise estimation with dynamic quantile tracking
CN113035216B (zh) 麦克风阵列语音的增强方法、及其相关设备
JP6065488B2 (ja) 帯域拡張装置及び方法
Gu et al. A discrete-cepstrum based spectrum-envelope estimation scheme and its example application of voice transformation
Islam et al. Speech enhancement in adverse environments based on non-stationary noise-driven spectral subtraction and snr-dependent phase compensation
Schlesinger Transient-based speech transmission index for predicting intelligibility in nonlinear speech enhancement processors
Noh et al. Deep neural network ensemble for reducing artificial noise in bandwidth extension
Islam et al. Speech Enhancement Based on Non-stationary Noise-driven Geometric Spectral Subtraction and Phase Spectrum Compensation
Farrokhi Single Channel Speech Enhancement in Severe Noise Conditions
Mitani et al. Cross-correlation functions with binary signal involving phase information for speech enhancement
Jang et al. Noise Spectrum Estimation Using Line Spectral Frequencies for Robust Speech Recognition
Shahnaz et al. A cepstral-domain algorithm for pitch estimation from noise-corrupted speech
BRPI0911932B1 (pt) Equipamento e método para processamento de um sinal de áudio para intensificação de voz utilizando uma extração de característica
JPS6325699A (ja) ホルマント抽出装置