JPS6132100A - パワ−スペクトル抽出方式 - Google Patents

パワ−スペクトル抽出方式

Info

Publication number
JPS6132100A
JPS6132100A JP15340984A JP15340984A JPS6132100A JP S6132100 A JPS6132100 A JP S6132100A JP 15340984 A JP15340984 A JP 15340984A JP 15340984 A JP15340984 A JP 15340984A JP S6132100 A JPS6132100 A JP S6132100A
Authority
JP
Japan
Prior art keywords
power spectrum
autocorrelation function
fourier transform
pitch
circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP15340984A
Other languages
English (en)
Inventor
健作 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP15340984A priority Critical patent/JPS6132100A/ja
Publication of JPS6132100A publication Critical patent/JPS6132100A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Spectrometry And Color Measurement (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は音声波形からパワースペクトルを抽出する音声
分析システムに係り、特にフーリエ変換を用いてパワー
スペクトルを抽出するパワースペクトル抽出方式に関す
人間の発する音声の内、有声音はピッチと呼ばれる周期
により定まる周波数とその高調波毎のパワースペクトル
の集合により特徴づけられる。音声認識、音声合成、音
声の帯域圧縮等を行う為に音声分析を行う場合、分析対
象となる音声波形のパワースペクトルを求める場合が多
い。かかるパワースペクトル分析の一手法として、フー
リエ変換によるものが広く採用されている。
〔従来の技術〕
第2図はフーリエ変換回路を用いた従来あるパワースペ
クトル抽出方式の一例を示す図であり、第3図は第2図
における分析結果を例示する図である。
第2図において、入力端子1に到着した音声信号は乗算
器2に伝達され、窓関数発生回路3から/ (1/2)
  (ΣX”(nT) +Σx  (nT+ 1T))      −(132
)R(1)−Σx  (nT)  ・ x  (nT+
iT)/〔(Σx2(nT)1 ・ (Σx”(nT+ 1T)) )’  −(133
)実際の音声には(113)式が最も適合する。
■ また自己相関関数の演算に、ハミング窓等の如(サ
イドローブの小さい周波数特性を有する窓関数を用いる
と交流分の減衰が大きくなり、積分区間を短く設定出来
、計算精度が向上する。また無声音の場合のフーリエ変
換にも同様の窓関数が利用可能である。
■ 最後に、前述においては、先ず自己相関関数を求め
、得られた自己相関関数に対しフーリエ変換を行うこと
によりパワースペクトルを抽出する方法を示したが、(
8)式および(11)式を纏めて(14)式の如く一度
に計算しても良く、また(14)式におりる演算順序を
入替えても支障ない。
X(k、’ω、)−6ΣΣx (nT)4+0 札 −x (n T十iT)  coskω、i T/P・
・・ (14) なお音声波形のピッチ周期1゜は、例えば自己相関関数
を用いる等11種々の公知の方法で求められる。
〔実施例〕
以下、本発明の一実施例を図面により説明する。
第1図は本発明の一実施例によるパワースペクトル抽出
方式を示す図である。なお、全図を通して同一符号は同
一対象物を示す。第1図においては、第2図に示される
フーリエ変換回路14にピッチ抽出回路15および自己
相関関数生成回路16が設けられている。第1図におい
て、入力端子1゜Oに到着した音声波形x(nT)は、
ピッチ抽出回路15および自己相関関数生成回路16に
伝達される。ピッチ抽出回路15ば、受信した音声波形
x (nT)の自己相関関数R(i)を(8)式乃至1
01式の過程により算出する。かがる自己相関関数R(
i)を時間iTを変化させて算定した場合、有声音の場
合には時間iTがピッチ周期T、に等しくなった場合に
1に近い値となり、それ以外の場合には1より充分小さ
い値となる。ピッチ抽出回路15は、算出した自己相関
関数R(i)を予め定められた闇値と比較することによ
り、1に近くなる時間ITを音声波形のピッチ周期T、
と見做す。
また無声音にはピッチ周期は存在しない為、予め定めら
れた時間以内にピッチ周期T、が求められなかった場合
に、無声音と判定する。ピッチ抽出回路15は、有声音
と判定した場合には検出されたピッチ周期T。を積分区
間Tsとし、また無声音と判定した場合には予め定めら
れた時間長を積分区間T sとし、自己相関関数生成回
路16およびフーリエ変換回路14に伝達する。フーリ
エ変換回路14ではこの積分区間情報が積分器へ入力さ
れると共に、余弦核発生回路および正弦核発生回路にも
入力されて処理される。
自己相関関数生成回路16は、ピッチ抽出回路15から
伝達された積分区間Tsに基づき自己相関関数R(i)
を(8)式乃至(10)式の過程により生成し、フーリ
エ変換回路14に伝達する。
フーリエ変換回路14は、第2図におけると同様の過程
により、自己相関関数生成回路16から伝達される自己
相関関数R(i)に対しピッチ抽出回路14から伝達さ
れる積分区間Tsに基づきフーリエ変換を施し、出力端
子13がらパワースペクトルを出力する。該パワースペ
クトルは、有声音の場合にはピッチ周期)により定まる
周波数の整数倍の周波数置きとなる為、分析対象となる
音声波形x(nT)が本来有するパワースペクトルを充
分近似する。
例えば第3図に例示される擬似音声波形を分析対象とす
る場合、積分区間Tsは検出されたピッチ周期−5ミリ
秒に設定される為、200ヘルツおよびその1lAll
波に関するパワースペクトルが得られ、擬似音声が本来
有するパワースペクトルP1乃至PIOに充分近似する
。なお無声音に対しては、予め定められた時間を積分区
間Tsとしてフーリエ変換を行う為、得られるパワース
ペクトラムは積分区間Tsにより定まる周波数の整数倍
のパワースペクトラムとなる。
以上の説明から明らかな如く、本実施例によれ・・・(
8) (8)式に(7)式を代入すると、(9)式が得られる
R(i)=Σ’;、IP、a4cos  (k ω、n
T + θ一番、ΣaicosNω?(n+i)T+θ
Jl″0 /P = X、唱、F:、ala7 (cos (k ω、n
 T+jω、(n+i)T+θ長+θJ )+  co
s  (kω、nT   j ω、(n+ i)+θA
−θJ 1)/(2P) ・・・(9) (9)式における積分区間を充分長くとると交流分が相
殺され、自己相関関数R(i)は直流分で近似可能とな
る。直流分はに=jで与えられ、顛式で表される。
(i) =著F、a4cos (kω、i T) /=、X、 
a4”cos (k ω、i T) / 2(2P) ・・・00) 自己相関関数R(i)にフーリエ変換を施すと、(11
)が得られる。
x(k ’ti。
一ΣR(i) 、、−7 =、Σ (1 ン cos(k’ ω、iT)/N / 4 )会、’a4”(cos (k + k ’ 
)ω、jT +  cos  (k−に’)  ω、iT)  /N
    −(11)(11)式において積分区間を充分
長くとれば、(9)および001式と同様に直流分のみ
が残る。直流分はに=k ’で得られ、(12)式で表
される。
X (k ’ ω、) = (1/ 4) a1’  
 ・・・(12)以上の如く、自己相関関数およびフー
リエ変換の演算においては、積分区間を充分に長く設定
することにより、交流分を相殺し直流分を抽出している
。然し実際の会話等においては、一つの音韻が発声され
ている時間は短い。従ってかかる音声波形から音韻単位
毎のパワースペクトルを求める為には、(9)式および
(11)式の積分区間は短いことが望ましい。
(9)式および(11)式に含まれる交流成分は、(角
)周波数ω、およびその整数倍の周波数成分から構成さ
れる。かかる場合には、周波数ω。01周期分に相当す
る区間、即ち1ピッチ周期T、を積分区間に設定すれば
、総ての交流分は相殺され、直流分のみが残る。
即ち自己相関関数およびそのフーリエ変換の演算におい
て、適当な手段により抽出したピッチ情報を利用し、積
分区間を1ピッチ周期成いはその整数倍とするならば、
高精度で、且つ積分区間が短い為に音韻の変動に追随し
易いパワースペクトル抽出方式が得られる。
次に音声波形x(nT)を無声音とすると、無性音は連
続的なスペクトルを持つ為、フーリエ変換は無数の周波
数成分について実行する必要があることとなるが、無声
音の持つスペクトル包絡の振動数の細かさに上限がある
ならば、スペクトル包絡は等間隔の標本値で表すことが
可能である。
それは周波数標本化定理によって与えられ、時間領域に
おいて区間長Tsの有限区間の波形スペクトルは1/(
2Ts)毎の線スペクトルで表すことが出来る。即ち無
声音も有声音と同様、線スペクトルの築合として考える
ことが出来、有声音についての議論はその侭無声音につ
いても成立する。
以上の処理過程を実際の音声に適用する場合、下記の修
正を行うことにより娯差が減少する。
■ 自己相関関数は余弦波成分だけを含み、正弦波成分
を含まないことはα0)式によって明らかである。また
余弦波は1/2ピッチ点において対称であり、余弦波成
分だけから成る自己相関関数も同様のことが成立つ筈で
あるが、実際の会話等においては音韻が連続的に変わり
、同一波形がピッチ周期で繰返されることは殆ど無い為
、自己相関関数は1/2ピッチ点において対称とならな
いことが多く、正弦波を含むこととなる。従って自己相
関関数のフーリエ変換は余弦変換だけでは無く正弦変換
についても実行し、パワースペクトルは両変換の自乗の
和の平方根として計算する必要がある。
■ また実際の音声はエネルギーも変動し、同し音韻で
もパワースペクトルの値に違いが生ずることになる。こ
れを防ぐ為に自己相関関数をエネルギーで正規化するに
は(13−1)式乃至(13−3)式等が考慮される。
R(i)  −Σx  (nT)  ・ x  (nT
+iT)/Σx  (nT)            
−(13−1)R(i)  −Σx  (nT)  ・
 x  (nT+iT)/ (1/2)  (ΣX”(
nT) +Σx  (nT+ i T)  l      ・=
  (13−2)R(i)  −Σx  (nT)  
・ x  (nT+iT)/〔(Σx’(nT)) ・ (Σx2(nT+ 1T)l  )”  −(13
3)実際の音声には(113)式が最も適合する。
■ また自己相関関数の演算に、ハミング窓等の如くサ
イドローブの小さい周波数特性を有する窓関数を用いる
と交流骨の減衰が大きくなり、積分区間を短く設定出来
、1算精度が向上する。また無声音の場合のフーリエ変
換にも同様の窓関数が利用可能である。
■ 最後に、前述においては、先ず自己相関関数を求め
、得られた自己相関関数に対しフーリエ変換を行うこと
によりパワースペクトルを抽出する方法を示したが、(
8)式および(11)式を纏めて(14)式の如く一度
に計算しても良く、また(14)式におりる演算順序を
入替えても支障ない。
X(k’ω、)−0ΣΣx (nT) 41 引− −x (nT+ i T)  coskω、i T/P
・・・ (14) なお音声波形のピッチ周期1.は、例えば自己相関関数
を用いる等21種々の公知の方法で求められる。
〔実施例〕
以下、本発明の一実施例を図面により説明する。
第1図は本発明の一実施例によるパワースペクトル抽出
方式を示す図である。なお、全図を通して同一符号は同
一対象物を示す。第1図においては、第2図に示される
フーリエ変換回路14にピッチ抽出回路15および自己
相関関数生成回路16が設けられている。第1図におい
て、久方端子1゜Oに到着した音声波形x(n7)は、
ピッチ抽出回路15および自己相関関数生成回路16に
伝達される。ピッチ抽出回路15は、受信した音声波形
x (nT)の自己相関関数R(i)を(8)式乃至α
0)式の過程により算出する。かがる自己相関関数R(
+)を時間iTを変化させて算定した場合、有声音の場
合には時間iTがピッチ周期T、に等しくなった場合に
1に近い値となり、それ以外の場合には1より充分小さ
い値となる。ピッチ抽出回路15は、算出した自己相関
関数R(i)を予め定められた闇値と比較することによ
り、■に近くなる時間工Tを音声波形のピッチ周期T、
と見做す。
また無声音にはピッチ周期は存在しない為、予め定めら
れた時間以内にピッチ周期T、が求められなかった場合
に、無声音と判定する。ピッチ抽出回路15は、有声音
と判定した場合には検出されたピッチ周期T、を積分区
間Tsとし、また無声音と判定した場合には予め定めら
れた時間長を積分区間T sとし、自己相関関数生成回
路16およびフーリエ変換回路14に伝達する。フーリ
エ変換回路14ではこの積分区間情報が積分器へ入力さ
れると共に、余弦核発生回路および正弦核発生回路にも
入力されて処理される。
自己相関関数生成回路16は、ピッチ抽出回路15から
伝達された積分区間Tsに基づき自己相関関数R(i)
を(8)式乃至00)式の過程により生成し、フーリエ
変換回路14に伝達する。
フーリエ変換回路14は、第2図におけると同様の過程
により、自己相関関数生成回路16がら伝達される自己
相関関数R(i)に対しピッチ抽出回路14から伝達さ
れる積分区間Tsに基づきフーリエ変換を施し、出力端
子13がらパワースペクトルを出力する。該パワースペ
クトルは、有声音の場合にはピッチ周期T、により定ま
る周波数の整数倍の周波数置きとなる為、分析対象とな
る音声波形x (nT)が本来有するパワースペクトル
を充分近似する。
例えば第3図に例示される擬似音声波形を分析対象とす
る場合、積分区間Tsは検出されたピッチ周期−5ミリ
秒に設定される為、200ヘルツおよびその高調波に関
するパワースペクトルが得られ、擬似音声が本来有する
パワースペクトルP1乃至PIOに充分近似する。なお
無声音に対しては、予め定められた時間を積分区間Ts
としてフーリエ変換を行う為、得られるパワースペクト
ラムは積分区間Tsにより定まる周波数の整数倍のパワ
ースペクトラムとなる。
以上の説明から明らかな如く、本実施例にょれば、ピッ
チ抽出回路15により求められたピッチ    〔発明
の効周期Tを積分区間Tsとして自己相関関数が求め 
   以上、奉られ、フーリエ変換が行われる為、音声
波形本来   において、のパワースペクトラムに充分
近似した分析結果が   追随可能な短時間に得られる
。                 よる音声波なお
、第1図はあく迄本発明の一実施例に過ぎ   なる。
ず、例えば積分区間Tsはピッチ周期に設定する   
48図面のものに限定されることは無く、ピッチ周期の
整数    第1図は倍に設定する場合にも、本発明の
効果は変わらな    トル抽出方い。またピッチ抽出
回路15は自己相関関数によ   変換を用いりピッチ
周期を求めるものに限定されることは無   )−例ヲ
示く、他に幾多の変形が考慮されるが、何れの場合  
 果を例示すにも本発明の効果は変らない。また本発明
の対象    図ニおいとするフーリエ変換回路は図示
されるものに限定   4.5.1されぬことは言・う
迄も無い。更に自己相関関数化   主回路、6成回路
16およびフーリエ変換回路14は個別に   路、8
およ設けるものに限定されることは無く、(14)式の
   出力端子、演算を種々の順序で行う手段を設ける
ことも考慮   1抽出回路されるが、何れの場合にも
本発明の効果は変わら   乃至PLOない。    
                    ベクトル、
果〕 発明によれば、前記音声分析システム 積分区間を音韻が刻々変動する音声に 如く短く設定し乍ら、フーリエ変換に 形の分析精度を向上することかり能と 簡単な説明 本発明の一実施例によるパワースペク 式を示す図、第2図はM数的フーリエ だ従来あるパワースペクトル抽出方式 ず図、第3図は第2図における分析績 る図である。
て、1および100は入力端子、2. 0および11は乗算器、3は窓関数発 は余弦核発生回路、7は正弦核発生回 び9は積分器、12は加算器、13は 14はフーリエ変換回路、15はビワ 1,16は自己相関関数生成回路、PlおよびP1′乃
至P32′はバワース Tsは積分区間、を示す。

Claims (2)

    【特許請求の範囲】
  1. (1)フーリエ変換を用いて音声波形からパワースペク
    トルを抽出する音声分析システムにおいて、分析対象と
    する音声波形からピッチを求める第1の手段と、該第1
    の手段が所定時間以内にピッチの抽出に成功した場合に
    は該ピッチまたはその整数倍に設定した時間長を、該第
    1の手段がピッチの抽出に不成功の場合には予め定めら
    れた時間長をそれぞれ積分区間として前記音声波形の自
    己相関関数演算処理およびフーリエ変換処理を行う第2
    の手段とを設けることを特徴とするパワースペクトル抽
    出方式。
  2. (2)前記第2の手段は、前記自己相関関数演算処理お
    よびフーリエ変換処理における処理過程を入替え行うこ
    とを特徴とする特許請求の範囲第1項記載のパワースペ
    クトル抽出方式。
JP15340984A 1984-07-24 1984-07-24 パワ−スペクトル抽出方式 Pending JPS6132100A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP15340984A JPS6132100A (ja) 1984-07-24 1984-07-24 パワ−スペクトル抽出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15340984A JPS6132100A (ja) 1984-07-24 1984-07-24 パワ−スペクトル抽出方式

Publications (1)

Publication Number Publication Date
JPS6132100A true JPS6132100A (ja) 1986-02-14

Family

ID=15561852

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15340984A Pending JPS6132100A (ja) 1984-07-24 1984-07-24 パワ−スペクトル抽出方式

Country Status (1)

Country Link
JP (1) JPS6132100A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63271572A (ja) * 1987-04-28 1988-11-09 Sharp Corp 自己相関係数の算出方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63271572A (ja) * 1987-04-28 1988-11-09 Sharp Corp 自己相関係数の算出方式

Similar Documents

Publication Publication Date Title
Morise Harvest: A High-Performance Fundamental Frequency Estimator from Speech Signals.
Nakatani et al. Robust and accurate fundamental frequency estimation based on dominant harmonic components
JP2763322B2 (ja) 音声処理方法
Shrawankar et al. Techniques for feature extraction in speech recognition system: A comparative study
US5450522A (en) Auditory model for parametrization of speech
Yegnanarayana et al. Processing of reverberant speech for time-delay estimation
Sukhostat et al. A comparative analysis of pitch detection methods under the influence of different noise conditions
EP2178082B1 (en) Cyclic signal processing method, cyclic signal conversion method, cyclic signal processing device, and cyclic signal analysis method
Mowlaee et al. Interspeech 2014 special session: Phase importance in speech processing applications
Mittal et al. Study of characteristics of aperiodicity in Noh voices
Morise Error evaluation of an F0-adaptive spectral envelope estimator in robustness against the additive noise and F0 error
Chennupati et al. Significance of phase in single frequency filtering outputs of speech signals
Prasad et al. Speech features extraction techniques for robust emotional speech analysis/recognition
Bellur et al. A novel application of group delay function for identifying tonic in Carnatic music
Ambikairajah Emerging features for speaker recognition
US20210201938A1 (en) Real-time pitch tracking by detection of glottal excitation epochs in speech signal using hilbert envelope
JPS6132100A (ja) パワ−スペクトル抽出方式
KR20050051435A (ko) 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법
Vestman et al. Time-varying autoregressions for speaker verification in reverberant conditions
Kodukula Significance of excitation source information for speech analysis
Gowda et al. AM-FM based filter bank analysis for estimation of spectro-temporal envelopes and its application for speaker recognition in noisy reverberant environments.
Lalitha et al. An encapsulation of vital non-linear frequency features for various speech applications
JP2898637B2 (ja) 音声信号分析方法
Park et al. Spatial separation of speech signals using continuously-variable masks estimated from comparisons of zero crossings
Krishnamoorthy et al. Application of combined temporal and spectral processing methods for speaker recognition under noisy, reverberant or multi-speaker environments