JPS6329280B2

JPS6329280B2 -

Info

Publication number: JPS6329280B2
Application number: JP17180982A
Authority: JP
Inventors: Tomio Sakata
Original assignee: Tokyo Shibaura Electric Co Ltd
Current assignee: Toshiba Corp
Priority date: 1982-09-30
Filing date: 1982-09-30
Publication date: 1988-06-13
Also published as: JPS5960500A

Description

【発明の詳細な説明】〔発明の技術分野〕この発明は、音声認識装置に使用される音響信
号分析装置に関する。

〔発明の技術的背景とその問題点〕

近年、音声認識装置は、各分野に多用されるな
ど、極めて有用な装置になりつつある。このよう
な音声認識装置は、基本的には入力音声信号を分
析して特徴パラメータ（スペクトルパラメータ）
を抽出する分析部、この分析部からのスペクトル
パラメータに正規化等の処理を行なう前処理部お
よび認識結果を出力する認識部とからなる。すな
わち、分析部で抽出されたスペクトルパラメータ
に基づいて、入力音声信号の音韻、音節、および
単語等の認識が行なわれることになる。

上記分析部は、音響分析装置からなり、上記ス
ペクトルパラメータとして、チヤネルフイルタに
よる周波数スペクトルが利用される。このチヤネ
ルフイルタは、例えばデジタルフイルタで、対象
周波数帯域を適当に分割するように周波数特性が
設定されたものである。

ところで、音声認識装置は、特定の話者だけを
対象とする特定話者用と、不特定多数の話者を対
象とする不特定話者用とに大別される。この中
で、特定話者用音声認識装置では、話者は予め自
分の声を標準パターンとして登録しておく必要が
ある。これは、同一の音韻、単語であつても、音
響分析装置により得られる特徴パラメータからな
るパターンは、話者によつて変動しまた同じ話者
でもその時々によつて相当変動するからである。
この変動は、通常、発声者毎の発声器官形状の相
違に起因する周波数方向の変動、および発声の仕
方の相違に起因する時間軸方向の変動に大別でき
る。従来では、上記の変動の中で時間軸方向の変
動は、不等間隔サンプリング、ダイナミツクプロ
グラミング等の手段により吸収されていた。しか
しながら、周波数軸方向の変動に対しては、これ
を吸収するための効果的な手段がなかつた。その
ため、話者毎に全ての標準パターンを登録する必
要があり、認識対象語数が増加した場合には標準
パターンの登録が話者にとつて大きな負担にな
る。また、多くの話者の標準パターンを登録して
おくことになるため、標準パターンを記憶するメ
モリは大容量のものが必要となる欠点があつた。

〔発明の目的〕

この発明は上記の事情を鑑みてなされたもの
で、特定話者用音声認識装置において、話者毎の
周波数軸方向の変動に影響されない特徴パラメー
タを抽出して、認識に必要な標準パターンの登録
量を特別に大きくすることなく、確実に音声認識
を行なうことができるようにした高性能の音響分
析装置を提供することを目的とする。

〔発明の概要〕

すなわち、この発明においては、周波数分析用
の例えばデジタルフイルタであるチヤネルフイル
タを構成する各BPFの周波数特性を、話者毎の
周波数軸方向の変動を吸収するように可変設定す
る。この手段として、予め設定される標準スペク
トルパラメータとチヤネルフイルタから出力する
スペクトルパラメータに基づいて、制御パラメー
タ計算手段により所定の制御パラメータを求め
る。この制御パラメータに基づいて、話者に適合
した周波数特性、すなわち標準スペクトルパラメ
ータに適合するようなチヤネルフイルタの周波数
特性を設定するようなフイルタパラメータをフイ
ルタパラメータ計算手段より求めるものである。

〔発明の実施例〕

以下図面を参照してこの発明の一実施例につい
て説明する。図はこの発明に係る音響分析装置の
構成を示すブロツク図である。図中、１はアナロ
グ・デジタル変換部（以下Ａ／Ｄ変換部と称す
る）で、アナログ信号である音声入力信号Ｓを量
子化されたサンプル値のデジタル信号系列に変換
する。デジタルフイルタ部２は、上記デジタル信
号系列が与えられ、フイルタパラメータＦに基づ
いて周波数分析を行なつて、音声入力信号Ｓに対
応するスペクトルパラメータ（特徴パラメータ）
Ｐを抽出し出力する。フイルタパラメータＦは、
フイルタパラメータ計算部３により算出されて設
定される。このフイルタパラメータ計算部３は、
制御パラメータＡと標準フイルタパラメータＢと
に基づいて、入力信号Ｓの発生源である話者の声
道特性に適合したデジタルフイルタ部２の周波数
特性を得ることができるようなフイルタパラメー
タＦを算出する。標準フイルタパラメータＢは、
予め標準フイルタパラメータメモリ４に格納され
ている。また、制御パラメータＡは、制御パラメ
ータ計算部５で算出されて出力する。この制御パ
ラメータ計算部５は、スペクトルパラメータＰお
よび標準スペクトルパラメータＲとに基づいて制
御パラメータＡを算出して出力する。標準スペク
トルパラメータＲは、予め音韻カテゴリ毎に標準
スペクトルパラメータメモリ６に格納されてい
る。そして、例えばキーボード等の外部入力装置
（図示せず）から与えられる音韻カテゴリコード
Ｃにより、そのコードＣに対応する標準スペクト
ルパラメータＲがメモリ６から選択されて出力す
る。

このような構成において、その動作を説明す
る。いま発声者から発声した音声入力信号Ｓは、
Ａ／Ｄ変換部１でサンプリング、量子化されてデ
ジタル値の時系列信号Ｄとして変換される。デジ
タルフイルタ部２は、ｎチヤネル分のバンドパス
フイルタ（BPF）の機能を有し、上記のような
デジタル信号Ｄに対して各チヤネルのBPF出力
を時分割で計算し、１フレーム毎にｎチヤネル分
の周波数スペクトルパラメータセツトP₁〜Pnを
出力する。この場合、標準フイルタパラメータＢ
が、標準フイルタパラメータメモリ４からフイル
タパラメータ計算部３を介して、そのままフイル
タパラメータＦとしてデジタルフイルタ部２に与
えられる。すなわち、デジタルフイルタ部２は、
標準の周波数特性で動作することになる。さら
に、発声者は、発声する音韻のカテゴリコードＣ
をキーボード等により与える。このコードＣによ
り、標準スペクトルパラメータメモリ６は、その
カテゴリコードに対応する音韻の標準スペクトル
パラメータセツトＲを制御パラメータ計算部５へ
出力する。制御パラメータ計算部５は、このパラ
メータセツトＲを一時的に記憶する。一方、発声
者の音声信号Ｓから抽出された上記スペクトルパ
ラメータセツトの系列Pi₁〜Pin（ｉ＝１、２…ｎ）
も制御パラメータ計算部５へ与えられる。

制御パラメータ計算部５は、スペクトルパラメ
ータセツトの系列Pi₁〜Pinから適当なフレームｊ
のスペクトルパラメータセツトPj₁〜Pjnを抽出
し、これを一時的に記憶しておく。この場合、フ
レームｊの選択方法としては、音声区間中でエネ
ルギーが最大になるフレーム、または隣接フレー
ム間のスペクトル変化が最小になるフレーム等が
考えられる。そして、発声者が、予め決められた
種類の音韻を入力し終ると、制御パラメータ計算
部５では下記のような方法により、制御パラメー
タＡを算出する。いま、仮に発声者から与えられ
る音韻数が３つの場合とする。この場合、入力さ
れた音韻から抽出した３種類のスペクトルパラメ
ータセツトＰおよび標準スペクトルパラメータセ
ツトＲを下記のようになるとする。すなわち、のように、それぞれ行列で表現される。

ここで、 Pij：ｉ番目の入力音韻のｊチヤネルのパラメー
タ値。

Rij：ｉ番目の標準音韻のｊチヤネルのパラメー
タ値。

であり、「ｉ＝１〜３」および「ｊ＝１〜ｎ」で
ある。そして、制御パラメータＡはのように三重対角行列で表現されるとする。そし
て、スペクトルパラメータセツトＰおよび標準ス
ペクトルパラメータセツトＲとの間には、下記の
ような関係式が成立するものとする。

Ａ・Ｐ＝Ｒ …(4) 即ち、制御パラメータＡは発声者の音声信号から
抽出された音声スペクトルパラメータセツトＰと
標準スペクトルパラメータセツトＲとの関係を表
わす行列（射影行列）である。上記式(4)から、制
御パラメータＡはＡ＝Ｒ・P⁺ …(5) で与えられる。ここで、P⁺はＰの一般逆行列で
あり、「P⁺＝（P^T・Ｐ）^-1・P^T」の式で求めること
ができる。但し、P^Tは転置行列である。ところ
で、上記式(3)に示すように、制御パラメータＡが
３重対角行列で表現されるのは、入力音韻スペク
トルＰの標準スペクトルＲに対するずれが隣接し
たチヤネル範囲内におさまると仮定できるとした
場合である。これに対して、上記ずれがもつと大
きい場合には、さらに広い帯行列で表現する必要
があり、そのため入力する音韻の種類もそれに合
わせて増加する必要がある。

上記のようにして求められた制御パラメータＡ
は、フイルタパラメータ計算部３に与えられる。
フイルタパラメータ計算部３は、制御パラメータ
Ａおよび標準フイルタパラメータＢとから、新た
なフイルタパラメータＦを算出して、その結果を
デジタルフイルタ部２に出力する。具体的には、
フイルタパラメータ計算部３では下記のような手
法により、フイルタパラメータＦを算出する。ま
ず、制御パラメータA₁₁〜Annより、以下のよう
に修正用パラメータE₁₁〜Ennを求める。

即ち、 Eii＝１−Aii（ｉ＝１〜ｎ） …(6) Eij＝Aij（ｉ＝１〜ｎ、ｊ＝ｉ−ｇ〜ｉ＋ｇ、ｉ
≠ｊ） …(7) ここで、ｇは上記式(3)の帯行列の幅をｍとする
と、「ｇ＝（ｍ−１）／２」で与えられる。上記式
(6)、(7)のEii、Eijの意味は以下のように解釈でき
る。即ち、Eii（Eij）は発声者の音声信号から抽
出された音声スペクトルパラメータセツトＰのう
ち第ｉチヤネル（第ｊチヤネル）のスペクトル値
に基づく第ｉチヤネルのフイルタパラメータの修
正の程度を表わすパラメータである。従つて、発
声者の音声信号から抽出されたスペクトルパラメ
ータセツトＰと標準スペクトルパラメータセツト
Ｒが一致する場合には、上記式(4)からＡは単位行
列「Aii＝１、（ｉ＝１〜ｎ）、Aij＝０、（ｉ、ｊ
＝１〜ｎ、ｉ≠ｊ）となるので、Eii、Eijは上記
式(6)、(7)より「Eii＝０、（ｉ＝１〜ｎ）」、「Eij＝
０、（ｉ、ｊ＝１〜ｎ）、ｉ≠ｊ）」、即ち修正無と
いうことになる。

そして、標準フイルタパラメータを〓１＝（α11…α11）〓２＝（α21…α21）〓〓〓ｎ＝（αn1…αn1）とし（尚、１は各チヤネルのフイルタパラメータ
数）、さらに話者毎の周波数軸方向の変動を吸収
するためのフイルタパラメータの修正項を、 δ〓１＝（δα11…δα11） δ〓２＝（δα21…δα21）〓〓 δ〓ｎ＝（δαn1…δαn1）とするとき、修正項δ〓ｉ（ｉ＝１〜ｎ）を下記
式(8)により求める。

そして、発声者に適合した新たなフイルタパラ
メータを〓′１＝（α′11…α′11）〓′２＝（α′21…α′21）〓〓〓′ｎ＝（α′n1…α′n1）とすると、〓′ｉ（ｉ＝１〜ｎ）をにより求める。即ち、発声者の音声信号から抽出
されたスペクトルパラメータセツトＰと標準スペ
クトルパラメータセツトＲとから式(6)、(7)によつ
て求められる修正パラメータEii、Eijにより標準
パラメータの摂動を行ない、各話者に適合したフ
イルタパラメータを決定する。このようにして、
算出されたフイルタパラメータＦがデジタルフイ
ルタ部２に与えられ、デジタルフイルタ部２は、
フイルタパラメータＦにより定まる周波数特性を
有するチヤネルフイルタとして動作する。

このようにして、複数の音韻カテゴリに対応す
る周波数スペクトル（標準スペクトルパラメータ
Ｒ）に基づいて、デジタルフイルタ部２を構成す
る各BPFの周波数特性を所定の値に変更するこ
とができる。したがつて、発声者からの音声信号
Ｓが、発声者の発声器官構造の相違等に起因して
その音声の周波数特性に変動を生じても、その変
動に応じてデジタルフイルタ部２の周波数特性を
可変できるため、周波数軸方向の変動を吸収でき
ることになる。そのため、発声者毎の周波数変動
が除去された安定なスペクトルパラメータ（特徴
パラメータ）を抽出することができる。

なお、上記実施例において、制御パラメータＡ
およびフイルタパラメータＦを算出するためのア
ルゴリズムは他のものでもよい。また、デジタル
フイルタ部２は、例えばクロツク周波数により周
波数特性の可変なスイツチト・キヤパシタフイル
タ等のチヤネルフイルタでもよい。

〔発明の効果〕

以上詳述したようにこの発明によれば、特定話
者用音声認識装置において、話者（発声者）毎の
周波数軸方向に対する変動に影響されない安定な
音声の特徴パラメータを抽出できる。したがつ
て、音声認識に必要な標準パターンの登録量を特
別に大きくすることなく、確実に音声認識を行な
うことができるものである。

【図面の簡単な説明】

図はこの発明の一実施例に係る音響分析装置の
構成を示すブロツク図である。２……デジタルフイルタ部、３……フイルタパ
ラメータ計算部、４……標準フイルタパラメータ
メモリ、５……制御パラメータ計算部、６……標
準スペクトルパラメータメモリ。

Claims

【特許請求の範囲】

１フイルタパラメータの設定により周波数特性
が可変され音響入力信号に対応するスペクトルパ
ラメータを抽出するチヤネルフイルタ手段と、予
め音韻カテゴリ毎に設定される標準スペクトルパ
ラメータを記憶するメモリと、このメモリからの
標準スペクトルパラメータおよび上記チヤネルフ
イルタ手段からのスペクトルパラメータに基づい
て所定の制御パラメータを算出する制御パラメー
タ計算手段と、上記制御パラメータに基づいて上
記標準スペクトルパラメータに適合するような上
記フイルタ手段の周波数特性を設定するための上
記フイルタパラメータを算出するフイルタパラメ
ータ計算手段とを具備することを特徴とする音響
信号分析装置。