JPS61105600A

JPS61105600A - 連続音声認識装置

Info

Publication number: JPS61105600A
Application number: JP59227089A
Authority: JP
Inventors: 桜庭　孝宏
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1984-10-29
Filing date: 1984-10-29
Publication date: 1986-05-23

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は音声特徴抽出部から得られた大刀パターンと標
準パターンとを照合するとき、連続動的計測法照合距離
を所定値で限定して候補を少なくし、認識に要する時間
を短くした連続音声認識装置に関する。

し従来の技術］複数の音声が連続的に発声されたとき、それを―識する
研究が進んでいる。第１方式は、連続単語であっても単
語境界における音声パワーの落込みがあるため、それを
検出し、単語を個別に区分する。（区分操作をセグメン
テーションという）。

区分された単語毎に標準パターンと照合して認識する。

第２方式は動的計画法（ダイナミックプログラミング法
、以下本明細書において動的計画法をＤＰと略記する）
による照合を使用することであり、連続単語について区
間を全部の組について取り出して標準パターンと照合す
る。即ち第６図に示すように、マイクロホン１から取込
んだ音声を音声特徴抽出部２に入力し、特徴を抽出して
入力パターンバンファに格納する。このとき区間とは「
音声認識」という文字列を文字単位（実際には音声パタ
ーンの１フレ一ム単位）で表すと、音声認織音声声認認識音声認声認識音声認識のように、文字（実際には音声パターンの１フレーム）
を並べて得る総ての組合せを区間と云う。

そして標準パターン辞書部４に格納されている標準パタ
ーンとパターン照合部５において順次に総てを照合し、
文レベル動的計画法による照合部６において、最適な単
語の組合せを求め、認識結果とする。

このとき第７図に示すように標準パターンを縦軸、入力
パターンバッファからの成る入力パターンを横軸に取り
、パターン照合部５において始端から処理を開始する。

パターンの大きさくフレーム）が判っているから終端の
位置が定まっていて、始終端間距離（照合距離）が最小
のものを最適マンチングルートとし、それを正答として
導出する。

［発明が解決しようとする問題点］第１方式は連続小諸についてセグメンテーションの操作
が極めて難しく、認識率を高く確保することが容易でな
い。

また第２方式は第１方式と比較し高認識率が得られるが
、演算量が格段に大きく、処理時間を長く要する欠点が
あった。更（連続動的計画法により候補を限定した上で
、区間別候補を求める方法による認識装置も、本発明者
が発明しているが、そのときは入力パターンと複数の標
準パターンとを、連続ＤＰ照合を行い、その結果与えら
れる入力パターンの各フレーム毎を終端とする標準パタ
ーン毎の照合距離から、各フレーム毎の終端候補を選択
している。このため入力パターンの全フレームに終端候
補が存在し、以降の単語始終端レヘルＤＰをそれら全部
の終端候補について行っているから、処理時間を長く要
する。

［問題点を解決するための手段］前述の問題点を解決するため本発明の採用した手段は、
複数の単語を連続的に発声した音声を音声特徴抽出部に
おいて入力パターンに変換し、該パターンを複数の標準
パターンと照合し区間別候補を選択して、各区間の照合
距離が最小となるものを求め、認識結果を得る連続音声
認識装置において、入力パターンと標準パターンについ
て連続動的計画法による照合を実施する部と、該照合部出力について所定値で標準パターンを限定する
部と、該限定部出力から入力パターンの各フレーム毎に
フレームを終端（又は始端）とする複数個の標準パター
ンを候補として選択する部と、該選択部出力について与
えられた各フレーム毎の候補を、始端（又は終端）方向
への動的計画法による照合を行う部と、与えられた部分区間照合距離から各桁毎の距離の合計が
最小になるような組合せを求める部と、を具備し、該組
合せを求める部の出力から認識結果を得ることである。

［作用］本発明では連続ＤＰ照合の結果から終端候補のフレーム
を限定しているので、効率良く認識のできる連続単語認
識装置が得られる。

［実施例コ第１図は本発明の実施例を示すブロック構成図である。

第１図において１は音声認識装置に対し音声を入力する
マイクロホン、２は音声特徴抽出部、３は入力パターン
バッファ、４は標準パターン辞書部、１１は認識結果処
理部、７は入力パターンと辞書パターンについて連続Ｄ
Ｐによる照合を実施する部、１２は照合部７の出力につ
いて連続ＤＰ照合距離を求め、且つ所定値で標準パター
ンを限定する部、８は終端候補選択部で、前記限定する
部７の出力について入力パターンの各フレーム毎にフレ
ームを終端とする標準パターンを選択する部、９は逆時
間ＤＰ照合部で前記選択部８の出力について与えられた
出力を候補とし、始端方向へのＤＰ照合法による照合を
行い、区間照合距離を求める部、１０は部分区間候補選
択部、６は文レベルＤＰ照合で与えられた部分区間照合
距離から各桁毎の距離の合計が最小になるような組合せ
を求める部を示す。

付に第１図の装置について動作を説明する。当初音声認
識装置の使用者は、マイクロホンｌから連続単語の音声
を入力し、音声特徴抽出部２において照合用の音声パタ
ーンに変換し、入力パターン・バッファ３に格納する。

次に標準パターン辞書部４に格納しである複数の標準パ
ターンと、入力パターンバッファ３の読出し出力である
入力パターン情報とを、連続ＤＰ照合部７において照合
する。

このとき入力音声パターンＡを次のように表す。

Ａ　＝　ａ　（１）、　　ａ　（２１，ａ　（３）−ａ
　（ｍｌ−−−ａ　　（１）ここでａ　（ｍ）はフレー
ムｍにおけるパラメータで周波数方向に例えば１６個に
区分し、各区分におけるパワースペクトルの大きさく振
幅値）で示す。

■は入力パターンの終端フレームで且つＡの語長を意味
する。

標準音声パターンは単語ｎをＢ　（ｎｌとしてＮ個のパ
ターンを次のように表す。

Ｂ（ｎＬ＝ｂ　（Ｌｎ　）　、　　ｂ　（２，ｎ　）−
−ｂ　（ｊ、ｎ　：１−−−−−−ｂ　［Ｊ　（ｎ）、
　　ｎ　］ｂ　（ｊ、　　ｎ）は単語ｎのフレームｊにおけるパラ
メータで入力音声と同様に例えば１６個に区分してパワ
ースペクトルの大きさを示す。

Ｊ　（ｎ）は単語ｎの出力フレームで且つＢ　（ｎｌの
語長を意味する。

このような入力パターンと標準パターンを横軸・縦軸に
取ったとき、連続ＤＰ照合法は第７図と異なり、第２図
のようになる。即ち入力パターンの任意のフレームを終
端とし且つ始端はフリーとなるＤＰ照合を行う方法をい
う。

連続ＤＰ照合部７におけるパターンの照合により入力パ
ターンの中に存在する最適な対応区間が自動的に抽出さ
れて照合距離８が求められる。この結果により入力パタ
ーン中に標準パターンＢ　（ｎｌが存在しそうか、或い
は存在しそうな場合に入力パターンＡのどのフレームを
出力とするか、が容易に求められる。その理由を以下に
説明する。

標準パターンＢと入力パターンのベクトル間距離ｄ　　
（ｉ、ｊ）を求める。成るフレームＢ（ｊｌとＡ　（ｉ
）について前記１６個の対応するチャネル毎に絶対値の
差をとって、累積したものを求め、それをベクトル間の
距離ｄ　（ｉ、ｊ）という。また累積して行く距離をｇ
と表す。このとき対称型演算法を取ると、標準パターン
ｊ＝１のとき、ｇ　（ｉ、ｊ）＝ｄ　　（ｉ、ｊ）入力パターンｉ＝ｌ、ｊ＞ｌのとき、ｇ　（Ｌｊ　）　＝ｄ　　（１，ｊ　）　＋ｇ　（１，
ｊ　　−１）若し、ｉ＞１のとき、今人カバターンのフレームｍを出力とするＢ　（ｎｌの
連続ＤＰ照合距離をＤｃ　（ｍ、ｎ　）で表現する。Ｄ
Ｃ（ｍ、ｎ　）はこのままでは、Ｂ　（ｎ）の個々の語
長Ｊ（ｎ）によって、短いもの程値が小さくなる傾向が
出るため、Ｊ　（ｎ）を２倍した値で各ＤＣ（ｍ、ｎ　
）の値を割り時間正規化を行って、ＤＲ（ｍ、ｎ　）を
求める。

ＤＲ（ｍ、ｎ　）　＝ＤＣ（ｍ、ｎ、）　／２　Ｊ（ｎ
）ここで２Ｊ（ｎｌを用いるのは、正しくマツチングし
た場合は対応する入力パターン長はＪ　（ｎｌに近い値
を取ると仮定しているからである。何等かの手法で連続
ＤＰ距離即ちＤＣ（ｍ、ｎ　）のフレームｍに対する始
端Ｌ　（ｍ、ｎ　）が判明している場合には、ＤＲ（ｍ
、ｎ　）＝ＤＣ（ｍ、ｎ　）　／　（Ｊ（ｎ）＋　（ｍ　−Ｌ　
（ｍ、ｎ　）　＋１））の演算を行っても良い。

このＤ　Ｒ（ｍ、ｎ　）について調べてみると、第２図
に示すように、標準パターンとうまく照合するような経
路（太線で示す）を通ったフレームでは、ＤＣ（ｍ、ｎ
　）の値が小さく、そうでないフレームでは大きい値を
とるため、この特性からその標準パターンの終端フレー
ムを他の標準パターンの距離ＤＲとの比較無しに限定す
ることができる。そのため第３図に示すように距離ＤＲ
に成る閾値ＤＲＴＨを設け、ＤＲＴＨより小さければ、
そのフレームはその標準パターンの出力フレームと合致
している可能性が高いとする。そうでなければ終端フレ
ームと合致する可能性が低いとして以降の終端候補選択
の候補には含めないようにする。また更に限定するため
にＤＲＴＨを下廻った連続するフレーム内で最も値の小
さいフレームを１個選択することにより、終端候補を少
なくすることも可能である。

勿論余りに終端候補を限定すればそれだけ単語境界が限
定されるために、正しい単語境界が入らなかった場合に
誤認識を起こすことになる。この限定されたＤ　Ｒ（ｍ
、ｒ＋　）をＤＳ　（ｍ、ｓ　）とし、ＤＲＴＩ（より
大きいものについては、最大値を設定して区別できるよ
うにする。

次に終端候補選択部８においてフレーム対応に候補を絞
り込む。そのためＤＳ　（ｍ、ｎ　）をｍフレーム毎に
Ｃ（ＩｌｉＩの終端候補を選択する。若しそのフレーム
に終端候補が０個以下しか無い場合には、全部を採用す
る。勿論候補が無い場合には、そのフレームには終端候
補がないものとする。以上により選択された終端候補の
単語ｎ−ｔ−ＮＥ（ｍ、ｃ　）に設定する。終端候補が
無い場合は“Ｏ”を設定する。第４図は、第３図におい
てＤＲＴｆ（以下となった場合を終端候補としたＤ　Ｓ
　（ＪＩＩ、ｎ　）と、Ｃが２個の場合のＮＥ　（ｍ、
ｃ　）の例を示す。即ちＤＳ（ｍ。

ｎ）はｎ毎に異なった距離特性を示し、このＮ個の距離
パターンをｍ毎に値の小さいものから、最大Ｃ個選択し
て、ＮＥ　（ｍ、ｃ　）に設定する。なお第４図の斜線
の部分には候補が無いことを示している。

同様に第５図は、照合距離がＤＲＴＨ以下の連続するフ
レーム内での最小値のフレーム１個を終端候補とした場
合のＤ　Ｓ　（ｍ、ｎ　）とＮＥ　（ｍ、ｃ　）との関
係を示す図である。この場合は第３図の場合に比べ、大
幅にＮ　Ｅ　（ｍ、ｃ　）の候補が少なくなっている。

ただし入力パターンの終端候補フレームに限らず候補が
残るようにする必要がある。

次に逆時間ＤＰ照合部９において、前記標準パターンＢ
　（ｎｌの始端を決定し、ＤＰ距離を演算する。

そのためＮ　Ｅ　（ｍ＋ｃ　）で示される終端候補を逆
時間方向にＤＰすることにより、始終端のＤＰ距離を求
める。（この処理を逆時間ＤＰマツチングと呼ぶ。）逆
時間ＤＰでは通常のＤＰを単にパターンを時間方向で反
転し照合するもので、入力パターンＡの部分区間ρ−ｍ
のＤＰ距離を求めることである。ここでＤＰの演算手法
として対称法を用いるものとする。

次に逆時間ＤＰ照合部９の出力ＤＩ（ρ、　ｍ、ｃ　）
につき、部分区間候補選択部１０において時間正規化す
る。即ち逆時間ＤＰマ・７チングにより求めたＤＩ’（
ρ、　ｍ、ｃ　）を、部分パターン長ｍ−ρ＋１と標準
パターン長Ｊ　（ＮＥ”（ｍ、Ｃ））との和で割算し、
時間正規化したＤＩＲ（ρ、ｍ、ｃ）とする。

ＤＩＲ（ρ、ｍ、ｃ）＝Ｄ　Ｉ　　（Ｉ２．　　ｍ、　　ｃ）　　／　　（Ｊ
　　（ＮＥ　　（ｍ、ｃ　）　　）＋　　（ｒＨ−ρ＋
１））このＤ　Ｉ　Ｒ（Ｉ２．　ｍ、　　ｃ）をＣについて最
小のものを選択してＤ（ρ、ｍ）として、対応する標準
パターンｎをＮＳ　（Ｉ２．　ｍ）に設定する。若し終
端候補が無い場合は、ＮＳ　（Ｉ２．　ｍ）に“０”を
、Ｄ　（Ｉ２．　ｍ）に最大値を設定しておく。

Ｄ（ρ、　ｍ）　＝　ｍｉｎ　［ＤＩＲ（Ｉ２．　ｍ、
　　ｃ）　］ＮＳ　（ρ、ｍ）＝ＮＥ　［ｍ、　　ａ　ｒｇ　ｍｉｎ　（ＤＩＲ（Ｉ２
．　ｍ、　　ｃ）　）　］このＤ　Ｄ’、　ｍ）とＮＳ
　（１２，ｍ）によって、部分パターンρ−ｍの最適な
照合距離と照合相手が決定される。

それから部分区間候補選択部工０の出力につき文レベル
ＤＰ照合部６において組合せ（単語の結合）を求める。

ここで連続単語における単語を先頭から１桁目、２桁目
、−ｘ桁目という表現で位置関係を表現する。

（イ）１桁目の設定１桁目は入力パターンの始端フレームからフレ−ムｍの
部分区間の距離をＴ（ｍ、１）に設定する。　　　Ｔ　
（ｍ、１）＝Ｄ　（１，ｍ）その標準語をＮＴ　（ｍ、
１）に設定する。

ＮＴ　（ｍ、１）＝ＮＳ　（１，ｍ）その標準語の始端が何処であるかをＬＴ　（ｍ、１）に
設定する。

ＬＴ　（ｍ、１）＝１ここで部分区間候補が存在しないＤ　（１，ｍ）につい
ては、処理を行わず、ＮＴ　（ｍ、　　１）に“０”を
、Ｔ（ｍ、Ｌ）に最大値を設定しておく。

（ロ）Ｘ桁目の設定Ｘ桁目ではρの位置が未定のため次のＤＰ漸化式で決定
する。

Ｔ　（ｍ、ｘ　）　＝　ｍｉｎ　［Ｄ　（ρ、　ｍ）　
　＋Ｔ　（、＋２．　　Ｘ−１）Ｊえ（閏＋Ｔ（ρ、ｘ−１））　、、ｍ］Ｔ（Ｊ２．ｘ−１）コこの場合もＤ（ｕ、ｍ）とｍについて部分区間候補が存
在し無い場合は処理しないで、ＮＴ　（ｍ、ｘ　）に“
０′を、Ｔ　（ｍ、ｘ　）に最大値を、またＬＴ　（ｍ
、ｘ　）には不定値で良いが“１”を設定しておく。

次に文レベルＤＰ照合部１０における照合結果Ｔ　（ｍ
、、Ｘ　）から入力単語の桁数Ｘを求める。

Ｘ＝ａ　ｒ　ｇ　ｍｉｎ　［Ｔ　（１，ｘ）　／ｘ］ズ ■は入力パターン終端フレームである。

最後に認識結果処理部１１において前記ＬＴ　（ｍ、ｘ
　）とＮＴ　（ｍ＋χ）からＸ桁の認識結果を求める。

Ｘ桁の認識結果はＮ　Ｒ（Ｘ）と、またＮ　Ｒ（Ｘ）の
始端フレームをＬ　（Ｘｌとする。

（イ）Ｘ桁目の認識結果ＮＲ（Ｘ）＝ＮＴ　（Ｉ、Ｘ）Ｌ　（Ｘ）＝ＬＴ　（１，Ｘ）（ロ）Ｘ−Ｘ桁目の認識結果ＮＲ（Ｘ−ｙ）　　　＝ＮＴ　　　［Ｌ　　　（Ｘ−ｙ
＋１ン、　　　ｘ−ｙｌＬ　　（Ｘ−１）＝ＬＴ　　［
Ｌ　　（Ｘ−ｙ＋１）、　　Ｘ−ｙノ以上により認識結
果Ｎ　Ｒ（Ｘｌが求められる。

なお以上の説明では、単語終端候補レベルＤＰを順時間
方向に処理して終端候補を求めたが、逆時間方向に連続
ＤＰ照合を行って始端候補を求め、単語始終端レベルＤ
Ｐで順時間のＤＰにより、部分区間候補を求めても同様
な認識が可能である。

［発明の効果］このようにして本発明によると、終端候補の存在するフ
レームを大幅に限定する手法を用いて音声認識装置を得
ているから、始終端レベルＤＰを行う量が大幅に減少し
、連続ＤＰ照合法を使用していて、要処理時間を短くし
た効率の良い装置となっている。

【図面の簡単な説明】

第１図は本発明の実施例を示すブロック図、第２図、第
３図は連続ＤＰ照合法の説明図、第４図、第５図は終端
候補選択部の動作説明図、第６図は従来の連続単語認識
装置を示す図、第７図はＤＰ照合法の説明図である。１−・マイクロホン２−・−音声特徴抽出部３−　　人カバターンバッファ４−標準パターン辞書部６−・文レベルＤＰ照合部７一連続ＤＰ処理部８−終端候補選択部９−逆時間ＤＰ照合部１０・一部分区間候補選択部１１・−認識結果処理部１２−終端候補フレーム限定部特許出願人　　　　富士通株式会社代理人　　　　　弁理士　鈴木栄祐入力バゲーン入力フレ弘　　　　　　　　　　　　　第　３　間第４
図第５図

Claims

【特許請求の範囲】複数の単語を連続的に発声した音声を音声特徴抽出部に
おいて入力パターンに変換し、該パターンを複数の標準
パターンと照合し区間別候補を選択して、各区間の照合
距離が最小となるものを求め、認識結果を得る連続音声
認識装置において、入力パターンと標準パターンについ
て連続動的計画法による照合を実施する部と、該照合部出力について所定値で標準パターンを限定する
部と、該限定部出力から入力パターンの各フレーム毎に
フレームを終端（又は始端）とする複数個の標準パター
ンを候補として選択する部と、該選択部出力について与
えられた各フレーム毎の候補を、始端（又は終端）方向
への動的計画法による照合を行う部と、与えられた部分区間照合距離から各桁毎の距離の合計が
最小になるような組合せを求める部と、を具備し、該組
合せを求める部の出力から認識結果を得ることを特徴と
する連続音声認識装置。