JPS61105599A

JPS61105599A - 連続音声認識装置

Info

Publication number: JPS61105599A
Application number: JP59227088A
Authority: JP
Inventors: 桜庭　孝宏
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1984-10-29
Filing date: 1984-10-29
Publication date: 1986-05-23

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は音声特徴抽出部から得られた入力パターンと標
準パターンとを照合するとき、類似語句が含まれている
複数の単語が連続的に発声されても、誤りなく認識する
連続音声認識装置に関する。

［従来の技術］複数の単語が連続的に発声されたとき、それを認識する
研究が進んでいる。第１方式は、連続単語であっても単
語境界における音声パワーの落込みがあるため、それを
検出し、単語を個別に区分する。（区分操作をセグメン
テーションという）区分された単語毎に標準パターンと
照合して認識する。

第２方式は動的計画法（ダイナミックプログラミング法
、以下本明細書において動的計画法をＤＰと略記する）
による照合を使用することであり、連続単語について区
間を全部の組について取出して標準パターンと照合する
。即ち第５図に示すように、マイクロホン１から取り込
んだ音声を音声特徴抽出部２に入力し、特徴を抽出して
入力パターンハフファに格納する。このとき区間とは「
音声認識」という文字列を文字単位（実際には音声パタ
ーンの１フレ一ム単位）で表すと、音声認識音声声認認識音声認声認識音声認識のように、文字（実際には音声パターンの１フレーム）
を並べて得る総ての組合せを区間と云う。

そして標準パターン辞書部４に格納されている標準パタ
ーンとパターン照合部５において順次に総てを照合し、
文レベル動的計画法による照合部６において最適な単語
の組合せを求め、認識結果とする。

このとき第６図に示すように標準パターンを縦軸、入力
パターンバッファからの成る入力パターンを横軸にとり
、パターン照合部５において始端から処理を開始する。

パターンの大きさくフレーム）が判っているから終端の
位置が定まっていて、始終端間距離（照合距離）が最短
のものを最適マツチングルートとし、それを正答として
導出する。

［発明が解決しようとする問題点］第１方式は連続単語についてセグメンテーションの操作
が極めて難しく、認識率を高く確保することが容易でな
い。

また第２方式は第１方式と比較し高認識率が得られるが
、演算量が格段に大きく、また標準パターンと入力パタ
ーンとに類似語句が含まれているときは、誤認識を起こ
し易い欠点があった。即ち第６図に示すように、入力パ
ターンに「東大阪」という単語が入った場合、標準パタ
ーンに「東大阪」と「大阪」との両者が含まれていると
、両者をフレームｍの終端候補で選択するとき、フレー
ムｐからフレームｍまで一致するマツチングルートが存
在して「東大阪」　「大阪」の照合距離に大差がないか
ら、ｒ東大阪」が正答として選択されるとは限らない。

若しフレームｍの終端候補に「大阪」が選択された場合
には、以後の処理でもフレームｍが境界点になる場合に
は「大阪」しか候補にならないため、誤認識を起こす欠
点があった。

［問題点を解決するための手段］前述の問題点を解決するため本発明の採用した手段は、
複数の単語を連続的に発声した音声を音声特徴抽出部に
おいて入力パターンに変換し、該パターンを複数の標準
パターンと照合し区間別候補を選択して、各区間の照合
距離が最小となるものを求め、認識結果を得る連続音声
認識装置において、入力パターンと標準パターンについ
て連続動的計画法による照合を実施する部と、該照合部出力から入力パターンの各フレーム毎にフレー
ムを終端（又は始端）とする複数個の標準パターンを候
補として選択する部と、該選択部出力について与えられた各フレーム毎の複数個
の候補を、始端（又は終端）方向への動的計画法による
照合を行う部と、与えられた部分区間照合距離から各桁毎の距離の合計が
最小になるような組合せを求める部と、を具備し、該組
合せを求める部の出力から認識結果を得ることである。

［作用］本発明では単語終端レベルＤＰにおいて、１つのフレー
ムに複数の候補を選択しておくことにより、以降の処理
において前述のような類似語句に対しても正しい認識結
果を得ることができる。

［実施例］第１図は本発明の実施例を示すブロック構成図である。

第１図において１は音声認識装置に対し音声を入力する
マイクロホン、２は音声特徴抽出部、３は入力パターン
バッファ、４は標準パターン辞書部、１１は認識結果処
理部、７は入力パターンと辞書パターンについて連続Ｄ
Ｐによる照合を実施する部、８は終端候補選択部で、照
合部７の出力について入力パターンの各フレーム毎にフ
レームを終端とする標準パターンを複数個選択する部、
９は逆時間ＤＰ照合部で前記選択部８の出力について与
えられた出力を候補とし、始端方向へのＤＰ照合法によ
る照合を行い、区間照合距離を求める部、１０は部分区
間候補選択部、６は文しヘルＤＰ照合で与えられた部分
区間照合距離から各桁毎の距離の合計が最小になるよう
な組合せを求める部を示す。

次に第１図の装置について動作を説明する。当初音声認
識装置の使用者は、マイクロホン１から連続単語の音声
を入力し、音声特徴抽出部２において照合用の音声パタ
ーンに変換し、入力パターンバッファ３に格納する。次
に標準パターン辞書部４に格納しである複数の標準パタ
ーンと、入力パターンバッファ３の読出し出力である入
力パターン情報とを、連続ＤＰ照合部７において照合す
る。

このとき入力音声パターンを次のように表す。

Ａ＝　ａ（１１，ａ（２Ｌ　　ａ（３１−−−ａ（ｒ＋
ｔ−ａ　　（ｒ）ここでａ　（ｆｎ）はフレームｍにお
けるパラメータで周波数方向に例えば１６（ｆｌｉｔに
区分し、各区分におけるパワースペクトルの大きさく振
幅値）で示す。

■は入力パターンの終端フレームで且つＡの語長を意味
する。

標準音声パターンは単語ｎをＢ　（ｎｌとしてＮ個のパ
ターンを次のように表す。

Ｂ（ｎ）＝ｂ　（１，ｎ　）　、　　ｂ　（２，ｎ　）
−ｂ　（ｊ、ｎ　）　−・−ｂ　［Ｊ（ｎ）、　　ｎｌｂ　（ｊ、ｎ）は単語ｎのフレームｊにおけるパラメー
タで入力音声と同様に例えば１６ｆｌｌｉｌに区分して
パワースペクトルの大きさを示す。

Ｊ　（ｎ）は単語ｎの終端フレームで且つＢ　（ｎ）の
語長□を意味する。

このような入力パターンと標準パターンを横軸・縦軸に
とったとき、連続ＤＰ照合法は第６図と異なり、第２図
のようになる。即ち入力パターンの任意のフレームを終
端とし且つ始端はフリーとなるＤＰ照合を行う方法をい
う。

連続ＤＰ照合部７におけるパターンの照合により入力パ
ターンの中に存在する最適な対応区間が自動的に抽出さ
れて照合距離が求められる。

この結果により入力パターン中に標準パターンＢ（ｎｌ
が存在しそうか、または存在しそうな場合に入力パター
ンＡのどのフレームを出力とするか、が容易に求められ
る。その理由を以下に説明する。

標準パターンＢと入力パターンのベクトル間距離ｄ　（
ｉ、ｊ）を求める。成るフレームＢ（Ｊ）とＡ　（ｉｌ
について前記１６個の対応するチャネル毎に絶対値の差
をとって、累積したものを求め、それをベクトル間の距
離ｄ　（ｉ、ｊ）という。また累積して行く距離をｇと
表す。このとき対称型演算法を採ると、標準パターンｊ
＝１のとき、ｇ　（ｉ、ｊ）＝ｄ　（ｉ、ｊ）入力パターンｉ＝ｌ、ｊ＞ｌのときｇ　（１，ｊ　）　＝ｄ　（１，ｊ　）　＋ｇ　（１，
ｊ　−１）今人カバターンのフレームｍを終端とするＢ
　（ｎｌの連続ＤＰ照合距離をＤＣ（ｍ、ｎ）で表現す
る。

ＤＣ（ｍ、ｎ）はこのままでは、Ｂ　（ｎ）の個々のＳ
音長Ｊ　（ｎ）によって、短いもの程値が小さくなる傾
向が出るため、Ｊ　（ｎ）を２倍した値で各ＤＣ（ｍ、
ｎ）の値を割り時間正規化を行う。

ＤＲ（ｍ、ｎ）＝ＤＣ（ｍ、ｎ）／２Ｊ（ｎｌここで２
Ｊ（ｎ）を用いるのは、正しくマツチングした場合は対
応する入力パターン長はＪ　（ｎ）に近い値を取ると仮
定しているからである。何等かの手法で連続ＤＰ距離即
ちＤＣ（ｍ、ｎ）のフレームｍに対する始端Ｌ　（ｍ、
ｎ）が判明している場合には、　　　　ＤＲ（ｍ、ｎ）＝ＤＣ（ｍ、　ｎ）　／　（Ｊ（ｎ）＋　（ｍ−１，（
ｍ、ｎ　）、　＋Ｉ）の演算を行っても良い。

次に終端候補選択部８において候補を絞り込む。

そのためＤＲ（ｍ、　　ｎ）のフレームｍ毎に複数の終
端候補を選択し、終端候補選択部８の出力ＮＥ（ｍ、ｃ
）にｎを設定する。第３図にＤＲ（ｍ。

ｎ）と候補数２個の場合のＮＥ　（ｍ、ｃ）の例を示す
。ＤＲ（ｍ、ｎ）は第３図に示すようにｎ毎に異なった
距離パターンを示す。このＮ個の距離パターンをｍ毎に
値の小さいものからＣ（ｌｌｉ１選択して、そのｎをフ
レームｍを出力とする候補としてＮＥ　（ｍ、ｃ）に設
定する。以上の処理により入力パターンＡのフレームｍ
が終端となるＢ　（ｎｌの候補がＮ個から０個に限定さ
れる。このとき、入力語として終端の一部に共通な標準
パターンが存在する単語に対し、その個数が前述の０個
以下であれば、出力候補として総て残るため、候補が１
個だけの場合に起こり得る誤認識の問題が解決される。

次に逆時間ＤＰ照合部９において、前記標準パターンＢ
　（ｎ）の始端を決定し、ＤＰ距離を演算する。

そのためＮ、Ｅ　（ｍ、　　ｃ）で示される終端候補を
逆時間方向にＤＰすることにより、始終端のＤＰ距離を
求める。（この処理を逆時間ＤＰマツチングと呼ぶ）。

逆時間ＤＰでは通常のＤＰを単にパターンを時間方向で
反転し照合するもので、入力パターンＡの部分区間ρ−
ｍのＤＰ距離を求めることである。第４図参照のこと。

ここでＤＰの演算手法として対称型を用いるものとする
。

次に逆時間ＤＰ照合部９の出力ＤＩ　　（ｆ２．　ｍ、
　　ｃ）につき、部分区間候補選択部１ｏにおいて時間
正規化する。即ち逆時間ＤＰマツチングにより求めたＤ
Ｉ　　（Ｉ２．　ｍ、　　ｃ）を、部分パターン長ｍ−
ρ＋１と標準パターン長Ｊ　（ＮＥ　（ｍ、ｃ））との
和で割算し、Ｄ　Ｉ　Ｒ（ｆ２．　ｍ、　　ｃ）とする
。即ちＤ　Ｉ　Ｒ（Ｉ２．　ｍ、　　ｃ）＝Ｄ　ｌ　　（１２，ｍ、　　ｃ）　／　（Ｊ　（ＮＥ
　（ｍ、　　ｃ）　）＋　（ｍ−ρ＋１））このＤＩＲ（Ｉ２．ｍ、ｃ）をＣについて最小のものを
選択してＤ　（ｆ２．　ｍ）とし、対応する標準パター
ンｎをＮＳ　（Ｉ２．　ｍ）に設定する。

Ｄ　（Ｉ２．　ｍ）　＝ｍｉｎ　　［ＤＩＲ（Ｉ２．　
ｍ、　　ｃ）ＮＳ　（Ｉ２．　ｍ）＝ＮＥ　［ｍ、　　ａｒｇ　ａｋｉｎ　（ＤＩＲ（Ｉ２
．　ｍ、　　ｃ）　）　］にのＤ　（Ｉ２．　ｍ）とＮＳ　（Ｉ２．　ｍ）によって
、部分パターンρ−ｍの最適な照合距離と照合相手が決
定される。

それから部分区間候補選択部１ｏの出力につき文レベル
ＤＰ照合部６において最適な組合せ（単語の結合）を求
める。ここで連続単語における単語を先頭から１桁目、
２桁目、−Ｘ桁目という表現で位置関係を表現する。

（イ）１桁目の設定１桁目は入力パターンを始端フレームからフレームｍの
部分区間の距離をＴ（ｍ、１）に設定する。　　　Ｔ　
（ｍ、１）＝Ｄ　（１，ｍ＞その標準語をＮＴ　（ｍ、
１）に設定する。

ＮＴ　（ｍ、１）＝ＮＳ　（ｍ、１）またその標準語の始端が何処であるかをＬＴ（ｍ。

１）に設定する。

ＬＴ　（ｍ、１）＝１（ロ）Ｘ桁目の設定Ｘ桁目ではρの位置が未定のため次のＤＰ漸化式で決定
する。

〕Ｔ（Ｉ２．ｘ−１）コ次に文レベルＤＰ照合部６における照合結果Ｔ　（ｍ、
　　ｘ）から入力単語の桁数Ｘを求める。

Ｘ＝ａ　ｒ　ｇ　ｗｉｎ　［Ｔ　（Ｉ、　　ｘ）　／ｘ
］■は入力パターン終端フレームである。

最後に認識結果処理部１１において、前記ＬＴ（ｍ、ｘ
　）とＮＴ　（ｍ、ｘ　）から、Ｘ桁の認識結果を求め
る。Ｘ桁の認識結果はＮ　Ｒ（Ｘｌと、またＮ　Ｒ（Ｘ
）の始端フレームをＬ　（Ｘ）とする。

（イ）Ｘ桁目の認識結果ＮＲ（Ｘ）＝ＮＴ　（Ｉ、Ｘ）Ｌ　（Ｘ）−ＬＴ　（１，Ｘ）（ロ）ｘ−Ｘ桁目の認識結果ＮＲＣＸ−ｙ”）＝ＮＴ　［Ｌ　（Ｘ−ｙ＋１）、Ｘ−
）ＦＪＬ　（Ｘ−１）　＝ＬＴ　［Ｌ　（’Ｘ−ｙ＋１
＞、　　Ｘ−ｙ］以上により認識結果Ｎ　Ｒ（Ｘ）が求
められる。

なお以上の説明では、単語終端候補レベルＤＰを順時間
方向に処理して終端候補を求めたが、逆時間方向に連続
ＤＰ照合を行って始端候補を求め、単語始終端レベルＤ
Ｐで順時間のＤＰにより、部分区間候補を求めても同様
な認識が可能である。

［発明の効果］このようにして本発明によると、連続ＤＰで複数個の終
端候補を記憶しておくことによって、以降の処理で正し
い認識結果を与えることが可能となる。

【図面の簡単な説明】

第１図は本発明の実施例を示すブロック図、第２図は連
続ＤＰ照合法の説明図、第３図は終端候補選択部の動作説明図、第４図は逆時間
ＤＰ照合法の説明図、第５図は従来の連続単語認識装置を示す図、第６図はＤ
Ｐ照合法の説明図である。１−マイクロホン２−音声特徴抽出部３−人力パターンバッファ４・−標準パターン辞書部６−文レベルＤＰ照合部７−・一連続ＤＰ処理部８−終端候補選択部９−・逆時間ＤＰ照合部１〇一部分区間候補選択部１１−認識結果処理部特許出願人　　　　富士通株式会社代理人　　　　　弁理士　鈴木栄祐第３図！入方バクーンＡ

Claims

【特許請求の範囲】複数の単語を連続的に発声した音声を音声特徴抽出部に
おいて入力パターンに変換し、該パターンを複数の標準
パターンと照合し区間別候補を選択して、各区間の照合
距離が最小となるものを求め、認識結果を得る連続音声
認識装置において、入力パターンと標準パターンについ
て連続動的計画法による照合を実施する部と、該照合部出力から入力パターンの各フレーム毎にフレー
ムを終端（又は始端）とする複数個の標準パターンを候
補として選択する部と、該選択部出力について与えられた各フレーム毎の複数個
の候補を、始端（又は終端）方向への動的計画法による
照合を行う部と、与えられた部分区間照合距離から各桁毎の距離の合計が
最小になるような組合せを求める部と、を具備し、該組
合せを求める部の出力から認識結果を得ることを特徴と
する連続音声認識装置。