JPS6383800A

JPS6383800A - 音声認識装置

Info

Publication number: JPS6383800A
Application number: JP61230342A
Authority: JP
Inventors: 武志則松; 別所　由実
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1986-09-29
Filing date: 1986-09-29
Publication date: 1988-04-14

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は、標準パターンと入力音声パターンとのパター
ンマツチングにより認識結果を導き出す音声認識装置に
関するものである。

従来の技術一般に、音声認識装置では、入力音声パターンと辞書に
蓄えられた各標準パターンとの類似度をそれぞれ計算し
、類似度の最大となる標準パターン全認識結果とする方
法が行なわれている。二つの音声パターンの類似度を計
算するためには動的計画法（ダイナミック　プログラミ
ング法）を用いて、二つのパターンの時間軸ヲ非線形に
伸縮するパターンマツチング（以下、ＤＰマッチンクト
記す。）が使用されている。特に、単語音声認識装置で
は、このＤＰマツチング法により高い認識率２得ている
（例えば、「ダイナミック　プログラミング　オプティ
ミゼイション　フォ　スポークン　ワード　レコダ＝　
シ、　：ｙ　Ｊ　（Ｈ，５ａｋｏａ　ａｎｄｓ、ｃｈｉ
ｂａ、”Ｄｙｎａｍｉｃ　ｐｒｏｇｒ＆ｍｍｍ１ｎ　ｏ
ｐｔｉｍｉｚａｔｉｏｎｆｏｒ　５ｐｏｒｋａｎ　ｖｒ
ｏｒｄ　ｒｅｃｏｇｎｉｔｉｏｎ”、　ＩＥＩＣＥｔｒ
ａｎｓ、Ａｃｏｕｓｔｉｃ、５ｐｅｅｃｈ、Ｓｉｇｎａ
ｌ　Ｐｒｏｃｅｓｓｉｎｇ。

マｏ１．ＡＳＳＰ−２７ｐｐ、３３６−３４９．１９７
９））。

発明が解決しようとする問題点しかしながら上記の音声認識装置では、スペクトルの形
状のみによるパターンマツチングを行うため、異なった
音声パターン間のＤＰマツチングにおいても、極端な時
間軸の非線形伸縮のため両者の距離が小さくなる場合が
あり、誤認識を生じる原因となっていた。例えば、「大
阪］と「大分」とはエネルギー系列で見ると、前者は三
つ、後者は二つのエネルギーの山があり明らかに異なっ
た二つのパターンであるが、音韻的には似通っているた
めＤＰマツチングによシ距離が小さくなってしまう。

また、類似した音声パターン間のＤＰマツチングでは、
音声パターン全体に渡ってＤＰマツチングを行なうため
、両者間の違いが埋もれてしまい、その結果、パターン
間の距離が小さくなり誤認識を生じやすいという問題点
を有していた。

また、認識対象外単語が入力された時にも標準パターン
の一つにマツチングしてしまい、対象外単語のりジェク
ト性能には限界があった。

本発明は上記問題点に鑑み、類似音声パターン間での誤
認識および極端なりＰマツチングによる誤認識全極力抑
え、さらに認識対象外単語が入力された時のりジェクト
性能を高めることのできる音声認識装置を提供するもの
である。

問題点を解決するための手段上記問題点を解決するために本発明の音声認識装置は、
入力音声からエネルギー系列を含む特徴ベクトルの時系
列を出力する音声分析部と、前記特徴ベクトルの時系列
をあらかじめ標準パターンとして記憶しておくパターン
記憶手段と、前記音声分析部から出力されるエネルギー
系列から、音声パターン中の音声部分と無音声部分を判
別し、無音声区間の個数およびそのフレーム位置を検出
する無音声区間検出手段と、音声パターンの語頭部ある
いは語尾部が欠落する標準パターンに関して、欠落のな
いパターンを代表パターンとし、欠落のあるパターンの
標準パターンは代表パターンの一部として管理するパタ
ーン管理手段と、統計的性質から得られる標準パターン
各々の無音声区間の最も確かな順位付けを、あらかじめ
無音声区間の優先順位テーブルとして記憶する無音声情
報記憶手段と、無音声区間点の優先順位に従って無音声
区間のフレーム位置の交点をマツチングバスが必ず通過
するように制限を加えたパターンマツチングを行ない、
両者間の距離を算出する分割マツチング手段と、無音声
区間点の優先順位を決定できない標準パターンと入力音
声パターンとの間では入力音声との間でパターン全体に
渡ったパターンマツチングを行い距離を算出するパター
ンマツチング手段とを備えたものである。

作用本発明は上記した構成によって、あらかじめ語頭９語尾
の欠落する可能性のあるパターンを標準パターンの一部
として管理し、各標準パターン中の無音声区間を検出し
最も確実な無音声区間点から順位すけをしたテーブルを
一つ或は複数個ずつ持ち、入力音声パターンと標準パタ
ーンとの間で無音声区間のフレーム位置を合わせて必ず
その交点をマツチングパスが通過するように制限をした
パターンマツチングを行ない、また無音声区間点の検出
が不安定な標準パターンとの間では両パターンの始点同
志、終点同志のみを合わせたパターンマツチングを行い
認識結果を導き出す事により、類似パターン間の誤認識
および極端なマツチングによる誤認識を極力抑えること
ができ、さらに認識対象外単語が入力された時には極力
リジェクトすることができる。

実施例以下本発明の一実施例の音声認識装置について、図面を
参照しながら説明する。

第１図は本発明の一実施例における音声認識装置のブロ
ック図である。第１図において、１は音声入力部で、話
者の音声がマイクロホン、電話機のハンドセット等を通
して入力される。２は音声分析部で、入力された音声信
号から特徴ベクトルの時系列を抽出する。３ｉｄ無音声
区間検出手段で、音声のエネルギー系列から無音声区間
部分を検出する。４は無音声情報記憶手段で、各標準パ
ターンの無音声区間を多数の音声データより統計的手段
等で一つ或は複数個の順位すけを行ない無音声区間の優
先順位テーブルとして記憶する。６は標準パターンの特
徴ベクトルの時系列を記憶するパターン記憶手段、６は
パターン記憶手段５で記憶された各標準パターンを管理
するパターン管理手段、７は入力パターンと各標準パタ
ーンとの間で経路制限をしたパターンマツチングを行う
分割マツチング手段、８は無音声区間点の優先順位を決
定できない標準パターンと入力パターンの間でパターン
マツチング全行うパターンマツチング手段、９は認識候
補音声をＬＥＤ等に表示、あるいは合成音声で結果を知
らせる認識結果出力部である。

第２図は本実施例の構成を示す回路図で、上記の無音声
区間検出手段３．無音声情報記憶手段４゜パターン記憶
手段６．パターン管理手段６９分割マツチング手段了、
パターンマツチング手段８をマイクロコンピュータ２ｏ
で実現したものである。

第２図において、１０は音声の入力を行なうマイクロホ
ン、１１はマイクロホン１０から入力された音声信号を
アナログ−ディジタル変換するアナログ／ディジタル変
換器（以下ム／Ｄ変換器という）である。１２は音声の
特徴ベクトルの抽出、および無音声区間の検出を行う特
徴抽出部、１３は入力音声の特徴ベクトルの時系列を記
憶する入力パターンメモリ、１４は標準パターン音声の
特徴ベクトルの時系列を記憶する標準パターンメモリ、
１５は各標準パターンを管理する標準パターン管理テー
ブル、１６は各標準パターンと入力パターンとの類似度
を計算するマツチング計算部。

１了は認識候補音声の合成音声を作り出す音声合成回路
、１８は音声合成出力を増幅する増幅器、１９はスピー
カである。

第３図は本実施例のマイクロコンピュータの動作を説明
するための要部フローチャートである。

以上の構成による本実施例の動作を、第３図のフローチ
ャートに溢って詳細に説明する。

まず、マイクロホン１０から音声を入力し、ム／Ｄ変換
器１１で音声信号をアナログ−ディジタル変換したあと
、特徴抽出部１２で音声パターンの特徴ベクトル（例え
ば、１０次元の線形予測係数）の時系列とエネルギー系
列を求め、入力パターンメモリ１３に記憶する。

次に、ステップ２１で入力パターンメモリ１３に記憶さ
れたエネルギー系列からエネルギー値がしきい値を下回
る区間が一定時間で。を超える区間を無音声区間として
検出し、無音声区間の個数と各無音声区間の最終フレー
ム位置を記憶する。

なお、あらかじめ各標準パターンの特徴ベクトルの時系
列が標準パターン管理テーブル１５に、各標準ハターン
のメモリ配置、フレームの長す、各標準パターンに対応
した無音声区間の個数とフレーム位置及び、その優先順
位が蓄えられているものとする。また、標準パターン管
理テーブル１６の中では、発音により語頭９語尾の不安
定な標準パターンについては欠落のない標準パターンを
代表パターンとし、その部分パターンを欠落の生じた標
準パターンとして別に管理している。そのたメ、標準パ
ターンメモリ１４には代表パターンタけが登録されてい
る。

ステップ２２では、標準パターン管理テーブル１５に従
って標準パターンをマツチング計算部１６に出力する。

次にステップ２３で出力された標準パターンに優先順位
の確定した無音声区間点が存在するかを調べ、存在する
場合にはステップ２４に進む。

ステップ２４では入力パターンの無音区間数１、と標準
パターンの無音区間数ＪＭとを比較する。工、６５Ｍの
時は、ステップ２６に進み、入力音声の無音声区間のフ
レーム位置を標準パターン管理テーブル１５の優先順位
に従って標準パターンの無音声区間のフレーム位置とを
一致させる。

ここでは入力パターンに一つ、標準パターンに三つ最も
確からしい無音声区間が存在する場合について説明する
。

入力パターンのフレーム長を工、その無音声区間の最終
フレーム位置ｉｘ、、標準パターンのフレーム長をＪ、
その各無音声区間の最終フレーム位置ｋＪ１ｓＪ２ａＪ
３とする。ここで優先順位の最も高いフレームを５１　
とすると、入力パターンの工、フレームと標準ハターン
の３１　フレームとを対応ずければよい。

そこで、ステップ２ｅでは、ｏ　（ｉ　（工　　かつ　Ｊ、＜コ≦Ｊまたは工、＜ｉ≦工　かつ　Ｏ＜ｊ＜Ｊ。

の条件を満たす入力パターンの第１フレームと標準ハタ
ーンの第１フレームとの特徴ベクトル間の距離を無限大
にセットする。ステップ２６の設定が終ると、ステップ
２５により入力パターンと標準パターン間でＤＰマツチ
ングを行ない、両者間の距離を算出する。ここで得られ
る距離は、入力パターンの第工、フレームと標準パター
ンの第５１　フレームの交点をマツチングバスが必ず通
過するように制限を加えたＤＰマツチングを行なった時
に得られる結果である。ここで、入力パターンの第工、
フレームと標準パターンの第１フレームの交点が整合窓
の範囲を磐える場合は両者のＤＰマツチングは不可能で
あるため、この標準パターンは認識候補からはずす。こ
の後、ステップ２６で標準パターン管理テーブル１５よ
り他の優先順位が存在するかを調べ、存在するときはそ
の優先順位に従ってステップ２３からの処理を続ける。

存在しないときは別の標準パターンとのマツチング行な
うため、ステップ２９で標準パターンが最終かどうかを
判定し、最終でなければステップ２２に戻り、他の標準
パターンについて同様の処理を続ける。

ステップ２３で、マツチング計算部１６にロードされた
標準パターンに無音声区間が存在しない、部ち無音声区
間の出現の仕方が不安定であり、優先順位を決定するこ
とができない場合には、入力音声バタニンの無音声区間
の個数にかかわらず、まずステップ３１に進み、入力音
声パターンと標準パターンの始点同志及び終点同志のみ
を合わせる。その後ステップ３２に進み、ＤＰマツチン
グを実行し両者間の距離を算出しステップ２９に進む。

ステップ２９の条件を満足すると、ステップ３ｏでステ
ップ２７．ステップ３２で得られた距離値のうち最小値
を与える標準パターンを認識候補音声と判定し、認識候
補音声に対応した合成音声を音声合成回路１７により作
り出し、増幅器１８、スピーカ１９を介して出力する。

なお、本実施例では、入力パターンの無音声区間の個数
が１個の場合について説明したが、無音声区間が２個以
上存在する場合にも、エラ≦ＪＭであれば無音声区間テ
ーブルに従って同様の処理を行なうことができる。例え
ば、標準パターン。

入力音声パターンの無音声区間の個数が各々３゜２の場
合、無音声区間テーブルの順位に従った上位２個に一致
させる。また、入力音声について無音声区間の順位ずけ
が多段に設定されたしきい値等に依って順位ずけられる
場合、前後の順位には関係なく無音声区間テーブル、及
び入力音声から得られる入力音声の無音声区間の順位ず
けをされた無音声区間候補の上位からＤＰパス上の交点
２決め、あるいは第１番目の候補からの交点を決め、次
に時間的順序に従って他の交点を決める事も可能である
。

以上のように本実施例によれば、音声パターン中の無音
声区間を検出する無音声区間検出手段と標準パターン管
理手段を持ち、無音声区間点の出現の仕方が安定してお
シ優先順位が決定できる標準パターンについては、各標
準パターンにつイテ決定した一つ或は複数個の優先順位
に従って入力パターント標準ハターンの無音声区間のフ
レーム位置の交点を通過するように制限を加えたＤＰマ
ツチングを行なうことにより、入力パターンの語頭２語
尾が欠落した場合や無音区間の検出の一部を誤った場合
でも最適なマツチングを行うことができ、極端なマツチ
ングによる誤認識、および音韻的に類似したパターン間
の誤認識を減少させることができる。

また、無音声区間点の出現の仕方が不安定で優先順位を
決定できない標準パターンについては、パターン全体に
渡ったＤＰマツチングを行うことにより誤認識を防止す
ることができる。

発明の効果以上のように本発明は、音声パターン中の無音声区間の
個数とそのフレーム位置を検出する無音声区間検出手段
と、語頭１語尾が欠落する可能性のある標準パターンを
代表パターン−つで管理するパターン管理手段と、無音
声区間の出現の仕方が安定しておりその優先順位を決め
ることの出来る標準パターンについて、標準パターンご
とに無音声区間の優先順位を一つ或は複数個定め管理す
る無音声情報記憶手段とを持ち、無音声区間の優先順位
に従って入力パターンと標準パターンで無音声区間のフ
レーム位置を合わせ、その交点をマツチングパスが必ず
通過するように制限したＤＰマツチングを行ない、また
、無音声区間の出現の仕方が不安定で優先順位の決定で
きない標準パターンについては、入力音声パターンと標
準パターンとの始点同志、終点同志のみを合わせたパタ
ーンマツチングを行い距離の最小となる標準パターンを
認識結果として導き出すことにより、同単語間では二つ
のパターンを最適にマツチングパス、異単語間では極端
なマツチング音生じさせることになり、音韻の類似した
パターン間での誤認識、および極端なマツチングによる
誤認識を極力抑えることのでき、また認識対象外単語が
入力された時には極力リジェクトすることのできる音声
認識装置を提供することができる。また無音声区間の優
先順位を一義的に決定できないパターンや、発ｆ　の仕
方によって無音区間数の異なるパターンについても精度
良く認識する事ができる。さらに、無音声区間の出現の
仕方の不安定な標準パターンについては、パターン全体
に渡ったＤＰマツチングを行うことによシ誤った無音声
区間点を対応ずけたときにおこる誤認識を防止すること
ができる。

【図面の簡単な説明】

第１図は本発明の一実施例における音声認識装置の構成
を示すブロック図、第２図は同装置の構成を示す回路図
、第３図は同装置の動作説明のための要部フローチャー
トである。３・・・・・・無音声区間検出手段、４・・・・・・無
音声情報記憶手段、５・・・・・・パターン記憶手段、
６・・・・・・パターン管理手段、７・・・・・・分割
マツチング手段、８・・・・・・パターンマツチング手
段、１０・・・・・・マイクロポン、１３・・・・・・
入力パターンメモリ、１４・・川・標準パターンメモリ
、１６・・・・・・標準パターン管理テーブル、１６・
・・・・・マツチング計算部、１了・川・・音声合成回
Ｋ、２０・・・・・・マイクロコンピュータ。

Claims

【特許請求の範囲】

入力音声からエネルギー系列を含む特徴ベクトルの時系
列を出力する音声分析部と、前記音声分析部から出力さ
れるエネルギー系列から音声パターン中の音声部分と無
音声部分を判別し、無音声区間の個数およびそのフレー
ム位置を検出する無音声区間検出手段と、前記音声分析
部から得られる特徴ベクトルの時系列をあらかじめ標準
パターンとして記憶しておくパターン記憶手段と、音声
パターンの語頭部あるいは語尾部が欠落する標準パター
ンに関して、欠落のないパターンを代表パターンとし、
欠落のあるパターンの標準パターンは代表パターンの一
部分として管理するパターン管理手段と、前記パターン
記憶手段と前記パターン管理手段により記憶、管理され
た各標準パターンについて前記無音声区間検出手段より
得られる無音声区間のフレーム位置を、音声認識対象単
語各々の多数の音声データの統計的性質から得られる最
も確実な無音声区間点から順位付けを行い、また一義的
に順位付けを決定できない標準パターンに対しては可能
な複数種類の順位付けを行い、あらかじめ無音声区間の
優先順位テーブルとして記憶する無音声情報記憶手段と
、前記パターン記憶手段により蓄えられた無音声区間の
優先順位の確定している各標準パターンと入力パターン
との間で、前記無音声情報記憶手段に記憶された各標準
パターンの最も確実な無音声区間点から順に入力パター
ンの最も確実な無音声区間点とそのフレーム位置を一致
させパターンマッチングを行い両者間の距離を算出する
分割マッチング手段と、前記無音声情報記憶手段で無音
声区間点の順位付けを決定することができない標準パタ
ーンに対しては、入力音声との間でパターン全体に渡っ
たパターンマッチングを行い両者の距離を算出するパタ
ーンマッチング手段とを備えたことを特徴とする音声認
識装置。