JPS6247100A

JPS6247100A - 音声認識装置

Info

Publication number: JPS6247100A
Application number: JP60186118A
Authority: JP
Inventors: 明寿山田; 武志則松; 正宏浜田
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1985-08-24
Filing date: 1985-08-24
Publication date: 1987-02-28

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は、標準パターンと入力音声パターンとのパター
ンマツチングにより認識結果を導き出す音声認識装置に
関するものである。

従来の技術一般に、音声認識装置では、入力音声・くターンと辞書
に蓄えられた各標準パターンとの類似度を計算し、類似
度の最大となる標準パターンを認識結果とする方法が行
なわれている。二つの音声ノ（ターンの類似度を計算す
るためには動的計画法（ダイナミック　プログラミング
法）を用いて、二つのパターンの時間軸を非線形に伸縮
する・くターンマツチング（以下、ＤＰマツチングと記
す。）が使用されている。特に、単語音声認識装置では
、このＤＰマツチング法により高い認識率を得ている。

（例えば、「ダイナミック　プログラミングオプティミ
ゼイション　フォ　スポークン　ワード　レコグ＝ジョ
ンＪ　（Ｈ，５ａｋｏｅ　ａｎｄ　Ｓ、Ｃ１ｂａ。

”Ｄｙｎａｍｉｃ　ｐｒｏｇｒａｍｍｉｎｇ　ｏｐｔｉ
ｍｉｚａｔｉｏｎ　ｆｏｒｓｐｏｒｋｅｎ　１ｙｏｒｄ
　ｒｅｃｏｇｎｉｔｉｏｎ”、　工ＥＥＥｔｒａｎｓ。

Ａｃｏｕｓｔｉｃ、５ｐｅｅｃｈ、Ｓｉｇｎａｌ　Ｐｒ
ｏｃｅｓｓｉｎｇ。

ｖｏｌ、Ａｓ５Ｐ−２７１）ｐ、３３６−３４９　、１
９７９））発明が解決しようとする問題点しかしながら上記の音声認識装置では、異なった音声パ
タン間のＤＰマツチングにおいても、極端な時間軸の非
線形伸縮のため両者の距離が小さくなる場合があり、誤
認識を生じる原因となっていた。

また、類似した音声パタン間のＤＰマツチングでは、音
声パタン全体に渡ってＤＰマツチングを行なうため、両
者間の違いが埋もれてしまい、その結果、パタン間の距
離が小さくなり誤認識を生じやすいという問題点を有し
ていた。

本発明は上記問題点に鑑み、類似音声パタン間での誤認
識および極端なりＰマツチングによる誤認識を極力抑え
ることのできる音声認識装置を提供するものである。

問題点を解決するための手段上記問題点を解決するために本発明の音声認識装置は入
力音声からエネルギー系列を含む特徴ベクトルの時系列
を出力する音声分析手段と、前記音声分析手段よシ出力
されるエネルギー系列から、音声パタン中の音声部分と
無音声部分を判別し、無音声区間の個数およびそのフレ
ーム位置及び、各々の無音声区間の最も確かな順位を統
計的手段や、同一人の複数回発声により検出する無音声
区間検出手段とにより、最も確かな順位の無音声区間の
フレーム位置交点をマツチングパスが必ず通過するよう
に制限を加えたパタンマツチングを行ない、両者間の距
離を算出し、距離の最小となる標準パタンを認識結果と
する構成になっている。

作用本発明は上記に述べた構成によって、あらかじめ音声パ
タン中の無音声区間を検出しておき、最も確実な無音声
区間点から順位づけをし無音声区間テーブルとして持ち
、それらにより入力音声パタンとの間で無音声区間のフ
レーム位置を合わせて必ずその交点をマツチングパスが
通過するように制限をしたパタンマツチングを行ない認
識結果を導き出す事により、類似パタン間の誤認識およ
ヒ極端なマツチングによる誤認識を極力抑えることがで
きる。

実施例以下本発明の一実施例の音声認識装置について、図面を
参照しながら説明する。

第１図は本発明の一実施例における音声認識装置のブロ
ック図である。第１図において、１は音声入力部で、話
者の音声がマイクロホン等を通して入力される。２は音
声分析手段で、入力された音声信号から特徴ベクトルの
時系列を抽出する。

３は無音声区間検出手段で、音声のエネルギー系列から
無音声区間部分を検出する。４は無音声区間検出手段３
よシ得られる無音声区間の個数およびそのフレーム位置
を記憶する記憶手段、５はパタンマツチング手段で、多
数の音声データよシ統計的手段等で得られた各標準テン
プレートに対して各々の無音声区間の順位付けを行ない
無音声区間テーブルとして記憶しておき、入力音声パタ
ンと標準パタンとの間でパタンマツチングを行なう。

６は認識判定手段で、パタンマツチング手段６の結果か
ら認識候補音声を導き出す。７は認識判定手段６で導き
出された認識結果をＬ１！Ｄ等に表示する認識結果出力
部である。

第２図は本実施列の構成を示す回路図で、上記の無音声
区間検出手段３、無音声区間テーブル、入力或は標準パ
ターンのパラメータを記憶する記憶手段４、パタンマツ
チング手段５、認識判定手段６をマイクロコンピュータ
１５で実現したものである。１０は音声の入力を行なう
マイクロホン、１１はマイクロホン１ｏから入力された
音声信号をアナログ−ディジタル変換するアナログ−デ
ィジタル変換器（以下人／Ｄ変換器という。）である。

１３は入力音声の特徴ベクトルの時系列を記憶する入力
パタンメモリ、１４は標準パタン音声の特徴ベクトルの
時系列を記憶する標準パタンメモリ、１６は認識候補音
声を表示する認識結果表示器である。

第３図は本実施しリのマイク０″７１ユータの動作を説
明するための要部フローチャートであシ、第４図は第３
図のフローチャートを説明するためノ図テある。以上の
構成による本実施例の動作を、第３図のフローチャート
に沿って詳細に説明する。

ｉｆ、ステップ２１でマイクロホン１ｏから音声を入力
し、Ａ／Ｄ変換器１１でこの音声信号をアナログ−ディ
ジタル変換したあと、音声分析部１２で音声パタンの特
徴ベクトル（例えば、１０次元の線形予測係数）の時系
列とエネルギー系列を求め、入力パタンメモリ１３に記
憶する。次に、ステップ２２で入力パタンメモリ１３に
記憶されたエネルギー系列からエネルギー値がしきい値
を下回る区間が一定時間Ｔｏを超える区間を無音声区間
として検出し、無音声区間の個数と無音声区間の最終フ
レーム位置を記憶部１５ｂに記憶する。

なお、各標準パタンの特徴ベクトルの時系列が標準パタ
ンメモリ１４に、各標準ノくタンに対応した無音声区間
の個数とフレーム位置及び、その確からしい順位が記憶
部１５ｋｌの別の領域にあらがじ　　　　　　１ゎ、え
ＩｚＡｆい、、。よオｘ、　　　　　　　　　　　１ス
テツプ２３では、入力音声の無音声区間の個数に対応し
て予め登録された標準パターンの無音声区間テーブルを
検索する。ステップ２４では入力音声区間のフレームを
無音声区間テーブルの順位に従って一致させる。ここで
は入力パタンと標準パタンの最も確からしい無音声区間
の個数が１つ存在する場合について説明する。

入力パタンのフレーム長をＩ、その無音声区間の最終フ
レーム位置■１、標準パタンのフレーム長をＪ、その無
音声区間の最終フレーム位置をＪｌとする。ステップ２
４では、無音声区間テーブルよシ ○（ｉ　（１、かつ　Ｊｌくｊ≦Ｊまたは ■、＜１≦工　かつ　○＜　］　＜　Ｊ　＋の条件を満
たす入力パタンの第ｉフレームト標準パタンの第コフレ
ームとの特徴ベクトル間の距離を無限大にセットする。

この設定は第４図において、斜線の部分に対応する各ベ
クトル間距離を無限大に設定することであり、すなわち
マツチングバスが斜線の部分を絶対に通過しないように
制限を加えたことと等価である。

ステップ２４の設定が終ると、ステップ２６により入力
パタンと標準パタン間でＤＰマツチングを行ない、両者
間の距離を算出し記憶部１５ｂに記憶する。ここで得ら
れる距離は、入力パタンの第Ｉ、フレームと標準パタン
の第Ｊ１フレームの交点をマツチングバスが必ず通過す
るように制限を加えたＤＰマツチングを行なった時に得
られる結果である。ここで、入力パタンの第工、フレー
ムと標準パタンの第５１　　フレームの交点が整合窓の
範囲を超える場合は両者のＤＰマツチングは不可能であ
るためこの標準パタンは認識候補からはずす。この後、
ステップ２６で別の標準パターンとのマツチングを行な
うため、標準パターンが最終かどうかを判定し、最終で
なければステップ２３に戻シ、他の標準パタンについて
同様の処理を続ける。ステップ２６の条件を満足すると
、ステップ２７では、ステップ２５で得られた距離値の
うち最小値を与える標準パタンを認識候補音声と判定し
、認識結果表示器１６に認識候補音声を表示する。−′ なお、本実施例では、入力パタンの無、音声区間の個数
が１個の場合について説明したが、無音声区間が２個以
上存在する場合にも無音声区間テーブルに従って同様の
処理を行なうことができる。

ここで、標準パターンの無音声区間の個数と入力音声の
無音声区間の個数が異なった場合でも、無音声区間テー
ブルの順位に従って最も確実な無音声区間の順に第１．
第２．第３の交点を制限して行く。例えば、標準パター
ン、入力音声パターンの無音声区間の個数が各々３．２
の場合、無音声区間テーブルの順位に従った上位２個に
一致させる。また、入力音声について無音声区間の順位
付けが多段の設定されたしきい値等に依って順位付けら
れる場合、前後の順位には関係なく無音声区間テーブル
、及び入力音声から得られる入力音声の無音声区間の順
位付けをされた無音声区間候補の上位からＤＰババス上
交点を決め、あるいは第１番目の候補からの交点を決め
、次に時間的順序に従って他の交点を決める事も可能で
ある・以上のように本実施例によれば、音声パタン中の
無音声区間を検出する無音声区間検出手段によって、無
音声区間テーブルの順位に従って入力パタンと標準パタ
ンの無音声区間のフレーム位置の交点を通過するように
制限を加えたＤＰマツチングを行ない、極端なマツチン
グによる誤認識、および音韻的に類似したパタン間の誤
認識を減少させることができる。

発明の効果以上のように本発明は、音声パタン中の無音声区間の個
数とそのフレーム位置を検出する無音声区間検出手段と
、無音声区間の優先順位を管理する無音声区間テーブル
とを持ち、入力音声を分析して得られる入力パタンと無
音声区間について、前記無音声区間テーブルに従って入
力パタンと標準パタンで無音声区間のフレーム位置を合
わせ、その交点をマツチングパスが必ず通過するように
制限したＤＰ”・チ′グを行な“・距離の最小と　　　
　　　　１なる標準パタンを認識結果として導き出すこ
とにより、音韻の類似−したパタン間での誤認識、およ
び極端なマツチングによる誤認識を極力抑えることので
きる音声認識装置を提供することができる。

【図面の簡単な説明】

第１図は本発明の一実施例における音声認識装置の構成
を示すブロック図、第２図は同装置の構成を示す回路図
、第３図は同装置の動作説明のための要部フローチャー
ト、第４図は第３図のフローチャート説明のための特性
図である。２・・・・・・音声分析手段、３・・・・・・無音声区
間検出手段、４・・・・・・記憶手段、５・・・・・・
パタンマツチング手段、１ｏ・・・・・・マイクロホン
、１３・・・・・・入力バー７メモリ、１４・・・・・
・標準パタンメモリ、１５・・・・・・マイクロコンピ
ュータ。代理人の氏名　弁理士　中　尾　敏　男　ほか１名□ 第２図　　　　　　　　　　　　１為第３図第４図 □ 樗早バグーン

Claims

【特許請求の範囲】

入力音声からエネルギー系列を含む特徴ベクトルの時系
列を出力する音声分析手段と、前記音声分析手段から出
力されるエネルギー系列から、音声パタン中の音声部分
と無音声部分を判別し、無音声区間の個数およびそのフ
レーム位置を検出する無音声区間検出手段と、前記無音
声区間検出手段より得られる無音声区間の個数およびそ
のフレーム位置を記憶する記憶手段とを備え、音声認識
対象単語各々の多数の音声データの統計的性質から得ら
れる最も確実な無音区間点から順位付けをした無音声区
間テーブルにより、前記記憶手段により蓄えられた標準
パタンと入力パタンとの間でパタンマッチングを行なう
際に入力音声の最も確実な無音声区間点から順に標準パ
ターンに記憶された最も確実な無音声区間点と無音声区
間テーブルに従って、無音声区間のフレーム位置を一致
させ両者間の距離を算出し得られた各々の累積距離が最
小となる標準パタンを認識結果とすることを特徴とする
音声認識装置。