JPS6120998A

JPS6120998A - 音声認識装置

Info

Publication number: JPS6120998A
Application number: JP59142716A
Authority: JP
Inventors: 高井　紀代; 喜一長谷川; 上川　豊; 入路　友明
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1984-07-10
Filing date: 1984-07-10
Publication date: 1986-01-29

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明げ音声認識装置の改良に関するものでろるＯ従来例の構成とその問題点音声認識技術にワードプロセッサや計算機への入力等、
マン−マシン−インターフェイスとして実用化が期待さ
れている分野である。最近のマイクロプロセッサや、Ｄ
ＳＰ（ディジタルシグナルプロセッサ）の高性能化に伴
って音声認識技術が我々に身近なものになシつつめるが
、技術レベルとしてにまだまだ誤認識が多く、認識処理
時間も長くかが９実用に充分なものとは言い難い。

大語い音声認識には入力音声を認識する単位として、単
音節（ＣＶ）を用いるもの、ＣｖおよびｖＣｖを用いる
もの、音素（ＣおよびＶ）を用いるもの等が考えられる
。ｉ！た、入力者があらかじめ標準となる音声を発声・
登録してから認識処理をはじめる登録型と、たくさんの
発声データを平均化して普遍的なパターンを用意してお
く不特定型がある。また特徴抽出の方法として、線形予
測分析（以下Ｌ　Ｐ、Ｃ分析トイう　Ｌｉｎｅａｒ　、
ｉｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇの略）やフィルタバ
ンクを用い庭ものが主流となっている。ことでに、認識
単位ＨｖｃｖおよびＣｖ、登録型、ＬＰＧ分析によるＬ
ＰＧケプストラム係数を特徴量として用いた場合につい
て説明する。

以下図面を用いて従来の音声認識装置について説明する
。第。１図は音声認識装置の構成を示すブロック図であ
る。マイクロフォン１から入力された音声信号に、ム／
Ｄ変換器２を介して１２　ＫＨ２でサンプリングされる
。特徴抽出部３では音声信号を入力として窓長２０　ｍ
Ｂｆ３０．フレームシフト５ｍ５ｅｃで自己相関法を用
いた１６次の線形予測分析（Ｊ、　Ｄ、　Ｍａｎｋｅｌ
　、　Ａ、　Ｈ，Ｇｒａｙ著、鈴木久喜訳：音声の線形
予測、１９８０年コロナ社）を行ない、１６次のＬＰＧ
ケプストラム係数（残差パワーを示す０外の係数を含め
て１６個の係数の組）、および原音の１ＭＳエネルギー
を出力する。定常点検出部４では特徴抽出部３で得られ
たケプストラム係数を用いて分散が極小となる様なフレ
ームを定常点として検出する。分散が極小の点とげ以下
のように定義する。今、入力パターンのパラメータ列を
、ｚｉ、ｉ＝１．２、・・・・・・と表わす。フレーム
ｉにおける分散δｌをと定義する。このδ１が極小となるフレームを定常点と
する。母音認識部６では定常点検出部４で定められた定
常点に対し識別関数（安田三部：社会統計学２章７節、
１９６９年丸善）を用いて母音認識を行なう。識別関数
に標準パターン登録時にあらかじめ作成しておく。標準
パターン記憶部６にはあらかじめ発声され特徴抽出部３
と全く同じ処理を受けて作成され°た標準パラメータが
パラメータ列として格納されている。マツチング部７で
は必要な標準パターンを標準パターン記憶部６より読み
だし入力パターンとマツチングを行なって距離が最小と
なるものを認識結果として出力する。単語辞書部８に認
識すべき単語が音韻列表記で格納されている一マツチン
グ部７で得られた認識音韻列は単語認識部９へ入力され
、単語辞書部８に格納された単語との類似度を求め最終
的な単語としての認識結果を結果出力端１ｏに得る。

次に’　ｍａｅｂａｓｈｉ（前橋）′と入力された場合
を例として標準パターンとの妥ワチング回数（（ついて
説明する８ム／Ｄ変換器２、特徴抽出部３、定常点検出
部〜母音認識部６の各々め手段を用Ｖ）てまず’ａｅａ
ｉ’　という母音列を得る。即ち入力音声ｎ　’　Ｃ１
ａ　Ｃ２ｅ　’５ａ　Ｃ４ｉ’　　（ｃｉ　Ｈ子音。

×（子音なし、即ち母音連続の場合）を含む）であると
して、マツチング部７でに標準パターンとのマツチング
を用いて各Ｃ１（ｉ＝ａ−ａ）の決定ヲ行なう０先ず第
１．音節’０１ａ’　（０１ａ　ＣＨ！ｌ　Ｃ５ａＣｎ
１）に対して標準パターン記憶部７からＣｖ標’ｒａ、
’ｗａｊ、　’ｇａ’　、　’ｚａ’、　’ｄａ’、　
’ｂａ’、’ｐｍ’よう音ａ除く）を各々読みだしてマ
ツチングを行ない、距離が最小となるものを認識結果と
して出力する。次に第２音節を決定するために′ａｃｚ
ｅ’（Ｃ＋ａ　Ｃ２ａ　Ｃ５＆　Ｃｎｉ　　）に対して
標準パターン記憶部７からＶＣＶ標準パターンのうち先
行母音が′ａ′、後続母音が７．／のもの１３種（’ａ
ｓ’。

’ａｓｓ’　、　’ａｎｅ’　、　’ａｗｅ’　、　’
ａｔｅ’　、　’ａｈｅ’　、　’ａｐｅ’。

’ａｋｅ’　、’ａｒｅ’　、　’ａｇｅ’　、　’ａ
ｚｅ’　、　’ａｄｓ’　、　’ａｂｅ’）を読み出し
て各々マツチングを行ない距離が最小となるものを認識
結果とする。以下同様にして第３音節、第４音節を決定
して、認識音韻列を得る。

即ち第１音節決定のために１６回のマツチング操作、第
２音節決定のために１３回のマツチング操作が必要とな
る。しかしながら、このように母音定常点だけを事前に
決定する従来装置では１音節決定のために１１〜１５回
のマツチング操作を必要とし、処理時間が長くかかりす
ぎるという問題点を有していた。

発明の目的本発明は以上の問題点を解消し、ＲＭＳ４るいにそれに
準する簡単なパラメータを用いて事前にマツチング候補
を限定する事によって認識処理時間の高速化を計る事を
目的とする。

発明の構成本発明の認識装置は、音声入力手段、前記音声入力手段
から入力された音声に対し一定時間毎に特徴抽出を行な
い特徴パラメータ列（入力パターン）を抽出する特徴抽
出手段、前記入力パターンから定常的な部分を検出して
定常点列として出力する定常点検出手段、前記定常点検
出手段によって検出された定常点に対し母音認識を行な
う母音認識手段、前記定常点検出手段によって検出され
た定常点列に対して１つの定常点とその次の定常点の間
に存在する子音の分類を行なう子音分類手段、あらかじ
め認識単位毎に発声され前記特徴抽出手段と同じ方法で
特徴抽出された標準パターンを格納しておく標準パター
ン記憶手段、および前記入力パターンと前記標準パター
ン記憶手段から取りだされた標準パターンとを用いてマ
ツチングを行ない距離が最小となる標準パターンを認識
結果として出力するマツチング手段を有し、前記子音分
類手段で得られた結果を用いて前記マツチング手段にお
いてマツチングをとるべき標準パターンの選び方に制限
を加えることを特徴とするもので、これによりマツチン
グ候補を限定し認識処理時間の高速化を計るものである
。

実施例の説明第２図に本発明の一実施例を示したブロック図でめる。

本実施例の認識手法についてに従来例のものと同様、認
識単位［ＣＶおよびＶＣＶ、特徴パラメータＩｄＬＰＯ
ケプストラム、マツチングを用いたものとする。従って
構成に従来例とほぼ同じとなる。マイクロフォン１１か
ら入力された音声［Ａ／Ｄ変換器１２を介してディジタ
ルデータに変換され、特徴抽出部１３において窓長２゜
ｍ５ｅｌｃ　、フレームシフト５ｍ５Ｉ５０　、１５次
の線、形予測分析が行なわれ、ＬＰＧケブヌトラム係数
およびＲＭ　Ｓ　、（波形の２乗和のルート）のパラメ
ータ列を得る。定常点検出部１４においてケプストラム
係数の分散が極小になる点を定常点列として出力する。

（実施例における定常点の決定法に従来例と同様である
）次に母音識別部１６において定常点に対して識別関数
を用いた母音識別を行なう。この際用いられる識別関数
についてにあらかじめ標準パターン登録時に作成されて
いるものとする。次に子音分類部１６において、定常点
認識部１４で得られた定常点列の１つの定常点と次の定
常点間のＲＭＳを用いて子音の分類を行なう。

子音分類部１６については後にフローチャートを用いて
詳細に説明する。標準パターン記憶部１７にはあらかじ
め発声された音声（ＣｖおよびｖＣＶ）がＬＰＧ分析さ
れケプストラム係数として記憶部れている。マツチング
部１８では子音分類部１６で得られた結果をもとに決め
られるマツチングすべき標準パターンを標準パターン記
憶部１７からとりだしてマツチングを行ない、認識音韻
列を出力する。単語辞書部１９には認識すべき単語が音
韻列表記で格納されている。マツチング部１８で得られ
た認識音韻列に対し単語認識部２゜において単語辞書と
の類似度を求めて最終的な単語認識結果を結果出力端２
１に得る。

第３図ａσ′前橋′と発声した際のＲＭＳを、第３図す
は残差パワー（０次のケプストラム係数）を、第３図Ｃ
は波形をそれぞれ示した図である。

第３図ａ、ｂ、ｃともに横軸に時間、縦軸に振幅をあら
れし、時間軸方向の目盛シげ１目盛５０ｍ８６０　でめ
る。第３図Ｃ図内に↓ａと書き込まれているのけ定常点
認識の結果定常点と判定１れた位置、およびその位置に
対する母音認識結果である。２つの定常点の間のＲＭＳ
や残差パワーの変化のし方から定常点間に存在する子音
の分類を行ないマツチングを行なう標準パターンの数を
削減する事が可能である。例えば’　ｍａａｂａｓｈｉ
’の′ａ′　と／　ｅ　／　の間では特に大きなＲＭＳ
のディ、ツブが見らｔ″ＬないのでＳ　／　ｚ　／　ｂ
やＢ／Ｄ／ｇ、Ｐ／ｌ／ｋが存在する事にアりえない、
そこでここでは’ａｅ’、’ａｎｅ’、’ａｗｅ’、’
ａｒｅ’　の４つの標準パターンとマツチングを行なえ
ばよい事になる。

次に’ｅ’　、’ａ’の間でげＲＭＳ、残差パワーとも
に大きく減少している。そこでここに存在する子音はｂ
／ｄ／ｇのいずれかであると考えられ’ｅｂａ’　、’
ｅｄａ’　、’ｅｇａ’ノ３つノ標準パターントマッチ
ングを行なう事になる。このように、ＲＭＳおよび残差
パワーを用いた非常に簡単な方法でマツチングすべき標
準パターンを限定しマツチングの回数をＡ−％へ削減す
る事が可能である。

第４図に子音分類部１６において行なわれる処理の概要
をフローチャートに示したものである。

１つの定常点（Ｓｉとする）とその次の定常点（Ｓｉ＋
＋）の間に無音が存在する場合、その間に存在する子音
ｉｄ　Ｐ　／　ｔ　／　ｋでるると考えられるので、マ
ツチングすべき標準パターンをＰ　／　ｔ　／　ｋのみ
に限定する。次に５ＬＩＳｌ＋　１間のＲＭｆＳの極小
を求めそれをＭＩＮＲとするとＰＤ　＝ｍｉｎ（ＲＭＳ（８１）、　ＲＭＳ（Ｓｉ＋１
））　　ＭＩＮＲと定義し、ＰＤがろる閾値ＴＨ１より
も大きいとき、その定常点間に存在する子音７４　ｓ　
／　ｚ　／　ｈ　／ｂ／ｄ／ｇ／ｒのどれかでるる。ざ
らに残差パワー（以下ｚｐとめられす）を用いて、ＳＬ
＋　Ｓｌ＋　。

間のｚＰの極小をＭＩＮＺとすると、ろる閾値ＴＨ２、
ＴＨ３に対して、Ｍ　Ｘ　Ｎ　Ｚ：）Ｔ　Ｈ’２の場合
、子音１１８／ｚ／ｈ、ＭＩＮＺ＜ＴＨ３の場合、子音
ｎｂ／ｄ／ｇとする。またＰＤがある閾値ＴＨ４より大
きいときは子音はｎ／ｍ／ｒ／ｗ／ｙ／ｇ、小さいとき
にｎ／ｍ／ｒ／ｗ／ｙ／矢（例は二重母音を示す）とし
て、限定された子音に対してのみマツチングを行なう事
にする。ここで各閾値の決め方は以下のとうりでろる。

Ｔ　Ｈ１＝　ＭＩＮ紐０．１２Ｔ　Ｈ２”　ｍ１ＬＸ（Ｚｐ（８ｉ）、　Ｚｐ（Ｓｉ＋
１）　）≠０．９Ｔ　Ｈ３＝ｍａｘ（ｚｐ（ｓｉ）、　
Ｚｐ（Ｓｉ＋＋　））矢０．７Ｔ　Ｈ４＝　ＭＩＮＲＭ
ｏ、０４ここでｇおよびｒ　ｔ６　ＲＭ　Ｓだけでは分類しにく
いため、ｇ／ｒがマツチングすべき標準パターンとして
多く選ばれる様にして分類エラーによる誤認識を防いで
いるーこのように比較的簡単なアルゴリズムで定常点間の子音
の分類を行ない、マツチングすべき標準パターンを限定
してマツチング回数を削減し、認識処理の時間短縮を計
る事ができる。′！ｉ：ためらかしめ標準パターンの選
定が行なわれるので認識率の向上も計る事ができる。

実施例でげＲＭＳ（！：ＺＰを用いた場合について説明
したが他のパラメータでも差しつかえない。

認識単位がＣｖ′およびＶＣＶ、特徴パラメータがＬＰ
Ｇクブストラム係数、認識手法がマツチングの場合につ
いて説明したが、その他の手法でも何らかわりなくこの
発明を利用できる。また実施例に示した子音分類例に一
例であり、その他の子音分類にする事も可能である。

発明の効果以上の説明から明らかな様に本発明に、音声入力手段、
前記音声入力手段から入力された音声に対し一定時間毎
に特徴抽出を行ない特徴パラメータ列（入力パターン）
を抽出する特徴抽出手段、前記入力パターンから定常的
な部分を検出して定常点列と］−で出力する定常点検出
手段、前記定常点検出手段によって検出された定常点に
対し母音認識を行なう母音認識手段、前記定常点検出手
段によって検出された定常点列に対して１つの定常点と
その次の定常点の間に存在する子音の分類を行なう子音
分類手段、あらかじめ認識単位毎に発声され前記特徴抽
出手段と同じ方法で特徴抽出された標準パターンを格納
しておく標準パターン記憶手段、および前記入力パター
ンと前記標準パターン記憶手段から取りだされた標準パ
ターンとを用いてマツチングを行ない距離が最小となる
標準パターンを認識結果として出力するマツチング手段
を有し、前記子音分類手段で得られた結果を用いて前記
マツチング手段においてマツチングをとるべき標準パタ
ーンの選び方に制限を加える様に構成されているので、
前記マツチング手段で前記入力パターンとマツチングを
とるべき標準パターンの候補が削減され認識処理時間の
高速化を計ることができるという優れた効果が得られる
。さらに事前に候補が選定できるので、認識率の向上も
削る事ができる。また、標準パターン限定のために用い
ているパラメータがＲＭＳあるいにそれに準するものと
簡単に求められるものであり、標準パターン限定のため
の処理時間が問題となる事は殆んどない。

【図面の簡単な説明】

第１図に従来の音声認識装置の構成を示したブロック図
、第２図に本発明の一実施例における音声認識装置の構
成を示したブロック図、第３図げ′前橋′と発声した際
のＲＭＳ、残差パワー、原音波形を示した図、第４図げ
子音分類の処理概要を示した゛フローチャートである。１１　　・マイクロッＡ二、１２・・・・・・Ａ　／　
Ｄ　変換器、１３−・・・・・特徴抽出部、１４・・・
・・・定常点検出部、１５・・・・母音認識部、１６・
・・子音分類部、１７・・・・・・標準パターン記憶部
、１８・・・・・・マツチング部、１９・・・・・・単
語辞書部、２０・・・・・・単語辞書部９１．２１・・
・・・認識結果出力端。代理人の氏名　弁理士　中　尾　敏　男　ほか１名第１
図第２図一プＧ　　　−ｅｌ　　　　　　　＄一ノ　　　　　　ゝ′ 区ａ）敏

Claims

【特許請求の範囲】音声入力手段、前記音声入力手段から入力された音声に
対し一定時間毎に特徴抽出を行ない特徴パラメータ列（
以下入力パターンと言う）を抽出する特徴抽出手段、前
記入力パターンから定常的な部分を検出して定常点列と
して出力する定常点検出手段、前記定常点検出手段によ
って検出された定常点に対し母音認識を行なう母音認識
手段、前記定常点検出手段によって検出された定常点列
に対して１つの定常点とその次の定常点の間に存在する
子音の分類を行なう子音分類手段、あらかじめ認識単位
毎に発声され前記特徴抽出手段と同じ方法で特徴抽出さ
れた標準パターンを格納しておく標準パターン記憶手段
、および前記入力パターンと前記標準パターン記憶手段
からとりだされた標準パターンとを用いてマッチングを
行ない距離が最小となる標準パターンを認識結果として
出力するマッチング手段を有し、前記子音分類手段で得
られた結果を用いて前記マッチング手段においてマッチ
ングをとるべき標準パターンの選び方に制限を加えるよ
うに構成したことを特徴とする音声認識装置。（２）子音分類手段としてＲＭＳ（波形の２乗和のルー
ト）あるいはそれに準するものを用いることを特徴とす
る特許請求の範囲第１項記載の音声認識装置。