JPS6120998A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPS6120998A JPS6120998A JP59142716A JP14271684A JPS6120998A JP S6120998 A JPS6120998 A JP S6120998A JP 59142716 A JP59142716 A JP 59142716A JP 14271684 A JP14271684 A JP 14271684A JP S6120998 A JPS6120998 A JP S6120998A
- Authority
- JP
- Japan
- Prior art keywords
- stationary point
- standard pattern
- recognition
- matching
- stationary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
産業上の利用分野
本発明げ音声認識装置の改良に関するものでろるO
従来例の構成とその問題点
音声認識技術にワードプロセッサや計算機への入力等、
マン−マシン−インターフェイスとして実用化が期待さ
れている分野である。最近のマイクロプロセッサや、D
SP(ディジタルシグナルプロセッサ)の高性能化に伴
って音声認識技術が我々に身近なものになシつつめるが
、技術レベルとしてにまだまだ誤認識が多く、認識処理
時間も長くかが9実用に充分なものとは言い難い。
マン−マシン−インターフェイスとして実用化が期待さ
れている分野である。最近のマイクロプロセッサや、D
SP(ディジタルシグナルプロセッサ)の高性能化に伴
って音声認識技術が我々に身近なものになシつつめるが
、技術レベルとしてにまだまだ誤認識が多く、認識処理
時間も長くかが9実用に充分なものとは言い難い。
大語い音声認識には入力音声を認識する単位として、単
音節(CV)を用いるもの、CvおよびvCvを用いる
もの、音素(CおよびV)を用いるもの等が考えられる
。i!た、入力者があらかじめ標準となる音声を発声・
登録してから認識処理をはじめる登録型と、たくさんの
発声データを平均化して普遍的なパターンを用意してお
く不特定型がある。また特徴抽出の方法として、線形予
測分析(以下L P、C分析トイう Linear 、
iredictiveCodingの略)やフィルタバ
ンクを用い庭ものが主流となっている。ことでに、認識
単位HvcvおよびCv、登録型、LPG分析によるL
PGケプストラム係数を特徴量として用いた場合につい
て説明する。
音節(CV)を用いるもの、CvおよびvCvを用いる
もの、音素(CおよびV)を用いるもの等が考えられる
。i!た、入力者があらかじめ標準となる音声を発声・
登録してから認識処理をはじめる登録型と、たくさんの
発声データを平均化して普遍的なパターンを用意してお
く不特定型がある。また特徴抽出の方法として、線形予
測分析(以下L P、C分析トイう Linear 、
iredictiveCodingの略)やフィルタバ
ンクを用い庭ものが主流となっている。ことでに、認識
単位HvcvおよびCv、登録型、LPG分析によるL
PGケプストラム係数を特徴量として用いた場合につい
て説明する。
以下図面を用いて従来の音声認識装置について説明する
。第。1図は音声認識装置の構成を示すブロック図であ
る。マイクロフォン1から入力された音声信号に、ム/
D変換器2を介して12 KH2でサンプリングされる
。特徴抽出部3では音声信号を入力として窓長20 m
Bf30.フレームシフト5m5ecで自己相関法を用
いた16次の線形予測分析(J、 D、 Mankel
、 A、 H,Gray著、鈴木久喜訳:音声の線形
予測、1980年コロナ社)を行ない、16次のLPG
ケプストラム係数(残差パワーを示す0外の係数を含め
て16個の係数の組)、および原音の1MSエネルギー
を出力する。定常点検出部4では特徴抽出部3で得られ
たケプストラム係数を用いて分散が極小となる様なフレ
ームを定常点として検出する。分散が極小の点とげ以下
のように定義する。今、入力パターンのパラメータ列を
、zi、i=1.2、・・・・・・と表わす。フレーム
iにおける分散δlを と定義する。このδ1が極小となるフレームを定常点と
する。母音認識部6では定常点検出部4で定められた定
常点に対し識別関数(安田三部:社会統計学2章7節、
1969年丸善)を用いて母音認識を行なう。識別関数
に標準パターン登録時にあらかじめ作成しておく。標準
パターン記憶部6にはあらかじめ発声され特徴抽出部3
と全く同じ処理を受けて作成され°た標準パラメータが
パラメータ列として格納されている。マツチング部7で
は必要な標準パターンを標準パターン記憶部6より読み
だし入力パターンとマツチングを行なって距離が最小と
なるものを認識結果として出力する。単語辞書部8に認
識すべき単語が音韻列表記で格納されている一マツチン
グ部7で得られた認識音韻列は単語認識部9へ入力され
、単語辞書部8に格納された単語との類似度を求め最終
的な単語としての認識結果を結果出力端1oに得る。
。第。1図は音声認識装置の構成を示すブロック図であ
る。マイクロフォン1から入力された音声信号に、ム/
D変換器2を介して12 KH2でサンプリングされる
。特徴抽出部3では音声信号を入力として窓長20 m
Bf30.フレームシフト5m5ecで自己相関法を用
いた16次の線形予測分析(J、 D、 Mankel
、 A、 H,Gray著、鈴木久喜訳:音声の線形
予測、1980年コロナ社)を行ない、16次のLPG
ケプストラム係数(残差パワーを示す0外の係数を含め
て16個の係数の組)、および原音の1MSエネルギー
を出力する。定常点検出部4では特徴抽出部3で得られ
たケプストラム係数を用いて分散が極小となる様なフレ
ームを定常点として検出する。分散が極小の点とげ以下
のように定義する。今、入力パターンのパラメータ列を
、zi、i=1.2、・・・・・・と表わす。フレーム
iにおける分散δlを と定義する。このδ1が極小となるフレームを定常点と
する。母音認識部6では定常点検出部4で定められた定
常点に対し識別関数(安田三部:社会統計学2章7節、
1969年丸善)を用いて母音認識を行なう。識別関数
に標準パターン登録時にあらかじめ作成しておく。標準
パターン記憶部6にはあらかじめ発声され特徴抽出部3
と全く同じ処理を受けて作成され°た標準パラメータが
パラメータ列として格納されている。マツチング部7で
は必要な標準パターンを標準パターン記憶部6より読み
だし入力パターンとマツチングを行なって距離が最小と
なるものを認識結果として出力する。単語辞書部8に認
識すべき単語が音韻列表記で格納されている一マツチン
グ部7で得られた認識音韻列は単語認識部9へ入力され
、単語辞書部8に格納された単語との類似度を求め最終
的な単語としての認識結果を結果出力端1oに得る。
次に’ maebashi(前橋)′と入力された場合
を例として標準パターンとの妥ワチング回数((ついて
説明する8ム/D変換器2、特徴抽出部3、定常点検出
部〜母音認識部6の各々め手段を用V)てまず’aea
i’ という母音列を得る。即ち入力音声n ’ C1
a C2e ’5a C4i’ (ci H子音。
を例として標準パターンとの妥ワチング回数((ついて
説明する8ム/D変換器2、特徴抽出部3、定常点検出
部〜母音認識部6の各々め手段を用V)てまず’aea
i’ という母音列を得る。即ち入力音声n ’ C1
a C2e ’5a C4i’ (ci H子音。
×(子音なし、即ち母音連続の場合)を含む)であると
して、マツチング部7でに標準パターンとのマツチング
を用いて各C1(i=a−a)の決定ヲ行なう0先ず第
1.音節’01a’ (01a CH!l C5aCn
1)に対して標準パターン記憶部7からCv標’ra、
’waj、 ’ga’ 、 ’za’、 ’da’、
’ba’、’pm’よう音a除く)を各々読みだしてマ
ツチングを行ない、距離が最小となるものを認識結果と
して出力する。次に第2音節を決定するために′acz
e’(C+a C2a C5& Cni )に対して
標準パターン記憶部7からVCV標準パターンのうち先
行母音が′a′、後続母音が7./のもの13種(’a
s’。
して、マツチング部7でに標準パターンとのマツチング
を用いて各C1(i=a−a)の決定ヲ行なう0先ず第
1.音節’01a’ (01a CH!l C5aCn
1)に対して標準パターン記憶部7からCv標’ra、
’waj、 ’ga’ 、 ’za’、 ’da’、
’ba’、’pm’よう音a除く)を各々読みだしてマ
ツチングを行ない、距離が最小となるものを認識結果と
して出力する。次に第2音節を決定するために′acz
e’(C+a C2a C5& Cni )に対して
標準パターン記憶部7からVCV標準パターンのうち先
行母音が′a′、後続母音が7./のもの13種(’a
s’。
’ass’ 、 ’ane’ 、 ’awe’ 、 ’
ate’ 、 ’ahe’ 、 ’ape’。
ate’ 、 ’ahe’ 、 ’ape’。
’ake’ 、’are’ 、 ’age’ 、 ’a
ze’ 、 ’ads’ 、 ’abe’)を読み出し
て各々マツチングを行ない距離が最小となるものを認識
結果とする。以下同様にして第3音節、第4音節を決定
して、認識音韻列を得る。
ze’ 、 ’ads’ 、 ’abe’)を読み出し
て各々マツチングを行ない距離が最小となるものを認識
結果とする。以下同様にして第3音節、第4音節を決定
して、認識音韻列を得る。
即ち第1音節決定のために16回のマツチング操作、第
2音節決定のために13回のマツチング操作が必要とな
る。しかしながら、このように母音定常点だけを事前に
決定する従来装置では1音節決定のために11〜15回
のマツチング操作を必要とし、処理時間が長くかかりす
ぎるという問題点を有していた。
2音節決定のために13回のマツチング操作が必要とな
る。しかしながら、このように母音定常点だけを事前に
決定する従来装置では1音節決定のために11〜15回
のマツチング操作を必要とし、処理時間が長くかかりす
ぎるという問題点を有していた。
発明の目的
本発明は以上の問題点を解消し、RMS4るいにそれに
準する簡単なパラメータを用いて事前にマツチング候補
を限定する事によって認識処理時間の高速化を計る事を
目的とする。
準する簡単なパラメータを用いて事前にマツチング候補
を限定する事によって認識処理時間の高速化を計る事を
目的とする。
発明の構成
本発明の認識装置は、音声入力手段、前記音声入力手段
から入力された音声に対し一定時間毎に特徴抽出を行な
い特徴パラメータ列(入力パターン)を抽出する特徴抽
出手段、前記入力パターンから定常的な部分を検出して
定常点列として出力する定常点検出手段、前記定常点検
出手段によって検出された定常点に対し母音認識を行な
う母音認識手段、前記定常点検出手段によって検出され
た定常点列に対して1つの定常点とその次の定常点の間
に存在する子音の分類を行なう子音分類手段、あらかじ
め認識単位毎に発声され前記特徴抽出手段と同じ方法で
特徴抽出された標準パターンを格納しておく標準パター
ン記憶手段、および前記入力パターンと前記標準パター
ン記憶手段から取りだされた標準パターンとを用いてマ
ツチングを行ない距離が最小となる標準パターンを認識
結果として出力するマツチング手段を有し、前記子音分
類手段で得られた結果を用いて前記マツチング手段にお
いてマツチングをとるべき標準パターンの選び方に制限
を加えることを特徴とするもので、これによりマツチン
グ候補を限定し認識処理時間の高速化を計るものである
。
から入力された音声に対し一定時間毎に特徴抽出を行な
い特徴パラメータ列(入力パターン)を抽出する特徴抽
出手段、前記入力パターンから定常的な部分を検出して
定常点列として出力する定常点検出手段、前記定常点検
出手段によって検出された定常点に対し母音認識を行な
う母音認識手段、前記定常点検出手段によって検出され
た定常点列に対して1つの定常点とその次の定常点の間
に存在する子音の分類を行なう子音分類手段、あらかじ
め認識単位毎に発声され前記特徴抽出手段と同じ方法で
特徴抽出された標準パターンを格納しておく標準パター
ン記憶手段、および前記入力パターンと前記標準パター
ン記憶手段から取りだされた標準パターンとを用いてマ
ツチングを行ない距離が最小となる標準パターンを認識
結果として出力するマツチング手段を有し、前記子音分
類手段で得られた結果を用いて前記マツチング手段にお
いてマツチングをとるべき標準パターンの選び方に制限
を加えることを特徴とするもので、これによりマツチン
グ候補を限定し認識処理時間の高速化を計るものである
。
実施例の説明
第2図に本発明の一実施例を示したブロック図でめる。
本実施例の認識手法についてに従来例のものと同様、認
識単位[CVおよびVCV、特徴パラメータIdLPO
ケプストラム、マツチングを用いたものとする。従って
構成に従来例とほぼ同じとなる。マイクロフォン11か
ら入力された音声[A/D変換器12を介してディジタ
ルデータに変換され、特徴抽出部13において窓長2゜
m5elc 、フレームシフト5m5I50 、15次
の線、形予測分析が行なわれ、LPGケブヌトラム係数
およびRM S 、(波形の2乗和のルート)のパラメ
ータ列を得る。定常点検出部14においてケプストラム
係数の分散が極小になる点を定常点列として出力する。
識単位[CVおよびVCV、特徴パラメータIdLPO
ケプストラム、マツチングを用いたものとする。従って
構成に従来例とほぼ同じとなる。マイクロフォン11か
ら入力された音声[A/D変換器12を介してディジタ
ルデータに変換され、特徴抽出部13において窓長2゜
m5elc 、フレームシフト5m5I50 、15次
の線、形予測分析が行なわれ、LPGケブヌトラム係数
およびRM S 、(波形の2乗和のルート)のパラメ
ータ列を得る。定常点検出部14においてケプストラム
係数の分散が極小になる点を定常点列として出力する。
(実施例における定常点の決定法に従来例と同様である
)次に母音識別部16において定常点に対して識別関数
を用いた母音識別を行なう。この際用いられる識別関数
についてにあらかじめ標準パターン登録時に作成されて
いるものとする。次に子音分類部16において、定常点
認識部14で得られた定常点列の1つの定常点と次の定
常点間のRMSを用いて子音の分類を行なう。
)次に母音識別部16において定常点に対して識別関数
を用いた母音識別を行なう。この際用いられる識別関数
についてにあらかじめ標準パターン登録時に作成されて
いるものとする。次に子音分類部16において、定常点
認識部14で得られた定常点列の1つの定常点と次の定
常点間のRMSを用いて子音の分類を行なう。
子音分類部16については後にフローチャートを用いて
詳細に説明する。標準パターン記憶部17にはあらかじ
め発声された音声(CvおよびvCV)がLPG分析さ
れケプストラム係数として記憶部れている。マツチング
部18では子音分類部16で得られた結果をもとに決め
られるマツチングすべき標準パターンを標準パターン記
憶部17からとりだしてマツチングを行ない、認識音韻
列を出力する。単語辞書部19には認識すべき単語が音
韻列表記で格納されている。マツチング部18で得られ
た認識音韻列に対し単語認識部2゜において単語辞書と
の類似度を求めて最終的な単語認識結果を結果出力端2
1に得る。
詳細に説明する。標準パターン記憶部17にはあらかじ
め発声された音声(CvおよびvCV)がLPG分析さ
れケプストラム係数として記憶部れている。マツチング
部18では子音分類部16で得られた結果をもとに決め
られるマツチングすべき標準パターンを標準パターン記
憶部17からとりだしてマツチングを行ない、認識音韻
列を出力する。単語辞書部19には認識すべき単語が音
韻列表記で格納されている。マツチング部18で得られ
た認識音韻列に対し単語認識部2゜において単語辞書と
の類似度を求めて最終的な単語認識結果を結果出力端2
1に得る。
第3図aσ′前橋′と発声した際のRMSを、第3図す
は残差パワー(0次のケプストラム係数)を、第3図C
は波形をそれぞれ示した図である。
は残差パワー(0次のケプストラム係数)を、第3図C
は波形をそれぞれ示した図である。
第3図a、b、cともに横軸に時間、縦軸に振幅をあら
れし、時間軸方向の目盛シげ1目盛50m860 でめ
る。第3図C図内に↓aと書き込まれているのけ定常点
認識の結果定常点と判定1れた位置、およびその位置に
対する母音認識結果である。2つの定常点の間のRMS
や残差パワーの変化のし方から定常点間に存在する子音
の分類を行ないマツチングを行なう標準パターンの数を
削減する事が可能である。例えば’ maabashi
’の′a′ と/ e / の間では特に大きなRMS
のディ、ツブが見らt″LないのでS / z / b
やB/D/g、P/l/kが存在する事にアりえない、
そこでここでは’ae’、’ane’、’awe’、’
are’ の4つの標準パターンとマツチングを行なえ
ばよい事になる。
れし、時間軸方向の目盛シげ1目盛50m860 でめ
る。第3図C図内に↓aと書き込まれているのけ定常点
認識の結果定常点と判定1れた位置、およびその位置に
対する母音認識結果である。2つの定常点の間のRMS
や残差パワーの変化のし方から定常点間に存在する子音
の分類を行ないマツチングを行なう標準パターンの数を
削減する事が可能である。例えば’ maabashi
’の′a′ と/ e / の間では特に大きなRMS
のディ、ツブが見らt″LないのでS / z / b
やB/D/g、P/l/kが存在する事にアりえない、
そこでここでは’ae’、’ane’、’awe’、’
are’ の4つの標準パターンとマツチングを行なえ
ばよい事になる。
次に’e’ 、’a’の間でげRMS、残差パワーとも
に大きく減少している。そこでここに存在する子音はb
/d/gのいずれかであると考えられ’eba’ 、’
eda’ 、’ega’ノ3つノ標準パターントマッチ
ングを行なう事になる。このように、RMSおよび残差
パワーを用いた非常に簡単な方法でマツチングすべき標
準パターンを限定しマツチングの回数をA−%へ削減す
る事が可能である。
に大きく減少している。そこでここに存在する子音はb
/d/gのいずれかであると考えられ’eba’ 、’
eda’ 、’ega’ノ3つノ標準パターントマッチ
ングを行なう事になる。このように、RMSおよび残差
パワーを用いた非常に簡単な方法でマツチングすべき標
準パターンを限定しマツチングの回数をA−%へ削減す
る事が可能である。
第4図に子音分類部16において行なわれる処理の概要
をフローチャートに示したものである。
をフローチャートに示したものである。
1つの定常点(Siとする)とその次の定常点(Si+
+)の間に無音が存在する場合、その間に存在する子音
id P / t / kでるると考えられるので、マ
ツチングすべき標準パターンをP / t / kのみ
に限定する。次に5LISl+ 1間のRMfSの極小
を求めそれをMINRとすると PD =min(RMS(81)、 RMS(Si+1
)) MINRと定義し、PDがろる閾値TH1より
も大きいとき、その定常点間に存在する子音74 s
/ z / h /b/d/g/rのどれかでるる。ざ
らに残差パワー(以下zpとめられす)を用いて、SL
+ Sl+ 。
+)の間に無音が存在する場合、その間に存在する子音
id P / t / kでるると考えられるので、マ
ツチングすべき標準パターンをP / t / kのみ
に限定する。次に5LISl+ 1間のRMfSの極小
を求めそれをMINRとすると PD =min(RMS(81)、 RMS(Si+1
)) MINRと定義し、PDがろる閾値TH1より
も大きいとき、その定常点間に存在する子音74 s
/ z / h /b/d/g/rのどれかでるる。ざ
らに残差パワー(以下zpとめられす)を用いて、SL
+ Sl+ 。
間のzPの極小をMINZとすると、ろる閾値TH2、
TH3に対して、M X N Z:)T H’2の場合
、子音118/z/h、MINZ<TH3の場合、子音
nb/d/gとする。またPDがある閾値TH4より大
きいときは子音はn/m/r/w/y/g、小さいとき
にn/m/r/w/y/矢(例は二重母音を示す)とし
て、限定された子音に対してのみマツチングを行なう事
にする。ここで各閾値の決め方は以下のとうりでろる。
TH3に対して、M X N Z:)T H’2の場合
、子音118/z/h、MINZ<TH3の場合、子音
nb/d/gとする。またPDがある閾値TH4より大
きいときは子音はn/m/r/w/y/g、小さいとき
にn/m/r/w/y/矢(例は二重母音を示す)とし
て、限定された子音に対してのみマツチングを行なう事
にする。ここで各閾値の決め方は以下のとうりでろる。
T H1= MIN紐0.12
T H2” m1LX(Zp(8i)、 Zp(Si+
1) )≠0.9T H3=max(zp(si)、
Zp(Si++ ))矢0.7T H4= MINRM
o、04 ここでgおよびr t6 RM Sだけでは分類しにく
いため、g/rがマツチングすべき標準パターンとして
多く選ばれる様にして分類エラーによる誤認識を防いで
いるー このように比較的簡単なアルゴリズムで定常点間の子音
の分類を行ない、マツチングすべき標準パターンを限定
してマツチング回数を削減し、認識処理の時間短縮を計
る事ができる。′!i:ためらかしめ標準パターンの選
定が行なわれるので認識率の向上も計る事ができる。
1) )≠0.9T H3=max(zp(si)、
Zp(Si++ ))矢0.7T H4= MINRM
o、04 ここでgおよびr t6 RM Sだけでは分類しにく
いため、g/rがマツチングすべき標準パターンとして
多く選ばれる様にして分類エラーによる誤認識を防いで
いるー このように比較的簡単なアルゴリズムで定常点間の子音
の分類を行ない、マツチングすべき標準パターンを限定
してマツチング回数を削減し、認識処理の時間短縮を計
る事ができる。′!i:ためらかしめ標準パターンの選
定が行なわれるので認識率の向上も計る事ができる。
実施例でげRMS(!:ZPを用いた場合について説明
したが他のパラメータでも差しつかえない。
したが他のパラメータでも差しつかえない。
認識単位がCv′およびVCV、特徴パラメータがLP
Gクブストラム係数、認識手法がマツチングの場合につ
いて説明したが、その他の手法でも何らかわりなくこの
発明を利用できる。また実施例に示した子音分類例に一
例であり、その他の子音分類にする事も可能である。
Gクブストラム係数、認識手法がマツチングの場合につ
いて説明したが、その他の手法でも何らかわりなくこの
発明を利用できる。また実施例に示した子音分類例に一
例であり、その他の子音分類にする事も可能である。
発明の効果
以上の説明から明らかな様に本発明に、音声入力手段、
前記音声入力手段から入力された音声に対し一定時間毎
に特徴抽出を行ない特徴パラメータ列(入力パターン)
を抽出する特徴抽出手段、前記入力パターンから定常的
な部分を検出して定常点列と]−で出力する定常点検出
手段、前記定常点検出手段によって検出された定常点に
対し母音認識を行なう母音認識手段、前記定常点検出手
段によって検出された定常点列に対して1つの定常点と
その次の定常点の間に存在する子音の分類を行なう子音
分類手段、あらかじめ認識単位毎に発声され前記特徴抽
出手段と同じ方法で特徴抽出された標準パターンを格納
しておく標準パターン記憶手段、および前記入力パター
ンと前記標準パターン記憶手段から取りだされた標準パ
ターンとを用いてマツチングを行ない距離が最小となる
標準パターンを認識結果として出力するマツチング手段
を有し、前記子音分類手段で得られた結果を用いて前記
マツチング手段においてマツチングをとるべき標準パタ
ーンの選び方に制限を加える様に構成されているので、
前記マツチング手段で前記入力パターンとマツチングを
とるべき標準パターンの候補が削減され認識処理時間の
高速化を計ることができるという優れた効果が得られる
。さらに事前に候補が選定できるので、認識率の向上も
削る事ができる。また、標準パターン限定のために用い
ているパラメータがRMSあるいにそれに準するものと
簡単に求められるものであり、標準パターン限定のため
の処理時間が問題となる事は殆んどない。
前記音声入力手段から入力された音声に対し一定時間毎
に特徴抽出を行ない特徴パラメータ列(入力パターン)
を抽出する特徴抽出手段、前記入力パターンから定常的
な部分を検出して定常点列と]−で出力する定常点検出
手段、前記定常点検出手段によって検出された定常点に
対し母音認識を行なう母音認識手段、前記定常点検出手
段によって検出された定常点列に対して1つの定常点と
その次の定常点の間に存在する子音の分類を行なう子音
分類手段、あらかじめ認識単位毎に発声され前記特徴抽
出手段と同じ方法で特徴抽出された標準パターンを格納
しておく標準パターン記憶手段、および前記入力パター
ンと前記標準パターン記憶手段から取りだされた標準パ
ターンとを用いてマツチングを行ない距離が最小となる
標準パターンを認識結果として出力するマツチング手段
を有し、前記子音分類手段で得られた結果を用いて前記
マツチング手段においてマツチングをとるべき標準パタ
ーンの選び方に制限を加える様に構成されているので、
前記マツチング手段で前記入力パターンとマツチングを
とるべき標準パターンの候補が削減され認識処理時間の
高速化を計ることができるという優れた効果が得られる
。さらに事前に候補が選定できるので、認識率の向上も
削る事ができる。また、標準パターン限定のために用い
ているパラメータがRMSあるいにそれに準するものと
簡単に求められるものであり、標準パターン限定のため
の処理時間が問題となる事は殆んどない。
第1図に従来の音声認識装置の構成を示したブロック図
、第2図に本発明の一実施例における音声認識装置の構
成を示したブロック図、第3図げ′前橋′と発声した際
のRMS、残差パワー、原音波形を示した図、第4図げ
子音分類の処理概要を示した゛フローチャートである。 11 ・マイクロッA二、12・・・・・・A /
D 変換器、13−・・・・・特徴抽出部、14・・・
・・・定常点検出部、15・・・・母音認識部、16・
・・子音分類部、17・・・・・・標準パターン記憶部
、18・・・・・・マツチング部、19・・・・・・単
語辞書部、20・・・・・・単語辞書部91.21・・
・・・認識結果出力端。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名第1
図 第2図 一プ G −el $ 一ノ ゝ′ 区 a) 敏
、第2図に本発明の一実施例における音声認識装置の構
成を示したブロック図、第3図げ′前橋′と発声した際
のRMS、残差パワー、原音波形を示した図、第4図げ
子音分類の処理概要を示した゛フローチャートである。 11 ・マイクロッA二、12・・・・・・A /
D 変換器、13−・・・・・特徴抽出部、14・・・
・・・定常点検出部、15・・・・母音認識部、16・
・・子音分類部、17・・・・・・標準パターン記憶部
、18・・・・・・マツチング部、19・・・・・・単
語辞書部、20・・・・・・単語辞書部91.21・・
・・・認識結果出力端。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名第1
図 第2図 一プ G −el $ 一ノ ゝ′ 区 a) 敏
Claims (1)
- 【特許請求の範囲】 音声入力手段、前記音声入力手段から入力された音声に
対し一定時間毎に特徴抽出を行ない特徴パラメータ列(
以下入力パターンと言う)を抽出する特徴抽出手段、前
記入力パターンから定常的な部分を検出して定常点列と
して出力する定常点検出手段、前記定常点検出手段によ
って検出された定常点に対し母音認識を行なう母音認識
手段、前記定常点検出手段によって検出された定常点列
に対して1つの定常点とその次の定常点の間に存在する
子音の分類を行なう子音分類手段、あらかじめ認識単位
毎に発声され前記特徴抽出手段と同じ方法で特徴抽出さ
れた標準パターンを格納しておく標準パターン記憶手段
、および前記入力パターンと前記標準パターン記憶手段
からとりだされた標準パターンとを用いてマッチングを
行ない距離が最小となる標準パターンを認識結果として
出力するマッチング手段を有し、前記子音分類手段で得
られた結果を用いて前記マッチング手段においてマッチ
ングをとるべき標準パターンの選び方に制限を加えるよ
うに構成したことを特徴とする音声認識装置。 (2)子音分類手段としてRMS(波形の2乗和のルー
ト)あるいはそれに準するものを用いることを特徴とす
る特許請求の範囲第1項記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59142716A JPS6120998A (ja) | 1984-07-10 | 1984-07-10 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59142716A JPS6120998A (ja) | 1984-07-10 | 1984-07-10 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS6120998A true JPS6120998A (ja) | 1986-01-29 |
Family
ID=15321914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59142716A Pending JPS6120998A (ja) | 1984-07-10 | 1984-07-10 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS6120998A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02219853A (ja) * | 1989-02-21 | 1990-09-03 | Matsushita Electric Works Ltd | 配線板用樹脂組成物およびプリプレグ |
-
1984
- 1984-07-10 JP JP59142716A patent/JPS6120998A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02219853A (ja) * | 1989-02-21 | 1990-09-03 | Matsushita Electric Works Ltd | 配線板用樹脂組成物およびプリプレグ |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110211565B (zh) | 方言识别方法、装置及计算机可读存储介质 | |
Bezoui et al. | Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC) | |
Hibare et al. | Feature extraction techniques in speech processing: a survey | |
JPS6336676B2 (ja) | ||
Mon et al. | Speech-to-text conversion (STT) system using hidden Markov model (HMM) | |
Ranjan et al. | Isolated word recognition using HMM for Maithili dialect | |
Bhukya | Effect of gender on improving speech recognition system | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
KR100738332B1 (ko) | 성대신호 인식 장치 및 그 방법 | |
Dharun et al. | Voice and speech recognition for tamil words and numerals | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
JPS6120998A (ja) | 音声認識装置 | |
Mengistu et al. | Text independent Amharic language dialect recognition: A hybrid approach of VQ and GMM | |
JPS58108590A (ja) | 音声認識装置 | |
Laleye et al. | Automatic text-independent syllable segmentation using singularity exponents and rényi entropy | |
Majidnezhad | A HTK-based method for detecting vocal fold pathology | |
JPH0283595A (ja) | 音声認識方法 | |
Laleye et al. | Automatic boundary detection based on entropy measures for text-independent syllable segmentation | |
JPS63161499A (ja) | 音声認識装置 | |
JP3277522B2 (ja) | 音声認識方法 | |
Mengistu et al. | Text independent amharic language dialect recognition using neuro-fuzzy gaussian membership function | |
JP2760096B2 (ja) | 音声認識方式 | |
Akila et al. | WORD BASED TAMIL SPEECH RECOGNITION USING TEMPORAL FEATURE BASED SEGMENTATION. | |
JPS6069694A (ja) | 語頭子音のセグメンテ−ション法 | |
JPS6355599A (ja) | 音声認識装置 |