JPS6170595A

JPS6170595A - 音声認識方式

Info

Publication number: JPS6170595A
Application number: JP59193077A
Authority: JP
Inventors: 中川　聖一
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1984-09-14
Filing date: 1984-09-14
Publication date: 1986-04-11

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】狭夏分夏本発明は、単語音声を認識する音声認識方式に関する。

史米及亙第７図は、音声認識装置の基本回路図で１図中、１はマ
イクロホン、２は分析部、３は切り換えスイッチ、４は
標準パターン部、５は入力音声パターン部、６は距離計
算部、７は最小値検出部、８は認識結果部で、距離計算
部６及び最小値検出部７でパターンマツチング部を形成
している。第１図において、まず、マイクロホン１から
入ってくる音声を分析してその音声パターンの特徴を認
識するパターンを抽出する。特定話者用のシステムでは
、認識する前に、前もってその話者の各認識対象単語の
分析結果を標準パターンとして登録しておき、認識する
時には、各認識対像単語の標準パターンと入力音声パタ
ーンのパラメータを比較して、最も近い即ち距離の小さ
い認識対象単語を選択する。なお、不特定話者の場合に
は、個人差を吸収できる標準パターンを使用する。

第８図は、帯域通過フィルタ群（Ｂ　Ｐ　Ｆ）を使用し
た分析法の一例を示す図で、同図は、「３」（／　ｓ　
ａ　ｎ　／）という音声を１６チヤンネルの帯域通過フ
ィルタ群（全帯域は２００〜６０００）１２）で分析（
ＢＰＦ分析）したスペクトラムパターンの時間変化図で
ある。時間軸の一単位は１８ｍ５で。

ある時刻で断面をとると、それがその時刻でのスペクト
ラムになっており、実際の認識処理は、すべてデジタル
処理となり、ある時刻ｉでの横一列のスペクトラムの強
度値を特徴ベクトルａｉ（＝ａｉｌ　　ａｉｚ　ａｉ３
　、”’　ａｉ６°”ａＬ＋ｅ）とし、入力音声パター
ン（ここでは「３」の音声パターン）はＡ＝ａ１　　ａ
２−ａｉ−ａＩ（Ｉ＝３２）となる。

従って、音声パターンは次のように表現されるＡ＝ａｌ
　　ａ２　・＝ａｉ・＝ａＩ　　−（１）ａｉは時刻ｉ
における音声の特徴を表す量で、一般にはベクトル値で
あり、Ａはこの特徴ベクトルａｉ（ｎ＝１〜３２　（Ｉ
＝３２の場合）〕の時系列になり、■は音声パターンＡ
の長さに相当する。

また、ベクトルａｔを特徴ベクトルと呼び、ａ　ｉ＝　
（ａｉｌ　、　ａｉ２　・＝ａｉｑ　・・・ａｉＱ）　
　−（２）で表わす６Ｑはベクトルの次数で、第２図の
例では帯過帯域フィルタ群のチャンネル数１６に相当す
る。

同様に単語ｎの標準パターンをＢｎとし。

１　　　　　　°’　”　ｂｔ　’　ｂ２　’　＝　ｂ
ｊ’　パｂ“°°　”−（３）で表わすにの時、ｂＪｎ
は単語ｎの標準パターンの時刻ｊにおける特徴ベクトル
で、前記入力パターンＡの特徴ベクトルａｔと同次数で
ある。また、Ｊｎは単語ｎの４！ｉ？準パターンの長さ
を表わし。

ｎは単語名を示す通し番号で、Ｎ単語の認識単語・セッ
トを考えてΣとすると。

Σ＝　（ｎ　Ｉ　ｎ＝　１．２−Ｎ）　　・・・・・・
（４）となる。ただし、特定の単語を指定する必要がな
い場合は添え字ｎを省略して、Ｂ＝ｂ、ｂ２・・・ｂｊ・・・ｂＪ　　　・・・・・・
（５）？）Ｊ＝　（ｂＪｌ　ｔ　１）Ｊ２　＊・・・１
）ｊｓ・・・ｂ　ｊＯ）　　・・・（６）となる。

音声認識処理では、入力パターンＡについて認識単語セ
クトのすべての単語の標準パターンＢｎを時間正規化し
ながらパターンマツチングし、Ｎ単語の中から最も六方
パターンＡに近い単ａｎを探し出す。

第９図は、時間正規化のための写像モデルで、これは、
前記例で言えば「３」という単語の標準パターンＢを写
像関数によって六方パターンの時間軸に揃えるもので、
通常、前記写像関数を、ｊ＝Ｂｉ）　　　由・・・（７
）で表現し、これを歪関数と呼んでいる。

この歪関数が既知であれば、標準パターンＢの時間軸を
第（７）式によって変換して入力パターンＡの時間軸ｉ
に揃えることができるが、実際には、この歪関数は未知
であり、そのため、一方のパターンを人工的に歪ませて
他方のパターンに最もＨＩＸするようにしてすなわち距
離を最小にして最適な歪関数を定めるようにしている。

第１０図は、上記原理を実行するためのＤＰマツチング
法の一例を説明するための図で、今、標準パターンＢの
時間軸を歪まず関数として歪関数ｊ（ｉ）を考えると、
この歪関数ｊ　（ｉ）によってパターンＢは次のような
パターンＢ′に変換される。

Ｂ’　＝ｂｊ（１）　ｂｊ（ｚ　）・・・ｂｊ（ｉ）・
・・ｂｊ（Ｉ）　　・・・（８）上記歪関数には、実際
の音声パターンの時間歪現像を考慮して、例えば、（イ）、ｊ　（ｉ）は（近似的に）単調増加関数。

（ロ）、ｊ（ｉ）は（近似的に）連続関数。

（ハ）、Ｈｉ）はｉの近傍の値をとる。

等の条件を加えるが、これらの条件を満たす歪関数はほ
とんど無限に存在するが、その中で、Ｂ′が入力パター
ンＡに最も類似するすなわち距離が最も小さくなるよう
な歪関数ｊ　（ｉ）を定める。このためには、まず、標
準パターンＢの時間軸を歪関数ｊ　（ｉ）で入力パター
ンＡのｉ軸上に写像してパターンＢ′を得るが、この時
、パターンＡとパターンＢ′の距離を最小にするような
歪関数ｊ　（ｉ）が最適な歪関数である。この入力パタ
ーンＡと写像パターンＢ′の距離は、 Σ　Ｉ　ａｉ　−ｂｊ（ｉ）Ｉ　　　−・＝　（９）ｎ
＝１ □　　で表わされる。ここで、Ｉｔ　　　ＩＩは２つの
ベクトルの距離を示す、そして、上記（９）式の距離の
最小化問題は、で定義される。一般に、Ｄ　（Ａ、Ｂ）を時間正規化距
離又はパターン間距離と呼び、ｄ　（ｉ、ｊ）はベクト
ルａｉとｂｊとの距離で、通常、ベクトル間距離と呼ん
でいる。

第１１図は、第４図に示した（ｉ、ｊ）平面を抽象化し
て格子状平面にし、各格子点についてその座標（ｉｓ　
ｊ）に対応するベクトル間距離ｄ（ｉ、ｊ）を求めるよ
うにしたもので、前記第（１０）式をこの平面上で考え
ると、（１，ｌ）から始めて（Ｉ、Ｊ）に至る最適な経
路（バス）を探していくことになるが、この場合、ｉ−
１の状態からｉの状態へ移るパスは図示の通り３通りに
制限されることが多い。なお、整合窓Ｗは極端な時間歪
を起こさないようにするためのもので。

該整合窓になって時間正規化に関する前記３つの条件（
イ）〜（ハ）の満たしている。ここで、今。

ｉ＝１，２・・・Ｉのそれぞれのｉにおいて、次にどの
状態のｊに移るべきかの制御を最適に行い、第（１０）
式の評価関数を最小にする場合を考えると、初期条件は
、ｇ　（１，１）＝ｄ　（１，１）　　・・・・・・（１
２）漸化式は。

・・・・・・（１３）パターン間距離は、Ｄ　（Ａ、Ｂ）＝ｇ　（Ｉ、Ｊ）　　　・・・・・・（
１４）となり、前記（１３）式の計算は、第１１図の格
子点を（ｉ、ｊ）の増加する方向にたどって行うことに
なる。すなわち、ｇ（ｉ、ｊ）は（１，ｌ）点から（ｉ
、ｊ）点に至るまでの距離和を最小にしたもので、第（
１３）式は、第（ｉ−１）段のｊ、　　（ｊ−１）　ｒ
　　（ｊ−２）についてすでに求まっているｇ（ｉ−１
ｙ　３）ｒ　ｇ（ｉ−Ｌ　ｊ−１）＋ｇ　（ｉ−１，ｊ
−２）を基に、第１段の状態ｊにおけるｇ　（ｉｓ　ｊ
）を求めるものである。

第１２図は、上述ＤＰマツチング処理を実行するプロセ
ッサのブロック線図で１図中、１１はＡメモリ、１２は
Ｂメモリ、１３はｄ　（ｉ、ｊ）計算部、１４はｇ　（
ｔ＋　３）計算部、１５はＧ（ｊ）メモリ、１６は制御
部で、ｄ（ｉ、Ｊ）計算部１３でａｉとｂｉのベクトル
間距離を計算し１ｇ（ｉ、ｊ）計算部１４で（ｉｓ　ｊ
）に至る最短距離ｇ　（’＋　Ｊ）を算出し、これらを
並行処理する。

ｇ　（ｉｓ　Ｊ）’；　Ｊ＝Ｉ〜Ｊを計算する時はＧ（
ｊ）メモリ１５にｇ　（Ｉ　　Ｌ＋　ｊ）；Ｊ＝１””
Ｊが入っている。また、　ｍ　ｉ　ｎはｇ＋　とｇ２の
小さい方を検出し、小さい方の値をｇに入れる。

而して、上記ＤＰマツチング法による時は、第（１３）
式の１項から明らかなように、フレーム間距離の計算に
１ｘＪＸＮ回、類似度の計算にＩＸＪＸｌ’Ｊ回の計算
回数を必要とする。また、標準パターン記憶量でＮＸＪ
　Ｘｐワード、ワード用記憶量で２ＸＮＸＪワードのメ
モリ量を必要とし、計算量およびメモリ量が大きい欠点
を有する。但し、Ｉ；入力パターン長、に平均標準パタ
ーン長、Ｎ；認識単語数、Ｐ；特徴パラメータ次元数で
ある。さらに、不特定話者の単語音声認識ではｌカテゴ
リに複数個（通常１０個以上）の標準パターンを用いる
ことが多く、この場合には計算量、記憶量共に１０倍以
上になる。

１−眞本−発、明は、上述の如き、実情に鑑みてなされもので
、特に、単語音声を認識する音声認識装置に於て、セグ
メンテーションを含む音韻識別によって音韻ラティスを
構成して単語を識別するボトム・アップ的手法よりもト
ップ・ダウン的に直接に単語を識別する方が単語認識性
能が良いという理由から、音韻（あるいは音節）ごとに
多数話者の発声した音声データから作成した統計的識別
関数と単語認識のためのＤＰマツチング法とを併用する
ことに基づいて１−ツブ・ダウン的に不特定話者の単語
音声を識別することを目的としてなされたものである。

構成本発明は、上記目的を達成するために、単語音声を認識
する音声認識装置に於て、単語標準パターンを音韻標準
パターンとヌル標準パターンとの連結で構成し、入力パ
ターン並びに標準パターンの重み付きＤＰマツチングに
基づいて単語音声を認識することを特徴としたものであ
る。以下１本発明の実施例に基づいて説明する。

第１図は、本発明の一実施例を説明するための構成図で
１図中、２１は音声入力部、２２は周波数分析部、２３
は音韻カテゴリとの距離計算部。

２４は音韻標準パターン蓄積部、２５はＤＰマツチング
部、２６は単語標準パターン蓄積部、２７は単語同定部
、２８は認識結果出力部で、音声入力部２１で入力され
た未知入力音声は周波数分析部２２で周波数分析され、
特徴パラメータの時系列で表現される。音韻標準パター
ン蓄積部２４の音韻標準パターンｋ（ｋ＝１．２．・・
・・・・Ｋ）と前記未知入力パターンとの距、１ｌｄｋ
（ｉ）を距離計算部２３で計算しておき、音韻クラス系
列で表現されている単語標準パターン２６と前記入力パ
ターンとのＤＰマツチングをｄ　ｋ（ｉ）の値を引用し
なからＤＰマツチング部２５で行ない、単語標準パター
ン（１〜Ｎとの距離が最も小さい単語を単語同定部２７
で決定した後、認識結果出力部２８で出力する。

第２図は、本発明に於ける単語標準パターン（縦軸）の
構成および入力パターン（横軸）とのパターンマツチン
グを重み付きＤＰマツチングを用いて行なう場合の説明
図であり、図中、標準パターンの’ＴＯＹＯＨＡＳＩ”
は音韻標準パターン（太細部）とヌル標準パターン（細
線部）との連結で構成されている。すなわち、ａｌ　ｔ
　ａｌ　ｌ・・・。

ａｌ、・・・、　ａＩ、は入力パターンの各フレームを
、ｂｎｌ　＋　”２　＋　”’＋　ｂ’ｊｒ　”’ｒ　
ｂ’Ｊｎ　ｔ＊単語ｎの標準パターンの各フレームを表
わし、入力パターンの各フレームの重みを０、標準パタ
ーンのヌル標準パターンに対応するフレームの重みを０
、音韻標準パターンに対応するフレームの重みを１に定
める。

ここで１本発明の説明において使用する記号について定
義しておく。

ｎ：単語名、ｎ＝１．２．・・・、ＮＮ：単語数Ｊｎ：単語ｎの標準パターン長（フレーム長）Ｒ”：Ｑ
Ｌ語ｎの標準パターンＲ’　＝ｂ’　１　　ｂ’　２　−ｂ’　ｊ　　−ｂ’
　Ｊｎ但し、ｂｎｊ＝音声カテゴリのインデックス列Ｉ：入力パター
ン長（フレーム長）Ｔ二人カバターンＴ＝ａ３　ａ２−・ａＩに：音韻カテゴリ名、に＝１．２．・・・、Ｋ（ｃｖ、
ｖｃｖカテゴリでも可、ただし。

Ｃ；子音、ｖ；母音）Ｑ：各音韻標準パターンの時系列ノ（ターン長ｂ’ｊ”
　（ｌｔ　２＋　”’ｔ　ｋｎ　”’＊　Ｋ＋　０）ｂ
Ｊｎ二に：単語ｎの標準パターンの第ｊフレームが音韻
カテゴリにの標準パターンの終端に対応する場合ｂｊｎ二〇−単語ｎの標準パターンの第ｊフレームがい
ずれの音韻標準パターンの終端にも対応しない場合Ｍｎ：単語ｎの標準パターンを構成する音韻カテゴリ数ｄｋ（ｉ）：入力の第ｉ　−Ｑ　＋　１〜第ｉフレーム
と音韻カテゴリにの標準時系列パターンとの距離（例えば、マハラノビスの距離を用いる）　　　− Ｄ’　（１１ｊ）　：単語ｎの標準パターンの第１〜第
ｊフレームと入力パターンの第１〜第ｉフレームの累積照合距離Ｄ（Ｔ、Ｒｎ）：入力パターンＴと単語ｎの標準パター
ンとの単語間距離次に本発明のアルゴリズムについて説明するが。

本アルゴリズムは入力フレームに対してフレーム同期で
認識を行なう実時間処理向きアルゴリズムである。勿論
、各単語ごとにＤＰマツチングを行なうアルゴリズムも
構成できる。

■　４＝１．２．・・・、１について■〜■を実行する
。

（実際には、Ｌ＝Ｑ、　Ｑ＋１．・・・、■フレームに
対してでよい、、） ■　ｋ＝１，２．・・・、Ｋについてｄｋ（ｉ）を求め
る。

（ここで、入力フレームをマトリックス量子化すれば、
ｄｋ（ｉ）は音韻クラス別コードマトリックス間距離テ
ーブルとしてメモリに格納しておけば直ちに求めること
ができる＠）■　ｎ＝１．２．・・・Ｎについて■を実
行する。“■　Ｊ＝１＋２ｙ・・・Ｊｎについてｂｊｎ＝ｏなら但し、　　ｗｉｎ（）　＝Ｄ’（ｉ−１，ｊ−２）とな
る場合はｂ’ｊ−１＝Ｏである必要がある。

ｂｎｊ≠０ならＤ’　（ｔ＋　ｊ）　＝　Ｄ’　（ｉ−Ｑ、　ｊ−Ｑ）
＋ｄ　（ｉ）　　−（１６）但し、ｋ＝ｂｊｎ ■　Ｄ（Ｔ、Ｒｎ　）＝Ｄｎ　（Ｉ、Ｊｎ）／Ｍｎ＋Ｅ
）　　ｎ　＝　ａｒｇ　ｍ１ｎＤ（Ｔ、　Ｒｎ）　　：
認識結果第３図は、前記アルゴリズムに基づくゼネラル
フローチャートであり１図中、２１〜２８は第７図の同
一番号に対応している。また、３１は入力フレームｉの
カウンタ初期化部、３２は辞書単語ｎのカウンタ初期化
部、３３は前記ｎのカウンタ。

３４は辞書単語数判定部、３５は前記ｉのカウンタ、３
６は入力フレーム数判定部である。

第４図は、本発明で使用するＤＰパスの例であり、（ａ
）図は音韻標準パターンと入力パターンとのマツチング
を行なう際のパスで１両パターンともΩフレームずつを
非伸縮なシフトマツチングで行なっている（重みｌ）、
（ｂ）図はヌル標準パターンと入力パターンとのマツチ
ングを行なう際のバスであり、１７２〜２の傾斜制限を
設けている（重み０）、この場合、単語全体の伸縮率は
ｌ／２〜２よりも小さい範囲となるので、傾斜制限をＣ
Ｃ）図に示すように１／３〜３の範囲に緩めてもよい。

このとき（１５）式は。

で置き換えられる。但し、（１７）式のｍ１ｎ（）（１
）ｆｆＪｉト１．テ０ｎ（ｉ−１，ｊ　−２）　Ｃア；
６イＬ＊、　Ｄ’　（ｉ　　１１　Ｊ　−３）　）が選
択される場合には、ｂ’ｊ　　１　＝Ｏ（アルイハ、ｂ
’ｊ　　１　＝０７５”）ｂ’　ｊ−２＝Ｑ）である必
要がある・。

母音や一部の子音（摩擦音／Ｓ／、撥音／Ｎ／）などは
、時系列パターン長αフレームよりも長い方が良いと考
えられるので、これらの標準パターンでは１フレームお
きに使用してもよい。このとき前記（１６）式は。

Ｄ’　（ｉＪ＝Ｄ’　（ｉ−２Ｑ＋ｌ、　ｊ−２０＋１
）＋ｄｋ（ｉ）、　ｋ＝ｂｊ’で置き換えられる。また
、一般に音韻カテゴリごとに標準パターンの時系列パタ
ーン長を可変にしてもよい。音韻カテゴリにの可変パタ
ーン長を１１１（ｋ）とするとく１６）式は。

Ｄ’　（ｉ、ｊ）＝Ｄ’　（ｉ−Ｑ（ｋ）＋　ｊ−Ｑ（
ｋ））＋ｄｋ（ｉ）　＋　ｋ＝ｂｊ’と変形できる。

標準パターンのうち、音韻標準パターンに対応している
Ωフレームを最小ｌフレームまで短縮することにより、
メモリ量と計算量を減少させることもできる。このとき
（１６）式は、Ｄ’　（ｉ、ｊ）＝Ｄ’　（ｉ−Ｑ、　ｊ　−１）＋ｄ
ｋ（ｉ）、　ｋ＝ｂｊ’と変形できる。同様に標準パタ
ーン中のヌル標準パターンを１／２または１／３に圧縮
することもできる。このどき（１５）式は、各々、と変
形できる。

また、５母音ａ、ｉ、ｕ、ｅ、ｏと無声化母音ｉ、ｕな
どのようにコンテキストにより音韻カテゴリを細分類し
てもよい。このときの音韻カテゴリ数には約３０前後と
なる。

音韻別のカテゴリの代わりにＣＶ（子音−母音）音節カ
テゴリ別にすると精度を向上させることができる。しか
し、音韻カテゴリ数Ｋが１２０程度になり計算量やメモ
リ量が増加するので、ＣＶの後続母音ごとに、例えば／
ａ、ｏ、ｕ／と／ｉ。

ｅ／と２グループに分けると音韻カテゴリ数には約５０
に減少させることができる。

前述の実施例で、各音韻（または音節）クラス別に、全
コードマトリックスとの時系列フレーム間距離（例えば
、不特定話者向きにはマハラノビスの距離など）を予め
計算しておき、テーブル（音韻クラス別距離テーブルと
呼ぶ）に格納しておけば、入力フレーム時系列に対して
マトリックス量子化すれば、各音韻標準パターンと入力
フレーム時系列との距離ｄｋ（ｉ）は前記テーブルを引
用することにより直ちに求めることができ、処理の高速
化およびメモリ量の減少化を図ることもできる。

第５図は、入力フレーム時系列をマトリックス量子化し
たときの音韻クラスにの距離テーブルの構成を表わし１
図中、１，２．・・・、Ｃ１・・・、Ｃの番号は、入力
フレーム時系列のコードマトリックス番号で１例えば、
入力フレーム時系列ａｉ−３゜ａｊ　　２　Ｈａｉ　−
１，ａｉをマトリックス量子化したときのコードマトリ
ックス番号１ｃとし、前記入力フレーム時系列と音韻ク
ラスにとの距離ｄｋ１（１）が予め計算されメモリに記
憶されている。

第６図は、入力フレーム時系列をマトリックス量子化し
たときのゼネラルフローチャートであり、第３図と同じ
く入力フレームに同期したアルゴリズムになっている。

図中、２１〜３６は第９図と同一のブロックを表わし、
３７は入力フレーム時系列の７１〜リックス量子化部、
３８は入力フレーム時系列のコードマトリックス番号生
成部、３９は第５図に示した音韻クラス別距離テーブル
である。音声入力部２１で入力音声を取り込んだ後。

２２で周波数分析を行ない、入力フレーム時系列が入力
されるごとに３１から３６の間のループを回す。まず、
マトリックス量子化部３７で入力フレーム時系列のマト
リックス量子化を音韻標準パターン２４との距離を計算
して行ない、マトリックス番号生成部３８でコードマト
リックス番号の系列を得る１次に３２から３４の間のル
ープで辞書単１ｉＨ＝ｌ、２．・・・、Ｎについて、予
め、計算してテーブル化しておいた音韻クラス別の距離
テーブル３９を、辞書単語２６の音韻クラス系列ごとに
引用しながらＤＰマツチングを２５で行なう。

入力の継続フレームＩまで前記ＤＰマツチングを行なっ
た後に、入力音声との単語間距離が最小となる辞書単語
を単語同定部２７で決定し、Ｌ３識結果として２８で出
力する。

肱−一見以上の説明から明らかなように、本発明によれば、前記
ｄｋ（ｉ）の計算回数はＩＸＫ回であり、１回当りの計
算量はマハラノビス距離の場合、ＰＱ（ＰＱ＋１）の乗
・加算数であり（但し、Ｐは特徴パラメータ次元数）−
Ｄ’　（ｔｙｊ）の計算回数はＩＸＮＸＪであるが、１
回の計算量はマトリックス量子化しない場合でも（標準
パターンにヌルパターンを含み、且つ音韻標準パターン
の部分では非伸縮のシフトマツチングを行うため）通常
のＤＰマツチングに比べて少ないので高速に認識処理を
行なうことができる。また、多数話者の音韻（あるいは
音節）データで統計処理を施した音韻（音節）標準パタ
ーンとヌル標準パターンの連結で単語の標準パターンを
構成し入力パターンと単語単位でＤＰマツチングを行な
うので、入力音声のセグメンテーシ五ンを必要とせず、
トップ・ダウン的に処理を行なうので正確な認識が可能
となる。

【図面の簡単な説明】

第１図は１本発明の一実施例を説明するための構成図、
第２図は、本発明の動作説明図、第３図は、本発明の動
作説明をするためのフローチャート、第４図は、本発明
において使用するＤＰパスの例を示す図、第５図は、音
韻クラスの距離テーブル構成例を示す図、第６図は、入
力フレーム時系列をマトリックス量子化した時のフロー
チャート、第７図は、音声認識装置の基本構成図、第８
図は、音声分析の一例を示す図、第９図は、時間正規化
のための写像モデル、第１０図は、歪関数による時間正
規化図、第１１図は１時間正規化を行うための格子状平
面図、第１２図は、ＤＰマツチング処理を行うプロセッ
サのブロック線図である。２１・・・音声入力部、２２・・・周波数分析部、２３
・・・音韻カテゴリとの距離計算部、２４・・・音韻標
貨パターン蓄積部、２５・・・ＤＰマツチング部、２６
・・・単語標準パターン蓄積部、２７・・・単語同定部
、２８・・・ｙ！３識結果出力部、３１．３２・・カラ
〉り初期化部、３３・・・カウンタ、３４・・・辞書単
語数判定部、３５・・カウンタ、３６・・・入力フレー
ム数判定部。第　　１　　図Ｉ第２図入力パターン第３図第４図　　　第５図（１−１，ＪＪ、４１６１第　７　図第８図第９図第　１０　図ｓ　　　　Ｑ−Ｎ　　　　。

Claims

【特許請求の範囲】

単語音声を認識する音声認識装置に於て、単語標準パタ
ーンを音韻標準パターンとヌル標準パターンとの連結で
構成し、入力パターン並びに標準パターンの重み付きＤ
Ｐマッチングに基づいて単語音声を認識することを特徴
とする音声認識方式。