JPS617889A

JPS617889A - 連続単語音声認識方式

Info

Publication number: JPS617889A
Application number: JP59128489A
Authority: JP
Inventors: 好田　正紀; 清宏鹿野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1984-06-22
Filing date: 1984-06-22
Publication date: 1986-01-14

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】「産業上の利用分野」この発明は、単語を連続して発声した連続単語音声を１
１時間軸の非線形正規化マツチング法によって認識する
音声認識方式に関するものである。

「従来の技術」単語を連続して発声した連続単語音声を、時間軸の非線
形正規化マツチング法（以下、ＤＰマツチング法という
）によって認識する音声認識技術において、時間軸の非
線形正規化のための許容される局所的なマツチング経路
（以下、ＤＰババスいうンとして、標準パターンの時間
軸と入力音声の時間軸に関して対称型の１ンテング経路
（以下。

対称型Ｄｒババスいう）を許容するように構成された連
続単語音声認識方式が提案されている。この連続単語音
声認識方式は単語列標準パターンと入力音声との間の距
１１ＩＣ以下、Ｄｒ累積距離という）を求めるためのＤ
ｒ漸化式の計算を、単語列標準パターンの時間、軸に沿
って単語境界候補レベルを変えて行うように構成されて
いた。

仁の従来の認識方式をよシ詳細に説明する。第１図は従
来の認識方式における、認識対象の単語列の１桁目（１
番目の単語）の単語標準パターンと入力音声とのＤｒマ
ツチングの説明図である。

横軸は入力音声の時間軸を、縦軸は標準パターンの時間
軸を示す。入力音声と標準パターンとの間の不自然な非
線形伸縮を避けるために、ＤＰババス傾斜は１／２と２
の間に限定されることが多いので、ここでは、ＤＰ漸化
式の計算を、ＤＰ整合窓内で傾き１／２の直ｌｌ１１１
０１と傾き２の直ａｘｏｚとの間に囲まれた領域で行う
ことにして説明する。

ＤＰ累積距離は単語標準パターンの終端に対応する位置
に求まるが、単語の種類によって標準パターンの長さが
一般に異なることと％１つの単語標準パターンでも終端
となルうる区間が一般に複数のフレームからなることに
ょル、１桁目のＤＰ累積距離の結果は、前記計算領域内
で最短標準パターン・に対する計算結果線と最長標準パ
ターンに対する計算結果線とで囲まれた斜線領域ｌ内に
与えられる。領域１のＤＰ累積距離を求めるためのＤＰ
漸化式の計算は、まず入力音声の時間軸に沿って行い、
その処理を標準パターンの時間軸に沿って繰返す。

第２図は、従来の認識方式における、認識対象の単語列
の２桁目の単語標準パターンと入力音声とのＤｒマツチ
ングの説明図である。この場合には、領域１の工桁目Ｏ
Ｄｒ系積距離を初期値としてＤｒマツチングが行われ、
２桁目のＤｒ累積距離の結果は＃線領域２内に与えられ
る。領域２のＤＰ＄積！！ｇ、離を求めるためのＤＰ漸
化式の計算は、第３図に示されるように、領域１内に例
えば単語＃を界候補レベル’１　＋　ｚ、　ｌ　ｚｌ、
を設定し、これら各レベルにおける各１桁目のＤＰ累積
距離を初期値として１桁目に対すると同様の処理を行う
ことを、単語境界候補レベルを領域１内で標準パターン
の時間軸に沿って設定し直して繰返す。単語境界候補レ
ベル’１　ａ　ＬＸ　ａ　ｔｓについてそれぞれ２桁目
ＯＤＰ累積距離の結果は領域３０１　、３０２　。

３０３として与えられる、以上の処理を繰返して、任意の桁数のＤｒ累積距離を求
める。

「発明が解決しようとする問題点」以上の説明かられかるように、従来の認識方式では、Ｄ
ｒ累積距離を求めるためのＤＰ衝化式の計算は、単語境
界候補レベルを設定して単語単位の処理を行うことを、
単語境界候補レベルを標準パターンの時間軸に沿って設
定し直して繰返すという手順で行っている。さらに、単
語単位の処理の中では、Ｄｒ漸化式の計算をまず入力音
声の時間軸に沿って行い、その処理を標準パターンの時
間軸に沿って繰返すという手順で行っている。このよう
に、標準パターンの時間軸に沿って処理を繰返すという
手順が基本になっているために、単語列株準パターンの
桁数を増加しなからＤｒ漸化式の計算を行うのに適して
いるものの、入力音声の時間軸に沿って入力フレームに
同期しながらＤＰ漸化式の計算を行うことができない。

例えば第３図の例では２桁目のＤｒ累積距離の結果は対
象としている入力連続単語音声の終シ（最終フレーム）
が入力されて得られ、３桁目以後のＤＰ累積距離が得ら
れた後に前述した処理を繰返して得られるものであシ、
最終フレームを入力してから。

可成り多くの演算を必要とし、実時間での処理は困難で
ある。

以上説明したように、対称型Ｄｒパスを許容するように
構成された従来の連続単語音声認識方式では、入力音声
の時間軸に沿って入力フレームに同期しながらＤＰ順化
式の計算を行うことができないために、入力音声の終端
を検出してからＤｒｒ化式の計算を開始しなければなら
なかった。そのため、従来の認識方式は実時間処理に向
かないという欠点があった。

この発明の目的は対称型ＤＰパスを許容し、かつ実時間
処理に適する連続単語音声認識方式を提供することにあ
る。

「発明の目的」この５発明は、単語の標準パターンを認識対象の単語列
を構成する。単語の並びに従って結合した単語列標準パ
ターンと入力音声との間で対称型Ｄｒパスを許容してＤ
Ｐマツチングを行う連続単語音声認識の構成において、
Ｄｒｒ化式の計算を入力音声の時間軸に沿って入力フレ
ームに同期しながら行ってＤＰ累積距離が最小になる単
語列標準パターンに基づいて入力音声の単語列決定部る
ことを特徴とし、その目的は、対称型Ｄｒパスを許容す
る連続単語音声認識方式の構成を実時間処理に適するよ
うにすること４Ｃある。

「実施例」認識装置の一般的構成第４図は、単語を連続して発声した連続単語音声を時間
軸の非線形正規化マツチング法によって認識する音声認
識装置の構成図である。入力端子３よルの入力音声は特
徴抽出部４で分析され、特徴パラメータが抽出され、入
力音声は特徴パラメータの時系列に変換される。特徴パ
ラメータの時系列で表現された単語の標準パターン用メ
モリ５に蓄積されている。Ｄｒ累累積距離計郡部６メモ
リ５の単語の標準パターンを、認識対象の単語列を構成
する単語の並びに従って結合した単語列標準パターンと
、入力音声との間でＤＰマツチングを行ってＤＰ累積距
離を求める。そのＤＰ累積距ＩＩＩ（正確には、ＤＰ累
積距離をＤＰ正規化係数で割った値）が最小になる単語
列を単語列決定部７で求めてそれを認識結果として出力
端子８に出力するＯ仁の発明の認識方式の基本的考え方この発明の認識方式の詳細な脱８ＡＫ入る前に、この発
明の認識方式の基本的な考え方を説明する。

第５図は、認識対象の単語列標準パターンと入力音声の
第（ｉ−１）フレームまでのＤｒマツチングの説明図で
ある。従来の認識方式と異なる点は、入力音声の第（ｉ
−１）７レームまでについてＦｉ、すべての桁の単語標
準パターンとそれまでの入力音声とのＤＰ累積距離の結
果がすでに求ままでに必要なすべてのＤＰ漸化式の計算
がすでに終っている点ｒｃある。第５図では第１図と対
比して見ればわかるように、第（ｉ−１）フレームまで
では単語列標準パターンの１桁目に対するＤｒｒ積距離
もすべては得られてないが、２桁目以後の標準パターン
についても入力音声の第（ｉ−１）フレームまでに必要
とするＤｒｒ積距離が求められている。

第６図は、認識対象の単語列標準パターンと入力音声の
第ｉフレームとのＤＰマツチングの説明図である。この
場合には、入力音声の第（ｉ−１）フレームまでのＤＰ
累積距離の結果と、入力音声０ｇ１７レームと単語標準
パターンの各フレームとのスペクトル距離の結果とを用
いて、入力音声の第ｉフレームで各単語標準パターンに
ついて必要なすべてのＤＰ漸化式の計算が行われる。

以上の処理を入力音声の時間軸に沿って入力フレームに
同期しながら繰返す。その認識結果は、入力音声のフレ
ームが終端領域に入ったとき［。

そのフレームのＤｒｒ積距離をそれに対応するＤＰ正規
化係数で割った値を求め、それが最小になるものを残す
ことによって得られる。

以上の説明かられかるように、この発明の認識方式では
、入力音声の各フレームにおいて、そのフレームで必要
なすべてのＤＰ＃化式の計算を行っている。そのため、
対象ＷＤＰバスを許容する連続単語音声認識を入力音声
の時間軸に沿って入力フレームに同期しながら行うこと
が可能となる。

Ｄｒｒ積距離計算及び単語列決定の詳細な説明第７図は
、第４図のＤＰ累累積距離計算部屋び単語列決定部７の
構成に関する。この発明の認識方式の詳細な説明図であ
る。第７図に示されるように、ここでは、Ｄｒｒ準軸を
傾き４５度の直線にとシ、ＤＰマツチングにおけるマツ
チング軽路が大局的に許容される領域（ＤＰＰ合窓とい
う）の幅を縦軸にとる斜交座標を用いて説明する。ＤＰ
マツチングの断化式の計算は、第７図の大枠９で闘った
領域（以下、ＤＰ領領域いう）の中で行うこととする。

但し、入力音声のフレームと標準パターンのフレームと
の間のスペクトル距離を示すときには、入力音声のフレ
ームを横軸にと９、標準パターンのフレームを縦軸にと
ることとする。

記号の定義この発明の認識方式を詳細に説明する前に１ｇ識方式の
説明に用いる主な記号の定義についてまず説明する。

Ｎ　：認識対象の単語数、Ｊｎ：単語ｎの標準パターンのフレーム数、Ｉ　：入力
音声のフレーム数、 λ　：入力音声中で単語の境界の候補となるフレームを
間引くときの閾引き間隔、Ｗ　　：ＤＰＰ合窓の片側の幅。

δ１　：単語標準パターンの始端を特定の１つのフレー
ムに固定しないで、複数個のフレームからなる区間を考
えて始端はその区間内の７レームのいずれかであるとし
てＤｒマツ−チングを行うことを、標準パターンの始端
自由によるＤＰマツチングという。δ１は標準パターン
のフレーム中で始端となルうる区間のフレーム数を示す
。

δ２　：上と同様に、標準バ、ターンの終端自由による
Ｄｒマツチングにおいて、標準パターンのフレーム中で
終端となりうる区間のフレーム数、 δ８：上と同様に、入力音声の終端自由によるＤＰマツ
チングにおいて、入力音声の７レ一人中で終端となりう
る区間のフレーム数、ｄ”（ｉｌ、ｊ）：入力音声の第
１フレームと単語ｎの標準パターンの第１フレームの間
のスペクトル距離。

”　（Ｚ　ｅ　ｗ　）　：単語境界候補レベル（以下、
単にレベルという）ｔまでの単語例のＤＰＰ積距離と、
レベルＬを始端として入力音声の現在のフレームのＤＰ
整合窓内位置Ｗまでの単語ｎのＤＰＰ積距離との和の最
小値。

Ｘ”　（ｔ、ｗ）：Ｄ”　（ｔ、ｗ）Ｋ対応ｆる、入力
音声の始端からレベルｔｒｒｃ到達する単語列の桁数、Ｓ　”　（Ｚ　＊　Ｗ　）　：　Ｄ　”　（Ｚ　ｅ　ｗ
　）　Ｋ対応−する、入力音声の始端からレベルｔに到
達する単語列のＮ進数表現。

Ｄ（Ｗ）：入力音声の現在のフレームのＤｒ整合−窓内
位置Ｗで終端する単語列のＤＰ累積距の最小値、すなわ
ち、入力音声の始端から現在のフレームまでの部分入力
音声と、フレーム数の和が（入力音声の現在のフレーム
数＋Ｗ）の単語列標準パターンとの間のＤＰＰ積距離の
うちで、単語列の可能な組合せについての最小値、Ｘ（ｍ）：Ｄ（ｍ）に対応する単語列の桁数。

８（ｍ）：Ｄ（ｍ）に対応する単語列のＮ進数表現、合：第７図中の入力音声の最終フレームに対するＤＰ計
算領域ｉｏ（以下、ＤＰ＃！端領域という）で終端する
単語列のＤＰＰ積距離をＤｒ正正規化化係数割った値の
最小値、交：介に対応する単語列の桁数、合二分に対応する単語列のＮ進数表現。

動作の説明さて、この発明の認識方式の動作を説明しよう。

Ｄｒマツチング法として、ＤＰＰ域内の数点間隔でのみ
ＤＰＰ化式の計算を行うＳｔａｇｇｅｒｅｄ　Ａｒｒａ
ｙＤＰマツチング法（以下、５ＡＤＰ法という）を用い
て説明する。対称型ＤＰパスを用いるａＡＤＰ法の認識
性能は、Ｄｒ漸化式の計算を３点間隔で間引いても間引
かない場合と変わらないことが。

ｕＲ実験により確かめられている。

具体的には、第８図に示すような対称型ＤＰパスを用い
る８ＡＤＰ３−５（ここで、３はＤＰ漸化式の計算を間
引きする間隔を示し、５はＤＰ漸化式の種類を区別する
ための番号を示す）を用いる場合について説明する。５
ＡＤＰ３−５では。

第８図に黒丸で示しているように、ＤＰ漸化式の値がＤ
Ｐ基準軸に沿って３点間隔で計算され、かつ、縦軸すな
わちＤｒ整合窓の幅の軸に沿ってみてもやＩＩｉ勺３点
間隔でＤｒ漸化式の値が更新される。

認識方式の手順は次の■〜■からなる。

■初期値の設定１）分の初期値を設定する。すなわち、公＝〜　　　　
　　　　　　　　　（１）１）Ｄ（ｗ）、Ｘ（ｗ）、８
（ｗ）の初期値を設定する。すなわち、ａ　）　ｗ　ｓ＋ｅ　−Ｗ　、　・＝　、　ＷＩＣＩＣ
ライ　（Ｗ、）−００、（２）ｂ）入力音声の始端における初期値として、Ｗｌ！！＋
０について１ｆｔ）Ｄ”（ｔ、ｗ）の初期値を設Ｍ−ｊ、ｂ。

すなわち、について（但し、〔〕はガクス記号を示す）Ｄｎ　（ｔ
λ、　ｙ　）　ｍｃｔｓ　　　　　　　（６）但し、ｔ
λ−Ｌ／λ　　　　　　　　（７）■入力音声フレーム
のループｒ＝１．２．・・・・・・・・・、工について■〜■を
繰返す。

■単語標準パターン設定のループｊｌ　ｌｘ　Ｑ　、　ｌ　、・・・・・・・・・、Ｎ−
１について■■を繰返す。

（λ点間隔）を繰返す。

■単語レベルの処理ｌ）レベルｔがｉ−Ｗ≦Ｌ≦ｉ　＋　Ｗ　　　　　　　　　（８）を満
たすときにはレベルｔが第ｉフレームのＤＰ整合窓の中
にあるので、Ｄ’（ｔ、ｗ）。

ｘ　ｎ　＜　ｔ、　Ｗ）　、　ｓ　”　（ｔ　、　Ｗ）
の初期値を設定する。すなわち、Ｗ　　−２−（ｉ−１）　　　　　　　　（９）としてとおく。

Ｉ）第ｉフレームのＤｒ整合窓の中で３点間隔について
ＤＰ漸化式の計算を行う６すなわち、ｗｗ−Ｗ＋ｍｏｄ
　（ｉ　、　３　）　ｅ　−ｅ　Ｗについて（但し、Ｗ
は３点間隔にとる。ｍｏｄ　（ａ　、　ｂ　）はｂを法
としてａを表現した値を示す。ｍｏｄ（ｉ　、３）が加
わっているのは、ｌの増加とともにＷの最初の値を１つ
ずつシフトさせるためである。）以下の処理を行う。

ｊ　−ｉ　＋　ｗ　−Ｌ　　　　　　　　　　（’１と
おくと、ｊＦｉレベルｔを始端として入力音声の第１フ
レームのＤＰ整合窓内位［ｗまでの単語標準パターンの
長さを表わすので、１≦ｊ≦ｊ１０４を満たすときのみとおく、（但し、←は右辺の値で左辺の内容を更新する
ことを示す。）（至）式の右辺のの。

■、■のいずれが最小値になるかに応じて、△ Ｗを次のように設定する。

／゛＼このＷを用いて △ −Ｘ”（ｔλ、ｗ）←Ｘ”（ｔλ、ｗ）　　　　　Ｕ△ ８”（ｔλ、Ｗ）４−８ｎ（ｔ２．ｗ）　　　　　（１
６とおく。

１−ａ）標準パターンの始端処理上記の漸化式の計算において、ｊの値が１≦ｊ≦−１０
場の範囲にある場合には単語標準パターンの始端になる可
能性があるので、漸化式の計算の都度次の処理を行う。

すなわち、Ｄ”（Ｌ２．ｗ））Ｄ（ｗ）　　　　　　　＠）ならば
、標準パターンの第ｊフレームを始端とみなした方がＤ
Ｐ累積距離が小さくなるので、次の置換を行う。

逆にＤ’（／−１，ｗ）≦Ｄ（ｗ）　　　　　　　　　ｈな
らば、標準パターンの第１フレームヲ始端とみなさない
方がＤｒ累積距離が小さいので。

１−ｂ）標準パターンの終端処理上記の漸化式の計算において、ｊの値がＪｎ−６ｍ＜ｊ
≦Ｊｌｌ　　　　　　　　　　　（ハ）の範囲にある場
合には単語標準パターンの終端になる可能性があるので
、漸化式の計算の都度次の処理を行う。すなわち、Ｄ”　（７λ、ｗ）＜Ｄ（Ｗ）　　　　　　　　　　Ｇ
ＩＥ９ならば、標準パターンの第ｊフレームを終端とみ
なした方がＤＰ累積距離がそれまでの値よシも小さくな
るので、次の処理を行う。

逆に、Ｄｎ（ｔλ、ｗ）≧Ｄ（ｗ）Ｍならば、標準パターンの第ｊフレームを終端とみなさな
い方がＤＰ累積距離が不さいので、■入力音声の終端処
理Ｉ　−’ａ　Ｂ＜　ｔ≦Ｉ　　　　　　　　（ロ）なら
ば、入力音声の第１フレームが終端になる可能性がある
ので次の処理を行う。丁なわち。

０＝　ａｒｇｍｉｎ（Ｄ（ｗ）／（２ｉ＋ｗ））　　　
＠とおき（但し、　ａｒｇｍｉｎ　＃′ｉｃ　　）内の
式の最小値を与える変数の値を示す。）。

令＞　（Ｄ（０）／（ｚｉ＋◇）　　　　　＠ならば、
入力音声の第１フレームのＤ？整合窓内位置金ｔｌ−終
端とみなした方がＤＰ累積距離がそれまでの値よりも小
さくなるので５次の置換を行う。

逆に分−Ｄ（Ｏ）／（２ｉ＋◇）　　　　　＠ならば入力音
声の第１フレームを終端とみなさない方がＤｒ累積距離
が小さいので、以上の■〜■の処理によシ得られたｅＪ、ｅが最終結果
となる。それらの内容は次の通りである。

分：正規化されたＤＰ＄積距離の最小値。

交：介に対応する、最適な単語列の桁数。

Ａ：Ａに対応する、最適な単語列のＮ進数表現。

第９図は、以上に説明したこの発明の認識方式の詳しい
構成図である。

入力端子１１より、の入力音声はフレーム単位に一特徴
抽出部１２″：Ｃ分析され、特徴パラメータが抽出され
、特徴パラメータ用メモリ１３に一時記憶される。％徴
パラメータの時系列で表現された単語の標準パターンが
単語標準バクーン用メモリ１４に蓄積されている。入力
音声のフレームと標準パターンの各フレームの間の距離
ｄ”（ｉ、ｊ）ｕ、メモリ１３の入力音声の特徴パラメ
ータとメモリ１４の標準パターンの％徴パラメータの時
系列を用いてフレーム間距離計算部１５で計算され、フ
レーム間距離用メモリ１６に一時記憶される。

単語レベルのＤｒマツチングの途中結果Ｄｎ（ｔ。

Ｗ）ＩＸ”（ｔ、ｗ）１８”（ｔ＃Ｗ）ＵＩｆＬ語レベ
にし理用メモリエフに記憶される。単語列レベルのＤｒ
マツチングの途中結果Ｄ（ｗ）、Ｘ（Ｗ）、５（Ｗ）メ
モリ１９に記憶される。

メモリ１７、メモリ１８お工びメモリ１９には、入力音
声が入力端子１１に入る前に、（１）〜（６）式の初期
値が設定される。単語境界候補レベルが（８）式を満た
すときには、メモリ１８を用いて、単語レベルの処理の
ための初期値の設定が初期値設定部２０で行われ、　０
Ｏ−（２）式の値がメそり１７に書込まれる。単語境界
候補レベルからのフレーム数が（ロ）式を満たすときに
は、メモリ１６とメモリ１７を用いて、ＤＰ漸化式（イ
）〜（ト）式の計算が漸化式計算部２１で行われ、メモ
ＩＪ　１７に書込まれる。

単語境界候補レベルからの７レー五数が（至）式の範囲
にある場合には、メモリ１７とメモリ１８の（１ｉを比
較してに）式ｔ−満たすならば単語レベルの処理の初期
値の再設定が標準パターン始端処理部２２で行われ、メ
モ９１７０期化式の値が（２η〜（ハ）式の値に書換え
られる。

単語境界候補レベルからの７レ一人数が（ハ）式の範囲
にある場合には、メモリ１７とメモリ１８の値を比較し
てに）式を満たすならば単語列レベルの処理が標準パタ
ーン終端処理部２３で行われ、酌〜（２）式の値がメモ
リ１８に書込まれる。

入力フレー　ムが例式の範囲にある場合には、メモ１１
１８を用匹て単語列のＤｒ累・積距離の最小値が入力音
声Ｍ端処庖部２４で＃算され、メモリ１９の値と比較し
てに）式を満たすならば、メモリ１９の値が（ロ）〜に
）式の値に書換えられる。

以上の処理を入力音声のフレームに同期させるため、の
制御が処理制御部２５で行われる。漸化式計算部２１、
標準パターン始端処理部２２．標準バメーン終端処理部
２３の各処理をＤｒ整合窓内で繰返すために、ＤＰ整合
窓用カウンタ２６を用いて制御する。初期設定部２０．
漸化式計算部２１、処理部２２．２３の各処理を単語境
界候補レベルを変えて繰返すために、単語境界候補レベ
ル用カウンタ２７を用いて制御する。計算部１５　ｓ　
２１＊段設定２０．処理部２２．２３の各処理を単語標
準パターンを変えて繰返すために、単語標準パターン用
カクンタ２８を用いて制御する。特徴抽出部１２．計算
部１５，２１、設定部２０、処理部２２．２３．２４の
各処理を入力フレームに同期して繰返すために、入力フ
レーム用カウンタ２９を用いて制御する。入力音声の終
端が検出されると、メモリ１９の値が出力端子３０に出
力される。

第１０１！ＡＪ−１，第９図の音声認識方式において。

計算部１５．２１、設定部２０％処理部２２．２３の各
処理を並列に行うためＫＮ個のプロセッサを用いる場合
のタイムチャートの例である。入力フレーム用パルスご
とにその直前のフレームでの入力音声の特徴パラメータ
が抽出され、その特徴パラメータと、単語標準パターン
＃０〜５（Ｎ−ｚ）との７レ一ム間距離計算が行われ、
単語境界候補レベル用パルスごとに、順次単語境界候補
レベルを変化させ、その各単語境界候補レベルごとに。

各単語標準パターン＃０〜＃（Ｎ−１）とのＤ　、Ｐ累
積距離計算を行う。最後の単語境界候補レベルについて
のＤＰ累積距離計算の後に入力音声終端処理を行い、そ
の後次の入力フレームパルスが生じるようにされる。

以上、この発明の認識方式の動作を詳しく説明した。こ
の認識方式では、単語列標準パターンと入力音声との間
のＤＰ累積距離を求めるためのＤＰｆｉ化式の計算の順
序は、各単語境界候補レベルｒｃおける単語単位の処理
を、入力音声のフレーム番号歪の値を更新しながら繰返
している。しだがつて、この発明の認識方式ＦｉＤＰ累
積距離を求めるためのＤＰ漸化式の計算を入力音声の時
間軸に沿って入力フレームに同期しながら行う方式にな
っている。それゆえ、このｌｌ？！織方式を用いると対
！称型Ｄｒバスを許容する連続単語音声認識方式を実時間
島理に適するように構成することができる。

「変形例」単語音声認識において、単語標準パターン作成用の音声
データから抽出した特徴パラメータの時系列をそのまま
φ語標準パターンとしで用いることを止めて、単語標準
パターン作成用の音声データの各７レームにおいて予め
作成しである有限個の代表スペクトルパターンとのスペ
クトル距離を計算し、各フレームをそのスペクトル距離
の最も小さくなる代表スペクトルパターン（正確には代
表スペクトルパターンを示す記号）で置換えた時系列で
単語標準パターンを表現する認識方式がある。この認識
方式では、有限個の代表スペクトルパターンを、音声符
号化の分野でよく用いられるベクトル量子化の手法を利
用して作成する。

単語標準パターンを代表スペクトルパターンの時系列で
表現する認識方式のＩ＆！！識性能は、代表スペクトル
パターンのｌｌ類数を２５６個程度にとれば、特徴パラ
メータの時系列をそのまま単語標準パターンとして用い
る認識方式のｌ＆！！識性能色性能らないことが、認識
実験によｐ確かめられている。

単語標準パターンを代表スペクトルパターンの時系列で
表現する認識方式を、ここで発明の連続単語音声ｇａ方
式にも適用することができる。そのことを説明する前に
、説明に用いる主な記号の定義についてまず説明する。

Ｍ　：代表スペクトルパターンの数、ａｌ　＝入力音声の第ｉフレームの特徴ベクトル、優ｂ
ｍ＝第ｍ番目の代表スペクトルパターン。

ｄ　（ａ　ｉ　ａ’ｋｂｒｒ＊　）　：　ａ　ｉとｈｂ
ｍの間の距離、ｄｌ（ｍ）：入力音声の現在のフレーム
の特徴べ′り、トル４−ｂ、との距離。

ｄｌ（ｍ）　　：入力音声の現在より１つ前のフレーム
の特徴ベクトルとｉｂｍとの距離、ｄｌ（ｍ）　　：入力音声の現在よｐ２つ前のフレーム
の特徴ベクトルとｈｂｍとの距離、Ｔ”（ｊ）：単語ｎの標準パターンの第ｊフレームの代
表スペクトルパターンを示す記号。

認識方式の構成は、前述の■〜■に対して次の２点の追
加・変更を行えばよい。

−単語ｉ　準パターンを代表スペクトルパターンの時系
列で表現する認識方式を適用する場合の追加・変更点− （１）前述の■と■の間に、下記の■を追加する。

すなわち。

「ｄ　スペクトル距離の計算・入力音声の第ｉフレームと代表スペクトルパターンの
各々についてスペクトル距離を計算する。

すなわちｍ＝　１　、２　、−・−−−−、ＭＶＣつい
て、ｄ（ａｉ。

ａｂｍ）を計算しての置換を行う、」（２）　　前述の■におけるＤＰ漸化式の計算のための
０６式を、下記のように変更する。すなわち、「単語標
準パターンの各フレームが何番目の代表スペクトルパタ
ーンで表わされているかを記すために。

とおいてから、次のＤＰ漸化式の計算を行う。

以上の説明では、ＤＰマツチング法として５ＡＤＰ法を
用、いる場合について認識方式の構成を説明したが、こ
の発明のｇ織方式ＦｉＤＰ漸化式の計算を間引かないで
Ｄｒ領域内のすべての点についてＤＰｐ化式の計算を行
う通常のＤｒマツチング法に対しても適用することがで
きる。その場合には、計算量及び記憶量の増加をともな
う。また。

５ＡＤＰ法における対称ｆｆ１ＤＰバスとして第８図に
示すよりな８ＡＤＰ３−５を例にして認識方式の構成を
説明したが、言うまでもなく、この発明ゝの認識方式は
第８図の対称型ノくスに限定されるものではなく、他の
対称型Ｄｒパスを用いることができる。

さらに、ＤＰ漸化式の計算の途中結果を記憶する値とシ
テ、Ｄｒ累積距離（Ｄ（Ｗ）、及ヒ、　Ｄ　ｎ（ｔ、Ｗ
））の他に、単語列の桁数（Ｘ（Ｗ）。

及び、Ｘｎ（Ａ、ｗ））と単語列のＮａ数表現（８（ｍ
。

及び＋　Ｓｎ（ｔｅ”））を用いて認識方式の動作を説
明したが、この発明の認識方式はこれに限定されるもの
ではなく、単語列の桁数と単語列のＮ進数表現の代わり
に、単語列の最後尾単語名（Ｎ（ロ）。

及びｒ”（’ｒ”））と単語列の最後尾単語とその１つ
前の単語との境界位置ＣＢ（Ｗ）　、及ヒ、Ｂ”（Ｗ）
）を記憶してもさしつかえない。この場合ＫＦｉ％ＤＰ
累積距離の最小値が求められたあと、単語列の゛最後尾
の単語名から、パンクトラック処理で順次１つ前の単語
名と単語境界位置を求めることを繰返すことに↓つて、
最終結果を得ることができる。

「発明の効果」以上説明したように、ＤＰマツチングによる連続単語音
声認識において、対象型ＤＰパスを許容するように構成
された従来の認識方式では、単語列標準パターンと入力
音声との間のＤｒ累積距離を求める丸めのＤＰ漸化式の
計算を、単語列標準パターンの時間軸に沿って単語境界
候補レベルを変えて行っているために、入力音声の終端
を検出するまでは、ＤＰ漸化式の計算を実行できないと
いう欠点があつ九が、この発明の認識方式では、入力音
声の時間軸に沿って入力フレームに同期しなからＤｒ漸
化式の計算を行うことが可能になった。これによって、
連続単語音声認識方式が実時間処理向きになり、入力音
声の終端を検出すると直ちに１ｉｉｌ！繊結果を得るこ
とができるという利点がある。

【図面の簡単な説明】

第１図は従来の連続単語音声認識における認識対象の単
語列の１桁目の単語標準パターンと入力音声とのＤｒマ
ツチングの説明図、第２図は従来の連続単語音声認識に
おける認識対象の単語列の２桁目の単語標準パターンと
入力音声とのＤＰマツチングの説明図、第３図は従来の
連続単語音声認識において単語列標準パターンの時間軸
に沿って単語境界候補レベルを変えなからＤｒ累積距離
の計算を繰返すことの説明図、第４図は連続単語音声認
識を時間軸の非線形正規化マツチング法によって認識す
る音声認識装置の一般的な構成図、第５図はこの発明の
連続単語音声認識方式における認識対象の単語列標準パ
ターンと入力音声の第（ｉ−１）７レームまでのＤＰマ
ツチングの説明図、第６図はこの発明の連続単語音声認
識方式における認識対象の単語列標準パターンと入力音
声の第ｉフレームとのＤＰマツチングの説明図、第７図
は第４図のＤＰ累積距離計算部と単語列決定部に関する
この発明の認識方式の説明図、第８図はＤＰマツチング
の漸化式の計算を間引きする５ＡＤＰ法における対称型
ＤＰパスの例を示す図、第９図はこの発明の連続単語音
声認識方式の詳しい構成例を示す図、第１０図は第９図
の認識方式における処理のタイムチャートの例を示す図
である。１：対称型ＤＢババス許容する連続単語音声認識方式に
おいて１桁目のＤｒ累積距離の結果を与える領域、２：
対称型ＤＰババス許容する連続単語音声認識方式におい
て２桁目のＤＰ累積距離の結果を与える領域、３，１１
：入力端子、４．１２：特徴抽出部、５，１４：単語標
準パターン用メモリ、５　：　ＤＰ累積距離計算部、７
：単語列決定部、８．３０：出力端子、９：ＤＰ領領域
１０：ＤＰ終端領域、１５：フレーム間距１ｉＩＩｌｔ
ｔ算部、１６：フレーム間距離用メモリ。１７：単語レベル処理用メモリ％１８：単語列しベル処
理用メモリ、１９：認識結実用メモリ、２０：初期値設
定部、２１：ｍ化成計算部、２２：標準パターン始端処
理部、２３：標準パターン終端処理部、２４：入力音声
終端処理部、２５：処理制御部、２６：ＤＰ整合窓用カ
ウンタ、２７：単語境界候補レベル用カウンタ、２８：
単語標準パターン用カウンタ、２９：入カスレ−ム用カ
ウンタ。

Claims

【特許請求の範囲】

（１）単語の標準パターンを結合した単語列標準パター
ンと入力音声との間で非線形正規化マッチングを行う連
続単語音声認識方式において、入力音声のフレーム単位に特徴パラメータを抽出する特
徴抽出手段と、その抽出された特徴パラメータを一時記憶する特徴パラ
メータ用メモリＡと、特徴パラメータの時系列で表現された単語の標準パター
ンを記憶する単語標準パターン用メモリＢと、上記メモリＡおよびメモリＢを用いて入力音声のフレー
ムと単語標準パターンの各フレームとの間の距離を計算
するフレーム間距離計算手段と、その計算されたフレー
ム間距離を一時記憶するフレーム間距離用メモリＣと、単語レベルのマッチングの途中結果を記憶する単語レベ
ル処理用メモリＤと、単語列レベルのマッチングの途中結果を記憶する単語列
レベル処理用メモリＥと、単語列の認識結果を記憶する認識結果用メモリＦと、上記メモリＣ、メモリＤおよびメモリＥを用いて、対称
型の局所的マッチング経路を許容して非線形正規化マッ
チングの累積距離を計算し、その計算結果を上記メモリ
Ｄに書込む単語レベル処理手段と、上記メモリＤおよびメモリＥを用いて単語列の累積距離
を比較して、その処理結果を上記メモリＥに書込む単語
列レベル処理手段と、上記メモリＥを用いて単語列の累積距離の最小値を計算
し、その結果を上記メモリＦに書込む単語列決定手段と
、上記特徴抽出手段、フレーム間距離計算手段、単語レベ
ル処理手段、単語列レベル処理手段および単語列決定手
段を入力音声のフレームに同期して動作させフレーム毎
にすべての計算を実行するための処理制御手段と、を有することを特徴とする連続単語音声認識方式。