JPS62291700A

JPS62291700A - 連続数字音声認識方式

Info

Publication number: JPS62291700A
Application number: JP61134460A
Authority: JP
Inventors: 隆史吉原
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1986-06-10
Filing date: 1986-06-10
Publication date: 1987-12-18
Also published as: JPH0443600B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】３、発明の詳細な説明〔概要〕単純に桁数による正規化距離をもって入力桁数の決定を
行うのではなく、その前後の認識結果のセグメンテーシ
ョンと距離を比較し、それぞれの共通しない部分のみを
対象にして正規化を行い、桁数を決定する連続数字音声
認識方式である。

〔産業上の利用分野〕

本発明は連続数字認識時の桁数誤りを減少させる連続数
字音声認識方式に関するものである。

〔従来の技術〕

従来の連続数字音声認識では、最初に終端レベルＤ　Ｐ
　（Ｄｙｎａｍｉｃ　Ｐｒｏｇｒａｍｍｉｇ　：動的計
画法）を行い、次に始終端レベルＤＰを行い、最後に文
レベルＤＰを行っている。第４図は終端レベルＤＰを説
明する図である。終端レベルＤＰにおいては、入カバタ
ーンＡと登録パターンＢ　（ｎ）との照合を行う。照合
終了時に入力側の各フレームを終端とする最適なマツチ
ング・ルートを通ったＤＰ距離ＤＣ（ｍ、ｎ）が計算さ
れる。但し、ｍは入カバターンのフレーム位置、ｎは登
録語を指す。このＤＣ（ｍ、　ｎ）を登録パタージ長の
２倍で割って時間正規化した距離Ｄ　Ｒ（ｍ、　ｎ）を
闇値により削減する。これにより終端候補を限定する方
法である。なお、フレームとは入力音声をサンプリング
する時間間隔を意味しており、時間間隔は例えば１０ｍ
秒である。第５図は始終端レベルＤＰを説明する図であ
る。始終端レベルＤＰでは、終端レベルＤＰで限定され
た終端から登録パターンと始端方向にＤＰ照合を行う。

照合終了後に入力側の各フレームを始端とするＤＰ距離
Ｄ　ｒ　（ｍ＋　ｔｔｎ）が計算される。

但し、ｍは部分パターンの終端、ｌは始端、ｎは登録語
である。このＤＩ（ｍ＋　１１　ｎ）を登録パターン長
と部分パターン長の和で時間正規化した距離ＤＩ　　（
ｍ、Ｌｎ）を求める。これにより、部分パターンｍｗｌ
を求める方法である。第６図は文レベルＤＰを説明する
図である。文レベルＤＰでは、始終端ＤＰにより求めら
れた部分パターンを用いて、最適な単語の結合を求める
。文レベルＤＰを行い、音声の入力終端における各桁毎
の累積距離をその桁数で正規化した距離が最小のものを
認識結果としている。第６図の場合には、２桁として認
識される。

〔解決しようとする問題点〕

この方法であると、入力桁数の前後桁での桁数正規化距
離が殆ど等しい場合があり、単純にその距離の大小で桁
数を決定しているため入力桁数の前後桁へバラつく傾向
があった。中でも、音声辞書のパターンと入力数字列の
一部の数字パターンとが特に良くマツチングし、その認
識距離が小さくなった場合など、実際の入力桁数より小
さい桁数として認識されてしまうものが見られた。

本発明は、この点に鑑みて創作されたものであって、連
続数字認識時の桁数誤りを減少させて、可能な限り桁数
既知時の認識率に近づけることを目的としている。

〔問題点を解決するための手段〕

従来の方法で求めた桁数の前後桁において認識結果のセ
グメンテーションと距離とを比較し、共通部分のパスは
充分信用できるパスとして外し、その他の共通しない部
分のパスは曖昧なパスと見做し、その部分のみを対象と
して残りの桁で正規化距離を求め、その値が小さい方の
桁数を最適桁数として選択する。第１図の例においては
、従来の方法では正規化距離がそれぞれ１３８，１３７
で３桁となるが、本発明を適用すると、１７５゜１８０
となり、４桁であると認識される。

〔実施例〕

第２図は本発明のハードウェア構成の１例を示す図であ
る。第２図において、■はマイクロプロセッサ、２はフ
ィルタ、３はＤＰ処理装置、４は音声出力アダプタ、５
は直列インタフェース、６はフロッピィ・ディスク装置
をそれぞれ示している。マイクロプロセッサ１は、イン
テル８０８６２　（８ＭＨｚ）を使用しており、処理速
度−命令平均３μ秒、メモリ容量７６８ＫＢ（音声出力
情報、認識辞書各２５６ＫＢ）である。フィルタ２は、
２００　Ｈｚ　〜５　Ｋ　Ｈｚの周波数帯を１６に分割
し、各チャネル１２ｂｉｔの値をサンプリングして１０
ｍ秒毎に割り込みを発生するものである。ＤＰ処理装置
３は、パターン照合によって近似度を求めるものである
。音声出力アダプタ４は、ＰＡＣＯＲ方式により最大４
００秒の音声合成を行うものである。フロッピィ・ディ
スク装置６は、５１７４インチ２ＨＤフロツピイ・ディ
スクであり、音声出力情報や認識単語情報、個人辞書を
保持する。

次に本発明の詳細について説明する。終端レベルＤＰ、
始終端レベルＤＰ及び文レベルＤＰを行い、複数の候補
が得られたとする。今、ｋを桁数で正規化した距離比較
で最も近いと見做されたものの桁数とし、Ｂ　（Ｋ）を
桁数にの候補数字列とした場合、Ｂ　（Ｋ）とＢ（Ｋ＋
１）　、　　Ｂ（Ｋ）とＢ　（Ｋ−１）についてそれぞ
れ、候補と位置が共に一致する部分があった場合に限り
、そこを除いた部分を再照合対象として再度距離の正規
化を行い、照合する。

再照合対象部分は、現候補削減方法においては終端と候
補テンプレートが一致する部分を除いた部分であり、ま
た、単語区間中点による候補削減方法においては単語区
間中点と候補テンプレートが一致する部分を除いた部分
である。次に正規化方法を説明する。Ｂ　（Ｋ）のＢ（
ｊ）に対する再照合距離Ｄｋ１、を次のように定義する
。

ｉ＝１但し、ｎ　（ｋ、ｊ）はＢ（Ｄに対するＢ　（ｋ）の再照合対
象の数字の個数、Ｄ　ｋｌ　ｊｌ五はＢ（ｊ）に対するＢ　（ｋ）の再照
合対象のｉ番目の数字に対する正規化距離、Ｌｋ＋ｊ＋ｉ　はその数字の入力側のフレーム数である
。判定方法は下記のようものである。

＋ｌ）　　Ｂ　（ｋ）とＢ（ｋｌ１）　、　　Ｂ（ｋ）
とＢ　（ｋ−１）とが一致部分を持たない場合には、ｋ
桁を最終桁数とする。

（２）　　Ｂ（ｋ）とＢ　（ｋｌ１）は一致部分を持つ
けれども、Ｂ　（ｋ）とＢ　（ｋ−１）は一致部分を持
たない場合は、次のようにする。

（ａ）　　Ｄｋ、、、に≧Ｄ１１１１１４１ならばに桁
を最終桁数トする。

（ｂ）　　Ｄ、、、、に≦Ｄ＋ｔ、ｍ＊＋ならばに桁を
最終桁数とする。

（３１Ｂ（ｋ）　とＢ　（ｋ−１）は一致部分を持つけ
れども、Ｂ　（ｋ）とＢ　（ｋｌ１）は一致部分を持た
ない場合は、次のようにする。

（ａ）　　Ｄｋ、＊−＋　≦Ｄｋ−１ｎｋならばに桁を
最終桁数とする。

（ｂ）　　Ｄ　１１＋　ｋ−１≧Ｄｊ＋−１＋にならば
に一１桁を最終指数とする。

＋４）　　Ｂ（ｋ）とＢ（ｋｌ１）　、　Ｂ（ｋ）とＢ
　（ｋ−１）とが共に一致部分を持つ場合は次のように
する。

（ａ）　　Ｄｋ−＋、ｍ≧Ｄ１＋＋Ｉｌ＋＋且つＤｍ＋
＋＋−＋　　＞　Ｄｋ−１＋１１ならばに一１桁を最終
桁数とする。

ｆｂｌ　　Ｄｍ−＋、ｍ≧Ｄｋ、に＊＋且つＤ　ｋｌ　
ｖ−１≦Ｄｋ−６にならばに桁を最終桁数とする。

（Ｃ）Ｄｋ、ｌ、ｋ＜百１１＋Ｉｌ＋１且つＤｋ、に−
１≦Ｄつ−１，。

ならばに＋１を最終桁数とする。

（ｄ）　　Ｄｋ−＋、ｈ　＜　Ｄ、Ｍ、ｍ。１且つＤｌ
ｌ＋Ｉ＋−１＞　Ｉ）＋−＋＋ｈならばに桁を最終桁数
とする。

第３図は第２図のマイクロプロセッサの処理を説明する
図である。

■　フィルタからフィルタ・パラメータを読み出す。

■　フィルタ・パラメータから音声パラメータを計算す
る。

■　ＤＰＰに人力音声パラメータと登録パラメータを書
き込み、ＤＰＰハードをスタートさせる。

■　ＤＰＰからＤＰ距離を読み出し、距離を正規化し、
終端候補を限定する。

■　ＤＰＰに入力音声パラメータと終端候補の登録パラ
メータを書き込み、ＤＰＰハードをスタートさせる。

■　ＤＰＰからＤＰ距離を読み出し、距離を正規化し、
始端を求める。

■　部分パターンを用いて最適な結合を求める。

■　全ての終端候補について終了したか否かを調べ、Ｙ
ｅＳのときは■の処理を行い、ＮＯのときは■の処理に
戻る。

■　桁数を決定する。

［相］　桁数の再正規化を行う。

■　得られた結果を送信する。

０　音声出力ありか否かを調べる。Ｙｅｓのときは０の
処理を行う。

■　音声を出力する。

〔発明の効果〕

以上の説明から明らかなように、本発明によれば、認識
率の高い人には大した効果が期待できないが、認識率の
低い人（大抵の場合、桁数未知時と桁数既知時の認識率
の差は大きい）の場合には、可なりの認識率の向上が期
待できる。

【図面の簡単な説明】

第１図は本発明の詳細な説明する図、第２図は本発明の
ハードウェア構成例を示す図、第３図はマイクロプロセ
ッサの処理を示す図、第４図は終端レベルＤＰを説明す
る図、第５図は始終端レベルＤＰを説明する図、第６図
は文レベルＤ　Ｐを説明する図である。１・・・マイクロプロセッサ、２・・・フィルタ、３・
・・ＤＰ処理装置、４・・・音声出力アダプタ、５・・
・直列インタフェース、６・・・フロッピィ・ディスク
装置。特許出願人　　　富士通株式会社代理人弁理士　　京　谷　四　部上前−ｆｌＷ棉゛３お１瀕１闇゛木登ａ月の亨既瞥ハード゛ウェア環へ例躬２図（ＩＩＬ）（し）ｙ−鳩しＲ１し’ＤＰ第斗図６婢り軸＃も魂しベ゛ルＤＰ文レベルつＰ第６図

Claims

【特許請求の範囲】

終端レベル動的計画法で得られた終端候補について始終
端レベル動的計画法及び文レベル動的計画法を行って音
声の入力終端における各桁毎の累積距離をその桁数で正
規化して距離を求める連続数字音声認識方式において、
正規化した距離が最小である桁数にの候補数字列をＢ（
ｋ）とするとき、Ｂ（ｋ）とＢ（ｋ＋１）又はＢ（ｋ）
とＢ（ｋ−１）についてそれぞれ候補と位置が共に一致
する部分があった場合に限り、そこを除いた部分を再照
合対象として再度距離の正規化を行って再照合距離＠Ｄ
＠＿ｋ＿＋＿１、＿ｋ、＠Ｄ＠＿ｋ、＿ｋ＿＋＿１、＠
Ｄ＠＿ｋ、＿ｋ＿−＿１、＠Ｄ＠＿ｋ＿−＿１、＿ｋを
求め、これらの再照合距離をも参照して、入力された連
続数字音声の認識結果を求めることを特徴とする連続数
字音声認識方式。