JPS635395A

JPS635395A - 音声認識装置

Info

Publication number: JPS635395A
Application number: JP61149030A
Authority: JP
Inventors: 均岩見田; 晋太木村
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1986-06-25
Filing date: 1986-06-25
Publication date: 1988-01-11

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［ＷＡ　　要］認識対象の単語の音素列から音素変形の規則を用いて生
成した音素列仮設について入力音声波から求めた音素ラ
ティスに基づいて、評価を行なうことにより、音声を認
識する装置においては、従来、仮説を評価する際、通常
はあまり起り得ないような仮説についても他と全く同じ
基準で行なっていた。しがし、これは、かえって、誤認
識を生ずるという問題点があった１本発明はこのような
従来の問題点を解決するため、ある音素列仮説が他の単
語の音素列と同一あるいは類似している場合にその評価
値を下げるような係数を設定し、その値を考慮して評価
を行なうことにより、コ２識率を向上せしめる技術につ
いて開示している。

［産業上の利用分野］本発明は音声認識装置の構成に関するものであって、特
に、トップダウン音声認識方式を用いた音声認識装置に
係り、従来の同方式による音声認識装置にあり勝ちな誤
認識を防止することが可能な音声認識装置の構成に係る
。

［従来の技術］第６図は従来のトップダウン音声認識方式の構成を示す
ブロック図である。

図中、５１は認識したい単語の音素列を格納しておく単
語辞書、５２は起こりうる音素変形のルールを格納して
おく音素変形ルール辞書、５３は上記単語の音素列に音
素変形の規則を適用して複数の音素列仮説を合成する音
素列仮説合成部、５５は各音素の特徴パラメータを格納
しておく音素辞書、５６は入力された音声波を分析して
、フレームごとに特徴パラメータを求め、音素辞書と照
合することにより、各フレームの音素候補を並べた音素
ラティスを求める音声分析部、５４は音素ラティスから
上記各音素列仮説についての評価を行い評価値を求める
仮説評価部を表している。

第６図において、仮説評価部５４は音声分析部５６が入
力音声から生成した音素ラティスに基づいて、単語辞書
５１の内容に対し音素変形ルールを適用して音素列仮説
き底部５３によって作成された複数の音素列仮説をそれ
ぞれ評価し、最も評価値の高いものを認識結果として出
力する。

［発明が解決しようとする問題点コトップダウン音声認識方式は、起こりうる音素変形をす
べて記述するので、連続音声を認識する際に有効な方式
であるが、上述のような従来の技術では仮説評価部にお
ける評価は合成された各音素列仮説について同じ基準で
行われるので、単語によってはあまり起こらない音素変
形ルールによって合成された仮説についても同じ基準で
評価が行われ、これが誤認識の原因となっているという
問題点があった。

本発明はこのような従来の問題点に鑑み、誤認識を生ず
る恐れの少ない、より高性能な音声認識装置を提供する
ことを目的としている。

［問題点を解決するための手段］本発明によれば上述の目的は前記特許請求の範囲に記載
したとおり、認識の対象となる単語の音素列を格納して
置く単語辞書と、起こり得る音素変形の規則を格納して
おく音素変形ルール辞書と、前記単語の音素列に音素変
形の規則を適用して複数の音素列仮設を合成する音素列
仮設合成部とを有し、入力された音声波を分析してフレ
ームごとに特徴、パラメータを求め、これを各音素の特
徴パラメータを格納しておく音素辞書と照会することに
より各フレームの音素候補を並べた音素ラティスを求め
、該音素ラティスに基づいて前記各音素列仮説について
の評価を行なうことによって音声を認識する装置であっ
て、各音素列仮説の内、単語辞書中の他の単語の音素列
と同一あるいは類似している仮説の評価値を低下せしめ
る手段を設けたことを特徴とする音声認識装置により達
成されろ。

［作　用］第１図は本発明の原理的構成を示すブロック図であって
、１は単語辞書、２は音素変形ルール辞書、３は音素列
仮説合成部、４は音素辞書、５は音声分析部、６は仮説
評価係数決定部、７は仮説評価部を表している。同図に
おいて、１〜５は従来のトップダウン音声認識方式によ
る構成の場合と同様であるが、本発明により仮説評価係
数決定部６が新たに付加され、また仮設評価部７が従来
とは異なるものとなっている。

そして、仮説評価係数決定部６は、音素列仮説合成部３
が単語辞書１内の音素列について音素変形ルールを適用
して合成した各音素列仮説について、評価係数を付与し
て仮説評価部７に通知する。このとき、該当する音素列
仮説が他の単語の音素列と同一あるいは類似している場
合には該音素列仮説の評価をせしめる係数を与える。仮
説評価部７は該係数を参照して、判定を行なう０通常、
音素変形の結果他の単語の音素列と同一になったり、極
端に類似するようなものは、入力されないのが普通であ
る６本発明はこのような特異な場合の評価を低下させる
ことによって、それが採択されることを防止して誤認識
の発生を低減せしめている。

［実施例］第２図は本発明の１実施例のブロック図である０図中、
８は認識したい単語の標準的な音素列を格納しておく単
語辞書である。たとえば／しかし／の場合、標準的な音
素列としてｌｌ＃５ＩｌｌＱ、に、＾、５ＩＩ１．＃＃
を格納しておく、ここで各音素記号の意味は第１表に示
しである。

９は起こりつる音素変形のルールを格納しておく音素変
形辞書である。ルールの例として無音部の前のシの無声
化、連母音の長音化、などがある。

第　　１　　表１０は上記標準的な音素列に音素変形ルールを適用して
複数の音素列仮説を合成する音素列仮説合成部である。

上記の例の場合、シの無声化のルールを適用して■＃＃
５）Ｉｌ、Ｑ、に、＾、ＳＨＴ、＃＃、■ｌｌ＃ｓＩＱ
、に、＾、ＳＨ＋、＃ｌｌ、■＃＃ＳＩＩ［、Ｑ、に、
＾、Ｓ１．＃ｌｌ、■＃＃ＳＩＱ、に、＾、Ｓ１．＃＃
、の４つの仮説を合成する。

１１は合成された音素列仮説のうち単語辞書中の他の単
語の標準的な音素列と一致する仮説の評価値を悪化させ
るような評価係数を求める仮説評価係数決定部である。

たとえば−致する場合は１．２、−致しない場合は１．
０を係数とする。−致する例としテハｌｌ＃５ＨｉＴｓ
Ｕ、ｃＩＩＯ，Ｕ。

ｌ〈室長）から合成された仮説の一つである＃＃ＳＨ１
，０車Ｃｌｌ０．Ｕ、＃＃が他の単語の標準的な音素列
であるｆｔ＃５ＨｉＱ本ｃＩｌｏ、Ｕ、＃＃（失Ｎ）ト
−ｆＸ、ｔ　ル例カアル。

各仮説に対する評価係数の例を第３図に示す。

１２は各音素の典型的な音素長と、特定音素文脈におけ
る音素長変動を相対的な長さとして記述している音素長
ルール辞書である。典型的音素長の例としては、各短母
音は相対長２０を持つ、などである。特定音素文脈にお
ける音素長変動の例としては、語尾にくる短母音は相対
長３０を持つ、などである。

１３は合成された各音素列仮説について音素長ルールを
適用して音素境界の仮説を合成する音素境界仮説り底部
である。上記の音素列仮説＃＃ＳＨ１，Ｑ、に、＾、５
ＩＩ１．＃＃の場合は例えば（１８，１７゜１４、　５
，２０．．１８．３０）という音素境界仮説を合成する
。

１４は入力音声波からフレームごとに特徴パラメータ（
たとえばＦＦＴスペクトル）を算出する特徴パラメータ
算出部である。

１５は各音素の特徴パラメータを格納しておく音素辞書
である。

１６は入力音声のフレームごとに音素辞書の各音素と距
離計算を行いその距離の昇順に各音素を並べた音素ラテ
ィスを求める音素ラティス生成部である。生成された音
素ラティスの例を第４図に示す、第４図では音素“アキ
ナイ゛°の音素ラティスを示している。

また、この音素ラティス２０には距離情報が付加されて
いる。

１７は合成された音素境界仮説を入力音声から得られた
音素ラティスに照合し音素境界仮説を修正する音素境界
仮説修正部である。照合は動的計画法を用いて行う、修
正した結果を第５図に示す。なお音素境界仮説における
音素長は相対長で記述しているので入力音声のフレーム
長で正規化を行っている。

１８は修正された音素境界仮説の各音素区間ごとに評価
用の距離を算出しその平均比１１１ｉｅ評価値とする仮
説評価値算出部である。評価用の距離はたとえば、定常
性のある音素では音素区間内の該当音素の平均距離、特
徴点のある音素では音素区間内の該当音素の最小距離、
とする。

ＩＣ：）は評価値に上記仮説評価係数を乗じて修正し新
たな評価値を求める仮説評価値修正部である。もとの評
価値と修正後の評価値の例を第３図に示す。

［発明の効果］以上説明したように、本発明による音声認識装置におい
ては、合成した音素列仮説の内、他の単語の標準的な廿
素列と一致するような仮説についてはその評価値を低下
せしめているので、通常、起こり得ないような音素変形
ルールによって、合成された音素列仮説が採択されるこ
とがなく、その結果誤認識を低減せしめ得る利点がある
。

【図面の簡単な説明】

第１図は本発明の原理的構成を示すブロック図、第２図
は本発明の１実施例のブロック図、第３図は評価係数の
例を示す図、第４図は音素ラティスの例を示す図、第５
図は音素境界仮説を修正した結果の例を示す図、第６図
は従来のトップダウン背戸認識方式の構成を示すブロッ
ク図である。１．８・・・・・・単語辞書、２．９・・・・・・音素
変形ルール辞書、３．１０・・・・・・音素列仮説合成
部、４．１５・・・・・・音素辞書、５・・・・・・音
声分析部、６．１１・・・・・・仮説評価係数決定部、
７・・・・・・仮説評価部、１２・・・・・・音素長ル
ール辞書、１３・・・・・・音素境界仮説合成部、１４
・・・・・・特徴パラメータ算出部、１６・・・・・・
音素ラティス生成部、１７・・・・・・音素境界仮説修
正部、１８・・・・・・仮説評価値算出部、１９・・・
・・・仮説評価値修正部、２０・・自・・音素ラティス代理人　弁理士　　井　桁　貞　− 音戸友水死朗の原理的構ルこを示すブロック２第　７　図縦来めトップグラン膏ｐ泌鐵方武の構成＠示すブロック図第６　図手続補正書（方式）昭和　ら１年　　’７１１　２２０１、　＋１（住の表示昭和　ら１年特許願第１４’＋０３Ｃ１号３、補正をす
る者事件との関係　　　　　特許出願人住所　神奈川県用崎市中原区上小１１１中１０１５番地
（５２２）名称富士通株式会社

Claims

【特許請求の範囲】

認識の対象となる単語の音素列を格納して置く単語辞書
と、起こり得る音素変形の規則を格納しておく音素変形
ルール辞書と、前記単語の音素列に音素変形の規則を適
用して複数の音素列仮設を合成する音素列仮設合成部と
を有し、入力された音声波を分析してフレームごとに特
徴パラメータを求め、これを各音素の特徴パラメータを
格納しておく音素辞書と照合することにより各フレーム
の音素候補を並べた音素ラティスを求め、該音素ラティ
スに基づいて前記各音素列仮説についての評価を行なう
ことによつて音声を認識する装置であって、各音素列仮
説の内、単語辞書中の他の単語の音素列と同一あるいは
類似している仮説の評価値を低下せしめる手段を設けた
ことを特徴とする音声認識装置。