JPS635395A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPS635395A JPS635395A JP61149030A JP14903086A JPS635395A JP S635395 A JPS635395 A JP S635395A JP 61149030 A JP61149030 A JP 61149030A JP 14903086 A JP14903086 A JP 14903086A JP S635395 A JPS635395 A JP S635395A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- hypothesis
- dictionary
- word
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 claims description 38
- 230000009466 transformation Effects 0.000 claims description 21
- 230000015572 biosynthetic process Effects 0.000 claims description 9
- 238000003786 synthesis reaction Methods 0.000 claims description 9
- 238000000844 transformation Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 9
- 238000000034 method Methods 0.000 description 6
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[WA 要]
認識対象の単語の音素列から音素変形の規則を用いて生
成した音素列仮設について入力音声波から求めた音素ラ
ティスに基づいて、評価を行なうことにより、音声を認
識する装置においては、従来、仮説を評価する際、通常
はあまり起り得ないような仮説についても他と全く同じ
基準で行なっていた。しがし、これは、かえって、誤認
識を生ずるという問題点があった1本発明はこのような
従来の問題点を解決するため、ある音素列仮説が他の単
語の音素列と同一あるいは類似している場合にその評価
値を下げるような係数を設定し、その値を考慮して評価
を行なうことにより、コ2識率を向上せしめる技術につ
いて開示している。
成した音素列仮設について入力音声波から求めた音素ラ
ティスに基づいて、評価を行なうことにより、音声を認
識する装置においては、従来、仮説を評価する際、通常
はあまり起り得ないような仮説についても他と全く同じ
基準で行なっていた。しがし、これは、かえって、誤認
識を生ずるという問題点があった1本発明はこのような
従来の問題点を解決するため、ある音素列仮説が他の単
語の音素列と同一あるいは類似している場合にその評価
値を下げるような係数を設定し、その値を考慮して評価
を行なうことにより、コ2識率を向上せしめる技術につ
いて開示している。
[産業上の利用分野]
本発明は音声認識装置の構成に関するものであって、特
に、トップダウン音声認識方式を用いた音声認識装置に
係り、従来の同方式による音声認識装置にあり勝ちな誤
認識を防止することが可能な音声認識装置の構成に係る
。
に、トップダウン音声認識方式を用いた音声認識装置に
係り、従来の同方式による音声認識装置にあり勝ちな誤
認識を防止することが可能な音声認識装置の構成に係る
。
[従来の技術]
第6図は従来のトップダウン音声認識方式の構成を示す
ブロック図である。
ブロック図である。
図中、51は認識したい単語の音素列を格納しておく単
語辞書、52は起こりうる音素変形のルールを格納して
おく音素変形ルール辞書、53は上記単語の音素列に音
素変形の規則を適用して複数の音素列仮説を合成する音
素列仮説合成部、55は各音素の特徴パラメータを格納
しておく音素辞書、56は入力された音声波を分析して
、フレームごとに特徴パラメータを求め、音素辞書と照
合することにより、各フレームの音素候補を並べた音素
ラティスを求める音声分析部、54は音素ラティスから
上記各音素列仮説についての評価を行い評価値を求める
仮説評価部を表している。
語辞書、52は起こりうる音素変形のルールを格納して
おく音素変形ルール辞書、53は上記単語の音素列に音
素変形の規則を適用して複数の音素列仮説を合成する音
素列仮説合成部、55は各音素の特徴パラメータを格納
しておく音素辞書、56は入力された音声波を分析して
、フレームごとに特徴パラメータを求め、音素辞書と照
合することにより、各フレームの音素候補を並べた音素
ラティスを求める音声分析部、54は音素ラティスから
上記各音素列仮説についての評価を行い評価値を求める
仮説評価部を表している。
第6図において、仮説評価部54は音声分析部56が入
力音声から生成した音素ラティスに基づいて、単語辞書
51の内容に対し音素変形ルールを適用して音素列仮説
き底部53によって作成された複数の音素列仮説をそれ
ぞれ評価し、最も評価値の高いものを認識結果として出
力する。
力音声から生成した音素ラティスに基づいて、単語辞書
51の内容に対し音素変形ルールを適用して音素列仮説
き底部53によって作成された複数の音素列仮説をそれ
ぞれ評価し、最も評価値の高いものを認識結果として出
力する。
[発明が解決しようとする問題点コ
トップダウン音声認識方式は、起こりうる音素変形をす
べて記述するので、連続音声を認識する際に有効な方式
であるが、上述のような従来の技術では仮説評価部にお
ける評価は合成された各音素列仮説について同じ基準で
行われるので、単語によってはあまり起こらない音素変
形ルールによって合成された仮説についても同じ基準で
評価が行われ、これが誤認識の原因となっているという
問題点があった。
べて記述するので、連続音声を認識する際に有効な方式
であるが、上述のような従来の技術では仮説評価部にお
ける評価は合成された各音素列仮説について同じ基準で
行われるので、単語によってはあまり起こらない音素変
形ルールによって合成された仮説についても同じ基準で
評価が行われ、これが誤認識の原因となっているという
問題点があった。
本発明はこのような従来の問題点に鑑み、誤認識を生ず
る恐れの少ない、より高性能な音声認識装置を提供する
ことを目的としている。
る恐れの少ない、より高性能な音声認識装置を提供する
ことを目的としている。
[問題点を解決するための手段]
本発明によれば上述の目的は前記特許請求の範囲に記載
したとおり、認識の対象となる単語の音素列を格納して
置く単語辞書と、起こり得る音素変形の規則を格納して
おく音素変形ルール辞書と、前記単語の音素列に音素変
形の規則を適用して複数の音素列仮設を合成する音素列
仮設合成部とを有し、入力された音声波を分析してフレ
ームごとに特徴、パラメータを求め、これを各音素の特
徴パラメータを格納しておく音素辞書と照会することに
より各フレームの音素候補を並べた音素ラティスを求め
、該音素ラティスに基づいて前記各音素列仮説について
の評価を行なうことによって音声を認識する装置であっ
て、各音素列仮説の内、単語辞書中の他の単語の音素列
と同一あるいは類似している仮説の評価値を低下せしめ
る手段を設けたことを特徴とする音声認識装置により達
成されろ。
したとおり、認識の対象となる単語の音素列を格納して
置く単語辞書と、起こり得る音素変形の規則を格納して
おく音素変形ルール辞書と、前記単語の音素列に音素変
形の規則を適用して複数の音素列仮設を合成する音素列
仮設合成部とを有し、入力された音声波を分析してフレ
ームごとに特徴、パラメータを求め、これを各音素の特
徴パラメータを格納しておく音素辞書と照会することに
より各フレームの音素候補を並べた音素ラティスを求め
、該音素ラティスに基づいて前記各音素列仮説について
の評価を行なうことによって音声を認識する装置であっ
て、各音素列仮説の内、単語辞書中の他の単語の音素列
と同一あるいは類似している仮説の評価値を低下せしめ
る手段を設けたことを特徴とする音声認識装置により達
成されろ。
[作 用]
第1図は本発明の原理的構成を示すブロック図であって
、1は単語辞書、2は音素変形ルール辞書、3は音素列
仮説合成部、4は音素辞書、5は音声分析部、6は仮説
評価係数決定部、7は仮説評価部を表している。同図に
おいて、1〜5は従来のトップダウン音声認識方式によ
る構成の場合と同様であるが、本発明により仮説評価係
数決定部6が新たに付加され、また仮設評価部7が従来
とは異なるものとなっている。
、1は単語辞書、2は音素変形ルール辞書、3は音素列
仮説合成部、4は音素辞書、5は音声分析部、6は仮説
評価係数決定部、7は仮説評価部を表している。同図に
おいて、1〜5は従来のトップダウン音声認識方式によ
る構成の場合と同様であるが、本発明により仮説評価係
数決定部6が新たに付加され、また仮設評価部7が従来
とは異なるものとなっている。
そして、仮説評価係数決定部6は、音素列仮説合成部3
が単語辞書1内の音素列について音素変形ルールを適用
して合成した各音素列仮説について、評価係数を付与し
て仮説評価部7に通知する。このとき、該当する音素列
仮説が他の単語の音素列と同一あるいは類似している場
合には該音素列仮説の評価をせしめる係数を与える。仮
説評価部7は該係数を参照して、判定を行なう0通常、
音素変形の結果他の単語の音素列と同一になったり、極
端に類似するようなものは、入力されないのが普通であ
る6本発明はこのような特異な場合の評価を低下させる
ことによって、それが採択されることを防止して誤認識
の発生を低減せしめている。
が単語辞書1内の音素列について音素変形ルールを適用
して合成した各音素列仮説について、評価係数を付与し
て仮説評価部7に通知する。このとき、該当する音素列
仮説が他の単語の音素列と同一あるいは類似している場
合には該音素列仮説の評価をせしめる係数を与える。仮
説評価部7は該係数を参照して、判定を行なう0通常、
音素変形の結果他の単語の音素列と同一になったり、極
端に類似するようなものは、入力されないのが普通であ
る6本発明はこのような特異な場合の評価を低下させる
ことによって、それが採択されることを防止して誤認識
の発生を低減せしめている。
[実施例]
第2図は本発明の1実施例のブロック図である0図中、
8は認識したい単語の標準的な音素列を格納しておく単
語辞書である。たとえば/しかし/の場合、標準的な音
素列としてll#5IllQ、に、^、5II1.##
を格納しておく、ここで各音素記号の意味は第1表に示
しである。
8は認識したい単語の標準的な音素列を格納しておく単
語辞書である。たとえば/しかし/の場合、標準的な音
素列としてll#5IllQ、に、^、5II1.##
を格納しておく、ここで各音素記号の意味は第1表に示
しである。
9は起こりつる音素変形のルールを格納しておく音素変
形辞書である。ルールの例として無音部の前のシの無声
化、連母音の長音化、などがある。
形辞書である。ルールの例として無音部の前のシの無声
化、連母音の長音化、などがある。
第 1 表
10は上記標準的な音素列に音素変形ルールを適用して
複数の音素列仮説を合成する音素列仮説合成部である。
複数の音素列仮説を合成する音素列仮説合成部である。
上記の例の場合、シの無声化のルールを適用して■##
5)Il、Q、に、^、SHT、##、■ll#sIQ
、に、^、SH+、#ll、■##SII[、Q、に、
^、S1.#ll、■##SIQ、に、^、S1.##
、の4つの仮説を合成する。
5)Il、Q、に、^、SHT、##、■ll#sIQ
、に、^、SH+、#ll、■##SII[、Q、に、
^、S1.#ll、■##SIQ、に、^、S1.##
、の4つの仮説を合成する。
11は合成された音素列仮説のうち単語辞書中の他の単
語の標準的な音素列と一致する仮説の評価値を悪化させ
るような評価係数を求める仮説評価係数決定部である。
語の標準的な音素列と一致する仮説の評価値を悪化させ
るような評価係数を求める仮説評価係数決定部である。
たとえば−致する場合は1.2、−致しない場合は1.
0を係数とする。−致する例としテハll#5HiTs
U、cIIO,U。
0を係数とする。−致する例としテハll#5HiTs
U、cIIO,U。
l〈室長)から合成された仮説の一つである##SH1
,0車Cll0.U、##が他の単語の標準的な音素列
であるft#5HiQ本cIlo、U、##(失N)ト
−fX、t ル例カアル。
,0車Cll0.U、##が他の単語の標準的な音素列
であるft#5HiQ本cIlo、U、##(失N)ト
−fX、t ル例カアル。
各仮説に対する評価係数の例を第3図に示す。
12は各音素の典型的な音素長と、特定音素文脈におけ
る音素長変動を相対的な長さとして記述している音素長
ルール辞書である。典型的音素長の例としては、各短母
音は相対長20を持つ、などである。特定音素文脈にお
ける音素長変動の例としては、語尾にくる短母音は相対
長30を持つ、などである。
る音素長変動を相対的な長さとして記述している音素長
ルール辞書である。典型的音素長の例としては、各短母
音は相対長20を持つ、などである。特定音素文脈にお
ける音素長変動の例としては、語尾にくる短母音は相対
長30を持つ、などである。
13は合成された各音素列仮説について音素長ルールを
適用して音素境界の仮説を合成する音素境界仮説り底部
である。上記の音素列仮説##SH1,Q、に、^、5
II1.##の場合は例えば(18,17゜14、 5
,20..18.30)という音素境界仮説を合成する
。
適用して音素境界の仮説を合成する音素境界仮説り底部
である。上記の音素列仮説##SH1,Q、に、^、5
II1.##の場合は例えば(18,17゜14、 5
,20..18.30)という音素境界仮説を合成する
。
14は入力音声波からフレームごとに特徴パラメータ(
たとえばFFTスペクトル)を算出する特徴パラメータ
算出部である。
たとえばFFTスペクトル)を算出する特徴パラメータ
算出部である。
15は各音素の特徴パラメータを格納しておく音素辞書
である。
である。
16は入力音声のフレームごとに音素辞書の各音素と距
離計算を行いその距離の昇順に各音素を並べた音素ラテ
ィスを求める音素ラティス生成部である。生成された音
素ラティスの例を第4図に示す、第4図では音素“アキ
ナイ゛°の音素ラティスを示している。
離計算を行いその距離の昇順に各音素を並べた音素ラテ
ィスを求める音素ラティス生成部である。生成された音
素ラティスの例を第4図に示す、第4図では音素“アキ
ナイ゛°の音素ラティスを示している。
また、この音素ラティス20には距離情報が付加されて
いる。
いる。
17は合成された音素境界仮説を入力音声から得られた
音素ラティスに照合し音素境界仮説を修正する音素境界
仮説修正部である。照合は動的計画法を用いて行う、修
正した結果を第5図に示す。なお音素境界仮説における
音素長は相対長で記述しているので入力音声のフレーム
長で正規化を行っている。
音素ラティスに照合し音素境界仮説を修正する音素境界
仮説修正部である。照合は動的計画法を用いて行う、修
正した結果を第5図に示す。なお音素境界仮説における
音素長は相対長で記述しているので入力音声のフレーム
長で正規化を行っている。
18は修正された音素境界仮説の各音素区間ごとに評価
用の距離を算出しその平均比111ie評価値とする仮
説評価値算出部である。評価用の距離はたとえば、定常
性のある音素では音素区間内の該当音素の平均距離、特
徴点のある音素では音素区間内の該当音素の最小距離、
とする。
用の距離を算出しその平均比111ie評価値とする仮
説評価値算出部である。評価用の距離はたとえば、定常
性のある音素では音素区間内の該当音素の平均距離、特
徴点のある音素では音素区間内の該当音素の最小距離、
とする。
IC:)は評価値に上記仮説評価係数を乗じて修正し新
たな評価値を求める仮説評価値修正部である。もとの評
価値と修正後の評価値の例を第3図に示す。
たな評価値を求める仮説評価値修正部である。もとの評
価値と修正後の評価値の例を第3図に示す。
[発明の効果]
以上説明したように、本発明による音声認識装置におい
ては、合成した音素列仮説の内、他の単語の標準的な廿
素列と一致するような仮説についてはその評価値を低下
せしめているので、通常、起こり得ないような音素変形
ルールによって、合成された音素列仮説が採択されるこ
とがなく、その結果誤認識を低減せしめ得る利点がある
。
ては、合成した音素列仮説の内、他の単語の標準的な廿
素列と一致するような仮説についてはその評価値を低下
せしめているので、通常、起こり得ないような音素変形
ルールによって、合成された音素列仮説が採択されるこ
とがなく、その結果誤認識を低減せしめ得る利点がある
。
第1図は本発明の原理的構成を示すブロック図、第2図
は本発明の1実施例のブロック図、第3図は評価係数の
例を示す図、第4図は音素ラティスの例を示す図、第5
図は音素境界仮説を修正した結果の例を示す図、第6図
は従来のトップダウン背戸認識方式の構成を示すブロッ
ク図である。 1.8・・・・・・単語辞書、2.9・・・・・・音素
変形ルール辞書、3.10・・・・・・音素列仮説合成
部、4.15・・・・・・音素辞書、5・・・・・・音
声分析部、6.11・・・・・・仮説評価係数決定部、
7・・・・・・仮説評価部、12・・・・・・音素長ル
ール辞書、13・・・・・・音素境界仮説合成部、14
・・・・・・特徴パラメータ算出部、16・・・・・・
音素ラティス生成部、17・・・・・・音素境界仮説修
正部、18・・・・・・仮説評価値算出部、19・・・
・・・仮説評価値修正部、20・・自・・音素ラティス 代理人 弁理士 井 桁 貞 − 音戸友 水死朗の原理的構ルこを示すブロック2第 7 図 縦来めトップグラン膏p泌鐵方武の 構成@示すブロック図 第6 図 手続補正書(方式) 昭和 ら1年 ’711 220 1、 +1(住の表示 昭和 ら1年特許願第14’+03C1号3、補正をす
る者 事件との関係 特許出願人 住所 神奈川県用崎市中原区上小111中1015番地
(522)名称富士通株式会社
は本発明の1実施例のブロック図、第3図は評価係数の
例を示す図、第4図は音素ラティスの例を示す図、第5
図は音素境界仮説を修正した結果の例を示す図、第6図
は従来のトップダウン背戸認識方式の構成を示すブロッ
ク図である。 1.8・・・・・・単語辞書、2.9・・・・・・音素
変形ルール辞書、3.10・・・・・・音素列仮説合成
部、4.15・・・・・・音素辞書、5・・・・・・音
声分析部、6.11・・・・・・仮説評価係数決定部、
7・・・・・・仮説評価部、12・・・・・・音素長ル
ール辞書、13・・・・・・音素境界仮説合成部、14
・・・・・・特徴パラメータ算出部、16・・・・・・
音素ラティス生成部、17・・・・・・音素境界仮説修
正部、18・・・・・・仮説評価値算出部、19・・・
・・・仮説評価値修正部、20・・自・・音素ラティス 代理人 弁理士 井 桁 貞 − 音戸友 水死朗の原理的構ルこを示すブロック2第 7 図 縦来めトップグラン膏p泌鐵方武の 構成@示すブロック図 第6 図 手続補正書(方式) 昭和 ら1年 ’711 220 1、 +1(住の表示 昭和 ら1年特許願第14’+03C1号3、補正をす
る者 事件との関係 特許出願人 住所 神奈川県用崎市中原区上小111中1015番地
(522)名称富士通株式会社
Claims (1)
- 認識の対象となる単語の音素列を格納して置く単語辞書
と、起こり得る音素変形の規則を格納しておく音素変形
ルール辞書と、前記単語の音素列に音素変形の規則を適
用して複数の音素列仮設を合成する音素列仮設合成部と
を有し、入力された音声波を分析してフレームごとに特
徴パラメータを求め、これを各音素の特徴パラメータを
格納しておく音素辞書と照合することにより各フレーム
の音素候補を並べた音素ラティスを求め、該音素ラティ
スに基づいて前記各音素列仮説についての評価を行なう
ことによつて音声を認識する装置であって、各音素列仮
説の内、単語辞書中の他の単語の音素列と同一あるいは
類似している仮説の評価値を低下せしめる手段を設けた
ことを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61149030A JPS635395A (ja) | 1986-06-25 | 1986-06-25 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61149030A JPS635395A (ja) | 1986-06-25 | 1986-06-25 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS635395A true JPS635395A (ja) | 1988-01-11 |
Family
ID=15466132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61149030A Pending JPS635395A (ja) | 1986-06-25 | 1986-06-25 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS635395A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005257954A (ja) * | 2004-03-10 | 2005-09-22 | Nec Corp | 音声検索装置、音声検索方法および音声検索プログラム |
WO2009008055A1 (ja) * | 2007-07-09 | 2009-01-15 | Fujitsu Limited | 音声認識装置、音声認識方法、および、音声認識プログラム |
-
1986
- 1986-06-25 JP JP61149030A patent/JPS635395A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005257954A (ja) * | 2004-03-10 | 2005-09-22 | Nec Corp | 音声検索装置、音声検索方法および音声検索プログラム |
WO2009008055A1 (ja) * | 2007-07-09 | 2009-01-15 | Fujitsu Limited | 音声認識装置、音声認識方法、および、音声認識プログラム |
JPWO2009008055A1 (ja) * | 2007-07-09 | 2010-09-02 | 富士通株式会社 | 音声認識装置、音声認識方法、および、音声認識プログラム |
US8738378B2 (en) | 2007-07-09 | 2014-05-27 | Fujitsu Limited | Speech recognizer, speech recognition method, and speech recognition program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7366669B2 (en) | Acoustic model creation method as well as acoustic model creation apparatus and speech recognition apparatus | |
US7299179B2 (en) | Three-stage individual word recognition | |
US7233899B2 (en) | Speech recognition system using normalized voiced segment spectrogram analysis | |
JPS62235998A (ja) | 音節識別方式 | |
JPS63220298A (ja) | 音声認識における単語候補削減装置 | |
JPS61219099A (ja) | 音声認識装置 | |
JPS635395A (ja) | 音声認識装置 | |
JPS63158596A (ja) | 音韻類似度計算装置 | |
JP3400474B2 (ja) | 音声認識装置および音声認識方法 | |
Samudravijaya et al. | A feature-based hierarchical speech recognition system for Hindi | |
Kitaoka et al. | Detection and recognition of correction utterance in spontaneously spoken dialog. | |
JP2001005483A (ja) | 単語音声認識方法及び単語音声認識装置 | |
Dass | The Comparative Analysis of Speech Processing Techniques at Different Stages | |
JP3438293B2 (ja) | 音声認識における単語テンプレートの自動作成方法 | |
JPS60159798A (ja) | 音声認識装置 | |
JPS60129798A (ja) | 音声認識方式 | |
JPS6346499A (ja) | 大語▲い▼単語音声認識方式 | |
JPS6126095A (ja) | 単語間距離の自動算出方法 | |
JPS58195895A (ja) | 単語音声認識装置 | |
JPS6076800A (ja) | 音声認識方式 | |
JPS60229099A (ja) | 音声認識方式 | |
JPS632100A (ja) | 音声認識装置 | |
JPH0158519B2 (ja) | ||
JPS63253997A (ja) | 音声認識装置 | |
JPS6225797A (ja) | 音声認識装置 |