JPS61137198A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPS61137198A JPS61137198A JP59259518A JP25951884A JPS61137198A JP S61137198 A JPS61137198 A JP S61137198A JP 59259518 A JP59259518 A JP 59259518A JP 25951884 A JP25951884 A JP 25951884A JP S61137198 A JPS61137198 A JP S61137198A
- Authority
- JP
- Japan
- Prior art keywords
- vowel
- pattern
- word
- recognition
- consonant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
産業上の利用分野
本発明は、音節を予め登録しておき、音節を連続発声し
て入力された単語または文節を、単語辞書を用いて認識
する音声認識装置に関する。
て入力された単語または文節を、単語辞書を用いて認識
する音声認識装置に関する。
従来の技術
人間にとって最も自然な情報発生手段である音声が、人
間−機械系の入力手段として使用できれば、その効果は
非常に大きい。
間−機械系の入力手段として使用できれば、その効果は
非常に大きい。
従来、音声認識装置としては特定話者登録方式によるも
のが実用化されている。即ち、認識装置を使用しようと
する話者が、予め、認識すべきすべての単語を自分の声
で特徴ベクトルの系列に変換し単語辞書に標準パターン
として登録しておき、紹識時に発声された音声を、同様
に特徴ベクトル3ケ− の系列に変換し、前記単語辞書中のどの単語に最も近い
かを予め定められた規則によって計算し、最も類似して
いる単語を認識結果とするものである。
のが実用化されている。即ち、認識装置を使用しようと
する話者が、予め、認識すべきすべての単語を自分の声
で特徴ベクトルの系列に変換し単語辞書に標準パターン
として登録しておき、紹識時に発声された音声を、同様
に特徴ベクトル3ケ− の系列に変換し、前記単語辞書中のどの単語に最も近い
かを予め定められた規則によって計算し、最も類似して
いる単語を認識結果とするものである。
ところが、この方法によると、認識単語数が少いときは
良いが、数百、数千単語といったように増加してくると
、主として次の三つの問題が無視し得なくなる。
良いが、数百、数千単語といったように増加してくると
、主として次の三つの問題が無視し得なくなる。
(1)登録時における話者の負担が著しく増大する0
(2)認識時に発声された音声と標準パターンとの類似
度あるいは距離を計算するのに要する時間が著しく増大
し、認識装置の応答速度が遅くなる。
度あるいは距離を計算するのに要する時間が著しく増大
し、認識装置の応答速度が遅くなる。
(3)前記単語辞書のために要するメモリが非常に大き
くなる。
くなる。
以上の欠点を回避するための方法として認識の単位を子
音士母音および母音の単音節(以後それぞれCV、Vで
表す。Cは子音、■は母音を意味する。)とする方法が
ある。即ち、標準パターンとして単音節を特徴ベクトル
の系列として登録しておき、認識時に特徴ベクトルの系
列に変換された入力音声を、前記単音節の標準パターン
とマツチングすることにより、単音節の系列に変換する
ものである。日本語の場合、単音節はたかだか101種
類であわ、単音wJは仮名文字に対応しているから、こ
の方法によれば、日本語の任意の単語あるいは文章を単
音節列に変換する(認識する)ことができ、前記(1)
〜(3)の問題はすべて解決されることになる。しかし
。この場合の問題として調音結合とセグメンテーション
がある。調音結合は、音節を連続して発声すると各音節
は前後の音節の影響を受け、スペクトル構造が前後に接
続される音節によって変化する現象である。セグメンテ
ーションは、連続して発声された音声を単音節単位に区
切ることであるが、これを確実に行う決定的な方法は未
だ見出されていない。この2つの問題を解決するために
、現在のところ各単音節を区切って、発声することが行
われており、実用化されている装置もある。
音士母音および母音の単音節(以後それぞれCV、Vで
表す。Cは子音、■は母音を意味する。)とする方法が
ある。即ち、標準パターンとして単音節を特徴ベクトル
の系列として登録しておき、認識時に特徴ベクトルの系
列に変換された入力音声を、前記単音節の標準パターン
とマツチングすることにより、単音節の系列に変換する
ものである。日本語の場合、単音節はたかだか101種
類であわ、単音wJは仮名文字に対応しているから、こ
の方法によれば、日本語の任意の単語あるいは文章を単
音節列に変換する(認識する)ことができ、前記(1)
〜(3)の問題はすべて解決されることになる。しかし
。この場合の問題として調音結合とセグメンテーション
がある。調音結合は、音節を連続して発声すると各音節
は前後の音節の影響を受け、スペクトル構造が前後に接
続される音節によって変化する現象である。セグメンテ
ーションは、連続して発声された音声を単音節単位に区
切ることであるが、これを確実に行う決定的な方法は未
だ見出されていない。この2つの問題を解決するために
、現在のところ各単音節を区切って、発声することが行
われており、実用化されている装置もある。
5べ一
しかし、単音節を離散的に発声するのは不自然であシ、
話者に緊張を強いるものである。
話者に緊張を強いるものである。
発明が解決しようとする問題点
本発明は、認識されるべき単語または文節に対し、それ
らの数が多い場合でも小形低価格かつ標準パターンの登
録操作が簡単であって、認識精度および処理速度の向上
が可能な音声認識装置を実現することを目的とする。
らの数が多い場合でも小形低価格かつ標準パターンの登
録操作が簡単であって、認識精度および処理速度の向上
が可能な音声認識装置を実現することを目的とする。
問題点を解決するだめの手段
本発明はV 、CV 、VV 、VCV等の音節を認識
の単位として、特徴ベクトルの系列として予め登録して
おき、これらを連続発声して入力された単語または文節
を、単語捷たは文節辞書を用いて、これら音節列として
認識するものであって、その構成は、入力音声信号を特
徴ベクトルの系列に変換する特徴抽出手段と、この入力
パターンから。
の単位として、特徴ベクトルの系列として予め登録して
おき、これらを連続発声して入力された単語または文節
を、単語捷たは文節辞書を用いて、これら音節列として
認識するものであって、その構成は、入力音声信号を特
徴ベクトルの系列に変換する特徴抽出手段と、この入力
パターンから。
母音や促音の認識、子音の大まかな認識等を行うことに
より、前記単語または文節の概略の特徴を抽出する概略
特徴抽出手段と、この概略特徴抽出手段で得られた概略
特徴から、単語または文節辞書に含せれる単語捷たは文
節の中から認識候補を選出する認識候補選出手段と、こ
の認識候補のそれぞれに対し、それらの候補単語捷たは
文節を構成−iるV 、CV 、VV、VCV(Vは母
音、Cは子音)等の音声素片を特徴ベクトルの系列で表
した標準パターンのそれぞれを、前記認識候補のそれぞ
れに対して、それぞれの認識候補によって指定される前
記音声素片名の系列に対応するように結合した結合パタ
ーンと、前記入力パターンとの距離を算出するパターン
間距離計算手段と、このパターン間距離計算手段により
算出される距離の最小値(類似度の最大値)を与える単
語または文節を認識結果として判定する判定手段とを含
んで構成される。
より、前記単語または文節の概略の特徴を抽出する概略
特徴抽出手段と、この概略特徴抽出手段で得られた概略
特徴から、単語または文節辞書に含せれる単語捷たは文
節の中から認識候補を選出する認識候補選出手段と、こ
の認識候補のそれぞれに対し、それらの候補単語捷たは
文節を構成−iるV 、CV 、VV、VCV(Vは母
音、Cは子音)等の音声素片を特徴ベクトルの系列で表
した標準パターンのそれぞれを、前記認識候補のそれぞ
れに対して、それぞれの認識候補によって指定される前
記音声素片名の系列に対応するように結合した結合パタ
ーンと、前記入力パターンとの距離を算出するパターン
間距離計算手段と、このパターン間距離計算手段により
算出される距離の最小値(類似度の最大値)を与える単
語または文節を認識結果として判定する判定手段とを含
んで構成される。
作 用
単語または文節を発声して得られる入力音声信号を特徴
ベクトルの系列に変換し、この入力パターンから、母音
や促音の認識、子音の大まかな認識等を行うととにより
1、前記単語または文節の概略の特徴を抽出し、この概
略の特徴から、単語または文節辞書に含まれる単語また
は文節の中から認識候補として対応する単語捷たは文節
を選出し、との認識候補のそれぞれに対し、それらの候
補単語または文節を構成するV、CV、VV、VCV(
■は母音、Cは子音)等の認識単位を特徴ベクトルの系
列で表した標準パターンのそれぞれを、前記認識候補の
それぞれに対して、それぞれの認識候補によって指定さ
れる前記認識単位名の系列に対応するように結合した結
合パターンと、前記入力パターンとの距離を算出するこ
とにより両者のパターン間距離を計算する手段と、との
パターン間距離の最小値(類似度の最大値)を与えるm
語または文節を認識結果として判定する。
ベクトルの系列に変換し、この入力パターンから、母音
や促音の認識、子音の大まかな認識等を行うととにより
1、前記単語または文節の概略の特徴を抽出し、この概
略の特徴から、単語または文節辞書に含まれる単語また
は文節の中から認識候補として対応する単語捷たは文節
を選出し、との認識候補のそれぞれに対し、それらの候
補単語または文節を構成するV、CV、VV、VCV(
■は母音、Cは子音)等の認識単位を特徴ベクトルの系
列で表した標準パターンのそれぞれを、前記認識候補の
それぞれに対して、それぞれの認識候補によって指定さ
れる前記認識単位名の系列に対応するように結合した結
合パターンと、前記入力パターンとの距離を算出するこ
とにより両者のパターン間距離を計算する手段と、との
パターン間距離の最小値(類似度の最大値)を与えるm
語または文節を認識結果として判定する。
実施例
以後、「単語」という言葉は「文節」という言葉も代表
するものとする。寸だ、「類似度」は「距離」で代表し
て説明する。即ち、距離が小さいとは類似度が大きいと
いうことである。
するものとする。寸だ、「類似度」は「距離」で代表し
て説明する。即ち、距離が小さいとは類似度が大きいと
いうことである。
第1図は本発明の実施例である。1は音声信号入力端子
、2は特徴抽出部であって、例えば20チヤネルのフィ
ルタバンクを用い、1フレームを10m5ccとすれば
、その出力には10 m SeC毎にPo個の数値(特
徴ベクトル)が得られる。即ち入力音声信号は特徴ベク
トルの系列A−a1a2・・・・・・a工に変換される
。aoは第iフレームで得られる特徴ベクトル、■は入
力音声のフレーム数である。3は電力計算部であって、
第iフレームの電力をPoとすれば、フレーム毎に ことに、a・−(”il + ai2 +・・・・・・
+’iv)である。
、2は特徴抽出部であって、例えば20チヤネルのフィ
ルタバンクを用い、1フレームを10m5ccとすれば
、その出力には10 m SeC毎にPo個の数値(特
徴ベクトル)が得られる。即ち入力音声信号は特徴ベク
トルの系列A−a1a2・・・・・・a工に変換される
。aoは第iフレームで得られる特徴ベクトル、■は入
力音声のフレーム数である。3は電力計算部であって、
第iフレームの電力をPoとすれば、フレーム毎に ことに、a・−(”il + ai2 +・・・・・・
+’iv)である。
4は音声区間検出部であって、このPiの変化パターン
から入力音声信号の始終端を検出する。即ち5無音、有
音を判別する閾値を定め、この閾値以上の区間が予め定
めた一定期間以上続いたとき、この閾値を越えた時点を
音声の開始時点とし、この閾値以下の期間が予め定めた
ある一定期間以上続いたとき、この閾値以下となった時
点を音声の終端とする等の方法が可能である。5は母音
標準パターン記憶部であって、各母音の定常部のスペ9
べ−7 クトルを予め記憶しておくものである。6はバッファメ
モリで、入力音声信号を音声区間検出部4によって検出
される始端から終端まで一時的に記憶するものである。
から入力音声信号の始終端を検出する。即ち5無音、有
音を判別する閾値を定め、この閾値以上の区間が予め定
めた一定期間以上続いたとき、この閾値を越えた時点を
音声の開始時点とし、この閾値以下の期間が予め定めた
ある一定期間以上続いたとき、この閾値以下となった時
点を音声の終端とする等の方法が可能である。5は母音
標準パターン記憶部であって、各母音の定常部のスペ9
べ−7 クトルを予め記憶しておくものである。6はバッファメ
モリで、入力音声信号を音声区間検出部4によって検出
される始端から終端まで一時的に記憶するものである。
7は定常点検出部で、バッフ7メモリ6の内容を読み出
し、定常点を検出し、これが最小となるフレームとして
検出できる。即ち、第iフレームにおけるこの分散をσ
、′とすると入力パターンA−a1a2−・・…ai・
・・…aI、ai−(ail e ai2+・・・・・
・、 at咥に対し、として与えられる。8は母音パタ
ーン比較部であって、定常点検出部7で前記の如く検出
された定常点(フレーム)を母音中心フレームと見做し
て母音認識を行う。本実施例では各母音の中心は定常で
あるとしている。即ち、前記定常点の特徴べ10゜ クトルと前記母音標準パターン記憶部5の各母音に対応
する特徴ベクトルとの距離を計算するものである。9は
母音判定部であって、前記母音パターン比較部8の出力
のうち、最小値を与える前記母音を前記定常フレームの
母音認識結果とするものである。さらに定常点検出部7
において、定常点間に促音がなく、その間隔が予め定め
た閾値以上であると判定されたときは該当部分の母音定
常点の検出が行えなかった(脱落した)として母音パタ
ーン比較部8、母音判定部9において該区間の全フレー
ムを母音とみなして母音認識を行い、同一母音の続くフ
レームの中点を母音部として追加する。また定常点数は
°′1″プラスされる。1゜は母音・促音判定結果記憶
部であって、母音判定部9で得られた母音系列、音声区
間検出部4で検出された無音区間から促音と判定される
部分を記憶するものである。促音の検出は、前記定義に
基づく無音期間の時間長によって判定される。例えば、
この期間が100m5eC〜250m5ecを促音とす
る等である。11は音節標準パターン記憶部であッテ、
V 、CV 、VV 、VCV等の音節に対する特徴ベ
クトルの系列をV 、CVについては語頭から母音定常
部壕で、vv 、vcvについては先行母音の定常部か
ら後続母音の定常部捷で標準パターンとして予め話者が
発声し登録しておく。12は音節パターン比較部であっ
て、定常点検出部7で検出された第m定常点と第p定常
点(p>m)のm 、 pに関する種々の組合せに対し
、第m定常点からp定常点才での対応する入力パターン
をバッファメモリ6から読み出しだ入力パターンの部分
パターンA(m、p)と、定常点m 、 pのそれぞれ
の母音認識結果を母音・促音判定結果記憶部1oから読
み出し、定常点mに対して認識された母音を先行母音、
定常点pに対して認識された母音を後続母音とする前記
音節標準パターン記憶部11に記憶されている各音節標
準パターンとのマツチングを行うものである。マツチン
グは周知のDPマツチングで行うことが可能である。即
ち、入力パターンの第m定常点の母音をv(m)、先行
母音がX、後続母音がy、子音がCの標準パターンをB
(x、c、y)(x=○、COOはCV音節に、x =
== c = Oは■音節に、x(0,c=oはVV音
節に対応するものとする)で表わすとき、前記部分パタ
ーンA(m、p)と標準パターンBn−B(v(m)、
C2v(p))との距離qn(R1Sn)は次の漸化式
を解くことによって求まる。nは先行母音v(m)、後
続母音v(p) 、子音Cの標準パターンの音節番号で
ある。
し、定常点を検出し、これが最小となるフレームとして
検出できる。即ち、第iフレームにおけるこの分散をσ
、′とすると入力パターンA−a1a2−・・…ai・
・・…aI、ai−(ail e ai2+・・・・・
・、 at咥に対し、として与えられる。8は母音パタ
ーン比較部であって、定常点検出部7で前記の如く検出
された定常点(フレーム)を母音中心フレームと見做し
て母音認識を行う。本実施例では各母音の中心は定常で
あるとしている。即ち、前記定常点の特徴べ10゜ クトルと前記母音標準パターン記憶部5の各母音に対応
する特徴ベクトルとの距離を計算するものである。9は
母音判定部であって、前記母音パターン比較部8の出力
のうち、最小値を与える前記母音を前記定常フレームの
母音認識結果とするものである。さらに定常点検出部7
において、定常点間に促音がなく、その間隔が予め定め
た閾値以上であると判定されたときは該当部分の母音定
常点の検出が行えなかった(脱落した)として母音パタ
ーン比較部8、母音判定部9において該区間の全フレー
ムを母音とみなして母音認識を行い、同一母音の続くフ
レームの中点を母音部として追加する。また定常点数は
°′1″プラスされる。1゜は母音・促音判定結果記憶
部であって、母音判定部9で得られた母音系列、音声区
間検出部4で検出された無音区間から促音と判定される
部分を記憶するものである。促音の検出は、前記定義に
基づく無音期間の時間長によって判定される。例えば、
この期間が100m5eC〜250m5ecを促音とす
る等である。11は音節標準パターン記憶部であッテ、
V 、CV 、VV 、VCV等の音節に対する特徴ベ
クトルの系列をV 、CVについては語頭から母音定常
部壕で、vv 、vcvについては先行母音の定常部か
ら後続母音の定常部捷で標準パターンとして予め話者が
発声し登録しておく。12は音節パターン比較部であっ
て、定常点検出部7で検出された第m定常点と第p定常
点(p>m)のm 、 pに関する種々の組合せに対し
、第m定常点からp定常点才での対応する入力パターン
をバッファメモリ6から読み出しだ入力パターンの部分
パターンA(m、p)と、定常点m 、 pのそれぞれ
の母音認識結果を母音・促音判定結果記憶部1oから読
み出し、定常点mに対して認識された母音を先行母音、
定常点pに対して認識された母音を後続母音とする前記
音節標準パターン記憶部11に記憶されている各音節標
準パターンとのマツチングを行うものである。マツチン
グは周知のDPマツチングで行うことが可能である。即
ち、入力パターンの第m定常点の母音をv(m)、先行
母音がX、後続母音がy、子音がCの標準パターンをB
(x、c、y)(x=○、COOはCV音節に、x =
== c = Oは■音節に、x(0,c=oはVV音
節に対応するものとする)で表わすとき、前記部分パタ
ーンA(m、p)と標準パターンBn−B(v(m)、
C2v(p))との距離qn(R1Sn)は次の漸化式
を解くことによって求まる。nは先行母音v(m)、後
続母音v(p) 、子音Cの標準パターンの音節番号で
ある。
初期値qn(1,1)−dn(1,1)ここで、rは部
分パターンA (m 、 p )の開始フレームを1と
して数えた部分パターンA(m、p)のフレーム番号、
Sは標準パターンBnの開始フレームから数えたフレー
ム番号、Rは部分パターンA(m、p)のフレーム数、
Snは標準パターンBnのフレーム数、d!″(r 、
S ) fd部部分パターンAm、p)の第rフレー
ムト標準ハターン13 −、− Bnの第Sフレームとの距離であって、ユークリッド距
離、市街地距離等周知のものが用いられる。
分パターンA (m 、 p )の開始フレームを1と
して数えた部分パターンA(m、p)のフレーム番号、
Sは標準パターンBnの開始フレームから数えたフレー
ム番号、Rは部分パターンA(m、p)のフレーム数、
Snは標準パターンBnのフレーム数、d!″(r 、
S ) fd部部分パターンAm、p)の第rフレー
ムト標準ハターン13 −、− Bnの第Sフレームとの距離であって、ユークリッド距
離、市街地距離等周知のものが用いられる。
部分パターンA(m、p)と標準パターンBnの距離は
従ってgn(RI S” )と々る。これをD”(m:
p)と置く。即ち、D”(m:p)は、入力パターンの
第m番の定常点から第p番の定常点までの部分パターン
A(m+ p’)と、先行母音が入力パターンの第m番
定常点の母音認識結果V(m)で、後続母音が入力パタ
ーンの第p番の定常点の母音認識結果v(p)で、両者
に挾捷れる子音がCであるVCV音節標準パターンとの
距離である。
従ってgn(RI S” )と々る。これをD”(m:
p)と置く。即ち、D”(m:p)は、入力パターンの
第m番の定常点から第p番の定常点までの部分パターン
A(m+ p’)と、先行母音が入力パターンの第m番
定常点の母音認識結果V(m)で、後続母音が入力パタ
ーンの第p番の定常点の母音認識結果v(p)で、両者
に挾捷れる子音がCであるVCV音節標準パターンとの
距離である。
このとき、゛比較すべき音節標準パターンは、母音・促
音判定結果記憶部1oにおける母音・促音の列から予測
される単語に含まれる音節とのみ比較照合すれば良いの
であって、すべての音節標準パターンと比較照合する必
要はない。即ち、母音・促音判定結果記憶部1oの母音
・促音列が実際のものに対して、挿入、置換等が一部で
生じていると仮定した上で、それらと等しい後続母音列
・促音列を有する単語が単語辞書14から認識候補単語
として選ばれ、それら候補単語に含まれる音節が音節標
準パターン記憶部11から選ばれ、音節パターン比較部
12で入力パターンの部分パターンと比較照合される。
音判定結果記憶部1oにおける母音・促音の列から予測
される単語に含まれる音節とのみ比較照合すれば良いの
であって、すべての音節標準パターンと比較照合する必
要はない。即ち、母音・促音判定結果記憶部1oの母音
・促音列が実際のものに対して、挿入、置換等が一部で
生じていると仮定した上で、それらと等しい後続母音列
・促音列を有する単語が単語辞書14から認識候補単語
として選ばれ、それら候補単語に含まれる音節が音節標
準パターン記憶部11から選ばれ、音節パターン比較部
12で入力パターンの部分パターンと比較照合される。
単語辞書14は認識すべき単語がそれぞれ音節記号列の
形で記憶されているものである。ここで、挿入、置換を
考慮するには、具体的には次のように行う。例えば、1
011011alのような母音列が得られたときは、1
01が挿入された可能性も考えて、l011−1を後続
母音列としてもつ単語を考慮する等である。
形で記憶されているものである。ここで、挿入、置換を
考慮するには、具体的には次のように行う。例えば、1
011011alのような母音列が得られたときは、1
01が挿入された可能性も考えて、l011−1を後続
母音列としてもつ単語を考慮する等である。
また、置換誤りに対する考慮としては、母音列における
母音は母音判定部9において得られる母音認識結果の第
2候補の可能性も考慮する等によってカバーすることが
できる。なお、脱落に関しては、前記の如く定常点検出
部7、母音パターン比較部8母音判定部9に罫いて既に
処置されていると見做し得るので、母音・促音判定結果
記憶部1oにおける母音・促音列は挿入、置換のみ考慮
すれば良いことになる。13は距離記憶部であって、音
節パターン比較部12で、m 、 p 、 c’の種1
5 、 々の組合せに対して得られた距離Dn(m:p)のそれ
ぞれを記憶する。16は単語間距離計算部であって、単
語辞書14の前記候補単語に対し、前記距離記憶部13
を参照して、その単語によって指定される音節列に対応
するように前記入力パタとその部分パターンの前記音節
名に対し、前記距離記憶部13に記憶されている距離の
総和を最小となし、得られる最小値を各単語に対する入
力パターンの距離として算出する。この計算は動的計画
法により容易に実行することができる。以下にその詳細
を述べる。
母音は母音判定部9において得られる母音認識結果の第
2候補の可能性も考慮する等によってカバーすることが
できる。なお、脱落に関しては、前記の如く定常点検出
部7、母音パターン比較部8母音判定部9に罫いて既に
処置されていると見做し得るので、母音・促音判定結果
記憶部1oにおける母音・促音列は挿入、置換のみ考慮
すれば良いことになる。13は距離記憶部であって、音
節パターン比較部12で、m 、 p 、 c’の種1
5 、 々の組合せに対して得られた距離Dn(m:p)のそれ
ぞれを記憶する。16は単語間距離計算部であって、単
語辞書14の前記候補単語に対し、前記距離記憶部13
を参照して、その単語によって指定される音節列に対応
するように前記入力パタとその部分パターンの前記音節
名に対し、前記距離記憶部13に記憶されている距離の
総和を最小となし、得られる最小値を各単語に対する入
力パターンの距離として算出する。この計算は動的計画
法により容易に実行することができる。以下にその詳細
を述べる。
第り番の単語をwtとし、単語wLを構成する音節数が
XAであるとする。寸だ、促音も一つの音節とする。例
えば「オオサカ」という単語はlol 1oo11os
a i 1akalのように4つの音節から成るからx
t−4であり、「サノポロ」という単語は1Sall’
l 1pOllOrOlのようになるからこの場合もや
はりxt−4である(1・1 は促音を意味するとする
)。い丑、入力パターンを単語W″とマツチングする場
合を考える。単語W′によって指定される音節名の第X
番までの系列に対応するように部分パターンA(m。
XAであるとする。寸だ、促音も一つの音節とする。例
えば「オオサカ」という単語はlol 1oo11os
a i 1akalのように4つの音節から成るからx
t−4であり、「サノポロ」という単語は1Sall’
l 1pOllOrOlのようになるからこの場合もや
はりxt−4である(1・1 は促音を意味するとする
)。い丑、入力パターンを単語W″とマツチングする場
合を考える。単語W′によって指定される音節名の第X
番までの系列に対応するように部分パターンA(m。
p)を入力パターンの第に定常点1で重複区間がなく連
続するように屋適に定めることにより、その各部分パタ
ーンとその部分パターンの前記音節名に対し、前記距離
記憶部13に記憶されている距離の総和を最小となしだ
ときの最小値をり、2(k)とすれば、動的計画法の原
理により次式が成立するO D:(k) −mm(Dニー、(m)+D”(m: k
)] ・−・−・−(1)ただし、1 くxくに、
x=1のときm= O、x % 1のときx−1くmく
に−11D’(o)−〇である。また、nは単語W′の
第X音節を表す番号であって、単語W′の第X番の音節
の先行母音をV((t 、 x)。
続するように屋適に定めることにより、その各部分パタ
ーンとその部分パターンの前記音節名に対し、前記距離
記憶部13に記憶されている距離の総和を最小となしだ
ときの最小値をり、2(k)とすれば、動的計画法の原
理により次式が成立するO D:(k) −mm(Dニー、(m)+D”(m: k
)] ・−・−・−(1)ただし、1 くxくに、
x=1のときm= O、x % 1のときx−1くmく
に−11D’(o)−〇である。また、nは単語W′の
第X音節を表す番号であって、単語W′の第X番の音節
の先行母音をV((t 、 x)。
後続母音をv r (L 、x 、)とするとき、v(
m)Nvf(t、x)、v(k)Nvr(l、x)、前
記第X番の音節が促音であって、入力音声の第m、第に
定常171、 点の間に促音がない、前記第X番の音節が促音でなく、
入力音声の第m、第に定常点の間に促音がある、の何れ
かが成立するときはDn(m : k )−o。
m)Nvf(t、x)、v(k)Nvr(l、x)、前
記第X番の音節が促音であって、入力音声の第m、第に
定常171、 点の間に促音がない、前記第X番の音節が促音でなく、
入力音声の第m、第に定常点の間に促音がある、の何れ
かが成立するときはDn(m : k )−o。
であるとする。寸だ、前記第X番の音節が促音であって
、入力音声の第m、第に定常点の間にも促音が検出され
るときは、Dn(m:k)はこの促音の直後から第に定
常点捷での入力パターンと、第n音節標準パターンとの
距離であり、第n音節がV CV i タId V V
(7J) トキId D” (m : k ) −”
テ;h ル。
、入力音声の第m、第に定常点の間にも促音が検出され
るときは、Dn(m:k)はこの促音の直後から第に定
常点捷での入力パターンと、第n音節標準パターンとの
距離であり、第n音節がV CV i タId V V
(7J) トキId D” (m : k ) −”
テ;h ル。
第2図は単語間距離計算部15の詳細を示す図である。
破線内部が単語間距離計算部15であって、第1図と番
号を同じくするブロックは第1図のものと同じである。
号を同じくするブロックは第1図のものと同じである。
150はlカウンタであって、k=1.2.・・・・・
、Lを出力し、単語辞書14に対し、単語wLを指定す
るもので、認識動作を始める前にリセットされる。15
2はXカウンタであって、x=1.2.・・・・・・、
Xtを出力し、単語Wtを構成する音節系列の音節を
指定する。151はにカウンタであって、k=1.2.
・・・・・・、Kを出力し、入力パターンの第に定常点
を指示するものである。153はmカウンタであって、
m−x−1,・・・・・・、に−1を出力し、入力パタ
ーンの第m定常点を指示するものである。150〜15
3のカウンタは認識動作を始める前にリセットされ、1
51〜153のカウンタはさらにlカウンタ150が計
数値を更新する毎にリセットさ、れる(図示ぜず)。そ
れぞれのカウンタの初期値はk=1 、 k=1 、
x=1 、 m=○である。mカウンタ153ばに−1
−iで計数するとキャリー信号を出力し、Xカウンタ1
52ば1つカウントアツプする。x ) kのときはm
= k−1を保った!!キャリー信号を出力する。X
カウンタ152は、Xtまで計数するとキャリー信号を
出し、kカウンタ151は1つカウントアツプする。K
は入力パターンの定常点の総数であって、定常点検出部
7から読み出され、kカウンタ151はに−iでカウン
トアツプするとキャリー信号を出し、lカウンタ150
は1つカウントアツプする。lカウンタ150の出力に
よって指定された単語W′がそれを構成する音節の後続
母音列が母音・促音判定結19 ノ、 果記憶部1oの母音・促音列と比較して前記類似度の基
準をみたさないときは該単語WLについての処理はスキ
ップすべく単語辞書14はlカウンタ150を1つカウ
ントアンプする信号を出力する0 この基準が満たされたとき6−itlカウンタ150出
力tによって指定された単語WLのIカウンタ152の
出力Xによって指定された音節nが単語辞書14から出
力される。母音・促音判定結果記憶部10からは、kカ
ムフタ161の出力にと、mカウンタ153の出力mに
よって指定される定常点に対応する母音V (m) 、
v (k)が読み出される。距離記憶部13ではv4
(t、 x ) −v (m) 、 vr(1,x
)−v(k)の何れもが成立するかどうかを確かめ、こ
れが成立するときは、音節nの標準パターンと入力パタ
ーンの部分パターyA(m、k)との距離Dn(m :
k )が既に計算され記憶されているはずであるから
、距離記憶部13からこのD”(m:k)が読み出され
る。vf(t、x)=v(m)。
、Lを出力し、単語辞書14に対し、単語wLを指定す
るもので、認識動作を始める前にリセットされる。15
2はXカウンタであって、x=1.2.・・・・・・、
Xtを出力し、単語Wtを構成する音節系列の音節を
指定する。151はにカウンタであって、k=1.2.
・・・・・・、Kを出力し、入力パターンの第に定常点
を指示するものである。153はmカウンタであって、
m−x−1,・・・・・・、に−1を出力し、入力パタ
ーンの第m定常点を指示するものである。150〜15
3のカウンタは認識動作を始める前にリセットされ、1
51〜153のカウンタはさらにlカウンタ150が計
数値を更新する毎にリセットさ、れる(図示ぜず)。そ
れぞれのカウンタの初期値はk=1 、 k=1 、
x=1 、 m=○である。mカウンタ153ばに−1
−iで計数するとキャリー信号を出力し、Xカウンタ1
52ば1つカウントアツプする。x ) kのときはm
= k−1を保った!!キャリー信号を出力する。X
カウンタ152は、Xtまで計数するとキャリー信号を
出し、kカウンタ151は1つカウントアツプする。K
は入力パターンの定常点の総数であって、定常点検出部
7から読み出され、kカウンタ151はに−iでカウン
トアツプするとキャリー信号を出し、lカウンタ150
は1つカウントアツプする。lカウンタ150の出力に
よって指定された単語W′がそれを構成する音節の後続
母音列が母音・促音判定結19 ノ、 果記憶部1oの母音・促音列と比較して前記類似度の基
準をみたさないときは該単語WLについての処理はスキ
ップすべく単語辞書14はlカウンタ150を1つカウ
ントアンプする信号を出力する0 この基準が満たされたとき6−itlカウンタ150出
力tによって指定された単語WLのIカウンタ152の
出力Xによって指定された音節nが単語辞書14から出
力される。母音・促音判定結果記憶部10からは、kカ
ムフタ161の出力にと、mカウンタ153の出力mに
よって指定される定常点に対応する母音V (m) 、
v (k)が読み出される。距離記憶部13ではv4
(t、 x ) −v (m) 、 vr(1,x
)−v(k)の何れもが成立するかどうかを確かめ、こ
れが成立するときは、音節nの標準パターンと入力パタ
ーンの部分パターyA(m、k)との距離Dn(m :
k )が既に計算され記憶されているはずであるから
、距離記憶部13からこのD”(m:k)が読み出され
る。vf(t、x)=v(m)。
v (A、X) −v(k) の何れか一方が成立
しないときは、D” (m : k )−(イ)が距離
記憶部13から出力される。154は累積距離記憶部で
あって、漸化式(1)において既に計算済の累積距離り
妥/(m’)を記憶している。156は漸化式計算部で
あって、累積距離記憶部154から読み出したD:、
(m)と距離記憶部13から読み出したD”(m:k)
からDニー1(m) + Dn(m : k )を計算
し、mについての最小値n工(k)を算出するものであ
る。各に、tについて計算されたD4(k)は再び累積
距離記憶部164に記憶される。以上の動作がk =
K 、 x−Xt 4で行われると、単語W′と入力パ
ターンとの距離するように、入力パターンの部分パター
ンを重複区間がなく連続するように、その各部分パター
ンとその部分パターンの前記音節基に対し前記距離記憶
部13に記憶されている距離の総和を最小となすという
意味で最適化した結果得られた前記距離の総和の最小値
である。16は単語判定部であって、t=1.2.・・
・・・・、Lについて以上の処理を行った結果得られ、
累積距離記憶部154に記入力パターンに対する認識結
果とするものである。
しないときは、D” (m : k )−(イ)が距離
記憶部13から出力される。154は累積距離記憶部で
あって、漸化式(1)において既に計算済の累積距離り
妥/(m’)を記憶している。156は漸化式計算部で
あって、累積距離記憶部154から読み出したD:、
(m)と距離記憶部13から読み出したD”(m:k)
からDニー1(m) + Dn(m : k )を計算
し、mについての最小値n工(k)を算出するものであ
る。各に、tについて計算されたD4(k)は再び累積
距離記憶部164に記憶される。以上の動作がk =
K 、 x−Xt 4で行われると、単語W′と入力パ
ターンとの距離するように、入力パターンの部分パター
ンを重複区間がなく連続するように、その各部分パター
ンとその部分パターンの前記音節基に対し前記距離記憶
部13に記憶されている距離の総和を最小となすという
意味で最適化した結果得られた前記距離の総和の最小値
である。16は単語判定部であって、t=1.2.・・
・・・・、Lについて以上の処理を行った結果得られ、
累積距離記憶部154に記入力パターンに対する認識結
果とするものである。
第3図は単語判定部16の詳細を説明する図である。L
カウンター50がカウントアツプし、単の 語辞書14の全ての単語り合が完了すると、端子164
を通じてtカウンター63はリセット、され、計数を始
め、累積距離記憶部164から累積距離記憶部154か
ら読み出された入力音声と比較し、小さい方の値をバッ
ファメモリー61そのときのtカウンター63の計数値
が単語番号記憶部162に記憶される。このようにして
、単語番号記憶部162には、tカウンター63の計数
値をtとするとき1./−=1〜tにおいて、D÷(6
)を最小にするtの値が記憶されることになる。
カウンター50がカウントアツプし、単の 語辞書14の全ての単語り合が完了すると、端子164
を通じてtカウンター63はリセット、され、計数を始
め、累積距離記憶部164から累積距離記憶部154か
ら読み出された入力音声と比較し、小さい方の値をバッ
ファメモリー61そのときのtカウンター63の計数値
が単語番号記憶部162に記憶される。このようにして
、単語番号記憶部162には、tカウンター63の計数
値をtとするとき1./−=1〜tにおいて、D÷(6
)を最小にするtの値が記憶されることになる。
2=Lとなると、lカウンタ163はキャリーを出力し
、単語番号記憶部162の内容を読み出し、出力端子1
7には認識された単語に対応する単語の番号が出力され
る。
、単語番号記憶部162の内容を読み出し、出力端子1
7には認識された単語に対応する単語の番号が出力され
る。
本実施例では、母音の中心を検出するのに、母音の中心
は定常であるとして、先ず定常点を検出し、そのフレー
ムを母音と見做して母音の認識を行っているが、他の方
法として、全フレーム母音の認識を行い、同一母音が連
続する区間の中点のフレームを母音の中心と見做し、そ
の認識結果をその点の母音とする等の方法も勿論可能で
ある。
は定常であるとして、先ず定常点を検出し、そのフレー
ムを母音と見做して母音の認識を行っているが、他の方
法として、全フレーム母音の認識を行い、同一母音が連
続する区間の中点のフレームを母音の中心と見做し、そ
の認識結果をその点の母音とする等の方法も勿論可能で
ある。
まだ、本実施例では候補単語の選出は母音列に依ってい
るが、さらにスペクトルのかたより具合や変化の様子等
から、従来から周知の方法により子音に関する概略の情
報等を導入することにより、さらに候補を絞ることがで
きる。ここで、子音に対する概略の情報を利用すること
は、例えば入力パターンのある特定部分の摩擦性らしさ
がほぼ100L%確信できる場合は、母音列の他にその
部分が摩擦子音である単語に限定しても良いことに23
、− なり、あまシ確信がもてないときは、この条件を排除す
る。即ち、全ての子音の可能性があるとして候補を絞る
こと等である。従って、音節パターン比較部12におけ
る計算も、この情報を利用することにより、大幅に減ら
すことができる。
るが、さらにスペクトルのかたより具合や変化の様子等
から、従来から周知の方法により子音に関する概略の情
報等を導入することにより、さらに候補を絞ることがで
きる。ここで、子音に対する概略の情報を利用すること
は、例えば入力パターンのある特定部分の摩擦性らしさ
がほぼ100L%確信できる場合は、母音列の他にその
部分が摩擦子音である単語に限定しても良いことに23
、− なり、あまシ確信がもてないときは、この条件を排除す
る。即ち、全ての子音の可能性があるとして候補を絞る
こと等である。従って、音節パターン比較部12におけ
る計算も、この情報を利用することにより、大幅に減ら
すことができる。
発明の効果
本発明によれば、単音節を連続して発声した場合でも、
概略情報、例えば各母音の中心の検出とそのフレームの
母音賑識を行い得られた母音・促音列から認識候補単語
を絞り入力部分パターンと前記認識候補単語に含1れる
V、CV、VCV。
概略情報、例えば各母音の中心の検出とそのフレームの
母音賑識を行い得られた母音・促音列から認識候補単語
を絞り入力部分パターンと前記認識候補単語に含1れる
V、CV、VCV。
■v等の音節標準パターンとのみマツチングするように
したので、比較照合すべき単語と音節標準パターンを限
定することができ、認識率、照合速度において大幅な改
善が得られる。
したので、比較照合すべき単語と音節標準パターンを限
定することができ、認識率、照合速度において大幅な改
善が得られる。
第1図は本発明の一実施例の構成を示すブロック図、第
2図、第3図は前記実施例の要部の構成の詳細を説明す
るブロック図である。 1・・・・・音声信号入力端子、2・・・・・特徴抽出
部、3・・・・・・電力計算部、4・・・・・・音声区
間検出部、5・・・・・母音標準パターン記憶部、6・
・・・バッファメモリ、7・・・定常点検出部、8・・
・・母音パターン比較部、9・・・・母音判定部、10
・・・・・母音・促音判定結果記憶部、11・・・・音
節標準パターン記憶部、12・・・・・・音節パターン
比較部、13・・・・・・距離記憶部、14・・・・・
・単語辞書、15・・・単語間距離計算部、18・・・
単語判定部、17・・・・・認識結果出力端子。
2図、第3図は前記実施例の要部の構成の詳細を説明す
るブロック図である。 1・・・・・音声信号入力端子、2・・・・・特徴抽出
部、3・・・・・・電力計算部、4・・・・・・音声区
間検出部、5・・・・・母音標準パターン記憶部、6・
・・・バッファメモリ、7・・・定常点検出部、8・・
・・母音パターン比較部、9・・・・母音判定部、10
・・・・・母音・促音判定結果記憶部、11・・・・音
節標準パターン記憶部、12・・・・・・音節パターン
比較部、13・・・・・・距離記憶部、14・・・・・
・単語辞書、15・・・単語間距離計算部、18・・・
単語判定部、17・・・・・認識結果出力端子。
Claims (1)
- 単語または文節を発声して得られる入力音声信号を特徴
ベクトルの系列に変換する特徴抽出手段と、この入力パ
ターンから、母音や促音の認識、子音の大まかな認識を
行うことにより、前記単語または文節の概略の特徴を抽
出する概略特性抽出手段と、この概略特徴抽出手段で得
られた概略特徴から、単語または文節辞書に含まれる単
語または文節の中から認識候補を選出する認識候補選出
手段と、この認識候補のそれぞれに対し、それらの候補
単語または文節を構成するV、CV、VV、VCV(V
は母音、Cは子音)等の音声素片を特徴ベクトルの系列
で表した標準パターンのそれぞれを、前記認識候補のそ
れぞれに対して、それぞれの認識候補によって指定され
る前記音声素片名の系列に対応するように結合した結合
パターンと、前記入力パターンとの距離を算出するパタ
ーン間距離計算手段と、このパターン間距離計算手段に
より算出される距離の最小値(類似度の最大値)を与え
る単語または文節を認識結果として判定する判定手段と
を有することを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59259518A JPH067359B2 (ja) | 1984-12-07 | 1984-12-07 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59259518A JPH067359B2 (ja) | 1984-12-07 | 1984-12-07 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS61137198A true JPS61137198A (ja) | 1986-06-24 |
JPH067359B2 JPH067359B2 (ja) | 1994-01-26 |
Family
ID=17335210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59259518A Expired - Lifetime JPH067359B2 (ja) | 1984-12-07 | 1984-12-07 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH067359B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6385697A (ja) * | 1986-09-30 | 1988-04-16 | キヤノン株式会社 | 音声認識方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60118896A (ja) * | 1983-11-30 | 1985-06-26 | 株式会社リコー | 音声認識装置 |
-
1984
- 1984-12-07 JP JP59259518A patent/JPH067359B2/ja not_active Expired - Lifetime
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60118896A (ja) * | 1983-11-30 | 1985-06-26 | 株式会社リコー | 音声認識装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6385697A (ja) * | 1986-09-30 | 1988-04-16 | キヤノン株式会社 | 音声認識方法 |
Also Published As
Publication number | Publication date |
---|---|
JPH067359B2 (ja) | 1994-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2012137776A (ja) | 音声認識装置 | |
JPS61137198A (ja) | 音声認識装置 | |
Tian | Data-driven approaches for automatic detection of syllable boundaries. | |
JPS60164800A (ja) | 音声認識装置 | |
JPS60164799A (ja) | 音声認識装置 | |
JP3128251B2 (ja) | 音声認識装置 | |
JPS60182499A (ja) | 音声認識装置 | |
JP2008249761A (ja) | 統計的言語モデル生成装置及び方法、及びこれを用いた音声認識装置 | |
JPS6180298A (ja) | 音声認識装置 | |
JP2760096B2 (ja) | 音声認識方式 | |
JPS60150098A (ja) | 音声認識装置 | |
Mary | Two‐stage spoken term detection system for under‐resourced languages. | |
JP3291073B2 (ja) | 音声認識方式 | |
JPS5849996A (ja) | 平均音素パターン作成装置 | |
JPS6312000A (ja) | 音声認識装置 | |
JPS6148897A (ja) | 音声認識装置 | |
JPH0247757B2 (ja) | ||
JPH0566596B2 (ja) | ||
JPH0585918B2 (ja) | ||
JPH0552516B2 (ja) | ||
JPH0333280B2 (ja) | ||
JPS60147794A (ja) | 単語音声認識方法 | |
JPH0247756B2 (ja) | ||
JPS62218997A (ja) | 単語音声認識装置 | |
Shahin et al. | Improving wav2vec2-based Spoken Language Identification by Learning Phonological Features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
EXPY | Cancellation because of completion of term |