JPS6217760B2

JPS6217760B2 -

Info

Publication number: JPS6217760B2
Application number: JP55062713A
Authority: JP
Inventors: Yorio Iio; Isamu Nose; Juhei Izawa
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1980-05-14
Filing date: 1980-05-14
Publication date: 1987-04-20
Also published as: JPS56159695A

Description

【発明の詳細な説明】本発明は音声パターンの振巾の変動を吸収して
認識率を高くした音声認識装置に関する。

従来の音声認識装置を第１図に示す。

第１図において、１はマイクロフオン、２はフ
イルタ分析部、３はパワ検出部、４はサンプルデ
ータ格納メモリ、５は音声区間切出し部、６は特
徴抽出部、７は音声特徴登録メモリ、８は識別部
の如く構成されている。Ｒは入力語句の特徴、Ｔ
は登録特徴である。

入力音声はマイクロフオン１にて電気信号に変
換され、フイルタ分析部２にて周波数成分に分け
られる。フイルタ分析部２は一般的にはバンドパ
スフイルタ群、全波整流器群、ローパスフイルタ
群、マルチプレクサおよびAD変換器等から構成
されており、音声帯域200〜5kHz程度を約10〜15
のフイルタ群で分けて10〜20ｍｓ周期で各フイル
タ出力を取り出している。以下、この出力をサン
プルデータと称す。この過程は一般的方法であ
り、本発明の直接的な要素でないので、その細部
については図示していない。

サンプルデータは逐次パワー検出部３に送出さ
れ、各フイルタ出力のサンプルデータの総和すな
わちパワーを検出する。パワーがあらかじめ定め
られたしきい値以上になつたら音声区間の始まり
と考え、以下サンプルデータ格納メモリ４に順次
格納する。一定時間のデータが格納されたらこの
シーケンスを終了して、次に音声区間切り出し部
５が動作する。

音声区間切り出し部５では改めて音声区間の始
端及び終端検出を行うが、この方法としては上記
サンプルデータの格納方法と同様に音声パワを用
いてしきい値TH₁、TH₂を設定し、始端はしきい
値TH₁を越えるサンプルデータがある一定時間持
続する先頭を、又、終端はしきい値TH₂以下のサ
ンプルデータがある一定時間持続する先頭あるい
はその１サンプル前の時点を終端としてその間を
音声区間とする方法がある。

音声区間が決定すると、特徴抽出部６では音声
区間を等分割して分割時間内で各フイルタ出力ご
との平均値を求め、これを特徴Ｒ（ｉ）とする。
このように等分割して再サンプリングする方法、
すなわち、線形サンプリング法は他にもあり、Ｐ
個のサンプルデータをｍ個の区間に分けると、ｉ
番目の区間内の再サンプル値Ｒ（ｉ）は区間の中
央近くのデータを用いて次のように計算して特徴
Ｒ（ｉ）とする。各サンプルデータをa₀、a₁……
ａ_o-1としてＲ（ｉ）＝（１−ｌ／ｍ）ａ_k＋ｌ／ｍａ_k+1 ただし、ｐ／ｍ（ｉ＋１／２）＝Ｋ……あまりｌ、ｉ＝
０、１、……ｍ−１登録モードでは、この特徴Ｒ
（ｉ）を音声特徴登録メモリ７に格納する。各語
句の登録が終了すると次からは新たに発声した語
句の識別が可能となる。識別部８の動作を以下説
明する。

登録特徴をTn（ｉ、ｆ）として識別すべき入
力語句の特徴をＲ（ｉ、ｆ）とする。但し、ｎは
ｎ番目に登録された語句、ｉは音声区間内の分割
に対して順次付された番号で、ｆは各フイルタ出
力に対応して付された番号を示す。Tn（ｉ、
ｆ）とＲ（ｉ、ｆ）間の非類似度Dnを次の様に
定義する。

すべての登録語句に対して非類似度Dnを求め
て、その中で非類似度Dnが最小となるｎに対応
する語句が識別結果となる。この識別を行う過程
を以下識別モードと称す。

ふつう、しきい値TH₃、TH₄を設定し、非類似
度Dnの最小値が識別しきい値TH₃よりも小さ
く、且つ、最小値を与える登録語句を除いた他の
すべての登録語句に対する非類似度と非類似度の
最小値との差が分離しきい値TH₄よりも大きいと
きに、非類似度が最小となるｎに対応する語句を
識別結果とする。

発声動作においては、同一人の同一語句でも発
声毎にサンプルデータの振巾には変動がある。ま
た、人が違う場合には、声道長の違い、音源の違
い、発声の違いなどによつて、スペクトルが変化
し、サンプルデータの振巾にはさらに変動があ
る。このため、単純な非類似度Dnでは同一語句
を認識する場合でも条件によつて非類似度が大き
くなり、認識率が低下するという欠点を持つてい
た。

本発明は２つの語句における特徴を周波数軸上
及び時間軸上の対応する位置（サンプル点）で比
較した場合、その振幅が少しずつ異なることによ
つて、全体として、差異があるように見えても同
一語句である場合が多く、異なる語句の場合は集
中的に大きな差異がある場合が多いという点に着
目して、音声信号の振幅方向での正規化を図つた
ものであり、以下詳細に説明する。

第２図は本発明の１実施例である。

第２図において、第１図において示したマイク
ロフオン１、フイルタ分析部２、パワ検出部３、
サンプルデータ格納メモリ４、音声区間切出部
５、特徴抽出部６、音声特徴登録メモリ７までは
第１図の説明と同様であるので省略している。

第２図において、１０は第１次識別部、１１は
フレキシブル誤差検出部１１ａ、和回路１１ｂ、
第１変形登録特徴メモリ１１ｃ、第２変形登録特
徴メモリ１１ｄ、からなる変形登録特徴作成部、
１２は変形登録特徴差分検出部１２ａ、絶対値回
路１２ｂ、しきい値回路１２ｃ、第１重みづけ登
録特徴メモリ１２ｄ、第２重みづけ登録特徴メモ
リ１２ｅ、からなる重みづけ登録特徴作成部、１
３は第２次識別部である。

第２図において示す第１次識別部１０は第１図
に示した識別部８と同じ回路であり、第１次識別
部１０までの動作は従来例と全く同様である。す
なわち、第１次識別部１０（第１図の識別部８と
同様）で入力語句の特徴Ｒ（ｉ、ｆ）と各登録語
句の登録特徴Tn（ｉ、ｆ）とを比較識別して両
者間の非類似度Dnを求め、最小の非類似度Dnを
示す登録特徴が識別結果であるかどうかの判定を
行う。

非類似度の最小値Ｄ_M1が識別しきい値TH₃より
も小さく、２番目に小さい非類似度Ｄ_M2との差
（Ｄ_M2−Ｄ_M1）が分離しきい値TH₄よりも大きい
ときに非類似度が最小となる登録特徴に対応した
登録番号M₁に対応する登録語句を識別結果とす
る。

非類似度Dnがどの登録語句に対しても前もつ
て定めたリジエクトしきい値TH₅より大きい場合
には、リジエクトと判定される。入力語句がただ
１つの登録語をその認識結果として判定されず、
且つ又リジエクトもされない場合、非類似度の最
小値Ｄ_M1、及び非類似度の２番目に小さい値Ｄ_M2
をそれぞれ与える登録番号M₁，M₂に対応する登
録語句をそれぞれ識別候補とし変形登録特徴作成
部１１のフレキシブル誤差検出部１１ａに対して
出力する。フレキシブル誤差検出部１１ａでは第
１の識別候補M₁に対する登録特徴Ｔ_M（ｉ、ｆ）
と入力語句の特徴Ｒ（ｉ、ｆ）とを比較し、時間
軸（ｉ）上及び周波数軸（ｆ）上の各サンプル点
（ｉ、ｆ）での誤差Ｅ_M1（ｉ、ｆ）＝Ｔ_M1（ｉ、ｆ）−Ｒ（ｉ、ｆ）を算出し、前記誤差Ｅ_M1（ｉ、ｆ）のとる値をあ
る一定の誤差しきい値αと比較してその結果によ
り、フレキシブル誤差Ｅ_MF1を次の様に定義す
る。

(イ) −αＥ_M1（ｉ、ｆ）αのときＥ_MF1（ｉ、ｆ）＝０ (ロ) Ｅ_M1（ｉ、ｆ）＞αのときＥ_MF1（ｉ、ｆ）＝Ｔ_M1（ｉ、ｆ）−Ｒ（ｉ、
ｆ）−α (ハ) Ｅ_M1（ｉ、ｆ）＜−αのときＥ_MF1（ｉ、ｆ）＝Ｔ_M1（ｉ、ｆ）−Ｒ（ｉ、
ｆ）＋α 第３図は入力語句の特徴Ｒ（ｉ、ｆ）と登録番
号M₁の登録特徴TM₁（ｉ、ｆ）との間の各サン
プル点での誤差Ｅ_M1（ｉ、ｆ）＝〔Ｔ_M1（ｉ、ｆ）−Ｒ（ｉ、ｆ）〕とフレキシブル誤差Ｅ_MF1（ｉ、ｆ）との関係を
示したフレキシブル誤差検出特性である。フレキ
シブル誤差検出部で算出されたフレキシブル誤差
Ｅ_MF1（ｉ、ｆ）は和回路１１ｂに入力され、こ
の和回路で入力語句の特徴Ｒ（ｉ、ｆ）を読み込
み、前記フレキシブル誤差Ｅ_MF1（ｉ、ｆ）との
和をとり、第１の変形登録特徴Ｖ_M1（ｉ、ｆ）＝
Ｅ_MF1（ｉ、ｆ）＋Ｒ（ｉ、ｆ）を算出する。この
変形登録特徴Ｖ_M1（ｉ、ｆ）は入力語句の特徴Ｒ
（ｉ、ｆ）と登録特徴Ｔ_M1（ｉ、ｆ）との誤差Ｅ_M
_１（ｉ、ｆ）が＋αから−αの範囲であれば入力
語句の特徴Ｒ（ｉ、ｆ）をそのまま用い、前記誤
差Ｅ_M1（ｉ、ｆ）が＋αより大きいか、もしくは
−αより小さい時には登録語句の登録特徴Ｔ_M1
（ｉ、ｆ）をαだけ入力語句の特徴Ｒ（ｉ、ｆ）
に近づけることを意味するものである。この第１
の識別候補M₁に対する第１変形登録特徴Ｖ_M1
（ｉ、ｆ）は各サンプル点毎に算出され、順次第
１変形登録特徴メモリ１１ｃに械納される。

あらかじめ定められた全音声区間内の全サンプ
ル点について、第１の変形登録特徴Ｖ_M1（ｉ、
ｆ）を求め、且つ第１変形登録特徴メモリ１１ｃ
への格納も終了したら、次に第２の識別候補M₂
についても同様に変形登録特徴作成部１１のフレ
キシブル誤差検出部１１ａで第２の識別候補M₂
に対する登録特徴Ｔ_M2（ｉ、ｆ）と入力語句の特
徴Ｒ（ｉ、ｆ）とを比較し、各サンプル点での誤
差Ｅ_M2（ｉ、ｆ）＝Ｔ_M2（ｉ、ｆ）−Ｒ（ｉ、ｆ）を算出し、この誤差Ｅ_M2（ｉ、ｆ）を誤差しきい
値αと比較してフレキシブル誤差Ｅ_MF2（ｉ、
ｆ）を求める。このフレキシブル誤差Ｅ_MF2
（ｉ、ｆ）は変形登録特徴作成部１１の和回路１
１ｃに入力され、この和回路で入力語句Ｒ（ｉ、
ｆ）とフレキシブル誤差Ｅ_MF1（ｉ、ｆ）の和を
とり、第２の変形登録特徴Ｖ_M2（ｉ、ｆ）＝Ｅ_MF2（ｉ、ｆ）＋Ｒ（ｉ、ｆ）を算出する。この第２の識別候補M₂に対する第
２の変形登録特徴Ｖ_M2（ｉ、ｆ）は各サンプル点
毎に算出され、順次第２変形登録特徴メモリ１１
ｄに格納される。

あらかじめ定められた全音声区間内の全サンプ
ル点について、第２の変形登録特徴Ｖ_M2（ｉ、
ｆ）を算出し終り、第２変形登録特徴メモリ１１
ｄへの格納も終了すると同時に重みづけ登録特徴
作成部１２での処理を開始する。

まず、変形登録特徴差分検出部１２ａにおい
て、第１変形登録特徴メモリ１１ｃに格納された
第１の変形登録特徴Ｖ_M1（ｉ、ｆ）と第２変形登
録特徴メモリ１１ｄに格納された第２の変形登録
特徴Ｖ_M2（ｉ、ｆ）とを入力として時間軸（ｉ）
上及び周波数軸（ｆ）上の各サンプル点における
両者間の変形登録特徴差分Ｅ_V（ｉ、ｆ）＝Ｖ_M1（ｉ、ｆ）−Ｖ_M2（ｉ、
ｆ）を算出する。

絶対値回路１２ｂで、この算出された変形登録
特徴差分Ｅ_V（ｉ、ｆ）の絶対値｜Ｅ_V（ｉ、ｆ）
｜をとり、しきい値回路１２ｃではあらかじめ定
められた重みづけ用しきい値βと、変形登録特徴
差分の絶対値｜Ｅ_V（ｉ、ｆ）｜とを比較して (イ) ｜Ｅ_V（ｉ、ｆ）｜＜βであれば重みＷ
＝０ (ロ) Ｅ_V（ｉ、ｆ）≧βであれば重みＷ＝１とそれぞれ重みづけを行う。

この重みづけの結果、あるサンプル点の重みＷ
＝０であればその値０を第１の識別候補M₁、第
２の識別候補M₂のそれぞれに対応する。第１重
みづけ登録特徴メモリ１２ｄ、第２重みづけ登録
特徴メモリ１２ｅのそのサンプル点対応のアドレ
スに書きこむ。

重みＷ＝１であれば第１重みづけ登録特徴メモ
リ１２ｄのそのサンプル点対応のアドレスには変
形登録特徴メモリ１１ｃの同一サンプル点対応の
アドレスの内容がそのまま書きこまれ、同様に第
２重みづけ登録特徴メモリ１２ｅの同一サンプル
点対応のアドレスにも第２変形登録特徴メモリ１
１ｄの内容がそのまま書きこまれる。

すなわち、時間軸（ｉ）上及び周波数軸（ｆ）
上の各サンプル点における第１の重みづけ登録特
徴をVT_M1（ｉ、ｆ）、第２の重みづけ登録特徴を
VT_M2（ｉ、ｆ）とすれば VT_M1（ｉ、ｆ）＝Ｗ・Ｖ_M1（ｉ、ｆ） VT_M2（ｉ、ｆ）＝Ｗ・Ｖ_M2（ｉ、ｆ）と表現される。

第１の識別候補M₁の登録特徴Ｔ_M1（ｉ、ｆ）
及び第２の識別候補M₂の登録特徴Ｔ_M2（ｉ、
ｆ）における全サンプル点における重みづけが完
了すると、第２次識別部１３において、ただ１つ
の識別語句の判定処理が開始する。

第２次識別部では、入力語句の特徴Ｒ（ｉ、
ｆ）と各重みづけ登録特徴VT_M1（ｉ、ｆ）、
VT_M2（ｉ、ｆ）との非類似度の算出を行うが、
この際第１重みづけ登録特徴メモリ１２ｄ及び第
２重みづけ登録特徴メモリ１２ｅに格納された第
１重みづけ登録特徴VT_M1（ｉ、ｆ）及び第２重
みづけ登録特徴VT_M2（ｉ、ｆ）が両者共０を示
すサンプル点については入力語句の特徴Ｒ（ｉ、
ｆ）は非類似度の算出に用いず、両者のうち、少
くともどちらか一方が０でないサンプル点におい
て、入力語句の特徴Ｒ（ｉ、ｆ）と各重みづけ登
録特徴VT_M1（ｉ、ｆ）、VT_M2（ｉ、ｆ）との非
類似度を算出する。

すなわち、VT_M1（ｉ、ｆ）、VT_M2（ｉ、ｆ）
の少くともどちらか一方がＯでないサンプル点に
おいて第１の重みづけ登録特徴誤差Ｅ_VTM1及び第
２の重みづけ登録特徴誤差を次の様にして算出す
る。

Ｅ_VTM1（ｉ、ｆ）＝VT_M1（ｉ、ｆ）−Ｒ（ｉ、
ｆ）Ｅ_VTM2（ｉ、ｆ）＝VT_M2（ｉ、ｆ）−Ｒ（ｉ、
ｆ）このようにして算出される各重みづけ登録特徴
誤差Ｅ_VTM1（ｉ、ｆ）、Ｅ_VTM2（ｉ、ｆ）を加算
して、入力語句の特徴Ｒ（ｉ、ｆ）と各重みづけ
登録特徴VT_M1（ｉ、ｆ）、VT_M2（ｉ、ｆ）との
間の非類似度DF_VTM1、DF_VTM2を次の如く算出す
る。

このようにして算出された非類似度DF_VTM1、
DF_VTM2を比較してDF_VTM1＜DF_VTM2であれば入力
語句は登録語句M₁と識別され、逆にDF_VTM1＞
DF_VTM2であれば入力語句は登録語句M₂と識別さ
れる。

第１の実施例では識別候補が２つの場合に対し
説明したが、識別候補が３つ以上あつても同様に
２つずつの組合せで考えることによつて対処でき
る。例えば識別候補としてM₁，M₂，M₃の３個が
ある場合にまず識別候補M₁とM₂の各登録特徴Ｔ_M
_１（ｉ、ｆ）、Ｔ_M2（ｉ、ｆ）の変形登録特徴Ｖ_M1
（ｉ、ｆ）、Ｖ_M2（ｉ、ｆ）を求め、更に重みづけ
した重みづけ変形登録特徴VT_M1（ｉ、ｆ）、
VT_M2（ｉ、ｆ）を求めてVT_M1（ｉ、ｆ）、VT_M2
（ｉ、ｆ）と入力語句の特徴Ｒ（ｉ、ｆ）との非
類似度を算出し、非類似度の小さい識別候補を求
める。例えば、これがM₁であるとすれば、この
M₁ともう１つ残つた識別候補M₃の各登録特徴Ｔ_M
_１（ｉ、ｆ）、Ｔ_M3（ｉ、ｆ）の変形登録特徴Ｖ_M1
（ｉ、ｆ）、Ｖ_M3（ｉ、ｆ）を求め、更に重みづけ
した重みづけ変形登録特徴VT_M1（ｉ、ｆ）、
VT_M3（ｉ、ｆ）を求めて、VT_M1（ｉ、ｆ）、
VT_M3（ｉ、ｆ）と入力語句の特徴Ｒ（ｉ、ｆ）
との非類似度を算出し、非類似度が小さい方の識
別候補を最終的に識別結果とする。

以上説明したように、本発明によれば、入力語
句に対して複数の識別候補がある場合、フレキシ
ブル誤差を用いて識別を行うので同一語句をくり
返し入力した場合、又は入力話者が変つた場合に
音声信号の入力振幅に変動があつても、その変動
を吸収することができ、また、このフレキシブル
誤差により、識別候補の登録特徴を変形した変形
登録特徴間の差分によつて重みづけした重みづけ
登録特徴を使つて、第２次の識別を行つているの
で、精度のよい識別が可能である。

本発明は音声信号の振幅方向での正規化を図る
ことにより、入力音声の振幅変動を吸収すること
ができ、識別精度のよい音声認識装置に利用でき
る。

【図面の簡単な説明】

第１図は従来の音声認識装置、第２図は本発明
の一実施例のブロツク図、第３図はフレキシブル
誤差検出特性である。１……マイクロフオン、２……フイルタ分析
部、３……パワ検出部、４……サンプルデータ格
納メモリ、５……音声区間切り出し部、６……特
徴抽出部、７……音声特徴登録メモリ、８……識
別部、１０……第１次識別部、１１……変形登録
特徴作成部、１１ａ……フレキシブル誤差検出
部、１１ｂ……和回路、１１ｃ……第１変形登録
特徴メモリ、１１ｄ……第２変形登録特徴メモ
リ、１２……重みづけ登録特徴作成部、１２ａ…
…変形登録特徴差分検出部、１２ｂ……絶対値回
路、１２ｃ……しきい値回路、１２ｄ……第１重
みづけ登録特徴メモリ、１２ｅ……第２重みづけ
登録特徴メモリ、１３……第２次識別部。

Claims

【特許請求の範囲】

１入力語句の識別対象候補としての少数の登録
語句を選択し得る第１識別部と、選択された登録
語句の特徴と入力語句の特徴との振幅に関する各
誤差を検出し、当該誤差の絶対値がある一定値α
以下であれば、登録語句の特徴を入力語句の特徴
で置換する変形を行い且つαより大きければ登録
語句の特徴を前記一定値αだけ入力語句の特徴に
近づける変形を行う変形登録特徴作成部と、当該
変形登録特徴作成部で得られた２つの登録語句に
関する変形特徴間の各差分を検出し、当該差分の
絶対値が一定値β以下であるか否かに応じて異な
つた重みをつける重みづけ登録特徴作成部と、重
みづけ後の登録語句と入力語句との非類似度を測
定して入力語句を識別する第２識別部とを備えて
いることを特徴とした音声認識装置。