JPS6217760B2 - - Google Patents

Info

Publication number
JPS6217760B2
JPS6217760B2 JP55062713A JP6271380A JPS6217760B2 JP S6217760 B2 JPS6217760 B2 JP S6217760B2 JP 55062713 A JP55062713 A JP 55062713A JP 6271380 A JP6271380 A JP 6271380A JP S6217760 B2 JPS6217760 B2 JP S6217760B2
Authority
JP
Japan
Prior art keywords
feature
registered
identification
word
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP55062713A
Other languages
English (en)
Other versions
JPS56159695A (en
Inventor
Yorio Iio
Isamu Nose
Juhei Izawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP6271380A priority Critical patent/JPS56159695A/ja
Publication of JPS56159695A publication Critical patent/JPS56159695A/ja
Publication of JPS6217760B2 publication Critical patent/JPS6217760B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 本発明は音声パターンの振巾の変動を吸収して
認識率を高くした音声認識装置に関する。
従来の音声認識装置を第1図に示す。
第1図において、1はマイクロフオン、2はフ
イルタ分析部、3はパワ検出部、4はサンプルデ
ータ格納メモリ、5は音声区間切出し部、6は特
徴抽出部、7は音声特徴登録メモリ、8は識別部
の如く構成されている。Rは入力語句の特徴、T
は登録特徴である。
入力音声はマイクロフオン1にて電気信号に変
換され、フイルタ分析部2にて周波数成分に分け
られる。フイルタ分析部2は一般的にはバンドパ
スフイルタ群、全波整流器群、ローパスフイルタ
群、マルチプレクサおよびAD変換器等から構成
されており、音声帯域200〜5kHz程度を約10〜15
のフイルタ群で分けて10〜20ms周期で各フイル
タ出力を取り出している。以下、この出力をサン
プルデータと称す。この過程は一般的方法であ
り、本発明の直接的な要素でないので、その細部
については図示していない。
サンプルデータは逐次パワー検出部3に送出さ
れ、各フイルタ出力のサンプルデータの総和すな
わちパワーを検出する。パワーがあらかじめ定め
られたしきい値以上になつたら音声区間の始まり
と考え、以下サンプルデータ格納メモリ4に順次
格納する。一定時間のデータが格納されたらこの
シーケンスを終了して、次に音声区間切り出し部
5が動作する。
音声区間切り出し部5では改めて音声区間の始
端及び終端検出を行うが、この方法としては上記
サンプルデータの格納方法と同様に音声パワを用
いてしきい値TH1、TH2を設定し、始端はしきい
値TH1を越えるサンプルデータがある一定時間持
続する先頭を、又、終端はしきい値TH2以下のサ
ンプルデータがある一定時間持続する先頭あるい
はその1サンプル前の時点を終端としてその間を
音声区間とする方法がある。
音声区間が決定すると、特徴抽出部6では音声
区間を等分割して分割時間内で各フイルタ出力ご
との平均値を求め、これを特徴R(i)とする。
このように等分割して再サンプリングする方法、
すなわち、線形サンプリング法は他にもあり、P
個のサンプルデータをm個の区間に分けると、i
番目の区間内の再サンプル値R(i)は区間の中
央近くのデータを用いて次のように計算して特徴
R(i)とする。各サンプルデータをa0、a1……
o-1として R(i)=(1−l/m)ak+l/mak+1 ただし、p/m(i+1/2)=K……あまりl、i=
0、 1、……m−1登録モードでは、この特徴R
(i)を音声特徴登録メモリ7に格納する。各語
句の登録が終了すると次からは新たに発声した語
句の識別が可能となる。識別部8の動作を以下説
明する。
登録特徴をTn(i、f)として識別すべき入
力語句の特徴をR(i、f)とする。但し、nは
n番目に登録された語句、iは音声区間内の分割
に対して順次付された番号で、fは各フイルタ出
力に対応して付された番号を示す。Tn(i、
f)とR(i、f)間の非類似度Dnを次の様に
定義する。
すべての登録語句に対して非類似度Dnを求め
て、その中で非類似度Dnが最小となるnに対応
する語句が識別結果となる。この識別を行う過程
を以下識別モードと称す。
ふつう、しきい値TH3、TH4を設定し、非類似
度Dnの最小値が識別しきい値TH3よりも小さ
く、且つ、最小値を与える登録語句を除いた他の
すべての登録語句に対する非類似度と非類似度の
最小値との差が分離しきい値TH4よりも大きいと
きに、非類似度が最小となるnに対応する語句を
識別結果とする。
発声動作においては、同一人の同一語句でも発
声毎にサンプルデータの振巾には変動がある。ま
た、人が違う場合には、声道長の違い、音源の違
い、発声の違いなどによつて、スペクトルが変化
し、サンプルデータの振巾にはさらに変動があ
る。このため、単純な非類似度Dnでは同一語句
を認識する場合でも条件によつて非類似度が大き
くなり、認識率が低下するという欠点を持つてい
た。
本発明は2つの語句における特徴を周波数軸上
及び時間軸上の対応する位置(サンプル点)で比
較した場合、その振幅が少しずつ異なることによ
つて、全体として、差異があるように見えても同
一語句である場合が多く、異なる語句の場合は集
中的に大きな差異がある場合が多いという点に着
目して、音声信号の振幅方向での正規化を図つた
ものであり、以下詳細に説明する。
第2図は本発明の1実施例である。
第2図において、第1図において示したマイク
ロフオン1、フイルタ分析部2、パワ検出部3、
サンプルデータ格納メモリ4、音声区間切出部
5、特徴抽出部6、音声特徴登録メモリ7までは
第1図の説明と同様であるので省略している。
第2図において、10は第1次識別部、11は
フレキシブル誤差検出部11a、和回路11b、
第1変形登録特徴メモリ11c、第2変形登録特
徴メモリ11d、からなる変形登録特徴作成部、
12は変形登録特徴差分検出部12a、絶対値回
路12b、しきい値回路12c、第1重みづけ登
録特徴メモリ12d、第2重みづけ登録特徴メモ
リ12e、からなる重みづけ登録特徴作成部、1
3は第2次識別部である。
第2図において示す第1次識別部10は第1図
に示した識別部8と同じ回路であり、第1次識別
部10までの動作は従来例と全く同様である。す
なわち、第1次識別部10(第1図の識別部8と
同様)で入力語句の特徴R(i、f)と各登録語
句の登録特徴Tn(i、f)とを比較識別して両
者間の非類似度Dnを求め、最小の非類似度Dnを
示す登録特徴が識別結果であるかどうかの判定を
行う。
非類似度の最小値DM1が識別しきい値TH3より
も小さく、2番目に小さい非類似度DM2との差
(DM2−DM1)が分離しきい値TH4よりも大きい
ときに非類似度が最小となる登録特徴に対応した
登録番号M1に対応する登録語句を識別結果とす
る。
非類似度Dnがどの登録語句に対しても前もつ
て定めたリジエクトしきい値TH5より大きい場合
には、リジエクトと判定される。入力語句がただ
1つの登録語をその認識結果として判定されず、
且つ又リジエクトもされない場合、非類似度の最
小値DM1、及び非類似度の2番目に小さい値DM2
をそれぞれ与える登録番号M1,M2に対応する登
録語句をそれぞれ識別候補とし変形登録特徴作成
部11のフレキシブル誤差検出部11aに対して
出力する。フレキシブル誤差検出部11aでは第
1の識別候補M1に対する登録特徴TM(i、f)
と入力語句の特徴R(i、f)とを比較し、時間
軸(i)上及び周波数軸(f)上の各サンプル点
(i、f)での誤差 EM1(i、f)=TM1(i、f)−R(i、f) を算出し、前記誤差EM1(i、f)のとる値をあ
る一定の誤差しきい値αと比較してその結果によ
り、フレキシブル誤差EMF1を次の様に定義す
る。
(イ) −αEM1(i、f)αのとき EMF1(i、f)=0 (ロ) EM1(i、f)>αのとき EMF1(i、f)=TM1(i、f)−R(i、
f)−α (ハ) EM1(i、f)<−αのとき EMF1(i、f)=TM1(i、f)−R(i、
f)+α 第3図は入力語句の特徴R(i、f)と登録番
号M1の登録特徴TM1(i、f)との間の各サン
プル点での誤差 EM1(i、f)=〔TM1(i、f)−R(i、f)〕 とフレキシブル誤差EMF1(i、f)との関係を
示したフレキシブル誤差検出特性である。フレキ
シブル誤差検出部で算出されたフレキシブル誤差
MF1(i、f)は和回路11bに入力され、こ
の和回路で入力語句の特徴R(i、f)を読み込
み、前記フレキシブル誤差EMF1(i、f)との
和をとり、第1の変形登録特徴VM1(i、f)=
MF1(i、f)+R(i、f)を算出する。この
変形登録特徴VM1(i、f)は入力語句の特徴R
(i、f)と登録特徴TM1(i、f)との誤差EM
(i、f)が+αから−αの範囲であれば入力
語句の特徴R(i、f)をそのまま用い、前記誤
差EM1(i、f)が+αより大きいか、もしくは
−αより小さい時には登録語句の登録特徴TM1
(i、f)をαだけ入力語句の特徴R(i、f)
に近づけることを意味するものである。この第1
の識別候補M1に対する第1変形登録特徴VM1
(i、f)は各サンプル点毎に算出され、順次第
1変形登録特徴メモリ11cに械納される。
あらかじめ定められた全音声区間内の全サンプ
ル点について、第1の変形登録特徴VM1(i、
f)を求め、且つ第1変形登録特徴メモリ11c
への格納も終了したら、次に第2の識別候補M2
についても同様に変形登録特徴作成部11のフレ
キシブル誤差検出部11aで第2の識別候補M2
に対する登録特徴TM2(i、f)と入力語句の特
徴R(i、f)とを比較し、各サンプル点での誤
差 EM2(i、f)=TM2(i、f)−R(i、f) を算出し、この誤差EM2(i、f)を誤差しきい
値αと比較してフレキシブル誤差EMF2(i、
f)を求める。このフレキシブル誤差EMF2
(i、f)は変形登録特徴作成部11の和回路1
1cに入力され、この和回路で入力語句R(i、
f)とフレキシブル誤差EMF1(i、f)の和を
とり、第2の変形登録特徴 VM2(i、f)=EMF2(i、f)+R(i、f) を算出する。この第2の識別候補M2に対する第
2の変形登録特徴VM2(i、f)は各サンプル点
毎に算出され、順次第2変形登録特徴メモリ11
dに格納される。
あらかじめ定められた全音声区間内の全サンプ
ル点について、第2の変形登録特徴VM2(i、
f)を算出し終り、第2変形登録特徴メモリ11
dへの格納も終了すると同時に重みづけ登録特徴
作成部12での処理を開始する。
まず、変形登録特徴差分検出部12aにおい
て、第1変形登録特徴メモリ11cに格納された
第1の変形登録特徴VM1(i、f)と第2変形登
録特徴メモリ11dに格納された第2の変形登録
特徴VM2(i、f)とを入力として時間軸(i)
上及び周波数軸(f)上の各サンプル点における
両者間の変形登録特徴差分 EV(i、f)=VM1(i、f)−VM2(i、
f) を算出する。
絶対値回路12bで、この算出された変形登録
特徴差分EV(i、f)の絶対値|EV(i、f)
|をとり、しきい値回路12cではあらかじめ定
められた重みづけ用しきい値βと、変形登録特徴
差分の絶対値|EV(i、f)|とを比較して (イ) |EV(i、f)|<βであれば 重みW
=0 (ロ) EV(i、f)≧βであれば 重みW=1 とそれぞれ重みづけを行う。
この重みづけの結果、あるサンプル点の重みW
=0であればその値0を第1の識別候補M1、第
2の識別候補M2のそれぞれに対応する。第1重
みづけ登録特徴メモリ12d、第2重みづけ登録
特徴メモリ12eのそのサンプル点対応のアドレ
スに書きこむ。
重みW=1であれば第1重みづけ登録特徴メモ
リ12dのそのサンプル点対応のアドレスには変
形登録特徴メモリ11cの同一サンプル点対応の
アドレスの内容がそのまま書きこまれ、同様に第
2重みづけ登録特徴メモリ12eの同一サンプル
点対応のアドレスにも第2変形登録特徴メモリ1
1dの内容がそのまま書きこまれる。
すなわち、時間軸(i)上及び周波数軸(f)
上の各サンプル点における第1の重みづけ登録特
徴をVTM1(i、f)、第2の重みづけ登録特徴を
VTM2(i、f)とすれば VTM1(i、f)=W・VM1(i、f) VTM2(i、f)=W・VM2(i、f) と表現される。
第1の識別候補M1の登録特徴TM1(i、f)
及び第2の識別候補M2の登録特徴TM2(i、
f)における全サンプル点における重みづけが完
了すると、第2次識別部13において、ただ1つ
の識別語句の判定処理が開始する。
第2次識別部では、入力語句の特徴R(i、
f)と各重みづけ登録特徴VTM1(i、f)、
VTM2(i、f)との非類似度の算出を行うが、
この際第1重みづけ登録特徴メモリ12d及び第
2重みづけ登録特徴メモリ12eに格納された第
1重みづけ登録特徴VTM1(i、f)及び第2重
みづけ登録特徴VTM2(i、f)が両者共0を示
すサンプル点については入力語句の特徴R(i、
f)は非類似度の算出に用いず、両者のうち、少
くともどちらか一方が0でないサンプル点におい
て、入力語句の特徴R(i、f)と各重みづけ登
録特徴VTM1(i、f)、VTM2(i、f)との非
類似度を算出する。
すなわち、VTM1(i、f)、VTM2(i、f)
の少くともどちらか一方がOでないサンプル点に
おいて第1の重みづけ登録特徴誤差EVTM1及び第
2の重みづけ登録特徴誤差を次の様にして算出す
る。
VTM1(i、f)=VTM1(i、f)−R(i、
f) EVTM2(i、f)=VTM2(i、f)−R(i、
f) このようにして算出される各重みづけ登録特徴
誤差EVTM1(i、f)、EVTM2(i、f)を加算
して、入力語句の特徴R(i、f)と各重みづけ
登録特徴VTM1(i、f)、VTM2(i、f)との
間の非類似度DFVTM1、DFVTM2を次の如く算出す
る。
このようにして算出された非類似度DFVTM1
DFVTM2を比較してDFVTM1<DFVTM2であれば入力
語句は登録語句M1と識別され、逆にDFVTM1
DFVTM2であれば入力語句は登録語句M2と識別さ
れる。
第1の実施例では識別候補が2つの場合に対し
説明したが、識別候補が3つ以上あつても同様に
2つずつの組合せで考えることによつて対処でき
る。例えば識別候補としてM1,M2,M3の3個が
ある場合にまず識別候補M1とM2の各登録特徴TM
(i、f)、TM2(i、f)の変形登録特徴VM1
(i、f)、VM2(i、f)を求め、更に重みづけ
した重みづけ変形登録特徴VTM1(i、f)、
VTM2(i、f)を求めてVTM1(i、f)、VTM2
(i、f)と入力語句の特徴R(i、f)との非
類似度を算出し、非類似度の小さい識別候補を求
める。例えば、これがM1であるとすれば、この
M1ともう1つ残つた識別候補M3の各登録特徴TM
(i、f)、TM3(i、f)の変形登録特徴VM1
(i、f)、VM3(i、f)を求め、更に重みづけ
した重みづけ変形登録特徴VTM1(i、f)、
VTM3(i、f)を求めて、VTM1(i、f)、
VTM3(i、f)と入力語句の特徴R(i、f)
との非類似度を算出し、非類似度が小さい方の識
別候補を最終的に識別結果とする。
以上説明したように、本発明によれば、入力語
句に対して複数の識別候補がある場合、フレキシ
ブル誤差を用いて識別を行うので同一語句をくり
返し入力した場合、又は入力話者が変つた場合に
音声信号の入力振幅に変動があつても、その変動
を吸収することができ、また、このフレキシブル
誤差により、識別候補の登録特徴を変形した変形
登録特徴間の差分によつて重みづけした重みづけ
登録特徴を使つて、第2次の識別を行つているの
で、精度のよい識別が可能である。
本発明は音声信号の振幅方向での正規化を図る
ことにより、入力音声の振幅変動を吸収すること
ができ、識別精度のよい音声認識装置に利用でき
る。
【図面の簡単な説明】
第1図は従来の音声認識装置、第2図は本発明
の一実施例のブロツク図、第3図はフレキシブル
誤差検出特性である。 1……マイクロフオン、2……フイルタ分析
部、3……パワ検出部、4……サンプルデータ格
納メモリ、5……音声区間切り出し部、6……特
徴抽出部、7……音声特徴登録メモリ、8……識
別部、10……第1次識別部、11……変形登録
特徴作成部、11a……フレキシブル誤差検出
部、11b……和回路、11c……第1変形登録
特徴メモリ、11d……第2変形登録特徴メモ
リ、12……重みづけ登録特徴作成部、12a…
…変形登録特徴差分検出部、12b……絶対値回
路、12c……しきい値回路、12d……第1重
みづけ登録特徴メモリ、12e……第2重みづけ
登録特徴メモリ、13……第2次識別部。

Claims (1)

    【特許請求の範囲】
  1. 1 入力語句の識別対象候補としての少数の登録
    語句を選択し得る第1識別部と、選択された登録
    語句の特徴と入力語句の特徴との振幅に関する各
    誤差を検出し、当該誤差の絶対値がある一定値α
    以下であれば、登録語句の特徴を入力語句の特徴
    で置換する変形を行い且つαより大きければ登録
    語句の特徴を前記一定値αだけ入力語句の特徴に
    近づける変形を行う変形登録特徴作成部と、当該
    変形登録特徴作成部で得られた2つの登録語句に
    関する変形特徴間の各差分を検出し、当該差分の
    絶対値が一定値β以下であるか否かに応じて異な
    つた重みをつける重みづけ登録特徴作成部と、重
    みづけ後の登録語句と入力語句との非類似度を測
    定して入力語句を識別する第2識別部とを備えて
    いることを特徴とした音声認識装置。
JP6271380A 1980-05-14 1980-05-14 Voice recognizing device Granted JPS56159695A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6271380A JPS56159695A (en) 1980-05-14 1980-05-14 Voice recognizing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6271380A JPS56159695A (en) 1980-05-14 1980-05-14 Voice recognizing device

Publications (2)

Publication Number Publication Date
JPS56159695A JPS56159695A (en) 1981-12-09
JPS6217760B2 true JPS6217760B2 (ja) 1987-04-20

Family

ID=13208239

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6271380A Granted JPS56159695A (en) 1980-05-14 1980-05-14 Voice recognizing device

Country Status (1)

Country Link
JP (1) JPS56159695A (ja)

Also Published As

Publication number Publication date
JPS56159695A (en) 1981-12-09

Similar Documents

Publication Publication Date Title
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
US4956865A (en) Speech recognition
US5732394A (en) Method and apparatus for word speech recognition by pattern matching
US5097509A (en) Rejection method for speech recognition
US4665548A (en) Speech analysis syllabic segmenter
JP2808906B2 (ja) 音声認識装置
US4513436A (en) Speech recognition system
JP3004023B2 (ja) 音声認識装置
JPH0222960B2 (ja)
WO1983002190A1 (en) A system and method for recognizing speech
EP0192898A1 (en) Speech recognition
JPS6217760B2 (ja)
AU612737B2 (en) A phoneme recognition system
JPH05173592A (ja) 音声/非音声判別方法および判別装置
JP2921059B2 (ja) 連続音声認識装置
JPS6131880B2 (ja)
JP2658104B2 (ja) 音声認識装置
JP3032215B2 (ja) 有音検出装置及びその方法
JPS59224900A (ja) 音声認識方法
JPH0316040B2 (ja)
JPH01185599A (ja) 音声認識装置
CN114974233A (zh) 一种语音识别方法、装置、设备及存储介质
JP3033132B2 (ja) 言語処理装置
JPS62111295A (ja) 音声認識装置
JPS6310440B2 (ja)