JPS62201498A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPS62201498A
JPS62201498A JP61043813A JP4381386A JPS62201498A JP S62201498 A JPS62201498 A JP S62201498A JP 61043813 A JP61043813 A JP 61043813A JP 4381386 A JP4381386 A JP 4381386A JP S62201498 A JPS62201498 A JP S62201498A
Authority
JP
Japan
Prior art keywords
category
feature
similarity
value
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61043813A
Other languages
English (en)
Other versions
JPH0679233B2 (ja
Inventor
陽一 山田
高橋 圭子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP61043813A priority Critical patent/JPH0679233B2/ja
Publication of JPS62201498A publication Critical patent/JPS62201498A/ja
Publication of JPH0679233B2 publication Critical patent/JPH0679233B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は訝声認識装置における特徴辞書を使用したざ
・声認識方法に関するものである。
(従来の技術) 入力した音声パタンに対して予め定められた種類の特徴
について抽出された特徴量を抽出し認識処理をする方法
の一例としてバイナリ−・ディジシミ1ン−トウリー(
Binary Decision Tree)による方
法(例えば、文献「日本音習字会音声研究会資料J 5
05〜55 (December 19. +985)
)がある。この方法は、ある1つの特重量の分布によっ
て求められた1つのもしくは2つの閾値を用いて認識対
象カテゴリ毎の特徴量が閾値を越えているか否か、もし
くは2つの閾値の範囲にあるか否か等の判断により、認
識対象カテゴリを二分する処理を基本としている。そし
て、1つの特徴量について処理が終ですると、次に、別
の特徴量を用いて二分化処理を繰り返し、最終的に認識
結果を得るものである。
(発明が解決しようとする問題点) しかしながら、抽出する特徴量の中には、入力音声のあ
る一部分に着目して抽出する特徴がかなり含まれるのが
一般的である。そのような場合には、話者によるばらつ
きはもちろんのこと、同一話者が発声する場合において
も発声タイミングのずれ等により特徴の抽出結果が必ず
しも一定しない。
従って、従来性われているBinary Decisi
onTreeによる認識方法において、上述したような
不安定な特徴■に対してディジタル的に二分判定処理を
行った場合、判定を誤る可能性が生じる。すなわち、B
inary Decision Tree法では、数あ
る判定分岐点における判定処理が正確に判定された場合
のみ、認識結果が正解となるが、いずれか1ケ所の判定
分岐点における判定処理を誤ってしまえば正しい認識結
果が得られないという問題点があった。
又、この従来の認識方法は、pめ定められた閾値との大
小比較(大きいか、小さいかというディジタル的な処理
)を基本とするので、認識対象カテゴリが本来有する特
徴抽出量の安定性(例えば、分散など)等のアナログ量
的な要素が認識処理に反映されないという問題点もあっ
た。
いずれにしても、抽出した特徴量を使用して認識処理を
行う方法としては不ヒ分な面があり、斤声認識装置の認
識性能低下を招いていた。
この発明は、上述した従来の問題点を除去するために成
されたものである。
従って、この発明の目的は入力音声パタンの特徴量を抽
出し、特徴辞書を用いて、高性能な音声認識処理を行う
ことが出来る音声認識方法を提供することにある。
(問題点を解決するための手段) この発明は、上述した従来の問題点を解決するために、
認識処理に使用する特徴1つについて、認識対象カテゴ
リ毎に、このカテゴリがこの特徴に対して本来有する特
徴量の分布状R(ある閾値より小となる、ある閾値より
大となる、あるいは、ある閾値より大かつ別の閾値より
小)及びこの分布状態を区分する閾値を予め設定し、さ
らに、カテゴリ類似度の算出のため、入力音声の特徴量
が、これら閾値により定められた範囲に位置する場合の
加算基準値及び加算値増加量又その範囲に位置しない場
合の減算基準値及び減算値増加■を、このカテゴリにお
けるこの特徴の分布の安定性等によりpめ設定して格納
した特徴辞書を用いる。
先ず、人力音声パタンに対して認識処理に使用する全て
の特徴についての特徴量を算出する。
次に、ある1つの特徴について認識対象カテゴリ毎に丘
述した特徴辞書を検索して、カテゴリ毎にカテゴリ類似
度を算出する操作を全ての特徴に対して行う。
その後、認識対象カテゴリ毎に全ての特徴に対する類似
度の総和を、当該カテゴリに対するカテゴリ加算類似度
すなわち特徴類似度として、算出する。
然る後、認識対象カテゴリ全ての中でこの特徴類似度が
最大となるカテゴリを認識カテゴリとして出力させる。
(作用) このように構成すれば、認識対象となるそれぞれのカテ
ゴリが認識処理に使用する特徴毎にそれぞれ本来有する
分4+状態に応じてrめ定められた、カテゴリ類似度算
出のための加算基準値、加算値増加量、減算基準値及び
減算値増加量を格納して打する特徴辞書を用いて、全て
の特徴の1つずつについてカテゴリ毎にカテゴリ類似度
を算出し、これら特徴の全てのカテゴリ類似度の総和を
特徴類似度として求め、この特徴類似度が最大となるカ
テゴリを認識カテゴリとして出力するので、一部の特徴
抽出結果のばらつきの影雷を受けることなく音声認識性
能が高い。
(実施例) 以下、図面を参照にして、この発明の実施例につき説明
する。
第1図はこの発明の音声認識方法の実施例の説明に供す
る、音声認識装置の要部を示すブロック図、第2図は処
理手順を示す流れ図である。
1色量Aヵ月 先ず、この発明の詳細な説明をする。
先ず、適当に音声分析処理を行って得られた音声信号1
を音声区間検出部2へ供給する。この音声区間検出部2
は音声信号1の信号レベル等を参照しながら音声区間を
決定する音声始端時刻及び音声終端時刻をそれぞれ検出
し、得られた音声区間(音声始端時刻より音声終端時刻
まで)を音声区間計声信号4として音声信号記憶部5へ
出力する(51:Sはステップを表わす)とともに、音
声区間検出終了後、音声区間検出終γ信号3を類似度記
憶部23及び特徴番号カウンタ8へ出力する。
この音声区間検出終了信号3の人力によって類似度記憶
部23の読み出し値であるところのカテゴリ加算類似度
22の値は全てOとなり(S2)、これと同時に特徴番
号カウンタ8及びカテゴリ番号カウンタ18のカウント
値をそれぞれ表わす特徴番号18号9及びカテゴリ番号
信号19も同様にOとなる(S3)。特徴flt抽出部
7は、音声信号記憶部5より音声区間音声記憶信号6を
受は取ると共に、特徴番号カウンタ8から特徴番号を表
わす特徴番号信号9を受は取って、この音声区間音声記
憶信号6からこの特徴番号に対応する特徴量の抽出を行
う(S4)。得られた特徴■(特徴値)を表わす特徴値
信号14をカテゴリ類似度計算部I5へ出力すると共に
、特微量抽出終γ信号13を特徴番号カウンタ8及びカ
テゴリ番号カウンタ18へそれぞれ出力する。カテゴリ
番号カウンタ18のカウント値は、特徴m抽出路子信号
13の人力により0となる(S5)。
この特徴番号カウンタ8の特徴番号信号9及びカテゴリ
番号カウンタ18のカテゴリ番号信号19を辞書アドレ
ス計算部11へ送り、ここでこれら特徴番号及びカテゴ
リ番号に該当する辞書が格納されているアドレスすなわ
ち特徴辞書アドレスを算出し、このアドレスを表わす特
徴辞書アドレス信号11を出力して次段の特徴辞書記憶
部12へ供給する。
この特徴辞書記憶部12は特徴辞書アドレス信号11に
よって指定されたアドレスに格納されている特徴辞書(
その詳細な内容については後述する)を読み出して、こ
の特徴辞書の内容を含んだ特徴辞書信号26をカテゴリ
類似度計算部15へ出力する(S6)。
このカテゴリ類似度計算部15はこの特徴辞書信号26
及び前述した特徴値信′+14とを受は取って、カテゴ
リ類似度を計算しくS7)、その結果を表わすカテゴリ
類似度i=号16を類似度加算部20へ出力する。
又、類似度加算部20には、カテゴリ番号カウンタ18
からカテゴリ番号信号19が供給されて、類似度記憶部
23から供給されるカテゴリ加算類似度信号22のうち
カテゴリ番号信号19によって指示されるアドレスに格
納されているカテゴリ加算類似度を取り込む。そして、
この類似度加算部20ではステップS7での処理により
計算されて供給されたカテゴリ類似度と、このカテゴリ
加算類似度とを加算し、その結果を類似度記憶部23の
該当するアドレスへ加算結果として格納する(S8)。
尚、この加算結果を表わす加算結果信号を21で示ず。
このカテゴリ類似度計算部I5は、カテゴリ類似度の計
算終了後、カテゴリ類似度計算終了信号17を発生し、
この信号17をカテゴリ番号カウンタ18へ出力する。
カテゴリ番号カウンタ18はこの計算終了信号17を受
は取ると、カウンタ値を+またけ進め、よってカテゴリ
番号は+1加算される(S9)、このカテゴリ類似度計
算部15での処理はカテゴリ番号の値が認識対象となっ
ている全てのカテゴリについて完了するまで行う(56
〜510)。
特徴番号カウンタ8のカウント値である特徴番号は特徴
量抽出終了信号13が人力した後、+1加算される(S
11)。
この特徴量抽出処理(S4)から、特徴番号に+1加算
する処理(511)までのステップを、特徴番号の値が
認識処理に使用する特徴数に達するまで特徴量てについ
て行う(54〜512)。
ステップS4からステップS12までの処理が終了した
時点において、類似度記憶部23にはカテゴリごとに類
似度の累積値であるところのカテゴリ加算類似度が格納
される。このカテゴリ加算類似度は認識対象となるカテ
ゴリ毎に抽出され複数の特徴量に対しそれぞれ算出され
た類似度をカテゴリ毎に総和を取って得られたものであ
る。
認識対象カテゴリ数をN、使用特徴数を閣、カテゴリ、
特徴毎に示されるカテゴリ類似度をP (i 、j)、
カテゴリ加算類似度をR(i)とすると、で与えられる
認識判定部24は、このようにして得られたカテゴリ加
算類似度が全ての認識対象カテゴリ中最大となるカテゴ
リ番号を算出しく513) 、その結果を認識カテゴリ
番号信号25として出力しく514)、よって認識処理
を終了する。
、1′j古、111びカテゴTL゛P′r−L第3図は
特徴毎及びカテゴリ毎に設定される特徴辞書の一例を示
す説明図であり、第4図はカテゴリ類似度算出処理(S
7)の流れ図である。
第3図及び第4図を参照してカテゴリ類似度算出方法を
詳細に説明する。
第3図に示す特徴辞書は、例えば、特徴がカテゴリに対
し有効か無効かを指示する価値判断値VALと、精微量
分布状態を表わす値Disと、分イσ範囲より設定され
る閾値としての例えば特徴量下限値LIMS及び特徴量
上限値LIMLとをそれぞれ格納していると共に、さら
に分布の安定性を考慮してそれぞれ定められた、カテゴ
リ類似度算出のための加算基準値へDD 、 g算基準
値SOB 、加算値増加ff1MULA及び減算値増加
fi MULSをそれぞれ格納している。これら6値は
各カテゴリの各特徴毎に経験的にかつ個別的に予め定め
られていて、従って少なくとも(特徴値)×(カテゴリ
数)の個数だけ特徴辞書に設定されている。
第3図に示す内容が格納されている特徴辞書を既に説明
したように読み出して特徴辞書信号26をカテゴリ類似
度計算部15へ入力させる(521)。
この計算部15において、先ず、VALの値が1か0か
(この特徴が、このカテゴリに対して有効か無効か)の
判定を行い(522) 、判定の結果、VAL = 1
である時は、この特徴及びこのカテゴリについてのカテ
ゴリ類似度計算を行う(823〜532)。或は又、そ
の判定結果がVAL=0である時は、この特、徴は、こ
のカテゴリに対して特徴値が一定の範囲に入らない、す
なわち認識処理における判定の尺度として用いないもの
としてカテゴリ類似度計算は行わない(S33)。
次に、VAL = 1である時の処理手順を以下に説明
する。
DISは既に説明したように特徴の分布状態を示すもの
であり、この実施例において分布状態の判定は次の3種
類を例とする(S2:])。
DIS=0:特徴値は上限値と下限値の間に分1fiす
る。
Dis = 1 :特徴値は下限値以上の範囲に分布す
る。
DIS = 2 :特徴値は上限値以下の範囲に分布す
る。
ここで、DIS=O11及び2における上限値及び下限
値はそれぞれ分布状態に応じて経験的に個別に定められ
た値であって、一般には互いに異なる値となっているか
、同一となっている場合もある。
[1] Dis = Oである場合 上限値をLIML、下限値をLIMS及び抽出した特徴
量をFDVとする時、 LIMS≦FDV≦LIML を満たすか否かの判定を行う(S25)。
この条件を満たす場合には加算基準植入DDをカテゴリ
類似度とする。
満たさない場合には ■FDV< LIMSである時は、下限値からのずれの
大きさくLTMS −FDV) ニ減算値増加fi M
ULSを乗じ、得られた値に減算基準値Sunを加え、
この和の値に−1を乗じた値、すなわち −(SOB +MULS・(LIMS −FDV))を
カテゴリ類似度とする。
■次に、FDV> LIMLである時は、上限値からの
ずれの大きさくFDV−LIML) 1.:減算値増加
量MULSを乗じ、得られた値に減算基準値5LIBを
加え、この和の値に−1を乗じた値、すなわち −(SOB +MULS−(FDV−LIML) )を
カテゴリ類似度とする(526)。
[21さらに、ots = tである時下限値をLIM
S及び抽出した特徴量をFDVとする時、FDV≧LI
MSを満たすか否かの判定を行い(S27) 、この条
件を満たす場合には下限値からのずれの大きさくFDV
−IJMs)に加算値増加量M叶Δを乗じ、得られた値
に加算基準植入−DDを加えた値、すなわち ADD  +  (FDV−LIMS)   ・ MU
LAをカテゴリ類似度としく528) 、満たさない場
合には、下限値からのずれの大きさくLIMS −FD
V)に減算値増加量M 11 L Sを乗じ、得られた
値に減算基準値SOBを加え5この加算した値に−1を
乗じた値、すなわち −(SOB + (LIMS −FDV)  −MUL
S )をカテゴリ類似度とする(S29)。
[3] Dis = 2である場合 上限値をLIML及び抽出した特徴量をFDVとする時
FDV≦LIMLを満たすか否かの判定を行い(530
) 、この条件を満たす場合には上限からのずレノ大き
さくLIML −FDV) ニ加算値増加filAIJ
LAを乗じ、得られた値に加算基準値ADDを加えた値
、すなわち ADIll +(LIML  −FDV)  拳  M
ULAをカテゴリ類似度としく531) 、満たさない
場合には上限からのずれの大きさに減算値増加量MUL
Sを乗じ、得られた値に減算基準値SOBを加え、この
方■算した便に−1を乗じた値、すなわち−(SUB 
+(FDV−LINL) ・MULSJをカテゴリ類似
度とする(S32)。
以上の如く各条件に対応した処理をステップS22〜S
33に従って行った後、カテゴリ類似度として出力する
(S34 )。
尚、ADD 、 SUB 、 MULA、  MULS
の6値については特徴値の分布が安定(例えば、分散が
小)であれば相対的に大きい値、特徴値の分布が不安定
(例えば、分散が大)であれば相対的に小さい値に設定
するのが有効である。
又、上述した第2図及び第4図で説明した各処理ステッ
プを中央処理装置(cPU)で行うことが出来る。
又、上述した実施例は単なる一好適例であって、この発
明はこの実施例にのみ限定されるものではない。
(発明の効果) 上述した説明から明らかなようにこの発明では、特徴量
抽出結果の部分的なばらつきを吸収でき、さらに特徴量
分布の安定性等を十分に考慮した特徴辞書を用いた音声
認識方法であるので、従来よりも音声認識性能が高い。
【図面の簡単な説明】
第1図はこの発明の音声認識方法の実施例を説明するた
めのブqツク図・ 第2図はこの発明の音声認識方法の処理手順を示す動作
の流れ図、 第3図はこの発明に用いる特徴辞書の一実施例を示す図
、 第4図はカテゴリ類似度算出手順を示1−流れ図である
。 2・・・音声区間検出部、  5・・・音声信号記憶部
7・・・特微量抽出部、   8・・・特徴番号カウン
タ10・・・辞書アドレス計算部 12・・・特徴辞書記憶部 15・・・カテゴリ類似度計算部 18・・・カテゴリ番号カウンタ 20−・・類似度加算部、  23・・・類似度記憶部
24・・・認識判定部。 特許出願人    沖電気工業株式会社DL5   特
号歌量≠収麩 LI ト15    午奇塊11下ア艮うILI トク
L  +%すり友、」11よニア艮づ、HADD  j
1rJ’X’i&p11 SL/B   : 滅xi 準イJ+ Ml、ILA  、  alL(JLjfynt呂υL
5:  A″’)i 4L4pryj杓」斂#寥の一4
列の官見明困 第3図

Claims (1)

    【特許請求の範囲】
  1. (1)入力した音声パタンに対して予め定められた種類
    の特徴量を抽出し、抽出した特徴量から認識カテゴリを
    決定する音声認識方法において、(a)各特徴について
    認識対象カテゴリ毎に、特徴量の分布状態と、特徴量の
    分布範囲に適合させて設定される閾値と、分布の安定性
    に適応させてそれぞれ設定されかつカテゴリ類似度の算
    出に使用される加算基準値、加算増加量、減算基準値及
    び減算増加量とが予め格納されている特徴辞書を具え、 (b)入力音声パタンに対して、ある1つの特徴に対し
    て特徴量を抽出し、抽出された特徴量より、前記特徴辞
    書を用いて、該特徴が有する認識対象カテゴリ毎に該特
    徴に対するカテゴリ類似度を算出し、 (c)該カテゴリ類似度の算出を認識処理に使用する全
    ての特徴に対して行い、 (d)その後、ある1つの該認識対象カテゴリの全ての
    特徴に対するカテゴリ類似度の総和を該認識対象カテゴ
    リに対するカテゴリ加算類似度として算出し、 (e)該カテゴリ加算類似度の算出を全ての認識対象カ
    テゴリについて行い、 (f)その後、全ての認識対象カテゴリの中でカテゴリ
    加算類似度が最大となるカテゴリを認識カテゴリと決定
    して出力する ことを特徴とする音声認識方法。
JP61043813A 1986-02-28 1986-02-28 音声認識方法 Expired - Lifetime JPH0679233B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61043813A JPH0679233B2 (ja) 1986-02-28 1986-02-28 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61043813A JPH0679233B2 (ja) 1986-02-28 1986-02-28 音声認識方法

Publications (2)

Publication Number Publication Date
JPS62201498A true JPS62201498A (ja) 1987-09-05
JPH0679233B2 JPH0679233B2 (ja) 1994-10-05

Family

ID=12674179

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61043813A Expired - Lifetime JPH0679233B2 (ja) 1986-02-28 1986-02-28 音声認識方法

Country Status (1)

Country Link
JP (1) JPH0679233B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013005248A1 (ja) * 2011-07-05 2013-01-10 三菱電機株式会社 音声認識装置およびナビゲーション装置
JPWO2013005248A1 (ja) * 2011-07-05 2015-02-23 三菱電機株式会社 音声認識装置およびナビゲーション装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013005248A1 (ja) * 2011-07-05 2013-01-10 三菱電機株式会社 音声認識装置およびナビゲーション装置
JPWO2013005248A1 (ja) * 2011-07-05 2015-02-23 三菱電機株式会社 音声認識装置およびナビゲーション装置

Also Published As

Publication number Publication date
JPH0679233B2 (ja) 1994-10-05

Similar Documents

Publication Publication Date Title
EP0319140B1 (en) Speech recognition
US6185531B1 (en) Topic indexing method
JP4737990B2 (ja) 語彙強勢予測
US5195167A (en) Apparatus and method of grouping utterances of a phoneme into context-dependent categories based on sound-similarity for automatic speech recognition
US6208971B1 (en) Method and apparatus for command recognition using data-driven semantic inference
EP0109190A1 (en) Monosyllable recognition apparatus
GB2033637A (en) Method of verifying a speaker
WO2004049240A1 (en) Method and device for determining and outputting the similarity between two data strings
Arai et al. Grammar fragment acquisition using syntactic and semantic clustering
US5136654A (en) Vocabulary partitioned speech recognition apparatus
CN114141235A (zh) 语音语料库生成方法、装置、计算机设备和存储介质
KR20190108472A (ko) 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템
JPS62201498A (ja) 音声認識方法
JPH0555039B2 (ja)
CN102819524A (zh) 基于关键字的字符序列分割方法及装置
CN110688472A (zh) 一种自动筛选问题答案的方法、终端设备及存储介质
JPH024033B2 (ja)
JPS61148497A (ja) 標準パタン作成装置
JPH0713598A (ja) 特定タスク音声データベース生成装置
JPS62134698A (ja) 多数単語の音声入力方式
JP2005265874A (ja) 素片接続型音声合成装置
JPS60583A (ja) 単語認識方式
CN110851520A (zh) 数据加载方法及系统
CN114691921A (zh) 一种检索方法、装置、计算机可读存储介质及终端设备
CN114842461A (zh) 一种视频播放量预测方法

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term