JPS61105600A - 連続音声認識装置 - Google Patents

連続音声認識装置

Info

Publication number
JPS61105600A
JPS61105600A JP59227089A JP22708984A JPS61105600A JP S61105600 A JPS61105600 A JP S61105600A JP 59227089 A JP59227089 A JP 59227089A JP 22708984 A JP22708984 A JP 22708984A JP S61105600 A JPS61105600 A JP S61105600A
Authority
JP
Japan
Prior art keywords
matching
pattern
frame
candidates
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59227089A
Other languages
English (en)
Inventor
桜庭 孝宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP59227089A priority Critical patent/JPS61105600A/ja
Publication of JPS61105600A publication Critical patent/JPS61105600A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は音声特徴抽出部から得られた大刀パターンと標
準パターンとを照合するとき、連続動的計測法照合距離
を所定値で限定して候補を少なくし、認識に要する時間
を短くした連続音声認識装置に関する。
し従来の技術] 複数の音声が連続的に発声されたとき、それを―識する
研究が進んでいる。第1方式は、連続単語であっても単
語境界における音声パワーの落込みがあるため、それを
検出し、単語を個別に区分する。(区分操作をセグメン
テーションという)。
区分された単語毎に標準パターンと照合して認識する。
第2方式は動的計画法(ダイナミックプログラミング法
、以下本明細書において動的計画法をDPと略記する)
による照合を使用することであり、連続単語について区
間を全部の組について取り出して標準パターンと照合す
る。即ち第6図に示すように、マイクロホン1から取込
んだ音声を音声特徴抽出部2に入力し、特徴を抽出して
入力パターンバンファに格納する。このとき区間とは「
音声認識」という文字列を文字単位(実際には音声パタ
ーンの1フレ一ム単位)で表すと、音 声 認 織 音声 声認 認識 音声認 声認識 音声認識 のように、文字(実際には音声パターンの1フレーム)
を並べて得る総ての組合せを区間と云う。
そして標準パターン辞書部4に格納されている標準パタ
ーンとパターン照合部5において順次に総てを照合し、
文レベル動的計画法による照合部6において、最適な単
語の組合せを求め、認識結果とする。
このとき第7図に示すように標準パターンを縦軸、入力
パターンバッファからの成る入力パターンを横軸に取り
、パターン照合部5において始端から処理を開始する。
パターンの大きさくフレーム)が判っているから終端の
位置が定まっていて、始終端間距離(照合距離)が最小
のものを最適マンチングルートとし、それを正答として
導出する。
[発明が解決しようとする問題点] 第1方式は連続小諸についてセグメンテーションの操作
が極めて難しく、認識率を高く確保することが容易でな
い。
また第2方式は第1方式と比較し高認識率が得られるが
、演算量が格段に大きく、処理時間を長く要する欠点が
あった。更(連続動的計画法により候補を限定した上で
、区間別候補を求める方法による認識装置も、本発明者
が発明しているが、そのときは入力パターンと複数の標
準パターンとを、連続DP照合を行い、その結果与えら
れる入力パターンの各フレーム毎を終端とする標準パタ
ーン毎の照合距離から、各フレーム毎の終端候補を選択
している。このため入力パターンの全フレームに終端候
補が存在し、以降の単語始終端レヘルDPをそれら全部
の終端候補について行っているから、処理時間を長く要
する。
[問題点を解決するための手段] 前述の問題点を解決するため本発明の採用した手段は、
複数の単語を連続的に発声した音声を音声特徴抽出部に
おいて入力パターンに変換し、該パターンを複数の標準
パターンと照合し区間別候補を選択して、各区間の照合
距離が最小となるものを求め、認識結果を得る連続音声
認識装置において、入力パターンと標準パターンについ
て連続動的計画法による照合を実施する部と、 該照合部出力について所定値で標準パターンを限定する
部と、該限定部出力から入力パターンの各フレーム毎に
フレームを終端(又は始端)とする複数個の標準パター
ンを候補として選択する部と、該選択部出力について与
えられた各フレーム毎の候補を、始端(又は終端)方向
への動的計画法による照合を行う部と、 与えられた部分区間照合距離から各桁毎の距離の合計が
最小になるような組合せを求める部と、を具備し、該組
合せを求める部の出力から認識結果を得ることである。
[作用] 本発明では連続DP照合の結果から終端候補のフレーム
を限定しているので、効率良く認識のできる連続単語認
識装置が得られる。
[実施例コ 第1図は本発明の実施例を示すブロック構成図である。
第1図において1は音声認識装置に対し音声を入力する
マイクロホン、2は音声特徴抽出部、3は入力パターン
バッファ、4は標準パターン辞書部、11は認識結果処
理部、7は入力パターンと辞書パターンについて連続D
Pによる照合を実施する部、12は照合部7の出力につ
いて連続DP照合距離を求め、且つ所定値で標準パター
ンを限定する部、8は終端候補選択部で、前記限定する
部7の出力について入力パターンの各フレーム毎にフレ
ームを終端とする標準パターンを選択する部、9は逆時
間DP照合部で前記選択部8の出力について与えられた
出力を候補とし、始端方向へのDP照合法による照合を
行い、区間照合距離を求める部、10は部分区間候補選
択部、6は文レベルDP照合で与えられた部分区間照合
距離から各桁毎の距離の合計が最小になるような組合せ
を求める部を示す。
付に第1図の装置について動作を説明する。当初音声認
識装置の使用者は、マイクロホンlから連続単語の音声
を入力し、音声特徴抽出部2において照合用の音声パタ
ーンに変換し、入力パターン・バッファ3に格納する。
次に標準パターン辞書部4に格納しである複数の標準パ
ターンと、入力パターンバッファ3の読出し出力である
入力パターン情報とを、連続DP照合部7において照合
する。
このとき入力音声パターンAを次のように表す。
A = a (1)、  a (21,a (3)−a
 (ml−−−a  (1)ここでa (m)はフレー
ムmにおけるパラメータで周波数方向に例えば16個に
区分し、各区分におけるパワースペクトルの大きさく振
幅値)で示す。
■は入力パターンの終端フレームで且つAの語長を意味
する。
標準音声パターンは単語nをB (nlとしてN個のパ
ターンを次のように表す。
B(nL=b (Ln ) 、  b (2,n )−
−b (j、n :1−−−−−−b [J (n)、
  n ] b (j、  n)は単語nのフレームjにおけるパラ
メータで入力音声と同様に例えば16個に区分してパワ
ースペクトルの大きさを示す。
J (n)は単語nの出力フレームで且つB (nlの
語長を意味する。
このような入力パターンと標準パターンを横軸・縦軸に
取ったとき、連続DP照合法は第7図と異なり、第2図
のようになる。即ち入力パターンの任意のフレームを終
端とし且つ始端はフリーとなるDP照合を行う方法をい
う。
連続DP照合部7におけるパターンの照合により入力パ
ターンの中に存在する最適な対応区間が自動的に抽出さ
れて照合距離8が求められる。この結果により入力パタ
ーン中に標準パターンB (nlが存在しそうか、或い
は存在しそうな場合に入力パターンAのどのフレームを
出力とするか、が容易に求められる。その理由を以下に
説明する。
標準パターンBと入力パターンのベクトル間距離d  
(i、j)を求める。成るフレームB(jlとA (i
)について前記16個の対応するチャネル毎に絶対値の
差をとって、累積したものを求め、それをベクトル間の
距離d (i、j)という。また累積して行く距離をg
と表す。このとき対称型演算法を取ると、標準パターン
j=1のとき、 g (i、j)=d  (i、j) 入力パターンi=l、j>lのとき、 g (Lj ) =d  (1,j ) +g (1,
j  −1)若し、i>1のとき、 今人カバターンのフレームmを出力とするB (nlの
連続DP照合距離をDc (m、n )で表現する。D
C(m、n )はこのままでは、B (n)の個々の語
長J(n)によって、短いもの程値が小さくなる傾向が
出るため、J (n)を2倍した値で各DC(m、n 
)の値を割り時間正規化を行って、DR(m、n )を
求める。
DR(m、n ) =DC(m、n、) /2 J(n
)ここで2J(nlを用いるのは、正しくマツチングし
た場合は対応する入力パターン長はJ (nlに近い値
を取ると仮定しているからである。何等かの手法で連続
DP距離即ちDC(m、n )のフレームmに対する始
端L (m、n )が判明している場合には、DR(m
、n ) =DC(m、n ) / (J(n)+ (m −L 
(m、n ) +1))の演算を行っても良い。
このD R(m、n )について調べてみると、第2図
に示すように、標準パターンとうまく照合するような経
路(太線で示す)を通ったフレームでは、DC(m、n
 )の値が小さく、そうでないフレームでは大きい値を
とるため、この特性からその標準パターンの終端フレー
ムを他の標準パターンの距離DRとの比較無しに限定す
ることができる。そのため第3図に示すように距離DR
に成る閾値DRTHを設け、DRTHより小さければ、
そのフレームはその標準パターンの出力フレームと合致
している可能性が高いとする。そうでなければ終端フレ
ームと合致する可能性が低いとして以降の終端候補選択
の候補には含めないようにする。また更に限定するため
にDRTHを下廻った連続するフレーム内で最も値の小
さいフレームを1個選択することにより、終端候補を少
なくすることも可能である。
勿論余りに終端候補を限定すればそれだけ単語境界が限
定されるために、正しい単語境界が入らなかった場合に
誤認識を起こすことになる。この限定されたD R(m
、r+ )をDS (m、s )とし、DRTI(より
大きいものについては、最大値を設定して区別できるよ
うにする。
次に終端候補選択部8においてフレーム対応に候補を絞
り込む。そのためDS (m、n )をmフレーム毎に
C(IliIの終端候補を選択する。若しそのフレーム
に終端候補が0個以下しか無い場合には、全部を採用す
る。勿論候補が無い場合には、そのフレームには終端候
補がないものとする。以上により選択された終端候補の
単語n−t−NE(m、c )に設定する。終端候補が
無い場合は“O”を設定する。第4図は、第3図におい
てDRTf(以下となった場合を終端候補としたD S
 (JII、n )と、Cが2個の場合のNE (m、
c )の例を示す。即ちDS(m。
n)はn毎に異なった距離特性を示し、このN個の距離
パターンをm毎に値の小さいものから、最大C個選択し
て、NE (m、c )に設定する。なお第4図の斜線
の部分には候補が無いことを示している。
同様に第5図は、照合距離がDRTH以下の連続するフ
レーム内での最小値のフレーム1個を終端候補とした場
合のD S (m、n )とNE (m、c )との関
係を示す図である。この場合は第3図の場合に比べ、大
幅にN E (m、c )の候補が少なくなっている。
ただし入力パターンの終端候補フレームに限らず候補が
残るようにする必要がある。
次に逆時間DP照合部9において、前記標準パターンB
 (nlの始端を決定し、DP距離を演算する。
そのためN E (m+c )で示される終端候補を逆
時間方向にDPすることにより、始終端のDP距離を求
める。(この処理を逆時間DPマツチングと呼ぶ。)逆
時間DPでは通常のDPを単にパターンを時間方向で反
転し照合するもので、入力パターンAの部分区間ρ−m
のDP距離を求めることである。ここでDPの演算手法
として対称法を用いるものとする。
次に逆時間DP照合部9の出力DI(ρ、 m、c )
につき、部分区間候補選択部10において時間正規化す
る。即ち逆時間DPマ・7チングにより求めたDI’(
ρ、 m、c )を、部分パターン長m−ρ+1と標準
パターン長J (NE”(m、C))との和で割算し、
時間正規化したDIR(ρ、m、c)とする。
DIR(ρ、m、c) =D I  (I2.  m、  c)  /  (J
  (NE  (m、c )  )+  (rH−ρ+
1)) このD I R(I2. m、  c)をCについて最
小のものを選択してD(ρ、m)として、対応する標準
パターンnをNS (I2. m)に設定する。若し終
端候補が無い場合は、NS (I2. m)に“0”を
、D (I2. m)に最大値を設定しておく。
D(ρ、 m) = min [DIR(I2. m、
  c) ]NS (ρ、m) =NE [m、  a rg min (DIR(I2
. m、  c) ) ]このD D’、 m)とNS
 (12,m)によって、部分パターンρ−mの最適な
照合距離と照合相手が決定される。
それから部分区間候補選択部工0の出力につき文レベル
DP照合部6において組合せ(単語の結合)を求める。
ここで連続単語における単語を先頭から1桁目、2桁目
、−x桁目という表現で位置関係を表現する。
(イ)1桁目の設定 1桁目は入力パターンの始端フレームからフレ−ムmの
部分区間の距離をT(m、1)に設定する。   T 
(m、1)=D (1,m)その標準語をNT (m、
1)に設定する。
NT (m、1)=NS (1,m) その標準語の始端が何処であるかをLT (m、1)に
設定する。
LT (m、1)=1 ここで部分区間候補が存在しないD (1,m)につい
ては、処理を行わず、NT (m、  1)に“0”を
、T(m、L)に最大値を設定しておく。
(ロ)X桁目の設定 X桁目ではρの位置が未定のため次のDP漸化式で決定
する。
T (m、x ) = min [D (ρ、 m) 
 +T (、+2.  X−1)Jえ(閏 +T(ρ、x−1)) 、、m] T(J2.x−1)コ この場合もD(u、m)とmについて部分区間候補が存
在し無い場合は処理しないで、NT (m、x )に“
0′を、T (m、x )に最大値を、またLT (m
、x )には不定値で良いが“1”を設定しておく。
次に文レベルDP照合部10における照合結果T (m
、、X )から入力単語の桁数Xを求める。
X=a r g min [T (1,x) /x]ズ ■は入力パターン終端フレームである。
最後に認識結果処理部11において前記LT (m、x
 )とNT (m+χ)からX桁の認識結果を求める。
X桁の認識結果はN R(X)と、またN R(X)の
始端フレームをL (Xlとする。
(イ)X桁目の認識結果 NR(X)=NT (I、X) L (X)=LT (1,X) (ロ)X−X桁目の認識結果 NR(X−y)   =NT   [L   (X−y
+1ン、   x−ylL  (X−1)=LT  [
L  (X−y+1)、  X−yノ以上により認識結
果N R(Xlが求められる。
なお以上の説明では、単語終端候補レベルDPを順時間
方向に処理して終端候補を求めたが、逆時間方向に連続
DP照合を行って始端候補を求め、単語始終端レベルD
Pで順時間のDPにより、部分区間候補を求めても同様
な認識が可能である。
[発明の効果] このようにして本発明によると、終端候補の存在するフ
レームを大幅に限定する手法を用いて音声認識装置を得
ているから、始終端レベルDPを行う量が大幅に減少し
、連続DP照合法を使用していて、要処理時間を短くし
た効率の良い装置となっている。
【図面の簡単な説明】
第1図は本発明の実施例を示すブロック図、第2図、第
3図は連続DP照合法の説明図、第4図、第5図は終端
候補選択部の動作説明図、第6図は従来の連続単語認識
装置を示す図、第7図はDP照合法の説明図である。 1−・マイクロホン 2−・−音声特徴抽出部 3−  人カバターンバッファ 4−標準パターン辞書部 6−・文レベルDP照合部 7一連続DP処理部 8−終端候補選択部 9−逆時間DP照合部 10・一部分区間候補選択部 11・−認識結果処理部 12−終端候補フレーム限定部 特許出願人    富士通株式会社 代理人     弁理士 鈴木栄祐 入力バゲーン 入力フレ弘             第 3 間第4
図 第5図

Claims (1)

  1. 【特許請求の範囲】 複数の単語を連続的に発声した音声を音声特徴抽出部に
    おいて入力パターンに変換し、該パターンを複数の標準
    パターンと照合し区間別候補を選択して、各区間の照合
    距離が最小となるものを求め、認識結果を得る連続音声
    認識装置において、入力パターンと標準パターンについ
    て連続動的計画法による照合を実施する部と、 該照合部出力について所定値で標準パターンを限定する
    部と、該限定部出力から入力パターンの各フレーム毎に
    フレームを終端(又は始端)とする複数個の標準パター
    ンを候補として選択する部と、該選択部出力について与
    えられた各フレーム毎の候補を、始端(又は終端)方向
    への動的計画法による照合を行う部と、 与えられた部分区間照合距離から各桁毎の距離の合計が
    最小になるような組合せを求める部と、を具備し、該組
    合せを求める部の出力から認識結果を得ることを特徴と
    する連続音声認識装置。
JP59227089A 1984-10-29 1984-10-29 連続音声認識装置 Pending JPS61105600A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59227089A JPS61105600A (ja) 1984-10-29 1984-10-29 連続音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59227089A JPS61105600A (ja) 1984-10-29 1984-10-29 連続音声認識装置

Publications (1)

Publication Number Publication Date
JPS61105600A true JPS61105600A (ja) 1986-05-23

Family

ID=16855320

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59227089A Pending JPS61105600A (ja) 1984-10-29 1984-10-29 連続音声認識装置

Country Status (1)

Country Link
JP (1) JPS61105600A (ja)

Similar Documents

Publication Publication Date Title
EP0109190B1 (en) Monosyllable recognition apparatus
JP3886024B2 (ja) 音声認識装置及びそれを用いた情報処理装置
JPS61219099A (ja) 音声認識装置
JPS61105600A (ja) 連続音声認識装置
JP2853418B2 (ja) 音声認識方法
JPS61105599A (ja) 連続音声認識装置
JPH0336436B2 (ja)
JPS61105598A (ja) 連続音声認識装置
JPS6131880B2 (ja)
JPS6344699A (ja) 音声認識装置
JPS58159598A (ja) 単音節音声認識方式
JPH0247758B2 (ja)
JPS62144199A (ja) 連続音声認識装置
JPS61200596A (ja) 連続音声認識装置
JPS6129897A (ja) パタ−ン比較装置
JPS6131878B2 (ja)
JP2000242292A (ja) 音声認識方法、この方法を実施する装置およびこの方法を実行するプログラムを記憶した記憶媒体
JPS60147797A (ja) 音声認識装置
JPS5977500A (ja) 単語音声認識方式
JPH0449719B2 (ja)
JPH03269500A (ja) 音声認識装置
JPS6312000A (ja) 音声認識装置
JPS6167899A (ja) 音声認識装置
JPH0313599B2 (ja)
JPS62147496A (ja) 連続音声認識装置