JPS617889A - 連続単語音声認識方式 - Google Patents

連続単語音声認識方式

Info

Publication number
JPS617889A
JPS617889A JP59128489A JP12848984A JPS617889A JP S617889 A JPS617889 A JP S617889A JP 59128489 A JP59128489 A JP 59128489A JP 12848984 A JP12848984 A JP 12848984A JP S617889 A JPS617889 A JP S617889A
Authority
JP
Japan
Prior art keywords
word
memory
frame
standard pattern
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59128489A
Other languages
English (en)
Inventor
好田 正紀
清宏 鹿野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP59128489A priority Critical patent/JPS617889A/ja
Publication of JPS617889A publication Critical patent/JPS617889A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 「産業上の利用分野」 この発明は、単語を連続して発声した連続単語音声を1
1時間軸の非線形正規化マツチング法によって認識する
音声認識方式に関するものである。
「従来の技術」 単語を連続して発声した連続単語音声を、時間軸の非線
形正規化マツチング法(以下、DPマツチング法という
)によって認識する音声認識技術において、時間軸の非
線形正規化のための許容される局所的なマツチング経路
(以下、DPババスいうンとして、標準パターンの時間
軸と入力音声の時間軸に関して対称型の1ンテング経路
(以下。
対称型Drババスいう)を許容するように構成された連
続単語音声認識方式が提案されている。この連続単語音
声認識方式は単語列標準パターンと入力音声との間の距
11IC以下、Dr累積距離という)を求めるためのD
r漸化式の計算を、単語列標準パターンの時間、軸に沿
って単語境界候補レベルを変えて行うように構成されて
いた。
仁の従来の認識方式をよシ詳細に説明する。第1図は従
来の認識方式における、認識対象の単語列の1桁目(1
番目の単語)の単語標準パターンと入力音声とのDrマ
ツチングの説明図である。
横軸は入力音声の時間軸を、縦軸は標準パターンの時間
軸を示す。入力音声と標準パターンとの間の不自然な非
線形伸縮を避けるために、DPババス傾斜は1/2と2
の間に限定されることが多いので、ここでは、DP漸化
式の計算を、DP整合窓内で傾き1/2の直ll111
01と傾き2の直axozとの間に囲まれた領域で行う
ことにして説明する。
DP累積距離は単語標準パターンの終端に対応する位置
に求まるが、単語の種類によって標準パターンの長さが
一般に異なることと%1つの単語標準パターンでも終端
となルうる区間が一般に複数のフレームからなることに
ょル、1桁目のDP累積距離の結果は、前記計算領域内
で最短標準パターン・に対する計算結果線と最長標準パ
ターンに対する計算結果線とで囲まれた斜線領域l内に
与えられる。領域1のDP累積距離を求めるためのDP
漸化式の計算は、まず入力音声の時間軸に沿って行い、
その処理を標準パターンの時間軸に沿って繰返す。
第2図は、従来の認識方式における、認識対象の単語列
の2桁目の単語標準パターンと入力音声とのDrマツチ
ングの説明図である。この場合には、領域1の工桁目O
Dr系積距離を初期値としてDrマツチングが行われ、
2桁目のDr累積距離の結果は#線領域2内に与えられ
る。領域2のDP$積!!g、離を求めるためのDP漸
化式の計算は、第3図に示されるように、領域1内に例
えば単語#を界候補レベル’1 + z、 l zl、
を設定し、これら各レベルにおける各1桁目のDP累積
距離を初期値として1桁目に対すると同様の処理を行う
ことを、単語境界候補レベルを領域1内で標準パターン
の時間軸に沿って設定し直して繰返す。単語境界候補レ
ベル’1 a LX a tsについてそれぞれ2桁目
ODP累積距離の結果は領域301 、302 。
303として与えられる、 以上の処理を繰返して、任意の桁数のDr累積距離を求
める。
「発明が解決しようとする問題点」 以上の説明かられかるように、従来の認識方式では、D
r累積距離を求めるためのDP衝化式の計算は、単語境
界候補レベルを設定して単語単位の処理を行うことを、
単語境界候補レベルを標準パターンの時間軸に沿って設
定し直して繰返すという手順で行っている。さらに、単
語単位の処理の中では、Dr漸化式の計算をまず入力音
声の時間軸に沿って行い、その処理を標準パターンの時
間軸に沿って繰返すという手順で行っている。このよう
に、標準パターンの時間軸に沿って処理を繰返すという
手順が基本になっているために、単語列株準パターンの
桁数を増加しなからDr漸化式の計算を行うのに適して
いるものの、入力音声の時間軸に沿って入力フレームに
同期しながらDP漸化式の計算を行うことができない。
例えば第3図の例では2桁目のDr累積距離の結果は対
象としている入力連続単語音声の終シ(最終フレーム)
が入力されて得られ、3桁目以後のDP累積距離が得ら
れた後に前述した処理を繰返して得られるものであシ、
最終フレームを入力してから。
可成り多くの演算を必要とし、実時間での処理は困難で
ある。
以上説明したように、対称型Drパスを許容するように
構成された従来の連続単語音声認識方式では、入力音声
の時間軸に沿って入力フレームに同期しながらDP順化
式の計算を行うことができないために、入力音声の終端
を検出してからDrr化式の計算を開始しなければなら
なかった。そのため、従来の認識方式は実時間処理に向
かないという欠点があった。
この発明の目的は対称型DPパスを許容し、かつ実時間
処理に適する連続単語音声認識方式を提供することにあ
る。
「発明の目的」 この5発明は、単語の標準パターンを認識対象の単語列
を構成する。単語の並びに従って結合した単語列標準パ
ターンと入力音声との間で対称型Drパスを許容してD
Pマツチングを行う連続単語音声認識の構成において、
Drr化式の計算を入力音声の時間軸に沿って入力フレ
ームに同期しながら行ってDP累積距離が最小になる単
語列標準パターンに基づいて入力音声の単語列決定部る
ことを特徴とし、その目的は、対称型Drパスを許容す
る連続単語音声認識方式の構成を実時間処理に適するよ
うにすること4Cある。
「実施例」 認識装置の一般的構成 第4図は、単語を連続して発声した連続単語音声を時間
軸の非線形正規化マツチング法によって認識する音声認
識装置の構成図である。入力端子3よルの入力音声は特
徴抽出部4で分析され、特徴パラメータが抽出され、入
力音声は特徴パラメータの時系列に変換される。特徴パ
ラメータの時系列で表現された単語の標準パターン用メ
モリ5に蓄積されている。Dr累累積距離計郡部6メモ
リ5の単語の標準パターンを、認識対象の単語列を構成
する単語の並びに従って結合した単語列標準パターンと
、入力音声との間でDPマツチングを行ってDP累積距
離を求める。そのDP累積距III(正確には、DP累
積距離をDP正規化係数で割った値)が最小になる単語
列を単語列決定部7で求めてそれを認識結果として出力
端子8に出力するO 仁の発明の認識方式の基本的考え方 この発明の認識方式の詳細な脱8AK入る前に、この発
明の認識方式の基本的な考え方を説明する。
第5図は、認識対象の単語列標準パターンと入力音声の
第(i−1)フレームまでのDrマツチングの説明図で
ある。従来の認識方式と異なる点は、入力音声の第(i
−1)7レームまでについてFi、すべての桁の単語標
準パターンとそれまでの入力音声とのDP累積距離の結
果がすでに求ままでに必要なすべてのDP漸化式の計算
がすでに終っている点rcある。第5図では第1図と対
比して見ればわかるように、第(i−1)フレームまで
では単語列標準パターンの1桁目に対するDrr積距離
もすべては得られてないが、2桁目以後の標準パターン
についても入力音声の第(i−1)フレームまでに必要
とするDrr積距離が求められている。
第6図は、認識対象の単語列標準パターンと入力音声の
第iフレームとのDPマツチングの説明図である。この
場合には、入力音声の第(i−1)フレームまでのDP
累積距離の結果と、入力音声0g17レームと単語標準
パターンの各フレームとのスペクトル距離の結果とを用
いて、入力音声の第iフレームで各単語標準パターンに
ついて必要なすべてのDP漸化式の計算が行われる。
以上の処理を入力音声の時間軸に沿って入力フレームに
同期しながら繰返す。その認識結果は、入力音声のフレ
ームが終端領域に入ったとき[。
そのフレームのDrr積距離をそれに対応するDP正規
化係数で割った値を求め、それが最小になるものを残す
ことによって得られる。
以上の説明かられかるように、この発明の認識方式では
、入力音声の各フレームにおいて、そのフレームで必要
なすべてのDP#化式の計算を行っている。そのため、
対象WDPバスを許容する連続単語音声認識を入力音声
の時間軸に沿って入力フレームに同期しながら行うこと
が可能となる。
Drr積距離計算及び単語列決定の詳細な説明第7図は
、第4図のDP累累積距離計算部屋び単語列決定部7の
構成に関する。この発明の認識方式の詳細な説明図であ
る。第7図に示されるように、ここでは、Drr準軸を
傾き45度の直線にとシ、DPマツチングにおけるマツ
チング軽路が大局的に許容される領域(DPP合窓とい
う)の幅を縦軸にとる斜交座標を用いて説明する。DP
マツチングの断化式の計算は、第7図の大枠9で闘った
領域(以下、DP領領域いう)の中で行うこととする。
但し、入力音声のフレームと標準パターンのフレームと
の間のスペクトル距離を示すときには、入力音声のフレ
ームを横軸にと9、標準パターンのフレームを縦軸にと
ることとする。
記号の定義 この発明の認識方式を詳細に説明する前に1g識方式の
説明に用いる主な記号の定義についてまず説明する。
N :認識対象の単語数、 Jn:単語nの標準パターンのフレーム数、I :入力
音声のフレーム数、 λ :入力音声中で単語の境界の候補となるフレームを
間引くときの閾引き間隔、 W  :DPP合窓の片側の幅。
δ1 :単語標準パターンの始端を特定の1つのフレー
ムに固定しないで、複数個のフレームからなる区間を考
えて始端はその区間内の7レームのいずれかであるとし
てDrマツ−チングを行うことを、標準パターンの始端
自由によるDPマツチングという。δ1は標準パターン
のフレーム中で始端となルうる区間のフレーム数を示す
δ2 :上と同様に、標準バ、ターンの終端自由による
Drマツチングにおいて、標準パターンのフレーム中で
終端となりうる区間のフレーム数、 δ8:上と同様に、入力音声の終端自由によるDPマツ
チングにおいて、入力音声の7レ一人中で終端となりう
る区間のフレーム数、d”(il、j):入力音声の第
1フレームと単語nの標準パターンの第1フレームの間
のスペクトル距離。
” (Z e w ) :単語境界候補レベル(以下、
単にレベルという)tまでの単語例のDPP積距離と、
レベルLを始端として入力音声の現在のフレームのDP
整合窓内位置Wまでの単語nのDPP積距離との和の最
小値。
X” (t、w):D” (t、w)K対応fる、入力
音声の始端からレベルtrrc到達する単語列の桁数、 S ” (Z * W ) : D ” (Z e w
 ) K対応−する、入力音声の始端からレベルtに到
達する単語列のN進数表現。
D(W):入力音声の現在のフレームのDr整合−窓内
位置Wで終端する単語列のDP累積距の最小値、すなわ
ち、入力音声の始端から現在のフレームまでの部分入力
音声と、フレーム数の和が(入力音声の現在のフレーム
数+W)の単語列標準パターンとの間のDPP積距離の
うちで、単語列の可能な組合せについての最小値、 X(m):D(m)に対応する単語列の桁数。
8(m):D(m)に対応する単語列のN進数表現、 合:第7図中の入力音声の最終フレームに対するDP計
算領域io(以下、DP#!端領域という)で終端する
単語列のDPP積距離をDr正正規化化係数割った値の
最小値、交:介に対応する単語列の桁数、 合二分に対応する単語列のN進数表現。
動作の説明 さて、この発明の認識方式の動作を説明しよう。
Drマツチング法として、DPP域内の数点間隔でのみ
DPP化式の計算を行うStaggered Arra
yDPマツチング法(以下、5ADP法という)を用い
て説明する。対称型DPパスを用いるaADP法の認識
性能は、Dr漸化式の計算を3点間隔で間引いても間引
かない場合と変わらないことが。
uR実験により確かめられている。
具体的には、第8図に示すような対称型DPパスを用い
る8ADP3−5(ここで、3はDP漸化式の計算を間
引きする間隔を示し、5はDP漸化式の種類を区別する
ための番号を示す)を用いる場合について説明する。5
ADP3−5では。
第8図に黒丸で示しているように、DP漸化式の値がD
P基準軸に沿って3点間隔で計算され、かつ、縦軸すな
わちDr整合窓の幅の軸に沿ってみてもやIIi勺3点
間隔でDr漸化式の値が更新される。
認識方式の手順は次の■〜■からなる。
■初期値の設定 1)分の初期値を設定する。すなわち、公=〜    
         (1)1)D(w)、X(w)、8
(w)の初期値を設定する。すなわち、 a ) w s+e −W 、 ・= 、 WICIC
ライ (W、)−00、(2) b)入力音声の始端における初期値として、Wl!!+
0について 1ft)D”(t、w)の初期値を設M−j、b。
すなわち、 について(但し、〔〕はガクス記号を示す)Dn (t
λ、 y ) mcts       (6)但し、t
λ−L/λ        (7)■入力音声フレーム
のループ r=1.2.・・・・・・・・・、工について■〜■を
繰返す。
■単語標準パターン設定のループ jl lx Q 、 l 、・・・・・・・・・、N−
1について■■を繰返す。
(λ点間隔) を繰返す。
■単語レベルの処理 l)レベルtが i−W≦L≦i + W         (8)を満
たすときにはレベルtが第iフレームのDP整合窓の中
にあるので、D’(t、w)。
x n < t、 W) 、 s ” (t 、 W)
の初期値を設定する。すなわち、 W  −2−(i−1)        (9)として とおく。
I)第iフレームのDr整合窓の中で3点間隔について
DP漸化式の計算を行う6すなわち、ww−W+mod
 (i 、 3 ) e −e Wについて(但し、W
は3点間隔にとる。mod (a 、 b )はbを法
としてaを表現した値を示す。mod(i 、3)が加
わっているのは、lの増加とともにWの最初の値を1つ
ずつシフトさせるためである。)以下の処理を行う。
j −i + w −L          (’1と
おくと、jFiレベルtを始端として入力音声の第1フ
レームのDP整合窓内位[wまでの単語標準パターンの
長さを表わすので、1≦j≦j104 を満たすときのみ とおく、(但し、←は右辺の値で左辺の内容を更新する
ことを示す。)(至)式の右辺のの。
■、■のいずれが最小値になるかに応じて、△ Wを次のように設定する。
/゛\ このWを用いて △ −X”(tλ、w)←X”(tλ、w)     U△ 8”(tλ、W)4−8n(t2.w)     (1
6とおく。
1−a)標準パターンの始端処理 上記の漸化式の計算において、jの値が1≦j≦−10
場 の範囲にある場合には単語標準パターンの始端になる可
能性があるので、漸化式の計算の都度次の処理を行う。
すなわち、 D”(L2.w))D(w)       @)ならば
、標準パターンの第jフレームを始端とみなした方がD
P累積距離が小さくなるので、次の置換を行う。
逆に D’(/−1,w)≦D(w)         hな
らば、標準パターンの第1フレームヲ始端とみなさない
方がDr累積距離が小さいので。
1−b)標準パターンの終端処理 上記の漸化式の計算において、jの値がJn−6m<j
≦Jll           (ハ)の範囲にある場
合には単語標準パターンの終端になる可能性があるので
、漸化式の計算の都度次の処理を行う。すなわち、 D” (7λ、w)<D(W)          G
IE9ならば、標準パターンの第jフレームを終端とみ
なした方がDP累積距離がそれまでの値よシも小さくな
るので、次の処理を行う。
逆に、 Dn(tλ、w)≧D(w)M ならば、標準パターンの第jフレームを終端とみなさな
い方がDP累積距離が不さいので、■入力音声の終端処
理 I −’a B< t≦I        (ロ)なら
ば、入力音声の第1フレームが終端になる可能性がある
ので次の処理を行う。丁なわち。
0= argmin(D(w)/(2i+w))   
@とおき(但し、 argmin #′ic  )内の
式の最小値を与える変数の値を示す。)。
令> (D(0)/(zi+◇)     @ならば、
入力音声の第1フレームのD?整合窓内位置金tl−終
端とみなした方がDP累積距離がそれまでの値よりも小
さくなるので5次の置換を行う。
逆に 分−D(O)/(2i+◇)     @ならば入力音
声の第1フレームを終端とみなさない方がDr累積距離
が小さいので、 以上の■〜■の処理によシ得られたeJ、eが最終結果
となる。それらの内容は次の通りである。
分:正規化されたDP$積距離の最小値。
交:介に対応する、最適な単語列の桁数。
A:Aに対応する、最適な単語列のN進数表現。
第9図は、以上に説明したこの発明の認識方式の詳しい
構成図である。
入力端子11より、の入力音声はフレーム単位に一特徴
抽出部12″:C分析され、特徴パラメータが抽出され
、特徴パラメータ用メモリ13に一時記憶される。%徴
パラメータの時系列で表現された単語の標準パターンが
単語標準バクーン用メモリ14に蓄積されている。入力
音声のフレームと標準パターンの各フレームの間の距離
d”(i、j)u、メモリ13の入力音声の特徴パラメ
ータとメモリ14の標準パターンの%徴パラメータの時
系列を用いてフレーム間距離計算部15で計算され、フ
レーム間距離用メモリ16に一時記憶される。
単語レベルのDrマツチングの途中結果Dn(t。
W)IX”(t、w)18”(t#W)UIfL語レベ
にし理用メモリエフに記憶される。単語列レベルのDr
マツチングの途中結果D(w)、X(W)、5(W)メ
モリ19に記憶される。
メモリ17、メモリ18お工びメモリ19には、入力音
声が入力端子11に入る前に、(1)〜(6)式の初期
値が設定される。単語境界候補レベルが(8)式を満た
すときには、メモリ18を用いて、単語レベルの処理の
ための初期値の設定が初期値設定部20で行われ、 0
O−(2)式の値がメそり17に書込まれる。単語境界
候補レベルからのフレーム数が(ロ)式を満たすときに
は、メモリ16とメモリ17を用いて、DP漸化式(イ
)〜(ト)式の計算が漸化式計算部21で行われ、メモ
IJ 17に書込まれる。
単語境界候補レベルからの7レー五数が(至)式の範囲
にある場合には、メモリ17とメモリ18の(1iを比
較してに)式t−満たすならば単語レベルの処理の初期
値の再設定が標準パターン始端処理部22で行われ、メ
モ9170期化式の値が(2η〜(ハ)式の値に書換え
られる。
単語境界候補レベルからの7レ一人数が(ハ)式の範囲
にある場合には、メモリ17とメモリ18の値を比較し
てに)式を満たすならば単語列レベルの処理が標準パタ
ーン終端処理部23で行われ、酌〜(2)式の値がメモ
リ18に書込まれる。
入力フレー ムが例式の範囲にある場合には、メモ11
18を用匹て単語列のDr累・積距離の最小値が入力音
声M端処庖部24で#算され、メモリ19の値と比較し
てに)式を満たすならば、メモリ19の値が(ロ)〜に
)式の値に書換えられる。
以上の処理を入力音声のフレームに同期させるため、の
制御が処理制御部25で行われる。漸化式計算部21、
標準パターン始端処理部22.標準バメーン終端処理部
23の各処理をDr整合窓内で繰返すために、DP整合
窓用カウンタ26を用いて制御する。初期設定部20.
漸化式計算部21、処理部22.23の各処理を単語境
界候補レベルを変えて繰返すために、単語境界候補レベ
ル用カウンタ27を用いて制御する。計算部15 s 
21*段設定20.処理部22.23の各処理を単語標
準パターンを変えて繰返すために、単語標準パターン用
カクンタ28を用いて制御する。特徴抽出部12.計算
部15,21、設定部20、処理部22.23.24の
各処理を入力フレームに同期して繰返すために、入力フ
レーム用カウンタ29を用いて制御する。入力音声の終
端が検出されると、メモリ19の値が出力端子30に出
力される。
第101!AJ−1,第9図の音声認識方式において。
計算部15.21、設定部20%処理部22.23の各
処理を並列に行うためKN個のプロセッサを用いる場合
のタイムチャートの例である。入力フレーム用パルスご
とにその直前のフレームでの入力音声の特徴パラメータ
が抽出され、その特徴パラメータと、単語標準パターン
#0〜5(N−z)との7レ一ム間距離計算が行われ、
単語境界候補レベル用パルスごとに、順次単語境界候補
レベルを変化させ、その各単語境界候補レベルごとに。
各単語標準パターン#0〜#(N−1)とのD 、P累
積距離計算を行う。最後の単語境界候補レベルについて
のDP累積距離計算の後に入力音声終端処理を行い、そ
の後次の入力フレームパルスが生じるようにされる。
以上、この発明の認識方式の動作を詳しく説明した。こ
の認識方式では、単語列標準パターンと入力音声との間
のDP累積距離を求めるためのDPfi化式の計算の順
序は、各単語境界候補レベルrcおける単語単位の処理
を、入力音声のフレーム番号歪の値を更新しながら繰返
している。しだがつて、この発明の認識方式FiDP累
積距離を求めるためのDP漸化式の計算を入力音声の時
間軸に沿って入力フレームに同期しながら行う方式にな
っている。それゆえ、このll?!織方式を用いると対
! 称型Drバスを許容する連続単語音声認識方式を実時間
島理に適するように構成することができる。
「変形例」 単語音声認識において、単語標準パターン作成用の音声
データから抽出した特徴パラメータの時系列をそのまま
φ語標準パターンとしで用いることを止めて、単語標準
パターン作成用の音声データの各7レームにおいて予め
作成しである有限個の代表スペクトルパターンとのスペ
クトル距離を計算し、各フレームをそのスペクトル距離
の最も小さくなる代表スペクトルパターン(正確には代
表スペクトルパターンを示す記号)で置換えた時系列で
単語標準パターンを表現する認識方式がある。この認識
方式では、有限個の代表スペクトルパターンを、音声符
号化の分野でよく用いられるベクトル量子化の手法を利
用して作成する。
単語標準パターンを代表スペクトルパターンの時系列で
表現する認識方式のI&!!識性能は、代表スペクトル
パターンのll類数を256個程度にとれば、特徴パラ
メータの時系列をそのまま単語標準パターンとして用い
る認識方式のl&!!識性能色性能らないことが、認識
実験によp確かめられている。
単語標準パターンを代表スペクトルパターンの時系列で
表現する認識方式を、ここで発明の連続単語音声ga方
式にも適用することができる。そのことを説明する前に
、説明に用いる主な記号の定義についてまず説明する。
M :代表スペクトルパターンの数、 al =入力音声の第iフレームの特徴ベクトル、優b
m=第m番目の代表スペクトルパターン。
d (a i a’kbrr* ) : a iとhb
mの間の距離、dl(m):入力音声の現在のフレーム
の特徴べ′り、トル4−b、との距離。
dl(m)  :入力音声の現在より1つ前のフレーム
の特徴ベクトルとibmとの距離、 dl(m)  :入力音声の現在よp2つ前のフレーム
の特徴ベクトルとhbmとの距離、 T”(j):単語nの標準パターンの第jフレームの代
表スペクトルパターンを示す記号。
認識方式の構成は、前述の■〜■に対して次の2点の追
加・変更を行えばよい。
−単語i 準パターンを代表スペクトルパターンの時系
列で表現する認識方式を適用する場合の追加・変更点− (1)前述の■と■の間に、下記の■を追加する。
すなわち。
「d スペクトル距離の計算 ・入力音声の第iフレームと代表スペクトルパターンの
各々についてスペクトル距離を計算する。
すなわちm= 1 、2 、−・−−−−、MVCつい
て、d(ai。
abm)を計算して の置換を行う、」 (2)  前述の■におけるDP漸化式の計算のための
06式を、下記のように変更する。すなわち、「単語標
準パターンの各フレームが何番目の代表スペクトルパタ
ーンで表わされているかを記すために。
とおいてから、次のDP漸化式の計算を行う。
以上の説明では、DPマツチング法として5ADP法を
用、いる場合について認識方式の構成を説明したが、こ
の発明のg織方式FiDP漸化式の計算を間引かないで
Dr領域内のすべての点についてDPp化式の計算を行
う通常のDrマツチング法に対しても適用することがで
きる。その場合には、計算量及び記憶量の増加をともな
う。また。
5ADP法における対称ff1DPバスとして第8図に
示すよりな8ADP3−5を例にして認識方式の構成を
説明したが、言うまでもなく、この発明ゝの認識方式は
第8図の対称型ノくスに限定されるものではなく、他の
対称型Drパスを用いることができる。
さらに、DP漸化式の計算の途中結果を記憶する値とシ
テ、Dr累積距離(D(W)、及ヒ、 D n(t、W
))の他に、単語列の桁数(X(W)。
及び、Xn(A、w))と単語列のNa数表現(8(m
及び+ Sn(te”))を用いて認識方式の動作を説
明したが、この発明の認識方式はこれに限定されるもの
ではなく、単語列の桁数と単語列のN進数表現の代わり
に、単語列の最後尾単語名(N(ロ)。
及びr”(’r”))と単語列の最後尾単語とその1つ
前の単語との境界位置CB(W) 、及ヒ、B”(W)
)を記憶してもさしつかえない。この場合KFi%DP
累積距離の最小値が求められたあと、単語列の゛最後尾
の単語名から、パンクトラック処理で順次1つ前の単語
名と単語境界位置を求めることを繰返すことに↓つて、
最終結果を得ることができる。
「発明の効果」 以上説明したように、DPマツチングによる連続単語音
声認識において、対象型DPパスを許容するように構成
された従来の認識方式では、単語列標準パターンと入力
音声との間のDr累積距離を求める丸めのDP漸化式の
計算を、単語列標準パターンの時間軸に沿って単語境界
候補レベルを変えて行っているために、入力音声の終端
を検出するまでは、DP漸化式の計算を実行できないと
いう欠点があつ九が、この発明の認識方式では、入力音
声の時間軸に沿って入力フレームに同期しなからDr漸
化式の計算を行うことが可能になった。これによって、
連続単語音声認識方式が実時間処理向きになり、入力音
声の終端を検出すると直ちに1iil!繊結果を得るこ
とができるという利点がある。
【図面の簡単な説明】
第1図は従来の連続単語音声認識における認識対象の単
語列の1桁目の単語標準パターンと入力音声とのDrマ
ツチングの説明図、第2図は従来の連続単語音声認識に
おける認識対象の単語列の2桁目の単語標準パターンと
入力音声とのDPマツチングの説明図、第3図は従来の
連続単語音声認識において単語列標準パターンの時間軸
に沿って単語境界候補レベルを変えなからDr累積距離
の計算を繰返すことの説明図、第4図は連続単語音声認
識を時間軸の非線形正規化マツチング法によって認識す
る音声認識装置の一般的な構成図、第5図はこの発明の
連続単語音声認識方式における認識対象の単語列標準パ
ターンと入力音声の第(i−1)7レームまでのDPマ
ツチングの説明図、第6図はこの発明の連続単語音声認
識方式における認識対象の単語列標準パターンと入力音
声の第iフレームとのDPマツチングの説明図、第7図
は第4図のDP累積距離計算部と単語列決定部に関する
この発明の認識方式の説明図、第8図はDPマツチング
の漸化式の計算を間引きする5ADP法における対称型
DPパスの例を示す図、第9図はこの発明の連続単語音
声認識方式の詳しい構成例を示す図、第10図は第9図
の認識方式における処理のタイムチャートの例を示す図
である。 1:対称型DBババス許容する連続単語音声認識方式に
おいて1桁目のDr累積距離の結果を与える領域、2:
対称型DPババス許容する連続単語音声認識方式におい
て2桁目のDP累積距離の結果を与える領域、3,11
:入力端子、4.12:特徴抽出部、5,14:単語標
準パターン用メモリ、5 : DP累積距離計算部、7
:単語列決定部、8.30:出力端子、9:DP領領域
10:DP終端領域、15:フレーム間距1iIIlt
t算部、16:フレーム間距離用メモリ。 17:単語レベル処理用メモリ%18:単語列しベル処
理用メモリ、19:認識結実用メモリ、20:初期値設
定部、21:m化成計算部、22:標準パターン始端処
理部、23:標準パターン終端処理部、24:入力音声
終端処理部、25:処理制御部、26:DP整合窓用カ
ウンタ、27:単語境界候補レベル用カウンタ、28:
単語標準パターン用カウンタ、29:入カスレ−ム用カ
ウンタ。

Claims (1)

    【特許請求の範囲】
  1. (1)単語の標準パターンを結合した単語列標準パター
    ンと入力音声との間で非線形正規化マッチングを行う連
    続単語音声認識方式において、 入力音声のフレーム単位に特徴パラメータを抽出する特
    徴抽出手段と、 その抽出された特徴パラメータを一時記憶する特徴パラ
    メータ用メモリAと、 特徴パラメータの時系列で表現された単語の標準パター
    ンを記憶する単語標準パターン用メモリBと、 上記メモリAおよびメモリBを用いて入力音声のフレー
    ムと単語標準パターンの各フレームとの間の距離を計算
    するフレーム間距離計算手段と、その計算されたフレー
    ム間距離を一時記憶するフレーム間距離用メモリCと、 単語レベルのマッチングの途中結果を記憶する単語レベ
    ル処理用メモリDと、 単語列レベルのマッチングの途中結果を記憶する単語列
    レベル処理用メモリEと、 単語列の認識結果を記憶する認識結果用メモリFと、 上記メモリC、メモリDおよびメモリEを用いて、対称
    型の局所的マッチング経路を許容して非線形正規化マッ
    チングの累積距離を計算し、その計算結果を上記メモリ
    Dに書込む単語レベル処理手段と、 上記メモリDおよびメモリEを用いて単語列の累積距離
    を比較して、その処理結果を上記メモリEに書込む単語
    列レベル処理手段と、 上記メモリEを用いて単語列の累積距離の最小値を計算
    し、その結果を上記メモリFに書込む単語列決定手段と
    、 上記特徴抽出手段、フレーム間距離計算手段、単語レベ
    ル処理手段、単語列レベル処理手段および単語列決定手
    段を入力音声のフレームに同期して動作させフレーム毎
    にすべての計算を実行するための処理制御手段と、 を有することを特徴とする連続単語音声認識方式。
JP59128489A 1984-06-22 1984-06-22 連続単語音声認識方式 Pending JPS617889A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59128489A JPS617889A (ja) 1984-06-22 1984-06-22 連続単語音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59128489A JPS617889A (ja) 1984-06-22 1984-06-22 連続単語音声認識方式

Publications (1)

Publication Number Publication Date
JPS617889A true JPS617889A (ja) 1986-01-14

Family

ID=14986013

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59128489A Pending JPS617889A (ja) 1984-06-22 1984-06-22 連続単語音声認識方式

Country Status (1)

Country Link
JP (1) JPS617889A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6654549B1 (en) 1999-11-30 2003-11-25 Matsushita Electric Industrial Co., Ltd. Infrared light bulb, heating device, production method for infrared light bulb

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6654549B1 (en) 1999-11-30 2003-11-25 Matsushita Electric Industrial Co., Ltd. Infrared light bulb, heating device, production method for infrared light bulb
US6845217B2 (en) 1999-11-30 2005-01-18 Matsushita Electric Industrial Co., Ltd. Infrared ray lamp, heating apparatus and method of producing the infrared ray lamp
US7184656B2 (en) 1999-11-30 2007-02-27 Matsushita Electric Industrial Co., Ltd. Infrared lamp, heating apparatus, and method for manufacturing infrared lamp

Similar Documents

Publication Publication Date Title
EP0705473B1 (en) Speech recognition method using a two-pass search
JP3003276B2 (ja) 信号解析装置
JPS62231995A (ja) 音声認識方法
CN108630198B (zh) 用于训练声学模型的方法和设备
JPS58192100A (ja) 第1の音声パタ−ンを第2の音声パタ−ンと時間的に整列させる方法とその装置
JPS617889A (ja) 連続単語音声認識方式
JPH0247760B2 (ja)
Wolfertstetter et al. Structured Markov models for speech recognition
Nakagawa A connected spoken word recognition method by O (n) dynamic programming pattern matching algorithm
JPS60201398A (ja) 連続単語音声認識方式
JPH10124083A (ja) 単語の音響モデル決定方法
JPH0361957B2 (ja)
US5956677A (en) Speech recognizer having a speech data memory storing speech data and a reference pattern memory storing partial symbol trains of words for recognition
JPS59160276A (ja) パタ−ン認識装置
JPS59172696A (ja) 音声パタン類似度演算方式
JPH024919B2 (ja)
JPS62173498A (ja) 音声認識装置
JPH06110500A (ja) 音声記号化装置
JPH0464077B2 (ja)
JPS59173884A (ja) パタ−ン比較装置
JPH0247755B2 (ja)
JPS59198A (ja) パタ−ン比較装置
KR950010020B1 (ko) 음성인식기의 음성지속시간 모델링 방법
KR100307855B1 (ko) 세분화된 plu hmm 모델을 이용한 음성모델 등록장치및 그 방법
JPS59172692A (ja) 連続単語音声認識方法