JPS61105599A - 連続音声認識装置 - Google Patents

連続音声認識装置

Info

Publication number
JPS61105599A
JPS61105599A JP59227088A JP22708884A JPS61105599A JP S61105599 A JPS61105599 A JP S61105599A JP 59227088 A JP59227088 A JP 59227088A JP 22708884 A JP22708884 A JP 22708884A JP S61105599 A JPS61105599 A JP S61105599A
Authority
JP
Japan
Prior art keywords
pattern
matching
section
frame
input pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59227088A
Other languages
English (en)
Inventor
桜庭 孝宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP59227088A priority Critical patent/JPS61105599A/ja
Publication of JPS61105599A publication Critical patent/JPS61105599A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は音声特徴抽出部から得られた入力パターンと標
準パターンとを照合するとき、類似語句が含まれている
複数の単語が連続的に発声されても、誤りなく認識する
連続音声認識装置に関する。
[従来の技術] 複数の単語が連続的に発声されたとき、それを認識する
研究が進んでいる。第1方式は、連続単語であっても単
語境界における音声パワーの落込みがあるため、それを
検出し、単語を個別に区分する。(区分操作をセグメン
テーションという)区分された単語毎に標準パターンと
照合して認識する。
第2方式は動的計画法(ダイナミックプログラミング法
、以下本明細書において動的計画法をDPと略記する)
による照合を使用することであり、連続単語について区
間を全部の組について取出して標準パターンと照合する
。即ち第5図に示すように、マイクロホン1から取り込
んだ音声を音声特徴抽出部2に入力し、特徴を抽出して
入力パターンハフファに格納する。このとき区間とは「
音声認識」という文字列を文字単位(実際には音声パタ
ーンの1フレ一ム単位)で表すと、音 声 認 識 音声 声認 認識 音声認 声認識 音声認識 のように、文字(実際には音声パターンの1フレーム)
を並べて得る総ての組合せを区間と云う。
そして標準パターン辞書部4に格納されている標準パタ
ーンとパターン照合部5において順次に総てを照合し、
文レベル動的計画法による照合部6において最適な単語
の組合せを求め、認識結果とする。
このとき第6図に示すように標準パターンを縦軸、入力
パターンバッファからの成る入力パターンを横軸にとり
、パターン照合部5において始端から処理を開始する。
パターンの大きさくフレーム)が判っているから終端の
位置が定まっていて、始終端間距離(照合距離)が最短
のものを最適マツチングルートとし、それを正答として
導出する。
[発明が解決しようとする問題点] 第1方式は連続単語についてセグメンテーションの操作
が極めて難しく、認識率を高く確保することが容易でな
い。
また第2方式は第1方式と比較し高認識率が得られるが
、演算量が格段に大きく、また標準パターンと入力パタ
ーンとに類似語句が含まれているときは、誤認識を起こ
し易い欠点があった。即ち第6図に示すように、入力パ
ターンに「東大阪」という単語が入った場合、標準パタ
ーンに「東大阪」と「大阪」との両者が含まれていると
、両者をフレームmの終端候補で選択するとき、フレー
ムpからフレームmまで一致するマツチングルートが存
在して「東大阪」 「大阪」の照合距離に大差がないか
ら、r東大阪」が正答として選択されるとは限らない。
若しフレームmの終端候補に「大阪」が選択された場合
には、以後の処理でもフレームmが境界点になる場合に
は「大阪」しか候補にならないため、誤認識を起こす欠
点があった。
[問題点を解決するための手段] 前述の問題点を解決するため本発明の採用した手段は、
複数の単語を連続的に発声した音声を音声特徴抽出部に
おいて入力パターンに変換し、該パターンを複数の標準
パターンと照合し区間別候補を選択して、各区間の照合
距離が最小となるものを求め、認識結果を得る連続音声
認識装置において、入力パターンと標準パターンについ
て連続動的計画法による照合を実施する部と、 該照合部出力から入力パターンの各フレーム毎にフレー
ムを終端(又は始端)とする複数個の標準パターンを候
補として選択する部と、 該選択部出力について与えられた各フレーム毎の複数個
の候補を、始端(又は終端)方向への動的計画法による
照合を行う部と、 与えられた部分区間照合距離から各桁毎の距離の合計が
最小になるような組合せを求める部と、を具備し、該組
合せを求める部の出力から認識結果を得ることである。
[作用] 本発明では単語終端レベルDPにおいて、1つのフレー
ムに複数の候補を選択しておくことにより、以降の処理
において前述のような類似語句に対しても正しい認識結
果を得ることができる。
[実施例] 第1図は本発明の実施例を示すブロック構成図である。
第1図において1は音声認識装置に対し音声を入力する
マイクロホン、2は音声特徴抽出部、3は入力パターン
バッファ、4は標準パターン辞書部、11は認識結果処
理部、7は入力パターンと辞書パターンについて連続D
Pによる照合を実施する部、8は終端候補選択部で、照
合部7の出力について入力パターンの各フレーム毎にフ
レームを終端とする標準パターンを複数個選択する部、
9は逆時間DP照合部で前記選択部8の出力について与
えられた出力を候補とし、始端方向へのDP照合法によ
る照合を行い、区間照合距離を求める部、10は部分区
間候補選択部、6は文しヘルDP照合で与えられた部分
区間照合距離から各桁毎の距離の合計が最小になるよう
な組合せを求める部を示す。
次に第1図の装置について動作を説明する。当初音声認
識装置の使用者は、マイクロホン1から連続単語の音声
を入力し、音声特徴抽出部2において照合用の音声パタ
ーンに変換し、入力パターンバッファ3に格納する。次
に標準パターン辞書部4に格納しである複数の標準パタ
ーンと、入力パターンバッファ3の読出し出力である入
力パターン情報とを、連続DP照合部7において照合す
る。
このとき入力音声パターンを次のように表す。
A= a(11,a(2L  a(31−−−a(r+
t−a  (r)ここでa (fn)はフレームmにお
けるパラメータで周波数方向に例えば16(flitに
区分し、各区分におけるパワースペクトルの大きさく振
幅値)で示す。
■は入力パターンの終端フレームで且つAの語長を意味
する。
標準音声パターンは単語nをB (nlとしてN個のパ
ターンを次のように表す。
B(n)=b (1,n ) 、  b (2,n )
−b (j、n ) −・−b [J(n)、  nl b (j、n)は単語nのフレームjにおけるパラメー
タで入力音声と同様に例えば16fllilに区分して
パワースペクトルの大きさを示す。
J (n)は単語nの終端フレームで且つB (n)の
語長□を意味する。
このような入力パターンと標準パターンを横軸・縦軸に
とったとき、連続DP照合法は第6図と異なり、第2図
のようになる。即ち入力パターンの任意のフレームを終
端とし且つ始端はフリーとなるDP照合を行う方法をい
う。
連続DP照合部7におけるパターンの照合により入力パ
ターンの中に存在する最適な対応区間が自動的に抽出さ
れて照合距離が求められる。
この結果により入力パターン中に標準パターンB(nl
が存在しそうか、または存在しそうな場合に入力パター
ンAのどのフレームを出力とするか、が容易に求められ
る。その理由を以下に説明する。
標準パターンBと入力パターンのベクトル間距離d (
i、j)を求める。成るフレームB(J)とA (il
について前記16個の対応するチャネル毎に絶対値の差
をとって、累積したものを求め、それをベクトル間の距
離d (i、j)という。また累積して行く距離をgと
表す。このとき対称型演算法を採ると、標準パターンj
=1のとき、 g (i、j)=d (i、j) 入力パターンi=l、j>lのとき g (1,j ) =d (1,j ) +g (1,
j −1)今人カバターンのフレームmを終端とするB
 (nlの連続DP照合距離をDC(m、n)で表現す
る。
DC(m、n)はこのままでは、B (n)の個々のS
音長J (n)によって、短いもの程値が小さくなる傾
向が出るため、J (n)を2倍した値で各DC(m、
n)の値を割り時間正規化を行う。
DR(m、n)=DC(m、n)/2J(nlここで2
J(n)を用いるのは、正しくマツチングした場合は対
応する入力パターン長はJ (n)に近い値を取ると仮
定しているからである。何等かの手法で連続DP距離即
ちDC(m、n)のフレームmに対する始端L (m、
n)が判明している場合には、    DR(m、n) =DC(m、 n) / (J(n)+ (m−1,(
m、n )、 +I)の演算を行っても良い。
次に終端候補選択部8において候補を絞り込む。
そのためDR(m、  n)のフレームm毎に複数の終
端候補を選択し、終端候補選択部8の出力NE(m、c
)にnを設定する。第3図にDR(m。
n)と候補数2個の場合のNE (m、c)の例を示す
。DR(m、n)は第3図に示すようにn毎に異なった
距離パターンを示す。このN個の距離パターンをm毎に
値の小さいものからC(lli1選択して、そのnをフ
レームmを出力とする候補としてNE (m、c)に設
定する。以上の処理により入力パターンAのフレームm
が終端となるB (nlの候補がN個から0個に限定さ
れる。このとき、入力語として終端の一部に共通な標準
パターンが存在する単語に対し、その個数が前述の0個
以下であれば、出力候補として総て残るため、候補が1
個だけの場合に起こり得る誤認識の問題が解決される。
次に逆時間DP照合部9において、前記標準パターンB
 (n)の始端を決定し、DP距離を演算する。
そのためN、E (m、  c)で示される終端候補を
逆時間方向にDPすることにより、始終端のDP距離を
求める。(この処理を逆時間DPマツチングと呼ぶ)。
逆時間DPでは通常のDPを単にパターンを時間方向で
反転し照合するもので、入力パターンAの部分区間ρ−
mのDP距離を求めることである。第4図参照のこと。
ここでDPの演算手法として対称型を用いるものとする
次に逆時間DP照合部9の出力DI  (f2. m、
  c)につき、部分区間候補選択部1oにおいて時間
正規化する。即ち逆時間DPマツチングにより求めたD
I  (I2. m、  c)を、部分パターン長m−
ρ+1と標準パターン長J (NE (m、c))との
和で割算し、D I R(f2. m、  c)とする
。即ちD I R(I2. m、  c) =D l  (12,m、  c) / (J (NE
 (m、  c) )+ (m−ρ+1)) このDIR(I2.m、c)をCについて最小のものを
選択してD (f2. m)とし、対応する標準パター
ンnをNS (I2. m)に設定する。
D (I2. m) =min  [DIR(I2. 
m、  c)NS (I2. m) =NE [m、  arg akin (DIR(I2
. m、  c) ) ]に のD (I2. m)とNS (I2. m)によって
、部分パターンρ−mの最適な照合距離と照合相手が決
定される。
それから部分区間候補選択部1oの出力につき文レベル
DP照合部6において最適な組合せ(単語の結合)を求
める。ここで連続単語における単語を先頭から1桁目、
2桁目、−X桁目という表現で位置関係を表現する。
(イ)1桁目の設定 1桁目は入力パターンを始端フレームからフレームmの
部分区間の距離をT(m、1)に設定する。   T 
(m、1)=D (1,m>その標準語をNT (m、
1)に設定する。
NT (m、1)=NS (m、1) またその標準語の始端が何処であるかをLT(m。
1)に設定する。
LT (m、1)=1 (ロ)X桁目の設定 X桁目ではρの位置が未定のため次のDP漸化式で決定
する。
〕 T(I2.x−1)コ 次に文レベルDP照合部6における照合結果T (m、
  x)から入力単語の桁数Xを求める。
X=a r g win [T (I、  x) /x
]■は入力パターン終端フレームである。
最後に認識結果処理部11において、前記LT(m、x
 )とNT (m、x )から、X桁の認識結果を求め
る。X桁の認識結果はN R(Xlと、またN R(X
)の始端フレームをL (X)とする。
(イ)X桁目の認識結果 NR(X)=NT (I、X) L (X)−LT (1,X) (ロ)x−X桁目の認識結果 NRCX−y”)=NT [L (X−y+1)、X−
)FJL (X−1) =LT [L (’X−y+1
>、  X−y]以上により認識結果N R(X)が求
められる。
なお以上の説明では、単語終端候補レベルDPを順時間
方向に処理して終端候補を求めたが、逆時間方向に連続
DP照合を行って始端候補を求め、単語始終端レベルD
Pで順時間のDPにより、部分区間候補を求めても同様
な認識が可能である。
[発明の効果] このようにして本発明によると、連続DPで複数個の終
端候補を記憶しておくことによって、以降の処理で正し
い認識結果を与えることが可能となる。
【図面の簡単な説明】
第1図は本発明の実施例を示すブロック図、第2図は連
続DP照合法の説明図、 第3図は終端候補選択部の動作説明図、第4図は逆時間
DP照合法の説明図、 第5図は従来の連続単語認識装置を示す図、第6図はD
P照合法の説明図である。 1−マイクロホン 2−音声特徴抽出部 3−人力パターンバッファ 4・−標準パターン辞書部 6−文レベルDP照合部 7−・一連続DP処理部 8−終端候補選択部 9−・逆時間DP照合部 1〇一部分区間候補選択部 11−認識結果処理部 特許出願人    富士通株式会社 代理人     弁理士 鈴木栄祐 第3図 ! 入方バクーンA

Claims (1)

  1. 【特許請求の範囲】 複数の単語を連続的に発声した音声を音声特徴抽出部に
    おいて入力パターンに変換し、該パターンを複数の標準
    パターンと照合し区間別候補を選択して、各区間の照合
    距離が最小となるものを求め、認識結果を得る連続音声
    認識装置において、入力パターンと標準パターンについ
    て連続動的計画法による照合を実施する部と、 該照合部出力から入力パターンの各フレーム毎にフレー
    ムを終端(又は始端)とする複数個の標準パターンを候
    補として選択する部と、 該選択部出力について与えられた各フレーム毎の複数個
    の候補を、始端(又は終端)方向への動的計画法による
    照合を行う部と、 与えられた部分区間照合距離から各桁毎の距離の合計が
    最小になるような組合せを求める部と、を具備し、該組
    合せを求める部の出力から認識結果を得ることを特徴と
    する連続音声認識装置。
JP59227088A 1984-10-29 1984-10-29 連続音声認識装置 Pending JPS61105599A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59227088A JPS61105599A (ja) 1984-10-29 1984-10-29 連続音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59227088A JPS61105599A (ja) 1984-10-29 1984-10-29 連続音声認識装置

Publications (1)

Publication Number Publication Date
JPS61105599A true JPS61105599A (ja) 1986-05-23

Family

ID=16855306

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59227088A Pending JPS61105599A (ja) 1984-10-29 1984-10-29 連続音声認識装置

Country Status (1)

Country Link
JP (1) JPS61105599A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016177045A (ja) * 2015-03-19 2016-10-06 株式会社レイトロン 音声認識装置および音声認識プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016177045A (ja) * 2015-03-19 2016-10-06 株式会社レイトロン 音声認識装置および音声認識プログラム

Similar Documents

Publication Publication Date Title
US6230128B1 (en) Path link passing speech recognition with vocabulary node being capable of simultaneously processing plural path links
JPH029359B2 (ja)
JPS61219099A (ja) 音声認識装置
JPS61105599A (ja) 連続音声認識装置
JP2820093B2 (ja) 単音節認識装置
JPS61105598A (ja) 連続音声認識装置
JPS61105600A (ja) 連続音声認識装置
JPS62144200A (ja) 連続音声認識装置
JPH0756597B2 (ja) 音声認識装置
JP2738403B2 (ja) 音声認識装置
JPH0247758B2 (ja)
JPS59173884A (ja) パタ−ン比較装置
JPS61200596A (ja) 連続音声認識装置
JPS6312000A (ja) 音声認識装置
JPS60147797A (ja) 音声認識装置
JPS62144199A (ja) 連続音声認識装置
JPS61137198A (ja) 音声認識装置
JPH045398B2 (ja)
JPS63155195A (ja) 音声認識装置
JPS5968794A (ja) 単語音声認識方法
JPS60182494A (ja) 音声認識装置
JPS61165797A (ja) 音声認識装置
JPS5926800A (ja) 音声認識装置
JPS6131878B2 (ja)
JPH0372990B2 (ja)