JPS61180295A - 連続音節認識方法 - Google Patents
連続音節認識方法Info
- Publication number
- JPS61180295A JPS61180295A JP60020725A JP2072585A JPS61180295A JP S61180295 A JPS61180295 A JP S61180295A JP 60020725 A JP60020725 A JP 60020725A JP 2072585 A JP2072585 A JP 2072585A JP S61180295 A JPS61180295 A JP S61180295A
- Authority
- JP
- Japan
- Prior art keywords
- vowel
- pattern
- recognition
- standard
- input pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔目次〕
以下の順序で本発明を説明する。
〔従来の技術〕
〔発明が解決しようとする問題点〕
〔問題点を解決するだめの手段〕(第1図)〔作用〕
〔実施例〕
(1)連続音節認識方法の説明(第2図、第3図)(2
)連続音節認識のブロック(第4図)〔発明の効果〕 〔産業上の利用分野〕 本発明は、音声式カバターンと予じめ登録した標準パタ
ーンとのマツチングによって音声認識を行なうものにお
いて、特に連続して発声した音節音声を認識処理する連
続音節認識方法に関する。
)連続音節認識のブロック(第4図)〔発明の効果〕 〔産業上の利用分野〕 本発明は、音声式カバターンと予じめ登録した標準パタ
ーンとのマツチングによって音声認識を行なうものにお
いて、特に連続して発声した音節音声を認識処理する連
続音節認識方法に関する。
人間の意思伝達手段である音声を認識する音声認識技術
の発達によシ、連続音声の認識も可能となりつつある。
の発達によシ、連続音声の認識も可能となりつつある。
このような連続音声の認識はデジタル技術の進歩によシ
実時間処理が可能となったという外的要因の他にD P
(Dynamic Prograrrming )
−q 7 f yグ法というパターン認識技術の発展に
よるところが大きい。このようなパターンマツチングに
よる連続音声認識は次のようにして行なわれる。
実時間処理が可能となったという外的要因の他にD P
(Dynamic Prograrrming )
−q 7 f yグ法というパターン認識技術の発展に
よるところが大きい。このようなパターンマツチングに
よる連続音声認識は次のようにして行なわれる。
入力された音声を分析すると、第5図(8)に示す様な
時間軸に対する各周波数域のパワー分布で表わされる。
時間軸に対する各周波数域のパワー分布で表わされる。
即ち、入力パターンCは1時刻qにおける音声の特徴ベ
クトルcqを用いて次式の特徴ベクトルCqの時系列で
表わされる。
クトルcqを用いて次式の特徴ベクトルCqの時系列で
表わされる。
C= (Ct 、 C* 、・・・Cq・・・CI)
・・・・・・・・・・・・・・・・・・・・・(1)
但し、qは時刻である。
・・・・・・・・・・・・・・・・・・・・・(1)
但し、qは時刻である。
一方、特徴ベクトルCqは音声分析のベクトル次数(周
波数チャネル数)をMとすると。
波数チャネル数)をMとすると。
Cq = (Cqt 、 CQ2・・・CqM) ・
・・・・・・・・・・・・・・・・・・・・・・・・・
・(2)で表わされる。
・・・・・・・・・・・・・・・・・・・・・・・・・
・(2)で表わされる。
このように表わされる入力パターンCに対し。
予じめ定められた単語等の標準パターンA″′(但しn
は単語名等を示す通し番号、n=1..2.・・・、N
)を登録しておき、第5図(B)に示す如く入力パター
ンCに対し距離Sが最小となる標準パターンの系列A
−A をハターンマッチングによって求めることに
よって音声認識処理が行なわれる。
は単語名等を示す通し番号、n=1..2.・・・、N
)を登録しておき、第5図(B)に示す如く入力パター
ンCに対し距離Sが最小となる標準パターンの系列A
−A をハターンマッチングによって求めることに
よって音声認識処理が行なわれる。
入力パターンと同様に標準パターンA0も特徴ベクトル
a、で表現すると9次式の如くなる。
a、で表現すると9次式の如くなる。
r == (al 、 a2・・・a、・・・aJn)
・・・・・・・・・・・・・・・・・・・・・(3)但
し、a、nは第(2)式と同様に。
・・・・・・・・・・・・・・・・・・・・・(3)但
し、a、nは第(2)式と同様に。
々−(a:1. a″q2・・・・・・a′qM)・・
・・・・・・・・・・・・・・・・・・・・・・(4)
このような入力パターンCとに語の単語の標準パターン
系列A −A との間の距離Sは次の様に定義され
る。
・・・・・・・・・・・・・・・・・・・・・・(4)
このような入力パターンCとに語の単語の標準パターン
系列A −A との間の距離Sは次の様に定義され
る。
即ち、入力パターンCO1番目の入力パターンと1番目
に設定された標準パターンhn(1ゝとの距離の和で表
わされ、N種の標準パターンgをに個種々に組合せて(
5)式を動的計画法(Dynamic Progr−a
mming ) によって実行し、距離Sの最も小さ
い組合せである標準パターン系列を求めて、これを認識
結果とするものである。
に設定された標準パターンhn(1ゝとの距離の和で表
わされ、N種の標準パターンgをに個種々に組合せて(
5)式を動的計画法(Dynamic Progr−a
mming ) によって実行し、距離Sの最も小さ
い組合せである標準パターン系列を求めて、これを認識
結果とするものである。
一方、第5図(qに示す如く入力パターンCは。
同一の単語等を発声してもその時間長は一定でなく2発
声によって長く伸ばされたり、短くされたすする。この
ため第(5)式によって入力パターンCに相当する標準
パターンAとの距離を求めても。
声によって長く伸ばされたり、短くされたすする。この
ため第(5)式によって入力パターンCに相当する標準
パターンAとの距離を求めても。
時間長の違いによる分大きくなる。このような本質的で
ない差を排除するため、第5図(至)に示す如く時間正
規化マツチングによって標準パターンAを伸縮させて入
力パターンCとパターンマツチングし、最も距離の短い
ものを選んで第(5)式の1番目の距離Sとしている。
ない差を排除するため、第5図(至)に示す如く時間正
規化マツチングによって標準パターンAを伸縮させて入
力パターンCとパターンマツチングし、最も距離の短い
ものを選んで第(5)式の1番目の距離Sとしている。
このような手法は2段DPマツチング法と称されている
。
。
このようなパターンマツチングを利用した音声認識にお
いては、認識単位として従来音素、音節。
いては、認識単位として従来音素、音節。
単語などを用いるものが提案されている。単語を認識単
位として用いる方法においては9例えば第6図(5)の
[カワサキ(kawasaki ) Jという音声入力
を認識するには第6図(B)の如く「カワサキ」の標準
パターンを登録しておかなければならず、従って用いら
れる全ての単語の標準パターンの登録を必要とし、登録
の負担が大となり、しかもこれらの認識処理量も犬とな
シ、特定の極く少数の単語のみを認識対象とする特別の
用途以外に用いる利点はなく汎用性に乏しい。一方、音
素、即ち第6図(5)のrkj raj’rWj・・・
「i」という音素を認識対象として用いる方法では、基
本単位数が少ない利点はあるものの、登録のために音素
を単独に発声することが不可能であり、また調音結合の
対処が困難である。
位として用いる方法においては9例えば第6図(5)の
[カワサキ(kawasaki ) Jという音声入力
を認識するには第6図(B)の如く「カワサキ」の標準
パターンを登録しておかなければならず、従って用いら
れる全ての単語の標準パターンの登録を必要とし、登録
の負担が大となり、しかもこれらの認識処理量も犬とな
シ、特定の極く少数の単語のみを認識対象とする特別の
用途以外に用いる利点はなく汎用性に乏しい。一方、音
素、即ち第6図(5)のrkj raj’rWj・・・
「i」という音素を認識対象として用いる方法では、基
本単位数が少ない利点はあるものの、登録のために音素
を単独に発声することが不可能であり、また調音結合の
対処が困難である。
このため、音節を認識単位とする方法が利用されている
。音節を認識単位とする方法は9例えば第6図(A)の
「kawasaki jの例ではCV音節単位。
。音節を認識単位とする方法は9例えば第6図(A)の
「kawasaki jの例ではCV音節単位。
即ち「kaj 、 [waJ 、 [saj 、 「k
iJ 、と区切って認識処理する方法であり、このため
には、入力パターン自体をC■音節単位にセグメンテー
ションして(区切って)、第6図(qの音節単位の標準
パターンとDPマツチング法等でマツチングして認識を
行なうようにしている。
iJ 、と区切って認識処理する方法であり、このため
には、入力パターン自体をC■音節単位にセグメンテー
ションして(区切って)、第6図(qの音節単位の標準
パターンとDPマツチング法等でマツチングして認識を
行なうようにしている。
しかし外から、係る従来の音節単位の認識においては、
入力パターンのセグメンテーションが難しく、セグメン
テーション誤りが生ずると以降の認識に影響し、認識率
が低下するという問題があった。
入力パターンのセグメンテーションが難しく、セグメン
テーション誤りが生ずると以降の認識に影響し、認識率
が低下するという問題があった。
この欠点を防ぐため、C■音節だけでなく■C■音節も
用いて認識すると、音節の登録の負担が犬となるという
問題があり、更にC■及び■C■音節を連結して単語標
準パターンを作成してそれによシ認識を行うと、認識処
理量の増大やCV音節の接続法が難しいという問題が生
じていた。
用いて認識すると、音節の登録の負担が犬となるという
問題があり、更にC■及び■C■音節を連結して単語標
準パターンを作成してそれによシ認識を行うと、認識処
理量の増大やCV音節の接続法が難しいという問題が生
じていた。
本発明は、高い認識率を少ない認識処理量によって得る
ことができる連続音節認識方法を提供することを目的と
する。
ことができる連続音節認識方法を提供することを目的と
する。
第1図は本発明の連続音節認識方法の原理説明図である
。本発明では、複数個の音節を連続して発声した未知入
力音声を分析して得られた音響的特徴を示す入力パター
ンとまず母音標準パターンとをパターンマツチングする
。この詩人カバターンは母音のみではないため、母音標
準パターンを連結して入力パターンとマツチングさせる
際に母音標準パターンの端部同志が境界で少なくとも離
隔している場合を(連接している場合と重複している場
合と更に組合せてもよい)対象にマツチングを行って認
識結果として母音部のセグメンテーションと候補標準パ
ターンを決定する。次に、係る母音部の認識結果を用い
て入力パターンを音節単位に音節標準パターンとマツチ
ング処理して認識を行なうようにしている。
。本発明では、複数個の音節を連続して発声した未知入
力音声を分析して得られた音響的特徴を示す入力パター
ンとまず母音標準パターンとをパターンマツチングする
。この詩人カバターンは母音のみではないため、母音標
準パターンを連結して入力パターンとマツチングさせる
際に母音標準パターンの端部同志が境界で少なくとも離
隔している場合を(連接している場合と重複している場
合と更に組合せてもよい)対象にマツチングを行って認
識結果として母音部のセグメンテーションと候補標準パ
ターンを決定する。次に、係る母音部の認識結果を用い
て入力パターンを音節単位に音節標準パターンとマツチ
ング処理して認識を行なうようにしている。
従って、入力パターンの母音部を優先して認識し、この
認識結果を用いて入力パターンの音節を認識するように
している。
認識結果を用いて入力パターンの音節を認識するように
している。
連続音節入力のうち母音部は継続時間が比較的長くパワ
ーが大でしかも安定している0又、母音部はパターンが
a(7)li(イ)t”(つ)t ext o(i及び
n(財)と少なく、パターンマツチングした際の誤シが
少ない。すなわち、母音部を先づ優先的に認識すれば、
高い認識率及び正確なセグメンテーションが可能となる
。音声入力パターンは母音部ばかシでないから単に母音
標準パターンを連結して入力パターンとマツチングして
も母音部の認識は不可能なため、母音標準パターンの端
部同志が少なくとも離隔している場合とを対象にマツチ
ングしている。
ーが大でしかも安定している0又、母音部はパターンが
a(7)li(イ)t”(つ)t ext o(i及び
n(財)と少なく、パターンマツチングした際の誤シが
少ない。すなわち、母音部を先づ優先的に認識すれば、
高い認識率及び正確なセグメンテーションが可能となる
。音声入力パターンは母音部ばかシでないから単に母音
標準パターンを連結して入力パターンとマツチングして
も母音部の認識は不可能なため、母音標準パターンの端
部同志が少なくとも離隔している場合とを対象にマツチ
ングしている。
このマツチング結果よシ入力パターンのセグメンテーシ
ョンができるため、以降音節標準パターンと入力パター
ンの音節部とのマツチングによって最終的な認識結果が
得られる。この時音節のセグメンテーション及びその音
節の母音部の認識は行なわれているから、認識は容易で
認識量も小ですむ。
ョンができるため、以降音節標準パターンと入力パター
ンの音節部とのマツチングによって最終的な認識結果が
得られる。この時音節のセグメンテーション及びその音
節の母音部の認識は行なわれているから、認識は容易で
認識量も小ですむ。
(1)連続音節認識方法の説明。
第2図は本発明の詳細な説明図、第3図は第2図におけ
る母音部認識の説明図である。
る母音部認識の説明図である。
入力パターンを「kawasaki jとすると9本発
明ではこのうち先づ母音部であるraj 、 raJ
、 raj 。
明ではこのうち先づ母音部であるraj 、 raJ
、 raj 。
Fil を対象に入力パターンと母音標準パターンA
n0)〜AnQdとのマツチング処理によって行なう。
n0)〜AnQdとのマツチング処理によって行なう。
これを第3図を用いて説明する。
従来の2段DPマツチング法では、蝋準パターンAnL
l)が照合される入力パターンのi番目の部分を開始点
b (i)から終点点e (i)までの特徴ベクトルC
(b(i) 、 e(i))によって表わすと、第(5
)式は次の如くなる。
l)が照合される入力パターンのi番目の部分を開始点
b (i)から終点点e (i)までの特徴ベクトルC
(b(i) 、 e(i))によって表わすと、第(5
)式は次の如くなる。
ここで。
C(b(i) e e(i)) = (Cb(1)+
Cb(1)+s・・’ l Ce(1) ) −−−(
7)但し、1≦b(i)≦e(i)≦I で定義される。
Cb(1)+s・・’ l Ce(1) ) −−−(
7)但し、1≦b(i)≦e(i)≦I で定義される。
尚、DCC(b(i)、e(i))、AI(Iゝ〕ハ9
部分ハターンC(b(i) 、 e(i))と標準パタ
ーンAn(1)との間の距離であって1時間正規化の式
に従い。
部分ハターンC(b(i) 、 e(i))と標準パタ
ーンAn(1)との間の距離であって1時間正規化の式
に従い。
・・・・・・・・・・・・・・・ (8)で定義される
。
。
ここで+ d(cl、a3 )は第(2)式、第(4
)式の特徴ベクトルCJraj 間の距離であって。
)式の特徴ベクトルCJraj 間の距離であって。
で定義される。
又、第(8)式中のlとjとの対応関係を示す関数j
(7)には次のような条件が仮定する。
(7)には次のような条件が仮定する。
j (l+1) e (j(1)、 j(l)+−1,
j(l)+−2) )・・・・曲・・・・曲・・鵠j
(b(i)) = 1 、 j (e(i)) = J
・・・曲・・・・・・曲曲αυn−R≦j (1
)≦/+R四囲・四囲・四囲・(L4尚、Rはある定数
とする。
j(l)+−2) )・・・・曲・・・・曲・・鵠j
(b(i)) = 1 、 j (e(i)) = J
・・・曲・・・・・・曲曲αυn−R≦j (1
)≦/+R四囲・四囲・四囲・(L4尚、Rはある定数
とする。
j(n)=j (it )のとき、 j(AI1)=
jω)−1・曲間α騰更に9部分パfi −y C(b
(j)、 e(1)) (D始点b(i)と終点e (
i)に対しては、kを連続する標準パターン数すなわち
部分パターン数として次のような条件を仮定する。
jω)−1・曲間α騰更に9部分パfi −y C(b
(j)、 e(1)) (D始点b(i)と終点e (
i)に対しては、kを連続する標準パターン数すなわち
部分パターン数として次のような条件を仮定する。
b(i)二e(i−1)+1 但し、i=2.3・・
・k 曲・・・・・・・・ α荀b(1)=1 、 e
(k)=I ・・・・・・・聞・・・・
四囲・(lωQ4)式の条件は、第5図(B)で説明し
た任意の相隣る部分パターンの端点が連続して配置され
ていることを表わしており、(Is式の条件は入力パタ
ーンの始端と終端での条件を示している。
・k 曲・・・・・・・・ α荀b(1)=1 、 e
(k)=I ・・・・・・・聞・・・・
四囲・(lωQ4)式の条件は、第5図(B)で説明し
た任意の相隣る部分パターンの端点が連続して配置され
ていることを表わしており、(Is式の条件は入力パタ
ーンの始端と終端での条件を示している。
以上が、従来の2段pPマツチング法による連続音節認
識の概要であシ2例えば情報科学講座E・19・3「音
声認識」(昭和54年10月10日共立出版発行)や日
経エレクト四二クス階329(昭和58年1)月7日日
経マグロウヒル社発行)等に詳述されている。
識の概要であシ2例えば情報科学講座E・19・3「音
声認識」(昭和54年10月10日共立出版発行)や日
経エレクト四二クス階329(昭和58年1)月7日日
経マグロウヒル社発行)等に詳述されている。
係る原理は、相隣る部分パターンの端部が連続している
ことを前提にしているため、子音と母音との組合せを含
む連続音節から母音のみをマツチング処理できない。即
ち、第2図(8)の如く母音が子音によって分離されて
いるためである。
ことを前提にしているため、子音と母音との組合せを含
む連続音節から母音のみをマツチング処理できない。即
ち、第2図(8)の如く母音が子音によって分離されて
いるためである。
本発明では、第1に相隣る2つの部分パターンの端部に
対する条件a4式を変更して、端部同志での一定の範囲
の離隔関係を認めることによル、母音のみのマツチング
を可能としているものである。
対する条件a4式を変更して、端部同志での一定の範囲
の離隔関係を認めることによル、母音のみのマツチング
を可能としているものである。
即ち、第3回置に示す如く、相隣る2つの部分パターン
の端部同志に予め定められた長さQ以下の範囲での離隔
を認める条件は1次の通シである。
の端部同志に予め定められた長さQ以下の範囲での離隔
を認める条件は1次の通シである。
e(i−1)+1≦b(i)≦e (i −1) +
Q+1− (lf9ここで、i=2.a・・・kであり
、Qは子音の発音時間長を参照して定められる。従って
、第2装置において母音のみを対象としたマツチング処
理が可能となる。
Q+1− (lf9ここで、i=2.a・・・kであり
、Qは子音の発音時間長を参照して定められる。従って
、第2装置において母音のみを対象としたマツチング処
理が可能となる。
一方、 「aomori (アオモリ)」の「aO(
アオ)」の如く母音の連続した場合には調音結合が生じ
認識が難しくなる。このため同様に(14)式を変更し
て。
アオ)」の如く母音の連続した場合には調音結合が生じ
認識が難しくなる。このため同様に(14)式を変更し
て。
端部同志での一定の範囲の重複関係を認める。第3図の
)に示す如くこの相隣る2つの部分パターンの端部同志
間に予め定められた長さP以下の範囲での重複を認める
場合の条件は9次の通りである。
)に示す如くこの相隣る2つの部分パターンの端部同志
間に予め定められた長さP以下の範囲での重複を認める
場合の条件は9次の通りである。
e(i−1) −P+1≦b(i)≦e (i−1)
+ 1 =・・・(17)従って、離隔の他に重複をも
認める場合の条件は、第0匂式及び第(17)式を合成
することによシ。
+ 1 =・・・(17)従って、離隔の他に重複をも
認める場合の条件は、第0匂式及び第(17)式を合成
することによシ。
e(i−1)−P+1≦b(i)≦e(1−1)+Q+
1 =QI但し i=2.a・・・k となり、第3図(qで示される。
1 =QI但し i=2.a・・・k となり、第3図(qで示される。
次に、母音部は第2図(ト)の例の如く、入力バター/
における先頭の母音「a」の開始点b(1)が入力パタ
ーンの先頭にあるとは必らず、同様に入力パターンにお
ける最後の母音の終点点e(k)が入力パターンの最後
にあるとは限らないことから。
における先頭の母音「a」の開始点b(1)が入力パタ
ーンの先頭にあるとは必らず、同様に入力パターンにお
ける最後の母音の終点点e(k)が入力パターンの最後
にあるとは限らないことから。
第(151式をそのまま用いられず、以下の条件が導入
される。
される。
1≦b(1)≦Q+1 ・・・・・・・・・・・・・
・・・・・・・・・・・・・・・・・・・・(1!JI
−Q≦e (k)≦I ・・・・・・・・・・・・・
・・・・・・・・・・・・・・・・・・・・翰本発明は
、隣接する2つの部分パターンの端部に対する上記した
条件αe 、 (Iglのいずれかと←特、翰式の条件
のもとに入力パターンと標準パターン系列との間の距離
(6)式を最小とするようなk(母音数)、n(盪)(
母音の種類’) I b(+) 、 e(i)(母音部
の区間)を求めて、それらを母音の認識結果とするもの
である。又、従来の2段DPマツチング法では、入力パ
ターンと標準パターン系列との間の距離Sが第(6)式
で示されているが、この式による距離Sは2部分パター
ンの長さと標準パターンの個数とに依存する性質をもっ
ているため、前記第(16)、(1力、 (181)式
の拡張された条件のもとてのパターンマツチングのため
の評価関数として使用するには、その特性が十分ではな
い。そこで、第(6)式を部分パターンの長さと、標準
パターンの個数で平均化した正規化圧18″を導入し9
次式で示すものとする。
・・・・・・・・・・・・・・・・・・・・(1!JI
−Q≦e (k)≦I ・・・・・・・・・・・・・
・・・・・・・・・・・・・・・・・・・・翰本発明は
、隣接する2つの部分パターンの端部に対する上記した
条件αe 、 (Iglのいずれかと←特、翰式の条件
のもとに入力パターンと標準パターン系列との間の距離
(6)式を最小とするようなk(母音数)、n(盪)(
母音の種類’) I b(+) 、 e(i)(母音部
の区間)を求めて、それらを母音の認識結果とするもの
である。又、従来の2段DPマツチング法では、入力パ
ターンと標準パターン系列との間の距離Sが第(6)式
で示されているが、この式による距離Sは2部分パター
ンの長さと標準パターンの個数とに依存する性質をもっ
ているため、前記第(16)、(1力、 (181)式
の拡張された条件のもとてのパターンマツチングのため
の評価関数として使用するには、その特性が十分ではな
い。そこで、第(6)式を部分パターンの長さと、標準
パターンの個数で平均化した正規化圧18″を導入し9
次式で示すものとする。
即ち、母音部の認識とセグメンテーションは(16)又
は■式及び(19、(21)式の条件のもとて第01)
式を最小にするような標準パターン系列を求めることで
あり、これは動的計画法により解くことができる。
は■式及び(19、(21)式の条件のもとて第01)
式を最小にするような標準パターン系列を求めることで
あり、これは動的計画法により解くことができる。
次に9条件(1槌、α9 、 (201式のもとて(2
1)式の距離S′を最小にするk 、 n(i) 、
b(i) 、 e(i) 、但しi=1.2・・・k、
を求める手順について説明する。
1)式の距離S′を最小にするk 、 n(i) 、
b(i) 、 e(i) 、但しi=1.2・・・k、
を求める手順について説明する。
第00式の最小化問題は、つぎの3つのステップに分け
て考えることができる。ここでKは入力パターンに含ま
れる音節の個数の最大値である。
て考えることができる。ここでKは入力パターンに含ま
れる音節の個数の最大値である。
I−12・・k
1−z、s・・・k
このことを利用して計算手順を次のようにする。
(1)部分パターンレベルマツチング
入力パターンの任意の部分パターンC(bleLl≦b
≦e(Iについて母音標準パターン!、ここではn−6
(ア、イ、つ、工、オ、ン)との類似度を求め、第(財
)式o D (b(i)、 e(i))を求める。第0
4)式を求めるには、動的計画法を用いて1次のように
して求めることができる。
≦e(Iについて母音標準パターン!、ここではn−6
(ア、イ、つ、工、オ、ン)との類似度を求め、第(財
)式o D (b(i)、 e(i))を求める。第0
4)式を求めるには、動的計画法を用いて1次のように
して求めることができる。
g (b e 1 ) = d(cb t at )
・・・・・・・・・・・・・・・・・・・・・・・・
・・・12つを初期値として、漸化式 %式%() の範囲で順次計算すると2次式で与えられる。
・・・・・・・・・・・・・・・・・・・・・・・・
・・・12つを初期値として、漸化式 %式%() の範囲で順次計算すると2次式で与えられる。
D(C(b、e)、A’ ) −g(e、、T”)
・・・・・・・・・・・・・・・・・・翰そこで、各C
(b、e)についてD(C(b、e)、A” )/(e
−b+1)の最小値D(b、e)と、そo時ノ母音i!
準パターンの番号会(b、e)を求め表を作成する。
・・・・・・・・・・・・・・・・・・翰そこで、各C
(b、e)についてD(C(b、e)、A” )/(e
−b+1)の最小値D(b、e)と、そo時ノ母音i!
準パターンの番号会(b、e)を求め表を作成する。
(2)入力ハターンレベルマッチンク
次に、各1≦b(1)≦Q+1とkに対して8k(b(
1)、 ’e(k))、I−Q≦e (k)≦工を以
下のように動的計画法により求める。
1)、 ’e(k))、I−Q≦e (k)≦工を以
下のように動的計画法により求める。
即ち、長さがOで9部分パターン数が00場合の
so(b(i)、 o ) = o ・・・
・・・・・・・・・・・・・・・・・・・・・・・・・
・・・・・ (至)を初期条件とし、DP漸化式 を。
・・・・・・・・・・・・・・・・・・・・・・・・・
・・・・・ (至)を初期条件とし、DP漸化式 を。
1=1s 2・K t e(i)=1.2.、、Iの範
囲で順次計算すると9次式で与えられる。
囲で順次計算すると9次式で与えられる。
8に= 8+c (b(1)、 I ) ・・・
・・・・・・・・・・・・・・・・・・・・申・・・・
・・・・・・・・・ 02ここで、O])式を計算する
ときには、各iとe(i)についテCD(b(i)、e
(i))+8+−+(b(1)、e(i 1)) )
を最小K f ルe(i−1)とb (i)を各々E
l(b(1)、 e) 、 B+(b(1)、 e )
とし2次の様に定義する。
・・・・・・・・・・・・・・・・・・・・申・・・・
・・・・・・・・・ 02ここで、O])式を計算する
ときには、各iとe(i)についテCD(b(i)、e
(i))+8+−+(b(1)、e(i 1)) )
を最小K f ルe(i−1)とb (i)を各々E
l(b(1)、 e) 、 B+(b(1)、 e )
とし2次の様に定義する。
・・・・・・・・・・・・・・・(ト)これによって得
られた& (b(1)、 e ) t B+ (b(1
)、 e )を表として格納しておく。
られた& (b(1)、 e ) t B+ (b(1
)、 e )を表として格納しておく。
全てのに=1.2・・・Kについて8kが求まると。
このようにして、入力パターンに対する最適母音数に、
最初の母音の開始点b (1) 、最後の母音の終了点
e (k)が得られる。更に、最適な各母音の開始点b
(i) = b (i)及び終了点e (i−i)
= e (i−t) 。
最初の母音の開始点b (1) 、最後の母音の終了点
e (k)が得られる。更に、最適な各母音の開始点b
(i) = b (i)及び終了点e (i−i)
= e (i−t) 。
但しi=2.3・・・↑はパックトラック(back
tr−ack )によって次のように求められる。
tr−ack )によって次のように求められる。
初期条件をt萱とし。
漸化式
%式%
をl=に、に−1,・・・2の順で計算していく。
そして認識結果である母音の系列n (i)は。
肴(i)−鍛茄)#e(i))
但し、i=1,2・・・k ・・・・・・・・・・・
・・・・・・・・・・・・・・・・C37)をN (b
、e)のテーブルよシ求める。
・・・・・・・・・・・・・・・・C37)をN (b
、e)のテーブルよシ求める。
さらに、切シ出された母音部分の中央部分に母音標準パ
ターンの中央部分をマツチングさせ、母音部の識別精度
を上げる。
ターンの中央部分をマツチングさせ、母音部の識別精度
を上げる。
即ち、切出された。各母音部分b(i)〜e (i)の
中央部分9例えば、5フレーム(サンプル)分と。
中央部分9例えば、5フレーム(サンプル)分と。
各母音標準パターンの中央部分5フレ一ム分とを再マツ
チングし、その差を求め、差が最小となる母音標準パタ
ーンをその母音部分の母音認識結果とする。この時、前
述の候補母音標準パターンと異なる結果が生じた時は、
再マツチングの結果を優先する。
チングし、その差を求め、差が最小となる母音標準パタ
ーンをその母音部分の母音認識結果とする。この時、前
述の候補母音標準パターンと異なる結果が生じた時は、
再マツチングの結果を優先する。
このようにして、第2図(5)の如く入力パターンの母
音部raJ 、 raj 、 raJ 、 「ilが求
まシ、各母音の区間開始点b(i)、終了点e (i)
が求まると、第2図(qの如く入力パターンが図の例で
は4つの音節に分離され、これらはC■音節の標準パタ
ーンと時間正規化マツチングされて各音節部の認識が行
なわれる。この時各音節の母音部は既に認識されている
ので、その母音を含むC■音節とのパターンマツチング
のみが行なわれ、最終的な認識結果(図の例では「ka
wasakij )が得られる。
音部raJ 、 raj 、 raJ 、 「ilが求
まシ、各母音の区間開始点b(i)、終了点e (i)
が求まると、第2図(qの如く入力パターンが図の例で
は4つの音節に分離され、これらはC■音節の標準パタ
ーンと時間正規化マツチングされて各音節部の認識が行
なわれる。この時各音節の母音部は既に認識されている
ので、その母音を含むC■音節とのパターンマツチング
のみが行なわれ、最終的な認識結果(図の例では「ka
wasakij )が得られる。
次に本発明方法を実現するだめの構成を第4図によシ説
明する。図中、1はマイクロフォンであり、音声入力を
するためのものであシ、連続音節音声を電気信号に変換
するもの、2は分析部であシ9例えばMチャネルのBP
F (バンドパスフィルタ)で構成され、各チャネルの
パワー成分をデジタル値として出力するもの、3はプロ
セッサであり、音声認識に必要な動的計画法等の計算を
プログラム制御により行なうもの、4は標準パターン用
RAM(ランダムアクセスメモリ)であり。
明する。図中、1はマイクロフォンであり、音声入力を
するためのものであシ、連続音節音声を電気信号に変換
するもの、2は分析部であシ9例えばMチャネルのBP
F (バンドパスフィルタ)で構成され、各チャネルの
パワー成分をデジタル値として出力するもの、3はプロ
セッサであり、音声認識に必要な動的計画法等の計算を
プログラム制御により行なうもの、4は標準パターン用
RAM(ランダムアクセスメモリ)であり。
標準のV音節である母音(アイウニオン)及びC■音節
(力行〜ワ行、ガ行〜パ行)パターンtを格納しておく
ものであり、特定話者がマイクロフォン1よシ各母音及
び音節を発声して分析部2より得た入力パターンを標準
パターンとして格納しておくもの、5はCPU用RAM
でアシ、プロセッサ3が音声認識処理に必要な途中デー
タや入力パターンを格納しておくものであわ、入力パタ
ーンCを格納する入カニリア5a、部分距離りを格納す
る部分エリア5b、その時のパターン番号を格納する番
号エリア5c、パターン距離Skを格納するパターンエ
リア5 d* E、、 Blを格納するパラメータエリ
ア5eと、最適なkp n(’) * b(’) +
e(’)を格納する母音認識エリア5fを有するもの、
6はこれらを接続するバスである。
(力行〜ワ行、ガ行〜パ行)パターンtを格納しておく
ものであり、特定話者がマイクロフォン1よシ各母音及
び音節を発声して分析部2より得た入力パターンを標準
パターンとして格納しておくもの、5はCPU用RAM
でアシ、プロセッサ3が音声認識処理に必要な途中デー
タや入力パターンを格納しておくものであわ、入力パタ
ーンCを格納する入カニリア5a、部分距離りを格納す
る部分エリア5b、その時のパターン番号を格納する番
号エリア5c、パターン距離Skを格納するパターンエ
リア5 d* E、、 Blを格納するパラメータエリ
ア5eと、最適なkp n(’) * b(’) +
e(’)を格納する母音認識エリア5fを有するもの、
6はこれらを接続するバスである。
(2)連続音節認識の構成の説明。
次に第4図実施例構成の動作について説明する。
ここで、標準パターン用RAM4には、予じめ特定話者
が母音、音節を発声して得た分析部2の出力である標準
パターンAが格納されているものとし、この標準パター
ンAは、特定話者が同一の母音、CV音節を複数回発声
して得た標準パターン又はその平均を標準パターンAと
して格納しておくものとする。
が母音、音節を発声して得た分析部2の出力である標準
パターンAが格納されているものとし、この標準パター
ンAは、特定話者が同一の母音、CV音節を複数回発声
して得た標準パターン又はその平均を標準パターンAと
して格納しておくものとする。
(a) 特定話者がマイクロフォン1を介し連続音節
を発声し、入力すると9分析部2から入力パターンCは
バス6を介しCPU用RAM5の入カニリア5aに格納
される。
を発声し、入力すると9分析部2から入力パターンCは
バス6を介しCPU用RAM5の入カニリア5aに格納
される。
(b) 次に、プロセッサ3は9部分パターンレベル
マツチング処理を行い、標準パターン用RAM4よシ母
音標準パターンのセットをバス6を介し読み出し、更に
CPU用RAM5の入カニリア5aの入力パターンCを
読み出し、第(2(ト)式から第e9)式を実行し、更
に各C(b、e)に対し、最小値D(b。
マツチング処理を行い、標準パターン用RAM4よシ母
音標準パターンのセットをバス6を介し読み出し、更に
CPU用RAM5の入カニリア5aの入力パターンCを
読み出し、第(2(ト)式から第e9)式を実行し、更
に各C(b、e)に対し、最小値D(b。
e)とその母音パターン番号曾(b、e)とを求めCP
U用メモリの部分エリア5b、番号エリア5cに格納す
る。
U用メモリの部分エリア5b、番号エリア5cに格納す
る。
(e) 次に、プロセッサ3は、入力パターンレベル
マツチング処理を行ない、CPU用RAM5の部分エリ
ア5bの各f3 (b 、 e )を用いて(至)式、
C(1)式。
マツチング処理を行ない、CPU用RAM5の部分エリ
ア5bの各f3 (b 、 e )を用いて(至)式、
C(1)式。
(321式を実行し、各kに対するパターン間距離Sk
と。
と。
(33)式のパラメータEI+ B1を求め、CPU用
メモリ5のパターンエリア5d、パラメータエリア5e
に格納する。
メモリ5のパターンエリア5d、パラメータエリア5e
に格納する。
(d) 更に、プロセッサ3はCPU用メモリ5のパ
ターン間距離Skを用いて8に/kが最小となるものを
求め、その時の母音数に、開始点b (1) 、終了点
e rを(34)式により求め、エリア5fに格納する
。
ターン間距離Skを用いて8に/kが最小となるものを
求め、その時の母音数に、開始点b (1) 、終了点
e rを(34)式により求め、エリア5fに格納する
。
(e) 次に、プロセッサ3はバックトラック処理を
行い、漸化式(35) 、 (36)によって各b(i
)、 e(i−1)ヲ求め、更に最適のb(す、e(i
)に対するn(i)を07)式よシ番号エリア5Cによ
シ求め、これらをエリア5fに格納して、母音部のg識
を終了する。
行い、漸化式(35) 、 (36)によって各b(i
)、 e(i−1)ヲ求め、更に最適のb(す、e(i
)に対するn(i)を07)式よシ番号エリア5Cによ
シ求め、これらをエリア5fに格納して、母音部のg識
を終了する。
(f) この母音部の認識終了によって、プロセッサ
3は母音部の区間b(i) 、 e(i)を用いて入力
パターンCを第2図CB)の如く始点をb (i)から
b’(i)に変え。
3は母音部の区間b(i) 、 e(i)を用いて入力
パターンCを第2図CB)の如く始点をb (i)から
b’(i)に変え。
音節単位にセグメンテーションし、各セグメンテーショ
ンされた音節と標準パターンRAM4のCV音節標準パ
ターンとを前述の部分パターンレベルマツチングと同様
の方法でパターンマツチング処理する。この詩人カバタ
ーンCの音節部分の区間は前述のセグメンテーションに
よシ定めうしているのでC■音節標準パターンと時間正
規化マツチングを行な龜、距離りが最小となるC■音節
標準パターンを求めればよい。又、その音節の母音部は
決定されているので、全てのCV音節標準パターンとの
距離を求める必要はなく、その母音部 ・を有するC■
音節標準パターンを選択して距離を求めればよい。又、
音節が母音部のみの場合本あるから、プロセッサ3は音
節単位にセグメンテーションした結果、#点b (i)
が時間軸上前に変わらない時にはその音節は母音部のみ
と判定し、Cv音節標準パターンとのマツチング処理を
行なう必要はなく、母音部の認識結果をそのまま利用す
ればよい。
ンされた音節と標準パターンRAM4のCV音節標準パ
ターンとを前述の部分パターンレベルマツチングと同様
の方法でパターンマツチング処理する。この詩人カバタ
ーンCの音節部分の区間は前述のセグメンテーションに
よシ定めうしているのでC■音節標準パターンと時間正
規化マツチングを行な龜、距離りが最小となるC■音節
標準パターンを求めればよい。又、その音節の母音部は
決定されているので、全てのCV音節標準パターンとの
距離を求める必要はなく、その母音部 ・を有するC■
音節標準パターンを選択して距離を求めればよい。又、
音節が母音部のみの場合本あるから、プロセッサ3は音
節単位にセグメンテーションした結果、#点b (i)
が時間軸上前に変わらない時にはその音節は母音部のみ
と判定し、Cv音節標準パターンとのマツチング処理を
行なう必要はなく、母音部の認識結果をそのまま利用す
ればよい。
このようにして入力パターンに対し母音を優先的に認識
し、その結果を用いて入力パターンを音節単位に区切っ
てその音節が母音部のみ以外のものについてC■音節の
認識を行なうことができる。
し、その結果を用いて入力パターンを音節単位に区切っ
てその音節が母音部のみ以外のものについてC■音節の
認識を行なうことができる。
この認識結果は、ディスプレイに表示される。
以上本発明を一実施例により説明したが9本発明は本発
明の主旨に従い種々の変形が可能であり。
明の主旨に従い種々の変形が可能であり。
本発明からこれらを排除するものではない。
以上説明した様に9本発明によれば、連続音節入力パタ
ーンのうち、継続長が長く安定している母音部を優先的
に母音標準パターンの端部同志を少なくとも離隔した場
合について入力パターンとマツチングして認識している
ので、比較的正確な母音部のセグメンテーションと候補
母音標準パターンが決定でき、その結果を用いて連続音
節入力パターンを音節単位に認識しているので、連続音
節における認識率の向上が可能となるという効果を奏す
る。しかも母音標準パターンの数は少なく母音部の認識
処理量は少なくて済み、且つ母音部の認識結果を用いて
入力パターンを音節単位に認識処理できるからこの音節
単位の認識処理量も少なく済み、全体としての認識処理
量が大幅に減少するという効果も奏し、認識速度の向上
及び認識処理に要するハードウェアの減少に寄与し、連
続音節認識システムの普及に寄与するところが大きい0
ーンのうち、継続長が長く安定している母音部を優先的
に母音標準パターンの端部同志を少なくとも離隔した場
合について入力パターンとマツチングして認識している
ので、比較的正確な母音部のセグメンテーションと候補
母音標準パターンが決定でき、その結果を用いて連続音
節入力パターンを音節単位に認識しているので、連続音
節における認識率の向上が可能となるという効果を奏す
る。しかも母音標準パターンの数は少なく母音部の認識
処理量は少なくて済み、且つ母音部の認識結果を用いて
入力パターンを音節単位に認識処理できるからこの音節
単位の認識処理量も少なく済み、全体としての認識処理
量が大幅に減少するという効果も奏し、認識速度の向上
及び認識処理に要するハードウェアの減少に寄与し、連
続音節認識システムの普及に寄与するところが大きい0
第1図は本発明の原理説明図。
第2図は本発明の詳細な説明図。
第3図は第2図における母音部認識の説明図。
第4図は本発明方法を実施するためのブロック図。
第5図はパターンマツチングを用いた連続音声認識の説
明図。 第6図は従来の連続音節認識の説明図である。 図中、C・・・未知入力パターン !・・・標準パターン ト・・マイクロフォン 2・・・分析部 3・・・プロセッサ 4・・・標準パターンメモリ 5・・・CPU用メモリ
明図。 第6図は従来の連続音節認識の説明図である。 図中、C・・・未知入力パターン !・・・標準パターン ト・・マイクロフォン 2・・・分析部 3・・・プロセッサ 4・・・標準パターンメモリ 5・・・CPU用メモリ
Claims (5)
- (1)複数個の音節を連続して発声した未知入力音声を
分析して得られた音響的特徴を表す入力パターンに、予
じめ記憶しておいた母音の標準パターンを複数個各々隣
合う母音の標準パターンの端部同志が境界で少なくとも
離隔している場合を対象にマッチングを行い、 該入力パターンと該複数個の母音標準パターンとの類似
度が最も高くなるような該入力パターンの母音部のセグ
メンテーシヨンと候補母音標準パターンを決定し、 該入力パターンの母音部の認識結果に基いて該入力パタ
ーンを音節単位に認識することを特徴とする連続音節認
識方法。 - (2)前記マッチングは、前記端部同志が境界で連接し
ている場合と前記離隔している場合とを対象に行なうこ
とを特徴とする特許請求の範囲第(1)項記載の連続音
節認識方法。 - (3)前記マッチングは、前記端部同志が境界で重複し
ている場合と前記離隔している場合とを対象に行なうこ
とを特徴とする特許請求の範囲第(1)項記載の連続音
節認識方法。 - (4)前記マッチングは、前記端部同志が境界で連続し
ている場合と重複している場合と前記離隔している場合
とを対象に行なうことを特徴とする特許請求の範囲第(
1)項記載の連続音節認識方法。 - (5)前記母音部のセグメンテーシヨンと候補母音標準
パターンの決定の後に、さらに、各母音部ごとに独立に
、再度母音標準パターンとの照合を行い、該入力パター
ンの母音部の認識結果を得ることを特徴とする特許請求
の範囲第(1)項記載の連続音節認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60020725A JPS61180295A (ja) | 1985-02-05 | 1985-02-05 | 連続音節認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60020725A JPS61180295A (ja) | 1985-02-05 | 1985-02-05 | 連続音節認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS61180295A true JPS61180295A (ja) | 1986-08-12 |
Family
ID=12035151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP60020725A Pending JPS61180295A (ja) | 1985-02-05 | 1985-02-05 | 連続音節認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS61180295A (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58199398A (ja) * | 1982-05-17 | 1983-11-19 | 富士通株式会社 | 音節抽出方式 |
JPS58199399A (ja) * | 1982-05-17 | 1983-11-19 | 富士通株式会社 | 音節抽出方式 |
JPS59124387A (ja) * | 1982-12-29 | 1984-07-18 | 富士通株式会社 | 連続単語音声認識方法 |
JPS59172692A (ja) * | 1983-03-22 | 1984-09-29 | 富士通株式会社 | 連続単語音声認識方法 |
JPS59172693A (ja) * | 1983-03-22 | 1984-09-29 | 富士通株式会社 | 連続単語音声認識方法 |
-
1985
- 1985-02-05 JP JP60020725A patent/JPS61180295A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58199398A (ja) * | 1982-05-17 | 1983-11-19 | 富士通株式会社 | 音節抽出方式 |
JPS58199399A (ja) * | 1982-05-17 | 1983-11-19 | 富士通株式会社 | 音節抽出方式 |
JPS59124387A (ja) * | 1982-12-29 | 1984-07-18 | 富士通株式会社 | 連続単語音声認識方法 |
JPS59172692A (ja) * | 1983-03-22 | 1984-09-29 | 富士通株式会社 | 連続単語音声認識方法 |
JPS59172693A (ja) * | 1983-03-22 | 1984-09-29 | 富士通株式会社 | 連続単語音声認識方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH02195400A (ja) | 音声認識装置 | |
JPS58102299A (ja) | 部分単位音声パタン発生装置 | |
JPS61219099A (ja) | 音声認識装置 | |
JPH029359B2 (ja) | ||
US4790017A (en) | Speech processing feature generation arrangement | |
JPS61180295A (ja) | 連続音節認識方法 | |
JP3477751B2 (ja) | 連続単語音声認識装置 | |
JPS60164800A (ja) | 音声認識装置 | |
JPS58149099A (ja) | パタ−ン認識方式 | |
JPS62173499A (ja) | 連続音声認識装置 | |
JPH0554678B2 (ja) | ||
JPH0469800B2 (ja) | ||
JPS62111295A (ja) | 音声認識装置 | |
JPH0449954B2 (ja) | ||
JPH0534680B2 (ja) | ||
JPS58223194A (ja) | 日本語音声入力方式 | |
JPS60147797A (ja) | 音声認識装置 | |
JPH0313599B2 (ja) | ||
JPH0574836B2 (ja) | ||
JPS61275799A (ja) | 音声認識装置 | |
JPH03228100A (ja) | 音声認識装置 | |
JPH026079B2 (ja) | ||
JPH0199097A (ja) | パターン作成装置 | |
JPH0199095A (ja) | パターン作成装置 | |
JPH0199099A (ja) | パターン比較装置 |