JPS6255700A - 音声母音認識方法 - Google Patents

音声母音認識方法

Info

Publication number
JPS6255700A
JPS6255700A JP19538285A JP19538285A JPS6255700A JP S6255700 A JPS6255700 A JP S6255700A JP 19538285 A JP19538285 A JP 19538285A JP 19538285 A JP19538285 A JP 19538285A JP S6255700 A JPS6255700 A JP S6255700A
Authority
JP
Japan
Prior art keywords
recognition
vowel
learning
vowels
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP19538285A
Other languages
English (en)
Other versions
JPH0427560B2 (ja
Inventor
木村 正行
兪 ▲ろんぐ▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP19538285A priority Critical patent/JPS6255700A/ja
Publication of JPS6255700A publication Critical patent/JPS6255700A/ja
Publication of JPH0427560B2 publication Critical patent/JPH0427560B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概 要〕 5つの母音からそれぞれ得られるケプストラム係数を特
徴とする特徴ベクトルの特徴ベクトル空間での相対位置
関係を利用して母音を認識することにより、認識率を向
上させた母音認識方法。
〔産業上の利用分野〕
本発明は、音声認識特に5母音の認識方式の改良に関す
るものである。
音声の個人差は不特定話者音声の= 識’t q現する
うえで大きな障害となっている。その問題の難しさは音
声の個人性情報は音韻情報と比べてあいまいで、しかも
音声波のさまざまな性質に分散しているという所にある
。その対策として、スペクトルパターンの修正や周波数
軸の伸縮、ホルマントの修正などの個人差の正規化方法
がある。しかし、個人性の原因は多様なのでそのような
方法は問題の解決にまだ十分対応できないのが現状であ
る。一方、識別関数やマルチテンプレートの作成、また
は適当な尺度で話者金分顛するなどのパターンマツチン
グの手法も試みられた。このような方法は実用の可能性
I′iあるが問題の本質に十分に触れず、話者への適応
能力が限られる。そこで学習を通して認識機械を話者の
個人性に適応させることが、個人差問題全解決する基本
的な方法の一つであると思われるが、この方向への研究
はまだ少ない。本発明ではこの方向を目指すものとして
、教師なし学習を基にした不特定話者音声母音認識の手
法について述べる。
音韻の中でも母音は個人性の重要な要因をなす声道構造
の基本特性を反映しているので、母音における個人差は
もっとも大きいと言える。そこで不特定話者音声中の母
音を高い信頼度で認識し、これを基礎にして単語ないし
連続音声の認識へと展開することが行なわれて来ている
〔従来技術〕
従来、母音を認識する方式として、第17図に示す様に
母音の第一、第二ホルマントを軸とする特徴空間におけ
る、5つの母音(a、i、u、e、o)の相対位置関係
を利用することが行なわれている。
つまり、例えば、母音(i)k基準にとると、母音1と
U間の距離diu 、 iと0間の距離dio 、 i
とaの距離dia l (1)と(e)の距離dieの
大小関係を利用して、入力母音の認識を行なう様にして
いる。
このため話者とは無関係の標準パターンにおける上記母
音間の距離を予め求めてメモリに記憶しておく。
そして、入力母音のそれぞれについて、第1゜第2ホル
マントから最初にある母音と仮定する。
ついで、この仮定が正しいか否かを検定するために、仮
定した母音間の距離をそれぞれ求め、これらの大小関係
が標準パターンにおける母音間の距離の大小関係と合致
しているか否かを調べる。
合致しておれば仮定が正しいと判断し、合致していなけ
れば、他の母音に仮定をやシ直して、再び同様のことを
行なう。
以上のことを繰り返し行なって、最終的に入力母音が何
であったかを認識する〇 次に前記の如く、話者への適合性を高めるために、標準
パターンの修正を行なう。
つ1力、上記認識全何回か行ない認識する毎に求めた母
音の絶対値の平均値を標準パターンとし、更にこのパタ
ーンから母音間の距離を求め、次に入力する母音の認識
に利用する。
〔従来技術の問題点〕
以上の様に、従来においては、入力母音の第1゜第2ホ
ルマントを利用しているが、この第1.第2ホルマント
の抽出を正確に行なうことが困難であるので、認識率が
低いと言う問題があった。
〔問題点を解決するための手段〕
本発明においては、このために、低次のケプストラム係
数金利用して認識を行なう様にした。
このケプストラムは、スペクトル包絡を求める方法の一
つである。
ケプストラムは、音声信号全高速フーリエ変換して求め
たパワスペクトルの対数をとったものを、さらに高速フ
ーリエ逆変換処理ヲ施したものとして、定義される。
音声のパワスペクトルはピッチ周波数の影響を受けて、
細かく波打った形状となる。一方、スペクトル包絡は、
この細かく波打ったパワスペクトルの概形を示している
。そこで、この波打ったパワスペクトルをある信号波形
とみなして、高速フーリエ逆変換を行なえば、その低周
波成分としてスペクトルの概形、すなわちスペクトル包
絡の情報が得られる。そして、この低周波成分のみをも
う一度高速フーリエ変換することにより、そのスペクト
ル包絡特性だけが求まることになる。
このように、音声信号のパワスペクトルの対数をとった
ものに、フーリエ逆変換処理を施して得られた波形をケ
プストラムとよんでいる。第1図(b)は、(a)に示
す母音6ア”に対するケプストラムを求めたものであシ
、(C)は(b)に示すケプストラムの低周波成分の1
から16までの係数を用いて、7−リエ変換して求めた
スペクトル包絡特性の例である。この低周波成分だけを
切り出す関数は、コムリフタ(comb −1ifte
r ; 1ifterはfilterの通読)とよばれ
ている。
また(b)図に示すケプストラムでは、本来パワスペク
トルの周波数関数となっている波形を、時間軸とみなし
てフーリエ逆変換処理を施している。
したがって横軸をfrequency  の通読をして
、ケフレンシ(quefrency )とよんでおり、
このケフレンシの次元は時間となっている。
ケプストラムを求める際にパワスペクトルの対数をとる
のは、次式に示すように、音声S (z)が声道の伝達
関数H(z)と、音源の伝達関数U (z)の積、l 
5(z) l ” == l H(z) l″l’[J
(z)l”となっていて、その対数をとることにより、
次のように和の形に分離することができるためであるO
Log l 5(z) l: 10g l H(z) 
l + log l U(z) 1また、スペクトルの
小さな変化の部分が対数をとることにより、拡大するた
めにもよる。
ケプストラムの特徴として、第1図(b)に示したよう
に、鋭いピークが存在する場合は、音声のパワスペクト
ルに、ある一定の周期が存在している。
そして、このピークのケフレンシは、そのまま元の波形
の周期となシ、これがピッチ周期となる。
以上の様にして求めたケプストラム係数金用いて前述し
た特徴空間における5母音間の相対位置関係を調査して
みると、話者に依存せず不変と見做し得る関係が存在す
ることが分かった。
従って本発明においては、とのケプストラム係数全用い
て表わされる母音間の相対位置関係全利用して、母音認
識のための標準パターンの修正及びこの修正した標準パ
ターンを用いて母音認識を行なう様にしだ。
以下このことについて詳細に説明する。
一部の話者についての実験結果を第2図に示す。
第2図は、1次から10次までのケプストラム係数から
なる特徴ベクトル9間を考え、この空間における5母音
の位置の分布を主成分分析の方法で第一2w、二主軸平
面へ写像したものである。第2図の異なる5角形は異な
る話者に対応する。第2図から異なる母音の絶対位t(
5角形の頂点に対応する〕の分布が、話者の間で重なり
合っていることがわかる。この現象は主に声道構造など
の個人差によるものと見られる。また、5母音の絶対位
置を繋ぐ5角形の形状も話者により一様ではない。これ
は声道構造の差のほか調音の仕方などの 。
差もあることを示している。これらのことは、平行移動
、伸縮などの簡単な正規化処理では個人差問題に対応し
にくいことを示している。
一方、同一話者の各母音の相対的な位置関係が話者によ
らずほぼ一定していることが実験結果(例えば後述する
第3図)から分かった0つまシ、ある母音の位tを始点
(原点)にとれば、それと他の母音の位置との距離の大
小関係がほぼ不変であるということである。次に、この
ことについてより詳しく説明しよう。
先ず特徴ベクトル空間における二つの母音の特徴ベクト
ルXv 、 Xv間の距離aVW金で表す。ここで、x
vjはXvの第j成分、Ml−1ベクトルの次元数で、
ここでは1次から10次のケプストラム係数を用いるの
でM=10とする。ある母音の特徴ベクトルXvと他の
すべての母音の特徴ベクトル’1rXz(z((a、i
、u、e、o))との距離を要素とする集合をDvで表
す。
Dv=(dyzlZ((a+i+u+e+ol)   
 (2)dvzは話者により一般に異なっている。しか
し、同一話者に関するDvの各要素間には、第2図の5
角形の特徴からみて、話者によらないで成立すると仮定
し得る一定の大小関係が存在する。例えば母音iと0の
距離dioとiとaの距離diaがdto < dia
              (3)となることは、例
外はないとはいえないが、まずどの話者についても成立
するものと考えてよい。
式(3)の大小関係kito+aに関する3項関係と呼
ぶ。第3図は式(3)が成立することを支持する資料の
1つである。すなわち、第4図に示すdata typ
eIの音声貸料(A組25人分)を用い、先ずそれぞれ
の話者に対して、すべての結合可能なCv音節の組み合
わせ(i、o、an各15個のとき、(15)”= 3
375通り)についてddi :oa ” dia  
dioの頻度を求め、ついでその頻度全25人について
平均したものが第3図のヒストグラムf (dd)であ
る。この資料ではddi:。a > 0  となってい
るので、式(3)は話者によらず成立すると考えるのが
妥当であることが分かる。一般にすべての話者について
成立するものと見なされるような3項関係:dvw<d
vz+1.e−+ddy:wz=dvz  dyy>0
  (4)f:総称して母音間の相対関係と呼ぶことに
する。
但し、V、W、Zは5母音からなる集合V=(a、e。
i、o、u)の要素である。本発明において、不変な相
対関係として採用した3項関係を第5図に示す。表のR
vは相対関係として採用された3項関係の中でvf始点
とする3項関係の集合(Rvの右の欄の大小関係の集ま
り)を表す。第5図の理解を扶けるために、特徴空間に
おける5角形の例を第6図に示す。5母音の相対関係の
全体(ここでは第5図)を関係モデルと呼びRで表す。
R= Ra U RI U Ru U R(I U R
o       (5)関係モデルRを用いると、同じ
話者の母音の特徴ベクトルを次のように特性化すること
ができる0すなわち、Xiが母音Vの特徴ベクトルでお
るためには、Rvに含まれる3項関係をすべて満足する
ことが必要である。つまり、Rvに含まれる3項関係の
1つをdyy<dy□、XjとXkはそれぞれ母音Wと
zの特徴ベクトルであるとするとき、次式で定義される
関数Rv :tvz (Xl rXjlxk)の値が1
となることが必要であり 、Rvの他の3項関係につい
ても同様である。
〔作 用〕
ここで行われる教師なし学習の目的は、話者とは無関係
に予め用意された母音の標準パターンを初期値として、
話者に適応した標準パターンを作ることである。この時
、初期値として用いられる標準パターンのセットをSe
xで表し、外部情報源と呼ぶことにする。また、話者の
発話音声から適当な方法で切シ出された母音に該当する
標本(特“徴ベクトルで表す)を学習データセットと呼
び、(XI−)=(Xi、・・、XN)で表す。(XL
)のサイズに関する検討は次章で行う。
5母音の場合、不特定話者においてもパターンマツチン
グで未知の入力母音に対する候補を定めると、第三位ま
での候補の中に入力母音に該当するものが存在する確率
はほぼ100 %に近いと考えられる。そこで、以下に
述べる学習アルゴリズムでは、(XL)のどの学習デー
タXtについてもSexとのパターンマツチングによっ
て定める候補は第3位までとし、第一候補から順にCi
x 、 Ciz 、C1sで表す。Xiに対する候補t
−まとめて、C1=(Ctx。
C13Cia)、i=1 、・・・I N +また(X
X、)に対する候補リストをC=(CI、・・・、CM
)と表し、CL−1iatと呼ぶ。
第7図のフローチャートにしたがって学習のアルゴリズ
ムを説明する。
ステップS1・・・(XX、)に対する予備認識を行う
予備認識では(Xt、)の各データXと外部標準パター
ンSaxとの間でマツチング(マハラノビス距離を用い
る)を行りて、三位までの候補を決め、CL−11st
t−作る(第8図(a)参照)0ステツプSl’・・・
丁ぺての学習データxi、Xj((Xt、lについて式
(1)によシ、d i j = d (XI # Xj
滓計算し、これをi行、j列の要素とする行列(dij
)(関係行列と呼ぶ)′5r、作成する。
ステップS3・・・関係モデルRを評価基準として、C
L −1ist  の各候補の正当性をチェックする。
まず学習データX1の第一候補C1t=vが正しいと仮
定し、他のすべての学習データの中で第一候補がWであ
るものkXj、第一候補が2であるものf揄とおく。こ
のとき、すべてのXjとXkについて得られる学習デー
タの組< Xl、Xj 、Xk >のそれぞれについて
、第5図のRvに含まれる相対関係 Rv : wz (Xi +Xj +Xk ) = 1
 rつt ’) dij < dikを満たすか否かを
調べる(式(6)参照)。もし上の3項関係を満足すれ
ば、その都度Chの得点Sitに1ポイントヲ加え、そ
うでない時は0を加える。
但し、Silの初期値は0とする。Rvに含まれる、他
のすべての3項関係Rv : w’z’ 、 Rv :
 w”z” 、−についても同様にSilに加点する方
法で評価し、その結果を得点Silで代表する。
次にXiの第二候補C1z=v’、第三候補C15=v
“についても他のXj 、Xkの第一候補を用いて、C
1lのときと全く同じ方法で、それぞれ、Rv′及びR
v″を用いて評価し、それらの結果をそれぞれ得点Si
2及びSi3で表す。
すべてのXi ((XL )に対して以上の評価を行う
ステップS4・=New−CL−1iatl、2.3−
f作成する。すなわち、三つの候補の得点Sb、Si2
゜S+sf評価回数で平均(評価回数で割った)した後
比較し、得点の高い順に新しい候補リストNew−CL
 −1ist  に登録し、その得点を改めてSix 
+3iz、Sis  とおく0もし、(l Sb −S
iz l / (Si1+5iz))<Tならば、Xi
に対応する母音は未定とする。Tは適当に定めたしきい
値である。
ステップS5・・・対応する母音が未定となる学習デー
タがある場合、或いは学習する前後でcL−11stに
変化がある場合にはステップS3に戻り、同じ手順でN
ew −Cb −1istの各候補の正当性を評価する
。未定の学習データがなくなるか、或いは学習によって
New−C−L−1stに変化がなくなるか、または適
当に定めた繰り返し数になるまで学習した場合には、学
習を終了し、Xiにラベル(母音名) Li =C1t
 (=v ) 、 1≦i≦N、?つける。
ステップS6・・学習の結果に基づいて話者に適合した
標準パターンSL =(SLa r SLe + SL
 l + SLOrSLu )が作られる。但し、母音
Vの標準パターンSLvはラベルLiがVであるすべて
の学習データX1(Qはその数とする)の平均ベクトル
とする。
つまり、 以上の様にして、話者に応じた母音の標準パターンを生
成し、次に入力してくる母音の認識に用いる。
〔実施例〕
第9図によシ、本発明の詳細な説明する。
図中1は信号抽出部、2は高速7一リエ変換部、3は対
数部、4は高速7一リエ逆変換部、5は低ケフレンシ抽
出部、6は予備認識部、7は関係行列生成部、8は検定
部、9は標準パターン生成部である。
信号抽出部1には母音信号が入力するが、時間窓を設け
、一定時間だけ母音信号を抽出し高速7一リエ変換部2
へ入力する。高速フーリエ変換部では、入力信号のフー
リエ変換を行なって、パワースペクトラムを抽出し、対
数部3へ入力する0対数部3では、パワースペクトラム
の対数ヲ求めて、高速フーリエ逆変換器4へ入力し、逆
変換を行なう。
これによって得られたケブヌトラムの内1〜10次まで
の低ケフレンシ(特徴ベクトル)を低ケフレンシ抽出部
5において抽出し、予備認識部6へ入力する。予備認識
部6は抽出した1〜10次の特徴ベクトルと、外部標準
パターンの特徴ベクトルの間でマハラノビス距離を用い
てマツチングを行ない各入力母音毎に第3位までの候補
を決める0次に、関係行列生成部7において、各母音の
候補毎に式(1)に従ってdijt−求め、これによ9
1行。
j列の関係行列(dij)t:求める。
次に検定部8においては、前述の如く、関係行列から得
られる(5)式の関係モデルRを評価基準として各候補
の正当性をチェックでる。
この様に、Xiの各候補全評価する時、ほかのすべての
データXjの第一候補Chが正しいと仮定して評価に臨
む。Cjlの中に真でないものがある場合には、当然学
習に悪い影!#を与える。したがって、第一候補が正し
い割合が高ければ高いほどこのような影響が少なくなる
。学習の効果としては第8図の如(New−CL −1
istを生成する度に第一候補の正しい割合が高くなる
。この例には、−回ずつの学習後のCt、 −1ist
 iたId New −CL−1istの各要素の変化
を示す。母音の記号に下線がついた候補は真であること
を示し、1!”は未定を示す。この例では話者の母音の
特性と外部M[パターンSexの特性との差が大きいの
で、C1,−1istの第一候補の正答率は60%しか
ないが、3回繰り返し学習をした後、第一候補の正答率
は100%になる。一般的に言えは繰シ返し学習によっ
て学習結果の信頼性が高くなってくる。
〔不特定話者音声母音の学習と認識実験〕ここで、多数
話者の音声を対象として、教師なし学習のシミュレーシ
ョンを行い、関係モデルRと学習アルゴリズムの有効性
を評価する。また、(Xl、)のサイズの影響、外部情
報源の影響などについて検討する。更に学習結果に基づ
いて母音認識を行い、不特定話者音声認識への適用効果
の実験結果を示す。
■ 音声資料の構成と分析条件 実験に用いる音声データベースと分析条件を第4図に示
す。本発明では主に個人差問題に注目しているため調音
結合の影響を強く受けていない単音節母音(type 
!音声資料)を基本音声資料として用いる0またこの方
法に及ぼす調音結合の影響を検討するため3連鎖母音を
含む文節データ(type■音声資料)についても実験
全行う。
type I音声資料の66人の話者金25人(A組〕
41人(B組)の2グループに分ける。type■音声
資料の23人の話者(B組の話者に含まれる)を0組と
する。A組の話者(全部成るいは一部)のデータから外
部標準パターンSexを作成する。
次の認識実験はすべてB組、0組のデータに対して行う
。つまり異なる話者によるオープン実験である。
■ 認識実験方法 ■−1学習データセッNXLlの生成方法学習データセ
フ)(XL)は認識されるデータの一部としてダイナミ
ックに取p出されることが望せしい。−人あたりの認識
データセット(X)のサイズが大きくない場合(第4図
のB組では75個/人)のシミュレーションとして、ラ
ンダムに(X)から学習データを取シ出す方法で(XL
)を生成する。以下の実験報告では(Xt、)はすべて
この方式で生成する。
■−2認識方法 認識の基本的方法は、先ず話者ごとにその認識の対象と
なるデータセフ) (xlから学習データセット(XL
)k生成し、(XL)と外部標準パターンSexとのマ
ツチングによすCL −1iat  を作成する。
次に関係モデルRt−評価基準とする教師なし学習を行
い、各候補の正当性の評価に基づいてその話者に適応し
た標準パターンのセットSexが得られる0認識は発声
データXとSとのマツチングにおける距離に基づいて行
われる。以下、この認識方法をRUL (Recogn
ition based on Unsupervia
ed Lear −ning )法と呼ぶ。
また従来の方法(Xと外部標準パターンSexとのマツ
チングによる方法)tM法と呼び、RULとM法の比較
実験を行う。
■ 実験結果と検討 次の3項目に重点おいて実験を行う01)教師なし学習
の効果。2〕 本認識方式に対する外部情報源の影響。
3)不特定話者の影響。
■−1学習の効果とその検討 ■−1に述べたランダム方式で(Xt、)を生成して教
師なし学習のシミュレーションを行う。第10図にSe
xの作成に用いた人数と(XL)の要素数(以下、それ
ぞれS −5ize 、 L −5ize  と呼ぶこ
とがある)をパラメータとする学習結果の正答率(ラベ
ルセラ)(Lllの正答率ンをB組について示す。学習
結果は第10図に示すように、いづれの場合もほぼ99
%以上である。また、学習の正答率はほとんどSexの
構成人数と(XLIのサイズに影!#キれないことが分
かる。即ち高い正答率が維持されるのは、主に学習デー
タが互いに提供し合う相対関係だ関する情報によるもの
であり、RUL法の原点もここにある。
CL −1ist  の第一列(すべての第一候補)が
真である割合Piは話者によりかなシ違う。学習に及ぼ
すこの影響音調べるために、Cr、  1istの第一
候補を第2、第3候補とランダムに入れ替えて、P+f
fi変化させ、学習を行なった。第11図にB組につい
てこのようなシミュレーションの結果を示す。Plは6
0チ以上であれば、満足できる正答率が得られることが
表から分かる。またこの結果は相対関係モデルRの妥当
性も裏付けている。
■−2認識笑験に関する検討 ■−2に述べた方法で母音認識実験を行い、SeXの作
成に用いた人数をパラメータとし、RUL法とM法のそ
れぞれに対する実験結果(B組)全第12図に示す。S
 −5ize の減少とともにM法の認識率が顕著に低
下する。これはオーブン実験によく見られる傾向である
。しかしRUL法の認識率はわずかに下がるだけである
。RUL法の認識は学習結果に基づいて行われるが、学
習の結果はSexにほとんど影響されないので(第10
図)安定な認識が期待できる。
Bmデータについて、認識結果に対すル(XL)のサイ
ズの影響を第13図に示す。この表から分かるように(
XL)のサイズがlO個程度以上であれば認識率はすべ
て98チ以上である。(XLIのサイズがあまり少ない
と学習の結果が正しくてもそこから生成される標準パタ
ーンの信頼性が低くなり、認識率が落ちる。しかし、第
13図に示すように(xL)のサイズがある程度以上で
あれば安定した高い認識率が得られる。
B組について理想的な認識条件、つまり完全なりローズ
実験(話者ごとに自分自身の標準パターンとのマツチン
グにより認識を行う場合)の認識率は992%であるが
、RUL法は99チに近い認に率が得られ、学習による
認識の限界に近づいているように見える。
■−3不特定話者の影響 不特定話者母音認識のシミュレーションとして、話者の
数を次第に増やして認識実験全行い、認識率の変化から
話者の数の影響を検討する。第14図にRUL法とM法
についての実験結果を示す。
ここでは、SeXば15人のデータから生成される。
横軸の最初の10人はSexの生成に用いた10人であ
る。この図に示すように話者数が増えてもRUL法の認
識率はほとんど変わらない、これはM法の認識率の低下
と対照的である。両方法の認識率の差はSexとの個人
差が大きい一部の話者について特に明らかである。第1
5図にこのような孟者について話者ごとの認識率全示す
。RUL法による話者別の最低の認識率は96%に対し
てM法によるのは70.7係である。
以上の植種の実論結果から、RUL法は不特定話者の環
境のもとて個人差を吸収して安定かつ高い認識率を得る
ための有効な方法であると思われる。同時にRUL法の
基礎となる関係モデルRの妥当性、そして教師なし学習
アルゴリズムの有効性も明らかにされた。
■−43連鎖母音を含む文節データに関する実験 以上の実験は個人差の問題に焦点を絞ったので、調音結
合の影響が相対的に少ないB組のデータを対象にしたも
のである。ここでは、6組の文節データ中の3連鎖母音
についての学習と認識結果全示す。第16図より、学習
結果も認識結果も外部情報源にあまり依存しない傾向は
B組の結果と同様である。このように認識率が安定して
いることは不特定話者音声認識の場合に特に重要な意味
があると思われる。またRUL法とM法における認識率
の差はRUL法による話者適応の結果とみられる。しか
し、6組についての認識率はB組についての認識率より
低い。この原因は第4図に示された文節中の3連鎖母音
は強い調音結合を受け、パターンがかなり変形されるた
めと思われる。このような場合は本手法を適用する前に
パターンの修正など調音結合の特性を考慮した対策を取
ることが望ましい。
〔効果〕
以上の如く、本発明においては、低次のケブヌトラム係
数を特徴とする特徴ベクトルの相対位置関係を用いて母
音の認識を行なっているので認識率を向上させることが
可能となる。
【図面の簡単な説明】
第1図はケプストラム全説明する図、第2図は主軸平面
における話者ごとの5母音の位t’を示す図、第3図は
三項関係の不変性金側を示した図、第4図は音声資料全
説明する因、第5図は母音間の不変な相対関係をまとめ
た図、第6因は特徴空間における母音間の相対関係を示
す模式図、第7図は教師なし学習アルゴリズムを示す図
、第8図は学習の例を示す図、W、9図は実施例を示す
図、第10図は学習の正答率を示す図、第11図は第1
候補の正答峯P+に変えたときの学習シミュレ−ジョン
の結果を示す図、第12図は認識率とS−5ize及び
L−size  との関係を示す図、第13図は学習デ
ータサイズと母音認識率(チ)の関係を示す図、第14
図は話者人数と認識率の関係を示す図、第15図はRU
L法とM法の話者ごとの認識率の比較結果を示す図、第
16図は文節中の3連鎖母音の学習と認識結果金示す図
、第17図は従来の認識方法を示す図である。 図中2は高速フーリエ変換部、3は対数部、4は高速フ
ーリエ逆変換部、5は低ケフレンシ抽出部、6は予備認
識部、7は関係行列生fy、部、8は検定部、9は標準
パターン生成部である。 ゲブ各トラ、61の3愛日月πう 情5 1  目 ゼ中山平面1″−みける銘肴ごとの5母音の4並量第 
2 侶 三工内聞A系のイlり 第 3 図 音戸側科 愼 4 図 e@ルnの不堪シ塚昶I升實ト訃とLZボ昶川用な3瀉
陶蘭Y斤、第 5 肥 躬賛政隻間にふ、けクチ音間の111間4先の一イ列を
毘丁配檗 6 刀 第7 口 (aノ             (か       
       (C)              (
d)τ羽のイ列 第6 図 りr 13 っ 正答室ピ (=/=)第1O5 寥1イ1戻誦’/)IE濱聾診β乞夷ししたときの?習
シミコし一シタン句占JK寥!1 記 立5識孝くヒ5−stZeとの開孫 第 グ2 凹 ライ・習テ゛−タサ4ス゛と母@粉3名1N、」督串ノ
’)関イ拓宴13児 菖占看人劣丈と認、宮酢、哨<f)61かR惚 f4 
侶 RUL法とM法の8占看ごとの認、がへやつに嘩叉Z 
 ts  図 文節中の3街貢母吉クダ雪と認梼に鮎X嘉16  目 寥2ホルマ;) (f2) 擬木の↓芯割収゛方法を斤、す図 嘉17図

Claims (1)

    【特許請求の範囲】
  1. 5つの音声母音からそれぞれ得られる1次からn次まで
    のケプストラム係数を要素とする特徴ベクトルの特徴ベ
    クトル空間(1次からn次までのケプストラム係数から
    構成される空間)での相対位置関係を予め求めておき、
    入力音声母音を上記相対位置関係を用いて認識すること
    を特徴とする母音認識方法。
JP19538285A 1985-09-04 1985-09-04 音声母音認識方法 Granted JPS6255700A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP19538285A JPS6255700A (ja) 1985-09-04 1985-09-04 音声母音認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19538285A JPS6255700A (ja) 1985-09-04 1985-09-04 音声母音認識方法

Publications (2)

Publication Number Publication Date
JPS6255700A true JPS6255700A (ja) 1987-03-11
JPH0427560B2 JPH0427560B2 (ja) 1992-05-12

Family

ID=16340235

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19538285A Granted JPS6255700A (ja) 1985-09-04 1985-09-04 音声母音認識方法

Country Status (1)

Country Link
JP (1) JPS6255700A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0255398A (ja) * 1988-08-20 1990-02-23 Masayuki Kimura 相対関係に基づく音声認識方式
JP2009258366A (ja) * 2008-04-16 2009-11-05 Arcadia:Kk 音声制御装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0255398A (ja) * 1988-08-20 1990-02-23 Masayuki Kimura 相対関係に基づく音声認識方式
JP2009258366A (ja) * 2008-04-16 2009-11-05 Arcadia:Kk 音声制御装置

Also Published As

Publication number Publication date
JPH0427560B2 (ja) 1992-05-12

Similar Documents

Publication Publication Date Title
CN110400579B (zh) 基于方向自注意力机制和双向长短时网络的语音情感识别
Palo et al. Wavelet based feature combination for recognition of emotions
Mao et al. Revisiting hidden Markov models for speech emotion recognition
Chen et al. Multi-task learning for text-dependent speaker verification
Chen et al. Speech emotion recognition: Features and classification models
CN104575490B (zh) 基于深度神经网络后验概率算法的口语发音评测方法
Nwe et al. Speech based emotion classification
CN103456302B (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
Yamagishi et al. A training method of average voice model for HMM-based speech synthesis
Hashimoto et al. Trajectory training considering global variance for speech synthesis based on neural networks
Wang et al. Child Speech Disorder Detection with Siamese Recurrent Network Using Speech Attribute Features.
Sinha et al. Acoustic-phonetic feature based dialect identification in Hindi Speech
CN106531192A (zh) 基于冗余特征和多词典表示的语音情感识别方法及系统
Shah et al. Nonparallel emotional voice conversion for unseen speaker-emotion pairs using dual domain adversarial network & virtual domain pairing
Chen et al. The USTC System for Voice Conversion Challenge 2016: Neural Network Based Approaches for Spectrum, Aperiodicity and F0 Conversion.
Hasan et al. Investigation of the effect of mfcc variation on the convolutional neural network-based speech classification
JPS6255700A (ja) 音声母音認識方法
Jagini et al. Exploring emotion specific features for emotion recognition system using pca approach
Hu et al. Deep belief network-based post-filtering for statistical parametric speech synthesis
Mitra et al. Speech inversion: Benefits of tract variables over pellet trajectories
Pui-Fung et al. Decision tree based tone modeling for Chinese speech recognition
Tan et al. Bottleneck features from SNR-adaptive denoising deep classifier for speaker identification
Cai et al. Deep speaker embeddings with convolutional neural network on supervector for text-independent speaker recognition
Assaleh et al. Speaker identification using a polynomial-based classifier
Hajj et al. Weighted entropy cortical algorithms for isolated Arabic speech recognition