JPS61149998A - 音素判別方法 - Google Patents

音素判別方法

Info

Publication number
JPS61149998A
JPS61149998A JP27718184A JP27718184A JPS61149998A JP S61149998 A JPS61149998 A JP S61149998A JP 27718184 A JP27718184 A JP 27718184A JP 27718184 A JP27718184 A JP 27718184A JP S61149998 A JPS61149998 A JP S61149998A
Authority
JP
Japan
Prior art keywords
phoneme
similarity
discrimination method
pattern
feature parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP27718184A
Other languages
English (en)
Other versions
JPH0451039B2 (ja
Inventor
二矢田 勝行
昌克 星見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP27718184A priority Critical patent/JPS61149998A/ja
Publication of JPS61149998A publication Critical patent/JPS61149998A/ja
Publication of JPH0451039B2 publication Critical patent/JPH0451039B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声認識装置における音素判別方法に関するも
のである。
従来例の構成とその問題点 近年、不特定話者・多数語を対象とした音声認識の研究
が活発になシつつある。この場合、まず音声を音素に分
解して音素認識を行ない、次に音素系列として音声を認
識する方法が用いられる。
この方法において最も重要なことは音素認R金精度よく
行なうことである。特に単語数が多くなると子音の認識
率がシステムの性能に大きく関係する。
子音には鼻音の/m/と/n/、無声破裂音の/p/と
/1/と/h/、有声破裂音の/b/と/d/のように
相互に物理的な性質がよく似ていて、判別が難しいもの
がある。このような音素を判別する方法として、LPG
ケプヌトラム係数の時間パターンをパラメータとし、統
計的距離尺度を用いて標準パターンとの比較を行なう方
法が有効であることを示した、(二矢田・星見: 「破
裂子音の認識方法」音響講論、昭和5e年3月)。
この方法によると/p/、/l/、/h/、/C/の平
均判別率が88.1チ、/b/*/a/+/q/の平均
判別率が86.4%という高い値を得ることができる。
しかし、その念めには音声中から該当する子音を正確に
抽出し、基準点(音素を判別するための、時間的な基準
となる部分)を見出さなくてはならない。
上記の結果は基準点が正確であると仮定した場合の直で
ある。基準点としては音素を相互に判別するための特徴
がある部分たとえば破裂子音では破裂時点にQ鼻音では
後続母音への遷移部分に設定する。
従来例においてはパワーディップを用いて基準点の抽出
を行なっていた。これは、一般的に母音よりも子音の方
がパワーが小さいため、子音部分でパワーディップ(パ
ワーの凹み)が生ずることを利用した方法である。すな
わち第1図に示すようにパワーディップの立上り部分で
変曲点が生ずるところムを基準点の候補とする。これは
、パワーディップの立上り部が子音から母音へ遷移する
部分に当たるので、変曲点付近に基準点が存在するとい
う考え方に基いている。
第2図に従来例の構成を示す。音声信号iAD変換部1
で12K[IZでサンプリングしてディジタル信号に変
換する。パワー計算部2では1フレーム(1C1lsc
c)ごとに信号のパワーを計算し、対数をとりてdB値
にする。パワー値バッファ部3では対数パワーを時系列
情報として蓄積し、基準点検出部4で時系列パワーから
立上り部の変曲点を検出して基準点(基準フレーム)と
して類似度計算部7へ供給する。一方、特徴パラメータ
抽出部5はAD変換部1の出力信号をLPG分析しく1
5次)、LPGケプヌトラム係数を特徴パラメータとし
て抽出する。パラメータバッファ部6は特徴パラメータ
を時系列に蓄える。類似度計算部7は、基準点検出部4
で検出された基準点における特徴パラメータと、音素標
準パターン格納部8の中の各音素標準パターンとの間の
類似度を計算する。音素判別部9は最大類似度を与える
音素を認識結果として出力する。
従来の方法における問題点は、パワーディップを用いて
子音を検出し、基準点を検出する部分にある。パワーデ
ィップは破裂性子音や無声子音では確実に生じるが、鼻
音や流音では生じない場合があり、そのため基準点も正
確に求められないことがある。たとえば例として第4図
と第5図を参照する。第4図(alは10osama/
 (王様)と発声した場合のパワーの時間的な動きを示
したものである。同図(C)は目視によってフレームご
とに音素ラベルを記したものである。(alと(C)’
に比較すると、/S/の部分ではパワーディップが生じ
ており、立上り時点もはっきりと検出できるが、/m/
の部分ではパワーディップが検出できない。また第6図
の/1naho/ (稲穂)と発声した場合においても
/n/ではパワーディップが検出されない。
/h/はわずかに検出できるが、この程度では基準点を
決めるのは難しい。
発明の目的 本発明は従来技術のもつ以上のような欠点を解消するも
ので、鼻音を含めあらゆる種類の音素の検出を行なうこ
とができ、基準点を精度よく検出し、精度の高い音素判
別方法を提供するものである。
発明の構成 上記の目的を達成するために、本発明は特徴パラメータ
と(時間的な定常性を表現する標準パターン(以下定常
性パターンと記す)との類似度をフレームごとに計算し
、類似度の時間変化をとらえることによって子音の検出
と基準点の検出を行ない、基準点付近において特徴パラ
メータと音素標準パターンとの類似度を計算し、音素を
判別する方法を提供するものである。
実施例の説明 以下本発明の一実施例について説明する。
1ず子音の検出と基準点の検出を行なうために用いる定
常性パターンの作成方法を説明する。
定常性パターンは音声信号中で時間的に定常な部分、例
えば母音やはつ音の中心部の複数フレーム(mフレーム
、本実施例ではm=3 )i使用して多くのサンプルに
工つて作成する。1フレームあたりの特徴パラメータの
数をnとする。本実施例ではLPCケプストラム係数の
低次のパラメータ(OO〜Ca )を特徴パラメータと
して使用している。したがりて特徴パラメータの数n=
5である。
mxn (1s )個のパラメータを次のように並べて
特徴パラメータベクトルcJヲ作成する。
e=(c、;、c;・・・C:、C:、C2・・・に 
: 、 c名、C5・・・c:” > (式1)ただし
、C1において1は次数ナンバー、コはフレームナンバ
ーである。便宜的にC1次のように表記する。
c=(c’、C2,c’、・・・・・・・・・Cl5)
    <式2)多くのサンプルを使用してCの平均値
nと分散共分散行列IWを計算する。かの要素をμm、
Wの要素をWi、j とする。サンプル数(i−Nとす
ると、1          (式3) %式% で定常性パターン(標準パターン)′f!:作成できる
次に入力特徴パラメータと定常性パターンとの類似度の
計算方法を説明する。
入力音声の特徴パラメータ(LPGケプストラム係数)
を(式1)と同じように時系列に並べ、これをIとする
’ ” (Jcl * 12 + J:5* ””””
’ !15)  (式6)Iの定常性パターンに対する
確率密度Pは次式で表わされる。
(弐〇) ただし、Tは転置を表わす。
(弐〇)の対数をと9、これを2倍してLとすると、 L=−(r−μ>”−w−’・(に−か)+ム  (式
7)ムは定数であり ム=2・1oq((2π)2・NWIJ   (式8)
音声区間に対して、1フレームずつシフトしながらXを
求め、これによって(式7)で類似度を求めると、定常
部では(式7)の値(類似度)は大きくなり、スペクト
ルの変化またはパワーの変化がある場合は(式7)の値
は小さくなる。類似度が小さい部分は音素の境界や単語
の境界に相当するので、これをとらえることによって子
音区間を検出することができる。第3図は上に述べた方
法を図で表わしたものである。母音から子音へ遷移する
部分または子音から母音へ遷移する部分で値が小さくな
る。本実施例では子音から母音へ遷移する部分で値が極
小となる部分Bi基準点候補として検出する。なぜなら
ばこの部分はスペクトル変化が最も著しいところであり
、破裂子音の破裂時点、鼻音の後続母音への遷移部など
の真の基準点(目視によって設定した基準点)によく一
致するからである。
第4図(b)には例として10osam&/と発声した
ときの類似度の時間変化を示す。(2L)は従来のパワ
ーディップによる時間変化、(C)は目視による音素レ
ベルを示す。/11/のみでなく/m/に対してもはっ
きりと音素境界C及びDが検出されていることがわかる
。(前にも述べたようにパワー情報(&)では/m/の
検出はできない。)′!た基準点候補も明確に検出され
ている。同様に第6図Fblは/ i n a h o
 / (稲穂)と発声したときの定常性パターンとの類
似度の時系列を示している。この場合も(L)の従来法
では検出できなかった/n/と母音の境界E、/h/と
母音の境界Fがはっきりと検出され、基準点候補が明確
に検出されている。
次に基準点候補において、入力音声の特徴パラメータと
音素標準パターンとの類似度を計算することになるが、
その前に音素標準パターンの作成方法を有声子音(/m
/、/n/、/y/、/b×/d/、/r/、/Z/)
を例として述べる。
音素標準パターンは音素ごとだ目視によって正確に基準
点を検出し、基準点(基準フレーム)の前8フレーム〜
基準フレームの後3フレームの合計12フレームを使用
する。各フレームの特徴パラメータの個数は9個(LP
Gケプストラム係数の0次から8次まで)とし、全体で
9X12=108個のパラメータを用いる。作成方法は
定常性標準パターンと全く同様であり、(式3)。
(式4)′lr:使用する。音素にの標準パターンとし
て、平均値ベクトルを4、分散共分散行列をtwQ と
書くことにする。two 2各音素について要素ごとに
平均しこれ’2tw’  とする。W′ は全対象音素
に共通の分散共分散行列である。
このようにして作成した音素標準パターンを用いて未知
入力音声の音素判別を行なう。未知人力音声に対して前
述した方法で検出した前記基準点候補を用い、その前s
フ後3フレームフレームの特徴パラメータを(式6)と
同様にして時系列にならべてこれを ” =(xl +!2 +!5 + ”’ ”’ ”’
!4o8)  (式9)とする。L′ と音素にの標準
パターンとの距離Dkは(式10)で計算される。
t t  −1 nk= (z′−Ilik) 、v’ * (r’−t
ti這)  (式、0)(式1Q)を展開して不要な項
を取りのぞき、これヲdk とすると(式11)のよう
に簡略化できる。
dk=bk−ak−t        C式11)ただ
し ar2・y′・べ      (式12)bk=I
−W′ ・n′      (式13)%式% (式11)は線形判別式なので、パラメータの数が多く
ても計算書はあまり増大しない。
各音素標準パターンに対する距離を(式11)によって
計算し、距離が最小となる音素を判別結果とする。
なお(式11)のかわりに(式7)などその他の距離尺
度を用いることもできる。(式7)を用いた場合は最大
値をとる音素を判別結果とする。
第6図は本発明を実施する方法の例をブロック図として
示したものである。第2図と同じ番号のブロックは、同
じ機能を有する。入力音声は第2図と同様にムD変換部
1でディジタル信号に変換され、特徴パラメータ抽出部
5に工って、フレームごとに9個のLPGケグヌトラム
係数(Co、C8)が求められる。定常性類似度計算部
11では、フレームあたl)6個(Go−14)のパラ
メータを3フレ一ム分だけ用いて、定常性パターン格納
部12に格納されている定常性パターンとの間で類似度
を計算する。基準点検出部13では、類似度の極小値を
求め、第3図によって説明した方法で基準点候補を抽出
する。
一方特徴パラメータ抽出部6の出方はパラメータバッフ
ァ14で時系列情報として蓄積される。
類似度計算部15は基準点検出部13で検出された前記
基準点候補を用い、その前8フレーム〜後3フレームの
情報ヲハラメータバッファ14から取出して音素標準パ
ターン格納部16に格納されている各音素の標準パター
ンとの間で類似度全計算する。音素判別部17は類似度
が最大となる(距離が最小となる)音素を求め、認識結
果として出力する。
かかる方法を用いて男女各10名がそれぞれ発声した2
X2単語中の子音、/m/、/n/。
/y/、/b/、/d/、/r/、/Z/に対して行な
りた結果を述べ、本実施例の効果を説明する。
まず基準点検出部13の検出精度全通べる。本実施例に
よる方法で検出した基準点と、目視によって正確に検出
した基準点とを比較すると、データの5296は完全に
一致する。±11フレ一ム内の誤差まで許容すると86
%が入シ、±22フレ一ム内まで許容すると93%が入
る。従来法では完全に一致するのは28%程度であり、
±1フレームまで許容しても42チ程度しかカバーでき
ない。
本実施例による方法で基準点?検出し、その基準点を用
いて音素の判別を行なうと、上記7音素の平均認識率と
して77.5%を得る。これらの音素は判別が難しい音
素であるので、この結果は非常に良い。従来例では72
チ程度であることを考えれば、本実施例の効果は明らか
である。
なお本発明の特徴パラメータとしては、LPCケプヌト
ラム係数、帯域スペクトルパワー、PムRCOR係数、
自己相関係数のいずれであっても良い。
また統計的距離尺度としては、確率密度、対数尤度、ユ
ハラノビス距離のいずれであっても良い。
発明の効果 本発明は特徴パラメータと定常性パターンとの類似度を
フレームごとに計算し、類似度の時間情報の変化をとら
えることに工つて子音を検出すると同時に音素判別に用
いる時間的な基準点を検出し、基準点付近において、特
徴パラメータの時系列パターンと音素標準パターンとの
間で類似度を計算して音素を判別する方法全提供するも
ので、鼻音など従来の方法では正確に検出することがで
きなかったり、基準点が正確に求められなかった音素に
対しても十分に対処できるとともに、類似度情報の相対
値を用いて子音区間と基準点を検出するのでノイズや調
音結合の違いなどの変動要因の影響を受けにくいという
利点金有する。さらに類似度計算は全て積和演算である
ので、ハードウェア化が容易であるという利点も有する
【図面の簡単な説明】
第1図は従来例における子音区間と基準点全検出する方
法を説明した図、第2図は従来例による音素認識のブロ
ック図、第3図は本発明の一実施例における子音区間と
基準点を検出する方法を説明した図、第4図および第6
図は従来例と本発明による方法との差異を具体例で示し
た図、第6図は本発明の一実施方法のブロック図である
。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名第1
図 一−−−−−−−−→−フL−4 城     、− 徊く 第3図 一一一−−−−−−う一フし−4 へ    へ              へ18  
   ぬ   OC3ぬ   0リ      −9、
+         +J      −−区    
       区

Claims (5)

    【特許請求の範囲】
  1. (1)入力音声を分析区間(フレーム)ごとに分析して
    特徴パラメータを求め、前記特徴パラメータの時間パタ
    ーンと、時間的な定常性を表現する標準パターンとの類
    似度を統計的な距離尺度によって計算して類似度の時系
    列を作成し、前記類似度の時系列から音素の境界と基準
    点を求め、前記基準点付近において、前記特徴パラメー
    タの時間パターンと音素標準パターンとの類似度を統計
    的な距離尺度によって計算し、前記類似度の大きさを比
    較することによって音素の判別を行なう音素判別方法。
  2. (2)時間的な定常性を表現する標準パターンが、多数
    のサンプルの複数フレームの特徴パラメータを用いて、
    平均値と分散共分散行列で構成されることを特徴とする
    特許請求の範囲第1項記載の音素判別方法。
  3. (3)特徴パラメータがLPGケプストラム係数、帯域
    スペクトルパワー、PARCOR係数、自己相関係数か
    ら選ばれたいずれかである特許請求の範囲第1項記載の
    音素判別方法。
  4. (4)統計的距離尺度が、確率密度、対数尤度またはマ
    ハラノビス距離のいずれかである特許請求の範囲第1項
    記載の音素判別方法。
  5. (5)基準点が子音から母音への遷移時点付近であるこ
    とを特徴とする特許請求の範囲第1項記載の音素判別方
    法。
JP27718184A 1984-12-25 1984-12-25 音素判別方法 Granted JPS61149998A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27718184A JPS61149998A (ja) 1984-12-25 1984-12-25 音素判別方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27718184A JPS61149998A (ja) 1984-12-25 1984-12-25 音素判別方法

Publications (2)

Publication Number Publication Date
JPS61149998A true JPS61149998A (ja) 1986-07-08
JPH0451039B2 JPH0451039B2 (ja) 1992-08-17

Family

ID=17579932

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27718184A Granted JPS61149998A (ja) 1984-12-25 1984-12-25 音素判別方法

Country Status (1)

Country Link
JP (1) JPS61149998A (ja)

Also Published As

Publication number Publication date
JPH0451039B2 (ja) 1992-08-17

Similar Documents

Publication Publication Date Title
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JPS6336676B2 (ja)
WO2003015078A1 (en) Voice registration method and system, and voice recognition method and system based on voice registration method and system
Patil et al. Automatic Speech Recognition of isolated words in Hindi language using MFCC
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Unnibhavi et al. LPC based speech recognition for Kannada vowels
Ananthakrishna et al. Kannada word recognition system using HTK
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JPS63158596A (ja) 音韻類似度計算装置
Kamble et al. Spontaneous emotion recognition for Marathi spoken words
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
Majidnezhad A HTK-based method for detecting vocal fold pathology
US20210327435A1 (en) Voice processing device, voice processing method, and program recording medium
Lingam Speaker based language independent isolated speech recognition system
JPS61149998A (ja) 音素判別方法
Laleye et al. Automatic boundary detection based on entropy measures for text-independent syllable segmentation
Raghudathesh et al. Analysis and Classification of Spoken Utterance Using Feature Vector Statistics and Machine Learning Algorithms
Tahir et al. Extracting accent information from Urdu speech for forensic speaker recognition
JPS63213899A (ja) 話者照合方式
Bhattachajee et al. An experimental analysis of speech features for tone speech recognition
JPS6336678B2 (ja)
JPH054678B2 (ja)
JPS63161499A (ja) 音声認識装置
JPS6148897A (ja) 音声認識装置
Rabiner et al. Some preliminary experiments in the recognition of connected digits