JPS6336678B2

JPS6336678B2 -

Info

Publication number: JPS6336678B2
Application number: JP57093627A
Authority: JP
Inventors: Katsuyuki Futayada; Satoshi Fujii; Hideji Morii; Ikuo Inoe
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1982-05-31
Filing date: 1982-05-31
Publication date: 1988-07-21
Also published as: JPS58209800A

Description

【発明の詳細な説明】本発明は音素判別方法に関するものである。

日本語の音声は／ａ／、／ｉ／、……など20種
類強の音素によつて表現できることが知られてい
る。たとえば「赤い」という発音は、／ａ／、／
ｋ／、／ｉ／という音素をAKAIというように接
続して、音素系列として表現される。本発明は、
このように音声を認識する際に先ず音声を音素に
分解して各音素の認識を行ない、音素の系列とし
て単語を認識する方式の音素認識に用いる音素判
別方法に関する。

第１図に音素認識を行なうことを特徴とする音
声認識方式のブロツク図を示す。

図において、マイク等で入力された入力音声
は、音響分析部１によつて分析される。分析出力
はフレーム周期（本実施例では10ｍsecとしてい
る）ごとに出力される。分析方法としては帯域フ
イルタ群がよく使用されるが、本発明では線形予
測分析（LPC分析）法を使用する。（線形予測分
析については例えば中田和男著「音声」、（コロナ
社）に記載されている。）特徴抽出部２は、音響
分析部１で得た情報を使用して、音声の判別やセ
グメンテーシヨン（音素の境界を定めること）を
行なうための特徴を抽出する部分である。音素判
別部３は特徴パラメータを使つて音素の判別を行
ない、入力音声を音素系列に変換する。単語認識
部４は、この入力音素系列を単語辞書５に格納さ
れている多くの音素系列の各々と比較し、入力音
素系列にもつとも類似している辞書中の音素系列
を認識結果として出力する。

音素認識を行なう音声認識方式は、多くの音声
を対象にできる、話者を特定しない認識に有利で
ある、対象音声の変更が容易である……など多く
の特徴を有する。このような有利な特徴を生かす
ための前提条件は、音素認識が正確に行なわれる
ことである。音素認識の誤りが多いと方式の特徴
を生かせないばかりか、従来例の多くがそうであ
つたように、音声認識率が低下してしまう。

本発明の目的は音素認識率を向上させることに
ある。

音素認識を正確に行なうためのキーポイント
は、特徴パラメータと音素判別に使う距離尺度で
ある。

本発明では、特徴パラメータとしてLPCケプ
ストラム係数を使用し、距離尺度として統計的な
距離尺度を使用することが特徴でありその結果、
従来の方法と比較して音素認識率を大きく向上さ
せることができるものである。

本発明は特徴パラメータとしてLPCケプスト
ラム係数を用いている。ケプストラム係数は対数
スペクトルの逆フーリエ係数として定義されるも
のである。LPCケプストラム係数は、LPC分析
後に得られるスペクトルを対象としたケプストラ
ム係数であり、音響分析部１によつて得られる線
形予測係数α_i（ｉ＝１〜ｎ、ｎは分析次数）を使
用して次式で簡単に計算できる。

LPCケプストラム係数 C_i＝−α_i−_i-1 〓^k=1 ｉ−ｋ／ｉα_kC_i-k（ｉ＝１〜ｎ） LPCケプストラム係数は、LPC分析後に得ら
れるスペクトルの概形を記述するものである。

また本発明は距離尺度として統計的な距離尺度
（ベイズ判定に基く距離およびマハラノビス距
離）、すなわちパラメータの分布を統計的に正規
分布に従うと仮定し、分布を考慮した距離尺度を
用いる。

標準パターンとして、パラメータの平均値ベク
トルμ_P（μ_1P……μ_oP）および共分散行列Σ_P（ｎ行ｎ
列）を音素Ｐ（Ｐは／ａ／、／ｉ／……）ごとに
作成しておく。判別すべき特徴パラメータをｘ
（x₁……x_o）とすると、ｘとＰに対する標準パタ
ーンとの間のベイズ判定に基づく距離（尤度）
L_Pは L_P＝１／（2π）^n/2｜Σ_P｜^1/2ｅ×Ｐ｛−１／２
（ｘ−μ_P）^TΣ_P ^-1（ｘ−μ_P）｝で定義され、またマハラノビス距離M_Pは M_P＝（ｘ−μ_P）^TΣ_P ^-1（ｘ−μ_P）で定義される。｜Σ_P｜はΣ_Pの行列式の値、添字−
１は逆行列、添字Ｔは転置行列であることを示
す。ベイズ判定に基く距離ではL_Pが最大となる
時の音素Ｐが判別結果であり、マハラノビス距離
ではM_Pが最小となる音素Ｐが判別結果を与える。

次にLPCケプストラム係数と統計的な距離尺
度を組合わせて使用することによつて生ずる本発
明の効果を、従来例と比較して評価データによつ
て示す。従来例としては、国内外でよく使用され
ている予測残差尺度を対象とする。（予測残差尺
度については、鹿野、好田：会話音声中の母音認
識を目的としたLPC距離尺度の評価電子通信学
会論文誌80／5volJ63−ＤNo.５参照）評価用データは、男声10名が発声した212単語
を使用した。このデータには人間が目視によつて
音素認識を行なつて、各フレームごとに音素ラベ
ルが付してある。認識装置による音素判別結果
が、目視によつて付したラベルと一致すれば、正
しく判別したと評価する。評価音素は、単語中の
母音とし、母音としてラベル付けされている全フ
レームを対象とした。212単語、10人の発声によ
る各母音に対するフレーム数は、各々１万〜２万
もあり、以下に述べる結果は信頼性が十分高いも
のである。評価のために使用する音素判別率は次
のようにした。

音素（Ｐ）の判別率＝音素（Ｐ）として認識され
たフレームの数／音素（Ｐ）としてラベル付けされてい
るフレームの数×100（％）以下、本発明の評価結果を従来例と比較しなが
ら述べる。

第２図は本発明と従来例の音素判別率を示した
ものである。実線がLPCケプストラムパラメー
タを使用したベイズ判定に基く距離を用いた本発
明の第１の実施例、破線がマハラノビス距離を用
いた本発明の第２の実施例による結果である。一
点鎖線は従来例による結果である。５母音の平均
認識率（全母音の認識率を加えて５で割つたも
の）を比較すると、LPCケプストラムとベイズ
判定に基く距離による結果が85.2％、マハラノビ
ス距離による結果が84.6％であり、従来例による
結果（78.3％）と比較して、それぞれ6.9％、6.3
％と大きく向上している。また、従来例では各音
素に対する判別率にばらつきが多く、特に音素／
ａ／が低い。それに対して本発明では、あまりば
らつきがないという特徴があり、後の処理に好影
響を与える。

LPCケプストラム係数と統計的距離尺度を組
合わせることによつて大きな効果が生ずることを
実証するために、本発明による結果と、特徴パラ
メータのみ変更した場合および距離尺度のみを変
更した場合の結果を比較する。第３図において実
線は15次のLPCケプストラム係数とベイズ判
定による距離を組合せた本発明の第１の実施例で
ある。それに対し、破線は特徴パラメータとし
て15次の自己相関係数を用い、距離尺度としてベ
イズ判定に基く距離を使つた第１の比較例の結果
である。一点鎖線は特徴パラメータとして15次
のLPCケプストラム係数を用い、距離尺度とし
てユークリツド距離を使用した第２の比較例の結
果である。５母音の平均認識率は本発明の第１の
実施例が85.2％であるのに対し、第１の比較例
が71％、第２の比較例が77.3％である。距離
尺度としてベイズ判定に基く距離のかわりにマハ
ラノビス距離を使用した本発明の第２の実施例に
おいても第１の実施例とほぼ同様の結果となる。

この結果から明らかなように、LPCケプスト
ラムパラメータと統計的な距離尺度を組合わせて
使わなくては、効果がないことが判明した。

第４図は本発明を実施する方式を示したもので
ある。第４図は第１図における音響分析部１、特
徴抽出部２の部分および音素判別部３の１部分に
相当する。前処理部６は入力音声のレベル調整の
後、サンプリングしてデイジタル信号に変換する
部分である。LPC分析部７は自己相関法によつ
てLPC分析を行ない、線形予測係数を求める。
前処理部６とLPC分析部７が第１図の音響分析
部１に相当する。特徴抽出部８は線形予測係数を
使用してLPCケプストラム係数およびその他の
パラメータ（セグメンテーシヨンや音声区間の検
出に使用する）を求める部分であり第１図に示す
特徴抽出部２に相当する。距離計算部９は標準パ
ターン格納部１０に含まれている各音素の標準パ
ターンと、特徴抽出部８から送られて来たLPC
ケプストラムパラメータとの間の統計的な距離を
計算し、各音素に対する類似度を求める。比較部
１１は、距離計算部９の出力結果を類似度の順に
並べかえ、音素判別結果として出力する。以上の
処理はフレームごとに行なわれる。フレームごと
の音素認識結果は、後の処理でセグメンテーシヨ
ン用の情報と共に利用されて音素系列に変換され
る。距離計算部９、標準パターン格納部１０、比
較部１１、およびセグメンテーシヨンを含めたも
のが第１図の音素判別部３に相当する。

音素判別部３以降の処理は第１図と同様である
ので省略するが、このような構成に基づき、不特
定話者（20名を対象）が発声した274単語の認識
実験を行つたところ、従来は音声認識率が85.2％
であつたものが、90.2％に向上した。

以上のように本発明は、音声の認識を音素認識
に基づいて行う音素判別方法において、音素認識
を行うためのパラメータとしてLPCケプストラ
ム係数を使用し、音素の判別を行う距離尺度とし
て統計的な距離尺度を用いるもので、音素認識率
の大幅な向上をはかることができる。

【図面の簡単な説明】

第１図は音素認識を行なう音声認識システムの
ブロツク図、第２図は本発明と従来例の音素判別
率の比較図、第３図は、本発明と特徴パラメータ
を変更した場合、距離尺度を変更した場合の認識
率の比較図、第４図は本発明の一実施例を説明す
るブロツク図である。１……音響分析部、２……特徴抽出部、３……
音素判別部、４……単語認識部、５……単語辞
書、６……前処理部、７……LPC分析部、８…
…特徴抽出部、９……距離計算部、１０……標準
パターン格納部、１１……比較部。

Claims

【特許請求の範囲】１音素認識を行なうために、その特徴パラメー
タとしてLPCケプストラム係数を使用し、音素
の判別を行う距離尺度として統計的な距離尺度を
用いることを特徴とする音素判別方法。２統計的距離尺度がベイズ判定に基づく距離ま
たはマハラノビス距離であることを特徴とする特
許請求の範囲第１項記載の音素判別方法。