JPS6336678B2 - - Google Patents

Info

Publication number
JPS6336678B2
JPS6336678B2 JP57093627A JP9362782A JPS6336678B2 JP S6336678 B2 JPS6336678 B2 JP S6336678B2 JP 57093627 A JP57093627 A JP 57093627A JP 9362782 A JP9362782 A JP 9362782A JP S6336678 B2 JPS6336678 B2 JP S6336678B2
Authority
JP
Japan
Prior art keywords
phoneme
distance
recognition
lpc
discrimination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP57093627A
Other languages
English (en)
Other versions
JPS58209800A (ja
Inventor
Katsuyuki Futayada
Satoshi Fujii
Hideji Morii
Ikuo Inoe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP57093627A priority Critical patent/JPS58209800A/ja
Publication of JPS58209800A publication Critical patent/JPS58209800A/ja
Publication of JPS6336678B2 publication Critical patent/JPS6336678B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 本発明は音素判別方法に関するものである。
日本語の音声は/a/、/i/、……など20種
類強の音素によつて表現できることが知られてい
る。たとえば「赤い」という発音は、/a/、/
k/、/i/という音素をAKAIというように接
続して、音素系列として表現される。本発明は、
このように音声を認識する際に先ず音声を音素に
分解して各音素の認識を行ない、音素の系列とし
て単語を認識する方式の音素認識に用いる音素判
別方法に関する。
第1図に音素認識を行なうことを特徴とする音
声認識方式のブロツク図を示す。
図において、マイク等で入力された入力音声
は、音響分析部1によつて分析される。分析出力
はフレーム周期(本実施例では10msecとしてい
る)ごとに出力される。分析方法としては帯域フ
イルタ群がよく使用されるが、本発明では線形予
測分析(LPC分析)法を使用する。(線形予測分
析については例えば中田和男著「音声」、(コロナ
社)に記載されている。)特徴抽出部2は、音響
分析部1で得た情報を使用して、音声の判別やセ
グメンテーシヨン(音素の境界を定めること)を
行なうための特徴を抽出する部分である。音素判
別部3は特徴パラメータを使つて音素の判別を行
ない、入力音声を音素系列に変換する。単語認識
部4は、この入力音素系列を単語辞書5に格納さ
れている多くの音素系列の各々と比較し、入力音
素系列にもつとも類似している辞書中の音素系列
を認識結果として出力する。
音素認識を行なう音声認識方式は、多くの音声
を対象にできる、話者を特定しない認識に有利で
ある、対象音声の変更が容易である……など多く
の特徴を有する。このような有利な特徴を生かす
ための前提条件は、音素認識が正確に行なわれる
ことである。音素認識の誤りが多いと方式の特徴
を生かせないばかりか、従来例の多くがそうであ
つたように、音声認識率が低下してしまう。
本発明の目的は音素認識率を向上させることに
ある。
音素認識を正確に行なうためのキーポイント
は、特徴パラメータと音素判別に使う距離尺度で
ある。
本発明では、特徴パラメータとしてLPCケプ
ストラム係数を使用し、距離尺度として統計的な
距離尺度を使用することが特徴でありその結果、
従来の方法と比較して音素認識率を大きく向上さ
せることができるものである。
本発明は特徴パラメータとしてLPCケプスト
ラム係数を用いている。ケプストラム係数は対数
スペクトルの逆フーリエ係数として定義されるも
のである。LPCケプストラム係数は、LPC分析
後に得られるスペクトルを対象としたケプストラ
ム係数であり、音響分析部1によつて得られる線
形予測係数αi(i=1〜n、nは分析次数)を使
用して次式で簡単に計算できる。
LPCケプストラム係数 Ci=−αii-1k=1 i−k/iαkCi-k(i=1〜n) LPCケプストラム係数は、LPC分析後に得ら
れるスペクトルの概形を記述するものである。
また本発明は距離尺度として統計的な距離尺度
(ベイズ判定に基く距離およびマハラノビス距
離)、すなわちパラメータの分布を統計的に正規
分布に従うと仮定し、分布を考慮した距離尺度を
用いる。
標準パターンとして、パラメータの平均値ベク
トルμP(μ1P……μoP)および共分散行列ΣP(n行n
列)を音素P(Pは/a/、/i/……)ごとに
作成しておく。判別すべき特徴パラメータをx
(x1……xo)とすると、xとPに対する標準パタ
ーンとの間のベイズ判定に基づく距離(尤度)
LPは LP=1/(2π)n/2|ΣP1/2e×P{−1/2
(x−μPTΣP -1(x−μP)} で定義され、またマハラノビス距離MPは MP=(x−μPTΣP -1(x−μP) で定義される。|ΣP|はΣPの行列式の値、添字−
1は逆行列、添字Tは転置行列であることを示
す。ベイズ判定に基く距離ではLPが最大となる
時の音素Pが判別結果であり、マハラノビス距離
ではMPが最小となる音素Pが判別結果を与える。
次にLPCケプストラム係数と統計的な距離尺
度を組合わせて使用することによつて生ずる本発
明の効果を、従来例と比較して評価データによつ
て示す。従来例としては、国内外でよく使用され
ている予測残差尺度を対象とする。(予測残差尺
度については、鹿野、好田:会話音声中の母音認
識を目的としたLPC距離尺度の評価電子通信学
会論文誌80/5volJ63−DNo.5参照) 評価用データは、男声10名が発声した212単語
を使用した。このデータには人間が目視によつて
音素認識を行なつて、各フレームごとに音素ラベ
ルが付してある。認識装置による音素判別結果
が、目視によつて付したラベルと一致すれば、正
しく判別したと評価する。評価音素は、単語中の
母音とし、母音としてラベル付けされている全フ
レームを対象とした。212単語、10人の発声によ
る各母音に対するフレーム数は、各々1万〜2万
もあり、以下に述べる結果は信頼性が十分高いも
のである。評価のために使用する音素判別率は次
のようにした。
音素(P)の判別率=音素(P)として認識され
たフレームの数/音素(P)としてラベル付けされてい
るフレームの数×100(%) 以下、本発明の評価結果を従来例と比較しなが
ら述べる。
第2図は本発明と従来例の音素判別率を示した
ものである。実線がLPCケプストラムパラメー
タを使用したベイズ判定に基く距離を用いた本発
明の第1の実施例、破線がマハラノビス距離を用
いた本発明の第2の実施例による結果である。一
点鎖線は従来例による結果である。5母音の平均
認識率(全母音の認識率を加えて5で割つたも
の)を比較すると、LPCケプストラムとベイズ
判定に基く距離による結果が85.2%、マハラノビ
ス距離による結果が84.6%であり、従来例による
結果(78.3%)と比較して、それぞれ6.9%、6.3
%と大きく向上している。また、従来例では各音
素に対する判別率にばらつきが多く、特に音素/
a/が低い。それに対して本発明では、あまりば
らつきがないという特徴があり、後の処理に好影
響を与える。
LPCケプストラム係数と統計的距離尺度を組
合わせることによつて大きな効果が生ずることを
実証するために、本発明による結果と、特徴パラ
メータのみ変更した場合および距離尺度のみを変
更した場合の結果を比較する。第3図において実
線は15次のLPCケプストラム係数とベイズ判
定による距離を組合せた本発明の第1の実施例で
ある。それに対し、破線は特徴パラメータとし
て15次の自己相関係数を用い、距離尺度としてベ
イズ判定に基く距離を使つた第1の比較例の結果
である。一点鎖線は特徴パラメータとして15次
のLPCケプストラム係数を用い、距離尺度とし
てユークリツド距離を使用した第2の比較例の結
果である。5母音の平均認識率は本発明の第1の
実施例が85.2%であるのに対し、第1の比較例
が71%、第2の比較例が77.3%である。距離
尺度としてベイズ判定に基く距離のかわりにマハ
ラノビス距離を使用した本発明の第2の実施例に
おいても第1の実施例とほぼ同様の結果となる。
この結果から明らかなように、LPCケプスト
ラムパラメータと統計的な距離尺度を組合わせて
使わなくては、効果がないことが判明した。
第4図は本発明を実施する方式を示したもので
ある。第4図は第1図における音響分析部1、特
徴抽出部2の部分および音素判別部3の1部分に
相当する。前処理部6は入力音声のレベル調整の
後、サンプリングしてデイジタル信号に変換する
部分である。LPC分析部7は自己相関法によつ
てLPC分析を行ない、線形予測係数を求める。
前処理部6とLPC分析部7が第1図の音響分析
部1に相当する。特徴抽出部8は線形予測係数を
使用してLPCケプストラム係数およびその他の
パラメータ(セグメンテーシヨンや音声区間の検
出に使用する)を求める部分であり第1図に示す
特徴抽出部2に相当する。距離計算部9は標準パ
ターン格納部10に含まれている各音素の標準パ
ターンと、特徴抽出部8から送られて来たLPC
ケプストラムパラメータとの間の統計的な距離を
計算し、各音素に対する類似度を求める。比較部
11は、距離計算部9の出力結果を類似度の順に
並べかえ、音素判別結果として出力する。以上の
処理はフレームごとに行なわれる。フレームごと
の音素認識結果は、後の処理でセグメンテーシヨ
ン用の情報と共に利用されて音素系列に変換され
る。距離計算部9、標準パターン格納部10、比
較部11、およびセグメンテーシヨンを含めたも
のが第1図の音素判別部3に相当する。
音素判別部3以降の処理は第1図と同様である
ので省略するが、このような構成に基づき、不特
定話者(20名を対象)が発声した274単語の認識
実験を行つたところ、従来は音声認識率が85.2%
であつたものが、90.2%に向上した。
以上のように本発明は、音声の認識を音素認識
に基づいて行う音素判別方法において、音素認識
を行うためのパラメータとしてLPCケプストラ
ム係数を使用し、音素の判別を行う距離尺度とし
て統計的な距離尺度を用いるもので、音素認識率
の大幅な向上をはかることができる。
【図面の簡単な説明】
第1図は音素認識を行なう音声認識システムの
ブロツク図、第2図は本発明と従来例の音素判別
率の比較図、第3図は、本発明と特徴パラメータ
を変更した場合、距離尺度を変更した場合の認識
率の比較図、第4図は本発明の一実施例を説明す
るブロツク図である。 1……音響分析部、2……特徴抽出部、3……
音素判別部、4……単語認識部、5……単語辞
書、6……前処理部、7……LPC分析部、8…
…特徴抽出部、9……距離計算部、10……標準
パターン格納部、11……比較部。

Claims (1)

  1. 【特許請求の範囲】 1 音素認識を行なうために、その特徴パラメー
    タとしてLPCケプストラム係数を使用し、音素
    の判別を行う距離尺度として統計的な距離尺度を
    用いることを特徴とする音素判別方法。 2 統計的距離尺度がベイズ判定に基づく距離ま
    たはマハラノビス距離であることを特徴とする特
    許請求の範囲第1項記載の音素判別方法。
JP57093627A 1982-05-31 1982-05-31 音素判別方法 Granted JPS58209800A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57093627A JPS58209800A (ja) 1982-05-31 1982-05-31 音素判別方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57093627A JPS58209800A (ja) 1982-05-31 1982-05-31 音素判別方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP13498389A Division JPH0220900A (ja) 1989-05-29 1989-05-29 音素判別方法

Publications (2)

Publication Number Publication Date
JPS58209800A JPS58209800A (ja) 1983-12-06
JPS6336678B2 true JPS6336678B2 (ja) 1988-07-21

Family

ID=14087560

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57093627A Granted JPS58209800A (ja) 1982-05-31 1982-05-31 音素判別方法

Country Status (1)

Country Link
JP (1) JPS58209800A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6135497A (ja) * 1984-07-27 1986-02-19 松下電器産業株式会社 音声認識装置
JPS60202489A (ja) * 1984-03-27 1985-10-12 松下電器産業株式会社 音声認識方法
JPS63161497A (ja) * 1986-12-24 1988-07-05 松下電器産業株式会社 音声認識装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
J ACOUST SOC AM=1974 *

Also Published As

Publication number Publication date
JPS58209800A (ja) 1983-12-06

Similar Documents

Publication Publication Date Title
Carey et al. Robust prosodic features for speaker identification
JPH0352640B2 (ja)
JPS59226400A (ja) 音声認識装置
US4910782A (en) Speaker verification system
KR20010102549A (ko) 화자 인식 방법 및 장치
JP3298858B2 (ja) 低複雑性スピーチ認識器の区分ベースの類似性方法
Ilyas et al. Speaker verification using vector quantization and hidden Markov model
JP3798530B2 (ja) 音声認識装置及び音声認識方法
JP3444108B2 (ja) 音声認識装置
JPS6336678B2 (ja)
JPH0220900A (ja) 音素判別方法
Kalaiarasi et al. Performance Analysis and Comparison of Speaker Independent Isolated Speech Recognition System
JP3289670B2 (ja) 音声認識方法および音声認識装置
JP2760096B2 (ja) 音声認識方式
JPH034918B2 (ja)
JPH0455518B2 (ja)
CA2013263C (en) Rejection method for speech recognition
JPH06100919B2 (ja) 音声認識装置
JPH05323990A (ja) 話者認識方法
JPH054678B2 (ja)
JPH0316040B2 (ja)
White Linear predictive residual analysis compared to bandpass filtering for automatic speech recognition
JPS5977500A (ja) 単語音声認識方式
JPH04233599A (ja) 音声認識方法及び装置
Baker On the similarity of noisy phonetic strings produced by different words