JPS61149998A

JPS61149998A - 音素判別方法

Info

Publication number: JPS61149998A
Application number: JP27718184A
Authority: JP
Inventors: 二矢田　勝行; 昌克星見
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1984-12-25
Filing date: 1984-12-25
Publication date: 1986-07-08
Also published as: JPH0451039B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は音声認識装置における音素判別方法に関するも
のである。

従来例の構成とその問題点近年、不特定話者・多数語を対象とした音声認識の研究
が活発になシつつある。この場合、まず音声を音素に分
解して音素認識を行ない、次に音素系列として音声を認
識する方法が用いられる。

この方法において最も重要なことは音素認Ｒ金精度よく
行なうことである。特に単語数が多くなると子音の認識
率がシステムの性能に大きく関係する。

子音には鼻音の／ｍ／と／ｎ／、無声破裂音の／ｐ／と
／１／と／ｈ／、有声破裂音の／ｂ／と／ｄ／のように
相互に物理的な性質がよく似ていて、判別が難しいもの
がある。このような音素を判別する方法として、ＬＰＧ
ケプヌトラム係数の時間パターンをパラメータとし、統
計的距離尺度を用いて標準パターンとの比較を行なう方
法が有効であることを示した、（二矢田・星見：　「破
裂子音の認識方法」音響講論、昭和５ｅ年３月）。

この方法によると／ｐ／、／ｌ／、／ｈ／、／Ｃ／の平
均判別率が８８．１チ、／ｂ／＊／ａ／＋／ｑ／の平均
判別率が８６．４％という高い値を得ることができる。

しかし、その念めには音声中から該当する子音を正確に
抽出し、基準点（音素を判別するための、時間的な基準
となる部分）を見出さなくてはならない。

上記の結果は基準点が正確であると仮定した場合の直で
ある。基準点としては音素を相互に判別するための特徴
がある部分たとえば破裂子音では破裂時点にＱ鼻音では
後続母音への遷移部分に設定する。

従来例においてはパワーディップを用いて基準点の抽出
を行なっていた。これは、一般的に母音よりも子音の方
がパワーが小さいため、子音部分でパワーディップ（パ
ワーの凹み）が生ずることを利用した方法である。すな
わち第１図に示すようにパワーディップの立上り部分で
変曲点が生ずるところムを基準点の候補とする。これは
、パワーディップの立上り部が子音から母音へ遷移する
部分に当たるので、変曲点付近に基準点が存在するとい
う考え方に基いている。

第２図に従来例の構成を示す。音声信号ｉＡＤ変換部１
で１２Ｋ［ＩＺでサンプリングしてディジタル信号に変
換する。パワー計算部２では１フレーム（１Ｃ１ｌｓｃ
ｃ）ごとに信号のパワーを計算し、対数をとりてｄＢ値
にする。パワー値バッファ部３では対数パワーを時系列
情報として蓄積し、基準点検出部４で時系列パワーから
立上り部の変曲点を検出して基準点（基準フレーム）と
して類似度計算部７へ供給する。一方、特徴パラメータ
抽出部５はＡＤ変換部１の出力信号をＬＰＧ分析しく１
５次）、ＬＰＧケプヌトラム係数を特徴パラメータとし
て抽出する。パラメータバッファ部６は特徴パラメータ
を時系列に蓄える。類似度計算部７は、基準点検出部４
で検出された基準点における特徴パラメータと、音素標
準パターン格納部８の中の各音素標準パターンとの間の
類似度を計算する。音素判別部９は最大類似度を与える
音素を認識結果として出力する。

従来の方法における問題点は、パワーディップを用いて
子音を検出し、基準点を検出する部分にある。パワーデ
ィップは破裂性子音や無声子音では確実に生じるが、鼻
音や流音では生じない場合があり、そのため基準点も正
確に求められないことがある。たとえば例として第４図
と第５図を参照する。第４図（ａｌは１０ｏｓａｍａ／
　（王様）と発声した場合のパワーの時間的な動きを示
したものである。同図（Ｃ）は目視によってフレームご
とに音素ラベルを記したものである。（ａｌと（Ｃ）’
に比較すると、／Ｓ／の部分ではパワーディップが生じ
ており、立上り時点もはっきりと検出できるが、／ｍ／
の部分ではパワーディップが検出できない。また第６図
の／１ｎａｈｏ／　（稲穂）と発声した場合においても
／ｎ／ではパワーディップが検出されない。

／ｈ／はわずかに検出できるが、この程度では基準点を
決めるのは難しい。

発明の目的本発明は従来技術のもつ以上のような欠点を解消するも
ので、鼻音を含めあらゆる種類の音素の検出を行なうこ
とができ、基準点を精度よく検出し、精度の高い音素判
別方法を提供するものである。

発明の構成上記の目的を達成するために、本発明は特徴パラメータ
と（時間的な定常性を表現する標準パターン（以下定常
性パターンと記す）との類似度をフレームごとに計算し
、類似度の時間変化をとらえることによって子音の検出
と基準点の検出を行ない、基準点付近において特徴パラ
メータと音素標準パターンとの類似度を計算し、音素を
判別する方法を提供するものである。

実施例の説明以下本発明の一実施例について説明する。

１ず子音の検出と基準点の検出を行なうために用いる定
常性パターンの作成方法を説明する。

定常性パターンは音声信号中で時間的に定常な部分、例
えば母音やはつ音の中心部の複数フレーム（ｍフレーム
、本実施例ではｍ＝３　）ｉ使用して多くのサンプルに
工つて作成する。１フレームあたりの特徴パラメータの
数をｎとする。本実施例ではＬＰＣケプストラム係数の
低次のパラメータ（ＯＯ〜Ｃａ　）を特徴パラメータと
して使用している。したがりて特徴パラメータの数ｎ＝
５である。

ｍｘｎ　（１ｓ　）個のパラメータを次のように並べて
特徴パラメータベクトルｃＪヲ作成する。

ｅ＝（ｃ、；、ｃ；・・・Ｃ：、Ｃ：、Ｃ２・・・に　
：　、　ｃ名、Ｃ５・・・ｃ：”　＞　（式１）ただし
、Ｃ１において１は次数ナンバー、コはフレームナンバ
ーである。便宜的にＣ１次のように表記する。

ｃ＝（ｃ’、Ｃ２，ｃ’、・・・・・・・・・Ｃｌ５）
　　　　＜式２）多くのサンプルを使用してＣの平均値
ｎと分散共分散行列ＩＷを計算する。かの要素をμｍ、
Ｗの要素をＷｉ、ｊ　とする。サンプル数（ｉ−Ｎとす
ると、１　　　　　　　　　　（式３）％式％で定常性パターン（標準パターン）′ｆ！：作成できる
。

次に入力特徴パラメータと定常性パターンとの類似度の
計算方法を説明する。

入力音声の特徴パラメータ（ＬＰＧケプストラム係数）
を（式１）と同じように時系列に並べ、これをＩとする
。

’　”　（Ｊｃｌ　＊　１２　＋　Ｊ：５＊　””””
’　！１５）　　（式６）Ｉの定常性パターンに対する
確率密度Ｐは次式で表わされる。

（弐〇）ただし、Ｔは転置を表わす。

（弐〇）の対数をと９、これを２倍してＬとすると、Ｌ＝−（ｒ−μ＞”−ｗ−’・（に−か）＋ム　　（式
７）ムは定数でありム＝２・１ｏｑ（（２π）２・ＮＷＩＪ　　　（式８）
音声区間に対して、１フレームずつシフトしながらＸを
求め、これによって（式７）で類似度を求めると、定常
部では（式７）の値（類似度）は大きくなり、スペクト
ルの変化またはパワーの変化がある場合は（式７）の値
は小さくなる。類似度が小さい部分は音素の境界や単語
の境界に相当するので、これをとらえることによって子
音区間を検出することができる。第３図は上に述べた方
法を図で表わしたものである。母音から子音へ遷移する
部分または子音から母音へ遷移する部分で値が小さくな
る。本実施例では子音から母音へ遷移する部分で値が極
小となる部分Ｂｉ基準点候補として検出する。なぜなら
ばこの部分はスペクトル変化が最も著しいところであり
、破裂子音の破裂時点、鼻音の後続母音への遷移部など
の真の基準点（目視によって設定した基準点）によく一
致するからである。

第４図（ｂ）には例として１０ｏｓａｍ＆／と発声した
ときの類似度の時間変化を示す。（２Ｌ）は従来のパワ
ーディップによる時間変化、（Ｃ）は目視による音素レ
ベルを示す。／１１／のみでなく／ｍ／に対してもはっ
きりと音素境界Ｃ及びＤが検出されていることがわかる
。（前にも述べたようにパワー情報（＆）では／ｍ／の
検出はできない。）′！た基準点候補も明確に検出され
ている。同様に第６図Ｆｂｌは／　ｉ　ｎ　ａ　ｈ　ｏ
　／　（稲穂）と発声したときの定常性パターンとの類
似度の時系列を示している。この場合も（Ｌ）の従来法
では検出できなかった／ｎ／と母音の境界Ｅ、／ｈ／と
母音の境界Ｆがはっきりと検出され、基準点候補が明確
に検出されている。

次に基準点候補において、入力音声の特徴パラメータと
音素標準パターンとの類似度を計算することになるが、
その前に音素標準パターンの作成方法を有声子音（／ｍ
／、／ｎ／、／ｙ／、／ｂ×／ｄ／、／ｒ／、／Ｚ／）
を例として述べる。

音素標準パターンは音素ごとだ目視によって正確に基準
点を検出し、基準点（基準フレーム）の前８フレーム〜
基準フレームの後３フレームの合計１２フレームを使用
する。各フレームの特徴パラメータの個数は９個（ＬＰ
Ｇケプストラム係数の０次から８次まで）とし、全体で
９Ｘ１２＝１０８個のパラメータを用いる。作成方法は
定常性標準パターンと全く同様であり、（式３）。

（式４）′ｌｒ：使用する。音素にの標準パターンとし
て、平均値ベクトルを４、分散共分散行列をｔｗＱ　と
書くことにする。ｔｗｏ　２各音素について要素ごとに
平均しこれ’２ｔｗ’　　とする。Ｗ′　は全対象音素
に共通の分散共分散行列である。

このようにして作成した音素標準パターンを用いて未知
入力音声の音素判別を行なう。未知人力音声に対して前
述した方法で検出した前記基準点候補を用い、その前ｓ
フ後３フレームフレームの特徴パラメータを（式６）と
同様にして時系列にならべてこれを ”　＝（ｘｌ　＋！２　＋！５　＋　”’　”’　”’
！４ｏ８）　　（式９）とする。Ｌ′　と音素にの標準
パターンとの距離Ｄｋは（式１０）で計算される。

ｔ　ｔ　　−１ｎｋ＝　（ｚ′−Ｉｌｉｋ）　、ｖ’　＊　（ｒ’−ｔ
ｔｉ這）　　（式、０）（式１Ｑ）を展開して不要な項
を取りのぞき、これヲｄｋ　とすると（式１１）のよう
に簡略化できる。

ｄｋ＝ｂｋ−ａｋ−ｔ　　　　　　　　Ｃ式１１）ただ
し　ａｒ２・ｙ′・べ　　　　　　（式１２）ｂｋ＝Ｉ
−Ｗ′　・ｎ′　　　　　　（式１３）％式％（式１１）は線形判別式なので、パラメータの数が多く
ても計算書はあまり増大しない。

各音素標準パターンに対する距離を（式１１）によって
計算し、距離が最小となる音素を判別結果とする。

なお（式１１）のかわりに（式７）などその他の距離尺
度を用いることもできる。（式７）を用いた場合は最大
値をとる音素を判別結果とする。

第６図は本発明を実施する方法の例をブロック図として
示したものである。第２図と同じ番号のブロックは、同
じ機能を有する。入力音声は第２図と同様にムＤ変換部
１でディジタル信号に変換され、特徴パラメータ抽出部
５に工って、フレームごとに９個のＬＰＧケグヌトラム
係数（Ｃｏ、Ｃ８）が求められる。定常性類似度計算部
１１では、フレームあたｌ）６個（Ｇｏ−１４）のパラ
メータを３フレ一ム分だけ用いて、定常性パターン格納
部１２に格納されている定常性パターンとの間で類似度
を計算する。基準点検出部１３では、類似度の極小値を
求め、第３図によって説明した方法で基準点候補を抽出
する。

一方特徴パラメータ抽出部６の出方はパラメータバッフ
ァ１４で時系列情報として蓄積される。

類似度計算部１５は基準点検出部１３で検出された前記
基準点候補を用い、その前８フレーム〜後３フレームの
情報ヲハラメータバッファ１４から取出して音素標準パ
ターン格納部１６に格納されている各音素の標準パター
ンとの間で類似度全計算する。音素判別部１７は類似度
が最大となる（距離が最小となる）音素を求め、認識結
果として出力する。

かかる方法を用いて男女各１０名がそれぞれ発声した２
Ｘ２単語中の子音、／ｍ／、／ｎ／。

／ｙ／、／ｂ／、／ｄ／、／ｒ／、／Ｚ／に対して行な
りた結果を述べ、本実施例の効果を説明する。

まず基準点検出部１３の検出精度全通べる。本実施例に
よる方法で検出した基準点と、目視によって正確に検出
した基準点とを比較すると、データの５２９６は完全に
一致する。±１１フレ一ム内の誤差まで許容すると８６
％が入シ、±２２フレ一ム内まで許容すると９３％が入
る。従来法では完全に一致するのは２８％程度であり、
±１フレームまで許容しても４２チ程度しかカバーでき
ない。

本実施例による方法で基準点？検出し、その基準点を用
いて音素の判別を行なうと、上記７音素の平均認識率と
して７７．５％を得る。これらの音素は判別が難しい音
素であるので、この結果は非常に良い。従来例では７２
チ程度であることを考えれば、本実施例の効果は明らか
である。

なお本発明の特徴パラメータとしては、ＬＰＣケプヌト
ラム係数、帯域スペクトルパワー、ＰムＲＣＯＲ係数、
自己相関係数のいずれであっても良い。

また統計的距離尺度としては、確率密度、対数尤度、ユ
ハラノビス距離のいずれであっても良い。

発明の効果本発明は特徴パラメータと定常性パターンとの類似度を
フレームごとに計算し、類似度の時間情報の変化をとら
えることに工つて子音を検出すると同時に音素判別に用
いる時間的な基準点を検出し、基準点付近において、特
徴パラメータの時系列パターンと音素標準パターンとの
間で類似度を計算して音素を判別する方法全提供するも
ので、鼻音など従来の方法では正確に検出することがで
きなかったり、基準点が正確に求められなかった音素に
対しても十分に対処できるとともに、類似度情報の相対
値を用いて子音区間と基準点を検出するのでノイズや調
音結合の違いなどの変動要因の影響を受けにくいという
利点金有する。さらに類似度計算は全て積和演算である
ので、ハードウェア化が容易であるという利点も有する
。

【図面の簡単な説明】

第１図は従来例における子音区間と基準点全検出する方
法を説明した図、第２図は従来例による音素認識のブロ
ック図、第３図は本発明の一実施例における子音区間と
基準点を検出する方法を説明した図、第４図および第６
図は従来例と本発明による方法との差異を具体例で示し
た図、第６図は本発明の一実施方法のブロック図である
。代理人の氏名　弁理士　中　尾　敏　男　ほか１名第１
図一−−−−−−−−→−フＬ−４城　　　　　、− 徊く第３図一一一−−−−−−う一フし−４へ　　　　へ　　　　　　　　　　　　　　へ１８　　
　　　ぬ　　　ＯＣ３ぬ　　　０リ　　　　　　−９、
＋　　　　　　　　　＋Ｊ　　　　　　−−区　　　　
　　　　　　　区

Claims

【特許請求の範囲】

（１）入力音声を分析区間（フレーム）ごとに分析して
特徴パラメータを求め、前記特徴パラメータの時間パタ
ーンと、時間的な定常性を表現する標準パターンとの類
似度を統計的な距離尺度によって計算して類似度の時系
列を作成し、前記類似度の時系列から音素の境界と基準
点を求め、前記基準点付近において、前記特徴パラメー
タの時間パターンと音素標準パターンとの類似度を統計
的な距離尺度によって計算し、前記類似度の大きさを比
較することによって音素の判別を行なう音素判別方法。
（２）時間的な定常性を表現する標準パターンが、多数
のサンプルの複数フレームの特徴パラメータを用いて、
平均値と分散共分散行列で構成されることを特徴とする
特許請求の範囲第１項記載の音素判別方法。
（３）特徴パラメータがＬＰＧケプストラム係数、帯域
スペクトルパワー、ＰＡＲＣＯＲ係数、自己相関係数か
ら選ばれたいずれかである特許請求の範囲第１項記載の
音素判別方法。
（４）統計的距離尺度が、確率密度、対数尤度またはマ
ハラノビス距離のいずれかである特許請求の範囲第１項
記載の音素判別方法。
（５）基準点が子音から母音への遷移時点付近であるこ
とを特徴とする特許請求の範囲第１項記載の音素判別方
法。