JPS6136797A

JPS6136797A - 音声セグメンテ−シヨン法

Info

Publication number: JPS6136797A
Application number: JP15962584A
Authority: JP
Inventors: 郁夫井上; 二矢田　勝行
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1984-07-30
Filing date: 1984-07-30
Publication date: 1986-02-21

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は、コンピュータ等の機械に音声で直接入力を行
なうだめの音声認識方法における音声セグメンテーショ
ン法に関するものである。

従来例の構成とその問題点単語音声あるいは連続音声認識システムにおいて、音素
境界や単語境界を検出するセグメンテーション方法は、
一つ誤ると付加や脱落あるいは認識誤りを生じるため、
最終の認識率に大きな影響を与える。音素を基本単位と
する単語音声認識の例として、三輪他″音声スベク）　
ＩＶの概略形とその動特性を利用した単語音声認識シス
テム０．音響学会誌Ｖｏｌ　、　３４　Ａ　３　（１９
７８）がある。

この方法による単語認識システムの構成を第１図に示す
。図面を参照して構成ならびに動作の説明を行なう。先
ず、認識に先立ち、多数の標準話者の音声を音響分析部
１におけるフィルタバンクで分析し、１０ｍｇ　　の分
析長（フレームと呼ぶ）毎にム／Ｄ変換した後、特徴パ
ラメータ抽出部２で認識に必要な特徴パラメータを求め
る。得られた特徴パラメータから母音、子音毎に標準パ
ターンを作成しておき、その結果を標準パターン登録部
４に登録しておく。次に、認識を行なう際には、認識す
る不特定話者の音声を入力し、同様に分析区間毎に音響
分析部１で分析し、特徴パラメータ抽出部２で特徴パラ
メータを求める。この特徴パラメータト標準パターン登
録部４の標準パターンｔ−基に、セグメンテーション及
び音素認識部３で音素単位のセグメンテーションを行な
うとともに、標準パターンと照合して最も類似度の高い
標準パターンに該当する音素を各セグメントにおける音
素と決定する。この結果作成された音素の時系列（以下
音素系列と呼ぶ）を誤シ訂正部５で音素結合規則を基に
訂正し、訂正した音素系列を作成する。更に単語認識部
６では、誤シ訂正部６で得られた音素系列と、同様に音
素系列で記述された単語辞書格納部７の単語辞書項目と
を比較照合して類似度の最も大きい単語辞書項目に該当
する単語を認識結果として出力する。

次にセグメンテーション及び音素認識部３における母音
のセグメンテーション法について述べる。

母音のセグメンテーションについては、子音区間として
セグメンテーションされた残りの区間について、母音の
認識と同時に行ない、特別なパラメータは用いない。母
音の認識は、子音のセグメンテーションで脱落し易い鼻
音も含めて、フレーム毎に行なう。母音の認識及びセグ
メンテーションは次の手順で行なう。先ず、あらかじめ
多数の標準話者の音声を音響分析した後、母音及び鼻音
について、スベク）／しのホルマント周波数にホホ対応
するローカルピークを抽出し、周波数の低い方から順に
Ｐ＋　、　Ｐｌ　とし、各母音、鼻音毎にＰｌ−Ｐｌ　
平面上の分布を調べる。次に、各母音・鼻音の分布で重
なりができる部分についてはそれらの中間母音を設定し
、ＰＩ−Ｐ２平面上で各母音・鼻音及び中間母音の領域
を設定して判別図を作成し、これを標準パターンとする
。不特定話者の音声を入力した場合、子音区間としてセ
グメンテーションされた残りの区間に対して、フレーム
毎に抽出されたローカルビークｐ、　、　ｐ２を判別図
と照合することによシ、フレーム毎の音素認識結果を出
力する。得られたフレーム毎の音素認識結果の連続性を
基に母音・鼻音のセグメンテーションを行なう。この様
子を図面によって説明する。第２図は従来例の説明をす
るだめの図である。８はフレーム毎にあらかじめつけら
れた音素ラベルで、９はフレーム毎の音素認識結果を表
わす。この音素認識結果を基に、４フレ一ム以上の連続
性があるものについてはその区間を１つの音声区間とし
てセグメンテーションを行なう。この例は、第１領域１
０がＯの区間、第２領域１１がＵの区間、第３領域１２
がＩの区間としてセグメンテーションされたもので、Ｕ
の区間が誤まってセグメンテーションされて付加してし
まっている。

この例に示すように、上記セグメンテーション法を用い
て認識を行なう場合、付加や脱落が多い為に誤認識する
例がかなり見られた。この原因として、母音や鼻音のセ
グメンテーションに於て、母音間あるいは母音・鼻音間
のセグメンテーションを標準パターンのみに頼るために
、調音結合や話者に対する標準パターンのずれによって
現われた母音や中間母音の付加に対して音素認識の段階
で充分に取り、除くことができず、誤り訂正規則による
訂正後も残ってしまうため、その後の処理での負担が非
常に大きいために、満足のいく認識が行なえないという
ことが挙げられる。

発明の目的本発明は、従来技術のもつ以上のような欠点を改良する
もので、より一層認識率を向上することのできる音声セ
グメンテーション法を提供するものである。

発明の構成本発明は上記目的を達成するもので、フレーム区間毎に
音声を分析する手段と、特徴パラメータを抽出する手段
と、母音や鼻音に対して予め作成してある標準パターン
を基に、フレーム毎に入力の各標準パターンに対する類
似度を計算する手段と、フレーム間のスペクトルの変化
の大きさに基づいてセグメントの境界を決定する手段と
、得られたセグメント内において各標準パターンに対す
る類似度またはその順位によって決められた値に対して
フレーム毎に重みづけをすることによシ、セグメント内
で類似皮相あるいは類似度の順位によって決められた値
の和が最も大きくなった標準パターンに対する母音また
は鼻音をそのセグメントの認識結果として出力する手段
とを有し、母音または鼻音のセグメンテーシ町ンと認識
とを同時に行なうことによシ、調音結合による付加や認
識誤まりを減少させるものである。

実施例の説明本発明は、主に母音や鼻音Ｃ／ｍ／、／ｎ／。

／Ｎ／　）のセグメンテーシツンと認識を行なう際に用
いる。第３図は本発明の一実施例における音声セグメン
テニション法を用いた認識装置の一構成を示すブロック
図で、以下に、図面を用いて本実施例の説明を行なう。

先ず、多数の標準話者の音声を音響分析部１３で１０１
１５１のフレーム毎に分析した後、特徴パラメータ抽出
部１４で線形予測分析を行ない、ＬＰＧケプストヲム係
数を求める。予め、ラベル付けされた母音や鼻音等の音
素毎にＬＰＧケプストラム係数Ｇｉ＝（Ｃｔ、（ｚ＋・
・・・・・、０ｐ）（ｉ：音素、ｐ：次数）の平均値ベ
クトルｘｉ　および共分散行列Ｗｉ　を次式により求め
真、Ｗｉ　および行列式１Ｗｉｌを母音標準パターン格
納部１８に格納しておく。

ここで、Ｎｉ　　は各音素の出現数、添字ｊは出現番号
、添字ｔは行列の、転置を表わす。

次に入力音声を、音響分析部１３および特徴パラメータ
抽出部１４で同様の分析を行ない、フレーム毎のＬＰＧ
ケプストラム係数係数Ｃ水める。類似度計算部１６では
、母音や鼻音に対するフレーム毎のＬＰＧケプストヲム
係数Ｃ′の確率密度関数Ｌｉ＝　−（（Ｃ’−〇１）Ｗ
ｉ−’（Φ′−Φｉ）−＋−Ｄ・・・・・・・・・（４
）で表わされる類似度Ｌ１を計算する。ここでＷｉ−１
は共分散行列ｗ４の逆行列である。

一方、音素境界検出部１７では、特徴パラメータ抽出部
１４で得られたＬＰＧケデストヲム俤数を基に音素境界
候補及び音素中心候補の抽出を行なう。この様子を第４
図を用いて説明する。１９はフレーム毎の音素ラベル、
２０はフレーム毎の音素認識結果を表わす。曲線２２は
フレーム間スペクトル距離を示すもので４フレーム（２
ｏｍｓ）程度離れた部分のスペクトルの相違をＬＰＧケ
プストラム係数のユークリッド距１１１Ｄ（ｎ）＝（＋Ｉｊ（’ｎ＋２）−Ｑｉ（ｎ−ｚ）　（
Ｇ（ｎ＋ｚ）−〇（ｎ−ｚ））・・・・・・・・・・・
・・・・・・・・・・・・・・・・・・・（６）（ｎは
フレーム番号）をフレーム毎に計算し、前後のフレーム
の荷重平均をとシ平滑したものである。この値を基に、
閾値２１を越える極大フレームを音素境界候補とし、そ
の間の区間２６および２６を音素区間候補として出力す
る。またそれぞれの区間の中での極小フレーム２３及び
２４を音素中心候補として出力する。また、第３図にお
いて、セグメンテーシ舊ン及び母音認識部１８では、音
素境界検出部１７から得られた音素区間候補について、
類似度計算部１６から得られたフレーム毎の各音素標準
パターンに対する類似度を基に音素判別を行なう。この
際、音素区間内の音素中心付近ではスペクトルの変化が
少なく調音結合の影響を受けにくいことから、音素中心
付近で最も重く、中心から離れるに従って軽くなるよう
な重み関数Ａ（Ｘ）　（ｘは音素中心フレームとのフレ
ーム差を表わす）によって、各音素標準パターンに対す
るフレーム毎の類似度または各音素候補の順位によって
決められた値Ｌｉに重みづけを行ない、区間内における
重みづけされた値の総和Ｍｉ（但し、ｎはフレーム番号
、Ｊｓ＋βｃ　＋　Ｊｅはそれぞれ区間の始端、中心、
終端フレーム番号を表わす。）が最大となる音素ｉをそ
の区間を代表する音素とする。重み関数ム（Ｘ）は標準
パターンの数や分析区間に応じ、音声認識シ′ステムに
応じてよシ高い認識率が得られるように設定する。例え
ば、音素中心付近でより大きな重みづけの行なえるＡ（
ｘ）＝；・＋、　　、−、°−゛°−゛−−−−−°−
°−（８）（ａは定数、ｍは区間の長さ）のような関数
を選ぶ。

このようにして音素候補区間毎に音素判別が済んだ後、
隣り合う区間の音素を比較し、同一音素でしかも両方の
区間の持続時間の長さの和が一定値以下の場合は２つの
区間を１つにまとめる操作を行ない、こうして得られた
音素系列を母音・鼻音の認識結果として出力する。

かかる方法においては入力音声に対するフレーム間によ
る相対的距離と、標準パターンとの絶対的距離とを効果
的に用いることにより、付加の減少と認識率の向上とを
同時にはかることができる。

すなわち本実施例によれば、調音結合を受は易い音素の
コンテキストに対して、音素境界付近での付加を減少す
る効果があるほか、検出したセグメント内における音素
認識率が、例えば単純にセグメントの中心フレームで音
素認識を行なうのに比べ、そのセグメント内において、
統計的にシステムに対する認識傾向を把握した重みづけ
を行なうことにより向上（男性１０名の発声した約２０
００単語で約１％の向上を得た）させることが可能であ
るため、この認識結果を利用して隣シ合うセグメントの
間で再度セグメンテーションを行なうことによる付加の
減少の二重の効果があるほか、中間母音といった後の処
理に手間の要するものを使わなくて済み、標準パターン
も少なくて済むという効果がある。

発明の効果以上要するに本発明は単語音声または連続音声を認識す
る音声認識装置において、入力音声に対し、フレーム区
間毎に、予め母音や鼻音毎に用意してある標準パターン
との量子類似度を計算し、異なるフレーム間におけるス
ペクトル形状の差分変化の大きさに基づきセグメントの
境界を決定し、セグメント内で類似度または類似度の順
位によって決められた値の重みづけ和が最も大きい標準
ノ々ターンに対する母音または鼻音をそのセグメントに
おける認識結果として出力することを特徴とする音声セ
グメンテーション法を提供するもので、付加や脱落のな
い高い認識率が得られる利点を有する。

【図面の簡単な説明】

第１図は従来例の単語音声認識システムの構成を示すブ
ロック図、第２図は従来例のセグメンテーション法を説
明するだめの図、第３図は本発明の一実施例における音
声認識システムの構成を示すブロック図、第４図は本発
明のセグメンテーション法を説明するための図である。１３・・・・・・音響分析部、１４・・・・・特徴パラ
メータ抽出部、１５・・・・・類似度計算部、１ｅ・・
・・・・母音標準パターン格納部、１７・・・・・・音
素境界検出部、１８・・・・セグメンテーション及び母
音認識部。代理人の氏名　弁理士　中　尾　敏　男　ほか１名第１
図１０　　　　　　　　ノ／ｌど第３図

Claims

【特許請求の範囲】

フレーム区間毎に音声を分析する手段と、特徴パラメー
タを抽出する手段と、入力音声に対し、フレーム毎に予
め母音や鼻音毎に用意してある標準パターンとの間で類
似度を計算する手段と、異なるフレーム間でスペクトル
形状の差を求め、その変化の大きさに基づいてセグメン
トの境界を決定する手段と、セグメント内において各標
準パターンに対する類似度または類似度の順位によって
決められた値に対してフレーム毎に重みづけすることに
より、セグメント内で類似度または類似度の順位によっ
て決められた値の重みづけ和が最も大きくなった標準パ
ターンに対する母音または鼻音をそのセグメントの認識
結果として出力する手段とを少なくとも有することを特
徴とする音声セグメンテーション法。