JPS6113300A

JPS6113300A - 音声分析合成方式

Info

Publication number: JPS6113300A
Application number: JP59133144A
Authority: JP
Inventors: 武田　昌一; 市川　熹
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1984-06-29
Filing date: 1984-06-29
Publication date: 1986-01-21

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は音声分析合成方式の改良に関する。

〔発明の背景〕

音声を／ア／とか／イ／のような情報を主に担うスペク
トル０エンベロープ情報と、アクセントやイントネーシ
ョンのような抑揚を担う音源情報に分離して処理あるい
は伝送する方式は生成原方式と呼ばれている、。ＰＡＲ
ＣＯＲ方式、Ｉ、ＳＰ方式　−などがその例である。こ
れら生成原方式は、狭帯域伝送が可能であり、そのため
ボイスメール、玩具、教育機器などへの応用に適してい
る。筐だ、生成原方式の上記の情報分離性は、規則合成
には不可欠な性質である。従来の生成原方式においては
、第１図（ａ）に示すように、音源情報として疑似的に
発生させた白色雑音１あるいはインパルス列２、を切換
えて用いていた（例えば、特開昭５１−１３７３０７　
　＞。このとき合成器に印加する音源精報は、■有声／
無声ｉ報３、■音源振幅４、お”よび■１７チ周期（あ
る叱１２チ周竺数）５であ・つた。すなわち、上記■の
情報を用いて、有声の場合インパルス列を発生させ、無
声の場合白色雑音を発生させる。これらの信号の振幅は
上記■により与えられる。またインパルス列の発生間隔
は上記■により与えられる。

このような疑似音源を用いることによシ次のような音質
劣化が起こり、従来の生成原方式による分析合成音声が
一定の品質の限界を乗り越えることは不、可能であった
。

（１）分析時に、起こる有声／無声の誤判定に±る音質
劣化。

（２）　ピッチ抽出誤りによる音質劣化。

（３）女声の／イ／や／つ／などに発生するホルマント
成分とピッチ成分も分離の不完全性に基く音質劣−化。

′ （Ｊ　　ＰＡＲＣＯＲ方式などＡＲモデルの限界により
、スペクトルの苓の情、報を担えないために生ずる音質
劣化。

（５）音声の自然性に重要な非定常成分、ゆらぎの情報
が棄てられるために生ずる音質劣化。、これらの音質劣
化の要因を除去する手段の一つとして、１ピッチ周期内
あるいは無声の場合はその周期に相当する時間内に複数
本のパルスを疑似的に発生させたものを、従来の「単一
インパルス／白色雑音」の代りに音源として用いる「マ
ルチパルδ駆動法」が公知の手段として挙げられる（第
１図Φ））、。

マ化チパルス駆動法によれば確かに合成音声の品質は向
上するが、その代償として、音源情報量（パルス位！お
よび符号付振幅値）が増大する。

〔発明の目的〕

−本発明の目的は、音韻の種類等音声の性質の違いに対
応して音源情報の効果的な圧縮方法を提供することにあ
る。

〔発明の概要〕

上記の目的を達成するため本発明では原音声波形と、こ
の波形を分析合成して得られる合成音声、波形との誤差
が一最小になる、時点及θ振１幅値を設定することによ
り発生させた音源パルδ数を前記誤差値に依存した値と
して設定、することを特徴とする。

〔発明の実施例〕

まず本発明の原理にＳ！いて説明する。

合成音声の品質は、音源パルスの付加本数、（以下、略
１て「パルス付加本数」あるいは単に「付加本数」と呼
ぶことにする）の増加とともに向上していく。そとで、
目的に応じて要求される品質あるいは情報伝送量゛を満
足するように付加本数を決定する必要がある。付加本数
は、合成音声′の長゛　時間平均の品質が所望の水準を
漬たすような一定値、゛あるいは所望の情報伝送量とな
る一定一として定めることも可能である。しかしながら
、一般に同一の品質を得るためめ′付加本数は、音韻の
種類等音声波形の性質により異なるため、付加本数を一
定値に定める左合成音−の品質に゛ムラ示生ずる。そめ
ため、た表えばもし最も品質が悪い場合′でも少くとも
ある水準の品質を保つように付加本数を決定しようとす
れば、合成音声に不必要に高品質な部分が生じ、ｉの部
分では過剰な情報を伝送することによるムダが生ず乏。

このように品質のムラ、あるいは情報のムダを減らし、
゛効−的に＃ｌ報を伝送する丸めに、以下に説明する゛
ような音声波−の性質は適応して、最適な音源パルス付
加”本数を決定゛する方゛式を導入テる。

第２図ば、′左から右に二定音声区間（短区間）の音源
パルスを発生した順に並べたもｏｒ：振幅の絶対値（以
下、特にことわらない限り振幅の絶対値を単に「振幅値
」と呼ぶことにする）を棒の高さで表現したものである
。第２図のうち（ａ）図は音韻／ａ／の例であシ、Φ）
図は／ｉ／の例である。

図中の矢印は、それで示した音源パルス以降に発生する
音源パルスには、付加することによる品質の向上がほと
んど認められないという、限界を示している。図かられ
かるように、／ａ／の場合は多数の音源パルスが合成音
声の品質上重要な情報を担っているが、／ｉ／の場合は
重要な情報を担っている音源パルスはわずかである。こ
のことを換言すれば、／ａ／には振幅値の大きい音源パ
ルスが多く含まれておＣ１／ｉ／にはそれがわずかしか
含まれていない、ということである。このように、一般
に音源パルスの振幅値の分布は、音韻によって異なる。

さらに、音声の品質上重要な情報を担っている音源パル
スは、振幅の大きい音源パルスであることもわかる。し
たがって、大きい振幅値の音源パルスが多く含まれてい
る／ａ／では多くの音源パルスを必要とし、大きい振幅
値の音源パルスがわずかしか含まれていない／ｉ／では
わずかな数の音源パルスだけを伝送すればよいと言える
。以上より、パルス付加本数はその音源パルスの振幅の
大きさに依存する量として設定すればよい。

上に述べたことは、一定の短区間における音源振幅値の
分布に着目して付加本数が決定できるということであっ
たが、他の方法としては、長時間の音声データの音源の
振幅値の分布に一目して定めたしきい値以上の振−値の
音源パルスのみを付加するという方法も存在する。

第３図は以上の方式をまと９て概念的に示したものであ
る。

パルス付加本数を決定する他の方式とし梁、第４図に示
すように、原波形と合成波形の誤差値に基いて決定する
という方式返ある。横軸に付加本数、縦軸に波形誤差あ
るいはスペクトルひずみ尺度のような誤差値をとって誤
差減少曲線を描くと、第２図と類似の傾向が見られる。

すなわち、／ｉ／の場合は少い付加本数で比較的誤差減
少の立ち下りが早く、／ａ／の場合は逆に、付加本数が
多くなってもなかなか誤差値が小さくならない。このこ
とは、／ａ／の方がより多くの音源パルスを必要として
いることを意味している。したがって、例えば誤差値が
予め定めた一定値以下で最大となるようにパルス付加本
数を決定すれば、所期の目的が達成できる。

そのほかの変形方式としては、例えば原波形の振幅情報
、あるいは合成波形の振幅情報に基いて、パルス付加本
数を決定する方式（第５図および第６図）がある。いず
れにせよ、基本的に何らかの音声情報を用いて適応的に
付加本数を自動決定するという共通の方式であり、上に
述ぺ”た方式に′準じて実施することが出来る。

以上の原理、に基く方式は、高品質音声合成のための音
源を得る分析方式として用い不ことができることはもと
よ“す、この音源を用いた高品質音声合成方式どして単
独に用いるととも可能である。

さらに上記分析方式と合成方式を一体とした分析合成方
式として用いることができることは言うまでもない。

次に、パルス付加本数Ｍを音声情報から適応的に決定す
る実施例を説明する。

第３図〜第６図における誤差計算の方法にはさまざまな
方式が考えられる。例えば原音声と合成音声の波形の２
乗誤差や両讐声のスペクトルひずみ、あるいはこれらの
誤差にＮｏｉｓｅ−Ｗｅｉｇｈｔ　ｉｎｇＦｉ　ｌ　ｔ
ｅｒ”　のような聴覚的な重み付けを適用したものを誤
差評価尺度として用いることができる。

ここでは、誤差評価尺度の一例とじて、（１）式で示す
２乗誤、差を採用した場各について実施例を示す。

２乗誤差をεとすればここで記号パ憂”はたたみ込み番示す。またＮは誤差を
計算する区間のサンプル数゛、ｘ（ｎ）’、　ｘ’（ｎ
）はそれぞれ原音声信号と合成信号、ｗ　（ｎ）は重み
付はフィルタのインパルス応答を示す。さらにａｍは線形予測（ＬＰ
Ｃ）フィルタのフィルタ係数、ｐはフィルタ次数、ｒは
重み付けの度合いを示す係数で、０〈ｒ〈１に選ばれる
。

（１）式で誤差を定義した場合、引用文献２）あるいは
３）に示された公知例によれば、誤差の最小値およびそ
れを与える音源パルスの位置および振幅は次の手順によ
り求められる。なお以下の手順はｌフレーム内の処理で
あり、長い音声データについてはこの処理をフレームご
とに繰返し実行していけばよい。

１番目のパルスについて、フレームの端からの位置をｍ
ｌ、符号付振幅をｇｌで表わせば、合成フィルタの駆動
音源信号部、は、時刻ｎにりいて（３）式のように表わ
せる。

ここでδ、１．．はクロネツカーのデルタであり、δ、
、、　＝、１　（ｎ　＝ｍＩ）　、δｍ、　ｍ　１　＝
　０　（ｎ　４　ｆｎｌ　）でおる。Ｍは音源パルスの
個数である。いま、合成フィルタの伝達特性をインパル
ス応答上（ｒｌ）　（０≦ｎ≦Ｎ−１）で表わせば、合
成音声信号ｘ　（ｎ）は、となる。（３）式を（４）式
に代入して整理すれば、合成音声信号の式として次式を
得る。

あるいは重み付けのされた合成音声信号として次式を得
る。

さらＫ　（４）　’式を（１）式に代入すれば、誤差の
式として次式を得る。

以上（４）’　、　（４）“、α）′の式は、最初に該
フレームの合成フィルタのインパルス応答を求めておき
さえすれば、合成音声信号値や誤差値を実際に波形を合
成せずに得ることができることを意味している。

（１）７式を最小化するパルスの振幅１位置は、（１）
７式をｇＩについて偏微分して０とおくことにより得ら
れる次式が最大となる点で与えられる。

ここで、Ｒｈｂ　　はり、（ｎ）　（ｇｈ（ｎ）＊ｗ（
ロ））の自己相関関数、ψ、８はり、（ｎ）とＸｖ　（
ｎ）　＜　ｅ　ｘ　ｉ）＋　Ｗ（ｎ））との相互相関関
数を示す。（０式の最大値および最大値を与える位置は
、公知の最大値探索法によシ求めることができる。

以上の原理に基いて構成される音声分析合成方式（音声
符号化法）の公知例は第７図（ａ）のとおりである。

本発明は、例えば第７図（ａ）の音声分析合成方式にお
けるパルス付加本数Ｍを与える方式に関するもので、そ
れを実現するためのいくつかの実施例を以下に示す。な
お、以下に示す実施例は、例えば文献３）に示されてい
る第７−Ｃｂ）の音声分析合成方式など、さまざまな変
形方式に対１ても適用できる一般的な方式であることは
言うまでもないが、ここでは、第７図（ａ）の方式を例
として実施例を示す。他の方式についても同様の考え方
で適用すればよい。

（実施例１）第８図に第１の実施例をブロック図により示す。

本実施例では、音源パルスの情報を基にパルス付加本数
Ｍを計算する。Ｍはパルス付加本数計算部６によシ計算
して音源パルス計算部に与える。音源パルスの計算は、
パルス本数がＭに到達したら、Ｍ番目のパルス１其を最
後に打切る。第８図におりては、音源パルスの情報は量
子化／符号化Ｑ２を実行する前の値を利用するように記
述しであるが、勿論、量子化／符号化Ｑ２を実行した後
の値を利用してもよい。このことは、後に述べるすべて
の実施例たついても同様である。

以下にパルス付加本数計算部６を実現するいくつかの実
施例を−示す。

第９図は、第２図と同様音源パルスを左から右へ、発生
した順に並べたものを振幅値の包絡線により示したもの
である。第９図（ａ）のｇ、、、は、該に短区間の音源パルスの振幅の最大値であり、ｅｌｈパル
ス付加よりこの値未満の振幅値の音源パルスが初めて発
生する直前の最大本数Ｍで付加操作を打切るという、振
幅のしきい値である。雫ｔｂの値の定め方の１例を示す
と、次式のようになる。

デｔｋ＝ｒｌ翠□８　　　　　　・・・・・・・・・（
６）ここに、ｒｌは０（ｒｔ（１なる定数である。

Ｖｔｋを決定する他の例を示すと、次式のようになる。

代表値ａｍ−’Ｈ（１＝＝　ｌ　、　２．・・・）の長
時間平均値、すなわち、（ｉはフレーム番号、Ｎｔは長時間の総フレーム数）で
あり、例えば学−は次のようにして定めればよい。

ｊｒ＝　（撃ｍａＸ）ｌ　　　　　　　　・・・・・・
・・・（８）あるいは＊ｊ＝（Σ　＃ｋ）１　　　　　　・・・・・・・・・
（９）ｋ暉１ここにａｐｋは、発生−した順に並べられた音源パルス
のうち、ｋ番目の音源パルスの振幅値（絶対値−絶対値
記号は省略して示しである）、ｍは適当に定めた定数で
ある。またサフィックスｉは第１７レームのデータであ
ることを示す。

なお、（η式は、’２の選び方や音声信号のレベルによ
っては、マｔｈの値が都１．８の値を超えることがある
。この場合は音源パルスの発生が生じないことになり、
もし、音声が無音でない場合合成器を駆動する音源がな
くなり不都合である。した・“かって（７）式を用いる
ときには、最小パルス付加数Ｍａｉｍ　　を予め定めて
おき、（７）式の計算の結果、もしＭ＜Ｍ−ｕ−なるＭ
を与える４ｈｔｈが求まったときには（７）式によらず
Ｍ＝Ｍ、＋−に定めることとする。

（７）式は、長時間の音声波形の中で、音声の品質の影
響は、振幅の大きい部分でより多く受けるので、音源伝
送量は、音声の振幅の大きさに対応して増加させるとい
う考えに基くものである。なお、＃、には必ずしも槃に
比例して定める必要はなく、（４ｋ ’ｌ＃ｔｂ　＝　ｒ　＊　ｆ　（Ｗ　）　　　　　　−
”・（７）’しくとしてもよい。ここにｆ（ψ）は輩の一価の非線形ｔＬ
　　　　械増加関係である。

（６）式で示したＷｔｈの求め方は簡単であるが、収！１□の値のばらつきに左右され易いという難点がある
。そこでより安定にＭの値を求める方法を次に説明する
。いま、発生ＪＩＫ並べた音源パルスＬ、ＬＡ　　　　
　ＬＡの振幅値（絶対値）を零１　ｔ　’２　ｒ・・・、？Ｍ
、・・・で表わすものとする。基本的な考え方は、第９
図（ロ）においてＳｌを一定になるようにＭの値を定め
るということである。ここに、である。これは、音声の品質上重要な情報量は、振幅の
大きい音源パルスの振幅値の総和に比例するという考え
方に基くものである。この演算が安定である理由は、Ｓ
ｉの計算が総和を求める演算であり、ばらつきを平滑化
する機能があるからである。

上記諸実施例は、音声の品質を表わす物理量と直接に対
応が付きにくいという欠点がある。そこで、音声の品質
を表わす残差によりＭの値を決定する方式の一例として
、波形誤差に基いてＭの値を決定する実施例を示す。

第１０図に第２の実施例をブロック図により示す。本実
施例は、パルス付加本数を原波形と合成音声波形の誤差
に依存して決定するという方法でおる。まず誤差ｅは、
原音声信号２合成フィルタのインパルス応答、音源パル
スの振幅、さらに必要に応じて重み付はフィルタのイン
パルス応答などより、誤差計算部７により計算される。

次にこの誤差を基にパルス付加本数計算部６によりパル
ス付加本数Ｍが計算され、Ｍは音源パルス計算部に与え
られる。これによりＭ本の音源パルスが計算される。こ
こで誤差計算部７では、例えばα）７式の演算が実行さ
れる。ただし、（１）、、’において’＋ｗ（ｎ）”の
たたみ込み演算は省略してもよい。

この誤差εを利用した場合、パルス付加本数計算部６で
は次の演算が行われる。すなわちパルス付加本数Ｍは、 ε≦しｉ　　　　　　・・°・・・・・・・αυなる最
大付加本数として決定すればよい。ここで、ａｓｈはし
きい値である。勿論誤差は、上述の波形誤差に限定され
ず、スペクトルひずみ尺度など他の誤差で評価してもよ
い。

以上説明した実施例以外に、音源振幅情報あるいは誤差
情報の代りに、原音声波形１金成音声波形などの情報を
基に付加本数Ｍを決定する、さまざまな変形方式が存在
する。例えば第１１図は原音声波形を基に付加本数Ｍを
決定する例であり、第１２図は合成音声波形を基にＭを
決定する例である。これらの処理は、上述の一連の実施
例に準じた方法にｒり実行することができる。なお、第
１２図において、合成音声計算部８の処理は（４）７式
あるいは（４）“式を計算することにより実行可能であ
る。

上記の付加本数Ｍを求める一連の計算は、四則演算器、
メモリ、テーブル参照、−比較器などにより容易に実行
することができる。例えば、（７）７式のｆＱは、ｆ　
（Ｗ）・を関数チースルとして用意しておき、テーブル
参照により求めればよい。

以上の実施例で説明した音源パルス付加本数Ｍを自動的
に決定する一連の手法は、上記の実施例のみに限定され
ない。すなわち、上記音源パルス付加本数自動決定手法
は、どのような実施例であろうと、基本的に、音声の品
質上重要な音源パルスを付加する本数を決定する手法と
して、一般的に利用できる手法である。

〔発明の効果〕

以上説明したごとく、本発明によれば、音声の品質上重
要な情報のみを有効に抽出した音源パルスを、合成器の
音源として用いることができるので、合成音声を高品質
に保ちながら、有効に音源情報の圧縮を行うことができ
る。これにより、パラメータの情報伝送量の低減化を図
ることができる。

”引用文献１）　　Ｂ　、　Ｓ−Ａｔａｌ　’ａｎｄ　Ｊ　、毘’
ｌ（、ｅｍｄｅ　：　Ａ　ＮｅｗＭｏｄｅｌ　Ｏｆ　Ｌ
ＰＣＥｘｃｉｔａｔｉｏｎ　ｆｏｒ　ｐｒｏｄｕｃｉｎ
ｇＮａｔｕｒａｌ　−８ｏｕｎｄｉｎｇ　ｆ３ｐｅｅｃ
ｈ　ａｔ　ＬＯＷ　ＢｉｔＲａｔｅｓ、　Ｐｒｏｃ、　
ＩＣＡＳＳＰ８２．　ｐｐｅｉ４−６１７２）小澤、荒
関：小野：マルチパルス駆動形音声符号化の検討、儒学
技報Ｃ３８２−１６’ｌ。

ｐｐＨ５−１２２（１９８３−ａ５３）小澤、小野、荒関：マルチパルス駆動形音声符号化
法の品質改善、日本音響学会音声研究会資料８８３−７
８　（１９８４−１）

【図面の簡単な説明】

第１図（ａ）従来の分析合成方式を示す図、（ｂ）公知
の改良方式（マルチパルス駆動法を用いた分析合成方式
）を示す図、第２図〜第６図は本発明の詳細な説明する
歯、第７図〜第１２図は実施例を説明する図である。６・・・パルス付加本数計算部、７・・・誤差計算部、
８　　　　′第　１　　図（り第　２　図（α） ↑ ’　　（／；−）ｍ３［２１、 η４　図 ′！７ｆＪ５　図貞６０第　１　図（α）（りＱ−’：Ｖ司１Ｊ＼＝ル硼イζシ１！Ｊ８　口第１０図

Claims

【特許請求の範囲】１、音声波形をスペクトル情報と音源情報に分離する音
声分析部とスペクトル情報と音源情報から音声波形を合
成する音声合成部とを有し、音源情報を原音声波形とこ
の原音声波形を基に分析、合成して得られる合成音声波
形との誤差が最小になるような時点及び振幅値を設定す
ることにより発生させた複数個のパルス列（音源パルス
）を求める音声分析方式（マルチパルス駆動法による音
声分析方式）において、前記発生させる該音源パルスの
数を、前記誤差値に依存した値として設定することを特
徴とする音声分析方式。２、前記特許請求の範囲第１項記載の音声分析方式にお
いて、発生させる該音源パルスの数を、音源パルスの振
幅値に依存して定まる評価量を計算することにより設定
することを特徴とする音声分析方式。３、前記特許請求の範囲第１項記載の音声分析方式にお
いて、発生させる該音源パルスの数を、原音声波形の振
幅値に依存して定まる評価量を計算することにより設定
することを特徴とする音声分析方式。４、前記特許請求の範囲第１項記載の音声分析方式にお
いて、発生させる該音源パルスの数を、合成音声波形の
振幅値に依存して定まる評価量を計算することにより設
定することを特徴とする音声分析方式。５、前記特許請求の範囲第１項、第２項、第３項または
第４項記載の音声分析方式により得られた上記音源パル
スを音源として用いることを特徴とする音声合成方式。