JPS61233795A

JPS61233795A - 音声合成装置

Info

Publication number: JPS61233795A
Application number: JP7422485A
Authority: JP
Inventors: 市川　熹; 武田　昌一; 浅川　吉章
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1985-04-10
Filing date: 1985-04-10
Publication date: 1986-10-18

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は音声合成方式に係シ、特に規則合成方式におけ
る改良に関する。

〔発明の背景〕

任意の文字列を入力として、それを音声に変換する、い
わゆる規則合成方式は、ニュースなどの文章データの出
力、ワードプロセッサの読合せ、等々との応用範囲は広
く、ヒユーマン・フレンドリ−な出力装置として注目さ
れている。ところで、文字で書かれた通常の文章は、読
みやすくする工夫として、句読点を付した）、段落を入
れｆｃシ、カッコ等を付すなどがなされている。これに
対して、人間が発声する音声には、アクセントやイント
ネーション、グロミネンス、間、リズムなどが付加され
、聞き１Ｇ、ルやすい構造となっている。

しかしながら、現在開発されている規則合成方式は、ア
クセントやイントネーションは付加する規則がある（例
えば特公昭４７−１２３３ものの、それらの規則は一様
で、長い文書を会成し次場合は、単調で聞きすらいもの
となっている。

〔発明の目的〕

本発明は、長い文書出力に対しても、自然で聞きやすい
規則合成方式を出力する技術を提供しようというもので
ある。

〔発明の概要〕

上記目的を達成するために、本発明によれば、段落又は
これに準するものの境界位置において、イントネーショ
ン、アクセント、時間配分等を決定する規則のパラメー
タ値を一定以上に変化させ、その段落又はそれに準する
ものの区間の間に徐々にこの値を変動させることによシ
、文誉内の段落のまとまシを聞き取シやすくすると共に
、聞き手の注意を改めて引く効果を持たせたことに特徴
がある。

〔発明の実施例〕

以下、本発明の一実施例を説明す名。

第１図は規則合成方式の構成を説明する図である。

文字列等で表現された入力ｌは言語処理部２に入力され
る。言語処理部２では、漢字などの読みの解析や、形態
素解析、構文解析、意味解析等を行なう言語解析部２１
と、言語解析部２１の結果にもとづいア、アクヤ７．や
イ２．ネニ７ヨ２、プロミネンス等音声言語特有の情報
であるかぶせ音素情報を求める処理部２２よりなる。こ
の結果、言語処理部２の出力としては、カナ文字列のよ
うな読みの情報とアクセント歴や擬間文などイントネー
ションを定めるかぶせ音素情報が得られる。

簡易な規則合成方式では、これら言語処理部２の処理は
ユーザにまかされ、人手で入力するものも多い。本発明
では、この点の差異は本質的に関係し々い。次の合成パ
ラメータ生成部３の処理内容に関するものであるからで
ある。次だし、段落などの境界情報が、人手又は該処理
部２よシ入力されることか重要である。

合成パラメータ１生成部３では、先ず、文字と読みの異
なるものを合せる処理（助詞の「ハ」を発音に合せ「ワ
」にするなど）３１を行なう。この処理は言語処理部２
で行久う場合もある。次に、各音韻やポーズの時間配分
を３２で行なう。時間配分とかぶせ音素情報を用いて、
抑揚を制御する声の高さくピッチ）や強度のパラメータ
（音源情報）を抑揚決定を３５で生成する。一方音韻列
情報から、その音韻を合成するのに必要なスペクトル情
報や波形情報を音韻単位情報メモリ３４より取シ出し、
時間配分情報にもとづいて接続し、スペクトル情報又は
波形情報として生成する。スペクトル情報又は波形情報
と音源、清報からなる合成パラメータは合成器４に入力
され、合成音声５として出力される。

さて、本発明のポイントは、上記合成パラメータ生成部
３の時間配分決定部３２又は抑揚決定９部３５の処理に
ある。

先ず時間配分決定部３２の処理に関する一実施例を説明
する。

先ず信号の説明をする。

ｔｖ：母音の持続時間 λ！＝母音毎の補正係数 μ、：呼気段落中の位置ｐＫよる補正係数（畳発声上の
単位で、文書の段落とは別の意味）ｔ９．：母音の基準持続時間ｔｃ：その音節の子音部の持続時間 η：子音節の持続時間が母音に及ぼす影響の大きさを示
す係数Ｃ１：呼気段落を構成するモーラａＫよる補正項ｄ　：発声速度制御の項ｑ　：アクセントレベルによる補正項これらの項を用いて、母音の持続時間を次のように制御
することにする。

ム＝λｖ　・μ）　（ｔｖｓ　　’７’ｔｃ　＋Ｃｔ　
十ｄ）　’ｑ””（１）このようなモデルは禄々なもの
が他にも考えられるが、その相異はここでは本質的では
ない。ボイントは、ｄの項が、段落又は及び段落に準す
る位置情報の関数とする点にある。ここではｄを一例と
してｄ＝＝ｄ、＋ｄ（ｔ）＋Δｄ　（ｎ）　　　　　−−−
−−−・−（２）のように制御することにする。ここに
、ｄ、は発声速度を指定する基本項、ｄ（ｔ）は段落又
は段落に準する区間毎にリセットされ、時間電と共に徐
々に変化する項、Δｄ　（ｎ）はランダムに変動する項
を表わす。ｔ’、ｄ（ｔ）は通常は時間と共に徐々に小
さくなる関数を選択することが望ましい。自然な音声で
は発声は徐々に早くな〕、段落等に相当する意味的な大
きな切れ目で、改めて、丁ねいに発声しだすのが普通だ
からである。Δｄ　（ｎ）は発声の単調さ、を防止する
九めのもので、ｄの値に対しては一割程度のランダムな
値を用いる。人間は同一音韻を正確に同一の時間構造で
発声することはできない点に注目し次ものである。この
変動が機械的でない自然なゆらぎ感を音声に与える。

段落の境界では、人間は息をついだル、気持を改め念シ
するため、通常の大間よシも長い休止区間を持つことが
多い。この点に注目し、段落の境界では文又は息の間の
休止区間とは異なる大きな休止時間を与えることにした
。これらの時間の配分は、句読点と段落又は段落に準す
る位置の情報にもとすき、それぞれに対応した表の値を
用意し、用いることによシ・容易に実現することができ
る。

次に抑揚決定部３５の処理に関する実施例を説明する。

抑揚情報の主要な要素は声の高低（ピッチ）にあるので
、ピッチの生体を例に説明するが声の強度についても同
様の構成が可能であるので説明は省略する。ま九、ピッ
チ生成のモデルはここで説明する以外にも様々に考える
ことができるが、その形式は本質的ではないことは時間
配分決定部の場合と同様である。

ここで説明する実施例は、東大藤崎教授が提案され九ピ
ッチ生成モデルをもとに、本発明の主旨を導入して構成
したものである。藤崎モデルではピッチをアクセントと
イントネーションの成分に分け、指数関数の組み合せで
抑揚ピッチを近似する。すなわち、ピッチ周波数ｆ１（
ｔ）の対数値はｔ、（ｆ申（ｔ）／ρｒｐｒ７ｘ　）　
＝Ａ−（Ｇｖ　（ｔ−τ−ｔ　）−（）、　（を−τ１
．））十ＡｊＧ、（ｔ−τａｔ）−Ｇ−（を−τ、２）
）　・・・（３）Ｇ　ａ（ｔ）　＝ａ　ｔ　ｅ−’・ｕ
（ｔ）　　　　　　　　　　　＝（４）ＧＪｔ）＝（１
−（１＋βすｅ−’、）　ｕ（ｔ）　　　−−−−−−
（５）ここにＡ？は序文て成分（イントネーション等に
対応）の振幅ＸＡａはアクセント成分の振幅、α。

βは固有角周波数、τｆｉｇτ、２．τ、１．τ、雪は
各々序文開始；序文終了、アクセント開始、アクセント
終了の時刻を表わすパラメータ、ｆｒｙｓは最低周波数
、ｕ（ｔ）は単位ステップ関数である。ここで本発明で
はＡ７とＡ、を次のようＫおくＡ、　　＝Ａ、Ｏ＋Ａ、
（ｔ）十Δ−，，（ｒｌ）　　　　　　　　　　　　　
・−−−−−（６）Ａ　ａ　＝Ａ　、ｏ　十Ａ　ａ　（
ｆ）十ΔＡ、　（ｒｌ）　　　　　　　−・−（７）こ
こでｋｖ　Ｏｅ　Ａｈ　６は基本項、Ａ−（ｔ）、Ａ、（ｔ
）は段落又は段落に準する区間毎にリセットされ、時間
ｔと共に徐々に変化する項、ΔＡ、ω）、７人、（ｎ）
はランダムに変動する項で６る。Ａ　、　（ｔ）とＡ　
、　（ｔ）は通常は時時間と共に徐々に小さくなる関数
を選択することが望ましい。

なお、各定数の典型的な値はすでに藤崎教授によシ発表
されておシ、当業者には容易に入手できるものなので、
ここでは記載を省略する。

なお、ランダムに変動する項については、α。

β、各τ等にも同様に導入することができることは言う
までもない。これらのランダム環は合成音を不自然な機
械的な音色から、自然な変化のある音色に改善する効果
がある。

〔発明の効果〕

本発明によれば、合成音声は自然な変化を伴なう音声と
なり、特に文書上の段落毎に調子を変えて合成するため
、自然で関きやすい抑揚を実現する効果がある。

【図面の簡単な説明】

第１図は本発明の一実施例を説明するブロック図である
。１・・・入力、２・・・言語処理部、２】・・・言語解
析部、２２・・−がぶせ音素処理部、３・・・合成パラ
メータ生成部、３１・・・文字音韻変換部、３２・・一
時間配分決定部、３３・・・スペクトル情報生成部、３
４・・・音韻単位情報メモリ、３５・・・抑揚決定部、
４・・・音声合成器、５・・・合成音声出力。

Claims

【特許請求の範囲】１、少なくとも、合成パラメータ生成部と音声波形生成
部を有する音声合成装置において、合成パラメータ生成
部への入力に、段落又は及び段落に準する位置に関する
情報を入力情報の一部として有することを特徴とする音
声合成装置。２、上記段落又は及び段落に準する位置に関する情報に
は、その位置に対応する音声間の休止区間を他の位置に
おける休止区間よりも一定幅以上長くするものを含むこ
とを特徴とする特許請求の範囲１の音声合成装置。３、上記段落又は及び段落に準する位置に関する情報に
は音声の時間構造又は及び抑揚情報をそれ以前の状態と
は一定以上に変化させるものを特徴とする特許請求の範
囲１の音声合成装置。４、上記段落又は及び段落に準する位置の情報に関する
情報には、段落又は及び段落に準する区間内で、時間構
造又は及び抑揚情報を徐々に変化させるものを含むこと
を特徴とする特許請求の範囲３の音声合成装置。５、上記時間構造又は及び抑揚情報は不規則に変動する
成分を有することを特徴とする特許請求第３又は第４項
記載の音声合成装置。