JPS61233795A - 音声合成装置 - Google Patents
音声合成装置Info
- Publication number
- JPS61233795A JPS61233795A JP7422485A JP7422485A JPS61233795A JP S61233795 A JPS61233795 A JP S61233795A JP 7422485 A JP7422485 A JP 7422485A JP 7422485 A JP7422485 A JP 7422485A JP S61233795 A JPS61233795 A JP S61233795A
- Authority
- JP
- Japan
- Prior art keywords
- paragraph
- information
- speech
- intonation
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔発明の利用分野〕
本発明は音声合成方式に係シ、特に規則合成方式におけ
る改良に関する。
る改良に関する。
任意の文字列を入力として、それを音声に変換する、い
わゆる規則合成方式は、ニュースなどの文章データの出
力、ワードプロセッサの読合せ、等々との応用範囲は広
く、ヒユーマン・フレンドリ−な出力装置として注目さ
れている。ところで、文字で書かれた通常の文章は、読
みやすくする工夫として、句読点を付した)、段落を入
れfcシ、カッコ等を付すなどがなされている。これに
対して、人間が発声する音声には、アクセントやイント
ネーション、グロミネンス、間、リズムなどが付加され
、聞き1G、ルやすい構造となっている。
わゆる規則合成方式は、ニュースなどの文章データの出
力、ワードプロセッサの読合せ、等々との応用範囲は広
く、ヒユーマン・フレンドリ−な出力装置として注目さ
れている。ところで、文字で書かれた通常の文章は、読
みやすくする工夫として、句読点を付した)、段落を入
れfcシ、カッコ等を付すなどがなされている。これに
対して、人間が発声する音声には、アクセントやイント
ネーション、グロミネンス、間、リズムなどが付加され
、聞き1G、ルやすい構造となっている。
しかしながら、現在開発されている規則合成方式は、ア
クセントやイントネーションは付加する規則がある(例
えば特公昭47−1233ものの、それらの規則は一様
で、長い文書を会成し次場合は、単調で聞きすらいもの
となっている。
クセントやイントネーションは付加する規則がある(例
えば特公昭47−1233ものの、それらの規則は一様
で、長い文書を会成し次場合は、単調で聞きすらいもの
となっている。
本発明は、長い文書出力に対しても、自然で聞きやすい
規則合成方式を出力する技術を提供しようというもので
ある。
規則合成方式を出力する技術を提供しようというもので
ある。
上記目的を達成するために、本発明によれば、段落又は
これに準するものの境界位置において、イントネーショ
ン、アクセント、時間配分等を決定する規則のパラメー
タ値を一定以上に変化させ、その段落又はそれに準する
ものの区間の間に徐々にこの値を変動させることによシ
、文誉内の段落のまとまシを聞き取シやすくすると共に
、聞き手の注意を改めて引く効果を持たせたことに特徴
がある。
これに準するものの境界位置において、イントネーショ
ン、アクセント、時間配分等を決定する規則のパラメー
タ値を一定以上に変化させ、その段落又はそれに準する
ものの区間の間に徐々にこの値を変動させることによシ
、文誉内の段落のまとまシを聞き取シやすくすると共に
、聞き手の注意を改めて引く効果を持たせたことに特徴
がある。
以下、本発明の一実施例を説明す名。
第1図は規則合成方式の構成を説明する図である。
文字列等で表現された入力lは言語処理部2に入力され
る。言語処理部2では、漢字などの読みの解析や、形態
素解析、構文解析、意味解析等を行なう言語解析部21
と、言語解析部21の結果にもとづいア、アクヤ7.や
イ2.ネニ7ヨ2、プロミネンス等音声言語特有の情報
であるかぶせ音素情報を求める処理部22よりなる。こ
の結果、言語処理部2の出力としては、カナ文字列のよ
うな読みの情報とアクセント歴や擬間文などイントネー
ションを定めるかぶせ音素情報が得られる。
る。言語処理部2では、漢字などの読みの解析や、形態
素解析、構文解析、意味解析等を行なう言語解析部21
と、言語解析部21の結果にもとづいア、アクヤ7.や
イ2.ネニ7ヨ2、プロミネンス等音声言語特有の情報
であるかぶせ音素情報を求める処理部22よりなる。こ
の結果、言語処理部2の出力としては、カナ文字列のよ
うな読みの情報とアクセント歴や擬間文などイントネー
ションを定めるかぶせ音素情報が得られる。
簡易な規則合成方式では、これら言語処理部2の処理は
ユーザにまかされ、人手で入力するものも多い。本発明
では、この点の差異は本質的に関係し々い。次の合成パ
ラメータ生成部3の処理内容に関するものであるからで
ある。次だし、段落などの境界情報が、人手又は該処理
部2よシ入力されることか重要である。
ユーザにまかされ、人手で入力するものも多い。本発明
では、この点の差異は本質的に関係し々い。次の合成パ
ラメータ生成部3の処理内容に関するものであるからで
ある。次だし、段落などの境界情報が、人手又は該処理
部2よシ入力されることか重要である。
合成パラメータ1生成部3では、先ず、文字と読みの異
なるものを合せる処理(助詞の「ハ」を発音に合せ「ワ
」にするなど)31を行なう。この処理は言語処理部2
で行久う場合もある。次に、各音韻やポーズの時間配分
を32で行なう。時間配分とかぶせ音素情報を用いて、
抑揚を制御する声の高さくピッチ)や強度のパラメータ
(音源情報)を抑揚決定を35で生成する。一方音韻列
情報から、その音韻を合成するのに必要なスペクトル情
報や波形情報を音韻単位情報メモリ34より取シ出し、
時間配分情報にもとづいて接続し、スペクトル情報又は
波形情報として生成する。スペクトル情報又は波形情報
と音源、清報からなる合成パラメータは合成器4に入力
され、合成音声5として出力される。
なるものを合せる処理(助詞の「ハ」を発音に合せ「ワ
」にするなど)31を行なう。この処理は言語処理部2
で行久う場合もある。次に、各音韻やポーズの時間配分
を32で行なう。時間配分とかぶせ音素情報を用いて、
抑揚を制御する声の高さくピッチ)や強度のパラメータ
(音源情報)を抑揚決定を35で生成する。一方音韻列
情報から、その音韻を合成するのに必要なスペクトル情
報や波形情報を音韻単位情報メモリ34より取シ出し、
時間配分情報にもとづいて接続し、スペクトル情報又は
波形情報として生成する。スペクトル情報又は波形情報
と音源、清報からなる合成パラメータは合成器4に入力
され、合成音声5として出力される。
さて、本発明のポイントは、上記合成パラメータ生成部
3の時間配分決定部32又は抑揚決定9部35の処理に
ある。
3の時間配分決定部32又は抑揚決定9部35の処理に
ある。
先ず時間配分決定部32の処理に関する一実施例を説明
する。
する。
先ず信号の説明をする。
tv:母音の持続時間
λ!=母音毎の補正係数
μ、:呼気段落中の位置pKよる補正係数(畳発声上の
単位で、文書の段落とは 別の意味) t9.:母音の基準持続時間 tc:その音節の子音部の持続時間 η:子音節の持続時間が母音に及ぼす影響の大きさを示
す係数 C1:呼気段落を構成するモーラaKよる補正項 d :発声速度制御の項 q :アクセントレベルによる補正項 これらの項を用いて、母音の持続時間を次のように制御
することにする。
単位で、文書の段落とは 別の意味) t9.:母音の基準持続時間 tc:その音節の子音部の持続時間 η:子音節の持続時間が母音に及ぼす影響の大きさを示
す係数 C1:呼気段落を構成するモーラaKよる補正項 d :発声速度制御の項 q :アクセントレベルによる補正項 これらの項を用いて、母音の持続時間を次のように制御
することにする。
ム=λv ・μ) (tvs ’7’tc +Ct
十d) ’q””(1)このようなモデルは禄々なもの
が他にも考えられるが、その相異はここでは本質的では
ない。ボイントは、dの項が、段落又は及び段落に準す
る位置情報の関数とする点にある。ここではdを一例と
して d==d、+d(t)+Δd (n) −−−
−−−・−(2)のように制御することにする。ここに
、d、は発声速度を指定する基本項、d(t)は段落又
は段落に準する区間毎にリセットされ、時間電と共に徐
々に変化する項、Δd (n)はランダムに変動する項
を表わす。t’、d(t)は通常は時間と共に徐々に小
さくなる関数を選択することが望ましい。自然な音声で
は発声は徐々に早くな〕、段落等に相当する意味的な大
きな切れ目で、改めて、丁ねいに発声しだすのが普通だ
からである。Δd (n)は発声の単調さ、を防止する
九めのもので、dの値に対しては一割程度のランダムな
値を用いる。人間は同一音韻を正確に同一の時間構造で
発声することはできない点に注目し次ものである。この
変動が機械的でない自然なゆらぎ感を音声に与える。
十d) ’q””(1)このようなモデルは禄々なもの
が他にも考えられるが、その相異はここでは本質的では
ない。ボイントは、dの項が、段落又は及び段落に準す
る位置情報の関数とする点にある。ここではdを一例と
して d==d、+d(t)+Δd (n) −−−
−−−・−(2)のように制御することにする。ここに
、d、は発声速度を指定する基本項、d(t)は段落又
は段落に準する区間毎にリセットされ、時間電と共に徐
々に変化する項、Δd (n)はランダムに変動する項
を表わす。t’、d(t)は通常は時間と共に徐々に小
さくなる関数を選択することが望ましい。自然な音声で
は発声は徐々に早くな〕、段落等に相当する意味的な大
きな切れ目で、改めて、丁ねいに発声しだすのが普通だ
からである。Δd (n)は発声の単調さ、を防止する
九めのもので、dの値に対しては一割程度のランダムな
値を用いる。人間は同一音韻を正確に同一の時間構造で
発声することはできない点に注目し次ものである。この
変動が機械的でない自然なゆらぎ感を音声に与える。
段落の境界では、人間は息をついだル、気持を改め念シ
するため、通常の大間よシも長い休止区間を持つことが
多い。この点に注目し、段落の境界では文又は息の間の
休止区間とは異なる大きな休止時間を与えることにした
。これらの時間の配分は、句読点と段落又は段落に準す
る位置の情報にもとすき、それぞれに対応した表の値を
用意し、用いることによシ・容易に実現することができ
る。
するため、通常の大間よシも長い休止区間を持つことが
多い。この点に注目し、段落の境界では文又は息の間の
休止区間とは異なる大きな休止時間を与えることにした
。これらの時間の配分は、句読点と段落又は段落に準す
る位置の情報にもとすき、それぞれに対応した表の値を
用意し、用いることによシ・容易に実現することができ
る。
次に抑揚決定部35の処理に関する実施例を説明する。
抑揚情報の主要な要素は声の高低(ピッチ)にあるので
、ピッチの生体を例に説明するが声の強度についても同
様の構成が可能であるので説明は省略する。ま九、ピッ
チ生成のモデルはここで説明する以外にも様々に考える
ことができるが、その形式は本質的ではないことは時間
配分決定部の場合と同様である。
、ピッチの生体を例に説明するが声の強度についても同
様の構成が可能であるので説明は省略する。ま九、ピッ
チ生成のモデルはここで説明する以外にも様々に考える
ことができるが、その形式は本質的ではないことは時間
配分決定部の場合と同様である。
ここで説明する実施例は、東大藤崎教授が提案され九ピ
ッチ生成モデルをもとに、本発明の主旨を導入して構成
したものである。藤崎モデルではピッチをアクセントと
イントネーションの成分に分け、指数関数の組み合せで
抑揚ピッチを近似する。すなわち、ピッチ周波数f1(
t)の対数値はt、(f申(t)/ρrpr7x )
=A−(Gv (t−τ−t )−()、 (を−τ1
.))十AjG、(t−τat)−G−(を−τ、2)
) ・・・(3)G a(t) =a t e−’・u
(t) =(4)GJt)=(1
−(1+βすe−’、) u(t) −−−−−−
(5)ここにA?は序文て成分(イントネーション等に
対応)の振幅XAaはアクセント成分の振幅、α。
ッチ生成モデルをもとに、本発明の主旨を導入して構成
したものである。藤崎モデルではピッチをアクセントと
イントネーションの成分に分け、指数関数の組み合せで
抑揚ピッチを近似する。すなわち、ピッチ周波数f1(
t)の対数値はt、(f申(t)/ρrpr7x )
=A−(Gv (t−τ−t )−()、 (を−τ1
.))十AjG、(t−τat)−G−(を−τ、2)
) ・・・(3)G a(t) =a t e−’・u
(t) =(4)GJt)=(1
−(1+βすe−’、) u(t) −−−−−−
(5)ここにA?は序文て成分(イントネーション等に
対応)の振幅XAaはアクセント成分の振幅、α。
βは固有角周波数、τfigτ、2.τ、1.τ、雪は
各々序文開始;序文終了、アクセント開始、アクセント
終了の時刻を表わすパラメータ、frysは最低周波数
、u(t)は単位ステップ関数である。ここで本発明で
はA7とA、を次のようKおくA、 =A、O+A、
(t)十Δ−,,(rl)
・−−−−−(6)A a =A 、o 十A a (
f)十ΔA、 (rl) −・−(7)こ
こで kv Oe Ah 6は基本項、A−(t)、A、(t
)は段落又は段落に準する区間毎にリセットされ、時間
tと共に徐々に変化する項、ΔA、ω)、7人、(n)
はランダムに変動する項で6る。A 、 (t)とA
、 (t)は通常は時時間と共に徐々に小さくなる関数
を選択することが望ましい。
各々序文開始;序文終了、アクセント開始、アクセント
終了の時刻を表わすパラメータ、frysは最低周波数
、u(t)は単位ステップ関数である。ここで本発明で
はA7とA、を次のようKおくA、 =A、O+A、
(t)十Δ−,,(rl)
・−−−−−(6)A a =A 、o 十A a (
f)十ΔA、 (rl) −・−(7)こ
こで kv Oe Ah 6は基本項、A−(t)、A、(t
)は段落又は段落に準する区間毎にリセットされ、時間
tと共に徐々に変化する項、ΔA、ω)、7人、(n)
はランダムに変動する項で6る。A 、 (t)とA
、 (t)は通常は時時間と共に徐々に小さくなる関数
を選択することが望ましい。
なお、各定数の典型的な値はすでに藤崎教授によシ発表
されておシ、当業者には容易に入手できるものなので、
ここでは記載を省略する。
されておシ、当業者には容易に入手できるものなので、
ここでは記載を省略する。
なお、ランダムに変動する項については、α。
β、各τ等にも同様に導入することができることは言う
までもない。これらのランダム環は合成音を不自然な機
械的な音色から、自然な変化のある音色に改善する効果
がある。
までもない。これらのランダム環は合成音を不自然な機
械的な音色から、自然な変化のある音色に改善する効果
がある。
本発明によれば、合成音声は自然な変化を伴なう音声と
なり、特に文書上の段落毎に調子を変えて合成するため
、自然で関きやすい抑揚を実現する効果がある。
なり、特に文書上の段落毎に調子を変えて合成するため
、自然で関きやすい抑揚を実現する効果がある。
第1図は本発明の一実施例を説明するブロック図である
。 1・・・入力、2・・・言語処理部、2】・・・言語解
析部、22・・−がぶせ音素処理部、3・・・合成パラ
メータ生成部、31・・・文字音韻変換部、32・・一
時間配分決定部、33・・・スペクトル情報生成部、3
4・・・音韻単位情報メモリ、35・・・抑揚決定部、
4・・・音声合成器、5・・・合成音声出力。
。 1・・・入力、2・・・言語処理部、2】・・・言語解
析部、22・・−がぶせ音素処理部、3・・・合成パラ
メータ生成部、31・・・文字音韻変換部、32・・一
時間配分決定部、33・・・スペクトル情報生成部、3
4・・・音韻単位情報メモリ、35・・・抑揚決定部、
4・・・音声合成器、5・・・合成音声出力。
Claims (1)
- 【特許請求の範囲】 1、少なくとも、合成パラメータ生成部と音声波形生成
部を有する音声合成装置において、合成パラメータ生成
部への入力に、段落又は及び段落に準する位置に関する
情報を入力情報の一部として有することを特徴とする音
声合成装置。 2、上記段落又は及び段落に準する位置に関する情報に
は、その位置に対応する音声間の休止区間を他の位置に
おける休止区間よりも一定幅以上長くするものを含むこ
とを特徴とする特許請求の範囲1の音声合成装置。 3、上記段落又は及び段落に準する位置に関する情報に
は音声の時間構造又は及び抑揚情報をそれ以前の状態と
は一定以上に変化させるものを特徴とする特許請求の範
囲1の音声合成装置。 4、上記段落又は及び段落に準する位置の情報に関する
情報には、段落又は及び段落に準する区間内で、時間構
造又は及び抑揚情報を徐々に変化させるものを含むこと
を特徴とする特許請求の範囲3の音声合成装置。 5、上記時間構造又は及び抑揚情報は不規則に変動する
成分を有することを特徴とする特許請求第3又は第4項
記載の音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7422485A JPS61233795A (ja) | 1985-04-10 | 1985-04-10 | 音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7422485A JPS61233795A (ja) | 1985-04-10 | 1985-04-10 | 音声合成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS61233795A true JPS61233795A (ja) | 1986-10-18 |
Family
ID=13540995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7422485A Pending JPS61233795A (ja) | 1985-04-10 | 1985-04-10 | 音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS61233795A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017032621A (ja) * | 2015-07-29 | 2017-02-09 | 日本電信電話株式会社 | ポーズ長制御装置、ポーズ長制御方法、およびプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56158389A (en) * | 1980-05-13 | 1981-12-07 | Casio Computer Co Ltd | Voice output system |
JPS5948798A (ja) * | 1982-09-11 | 1984-03-21 | 富士通株式会社 | 音声の規則合成装置 |
JPS59162597A (ja) * | 1983-03-04 | 1984-09-13 | 松下電器産業株式会社 | 音声合成装置 |
JPS59180728A (ja) * | 1983-03-31 | 1984-10-13 | Fujitsu Ltd | 音声出力編集方式 |
-
1985
- 1985-04-10 JP JP7422485A patent/JPS61233795A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56158389A (en) * | 1980-05-13 | 1981-12-07 | Casio Computer Co Ltd | Voice output system |
JPS5948798A (ja) * | 1982-09-11 | 1984-03-21 | 富士通株式会社 | 音声の規則合成装置 |
JPS59162597A (ja) * | 1983-03-04 | 1984-09-13 | 松下電器産業株式会社 | 音声合成装置 |
JPS59180728A (ja) * | 1983-03-31 | 1984-10-13 | Fujitsu Ltd | 音声出力編集方式 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017032621A (ja) * | 2015-07-29 | 2017-02-09 | 日本電信電話株式会社 | ポーズ長制御装置、ポーズ長制御方法、およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6751592B1 (en) | Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically | |
JP4363590B2 (ja) | 音声合成 | |
US8219398B2 (en) | Computerized speech synthesizer for synthesizing speech from text | |
JP5198046B2 (ja) | 音声処理装置及びそのプログラム | |
US8103505B1 (en) | Method and apparatus for speech synthesis using paralinguistic variation | |
JPH05100692A (ja) | 音声合成装置 | |
JPS61233795A (ja) | 音声合成装置 | |
JPS5972494A (ja) | 規則合成方式 | |
JPH05224688A (ja) | テキスト音声合成装置 | |
JP3113101B2 (ja) | 音声合成装置 | |
JPH05134691A (ja) | 音声合成方法および装置 | |
KR0134707B1 (ko) | 다이폰 단위를 이용한 엘에스피(lsp)방식의 음성 합성 방법 | |
JP2703253B2 (ja) | 音声合成装置 | |
JP3397406B2 (ja) | 音声合成装置及び音声合成方法 | |
KR0173340B1 (ko) | 텍스트/음성변환기에서 억양패턴 정규화와 신경망 학습을 이용한 억양 생성 방법 | |
JP2995814B2 (ja) | 音声合成方法 | |
JP2581130B2 (ja) | 音韻継続時間長決定装置 | |
JP2977236B2 (ja) | 音声合成装置 | |
JPH01321496A (ja) | 音声合成装置 | |
JPH04149500A (ja) | テキスト音声合成装置 | |
JP3088211B2 (ja) | 基本周波数パタン生成装置 | |
JPH0990987A (ja) | 音声合成方法及び装置 | |
JP3722136B2 (ja) | 音声合成装置 | |
JPH06318093A (ja) | 音声合成装置及び読み付与装置 | |
JPH06168265A (ja) | 言語処理装置および音声合成装置 |