JPS63253996A - Sentence-voice converter - Google Patents
Sentence-voice converterInfo
- Publication number
- JPS63253996A JPS63253996A JP62087100A JP8710087A JPS63253996A JP S63253996 A JPS63253996 A JP S63253996A JP 62087100 A JP62087100 A JP 62087100A JP 8710087 A JP8710087 A JP 8710087A JP S63253996 A JPS63253996 A JP S63253996A
- Authority
- JP
- Japan
- Prior art keywords
- time length
- parameter
- rule
- time
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 claims description 16
- 238000003786 synthesis reaction Methods 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 239000000203 mixture Substances 0.000 claims description 6
- 239000002131 composite material Substances 0.000 description 16
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 150000001875 compounds Chemical group 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.
Description
【発明の詳細な説明】
〔概要〕
この発明は、文章を音声に変換して出力する文−音声変
換装置において、合成する音声の各音素の時間長を夫々
固定して同じ内容を発声させた場合、毎回同じ時間長と
なってしまい、不自然な合成音声が生成されてしまう問
題を解決するため、発声される各音素に対応する合成単
位記号に付与する時間長にゆらぎを与えて音声合成する
構成を採用することにより、同じ発声内容であっても、
毎回時間長を変化させ、より人の発声に近い、自然性の
高い合成音声を出力するようにしている。[Detailed Description of the Invention] [Summary] The present invention provides a sentence-to-speech conversion device that converts a sentence into speech and outputs the same content by fixing the time length of each phoneme of synthesized speech. In order to solve the problem that the length of time is the same every time, resulting in unnatural synthesized speech, we synthesized speech by varying the length of time given to the synthesis unit symbol corresponding to each phoneme that is uttered. By adopting a structure that
The length of time is varied each time to output highly natural synthesized speech that is closer to human speech.
C産業上の利用分野〕
本発明は、文章に対応する合成単位記号毎に付与する時
間長にゆらぎを与えて音声合成し、出力する文−音声変
換装置に関するものである。C. Industrial Application Field] The present invention relates to a sentence-to-speech conversion device that synthesizes and outputs speech by varying the time length given to each synthesis unit symbol corresponding to a sentence.
この文−音声変換装置は、任意の文章を入力とし、音声
に変換して出力するものであって、翻訳電話やコンピュ
ータの音声出力、盲人用読書機などの多くの分野で利用
されるものである。This text-to-speech conversion device takes any text as input, converts it into speech, and outputs it, and is used in many fields such as translation phones, computer speech output, and reading machines for the blind. be.
第10図および第11図を参照して文章を音声に合成し
て出力する従来の処理の流れを説明する。The flow of conventional processing for synthesizing text into speech and outputting it will be described with reference to FIGS. 10 and 11.
第10図において、入力された文章に対し、合成単位記
号生成部11によって変換ルール12が適用され、合成
の基本単位を表す合成単位記号列に変換される。この変
換された合成単位記号列は、パラメータ時系列生成部1
3によってパラメータルール14が適用され、音声合成
部15に与えるためのパラメータ時系列に変換される。In FIG. 10, the composition unit symbol generation unit 11 applies the conversion rule 12 to the input sentence, and converts it into a composition unit symbol string representing the basic unit of composition. This converted composite unit symbol string is generated by the parameter time series generator 1
3, the parameter rule 14 is applied, and the parameter rule 14 is converted into a parameter time series to be given to the speech synthesis unit 15.
このパラメータ時系列は、音声合成部15によって音声
合成され、音声として出力される。This parameter time series is voice synthesized by the voice synthesis section 15 and output as voice.
次に、第11図を用いてパラメータ時系列生成部13の
処理の流れを詳細に説明する。Next, the process flow of the parameter time series generating section 13 will be explained in detail using FIG. 11.
第11図において、時間長設定部13−1は、通知され
た合成単位記号列に対し、時間長ルール13−2を適用
して合成単位記号毎に時間長の割り当てを行うと共に、
音素環境による時間長の違いを考慮して時間長の調整を
行う、パラメータ設定部13−3は、この調整された時
間長を用いて、合成単位記号列に対応するパラメータ値
を設定し、更に補間を行ってパラメータ時系列を生成す
る。In FIG. 11, the time length setting unit 13-1 applies the time length rule 13-2 to the notified combination unit symbol string to allocate a time length to each combination unit symbol, and
The parameter setting unit 13-3, which adjusts the time length in consideration of the difference in time length depending on the phoneme environment, uses the adjusted time length to set the parameter value corresponding to the synthesis unit symbol string, and further Perform interpolation to generate parameter time series.
この際、音声の自然性を高めるために、パラメータ間を
滑らかに接続したり、実音声に見られるような“ゆらぎ
”を与える処理を行う、このようにして生成されたパラ
メータ時系列を音声合成部15に入力することによって
、音声が合成され、出力される。At this time, in order to enhance the naturalness of the voice, the parameter time series generated in this way is processed to create smooth connections between parameters and give "fluctuations" similar to those seen in real speech. By inputting to section 15, speech is synthesized and output.
〔発明が解決しようとする問題点3
人が同じ単語(文)を何回も繰り返し発声する場合、発
声された音声は、発声毎にその物理的な特徴(振幅、ピ
ンチ、ホルマント周波数、発声長など)が変化している
。[Problem 3 to be solved by the invention: When a person repeatedly utters the same word (sentence), the uttered voice changes its physical characteristics (amplitude, pinch, formant frequency, utterance length) each time it is uttered. etc.) are changing.
従来の第1O図および第11図に示すような文音声変換
装置は、パラメータ設定部13−3において、パラメー
タ間を滑らかに接続したり、パラメータ値にゆらぎを付
加したりすることが考えられる。しかし、これは時間長
を固定したままであるため、同じ内容を発声させた場合
、毎回、同じ時間長となる不自然な音声が合成・出力さ
れるという問題点があった。In conventional sentence-to-speech conversion devices as shown in FIGS. 1O and 11, the parameter setting section 13-3 may connect parameters smoothly or add fluctuations to parameter values. However, since the time length remains fixed, there is a problem in that when the same content is uttered, an unnatural sound with the same length of time is synthesized and output every time.
本発明は、前記問題点を解決するため、文章に対応づけ
て生成した合成単位記号に対し、時間長ルール3を適用
して時間長の割り当てを行う時間長設定部2と、この時
間長設定部2によって割当てられた時間長に対し、時間
長ゆらぎルール5を通用してゆらぎを付加する時間長ゆ
らぎ付加部4と、この時間長ゆらぎ付加部4によってゆ
らぎが付加された時間長に対し、パラメータルール7を
適用してパラメータ値を設定した後、パラメータ時系列
を生成するパラメータ設定部6とを設け、このパラメー
タ設定部6によって生成されたパラメータ時系列を音声
合成部に供給して音声を合成して出力するようにしてい
る。In order to solve the above-mentioned problems, the present invention provides a time length setting section 2 that assigns a time length by applying time length rule 3 to a composite unit symbol generated in association with a sentence, and a time length setting section 2 that allocates a time length by applying a time length rule 3. A time length fluctuation addition unit 4 adds fluctuation to the time length assigned by the time length fluctuation rule 5 using the time length fluctuation rule 5, and to the time length to which fluctuation is added by the time length fluctuation addition unit 4, After setting parameter values by applying parameter rule 7, a parameter setting section 6 is provided which generates a parameter time series, and the parameter time series generated by the parameter setting section 6 is supplied to a speech synthesis section to generate speech. I am trying to synthesize and output.
第1図は本発明の原理構成図を示す0図中パラメータ時
系列生成部1は、合成単位記号を入力とし、パラメータ
時系列を生成して出力するものである。これは、第10
図図中パラメータ時系列生成部13に対応するものであ
って、時間長に更にゆらぎを付加して生成したパラメー
タ時系列を出力するものである。FIG. 1 shows a basic configuration diagram of the present invention. In FIG. 1, a parameter time series generation section 1 receives a composite unit symbol as input, generates and outputs a parameter time series. This is the 10th
It corresponds to the parameter time series generation unit 13 in the figure, and outputs a parameter time series generated by adding fluctuation to the time length.
時間長設定部2は、入力された合成単位記号に対し、時
間長ルール3を適用して時間長を割り当てるものである
。The time length setting section 2 applies the time length rule 3 to assign a time length to the input composite unit symbol.
時間長ゆらぎ付加部4は、割り当てられた時間長に対し
、時間長ゆらぎルール5を適用してゆらぎを付加するも
のである。The time length fluctuation adding unit 4 applies a time length fluctuation rule 5 to the assigned time length to add fluctuation.
パラメータ設定部6は、パラメータルール7を適用して
、合成単位記号列と、ゆらぎの付加された時間長とに従
って、パラメータ値を設定して音声合成部に与えるパラ
メータ時系列を生成するものである。The parameter setting section 6 applies the parameter rule 7 to set parameter values according to the synthesis unit symbol string and the time length to which fluctuations are added, and generates a parameter time series to be given to the speech synthesis section. .
次に動作を説明する。 Next, the operation will be explained.
第1図において、合成単位記号を時間長設定部2に人力
すると、時間長ルール3が適用され、夫々の合成単位記
号に対し、時間長が設定される。In FIG. 1, when composite unit symbols are manually entered into the time length setting section 2, time length rule 3 is applied and a time length is set for each composite unit symbol.
この時間長を時間長ゆらぎ付加部4に入力すると、時間
長ゆらぎルール5が適用され、これらの時間長に毎回異
なる値のゆらぎが付加される。このゆらぎの付加された
時間長、および合成単位記号をパラメータ設定部6に入
力すると、パラメータルール7が適用され、パラメータ
値が設定され、更に補間が行われてパラメータ時系列が
生成される。When these time lengths are input to the time length fluctuation adding section 4, the time length fluctuation rule 5 is applied, and a different value of fluctuation is added to these time lengths each time. When the time length to which this fluctuation is added and the synthesis unit symbol are input to the parameter setting unit 6, the parameter rule 7 is applied, the parameter value is set, and further interpolation is performed to generate a parameter time series.
このパラメータ時系列を音声合成部に入力することによ
り、音声が合成され、出力される。By inputting this parameter time series to the speech synthesis section, speech is synthesized and output.
以上のように、時間長ルール3を通用して生成した時間
長に対し、更に時間長ゆらぎルール5を適用してゆらぎ
例えば乱数を用いて生成したゆらぎを付加してパラメー
タ時系列を生成し、音声合成を行って出力することによ
り、同じ内容を発声させても、毎回異なる時間長からな
る自然な音声が出力される。As described above, a parameter time series is generated by further applying time length fluctuation rule 5 to the time length generated using time length rule 3 and adding fluctuations, for example, fluctuations generated using random numbers, By performing speech synthesis and outputting, even if the same content is uttered, natural speech with a different length of time is output each time.
次に、第2図ないし第9図を用いて本発明の1実施例の
構成および動作を詳細に説明する。Next, the configuration and operation of one embodiment of the present invention will be explained in detail using FIGS. 2 to 9.
第2図において、時間長設定部2は、入力された合成単
位記号に対し、時間長ルール3を適用して時間長を割り
当てるものである。In FIG. 2, a time length setting unit 2 applies a time length rule 3 to the input composition unit symbol to assign a time length.
時間長調整部2−1は、割り当てられた時間長に対し、
時間長調整ルール2−2を適用して各合成単位記号の環
境による時間長の違いを調整するものである。The time length adjustment unit 2-1 adjusts the time length to the assigned time length.
The time length adjustment rule 2-2 is applied to adjust the difference in time length depending on the environment of each composite unit symbol.
時間長ゆらぎ付加部4は、調整された時間長に対し、時
間長ゆらぎルール5を適用して合成単位記号毎にゆらぎ
の幅が異なることを考慮し、ゆらぎを付加するものであ
る。The time length fluctuation adding section 4 adds fluctuation to the adjusted time length by applying the time length fluctuation rule 5, taking into account that the width of fluctuation differs for each composite unit symbol.
超分節素パラメータ設定部4−1は、ゆらぎの付加され
た時間長に対し、超分節素パラメータルール4−2を適
用して振幅、ピッチなどの超分節素(音声学的に意味の
ある音声の最小単位である分節素の枠を越えて、音節や
句、文などの広範囲に渡る音声特徴を有するもの)パラ
メータの設定を行うものである。The super-segmental element parameter setting unit 4-1 applies the super-segmental element parameter rule 4-2 to the time length to which the fluctuation is added, and sets the ultra-segmental elements (phonetically meaningful speech) such as amplitude and pitch. It goes beyond the segmental element, which is the smallest unit of speech, and sets parameters for a wide range of speech features such as syllables, phrases, and sentences.
パラメータ設定部6−1は、超音節素の付加されたもの
対し、パラメータルール7を適用してパラメータ値を設
定するものである。The parameter setting unit 6-1 sets a parameter value by applying parameter rule 7 to the supersyllabic element.
パラメータ補間部6−2は、設定されたパラメータ値の
間の補間例えば直線補間、2次曲線補間などを行って、
音声合成部に与えるパラメータ時系列を生成するもので
ある。The parameter interpolation unit 6-2 performs interpolation between set parameter values, such as linear interpolation, quadratic curve interpolation, etc.
It generates a parameter time series to be given to the speech synthesis section.
次に、第2図構成の処理の流れを第3図ないし第7図ル
ールを用いて順次説明する。Next, the flow of the process in the configuration shown in FIG. 2 will be sequentially explained using the rules shown in FIGS. 3 to 7.
第3図は時間長ルール例を示す、これは、入力された合
成音声記号に対し、時間長設定部2によって適用される
ルールを示す、このルール1は、“AEの時間長は、2
00m5である”旨を表す。FIG. 3 shows an example of a time length rule. This shows the rule applied by the time length setting unit 2 to the input synthesized speech symbol. This rule 1 is "The time length of AE is 2.
00m5".
ここで、“AE”は例えば英語“cat”の発音記号(
合成単位記号に対応する)(kaat)中の′″a!”
を表し、DUは区間を表し、5tartおよびendは
処理する場合に使用する時間変数名を表す。Here, “AE” is the phonetic symbol for the English word “cat” (
``a!'' in (kaat) (corresponding to the compound unit symbol)
, DU represents an interval, and 5tart and end represent time variable names used in processing.
時間長設定部2がこのルール1を合成単位記号“a!“
に対して適用することによって、時間変数5tart=
o、および時間変数and−200(ms)に設定され
る。The time length setting unit 2 converts this rule 1 into a composite unit symbol “a!”
By applying to the time variable 5tart=
o, and a time variable and-200 (ms).
第4図は時間長調整ルール例を示す、これは、時間長ル
ール例えばルール1によって設定された時間長(時間変
数5tartxQ、時間変数and−200>に対し、
時間長調整部2−1によって適用されるルールを示す、
このルール2は“有声の摩擦音に先行する母音の時間長
は120%に伸張する”、ルール3は“無声の閉鎖音に
先行する母音の時間長は75%に短縮する”旨を夫々表
す、ここで、〔〕内は合成単位記号の素性(音響的特徴
)を表し、合成単位記号毎に予め設定しておく必要があ
る。 (vowel )はその合成単位が母音、(+
voc)は有声、(−voc)は無声、(fric)は
摩擦音、(stop)は閉鎖音であることを夫々表す、
ルールの左から第1番目の項例えば〔νo@el )は
ルール適用の対象となる合成単位記号又はその素性を表
す、第2番目の項例えば(Do 120%)はルール
適用後の結果を表す、第3番目の項例えば“−(+vo
c fric ) ”は対象となる□合成単位記号の環
境(合成単位記号又はその素性)を表す、以下同様であ
る0時間長調整部2−1がこれらルール2あるいはルー
ル3を合成単位記号に適用することによって、右横に示
すように、時間変数endが1.2倍あるいは0.75
倍される。FIG. 4 shows an example of a time length adjustment rule.
Indicating the rules applied by the time length adjustment unit 2-1,
Rule 2 states that "the duration of the vowel preceding a voiced fricative is extended by 120%," and rule 3 states that "the duration of the vowel preceding a voiceless stop is shortened to 75%." Here, the characters in [ ] represent the features (acoustic characteristics) of the composite unit symbol, and must be set in advance for each composite unit symbol. For (vowel), the unit of composition is a vowel, (+
voc) indicates voiced, (-voc) indicates voiceless, (fric) indicates fricative, and (stop) indicates stop consonant.
The first term from the left of the rule, for example [νo@el], represents the composite unit symbol or its feature to which the rule is applied, and the second term, for example (Do 120%), represents the result after applying the rule. , the third term, for example “-(+vo
c fric ) ” represents the environment (composite unit symbol or its feature) of the target □composite unit symbol, and the same applies hereafter.0 Time length adjustment unit 2-1 applies these rules 2 or 3 to the composite unit symbol. By doing this, the time variable end becomes 1.2 times or 0.75 as shown on the right side.
be multiplied.
第5図は時間長ゆらぎルール例を示す、これは、時間長
調整ルール2−2によって調整された後の時間長に対し
、時間長ゆらぎ付加部4によって適用されるルールを示
す、このルール4は“母音の時間長はその20%の範囲
でゆらぐ”、ルール5は“摩擦音の時間長はその10%
の範囲でゆらぐ”旨を夫々表す、ここで、RNDは、乱
数例えば一様乱数、あるいはスペクトルが1/fとなる
ようにフィルタリングされた乱数などであって、−1か
ら+1の値を持つものを表す0時間長ゆらぎ付加部4が
例えば合成単位記号AEに対して適用すると、第5図ル
ールの右欄に示すような演算が実行される。例えば、乱
数が−0,3の値を取った場合、ルール1で設定された
時間変数end=200に対し、下式によって算出され
る時間変数end=188に設定される。FIG. 5 shows an example of the time length fluctuation rule. This rule 4 shows the rule applied by the time length fluctuation adding section 4 to the time length after being adjusted by the time length adjustment rule 2-2. Rule 5 is ``The duration of vowels fluctuates within 20% of that range'', and Rule 5 is ``The duration of fricatives fluctuates within 10% of that range''.
Here, RND is a random number, such as a uniform random number or a random number filtered so that the spectrum is 1/f, and has a value from -1 to +1. When the 0 time length fluctuation addition unit 4 representing 0 is applied to, for example, the composite unit symbol AE, the calculation shown in the right column of the rule in Figure 5 is executed.For example, if the random number takes the values -0, 3, In this case, the time variable end=200 set in Rule 1 is set to the time variable end=188 calculated by the following formula.
end−200+200X0.2X (0゜3)=18
8・・・・・・・・・・・・・・・+11以上のルール
を適用することによって、時間長に対する処理を完了す
る0次に、パラメータ値の設定の処理を説明する。end-200+200X0.2X (0°3)=18
8......+11 or more rules are applied to complete the processing for the time length.Next, the processing for setting parameter values will be described.
第6図は超分節パラメータルール例を示す。これは、ゆ
らぎの付加された時間長に対し、超分節素パラメータ設
定部4−1によって適用されるルールを示す、このルー
ル6は“母音の始点と終点との振幅はOdBである”、
ルール7は“母音の始点から30 m s後の振幅は6
0dB、および終点の3 Qms前の振幅は55dBで
ある”、ルール8は“母音の始点から70m5後の振幅
は70dBである°旨を夫々表す、これにより、第8図
(イ)図中黒丸を用いて示す位置のパラメータ値が設定
されたこととなる。また、ルール9は“母音の始点のピ
ンチは100Hzである”、ルール10は1母音の終点
のピンチは先に設定されている始点のピッチの0.9倍
である旨を夫々表す。FIG. 6 shows an example of a supersegmental parameter rule. This shows the rule applied by the supersegment element parameter setting unit 4-1 to the time length to which fluctuation is added.This rule 6 is "The amplitude between the start point and end point of a vowel is OdB",
Rule 7 is ``The amplitude 30 ms after the start of the vowel is 6.
0 dB, and the amplitude 3 Qms before the end point is 55 dB," and Rule 8 means "The amplitude 70 m5 after the start point of the vowel is 70 dB." This means that the black circle in Figure 8 (a) This means that the parameter value at the position indicated by is set. Further, Rule 9 indicates that "the pitch at the start point of a vowel is 100 Hz", and Rule 10 indicates that the pitch at the end point of one vowel is 0.9 times the pitch of the previously set starting point.
これにより、第8図(ロ)図中黒丸を用いて位置のパラ
メータが設定されたこととなる。ここで、使用している
時間変数5tartおよび時間変数endは、前段で設
定された値が入っている。また、AVは振幅値、FOは
ピンチ周波数、$は先に設定したパラメータ値を保持し
、後に使用するための変数を表す。As a result, the position parameters are set using the black circles in FIG. 8(b). Here, the time variable 5tart and time variable end used have the values set in the previous stage. Further, AV represents an amplitude value, FO represents a pinch frequency, and $ represents a variable for holding a previously set parameter value and for later use.
第7図はパラメータルール例を示す、これは、パラメー
タ設定部6によって適用されるルールを示す。このルー
ル11は’AEの始点と終点の第1ホルマントは600
Hz、第2ホルマントは1600Hz、第3ホルマント
は2300Hzである”旨を夫々表す。FIG. 7 shows an example of a parameter rule, which shows the rule applied by the parameter setting unit 6. This rule 11 is 'The first formant of the starting point and ending point of AE is 600.
Hz, the second formant is 1600Hz, and the third formant is 2300Hz.''
以上によって、ゆらぎの付加された時間長に対し、振幅
、ピッチ周波数、第1ホルマント、第2ホルマント、第
3ホルマントなどのパラメータ値が第9図に示されるよ
うに設定される。そして、第2図パラメータ補間部6−
2は、第9図に示すように不連続に設定されたパラメー
タ値を、音声合成部が必要とするパラメータ指定間隔毎
に値を持つように補間を行う、この補間は、線形補間、
2次曲線補間、臨界制動2次系による補間などを用いて
行う、この補間を行う際に、パラメータ値にゆらぎを加
えてもよい、このようにして補間して生成したパラメー
タ時系列を音声合成部に入力して音声を合成して出力す
ることにより、発声毎に時間長が変化する自然性の高い
音声を出力することができる。As described above, parameter values such as amplitude, pitch frequency, first formant, second formant, and third formant are set as shown in FIG. 9 for the time length to which fluctuation is added. And, FIG. 2 parameter interpolation unit 6-
2 interpolates the discontinuously set parameter values as shown in FIG. 9 so that they have values at each parameter specification interval required by the speech synthesis section. This interpolation is performed by linear interpolation,
It is performed using quadratic curve interpolation, interpolation using a critical braking quadratic system, etc. When performing this interpolation, fluctuations may be added to the parameter values. The parameter time series generated by interpolation in this way is used for speech synthesis. By synthesizing and outputting the voices input into the section, it is possible to output highly natural voices whose duration changes each time they are uttered.
第8図(イ)は、既述したように、第6図ルール6ない
し8によって設定されたパラメータ値を模式的に表し、
第8図(ロ)は第6図ルール9.10によって設定され
たパラメータ値を模式的に表したものである。As already mentioned, FIG. 8(a) schematically represents the parameter values set according to rules 6 to 8 in FIG.
FIG. 8(b) schematically represents the parameter values set according to rule 9.10 of FIG. 6.
第9図は、既述したルール1ないし3.6ないし11に
よって設定されたパラメータ値を夫々示す、尚、この図
中には、ルール4.5によって適用されるゆらぎは示し
てないが、当該ルール4.5が適用される場合には、T
IMERの200m5が乱数の20%(ルール4適用の
場合)あるいは10%(ルール5適用の場合)だけゆら
ぎとして付加されるものである。FIG. 9 shows the parameter values set according to the rules 1 to 3.6 to 11 described above. Note that this figure does not show the fluctuation applied according to rule 4.5, but the If rule 4.5 applies, then T
200 m5 of IMER is added as a fluctuation by 20% (when rule 4 is applied) or 10% (when rule 5 is applied) of the random number.
以上説明したように、本発明によれば、発声される各音
素に対応する合成単位記号に付与する時間長にゆらぎを
与えて音声合成する構成を採用しているため、同じ発声
内容であっても、毎回時間長を変化させ、より人の発声
に近い、自然性の高い合成音声を生成することができる
。As explained above, according to the present invention, since a configuration is adopted in which speech is synthesized by varying the time length given to the synthesis unit symbol corresponding to each phoneme to be uttered, even if the utterance content is the same, By changing the length of time each time, it is possible to generate highly natural synthesized speech that is closer to human speech.
第1図は本発明の原理構成図、第2図は本発明の1実施
例構成図、第3図は時間長ルール例、第4図は時間長調
整ルール例、第5図は時間長ゆらぎルール例、第6図は
超分節素パラメータルール例、第7図はパラメータルー
ル例、第8図は超分節素パラメータルール適用例、第9
図はパラメータ値例、第10図は文−音声変換装置の構
成図、第11図は従来のパラメータ時系列生成部の構成
図を示す。
図中、lはパラメータ時系列生成部、2は時間長設定部
、3は時間長ルール、4は時間長ゆらぎ付加部、5は時
間長ゆらぎルール、6はパラメータ設定部、7はパラメ
ータルールを表す。Figure 1 is a diagram showing the principle of the present invention, Figure 2 is a diagram showing the configuration of one embodiment of the present invention, Figure 3 is an example of a time length rule, Figure 4 is an example of a time length adjustment rule, and Figure 5 is a time length fluctuation diagram. Rule example, Figure 6 is an example of a hypersegmental parameter rule, Figure 7 is an example of a parameter rule, Figure 8 is an example of applying a hypersegmental parameter rule, and Figure 9 is an example of a hypersegmental parameter rule.
The figure shows an example of parameter values, FIG. 10 is a block diagram of a sentence-to-speech conversion device, and FIG. 11 is a block diagram of a conventional parameter time series generating section. In the figure, l is a parameter time series generation part, 2 is a time length setting part, 3 is a time length rule, 4 is a time length fluctuation adding part, 5 is a time length fluctuation rule, 6 is a parameter setting part, and 7 is a parameter rule. represent.
Claims (1)
て、 文章に対応づけて生成した合成単位記号に対し、時間長
ルール(3)を適用して時間長の割り当てを行う時間長
設定部(2)と、 この時間長設定部(2)によって割当てられた時間長に
対し、時間長ゆらぎルール(5)を適用してゆらぎを付
加する時間長ゆらぎ付加部(4)と、この時間長ゆらぎ
付加部(4)によってゆらぎが付加された時間長に対し
、パラメータルール(7)を適用してパラメータ値を設
定した後、パラメータ時系列を生成するパラメータ設定
部(6)とを備え、このパラメータ設定部(6)によっ
て生成されたパラメータ時系列を音声合成部に供給して
音声を合成して出力するよう構成したことを特徴とする
文−音声変換装置。[Claims] In a sentence-to-speech conversion device that converts a sentence into speech and outputs it, a time length rule (3) is applied to a composition unit symbol generated in association with a sentence to assign a time length. and a time length fluctuation adding section (4) that adds fluctuation by applying the time length fluctuation rule (5) to the time length allocated by the time length setting part (2). and a parameter setting unit (6) that applies parameter rules (7) to set parameter values for the time length to which fluctuations have been added by the time length fluctuation addition unit (4), and then generates a parameter time series. A sentence-to-speech conversion device comprising: a parameter time series generated by the parameter setting unit (6) is supplied to a speech synthesis unit to synthesize and output speech.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62087100A JP2628994B2 (en) | 1987-04-10 | 1987-04-10 | Sentence-speech converter |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62087100A JP2628994B2 (en) | 1987-04-10 | 1987-04-10 | Sentence-speech converter |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS63253996A true JPS63253996A (en) | 1988-10-20 |
JP2628994B2 JP2628994B2 (en) | 1997-07-09 |
Family
ID=13905529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP62087100A Expired - Fee Related JP2628994B2 (en) | 1987-04-10 | 1987-04-10 | Sentence-speech converter |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2628994B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5334791A (en) * | 1992-05-22 | 1994-08-02 | Ligands Inc. | Hydrogenation process with transition metal catalysts derived from bifunctional phosphorus-nitrogen ligands |
JP2009003395A (en) * | 2007-06-25 | 2009-01-08 | Fujitsu Ltd | Device for reading out in voice, and program and method therefor |
US7487093B2 (en) | 2002-04-02 | 2009-02-03 | Canon Kabushiki Kaisha | Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5713879A (en) * | 1980-06-27 | 1982-01-23 | Matsushita Electric Ind Co Ltd | Projection type color television device |
JPS58186800A (en) * | 1982-04-26 | 1983-10-31 | 日本電気株式会社 | Voice synthesizer |
JPS5953560A (en) * | 1982-09-21 | 1984-03-28 | Nippon Oil & Fats Co Ltd | Antifouling paint composition |
-
1987
- 1987-04-10 JP JP62087100A patent/JP2628994B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5713879A (en) * | 1980-06-27 | 1982-01-23 | Matsushita Electric Ind Co Ltd | Projection type color television device |
JPS58186800A (en) * | 1982-04-26 | 1983-10-31 | 日本電気株式会社 | Voice synthesizer |
JPS5953560A (en) * | 1982-09-21 | 1984-03-28 | Nippon Oil & Fats Co Ltd | Antifouling paint composition |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5334791A (en) * | 1992-05-22 | 1994-08-02 | Ligands Inc. | Hydrogenation process with transition metal catalysts derived from bifunctional phosphorus-nitrogen ligands |
US7487093B2 (en) | 2002-04-02 | 2009-02-03 | Canon Kabushiki Kaisha | Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof |
JP2009003395A (en) * | 2007-06-25 | 2009-01-08 | Fujitsu Ltd | Device for reading out in voice, and program and method therefor |
Also Published As
Publication number | Publication date |
---|---|
JP2628994B2 (en) | 1997-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6064960A (en) | Method and apparatus for improved duration modeling of phonemes | |
JP2000305582A (en) | Speech synthesizing device | |
US20020138253A1 (en) | Speech synthesis method and speech synthesizer | |
JPS63253996A (en) | Sentence-voice converter | |
JPS5972494A (en) | Rule snthesization system | |
JP3394281B2 (en) | Speech synthesis method and rule synthesizer | |
JPH08248993A (en) | Controlling method of phoneme time length | |
JP3771565B2 (en) | Fundamental frequency pattern generation device, fundamental frequency pattern generation method, and program recording medium | |
JP3113101B2 (en) | Speech synthesizer | |
Ghate et al. | Syllable-Based Concatenative Speech Synthesis for Marathi Language | |
JP2001312300A (en) | Voice synthesizing device | |
JP2703253B2 (en) | Speech synthesizer | |
JPS5880699A (en) | Voice synthesizing system | |
Iriondo et al. | A hybrid method oriented to concatenative text-to-speech synthesis | |
Ademi et al. | NATURAL LANGUAGE PROCESSING AND TEXT-TO-SPEECH TECHNOLOGY. | |
Mohanty et al. | An Approach to Proper Speech Segmentation for Quality Improvement in Concatenative Text-To-Speech System for Indian Languages | |
JPH01321496A (en) | Speech synthesizing device | |
Kabari et al. | Assisting the Speech Impaired People Using Text-to-Speech Synthesis | |
JPH09325788A (en) | Device and method for voice synthesis | |
Datta et al. | Speech Synthesis Using Epoch Synchronous Overlap Add (ESOLA) | |
Kumar | Speech synthesis based on sinusoidal modeling | |
JPH01244499A (en) | Speech element file producing device | |
Yousif et al. | Text-to-Speech Synthesis State-Of-Art | |
JPH06308999A (en) | Voice synthesizing device | |
JP2004220043A (en) | Fundamental frequency pattern generating method and program recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |