JPS6159400A - Voice synthesizer - Google Patents

Voice synthesizer

Info

Publication number
JPS6159400A
JPS6159400A JP59181220A JP18122084A JPS6159400A JP S6159400 A JPS6159400 A JP S6159400A JP 59181220 A JP59181220 A JP 59181220A JP 18122084 A JP18122084 A JP 18122084A JP S6159400 A JPS6159400 A JP S6159400A
Authority
JP
Japan
Prior art keywords
time series
parameter
parameter time
storage section
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59181220A
Other languages
Japanese (ja)
Other versions
JPH055119B2 (en
Inventor
敏郎 柴沼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP59181220A priority Critical patent/JPS6159400A/en
Publication of JPS6159400A publication Critical patent/JPS6159400A/en
Publication of JPH055119B2 publication Critical patent/JPH055119B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、音素等のパラメータ時系列を格納する音素等
パラメータ格納部と、語句等のパラメータ時系列を格納
する語句等パラメータ格納部とを有し、与えられた読み
列に対するバラメーク時系列を、音素等パラメータ格納
部及び語句等パラメータ格納部より成る集まりの中に存
在するパラメータ時系列を組合せて作成できるようにし
た音声合成装置に関するものである。
[Detailed Description of the Invention] [Industrial Application Field] The present invention comprises a phoneme etc. parameter storage section that stores a parameter time series of phonemes, etc., and a word/phrase etc. parameter storage section that stores a parameter time series of words etc. This invention relates to a speech synthesis device that is capable of creating a variation time series for a given pronunciation sequence by combining parameter time series existing in a collection consisting of a phoneme etc. parameter storage unit and a phrase etc. parameter storage unit. be.

〔従来技術と問題点〕[Conventional technology and problems]

PACOR方式の音声合成器等を用いて文字列がら音声
を合成することは公知である。従来の音声合成装置にお
いては、読み列の各文字に対応するPACo11係数を
音素等パラメータ格納部から取り出し、これらを結合し
て、読め列全体に対するPACOR係数を作成していた
。各音素対応のPACOI?係数の時系列を結合するだ
けでは、不自然な音声になるので、補間処理を行って音
素のPACOR係数の時系列を結合する必要があるが、
上記のような補間処理を行っても自然な音声を得ること
が出来なかった。
It is well known to synthesize speech from character strings using a PACOR speech synthesizer or the like. In the conventional speech synthesis device, the PACOR coefficients corresponding to each character in the reading sequence are taken out from the phoneme etc. parameter storage unit and are combined to create the PACOR coefficient for the entire reading sequence. PACOI for each phoneme? Simply combining the time series of the coefficients will result in unnatural speech, so it is necessary to perform interpolation processing and combine the time series of the PACOR coefficients of the phonemes.
Even with the interpolation process described above, it was not possible to obtain natural speech.

〔発明の目的〕[Purpose of the invention]

本発明は、」−記の考察に基づくものであって。 The present invention is based on the considerations mentioned above.

自然発声にきわめて近い音声を合成できるようになった
音声合成装置を提供することを目的としている。
The purpose of the present invention is to provide a speech synthesis device that can synthesize speech that is extremely close to natural speech.

〔目的を達成するための手段〕[Means to achieve the purpose]

そしてそのため、本発明の音声合成装置は、任意語を合
成可能な音素等のパラメータ時系列を格納する音素等パ
ラメータ格納部と、単語もしくは文節もしくはそれ以上
の長い単位のパラメータ時系列を格納する語句等パラメ
ータ格納部と、読み列に対するパラメータ時系列の設定
が依頼されたとき上記音素等パラメータ格納部および語
句等パラメーク格納部の集まりの中に存在するパラメー
タ時系列を使用して上記読み列に対するパラメータ時系
列を作成するパラメータ時系列作成手段とを具備する音
声合成装置であって、上記バラメーク時系列作成手段は
、上記集まりの中に上記読み列全体に対するパラメータ
時系列が存在せず且つ当該読み列に対するパラメータ時
系列が上記集まりの中に存在するパラメータ時系列の組
合せの複数個で表わせる場合、これらの&U合せの中で
最も音質が向上する組合せを判定し、この判定結果によ
って定まる組合せを用いて当該読み列に対するパラメー
タ時系列を作成するように構成することを特徴とするも
のである。
Therefore, the speech synthesis device of the present invention includes a phoneme etc. parameter storage section that stores a parameter time series of phonemes etc. that can synthesize arbitrary words, and a word/phrase parameter storage section that stores a parameter time series of words, phrases, or longer units. When a request is made to set the parameter time series for the phoneme etc. parameter storage section and the word/phrase etc. parameter storage section, the parameter time series for the above pronunciation sequence is set using the parameter time series existing in the collection of the phoneme etc. parameter storage section and the word/phrase etc. parameter storage section. A speech synthesis device comprising parameter time series creation means for creating a time series, wherein the variable time series creation means is configured to perform parameter time series creation means for creating a time series when there is no parameter time series for the entire reading sequence in the collection and when the reading sequence does not include a parameter time series for the entire reading sequence. When the parameter time series for is expressed by multiple combinations of parameter time series existing in the above collection, the combination that improves the sound quality the most among these &U combinations is determined, and the combination determined by this determination result is used. The present invention is characterized in that it is configured to create a parameter time series for the reading sequence.

〔発明の実施例〕[Embodiments of the invention]

以下、本発明を図面を参照しつつ説明する。 Hereinafter, the present invention will be explained with reference to the drawings.

第1図は本発明の1実施例構成を示す図、第2図は第1
図のパラメータ組合せ判定部の処理を示す図である。
FIG. 1 is a diagram showing the configuration of one embodiment of the present invention, and FIG. 2 is a diagram showing the configuration of one embodiment of the present invention.
It is a figure which shows the process of the parameter combination determination part of a figure.

第1図において、1は文章格納部、2は文章解析部、3
は韻律設定部、4はパラメータ変換部、5はパラメータ
組合せ判定部、6は音素等パラメータ格納部、7は語句
等パラメータ格納部をそれぞれ示している。
In Figure 1, 1 is a text storage section, 2 is a text analysis section, and 3 is a text storage section.
Reference numeral 4 indicates a prosody setting section, 4 a parameter conversion section, 5 a parameter combination determination section, 6 a phoneme etc. parameter storage section, and 7 a phrase etc. parameter storage section.

文章格納部1には、コードの形の漢字仮名混じり文が格
納されている。文章解析部2は、単語辞書や文法辞書な
どを有しており、これらを用いて文章格納部1から取り
出された文字列を単語列に変換する。単語列とは、単語
の読み、単語の文法情杜(品詞種別)、ta語の拍数及
び単語のアクセント情報等より成る単語情報の並びであ
る。文章解析部2から出力される単語列は、韻律設定部
3及びパラメータ変換部4に送られる。韻律設定部3は
、単語列に対して呼気段落境界を設定し、呼気段落区間
に対するピッチ・パターンを作成する。
The sentence storage unit 1 stores sentences in the form of codes containing kanji and kana. The text analysis section 2 has a word dictionary, a grammar dictionary, etc., and uses these to convert the character string retrieved from the text storage section 1 into a word string. The word string is a sequence of word information including the pronunciation of the word, the grammatical information (part of speech type) of the word, the number of beats of the ta word, accent information of the word, and the like. The word string output from the sentence analysis section 2 is sent to the prosody setting section 3 and the parameter conversion section 4. The prosody setting unit 3 sets exhalation paragraph boundaries for the word string and creates pitch patterns for the exhalation paragraph sections.

呼気段落区間に対するピッチ・パターンは複数の山を有
しているが、ピッチ・パターンを山毎に区切り、この区
切りに対応ずに文節境界をパラメータ変換部4に通知す
る。パラメータ変換部4は、通知された文節境界に従っ
て文章解析部2から送られて来る読み列を区切り、この
結果作成される文節の読み列をパラメータ組合せ判定部
5に送る。
Although the pitch pattern for the exhalation paragraph section has a plurality of peaks, the pitch pattern is divided into peaks, and the phrase boundaries are notified to the parameter conversion unit 4 without corresponding to the divisions. The parameter conversion unit 4 separates the pronunciation sequence sent from the text analysis unit 2 according to the notified clause boundaries, and sends the pronunciation sequence of the clauses created as a result to the parameter combination determination unit 5.

パラメータ組合せ判定部5は、音素等パラメータ格納部
6及び語句等パラメータ格納部7より成る集まりを参照
し、パラメータ変換部4から送られて来た文節読み列に
対する最適なパラメータ時系列の組合せを判定し、この
判定結果によって定まるパラメータ時系列を上記の集ま
りの中から取り出し、取り出されたパラメータ時系列を
パラメータ変換部4に送る。パラメータ変換部4は、パ
ラメータ組合せ判定部5から送られてくるパラメータ時
系列を結合して文節読み列に対するパラメータ時系列を
作成する。文節読み列に対するパラメータ時系列及び対
応するピッチ・パターンは、音声合成部8に送られる。
The parameter combination determination section 5 refers to the collection consisting of the phoneme etc. parameter storage section 6 and the phrase etc. parameter storage section 7 and determines the optimal combination of parameter time series for the phrase pronunciation sequence sent from the parameter conversion section 4. Then, the parameter time series determined by this determination result is extracted from the above collection, and the extracted parameter time series is sent to the parameter conversion section 4. The parameter conversion unit 4 combines the parameter time series sent from the parameter combination determination unit 5 to create a parameter time series for the phrase pronunciation sequence. The parameter time series and the corresponding pitch pattern for the phrase pronunciation sequence are sent to the speech synthesis section 8.

音声合成部8は、例えばPACOR方式のものである。The speech synthesis section 8 is of the PACOR type, for example.

第2図は、パラメータ組合せ判定部の処理を示す図であ
る。パラメータ組合せ判定部5では下記のような処理が
行われる。
FIG. 2 is a diagram showing the processing of the parameter combination determination section. The parameter combination determination unit 5 performs the following processing.

■ 読みの位置を示す変数Aをnに設定する。た\jL
、nは読み列の読みの個数である。第1番目ないし第n
番目の読みの並びに対応するパラメータ時系列が語句等
パラメータ格納部7に格納されているか否かを調べる。
■ Set variable A indicating the reading position to n. Ta\jL
, n is the number of readings in the reading sequence. 1st to nth
It is checked whether the parameter time series corresponding to the th reading sequence is stored in the word/phrase parameter storage unit 7.

あれば、これをバラメーク変換部4に送る。なければ、
変数をn−1にし、第1番目ないし第n−1番目の読み
の並びに対応するパラメータ時系列が語句等パラメータ
格納部7にあるか否かを調べる。あれば、これをパラメ
ータ変換部4に送り、なければ変数を−1する。このよ
うな処理を順番に繰り返す。変数が1を示したとき、先
頭の読みに対応するパラメータ時系列を音素等パラメー
タ格納部6から取り出し、これをパラメータ変換部4に
送る。
If there is, it is sent to the variable make conversion unit 4. If not,
The variable is set to n-1, and it is checked whether the parameter storage unit 7 includes a parameter time series corresponding to the first to n-1st pronunciation sequences. If there is, it is sent to the parameter converter 4, and if there is not, the variable is decremented by one. This process is repeated in order. When the variable indicates 1, the parameter time series corresponding to the first reading is taken out from the phoneme etc. parameter storage section 6 and sent to the parameter conversion section 4.

■ 第1番目ないし第nL(j+は0.1.−n−1)
番目の読みに対応するパラメータ時系列をパラメータ変
換部4に送った後、残りの読み列について■と同様の処
理を行う。
■ 1st to nL (j+ is 0.1.-n-1)
After sending the parameter time series corresponding to the th reading to the parameter conversion unit 4, the same process as in (2) is performed for the remaining reading sequences.

■ 文節の終り、即ち残りの読み列がOか否かを調べ、
Noであれば■の処理を繰り返す。
■ Check whether the end of the clause, that is, the remaining reading sequence, is O,
If No, repeat the process (■).

次に、本発明によるパラメータの組合せ判定を具体的に
説明する。いま、「おんせいどう甘い」に対して「お」
 「ん」 「せ」 「い」 「ご」 「う」「せ」 「
い」 「おん」 「甘い」 「どう」 「せい」「ごう
せい」に対応する音声のパラメータが記憶されていると
すれば、「おん」+「甘い」+「ごうせい」の組合せが
選ばれる。
Next, parameter combination determination according to the present invention will be specifically explained. Now, "o" is used for "onseido sweet"
"N""Se""I""Go""U""Se""
If the voice parameters corresponding to "i", "on", "sweet", "do", "sei" and "gousei" are stored, the combination "on" + "sweet" + "gousei" is selected. .

なお、第2図のようにしてパラメータ時系列の組合せ判
定を行う代りに、組合せの要素の数が最も少ない組合せ
を選択することも出来る。
Note that instead of determining the combination of parameter time series as shown in FIG. 2, it is also possible to select a combination with the smallest number of combination elements.

〔発明の効果〕〔Effect of the invention〕

以上の説明から明らかなように、本発明によれば、任意
の文を自然音声に近い音声に変換することが出来る。
As is clear from the above description, according to the present invention, any sentence can be converted into speech that is close to natural speech.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の1実施例構成を示す図、第2図は第1
図のパラメータ組合せ判定部の処理を示す図である。 1・・・文章格納部、2・・・文章解析部、3・・・韻
律設定部、4・・・パラメータ変換部、5・・・パラメ
ータ組合せ判定部、6・・・音素等パラメータ格納部、
7・・・語句等パラメータ格納部。
FIG. 1 is a diagram showing the configuration of one embodiment of the present invention, and FIG. 2 is a diagram showing the configuration of one embodiment of the present invention.
It is a figure which shows the process of the parameter combination determination part of a figure. 1... Sentence storage unit, 2... Text analysis unit, 3... Prosody setting unit, 4... Parameter conversion unit, 5... Parameter combination determination unit, 6... Phoneme etc. parameter storage unit ,
7...Parameter storage unit for words, etc.

Claims (1)

【特許請求の範囲】[Claims] 任意語を合成可能な音素等のパラメータ時系列を格納す
る音素等パラメータ格納部と、単語もしくは文節もしく
はそれ以上の長い単位のパラメータ時系列を格納する語
句等パラメータ格納部と、読み列に対するパラメータ時
系列の設定が依頼されたとき上記音素等パラメータ格納
部および語句等パラメータ格納部の集まりの中に存在す
るパラメータ時系列を使用して上記読み列に対するパラ
メータ時系列を作成するパラメータ時系列作成手段とを
具備する音声合成装置であつて、上記パラメータ時系列
作成手段は、上記集まりの中に上記読み列全体に対する
パラメータ時系列が存在せず且つ当該読み列に対するパ
ラメータ時系列が上記集まりの中に存在するパラメータ
時系列の組合せの複数個で表わせる場合、これらの組合
せの中で最も音質が向上する組合せを判定し、この判定
結果によつて定まる組合せを用いて当該読み列に対する
パラメータ時系列を作成するように構成することを特徴
とする音声合成装置。
A phoneme etc. parameter storage section that stores a parameter time series of phonemes etc. that can synthesize arbitrary words, a phrase etc. parameter storage section that stores a parameter time series of words, phrases, or longer units, and a parameter time series for reading sequences. a parameter time series creation means for creating a parameter time series for the pronunciation sequence using the parameter time series existing in the collection of the phoneme etc. parameter storage section and the word/phrase etc. parameter storage section when the sequence setting is requested; In the speech synthesis device, the parameter time series creation means is configured to perform a process in which a parameter time series for the entire reading sequence does not exist in the collection, and a parameter time series for the reading sequence does exist in the collection. When the parameter time series can be expressed by multiple combinations of parameter time series, the combination that improves the sound quality the most among these combinations is determined, and the parameter time series for the reading sequence is created using the combination determined by this determination result. A speech synthesis device characterized in that it is configured to.
JP59181220A 1984-08-30 1984-08-30 Voice synthesizer Granted JPS6159400A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59181220A JPS6159400A (en) 1984-08-30 1984-08-30 Voice synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59181220A JPS6159400A (en) 1984-08-30 1984-08-30 Voice synthesizer

Publications (2)

Publication Number Publication Date
JPS6159400A true JPS6159400A (en) 1986-03-26
JPH055119B2 JPH055119B2 (en) 1993-01-21

Family

ID=16096915

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59181220A Granted JPS6159400A (en) 1984-08-30 1984-08-30 Voice synthesizer

Country Status (1)

Country Link
JP (1) JPS6159400A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004109659A1 (en) * 2003-06-05 2004-12-16 Kabushiki Kaisha Kenwood Speech synthesis device, speech synthesis method, and program

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5334941A (en) * 1976-09-10 1978-03-31 Hausu Shiyokuhin Kougiyou Kk Frying method of noodles

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5334941A (en) * 1976-09-10 1978-03-31 Hausu Shiyokuhin Kougiyou Kk Frying method of noodles

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004109659A1 (en) * 2003-06-05 2004-12-16 Kabushiki Kaisha Kenwood Speech synthesis device, speech synthesis method, and program
US8214216B2 (en) 2003-06-05 2012-07-03 Kabushiki Kaisha Kenwood Speech synthesis for synthesizing missing parts

Also Published As

Publication number Publication date
JPH055119B2 (en) 1993-01-21

Similar Documents

Publication Publication Date Title
US4692941A (en) Real-time text-to-speech conversion system
EP0723696B1 (en) Speech synthesis
US6477495B1 (en) Speech synthesis system and prosodic control method in the speech synthesis system
EP1668628A1 (en) Method for synthesizing speech
EP0107945B1 (en) Speech synthesizing apparatus
JPS6159400A (en) Voice synthesizer
JP3060276B2 (en) Speech synthesizer
Koutny et al. Prosody prediction from text in Hungarian and its realization in TTS conversion
JP2894447B2 (en) Speech synthesizer using complex speech units
Ouh-Young et al. A Chinese text-to-speech system based upon a syllable concatenation model
KR970003093B1 (en) Synthesis unit drawing-up method for high quality korean text to speech transformation
JP3171775B2 (en) Speech synthesizer
KR920009961B1 (en) Unlimited korean language synthesis method and its circuit
JPH03245192A (en) Method for determining pronunciation of foreign language word
Dorffner et al. GRAPHON-the Vienna speech systhesis system for arbitrary German text
JPH055116B2 (en)
JPH06176023A (en) Speech synthesis system
JPS6157997A (en) Voice synthesization system
JPH0675594A (en) Text voice conversion system
JPH07140999A (en) Device and method for voice synthesis
JPS60205597A (en) Voice synthesizer
JPH0736905A (en) Text speech converting device
JPH037994A (en) Generating device for singing voice synthetic data
JPS58168096A (en) Multi-language voice synthesizer
Christogiannis et al. Design and implementation of a Greek text-to-speech system based on concatenative synthesis

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term