WO2012063424A1 - 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム - Google Patents
特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム Download PDFInfo
- Publication number
- WO2012063424A1 WO2012063424A1 PCT/JP2011/006032 JP2011006032W WO2012063424A1 WO 2012063424 A1 WO2012063424 A1 WO 2012063424A1 JP 2011006032 W JP2011006032 W JP 2011006032W WO 2012063424 A1 WO2012063424 A1 WO 2012063424A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- parameter
- spread
- series
- feature quantity
- outline
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
- G10L13/0335—Pitch control
Definitions
- the HMM HiddenHMarkov Model: Hidden Markov Model
- voice is synthesized by generating a pitch frequency (voice pitch), phoneme duration (sound length), and feature quantities such as spectrum and cepstrum in time series.
- a music signal is generated by generating feature quantities such as a fundamental frequency of a music signal, a duration of a music signal, and a spectrum in time series by using an HMM.
- an image is generated by generating a sequence of feature amounts of discrete cosine transform (DCT) coefficients based on statistics extracted from a large number of images.
- DCT discrete cosine transform
- Patent Document 1 a data output device that outputs time-series data has a predetermined interval output by the state transition probability model based on the estimated state probability and representative data output by the state. It is described that data for each time is obtained and output as time-series data. Patent Document 1 describes that the characteristics of a vector time series can be changed by adjusting a dispersion parameter of transition probability.
- Non-Patent Documents 1 to 3 have the following problems. That is, when the average parameters are arranged in time series, discontinuity occurs in the feature quantity series if the variance parameter is small at a location where the change amount of the average parameter in the time series direction is large. Due to the discontinuity, there is a problem that the quality of the generated signal is greatly reduced.
- Patent Document 1 describes that the characteristics of a vector time series can be changed by adjusting the dispersion parameter of the transition probability. No specific method is disclosed.
- the spread degree parameter correction unit 11 uses the difference or ratio between the outline parameters whose sequence numbers are adjacent to each other as the change amount of the outline parameter.
- the change amount ⁇ j in the sequence j is calculated by, for example, the following formula (1).
- a ratio is used. As the amount of change increases, the value of ⁇ j also increases.
- a method using the absolute value of the difference, the square error, the absolute value of the logarithmic error, or the like as the change amount is also effective.
- equation (1) when calculating the amount of change in state j, the approximate parameters of sequence numbers j and j + 1 are used, but the same effect can be obtained even if the approximate parameters of j and j ⁇ 1 are used. Can be obtained.
- future sequence numbers (j + 1, j + 2, j + 3,...) And past sequence numbers (j ⁇ 1, j ⁇ 2, j ⁇ 3,.
- the method using the outline parameters of a plurality of sequence numbers from among the above is also effective.
- FIG. 3 is an explanatory view schematically showing an example of the relationship between the outline parameter and the spread degree parameter and the generated feature quantity series.
- (A) shows an example of a rough parameter series.
- (B) shows an example of a feature amount sequence when a feature amount sequence is generated without considering the spread degree parameter.
- the outline parameter is a value representing five points of the feature amount series. That is, the outline parameter of sequence number j is a value representing the feature amount sequence at times k-5, k-4, k-3, k-2, and k-1.
- the outline parameter of sequence number j + 1 is a value representing the feature amount sequence at times k, k + 1, k + 2, k + 3, and k + 4.
- the pitch model parameter corresponds to a parameter characterizing the output probability distribution in the definition in the HMM.
- the output probability distribution of the HMM is often defined by a Gaussian distribution. Since the Gaussian distribution is characterized by two types of statistics, average and variance, the pitch model parameters are specifically assumed below as the average and variance of the Gaussian distribution. Any probability distribution other than a Gaussian distribution may be used as long as it is a probability distribution characterized by an average and a variance.
- FIG. 6 is a flowchart showing an example of the operation of the present embodiment.
- the language processing unit 4 performs analysis such as morphological analysis, syntax analysis, and reading on the input text (character string information).
- the language processing unit 4 generates state continuation length using linguistic information as information indicating “reading” such as syllable symbols and phoneme symbols, and information indicating morpheme part of speech, utilization, accent type, accent position, accent phrase delimiter, etc. It outputs to the part 21 and the pitch model parameter selection part 31 (step S201).
- the presence / absence of accent information and morpheme information and the data format are determined according to the implementation of the state duration generator 21 and the pitch model parameter selector 31 that use language information.
- the feature quantity series generation unit 121 calculates the feature quantity series (pitch pattern) C by solving the following linear equation (7).
- W T U -1 WC W T U -1 M T (7)
- C: [c 1 , c 2 ,..., C T ] T
- M: [ ⁇ q1 ′, ⁇ q2 ′,..., ⁇ qT ′] T
- U: diag [U q1 , U q2 ,..., U qT ] T
- W: [w 1 , w 2 ,..., W T ] T
- diag [a, b, c] is a diagonal matrix having a, b, c as diagonal components.
- the spread parameter correction unit 112 inputs an average parameter and a dispersion parameter among the pitch model parameters acquired by the pitch model parameter selection unit 31.
- the spread degree parameter correction unit 112 inputs the language information generated by the language processing unit 4.
- the spread degree parameter correction unit 112 receives the state continuation length information generated by the state continuation length generation unit 21.
- the spread parameter correction unit 112 corrects the dispersion parameter based on the input average parameter, dispersion parameter, language information, and state duration information.
- the feature quantity sequence generation device can avoid excessive dispersion parameter correction by using state duration information and language information. As a result, the pitch pattern disturbance can be reduced. Therefore, a pitch pattern with higher naturalness is generated as compared with the second embodiment.
- the feature amount series generation unit 502 (for example, the feature amount series generation unit 12) generates a feature amount series based on the input outline parameter and the spread degree parameter corrected by the spread degree parameter correction unit 501. .
- the spread degree parameter correction unit 502 increases the value of the spread degree parameter at the location corresponding to the position of the outline parameter in the series (position where the change amount is large) as the change amount of the outline parameter indicated by the series of outline parameters increases.
- the spread degree parameter may be corrected so that becomes larger.
- the spread parameter correction unit 502 obtains a temporary correction value of the spread parameter based on the amount of change in the rough parameter indicated by the rough parameter series, and the temporary correction value in the series is obtained at the position of the obtained rough parameter.
- the spread degree parameter after correction may be determined based on the spread degree parameter before correction (original spread degree parameter) of the corresponding portion and the obtained temporary correction value.
- the spread degree parameter correction means 503 is configured such that the difference value between the temporary correction value and the original spread degree parameter value is less than a predetermined threshold, or the ratio of the temporary correction value to the original spread degree parameter value is predetermined. If it is less than the threshold value, the spread degree parameter may not be corrected, and the input spread degree parameter may be output as it is as the spread degree parameter.
- FIG. 11 is a block diagram showing another example of the feature quantity sequence generation device 500 according to the present invention. As shown in FIG. 11, the feature quantity sequence generation device 500 further inputs an HMM state continuation length representing the time length of each phoneme and speech language information, and uses these information to correct the spread degree parameter. The amount may be adjusted.
- the feature quantity sequence generating apparatus 500 generates a pitch pattern that is a pitch frequency series of speech as a feature quantity series, and the outline parameter represents the outline of the pitch pattern, and the spread degree parameter Represents the degree of spread of the distribution of the pitch frequency, and when inputting information indicating the time length of each phoneme, the spread degree parameter correcting means 502 is based on the language information of the speech, and the part where the pitch is likely to change suddenly.
- the degree of correction of the spread parameter may be made smaller than the reference in other places.
Abstract
Description
信号の特徴量の系列である特徴量系列の概形を表す概形パラメータの系列によって示される概形パラメータの変化量に基づいて、特徴量系列における特徴量の分布の広がりの度合いを表す広がり度パラメータを補正し、概形パラメータと、補正された広がり度パラメータとに基づいて、特徴量系列を生成することを特徴とする。
以下、本発明の実施形態を図面を参照して説明する。図1は、本発明の第1の実施形態の特徴量系列生成装置の構成例を示すブロック図である。図1に示す特徴量系列生成装置は、広がり度パラメータ補正部11と、特徴量系列生成部12とを備える。
次に、本発明の第2の実施形態を説明する。図4は、本発明の第2の実施形態の特徴量系列生成装置の構成例を示すブロック図である。図4に示す特徴量系列生成装置は、図1に示す第1の実施形態に対して、言語処理部4と、状態継続長生成部21と、ピッチモデルパラメータ選択部31と、モデルパラメータ記憶部32とが加えられた装置である。また、広がり度パラメータ補正部11および特徴量系列生成部12に代えて、広がり度パラメータ補正部111および特徴量系列生成部121を備える。
ただし、
C:=[c1,c2,・・・,cT]T ,
M:=[μq1’,μq2’,・・・,μqT’]T ,
U:=diag[Uq1,Uq2,・・・,UqT]T ,
W:=[w1,w2,・・・,wT]T ,
wt:=[wt (0),wt (1),wt (2)]=[1,Δ,Δ2]
次に、本発明の第3の実施形態を説明する。本実施形態では、分散パラメータの補正処理において、さらに状態継続長と言語情報とが利用される。図9は、本発明の第3の実施形態の特徴量系列生成装置の構成例を示すブロック図である。図9に示す特徴量系列生成装置は、図4に示す第2の実施形態における広がり度パラメータ補正部111に代えて、広がり度パラメータ補正部112を備える。
11、111、112 広がり度パラメータ補正部
12、121 特徴量系列生成部
21 状態長生成部
31 ピッチパラメータ選択部
32 モデルパラメータ記憶部
Claims (9)
- 信号の特徴量の系列である特徴量系列の概形を表す概形パラメータと、前記特徴量系列における特徴量の分布の広がりの度合いを表す広がり度パラメータとを入力し、
前記概形パラメータの系列によって示される概形パラメータの変化量に基づいて、前記広がり度パラメータを補正する広がり度パラメータ補正手段と、
前記概形パラメータと、前記広がり度パラメータ補正手段によって補正された前記広がり度パラメータとに基づいて、前記特徴量系列を生成する特徴量系列生成手段とを備える
ことを特徴とする特徴量系列生成装置。 - 前記広がり度パラメータ補正手段は、前記概形パラメータの系列によって示される前記概形パラメータの変化量が大きいほど、前記広がり度パラメータの値が大きくなるように補正する
請求項1に記載の特徴量系列生成装置。 - 前記広がり度パラメータ補正手段は、前記概形パラメータの系列によって示される前記概形パラメータの変化量に基づいて仮補正値を求め、元の広がり度パラメータと前記仮補正値とに基づいて補正された広がり度パラメータを決定する
請求項1または請求項2に記載の特徴量系列生成装置。 - 前記広がり度パラメータ補正手段は、前記仮補正値と元の広がり度パラメータの値との差分値が所定の閾値未満である場合、または元の前記広がり度パラメータの値に対する前記仮補正値の比率が所定の閾値未満である場合には、当該広がり度パラメータを補正せずに出力する
請求項3に記載の特徴量系列生成装置。 - 前記概形パラメータは、特徴量の情報をモデル化したHMMのパラメータのうちの出力確率分布の平均、中央値、最頻値、最大値または最小値のいずれかの統計量を示すパラメータであり、前記広がり度パラメータは、前記HMMのパラメータのうちの出力確率分布の分散を示す分散パラメータであり、
前記広がり度パラメータ補正手段は、前記HMMの状態継続長に基づいて、補正対象の分散パラメータのうち前記状態継続長が短い方の前記分散パラメータの補正を優先して行う
請求項1から請求項4のうちのいずれか1項に記載の特徴量系列生成装置。 - 前記特徴量系列として、音声のピッチ周波数の系列であるピッチパタンを生成する特徴量系列生成装置であって、
前記概形パラメータはピッチパタンの概形を表し、前記広がり度パラメータはピッチ周波数の分布の広がりの度合いを表し、
各音素の時間長を表す情報を入力し、
前記広がり度パラメータ補正手段は、前記概形パラメータと、前記各音素の時間長に基づいて、補正対象の前記広がり度パラメータのうち前記時間長が短い方の前記広がり度パラメータの補正を優先して行う
請求項1から請求項5のうちのいずれか1項に記載の特徴量系列生成装置。 - 前記特徴量系列として、音声のピッチ周波数の系列であるピッチパタンを生成する特徴量系列生成装置であって、
前記概形パラメータはピッチパタンの概形を表し、前記広がり度パラメータはピッチ周波数の分布の広がりの度合いを表し、
前記音声の言語情報を入力し、
前記広がり度パラメータ補正手段は、前記音声の言語情報に基づいて、ピッチが急変しやすい箇所の広がり度パラメータの補正度をその他の箇所における基準よりも小さくする
請求項1から請求項6のうちのいずれか1項に記載の特徴量系列生成装置。 - 信号の特徴量の系列である特徴量系列の概形を表す概形パラメータの系列によって示される概形パラメータの変化量に基づいて、前記特徴量系列における特徴量の分布の広がりの度合いを表す広がり度パラメータを補正し、
前記概形パラメータと、補正された前記広がり度パラメータとに基づいて、前記特徴量系列を生成する
ことを特徴とする特徴量系列生成方法。 - コンピュータに、
特徴量の系列である特徴量系列の概形を表す概形パラメータの系列によって示される概形パラメータの変化量に基づいて、前記特徴量系列における特徴量の分布の広がりの度合いを表す広がり度パラメータを補正する処理、および
前記概形パラメータと、補正された前記広がり度パラメータとに基づいて、前記特徴量系列を生成する処理
を実行させるための特徴量系列生成プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012542797A JPWO2012063424A1 (ja) | 2010-11-08 | 2011-10-28 | 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム |
US13/880,630 US9299338B2 (en) | 2010-11-08 | 2011-10-28 | Feature sequence generating device, feature sequence generating method, and feature sequence generating program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010-249604 | 2010-11-08 | ||
JP2010249604 | 2010-11-08 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2012063424A1 true WO2012063424A1 (ja) | 2012-05-18 |
Family
ID=46050593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2011/006032 WO2012063424A1 (ja) | 2010-11-08 | 2011-10-28 | 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9299338B2 (ja) |
JP (1) | JPWO2012063424A1 (ja) |
WO (1) | WO2012063424A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013014858A1 (ja) * | 2011-07-25 | 2013-01-31 | 日本電気株式会社 | ピッチパタン生成方法、ピッチパタン生成装置、音声合成装置およびピッチパタン生成プログラム |
JP2015152788A (ja) * | 2014-02-14 | 2015-08-24 | カシオ計算機株式会社 | 音声合成装置、方法、およびプログラム |
JP5874639B2 (ja) * | 2010-09-06 | 2016-03-02 | 日本電気株式会社 | 音声合成装置、音声合成方法及び音声合成プログラム |
JP2016075740A (ja) * | 2014-10-03 | 2016-05-12 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016042659A1 (ja) * | 2014-09-19 | 2016-03-24 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
US9792907B2 (en) | 2015-11-24 | 2017-10-17 | Intel IP Corporation | Low resource key phrase detection for wake on voice |
US9972313B2 (en) * | 2016-03-01 | 2018-05-15 | Intel Corporation | Intermediate scoring and rejection loopback for improved key phrase detection |
US10043521B2 (en) | 2016-07-01 | 2018-08-07 | Intel IP Corporation | User defined key phrase detection by user dependent sequence modeling |
US10083689B2 (en) * | 2016-12-23 | 2018-09-25 | Intel Corporation | Linear scoring for low power wake on voice |
US10714122B2 (en) | 2018-06-06 | 2020-07-14 | Intel Corporation | Speech classification of audio for wake on voice |
US10650807B2 (en) | 2018-09-18 | 2020-05-12 | Intel Corporation | Method and system of neural network keyphrase detection |
US11127394B2 (en) | 2019-03-29 | 2021-09-21 | Intel Corporation | Method and system of high accuracy keyphrase detection for low resource devices |
JP7348027B2 (ja) * | 2019-10-28 | 2023-09-20 | 株式会社日立製作所 | 対話システム、対話プログラムおよび対話システムの制御方法 |
EP3823306B1 (en) | 2019-11-15 | 2022-08-24 | Sivantos Pte. Ltd. | A hearing system comprising a hearing instrument and a method for operating the hearing instrument |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271185A (ja) * | 2002-03-15 | 2003-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体 |
JP2004012584A (ja) * | 2002-06-04 | 2004-01-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識用情報作成方法、音響モデル作成方法、音声認識方法、音声合成用情報作成方法、音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体 |
JP2007011203A (ja) * | 2005-07-04 | 2007-01-18 | Sony Corp | データ出力装置、データ出力方法、およびプログラム |
JP2007279349A (ja) * | 2006-04-06 | 2007-10-25 | Toshiba Corp | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0481107B1 (en) * | 1990-10-16 | 1995-09-06 | International Business Machines Corporation | A phonetic Hidden Markov Model speech synthesizer |
US5369727A (en) * | 1991-05-16 | 1994-11-29 | Matsushita Electric Industrial Co., Ltd. | Method of speech recognition with correlation of similarities |
DE19546168C1 (de) * | 1995-12-11 | 1997-02-20 | Siemens Ag | Digitale Signalprozessor-Anordnung zum Vergleich von Merkmalsvektoren und deren Verwendung sowie zugehöriges Betriebsverfahren |
US5822729A (en) * | 1996-06-05 | 1998-10-13 | Massachusetts Institute Of Technology | Feature-based speech recognizer having probabilistic linguistic processor providing word matching based on the entire space of feature vectors |
-
2011
- 2011-10-28 US US13/880,630 patent/US9299338B2/en not_active Expired - Fee Related
- 2011-10-28 JP JP2012542797A patent/JPWO2012063424A1/ja active Pending
- 2011-10-28 WO PCT/JP2011/006032 patent/WO2012063424A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271185A (ja) * | 2002-03-15 | 2003-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体 |
JP2004012584A (ja) * | 2002-06-04 | 2004-01-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識用情報作成方法、音響モデル作成方法、音声認識方法、音声合成用情報作成方法、音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体 |
JP2007011203A (ja) * | 2005-07-04 | 2007-01-18 | Sony Corp | データ出力装置、データ出力方法、およびプログラム |
JP2007279349A (ja) * | 2006-04-06 | 2007-10-25 | Toshiba Corp | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5874639B2 (ja) * | 2010-09-06 | 2016-03-02 | 日本電気株式会社 | 音声合成装置、音声合成方法及び音声合成プログラム |
WO2013014858A1 (ja) * | 2011-07-25 | 2013-01-31 | 日本電気株式会社 | ピッチパタン生成方法、ピッチパタン生成装置、音声合成装置およびピッチパタン生成プログラム |
JPWO2013014858A1 (ja) * | 2011-07-25 | 2015-02-23 | 日本電気株式会社 | ピッチパタン生成方法、ピッチパタン生成装置、音声合成装置およびピッチパタン生成プログラム |
JP2015152788A (ja) * | 2014-02-14 | 2015-08-24 | カシオ計算機株式会社 | 音声合成装置、方法、およびプログラム |
JP2016075740A (ja) * | 2014-10-03 | 2016-05-12 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
US10490194B2 (en) | 2014-10-03 | 2019-11-26 | Nec Corporation | Speech processing apparatus, speech processing method and computer-readable medium |
Also Published As
Publication number | Publication date |
---|---|
US20130211839A1 (en) | 2013-08-15 |
US9299338B2 (en) | 2016-03-29 |
JPWO2012063424A1 (ja) | 2014-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2012063424A1 (ja) | 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム | |
JP4738057B2 (ja) | ピッチパターン生成方法及びその装置 | |
US8738381B2 (en) | Prosody generating devise, prosody generating method, and program | |
JP4551803B2 (ja) | 音声合成装置及びそのプログラム | |
US9905219B2 (en) | Speech synthesis apparatus, method, and computer-readable medium that generates synthesized speech having prosodic feature | |
Sundermann et al. | VTLN-based voice conversion | |
JP2009047957A (ja) | ピッチパターン生成方法及びその装置 | |
JP2010237323A (ja) | 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 | |
JP4406440B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
WO2010119534A1 (ja) | 音声合成装置、方法およびプログラム | |
JP5025550B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
US8630857B2 (en) | Speech synthesizing apparatus, method, and program | |
JPH1195783A (ja) | 音声情報処理方法 | |
JP2006309162A (ja) | ピッチパターン生成方法、ピッチパターン生成装置及びプログラム | |
US20010032079A1 (en) | Speech signal processing apparatus and method, and storage medium | |
US20090070116A1 (en) | Fundamental frequency pattern generation apparatus and fundamental frequency pattern generation method | |
JP5474713B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP4945465B2 (ja) | 音声情報処理装置及びその方法 | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP2008256942A (ja) | 音声合成データベースのデータ比較装置及び音声合成データベースのデータ比較方法 | |
JP6786065B2 (ja) | 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム | |
JP4476855B2 (ja) | 音声合成装置及びその方法 | |
JP2007163667A (ja) | 音声合成装置および音声合成プログラム | |
CN108288464B (zh) | 一种修正合成音中错误声调的方法 | |
JP2004226505A (ja) | ピッチパタン生成方法、音声合成方法とシステム及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 11840420 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2012542797 Country of ref document: JP Kind code of ref document: A |
|
WWE | Wipo information: entry into national phase |
Ref document number: 13880630 Country of ref document: US |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 11840420 Country of ref document: EP Kind code of ref document: A1 |