WO2012063424A1 - 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム - Google Patents

特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム Download PDF

Info

Publication number
WO2012063424A1
WO2012063424A1 PCT/JP2011/006032 JP2011006032W WO2012063424A1 WO 2012063424 A1 WO2012063424 A1 WO 2012063424A1 JP 2011006032 W JP2011006032 W JP 2011006032W WO 2012063424 A1 WO2012063424 A1 WO 2012063424A1
Authority
WO
WIPO (PCT)
Prior art keywords
parameter
spread
series
feature quantity
outline
Prior art date
Application number
PCT/JP2011/006032
Other languages
English (en)
French (fr)
Inventor
正徳 加藤
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2012542797A priority Critical patent/JPWO2012063424A1/ja
Priority to US13/880,630 priority patent/US9299338B2/en
Publication of WO2012063424A1 publication Critical patent/WO2012063424A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control

Definitions

  • the HMM HiddenHMarkov Model: Hidden Markov Model
  • voice is synthesized by generating a pitch frequency (voice pitch), phoneme duration (sound length), and feature quantities such as spectrum and cepstrum in time series.
  • a music signal is generated by generating feature quantities such as a fundamental frequency of a music signal, a duration of a music signal, and a spectrum in time series by using an HMM.
  • an image is generated by generating a sequence of feature amounts of discrete cosine transform (DCT) coefficients based on statistics extracted from a large number of images.
  • DCT discrete cosine transform
  • Patent Document 1 a data output device that outputs time-series data has a predetermined interval output by the state transition probability model based on the estimated state probability and representative data output by the state. It is described that data for each time is obtained and output as time-series data. Patent Document 1 describes that the characteristics of a vector time series can be changed by adjusting a dispersion parameter of transition probability.
  • Non-Patent Documents 1 to 3 have the following problems. That is, when the average parameters are arranged in time series, discontinuity occurs in the feature quantity series if the variance parameter is small at a location where the change amount of the average parameter in the time series direction is large. Due to the discontinuity, there is a problem that the quality of the generated signal is greatly reduced.
  • Patent Document 1 describes that the characteristics of a vector time series can be changed by adjusting the dispersion parameter of the transition probability. No specific method is disclosed.
  • the spread degree parameter correction unit 11 uses the difference or ratio between the outline parameters whose sequence numbers are adjacent to each other as the change amount of the outline parameter.
  • the change amount ⁇ j in the sequence j is calculated by, for example, the following formula (1).
  • a ratio is used. As the amount of change increases, the value of ⁇ j also increases.
  • a method using the absolute value of the difference, the square error, the absolute value of the logarithmic error, or the like as the change amount is also effective.
  • equation (1) when calculating the amount of change in state j, the approximate parameters of sequence numbers j and j + 1 are used, but the same effect can be obtained even if the approximate parameters of j and j ⁇ 1 are used. Can be obtained.
  • future sequence numbers (j + 1, j + 2, j + 3,...) And past sequence numbers (j ⁇ 1, j ⁇ 2, j ⁇ 3,.
  • the method using the outline parameters of a plurality of sequence numbers from among the above is also effective.
  • FIG. 3 is an explanatory view schematically showing an example of the relationship between the outline parameter and the spread degree parameter and the generated feature quantity series.
  • (A) shows an example of a rough parameter series.
  • (B) shows an example of a feature amount sequence when a feature amount sequence is generated without considering the spread degree parameter.
  • the outline parameter is a value representing five points of the feature amount series. That is, the outline parameter of sequence number j is a value representing the feature amount sequence at times k-5, k-4, k-3, k-2, and k-1.
  • the outline parameter of sequence number j + 1 is a value representing the feature amount sequence at times k, k + 1, k + 2, k + 3, and k + 4.
  • the pitch model parameter corresponds to a parameter characterizing the output probability distribution in the definition in the HMM.
  • the output probability distribution of the HMM is often defined by a Gaussian distribution. Since the Gaussian distribution is characterized by two types of statistics, average and variance, the pitch model parameters are specifically assumed below as the average and variance of the Gaussian distribution. Any probability distribution other than a Gaussian distribution may be used as long as it is a probability distribution characterized by an average and a variance.
  • FIG. 6 is a flowchart showing an example of the operation of the present embodiment.
  • the language processing unit 4 performs analysis such as morphological analysis, syntax analysis, and reading on the input text (character string information).
  • the language processing unit 4 generates state continuation length using linguistic information as information indicating “reading” such as syllable symbols and phoneme symbols, and information indicating morpheme part of speech, utilization, accent type, accent position, accent phrase delimiter, etc. It outputs to the part 21 and the pitch model parameter selection part 31 (step S201).
  • the presence / absence of accent information and morpheme information and the data format are determined according to the implementation of the state duration generator 21 and the pitch model parameter selector 31 that use language information.
  • the feature quantity series generation unit 121 calculates the feature quantity series (pitch pattern) C by solving the following linear equation (7).
  • W T U -1 WC W T U -1 M T (7)
  • C: [c 1 , c 2 ,..., C T ] T
  • M: [ ⁇ q1 ′, ⁇ q2 ′,..., ⁇ qT ′] T
  • U: diag [U q1 , U q2 ,..., U qT ] T
  • W: [w 1 , w 2 ,..., W T ] T
  • diag [a, b, c] is a diagonal matrix having a, b, c as diagonal components.
  • the spread parameter correction unit 112 inputs an average parameter and a dispersion parameter among the pitch model parameters acquired by the pitch model parameter selection unit 31.
  • the spread degree parameter correction unit 112 inputs the language information generated by the language processing unit 4.
  • the spread degree parameter correction unit 112 receives the state continuation length information generated by the state continuation length generation unit 21.
  • the spread parameter correction unit 112 corrects the dispersion parameter based on the input average parameter, dispersion parameter, language information, and state duration information.
  • the feature quantity sequence generation device can avoid excessive dispersion parameter correction by using state duration information and language information. As a result, the pitch pattern disturbance can be reduced. Therefore, a pitch pattern with higher naturalness is generated as compared with the second embodiment.
  • the feature amount series generation unit 502 (for example, the feature amount series generation unit 12) generates a feature amount series based on the input outline parameter and the spread degree parameter corrected by the spread degree parameter correction unit 501. .
  • the spread degree parameter correction unit 502 increases the value of the spread degree parameter at the location corresponding to the position of the outline parameter in the series (position where the change amount is large) as the change amount of the outline parameter indicated by the series of outline parameters increases.
  • the spread degree parameter may be corrected so that becomes larger.
  • the spread parameter correction unit 502 obtains a temporary correction value of the spread parameter based on the amount of change in the rough parameter indicated by the rough parameter series, and the temporary correction value in the series is obtained at the position of the obtained rough parameter.
  • the spread degree parameter after correction may be determined based on the spread degree parameter before correction (original spread degree parameter) of the corresponding portion and the obtained temporary correction value.
  • the spread degree parameter correction means 503 is configured such that the difference value between the temporary correction value and the original spread degree parameter value is less than a predetermined threshold, or the ratio of the temporary correction value to the original spread degree parameter value is predetermined. If it is less than the threshold value, the spread degree parameter may not be corrected, and the input spread degree parameter may be output as it is as the spread degree parameter.
  • FIG. 11 is a block diagram showing another example of the feature quantity sequence generation device 500 according to the present invention. As shown in FIG. 11, the feature quantity sequence generation device 500 further inputs an HMM state continuation length representing the time length of each phoneme and speech language information, and uses these information to correct the spread degree parameter. The amount may be adjusted.
  • the feature quantity sequence generating apparatus 500 generates a pitch pattern that is a pitch frequency series of speech as a feature quantity series, and the outline parameter represents the outline of the pitch pattern, and the spread degree parameter Represents the degree of spread of the distribution of the pitch frequency, and when inputting information indicating the time length of each phoneme, the spread degree parameter correcting means 502 is based on the language information of the speech, and the part where the pitch is likely to change suddenly.
  • the degree of correction of the spread parameter may be made smaller than the reference in other places.

Abstract

 広がり度パラメータ補正手段501は、生成対象とされる信号の特徴量の系列である特徴量系列の概形を表す情報である概形パラメータと、特徴量系列における特徴量の分布の広がりの度合いを表す情報である広がり度パラメータとを入力する。広がり度パラメータ補正手段501は、概形パラメータの系列によって示される概形パラメータの変化量に基づいて、広がり度パラメータを補正する。特徴量系列生成手段502は、概形パラメータと、補正された広がり度パラメータとに基づいて、特徴量系列を生成する。

Description

特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム
 本発明は、信号の特徴量の系列である特徴量系列を生成する特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラムに関する。
 近年、音声信号や、音楽信号、音響信号、画像信号、映像信号などの信号を生成する際に、信号の特徴量の系列を生成して、生成された系列に基づいて信号を生成する技術が注目されている。なお、信号は、時系列要素や座標系列要素などの順序要素を含む。隣接する順序要素は何らかの関係性(例えば、連続性など)を有する。
 例えば、テキスト文を解析し、その文が示す音声情報に基づいて合成音声を生成する音声合成の分野では、音声認識分野で広く普及しているHMM(Hidden Markov Model :隠れマルコフモデル)を活用して、時系列で、ピッチ周波数(声の高さ)および音韻継続時間長(音の長さ)、ならびにスペクトルやケプストラムなどの特徴量を生成することによって、音声が合成される。同様に、音楽合成の分野でも、HMMを活用して、時系列で、音楽信号の基本周波数、音楽信号の継続時間長、およびスペクトルなどの特徴量を生成することによって、音楽信号が生成される。更に、画像合成の分野でも、多数の画像から抽出した統計量を基に、離散コサイン変換(DCT)係数の特徴量の系列を生成することによって、画像が生成される。
 例えば、非特許文献1~3には、音声合成分野において特徴量系列を生成する手法が記載されている。非特許文献1~3に記載されている手法は、HMMの平均パラメータと分散パラメータとを記憶し、音声合成を行う際に、テキスト解析結果に基づいて、HMMの状態ごとに平均パラメータと分散パラメータを取得して特徴量系列を生成する。
 例えば、特許文献1には、時系列のデータを出力するデータ出力装置が、推定された状態確率と状態が出力する代表的なデータとに基づいて、状態遷移確率モデルが出力する所定の間隔の時刻ごとのデータを求め、これを時系列のデータとして出力する旨が記載されている。また、特許文献1には、遷移確率の分散パラメータを調整することによってベクトル時系列の特性を変化させることができる旨が記載されている。
特開2007-11203号公報(段落[0192]-[0194])
益子 貴史 他、「動的特徴を用いたHMMに基づく音声合成」、電子情報通信学会論文誌 D-II、Vol.J79-D-II、No.12、1996年12月、p.2128-2190 徳田 恵一、「HMMによる音声合成の基礎」、電子情報通信学会技術研究報告、Vol.100、No.392、2000年10月、p.43-50 H.Zen, et.al., "A Hidden Semi-Markov Model-Based Speech Synthesis System", IEICE Trans. INF.&SYST., Vol.E90-D, No.5, 2007, p.825-834
 しかし、非特許文献1~3に記載された手法は、次のような問題を有している。すなわち、平均パラメータを時系列に並べた際に、平均パラメータの時系列方向の変化量が大きい箇所において、分散パラメータが小さいと特徴量系列に不連続性が生ずる。不連続性に起因して、生成される信号の品質が大きく低下するという問題点がある。
 例えば、分散パラメータの値を著しく大きい値に修正されれば、平均パラメータの差異が大きい箇所における特徴量の不連続性は解消する。しかし、分散パラメータを著しく大きくすると特徴量系列の全体的な形状が大きく乱れる。すなわち、特徴量系列の全体的な形状を乱さずに特徴量の不連続性の解消するために、分散パラメータが適切に補正されることが求められる。
 なお、特許文献1には、遷移確率の分散パラメータを調整することによってベクトル時系列の特性を変化させることができる旨は記載されているが、何に着目してどのように調整するかなど具体的な方法は開示されていない。
 本発明は、特徴量系列の全体的な形状を乱さず、特徴量の不連続性を解消して滑らかに変化する特徴量系列を生成できる特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラムを提供することを目的とする。
 本発明による特徴量系列生成装置は、信号の特徴量の系列である特徴量系列の概形を表す概形パラメータと、特徴量系列における特徴量の分布の広がりの度合いを表す広がり度パラメータとを入力し、概形パラメータの系列によって示される概形パラメータの変化量に基づいて、広がり度パラメータを補正する広がり度パラメータ補正手段と、概形パラメータと、広がり度パラメータ補正手段によって補正された広がり度パラメータとに基づいて、特徴量系列を生成する特徴量系列生成手段とを備えることを特徴とする。
 本発明による特徴量系列生成方法は、
信号の特徴量の系列である特徴量系列の概形を表す概形パラメータの系列によって示される概形パラメータの変化量に基づいて、特徴量系列における特徴量の分布の広がりの度合いを表す広がり度パラメータを補正し、概形パラメータと、補正された広がり度パラメータとに基づいて、特徴量系列を生成することを特徴とする。
 本発明による特徴量系列生成プログラムは、コンピュータに、特徴量の系列である特徴量系列の概形を表す概形パラメータの系列によって示される概形パラメータの変化量に基づいて、特徴量系列における特徴量の分布の広がりの度合いを表す広がり度パラメータを補正する処理、および概形パラメータと、補正された広がり度パラメータとに基づいて、特徴量系列を生成する処理を実行させることを特徴とする。
 本発明によれば、概形パラメータの変化量に応じて広がり度パラメータが補正されるので、特徴量系列の全体的な形状を乱さず、滑らかに変化する特徴量系列が生成される。
第1の実施形態の特徴量系列生成装置の構成例を示すブロック図である。 第1の実施形態の動作の一例を示すフローチャートである。 概形パラメータおよび広がり度パラメータと生成される特徴量系列との関係の一例を模式的に示す説明図である。 第2の実施形態の特徴量系列生成装置の構成例を示すブロック図である。 音声のピッチ周波数の情報がモデル化されたHMMの例を示す説明図である。 第2の実施形態の動作の一例を示すフローチャートである。 コンテキストと状態継続長の対応関係を保持するテーブルの例を示す説明図である。 コンテキストとモデルパラメータの対応関係を保持するテーブルの例を示す説明図である。 第3の実施形態の特徴量系列生成装置の構成例を示すブロック図である。 本発明の特徴量系列生成装置の概要を示すブロック図である。 本発明の特徴量系列生成装置の他の例を示すブロック図である。
実施形態1.
 以下、本発明の実施形態を図面を参照して説明する。図1は、本発明の第1の実施形態の特徴量系列生成装置の構成例を示すブロック図である。図1に示す特徴量系列生成装置は、広がり度パラメータ補正部11と、特徴量系列生成部12とを備える。
 広がり度パラメータ補正部11は、広がり度パラメータ系列と概形パラメータ系列とを入力し、入力された広がり度パラメータ系列と概形パラメータ系列とに基づいて、広がり度パラメータを補正し、特徴量系列生成部12に供給(出力)する。
 広がり度パラメータは、生成対象とされた信号の特徴量系列における、特徴量の分布の広がり度合いを表すパラメータである。広がり度パラメータ系列は、特徴量系列の系列に沿って並べられた広がり度パラメータ群である。概形パラメータは、該特徴量系列の大まかな形状である概形(より具体的には、特徴量系列が表すグラフの概形)を表すパラメータである。概形パラメータ系列は、該特徴量系列の系列に沿って並べられた概形パラメータ群である。
 特徴量系列生成部12は、入力された概形パラメータ系列と、広がり度パラメータ補正部から出力された広がり度パラメータ系列とに基づいて、特徴量系列を生成する。
 本実施形態において、広がり度パラメータ補正部11および特徴量系列生成部12は、例えば、プログラムに従って動作するCPU等の情報処理装置によって実現される。なお、各処理部(広がり度パラメータ補正部11、特徴量系列生成部12)は、1つのユニットによって実現されても別々のユニットによって実現されてもよい。
 次に、本実施形態の動作を説明する。図2は、本実施形態の動作の一例を示すフローチャートである。図2に示す例では、まず、広がり度パラメータ補正部11が、入力された広がり度パラメータ系列と概形パラメータ系列とに基づいて、広がり度パラメータが補正されるべきである場合には、広がり度パラメータを補正する(ステップS101)。そして、広がり度パラメータ補正部11は、補正された広がり度パラメータ系列を、特徴量系列生成部12に出力する。
 広がり度パラメータ補正部11は、基本的には、概形パラメータの系列方向の変化量を計算する。広がり度パラメータ補正部11は、さらに、変化量が大きい系列番号において、変化量の大きさに応じた広がり度パラメータの補正値を計算する。ただし、広がり度パラメータ補正部11は、入力された広がり度パラメータの値が十分に大きい、すなわち特徴量系列に不連続性を生じさせることが無い程度に広がり度パラメータが大きい場合には、補正を行わない。具体的には、広がり度パラメータ補正部11は、概形パラメータの系列方向の変化量に基づいて広がり度パラメータの仮補正値を計算し、計算した仮補正値と補正前の値とを比較して最終的な補正後の値を決定する。広がり度パラメータ補正部11は、仮補正値と補正前の広がり度パラメータの値(元の広がり度パラメータの値)とを比較する。広がり度パラメータ補正部11は、比較結果に基づいて、元々の広がり度パラメータが特徴量系列に不連続性を生じさせることが無い程度に大きいと判断した場合には補正を行わない。すなわち、広がり度パラメータ補正部11は、概形パラメータの変化量の計算と、広がり度パラメータの仮補正値の計算と、仮補正値と補正前の値との比較とを行うことによって、最終的な出力値を決定する。
 広がり度パラメータ補正部11は、系列番号が隣接する概形パラメータ同士の差分や比率などを、概形パラメータの変化量とする。系列番号jの概形パラメータをμとすると、系列jにおける変化量δは、例えば、以下の式(1)で計算される。
Figure JPOXMLDOC01-appb-M000001
 なお、式(1)では比率が用いられている。変化量が大きくなるほどδの値も大きくなる。比率を変化量とする方法の他、差分の絶対値や二乗誤差、対数誤差の絶対値などを変化量とする方法も有効である。また、式(1)では、状態jにおける変化量を計算するときに、系列番号jとj+1の概形パラメータが用いられるが、jとj-1の概形パラメータが用いられても同様の効果を得ることができる。また、隣接する系列番号を利用する方法だけでなく、未来の系列番号(j+1,j+2,j+3,・・・)や過去の系列番号(j-1,j-2,j-3,・・・)の中から複数の系列番号の概形パラメータを利用する方法も有効である。
 なお、概形パラメータが複数の要素を含む構造体である場合などには、系列番号が隣接する概形パラメータにおける対応する要素毎に変化量を求めてもよい。
 次に、広がり度パラメータ補正部11は、求めた変化量に基づいて、広がり度パラメータの仮補正値を計算する。広がり度パラメータ補正部11は、変化量が大きくなるほど仮補正値を大きくする。従って、一般には、広がり度パラメータ補正部11は、単調増加関数を用いて仮補正値を計算する。系列番号jの変化量δとすると、系列番号jにおける仮補正値^σは、例えば、以下の式(2)で計算される。ただし、a,a,b,b,bは実定数で、0<a<a,0<b<b<bを満足する。
Figure JPOXMLDOC01-appb-M000002
 また、以下の式(3)のような一次関数を用いる方法も有効である。
^σ=a・δ+b ・・・式(3)
 なお、仮補正値を求めるために用いる実定数の値は、予め実際のデータを用いて調査する等によって、実際に適用する場面に応じて決定される。
 最後に、広がり度パラメータ補正部11は、仮補正値と補正前の広がり度パラメータの値を比較する。広がり度パラメータ補正部11は、仮補正値と補正前の広がり度パラメータの値の差異が所定の閾値以上である場合には仮補正値を出力し、所定の閾値未満である場合には補正前の広がり度パラメータの値を出力する。以下、実際に補正が行われたか否かに関わらず、広がり度パラメータ補正部11から出力される広がり度パラメータを「補正後の広がり度パラメータ」と表現する場合がある。
 仮補正値を^σ、補正前の広がり度パラメータをσとすると、補正後の広がり度パラメータσは以下の式(4)のように決定されてもよい。但し、αは正の実数である。
Figure JPOXMLDOC01-appb-M000003
 なお、式(4)が用いられるときには、仮補正値と補正前の差分値が所定の閾値(α)未満である場合に、入力された広がり度パラメータの値が十分に大きい、すなわち特徴量系列に不連続性を生じさせることがない程度に大きいと判断される。
 また、差分を用いる方法の他、以下の式(5)に基づいて比率を評価して補正後の広がり度パラメータを決定する方法も有効である。ただし、αは1.0よりも大きい実数である。
Figure JPOXMLDOC01-appb-M000004
 なお、式(5)が用いられるときには、補正前の広がり度パラメータの値に対する仮補正値の比率が所定の閾値(α)未満である場合に、入力された広がり度パラメータの値が十分に大きい、すなわち特徴量系列に不連続性を生じさせることがない程度に大きいと判断される。
 次に、特徴量系列生成部12は、入力された概形パラメータ系列と、広がり度パラメータ補正部から出力される広がり度パラメータ系列とを基に特徴量系列を生成する(ステップS102)。特徴量系列の生成方法は、特徴量系列と両パラメータ(概形パラメータおよび広がり度パラメータ)の関係に応じて異なる。以下に示す例は、最も代表的な方法の一つである平滑化により特徴量系列を生成する方法である。
 図3は、概形パラメータおよび広がり度パラメータと生成される特徴量系列との関係の一例を模式的に示す説明図である。図3において、(A)には、概形パラメータ系列の一例が示されている。(B)には、広がり度パラメータを考慮せずに特徴量系列を生成した場合の特徴量系列の一例を示している。(A)および(B)に示された例では、概形パラメータが特徴量系列の5点を代表する値である。すなわち、系列番号jの概形パラメータは、時刻k-5,k-4,k-3,k-2,k-1の特徴量系列を代表する値である。系列番号j+1の概形パラメータは、時刻k,k+1,k+2,k+3,k+4の特徴量系列を代表する値である。このような仮定のもとで、(C)および(D)には、広がり度パラメータを考慮して特徴量系列が生成される例が示されている。なお、(C)には、広がり度パラメータが小さい場合に生成される特徴量系列の例が示され、(D)には、広がり度パラメータが大きい場合に生成される特徴量系列のが示されている。
 図3における(C)に示す例では、広がり度パラメータが小さいので、変更対象となっている特徴量は、時刻k-1とkの特徴量に限定され、k-2からk+1にかけて線形補間するような値になる。一方、図3における(D)に示す例では、広がり度パラメータが大きいので、変更対象となっている特徴量は、時刻k-4からk+3の特徴量であり、k-5からk+4にかけて線形補間するような値になる。なお、図3に示された例では、広がり度パラメータは変更対象範囲に対応する。従って、広がり度パラメータの大きさの変化に応じて変更対象範囲が変わる。広がり度パラメータが小さい場合には変更対象範囲が狭いので、特徴量系列のグラフの形状が急峻に変化する。広がり度パラメータが大きい場合には変更対象範囲が広いので、特徴量系列のグラフの形状が緩やかに変化する。
 以上のように、本実施形態の特徴量系列生成装置は、概形パラメータの系列番号方向の変化量を計算し、変化量が大きい系列番号に対して、その大きさに応じた広がり度パラメータの補正を行う。この結果、概形パラメータの変化量が大きい箇所における特徴量系列の不連続性が低減し、特徴量の不連続性が高い箇所が少なく、滑らかに変化する特徴量系列を生成することができる。
実施形態2.
 次に、本発明の第2の実施形態を説明する。図4は、本発明の第2の実施形態の特徴量系列生成装置の構成例を示すブロック図である。図4に示す特徴量系列生成装置は、図1に示す第1の実施形態に対して、言語処理部4と、状態継続長生成部21と、ピッチモデルパラメータ選択部31と、モデルパラメータ記憶部32とが加えられた装置である。また、広がり度パラメータ補正部11および特徴量系列生成部12に代えて、広がり度パラメータ補正部111および特徴量系列生成部121を備える。
 本実施形態の特徴量系列生成装置は、特徴量系列として、音声のピッチ周波数の系列であるピッチパタンを生成する。
 ピッチモデルパラメータ記憶部32は、HMMを用いてモデル化した音声のピッチ周波数の情報をHMMのパラメータの形式で記憶する。以下、ピッチ周波数に関するHMMのパラメータをピッチモデルパラメータと呼ぶ。
 図5は、音声のピッチ周波数の情報がモデル化されたHMMの例を示す説明図である。図5に示すように、本実施形態では、HMMは、出力ベクトルを出力する確率分布がb(o)であるような信号源(状態)が、状態遷移確率aij=P(q=j|qt-1=i)をもって接続されたモデルとして定義される。但し、i,jは状態番号である。出力ベクトルoは、ケプストラムや線形予測係数などの音声の短時間的なスペクトルや、音声のピッチ周波数などを表現するパラメータである。すなわち、HMMは、時間方向とパラメータ方向の変動が統計的にモデル化されたものである。一般に、HMMは、様々な要因で変動する音声をパラメータ系列の表現とすることに適していることが知られている。
 ピッチモデルパラメータは、HMMにおける定義では出力確率分布を特徴づけるパラメータに相当する。HMMの出力確率分布は、ガウス分布で定義されることが多い。ガウス分布は平均と分散の二種類の統計量で特徴づけられるので、以下、ピッチモデルパラメータを具体的にガウス分布の平均と分散と仮定する。なお、平均と分散で特徴づけられる確率分布であれば、ガウス分布以外のどのような確率分布が用いられてもよい。
 ピッチモデルパラメータのうちの平均パラメータは、音声合成時において、合成音声のピッチパタンの枠組みを概形的に特徴づける値として利用される。すなわち、平均パラメータを、本発明における「概形パラメータ」の一例とみなすことができる。本実施形態では、概形パラメータの具体例として、HMMの出力確率分布の平均を示す平均パラメータが用いられる。しかし、平均パラメータの他、中央値や最頻値、最大・最小値などの統計量を用いることも可能である。
 また、ピッチモデルパラメータのうちの分散パラメータは、音声合成時において、合成音声のピッチ周波数の分布の広がり度を示す値として利用される。すなわち、分散パラメータを、本発明における「広がり度パラメータ」の一例とみなすことができる。例えば、ある区間における分散パラメータの値が小さければ、その区間のピッチ周波数は平均パラメータ(概形パラメータ)に近い値となるので、ピッチパタンは直線的な形状になる。分散パラメータの値がゼロであれば、その区間のピッチ周波数は常に平均パラメータの値に一致するので、ピッチパタンは直線になる。本実施形態では、広がり度パラメータの具体例として、HMMの出力確率分布の分散を示す分散パラメータが用いられる。しかし、分散以外でを用いてもよい。例えば、分散以外の広がり度パラメータとして、標準偏差を用いることも可能である。
 なお、ピッチモデルパラメータに限らずHMMのパラメータは、学習処理により求められる。学習には、音声データとその音素ラベル及び言語情報が利用される。HMMのモデルパラメータの学習手法は公知の技術であるため説明を省略する。
 言語処理部4は、テキスト(文字列情報)を入力し、入力したテキストに対して、形態素解析、構文解析、読み付け等の分析を行い、少なくとも音節記号や音素記号などの「読み」を表す情報を含む言語情報を生成して、状態継続長生成部21とピッチモデルパラメータ選択部31に出力する。なお、言語情報には、読みを表す情報の他、形態素の品詞、活用、アクセント型、アクセント位置、アクセント句区切り等を表す情報など、テキストが表す音声に関するいずれの情報が含められてもよい。
 状態継続長生成部21は、言語処理部4から出力された言語情報に基づいてHMMの状態継続長を生成し、特徴量系列生成部121に出力する。HMMでモデル化された音声は、音素毎に複数の「状態」を有すると仮定される。状態数は全ての音素に対して同一の値で定義される。状態継続長は、各音素に属する状態それぞれに滞留する回数に相当する。従って、ある音素の時間長は、その音素に属する状態の継続長の総和に相当する。
 ピッチモデルパラメータ選択部31は、言語処理部4から出力された言語情報に基づいて、最適なピッチモデルパラメータをピッチモデルパラメータ記憶部32から取得する。そして、ピッチモデルパラメータ選択部31は、取得したピッチモデルパラメータのうちの平均パラメータを広がり度パラメータ補正部111と特徴量系列生成部121に出力する。また、ピッチモデルパラメータ選択部31は、取得したピッチモデルパラメータのうちの分散パラメータを広がり度パラメータ補正部111に出力する。
 広がり度パラメータ補正部111は、ピッチモデルパラメータ選択部31から出力される平均パラメータと分散パラメータとに基づいて、分散パラメータを補正し、補正された分散パラメータを特徴量系列生成部121に出力する。
 特徴量系列生成部121は、状態継続長生成部21から出力される状態継続長と、ピッチモデルパラメータ選択部31から出力される平均パラメータと、広がり度パラメータ補正部111から出力される補正後の分散パラメータとに基づいて、ピッチパタンを生成する。
 本実施形態において、言語処理部4、状態継続長生成部21、ピッチモデルパラメータ選択部31、広がり度パラメータ補正部111および特徴量系列生成部121は、例えば、プログラムに従って動作するCPU等の情報処理装置によって実現される。また、ピッチモデルパラメータ記憶部32は、例えば、メモリやデータベースシステム等の記憶装置によって実現される。なお、各処理部(言語処理部4、状態継続長生成部21、ピッチモデルパラメータ選択部31、広がり度パラメータ補正部111、特徴量系列生成部121)は、1つのユニットによって実現されても別々のユニットによって実現されてもよい。また、例えば、言語処理部4、状態継続長生成部21、ピッチモデルパラメータ選択部31として外部の装置を利用することも可能である。そのような場合には、各処理部は必要な情報をネットワークを介して取得すればよい。
 次に、本実施形態の動作を説明する。図6は、本実施形態の動作の一例を示すフローチャートである。図6に示す例では、まず、言語処理部4が、入力されたテキスト(文字列情報)に対して、形態素解析、構文解析、及び、読み付け等の分析を行う。言語処理部4は、音節記号や音素記号などの「読み」を表す情報と、形態素の品詞、活用、アクセント型、アクセント位置、アクセント句区切り等を表す情報とを言語情報として、状態継続長生成部21とピッチモデルパラメータ選択部31とに出力する(ステップS201)。なお、アクセント情報や形態素情報の有無およびデータ形式は、言語情報を利用する状態継続長生成部21とピッチモデルパラメータ選択部31の実現形態に応じて定められる。
 次に、状態継続長生成部21は、言語処理部4から出力される言語情報に基づいてHMMの状態継続長を生成する(ステップS202)。状態継続長生成部21は、生成した状態継続長を特徴量系列生成部121に出力する。
 例えば、状態数が3状態であり、音素aの状態1~3までの継続長がd1,d2,d3であった場合、音素aの継続時間長はd1+d2+d3で与えられる。この例のd1,d2,d3を求める処理を状態継続長生成部21が行う。
 ある音素に属する各状態の継続長は、その音素(以下、「該当音素」と呼ぶ。)の前後に存在する音素(以下、前に存在する音素を「先行音素」と呼び、後に存在する音素を「後続音素」と呼ぶ。)や、該当音素のアクセント句内でのモーラ位置、先行・該当・後続音素が属するアクセント句のモーラ長やアクセント型、該当音素が属するアクセント句の位置、等々の「コンテキスト」と呼ばれる情報に基づいて決定される。
 例えば、図7に示すようなコンテキストと状態継続長の対応関係を保持したテーブルを予め用意しておいてもよい。そのような場合には、状態継続長生成部21は、このテーブルを参照して、言語情報によって示されるコンテキストから対応する状態継続長を得る。なお、各状態の継続長の具体的な生成方法として、例えば非特許文献1~3に記載されている方法を用いてもよい。例えば、非特許文献2に記載されている方法を用いる場合には、状態継続長生成部21は、以下の式(6)を用いて、各状態の継続長を算出すればよい。なお、本例ではρ=0と想定する。
=m+ρ・σ  ・・・式(6)
 なお、式(6)において、m、σ は、それぞれ状態iに関するガウス分布の平均と分散である。
 ピッチモデルパラメータ選択部31は、言語処理部4から出力される言語情報を参照して、該言語情報に最も適したピッチモデルパラメータをピッチモデルパラメータ記憶部32から取得する(ステップS203)。ピッチモデルパラメータ選択部31は、取得したピッチモデルパラメータのうちの平均パラメータを広がり度パラメータ補正部111と特徴量系列生成部121に出力する。ピッチモデルパラメータ選択部31は、取得したピッチモデルパラメータのうちの分散パラメータを広がり度パラメータ補正部111に出力する。
 ピッチモデルパラメータ選択部31は、具体的には、コンテキストと呼ばれる言語情報から一意に定まるモデルパラメータを選択する。例えば、図8に示すようなコンテキストとパラメータとを1対1に対応づけたテーブルを参照して、言語情報によって示されるコンテキストに対応づけられているパラメータを読み出す。その場合、モデルパラメータ記憶部32は、図8に示すような形式でピッチモデルパラメータを記憶する。コンテキストとピッチモデルパラメータとの対応づけは、例えば、アクセント句先頭かアクセント句終端か、またそのアクセント句が3モーラ1型か4モーラ2型かといった区分けに基づいて行われる。
 広がり度パラメータ補正部111は、ピッチモデルパラメータ選択部31から出力される平均パラメータと分散パラメータとに基づいて、分散パラメータが補正されるべきである場合には、分散パラメータを補正する(ステップS204)。広がり度パラメータ補正部111は、補正後の分散パラメータを特徴量系列生成部121に出力する。なお、分散パラメータの補正方法として、第1の実施形態における広がり度パラメータ補正部11が使用する方法と同様の方法を用いればよい。
 特徴量系列生成部121は、状態継続長生成部21から出力される状態継続長と、ピッチモデルパラメータ選択部31から出力される平均パラメータと、広がり度パラメータ補正部111から出力される補正後の分散パラメータとに基づいて、ピッチパタンを生成する(ステップS205)。ピッチパタンの生成方法として、例えば、非特許文献1~2に記載されている方法を用いることができる。
 例えば、非特許文献2に記載されている方法を用いる場合には、特徴量系列生成部121は、特徴量系列(ピッチパタン)Cを、以下の線形方程式(7)を解くことによって算出する。
-1WC=W-1 ・・・式(7)
ただし、
C:=[c,c,・・・,c ,
M:=[μq1’,μq2’,・・・,μqT’] ,
U:=diag[Uq1,Uq2,・・・,UqT ,
W:=[w,w,・・・,w ,
:=[w (0),w (1),w (2)]=[1,Δ,Δ
 ここで、cは、算出対象の特徴量である。μqt’およびUqtは、状態qにおける平均パラメータおよび分散パラメータである。[w (0),w (1),w (2)]は、静的、1次動的、2次動的特徴量を求める際に用いた窓関数の係数である。また、Tは、総フレーム数を表す。なお、状態qは状態継続長が定まれば一意に決定される。なぜなら、状態継続長が状態qが継続する回数を表しているからである。例えば、状態S1,S2,S3のそれぞれの状態継続長が3回、2回、4回であった場合、状態q(t=1~9)は、q=S1,q=S1,q=S1,q=S2,q=S2,q=S3,q=S3,q=S3,q=S3となる。また、diag[a,b,c]は、対角成分にa,b,cを有する対角行列である。
 以上のように、本実施形態の特徴量系列生成装置は、ピッチ周波数の情報が表されたHMMモデルパラメータであるピッチモデルパラメータの平均パラメータの状態方向の変化量を状態毎に計算する。特徴量系列生成装置は、変化量が大きい状態に対して、変化量の大きさに応じた同ピッチモデルパラメータの分散パラメータの補正を行う。この結果、平均パラメータの変化量が大きい箇所におけるピッチパタンの不連続性が低減し、自然性が高く、滑らかなピッチパタンが生成される。
実施形態3.
 次に、本発明の第3の実施形態を説明する。本実施形態では、分散パラメータの補正処理において、さらに状態継続長と言語情報とが利用される。図9は、本発明の第3の実施形態の特徴量系列生成装置の構成例を示すブロック図である。図9に示す特徴量系列生成装置は、図4に示す第2の実施形態における広がり度パラメータ補正部111に代えて、広がり度パラメータ補正部112を備える。
 広がり度パラメータ補正部112は、ピッチモデルパラメータ選択部31が取得したピッチモデルパラメータのうちの平均パラメータと分散パラメータを入力する。広がり度パラメータ補正部112は、言語処理部4が生成した言語情報を入力する。広がり度パラメータ補正部112は、状態継続長生成部21が生成した状態継続長情報を入力する。広がり度パラメータ補正部112は、入力した平均パラメータと分散パラメータと言語情報と状態継続長情報とに基づいて、分散パラメータを補正する。
 本実施形態では、言語処理部4は、入力されたテキストに対して行った分析の結果得られた言語情報を、広がり度パラメータ補正部112にも出力する。また、状態継続長生成部21は、言語処理部4から供給された言語情報に基づいて生成したHMMの状態継続長を、広がり度パラメータ補正部112にも出力する。また、ピッチモデルパラメータ選択部31は、ピッチモデルパラメータ記憶部32から取得したピッチモデルパラメータ(ここでは、平均パラメータと分散パラメータ)を、広がり度パラメータ補正部112にも出力する。
 広がり度パラメータ補正部112は、基本的には、第2の実施形態と同様に平均パラメータの変更量を求めて、その大きさに応じて分散パラメータを補正する。しかし、本実施形態では、広がり度パラメータ補正部112は、さらに言語情報と状態継続長情報とを利用して補正の調整および修正を行う。
 具体的には、広がり度パラメータ補正部112は、状態継続長情報に基づいて、優先して、状態継続長が短い箇所の分散パラメータの補正を行う。広がり度パラメータ補正部112は、平均パラメータの変更量を計算した後に、状態継続長を参照して変更量を修正する。例えば、広がり度パラメータ補正部112は、状態jとj+1の平均パラメータの変更量をδ,δj+1とし、状態継続長をd,dj+1とすると、d>dj+1かつδ>δj+1であれば、修正後の変更量δ’,δ’j+1を以下の式(8)のように規定する。
δ’=0, δ’j+1=δ ・・・式(8)
 第2の実施形態では、状態jとj+1の境界においてピッチの不連続性を解消するときは、広がり度パラメータ補正部111は、状態jの分散パラメータを補正する。しかし、状態jではなく状態j+1の分散パラメータを補正しても状態jとj+1の境界の不連続性を解消することが可能である。すなわち、状態jとj+1の境界において不連続性を解消するときに、状態j又はj+1のどちらの分散パラメータを補正してもよい。
 そこで本実施形態では、式(8)に示すように、状態継続長が短いほうの状態の分散パラメータが補正対象とされる。すなわち、広がり度パラメータ補正部112は、状態継続長が短いほうの補正量を大きくする。換言すると、広がり度パラメータ補正部112は、状態継続長の長い箇所の補正量を優先して小さくする。これによって、ピッチパタン全体の分散パラメータの補正量を少なくすることができる。
 分散パラメータの補正は、補正対象区間のピッチパタンの変動を大きくし、合成音声のピッチパタンの乱れを生じさせやすい。しかし、本実施形態では、平均パラメータの変更量を修正するので、第2の実施形態と比べて、ピッチパタンの乱れをより低減することができる。
 また、広がり度パラメータ補正部112は、言語情報に基づいて、分散パラメータの補正を調整する。広がり度パラメータ補正部112は、言語情報を参照して、分散パラメータの補正の調整が必要となる状態を特定する。例えば、言語情報から音素種別やアクセント句境界付近か否かの情報などを得て、ピッチが急変しやすいアクセント句境界付近や有声破裂音区間に属する状態を、補正の調整対象として特定する。次に、広がり度パラメータ補正部112は、特定された状態に対して、分散パラメータの補正度を調整する。より具体的には、広がり度パラメータ補正部112は、仮補正値の計算方法および計算に用いるパラメータを、通常用いる方法および値から変更する。例えば、広がり度パラメータ補正部112は、ピッチが急変しやすいアクセント句境界付近または有声破裂音区間に属する状態では、通常よりも補正度を小さくする。すなわち、広がり度パラメータ補正部112は、補正量を小さくする、または補正するか否かの判定基準を低くする(閾値を小さくする)。
 例えば、仮補正値^σの計算に以下の式(9)のような一次関数を用いる場合には、広がり度パラメータ補正部112は、特定された状態に対して用いられるパラメータa,bを次のように変更する。なお、式(8)において、δは状態jの変化量である。
^σ=a・δ+b ・・・式(9)
 すなわち、通常のパラメータをa=a,b=bとすると、広がり度パラメータ補正部112は、特定された状態に対して用いられるパラメータa=a,b=bを、0<a<a,0<b<bを満足する値に変更する。
 広がり度パラメータ補正部112は、仮補正値を採用するか否かの判断に用いる閾値を変更してもよい。例えば、仮補正値を^σ、補正前の分散パラメータをσとし、補正後の広がり度パラメータσを次のような式(10)のような方法で決定する場合には、広がり度パラメータ補正部112は、特定された状態に対して用いられるパラメータαを次のように変更する。
Figure JPOXMLDOC01-appb-M000005
 すなわち、通常のパラメータをα=αとすると、広がり度パラメータ補正部112は、特定された状態に対して用いられるパラメータα=αを、α<αを満足する値に変更する。
 このように、言語情報に基づいて分散パラメータの補正度が調整されれば、ピッチが急変しやすい状態において分散パラメータの補正量を抑えるなど、本来ならば不要な不連続性解消のためのパラメータ補正を回避できる。すなわち、第3の実施形態では、第2の実施形態と比べてピッチパタンの乱れをより低減することができる。
 以上のように、本実施形態の特徴量系列生成装置は、状態継続長情報や言語情報を利用することによって、過剰な分散パラメータ補正を回避することができる。その結果、ピッチパタンの乱れを小さくすることが可能となる。従って、第2の実施形態と比べて、より自然性が高いピッチパタンが生成される。
 なお、言語情報に基づく補正の調整および修正と、状態継続長情報に基づく補正の調整および修正とを選択的に行えるように、各処理の実行の有無を設定可能にしてもよい。
 また、本発明は、上述の各実施形態で説明した特徴量系列生成装置に限定されない。その構成および動作は、本発明の趣旨を逸脱しない範囲で適宜に変更することが可能である。
 以下、本発明の概要について説明する。図10は、本発明の概要を示すブロック図である。図10に示す特徴量系列生成装置500は、生成対象とされる信号の特徴量の系列である特徴量系列の概形を表す概形パラメータと、特徴量系列における特徴量の分布の広がりの度合いを表す広がり度パラメータとを入力する。特徴量系列生成装置500は、広がり度パラメータ補正手段501と、特徴量系列生成手段502とを備えている。
 広がり度パラメータ補正手段501(例えば、広がり度パラメータ補正部11)は、入力された概形パラメータの系列によって示される概形パラメータの変化量に基づいて、広がり度パラメータを補正する。
 特徴量系列生成手段502(例えば、特徴量系列生成部12)は、入力された概形パラメータと、広がり度パラメータ補正手段501によって補正された広がり度パラメータとに基づいて、特徴量系列を生成する。
 広がり度パラメータ補正手段502は、概形パラメータの系列によって示される概形パラメータの変化量が大きいほど、系列における概形パラメータの位置(変化量が大きい位置)に対応する箇所の広がり度パラメータの値が大きくなるように広がり度パラメータを補正してもよい。
 広がり度パラメータ補正手段502は、概形パラメータの系列によって示される概形パラメータの変化量に基づいて広がり度パラメータの仮補正値を求め、系列における仮補正値が求められた概形パラメータの位置に対応する箇所の補正前の広がり度パラメータ(元の広がり度パラメータ)と、求めた仮補正値とに基づいて補正後の広がり度パラメータを決定してもよい。
 また、広がり度パラメータ補正手段503は、仮補正値と元の広がり度パラメータの値との差分値が所定の閾値未満である場合、または元の広がり度パラメータの値に対する仮補正値の比率が所定の閾値未満である場合には、広がり度パラメータを補正せず、入力された広がり度パラメータをそのまま広がり度パラメータとして出力してもよい。
 また、図11は、本発明による特徴量系列生成装置500の他の例を示すブロック図である。図11に示すように、特徴量系列生成装置500は、さらに各音素の時間長を表すHMMの状態継続長や音声の言語情報を入力し、それらの情報を利用して、広がり度パラメータの補正量の調整などをしてもよい。
 概形パラメータとして、特徴量の情報をモデル化したHMMのパラメータのうちの出力確率分布の平均、中央値、最頻値、最大値または最小値の統計量を示すパラメータが用いられ、広がり度パラメータとして、HMMのパラメータのうちの出力確率分布の分散を示すパラメータが用いられる場合には、広がり度パラメータ補正手段502は、HMMの状態継続長に基づいて、補正対象の分散パラメータのうち状態継続長が短い方の分散パラメータの補正を優先して行うことが好ましい。
 特徴量系列生成装置500が、特徴量系列として、音声のピッチ周波数の系列であるピッチパタンを生成する特徴量系列生成装置であって、概形パラメータはピッチパタンの概形を表し、広がり度パラメータはピッチ周波数の分布の広がりの度合いを表し、各音素の時間長を表す情報を入力する場合には、広がり度パラメータ補正手段502は、概形パラメータと、各音素の時間長に基づいて、補正対象の広がり度パラメータのうち時間長が短い方の広がり度パラメータの補正を優先して行うことが好ましい。
 特徴量系列生成装置500が、特徴量系列として、音声のピッチ周波数の系列であるピッチパタンを生成する特徴量系列生成装置であって、概形パラメータはピッチパタンの概形を表し、広がり度パラメータはピッチ周波数の分布の広がりの度合いを表し、各音素の時間長を表す情報を入力する場合には、広がり度パラメータ補正手段502は、音声の言語情報に基づいて、ピッチが急変しやすい箇所の広がり度パラメータの補正度をその他の箇所における基準よりも小さくしてもよい。
 以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2010年11月8日に出願された日本特許出願2010-249604を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明は、信号の特徴量系列を生成するための用途に限らず、既にある特徴量系列を評価したり、調整するために概形パラメータと広がり度パラメータとを必要とする装置などにも好適に適用可能である。
 4  言語処理部
 11、111、112 広がり度パラメータ補正部
 12、121 特徴量系列生成部
 21 状態長生成部
 31 ピッチパラメータ選択部
 32 モデルパラメータ記憶部

Claims (9)

  1.  信号の特徴量の系列である特徴量系列の概形を表す概形パラメータと、前記特徴量系列における特徴量の分布の広がりの度合いを表す広がり度パラメータとを入力し、
     前記概形パラメータの系列によって示される概形パラメータの変化量に基づいて、前記広がり度パラメータを補正する広がり度パラメータ補正手段と、
     前記概形パラメータと、前記広がり度パラメータ補正手段によって補正された前記広がり度パラメータとに基づいて、前記特徴量系列を生成する特徴量系列生成手段とを備える
     ことを特徴とする特徴量系列生成装置。
  2.  前記広がり度パラメータ補正手段は、前記概形パラメータの系列によって示される前記概形パラメータの変化量が大きいほど、前記広がり度パラメータの値が大きくなるように補正する
     請求項1に記載の特徴量系列生成装置。
  3.  前記広がり度パラメータ補正手段は、前記概形パラメータの系列によって示される前記概形パラメータの変化量に基づいて仮補正値を求め、元の広がり度パラメータと前記仮補正値とに基づいて補正された広がり度パラメータを決定する
     請求項1または請求項2に記載の特徴量系列生成装置。
  4.  前記広がり度パラメータ補正手段は、前記仮補正値と元の広がり度パラメータの値との差分値が所定の閾値未満である場合、または元の前記広がり度パラメータの値に対する前記仮補正値の比率が所定の閾値未満である場合には、当該広がり度パラメータを補正せずに出力する
     請求項3に記載の特徴量系列生成装置。
  5.  前記概形パラメータは、特徴量の情報をモデル化したHMMのパラメータのうちの出力確率分布の平均、中央値、最頻値、最大値または最小値のいずれかの統計量を示すパラメータであり、前記広がり度パラメータは、前記HMMのパラメータのうちの出力確率分布の分散を示す分散パラメータであり、
     前記広がり度パラメータ補正手段は、前記HMMの状態継続長に基づいて、補正対象の分散パラメータのうち前記状態継続長が短い方の前記分散パラメータの補正を優先して行う
     請求項1から請求項4のうちのいずれか1項に記載の特徴量系列生成装置。
  6.  前記特徴量系列として、音声のピッチ周波数の系列であるピッチパタンを生成する特徴量系列生成装置であって、
     前記概形パラメータはピッチパタンの概形を表し、前記広がり度パラメータはピッチ周波数の分布の広がりの度合いを表し、
     各音素の時間長を表す情報を入力し、
     前記広がり度パラメータ補正手段は、前記概形パラメータと、前記各音素の時間長に基づいて、補正対象の前記広がり度パラメータのうち前記時間長が短い方の前記広がり度パラメータの補正を優先して行う
     請求項1から請求項5のうちのいずれか1項に記載の特徴量系列生成装置。
  7.  前記特徴量系列として、音声のピッチ周波数の系列であるピッチパタンを生成する特徴量系列生成装置であって、
     前記概形パラメータはピッチパタンの概形を表し、前記広がり度パラメータはピッチ周波数の分布の広がりの度合いを表し、
     前記音声の言語情報を入力し、
     前記広がり度パラメータ補正手段は、前記音声の言語情報に基づいて、ピッチが急変しやすい箇所の広がり度パラメータの補正度をその他の箇所における基準よりも小さくする
     請求項1から請求項6のうちのいずれか1項に記載の特徴量系列生成装置。
  8.  信号の特徴量の系列である特徴量系列の概形を表す概形パラメータの系列によって示される概形パラメータの変化量に基づいて、前記特徴量系列における特徴量の分布の広がりの度合いを表す広がり度パラメータを補正し、
     前記概形パラメータと、補正された前記広がり度パラメータとに基づいて、前記特徴量系列を生成する
     ことを特徴とする特徴量系列生成方法。
  9.  コンピュータに、
     特徴量の系列である特徴量系列の概形を表す概形パラメータの系列によって示される概形パラメータの変化量に基づいて、前記特徴量系列における特徴量の分布の広がりの度合いを表す広がり度パラメータを補正する処理、および
     前記概形パラメータと、補正された前記広がり度パラメータとに基づいて、前記特徴量系列を生成する処理
     を実行させるための特徴量系列生成プログラム。
PCT/JP2011/006032 2010-11-08 2011-10-28 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム WO2012063424A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012542797A JPWO2012063424A1 (ja) 2010-11-08 2011-10-28 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム
US13/880,630 US9299338B2 (en) 2010-11-08 2011-10-28 Feature sequence generating device, feature sequence generating method, and feature sequence generating program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-249604 2010-11-08
JP2010249604 2010-11-08

Publications (1)

Publication Number Publication Date
WO2012063424A1 true WO2012063424A1 (ja) 2012-05-18

Family

ID=46050593

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/006032 WO2012063424A1 (ja) 2010-11-08 2011-10-28 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム

Country Status (3)

Country Link
US (1) US9299338B2 (ja)
JP (1) JPWO2012063424A1 (ja)
WO (1) WO2012063424A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013014858A1 (ja) * 2011-07-25 2013-01-31 日本電気株式会社 ピッチパタン生成方法、ピッチパタン生成装置、音声合成装置およびピッチパタン生成プログラム
JP2015152788A (ja) * 2014-02-14 2015-08-24 カシオ計算機株式会社 音声合成装置、方法、およびプログラム
JP5874639B2 (ja) * 2010-09-06 2016-03-02 日本電気株式会社 音声合成装置、音声合成方法及び音声合成プログラム
JP2016075740A (ja) * 2014-10-03 2016-05-12 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016042659A1 (ja) * 2014-09-19 2016-03-24 株式会社東芝 音声合成装置、音声合成方法およびプログラム
US9792907B2 (en) 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
US9972313B2 (en) * 2016-03-01 2018-05-15 Intel Corporation Intermediate scoring and rejection loopback for improved key phrase detection
US10043521B2 (en) 2016-07-01 2018-08-07 Intel IP Corporation User defined key phrase detection by user dependent sequence modeling
US10083689B2 (en) * 2016-12-23 2018-09-25 Intel Corporation Linear scoring for low power wake on voice
US10714122B2 (en) 2018-06-06 2020-07-14 Intel Corporation Speech classification of audio for wake on voice
US10650807B2 (en) 2018-09-18 2020-05-12 Intel Corporation Method and system of neural network keyphrase detection
US11127394B2 (en) 2019-03-29 2021-09-21 Intel Corporation Method and system of high accuracy keyphrase detection for low resource devices
JP7348027B2 (ja) * 2019-10-28 2023-09-20 株式会社日立製作所 対話システム、対話プログラムおよび対話システムの制御方法
EP3823306B1 (en) 2019-11-15 2022-08-24 Sivantos Pte. Ltd. A hearing system comprising a hearing instrument and a method for operating the hearing instrument

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271185A (ja) * 2002-03-15 2003-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
JP2004012584A (ja) * 2002-06-04 2004-01-15 Nippon Telegr & Teleph Corp <Ntt> 音声認識用情報作成方法、音響モデル作成方法、音声認識方法、音声合成用情報作成方法、音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体
JP2007011203A (ja) * 2005-07-04 2007-01-18 Sony Corp データ出力装置、データ出力方法、およびプログラム
JP2007279349A (ja) * 2006-04-06 2007-10-25 Toshiba Corp 特徴量補正装置、特徴量補正方法および特徴量補正プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0481107B1 (en) * 1990-10-16 1995-09-06 International Business Machines Corporation A phonetic Hidden Markov Model speech synthesizer
US5369727A (en) * 1991-05-16 1994-11-29 Matsushita Electric Industrial Co., Ltd. Method of speech recognition with correlation of similarities
DE19546168C1 (de) * 1995-12-11 1997-02-20 Siemens Ag Digitale Signalprozessor-Anordnung zum Vergleich von Merkmalsvektoren und deren Verwendung sowie zugehöriges Betriebsverfahren
US5822729A (en) * 1996-06-05 1998-10-13 Massachusetts Institute Of Technology Feature-based speech recognizer having probabilistic linguistic processor providing word matching based on the entire space of feature vectors

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271185A (ja) * 2002-03-15 2003-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
JP2004012584A (ja) * 2002-06-04 2004-01-15 Nippon Telegr & Teleph Corp <Ntt> 音声認識用情報作成方法、音響モデル作成方法、音声認識方法、音声合成用情報作成方法、音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体
JP2007011203A (ja) * 2005-07-04 2007-01-18 Sony Corp データ出力装置、データ出力方法、およびプログラム
JP2007279349A (ja) * 2006-04-06 2007-10-25 Toshiba Corp 特徴量補正装置、特徴量補正方法および特徴量補正プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5874639B2 (ja) * 2010-09-06 2016-03-02 日本電気株式会社 音声合成装置、音声合成方法及び音声合成プログラム
WO2013014858A1 (ja) * 2011-07-25 2013-01-31 日本電気株式会社 ピッチパタン生成方法、ピッチパタン生成装置、音声合成装置およびピッチパタン生成プログラム
JPWO2013014858A1 (ja) * 2011-07-25 2015-02-23 日本電気株式会社 ピッチパタン生成方法、ピッチパタン生成装置、音声合成装置およびピッチパタン生成プログラム
JP2015152788A (ja) * 2014-02-14 2015-08-24 カシオ計算機株式会社 音声合成装置、方法、およびプログラム
JP2016075740A (ja) * 2014-10-03 2016-05-12 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム
US10490194B2 (en) 2014-10-03 2019-11-26 Nec Corporation Speech processing apparatus, speech processing method and computer-readable medium

Also Published As

Publication number Publication date
US20130211839A1 (en) 2013-08-15
US9299338B2 (en) 2016-03-29
JPWO2012063424A1 (ja) 2014-05-12

Similar Documents

Publication Publication Date Title
WO2012063424A1 (ja) 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム
JP4738057B2 (ja) ピッチパターン生成方法及びその装置
US8738381B2 (en) Prosody generating devise, prosody generating method, and program
JP4551803B2 (ja) 音声合成装置及びそのプログラム
US9905219B2 (en) Speech synthesis apparatus, method, and computer-readable medium that generates synthesized speech having prosodic feature
Sundermann et al. VTLN-based voice conversion
JP2009047957A (ja) ピッチパターン生成方法及びその装置
JP2010237323A (ja) 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
WO2010119534A1 (ja) 音声合成装置、方法およびプログラム
JP5025550B2 (ja) 音声処理装置、音声処理方法及びプログラム
US8630857B2 (en) Speech synthesizing apparatus, method, and program
JPH1195783A (ja) 音声情報処理方法
JP2006309162A (ja) ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
US20010032079A1 (en) Speech signal processing apparatus and method, and storage medium
US20090070116A1 (en) Fundamental frequency pattern generation apparatus and fundamental frequency pattern generation method
JP5474713B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP4945465B2 (ja) 音声情報処理装置及びその方法
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP2008256942A (ja) 音声合成データベースのデータ比較装置及び音声合成データベースのデータ比較方法
JP6786065B2 (ja) 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム
JP4476855B2 (ja) 音声合成装置及びその方法
JP2007163667A (ja) 音声合成装置および音声合成プログラム
CN108288464B (zh) 一种修正合成音中错误声调的方法
JP2004226505A (ja) ピッチパタン生成方法、音声合成方法とシステム及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11840420

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2012542797

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 13880630

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11840420

Country of ref document: EP

Kind code of ref document: A1