WO2019163753A1 - 音声信号解析装置、方法、及びプログラム - Google Patents
音声信号解析装置、方法、及びプログラム Download PDFInfo
- Publication number
- WO2019163753A1 WO2019163753A1 PCT/JP2019/006047 JP2019006047W WO2019163753A1 WO 2019163753 A1 WO2019163753 A1 WO 2019163753A1 JP 2019006047 W JP2019006047 W JP 2019006047W WO 2019163753 A1 WO2019163753 A1 WO 2019163753A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- frequency pattern
- fundamental frequency
- speech signal
- pattern
- encoder
- Prior art date
Links
- 238000000034 method Methods 0.000 title description 26
- 230000005236 sound signal Effects 0.000 claims description 29
- 238000004458 analytical method Methods 0.000 claims description 12
- 238000009826 distribution Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 239000012634 fragment Substances 0.000 abstract 2
- 230000008569 process Effects 0.000 description 17
- 230000000694 effects Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 4
- 210000000534 thyroid cartilage Anatomy 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 210000001260 vocal cord Anatomy 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/75—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 for modelling vocal tract parameters
Definitions
- the present invention relates to an audio signal analysis apparatus, method, and program, and more particularly, to an audio signal analysis apparatus, method, and program for analyzing an audio signal.
- the basic frequency (F 0 ) pattern of speech includes not only language but also non-language information. For example, it may represent the interrogative sentence by changing the F 0 pattern endings spoken sentence, to express intentions and feelings by changing the dynamics of F 0 pattern.
- F 0 In singing voices, we also change the F0 pattern to express the melody, emotion, and personality of the singer. For this reason, modeling of the F0 pattern is extremely effective for realizing expressive voice / singing voice synthesis, dialogue system, speaker / emotional recognition, and the like.
- Audio F 0 pattern includes a component that varies slowly over the prosodic phrase (a phrase component) constituted by steeply changing component (accent component) in accordance with an accent.
- a phrase component constituted by steeply changing component (accent component) in accordance with an accent.
- These components can be interpreted as corresponding to the translational motion and rotational motion of human thyroid cartilage, respectively, but based on this interpretation, a mathematical model that represents the logarithmic F 0 pattern as the sum of these components (hereinafter, Fujisaki model) has been proposed (Non-Patent Document 1).
- Fujisaki model, occurrence time, duration of the phrase accent command has a like size of each command as a parameter, they are known to be very well approximate the F 0 pattern actually measured when properly set ing.
- the F 0 pattern is expressed by mixing a plurality of components such as overshoot and vibrato, as in the Fujisaki model. All of the above models are common in that they deal with the speech generation process and its inverse problem of estimating the parameters inherent in the F 0 pattern from the F 0 pattern, using a hidden Markov model (HMM).
- HMM hidden Markov model
- Non-Patent Documents 2 to 4 Methods to solve the inverse problem have been proposed, but it is necessary to perform iterative execution at the time of estimation, the calculation cost is high, there is room for improvement in estimation accuracy, and further, language and speakers It is necessary to change the model structure and algorithm manually according to the situation.
- VAE Variational AutoEncoder
- VAE is an autoencoder probabilistic model including an encoder and a decoder described by a neural network.
- the encoder estimates its latent variable given an input (eg speech or image), and the decoder reconstructs the input given the latent variable.
- VAE is a probabilistic model because there is an assumption that latent variables follow a probability distribution.
- Conventional VAE assumes that the latent variable follows a normal distribution, but if a latent variable can be prepared that can be assumed to follow a meaningful distribution that can be interpreted, the decoder can interpret the observation data and the interpretable parameters inherent in the observation data.
- VAE can be a powerful generation model (for example, a generation model such as the Fujisaki model that associates the F 0 pattern with the phrase / accent component). Furthermore, since VAE has a restriction that an encoder and a decoder are learned at the same time, it is possible to solve, for example, a speech generation process and its inverse problem simultaneously by using the above-described interpretable parameters. Further, when the learning data is hard collected (for example, if it F 0 pattern can mass-prepared, the manpower and time is large amount needed to collect parameters of the underlying large amounts), by using the VAE, Semi-supervised learning is possible.
- Hiroya Fujisaki “A note on the physiological and physical basis for the phrase and accent components in the voice fundamental frequency contour,” Vocal physiology: Voice production, mechanismsand functions, pp. 347-355, 1988.
- Siu Wa Lee, Shen Ting Ang, Minghui Dong, and Haizhou Li “Generalized f0 modelling with absolute and relative pitch features for singing voice synthesis,” in Acoustics, Speech and Signal SP IEEE, 2012, pp. 429-432.
- the present invention accurately estimates a parameter inherent in a fundamental frequency pattern from the fundamental frequency pattern of the speech and reconstructs the fundamental frequency pattern of the speech from the parameters inherent in the fundamental frequency pattern. It is an object to provide a method and a program.
- an audio signal analyzing apparatus is based on parallel data of a basic frequency pattern in an audio signal and parameters inherent in the basic frequency pattern in the audio signal.
- An encoder that estimates a latent variable from a fundamental frequency pattern in the speech signal, and a decoder that reconstructs the fundamental frequency pattern in the speech signal from the latent variable by regarding parameters inherent in the frequency pattern as latent variables of a deep generation model
- a learning unit that learns the deep generation model, a parameter estimation unit that estimates a parameter inherent in the basic frequency pattern from a basic frequency pattern in an input speech signal using an encoder of the deep generation model, and the deep layer Generation model decoder Used, is configured to include a, a fundamental frequency pattern estimating unit for estimating the fundamental frequency pattern from the parameters inherent in the fundamental frequency pattern in the input speech signal.
- the learning unit includes the fundamental frequency pattern in the speech signal based on parallel data of the fundamental frequency pattern in the speech signal and a parameter inherent in the fundamental frequency pattern in the speech signal.
- the deep generation including an encoder that estimates a latent variable from a fundamental frequency pattern in the speech signal and a decoder that reconstructs the fundamental frequency pattern in the speech signal from the latent variable.
- the model is learned, the parameter estimation unit estimates the parameters inherent in the fundamental frequency pattern from the fundamental frequency pattern in the input voice signal using the encoder of the deep generation model, and the fundamental frequency pattern estimation unit Decoy of deep generation model It is used to estimate the fundamental frequency pattern from the parameters inherent in the fundamental frequency pattern in the input speech signal.
- the program according to the present invention is a program for causing a computer to function as each part of the audio signal analyzing apparatus according to the present invention.
- the basic frequency pattern in the audio signal based on the parallel data of the basic frequency pattern in the audio signal and the parameters inherent in the basic frequency pattern in the audio signal.
- the technique proposed in the embodiment of the present invention belongs to the technical field of signal processing, and aims to solve a problem of estimating parameters inherent in a fundamental frequency pattern from a fundamental frequency pattern of speech, and a forward problem thereof.
- Signal processing technology aims to solve a problem of estimating parameters inherent in a fundamental frequency pattern from a fundamental frequency pattern of speech, and a forward problem thereof.
- Speech F 0 pattern generation process model > First, a speech F 0 pattern generation process model will be described.
- Fujisaki's fundamental frequency (F 0 ) pattern generation process model (Fujisaki model) is known as a model that describes the F 0 pattern generation process of speech (Non-patent Document 1).
- the Fujisaki model is a physical model describing the process of generating F 0 pattern due to the motion of the thyroid cartilage.
- the Fujisaki model the total elongation of the vocal cords with each two independent movement of the thyroid cartilage (translational motion and rotational motion) is interpreted to result temporal variation of F 0, pairs of elongation and F 0 pattern of the vocal cords
- the F 0 pattern is modeled based on the assumption that the numerical value y (t) is proportional.
- the F 0 pattern x p (t) generated by the translational motion of the thyroid cartilage is called a phrase component, and the F 0 pattern x a (t) generated by the rotational motion is called an accent component.
- the F 0 pattern y (t) of speech is assumed to be the sum of these components plus the baseline component ⁇ b determined by the physical constraints of the vocal cords.
- u p (t) is called a phrase command function and consists of a sequence of delta functions (phrase commands)
- u a (t) is called an accent command function and consists of a sequence of rectangular waves (accent commands).
- phrase commands have a constraint condition that a phrase command occurs at the beginning of an utterance, phrase commands do not occur twice in succession, and two different commands do not occur at the same time.
- ⁇ and ⁇ are the natural angular frequencies of the phrase control mechanism and accent control mechanism, respectively, and it is empirically known that ⁇ is approximately 3 rad / s and ⁇ is approximately 20 rad / s, regardless of the speaker or utterance content. It has been.
- Decay rate By adjusting the exponential decay ( ), Damped vibration ( , Corresponding to overshoot), critical braking ( ), Steady vibration ( , Corresponding to vibrato) to express various vibration phenomena.
- the technique according to the embodiment of the present invention includes a learning process and an estimation process.
- the latent variable z is a parameter that governs the F 0 pattern generation process.
- the Fujisaki model corresponds to a phrase / accent component.
- x) is given Can be regarded as an inverse problem of estimating z when given an F 0 pattern x. Since it is difficult to obtain this posterior probability precisely, the conditional probability distribution Q ⁇ (z
- x) of x is the true posterior probability P ⁇ (z
- the log marginal probability density function log P ⁇ (x) for the F 0 pattern x is
- ⁇ ] represents the Kullback-Leibler (KL) distance. From equation (8), it is possible to minimize the KL distance between P ⁇ (z
- Non-Patent Document 5 Diederik P Kingma and Max Welling, “Auto-encoding variational bayes,” arXiv preprint arXiv: 1312.6114, 2013.
- Non-Patent Document 6 Casper Kaae Sonderby, Tapani Raiko, Lars Maaloe, Soren Kaae Sonderby, and Ole Winther, “Lad-der variational autoencoders,” in Advances in Neural Information Processing Systems, 2016, pp. 3738-3746.
- the latent variable z is related to the phrase / accent component as described above, P (z) is It can be.
- s is a state sequence of the path-constrained HMM described in Non-Patent Document 4 (see FIG. 1). That is, the natural latent variable z is estimated in order to represent a given F 0 pattern in consideration of the natural continuation length of the phrase / accent command modeled by the path-constrained HMM.
- ⁇ Estimation process> The estimation process from a given F 0 pattern x to the parameter z inherent in the F 0 pattern is performed by obtaining the posterior distribution with respect to z using the encoder Q ⁇ (z
- the audio signal analyzing apparatus is configured by a computer including a CPU, a RAM, and a ROM storing a program for executing each processing routine. Specifically, it is configured as follows.
- the audio signal analyzing apparatus 100 includes an input unit 10, a calculation unit 20, and an output unit 90.
- the input unit 10 receives parallel data of a basic frequency pattern in an audio signal and parameters inherent in the basic frequency pattern in the audio signal. Further, the input unit 10 accepts parameters inherent in the fundamental frequency pattern in the speech signal to be estimated. Further, the input unit 10 receives a fundamental frequency pattern in the estimation target audio signal.
- the fundamental frequency pattern is obtained by extracting a fundamental frequency from an audio signal using a fundamental frequency extraction process that is a well-known technique.
- the calculation unit 20 includes a learning unit 30, a deep generation model storage unit 40, a parameter estimation unit 50, and a fundamental frequency pattern estimation unit 60.
- the learning unit 30 determines parameters inherent in the fundamental frequency pattern in the speech signal based on parallel data of the fundamental frequency pattern in the speech signal received by the input unit 10 and parameters inherent in the fundamental frequency pattern in the speech signal.
- a deep generation model including an encoder that estimates the latent variable from the fundamental frequency pattern in the speech signal and a decoder that reconstructs the fundamental frequency pattern in the speech signal from the latent variable is learned.
- the distance between the output of the decoder having the fundamental frequency pattern in the speech signal as input and the parameter prior distribution represented by using a path sequence-constrained HMM (Hidden Markov Model) state sequence and the latent variable Learning deep generation model decoder P ⁇ (x
- HMM Hidden Markov Model
- state series path constrained HMM (Hidden Markov Model) is estimated from the fundamental frequency pattern, the HMM, a state sequence s made from the state s k at each time k.
- state series path constrained HMM as shown in FIG. 1, the state p 0 where phrase command is occurring, a plurality of states a n accent command occurring, any of phrase command and an accent command state r 0 where but not causing, r 1 and has, transitions to state r 1 transitions from state r 0 to the state p 0, the state transitions from state r 1 to any one of the plurality of states a n r Each state is connected so as to transition to 0 .
- x) of the deep generation model is configured using a convolutional neural network.
- the deep generation model storage unit 40 stores the decoder P ⁇ (x
- the parameter estimation unit 50 estimates the parameters inherent in the fundamental frequency pattern from the fundamental frequency pattern in the input speech signal to be estimated using the encoder Q ⁇ (z
- the fundamental frequency pattern estimation unit 60 estimates the fundamental frequency pattern from the parameters inherent in the fundamental frequency pattern in the input speech signal to be estimated, using the decoder P ⁇ (x
- the operation of the audio signal analyzing apparatus 100 will be described.
- the learning unit 30 of the speech signal analysis apparatus 100 causes the fundamental frequency in the speech signal to be received.
- Learning deep generation model including encoder Q ⁇ (z
- the parameter estimation unit 50 of the speech signal analysis apparatus 100 performs estimation using the deep generation model encoder Q ⁇ (z
- a parameter inherent in the fundamental frequency pattern is estimated from the fundamental frequency pattern in the target audio signal, and is output by the output unit 90.
- the parameter estimation unit 50 of the speech signal analysis apparatus 100 uses the deep generation model decoder P ⁇ (x
- Example 2 of effect The F 0 pattern from the voice signal, to create a parallel data respectively extracted notes (notes) from the music signal.
- an experiment was performed to estimate the F 0 pattern from the note by estimation processing. Then, it was confirmed how much the estimated F 0 pattern was able to restore the original F 0 pattern.
- FIG. 4 shows an example of the result. It is confirmed that vibrato and overshoot are well estimated even though the input information is only notes. Further, it can be confirmed that the F 0 pattern that captures the characteristics of the singer each singer is estimated.
- a parameter inherent in the fundamental frequency pattern in the speech signal is regarded as a latent variable of the deep generation model, an encoder for estimating the latent variable from the fundamental frequency pattern in the speech signal, and a fundamental frequency pattern in the speech signal from the latent variable are reproduced.
- the deep generation model including the decoder that constitutes the parameters inherent in the fundamental frequency pattern are accurately estimated from the fundamental frequency pattern of the speech, and the fundamental frequency pattern of the speech is determined from the parameters inherent in the fundamental frequency pattern. Reconfigure It is possible.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
音声の基本周波数パターンからその基本周波数パターンに内在するパラメータを精度よく推定すると共に、基本周波数パターンに内在するパラメータから、音声の基本周波数パターンを再構成することができる。 学習部30が、音声信号における基本周波数パターンと、前記音声信号における基本周波数パターンに内在するパラメータとのパラレルデータに基づいて、前記音声信号における基本周波数パターンに内在するパラメータを深層生成モデルの潜在変数とみなして、前記音声信号における基本周波数パターンから前記潜在変数を推定するエンコーダ及び前記潜在変数から前記音声信号における基本周波数パターンを再構成するデコーダを含む前記深層生成モデルを学習する。
Description
本発明は、音声信号解析装置、方法、及びプログラムに係り、特に、音声信号を解析する音声信号解析装置、方法、及びプログラムに関する。
音声の基本周波数(F0)パターンには言語だけでなく、非言語情報も含まれている。例えば、我々は、発話文の語尾のF0パターンを変化させることで疑問文を表現し、F0パターンのダイナミクスを変化させることで意図や感情を表現する。また、歌声においても、メロディや情感、歌手の個人性を表現するために、我々はF0パターンを変化させる。このため、F0パターンのモデル化は、表現豊かな音声・歌声合成や対話システム、話者・感情認識などの実現に極めて有効である。
音声のF0パターンは、韻律句全体にわたってゆるやかに変化する成分(フレーズ成分)と、アクセントに従って急峻に変化する成分(アクセント成分)により構成される。これらの成分は、ヒトの甲状軟骨の並進運動と回転運動にそれぞれ対応していると解釈できるが、この解釈に基づき対数F0パターンをこれらの成分の和で表した数学的なモデル(以後、藤崎モデル)が提案されている(非特許文献1)。藤崎モデルは、フレーズ・アクセント指令の生起時刻、持続時間、各指令の大きさなどをパラメータとして有し、これらが適切に設定されたとき実測のF0パターンを非常によく近似することが知られている。また、パラメータの言語学的対応の妥当性も広く確認されているため、実測のF0パターンから藤崎モデルのパラメータを高精度に推定することができれば有用である。一方、歌声のF0パターン(非特許文献2、3)のモデル化では、藤崎モデル同様に、オーバーシュートやビブラートといった複数の成分の混合により、F0パターンを表現する。上述のモデルはいずれも、F0パターンからF0パターンに内在するパラメータを推定するという、音声生成過程とその逆問題を扱っている点で共通しており、隠れマルコフモデル(HMM)を用いてその逆問題を解く手法(非特許文献2~4)が提案されているが、推定時に反復施行が必要であり計算コストが高く、推定精度にも改善の余地があり、さらには言語や話者などに応じて人手でモデルの構造やアルゴリズムを変更する必要がある。
近年、深層学習の分野で、Variational AutoEncoder(VAE)などの深層生成モデルが提案されている。VAEは、名前から分かる通り、ニューラルネットにより記述されているエンコーダ、および、デコーダを含むautoencoderの確率モデルである。エンコーダは入力(例えば、音声や画像)が与えられたもとでその潜在変数を推定し、デコーダは潜在変数が与えられたもとで入力を再構成する。潜在変数が確率分布に従うという仮定があるため、VAEは確率モデルである。従来のVAEでは潜在変数は正規分布に従うと仮定するが、解釈可能な意味ある分布に従うと仮定できる潜在変数を用意することができれば、そのデコーダは観測データとその観測データに内在する解釈可能なパラメータとを関連づける強力な生成モデル(例えば、F0パターンとフレーズ・アクセント成分とを関連づける藤崎モデルのような生成モデル)になりうる。さらに、VAEにはエンコーダとデコーダを同時に学習するという制約があるため、上述の解釈可能なパラメータを用いることで、例えば音声生成過程とその逆問題とを同時に解くことが可能となる。また、学習データが集めづらい場合(例えば、F0パターンは大量に用意できるが、その内在するパラメータを大量に集めるには人手と時間が多量に必要となる場合)において、VAEを用いることで、半教師あり学習を行うことが可能である。
Hiroya Fujisaki, "A note on the physiological and physical basis for the phrase and accent components in the voice fundamental frequency contour," Vocal physiology: Voice production, mechanismsand functions, pp. 347-355, 1988.
Siu Wa Lee, Shen Ting Ang, Minghui Dong, and Haizhou Li, "Generalized f0 modelling with absolute and relative pitch features for singing voice synthesis," in Acoustics, Speech and Signal Processing (ICASSP), 2012 IEEE International Conference on. IEEE, 2012, pp. 429-432.
Yasunori Ohishi, Hirokazu Kameoka, Daichi Mochihashi, and Kunio Kashino, "A stochastic model of singing voice f0 contours for characterizing expressive dynamic components," in Thirteenth Annual Conference of the International Speech Communication Association, 2012.
Hirokazu Kameoka, Kota Yoshizato, Tatsuma Ishihara, Kento Kadowaki, Yasunori Ohishi, and Kunio Kashino, "Generative modeling of voice fundamental frequency contours," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol.23,no. 6, pp. 1042-1053, 2015.
本発明は、音声の基本周波数パターンからその基本周波数パターンに内在するパラメータを精度よく推定すると共に、基本周波数パターンに内在するパラメータから、音声の基本周波数パターンを再構成することができる音声信号解析装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明に係る音声信号解析装置は、音声信号における基本周波数パターンと、前記音声信号における基本周波数パターンに内在するパラメータとのパラレルデータに基づいて、前記音声信号における基本周波数パターンに内在するパラメータを深層生成モデルの潜在変数とみなして、前記音声信号における基本周波数パターンから前記潜在変数を推定するエンコーダ及び前記潜在変数から前記音声信号における基本周波数パターンを再構成するデコーダを含む前記深層生成モデルを学習する学習部と、前記深層生成モデルのエンコーダを用いて、入力された音声信号における基本周波数パターンから前記基本周波数パターンに内在するパラメータを推定するパラメータ推定部と、前記深層生成モデルのデコーダを用いて、入力された音声信号における基本周波数パターンに内在するパラメータから前記基本周波数パターンを推定する基本周波数パターン推定部と、を含んで構成されている。
本発明に係る音声信号解析方法は、学習部が、音声信号における基本周波数パターンと、前記音声信号における基本周波数パターンに内在するパラメータとのパラレルデータに基づいて、前記音声信号における基本周波数パターンに内在するパラメータを深層生成モデルの潜在変数とみなして、前記音声信号における基本周波数パターンから前記潜在変数を推定するエンコーダ及び前記潜在変数から前記音声信号における基本周波数パターンを再構成するデコーダを含む前記深層生成モデルを学習し、パラメータ推定部が、前記深層生成モデルのエンコーダを用いて、入力された音声信号における基本周波数パターンから前記基本周波数パターンに内在するパラメータを推定し、基本周波数パターン推定部が、前記深層生成モデルのデコーダを用いて、入力された音声信号における基本周波数パターンに内在するパラメータから前記基本周波数パターンを推定する。
また、本発明に係るプログラムは、上記発明に係る音声信号解析装置の各部としてコンピュータを機能させるためのプログラムである。
本発明の音声信号解析装置、方法、及びプログラムによれば、音声信号における基本周波数パターンと、前記音声信号における基本周波数パターンに内在するパラメータとのパラレルデータに基づいて、前記音声信号における基本周波数パターンに内在するパラメータを深層生成モデルの潜在変数とみなして、前記音声信号における基本周波数パターンから前記潜在変数を推定するエンコーダ及び前記潜在変数から前記音声信号における基本周波数パターンを再構成するデコーダを含む前記深層生成モデルを学習することにより、音声の基本周波数パターンからその基本周波数パターンに内在するパラメータを精度よく推定すると共に、基本周波数パターンに内在するパラメータから、音声の基本周波数パターンを再構成することができる、という効果が得られる。
以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明の実施の形態で提案する技術は、信号処理の技術分野に属し、音声の基本周波数パターンから基本周波数パターンに内在するパラメータを推定する問題、および、その順問題を解くことを目的とした信号処理技術である。
ここで本発明の実施の形態における関連技術1~2について説明する。
<関連技術1:音声のF0パターン生成過程モデル>
まず、音声のF0パターン生成過程モデルについて説明する。
まず、音声のF0パターン生成過程モデルについて説明する。
音声のF0パターンの生成過程を記述したモデルに、藤崎の基本周波数(F0)パターン生成過程モデル(藤崎モデル)が知られている(非特許文献1)。藤崎モデルとは、甲状軟骨の運動によるF0パターンの生成過程を説明した物理モデルである。藤崎モデルでは、甲状軟骨の二つの独立な運動(平行移動運動と回転運動)にそれぞれ伴う声帯の伸びの合計がF0の時間的変化をもたらすと解釈され、声帯の伸びとF0パターンの対数値y(t)が比例関係にあるという仮定に基づいてF0パターンがモデル化される。甲状軟骨の平行移動運動によって生じるF0パターンxp(t)をフレーズ成分、回転運動によって生じるF0パターンxa(t)をアクセント成分と呼ぶ。藤崎モデルでは、音声のF0パターンy(t) は、これらの成分に声帯の物理的制約によって決まるベースライン成分μbを足し合わせたものとして、
と表現される。これら二つの成分は二次の臨界制動系の出力と仮定され、
と表される(*は時刻tに関する畳み込み演算)。ここでup(t)はフレーズ指令関数と呼ばれ、デルタ関数(フレーズ指令)の列からなり、ua(t)はアクセント指令関数と呼ばれ、矩形波(アクセント指令)の列からなる。これらの指令列には、発話の最初にはフレーズ指令が生起する、フレーズ指令は二連続で生起しない、異なる二つの指令は同時刻に生起しない、という制約条件がある。またαとβはそれぞれフレーズ制御機構、アクセント制御機構の固有角周波数であり、話者や発話内容によらず、おおよそα=3rad/s,β=20rad/s程度であることが経験的に知られている。
<関連技術2:歌声のF0パターン生成過程モデル>
次に、歌声のF0パターン生成過程モデルについて説明する。
次に、歌声のF0パターン生成過程モデルについて説明する。
歌声の旋律に伴った急激な基本周波数の上昇・下降の制御及び、ビブラートのような周期的な振動は、上述した藤崎モデルのような臨界制動系では表現できない。そのため、歌声のF0制御モデルでは制御パラメータ(減衰率 と固有周波数Ω)を用いて表現される2次系の伝達関数
<本発明の実施の形態に係る原理>
本発明の実施の形態の技術は学習処理と推定処理からなる。
本発明の実施の形態の技術は学習処理と推定処理からなる。
<学習処理>
学習処理ではF0パターン(例えば音声のF0パターン)とそのF0パターンに内在するパラメータ(例えばフレーズ・アクセント成分)のパラレルデータもしくは一部がパラレルデータであるデータが与えられているものとする。
学習処理ではF0パターン(例えば音声のF0パターン)とそのF0パターンに内在するパラメータ(例えばフレーズ・アクセント成分)のパラレルデータもしくは一部がパラレルデータであるデータが与えられているものとする。
まず、潜在変数zは、F0パターンの生成過程を司るパラメータとする。例えば、藤崎モデルの場合ではフレーズ・アクセント成分に相当する。所与のzに関するF0パターンxの条件付き確率分布Pθ(x|z)をニューラルネットで記述されたデコーダで近似することにより、その事後確率であるPθ(z|x) は所与のF0パターンxが与えられた際のzを推定するという逆問題とみなすことができる。この事後確率を厳密に求めることは困難であるため、xの条件付き確率分布Qφ(z|x)をニューラルネットで記述されたエンコーダで近似する。上述のエンコーダとデコーダを学習することにより、xの条件付き確率分布Qφ(z|x)は、真の事後確率Pθ(z|x)∝Pθ(x|z)P(z)と一致するようになる。F0パターンxに関する対数周辺確率密度関数log Pθ(x)は、
であり、ここでDKL[・|・]はKullback-Leibler(KL)距離を表す。式(8)より、θとφについてL(θ、φ;x)を最大化することで、Pθ(z|x)とQφ(z|x)とのKL距離を最小化することができることが分かる。従来の典型的なVAEでは、Qφ(z|x)とPθ(x|z)は単一の正規分布であると仮定されている(非特許文献5、6)。
[非特許文献5] Diederik P Kingma and Max Welling,“Auto-encoding variational bayes,” arXiv preprint arXiv:1312.6114, 2013.
[非特許文献6] Casper Kaae Sonderby, Tapani Raiko, Lars Maaloe, Soren Kaae Sonderby,and Ole Winther, “Lad-der variational autoencoders,” in Advances in Neural Information Processing Systems, 2016, pp.3738-3746.
[非特許文献6] Casper Kaae Sonderby, Tapani Raiko, Lars Maaloe, Soren Kaae Sonderby,and Ole Winther, “Lad-der variational autoencoders,” in Advances in Neural Information Processing Systems, 2016, pp.3738-3746.
ここで、潜在変数zをある特定の興味深い変数に設定することで、事前分布であるP(z)に関して具体的な形を我々はデザインできる。例えば、上述のように潜在変数zをフレーズ・アクセント成分と関連づけた場合、P(z)は
とすることができる。なお、sは、上記非特許文献4で述べられている経路制約付きHMM(図1参照)の状態系列である。つまり、経路制約付きHMMがモデル化しているフレーズ・アクセント指令の自然な継続長を考慮して、所与のF0パターンを表現するために自然である潜在変数z が推定されることになる。
とすることができる。なお、sは、上記非特許文献4で述べられている経路制約付きHMM(図1参照)の状態系列である。つまり、経路制約付きHMMがモデル化しているフレーズ・アクセント指令の自然な継続長を考慮して、所与のF0パターンを表現するために自然である潜在変数z が推定されることになる。
<推定処理>
所与のF0パターンxからそのF0パターンに内在するパラメータzへの推定処理は、上述のエンコーダQφ(z|x)を用いてzに関する事後分布を求め、そのときの平均系列をzとする。所与のF0パターンに内在するパラメータzからそのF0パターンxへの推定処理は、上述のデコーダPθ(x|z)を用いて求める。各エンコーダ・デコーダはCNNにより記述されているため、従来のような反復施行を必要とせずCNNの各バッチにおいて並列演算が可能であり、高速に推定することが可能である。
所与のF0パターンxからそのF0パターンに内在するパラメータzへの推定処理は、上述のエンコーダQφ(z|x)を用いてzに関する事後分布を求め、そのときの平均系列をzとする。所与のF0パターンに内在するパラメータzからそのF0パターンxへの推定処理は、上述のデコーダPθ(x|z)を用いて求める。各エンコーダ・デコーダはCNNにより記述されているため、従来のような反復施行を必要とせずCNNの各バッチにおいて並列演算が可能であり、高速に推定することが可能である。
<システム構成>
図2に示すように、本発明の実施の形態に係る音声信号解析装置は、CPUと、RAMと、各処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
図2に示すように、本発明の実施の形態に係る音声信号解析装置は、CPUと、RAMと、各処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
図2に示すように、音声信号解析装置100は、入力部10と、演算部20と、出力部90とを備えている。
入力部10は、音声信号における基本周波数パターンと、当該音声信号における基本周波数パターンに内在するパラメータとのパラレルデータを受け付ける。また、入力部10は、推定対象の音声信号における基本周波数パターンに内在するパラメータを受け付ける。また、入力部10は、推定対象の音声信号における基本周波数パターンを受け付ける。
なお、基本周波数パターンは、周知技術である基本周波数の抽出処理を用いて、音声信号から基本周波数を抽出することで得られる。
演算部20は、学習部30と、深層生成モデル記憶部40と、パラメータ推定部50と、基本周波数パターン推定部60とを備えている。
学習部30は、入力部10によって受け付けた音声信号における基本周波数パターンと、当該音声信号における基本周波数パターンに内在するパラメータとのパラレルデータに基づいて、前記音声信号における基本周波数パターンに内在するパラメータを深層生成モデルの潜在変数とみなして、音声信号における基本周波数パターンから潜在変数を推定するエンコーダ及び潜在変数から音声信号における基本周波数パターンを再構成するデコーダを含む深層生成モデルを学習する。
具体的には、音声信号における基本周波数パターンを入力としたデコーダの出力と、経路制約つきHMM(Hidden Markov Model)の状態系列を用いて表されるパラメータの事前分布との距離、及び潜在変数を入力としたエンコーダの出力を用いて定義される上記式(8)の目的関数を最大化するように、深層生成モデルのデコーダPθ(x|z)及びエンコーダQφ(z|x)を学習する。
ここで、経路制約つきHMM(Hidden Markov Model)の状態系列は、基本周波数パターンから推定される、HMMにおける、各時刻kの状態skからなる状態系列sである。
ここで経路制約つきHMMの状態系列では、上記図1に示したように、フレーズ指令が生起する状態p0と、アクセント指令が生起する複数の状態anと、フレーズ指令及びアクセント指令の何れもが生起しない状態r0、r1とを有し、状態r0から状態p0に遷移して状態r1に遷移し、状態r1から複数の状態anの何れかに遷移して状態r0に遷移するように各状態が連結されている。
また、深層生成モデルのデコーダPθ(x|z)及びエンコーダQφ(z|x)の各々は、畳み込みニューラルネットワークを用いて構成されている。
深層生成モデル記憶部40には、学習部30によって学習された深層生成モデルのデコーダPθ(x|z)及びエンコーダQφ(z|x)が記憶される。
パラメータ推定部50は、深層生成モデルのエンコーダQφ(z|x)を用いて、入力された推定対象の音声信号における基本周波数パターンから当該基本周波数パターンに内在するパラメータを推定し、出力部90により出力する。
基本周波数パターン推定部60は、深層生成モデルのデコーダPθ(x|z)を用いて、入力された推定対象の音声信号における基本周波数パターンに内在するパラメータから、当該基本周波数パターンを推定し、出力部90により出力する。
<音声信号解析装置の作用>
次に、本発明の実施の形態に係る音声信号解析装置100の作用について説明する。まず、入力部10において、音声信号における基本周波数パターンと、当該音声信号における基本周波数パターンに内在するパラメータとのパラレルデータを受け付けると、音声信号解析装置100の学習部30は、音声信号における基本周波数パターンから潜在変数を推定するエンコーダQφ(z|x)、及び潜在変数から音声信号における基本周波数パターンを再構成するデコーダPθ(x|z)を含む深層生成モデルを学習し、深層生成モデル記憶部40に格納する。
次に、本発明の実施の形態に係る音声信号解析装置100の作用について説明する。まず、入力部10において、音声信号における基本周波数パターンと、当該音声信号における基本周波数パターンに内在するパラメータとのパラレルデータを受け付けると、音声信号解析装置100の学習部30は、音声信号における基本周波数パターンから潜在変数を推定するエンコーダQφ(z|x)、及び潜在変数から音声信号における基本周波数パターンを再構成するデコーダPθ(x|z)を含む深層生成モデルを学習し、深層生成モデル記憶部40に格納する。
次に、入力部10において、推定対象の音声信号における基本周波数パターンを受け付けると、音声信号解析装置100のパラメータ推定部50は、深層生成モデルのエンコーダQφ(z|x)を用いて、推定対象の音声信号における基本周波数パターンから当該基本周波数パターンに内在するパラメータを推定し、出力部90により出力する。
また、入力部10において、推定対象の音声信号における基本周波数パターンに内在するパラメータを受け付けると、音声信号解析装置100のパラメータ推定部50は、深層生成モデルのデコーダPθ(x|z)を用いて、入力された推定対象の音声信号における基本周波数パターンに内在するパラメータから、当該基本周波数パターンを推定し、出力部90により出力する。
<本実施の形態の実験の効果>
<効果の例1>
音声信号からF0パターン抽出し、そのF0パターンに対して人手でフレーズ・アクセント成分のデータを作成した。F0パターンとフレーズ・アクセント成分のパラレルデータを用いて、上記のモデル(深層生成モデル)を学習したのちに、推定処理によりF0パターンからフレーズ・アクセント成分を推定し、フレーズ・アクセント成分からF0パターンを推定する実験を行い、推定されたF0パターンおよびフレーズ・アクセント成分が元のF0パターンおよびフレーズ・アクセント成分をどの程度復元できているか確認した。図3にその結果の例を示す。従来のものよりも高精度にF0パターンおよびフレーズ・アクセント成分を再現できていることが確認できる。
<効果の例1>
音声信号からF0パターン抽出し、そのF0パターンに対して人手でフレーズ・アクセント成分のデータを作成した。F0パターンとフレーズ・アクセント成分のパラレルデータを用いて、上記のモデル(深層生成モデル)を学習したのちに、推定処理によりF0パターンからフレーズ・アクセント成分を推定し、フレーズ・アクセント成分からF0パターンを推定する実験を行い、推定されたF0パターンおよびフレーズ・アクセント成分が元のF0パターンおよびフレーズ・アクセント成分をどの程度復元できているか確認した。図3にその結果の例を示す。従来のものよりも高精度にF0パターンおよびフレーズ・アクセント成分を再現できていることが確認できる。
<効果の例2>
歌声信号からF0パターンを、その楽曲信号からノート(音符)をそれぞれ抽出しパラレルデータを作成した。F0パターンとノートのパラレルデータを用いて、各歌唱者ごとに上記のモデル(深層生成モデル)の歌唱者依存モデルを学習したのちに、推定処理によりノートからF0パターンを推定する実験を行い、推定されたF0パターンが元のF0パターンをどの程度復元できているか確認した。図4にその結果の例を示す。入力情報がノートだけであるにも関わらず、ビブラートやオーバーシュートがよく推定されていることが確認される。また、歌唱者ごとにその歌唱者の特性を捉えたF0 パターンが推定されていることが確認できる。
歌声信号からF0パターンを、その楽曲信号からノート(音符)をそれぞれ抽出しパラレルデータを作成した。F0パターンとノートのパラレルデータを用いて、各歌唱者ごとに上記のモデル(深層生成モデル)の歌唱者依存モデルを学習したのちに、推定処理によりノートからF0パターンを推定する実験を行い、推定されたF0パターンが元のF0パターンをどの程度復元できているか確認した。図4にその結果の例を示す。入力情報がノートだけであるにも関わらず、ビブラートやオーバーシュートがよく推定されていることが確認される。また、歌唱者ごとにその歌唱者の特性を捉えたF0 パターンが推定されていることが確認できる。
以上説明したように、本発明の実施の形態に係る音声信号解析装置によれば、音声信号における基本周波数パターンと、前記音声信号における基本周波数パターンに内在するパラメータとのパラレルデータに基づいて、前記音声信号における基本周波数パターンに内在するパラメータを深層生成モデルの潜在変数とみなして、前記音声信号における基本周波数パターンから前記潜在変数を推定するエンコーダ及び前記潜在変数から前記音声信号における基本周波数パターンを再構成するデコーダを含む前記深層生成モデルを学習することにより、音声の基本周波数パターンからその基本周波数パターンに内在するパラメータを精度よく推定すると共に、基本周波数パターンに内在するパラメータから、音声の基本周波数パターンを再構成することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
10 入力部
20 演算部
30 学習部
40 深層生成モデル記憶部
50 パラメータ推定部
60 基本周波数パターン推定部
90 出力部
100 音声信号解析装置
20 演算部
30 学習部
40 深層生成モデル記憶部
50 パラメータ推定部
60 基本周波数パターン推定部
90 出力部
100 音声信号解析装置
Claims (7)
- 音声信号における基本周波数パターンと、前記音声信号における基本周波数パターンに内在するパラメータとのパラレルデータに基づいて、前記音声信号における基本周波数パターンに内在するパラメータを深層生成モデルの潜在変数とみなして、前記音声信号における基本周波数パターンから前記潜在変数を推定するエンコーダ及び前記潜在変数から前記音声信号における基本周波数パターンを再構成するデコーダを含む前記深層生成モデルを学習する学習部と、
前記深層生成モデルのエンコーダを用いて、入力された音声信号における基本周波数パターンから前記基本周波数パターンに内在するパラメータを推定するパラメータ推定部と、
前記深層生成モデルのデコーダを用いて、入力された音声信号における基本周波数パターンに内在するパラメータから前記基本周波数パターンを推定する基本周波数パターン推定部と、
を含む音声信号解析装置。 - 前記学習部は、音声信号における基本周波数パターンを入力とした前記デコーダの出力と、経路制約つきHMM(Hidden Markov Model)の状態系列を用いて表される前記パラメータの事前分布との距離、及び前記潜在変数を入力とした前記エンコーダの出力を用いて定義される目的関数を最大化するように、前記深層生成モデルを学習する請求項1記載の音声信号解析装置。
- 前記エンコーダ及び前記デコーダの各々は、畳み込みニューラルネットワークを用いて構成されたものである請求項1又は2記載の音声信号解析装置。
- 学習部が、音声信号における基本周波数パターンと、前記音声信号における基本周波数パターンに内在するパラメータとのパラレルデータに基づいて、前記音声信号における基本周波数パターンに内在するパラメータを深層生成モデルの潜在変数とみなして、前記音声信号における基本周波数パターンから前記潜在変数を推定するエンコーダ及び前記潜在変数から前記音声信号における基本周波数パターンを再構成するデコーダを含む前記深層生成モデルを学習し、
パラメータ推定部が、前記深層生成モデルのエンコーダを用いて、入力された音声信号における基本周波数パターンから前記基本周波数パターンに内在するパラメータを推定し、
基本周波数パターン推定部が、前記深層生成モデルのデコーダを用いて、入力された音声信号における基本周波数パターンに内在するパラメータから前記基本周波数パターンを推定する
音声信号解析方法。 - 前記学習部が学習することでは、音声信号における基本周波数パターンを入力とした前記デコーダの出力と、経路制約つきHMM(Hidden Markov Model)の状態系列を用いて表される前記パラメータの事前分布との距離、及び前記潜在変数を入力とした前記エンコーダの出力を用いて定義される目的関数を最大化するように、前記深層生成モデルを学習する請求項4記載の音声信号解析方法。
- 前記エンコーダ及び前記デコーダの各々は、畳み込みニューラルネットワークを用いて構成されたものである請求項4又は5記載の音声信号解析方法。
- 請求項1~請求項3の何れか1項に記載の音声信号解析装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/970,896 US11798579B2 (en) | 2018-02-20 | 2019-02-19 | Device, method, and program for analyzing speech signal |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018028295A JP6902485B2 (ja) | 2018-02-20 | 2018-02-20 | 音声信号解析装置、方法、及びプログラム |
JP2018-028295 | 2018-02-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019163753A1 true WO2019163753A1 (ja) | 2019-08-29 |
Family
ID=67687781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2019/006047 WO2019163753A1 (ja) | 2018-02-20 | 2019-02-19 | 音声信号解析装置、方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11798579B2 (ja) |
JP (1) | JP6902485B2 (ja) |
WO (1) | WO2019163753A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111243620B (zh) * | 2020-01-07 | 2022-07-19 | 腾讯科技(深圳)有限公司 | 语音分离模型训练方法、装置、存储介质和计算机设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02239294A (ja) * | 1989-03-13 | 1990-09-21 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 基本周波数パターン推定装置 |
JP2015194781A (ja) * | 2015-08-06 | 2015-11-05 | 国立研究開発法人情報通信研究機構 | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム |
JP2016085408A (ja) * | 2014-10-28 | 2016-05-19 | 富士通株式会社 | 基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラム |
WO2017168870A1 (ja) * | 2016-03-28 | 2017-10-05 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101606190B (zh) * | 2007-02-19 | 2012-01-18 | 松下电器产业株式会社 | 用力声音转换装置、声音转换装置、声音合成装置、声音转换方法、声音合成方法 |
US10204625B2 (en) * | 2010-06-07 | 2019-02-12 | Affectiva, Inc. | Audio analysis learning using video data |
US9842105B2 (en) * | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10573304B2 (en) * | 2015-05-26 | 2020-02-25 | Katholieke Universiteit Leuven | Speech recognition system and method using an adaptive incremental learning approach |
US10255628B2 (en) * | 2015-11-06 | 2019-04-09 | Adobe Inc. | Item recommendations via deep collaborative filtering |
US10373612B2 (en) * | 2016-03-21 | 2019-08-06 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
US10249289B2 (en) * | 2017-03-14 | 2019-04-02 | Google Llc | Text-to-speech synthesis using an autoencoder |
-
2018
- 2018-02-20 JP JP2018028295A patent/JP6902485B2/ja active Active
-
2019
- 2019-02-19 US US16/970,896 patent/US11798579B2/en active Active
- 2019-02-19 WO PCT/JP2019/006047 patent/WO2019163753A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02239294A (ja) * | 1989-03-13 | 1990-09-21 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 基本周波数パターン推定装置 |
JP2016085408A (ja) * | 2014-10-28 | 2016-05-19 | 富士通株式会社 | 基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラム |
JP2015194781A (ja) * | 2015-08-06 | 2015-11-05 | 国立研究開発法人情報通信研究機構 | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム |
WO2017168870A1 (ja) * | 2016-03-28 | 2017-10-05 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
Non-Patent Citations (4)
Title |
---|
HSU, CHIN-CHENG ET AL.: "Voice Conversion from Unaligned Corpora using Variational Autoencoding Wassersterin Generative Adversarial Networks", INTERSPEECH, August 2017 (2017-08-01), pages 3364 - 3368, XP055633701, ISSN: 1990-9772 * |
NARUSAWA, SHUICHI ET AL.: "A method for automatic extraction of parameters of the fundamental frequency contour generation model", TRANSACTIONS OF THE INFORMATION PROCESSING SOCIETY OF JAPAN, vol. 43, no. 7, July 2002 (2002-07-01), pages 2155 - 2168 * |
TANAKA, KOU ET AL: "VAE-SPACE: Deep Generative Model for Voiced F0 contours", PROCEEDINGS OF THE ACOUSTICAL SOCIETY OF JAPAN, vol. 03, March 2018 (2018-03-01), pages 229 - 230, ISSN: 1880-7658 * |
YOSHIZATO, KOTA ET AL.: "Estimation of phase and accent commands from speech signals using statistical model of speech F0 contours.", REPORT OF THE MEETING OF THE ACOUSTICAL SOCIETY OF JAPAN, March 2012 (2012-03-01), pages 311 - 314 * |
Also Published As
Publication number | Publication date |
---|---|
US11798579B2 (en) | 2023-10-24 |
JP6902485B2 (ja) | 2021-07-14 |
JP2019144403A (ja) | 2019-08-29 |
US20200395041A1 (en) | 2020-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7108147B2 (ja) | 表現用エンドツーエンド音声合成における変分埋め込み容量 | |
Liu et al. | Diffsinger: Singing voice synthesis via shallow diffusion mechanism | |
Ling et al. | Deep learning for acoustic modeling in parametric speech generation: A systematic review of existing techniques and future trends | |
Battenberg et al. | Effective use of variational embedding capacity in expressive end-to-end speech synthesis | |
Zen | Acoustic modeling in statistical parametric speech synthesis-from HMM to LSTM-RNN | |
WO2019163849A1 (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
CN117043855A (zh) | 无监督并行Tacotron非自回归和可控的文本到语音 | |
JP2024505076A (ja) | 多様で自然なテキスト読み上げサンプルを生成する | |
WO2024055752A9 (zh) | 语音合成模型的训练方法、语音合成方法和相关装置 | |
WO2015025788A1 (ja) | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 | |
Liao et al. | Incorporating symbolic sequential modeling for speech enhancement | |
Nakashika et al. | Voice conversion using speaker-dependent conditional restricted boltzmann machine | |
CN116235247A (zh) | 使用持续时间预测的文本到语音 | |
Pamisetty et al. | Prosody-tts: An end-to-end speech synthesis system with prosody control | |
JP2017151230A (ja) | 音声変換装置および音声変換方法ならびに計算機プログラム | |
Tanaka et al. | VAE-SPACE: Deep generative model of voice fundamental frequency contours | |
WO2019163753A1 (ja) | 音声信号解析装置、方法、及びプログラム | |
JP5885210B2 (ja) | 基本周波数モデルパラメータ推定装置、方法、及びプログラム | |
Revathi et al. | Emotions recognition: different sets of features and models | |
JP6137477B2 (ja) | 基本周波数モデルパラメータ推定装置、方法、及びプログラム | |
JP6468519B2 (ja) | 基本周波数パターン予測装置、方法、及びプログラム | |
JP6472005B2 (ja) | 基本周波数パターン予測装置、方法、及びプログラム | |
US11670292B2 (en) | Electronic device, method and computer program | |
Fahmy et al. | Boosting subjective quality of Arabic text-to-speech (TTS) using end-to-end deep architecture | |
JP6665079B2 (ja) | 基本周波数モデルパラメータ推定装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19756461 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19756461 Country of ref document: EP Kind code of ref document: A1 |