WO2021234967A1 - 音声波形生成モデル学習装置、音声合成装置、それらの方法、およびプログラム - Google Patents

音声波形生成モデル学習装置、音声合成装置、それらの方法、およびプログラム Download PDF

Info

Publication number
WO2021234967A1
WO2021234967A1 PCT/JP2020/020378 JP2020020378W WO2021234967A1 WO 2021234967 A1 WO2021234967 A1 WO 2021234967A1 JP 2020020378 W JP2020020378 W JP 2020020378W WO 2021234967 A1 WO2021234967 A1 WO 2021234967A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice waveform
waveform generation
generation model
weight
voice
Prior art date
Application number
PCT/JP2020/020378
Other languages
English (en)
French (fr)
Inventor
裕紀 金川
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2020/020378 priority Critical patent/WO2021234967A1/ja
Publication of WO2021234967A1 publication Critical patent/WO2021234967A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Definitions

  • the present invention relates to a speech synthesis technique, and more particularly to a technique of generating a speech waveform from an acoustic feature amount.
  • the first is a module that generates acoustic features such as spectrum and voice pitch.
  • This module is mainly composed of hidden Markov models and deep neural networks (DNN: Deep Neural Network).
  • DNN Deep Neural Network
  • the mainstream method was to predict the acoustic features by using the language features in frame units converted from the text analysis results as the input of DNN (for example, Non-Patent Document 1).
  • a method of directly predicting acoustic features from raw text or text information close to raw without text analysis has been proposed (for example, Non-Patent Document 2).
  • the second is a module that generates audio waveforms from acoustic features.
  • this module has mainly been configured by a signal processing-based method such as an MLSA filter or STRAIGHT (for example, Non-Patent Documents 3 and 4).
  • a method of replacing this module with a neural network has been proposed, and it has been shown that a voice having a higher naturalness than a voice synthesized by a signal processing-based method can be synthesized (see Non-Patent Document 5).
  • a method based on a neural network hereinafter, also referred to as “neural waveform generation” requires a larger amount of calculation than a signal processing-based method.
  • Non-Patent Document 5 uses an autoregressive (AR: AutoRegressive) model that predicts the waveform sample at the next time depending on the waveform sample at the previous time, so that parallelization is possible. It was difficult. Therefore, if real-time operation is aimed at by neural waveform generation, it is necessary to consider parallel generation of waveforms or a lightweight model structure.
  • An example of studying parallel generation of waveforms is parallelization of forward propagation processing using a non-AR model utilizing knowledge distillation (Knowledge Distillation) and an image processing unit (GPU: Graphics Processing Unit) (for example, Non-Patent Document 6).
  • As an example of studying a lightweight model structure there is a lightweight model structure that utilizes the knowledge of conventional voice waveforms, which can realize neural waveform generation even with a central processing unit (CPU: Central Processing Unit) (for example, non-patented).
  • Document 7 ).
  • Non-Patent Document 7 is composed of two networks, an encoder that converts an acoustic feature amount into an intermediate representation and a decoder that converts an intermediate representation into a voice waveform.
  • a recurrent neural network (RNN: Recurrent Neural Network) is used for the decoder, and a two-mixed fully connected layer is used for the output layer.
  • Non-Patent Document 7 claims real-time operation in a CPU, and achieves real-time operation by generating a waveform having a sampling frequency of 16 kHz. However, when the sampling frequency is increased for higher quality, real-time operation becomes difficult because forward propagation is required 1.5 times at 24 kHz and 3 times at 48 kHz.
  • An object of the present invention is to reduce the amount of calculation required for forward propagation per one time in neural waveform generation in view of the above technical problems.
  • the voice waveform generation model learning device of the first aspect of the present invention uses the voice waveform and the acoustic feature amount calculated from the voice waveform in each of a plurality of fully connected layers.
  • a low-rank approximation of the model learning unit that learns the voice waveform generation model that includes the corresponding weight matrix and converts the acoustic feature quantity into the voice waveform, and the weight tensor that summarizes the weight matrix included in the voice waveform generation model into a tensor. Includes a model weight reduction unit that generates a weight reduction audio waveform generation model using weight parameters.
  • the speech synthesizer converts an acoustic feature into a speech waveform by using a weight parameter obtained by low-rank approximation of a weight tensor in which weight matrices corresponding to each of a plurality of fully connected layers are summarized in a tensor. It includes a model storage unit for storing a voice waveform generation model and a voice waveform generation unit for inputting an input acoustic feature amount into a voice waveform generation model to obtain a voice waveform.
  • FIG. 1 is a diagram illustrating a functional configuration of the speech synthesizer of the first embodiment.
  • FIG. 2 is a diagram illustrating a processing procedure of the speech synthesis method of the first embodiment.
  • FIG. 3 is a diagram illustrating the functional configuration of the speech synthesizer of the second embodiment.
  • FIG. 4 is a diagram illustrating the processing procedure of the speech synthesis method of the second embodiment.
  • FIG. 5 is a diagram illustrating a functional configuration of a computer.
  • the first embodiment of the present invention is a voice synthesizer and a method of generating a voice waveform generation model from a voice waveform to be training data and generating a voice waveform from an acoustic feature amount using the voice waveform generation model.
  • the voice synthesizer 1 of the first embodiment is, for example, a voice waveform generation model learning unit 10, a voice waveform generation model weight reduction unit 20, a voice waveform generation unit 30, a learning data storage unit 100, and a voice waveform generation unit 100.
  • a model storage unit 110 is provided.
  • the voice waveform generation model learning unit 10 includes, for example, an acoustic feature amount calculation unit 11 and a model learning unit 12.
  • the voice waveform generation model weight reduction unit 20 includes, for example, a tensorization unit 21 and a tensor decomposition unit 22. By executing each step shown in FIG. 2 by the voice synthesizer 1, the voice synthesis method of the first embodiment is realized.
  • the speech synthesizer 1 is configured by loading a special program into a publicly known or dedicated computer having, for example, a central processing unit (CPU: Central Processing Unit), a main storage device (RAM: Random Access Memory), and the like. Device.
  • the speech synthesizer 1 executes each process under the control of the central processing unit, for example.
  • the data input to the speech synthesizer 1 and the data obtained in each process are stored in, for example, the main storage device, and the data stored in the main storage device is read out to the central processing unit as needed. Used for other processing.
  • At least a part of each processing unit of the speech synthesizer 1 may be configured by hardware such as an integrated circuit.
  • Each storage unit included in the voice synthesizer 1 is, for example, a main storage device such as RAM (RandomAccessMemory), an auxiliary storage device composed of a hard disk, an optical disk, or a semiconductor memory element such as a flash memory (FlashMemory), or an auxiliary storage device. It can be configured with middleware such as relational databases and key-value stores.
  • RAM RandomAccessMemory
  • FlashMemory flash memory
  • the learning data storage unit 100 stores a sufficient amount of learning data to be used for learning the voice waveform generation model.
  • Each learning data is a voice waveform generated from a voice signal collected in advance.
  • the acoustic feature amount calculation unit 11 of the voice waveform generation model learning unit 10 calculates the acoustic feature amount from the voice waveform stored in the learning data storage unit 100.
  • the acoustic feature quantity for example, spectral information such as mer cepstrum or prosodic information such as fundamental frequency is used. Instead of these, a mel spectrogram obtained by transforming the raw spectrum obtained by the Fourier transform according to human hearing may be used.
  • the acoustic feature amount calculation unit 11 outputs the calculated acoustic feature amount to the model learning unit 12.
  • step S12 the model learning unit 12 of the voice waveform generation model learning unit 10 uses the voice waveform stored in the learning data storage unit 100 and the acoustic feature amount input from the acoustic feature amount calculation unit 11. Learn the waveform generation model.
  • the voice waveform generation model predicts the voice waveform from the acoustic features and is trained so that the error between the predicted voice waveform and the actual voice waveform becomes small.
  • the model learning unit 12 stores the learned voice waveform generation model in the model storage unit 110.
  • step S21 the tensorizing unit 21 of the voice waveform generation model weight reduction unit 20 tensors the Dual FC included in the voice waveform generation model stored in the model storage unit 110. That is, the Dual FC parameters are converted so that they can be handled collectively as a tensor. Since the RNN part included in the voice waveform generation model is the same as the conventional one, it can be copied as it is.
  • the tensorized unit 21 outputs the tensorized voice waveform generation model to the tensor decomposition unit 22.
  • Dual FC The tensorization of Dual FC will be described in more detail.
  • the input vector x ⁇ R D is converted into the output vector y ⁇ R N by the following equation.
  • W 1 ⁇ R N ⁇ D and W 2 ⁇ R N ⁇ D are weight matrices, respectively, and b 1 ⁇ R N and b 2 ⁇ R N are bias vectors, respectively. Also, a 1 ⁇ R N and a 2 ⁇ R N are weight vectors of two fully connected layers.
  • the tensorization unit 21 converts the Dual FC into the following equation by summarizing the weight matrices W 1 and W 2 as tensors and summarizing the weight vectors a 1 and a 2 and the bias vectors b 1 and b 2 as matrices, respectively.
  • W [W 1 , W 2 ]
  • B [b 1 , b 2 ].
  • W is referred to as a "weight tensor”.
  • step S22 the tensor decomposition unit 22 of the voice waveform generation model weight reduction unit 20 low-rank approximation the dual FC weight tensor W included in the voice waveform generation model tensorized by the tensorization unit 21. By doing so, a lightweight voice waveform generation model with a reduced amount of calculation is generated.
  • the tensor decomposition unit 22 stores the generated lightweight voice waveform generation model in the model storage unit 110.
  • the low-rank approximation of the weight tensor will be described in more detail.
  • a higher-order singular value decomposition HSVD
  • W ⁇ R N ⁇ D ⁇ 2 is a third-order tensor
  • W (2) ⁇ R D ⁇ 2 N is obtained.
  • the singular value decomposition is applied to each of these matrices W (1) and W (2) as shown in the following equation.
  • ⁇ 1 and ⁇ 2 are a mode 1 product and a mode 2 product, respectively.
  • ⁇ T represents the transpose of the matrix. S is the following equation.
  • the weight tensor W which was 2ND parameters, can be reduced to 2N'D'+ ND'+ N'D parameters.
  • the number of parameters of Dual FC, which is low-rank approximated, is 2,144, and the number of parameters can be reduced by about 80%.
  • the smaller the size of the parameter matrix or tensor the smaller the amount of computation, which not only reduces memory usage but also speeds up forward propagation.
  • step S30 the voice waveform generation unit 30 inputs the acoustic feature amount input to the voice synthesizer 1 into the weight-reduced voice waveform generation model generated by the voice waveform generation model weight reduction unit 20, and predicts the voice waveform. do.
  • the voice waveform generation unit 30 propagates the lightweight voice waveform generation model forward, and converts the 8-bit value obtained by sampling from the output value of Dual FC into a 16-bit voice waveform by inversely converting the 8-bit value by the ⁇ -law algorithm. ..
  • the voice waveform generation unit 30 uses the predicted voice waveform as the output of the voice synthesizer 1.
  • Dual FC which is a component of the decoder of the voice waveform generation model, is composed of two fully connected layers and their weight parameters. By reconfiguring the network so that these are collectively treated as a tensor, it can be decomposed into tensors. Allowed low-rank approximation based on. By reducing the parameters in this way, the memory usage and the amount of calculation required for forward propagation can be reduced. As a result, it also leads to expanding the range of devices that can be equipped with neural waveform generation and realizing real-time operation at high sampling frequencies.
  • FIG. 1 An example of one voice synthesizer that generates a weight-reduced voice waveform generation model from training data and generates a voice waveform using the weight-reduced voice waveform generation model is shown.
  • this speech synthesizer may be divided into a plurality of devices having different functions to be provided.
  • a voice waveform generation model learning device having a function of learning a lightweight voice waveform generation model from training data
  • a voice synthesizer having a function of generating a voice waveform using a trained lightweight voice waveform generation model. Can be split.
  • the voice waveform generation model learning device of the modified example includes only the voice waveform generation model learning unit 10, the voice waveform generation model weight reduction unit 20, the learning data storage unit 100, and the model storage unit 110 of the first embodiment. Just do it.
  • the voice synthesizer of the modified example includes only the voice waveform generation unit 30 and the model storage unit 110 of the first embodiment, and the trained lightweight voice waveform generation model can be stored in advance in the model storage unit 110. Just do it.
  • the lightweight voice waveform generation model according to the first embodiment considers only the magnitude of the singular value by the higher-order singular value decomposition, and the weighting coefficient is not always suitable for actually generating the voice waveform. No.
  • the weight-reduced voice waveform generation model according to the first embodiment is used as the initial value for learning again, thereby improving the accuracy of the voice waveform while obtaining the parameter reduction effect.
  • the voice synthesizer 2 of the second embodiment includes a voice waveform generation model learning unit 10, a voice waveform generation model weight reduction unit 20, a voice waveform generation unit 30, a learning data storage unit 100, and a model storage.
  • a voice waveform generation model re-learning unit 40 is provided.
  • step S40 the voice waveform generation model re-learning unit 40 uses the weight-reduced voice waveform generation model generated by the voice waveform generation model weight-reducing unit 20 as an initial value, and the voice of the training data stored in the training data storage unit 100. Using the waveform and the acoustic feature amount obtained by the acoustic feature amount calculation unit 11, the voice waveform generation model is relearned in the same manner as in the model learning unit 12. The voice waveform generation model re-learning unit 40 stores the re-learned lightweight voice waveform generation model in the model storage unit 110.
  • step S30 the voice waveform generation unit 30 inputs the acoustic feature amount input to the voice synthesizer 2 into the lightweight voice waveform generation model relearned by the voice waveform generation model relearning unit 40, and outputs the voice waveform. Predict.
  • the voice waveform generation unit 30 uses the predicted voice waveform as the output of the voice synthesizer 2.
  • the program that describes this processing content can be recorded on a computer-readable recording medium.
  • the recording medium that can be read by a computer is, for example, a non-temporary recording medium, such as a magnetic recording device and an optical disc.
  • this program is carried out, for example, by selling, transferring, renting, etc. a portable recording medium such as a DVD or CD-ROM in which the program is recorded.
  • the program may be stored in the storage device of the server computer, and the program may be distributed by transferring the program from the server computer to another computer via the network.
  • a computer that executes such a program for example, first transfers a program recorded on a portable recording medium or a program transferred from a server computer to an auxiliary recording unit 1050, which is its own non-temporary storage device. Store. Then, at the time of executing the process, the computer reads the program stored in the auxiliary recording unit 1050, which is its non-temporary storage device, into the storage unit 1020, which is the temporary storage device, and follows the read program. Execute the process. Further, as another execution form of this program, a computer may read the program directly from a portable recording medium and execute processing according to the program, and further, the program is transferred from the server computer to this computer. You may execute the process according to the received program one by one each time.
  • ASP Application Service Provider
  • the program in this embodiment includes information used for processing by a computer and equivalent to the program (data that is not a direct command to the computer but has a property that regulates the processing of the computer, etc.).
  • the present device is configured by executing a predetermined program on a computer, but at least a part of these processing contents may be realized in terms of hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

1回あたりの順伝搬に要する計算量を削減する。音声波形生成モデル学習部(10)は、音声波形とその音声波形から計算した音響特徴量とを用いて、複数の全結合層とそれぞれに対応する重み行列とを含み、音響特徴量を音声波形に変換する音声波形生成モデルを学習する。音声波形生成モデル軽量化部(20)は、音声波形生成モデルに含まれる重み行列をテンソルにまとめた重みテンソルを低ランク近似した重みパラメータを用いる軽量化音声波形生成モデルを生成する。音声波形生成部(30)は、入力された音響特徴量を軽量化音声波形生成モデルへ入力して音声波形を得る。

Description

音声波形生成モデル学習装置、音声合成装置、それらの方法、およびプログラム
 この発明は、音声合成技術に関し、特に、音響特徴量から音声波形を生成する技術に関する。
 任意のテキストから統計的手法により音声合成するためには、主に二つのモジュールが必要である。一つ目は、スペクトルや声の高さといった音響特徴量を生成するモジュールである。このモジュールは、主に隠れマルコフモデルやディープニューラルネットワーク(DNN: Deep Neural Network)により構成される。DNN音声合成の登場当初は、テキスト解析結果を変換したフレーム単位の言語特徴量をDNNの入力とし、音響特徴量を予測する方式が主流であった(例えば、非特許文献1)。特に近年では、テキスト解析を介さずに生のテキストもしくは生に近いテキスト情報から直接音響特徴量を予測する手法が提案されている(例えば、非特許文献2)。
 二つ目は、音響特徴量から音声波形を生成するモジュールである。これまで、このモジュールは、MLSAフィルタやSTRAIGHTといった信号処理ベースの手法により構成することが主流であった(例えば、非特許文献3,4)。近年は、このモジュールをニューラルネットワークに置き換える手法が提案されており、信号処理ベースの手法により合成した音声よりも自然性の高い音声を合成できることが示されている(非特許文献5参照)。しかしながら、一般的にニューラルネットワークに基づく手法(以下、「ニューラル波形生成」とも呼ぶ)は信号処理ベースの手法よりも計算量が多い。また非特許文献5で開示された手法は、前の時刻の波形サンプルに依存して次の時刻の波形サンプルを予測する、自己回帰(AR: Auto Regressive)モデルを使用していたため、並列化が困難であった。そのため、ニューラル波形生成でリアルタイム動作を目指すのであれば、波形の並列生成もしくは軽量なモデル構造を検討しなければならない。波形の並列生成の検討例としては、知識蒸留(Knowledge Distillation)と画像処理装置(GPU: Graphics Processing Unit)を活用した非ARモデルによる順伝搬処理の並列化が挙げられる(例えば、非特許文献6)。軽量なモデル構造の検討例としては、中央演算処理装置(CPU: Central Processing Unit)でもニューラル波形生成を実現できる、従来の音声波形の知見を活用した軽量なモデル構造が挙げられる(例えば、非特許文献7)。
 非特許文献7のモデル構造は、音響特徴量から中間表現にするエンコーダーと、中間表現から音声波形に変換するデコーダーの二つのネットワークから構成される。特に、デコーダーには再帰型ニューラルネットワーク(RNN: Recurrent Neural Network)が用いられ、その出力層に2混合の全結合層が用いられている。
H. Zen, A. Senior, and M. Schuster, "Statistical parametric speech synthesis using deep neural networks," in Proc. ICASSP, pp. 7962-7966, 2013. Y. Wang, R. Skerry-Ryan, D. Stanton, Y. Wu, R. J. Weiss, N. Jaitly, Z. Yang, Y. Xiao, Z. Chen, S. Bengio, Q. Le, Y. Agiomyrgiannakis, R. Clark, and R. A. Saurous, "Tacotron: Towards end-to-end speech synthesis," in Proc. Interspeech, pp. 4006-4010, Aug. 2017. 今井聖, 住田一男, 古市千枝子, "音声合成のためのメル対数スペクトル近似(MLSA)フィルタ", 電子情報通信学会論文誌A, Vol. J66-A, No. 2, pp. 122-129, 1983. H. Kawahara, I. Masuda-Katsuse, and A. de Cheveigne, "Restructuring speech representations using a pitch-adaptive time frequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds," Speech Communication, vol. 27, no. 3-4, pp. 187-207, 1999. Aaron van den Oord, Sander Dieleman, Heiga Zen, et al, "WaveNet: A Generative Model for Raw Audio," arXiv:1609.03499, Sep 2016. Aaron van den Oord, Yazhe Li, Igor Babuschkin, et al, "Parallel WaveNet: Fast High-Fidelity Speech Synthesis," arXiv:1711.10433, Nov 2017. J. Valin and J. Skoglund, "LPCNET: Improving Neural Speech Synthesis through Linear Prediction," ICASSP 2019, pp. 5891-5895, 2019.
 非特許文献7に記載されたニューラル波形生成では、RNNを使用しているため、音声を1サンプル生成するたびにニューラルネットワークを順伝搬する必要がある。非特許文献7はCPUでのリアルタイム動作を主張し、サンプリング周波数16kHzの波形生成でリアルタイム動作を達成している。しかしながら、高品質化のためにサンプリング周波数を上げた場合、24kHzでは1.5倍、48kHzでは3倍の回数の順伝搬が必要となるため、リアルタイム動作が困難となっていく。
 この発明の目的は、上記のような技術的課題に鑑みて、ニューラル波形生成において、1回あたりの順伝搬に要する計算量を削減することである。
 上記の課題を解決するために、この発明の第一の態様の音声波形生成モデル学習装置は、音声波形と当該音声波形から計算した音響特徴量とを用いて、複数の全結合層とそれぞれに対応する重み行列とを含み、音響特徴量を音声波形に変換する音声波形生成モデルを学習するモデル学習部と、音声波形生成モデルに含まれる重み行列をテンソルにまとめた重みテンソルを低ランク近似した重みパラメータを用いる軽量化音声波形生成モデルを生成するモデル軽量化部と、を含む。
 この発明の第二の態様の音声合成装置は、複数の全結合層それぞれに対応する重み行列をテンソルにまとめた重みテンソルを低ランク近似した重みパラメータを用い、音響特徴量を音声波形に変換する音声波形生成モデルを記憶するモデル記憶部と、入力された音響特徴量を音声波形生成モデルへ入力して音声波形を得る音声波形生成部と、を含む。
 この発明によれば、ニューラル波形生成において、1回あたりの順伝搬に要する計算量を削減することができる。
図1は第一実施形態の音声合成装置の機能構成を例示する図である。 図2は第一実施形態の音声合成方法の処理手順を例示する図である。 図3は第二実施形態の音声合成装置の機能構成を例示する図である。 図4は第二実施形態の音声合成方法の処理手順を例示する図である。 図5はコンピュータの機能構成を例示する図である。
 以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
 文中で使用する記号「」は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。数式中においてはこれらの記号は本来の位置、すなわち文字の真上に記載している。例えば、文中の「X」は、数式中では以下となる。
Figure JPOXMLDOC01-appb-M000001
 [第一実施形態]
 この発明の第一実施形態は、学習データとなる音声波形から音声波形生成モデルを生成し、その音声波形生成モデルを用いて音響特徴量から音声波形を生成する音声合成装置および方法である。図1に示すように、第一実施形態の音声合成装置1は、例えば、音声波形生成モデル学習部10、音声波形生成モデル軽量化部20、音声波形生成部30、学習データ記憶部100、およびモデル記憶部110を備える。音声波形生成モデル学習部10は、例えば、音響特徴量計算部11およびモデル学習部12を備える。音声波形生成モデル軽量化部20は、例えば、テンソル化部21およびテンソル分解部22を備える。この音声合成装置1が、図2に示す各ステップを実行することにより、第一実施形態の音声合成方法が実現される。
 音声合成装置1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声合成装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声合成装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音声合成装置1の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。音声合成装置1が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
 以下、図2を参照して、第一実施形態の音声合成装置1が実行する音声合成方法について説明する。
 学習データ記憶部100には、音声波形生成モデルの学習に用いるための十分な量の学習データが記憶されている。各学習データは、予め収集した音声信号から生成した音声波形である。
 ステップS11において、音声波形生成モデル学習部10の音響特徴量計算部11は、学習データ記憶部100に記憶された音声波形から音響特徴量を計算する。ここで、音響特徴量として、例えば、メルケプストラムなどのスペクトル情報、または基本周波数などの韻律情報が用いられる。これらの代わりにフーリエ変換により得た生のスペクトルを人間の聴覚に合わせて変換したメルスペクトログラムを用いてもよい。音響特徴量計算部11は、計算した音響特徴量をモデル学習部12へ出力する。
 ステップS12において、音声波形生成モデル学習部10のモデル学習部12は、学習データ記憶部100に記憶された音声波形と、音響特徴量計算部11から入力された音響特徴量とを用いて、音声波形生成モデルを学習する。この音声波形生成モデルは、非特許文献7に記載されたモデルと同様であり、デコーダーに用いられる2混合の全結合層が、2個の全結合層とその重みパラメータからなるデュアルフルコネクト(以下、「DualFC(=full connect)」とも呼ぶ)で構成される。音声波形生成モデルは、音響特徴量から音声波形を予測し、予測された音声波形と実際の音声波形との誤差が小さくなるように学習される。電話音声等の狭帯域音声でない限り、音声波形は通常16ビットで量子化されている。しかしながら、音声波形の各サンプルを直接予測するのは216個のクラス分類問題を解くことと等しく、学習や予測が困難である。このため、μ-lawアルゴリズムにより事前に音声を8ビットに落として28個のクラス分類問題に置換することで、波形生成を実現できることが報告されている。モデル学習部12は、学習した音声波形生成モデルをモデル記憶部110へ記憶する。
 ステップS21において、音声波形生成モデル軽量化部20のテンソル化部21は、モデル記憶部110に記憶された音声波形生成モデルに含まれるDualFCをテンソル化する。すなわち、DualFCのパラメータをテンソルとしてまとめて扱えるように変換する。なお、音声波形生成モデルに含まれるRNN部分は従来と同様であるため、そのままコピーすればよい。テンソル化部21は、テンソル化した音声波形生成モデルをテンソル分解部22へ出力する。
 DualFCのテンソル化についてより詳しく説明する。従来のDualFCは、次式によって入力ベクトルx∈RDを出力ベクトルy∈RNに変換する。
Figure JPOXMLDOC01-appb-M000002
 ここで、W1∈RN×D, W2∈RN×Dはそれぞれ重み行列であり、b1∈RN, b2∈RNはそれぞれバイアスベクトルである。また、a1∈RN, a2∈RNは2個の全結合層の重みベクトルである。
 テンソル化部21は、重み行列W1, W2をテンソルとしてまとめ、重みベクトルa1, a2およびバイアスベクトルb1, b2をそれぞれ行列としてまとめることで、DualFCを次式に変換する。
Figure JPOXMLDOC01-appb-M000003
 ここで、A=[a1, a2], W=[W1, W2], B=[b1, b2]である。以下、Wを「重みテンソル」と呼ぶ。
 ステップS22において、音声波形生成モデル軽量化部20のテンソル分解部22は、テンソル化部21でテンソル化された音声波形生成モデルに含まれるDualFCの重みテンソルWを低ランク近似(low-rank approximation)することで、計算量が削減された軽量化音声波形生成モデルを生成する。テンソル分解部22は、生成した軽量化音声波形生成モデルをモデル記憶部110へ記憶する。
 以下、重みテンソルの低ランク近似についてより詳しく説明する。ここでは、低ランク近似として、高次特異度分解(HOSVD: higher-order singular value decomposition)を用いる。重みテンソルW∈RN×D×2は3階テンソルであるため、特異値分解で扱えるように重みテンソルWをモード1展開およびモード2展開して、行列W(1)∈RN×2D, W(2)∈RD×2Nを得る。次に、これらの行列W(1), W(2)それぞれに対して、次式のように特異値分解を適用する。
Figure JPOXMLDOC01-appb-M000004
 こうして得られたU(1)∈RN×N, U(2)∈RD×Dに対し、降順に並び替えられた対角の特異値行列Σ(1), Σ(2)に対応する上位N', D'列を抽出した行列をU(1)∈RN'×NU(2)∈RD'×Dとすると、低ランク近似後の軽量化重みテンソルWは次式で表すことができる。
Figure JPOXMLDOC01-appb-M000005
 ここで×1、×2はそれぞれモード1積、モード2積である。・Tは行列の転置を表す。Sは次式である。
Figure JPOXMLDOC01-appb-M000006
 このように軽量化重みテンソルWを構成することで、2ND個のパラメータであった重みテンソルWを、2N'D'+ND'+N'D個のパラメータに削減することができる。例えば非特許文献7のように、N=256, D=16とするならば、従来のDualFCのパラメータ数はバイアスと重みベクトルを含めて9,216であるが、N'=4, D'=4として低ランク近似したDualFCのパラメータ数は2,144となり、パラメータ数を約8割削減できる。パラメータの行列やテンソルのサイズが小さいほど演算量が減るため、メモリ使用量の削減だけでなく順伝搬の高速化にもつながる。
もちろん重み行列W(1), W(2)のそれぞれに特異値分解を適用して低ランク近似することも可能である。しかしテンソル化してから高次特異度分解を用いることで、それぞれを特異値分解する場合と同じパラメータ数削減率でありながら、これらの重み行列同士の関係を考慮しながらの低ランク近似が可能である。
 ステップS30において、音声波形生成部30は、音声波形生成モデル軽量化部20により生成された軽量化音声波形生成モデルに、音声合成装置1へ入力された音響特徴量を入力し、音声波形を予測する。音声波形生成部30は、軽量化音声波形生成モデルを順伝搬し、DualFCの出力値からサンプリングにより得た8ビットの値をμ-lawアルゴリズムにより逆変換することで16ビットの音声波形に変換する。音声波形生成部30は、予測された音声波形を音声合成装置1の出力とする。
 上記のように、第一実施形態の音声合成装置によれば、音声波形生成モデルのパラメータ数を削減することができる。音声波形生成モデルのデコーダーの構成要素であるDualFCは、2個の全結合層とその重みパラメータから構成されるが、これらをまとめてテンソルとして扱うようにネットワークを再構成することで、テンソル分解に基づく低ランク近似を可能とした。このようにパラメータを削減することにより、メモリ使用量および順伝搬に要する計算量を削減することができる。結果として、ニューラル波形生成を搭載できるデバイスの範囲を広げることや、高サンプリング周波数でのリアルタイム動作を実現することにも繋がる。
 [変形例]
 第一実施形態では、学習データから軽量化音声波形生成モデルを生成し、その軽量化音声波形生成モデルを用いて音声波形を生成する1台の音声合成装置の例を示した。しかしながら、この音声合成装置は備えるべき機能が異なる複数台の装置に分割して構成してもよい。例えば、学習データから軽量化音声波形生成モデルを学習する機能を持つ音声波形生成モデル学習装置と、学習済みの軽量化音声波形生成モデルを用いて音声波形を生成する機能を持つ音声合成装置とに分割することができる。この場合、変形例の音声波形生成モデル学習装置は、第一実施形態の音声波形生成モデル学習部10、音声波形生成モデル軽量化部20、学習データ記憶部100、およびモデル記憶部110のみを備えればよい。また、変形例の音声合成装置は、第一実施形態の音声波形生成部30およびモデル記憶部110のみを備え、モデル記憶部110には学習済みの軽量化音声波形生成モデルを予め記憶しておけばよい。
 [第二実施形態]
 第一実施形態による軽量化音声波形生成モデルは、高次特異値分解による特異値の大小のみを考慮しており、実際に音声波形を生成することに適した重み係数になっているとは限らない。第二実施形態では、この問題を解決するために、第一実施形態による軽量化音声波形生成モデルを初期値として再度学習を行うことで、パラメータ削減効果を得つつ音声波形の精度を向上する。
 図3に示すように、第二実施形態の音声合成装置2は、音声波形生成モデル学習部10、音声波形生成モデル軽量化部20、音声波形生成部30、学習データ記憶部100、およびモデル記憶部110に加えて、例えば、音声波形生成モデル再学習部40を備える。この音声合成装置2が、図4に示す各ステップを実行することにより、第二実施形態の音声合成方法が実現される。
 以下、図4を参照して、第二実施形態の音声合成装置2が実行する音声合成方法について、第一実施形態との相違点を中心に説明する。
 ステップS40において、音声波形生成モデル再学習部40は、音声波形生成モデル軽量化部20により生成された軽量化音声波形生成モデルを初期値として、学習データ記憶部100に記憶された学習データの音声波形と、音響特徴量計算部11により得た音響特徴量とを用いて、モデル学習部12と同様にして音声波形生成モデルを再学習する。音声波形生成モデル再学習部40は、再学習した軽量化音声波形生成モデルをモデル記憶部110へ記憶する。
 ステップS30において、音声波形生成部30は、音声波形生成モデル再学習部40により再学習された軽量化音声波形生成モデルに、音声合成装置2へ入力された音響特徴量を入力し、音声波形を予測する。音声波形生成部30は、予測された音声波形を音声合成装置2の出力とする。
 以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
 [プログラム、記録媒体]
 上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図5に示すコンピュータの記憶部1020に読み込ませ、演算処理部1010、入力部1030、出力部1040などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、磁気記録装置、光ディスク等である。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部1050に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部1050に格納されたプログラムを一時的な記憶装置である記憶部1020に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1.  音声波形と当該音声波形から計算した音響特徴量とを用いて、複数の全結合層とそれぞれに対応する重み行列とを含み、音響特徴量を音声波形に変換する音声波形生成モデルを学習するモデル学習部と、
     前記音声波形生成モデルに含まれる重み行列をテンソルにまとめた重みテンソルを低ランク近似した重みパラメータを用いる軽量化音声波形生成モデルを生成するモデル軽量化部と、
     を含む音声波形生成モデル学習装置。
  2.  請求項1に記載の音声波形生成モデル学習装置であって、
     前記低ランク近似は、高次特異値分解である、
     音声波形生成モデル学習装置。
  3.  請求項2に記載の音声波形生成モデル学習装置であって、
     W1は第一の全結合層に対応する重み行列であり、W2は第二の全結合層に対応する重み行列であり、Wは前記重みテンソルであり、W(1)はWをモード1展開した行列であり、W(2)はWをモード2展開した行列であり、U(1)はW(1)に対して特異値分解して得られた行列であり、U(2)はW(2)に対して特異値分解して得られた行列であり、U(1)はU(1)の所定の列を抽出した行列であり、U(2)はU(2)の所定の列を抽出した行列であり、×1はモード1積であり、×2はモード2積であり、S=W×1 U(1) T×2 U(2) Tであり、
     前記重みパラメータはW≒S×1 U(1)×2 U(2)で表される、
     音声波形生成モデル学習装置。
  4.  請求項1から3のいずれかに記載の音声波形生成モデル学習装置であって、
     前記モデル軽量化部が生成した軽量化音声波形生成モデルを初期値として、前記音声波形と前記音響特徴量とを用いて前記軽量化音声波形生成モデルを学習するモデル再学習部をさらに含む、
     音声波形生成モデル学習装置。
  5.  複数の全結合層それぞれに対応する重み行列をテンソルにまとめた重みテンソルを低ランク近似した重みパラメータを用い、音響特徴量を音声波形に変換する音声波形生成モデルを記憶するモデル記憶部と、
     入力された音響特徴量を前記音声波形生成モデルへ入力して音声波形を得る音声波形生成部と、
     を含む音声合成装置。
  6.  モデル学習部が、音声波形と当該音声波形から計算した音響特徴量とを用いて、複数の全結合層とそれぞれに対応する重み行列とを含み、音響特徴量を音声波形に変換する音声波形生成モデルを学習し、
     モデル軽量化部が、前記音声波形生成モデルに含まれる重み行列をテンソルにまとめた重みテンソルを低ランク近似した重みパラメータを用いる軽量化音声波形生成モデルを生成する、
     音声波形生成モデル学習方法。
  7.  モデル記憶部に、複数の全結合層それぞれに対応する重み行列をテンソルにまとめた重みテンソルを低ランク近似した重みパラメータを用い、音響特徴量を音声波形に変換する音声波形生成モデルが記憶されており、
     音声波形生成部が、入力された音響特徴量を前記音声波形生成モデルへ入力して音声波形を得る、
     音声合成方法。
  8.  請求項1から4のいずれかに記載の音声波形生成モデル学習装置もしくは請求項5に記載の音声合成装置としてコンピュータを機能させるためのプログラム。
PCT/JP2020/020378 2020-05-22 2020-05-22 音声波形生成モデル学習装置、音声合成装置、それらの方法、およびプログラム WO2021234967A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/020378 WO2021234967A1 (ja) 2020-05-22 2020-05-22 音声波形生成モデル学習装置、音声合成装置、それらの方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/020378 WO2021234967A1 (ja) 2020-05-22 2020-05-22 音声波形生成モデル学習装置、音声合成装置、それらの方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2021234967A1 true WO2021234967A1 (ja) 2021-11-25

Family

ID=78708319

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/020378 WO2021234967A1 (ja) 2020-05-22 2020-05-22 音声波形生成モデル学習装置、音声合成装置、それらの方法、およびプログラム

Country Status (1)

Country Link
WO (1) WO2021234967A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023157207A1 (ja) * 2022-02-18 2023-08-24 日本電信電話株式会社 信号解析システム、信号解析方法及びプログラム
CN117649839A (zh) * 2024-01-29 2024-03-05 合肥工业大学 一种基于低秩适应的个性化语音合成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018506785A (ja) * 2015-01-22 2018-03-08 クゥアルコム・インコーポレイテッドQualcomm Incorporated モデル圧縮および微調整
JP2019509539A (ja) * 2016-02-03 2019-04-04 グーグル エルエルシー リカレントニューラルネットワークモデルの圧縮
CN110070583A (zh) * 2019-04-17 2019-07-30 清华大学 基于张量分解和深度学习的信号压缩与恢复方法及系统
CN110263913A (zh) * 2019-05-23 2019-09-20 深圳先进技术研究院 一种深度神经网络压缩方法及相关设备
CN110533157A (zh) * 2018-05-23 2019-12-03 华南理工大学 一种基于svd和剪枝用于深度循环神经网络的压缩方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018506785A (ja) * 2015-01-22 2018-03-08 クゥアルコム・インコーポレイテッドQualcomm Incorporated モデル圧縮および微調整
JP2019509539A (ja) * 2016-02-03 2019-04-04 グーグル エルエルシー リカレントニューラルネットワークモデルの圧縮
CN110533157A (zh) * 2018-05-23 2019-12-03 华南理工大学 一种基于svd和剪枝用于深度循环神经网络的压缩方法
CN110070583A (zh) * 2019-04-17 2019-07-30 清华大学 基于张量分解和深度学习的信号压缩与恢复方法及系统
CN110263913A (zh) * 2019-05-23 2019-09-20 深圳先进技术研究院 一种深度神经网络压缩方法及相关设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
EMILY DENTON, ZAREMBA WOJCIECH, BRUNA JOAN, LECUN YANN, FERGUS ROB: "Exploiting Linear Structure Within Convolutional Networks for Efficient Evaluation", ARXIV:1404.0736V2, 9 June 2014 (2014-06-09), XP055340014, Retrieved from the Internet <URL:https://arxiv.org/abs/1404.0736v2> [retrieved on 20170127] *
JEAN-MARC VALIN , JAN SKOGLUND: "LPCNET: Improving Neural Speech Synthesis through Linear Prediction", ICASSP 2019 - 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 17 May 2019 (2019-05-17), pages 5891 - 5895, XP033565338, DOI: 10.1109/ICASSP.2019.8682804 *
YUKI MATSUI, SHINOBU MIWA, SATOSHI SHINDO, TOMOAKI TSUMURA, HAYATO YAMAKI, HIROKI HONDA: "A Study of Kernel Clustering for Reducing Memory Footprint of CNN", IPSJ SIG TECHNICAL REPORT, vol. 117, no. 479 (CPSY2017-140), 28 February 2018 (2018-02-28), JP , pages 185 - 190, XP009522487 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023157207A1 (ja) * 2022-02-18 2023-08-24 日本電信電話株式会社 信号解析システム、信号解析方法及びプログラム
CN117649839A (zh) * 2024-01-29 2024-03-05 合肥工业大学 一种基于低秩适应的个性化语音合成方法
CN117649839B (zh) * 2024-01-29 2024-04-19 合肥工业大学 一种基于低秩适应的个性化语音合成方法

Similar Documents

Publication Publication Date Title
Pham et al. Very deep self-attention networks for end-to-end speech recognition
Oord et al. Parallel wavenet: Fast high-fidelity speech synthesis
Kalchbrenner et al. Efficient neural audio synthesis
Hayashi et al. Pre-Trained Text Embeddings for Enhanced Text-to-Speech Synthesis.
CN108960407B (zh) 递归神经网路语言模型训练方法、装置、设备及介质
CN111968618B (zh) 语音合成方法、装置
Yi et al. Singing voice synthesis using deep autoregressive neural networks for acoustic modeling
CN109147774B (zh) 一种改进的延时神经网络声学模型
WO2021234967A1 (ja) 音声波形生成モデル学習装置、音声合成装置、それらの方法、およびプログラム
CN113539231B (zh) 音频处理方法、声码器、装置、设备及存储介质
Sunny et al. Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms
Yoneyama et al. Unified source-filter GAN: Unified source-filter network based on factorization of quasi-periodic parallel WaveGAN
Webber et al. Autovocoder: Fast waveform generation from a learned speech representation using differentiable digital signal processing
JP2023545820A (ja) フィルタバンク領域でオーディオサンプルを処理するための生成ニューラルネットワークモデル
Sharma et al. Fast Griffin Lim based waveform generation strategy for text-to-speech synthesis
Ku et al. A multi-dimensional deep structured state space approach to speech enhancement using small-footprint models
Zhao et al. Lhasa-Tibetan speech synthesis using end-to-end model
CN115206284B (zh) 一种模型训练方法、装置、服务器和介质
Chakhtouna et al. Improving speaker-dependency/independency of wavelet-based speech emotion recognition
CN115376484A (zh) 基于多帧预测的轻量级端到端语音合成系统构建方法
JP7103390B2 (ja) 音響信号生成方法、音響信号生成装置およびプログラム
Yu et al. An End-to-End Speech Separation Method Based on Features of Two Domains
Bhat et al. Transfer Learning Based Automatic Model Creation Tool For Resource Constraint Devices
Xiao et al. Speeding up deep neural network based speech recognition systems.
Byun et al. Excitation-by-SampleRNN Model for Text-to-Speech

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20936189

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20936189

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP