JPWO2018159612A1 - 声質変換装置、声質変換方法およびプログラム - Google Patents
声質変換装置、声質変換方法およびプログラム Download PDFInfo
- Publication number
- JPWO2018159612A1 JPWO2018159612A1 JP2019503021A JP2019503021A JPWO2018159612A1 JP WO2018159612 A1 JPWO2018159612 A1 JP WO2018159612A1 JP 2019503021 A JP2019503021 A JP 2019503021A JP 2019503021 A JP2019503021 A JP 2019503021A JP WO2018159612 A1 JPWO2018159612 A1 JP WO2018159612A1
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- information
- voice
- parameter
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 158
- 238000000034 method Methods 0.000 title claims description 54
- 238000012545 processing Methods 0.000 claims abstract description 60
- 230000006978 adaptation Effects 0.000 claims abstract description 37
- 230000003044 adaptive effect Effects 0.000 claims description 87
- 230000008569 process Effects 0.000 claims description 31
- 230000001419 dependent effect Effects 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000005236 sound signal Effects 0.000 description 58
- 230000006870 function Effects 0.000 description 19
- 238000007781 pre-processing Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 10
- 238000012805 post-processing Methods 0.000 description 7
- 238000010606 normalization Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 235000001630 Pyrus pyrifolia var culta Nutrition 0.000 description 1
- 240000002609 Pyrus pyrifolia var. culta Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
パラレル声質変換としては、GMM(Gaussian Mixture Model)に基づく手法、NMF(Non-negative Matrix Factrization)に基づく手法、DNN(Deep Neural Network)に基づく手法など、様々な統計的アプローチが提案されている(特許文献1参照)。パラレル声質変換では、パラレル制約のおかげで比較的高い精度が得られる反面、学習データとしては入力話者と出力話者の発話内容を一致させる必要があるため、利便性が損なわれてしまうという問題があった。
パラメータ学習ユニットは、学習用の音声に基づく音声情報およびその音声情報に対応する話者情報から、声質変換のためのパラメータを決定する。
パラメータ記憶ユニットは、パラメータ学習ユニットが決定したパラメータを記憶する。
声質変換処理ユニットは、パラメータ記憶ユニットが記憶したパラメータと目標話者の話者情報とに基づいて、入力話者の音声に基づく音声情報の声質変換処理を行う。
ここで、パラメータ学習ユニットは、音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、音声情報、話者情報および音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを取得し、確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義するようにした。
パラメータ学習ステップは、音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、音声情報、話者情報および音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意する。そして、その確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義し、それぞれの話者について、複数個の話者クラスタへの重みを推定して、学習用の音声についてのパラメータを決定する。
声質変換処理ステップは、パラメータ学習ステップで得られたパラメータ、又は当該パラメータを入力話者の音声に適応した適応後のパラメータと、目標話者の話者情報とに基づいて、入力話者の音声に基づく音声情報の声質変換処理を行う。
図1は、本発明の一実施形態例にかかる声質変換装置の構成例(例1)を示す図である。図1においてPC等により構成される声質変換装置1は、事前に、学習用音声信号と学習用音声信号に対応する話者の情報(対応話者情報)に基づいて学習を行っておくことで、任意の話者による変換用音声信号(適応話者音声信号)を、目標話者の声質に変換し、変換済み音声信号として出力する。
学習用音声信号は、予め記録された音声データに基づく音声信号でもよく、また、マイクロフォン等により話者が話す音声(音波)を直接電気信号に変換したものでもよい。また、対応話者情報は、ある学習用音声信号と他の学習用音声信号とが同じ話者による音声信号か異なる話者による音声信号かを区別できるものであればよい。
前処理部112は、音声信号取得部111で取得された学習用音声信号を単位時間ごと(以下、フレームという)に切り出し、MFCC(Mel-Frequency Cepstrum Coefficients:メル周波数ケプストラム係数)やメルケプストラム特徴量などのフレームごとの音声信号のスペクトル特徴量を計算した後、正規化を行うことで学習用音声情報を生成する。
音声信号取得部121および前処理部122は、上述したパラメータ学習ユニット11の音声信号取得部111および前処理部112の構成と同じであり、別途設置することなくこれらを兼用してもよい。
なお、図1では声質変換部124を設ける構成を示したが、声質変換部124を別途設置することなく、パラメータ推定部114の各種パラメータを固定することで、パラメータ推定部114が声質変換の処理を実行する構成としてもよい。
音声信号出力部126は、接続される外部機器に対して変換済み音声信号を出力する。接続される外部機器としては、例えば、スピーカなどが挙げられる。
図2に示す声質変換装置1は、適応話者音声信号によりパラメータの適応処理を行う適応ユニット14を備える点が、図1に示す声質変換装置1と異なる。すなわち、図1に示す声質変換装置1では、パラメータ学習ユニット11が、学習処理と適応処理の双方を行うようにしたのに対して、図2に示す声質変換装置1では、適応ユニット14が適応処理を行うようにした点が異なる。
パラメータ推定部144は、音声情報推定部1441と話者情報推定部1442と音韻情報推定部1443と話者クラスタ計算部1444を有し、音声情報、話者情報、音韻情報、および話者クラスタの情報を持つ。
図2に示す声質変換装置1のその他の部分については、図1に示す声質変換装置1と同様に構成する。
図3に示すように、声質変換装置1は、バス107を介して相互に接続されたCPU(中央制御ユニット:Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103、HDD(Hard Disk Drive)/SSD(Solid State Drive)104、接続I/F(Interface)105、通信I/F106を備える。CPU101は、RAM103をワークエリアとしてROM102またはHDD/SSD104等に格納されたプログラムを実行することで、声質変換装置1の動作を統括的に制御する。接続I/F105は、声質変換装置1に接続される機器とのインターフェースである。通信I/Fは、ネットワークを介して他の情報処理機器と通信を行うためのインターフェースである。
次に、パラメータ推定部113および符号化部123が持つ確率モデルである、話者クラスタ適応型RBMについて説明する。
まず、本発明に適用される話者クラスタ適応型RBMを説明する前に、既に提案した確率モデルである、適応型RBMについて説明する。
図4は、適応型RBMのグラフ構造を模式的に示す図である。
適応型RBMの確率モデルは、音声情報v、話者情報sおよび音韻情報hと、それぞれの情報の結合エネルギーの関係性を示すパラメータを持つ。ここでは、音響(メルケプストラム)情報の特徴量v=[v1,・・・,vI]∈RIと、音韻情報の特徴量h=[h1,・・・,hJ]∈{0,1}J,Σjhj=1との間に、話者特徴量s=[s1,・・・,sR]∈{0,1}R,Σrsr=1に依存した双方向な結合重みW∈RI×Jが存在すると仮定したとき、適応型RBMの確率モデルは、次の[数1]式〜[数3]式で示される条件付き確率密度関数で示される。
また、[数2]式の右辺の括線および「・2」は、それぞれ要素ごとの除算、要素ごとの二乗を表す。話者依存の項W(~),b(~),d(~)は、話者非依存パラメータと話者依存パラメータを用いて、下記の[数4]式〜[数6]式のように定義される。
図5は、話者クラスタ適応型RBMのグラフ構造を模式的に示す図である。
話者クラスタ適応型RBMの確率モデルは、音声情報v、話者情報sおよび音韻情報hと、それぞれの情報の結合エネルギーの関係性を示すパラメータの他に、話者クラスタc∈RKを持つ。話者クラスタcは、次の[数7]式と恒等的に表現される。
先に説明した適応型RBM(図4)では、話者ごとに適応行列を用意したが、本発明の話者クラスタ適応型RBMではクラスタごとに適応行列を用意する。また、音響特徴量、音韻特徴量のバイアスは、話者非依存項、クラスタ依存項、話者依存項の加算で表現される。すなわち、話者依存の項W(~),b(~),d(~)は、下記の[数8]式〜[数10]式のように定義される。
[数8]式で示されるA={Ak}k=1 Kと、先に説明した適応型RBMでの[数4]式におけるAを比較すると、適応型RBMでは(I2R)個のパラメータが含まれていたのに対して、話者クラスタ適応型RBMでは(I2K)個となり、大幅にパラメータ数を削減することができる。例えば、一例としては、R=58、I=32、K=8に設定した場合、先に説明した適応型RBMではパラメータ数59392個になるが、話者クラスタ適応型RBMでは8192個になり、大幅にパラメータ数を削減できる。
音韻特徴量hは既知であり、ある話者rの音響特徴量の平均ベクトルμrを考えると、[数11]式より、平均ベクトルは[数13]式に示すようになる。
また、クラスタ重みの非負条件を満たすために、λr=ezrと置き換えて、zrでパラメータ更新を行う。クラスタ重みはパラメータ更新後、||λr||1=1を満たすように正則化する。
さらに、モデルの学習が行われれば、音韻特徴量およびクラスタの形成が完了したとみなし、新たな話者r′について、Θr′={λr′,br′,dr′}のみを更新し推定し、他のパラメータは固定する。
図6は、本発明の実施形態例による声質変換処理動作を示すフローチャートである。図6に示すように、パラメータ学習処理として、声質変換装置1のパラメータ学習ユニット11の音声信号取得部111と話者情報取得部113とは、図示しない入力部によるユーザの指示に基づいて学習用音声信号とその対応話者情報とをそれぞれ取得する(ステップS1)。
前処理部112は、音声信号取得部111が取得した学習用音声信号からパラメータ推定部114に供給する学習用音声情報を生成する(ステップS2)。ここでは、例えば学習用音声信号をフレームごと(例えば、5msecごと)に切り出し、切り出された学習用音声信号にFFT処理などを施すことでスペクトル特徴量(例えば、MFCCやメルケプストラム特徴量)を算出する。そして、算出したスペクトル特徴量の正規化処理(例えば、各次元の平均と分散を用いて正規化)を行うことで学習用音声情報vを生成する。
生成された学習用音声情報vは、話者情報取得部113によって取得された対応話者情報sとともにパラメータ推定部114へ出力される。
そして、話者情報推定部1142が取得した対応話者情報sから、話者クラスタ計算部1144が話者クラスタcを計算し、その計算した話者クラスタcと、音声情報推定部1141に取得した学習用音声情報vを入力とする(ステップS13)。
そして、話者情報推定部1442が取得した適応話者情報sから、話者クラスタ計算部1444が話者クラスタcを計算し、その計算した話者クラスタcと、音声情報推定部1441に取得した適応話者音声情報vを入力とする(ステップS23)。
さらに、ステップS24でサンプルされた音韻情報hと話者クラスタcとを用いて音声情報vの条件付き確率密度関数を決定し、その確率密度関数に基づいて適応話者音声情報vをサンプルする(ステップS25)。
声質変換処理として、ユーザは、図示しない入力部を操作して声質変換ユニット12の話者情報設定部123において声質変換の目標となる目標話者の情報s(o)を設定する(ステップS5)。そして、音声信号取得部121により変換用音声信号を取得する(ステップS6)。
前処理部122は、パラメータ学習処理の場合と同じく変換用音声信号に基づいて音声情報を生成し、話者情報取得部123によって取得された対応話者情報sとともに声質変換部124へ出力される(ステップS7)。
声質変換部124は、話者クラスタ適応型RBMを適用して、適応話者の音声を目標話者の音声に変換する声質変換を行う(ステップS8)。
そして、ステップS32で計算された話者クラスタcと音声情報vとを用いて、音韻情報hを推定する(ステップS33)。
後処理部125により生成された変換済み音声信号は、音声信号出力部126より外部へ出力される(ステップS10)。変換済み音声信号を外部に接続されたスピーカで再生することにより、目標話者の音声に変換された入力音声を聞くことができる。
次に、本発明による話者クラスタ適応型RBMの効果を実証するため、声質変換実験を行った例について説明する。
確率モデルの学習には日本音響学会研究用連続音声データベース(ASJ-JIPDEC)の中からランダムにR=8;16;58名の話者を選び、40センテンスの音声データを用いた。学習話者の評価には、男性1名(ECL0001)を入力話者、女性1名(ECL1003)を目標話者とし、学習データとは別の10センテンスの音声データを用いた。確率モデルの適応には、学習時に含まれない女性話者(ECL1004)、男性話者(ECL0002)をそれぞれ入力話者、目標話者とし、適応データのセンテンス数を0.2から40まで変えて評価を行った。適応話者の評価についても適応データに含まれない10センテンスの音声データを用いた。分析合成ツール(WORLD:URL http://ml.cs.yamanashi.ac.jp/world/index.html)によって得られたスペクトルから計算した32次元のメルケプストラムを入力特徴量に用いた(I=32)。また、潜在音韻特徴量の数をJ=8;16;24、クラスタの数をK=2;3;4;6;8とし、最も高い精度となるものを採用した。学習率0:01、モーメント係数0:9、バッチサイズ100×R、繰り返し回数100の確率的勾配法を用いて確率モデルを学習した。
声質変換の精度を測る指標として、以下の[数18]式で定義されるMDIR(mel-cepstral distortion improvement ratio)の平均値を用いた。
まず、K=2;R=8およびK=3;R=16としたとき、推定された各話者のクラスタ重みλrの分布を図10Aおよび図10Bに示す。図10Aの例は、K=2であり、男性のクラスタ(Cluster 1)と女性のクラスタ(Cluster 2)との2つのクラスタが自動的に形成されている。図10Bの例は、K=3であり、男性のクラスタ(Cluster 1)と女性のクラスタ(Cluster 2)の他に、さらに男女が混ざった別のクラスタ(Cluster 3)が自動的に形成されている。この図10Aおよび図10Bにおいて、各学習者の話者クラスタの位置R11〜R18およびR21〜R30を示し、○印で示す音声は男性の音声であり、×印で示す音声は女性の音声である。
[表2]は、本発明による話者クラスタ適応型RBMによる確率モデルと、従来の適応型RBM(ARBM)による確率モデルとの、センテンス数による変換精度を比較した例である。
なお、ここまで説明した実施形態例では、目標話者の音声情報vと音韻情報nとを得る処理として、図5の話者クラスタ適応型RBMのグラフ構造に示すように、話者クラスタcが持つパラメータA,V,Uから、演算で目標話者の音声情報vと音韻情報nを得るようにした。
これに対して、図11に示すように、話者クラスタcが持つパラメータA,V,Uから、目標話者の話者情報sを得、得られた話者情報sを使って、話者に依存したパラメータD,A,Bを得た後、これらのパラメータD,A,Bから、目標話者の音声情報vと音韻情報nを得るようにしてもよい。話者に依存したパラメータD,A,Bから、目標話者の音声情報vと音韻情報nを得る処理については、例えば図4の適応型RBMのグラフ構造で説明した処理が適用可能である。
この図11に示すように、話者クラスタcを使って目標話者の話者情報sを得た後、目標話者の音声情報vと音韻情報nを得るようにすることでも、図5の例と同様に、適切な目標話者の音声情報vと音韻情報nを得ることができる。この図11に示す処理を行う場合には、目標話者の音声情報vと音韻情報nが、目標話者の話者情報sから得られるため、それぞれの情報の精度が向上する効果を有する。但し、データ量については、図5の例よりも増加する。
この場合には、声質変換装置1は、例えば図1に示す構成として、パラメータ学習ユニット11での学習で得られたパラメータをパラメータ記憶ユニット13が記憶し、声質変換処理ユニット12は、パラメータ記憶ユニット13が記憶したパラメータを適用して、入力音声を目標話者の音声に変換処理すればよい。
声質変換が可能な声質変換装置、声質変換方法およびプログラムを提供することを目的とする。
課題を解決するための手段
[0009]
上記課題を解決するため、本発明の声質変換装置は、入力話者の音声を目標話者の音声に声質変換する声質変換装置であって、パラメータ学習ユニットとパラメータ記憶ユニットと声質変換処理ユニットとを備える。
パラメータ学習ユニットは、学習用の音声に基づく音声情報およびその音声情報に対応する話者情報から、声質変換のためのパラメータを決定する。
パラメータ記憶ユニットは、パラメータ学習ユニットが決定したパラメータを記憶する。
声質変換処理ユニットは、パラメータ記憶ユニットが記憶したパラメータと目標話者の話者情報とに基づいて、入力話者の音声に基づく音声情報の声質変換処理を行う。
ここで、パラメータ学習ユニットは、音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のぞれぞれを変数とすることで、音声情報、話者情報および音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを取得し、確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義するようにし、声質変換処理ユニットは、パラメータから目標話者の話者情報を得、得られた話者情報から目標話者の音声情報を得るようにした。
[0010]
また、本発明の声質変換方法は、入力話者の音声を目標話者の音声に声質変換する方法であって、パラメータ学習ステップと声質変換処理ステップとを含む。
パラメータ学習ステップは、音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、音声情報、話者情報および音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意する。そして、その確率モデ
ルとして、固有の適応行列を持つ複数個の話者クラスタを定義し、それぞれの話者について、複数個の話者クラスタへの重みを推定して、学習用の音声についてのパラメータを決定する。
声質変換処理ステップは、パラメータ学習ステップで得られたパラメータ、又は当該パラメータを入力話者の音声に適応した適応後のパラメータと、目標話者の話者情報とに基づいて、入力話者の音声に基づく音声情報の声質変換処理を行う。声質変換処理ステップでの声質変換処理では、パラメータから目標話者の話者情報を得、得られた話者情報から目標話者の音声情報を得るようにした。
[0011]
また本発明のプログラムは、上述した声質変換方法のパラメータ学習ステップと声質変換処理ステップとをコンピュータに実行させるものである。
[0012]
本発明によれば、話者クラスタにより目標話者を設定することができるため、従来よりも非常に少ないデータ数で、入力話者音声を目標話者音声に声質変換できるようになる。
図面の簡単な説明
[0013]
[図1]本発明の一実施の形態例に係る声質変換装置の構成例(例1)を示すブロック図である。
[図2]本発明の一実施の形態例に係る声質変換装置の構成例(例2)を示すブロック図である。
[図3]声質変換装置のハードウェア構成例を示すブロック図である。
[図4]従来の確率モデルを模式的に示す説明図である。
[図5]声質変換装置のパラメータ推定部が備える確率モデルを模式的に示す説明図である。
[図6]本発明の一実施の形態例に係る処理全体の流れを示すフローチャートである。
[図7]図6のステップS3の学習の詳細例を示すフローチャートである。
[図8]図6のステップS4の適応の詳細例を示すフローチャートである。
[図9]図6のステップS8の声質変換の詳細例を示すフローチャートである。
[図10]本発明の一実施形態によるクラスタの重み分布の例を示す説明図である。
[図11]声質変換装置のパラメータ推定部が備える確率モデルの別の例を示す説明図である。
発明を実施するための形態
Claims (8)
- 入力話者の音声を目標話者の音声に声質変換する声質変換装置であって、
学習用の音声に基づく音声情報およびその音声情報に対応する話者情報から、声質変換のためのパラメータを決定するパラメータ学習ユニットと、
前記パラメータ学習ユニットが決定したパラメータを記憶するパラメータ記憶ユニットと、
前記パラメータ記憶ユニットが記憶したパラメータと前記目標話者の話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ユニットとを備え、
前記パラメータ学習ユニットは、音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性を前記パラメータによって表す確率モデルを取得し、前記確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義するようにした
声質変換装置。 - さらに、前記パラメータ記憶ユニットが記憶したパラメータを前記入力話者の音声に適応して、適応後のパラメータを得る適応ユニットを備え、
前記パラメータ記憶ユニットは、前記適応ユニットで適応後のパラメータを記憶し、前記声質変換処理ユニットは、適応後のパラメータと前記目標話者の話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う
請求項1に記載の声質変換装置。 - 前記パラメータ学習ユニットと前記適応ユニットは共通の演算処理部で構成され、
前記学習用の音声に基づいてパラメータを決定する処理と、前記入力話者の音声に基づいて適応後のパラメータを得る処理を、前記共通の演算処理部で行うようにした
請求項2に記載の声質変換装置。 - 前記パラメータ学習ユニットが学習する際には、複数のクラスタが最も離れるように学習し、学習した複数のクラスタの間で、話者クラスタへの重みの位置を設定する
請求項1に記載の声質変換装置。 - 前記声質変換処理ユニットは、前記パラメータから前記目標話者の話者情報を得、得られた話者情報から前記目標話者の音声情報を得るようにした
請求項1に記載の声質変換装置。 - 音声情報の特徴量v=[v1,・・・,vI]∈RIと、音韻情報の特徴量h=[h1,・・・,hJ]∈{0,1}J,Σjhj=1との間に、話者情報の特徴量s=[s1,・・・,sR]∈{0,1}R,Σrsr=1に依存した双方な結合重みW∈RI×Jが存在すると仮定したとき、前記話者クラスタとして、話者クラスタc∈RKを導入し、話者クラスタcを、
(但し、L∈RK×R=[λ1・・・λR]の各列ベクトルλrは、それぞれの話者クラスタへの重みを表す非負パラメータであり、||λr||1=1,∀rの制約を課す)と表現し、音響情報の特徴量のクラスタ依存項のバイアスパラメータをU∈RI×K、音韻情報の特徴量のクラスタ依存項のバイアスパラメータをV∈RJ×K、として、話者非依存項、クラスタ依存項、および話者依存項のそれぞれを、
として示す
請求項1に記載の声質変換装置。 - 入力話者の音声を目標話者の音声に声質変換する声質変換方法であって、
音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意し、その確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義し、それぞれの話者について、前記複数個の話者クラスタへの重みを推定して、学習用の音声についての前記パラメータを決定するパラメータ学習ステップと、
前記パラメータ学習ステップで得られたパラメータ、又は当該パラメータを前記入力話者の音声に適応した適応後のパラメータと、前記目標話者の前記話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ステップと
を含む、声質変換方法。 - 音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意し、その確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義し、それぞれの話者について、前記複数個の話者クラスタへの重みを推定して、学習用の音声についての前記パラメータを決定して記憶するパラメータ学習ステップと、
前記パラメータ学習ステップで得られたパラメータ、又は当該パラメータを入力話者の音声に適応した適応後のパラメータと、目標話者の前記話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ステップと、
をコンピュータに実行させるプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017036109 | 2017-02-28 | ||
JP2017036109 | 2017-02-28 | ||
PCT/JP2018/007268 WO2018159612A1 (ja) | 2017-02-28 | 2018-02-27 | 声質変換装置、声質変換方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018159612A1 true JPWO2018159612A1 (ja) | 2020-01-09 |
JP7018659B2 JP7018659B2 (ja) | 2022-02-15 |
Family
ID=63370773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019503021A Active JP7018659B2 (ja) | 2017-02-28 | 2018-02-27 | 声質変換装置、声質変換方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20190385628A1 (ja) |
JP (1) | JP7018659B2 (ja) |
WO (1) | WO2018159612A1 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109102818B (zh) * | 2018-08-29 | 2022-10-21 | 昆明理工大学 | 一种基于信号频率概率密度函数分布的去噪音频采样算法 |
CN110085209B (zh) * | 2019-04-11 | 2021-07-23 | 广州多益网络股份有限公司 | 一种音色筛选方法及装置 |
CN110085254A (zh) * | 2019-04-22 | 2019-08-02 | 南京邮电大学 | 基于beta-VAE和i-vector的多对多语音转换方法 |
JP2021033129A (ja) * | 2019-08-27 | 2021-03-01 | 国立大学法人 東京大学 | 音声変換装置、音声変換方法及び音声変換プログラム |
CN111247584B (zh) * | 2019-12-24 | 2023-05-23 | 深圳市优必选科技股份有限公司 | 语音转换方法、系统、装置及存储介质 |
US11183168B2 (en) * | 2020-02-13 | 2021-11-23 | Tencent America LLC | Singing voice conversion |
CN111599368B (zh) * | 2020-05-18 | 2022-10-18 | 杭州电子科技大学 | 一种基于直方图匹配的自适应实例规一化语音转换方法 |
US11532313B2 (en) * | 2020-08-27 | 2022-12-20 | Google Llc | Selectively storing, with multiple user accounts and/or to a shared assistant device: speech recognition biasing, NLU biasing, and/or other data |
JP7498408B2 (ja) | 2020-11-10 | 2024-06-12 | 日本電信電話株式会社 | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム |
EP4030421A4 (en) * | 2020-11-18 | 2023-07-12 | Minds Lab Inc. | METHOD FOR CONVERTING A VOCAL CHARACTERISTIC OF THE VOICE |
CN113314101B (zh) * | 2021-04-30 | 2024-05-14 | 北京达佳互联信息技术有限公司 | 一种语音处理方法、装置、电子设备及存储介质 |
JP7508409B2 (ja) * | 2021-05-31 | 2024-07-01 | 株式会社東芝 | 音声認識装置、方法およびプログラム |
CN113450759A (zh) * | 2021-06-22 | 2021-09-28 | 北京百度网讯科技有限公司 | 语音生成方法、装置、电子设备以及存储介质 |
CN115171648A (zh) * | 2022-07-07 | 2022-10-11 | 云知声智能科技股份有限公司 | 一种语音克隆方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050182626A1 (en) * | 2004-02-18 | 2005-08-18 | Samsung Electronics Co., Ltd. | Speaker clustering and adaptation method based on the HMM model variation information and its apparatus for speech recognition |
JP2016029779A (ja) * | 2014-07-25 | 2016-03-03 | Kddi株式会社 | 音声通信システムならびにその音声通信方法および装置 |
WO2017146073A1 (ja) * | 2016-02-23 | 2017-08-31 | 国立大学法人電気通信大学 | 声質変換装置、声質変換方法およびプログラム |
-
2018
- 2018-02-27 JP JP2019503021A patent/JP7018659B2/ja active Active
- 2018-02-27 US US16/489,513 patent/US20190385628A1/en not_active Abandoned
- 2018-02-27 WO PCT/JP2018/007268 patent/WO2018159612A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050182626A1 (en) * | 2004-02-18 | 2005-08-18 | Samsung Electronics Co., Ltd. | Speaker clustering and adaptation method based on the HMM model variation information and its apparatus for speech recognition |
JP2016029779A (ja) * | 2014-07-25 | 2016-03-03 | Kddi株式会社 | 音声通信システムならびにその音声通信方法および装置 |
WO2017146073A1 (ja) * | 2016-02-23 | 2017-08-31 | 国立大学法人電気通信大学 | 声質変換装置、声質変換方法およびプログラム |
Non-Patent Citations (1)
Title |
---|
中鹿 亘: "制約付きThree−Way Restricted Boltzmann Machineを用いた音響・音", 電子情報通信学会技術研究報告 VOL.115 NO.346 IEICE TECHNICAL REPORT, vol. 第115巻、第346号, JPN6022001650, 25 November 2015 (2015-11-25), JP, pages 7 - 12, ISSN: 0004684396 * |
Also Published As
Publication number | Publication date |
---|---|
JP7018659B2 (ja) | 2022-02-15 |
WO2018159612A1 (ja) | 2018-09-07 |
US20190385628A1 (en) | 2019-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7018659B2 (ja) | 声質変換装置、声質変換方法およびプログラム | |
JP6523893B2 (ja) | 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム | |
Jemine | Real-time voice cloning | |
JP6783475B2 (ja) | 声質変換装置、声質変換方法およびプログラム | |
JP6543820B2 (ja) | 声質変換方法および声質変換装置 | |
Hashimoto et al. | Trajectory training considering global variance for speech synthesis based on neural networks | |
Jokinen et al. | Vocal effort compensation for MFCC feature extraction in a shouted versus normal speaker recognition task | |
US10157608B2 (en) | Device for predicting voice conversion model, method of predicting voice conversion model, and computer program product | |
JP2019215500A (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
Nirmal et al. | Voice conversion using general regression neural network | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
Lai et al. | Phone-aware LSTM-RNN for voice conversion | |
Bollepalli et al. | Normal-to-Lombard adaptation of speech synthesis using long short-term memory recurrent neural networks | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP7192882B2 (ja) | 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム | |
JP2021099454A (ja) | 音声合成装置、音声合成プログラム及び音声合成方法 | |
Aihara et al. | Multiple non-negative matrix factorization for many-to-many voice conversion | |
Deka et al. | Development of assamese text-to-speech system using deep neural network | |
JP6786065B2 (ja) | 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム | |
Raghavendra et al. | Speech synthesis using artificial neural networks | |
Yang et al. | A DNN-based emotional speech synthesis by speaker adaptation | |
JP2020013008A (ja) | 音声処理装置、音声処理プログラムおよび音声処理方法 | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
Das et al. | Aging speech recognition with speaker adaptation techniques: Study on medium vocabulary continuous Bengali speech | |
WO2024038560A1 (ja) | 学習装置、推定装置、学習方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A5211 Effective date: 20190604 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220118 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220125 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7018659 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |