JPWO2018159612A1 - 声質変換装置、声質変換方法およびプログラム - Google Patents

声質変換装置、声質変換方法およびプログラム Download PDF

Info

Publication number
JPWO2018159612A1
JPWO2018159612A1 JP2019503021A JP2019503021A JPWO2018159612A1 JP WO2018159612 A1 JPWO2018159612 A1 JP WO2018159612A1 JP 2019503021 A JP2019503021 A JP 2019503021A JP 2019503021 A JP2019503021 A JP 2019503021A JP WO2018159612 A1 JPWO2018159612 A1 JP WO2018159612A1
Authority
JP
Japan
Prior art keywords
speaker
information
voice
parameter
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019503021A
Other languages
English (en)
Other versions
JP7018659B2 (ja
Inventor
亘 中鹿
亘 中鹿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
THE UNIVERSITY OF ELECTRO-COMUNICATINS
Original Assignee
THE UNIVERSITY OF ELECTRO-COMUNICATINS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by THE UNIVERSITY OF ELECTRO-COMUNICATINS filed Critical THE UNIVERSITY OF ELECTRO-COMUNICATINS
Publication of JPWO2018159612A1 publication Critical patent/JPWO2018159612A1/ja
Application granted granted Critical
Publication of JP7018659B2 publication Critical patent/JP7018659B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

パラメータ学習ユニットとパラメータ記憶ユニットと声質変換処理ユニットとを備える。パラメータ学習ユニットは、入力データを表現する可視素子と、潜在的な情報を表現した隠れ素子との間に結合重みが存在すると仮定した制限ボルツマンマシンによる確率モデルを用意する。その確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義し、それぞれの話者について、複数個の話者クラスタへの重みを推定して、パラメータを決定する。パラメータ記憶ユニットは、パラメータを記憶する。声質変換処理ユニットは、パラメータ記憶ユニットが記憶したパラメータと目標話者の話者情報とに基づいて、入力話者の音声に基づく音声情報の声質変換処理を行う。

Description

本発明は任意話者声質変換を可能とする声質変換装置、声質変換方法およびプログラムに関する。
従来、入力話者音声の音韻情報を保存したまま、話者性に関する情報のみを出力話者のものへ変換させる技術である声質変換の分野では、モデルの学習時において、入力話者と出力話者の同一発話内容による音声対であるパラレルデータを使用するパラレル声質変換が主流であった。
パラレル声質変換としては、GMM(Gaussian Mixture Model)に基づく手法、NMF(Non-negative Matrix Factrization)に基づく手法、DNN(Deep Neural Network)に基づく手法など、様々な統計的アプローチが提案されている(特許文献1参照)。パラレル声質変換では、パラレル制約のおかげで比較的高い精度が得られる反面、学習データとしては入力話者と出力話者の発話内容を一致させる必要があるため、利便性が損なわれてしまうという問題があった。
これに対して、モデルの学習時に上述のパラレルデータを使用しない非パラレル声質変換が注目を浴びている。非パラレル声質変換は、パラレル声質変換に比べて精度面で劣るものの自由発話を用いて学習を行うことができるため利便性や実用性は高い。非特許文献1には、入力話者の音声と出力話者の音声を用いて事前に個々のパラメータを学習しておくことで、学習データに含まれる話者を入力話者または目標話者とする声質変換を可能とする技術が記載されている。
特開2008−58696号公報
T. Nakashika, T. Takiguchi, and Y. Ariki: "Parallel-Data-Free, Many-To-Many Voice Conversion Using an Adaptive Restricted Boltzmann Machine," Proceedings of Machine Learning in Spoken Language Processing (MLSLP) 2015, 6 pages, 2015.
非特許文献1に記載の技術は、統計的な非パラレル声質変換アプローチとして、制限ボルツマンマシン(Restricted Boltzmann Machine:以下RBMと称する)を適用した、適応型RBM(ARBM)に基づく声質変換に基づく声質変換を行う。このアプローチでは、複数の話者による音声データから自動的にそれぞれの話者固有の適応行列と、音響特徴量(メルケプストラム)から話者に依存しない潜在特徴(以下、これらを潜在的な音韻または単に音韻と呼ぶ)への射影行列を同時に推定する。これにより、入力話者の音声および入力話者の適応行列から計算した潜在的な音韻と、目標話者の適応行列を用いて音響特徴量を計算することで目標話者に近い音声を得るようにしている。
一度学習によって潜在的な音韻を得るための射影行列が推定されれば、新たな入力話者・目標話者に対してそれぞれの適応行列のみを推定(このステップを適応と呼ぶ)することで変換が可能となる。しかし、話者固有の適応行列は音響特徴量の二乗個のパラメータを含むため、音響特徴量の次元数や話者数が増えるほどパラメータ数が膨大となり、学習コストが掛かってしまう。そして、適応時に必要となるデータ数が多くなり、事前に学習していない話者のその場での変換が困難となってしまうといった問題が発生する。また、声質変換を利用する場面では、その場で音声を収録し、即座に変換を行いたいケースが考えられるが、従来の技術では、即座に変換することは困難であった。
本発明はかかる点に鑑み、各話者の発話について少ないデータ数で簡単に声質変換が可能な声質変換装置、声質変換方法およびプログラムを提供することを目的とする。
上記課題を解決するため、本発明の声質変換装置は、入力話者の音声を目標話者の音声に声質変換する声質変換装置であって、パラメータ学習ユニットとパラメータ記憶ユニットと声質変換処理ユニットとを備える。
パラメータ学習ユニットは、学習用の音声に基づく音声情報およびその音声情報に対応する話者情報から、声質変換のためのパラメータを決定する。
パラメータ記憶ユニットは、パラメータ学習ユニットが決定したパラメータを記憶する。
声質変換処理ユニットは、パラメータ記憶ユニットが記憶したパラメータと目標話者の話者情報とに基づいて、入力話者の音声に基づく音声情報の声質変換処理を行う。
ここで、パラメータ学習ユニットは、音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、音声情報、話者情報および音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを取得し、確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義するようにした。
また、本発明の声質変換方法は、入力話者の音声を目標話者の音声に声質変換する方法であって、パラメータ学習ステップと声質変換処理ステップとを含む。
パラメータ学習ステップは、音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、音声情報、話者情報および音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意する。そして、その確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義し、それぞれの話者について、複数個の話者クラスタへの重みを推定して、学習用の音声についてのパラメータを決定する。
声質変換処理ステップは、パラメータ学習ステップで得られたパラメータ、又は当該パラメータを入力話者の音声に適応した適応後のパラメータと、目標話者の話者情報とに基づいて、入力話者の音声に基づく音声情報の声質変換処理を行う。
また本発明のプログラムは、上述した声質変換方法のパラメータ学習ステップと声質変換処理ステップとをコンピュータに実行させるものである。
本発明によれば、話者クラスタにより目標話者を設定することができるため、従来よりも非常に少ないデータ数で、入力話者音声を目標話者音声に声質変換できるようになる。
本発明の一実施の形態例に係る声質変換装置の構成例(例1)を示すブロック図である。 本発明の一実施の形態例に係る声質変換装置の構成例(例2)を示すブロック図である。 声質変換装置のハードウェア構成例を示すブロック図である。 従来の確率モデルを模式的に示す説明図である。 声質変換装置のパラメータ推定部が備える確率モデルを模式的に示す説明図である。 本発明の一実施の形態例に係る処理全体の流れを示すフローチャートである。 図6のステップS3の学習の詳細例を示すフローチャートである。 図6のステップS4の適応の詳細例を示すフローチャートである。 図6のステップS8の声質変換の詳細例を示すフローチャートである。 本発明の一実施形態によるクラスタの重み分布の例を示す説明図である。 声質変換装置のパラメータ推定部が備える確率モデルの別の例を示す説明図である。
以下、本発明の好適な一実施形態例について説明する。
[1.構成]
図1は、本発明の一実施形態例にかかる声質変換装置の構成例(例1)を示す図である。図1においてPC等により構成される声質変換装置1は、事前に、学習用音声信号と学習用音声信号に対応する話者の情報(対応話者情報)に基づいて学習を行っておくことで、任意の話者による変換用音声信号(適応話者音声信号)を、目標話者の声質に変換し、変換済み音声信号として出力する。
学習用音声信号は、予め記録された音声データに基づく音声信号でもよく、また、マイクロフォン等により話者が話す音声(音波)を直接電気信号に変換したものでもよい。また、対応話者情報は、ある学習用音声信号と他の学習用音声信号とが同じ話者による音声信号か異なる話者による音声信号かを区別できるものであればよい。
声質変換装置1は、パラメータ学習ユニット11と声質変換処理ユニット12とパラメータ記憶ユニット13とを備える。パラメータ学習ユニット11は、学習用音声信号と対応話者情報とに基づいた学習処理により声質変換のためのパラメータを決定する。パラメータ学習ユニット11が決定したパラメータは、パラメータ記憶ユニット13に記憶される。パラメータ記憶ユニット13に記憶されたパラメータは、適応処理によって、パラメータ学習ユニット11が入力話者の適応後のパラメータに変換する。声質変換処理ユニット12は、上述の学習処理および適応処理によりパラメータが決定された後、決定されたパラメータと目標とする話者の情報(目標話者情報)とに基づいて変換用音声信号の声質を目標話者の声質に変換し、変換済み音声信号として出力する。なお、パラメータ学習ユニット11が学習処理と適応処理の双方を行うのは一例であり、後述する図2に示すように、パラメータ学習ユニット11と別に適応ユニット14を備えるようにしてもよい。
パラメータ学習ユニット11は、音声信号取得部111と前処理部112と話者情報取得部113とパラメータ推定部114を備える。音声信号取得部111は、前処理部112に接続され、前処理部112および話者情報取得部113は、それぞれパラメータ推定部114に接続される。
音声信号取得部111は、接続された外部機器から学習用音声信号を取得するものであり、例えば、マウスやキーボード等の図示しない入力部からのユーザの操作に基づいて学習用音声信号が取得される。また、音声信号取得部111は、接続される不図示のマイクロフォンから、話者の発話をリアルタイムに取り込むようにしてもよい。なお、以下の説明では、パラメータ学習ユニット11が学習用音声信号を取得してパラメータを得る処理を述べるが、パラメータ学習ユニット11が適応話者音声信号に適応したパラメータを得る適応処理時にも、各処理部は同様の処理が行われる。適応処理の詳細については後述するが、適応処理時には、学習処理でパラメータ記憶ユニット13に記憶されたパラメータを、適応話者音声信号に適応したパラメータとする適応化処理が行われる。
前処理部112は、音声信号取得部111で取得された学習用音声信号を単位時間ごと(以下、フレームという)に切り出し、MFCC(Mel-Frequency Cepstrum Coefficients:メル周波数ケプストラム係数)やメルケプストラム特徴量などのフレームごとの音声信号のスペクトル特徴量を計算した後、正規化を行うことで学習用音声情報を生成する。
対応話者情報取得部113は、音声信号取得部111による学習用音声信号の取得に紐付けられた対応話者情報を取得する。対応話者情報は、ある学習用音声信号の話者と他の学習用音声信号の話者とを区別できるものであればよく、例えば、図示しない入力部からのユーザの入力によって取得される。また、複数の学習用音声信号のそれぞれについて互いに話者が異なることが明らかであれば、学習用音声信号の取得に際して対応話者情報取得部113が自動で対応話者情報を付与してもよい。例えば、パラメータ学習ユニット11が10人の話し声の学習を行うと仮定すると、対応話者情報取得部113は、音声信号取得部111に入力中の学習用音声信号が10人の内のどの話者の話し声の音声信号であるかを区別する情報(対応話者情報)を、自動的にまたはユーザからの入力により取得する。なお、ここで話し声の学習を行う人数を10人としたのは、あくまでも一例である。パラメータ学習ユニット11は、最低でも2人の音声が入力されれば学習が可能であるが、人数が多い方がより精度の高い学習ができることになる。
パラメータ推定部114は、音声情報推定部1141と話者情報推定部1142と音韻情報推定部1143とによって構成されるRBM(制限ボルツマンマシン)を適用した、適応型RBM(ARBM)の確率モデルを持ち、学習用音声信号に基づいてパラメータの推定を行う。パラメータ推定部114が学習処理によって推定したパラメータは、パラメータ記憶ユニット13に記憶される。この学習処理で得たパラメータは、適応話者の音声信号がパラメータ学習ユニット11に入力されたとき、パラメータ記憶ユニット13からパラメータ学習ユニット11に読み出され、そのときの適応話者の音声信号に適応したパラメータとされる。
パラメータ推定部114がパラメータを推定する際に適用される本実施形態例の確率モデルでは、各推定部1141,1142,1143が持つ音声情報、話者情報、および音韻情報の他に、話者の特徴から得た複数の話者クラスタの情報を持つ。すなわち、パラメータ推定部114は、この話者クラスタを計算する話者クラスタ計算部1144を有する。さらに、本実施形態例の確率モデルでは、各情報のそれぞれの間の結合エネルギーの関係性を表すパラメータを持つ。なお、以下の説明では、本実施形態例の確率モデルを、話者クラスタ適応型RBMと称する。話者クラスタ適応型RBMの詳細については後述する。
音声情報推定部1141は、音韻情報および話者情報ならびに各種パラメータを用いて音声情報を取得する。ここで、音声情報とは、それぞれの話者の音声信号の音響ベクトル(スペクトル特徴量やケプストラム特徴量など)を意味する。
話者情報推定部1142は、音声情報および音韻情報ならびに各種パラメータを用いて話者情報を推定する。ここで、話者情報とは、話者を特定するための情報であり、それぞれの話者の音声が持つ音響ベクトル情報である。すなわち、この話者情報(話者ベクトル)は、同じ話者の音声信号に対しては全て共通であり、異なる話者の音声信号に対しては互いに異なるような、音声信号の発話者を特定させるベクトルを意味している。
音韻情報推定部1143は、音声情報および話者情報ならびに各種パラメータにより音韻情報を推定する。ここで音韻情報とは、音声情報に含まれる情報の中から、学習を行う全ての話者に共通となる情報である。例えば、入力した学習用音声信号が、「こんにちは」と発話した音声の信号であるとき、この音声信号から得られる音韻情報は、その「こんにちは」と発話した言葉の情報に相当する。但し、本実施の形態例での音韻情報は、言葉に相当する情報であっても、いわゆるテキストの情報ではなく、言語の種類に限定されない音韻の情報であり、どのような言語で話者が話した場合にも共通となる、音声信号の中で潜在的に含まれる、話者情報以外の情報を表すベクトルである。
話者クラスタ計算部1144は、入力中の学習用音声信号から得た話者情報に対応したクラスタを計算する。すなわち、パラメータ推定部114が備える話者クラスタ適応型RBMは、話者情報を示すクラスタを複数持ち、話者クラスタ計算部1144は、入力中の学習用音声信号から得た話者情報に対応するクラスタを計算する。
また、パラメータ推定部114が備える話者クラスタ適応型RBMは、音声情報、話者情報、音韻情報および話者クラスタの情報を持つだけでなく、各情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表すようにしている。
声質変換処理ユニット12は、音声信号取得部121と前処理部122と話者情報設定部123と声質変換部124と後処理部125と音声信号出力部126とを備える。音声信号入力121、前処理部122、声質変換部124、後処理部125および音声信号出力部126は順次接続され、声質変換部124には、更にパラメータ学習ユニット11のパラメータ推定部114が接続される。
音声信号取得部121は、変換用音声信号を取得し、前処理部122は、変換用音声信号に基づき変換用音声情報を生成する。本実施の形態例では、音声信号取得部121が取得する変換用音声信号は、任意の話者による変換用音声信号でよい。
音声信号取得部121および前処理部122は、上述したパラメータ学習ユニット11の音声信号取得部111および前処理部112の構成と同じであり、別途設置することなくこれらを兼用してもよい。
話者情報設定部123は、声質変換先である目標話者を設定し目標話者情報を出力する。話者情報設定部123で設定される目標話者は、ここでは、パラメータ学習ユニット11のパラメータ推定部114が事前に学習処理して話者情報を取得した話者の中から選ばれる。話者情報設定部123は、例えば、図示しないディスプレイ等に表示された複数の目標話者の選択肢(パラメータ推定部114が事前に学習処理した話者の一覧など)からユーザが図示しない入力部によって1つの目標話者を選択するものであってもよく、また、その際に、図示しないスピーカにより目標話者の音声を確認できるようにしてもよい。
声質変換部124は、目標話者情報に基づいて変換用音声情報に声質変換を施し、変換済み音声情報を出力する。声質変換部124は、音声情報設定部1241、話者情報設定部1242、音韻情報設定部1243、および話者クラスタ計算部1244を持つ。この音声情報設定部1241、話者情報設定部1242、音韻情報設定部1243、および話者クラスタ計算部1244は、上述のパラメータ推定部114において、話者クラスタ適応型RBMの確率モデルが持つ音声情報推定部1141、話者情報推定部1142、音韻情報推定部1143、および話者クラスタ計算部1144と同等の機能を持つ。
すなわち、音声情報設定部1241、話者情報設定部1242および音韻情報設定部1243には、それぞれ音声情報、話者情報および音韻情報が設定されるが、音韻情報設定部1243に設定される音韻情報は、前処理部122から供給される音声情報に基づいて得た情報である。一方、話者情報設定部1242に設定される話者情報は、パラメータ学習ユニット11内の話者情報推定部1142での推定結果から取得した目標話者についての話者情報(話者ベクトル)である。音声情報設定部1241に設定される音声情報は、これら話者情報設定部1242および音韻情報設定部1243に設定された話者情報および音韻情報と各種パラメータとから得られる。話者クラスタ計算部1244は、目標話者の話者クラスタ情報を計算する。
なお、図1では声質変換部124を設ける構成を示したが、声質変換部124を別途設置することなく、パラメータ推定部114の各種パラメータを固定することで、パラメータ推定部114が声質変換の処理を実行する構成としてもよい。
後処理部125は、声質変換部124で得られた変換済み音声情報に逆正規化処理を施し、更に逆FFT処理することでスペクトル情報をフレームごとの音声信号へ戻した後に結合し、変換済み音声信号を生成する。
音声信号出力部126は、接続される外部機器に対して変換済み音声信号を出力する。接続される外部機器としては、例えば、スピーカなどが挙げられる。
図2は、本発明の一実施形態例にかかる声質変換装置の別の構成例(例2)を示す図である。
図2に示す声質変換装置1は、適応話者音声信号によりパラメータの適応処理を行う適応ユニット14を備える点が、図1に示す声質変換装置1と異なる。すなわち、図1に示す声質変換装置1では、パラメータ学習ユニット11が、学習処理と適応処理の双方を行うようにしたのに対して、図2に示す声質変換装置1では、適応ユニット14が適応処理を行うようにした点が異なる。
適応ユニット14は、音声信号取得部141と前処理部142と適応話者情報取得部143とパラメータ推定部144を備える。音声信号取得部141は、適応話者音声信号を取得し、取得した音声信号を前処理部142に出力する。前処理部142は、音声信号の前処理を行って適応用音声情報を得、得られた適応用音声情報をパラメータ推定部144に供給する。適応話者情報取得部143は、適応話者についての話者情報を取得し、取得した適応話者情報をパラメータ推定部144に供給する。
パラメータ推定部144は、音声情報推定部1441と話者情報推定部1442と音韻情報推定部1443と話者クラスタ計算部1444を有し、音声情報、話者情報、音韻情報、および話者クラスタの情報を持つ。
適応ユニット14で得られた適用後のパラメータは、パラメータ記憶ユニット13に記憶した後、声質変換処理ユニット12に供給される。あるいは、適応ユニット14で得られた適用後のパラメータを、直接、声質変換処理ユニット12に供給するようにしてもよい。
図2に示す声質変換装置1のその他の部分については、図1に示す声質変換装置1と同様に構成する。
図3は、声質変換装置1のハードウェア構成例を示す図である。ここでは、声質変換装置1をコンピュータ(PC)で構成した例を示す。
図3に示すように、声質変換装置1は、バス107を介して相互に接続されたCPU(中央制御ユニット:Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103、HDD(Hard Disk Drive)/SSD(Solid State Drive)104、接続I/F(Interface)105、通信I/F106を備える。CPU101は、RAM103をワークエリアとしてROM102またはHDD/SSD104等に格納されたプログラムを実行することで、声質変換装置1の動作を統括的に制御する。接続I/F105は、声質変換装置1に接続される機器とのインターフェースである。通信I/Fは、ネットワークを介して他の情報処理機器と通信を行うためのインターフェースである。
学習用音声信号、変換用音声信号、および変換済み音声信号の入出力および設定は、接続I/F105または通信I/F106を介して行われる。パラメータ記憶ユニット13でのパラメータの記憶は、RAM103またはHDD/SSD104により行われる。図1で説明した声質変換装置1の機能は、CPU101において所定のプログラムが実行されることで実現される。プログラムは、記録媒体を経由して取得してもよく、ネットワークを経由して取得してもよく、ROMに組み込んで使用してもよい。また、一般的なコンピュータとプログラムの組合せでなく、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの論理回路を組むことで、声質変換装置1の構成を実現するためのハードウェア構成にしてもよい。
[2.話者クラスタ適応型RBMの定義]
次に、パラメータ推定部113および符号化部123が持つ確率モデルである、話者クラスタ適応型RBMについて説明する。
まず、本発明に適用される話者クラスタ適応型RBMを説明する前に、既に提案した確率モデルである、適応型RBMについて説明する。
図4は、適応型RBMのグラフ構造を模式的に示す図である。
適応型RBMの確率モデルは、音声情報v、話者情報sおよび音韻情報hと、それぞれの情報の結合エネルギーの関係性を示すパラメータを持つ。ここでは、音響(メルケプストラム)情報の特徴量v=[v,・・・,v]∈Rと、音韻情報の特徴量h=[h,・・・,h]∈{0,1},Σ=1との間に、話者特徴量s=[s1,・・・,sR]∈{0,1}R,Σrsr=1に依存した双方向な結合重みW∈RI×Jが存在すると仮定したとき、適応型RBMの確率モデルは、次の[数1]式〜[数3]式で示される条件付き確率密度関数で示される。
Figure 2018159612
Figure 2018159612
Figure 2018159612
但し、σ∈Rは音響特徴量の偏差を表すパラメータであり、b∈Rおよびd∈Rはそれぞれ話者特徴量sに依存した音響特徴量、音韻特徴量のバイアスを表す。式の中の記号の上に付けられた「~」は、該当する情報が話者に依存した情報であることを示す。なお、明細書の中では、表記上の制約のため、「~」を記号の上に付与できないので、例えばW(~)のように、記号の後に括弧で示す。「^」などの、記号の上に付与して示す他の記号についても、同様に表記する。
また、[数2]式の右辺の括線および「・」は、それぞれ要素ごとの除算、要素ごとの二乗を表す。話者依存の項W(~),b(~),d(~)は、話者非依存パラメータと話者依存パラメータを用いて、下記の[数4]式〜[数6]式のように定義される。
Figure 2018159612
Figure 2018159612
Figure 2018159612
ここで、W∈RI×J,b∈R,d∈Rは話者非依存パラメータを表し、A∈RI×I(A={Ar=1 ),b∈R(B=[b,・・・,b]),d∈R(D=[d,・・・,d])は、話者rに依存したパラメータを表す。また、○ は左テンソルのモードi、右テンソルのモードjに沿った内積演算を表す。
ここでは、音響特徴量はクリーン音声のメルケプストラムとし、発話者の違いによるパラメータ変動は、話者特徴量sによって規定される話者依存項([数4]式,[数5]式,[数6]式)で吸収する。したがって、音韻特徴量は話者に依存しないいずれかの要素のみがアクティブとなる観測不可能な特徴量である、音韻の情報が含まれることになる。
このように、適応型RBMによって音響特徴量と音韻特徴量を得ることができるが、適応型RBMでは、話者依存パラメータの数は(IR)に比例し、音響特徴量の二乗(I)が比較的大きいため、話者数が増加するほど推定するパラメータ数が膨大となり、計算に要するコストが増加してしまう。また、ある話者rの適応時においても、推定すべきパラメータ数が(I+I+J)となり、過学習を避けるために相応に多くのデータを必要とする問題があった。
ここで、本発明では、これらの問題を解決するために、話者クラスタ適応型RBMを適用する。
図5は、話者クラスタ適応型RBMのグラフ構造を模式的に示す図である。
話者クラスタ適応型RBMの確率モデルは、音声情報v、話者情報sおよび音韻情報hと、それぞれの情報の結合エネルギーの関係性を示すパラメータの他に、話者クラスタc∈Rを持つ。話者クラスタcは、次の[数7]式と恒等的に表現される。
Figure 2018159612
但し、L∈RK×R=[λ・・・λ]の各列ベクトルλは、それぞれの話者クラスタへの重みを表す非負パラメータであり、||λ||=1,∀rの制約を課す。
先に説明した適応型RBM(図4)では、話者ごとに適応行列を用意したが、本発明の話者クラスタ適応型RBMではクラスタごとに適応行列を用意する。また、音響特徴量、音韻特徴量のバイアスは、話者非依存項、クラスタ依存項、話者依存項の加算で表現される。すなわち、話者依存の項W(~),b(~),d(~)は、下記の[数8]式〜[数10]式のように定義される。
Figure 2018159612
Figure 2018159612
Figure 2018159612
ここで、音響情報の特徴量のクラスタ依存項のバイアスパラメータをU∈RI×K、音韻情報の特徴量のクラスタ依存項のバイアスパラメータをV∈RJ×Kとする。
[数8]式で示されるA={Ak}k=1 と、先に説明した適応型RBMでの[数4]式におけるAを比較すると、適応型RBMでは(IR)個のパラメータが含まれていたのに対して、話者クラスタ適応型RBMでは(IK)個となり、大幅にパラメータ数を削減することができる。例えば、一例としては、R=58、I=32、K=8に設定した場合、先に説明した適応型RBMではパラメータ数59392個になるが、話者クラスタ適応型RBMでは8192個になり、大幅にパラメータ数を削減できる。
また、先に説明した適応型RBMでは、話者一人につきI+I+J(=1072)個のパラメータ(H=16の場合)であったのに対して、話者クラスタ適応型RBMでは、話者一人につきK+I+J(=56)個のパラメータでよい。したがって、話者クラスタ適応型RBMによると、大幅にパラメータ数を削減することができ、少ないデータで適応が可能になる。
話者クラスタ適応型RBMにおいても、条件付き確率p(v,h|s)を、先に説明した[数1]式〜[数3]式で定義する。このとき、条件付き確率p(v|h,s),p(h|v,s)は、それぞれ次の[数11]式および[数12]式に示すようになる。
Figure 2018159612
Figure 2018159612
但し、[数11]式の右辺のN(・)は次元独立の多変量正規分布、[数12]式の右辺のB(・)は多次元ベルヌーイ分布、f(・)は要素ごとのsoftmax関数を表す。
音韻特徴量hは既知であり、ある話者rの音響特徴量の平均ベクトルμを考えると、[数11]式より、平均ベクトルは[数13]式に示すようになる。
Figure 2018159612
但し、λ′=[λ 1]は、λrの拡張ベクトルであり、M=[μ,・・・,μK+1]の各列ベクトルは、[数14]式で定義される。
Figure 2018159612
本発明の一実施形態例による話者クラスタ適応型RBMでは、話者依存項bが存在し、話者非依存平均ベクトルμが[数14]式のように構造化される特徴を持つ。また、潜在的な音韻特徴量を陽に確率変数として定義している。
また、本発明の一実施形態例による話者クラスタ適応型RBMでは、話者非依存パラメータと話者クラスタ重みを同時に推定することができる。すなわち、R人の話者によるNフレームの音声データ{v|sn=1 に対する対数尤度([数15]式)を最大化するように、確率的勾配法を用いて全てのパラメータΘ={W,U,V,A,L,B,D,b,d,σ}を同時に更新し推定することが可能である。ここでは、それぞれのパラメータの勾配は省略する。
Figure 2018159612
各勾配には計算困難なモデルに対する期待値が出現するが、通常のRBMの確率モデルと同様に、CD法(Contrastive Divergence法)を用いることで、効率よく近似することができる。
また、クラスタ重みの非負条件を満たすために、λ=ezrと置き換えて、zでパラメータ更新を行う。クラスタ重みはパラメータ更新後、||λ||=1を満たすように正則化する。
さらに、モデルの学習が行われれば、音韻特徴量およびクラスタの形成が完了したとみなし、新たな話者r′について、Θr′={λr′,br′,dr′}のみを更新し推定し、他のパラメータは固定する。
この話者クラスタ適応型RBMを声質変換に適用する際には、ある入力話者の音声の音響特徴量v(i)および話者特徴量s(i)、目標話者の話者特徴量s(o)が与えられたとき、最も確率の高い音響特徴量v(o)が目標話者の音響特徴量であるとして、[数16]式に示すように定式化される。
Figure 2018159612
但し、h(^)は、入力話者の音響特徴量および話者特徴量が与えられたときのhの条件付き期待値であり、[数17]式で表される。
Figure 2018159612
[3.声質変換動作]
図6は、本発明の実施形態例による声質変換処理動作を示すフローチャートである。図6に示すように、パラメータ学習処理として、声質変換装置1のパラメータ学習ユニット11の音声信号取得部111と話者情報取得部113とは、図示しない入力部によるユーザの指示に基づいて学習用音声信号とその対応話者情報とをそれぞれ取得する(ステップS1)。
前処理部112は、音声信号取得部111が取得した学習用音声信号からパラメータ推定部114に供給する学習用音声情報を生成する(ステップS2)。ここでは、例えば学習用音声信号をフレームごと(例えば、5msecごと)に切り出し、切り出された学習用音声信号にFFT処理などを施すことでスペクトル特徴量(例えば、MFCCやメルケプストラム特徴量)を算出する。そして、算出したスペクトル特徴量の正規化処理(例えば、各次元の平均と分散を用いて正規化)を行うことで学習用音声情報vを生成する。
生成された学習用音声情報vは、話者情報取得部113によって取得された対応話者情報sとともにパラメータ推定部114へ出力される。
パラメータ推定部114は、話者クラスタ適応型RBMの学習処理を行う(ステップS3)。ここでは、学習用話者情報sに対応した話者クラスタcと、学習用音声情報vを用いて各種パラメータの推定のための学習を行う。
次に、ステップS3の詳細について、図7を参照して説明する。まず、図7に示すように、話者クラスタ適応型RBMの確率モデルにおいて、全パラメータに任意の値を入力し(ステップS11)、音声情報推定部1141に取得した学習用音声情報vを入力し、話者情報推定部1142に取得した対応話者情報sを入力する(ステップS12)。
そして、話者情報推定部1142が取得した対応話者情報sから、話者クラスタ計算部1144が話者クラスタcを計算し、その計算した話者クラスタcと、音声情報推定部1141に取得した学習用音声情報vを入力とする(ステップS13)。
次に、ステップS13で入力された話者クラスタcと学習用音声情報vとを用いて音韻情報hの条件付き確率密度関数を決定し、その確率密度関数に基づいて音韻情報hをサンプルする(ステップS14)。ここで「サンプルする」とは、条件付き確率密度関数に従うデータをランダムに1つ生成することをいい、以下、同じ意味で用いる。
さらに、ステップS14でサンプルされた音韻情報hと話者クラスタcとを用いて音声情報vの条件付き確率密度関数を決定し、その確率密度関数に基づいて学習用音声情報vをサンプルする(ステップS15)。
次に、ステップS14でサンプルされた音韻情報hと、ステップS15でサンプルされた学習用音声情報vとを用いて音韻情報hの条件付き確率密度関数を決定し、その確率密度関数に基づいて音韻情報hを再サンプルする(ステップS16)。
そして、上述の[数15]式で示される対数尤度Lをそれぞれのパラメータで偏微分し、勾配法により全パラメータを更新する(ステップS17)。具体的には、確率的勾配法が用いられ、サンプルされた学習用音声情報v、音韻情報h、および対応話者情報sを用いてモデルに対する期待値を近似計算することができる。
全パラメータを更新した後、所定の終了条件を満たしていれば(ステップS18のYES)、次のステップに進み、満たしていなければ(ステップS18のNO)ステップS11に戻り、以降の各ステップを繰り返す(ステップS18)。なお、所定の終了条件としては、例えば、これら一連のステップの繰り返し数が挙げられる。
再び、図6に戻り、説明を続ける。パラメータ推定部114は、上述の一連のステップにより推定されたパラメータを学習により決定されたパラメータとして、パラメータ記憶ユニット13に記憶する。そして、その記憶したパラメータを、入力した適応話者音声信号に基づいて、適応後のパラメータとする適用処理を行う。この適応処理で得られた適応後のパラメータを、声質変換ユニット12の声質変換部124へ引き渡す(ステップS4)。
次に、ステップS4での適応処理の詳細について、図8を参照して説明する。まず、図8に示すように、話者固有パラメータとして任意の値を入力し(ステップS21)、音声情報推定部1441に取得した適応話者音声情報vを入力し、話者情報推定部1442に取得した適応話者情報sを入力する(ステップS22)。
そして、話者情報推定部1442が取得した適応話者情報sから、話者クラスタ計算部1444が話者クラスタcを計算し、その計算した話者クラスタcと、音声情報推定部1441に取得した適応話者音声情報vを入力とする(ステップS23)。
次に、ステップS23で入力された話者クラスタcと適応話者音声情報vとを用いて音韻情報hの条件付き確率密度関数を決定し、その確率密度関数に基づいて音韻情報hをサンプルする(ステップS24)。
さらに、ステップS24でサンプルされた音韻情報hと話者クラスタcとを用いて音声情報vの条件付き確率密度関数を決定し、その確率密度関数に基づいて適応話者音声情報vをサンプルする(ステップS25)。
次に、ステップS24でサンプルされた音韻情報hと、ステップS25でサンプルされた適応話者音声情報vとを用いて音韻情報hの条件付き確率密度関数を決定し、その確率密度関数に基づいて音韻情報hを再サンプルする(ステップS26)。
そして、上述の[数15]式で示される対数尤度Lをそれぞれのパラメータで偏微分し、勾配法により適応話者に固有のパラメータを更新する(ステップS27)。
適応話者に固有のパラメータを更新した後、所定の終了条件を満たしていれば(ステップS28のYES)、次のステップに進み、満たしていなければ(ステップS28のNO)ステップS21に戻り、以降の各ステップを繰り返す(ステップS28)。
再び、図6に戻り、説明を続ける。
声質変換処理として、ユーザは、図示しない入力部を操作して声質変換ユニット12の話者情報設定部123において声質変換の目標となる目標話者の情報s(o)を設定する(ステップS5)。そして、音声信号取得部121により変換用音声信号を取得する(ステップS6)。
前処理部122は、パラメータ学習処理の場合と同じく変換用音声信号に基づいて音声情報を生成し、話者情報取得部123によって取得された対応話者情報sとともに声質変換部124へ出力される(ステップS7)。
声質変換部124は、話者クラスタ適応型RBMを適用して、適応話者の音声を目標話者の音声に変換する声質変換を行う(ステップS8)。
次に、ステップS8の詳細について、図9を参照して説明する。まず、図9に示すように、話者クラスタ適応型RBMの確率モデルにおいて、決定された全パラメータを入力し(ステップS31)、音声情報設定部1241に音声情報vを入力し、話者情報設定部1242に入力話者情報sを入力し、話者クラスタ計算部1244が入力話者の話者クラスタcを計算する(ステップS32)。
そして、ステップS32で計算された話者クラスタcと音声情報vとを用いて、音韻情報hを推定する(ステップS33)。
次に、声質変換部124は、パラメータ学習処理で学習済みの目標話者の話者情報sを取得し、話者クラスタ計算部1244が目標話者の話者クラスタcを計算する(ステップS34)。そして、ステップS34で計算された目標話者の話者クラスタcとステップS33で推定した音韻情報hとを用いて、音声情報設定部1241が変換済み音声情報vを推定する(ステップS35)。推定された変換済み音声情報v(o)は、後処理部125へ出力される。
再び、図6に戻り、説明を続ける。後処理部125は、変換済み音声情報vを用いて変換済み音声信号を生成する(ステップS9)。具体的には、正規化されている変換済み音声信号vに非正規化処理(ステップS2で説明した正規化処理に用いる関数の逆関数を施す処理)を施し、非正規化処理のなされたスペクトル特徴量を逆変換することでフレームごとの変換済み音声信号を生成し、これらフレームごとの変換済み音声信号を時刻順に結合することで変換済み音声信号を生成する。
後処理部125により生成された変換済み音声信号は、音声信号出力部126より外部へ出力される(ステップS10)。変換済み音声信号を外部に接続されたスピーカで再生することにより、目標話者の音声に変換された入力音声を聞くことができる。
[4.評価実験例]
次に、本発明による話者クラスタ適応型RBMの効果を実証するため、声質変換実験を行った例について説明する。
確率モデルの学習には日本音響学会研究用連続音声データベース(ASJ-JIPDEC)の中からランダムにR=8;16;58名の話者を選び、40センテンスの音声データを用いた。学習話者の評価には、男性1名(ECL0001)を入力話者、女性1名(ECL1003)を目標話者とし、学習データとは別の10センテンスの音声データを用いた。確率モデルの適応には、学習時に含まれない女性話者(ECL1004)、男性話者(ECL0002)をそれぞれ入力話者、目標話者とし、適応データのセンテンス数を0.2から40まで変えて評価を行った。適応話者の評価についても適応データに含まれない10センテンスの音声データを用いた。分析合成ツール(WORLD:URL http://ml.cs.yamanashi.ac.jp/world/index.html)によって得られたスペクトルから計算した32次元のメルケプストラムを入力特徴量に用いた(I=32)。また、潜在音韻特徴量の数をJ=8;16;24、クラスタの数をK=2;3;4;6;8とし、最も高い精度となるものを採用した。学習率0:01、モーメント係数0:9、バッチサイズ100×R、繰り返し回数100の確率的勾配法を用いて確率モデルを学習した。
声質変換の精度を測る指標として、以下の[数18]式で定義されるMDIR(mel-cepstral distortion improvement ratio)の平均値を用いた。
Figure 2018159612
ここで、v、vi、v(^)は、それぞれ、入力話者とアライメントをとった目標話者音声のメルケプストラム特徴量、同アライメントをとった入力話者音声のメルケプストラム特徴量、viに対して声質変換を施した音声のメルケプストラム特徴量を示す。MDIRは改善率を表し、値が大きいほど高い変換精度を示す。
まず、K=2;R=8およびK=3;R=16としたとき、推定された各話者のクラスタ重みλの分布を図10Aおよび図10Bに示す。図10Aの例は、K=2であり、男性のクラスタ(Cluster 1)と女性のクラスタ(Cluster 2)との2つのクラスタが自動的に形成されている。図10Bの例は、K=3であり、男性のクラスタ(Cluster 1)と女性のクラスタ(Cluster 2)の他に、さらに男女が混ざった別のクラスタ(Cluster 3)が自動的に形成されている。この図10Aおよび図10Bにおいて、各学習者の話者クラスタの位置R11〜R18およびR21〜R30を示し、○印で示す音声は男性の音声であり、×印で示す音声は女性の音声である。
図10Aおよび図10Bから分かるように、○印で示す男性の音声は、(Cluster 1)に近い位置(クラスタ重み)になり、×印で示す女性の音声は、(Cluster 2)に近い位置に学習されており、性別の教師を与えていないにも関わらず、男性のクラスタ(Cluster 1)と女性のクラスタ(Cluster 2)が自動的に形成されていることが分かる。また、図10Aおよび図10Bに示すように、学習データでは、二つのクラスタが最も離れるように学習されている。すなわち、互いに最も離れている話者ペアが、それぞれのクラスタ(Cluster 1及びCluster 2)と重なる位置に設定されている。そして、各クラスタが最も離れるように学習した複数のクラスタの間で、話者クラスタへの重みの位置を設定する。このように複数のクラスタが最も離れるように学習する性質は、各クラスタ(代表話者)を内分する点を自由に調節することで任意の声へ変換する際、調節の幅が広くなり好ましい。
次に、本発明による話者クラスタ適応型RBMによる確率モデル(CABと示す)と、従来の非パラレル声質変換手法である適応型RBM(ARBMと示す)の学習話者の変換精度を比較した例を、[表1]に示す。ここでは、学習人数が8人、16人、58人の例を示し、値が高いほど精度が高いことを示す。
Figure 2018159612
従来の適応型RBM(ARBM)では、話者数の少ない場合では高い精度を示すが、話者数を増加させると精度が低下することが分かる。一方、話者ごとのパラメータ数を抑えた話者クラスタ適応型RBMによる確率モデル(CAB)では、話者数を増加させても精度に変化はあまり見られない。
[表2]は、本発明による話者クラスタ適応型RBMによる確率モデルと、従来の適応型RBM(ARBM)による確率モデルとの、センテンス数による変換精度を比較した例である。
Figure 2018159612
[表2]から明らかなように、適応に用いるセンテンス数が1以下のとき、従来モデルでは精度の低下が見られるが、話者クラスタ適応型RBMによる確率モデル(CAB)では、0.5センテンス程度で、10センテンス以上の場合と同等のパフォーマンスが得られる。
以上、本発明によれば、話者情報から話者クラスタを取得して、その話者クラスタを使って確率モデルを得るようにしたので、従来よりも非常に少ないデータ数で、入力話者音声を目標話者音声に声質変換できるようになる。
[5.変形例]
なお、ここまで説明した実施形態例では、目標話者の音声情報vと音韻情報nとを得る処理として、図5の話者クラスタ適応型RBMのグラフ構造に示すように、話者クラスタcが持つパラメータA,V,Uから、演算で目標話者の音声情報vと音韻情報nを得るようにした。
これに対して、図11に示すように、話者クラスタcが持つパラメータA,V,Uから、目標話者の話者情報sを得、得られた話者情報sを使って、話者に依存したパラメータD,A,Bを得た後、これらのパラメータD,A,Bから、目標話者の音声情報vと音韻情報nを得るようにしてもよい。話者に依存したパラメータD,A,Bから、目標話者の音声情報vと音韻情報nを得る処理については、例えば図4の適応型RBMのグラフ構造で説明した処理が適用可能である。
この図11に示すように、話者クラスタcを使って目標話者の話者情報sを得た後、目標話者の音声情報vと音韻情報nを得るようにすることでも、図5の例と同様に、適切な目標話者の音声情報vと音韻情報nを得ることができる。この図11に示す処理を行う場合には、目標話者の音声情報vと音韻情報nが、目標話者の話者情報sから得られるため、それぞれの情報の精度が向上する効果を有する。但し、データ量については、図5の例よりも増加する。
また、ここまで説明した実施形態例では、学習用の音声信号による学習で、声質変換のためのパラメータを学習処理した後、適応話者音声信号の入力で、パラメータを適応話者音声信号に適応した後、適応されたパラメータを使って、目標話者の音声信号に声質変換するようにした。このようにすることで、事前に学習されていない音声信号(適応話者音声信号)を、目標話者の音声信号に声質変換することができる。これに対して、適応話者音声信号の入力を省略して、学習用の音声信号で得たパラメータを使って、学習用の音声信号を目標話者の音声信号に声質変換してもよい。
この場合には、声質変換装置1は、例えば図1に示す構成として、パラメータ学習ユニット11での学習で得られたパラメータをパラメータ記憶ユニット13が記憶し、声質変換処理ユニット12は、パラメータ記憶ユニット13が記憶したパラメータを適用して、入力音声を目標話者の音声に変換処理すればよい。
また、ここまで説明した実施形態例では、学習を行う入力音声(入力話者の音声)や適応を行う入力音声として、人間の話し声の音声を処理する例について説明したが、実施形態例で説明した各情報を得る学習が可能であれば、学習用や適応を行う音声信号(入力信号)として、人間の話し声以外の様々な音とし、その音声信号を学習又は適応するようにしてもよい。例えば、サイレンの音や動物の鳴き声などのような音を学習又は適応するようにしてもよい。
1・・・声質変換装置、11・・・パラメータ学習ユニット、12・・・声質変換処理ユニット、13・・・パラメータ記憶ユニット、14・・・適応ユニット、101・・・CPU、102・・・ROM、103・・・RAM、104・・・HDD/SDD、105・・・接続I/F、106・・・通信I/F、111,121,141・・・音声信号取得部、112,122,142・・・前処理部、113・・・対応話者情報取得部、114,144・・・パラメータ推定部、1141,1441・・・音声情報推定部、1142,1442・・・話者情報推定部、1143,1443・・・音韻情報推定部、1144,1444・・・話者クラスタ計算部、123・・・話者情報設定部、124・・・声質変換部、1241・・・音声情報設定部、1242・・・話者情報設定部、1243・・・音韻情報設定部、1244・・・話者クラスタ計算部、125・・・後処理部、125・・・音声信号出力部
【0003】
声質変換が可能な声質変換装置、声質変換方法およびプログラムを提供することを目的とする。
課題を解決するための手段
[0009]
上記課題を解決するため、本発明の声質変換装置は、入力話者の音声を目標話者の音声に声質変換する声質変換装置であって、パラメータ学習ユニットとパラメータ記憶ユニットと声質変換処理ユニットとを備える。
パラメータ学習ユニットは、学習用の音声に基づく音声情報およびその音声情報に対応する話者情報から、声質変換のためのパラメータを決定する。
パラメータ記憶ユニットは、パラメータ学習ユニットが決定したパラメータを記憶する。
声質変換処理ユニットは、パラメータ記憶ユニットが記憶したパラメータと目標話者の話者情報とに基づいて、入力話者の音声に基づく音声情報の声質変換処理を行う。
ここで、パラメータ学習ユニットは、音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のぞれぞれを変数とすることで、音声情報、話者情報および音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを取得し、確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義するようにし、声質変換処理ユニットは、パラメータから目標話者の話者情報を得、得られた話者情報から目標話者の音声情報を得るようにした。
[0010]
また、本発明の声質変換方法は、入力話者の音声を目標話者の音声に声質変換する方法であって、パラメータ学習ステップと声質変換処理ステップとを含む。
パラメータ学習ステップは、音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、音声情報、話者情報および音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意する。そして、その確率モデ
【0004】
ルとして、固有の適応行列を持つ複数個の話者クラスタを定義し、それぞれの話者について、複数個の話者クラスタへの重みを推定して、学習用の音声についてのパラメータを決定する。
声質変換処理ステップは、パラメータ学習ステップで得られたパラメータ、又は当該パラメータを入力話者の音声に適応した適応後のパラメータと、目標話者の話者情報とに基づいて、入力話者の音声に基づく音声情報の声質変換処理を行う。声質変換処理ステップでの声質変換処理では、パラメータから目標話者の話者情報を得、得られた話者情報から目標話者の音声情報を得るようにした。
[0011]
また本発明のプログラムは、上述した声質変換方法のパラメータ学習ステップと声質変換処理ステップとをコンピュータに実行させるものである。
[0012]
本発明によれば、話者クラスタにより目標話者を設定することができるため、従来よりも非常に少ないデータ数で、入力話者音声を目標話者音声に声質変換できるようになる。
図面の簡単な説明
[0013]
[図1]本発明の一実施の形態例に係る声質変換装置の構成例(例1)を示すブロック図である。
[図2]本発明の一実施の形態例に係る声質変換装置の構成例(例2)を示すブロック図である。
[図3]声質変換装置のハードウェア構成例を示すブロック図である。
[図4]従来の確率モデルを模式的に示す説明図である。
[図5]声質変換装置のパラメータ推定部が備える確率モデルを模式的に示す説明図である。
[図6]本発明の一実施の形態例に係る処理全体の流れを示すフローチャートである。
[図7]図6のステップS3の学習の詳細例を示すフローチャートである。
[図8]図6のステップS4の適応の詳細例を示すフローチャートである。
[図9]図6のステップS8の声質変換の詳細例を示すフローチャートである。
[図10]本発明の一実施形態によるクラスタの重み分布の例を示す説明図である。
[図11]声質変換装置のパラメータ推定部が備える確率モデルの別の例を示す説明図である。
発明を実施するための形態

Claims (8)

  1. 入力話者の音声を目標話者の音声に声質変換する声質変換装置であって、
    学習用の音声に基づく音声情報およびその音声情報に対応する話者情報から、声質変換のためのパラメータを決定するパラメータ学習ユニットと、
    前記パラメータ学習ユニットが決定したパラメータを記憶するパラメータ記憶ユニットと、
    前記パラメータ記憶ユニットが記憶したパラメータと前記目標話者の話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ユニットとを備え、
    前記パラメータ学習ユニットは、音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性を前記パラメータによって表す確率モデルを取得し、前記確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義するようにした
    声質変換装置。
  2. さらに、前記パラメータ記憶ユニットが記憶したパラメータを前記入力話者の音声に適応して、適応後のパラメータを得る適応ユニットを備え、
    前記パラメータ記憶ユニットは、前記適応ユニットで適応後のパラメータを記憶し、前記声質変換処理ユニットは、適応後のパラメータと前記目標話者の話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う
    請求項1に記載の声質変換装置。
  3. 前記パラメータ学習ユニットと前記適応ユニットは共通の演算処理部で構成され、
    前記学習用の音声に基づいてパラメータを決定する処理と、前記入力話者の音声に基づいて適応後のパラメータを得る処理を、前記共通の演算処理部で行うようにした
    請求項2に記載の声質変換装置。
  4. 前記パラメータ学習ユニットが学習する際には、複数のクラスタが最も離れるように学習し、学習した複数のクラスタの間で、話者クラスタへの重みの位置を設定する
    請求項1に記載の声質変換装置。
  5. 前記声質変換処理ユニットは、前記パラメータから前記目標話者の話者情報を得、得られた話者情報から前記目標話者の音声情報を得るようにした
    請求項1に記載の声質変換装置。
  6. 音声情報の特徴量v=[v,・・・,v]∈Rと、音韻情報の特徴量h=[h,・・・,h]∈{0,1},Σ=1との間に、話者情報の特徴量s=[s,・・・,s]∈{0,1},Σ=1に依存した双方な結合重みW∈RI×Jが存在すると仮定したとき、前記話者クラスタとして、話者クラスタc∈Rを導入し、話者クラスタcを、
    Figure 2018159612
    (但し、L∈RK×R=[λ・・・λ]の各列ベクトルλは、それぞれの話者クラスタへの重みを表す非負パラメータであり、||λ||=1,∀の制約を課す)と表現し、音響情報の特徴量のクラスタ依存項のバイアスパラメータをU∈RI×K、音韻情報の特徴量のクラスタ依存項のバイアスパラメータをV∈RJ×K、として、話者非依存項、クラスタ依存項、および話者依存項のそれぞれを、
    Figure 2018159612
    として示す
    請求項1に記載の声質変換装置。
  7. 入力話者の音声を目標話者の音声に声質変換する声質変換方法であって、
    音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意し、その確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義し、それぞれの話者について、前記複数個の話者クラスタへの重みを推定して、学習用の音声についての前記パラメータを決定するパラメータ学習ステップと、
    前記パラメータ学習ステップで得られたパラメータ、又は当該パラメータを前記入力話者の音声に適応した適応後のパラメータと、前記目標話者の前記話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ステップと
    を含む、声質変換方法。
  8. 音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意し、その確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義し、それぞれの話者について、前記複数個の話者クラスタへの重みを推定して、学習用の音声についての前記パラメータを決定して記憶するパラメータ学習ステップと、
    前記パラメータ学習ステップで得られたパラメータ、又は当該パラメータを入力話者の音声に適応した適応後のパラメータと、目標話者の前記話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ステップと、
    をコンピュータに実行させるプログラム。
JP2019503021A 2017-02-28 2018-02-27 声質変換装置、声質変換方法およびプログラム Active JP7018659B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017036109 2017-02-28
JP2017036109 2017-02-28
PCT/JP2018/007268 WO2018159612A1 (ja) 2017-02-28 2018-02-27 声質変換装置、声質変換方法およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2018159612A1 true JPWO2018159612A1 (ja) 2020-01-09
JP7018659B2 JP7018659B2 (ja) 2022-02-15

Family

ID=63370773

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019503021A Active JP7018659B2 (ja) 2017-02-28 2018-02-27 声質変換装置、声質変換方法およびプログラム

Country Status (3)

Country Link
US (1) US20190385628A1 (ja)
JP (1) JP7018659B2 (ja)
WO (1) WO2018159612A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102818B (zh) * 2018-08-29 2022-10-21 昆明理工大学 一种基于信号频率概率密度函数分布的去噪音频采样算法
CN110085209B (zh) * 2019-04-11 2021-07-23 广州多益网络股份有限公司 一种音色筛选方法及装置
CN110085254A (zh) * 2019-04-22 2019-08-02 南京邮电大学 基于beta-VAE和i-vector的多对多语音转换方法
JP2021033129A (ja) * 2019-08-27 2021-03-01 国立大学法人 東京大学 音声変換装置、音声変換方法及び音声変換プログラム
CN111247584B (zh) * 2019-12-24 2023-05-23 深圳市优必选科技股份有限公司 语音转换方法、系统、装置及存储介质
US11183168B2 (en) * 2020-02-13 2021-11-23 Tencent America LLC Singing voice conversion
CN111599368B (zh) * 2020-05-18 2022-10-18 杭州电子科技大学 一种基于直方图匹配的自适应实例规一化语音转换方法
US11532313B2 (en) * 2020-08-27 2022-12-20 Google Llc Selectively storing, with multiple user accounts and/or to a shared assistant device: speech recognition biasing, NLU biasing, and/or other data
JP7498408B2 (ja) 2020-11-10 2024-06-12 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
EP4030421A4 (en) * 2020-11-18 2023-07-12 Minds Lab Inc. METHOD FOR CONVERTING A VOCAL CHARACTERISTIC OF THE VOICE
CN113314101B (zh) * 2021-04-30 2024-05-14 北京达佳互联信息技术有限公司 一种语音处理方法、装置、电子设备及存储介质
JP7508409B2 (ja) * 2021-05-31 2024-07-01 株式会社東芝 音声認識装置、方法およびプログラム
CN113450759A (zh) * 2021-06-22 2021-09-28 北京百度网讯科技有限公司 语音生成方法、装置、电子设备以及存储介质
CN115171648A (zh) * 2022-07-07 2022-10-11 云知声智能科技股份有限公司 一种语音克隆方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050182626A1 (en) * 2004-02-18 2005-08-18 Samsung Electronics Co., Ltd. Speaker clustering and adaptation method based on the HMM model variation information and its apparatus for speech recognition
JP2016029779A (ja) * 2014-07-25 2016-03-03 Kddi株式会社 音声通信システムならびにその音声通信方法および装置
WO2017146073A1 (ja) * 2016-02-23 2017-08-31 国立大学法人電気通信大学 声質変換装置、声質変換方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050182626A1 (en) * 2004-02-18 2005-08-18 Samsung Electronics Co., Ltd. Speaker clustering and adaptation method based on the HMM model variation information and its apparatus for speech recognition
JP2016029779A (ja) * 2014-07-25 2016-03-03 Kddi株式会社 音声通信システムならびにその音声通信方法および装置
WO2017146073A1 (ja) * 2016-02-23 2017-08-31 国立大学法人電気通信大学 声質変換装置、声質変換方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中鹿 亘: "制約付きThree−Way Restricted Boltzmann Machineを用いた音響・音", 電子情報通信学会技術研究報告 VOL.115 NO.346 IEICE TECHNICAL REPORT, vol. 第115巻、第346号, JPN6022001650, 25 November 2015 (2015-11-25), JP, pages 7 - 12, ISSN: 0004684396 *

Also Published As

Publication number Publication date
JP7018659B2 (ja) 2022-02-15
WO2018159612A1 (ja) 2018-09-07
US20190385628A1 (en) 2019-12-19

Similar Documents

Publication Publication Date Title
JP7018659B2 (ja) 声質変換装置、声質変換方法およびプログラム
JP6523893B2 (ja) 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム
Jemine Real-time voice cloning
JP6783475B2 (ja) 声質変換装置、声質変換方法およびプログラム
JP6543820B2 (ja) 声質変換方法および声質変換装置
Hashimoto et al. Trajectory training considering global variance for speech synthesis based on neural networks
Jokinen et al. Vocal effort compensation for MFCC feature extraction in a shouted versus normal speaker recognition task
US10157608B2 (en) Device for predicting voice conversion model, method of predicting voice conversion model, and computer program product
JP2019215500A (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
Nirmal et al. Voice conversion using general regression neural network
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Lai et al. Phone-aware LSTM-RNN for voice conversion
Bollepalli et al. Normal-to-Lombard adaptation of speech synthesis using long short-term memory recurrent neural networks
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP7192882B2 (ja) 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム
JP2021099454A (ja) 音声合成装置、音声合成プログラム及び音声合成方法
Aihara et al. Multiple non-negative matrix factorization for many-to-many voice conversion
Deka et al. Development of assamese text-to-speech system using deep neural network
JP6786065B2 (ja) 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム
Raghavendra et al. Speech synthesis using artificial neural networks
Yang et al. A DNN-based emotional speech synthesis by speaker adaptation
JP2020013008A (ja) 音声処理装置、音声処理プログラムおよび音声処理方法
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Das et al. Aging speech recognition with speaker adaptation techniques: Study on medium vocabulary continuous Bengali speech
WO2024038560A1 (ja) 学習装置、推定装置、学習方法、及びプログラム

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A5211

Effective date: 20190604

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220125

R150 Certificate of patent or registration of utility model

Ref document number: 7018659

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150