WO2022101967A1 - 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム - Google Patents

音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム Download PDF

Info

Publication number
WO2022101967A1
WO2022101967A1 PCT/JP2020/041881 JP2020041881W WO2022101967A1 WO 2022101967 A1 WO2022101967 A1 WO 2022101967A1 JP 2020041881 W JP2020041881 W JP 2020041881W WO 2022101967 A1 WO2022101967 A1 WO 2022101967A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
conversion
function
score
point
Prior art date
Application number
PCT/JP2020/041881
Other languages
English (en)
French (fr)
Inventor
弘和 亀岡
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2022561713A priority Critical patent/JP7498408B2/ja
Priority to US18/033,758 priority patent/US20230419977A1/en
Priority to PCT/JP2020/041881 priority patent/WO2022101967A1/ja
Publication of WO2022101967A1 publication Critical patent/WO2022101967A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Definitions

  • the conversion learning model execution unit learns the learning input data based on the score function, using a function indicating the gradient of the path toward the nearest stop point, which is the nearest stop point of the initial value point, as a score function.
  • the update unit is a voice signal conversion model learning device that converts to step conversion destination data and updates the score function in updating the conversion learning model.
  • the target audio signal is an audio signal having a predetermined sound attribute.
  • the predetermined sound attribute is, for example, a user-instructed sound attribute.
  • the sound attribute of the target audio signal is referred to as a target sound attribute.
  • the audio signal of the conversion destination of the conversion source audio signal by the audio signal conversion system 100 is referred to as a conversion destination audio signal. Therefore, the sound attribute of the conversion destination audio signal is closer to the target sound attribute than the sound attribute of the conversion source audio signal.
  • the audio signal conversion system 100 includes an audio signal conversion model learning device 1 and an audio signal conversion device 2.
  • the voice signal conversion model learning device 1 updates a predetermined machine learning model by machine learning until a predetermined end condition is satisfied.
  • a predetermined machine learning model at a time when a predetermined end condition is satisfied is a voice signal conversion model. Therefore, the voice signal conversion model learning device 1 acquires the voice signal conversion model by updating the predetermined machine learning model by machine learning until the predetermined end condition is satisfied.
  • the audio signal conversion device 2 executes the audio signal conversion process using the audio signal conversion model obtained by the audio signal conversion model learning device 1.
  • the voice feature amount may be anything as long as it is sufficient to form a voice signal, and may be, for example, a vocoder parameter.
  • the voice feature amount may be, for example, a mel cepstrum vocoder.
  • Other examples of voice features will be described in Modifications.
  • the s ⁇ (x ⁇ tilde) of the equation (10) is updated every time the learning is performed. Then, the s ⁇ (x ⁇ tilde) of the equation (10) obtained as a result of the learning of the score approximation device s ⁇ (x) is the estimation result of the score function output by the score approximation device s ⁇ (x).
  • the audio signal conversion system 100 will be described by taking the case where there are a plurality of target sound attributes at the time of learning the conversion learning model (that is, the case where K is an integer of 2 or more) as an example. Therefore, in the following description, the voice signal conversion system 100 will be described by taking the case where the learning data includes the target sound attribute information as an example.
  • the target sound attribute at the time of learning the transformation learning model is one (that is, when K is 1), the target sound attribute information in the following description is not always necessary.
  • the conversion learning model execution unit 112 converts the learning input data into the learning stage conversion destination data by executing the conversion learning model.
  • the transformation learning model execution unit 112 may be anything as long as the learning input data can be converted into the learning stage conversion destination data by executing the transformation learning model.
  • the transformation learning model execution unit 112 is, for example, a neural network representing a learning transformation model.
  • the transformation learning model execution unit 112 is a neural network that includes, for example, a score approximator and represents a learning transformation model.
  • the conversion learning model execution unit 112 includes a voice feature amount acquisition unit 121, a score function estimation unit 122, a spatial point update unit 123, a stationary point determination unit 124, and a signal conversion unit 125.
  • the conversion unit 212 converts the conversion target acquired by the conversion target acquisition unit 211 into a conversion destination audio signal having the sound attribute indicated by the target sound attribute information using the audio signal conversion model.
  • the obtained conversion destination audio signal is output to the audio signal output control unit 213.

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

入力された音声信号である学習用入力データを取得する学習用データ取得部と、学習用入力データを学習段階変換先データに変換する変換学習モデルを実行する変換学習モデル実行部と、変換学習モデルを学習により更新する更新部と、を備え、音声特徴量の系列を表すベクトル空間上の関数あって所定の属性を有する音声信号である目標音声信号の音声特徴量の系列の分布を表す確率密度関数を目標特徴量分布関数とし、ベクトル空間の点であって前記学習用入力データの特徴量の系列を表す点を初期値点とし、ベクトル空間の点xを独立変数とする関数であって点xから目標特徴量分布関数上の停留点であって初期値点の最近接の停留点まで向かう経路の勾配を示す関数をスコア関数として、変換学習モデル実行部はスコア関数に基づき学習用入力データを変換し、更新部は変換学習モデルの更新においてスコア関数を更新する、音声信号変換モデル学習装置。

Description

音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
 本発明は、音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラムに関する。
 入力された音声の言語情報(発話文)を保持したまま非言語・パラ言語(話者性や発話様式など)のみを変換する技術を声質変換といい、テキスト音声合成の話者性変換、発声支援、音声強調、発音変換などへの応用が期待されている。声質変換の技術の1つとして、例えば機械学習を用いることが提案されている(非特許文献1及び2)。
C.-C. Hsu, H.-T. Hwang, Y.-C. Wu, Y. Tsao, and H.-M. Wang, "Voice conversion from non-parallel corpora using variational auto-encoder," in Proc. APSIPA, 2016. H. Kameoka, T. Kaneko, K. Tanaka, and N. Hojo, "StarGAN-VC: Non-parallel many-to-many voice conversion using star generative adversarial networks," in Proc. SLT, 2018, pp. 266-273
 しかしながら、これまで提案されてきた機械学習を用いる場合、変換元の音声信号のサンプルと正解データの音声信号のサンプルとの組を学習データとして用意する必要があった。さらに、その学習データが有する2つの音声信号のサンプルは、同一文が読み上げられたものである必要があった。例えば、変換元の音声信号のサンプルが「おはよう」という文が読み上げられた結果であれば、対応する正解データの音声信号のサンプルも「おはよう」という文が読み上げられたものでなければならなかった。このように、従来の技術では、用意すべき学習データに関して、変換元の音声信号のサンプルと正解データの音声信号のサンプルとはどちらも同一文が読み上げられたものでなければならないという制約があった。目標音声は、例えばユーザーが指示する属性等の予め定められた所定の属性を有する音声である。
 上記事情に鑑み、本発明は、機械学習を用いた声質変換の技術において学習に用いられるデータに課せられる制約を緩和する技術を提供することを目的としている。
 本発明の一態様は、入力された音声信号である学習用入力データを取得する学習用データ取得部と、前記学習用入力データを変換先の音声信号である学習段階変換先データに変換する機械学習のモデルである変換学習モデルを実行する変換学習モデル実行部と、前記変換学習モデルを学習により更新する更新部と、を備え、音声信号から得られる特徴量である音声特徴量の系列を表すベクトル空間上の関数あって所定の属性を有する音声信号である目標音声信号の音声特徴量の系列の分布を表す確率密度関数を目標特徴量分布関数とし、前記ベクトル空間の点であって前記学習用入力データの特徴量の系列を表す点を初期値点とし、前記ベクトル空間の点xを独立変数とする関数であり、前記点xから前記目標特徴量分布関数上の停留点であって、前記初期値点の最近接の停留点である最近接停留点まで向かう経路の勾配を示す関数をスコア関数として、前記変換学習モデル実行部は、前記スコア関数に基づき前記学習用入力データを前記学習段階変換先データに変換し、前記更新部は、前記変換学習モデルの更新において前記スコア関数を更新する、音声信号変換モデル学習装置である。
 本発明により、機械学習を用いた声質変換の技術において学習に用いられるデータに課せられる制約を緩和する技術を提供することが可能となる。
実施形態の音声信号変換システム100の概要を説明する説明図。 実施形態における変換学習モデルを説明する第1の説明図。 実施形態におけるサンプリングの処理の一例を示す図。 実施形態における音声信号変換モデル学習装置1のハードウェア構成の一例を示す図。 実施形態における制御部11の機能構成の一例を示す図。 実施形態における変換学習モデル実行部112が実行する処理の流れの一例を示す図。 実施形態における音声信号変換モデル学習装置1が実行する処理の流れの一例を示すフローチャート。 実施形態における音声信号変換装置2のハードウェア構成の一例を示す図。 実施形態における制御部21の機能構成の一例を示す図。 実施形態における音声信号変換装置2が実行する処理の流れの一例を示すフローチャート。 実施形態の実験において用いられたスコア近似器のネットワーク構成を示す図。 実施形態における既知話者条件の下でのMCDの比較結果の一例を示す図。 実施形態における未知話者条件の下でのMCDの比較結果の一例を示す図。 実施形態における音質のMOS評価結果の一例を示す図。 実施形態における話者類似性のMOS評価結果の一例を示す図。
(実施形態)
 図1は、実施形態の音声信号変換システム100の概要を説明する説明図である。音声信号変換システム100は、変換元音声信号を、音属性が目標音声信号の有する音属性である音声信号に変換する。音声信号は音声を表す信号である。変換元音声信号は、音声信号変換システム100による変換対象の音声信号である。音属性は、音に関する属性である。音属性は、例えば話者の性別である。音属性は、例えば話者を識別する識別子であってもよい。
 目標音声信号は、予め定められた所定の音属性を有する音声信号である。所定の音属性は例えばユーザー指示する音属性である。以下、目標音声信号が有する音属性を目標音属性という。以下、音声信号変換システム100による変換元音声信号の変換先の音声信号を変換先音声信号という。そのため、変換先音声信号の音属性は変換元音声信号の音属性よりも目標音属性に近い。
 音声信号変換システム100は、例えば目標音属性は女性が発した音という属性である場合であって変換元音属性は男性が発した音という属性である場合、男性の声の音声信号を女性の声の音声信号に変換する。変換元音属性とは、変換元音声信号の音属性である。
 以下、目標音属性を有する音声信号に変換元音声信号を変換する処理を、音声信号変換処理という。音声信号変換処理は、具体的には、音声信号変換モデルを実行する処理である。音声信号変換モデルは、予め学習済みの機械学習のモデルであって変換元音声信号を、目標音属性を有する音声信号に変換する機械学習のモデルである。そのため、音声信号変換モデルは、機械学習によって得られた結果であり、機械学習による学習結果である。
 音声信号変換システム100は、音声信号変換モデル学習装置1及び音声信号変換装置2を備える。音声信号変換モデル学習装置1は、所定の機械学習のモデルを所定の終了条件が満たされるまで機械学習によって更新する。所定の終了条件が満たされた時点の所定の機械学習のモデルが音声信号変換モデルである。そのため、音声信号変換モデル学習装置1は、所定の終了条件が満たされるまで所定の機械学習のモデルを機械学習によって更新することで、音声信号変換モデルを取得する。音声信号変換装置2は、音声信号変換モデル学習装置1が得た音声信号変換モデルを用いて音声信号変換処理を実行する。
 以下説明の簡単のため、機械学習を行うことを学習ともいう。また、機械学習のモデル(以下「機械学習モデル」という。)を機械学習によって更新するとは、機械学習モデルにおけるパラメータの値を好適に調整することを意味する。以下の説明において、Aであるように学習するとは、機械学習モデルにおけるパラメータの値がAを満たすように調整されることを意味する。Aは条件を表す。また、以下、学習用とは、機械学習モデルの更新に用いられることを意味する。なお、機械学習のモデルとは、実行される条件と順番とが予め定められた1又は複数の処理を含む集合である。
 音声信号変換モデル学習装置1が更新する所定の機械学習のモデル(以下「変換学習モデル」という。)は、入力された音声信号を変換する機械学習のモデルである。変換学習モデルには、学習用の音声信号であって変換対象の音声信号(以下「学習用入力データ」という。)が入力される。また、変換学習モデルには、学習用の音声信号であって変換学習モデルによる変換後の学習用入力データとの比較に用いられる音声信号(以下「学習用参照データ」という。)が入力される。すなわち、学習用参照データは、機械学習におけるいわゆる正解データである。以下、少なくとも1つの学習用入力データと1つの学習用参照データとの対を含むデータを学習用データという。すなわち、学習用データは、学習用入力データと学習用参照データの組を少なくとも含むデータであり、いわゆる学習データの一例である。
 変換学習モデルは、入力された学習用入力データを学習段階変換先データに変換する。学習段階変換先データは、有する音属性について、学習用入力データよりも目標音属性に近い音声信号である。音声信号変換モデル学習装置1は、学習段階変換先データと学習用参照データとの違い(以下「損失」という。)に基づき、変換学習モデルを更新する。
 なお、学習済みの変換学習モデルが音声信号変換モデルである。すなわち、所定の終了条件が満たされた時点における変換学習モデルが音声信号変換モデルである。
 図2は、実施形態における変換学習モデルを説明する説明図である。変換学習モデルは、学習用データを用いた学習によりスコア関数の更新の処理(以下「スコア関数更新処理」という。)を含む。なお、変換学習モデルは例えばニューラルネットワークで表される。ニューラルネットワークとは、電子回路、電気回路、光回路、集積回路等の回路であって機械学習モデルを表現する回路である。ニューラルネットワークのパラメータは、損失に基づいて好適に調整される、ネットワークのパラメータは、表現する機械学習モデルのパラメータである。またネットワークのパラメータは、ネットワークを構成する回路のパラメータである。
 スコア関数の更新とはスコア関数を表すニューラルネットワークのパラメータ(以下「スコアパラメータ」という。)を更新することを意味する。スコアパラメータの初期値は予め与えられた形である。スコア関数は、空間点xを独立変数とする関数であり、空間点xから目標特徴量分布関数上の停留点であって初期値点の最近接の停留点である最近接停留点まで向かう経路の空間点xにおける勾配を示す関数である。したがって、スコア関数の値は、空間点xにおけるスコア関数の値である。
 空間点xは、音声特徴量空間内の点である。音声特徴量空間は、バナッハ空間やソボレフ空間等のベクトル空間であって音声信号から得られる特徴量(以下「音声特徴量」という。)の系列(以下「音声特徴量系列」という。)を表すベクトル空間である。そのため、音声特徴量空間はいわゆる特徴量空間の1種である。そのため、空間点xとは、音声特徴量空間内の位置であり音声特徴量空間内の位置xとして表現されるデータでもある。音声特徴量空間の位置xとして表現されるデータとは、具体的には音声特徴量系列である。
 目標特徴量分布関数は、音声特徴量空間上の関数であって目標音声信号の特徴量の系列の分布を表す確率密度関数である。変換先の音声信号の特徴量の系列の分布とは、変換先の音声信号の音声特徴量系列の分布である。目標特徴量分布関数は、連続で微分可能である。
 初期値点は、音声特徴量空間内の点(すなわち空間点)であって入力された学習用入力データの音声特徴量系列を表す点である。停留点は、例えば極大点である。
 スコア関数は、目標特徴量分布関数の定義域上では、目標特徴量分布関数の勾配を示す値である。スコア関数は、目標特徴量分布関数の対数の1回微分の値である。
 音声特徴量は、音声信号を構成するのに充分なものであればどのようなものであってもよく、例えばボコーダパラメータであってもよい。音声特徴量は、例えばメルケプストラムボコーダであってもよい。音声特徴量のその他の例は変形例にて説明する。
 変換学習モデルは、目標特徴量分布関数上の停留点であって初期値点の最近接の停留点をスコア関数に基づいて推定する処理(以下「最近接停留点推定処理」という。)を有する機械学習モデルであればどのような機械学習モデルであってもよい。
 最近接停留点推定処理は、最近接停留点を、スコア関数を用いて推定可能な方法であればどのような方法であってもよい。最近接停留点は、例えばDSM(Denoising Score Matching; DSM)や重み付きDSM等のスコア関数推定処理と、ランジュバン動力学や焼きなまし版ランジュバン動力学等の空間点更新処理とを順番に繰り返し実行することにより、推定される。すなわち、最近接停留点推定処理は、例えばスコア関数推定処置と空間点更新処理とを順番に繰り返し実行し停留点を推定する処理である。スコア関数推定処理は、空間点xにおけるスコア関数を推定する処理である。空間点更新処理は、空間点xを更新する処理である。なおDSMは、雑音除去スコアマッチングとも呼称される。
(ランジュバン動力学、DSM、重み付きDSM、焼きなまし版ランジュバン動力学について)
 ここでランジュバン動力学、DSM、重み付きDSM及び焼きなまし版ランジュバン動力学を説明する。ランジュバン動力学は、例えば参考文献1に詳細が記載されている方法である。DSMは、例えば参考文献2に詳細が記載されている方法である。重み付きDSMは、例えば参考文献3に詳細が記載されている方法である。焼きなまし版ランジュバン動力学は、例えば参考文献3に詳細が記載されている方法である。
 参考文献1:M. Welling and Y. W. Teh, “Bayesian Learning via Stochastic Gradient Langevin Dynamics,” in Proc. ICML, pp. 681-688, 2011.
 参考文献2:P. Vincent, “A Connection Between Score Matching and Denoising Autoencoders,” Neural Computation, Vol 23, No. 7, pp. 1661-1674, 2011. 
 参考文献3:Y. Song and S. Ermon, “Generative modeling by estimating gradients of the data distribution,” in Advances in Neural Information Processing Systems 32, 2019, pp. 11918-11930
 詳細は上述の参考文献に記載されているため、ここでは簡単にランジュバン動力学、DSM及び重み付きDSM及び焼きなましランジュバン動力学を説明する。
 まずランジュバン動力学について説明する。ランジュバン動力学は、ノイズ項に依存する更新則を実行する処理であって、例えば以下の式(1)で表される更新則を、log p(x)を大きくするように、繰り返し実行する処理である。式(1)が含む各項のうち式(2)の項がノイズ項である。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
 このように、式(1)で表されるランジュバン動力学は、式(1)で表される更新則にしたがって空間点xを逐次的に決定していく処理である。x(t)は、t回目のステップにおける空間点xを意味する。x(0)は、初期値点であり、学習用入力データである。なお、学習用入力データの数は必ずしも1つである必要は無く複数であってもよい。以下、学習用入力データの集合を学習サンプルχという。そのため、学習用入力データをN個(Nは1以上の整数)含む学習サンプルχは、以下の式(3)で表される。
Figure JPOXMLDOC01-appb-M000003
 αは正のステップサイズパラメータを意味する。Tは反復回数を表す。z(t)は、平均が0で分散が1のガウス白色ノイズを表す。p(x)は、目標特徴量分布関数の輪郭を表す。式(1)に含まれる以下の式(4)がスコア関数の一例である。
Figure JPOXMLDOC01-appb-M000004
 式(1)は、Tが十分大きくαが十分小さいという条件が満たされる場合に所定の正則性条件の下でx(T)の系列が含む各サンプル(すなわちx(T))がp(x)に従うことを示す。このように、たとえp(x)が推定できない場合であってもスコア関数さえ推定可能であればp(x)に従うサンプルは推定可能である。すなわち、スコア関数さえ推定可能であればランジュバン動力学によって最近接停留点の推定が可能である。なお、スコア関数を推定するとは、具体的には各空間点xにおけるスコア関数の値を推定することを意味する。
 ただし、ランジュバン動力学そのものはスコア関数を推定する方法ではない。そのため、ランジュバン動力学を用いて最近接停留点を判定するには、各空間点xにおけるスコア関数の値が他の方法によって推定される必要がある。
 DSMの方法は、スコア関数を推定する方法の一例である。DSMは、音声特徴量空間全体にデータが存在することを前提として、音声特徴量空間の各空間点xでスコア関数の値を取得する。そのため、ランジュバン動力学とDSMとを用いることで、DSMによって得られたスコア関数を用いてランジュバン動力学によって更新先の空間点xを推定するという処理が実行可能である。
 ところで、画像等の実世界のデータの多くは高次元空間中の低次元多様体に局在する傾向が有る。このような場合、DSMよりも適切にスコア関数の値を推定可能な方法として重み付きDSMがある。
 DSMと重み付きDSMとについて目的関数を説明する。そこで、まずはDSMや重み付きDSM等を含むスコアマッチングと呼称される方法で共通に用いられるスコア近似器について説明する。
 スコア近似器は、パラメータθを含む関数であってパラメータθを更新する所定の最適化の処理の結果がスコア関数に略同一である関数を表すニューラルネットワークである。ラメータθを含む関数であってパラメータθを更新する所定の最適化の処理の結果がスコア関数に略同一である関数は、スコア近似器が表す機械学習のモデルである。
 所定の最適化の処理は、例えば、スコア近似関数sΘ(x)とスコア関数との間の二乗誤差の期待値を最小化する処理である。スコア近似関数sΘ(x)は、スコア近似器が表す関数である。すなわち、スコア近似関数sΘ(x)は、スコア近似器が表す機械学習のモデルである。スコア近似関数sΘ(x)とスコア関数との間の二乗誤差の期待値を表す関数が目的関数の一例である。すなわち目的関数の値が損失である。以下の式(5)は、スコア近似関数sΘ(x)とスコア関数との間の二乗誤差の期待値の一例を表す。
Figure JPOXMLDOC01-appb-M000005
 Ex~p(x)[・]は、[・]の期待値を意味する。Ex~p(x)[・]はχが含むサンプル(すなわち学習用入力データ)の数が十分大きければ、χに関するサンプル平均に略同一である。
 式(5)の目的関数を用いた最適化の処理は、目標値∇logp(x)は何かしらの方法により観測可能であるということが暗に想定された処理である。一方でp(x)の具体形を仮定せずともスコア関数を推定可能な方法も存在する。その1つが参考文献4に記載の陰スコアマッチングと呼称される方法である。
 参考文献4:A. Hyv “arinen, “Estimation of non-normalized statistical models usingscore matching,”Journal of Machine Learning Research, vol. 6, pp.695-709, 2005.
 陰スコアマッチングでは、式(5)が定数項を除き、以下の式(6)と等しくなる、という事実を利用する方法である。
Figure JPOXMLDOC01-appb-M000006
 式(6)において、∇Θ(x)はsΘ(x)のヤコビ行列を表す。tr(・)は行列のトレースを表す。この方法では、目的関数の中から∇logp(x)の項を除くことができる。
 上述したようにスコア近似器は、具体的にはニューラルネットワークによって形成される。
 スコア近似器のニューラルネットワークのネットワーク構造は、入力と出力が同形であればどのようなニューラルネットワークであってもよい。スコア近似器は、例えば正規化層と非線形活性化層とを備えるニューラルネットワークである。このような場合、正規化層は、バッチ正規化層であってもよいし、条件付バッチ正規化層であってもよいし、インスタンス正規化層であってもよいし、条件付インスタンス正規化層であってもよい。非線形活性化層は、正規化線形層であってもよいし、ゲート付き線形層であってもよい。
 それでは、DSMにおける目的関数について説明する。DSMは、空間点xのデータに所定の分布qσ(x^チルダ|x)にしたがうノイズをくわえた後、ノイズ込みのデータの分布qσ(x^チルダ)のスコア関数を推定する、という方法である。以下、qσ(x^チルダ|x)をノイズ分布という。なお、x^チルダは、ノイズが付与された後の空間点xのデータを表す。なお、x^チルダは、xにアクセント記号としてチルダが付与された記号を表し、具体的には以下の式(7)で表される記号を意味する。
Figure JPOXMLDOC01-appb-M000007
 σはノイズ分布qσ(x^チルダ|x)の分散を示す。以下、ノイズ分布の分散をノイズ分散という。qσ(x^チルダ)は以下の式(8)で表される。そのため、qσ(x)は、p(x)のパルツェン窓推定量と見なすことができる量である。
Figure JPOXMLDOC01-appb-M000008
 ノイズ分布qσ(x^チルダ|x)が以下の式(9)に示すガウス分布である場合、DSMにおいては目的関数として、式(5)の目的関数や式(5)と式(6)とを用いた目的関数に代えて以下の式(10)で表される関数が用いられる。そのため、DSMでは式(10)で表される目的関数の値を最小化するように、スコア近似関数sΘ(x)を表すスコア近似器の学習が行われる。
 以下、説明の簡単のため、スコア近似関数sΘ(x)を表すスコア近似器のことをスコア近似器sΘ(x)という。スコア近似関数sΘ(x)を表すスコア近似器の学習とは、スコア近似器sΘ(x)が表す機械学習のモデルが学習により更新されることを意味する。そのため、スコア近似器sΘ(x)の学習とは、スコア近似器sΘ(x)が表す機械学習のモデルが学習により更新されることを意味する。
Figure JPOXMLDOC01-appb-M000009
Figure JPOXMLDOC01-appb-M000010
 スコア近似器sΘ(x)の学習では学習のたびに式(10)のsΘ(x^チルダ)が更新される。そして、スコア近似器sΘ(x)の学習の結果得られる式(10)のsΘ(x^チルダ)が、スコア近似器sΘ(x)の出力するスコア関数の推定結果ある。
 式(10)を最小化するsΘ(x^チルダ)はスコア関数にほとんど確実に一致することが知られている(参考文献2参照)。例えば、ノイズ分布の分散σの二乗が十分小さくqσ(x)とp(x)とが略同一である場合、式(10)を最小化するsΘ(x^チルダ)は∇log(x)にも略同一である。このことは、直観的には、対数分布の勾配の方向は、点x^チルダにおいてノイズの付与前のxに向かう方向と一致する、ということを意味する。
 重み付きDSMの目的関数について説明する。重み付きDSMでは、まず、以下の式(11)が表す複数のノイズ分散を用いてスコア近似器sΘ(x)が学習される。式(11)におけるLは1以上の整数である。そのため、式(11)は、L個のノイズ分散の集合を表す。したがってlは、ノイズ分散を識別する識別子である。
Figure JPOXMLDOC01-appb-M000011
 重み付きDSMでは次に、データの分布qσl(x)が音声特徴量空間の全空間を覆うという初期条件の下で反復計算を実行する。重み付きDSMの反復計算では、データの分布qσl(x)を真の分布p(x)に近づけるように1回の計算ごとにノイズ分散σがより小さい値に更新される。
 重み付きDSMでは、ノイズ分散σごとにスコア近似器sΘ(x、l)が存在するため、スコア近似器sΘ(x、l)の集合はノイズ分散の大小に応じて異なる振る舞いを学習可能である。
 重み付きDSMにおける目的関数は、例えば以下の式(12)で表される関数である。
Figure JPOXMLDOC01-appb-M000012
 式(12)は、ノイズ分散σごとに定義された式(10)の目的関数の重み付き線形和である。なお、λは正の値である。
 重み付きDSMにおける目的関数は、例えば以下の式(13)で表される関数であってもよい。
Figure JPOXMLDOC01-appb-M000013
 式(13)は、式(12)の重みλをσ に置き換えた関数である。
 なお、ノイズ分散σの集合は(σ/σ)=・・・=(σ/σ(L-1))=r(rは0以上1以下の実数)等の等比数列の関係を満たすことが望ましい。
 このように、重み付きDSMでは、ノイズ分散σの異なる複数の目的関数を用いる。各目的関数のsΘ(x、l)の項は、ノイズ分散σに応じた値であり、必ずしも同一では無い。重み付きDSMでは、複数の目的関数を用いてスコア近似器sΘ(x、l)を所定の終了条件が満たされるまで学習した後に複数の目的関数全ての分散σを小さくする。重み付きDSMでは直前の学習時よりも小さな分散σを有する目的関数を用いて、スコア近似器sΘ(x、l)の学習を所定の終了条件が満たされるまで行う。重み付きDSMでは、このように、スコア近似器sΘ(x、l)の学習と分散σの縮小とを繰り返すことで、スコア近似器の推定結果の精度を上げる。
 なお、所定の終了条件が満たされるまで実行される反復計算において、qσl(x)の分散の初期値は、qσl(x)が音声特徴量空間の全空間を覆う分散である。qσl(x)は反復計算が進むごとに真の分布p(x)に近づくように更新される。具体的には、qσl(x)は、学習が進むにつれてノイズ分散の大きさが小さくなるように更新される。
 このようにしてスコア近似器sΘ(x、l)が学習された後にはスコア関数の推定が可能であるため、ランジュバン動力学等の空間点xの更新則を用いて更新先の空間点xを推定することができる。すなわち、このようにしてスコア近似器sΘ(x、l)が学習された後には、qσLにしたがうサンプルのサンプリングが可能である。
 最後に焼きなまし版ランジュバン動力学について説明する。焼きなまし版ランジュバン動力学は、空間点更新処理の一例である。焼きなまし版ランジュバン動力学によるサンプリングの処理は、具体的には以下の図3に示すアルゴリズムを実行する処理である。
 図3は、実施形態におけるサンプリングの処理の一例を示す図である。図3のアルゴリズムはPythonのコンピュータ言語で記載されたアルゴリズムである。図3のαは、ノイズ分散に応じて適応的に変化するステップサイズである。εは、αのスケールパラメータである。
 ここまでの変換学習モデルの説明では、目標音属性が1つの場合を例にして説明がおこなわれた。目標音属性が1つの場合、学習済みの変換学習モデルは、入力された音声信号を学習時の目標音属性の音声信号にしか変換できない。しかしながら、学習時から目標音属性を示す情報(以下「目標音属性情報」という。)とともに複数の目標音属性について学習が行われれば、変換済み変換学習モデルは、ユーザーの指定する目標音属性の音声信号に変換元音声信号を変換可能である。
 そこで、学習時に複数の目標音属性について学習が行われる場合について、学習の方法の一例を、重み付きDSMと焼きなましランジュバン動力学とを例に説明する。
 変換学習モデルを複数の目標音属性について学習させる方法の1つは、目標音属性ごとに用意された複数のスコア近似器を用いる方法である。このような場合であって、ノイズ分布がガウス分布である場合には、以下の式(14)で表される関数が目的関数として用いられる。
Figure JPOXMLDOC01-appb-M000014
 kは、目標音属性を示す指標(以下「目標音属性指標」という。)である。すなわち異なるkは異なる目標音属性を示す。Kは1以上の整数であって変換学習モデルに学習させる目標音属性の数である。スコア近似器sΘ(x、l)は、目標音属性ごとに存在するため、各スコア近似器は式(14)において目標音属性指標によって互いに区別される。そのため、式(14)においてスコア近似器はsΘk(x、l)と表現される。
 xk、nを目標音属性がkで示される音声信号の第n発話の音声特徴量系列として、Ek、x[・]は、各目標音属性についてN発話からなる学習データχ={xk、n}に関するサンプル平均に略同一の値である。学習データχの要素のxk、nは、D×Mk、nの実行列である。Dは音声特徴量の次元を表し、Mk、nは音声特徴量系列の長さを表す。学習データχの要素のxk、nにおけるkは1以上K以下の整数であり、nは1以上N以下の整数である。Ex^チルダ[・]はモンテカルロ近似により算出される。
 このように、式(14)は、スコア近似器ごとの違いであってノイズを付与された空間点xのデータとノイズが付与される前の空間点xのデータとの差とスコア関数の空間点xにおける値との違いの合計を表す。
 変換学習モデルを複数の目標音属性について学習させる方法の他の1つは、単一のスコア近似器を用い、複数の目標音属性についてスコア関数を推定可能になるようにその1つのスコア近似器を学習させる方法である。このような場合であって、ノイズ分布がガウス分布である場合には、以下の式(15)で表される関数が目的関数として用いられる。
Figure JPOXMLDOC01-appb-M000015
 式(15)においてsΘ(x、l、k)はスコア近似器を表す。式(15)においても、xk、nを目標音属性がkで示される音声信号の第n発話の音声特徴量系列として、Ek、x[・]は、各目標音属性についてN発話からなる学習データχ={xk、n}に関するサンプル平均に略同一の値である。また、式(15)においても、学習データχの要素のxk、nは、D×Mk、nの実行列であり、学習データχの要素のxk、nにおけるkは1以上K以下の整数であり、nは1以上N以下の整数である。式(15)においてもEx^チルダ[・]はモンテカルロ近似により算出される。
 このように、式(15)は、単一のスコア近似器が有する複数の違いであってノイズを付与された空間点xのデータとノイズが付与される前の空間点xのデータとの差とスコア関数の空間点xにおける値との違いの合計を表す。
 また、このように式(14)と式(15)とはどちらも、ノイズを付与された空間点xのデータとノイズが付与される前の空間点xのデータとの差とスコア関数の空間点xにおける値との違いの合計を表す。式(14)と式(15)との違いは、複数の目標音属性について学習をさせたい場合に、1つのスコア近似器のみを用いるのか、目標音属性ごとにスコア近似器を用いるのか、の違いである。
 なお、重み付きDSMの場合、DSMと異なり、複数のノイズ分散が用いられ、少なくとも1つのノイズ分散は他のノイズ分散と異なる。例えば、式(15)に表現されるように、1つのスコア近似器を用いる重み付きDSMでは、1つのスコア近似器がノイズ分散の異なる複数のノイズ分布を用いる。また式(14)に表現されているように、複数のスコア近似器を用いる重み付きDSMにおいても複数のノイズ分布が用いられる。複数のスコア近似器を用いる重み付きDSMにおいても、各ノイズ分布のノイズ分散は識別子lごとに異なる。
 このように、スコア関数推定処理の一例は、ノイズの分布を用いてスコア関数を推定する処理である。また、ノイズの分布を用いてスコア関数を推定する処理の一例は、少なくとも1つが他と異なる分散を有する複数のノイズの分布を用いてスコア関数を推定する処理である。少なくとも1つが他と異なる分散を有する複数のノイズの分布を用いてスコア関数を推定する処理の一例は、重み付きDSMである。
 スコア近似器sΘk(x、l)又はsΘ(x、l、k)が学習できれば、入力された音声信号の音声特徴量系列を初期値点x(0)として修正アルゴリズムが実行されることで、入力された音声信号は音属性がkの音声信号に変換される。修正アルゴリズムは、sΘ(x、l)をsΘk(x、l)又はsΘ(x、l、k)に置き換えた上で図3のアルゴリズムである。以下説明の簡単のため修正アルゴリズムも図3のアルゴリズムという。
 なお、空間点更新処理は、式(1)の更新則に限らず、以下の式(16)の更新則を実行する処理であってもよい。
Figure JPOXMLDOC01-appb-M000016
 以下、変換学習モデルの学習時の目標音属性が複数の場合(すなわちKが2以上の整数の場合)を例に音声信号変換システム100を説明する。そのため、以下の説明では、学習用データが目標音属性情報を含む場合を例に音声信号変換システム100を説明する。変換学習モデルの学習時の目標音属性が1つの場合(すなわちKが1の場合)には、以下の説明における目標音属性情報は必ずしも必要ない。
 図4は、実施形態における音声信号変換モデル学習装置1のハードウェア構成の一例を示す図である。音声信号変換モデル学習装置1は、バスで接続されたCPU等のプロセッサ91とメモリ92とを備える制御部11を備え、プログラムを実行する。音声信号変換モデル学習装置1は、プログラムの実行によって制御部11、入力部12、通信部13、記憶部14及び出力部15を備える装置として機能する。
 より具体的には、プロセッサ91が記憶部14に記憶されているプログラムを読み出し、読み出したプログラムをメモリ92に記憶させる。プロセッサ91が、メモリ92に記憶させたプログラムを実行することによって、音声信号変換モデル学習装置1は、制御部11、入力部12、通信部13、記憶部14及び出力部15を備える装置として機能する。
 制御部11は、音声信号変換モデル学習装置1が備える各種機能部の動作を制御する。制御部11は、変換学習モデルを実行する。変換学習モデルを実行するとは変換学習モデルが含む処理を実行し、学習用入力データを学習段階変換先データに変換することを意味する。制御部11は、例えば出力部15の動作を制御し、出力部15に変換学習モデルの実行結果を出力させる。制御部11は、例えば変換学習モデルの実行により生じた各種情報を記憶部14に記録する。記憶部14が記憶する各種情報は、例えば変換学習モデルの学習結果を含む。制御部11は変換学習モデルの実行結果に基づき変換学習モデルを更新する。
 入力部12は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部12は、これらの入力装置を音声信号変換モデル学習装置1に接続するインタフェースとして構成されてもよい。入力部12は、音声信号変換モデル学習装置1に対する各種情報の入力を受け付ける。入力部12には、例えば学習用データが入力される。
 通信部13は、音声信号変換モデル学習装置1を外部装置に接続するための通信インタフェースを含んで構成される。通信部13は、有線又は無線を介して外部装置と通信する。外部装置は、例えば学習用データの送信元の装置である。
 記憶部14は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部14は音声信号変換モデル学習装置1に関する各種情報を記憶する。記憶部14は、例えば入力部12又は通信部13を介して入力された情報を記憶する。記憶部14は、例えば変換学習モデルを記憶する。記憶部14は、例えば変換学習モデルの実行により生じた各種情報を記憶する。
 なお、学習用データは、必ずしも入力部12だけに入力される必要もないし、通信部13だけに入力される必要もない。学習用データは、入力部12と通信部13とのどちらから入力されてもよい。例えば学習用参照データは入力部12に入力され、入力部12に入力された学習用参照データに対応する学習用入力データは通信部13に入力されてもよい。また、学習用データは必ずしも入力部12又は通信部13から取得される必要はなく、予め記憶部14が記憶済みであってもよい。
 出力部15は、各種情報を出力する。出力部15は、例えばCRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイ、有機EL(Electro-Luminescence)ディスプレイ等の表示装置を含んで構成される。出力部15は、これらの表示装置を音声信号変換モデル学習装置1に接続するインタフェースとして構成されてもよい。出力部15は、例えば入力部12に入力された情報を出力する。出力部15は、例えば入力部12又は通信部13に入力された学習用データを表示してもよい。出力部15は、例えば変換学習モデルの実行結果を表示してもよい。
 図5は、実施形態における制御部11の機能構成の一例を示す図である。制御部11は学習用データ取得部111、変換学習モデル実行部112、損失取得部113、更新部114、記録部115、出力制御部116及び終了判定部117を備える。
 学習用データ取得部111は、入力部12又は通信部13に入力された学習用データを取得する。学習用データ取得部111は、予め記憶部14に学習用データが記録済みの場合には、記憶部14から学習用データを読み出してもよい。
 変換学習モデル実行部112は、変換学習モデルを実行することで、学習用入力データを学習段階変換先データに変換する。変換学習モデル実行部112は、変換学習モデルを実行することで、学習用入力データを学習段階変換先データに変換可能であればどのようなものであってもよい。変換学習モデル実行部112は、例えば学習変換モデルを表すニューラルネットワークである。変換学習モデル実行部112は、例えばスコア近似器を含み学習変換モデルを表すニューラルネットワークである。変換学習モデル実行部112は、音声特徴量取得部121、スコア関数推定部122、空間点更新部123、停留点判定部124及び信号変換部125を備える。
 音声特徴量取得部121は、学習用データ取得部111が取得した学習用入力データの音声特徴量系列を取得する。スコア関数推定部122は、スコア関数推定処理を実行する。空間点更新部123は、空間点更新処理を実行する。停留点判定部124は、空間点xが目標特徴量分布関数上の停留点か否かを判定する。信号変換部125は、信号変換処理を実行する。
 信号変換処理は、停留点と判定された空間点xが表す音声特徴量系列(以下「推定系列」という。)に基づき、音声特徴量系列を音声信号に変換する処理である。信号変換処理は、具体的には、音声特徴量系列からボコーダなどを用いて音声信号を合成する処理である。
 なお、ニューラルネットワークの層のうち推定系列を出力する層のサイズと、学習用入力データの音声特徴量系列が入力される層のサイズとは、同一である。
 図6は、実施形態における変換学習モデル実行部112が実行する処理の流れの一例を示す図である。音声特徴量取得部121が、学習用入力データの音声特徴量系列を取得する(ステップS101)。次にスコア関数推定部122が、取得した音声特徴量系列を示す空間点を初期値点x(0)として、目標音属性情報を用いるスコア関数推定処理の実行により、初期値点x(0)におけるスコア関数を推定する(ステップS102)。目標音属性情報を用いるスコア関数推定処理とは、目標音属性情報が示す目標音属性について実行されるスコア関数推定処理であって、例えば式(14)又は式(15)に記載の目的関数を用いるスコア関数推定処理である。
 次に、空間点更新部123が直前の処理で推定されたスコア関数に基づき、目標音属性情報を用いる空間点更新処理を実行することで、空間点xを更新する(ステップS103)。目標音属性情報を用いる空間点更新処理とは、目標音属性情報が示す目標音属性について実行される空間点更新処理であって、例えば焼きなましランジュバン動力学である。
 次に、停留点判定部124が、ステップS103の処理による更新後の空間点xの位置が目標特徴量分布関数上の停留点か否かを判定する(ステップS104)。停留点ではない場合(ステップS104:NO)、スコア関数推定部122が、目標音属性情報を用いるスコア関数推定処理の実行により、ステップS103の処理による更新後の空間点xの位置におけるスコア関数を推定する(ステップS105)。
 一方、停留点である場合(ステップS104:YES)、信号変換部125が、信号変換処理を実行する。信号変換処理の実行により、学習用入力データが学習段階変換先データに変換される(ステップS106)。
 図5の説明に戻る。損失取得部113は、変換学習モデルの実行により得られた学習段階変換先データと学習用参照データとに基づいて損失を取得する。
 更新部114は、損失に基づいて変換学習モデルを更新する。損失に基づく変換学習モデルの更新は、具体的には、損失に基づき所定の規則にしたがって学習変換モデルを表すニューラルネットワークのパラメータの値を更新する処理である。学習変換モデルを表すニューラルネットワークのパラメータの値の更新とは、より具体的には、例えばスコア近似器のパラメータθの値の更新である。例えば更新部114は、損失を小さくするように学習変換モデルを表すニューラルネットワークのパラメータの値を更新する。
 変換学習モデル実行部112と損失取得部113とは、お互いが協働することで変換学習モデルの実行と更新とが可能であれば、どのようなものであってもよい。例えば変換学習モデル実行部112と損失取得部113とは、協働して動作することで変換学習モデルの実行と更新を実行するニューラルネットワークを形成する回路であってもよい。
 記録部115は各種情報を記憶部14に記録する。出力制御部116は出力部15の動作を制御する。終了判定部117は、所定の終了条件が満たされたか否かを判定する。所定の終了条件が満たされた時点の変換学習モデルが学習済みの変換学習モデルであり、音声信号変換モデルである。
 図7は、実施形態における音声信号変換モデル学習装置1が実行する処理の流れの一例を示すフローチャートである。
 学習用データ取得部111が学習用データを取得する(ステップS201)。次に変換学習モデル実行部112が図6に示す処理を実行することで、学習用入力データを学習段階変換先データに変換する(ステップS202)。次に損失取得部113が、学習段階変換先データとステップS201で得られた学習用参照データとに基づき損失を取得する(ステップS203)。
 次に、損失取得部113が、損失に基づき、変換学習モデルを更新する(ステップS204)。次に、終了判定部117は、所定の終了条件が満たされたか否かを判定する(ステップS205)。所定の終了条件が満たされない場合(ステップS205:NO)、ステップS201の処理に戻る。一方、所定の終了条件が満たされる場合(ステップS205:YES)、処理が終了する。
 図8は、実施形態における音声信号変換装置2のハードウェア構成の一例を示す図である。音声信号変換装置2は、バスで接続されたCPU等のプロセッサ93とメモリ94とを備える制御部21を備え、プログラムを実行する。音声信号変換装置2は、プログラムの実行によって制御部21、入力部22、通信部23、記憶部24及び出力部25を備える装置として機能する。
 より具体的には、プロセッサ93が記憶部24に記憶されているプログラムを読み出し、読み出したプログラムをメモリ94に記憶させる。プロセッサ93が、メモリ94に記憶させたプログラムを実行することによって、音声信号変換装置2は、制御部21、入力部22、通信部23、記憶部24及び出力部25を備える装置として機能する。
 制御部21は、音声信号変換装置2が備える各種機能部の動作を制御する。制御部21は、例えば音声信号変換モデル学習装置1が得た学習済みの変換学習モデル(すなわち音声信号変換モデル)を用いて、変換元音声信号をと目標音属性情報が示す目標音属性を有する変換先音声信号に変換する。
 入力部22は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部22は、これらの入力装置を自装置に接続するインタフェースとして構成されてもよい。入力部22は、自装置に対する各種情報の入力を受け付ける。入力部22は、例えば変換元音声信号を変換先音声信号に変換する処理の開始を指示する入力を受け付ける。入力部22は、例えば変換元音声信号の入力を受け付ける。入力部22は、例えば目標音属性情報の入力を受け付ける。
 通信部23は、自装置を外部装置に接続するための通信インタフェースを含んで構成される。通信部23は、有線又は無線を介して外部装置と通信する。外部装置は、例えば変換先音声信号の出力先である。このような場合、通信部23は、外部装置との通信によって外部装置に変換先音声信号を出力する。変換先音声信号の出力の際の外部装置は、例えばスピーカー等の音声出力装置である。
 通信部23の通信先の外部装置は、例えば音声信号変換モデル学習装置1である。このような場合、通信部23は、例えば音声信号変換モデル学習装置1が得た学習済みの変換学習モデルを取得する。
 通信部23の通信先の外部装置は、例えば音声信号変換モデルを記憶したUSBメモリ等の記憶装置であってもよい。外部装置が例えば音声信号変換モデルを記憶しており音声信号変換モデルを出力する場合、通信部23は外部装置との通信によって音声信号変換モデルを取得する。
 通信部23の通信先の外部装置は、例えば変換元音声信号の出力元である。このような場合、通信部23は、外部装置との通信によって外部装置から変換元音声信号を取得する。
 なお、変換元音声信号及び目標音属性情報は、変換元音声信号及び目標音属性情報の送信元の外部装置との通信によって通信部23が取得してもよい。
 記憶部24は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部24は音声信号変換装置2に関する各種情報を記憶する。記憶部24は、例えば通信部23を介して取得した音声信号変換モデルを記憶する。記憶部24は、例えば入力部22に入力された目標音属性情報を記憶する。
 出力部25は、各種情報を出力する。出力部25は、例えばCRTディスプレイや液晶ディスプレイ、有機ELディスプレイ等の表示装置を含んで構成される。出力部25は、これらの表示装置を自装置に接続するインタフェースとして構成されてもよい。出力部25は、例えば入力部22に入力された情報を出力する。
 図9は、実施形態における制御部21の機能構成の一例を示す図である。制御部21は、変換対象取得部211、変換部212及び音声信号出力制御部213を備える。
 変換対象取得部211は、変換対象となる変換元音声信号及び目標音属性情報を取得する。変換対象取得部211は、例えば入力部22に入力された変換元音声信号及び目標音属性情報を取得する。変換対象取得部211は、例えば通信部23に入力された変換元音声信号及び目標音属性情報を取得する。
 変換部212は、変換対象取得部211が取得した変換対象を、音声信号変換モデルを用いて目標音属性情報が示す音属性を有する変換先音声信号に変換する。得られた変換先音声信号は音声信号出力制御部213に出力される。
 音声信号出力制御部213は、通信部23の動作を制御する。音声信号出力制御部213は、通信部23の動作を制御することで通信部23に変換先音声信号を出力させる。
 図10は、実施形態における音声信号変換装置2が実行する処理の流れの一例を示すフローチャートである。変換対象取得部211が変換元音声信号及び目標音属性情報を取得する(ステップS201)。次に、変換部212が音声信号変換モデルを用いて変換元音声信号を目標音属性情報が示す音属性を有する変換先音声信号に変換する(ステップS202)。次に、音声信号出力制御部213が通信部23の動作を制御することで通信部23に変換先音声信号を出力させる(ステップS203)。
 なお上述したように、変換学習モデルの学習時の目標音属性が1つの場合には必ずしも音声信号変換装置2に目標音属性情報が入力される必要はない。
(実験結果)
 実施形態の音声信号変換システム100を用いた音声信号の変換の実験結果の一例を説明する。実験において音属性は話者であった。そこで以下、実験における目標音属性を示す指標を話者インデックスという。
 実験では、CMU ARCTIC databaseの6話者の音声データが用いられた。具体的には、学習用及び既知話者を想定したテスト用に4話者の音声データが用いられ、未知話者を想定したテスト専用に2話者の音声データが用いられた。学習用及び既知話者を想定したテスト用の4話者は、女性話者clb、男性話者bdl、女性話者slt及び男性話者rmsであった。未知話者を想定したテスト専用の2話者は、男性話者ksp及び女性話者lnhであった。
 このように、実験において学習に用いた話者数は4だったため、話者インデックスを表すone-hotベクトルの次元は4であった。CMU ARCTIC databaseは、複数の話者の音声サンプルのデータベースであって、各音声サンプルは話者によらず同一の1132文を話者が発話した音声の音声サンプルである。
 実験では、話者の発話した1132文の後半の132文の各話者の音声サンプルをテスト用のデータとした。また実験では、非パラレル学習の状況をシミュレートするため、話者間で同一の文章のサンプルを用いないように前半1000文をさらに4等分し、話者clb、bdl、slt、rmsの学習用の音声サンプルとした。すなわち、前半1000文が4等分された結果の各グループを第1グループ、第2グループ、第3グループ、第4グループとして、話者clb、bdl、slt、rmsの学習用の音声サンプルは、順に第1グループの文、第2グループの文、第3グループの文、第4グループの文であった。なお、学習用の音声サンプルとは、学習用データの一例である。
 実験において、全ての音声信号のサンプリング周波数は16000Hzであった。実験において、音声特徴量はメルケプストラム係数であった。メルケプストラム係数は、各発話に対し、WORLD分析により8ms間隔でスペクトル包絡、基本周波数(F0)及び非周期性指標の抽出を行った後、抽出したスペクトル包絡系列に対し28次のメルケプストラム分析を行うことで得られた。よってD=28であった。
 F0に関しては、まず、目標音声の学習データから有声区間における対数F0の平均msrc及び標準偏差σsrcと、変換元音声の学習データから有声区間における対数F0の平均mtrgと標準偏差σsrcとが算出された。次に、入力音声の対数F0パターンy(0)・・・y(N-1)に対して以下の式(17)が表す変換が行われた。なお、目標音声は、音声信号が目標音声信の音声である。変換元音声は、音声信号が変換元音声信号の音声である。
Figure JPOXMLDOC01-appb-M000017
 図11は、実施形態の実験において用いられたスコア近似器のネットワーク構成を示す図である。すなわち図11のネットワーク構成はスコア近似器のネットワーク構成の一例である。図11において、“hwc”の“h”、“w”、“c”はそれぞれ、各層の入出力を画像と見なした際の高さ、幅、チャネル数を表す。図11において、“Conv2d”、“BatchNorm”、“GLU”、“Deconv2d”はそれぞれ、2次元畳み込み層、正規化層、非線形活性化層及び2次元転置畳み込み層を表す。図11において、“kcs”の“k”、“c”、“s”はそれぞれ、畳み込み層のカーネルサイズ、出力チャネル数、トライド幅を表す。ノイズ分散と話者インデックスは、それぞれone-hot ベクトルで表され、各畳み込み層における入力を画像と見なしたときの入力の各ピクセルにチャネル方向に連結する構成である。図11のネットワーク構成において、“Input”と“Output“とは同形である。
 実験においてハイパーパラメータは以下の通りだった。まず、ニューラルネットワークの学習にはAdamが用いられた。学習率は0.001であった。ノイズ分散σ~σ(L1以上の整数)は、(σ/σ)=・・・=(σ/σ(L-1))=10-0.2~0.63であり、L=11、σ=1:0、σ=0.01であった。実験では図3のアルゴリズムが用いられた。実験における図3のアルゴリズムの使用に際して、ε=10-5であり、T=120であった。実験ではl=4を図3のアルゴリズムにおけるノイズ分散の初期値として用いた。
 変分自己符号化器(Variational Autoencoder;VAE)ベースの方法(以下「VAE-VC」という。)と敵対的生成ネットワーク(Generative Adversarial Network;GAN)の変種であるStarGAN をベースにした方法(以下「StarGAN-VC」という。)とは、従来の方法の中では非パラレル学習かつ任意話者の音声入力を許容する方法である。そこで、実験においては、VAE-VCとStarGAN-VCとを比較対象のベースラインとして用いた。
 StarGAN-VCは目的関数に応じていくつかの種類がある。実験では、クロスエントロピー規準を用いたStarGAN-VC(以下「StarGAN-VC(C)」という。)と、ワッサースタイン距離及び勾配ペナルティロスを用いたStarGAN-VC(以下「StarGAN-VC(W)」という。)とをベースラインに用いた。
 テストセットは、各話者が同一文を発話した音声サンプルからなるので、変換音声の品質は、同一文を発話した目標話者の音声と比較することにより評価することができる。変換音声は、音声信号変換システム100によって変換された音声信号である。すなわち、変換音声は、音声信号が変換先音声信号の音声、又は、音声信号が学習段階変換先データの音声である。目標話者は、目標音声の話者である。
 以下の式(18)及び(19)で表される2組のメルケプストラムが与えられたときのメルケプストラム歪み(Mel-Cepstral Distortion;MCD)は、以下の式(20)で表される。MCDは、式(18)及び(19)で表される2組のメルケプストラムの違いを表す。
Figure JPOXMLDOC01-appb-M000018
Figure JPOXMLDOC01-appb-M000019
Figure JPOXMLDOC01-appb-M000020
 変換音声と目標音声は必ずしも音素が同一時刻で対応しているとは限らない。そのため実験では、発話ごとにMCS規準で動的時間伸縮(Dynamic Time Warping;DTW)により時間軸が合わせられた上で平均MCDが算出された。
 実験では、客観評価実験が行われた。図12及び図13に客観評価実験の結果の一例を示す。具体的には、図12は既知話者条件の下でのMCDの比較結果の一例であり、図13は、未知話者条件の下でのMCDの比較結果との一例である。既知話者条件は、音声信号変換装置2に入力される音声信号の話者が学習用データに含まれていたという条件である。未知話者条件は、音声信号変換装置2に入力される音声信号の話者が学習用データに含まれていなかったという条件である。
 図12は、実施形態における既知話者条件の下でのMCDの比較結果の一例を示す図である。図12において“VoiceGrad”は、音声信号変換システム100を用いた音声信号の変換を表す。図12は、既知話者条件において、音声信号変換システム100を用いた音声信号の変換の方法が、VAE-VCとStarGAN-VC(C)よりも高い性能を有することを示す。
 図13は、実施形態における未知話者条件の下でのMCDの比較結果の一例を示す図である。図13において“VoiceGrad”は、音声信号変換システム100を用いた音声信号の変換を表す。図13は、未知話者条件において、音声信号変換システム100を用いた音声信号の変換の方法が比較対象の全てのベースラインの方法よりも高い性能を有することを示す。
 実験では、音質と話者類似性の平均オピニオン評点(Mean Opnion Score;MOS)評価による主観評価実験も行われた。主観評価実験は、未知話者条件の変換音声のサンプルに対してのみ行われた。主観評価実験の参加者はいずれも24名であった。
 主観評価実験における音質の評価では、非ボコーダ音声のサンプルとボコーダ音声のサンプルとの中から無作為に選択されたサンプルを参加者に聞いてもらい、音質の高さを5段階で評価してもらうことが行われた。非ボコーダ音声は、VAE-VC、StarGAN-VC(C)、StarGAN-VC(W)及びVoiceGradを用いて生成された変換音声である。ボコーダ音声は、ボコーダで実音声を分析合成した合成音声である。ボコーダ音声の品質は、ボコーダを用いた制約の中での上限の品質である。
 また実験では、話者類似性評価の実験も行われた。話者類似性評価の実験では、非ボコーダ音声のサンプルとボコーダ音声のサンプルとの中から無作為に選択されたサンプルと、目標話者の実音声サンプルとを、参加者に続けて聞いてもらった。そして参加者に、両音声が同一話者の発したものらしいか否かを5段階で評価してもらった。
 図14は、実施形態における音質のMOS評価結果の一例を示す図である。図14において、縦軸の1~5の数字はMOSであり、数字が大きいほど音質が良いと評価されたことを表す。より具体的には、5がExcellentであり、4がGoodであり、3がFairであり、2がPoorであり、1がBadである。図14において“VoiceGrad”は、音声信号変換システム100を用いた音声信号の変換を表す。図14は、音声信号変換システム100を用いた音声信号の変換の方法が比較対象の全てのベースラインの方法よりも音質について高い評価を得られたことを示す。
 図15は、実施形態における話者類似性のMOS評価結果の一例を示す図である。図15において、縦軸の1~5の数字はMOSであり、数字が大きいほど音質が良いと評価されたことを表す。より具体的には、5がDenitelyであり、4がLikelyであり、3がFairであり、2がNot very likelyであり、1がUnlikelyである。図15において“VoiceGrad”は、音声信号変換システム100を用いた音声信号の変換を表す。図15は、音声信号変換システム100を用いた音声信号の変換の方法が比較対象の全てのベースラインの方法よりも話者類似性について高い評価を得られたことを示す。
 このように構成された実施形態の音声信号変換モデル学習装置1は、空間点xのスコア関数の値を推定し、推定したスコア関数の値に基づいて最近接停留点を推定する。このように音声信号変換モデル学習装置1は、学習に際して必ずしも目標特徴量分布関数p(x)の形を予め事前情報として取得しておく必要は無い。そのため、音声信号変換モデル学習装置1は機械学習を用いた声質変換の技術において学習に用いられるデータに課せられる制約を緩和することができる。
 また、以上の方法は、目標特徴量系列分布の停留点が入力音声の特徴量系列分布に依らないため、理論的には、任意話者による入力音声に対しても適用可能である。
 また、このように構成された実施形態の音声信号変換システム100は、音声信号変換モデル学習装置1を備える。そのため、音声信号変換モデル学習装置1は機械学習を用いた声質変換の技術において学習に用いられるデータに課せられる制約を緩和することができる。
 (変形例)
 音声特徴量はとしてメルケプストラムボコーダが用いられる場合、短区間ごとのメルケプストラム係数、基本周波(F0)値、非周期性指標から音声信号を合成することができる。そのため、これらを組にしたベクトルを音声特徴量としてもよい。また、F0値の系列であるF0パターンを変換する方法については、対数F0値の平均と分散が目標話者のものと一致するようにシフトとスケーリングとを実行する方法であってもよい。また非周期性指標については入力音声のものを変換せずそのまま用いることも可能であるので、音声特徴量はメルケプストラム係数のみであってもよい。なお、上述の実験では、メルケプストラム係数を要素にしたベクトルが音声特徴量として用いられた。
 また音声特徴量は、WaveNet等の高品質ニューラルボコーダを利用することを想定した特徴量であってもよい。WaveNet等の高品質ニューラルボコーダでは、短区間ごとのメルスペクトルを特徴量としている。そのため、高品質ニューラルボコーダを想定した特徴量は、例えばメルスペクトルである。
 メルケプストラム係数を音声特徴量として用いる場合,第d次元の短時間フレームmにおけるメルケプストラム係数をxd、mと表現すれば学習およびテストにおいて、以下の式(21)により正規化したものを入力として用いることができる。以下、正規化されたメルケプストラム係数を正規化メルケプストラム係数という。
Figure JPOXMLDOC01-appb-M000021
 ψは、有声区間における第d次元のメルケプストラム係数の平均を表す。ξは、有声区間における第d次元のメルケプストラム係数の標準偏差を表す。このような正規化メルケプストラム係数を用いる場合、テストにおいては、適当なシフトおよびスケーリングを用いて、図3のアルゴリズムで最終的に生成された特徴量系列の平均及び標準偏差を目標話者のものと一致するように調整することが行われる。なお、テストとは、学習済みの機械学習モデルを用いることを意味する。
 なお、変換学習モデルを複数の目標音属性について学習させる方法の1つであって目標音属性ごとに用意された複数のスコア近似器を用いる方法では、必ずしもノイズ分布がガウス分布である必要はなく、ラプラス分布等の他の分布であってもよい。また、変換学習モデルを複数の目標音属性について学習させる方法であって上述した他の1つの方法についても、必ずしもノイズ分布がガウス分布である必要はなく、ラプラス分布等の他の分布であってもよい。なお、上述した他の1つの方法とは、単一のスコア近似器を用い、複数の目標音属性についてスコア関数を推定可能になるようにその1つのスコア近似器を学習させる方法である。
 なお、スコア関数を推定する方法は、DSMよりも重み付きDSMを用いた方が、推定の精度は高い。なぜなら、DSMでは単一の分散の分布を用いて推定を行うが、重み付きDSMは分散の異なる複数の分布を用いて推定を行うからである。すなわち、重み付きDSMはノイズ分散σの異なる複数のノイズ分布を用いるため、単一のノイズ分布を用いるDSMよりも、スコア関数の推定の精度が高い。
 音声信号変換モデル学習装置1は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、音声信号変換モデル学習装置1が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。
 音声信号変換装置2は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、音声信号変換装置2が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。
 なお、音声信号変換システム100の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。
 以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
 100…音声信号変換システム、 1…音声信号変換モデル学習装置、 2…音声信号変換装置、 11…制御部、 12…入力部、 13…通信部、 14…記憶部、 15…出力部、 111…学習用データ取得部、 112…変換学習モデル実行部、 121…音声特徴量取得部、 122…スコア関数推定部、 123…空間点更新部、 124…停留点判定部、 125…信号変換部、 113…損失取得部、 114…更新部、 115…記録部、 116…出力制御部、 117…終了判定部、 21…制御部、 22…入力部、 23…通信部、 24…記憶部、 25…出力部、 211…変換対象取得部、 212…変換部、 213…音声信号出力制御部、 91…プロセッサ、 92…メモリ、 93…プロセッサ、 94…メモリ

Claims (7)

  1.  入力された音声信号である学習用入力データを取得する学習用データ取得部と、
     前記学習用入力データを変換先の音声信号である学習段階変換先データに変換する機械学習のモデルである変換学習モデルを実行する変換学習モデル実行部と、
     前記変換学習モデルを学習により更新する更新部と、
     を備え、
     音声信号から得られる特徴量である音声特徴量の系列を表すベクトル空間上の関数あって所定の属性を有する音声信号である目標音声信号の音声特徴量の系列の分布を表す確率密度関数を目標特徴量分布関数とし、
     前記ベクトル空間の点であって前記学習用入力データの特徴量の系列を表す点を初期値点とし、
     前記ベクトル空間の点xを独立変数とする関数であり、前記点xから前記目標特徴量分布関数上の停留点であって、前記初期値点の最近接の停留点である最近接停留点まで向かう経路の勾配を示す関数をスコア関数として、
     前記変換学習モデル実行部は、前記スコア関数に基づき前記学習用入力データを前記学習段階変換先データに変換し、
     前記更新部は、前記変換学習モデルの更新において前記スコア関数を更新する、
     音声信号変換モデル学習装置。
  2.  パラメータθを含む関数であってパラメータθを更新する所定の最適化の処理の結果がスコア関数に略同一である関数を表すニューラルネットワークをスコア近似器として、
     前記変換学習モデルを表すニューラルネットワークは複数の前記スコア近似器を備え、
     前記更新部は、前記スコア近似器ごとの違いであってノイズを付与された前記点xのデータとノイズが付与される前の空間点xのデータとの差とスコア関数の値との違い、の合計に基づいて、前記スコア関数を更新する、
     請求項1に記載の音声信号変換モデル学習装置。
  3.  前記合計に基づいてスコア関数を更新する方法は、重み付きDSM(Denoising Score Matching)である、
     請求項2に記載の音声信号変換モデル学習装置。
  4.  パラメータθを含む関数であってパラメータθを更新する所定の最適化の処理の結果がスコア関数に略同一である関数を表すニューラルネットワークをスコア近似器として、
     前記変換学習モデルを表すニューラルネットワークは単一の前記スコア近似器を備え、
     前記更新部は、前記スコア近似器が備える複数の違いであってノイズを付与された前記点xのデータとノイズが付与される前の空間点xのデータとの差とスコア関数の値との違い、の合計に基づいて、前記スコア関数を更新する、
     請求項1に記載の音声信号変換モデル学習装置。
  5.  変換対象の音声信号を取得する変換対象取得部と、
     入力された音声信号である学習用入力データを取得する学習用データ取得部と、前記学習用入力データを変換先の音声信号である学習段階変換先データに変換する機械学習のモデルである変換学習モデルを実行する変換学習モデル実行部と、前記変換学習モデルを学習により更新する更新部と、を備え、音声信号から得られる特徴量である音声特徴量の系列を表すベクトル空間上の関数あって所定の属性を有する音声信号である目標音声信号の音声特徴量の系列の分布を表す確率密度関数を目標特徴量分布関数とし、前記ベクトル空間の点であって前記学習用入力データの特徴量の系列を表す点を初期値点とし、前記ベクトル空間の点xを独立変数とする関数であり、前記点xから前記目標特徴量分布関数上の停留点であって、前記初期値点の最近接の停留点である最近接停留点まで向かう経路の勾配を示す関数をスコア関数として、前記変換学習モデル実行部は、前記スコア関数に基づき前記学習用入力データを前記学習段階変換先データに変換し、前記更新部は、前記変換学習モデルの更新において前記スコア関数を更新する、音声信号変換モデル学習装置によって得られた学習済みの変換学習モデル、を用いて前記変換対象を変換する変換部と、
     を備える音声信号変換装置。
  6.  入力された音声信号である学習用入力データを取得する学習用データ取得ステップと、
     前記学習用入力データを変換先の音声信号である学習段階変換先データに変換する機械学習のモデルである変換学習モデルを実行する変換学習モデル実行ステップと、
     前記変換学習モデルを学習により更新する更新ステップと、
     を有し、
     音声信号から得られる特徴量である音声特徴量の系列を表すベクトル空間上の関数あって所定の属性を有する音声信号である目標音声信号の音声特徴量の系列の分布を表す確率密度関数を目標特徴量分布関数とし、
     前記ベクトル空間の点であって前記学習用入力データの特徴量の系列を表す点を初期値点とし、
     前記ベクトル空間の点xを独立変数とする関数であり、前記点xから前記目標特徴量分布関数上の停留点であって、前記初期値点の最近接の停留点である最近接停留点まで向かう経路の勾配を示す関数をスコア関数として、
     前記変換学習モデル実行ステップにおいては、前記スコア関数に基づき前記学習用入力データが前記学習段階変換先データに変換され、
     前記更新ステップにおいては、前記変換学習モデルの更新において前記スコア関数が更新される、
     音声信号変換モデル学習方法。
  7.  請求項1から4のいずれか一項に記載の音声信号変換モデル学習装置としてコンピュータを機能させるためのプログラム。
PCT/JP2020/041881 2020-11-10 2020-11-10 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム WO2022101967A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2022561713A JP7498408B2 (ja) 2020-11-10 2020-11-10 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
US18/033,758 US20230419977A1 (en) 2020-11-10 2020-11-10 Audio signal conversion model learning apparatus, audio signal conversion apparatus, audio signal conversion model learning method and program
PCT/JP2020/041881 WO2022101967A1 (ja) 2020-11-10 2020-11-10 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/041881 WO2022101967A1 (ja) 2020-11-10 2020-11-10 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2022101967A1 true WO2022101967A1 (ja) 2022-05-19

Family

ID=81600915

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/041881 WO2022101967A1 (ja) 2020-11-10 2020-11-10 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム

Country Status (3)

Country Link
US (1) US20230419977A1 (ja)
JP (1) JP7498408B2 (ja)
WO (1) WO2022101967A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150127337A1 (en) * 2013-11-04 2015-05-07 Google Inc. Asynchronous optimization for sequence training of neural networks
JP2017003622A (ja) * 2015-06-04 2017-01-05 国立大学法人神戸大学 声質変換方法および声質変換装置
JP2018136430A (ja) * 2017-02-21 2018-08-30 日本電信電話株式会社 音声変換モデル学習装置、音声変換装置、方法、及びプログラム
WO2018159612A1 (ja) * 2017-02-28 2018-09-07 国立大学法人電気通信大学 声質変換装置、声質変換方法およびプログラム
JP2019040123A (ja) * 2017-08-28 2019-03-14 株式会社日立製作所 変換モデルの学習方法および変換モデルの学習装置
WO2019116889A1 (ja) * 2017-12-12 2019-06-20 ソニー株式会社 信号処理装置および方法、学習装置および方法、並びにプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150127337A1 (en) * 2013-11-04 2015-05-07 Google Inc. Asynchronous optimization for sequence training of neural networks
JP2017003622A (ja) * 2015-06-04 2017-01-05 国立大学法人神戸大学 声質変換方法および声質変換装置
JP2018136430A (ja) * 2017-02-21 2018-08-30 日本電信電話株式会社 音声変換モデル学習装置、音声変換装置、方法、及びプログラム
WO2018159612A1 (ja) * 2017-02-28 2018-09-07 国立大学法人電気通信大学 声質変換装置、声質変換方法およびプログラム
JP2019040123A (ja) * 2017-08-28 2019-03-14 株式会社日立製作所 変換モデルの学習方法および変換モデルの学習装置
WO2019116889A1 (ja) * 2017-12-12 2019-06-20 ソニー株式会社 信号処理装置および方法、学習装置および方法、並びにプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KAMEOKA HIROKAZU: "Speech and Audio Signal Processing Using Deep Generative Models", JOURNAL OF THE SOCIETY OF INSTRUMENT AND CONTROL ENGINEERS, vol. 58, no. 3, 10 March 2019 (2019-03-10), pages 195 - 202, XP055939598, ISSN: 0453-4662, DOI: 10.11499/sicejl.58.195 *

Also Published As

Publication number Publication date
JP7498408B2 (ja) 2024-06-12
JPWO2022101967A1 (ja) 2022-05-19
US20230419977A1 (en) 2023-12-28

Similar Documents

Publication Publication Date Title
Vasquez et al. Melnet: A generative model for audio in the frequency domain
Huang et al. Joint optimization of masks and deep recurrent neural networks for monaural source separation
WO2018159403A1 (ja) 学習装置、音声合成システムおよび音声合成方法
Huo et al. On-line adaptive learning of the correlated continuous density hidden Markov models for speech recognition
US20080065380A1 (en) On-line speaker recognition method and apparatus thereof
JP6973304B2 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
CN114023300A (zh) 一种基于扩散概率模型的中文语音合成方法
WO2017146073A1 (ja) 声質変換装置、声質変換方法およびプログラム
Shankar et al. A Multi-Speaker Emotion Morphing Model Using Highway Networks and Maximum Likelihood Objective.
Aihara et al. Phoneme-Discriminative Features for Dysarthric Speech Conversion.
Biagetti et al. Speaker identification in noisy conditions using short sequences of speech frames
US20070129946A1 (en) High quality speech reconstruction for a dialog method and system
CN113470688B (zh) 语音数据的分离方法、装置、设备及存储介质
CN111326170A (zh) 联合时频域扩张卷积的耳语音向正常音转换方法及其装置
WO2021229643A1 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
CN116092475B (zh) 一种基于上下文感知扩散模型的口吃语音编辑方法和系统
Wu et al. Denoising Recurrent Neural Network for Deep Bidirectional LSTM Based Voice Conversion.
Mossavat et al. A hierarchical Bayesian approach to modeling heterogeneity in speech quality assessment
WO2022101967A1 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
EP4276822A1 (en) Method and apparatus for processing audio, electronic device and storage medium
Li et al. Intelligibility enhancement via normal-to-lombard speech conversion with long short-term memory network and bayesian Gaussian mixture model
JP2020190605A (ja) 音声処理装置及び音声処理プログラム
CN114822497A (zh) 语音合成模型的训练及语音合成方法、装置、设备和介质
JP7293162B2 (ja) 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20961495

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022561713

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20961495

Country of ref document: EP

Kind code of ref document: A1