JPWO2019044401A1 - Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム - Google Patents
Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム Download PDFInfo
- Publication number
- JPWO2019044401A1 JPWO2019044401A1 JP2018568997A JP2018568997A JPWO2019044401A1 JP WO2019044401 A1 JPWO2019044401 A1 JP WO2019044401A1 JP 2018568997 A JP2018568997 A JP 2018568997A JP 2018568997 A JP2018568997 A JP 2018568997A JP WO2019044401 A1 JPWO2019044401 A1 JP WO2019044401A1
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- unknown
- acoustic
- speakers
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 34
- 230000015572 biosynthetic process Effects 0.000 title claims description 26
- 238000003786 synthesis reaction Methods 0.000 title claims description 26
- 230000006978 adaptation Effects 0.000 title description 57
- 238000009826 distribution Methods 0.000 claims abstract description 49
- 238000004458 analytical method Methods 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 description 60
- 238000002474 experimental method Methods 0.000 description 29
- 230000006870 function Effects 0.000 description 28
- 238000011156 evaluation Methods 0.000 description 25
- 238000012545 processing Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 230000006866 deterioration Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000015556 catabolic process Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
図1は、DNN音声合成の教師無し話者適応を実現する枠組みの一例を示す。この枠組みでは、複数話者の音響モデル(DNN)230を利用して、入力されたテキストに対応する未知話者の合成された音声が出力される。この複数話者の音響モデル(DNN)230は、複数の話者情報を少なくとも用いて学習済みである。これらの複数の話者情報のそれぞれは、自分自身の音響特徴量の分布と他の複数の話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む。この枠組みは、適応パート100と合成パート200とに大別される。
適応パート100は、未知話者の音声信号に基づいて、未知話者の話者情報を生成するように機能する。以下、適応パート100における処理の流れを説明する。
合成パート200は、複数話者の音響モデル(DNN)230を利用して、入力された未知話者の話者情報に応じて、入力されたテキストに対応する未知話者の合成された音声を変化させる音声合成器として機能する。以下、合成パート200における処理の流れを説明する。
上述したように、入力されたテキストは、T次元のベクトルで表される。このT次元のベクトルの1次元目は「あ」という音を生成するかどうか、2次元目は「い」という音を生成するどうかなど、生成する音を指示するための入力である。ベクトルの要素が1であることは、その要素に対応する音を生成することを示し、ベクトルの要素が0であることは、その要素に対応する音を生成しないことを示す。上述したように、話者コードは、K次元のベクトルで表される。ここで、N=T+Kである。
1層目の中間層のH次元のベクトルの1次元目は、「1層目の中間層のH次元のベクトルの1次元目=シグモイド関数(重み行列1×テキストのベクトル+重み行列2×話者コードのベクトル)」・・・(式1)によって計算される。ここで、重み行列1は、1×Tの行列であり、重み行列2は、1×Kの行列である。従って、(式1)の計算の結果は、スカラー値であり、シグモイド関数の出力もスカラー値である。
2層目の中間層のH次元のベクトルの1次元目は、「2層目の中間層のH次元のベクトルの1次元目=シグモイド関数(重み行列3×1層目の中間層のH次元のベクトル)」・・・(式3)によって計算される。ここで、重み行列3は、1×H行列である。従って、(式3)の計算の結果は、スカラー値であり、シグモイド関数の出力もスカラー値である。
最後に、S次元出力は、「S次元のベクトル=重み行列4×2層目の中間層のH次元のベクトル」・・・(式5)によって計算される。ここで、重み行列4は、S×Hの行列である。従って、(式5)の計算の結果は、S次元のベクトルである。このようにして、S次元のベクトルによって表される合成された音響特徴量を予測することが可能である。
・1層目の中間層のH次元のベクトルの1次元目=シグモイド関数(重み行列1×テキストのベクトル+重み行列2×類似度ベクトル)=シグモイド関数(重み行列1×テキストのベクトル+重み行列2の1番目の要素×1番目の既知話者の類似度+重み行列2の2番目の要素×2番目の既知話者の類似度+・・・+重み行列2のK番目の要素×K番目の既知話者の類似度)
・1層目の中間層のH次元のベクトルの2次元目=シグモイド関数(重み行列1’×テキストのベクトル+重み行列2’×類似度ベクトル)=シグモイド関数(重み行列1’×テキストのベクトル+重み行列2’の1番目の要素×1番目の既知話者の類似度+重み行列2’の2番目の要素×2番目の既知話者の類似度+・・・+重み行列2’のK番目の要素×K番目の既知話者の類似度)
・1層目の中間層のH次元のベクトルの1次元目=シグモイド関数(重み行列1×テキストのベクトル+重み行列2×one−hotベクトル)=シグモイド関数(重み行列1×テキストのベクトル+重み行列2のk番目の要素)
・1層目の中間層のH次元のベクトルの2次元目=シグモイド関数(重み行列1’×テキストのベクトル+重み行列2’×one−hotベクトル)=シグモイド関数(重み行列1’×テキストのベクトル+重み行列2’のk番目の要素)
図2Aは、図1に示される枠組みに基づいて実験した客観評価実験結果を示す。
・AVM:話者適応無し(平均声)
・AVM+ga:AVMで正しい年齢・性別を利用
・Supervise:教師有り話者適応
・Unsupervise:教師無し話者適応
・学習データ
・複数話者の音声合成用DNNの学習
・話者数:112名
・発話数:計11,154発話(各話者100発話程度)
・話者類似度モデルの学習
・複数話者の音声合成用DNNと同じ
・話者適応用データ
・話者数:23名
・発話数:各話者100発話程度
・テストデータ
・話者数:23名(適応話者と同じ)
・合成発話数:各話者10発話
y=x*h1+α(n*h2)・・・(式6)
ここで、xは、高音質音声を表し、nは、雑音を表し、h1およびh2は、それぞれ異なるマイク位置において得られた残響を付与するために用いられるインパルス応答を表し(h1はh2よりスピーカに近い位置を表す)、*は、畳み込みを表し、αは、雑音の強さを調整する所望のパラメータを表す。
・GMM:「MFCC」×「GMM−UBM」
・GMM(F0):「MFCC+F0」×「GMM−UBM」
・i−vec:「MFCC」×「i−vector/PLDA」
・i−vec(F0):「MFCC+F0」×「i−vector/PLDA」
図4は、図1に示される枠組みを実現するためのコンピュータシステム1の構成の一例を示す。
10 メモリ部
20 プロセッサ部
100 適応パート
110 未知話者データベース
120 音声分析部
130 話者情報推定部
140 話者類似性モデル
200 合成パート
210 テキスト分析部
220 合成音響特徴量生成部
230 複数話者の音響モデル(DNN)
240 合成音声生成部
Claims (5)
- ディープニューラルネットワーク(DNN)により表現された複数話者の音響モデルを利用して、入力されたテキストに対応する未知話者の合成された音声を出力するコンピュータシステムであって、前記複数話者の音響モデルは、複数の話者情報を少なくとも用いて学習済みであり、前記複数の話者情報のそれぞれは、自分自身の音響特徴量の分布と他の複数の話者の音響特徴量の分布との類似度を確率で表す話者コードを含み、
前記コンピュータシステムは、
未知話者の音声信号を分析することにより、前記未知話者の音響特徴量を生成する音声分析部と、
教師データとしてのテキストの入力を必要とすることなく、前記未知話者の音響特徴量に基づいて、前記未知話者の話者情報を推定する話者情報推定部であって、前記未知話者の話者情報は、前記未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む、話者情報推定部と、
前記入力されたテキストを分析することにより、前記入力されたテキストの言語特徴量を生成するテキスト分析部と、
前記複数話者の音響モデルを利用して、前記入力されたテキストの言語特徴量と前記未知話者の話者情報とに基づいて、前記未知話者の合成された音響特徴量を生成する合成音響特徴量生成部と、
前記未知話者の合成された音響特徴量に基づいて、前記未知話者の合成された音声を生成する合成音声生成部と
を備える、コンピュータシステム。 - 前記話者情報推定部は、話者類似度モデルを利用して、前記未知話者の話者情報を推定し、前記話者類似度モデルには、前記複数の既知話者のそれぞれの音響特徴量の分布が格納されている、請求項1に記載のコンピュータシステム。
- ディープニューラルネットワーク(DNN)により表現された複数話者の音響モデルを利用して、入力されたテキストに対応する未知話者の合成された音声を出力するコンピュータシステムにおいて実行される方法であって、前記複数話者の音響モデルは、複数の話者情報を少なくとも用いて学習済みであり、前記複数の話者情報のそれぞれは、自分自身の音響特徴量の分布と他の複数の話者の音響特徴量の分布との類似度を確率で表す話者コードを含み、
前記方法は、音声信号を分析することにより、前記未知話者の音響特徴量を生成することと、
教師データとしてのテキストの入力を必要とすることなく、前記未知話者の音響特徴量に基づいて、前記未知話者の話者情報を推定することであって、前記未知話者の話者情報は、前記未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む、ことと、
前記入力されたテキストを分析することにより、前記入力されたテキストの言語特徴量を生成することと、
前記複数話者の音響モデルを利用して、前記入力されたテキストの言語特徴量と前記未知話者の話者情報とに基づいて、前記未知話者の合成された音響特徴量を生成することと、
前記未知話者の合成された音響特徴量に基づいて、前記未知話者の合成された音声を生成することと
を含む、方法。 - ディープニューラルネットワーク(DNN)により表現された複数話者の音響モデルを利用して、入力されたテキストに対応する未知話者の合成された音声を出力するコンピュータシステムにおいて実行されるプログラムであって、前記複数話者の音響モデルは、複数の話者情報を少なくとも用いて学習済みであり、前記複数の話者情報のそれぞれは、自分自身の音響特徴量の分布と他の複数の話者の音響特徴量の分布との類似度を確率で表す話者コードを含み、前記コンピュータシステムは、プロセッサ部を含み、
前記プログラムは、前記プロセッサ部によって実行されると、
未知話者の音声信号を分析することにより、前記未知話者の音響特徴量を生成することと、
教師データとしてのテキストの入力を必要とすることなく、前記未知話者の音響特徴量に基づいて、前記未知話者の話者情報を推定することであって、前記未知話者の話者情報は、前記未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む、ことと、
前記入力されたテキストを分析することにより、前記入力されたテキストの言語特徴量を生成することと、
前記複数話者の音響モデルを利用して、前記入力されたテキストの言語特徴量と前記未知話者の話者情報とに基づいて、前記未知話者の合成された音響特徴量を生成することと、
前記未知話者の合成された音響特徴量に基づいて、前記未知話者の合成された音声を生成することと
を少なくとも実行することを前記プロセッサ部に行わせる、プログラム。 - ディープニューラルネットワーク(DNN)により表現された複数話者の音響モデルを利用して、入力された未知話者の話者情報に応じて、入力されたテキストに対応する未知話者の合成された音声を変化させる音声合成器であって、前記複数話者の音響モデルは、複数の話者情報を少なくとも用いて学習済みであり、前記複数の話者情報のそれぞれは、自分自身の音響特徴量の分布と他の複数の話者の音響特徴量の分布との類似度を確率で表す話者コードを含み、
前記音声合成器は、
前記入力されたテキストを分析することにより、前記入力されたテキストの言語特徴量を生成するテキスト分析部と、
入力された未知話者の話者情報を受け取り、前記複数話者の音響モデルを利用して、前記入力されたテキストの言語特徴量と前記入力された未知話者の話者情報とに基づいて、前記未知話者の合成された音響特徴量を生成する合成音響特徴量生成部であって、前記入力された未知話者の話者情報は、前記未知話者の音響特徴量の分布と複数の既知話者のそれぞれの音響特徴量の分布との類似度を確率で表す話者コードを含む、合成音響特徴量生成部と、
前記未知話者の合成された音響特徴量に基づいて、前記未知話者の合成された音声を生成する合成音声生成部と
を備える、音声合成器。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017164267 | 2017-08-29 | ||
JP2017164267 | 2017-08-29 | ||
PCT/JP2018/029438 WO2019044401A1 (ja) | 2017-08-29 | 2018-08-06 | Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6505346B1 JP6505346B1 (ja) | 2019-04-24 |
JPWO2019044401A1 true JPWO2019044401A1 (ja) | 2019-11-07 |
Family
ID=65527677
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018568997A Active JP6505346B1 (ja) | 2017-08-29 | 2018-08-06 | Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6505346B1 (ja) |
WO (1) | WO2019044401A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7125608B2 (ja) * | 2018-10-05 | 2022-08-25 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、及びプログラム |
US11657828B2 (en) * | 2020-01-31 | 2023-05-23 | Nuance Communications, Inc. | Method and system for speech enhancement |
WO2023157066A1 (ja) * | 2022-02-15 | 2023-08-24 | 日本電信電話株式会社 | 音声合成学習方法、音声合成方法、音声合成学習装置、音声合成装置及びプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2517503B (en) * | 2013-08-23 | 2016-12-28 | Toshiba Res Europe Ltd | A speech processing system and method |
-
2018
- 2018-08-06 JP JP2018568997A patent/JP6505346B1/ja active Active
- 2018-08-06 WO PCT/JP2018/029438 patent/WO2019044401A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP6505346B1 (ja) | 2019-04-24 |
WO2019044401A1 (ja) | 2019-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1515305B1 (en) | Noise adaption for speech recognition | |
JP5842056B2 (ja) | 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 | |
JP2019120841A (ja) | スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法 | |
WO2017046887A1 (ja) | 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム | |
WO2016042659A1 (ja) | 音声合成装置、音声合成方法およびプログラム | |
Sadhu et al. | Continual Learning in Automatic Speech Recognition. | |
Hwang et al. | LP-WaveNet: Linear prediction-based WaveNet speech synthesis | |
JP6505346B1 (ja) | Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム | |
CN110998723B (zh) | 使用神经网络的信号处理装置及信号处理方法、记录介质 | |
JPWO2017146073A1 (ja) | 声質変換装置、声質変換方法およびプログラム | |
Park et al. | Multi-speaker end-to-end speech synthesis | |
JP2009086581A (ja) | 音声認識の話者モデルを作成する装置およびプログラム | |
Giacobello et al. | Stable 1-norm error minimization based linear predictors for speech modeling | |
JP6594251B2 (ja) | 音響モデル学習装置、音声合成装置、これらの方法及びプログラム | |
Li et al. | Bidirectional LSTM Network with Ordered Neurons for Speech Enhancement. | |
Elshamy et al. | DNN-based cepstral excitation manipulation for speech enhancement | |
JP4964194B2 (ja) | 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体 | |
JP2018013722A (ja) | 音響モデル最適化装置及びそのためのコンピュータプログラム | |
JP5771575B2 (ja) | 音響信号分析方法、装置、及びプログラム | |
JP2004117503A (ja) | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 | |
Ai et al. | Reverberation modeling for source-filter-based neural vocoder | |
Sustek et al. | Dealing with Unknowns in Continual Learning for End-to-end Automatic Speech Recognition. | |
Song et al. | Speaker-adaptive neural vocoders for parametric speech synthesis systems | |
Takaki et al. | Unsupervised speaker adaptation for DNN-based speech synthesis using input codes | |
GB2576320A (en) | A processing method, a processing system and a method of training a processing system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181228 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20181228 |
|
AA64 | Notification of invalidation of claim of internal priority (with term) |
Free format text: JAPANESE INTERMEDIATE CODE: A241764 Effective date: 20190116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20190207 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190313 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190320 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190326 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6505346 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |