WO2016042626A1

WO2016042626A1 - 音声処理装置、音声処理方法及びプログラム

Info

Publication number: WO2016042626A1
Application number: PCT/JP2014/074581
Authority: WO
Inventors: 大和大谷; 悠那須; 正統田村; 眞弘森田
Original assignee: 株式会社東芝
Priority date: 2014-09-17
Filing date: 2014-09-17
Publication date: 2016-03-24
Also published as: JP6271748B2; JPWO2016042626A1; US10157608B2; US20170162187A1

Abstract

　実施形態の音声処理装置は、入力部と、決定部と、予測部と、を備える。入力部は話者の平静口調の音声を表す平静口調データを受け付ける。決定部は平静口調データに応じて予測パラメータを決定する。予測部は予測パラメータを使用して、話者の平静口調を目標の口調に変換する口調変換モデルを予測する。

Description

音声処理装置、音声処理方法及びプログラム

　本発明の実施形態は音声処理装置、音声処理方法及びプログラムに関する。

　入力された任意のテキストを音声に変換して出力する音声合成が知られている。音声合成では、音声の韻律や音素片を表す音声モデルが必要となる。この音声モデルを統計的に作成する技術として、例えば隠れマルコフモデルに基づく音声合成技術が知られている。

　隠れマルコフモデルに基づく音声合成では、ある目標の話者の音声波形から抽出された、韻律パラメータ及び音声スペクトル等を表現したパラメータと、音素及び文法等の言語属性を表現するコンテキストと、を用いて隠れマルコフモデルを学習する。これにより目標の話者の声色や口調の特徴を再現した合成音声を生成することができる。また隠れマルコフモデルに基づく音声合成では、音声に関するパラメータをモデル化しているため、様々な処理を柔軟に行うことができる。例えば既存の音声モデルと、ある話者の目標の口調を表わす少量の音声データと、から話者適応技術により当該話者の目標の口調の音声モデルを作成することができる。

特開２０１１－２８１３０号公報

Ｊｕｎｉｃｈｉ　ＹＡＭＡＧＩＳＨＩ　ａｎｄ　Ｔａｋａｏ　ＫＯＢＡＹＡＳＨＩ　"Ａｖｅｒａｇｅ－Ｖｏｉｃｅ－Ｂａｓｅｄ　Ｓｐｅｅｃｈ　Ｓｙｎｔｈｅｓｉｓ　Ｕｓｉｎｇ　ＨＳＭＭ－Ｂａｓｅｄ　Ｓｐｅａｋｅｒ　Ａｄａｐｔａｔｉｏｎ　ａｎｄ　Ａｄａｐｔｉｖｅ　Ｔｒａｉｎｉｎｇ，"　ＩＥＩＣＥ　ＴＲＡＮＳＡＣＴＩＯＮＳ　ｏｎ　Ｉｎｆｏｒｍａｔｉｏｎ　ａｎｄ　Ｓｙｓｔｅｍｓ　Ｖｏｌ．Ｅ９０－Ｄ　Ｎｏ．２　ｐｐ．５３３－５４３，　２００７Ｌａｎｇｚｈｏｕ　Ｃｈｅｎ，　Ｎｏｒｂｅｒｔ　Ｂｒａｕｎｓｃｈｗｅｉｌｅｒ，　"Ｕｎｓｕｐｅｒｖｉｓｅｄ　Ｓｐｅａｋｅｒ　ａｎｄ　Ｅｘｐｒｅｓｓｉｏｎ　Ｆａｃｔｏｒｉｚａｔｉｏｎ　ｆｏｒ　Ｍｕｌｔｉ－Ｓｐｅａｋｅｒ　Ｅｘｐｒｅｓｓｉｖｅ　Ｓｙｎｔｈｅｓｉｓ　ｏｆ　Ｅｂｏｏｋｓ，"　Ｐｒｏｃｅｅｄｉｎｇｓ　ｉｎ　Ｉｎｔｅｒｓｐｅｅｃｈ　２０１３，　ｐｐ．　１０４２－１０４５，　２０１３

　しかしながら従来の技術では、任意の話者の平静口調を表すデータを、話者適応技術によって異なる口調を表すデータに変換すると、出力される合成音声の品質が劣化する場合があった。

　実施形態の音声処理装置は、入力部と、決定部と、予測部と、を備える。入力部は話者の平静口調の音声を表す平静口調データを受け付ける。決定部は前記平静口調データに応じて予測パラメータを決定する。予測部は前記予測パラメータを使用して、前記話者の平静口調を目標の口調に変換する口調変換モデルを予測する。

第１実施形態の音声処理装置の構成の例を示す図。第１実施形態の予測パラメータモデルの構成の例を示す図。第１実施形態の音声処理方法の例を示すフローチャート。第２実施形態の予測パラメータの決定方法の例を示すフローチャート。第２実施形態の予測関数の概念図。第３実施形態の音声処理装置の構成の例を示す図。第３実施形態の音声処理方法の例を示すフローチャート。第４実施形態の音声処理装置の構成の例を示す図。第４実施形態の音声処理方法の例を示すフローチャート。第１乃至第４実施形態の音声処理装置のハードウェア構成の例を示す図。

（第１実施形態）
　図１は第１実施形態の音声処理装置１００の構成の例を示す図である。第１実施形態の音声処理装置１００は、入力部１、決定部２及び予測部３を備える。また第１実施形態の音声処理装置１００は、図１では図示されていない記憶部に、予測パラメータモデル２１及び口調変換モデル２２を記憶する。なお予測パラメータモデル２１は予め音声処理装置１００の記憶部に記憶されているが、口調変換モデル２２は予測部３により記憶される。

　入力部１は話者の平静口調の音声を表す平静口調データを受け付ける。第１実施形態の平静口調データは、話者の平静口調の音声の特徴を表す音声モデルである。音声モデルは音響特徴量データから抽出されたパラメータを、コンテキスト（言語属性データ）に基づいて統計的にモデル化した確率モデルである。音響特徴量データは、例えば韻律、発話の継続長、及び、音韻や声色を表す音声スペクトル等である。

　音声モデルは、具体的には、例えば隠れマルコフモデル（ＨＭＭ：Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ）、及び隠れセミマルコフモデル（ＨＳＭＭ：Ｈｉｄｄｅｎ　Ｓｅｍｉ－Ｍａｒｋｏｖ　Ｍｏｄｅｌ）等である。以下、第１実施形態の説明では、平静口調データがＨＳＭＭである場合について説明する。

　入力部１は平静口調データ（ＨＳＭＭ）を決定部２及び予測部３に送信する。

　決定部２は入力部１から平静口調データ（ＨＳＭＭ）を受信する。決定部２は平静口調データ（ＨＳＭＭ）に応じて予測パラメータモデル２１から予測パラメータを決定する。

　ここで予測パラメータモデル２１について説明する。

　図２は第１実施形態の予測パラメータモデル２１の構成の例を示す図である。予測パラメータモデル２１は、複数の平静口調予測モデル３１（平静口調予測モデル３１－１、平静口調予測モデル３１－２、・・・、平静口調予測モデル３１－Ｓ）と、口調変換予測モデル４１（口調変換予測モデル４１－１、口調変換予測モデル４１－２、・・・、口調変換予測モデル４１－Ｓ）とを含む。それぞれの平静口調予測モデル３１には、目標の口調に変換するために最適化された口調変換予測モデル４１が対応付けられている。

　平静口調予測モデル３１－１、平静口調予測モデル３１－２、・・・、平静口調予測モデル３１－ＳはＳ人の話者の平静口調の音声モデルである。平静口調予測モデル３１は、例えば話者の平静口調の音響特徴量データと、話者の平静口調の言語属性データと、から学習されたＨＳＭＭである。なお平静口調予測モデル３１は非特許文献１の話者適応技術により生成されたＨＳＭＭ、及び非特許文献１に記載の分布選択用の決定木により構成されていてもよい。

　口調変換予測モデル４１は、平静口調の変換先の１種類の口調（以下、平静口調の変換先の口調を「目標口調」という。）の音響特徴量データ、及び１種類の目標口調の言語属性データを用いて、非特許文献２に記載のクラスタ適応学習（ＣＡＴ：Ｃｌｕｓｔｅｒ　Ａｄａｐｔｉｖｅ　Ｔｒａｉｎｉｎｇ）に基づいて学習されたモデルである。ただし口調変換予測モデル４１はバイアスクラスタを含めて、クラスタの数が２つのモデルである。具体的には、口調変換予測モデル４１は、バイアスクラスタを、平静口調を表す音声モデルに固定し、もう１つのクラスタが平静口調と目標口調との差を表すようなモデルパラメータが得られるように制約を付けて学習されたモデルである。

　なお図２の例では、平静口調予測モデル３１と口調変換予測モデル４１とが１対１に対応付けられているが、１つの平静口調予測モデル３１に、２種類以上の口調変換予測モデル４１を対応付けてもよい。この場合の口調変換予測モデル４１のクラスタ数は、目標口調の数とバイアスクラスタとの合計である。すなわち、この場合の口調変換予測モデル４１は、目標口調が１種類の場合と同様に、各クラスタが平静口調と各目標口調との差を表すようなモデルパラメータが得られるように制約を付けて学習されたモデルである。

　図１に戻り、決定部２が予測パラメータを決定する方法について説明する。まず決定部２は平静口調データ（ＨＳＭＭ）と、平静口調予測モデル３１と、の距離を所定の距離関数によって算出する。具体的には、決定部２は平静口調データ（ＨＳＭＭ）と、平静口調予測モデル３１との距離を、例えば平静口調データ（ＨＳＭＭ）の平均ベクトルと、平静口調予測モデル３１の平均ベクトルと、の距離により算出する。

　ここで、距離関数は、例えばユークリッド距離、マハラノビス距離、バタチャリヤ距離及びヘリンジャー距離等を算出する関数である。また距離関数の代わりの尺度としてＳｙｍｍｅｔｒｉｃ　Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒ　ｄｉｖｅｒｇｅｎｃｅが用いられてもよい。

　決定部２は平静口調データ（ＨＳＭＭ）に距離が最も近い平静口調予測モデル３１を、平静口調データ（ＨＳＭＭ）に最も類似する平静口調予測モデル３１と判断する。そして決定部２は平静口調データ（ＨＳＭＭ）との距離が最も近い平静口調予測モデル３１に対応付けられた口調変換予測モデル４１を、予測パラメータに決定する。

　なお決定部２は、１つの距離関数を使用して予測パラメータを決定してもよいし、複数の距離関数を使用して予測パラメータを決定してもよい。決定部２は、例えば各距離関数により得られた距離に重み付け、又は優先度付け等を行うことにより、複数の距離関数から予測パラメータを決定してもよい。

　決定部２は予測パラメータを予測部３に送信する。

　予測部３は決定部２から予測パラメータを受信する。予測部３は予測パラメータを使用して、平静口調データ（ＨＳＭＭ）を目標の口調に変換する口調変換モデル２２を予測する。

　図３は第１実施形態の音声処理方法の例を示すフローチャートである。はじめに、入力部１が、話者の平静口調の音声を表す平静口調データ（ＨＳＭＭ）を受け付ける（ステップＳ１）。次に、決定部２が、平静口調データ（ＨＳＭＭ）と、平静口調予測モデル３１と、の距離を所定の距離関数によって算出する（ステップＳ２）。次に、決定部２が、平静口調データ（ＨＳＭＭ）との距離が最も近い平静口調予測モデル３１に対応付けられた口調変換予測モデル４１を、予測パラメータに決定する（ステップＳ３）。次に、予測部３は予測パラメータを使用して、平静口調データ（ＨＳＭＭ）を目標の口調に変換する口調変換モデル２２を予測する（ステップＳ４）。

　以上説明したように、第１実施形態の音声処理装置１００では、決定部２が平静口調データ（ＨＳＭＭ）との距離が最も近い平静口調予測モデル３１に対応付けられた口調変換予測モデル４１を、予測パラメータに決定する。そして予測部３が予測パラメータを使用して、話者の平静口調を目標の口調に変換する口調変換モデル２２を予測する。これにより任意の話者の平静口調データ（ＨＳＭＭ）を、話者適応技術によって異なる口調を表すデータに変換しても、出力される合成音声の品質の劣化を防ぐことができる。

（第１実施形態の変形例）
　次に第１実施形態の変形例について説明する。第１実施形態の変形例の音声処理装置１００は、入力部１が受け付ける平静口調データの形式が第１実施形態の音声処理装置１００と異なる。第１実施形態の変形例の音声処理装置１００の構成の説明は、第１実施形態の構成と同じ（図１参照）なので省略する。第１実施形態の変形例の説明では、第１実施形態と異なる箇所について説明する。

　入力部１は話者の平静口調の音声を表す平静口調データを受け付ける。第１実施形態の変形例の平静口調データは、話者の平静口調の音声の音響特徴量データと、平静口調の音声の言語属性データと、を含む。

　音響特徴量データは、音声を分析することにより得られた音声の特徴を示すデータである。具体的には、音響特徴量データは、人が発話した音声から抽出した韻律に関するパラメータ、及び、音韻や声色を表す音声スペクトルから抽出したパラメータである。韻律に関するパラメータは、声の高さを表す基本周波数の時間系列である。音韻や音色を表すパラメータは、ケプストラム、メルケプストラム、ＬＰＣ、メルＬＰＣ、ＬＳＰ、メルＬＳＰ等の時間系列、音声の周期・非周期性の割合を表す指標、及び、これら音響データの時間変化を表す特徴量である。

　言語属性データは、音声又はテキストを分析することにより得られた言語の属性を示すデータである。言語属性データは、例えば発話された音声の文字列情報から得られるデータである。具体的には、言語属性データは、音素、発音方法に関わる情報、句末位置、文長、呼気段落長、呼気段落位置、アクセント句長、アクセント句位置、単語長、単語位置、モーラ長、モーラ位置、アクセント型、係り受け情報、文法情報、及び、各特徴の先行、先々行、後続、後々続に関する音素境界情報等である。

　決定部２は入力部１から平静口調データ（音響特徴量データ及び言語属性データ）を受信する。決定部２は平静口調データ（音響特徴量データ及び言語属性データ）に応じて予測パラメータモデル２１から予測パラメータを決定する。

　具体的には、決定部２は平静口調データ（音響特徴量データ及び言語属性データ）に対する平静口調予測モデル３１の尤度を算出する。

　尤度は、入力データに対して統計モデルがどのくらいデータに合っているかを数値化した指標である。尤度は、確率Ｐ（λ｜Ｘ）（λ：モデルパラメータ、Ｘ：データ）で表される。

　決定部２は尤度に基づいて選択した平静口調予測モデル３１に対応付けられた口調変換予測モデル４１を予測パラメータに決定する。すなわち決定部２は平静口調データ（音響特徴量データ及び言語属性データ）に対する尤度が、最も高い平静口調予測モデル３１に対応付けられた口調変換予測モデル４１を予測パラメータに決定する。

　予測部３は決定部２から予測パラメータを受信する。予測部３は予測パラメータを使用して、平静口調データ（音響特徴量データ及び言語属性データ）を目標の口調に変換する口調変換モデル２２を予測する。

　以上説明したように、第１実施形態の変形例の音声処理装置１００では、決定部２が平静口調データ（音響特徴量データ及び言語属性データ）に対する尤度が最も高い平静口調予測モデル３１に対応付けられた口調変換予測モデル４１を、予測パラメータに決定する。そして予測部３は予測パラメータを使用して、話者の平静口調を目標の口調に変換する口調変換モデル２２を予測する。これにより任意の話者の平静口調データ（音響特徴量データ及び言語属性データ）を、話者適応技術によって異なる口調を表すデータに変換しても、出力される合成音声の品質の劣化を防ぐことができる。

（第２実施形態）
　次に第２実施形態について説明する。第２実施形態の音声処理装置１００は、決定部２による予測パラメータの決定方法が第１実施形態の音声処理装置１００と異なる。第２実施形態の音声処理装置１００の構成の説明は、第１実施形態の構成と同じ（図１参照）なので省略する。第２実施形態の説明では、第１実施形態と異なる箇所について説明する。

　決定部２は入力部１から平静口調データ（ＨＳＭＭ）を受信する。決定部２は平静口調データ（ＨＳＭＭ）に応じて予測パラメータモデル２１から予測パラメータを決定する。具体的には、決定部２は所定の予測関数により、平静口調予測モデル３１及び口調変換予測モデル４１から、平静口調データ（ＨＳＭＭ）に適した予測パラメータを決定する。

　所定の予測関数は、例えば重回帰及びアフィン変換等の線形変換関数、又はカーネル回帰及びニューラルネット等の非線形変換関数である。なお同時に２種類以上の異なる口調変換モデル２２を予測する予測パラメータを決定する予測関数を使用してもよい。

　第２実施形態の説明では、所定の予測関数を重回帰形の線形変換関数とし、１種類の口調変換モデル２２を予測する予測パラメータを決定する場合について説明する。

　なお重回帰形の線形変換を用いる場合では、Ｓ人の話者の平静口調予測モデル３１の構造が一致していることを想定する。すなわち全ての平静口調予測モデル３１のパラメータ数と、その対応関係が一意に決まっていることを想定する。そこで第２実施形態の平静口調予測モデル３１は、最尤線形回帰を用いた話者適応により構築されているものする。

　また同様に、重回帰形の線形変換を用いる場合では、それぞれの話者の口調変換予測モデル４１の構造が一致していることを想定する。そのため第２実施形態の口調変換予測モデル４１は、Ｓ人の話者の目標口調の音声データと、平静口調の音声モデルと、を非特許文献１に記載された共有決定木コンテキストクラスタリングを行うことにより、モデルの構造を共有化した後に、Ｓ人の話者の目標口調の音声データと、平静口調の音声モデルと、から作成される。

　次に第２実施形態の予測パラメータの決定方法について説明する。

　図４は第２実施形態の予測パラメータの決定方法の例を示すフローチャートである。はじめに、決定部２はスーパーベクトルを算出する（ステップＳ１１）。具体的には、まず決定部２は、平静口調予測モデル３１－１の平均に関するパラメータと、口調変換予測モデル４１－１の平均に関するパラメータと、を抽出する。そして決定部２が、平静口調予測モデル３１－１の平均に関するパラメータと、口調変換予測モデル４１－１の平均に関するパラメータと、を結合することにより、平静口調予測モデル３１－１と、口調変換予測モデル４１－１と、の平均を示すスーパーベクトルを算出する。同様に、決定部２は、平静口調予測モデル３１－２及び口調変換予測モデル４１－２、・・・、平静口調予測モデル３１－Ｓ及び口調変換予測モデル４１－Ｓについてもスーパーベクトルを算出する。

　次に、決定部２はＳ本のスーパーベクトルに、固有値分解又は特異値分解を行うことにより、スーパーベクトルの平均ベクトル（バイアスベクトル）と、Ｓ－１本の固有ベクトルとを抽出する（ステップＳ１２）。次に、決定部２は平均ベクトルと固有ベクトルとにより、下記式（１）のように予測関数を作成する（ステップＳ１３）。

　ここで、μ_ｂは平静口調データ（ＨＳＭＭ）の平均ベクトルである。μ_ｃは口調変換モデル２２の平均ベクトルである。ｅ_ｂ ^（ｓ）は平静口調予測モデル３１のｓ番目の固有ベクトルである。ｅ_ｃ ^（ｓ）は口調変換予測モデル４１のｓ番目の固有ベクトルである。ｅ_ｂ ^（０）はバイアスベクトルの平静口調予測モデル３１に対応する次元の成分を示すベクトルである。ｅ_ｃ ^（０）はバイアスベクトルの口調変換予測モデル４１に対応する次元の成分を示すベクトルである。ｗ^（ｓ）はｓ番目の固有ベクトルの係数（重み）である。

　次に、決定部２は式（１）により表される予測関数の係数（重み）ｗ^（ｓ）を決定する（ステップＳ１４）。具体的には、決定部２は下記式（２）により予測関数の係数（重み）ｗ^（ｓ）の組み合わせ（下記式（３））を決定する。

　すなわち決定部２は平静口調データ（ＨＳＭＭ）の平均ベクトルμ_ｂと、平静口調予測モデル３１の固有ベクトルｅ_ｂ及び平静口調予測モデル３１のバイアスベクトルｅ_ｂ ^（０）の線形和（式（１）右辺の第１成分参照）と、の差が最小となるように重みｗ^（ｓ）を決定する。

　第２実施形態の予測部３は、式（２）により決定した予測関数の係数（重み）ｗ^（ｓ）の組み合わせ（式（３））、及び式（１）から、口調変換モデル２２の平均ベクトルμ_ｃを予測する。すなわち予測部３は下記式（４）により表現される予測関数を使用して、口調変換モデル２２の平均ベクトルμ_ｃを予測する。

　図５は第２実施形態の予測関数の概念図である。決定部２が平静口調データ２０に応じて、複数の平静口調予測モデル３１と、複数の口調変換予測モデル４１とから、平静口調データ（ＨＳＭＭ）の口調変換モデル２２を予測する予測関数（式（４））を、予測パラメータとして決定する。そして予測部３が当該予測パラメータを使用して、話者の平静口調を目標の口調に変換する口調変換モデル２２を予測する。

　以上説明したように、第２実施形態の音声処理装置１００によれば、任意の話者の平静口調データ（ＨＳＭＭ）を、話者適応技術によって異なる口調を表すデータに変換しても、出力される合成音声の品質の劣化を防ぐことができる。

（第２実施形態の変形例）
　次に第２実施形態の変形例について説明する。第２実施形態の変形例の音声処理装置１００は、入力部１が受け付ける平静口調データの形式が第２実施形態の音声処理装置１００と異なる。第２実施形態の変形例の音声処理装置１００の構成の説明は、第１実施形態の構成と同じ（図１参照）なので省略する。第２実施形態の変形例の説明では、第２実施形態と異なる箇所について説明する。

　入力部１は話者の平静口調の音声を表す平静口調データを受け付ける。第２実施形態の変形例の平静口調データは、話者の平静口調の音声の音響特徴量データと、平静口調の音声の言語属性データと、を含む。音響特徴量データ及び言語属性データの説明は第１実施形態の変形例の説明と同じなので省略する。

　具体的には、決定部２は第２実施形態の音声処理装置１００の場合と同様にして、式（１）の予測関数を作成する。第２実施形態の変形例の決定部２は、非特許文献２に記載のクラスタ適応学習を使用し、下記式（５）及び（６）により、尤度が最大となるように重みｗ^（ｓ）の組み合わせ（式（３））を決定する。

　ここでＮ（；）は正規分布を示す。Σは共分散行列を示す。

　予測部３は、式（５）及び（６）により決定した予測関数の係数（重み）ｗ^（ｓ）の組み合わせ（式（３））、及び式（１）から、口調変換モデル２２の平均ベクトルμ_ｃを予測する。すなわち予測部３は式（４）により口調変換モデル２２の平均ベクトルμ_ｃを予測する。

　以上説明したように、第２実施形態の変形例の音声処理装置１００では、決定部２が平静口調データに応じて、複数の平静口調予測モデル３１と、複数の口調変換予測モデル４１とから、平静口調データ（音響特徴量データ及び言語属性データ）の口調変換モデル２２を予測する予測パラメータを決定する。そして予測部３が当該予測パラメータを使用して、話者の平静口調を目標の口調に変換する口調変換モデル２２を予測する。これにより任意の話者の平静口調データ（音響特徴量データ及び言語属性データ）を、話者適応技術によって異なる口調を表すデータに変換しても、出力される合成音声の品質の劣化を防ぐことができる。

（第３実施形態）
　次に第３実施形態について説明する。第３実施形態の音声処理装置１００は、第１実施形態、第１実施形態の変形例、第２実施形態又は第２実施形態の変形例の決定部２及び予測部３の処理により作成された口調変換モデル２２を使用して音声合成を行う。

　図６は第３実施形態の音声処理装置１００の構成の例を示す図である。第３実施形態の音声処理装置１００は、入力部１、決定部２、予測部３、解析部４、選択部５、生成部６、合成部７及び出力部８を備える。また第３実施形態の音声処理装置１００は、図６では図示されていない記憶部に、予測パラメータモデル２１、口調変換モデル２２及び目標話者モデル２３を記憶する。

　入力部１はテキストデータ又は平静口調データを受け付ける。テキストデータは任意の文字列を示すデータである。平静口調データは、ＨＳＭＭ、又は、音響特徴量データ及び言語属性データである。

　入力部１が平静口調データを受け付けた場合、決定部２及び予測部３の処理により口調変換モデル２２が作成される。決定部２及び予測部３の処理は、第１実施形態、第１実施形態の変形例、第２実施形態又は第２実施形態の変形例と同じなので説明を省略する。

　入力部１がテキストデータを受け付けた場合、入力部１はテキストデータを解析部４に送信する。

　解析部４は入力部１からテキストデータを受信する。解析部４はテキストデータを解析し、上述の言語属性データを取得する。解析部４は言語属性データを選択部５に送信する。

　選択部５は解析部４から言語属性データを受信する。選択部５は言語属性データに基づいて、所定の決定木により、口調変換モデル２２及び目標話者モデル２３からモデルパラメータを選択する。

　ここで、口調変換モデル２２は、目標の話者の平静口調の音声モデルを示す目標話者モデル２３に関連付けられている。すなわち口調変換モデル２２は、目標話者の平静口調の音声モデル（目標話者モデル２３）を、目標の口調に変換するためのモデルパラメータである。

　なお音声処理装置１００は口調変換モデル２２を複数備えていてもよい。これにより、例えばユーザからの口調の種類を示す操作入力に応じて、異なる口調の音声合成を行うことができる。同様に音声処理装置１００は目標話者モデル２３を複数備えていてもよい。

　選択部５はモデルパラメータを生成部６に送信する。

　生成部６は選択部５からモデルパラメータを受信する。生成部６はモデルパラメータに基づいて音声パラメータを生成する。生成部６は、例えば非特許文献２に記載されている方法によりモデルパラメータから音声パラメータを生成する。生成部６は音声パラメータを合成部７に送信する。

　合成部７は生成部６から音声パラメータを受信する。合成部７は音声パラメータから音声波形を合成する。合成部７は音声波形を出力部８に送信する。

　出力部８は合成部７から音声波形を受信する。出力部８は音声波形に応じた音声を出力する。出力部８は、例えば音声を音声ファイルとして出力する。また出力部８は、例えば音声をスピーカー等の音声出力用デバイスを通じて出力する。

　次に第３実施形態の音声処理方法について説明する。

　図７は第３実施形態の音声処理方法の例を示すフローチャートである。はじめに、入力部１が、テキストデータを受け付ける（ステップＳ２１）。次に、解析部４が、テキストデータを解析し、上述の言語属性データを取得する（ステップＳ２２）。次に、選択部５が、言語属性データに基づいて、所定の決定木により、口調変換モデル２２及び目標話者モデル２３からモデルパラメータを選択する（ステップＳ２３）。次に、生成部６が、モデルパラメータに基づいて音声パラメータを生成する（ステップＳ２４）。次に、合成部７が、音声パラメータから音声波形を合成する（ステップＳ２５）。次に、出力部８が、音声波形に応じた音声を出力する（ステップＳ２６）。

　以上説明したように、第３実施形態の音声処理装置１００によれば、第１実施形態、第１実施形態の変形例、第２実施形態又は第２実施形態の変形例の決定部２及び予測部３により作成された口調変換モデル２２を使用して、テキストデータから音声を合成することができる。

（第４実施形態）
　次に第４実施形態について説明する。第４実施形態の音声処理装置１００は、入力された音声データの口調を目標の口調に変換し、変換後の音声データを出力する。このとき第１実施形態の変形例、又は第２実施形態の変形例の決定部２及び予測部３の処理により作成された口調変換モデル２２が使用される。

　図８は第４実施形態の音声処理装置１００の構成の例を示す図である。第４実施形態の音声処理装置１００は、入力部１、決定部２、予測部３、解析部４、選択部５、生成部６、合成部７、出力部８、認識部９及び抽出部１０を備える。また第４実施形態の音声処理装置１００は、図８では図示されていない記憶部に、予測パラメータモデル２１、口調変換モデル２２、音声認識用モデル２４及び音声データ２５を記憶する。

　入力部１は任意の発話内容を含む音声データを受け付ける。入力部１は、例えばマイク等の音声入力デバイスから音声データを受け付ける。また入力部１は、例えば音声ファイルにより音声データを受け付ける。入力部１は音声データを認識部９及び抽出部１０に送信する。

　認識部９は入力部１から音声データを受信する。認識部９は音声認識用モデル２４を使用して音声認識を行うことにより、音声データからテキストデータを取得する。ここで、音声認識用モデル２４は、音声データからテキストデータを認識するために必要なモデルデータである。また認識部９は、同時に音素の時間境界を認識し、音素の時間境界を示す音素境界情報も取得する。認識部９はテキストデータ及び音素境界情報を解析部４に送信する。

　解析部４は認識部９からテキストデータ及び音素境界情報を受信する。解析部４はテキストデータを解析し、上述の言語属性データを取得する。また解析部４は言語属性データに音素境界情報を関連付ける。

　抽出部１０は入力部１から音声データを受信する。抽出部１０は音声データから、韻律に関するパラメータ（声の高さを表す基本周波数の時間系列）、又は韻律及び音色に関するパラメータ（ケプストラム等）を含む音響特徴量データを抽出する。

　音声データ２５は、認識部９により認識されたテキストデータ及び音素境界情報、解析部４により取得された言語属性データ、及び、抽出部１０により抽出された音響特徴量データを記憶する。

　決定部２は音声データ２５に含まれる言語属性データ及び音響特徴量データに応じて予測パラメータモデル２１から予測パラメータを決定する。決定部２が予測パラメータを決定する処理の説明は、第１実施形態の変形例、又は第２実施形態の変形例の決定部２の処理と同様なので省略する。決定部２は予測パラメータを予測部３に送信する。

　予測部３は決定部２から予測パラメータを受信する。予測部３は予測パラメータを使用して、音声データ２５が表す音声を目標の口調に変換する口調変換モデル２２を予測する。予測部３が口調変換モデル２２を予測する処理の説明は、第１実施形態の変形例、又は第２実施形態の変形例の予測部３の処理と同様なので省略する。

　選択部５は音声データ２５に含まれる言語属性データに基づいて、口調変換モデル２２からモデルパラメータを選択する。また選択部５は音声データ２５の言語属性データに関連付けられた音素境界情報に基づいて、モデルパラメータをモデルパラメータ系列として時系列に並べる。

　生成部６は音声データ２５に含まれる音響特徴量データの時系列に、モデルパラメータ系列を加算することにより、入力部１で受け付けた音声データの口調を変換した音声を表す音声パラメータを生成する。

　ここで、モデルパラメータ系列はモデルパラメータの種類が変わると離散的に変化する系列であるため、モデルパラメータを加算した音響特徴量データに離散的な変化の影響が生じる。そこで、この影響を緩和するために、生成部６は音響特徴量データに含まれる時間変化を表す特徴量を用いて平滑化処理を行う。平滑化処理は、例えば非特許文献１及び非特許文献２で用いられている尤度最大化基準による音声パラメータ生成法、及び、線形動的システムで用いられるカルマンフィルタ・カルマンスムーザ等である。この際、音響特徴量データの各フレームにおける分散情報が必要となるが、分散情報は任意に決定してよい。

　生成部６は音声パラメータを合成部７に送信する。

　次に第４実施形態の音声処理方法について説明する。

　図９は第４実施形態の音声処理方法の例を示すフローチャートである。はじめに、入力部１が、任意の発話内容を含む音声データを受け付ける（ステップＳ３１）。

　次に、認識部９が、音声データの音声認識を行う（ステップＳ３２）。具体的には、認識部９は音声認識用モデル２４を使用して音声認識を行うことにより、音声データからテキストデータを取得する。また認識部９は、同時に音素の時間境界を認識し、音素の時間境界を示す音素境界情報も取得する。

　次に、解析部４が、テキストデータを解析する（ステップＳ３３）。具体的には、解析部４はテキストデータを解析し、上述の言語属性データを取得する。また解析部４は言語属性データに音素境界情報を関連付ける。

　次に、抽出部１０が、音声データから、韻律に関するパラメータ（声の高さを表す基本周波数の時間系列）、又は韻律及び音色に関するパラメータ（ケプストラム等）を含む音響特徴量データを抽出する（ステップＳ３４）。

　次に、決定部２が、言語属性データ及び音響特徴量データに応じて予測パラメータモデル２１から予測パラメータを決定する（ステップＳ３５）。次に、予測部３が、予測パラメータを使用して、音声データ２５が表す音声を目標の口調に変換する口調変換モデル２２を予測する（ステップＳ３６）。

　次に、選択部５が、口調変換モデル２２からモデルパラメータを選択する（ステップＳ３７）。具体的には、選択部５は音声データ２５に含まれる言語属性データに基づいて、口調変換モデル２２からモデルパラメータを選択する。また選択部５は音声データ２５の言語属性データに関連付けられた音素境界情報に基づいて、モデルパラメータをモデルパラメータ系列として時系列に並べる。

　次に、生成部６が、音声データ２５に含まれる音響特徴量データの時系列に、モデルパラメータ系列を加算することにより、ステップＳ３１で受け付けた音声データの口調を変換した音声を表す音声パラメータを生成する（ステップＳ３８）。

　次に、合成部７が、音声パラメータから音声波形を合成する（ステップＳ３９）。次に、出力部８が、音声波形に応じた音声を出力する（ステップＳ４０）。

　以上説明したように、第４実施形態の音声処理装置１００によれば、第１実施形態の変形例、又は第２実施形態の変形例の決定部２及び予測部３により作成された口調変換モデル２２を使用して、入力された音声の口調を変換して出力することができる。

　なお認識部９、解析部４、決定部２及び予測部３の処理は、リアルタイムに行っても、事前に行ってもよい。

　また音声データ２５を、ＨＳＭＭ等の音声モデルとして記憶してもよい。この場合の決定部２及び予測部３の処理は、第１実施形態又は第２実施形態の音声処理装置１００と同様である。

　最後に、第１乃至第４実施形態の音声処理装置１００のハードウェア構成の例について説明する。

　図１０は第１乃至第４実施形態の音声処理装置１００のハードウェア構成の例を示す図である。第１乃至第４実施形態の音声処理装置１００は、制御装置５１、主記憶装置５２、補助記憶装置５３、表示装置５４、入力装置５５、通信装置５６、マイク５７及びスピーカー５８を備える。制御装置５１、主記憶装置５２、補助記憶装置５３、表示装置５４、入力装置５５、通信装置５６、マイク５７及びスピーカー５８は、バス５９を介して互いに接続されている。

　制御装置５１は補助記憶装置５３から主記憶装置５２に読み出されたプログラムを実行する。主記憶装置５２はＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）やＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等のメモリである。補助記憶装置５３はＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）や光学ドライブ等である。

　表示装置５４は音声処理装置１００の状態等を表示する。表示装置５４は、例えば、液晶ディスプレイである。入力装置５５は音声処理装置１００を操作するためのインタフェースである。入力装置５５は、例えばキーボードやマウス等である。通信装置５６はネットワークに接続するためのインタフェースである。

　マイク５７は音声を取得する。スピーカー５８は音声を出力する。

　第１乃至第４実施形態の音声処理装置１００で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ、メモリカード、ＣＤ－Ｒ及びＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｋ）等のコンピュータで読み取り可能な記憶媒体に記録されてコンピュータ・プログラム・プロダクトとして提供される。

　また第１乃至第４実施形態の音声処理装置１００で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また第１乃至第４実施形態の音声処理装置１００で実行されるプログラムをダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。

　また第１乃至第４実施形態の音声処理装置１００のプログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

　第１乃至第４実施形態の音声処理装置１００で実行されるプログラムは、上述した各機能ブロック（入力部１、決定部２、予測部３、解析部４、選択部５、生成部６、合成部７、出力部８、認識部９及び抽出部１０）を含むモジュール構成となっている。当該各機能ブロックは、実際のハードウェアとしては、制御装置５１が上記記憶媒体からプログラムを読み出して実行することにより、上記各機能ブロックが主記憶装置５２上にロードされる。すなわち上記各機能ブロックは主記憶装置５２上に生成される。なお上述した各機能ブロックの一部又は全部をソフトウェアにより実現せずに、ＩＣ（Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）等のハードウェアにより実現してもよい。

　本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims

　話者の平静口調の音声を表す平静口調データを受け付ける入力部と、
　前記平静口調データに応じて予測パラメータを決定する決定部と、
　前記予測パラメータを使用して、前記話者の平静口調を目標の口調に変換する口調変換モデルを予測する予測部と、
　を備える音声処理装置。
　前記決定部は、複数の平静口調予測モデルに、それぞれの前記平静口調予測モデルを前記目標の口調に変換するために最適化された口調変換予測モデルが対応付けられた予測パラメータモデルに基づいて前記予測パラメータを決定する、
　請求項１に記載の音声処理装置。
　前記平静口調データは、前記話者の平静口調の音声の特徴を表す音声モデルであり、
　前記決定部は、前記音声モデルと、前記平静口調予測モデルと、の距離を所定の距離関数によって算出し、算出された距離に基づいて選択した前記平静口調予測モデルに対応付けられた前記口調変換予測モデルを前記予測パラメータに決定する、
　請求項２に記載の音声処理装置。
　前記音声モデルは、隠れマルコフモデル又は隠れセミマルコフモデルであり、
　前記距離は、前記隠れマルコフモデル又は前記隠れセミマルコフモデルと、前記平静口調予測モデルとの距離である、
　請求項３に記載の音声処理装置。
　前記隠れマルコフモデル又は前記隠れセミマルコフモデルと、前記平静口調予測モデルとの距離は、前記隠れマルコフモデルの平均ベクトル又は前記隠れセミマルコフモデルの平均ベクトルと、前記平静口調予測モデルの平均ベクトルとの距離である、
　請求項４に記載の音声処理装置。
　前記平静口調データは、前記話者の平静口調の音声を分析することにより得られた音声の特徴を示す音響特徴量データと、前記話者の平静口調の音声を分析することにより得られた言語の属性を示す言語属性データと、であり、
　前記決定部は、前記音響特徴量データと、前記言語属性データと、に対する前記平静口調予測モデルの尤度を算出し、算出された尤度に基づいて選択した前記平静口調予測モデルに対応付けられた前記口調変換予測モデルを前記予測パラメータに決定する、
　請求項２に記載の音声処理装置。
　前記平静口調データは、前記話者の平静口調の音声の特徴を表す音声モデルであり、
　前記決定部は、前記音声モデルに応じて前記複数の平静口調予測モデルの重みを決定し、前記口調変換予測モデルそれぞれのモデルパラメータに、対応する前記平静口調予測モデルに対して決定された前記重みを付与して前記予測パラメータを決定する、
　請求項２に記載の音声処理装置。
　前記平静口調データは、前記話者の平静口調の音声を分析することにより得られた音声の特徴を示す音響特徴量データと、前記話者の平静口調の音声を分析することに得られた言語の属性を示す言語属性データと、であり、
　前記決定部は、前記音響特徴量データと、前記言語属性データと、に対する前記複数の平静口調予測モデルに基づくベクトルの線形和の尤度を算出し、算出された尤度が最大になる線形和の係数を重みとして決定し、前記口調変換予測モデルそれぞれのモデルパラメータに、対応する前記平静口調予測モデルに対して決定された前記重みを付与して生成された予測パラメータを決定する、
　請求項２に記載の音声処理装置。
　入力部が、話者の平静口調の音声を表す平静口調データを受け付けるステップと、
　決定部が、前記平静口調データに応じて予測パラメータを決定するステップと、
　予測部が、前記予測パラメータを使用して、前記話者の平静口調を目標の口調に変換する口調変換モデルを予測するステップと、
　を含む音声処理方法。
　コンピュータを、
　話者の平静口調の音声を表す平静口調データを受け付ける入力部と、
　前記平静口調データに応じて予測パラメータを決定する決定部と、
　前記予測パラメータを使用して、前記話者の平静口調を目標の口調に変換する口調変換モデルを予測する予測部、
　として機能させるためのプログラム。