JPWO2009122780A1

JPWO2009122780A1 - 適応話者選択装置および適応話者選択方法並びにプログラム

Info

Publication number: JPWO2009122780A1
Application number: JP2010505436A
Authority: JP
Inventors: 真宏谷; 江森　正; 正江森; 祥史大西; 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-03-31
Filing date: 2009-02-13
Publication date: 2011-07-28
Also published as: WO2009122780A1

Abstract

適応話者選択装置の特徴量算出部は、評価話者の音声信号の特徴量を算出する。類似度算出部は、特徴量算出部が算出した評価話者音声信号の特徴量を用いて、各学習話者の話者モデルについて、評価話者との類似度を算出する（Ｓ２０）。適応話者選択部は、評価話者と学習話者間の類似度、および学習話者間の類似度に基づいて、「評価話者と学習話者間の類似度ができるだけ大きく、学習話者間類似度ができるだけ小さく」なるＮ人の学習話者を適応話者として選択する（Ｓ３０）。したがって、話者適応モデルの精度劣化を抑制できるように適応話者を選択できる。

Description

本発明は、評価話者に適応した音響モデルを作成するために学習話者から適応話者を選択する技術に関する。

音声認識システムは様々な分野で利用されている。音声認識の精度を高めるために、音声認識システムに用いられる音響モデルを利用者に適応させる技術（話者適応技術）が知られており、話者適応モデル（利用者に適応した音響モデル）の作成について様々な手法が提案されている。

特許文献１と非特許文献１には、十分統計量を用いて話者適応モデルを作成する手法が開示されている。図８は、この手法を実現する話者適応モデル作成装置の模式例を示す。

図８に示す話者適応モデル作成装置１は、記憶手段１０と、入力手段２０と、データ処理手段３０を備える。記憶手段１０は、十分統計量記憶部１２と話者モデル記憶部１４を有し、データ処理手段３０は、特徴量算出部３２と、類似度算出部３４と、話者選択部３６と、適応モデル作成部３８を有する。

話者適応モデル作成装置１は、複数の話者のサンプル音声データで構成されたデータベースを用いて話者毎に音響モデルを作成し、これらの音響モデルから複数個を選択して、発声話者（上述した利用者に該当する）に適応させることによって発声話者用の音響モデルを作成する。本明細書の以下の説明において、サンプル音声データの話者を「学習話者」といい、学習話者毎に作成された、話者の音響的な特徴を表す確率モデルを「話者モデル」という。また、適応の対象となる発声話者を「評価話者」といい、評価話者に適応した音響モデルを「適応モデル」という。また、適応モデルを作成するために選択された話者モデルの話者を「適応話者」という。

話者適応モデル作成装置１は、下記のステップを経て適応モデルを作成する。
１．データベースを用いて十分統計量と話者モデルを作成する。
話者モデルは、学習話者毎に作成された、該話者の音響的な特徴を表す確率モデルである。ここでは、音素を区別することなく１状態６４混合の混合ガウス分布モデル（ＧＭＭ：ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）で表現される。なお、ＧＭＭは、混合正規分布で表現した観測データの確率モデルである。

十分統計量は、学習話者毎に作成され、隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）で表現される。「十分統計量」とは、データベースから音響モデルを構築するために十分な統計量のことを意味し、ここでは、ＨＭＭにおける平均、分散、およびＥＭカウントが用いられる。なお、「ＥＭカウント」は、ＨＭＭを学習する際に一般的に用いられるＥＭアルゴリズムにおいて、状態ｉから状態ｊの正規分布に遷移する確率の度数である。十分統計量は、当該学習話者の音声データを用いて、ＥＭアルゴリズで不特定話者モデルから１回学習することにより算出される。

話者適応モデル作成装置１において、十分統計量記憶部１２と話者モデル記憶部１４は、上述のように算出された学習話者毎の十分統計量と話者モデルをそれぞれ記憶する。
２．評価話者の音声データの入力

話者適応モデル作成装置１において、入力手段２０により、評価話者の音声データを入力する。なお、入力手段２０は、例えばマイクロホンなどの音声入力デバイスから評価話者の音声データを受け取る。
３．適応話者の選択と適応モデルの作成

話者適応モデル作成装置１のデータ処理手段３０は、これらの処理を担う。
特徴量算出部３２は、入力手段２０が入力した評価話者の音声データを受け取り、音声認識に必要な特徴量を算出して類似度算出部３４に出力する。

類似度算出部３４は、話者モデル記憶部１４に記憶された各学習話者の話者モデルを読み込み、これらの話者モデル毎に、特徴量算出部３２から受け取った評価話者の特徴量との類似度を算出し、類似度と、該類似度に対応する学習話者との組を話者選択部３６に出力する。

ここでは、類似度として、学習話者の話者モデルに評価話者の音声から抽出した特徴量を入力して得た尤度が用いられる。この尤度が大きいほど類似度が高い。

話者選択部３６は、類似度算出部３４から出力された各々の類似度と学習話者の組から、類似度すなわち尤度が上位Ｎ人の学習話者を適応話者として選択し、選択された適応話者を示す識別子（ＩＤ番号など）を適応モデル作成部３８に出力する。なお、適応話者の数Ｎは、経験的に定められた定数である。

適応モデル作成部３８は、話者選択部３６から、適応話者に選択された学習話者の識別子を受け取り、これらの識別子が示す学習話者の十分統計量を十分統計量記憶部１２から読み出す。そして、読み出した十分統計量を用いて適応モデルを作成して出力し、評価話者の音声認識に供する。

十分統計量記憶部１２から読み出した十分統計量を用いて適応モデルを作成する処理は、具体的には、下記の式（１）〜式（３）が示す統計処理演算である。

ここで、μ_ｉ ^ａｄｐ（ｉ＝１，・・・，Ｎ_ｍｉｘ）、ν_ｉ ^ａｄｐ（ｉ＝１，・・・，Ｎ_ｍｉｘ）は、それぞれ、適応モデルのＨＭＭの各状態における正規分布の平均と分散であり、Ｎ_ｍｉｘは、混合分布数である。また、ａ^ａｄｐ［ｉ］［ｊ］（ｉ＝１，・・・，Ｎ_{ｓｔａｔｅ}，ｊ＝１，・・・，Ｎ_{ｓｔａｔｅ}）は、状態ｉから状態ｊへの遷移確率であり、Ｎ_{ｓｔａｔｅ}は、状態数である。また、Ｎ_ｓｅｌは、選択された適応話者の数であり、μ_ｉ ^ｊ（ｉ＝１，・・・，Ｎ_ｍｉｘ，ｊ＝１，・・・，Ｎ_ｓｅｌ）、ν_ｉ ^ｊ（ｉ＝１，・・・，Ｎ_ｍｉｘ，ｊ＝１，・・・，Ｎ_ｓｅｌ）は、それぞれ、選択された適応話者の音響モデルの平均、分散である。また、Ｃ_ｍｉｘ ^ｊ（ｊ＝１，・・・，Ｎ_ｓｅｌ）、Ｃ_{ｓｔａｔｅ} ^ｋ［ｉ］［ｊ］（ｋ＝１，・・・，Ｎ_ｓｅｌ，ｉ＝１，・・・，Ｎ_{ｓｔａｔｅ}，ｊ＝１，・・・，Ｎ_{ｓｔａｔｅ}）は、それぞれ、正規分布におけるＥＭカウント、状態遷移に関するＥＭカウントである。

なお、上述した手法では、経験的に適応話者の数Ｎを一定に定めているが、たとえば非特許文献２に記載されたように、評価話者と学習話者との音響特徴空間における話者間距離を基準に定める方法もある。

また、音声データの特徴量は、たとえば非特許文献３に記載されたメルケプラストラム係数（ＭＦＣＣ）やそれらの変化率などが知られている。
特許第３７５６８７９号公報芳澤伸一，馬場朗，松浪加奈子，米良祐一郎，山田実一，李晃伸，鹿野清宏，「十分統計量と話者距離を用いた音韻モデルの教師なし学習法」，電子情報通信学会論文誌，Ｄ−II，Ｖｏｌ．Ｊ８５−Ｄ−II，Ｎｏ．３，ｐｐ．３８２−２８９，２００２年３月谷真宏，江森正，大西祥史，越仲孝文，篠田浩一，「十分統計量を用いた教師なし話者適応における話者選択法」，信学技報，Ｖｏｌ．１０７，Ｎｏ．４０６，ｐｐ．８５−８９，２００７年１２月鹿野清宏，伊藤克亘，河原達也，武田一哉，山本幹雄著，「音声認識システム」，株式会社オーム社，２００１年，ｐｐ．１３−１５

特許文献１と非特許文献１に記載された上記の手法は、評価話者の音声に対する尤度を類似度として用い、類似度が高い学習話者を適応話者として選択する。すなわち、学習話者と評価話者間の音声の類似度のみを適応話者の選択基準としている。例えば、選択された複数の適応話者の音声間において、音響的な特徴のみならず、発話内容などを表す音韻性の特徴も類似している場合、適応話者の発話内容などのバリエーションが少ないため、学習に用いられる音素の出現頻度に偏りが生じ、適応モデルの精度劣化を引き起こしてしまう恐れがある。

本発明は、上記事情に鑑みてなされたものであり、適応モデルの精度劣化を回避するための適応話者選択技術を提供する。

本発明の一つの態様は、評価話者に適応した音響モデルを作成するために、学習話者の集合から複数の適応話者を選択する適応話者選択方法である。この方法は、評価話者と音声の類似度ができるだけ高く、かつ互いの音声の類似度ができるだけ小さい複数の学習話者を適応話者として選択する。

なお、上記態様の方法を、該方法を実行する装置や、該方法をコンピュータに実行せしめるプログラムとして置き換えて表現したものも、本発明の態様として有効である。

本発明にかかる適応話者選択技術によれば、選択された適応話者の音響モデルを用いて評価話者に適応した音響モデルを作成する際に、作成された音響モデルの精度劣化を抑制することができる。

本発明にかかる技術を説明するための適応話者選択装置の模式例を示す図である。図１に示す適応話者選択装置における類似度算出部の構成例を示す図である。図１に示す適応話者選択装置による処理の流れを示すフローチャートである。図２に示す例の類似度算出部の処理の流れを示すフローチャートである。図１に示す適応話者選択装置における適応話者選択部による処理の流れの一例を示すフローチャートである。本発明の実施の形態にかかる適応話者モデル生成装置を示す図である。図６に示す適応話者モデル生成装置による処理の流れを示すフローチャートである。従来技術を説明するために用いた話者適応モデル作成装置の模式図である。

符号の説明

１話者適応モデル作成装置１０記憶手段
１２十分統計量記憶部１４話者モデル記憶部
２０入力手段３０データ処理手段
３２特徴量算出部３４類似度算出部
３６話者選択部３８適応モデル作成部
１００適応話者選択装置１１２話者モデル記憶部
１１４学習話者間類似度記憶部１２０特徴量算出部
１３０類似度算出部１３２評価話者モデル作成部
１３４類似度算出実行部１４０適応話者選択部
２００適応話者モデル生成装置２１０記憶手段
２１２十分統計量記憶部２１４話者モデル記憶部
２１６学習話者間類似度記憶部２２０入力手段
２３０データ処理手段２３２特徴量算出部
２３４類似度算出部２３６話者選択部
２３８適応モデル作成部

以下の説明に用いられる図面に、様々な処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、プロセッサ、メモリ、その他の回路で構成することができ、ソフトウェア的には、メモリに記録された、またはロードされたプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。また、分かりやすいように、これらの図面において、本発明の技術を説明するために必要なもののみを示す。

本発明の具体的な実施の形態を説明する前に、まず、本発明の原理を説明する。
図１は、本発明にかかる技術に基づく適応話者選択装置１００の模式図の例である。適応話者選択装置１００は、話者モデル記憶部１１２と、学習話者間類似度記憶部１１４と、特徴量算出部１２０と、類似度算出部１３０と、適応話者選択部１４０を備える。

話者モデル記憶部１１２は、学習話者毎に作成された話者モデルを、学習話者と対応付けて記憶している。対応付けの手法としては、例えば学習話者にユニークな識別番号を付与し、話者モデルと、識別番号とを対応付ける。話者モデルは、例えばＧＭＭで表現されるものとするが、ＨＭＭ、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）や、ＮＮ（ＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＢＮ（ＢｅｙｅｓｉａｎＮｅｔｗｏｒｋ）によるものであってもよい。

学習話者間類似度記憶部１１４は、話者モデル記憶部１１２にその話者モデルが記憶された各学習話者の集合における全ての２学習話者間の音声の類似度を示す類似度テーブルを記憶している。これらの類似度の数は、２学習話者の組合せの数と同一である。

２学習話者間の音声の類似度（以下単に学習話者間類似度という）は、例えば当該２学習話者の話者モデル間距離の逆数や逆数のｎ乗（ｎ：正数）を用いる。話者モデル間距離の計算は、例えば、確率モデルである２つの話者モデルの統計的な距離を算出するＫＬダイバージェンスを用いることができる。なお、類似度は、モデル間距離から導き出されるものに限らず、たとえば、学習話者の音声または音声から抽出された特徴量に対する尤度に基づいたものであってもよい。

特徴量算出部１２０は、評価話者の音声信号（評価話者音声信号）から、音声認識に必要な特徴量を算出して類似度算出部１３０に出力する。評価話者音声信号は、例えば、サンプリング周波数１６ｋＨｚ、１６ｂｉｔのＡ／Ｄ変換により得られた評価話者の音声データである。特徴量算出部１２０が抽出する特徴量は、例えば、非特許文献３に記載されたメルケプラストラム係数（ＭＦＣＣ）やそれらの変化率である。この場合、特徴量算出部１２０は、評価話者音声信号を、フレームと呼ばれる１０ｍｓｅｃ程度の一定区間毎に切り出し、プリエンファシス、高速フーリエ変換（ＦＦＴ）、フィルタバンク分析、コサイン変換を行って、特徴ベクトルの時系列の形式の特徴量を抽出する。勿論、特徴量は、これに限られることがなく、音声の特徴を表すことができればたとえば音声データそのものであってもよい。

類似度算出部１３０は、特徴量算出部１２０が抽出した評価話者音声信号の特徴量を用いて、評価話者と学習話者の類似度を算出する。具体的には、例えば、話者モデル記憶部１１２から各学習話者の話者モデルを読み出して、それぞれの話者モデルについて、評価話者の特徴量に対する尤度を類似度として算出する。

評価話者と学習話者間の類似度算出は、上記手法に限らない。図２を参照して別の手法の一例を説明する。
この手法の場合、類似度算出部１３０は、評価話者モデル作成部１３２と類似度算出実行部１３４を有する。評価話者モデル作成部１３２は、特徴量算出部１２０が得た評価話者の特徴量を用いて評価話者の話者モデル（以下評価話者モデルという）を作成する。評価話者モデルは、話者モデル記憶部１１２に記憶された学習話者の話者モデルと同じ形式を有し、たとえば、話者モデルがＧＭＭで表現されるものであれば、評価話者モデル作成部１３２は、ＧＭＭ形式で評価話者モデルを作成する。

類似度算出実行部１３４は、話者モデル記憶部１１２から各話者モデルを読出し、それぞれの話者モデルについて、評価話者モデル作成部１３２が作成した評価話者モデルとの類似度を算出する。具体的には、たとえば、ＫＬダイバージェンスを用いて評価話者モデルと話者モデルのモデル間距離を算出し、モデル間距離の逆数や逆数のｎ乗（ｎ：正数）を類似度として導き出す。

類似度算出部１３０は、算出した各類似度を適応話者選択部１４０に出力する。
適応話者選択部１４０は、類似度算出部１３０が算出した評価話者と学習話者間の類似度と、および学習話者間類似度記憶部１１４に記憶された学習話者間類似度とを用いて適応話者をＮ人選択する。選択する適応話者の数Ｎは、従来知られているいかなる方法で定めてもよい。たとえば、非特許文献１に記載されたように、経験的に定数に定めるようにしてもよく、非特許文献２に記載されたように、評価話者と学習話者との音響特徴空間における話者間距離を基準に定めるようにしてもよい。

類似度算出部１３０は、具体的には、「評価話者と学習話者間の類似度ができるだけ大きく、学習話者間類似度ができるだけ小さく」なるように選択する。ここで、適応話者選択部１４０による適応話者選択の手法の例を説明する。

１つの手法は、評価話者と適応話者間の類似度の減少関数と、学習話者間の類似度の増加関数との和をポテンシャル関数とし、このポテンシャル関数の値を最小とする学習話者を適応話者として選択する。具体的には、式（４）を用いて、ポテンシャル関数Ｕを最小とする学習話者Ｎ人を選択する。

式（４）において、Ｎは、上述した、選択する適応話者の数である。ｒ_ｔｉは、評価話者ｔと学習話者ｉのモデル間距離であり、ｒ_ｉｊは学習話者ｉと学習話者ｊのモデル間距離であり、両者は共にＫＬダイバージェンスを用いて算出できる。ポテンシャル関数Ｕを特徴付けるパラメータ「ｋ_１，ｋ_２，・・・，ｌ_１，ｌ_２，・・・，ｍ_１，ｍ_２，・・・，ｎ_１，ｎ_２，・・・」は、例えば開発データを用いて音声認識実験を行い、認識性能が高くなるように設定される。また、演算の簡素化のために、式（４）に対して、ｋ_１＝１、ｌ_１＝１、ｍ１＝_１、ｎ_１＝１、他のパラメータを０とした場合に得た式（５）を用いてもよい。

適応話者選択部１４０による適応話者の選択手法について、もう１つの例を説明する。この手法は、まず、適応話者の候補となる学習話者の候補を絞る。具体的には、例えば、適応話者との類似度が、予め定められた閾値以上の学習話者を候補として選択する。その後、選択した候補の学習話者について学習話者間類似度を学習話者間類似度記憶部１１４から読み出して、上述した第１の例の手法と同じように、ポテンシャル関数を用いて、候補となる学習話者から適応話者を選択する。なお、この手法の場合、候補として選出された学習話者の数が、選択する適応話者の数以下であるときには、候補から適応話者を選択する処理を行わずに、候補を適応話者として決定してもよい。

また、候補選択の閾値を用いずに、評価話者との類似度が高い順にＭ人（Ｍ＞Ｎ）の学習話者を候補として選択し、その後、上述した第１の例の手法のように、ポテンシャル関数を用いて、候補となる学習話者から適応話者を選択するようにしてもよい。

候補となる学習話者の数を一度絞ってから適応話者を選択する手法は、処理速度の向上を図ることができる。例えば、学習話者が１０００人存在し、この中から１０人の適応話者を選択する場合、候補を絞らずに適応話者を選択する手法では、式（４）または式（５）の演算回数は_１０００Ｃ_１０回である。一方、候補を３０人に絞ってから適応話者を選択すれば、式（４）または式（５）の演算回数は、_３０Ｃ_１０回に削減される。

図３は、図１に示す適応話者選択装置１００による処理の流れを示すフローチャートである。まず、特徴量算出部１２０は、評価話者音声信号の特徴量を算出する（Ｓ１０）。類似度算出部１３０は、特徴量算出部１２０が算出した評価話者音声信号の特徴量を用いて、話者モデル記憶部１１２に記憶された各学習話者の話者モデルについて、評価話者との類似度を算出する（Ｓ２０）。類似度の算出は、例えば評価話者音声信号の特徴量に対する尤度を話者モデル毎に算出してもよいし、図４に示すように、評価話者音声信号の特徴量を用いて評価話者モデルを作成し（Ｓ２２）、各話者モデルについて、評価話者モデルとの類似度を算出する（Ｓ２４）ようにしてもよい。

そして、適応話者選択部１４０は、評価話者と学習話者間の類似度、および学習話者間の類似度に基づいて、「評価話者と学習話者間の類似度ができるだけ大きく、学習話者間類似度ができるだけ小さく」なるＮ人の学習話者を適応話者として選択する（Ｓ３０）。適応話者の選択に当たり、すべての学習話者から直接適応話者を選択するようにしてもよいし、図５に示すように、評価話者との間の類似度に応じてＭ人（Ｍ＞Ｎ）の候補を選択し（Ｓ３２）、選択されたＭ人の候補からＮ人の適応話者を選択する（Ｓ３４）ようにしてもよい。

以上において、本発明にかかる適応話者選択技術の原理を説明した。この技術によれば、適応話者を選択する際に、「評価話者と学習話者間の類似度ができるだけ大きく、学習話者間類似度ができるだけ小さくなる」学習話者を適応話者として選択するので、適応話者の発話内容のバリエーションが少なくなることを防ぐことができる。したがって、適応話者の十分統計量を用いて作成した適応モデルの精度劣化を抑制することができる。

以上の説明を踏まえて本発明の実施の形態を説明する。
図６は、本発明の実施の形態にかかる適応話者モデル生成装置２００を示す。適応話者モデル生成装置２００は、記憶手段２１０と、入力手段２２０と、データ処理手段２３０を備える。

記憶手段２１０は、学習話者に対して求められた十分統計量を学習話者のＩＤ毎に記憶した十分統計量記憶部２１２と、学習話者の音響モデルを学習話者のＩＤ毎に記憶した話者モデル記憶部２１４と、各学習話者の集合における全ての２学習話者間の音声の類似度を示す類似度テーブルを記憶した学習話者間類似度記憶部２１６を有する。

入力手段２２０は、例えばマイクロホンなどの音声入力デバイスから評価話者の音声信号を受け取ってデータ処理手段２３０に入力する。

データ処理手段２３０は、特徴量算出部２３２と、類似度算出部２３４と、話者選択部２３６と、適応モデル作成部２３８を有する。

特徴量算出部２３２は、入力手段２２０から評価話者音声信号を受け取り、音声認識に必要な特徴量を算出して類似度算出部２３４に出力する。なお、特徴量算出部２３２による特徴量算出の具体的な手法は、図１に示す適応話者選択装置１００における特徴量算出部１２０が用いる手法のいずれであってもよい。

類似度算出部２３４は、話者モデル記憶部２１４に記憶された各学習話者の話者モデルを読み込み、これらの話者モデル毎に、特徴量算出部２３２から受け取った評価話者音声信号との類似度を算出し、類似度と、該類似度に対応する学習話者のＩＤとの組を話者選択部２３６に出力する。なお、類似度算出部２３４が算出する類似度の種類、および類似度を算出する手法は、適応話者選択装置１００における類似度算出部１３０のものと同じであるので、ここで詳細な説明を省略する。

話者選択部２３６も、適応話者選択装置１００における適応話者選択部１４０と同様に、「評価話者と学習話者間の類似度ができるだけ大きく、学習話者間類似度ができるだけ小さくなる」学習話者Ｎ人を適応話者として選択する。話者選択部２３６は、選択したＮ人の適応話者のＩＤを適応モデル作成部２３８に出力する。

適応モデル作成部２３８は、話者選択部２３６から出力されたＮ人の適応話者のＩＤに対応する十分統計量を十分統計量記憶部２１２から読み出して、統計処理計算により、評価話者に適応した音響モデル（適応モデル）を作成する。

なお、適応モデル作成部２３８による適応モデルの作成手法は、上記手法に限らず、たとえば、類似度算出部２３４が算出した、適応話者の話者モデルの評価話者の特徴量に対する尤度に応じた重み付け係数で、各適応話者の十分統計量を重み付けして統合したり、適応話者の話者モデルを任意の係数で重み付けして統合するようにしたりするなどの手法であってもよい。

図７は、適応話者モデル生成装置２００による処理の流れを示すフローチャートである。ステップＳ５０〜Ｓ７０は、適応話者を選択するまでの処理であり、図３に示す適応話者選択装置１００による処理と同じである。ステップＳ８０において、適応話者モデル生成装置２００における適応モデル作成部２３８は、話者選択部２３６が選択したＮ人の適応話者の十分統計量を用いて、評価話者に適応した音響モデルを作成する。

本実施の形態の適応話者モデル生成装置２００は、図１に示す適応話者選択装置１００と同様の手法で適応話者を選択して、評価話者に適応したモデルを作成するので、適応モデルの精度劣化を抑制することができる。

以上、実施の形態（および実施例）を参照して本願発明を説明したが、本願発明は上記実施の形態（および実施例）に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、２００８年３月３１日に出願された日本出願特願２００８−０９２２０６を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明は、例えば、評価話者に適応した音響モデルを作成するために学習話者から適応話者を選択する技術に使用される。

Claims

評価話者に適応した音響モデルを作成するために、学習話者の集合から複数の適応話者を選択する適応話者選択方法において、
前記評価話者と音声の類似度ができるだけ高く、かつ互いの音声の類似度ができるだけ小さい複数の学習話者を前記適応話者として選択することを特徴とする適応話者選択方法。
式（１）に示すポテンシャル関数Ｕの値を最小化する学習話者Ｎ人を適応話者として選択することを特徴とする請求項１に記載の適応話者選択方法。

式（１）において、ｒ_ｔｉは、評価話者ｔと学習話者ｉのモデル間距離であり、ｒ_ｉｊは学習話者ｉと学習話者ｊのモデル間距離であり、「ｋ_１，ｋ_２，・・・，ｌ_１，ｌ_２，・・・，ｍ_１，ｍ_２，・・・，ｎ_１，ｎ_２，・・・」は、ポテンシャル関数Ｕの特徴パラメータである。
前記評価話者との類似度が所定の閾値以上である学習話者を候補として選択し、選択した候補から前記複数の適応話者を選択することを特徴とする請求項１または２に記載の適応話者選択方法。
請求項１から３のいずれかに記載の適応話者選択方法により選択され複数の適応話者の十分統計量を用いて前記評価話者に適応した音響モデルを作成する話者適応モデル生成方法。
評価話者に適応した音響モデルを作成するために、学習話者の集合から複数の適応話者を選択する適応話者選択装置であって、
前記学習話者の集合における全ての２学習話者間の音声の類似度を記憶する学習話者類似度記憶部と、
前記評価話者と各前記学習話者間の音声の類似度を夫々算出する類似度算出部と、
該類似度算出部により算出した前記類似度と、前記学習話者類似度記憶部に記憶された各学習話者類似度とに基づいて、前記評価話者と音声の類似度ができるだけ高く、かつ互いの音声の類似度ができるだけ小さい複数の学習話者を前記適応話者として選択する話者選択部とを備えることを特徴とする適応話者選択装置。
前記話者選択部は、式（２）に示すポテンシャル関数Ｕの値を最小化する学習話者Ｎ人を適応話者として選択することを特徴とする請求項５に記載の適応話者選択装置。

式（２）において、ｒ_ｔｉは、評価話者ｔと学習話者ｉのモデル間距離であり、ｒ_ｉｊは学習話者ｉと学習話者ｊのモデル間距離であり、「ｋ_１，ｋ_２，・・・，ｌ_１，ｌ_２，・・・，ｍ_１，ｍ_２，・・・，ｎ_１，ｎ_２，・・・」は、ポテンシャル関数Ｕの特徴パラメータである。
前記話者選択部は、前記評価話者との類似度が所定の閾値以上である学習話者を候補として選択し、選択した候補から前記複数の適応話者を選択することを特徴とする請求項５または６に記載の適応話者選択装置。
各学習話者の十分統計量を記憶する十分統計量記憶部と、
該十分当統計量記憶部に記憶された、請求項５から７のいずれか１項に記載の適応話者選択装置により選択され複数の適応話者の十分統計量を用いて前記評価話者に適応した音響モデルを作成する適応モデル作成手段とを備えた話者適応モデル生成装置。
評価話者に適応した音響モデルを作成するために、学習話者の集合から複数の適応話者を選択する適応話者選択処理をコンピュータに実行せしめるプログラムを記録したコンピュータ読取可能な記録媒体であって、
前記適応話者選択処理は、記評価話者と音声の類似度ができるだけ高く、かつ互いの音声の類似度ができるだけ小さい複数の学習話者を前記適応話者として選択する処理であることを特徴とする記録媒体。
前記適応話者選択処理は、式（３）に示すポテンシャル関数Ｕの値を最小化する学習話者Ｎ人を適応話者として選択する処理であることを特徴とする請求項９に記載の記録媒体。

式（３）において、ｒ_ｔｉは、評価話者ｔと学習話者ｉのモデル間距離であり、ｒ_ｉｊは学習話者ｉと学習話者ｊのモデル間距離であり、「ｋ_１，ｋ_２，・・・，ｌ_１，ｌ_２，・・・，ｍ_１，ｍ_２，・・・，ｎ_１，ｎ_２，・・・」は、ポテンシャル関数Ｕの特徴パラメータである。
前記プログラムは、前記評価話者との類似度が所定の閾値以上である学習話者を候補として選択する候補選択処理をさらにコンピュータに実行せしめ、
前記適応話者選択処理が、前記候補選択処理により選択した候補から前記複数の適応話者を選択する処理であることを特徴とする請求項９または１０に記載の記録媒体。
請求項９から１１のいずれかに記載の適応話者選択処理と、
該適応話者選択処理により選択され複数の適応話者の十分統計量を用いて前記評価話者に適応した音響モデルを作成する処理とをコンピュータに実行せしめるプログラムを記録したコンピュータ読取可能な記録媒体。