JPWO2009057739A1

JPWO2009057739A1 - 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム

Info

Publication number: JPWO2009057739A1
Application number: JP2009539120A
Authority: JP
Inventors: 真宏谷; 祥史大西; 江森　正; 正江森; 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-10-31
Filing date: 2008-10-31
Publication date: 2011-03-10
Anticipated expiration: 2028-10-31
Also published as: WO2009057739A1; JP5626558B2

Abstract

適応モデルの精度劣化を抑制することのできる話者選択装置を提供する。話者選択装置は、入力された発声話者の音声信号より抽出された特徴量とあらかじめ記憶されている複数の話者の話者モデルを用いて、話者空間における発声話者を中心とする複数の話者の分布の密度を算出する話者分布密度算出手段と、話者の分布の密度を用いて選択する話者の数を算出する選択話者数算出手段とを備える。

Description

本発明は、話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラムに関し、特に、発声話者に音響的特徴量が近い話者を選択するための話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラムに関する。

音声認識処理等において用いられる話者適応モデルを作成する装置として、あらかじめ記憶装置に記憶されている多数の話者モデルの中から、音響的特徴量が発声話者の音響的特徴量に近い話者モデルを選択し、選択した話者モデルにもとづいて発声話者の話者適応モデルを作成する装置がある。そのような話者適応モデル作成装置における話者選択装置の一例が、非特許文献１や特許文献１に記載されている。なお、以下、発声話者の音響的特徴量に近い話者モデルを選択することを、「話者を選択」または「話者選択」ということがある。また、「話者適応モデル」を、「適応モデル」ということがある。

図７は、非特許文献１、および特許文献１に記載されている関連技術の話者適応モデル作成装置の構成を示すブロック図である。図７に示すように、関連技術の話者適応モデル作成装置は、マイクロフォン等から音声信号を受け取る入力手段１と、データ処理手段２と、記憶手段３とを備えている。

記憶手段３は、話者モデル記憶部３１と、十分統計量記憶部３２と、選択話者数記憶部３３とを備えている。

話者モデル記憶部３１はＧＭＭ（Gaussian Mixture Model：混合正規分布で表現した観測データの確率モデル）で表現された複数の話者モデルを記憶している。非特許文献１、および特許文献１に記載された方法では、話者モデルを、音素を区別することなく１状態６４混合のＧＭＭを用いてあらかじめ作成しておく。

十分統計量記憶部３２は、音声認識で一般的に用いられているＨＭＭ（Hidden Markov Model：音声認識の分野では、音声の音響的特徴を表現した確率モデル）で表現された十分統計量を、話者毎に計算し記憶している。「十分統計量」とは、データベースのモデルを構成するのに十分な統計量のことであり、非特許文献１、および特許文献１に記載された方法では、ＨＭＭの音素モデルにおける平均、分散、およびＥＭカウントである。「ＥＭカウント」とは、ＨＭＭを学習する際に一般的に用いられるアルゴリズムであるＥＭアルゴリズムにおいて、状態ｉから状態ｊの正規分布ｋに遷移する確率的度数である。十分統計量は、話者毎の音声データを用いて、ＥＭアルゴリズムで不特定話者モデルから１回学習することによって計算される。

選択話者数記憶部３３は、選択する話者の数（Ｎ人）を記憶している。非特許文献１、および特許文献１に記載された方法では、Ｎは定数であり、経験的に決定する。

データ処理手段２は、音響特徴量算出手段２１と、話者スコア算出手段２２と、類似話者選択手段２４と、適応モデル作成手段２５とを備えている。

音響特徴量算出手段２１は、入力手段１から音声信号を受け取り、音声認識に必要な特徴量を計算し、話者スコア算出手段２２に出力する。

話者スコア算出手段２２は、話者モデル記憶部３１に記憶されている複数の話者モデルを読み込む。そして、音響特徴量算出手段２１が抽出する特徴量を入力し、話者モデルのそれぞれについて話者スコアを計算し、話者スコアとそれに対応する話者（例えば、話者を識別する話者ＩＤ（Identification Data）等）との組を、類似話者選択手段２４に出力する。非特許文献１、および特許文献１に記載された方法では、話者スコアは、入力された特徴量に対応するＧＭＭのゆう度である。

類似話者選択手段２４は、選択話者数記憶部３３に記憶されている選択する話者の数Ｎを読み込む。そして、話者スコア算出手段２２から出力される話者スコアと話者ＩＤとの組を入力し、スコアの高い上位Ｎ人の話者ＩＤを、適応モデル作成手段２５に出力する。

適応モデル作成手段２５は、類似話者選択手段２４から出力される話者ＩＤを入力し、十分統計量記憶部３２に記憶されている十分統計量の中から、この話者ＩＤに対応する十分統計量を読み込む。読み込んだ十分統計量を用いて、統計処理計算により話者適応モデルを作成し出力する。非特許文献１、および特許文献１に記載された方法では、統計処理は、式１〜式３を用いて行われる。

ここで、μｉ^ａｄｐ（ｉ＝１，・・・，Ｎ_ｍｉｘ）、νｉ^ａｄｐ（ｉ＝１，・・・，Ｎ_ｍｉｘ）は、それぞれ、適応モデルのＨＭＭの各状態における正規分布の平均、分散であり、Ｎｍｉｘは、混合分布数である。また、ａ^ａｄｐ［ｉ］［ｊ］（ｉ，ｊ＝１，・・・，Ｎ_{ｓｔａｔｅ}）は、状態ｉから状態ｊへの遷移確率であり、Ｎ_{ｓｔａｔｅ}は、状態数である。Ｎ_ｓｅｌは、選択した話者の数であり、μｉ^ｊ（ｉ＝１，・・・，Ｎ_ｍｉｘ，ｊ＝１，・・・，Ｎ_ｓｅｌ）、νｉ^ｊ（ｉ＝１，・・・，Ｎ_ｍｉｘ，ｊ＝１，・・・，Ｎ_ｓｅｌ）は、それぞれ、選択話者の音素モデルの平均、分散である。また、Ｃ_ｍｉｘ ^ｊ（ｊ＝１，・・・，Ｎ_ｓｅｌ）、Ｃ_{ｓｔａｔｅ} ^ｋ［ｉ］［ｊ］（ｋ＝１，・・・，Ｎ_ｓｅｌ、ｉ，ｊ＝１，・・・，Ｎ_{ｓｔａｔｅ}）は、それぞれ、正規分布におけるＥＭカウント、状態遷移に関するＥＭカウントである。
特許第3756879号公報芳澤伸一、馬場朗、松浪加奈子、米良祐一郎、山田実一、李晃伸、鹿野清宏著、「十分統計量と話者距離を用いた音韻モデルの教師なし学習法」、電子情報通信学会論文誌、2002年3月、Vol. J85-D-II No.3、382〜389頁

関連技術の話者適応モデル作成装置における話者選択装置の問題点は、発声話者に依っては、選択する話者の数を適切に設定できず、適応モデルの精度が劣化することである。その理由は、関連技術の話者選択装置では、発声話者毎に選択する話者の数（以下、選択する話者の数を、「選択話者数」と呼ぶ）を制御する仕組みがなく、発声話者に依らず一意に設定した選択話者数を閾値として話者を選択しているためである。

発声話者に依らず一意に設定した選択話者数を閾値として話者を選択する手法は、発声話者に音響的特徴が相対的に近い話者が、話者空間において発声話者から散在している場合（以下、「疎の状態」と呼ぶ。発声話者の近傍に密集している場合は「密の状態」と呼ぶ。疎や密の状態に関する定量的な表現を「話者の分布の密度」と呼ぶ。）、音響的特徴が絶対的に近くない話者まで選択され、適応モデルの精度劣化を引き起こす。

そこで、本発明は、適応モデルの精度劣化を抑制することのできる話者選択装置、話者選択方法および話者選択用プログラム、ならびに話者選択装置を利用した話者適応モデル作成装置を提供することを目的とする。

本発明に係る話者選択装置は、入力された発声話者の音声信号より抽出された特徴量とあらかじめ記憶されている複数の話者の話者モデルを用いて、話者空間における発声話者を中心とする前記複数の話者の分布の密度を算出する話者分布密度算出手段と、前記話者の分布の密度を用いて選択する話者の数を算出する選択話者数算出手段とを備えることを特徴とする。

本発明に係る話者選択方法は、入力された発声話者の音声信号より抽出された特徴量とあらかじめ記憶されている複数の話者の話者モデルを用いて、話者空間における発声話者を中心とする前記複数の話者の分布の密度を算出する話者分布密度算出ステップと、前記話者の分布の密度を用いて選択する話者の数を算出する選択話者数算出ステップとを備えることを特徴とする。

本発明に係る話者選択用プログラムは、コンピュータに、入力された発声話者の音声信号より抽出された特徴量とあらかじめ記憶されている複数の話者の話者モデルを用いて、話者空間における発声話者を中心とする前記複数の話者の分布の密度を算出する話者分布密度算出処理と、前記話者の分布の密度を用いて選択する話者の数を算出する選択話者数算出処理とを実行させることを特徴とする。

本発明の効果は、発声話者毎に選択話者数を制御できるため、適応モデルの精度劣化を抑制できることである。その理由は、話者空間における話者の分布の密度を基準に選択話者数を決定するからである。

本発明の第１の実施の形態に係る話者選択装置の全体構成を示すブロック図である。本発明の第１の実施の形態に係る話者選択装置における選択話者数制御手段の内部構成を示すブロック図である。本発明の第１の実施の形態に係る話者選択装置の動作を示す流れ図である。本発明の第２の実施の形態に係る話者選択装置の全体構成を示すブロック図である。本発明の第２の実施の形態に係る話者選択装置の動作を示す流れ図である。本発明の第１の実施の形態に係る話者選択装置における他の選択話者数制御手段の内部構成を示すブロック図である。関連技術の一例を示すブロック図である。

符号の説明

１入力手段
２データ処理手段
３記憶手段
２１音響特徴量算出手段
２２話者スコア算出手段
２３選択話者数制御手段
２４類似話者選択手段
２５適応モデル作成手段
３１話者モデル記憶部
３２十分統計量記憶部
３３選択話者数記憶部
２３１発声話者モデル作成手段
２３２話者分布密度算出手段
２３３選択話者数算出手段

次に、本発明を実施するための最良の形態を、図面を参照して詳細に説明する。

（実施の形態１）
図１および図２は、本発明の話者選択装置の第１の実施の形態の構成を示すブロック図である。図１に示すように、第１の実施の形態の話者選択装置は、マイクロフォン等から音声信号を受け取る入力手段１と、データ処理手段２と、記憶手段３とを備えている。

記憶手段３は、話者モデル記憶部３１を備える。話者モデル記憶部３１は、それぞれＧＭＭで表現された複数の話者モデルを記憶している。話者モデル記憶部３１に記憶されている話者モデルは、話者スコアを算出する際に話者スコア算出手段２２に読み込まれる。また、選択話者数を算出する際に選択話者数制御手段２３に読み込まれる。ここでは、話者モデルとして、非特許文献１に記載されている話者モデルと同様に、ＧＭＭの形式で事前に作成しておく。ただし、話者モデルはＧＭＭによるものでなくてもよい。例えば、ＨＭＭ、ＳＶＭ（Support Vector Machine）、ＮＮ（Neural Network）、ＢＮ（Bayesian Network）によるものでもよい。

データ処理手段２は、音響特徴量算出手段２１と、話者スコア算出手段２２と、選択話者数制御手段２３と、類似話者選択手段２４とを備えている。

音響特徴量算出手段２１は、入力手段１から音声信号を受け取り、音声認識に必要な特徴量を計算し、話者スコア算出手段２２および選択話者数制御手段２３に出力する。音声信号は、例えば、サンプリング周波数４４．１ｋＨｚ、１６ｂｉｔでＡ−Ｄ変換された音声データである。特徴量は、例えば、下記の文献１に記載されているメルケプストラム係数（ＭＦＣＣ）やそれらの変化率である。音響特徴量算出手段２１は、音声データをフレームと呼ばれる１０ｍｓｅｃ程度の一定区間で切り出し、プリエンファシス、高速フーリエ変換（ＦＦＴ）、フィルタバンク分析、コサイン変換し、特徴ベクトルの時系列のような形式で抽出する。なお、特徴量について特に規定はなく、音声データそのものを用いることもできる。
[文献１]鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著、「音声認識システム」、株式会社オーム社、２００１年、１３−１５頁

話者スコア算出手段２２は、話者モデル記憶部３１にあらかじめ記憶されているＧＭＭで表現された話者モデルを読み込む。そして、音響特徴量算出手段２１が抽出するフレーム単位の特徴量を入力し、話者モデルのそれぞれについて話者スコアを計算し、話者スコアとそれに対応する話者（具体的には、例えば、話者を識別する話者ＩＤすなわち話者モデルを識別する話者ＩＤ）との組を、類似話者選択手段２４に出力する。話者スコアは、入力された特徴量に対するＧＭＭの対数ゆう度である。話者スコア算出手段２２は、フレーム毎に計算されたＧＭＭの対数ゆう度を任意のフレームの数だけ加算することによって、例えば、一連の会話や通話単位の話者スコアを計算し、対応する話者ＩＤと話者スコアとの組を類似話者選択手段２４に出力する。

選択話者数制御手段２３は、図２に示すように、発声話者モデル作成手段２３１と、話者分布密度算出手段２３２と、選択話者数算出手段２３３とを備えている。なお、選択話者数制御手段２３は、図６のように構成されていてもよい。

発声話者モデル作成手段２３１は、音響特徴量算出手段２１が抽出するフレーム単位の特徴量を入力し、発声話者の話者モデル（以下、「発声話者モデル」と呼ぶ）を、話者モデル記憶部３１に記憶されている話者モデルと同様に、ＧＭＭの形式で作成する。

話者分布密度算出手段２３２は、発声話者モデル作成手段２３１で作成された発声話者モデルと話者モデル記憶部３１に記憶されている複数の話者モデルを読み込み、話者の分布の密度を算出し、選択話者数算出手段２３３に出力する。

話者の分布の密度の算出は、例えば、読み込んだ発声話者とすべての話者とのモデル間距離の平均値および分散値を計算することに相当する。モデル間距離の計算には、例えば、２つの確率モデルの統計的な距離を計算するＫＬダイバージェンスを用いる。計算した平均値および分散値が小さいことは、話者空間において、発声話者に音響的特徴が近い話者が、発声話者の近くに密集していることを表す。一方、計算した平均値および分散値が大きいことは、発声話者に音響的特徴が近い話者が、発声話者から散在していることを表す。すなわち、モデル間距離の平均値および分散値の大小は、話者空間における話者の分布の疎密（密度が低い、高い）を表す。ここでは、モデル間距離の平均値の逆数を密度とする。ただし、密度は平均値の逆数でなくてもよい。例えば、分散値の逆数、あるいは平均値の逆数と分散値の逆数の重み付き平均でもよい。

なお、選択話者数制御手段２３が図６のように構成されている場合、話者分布密度算出手段２３２は、話者スコア算出手段２２から出力される話者スコア、例えば、ＧＭＭの対数ゆう度を入力し、話者の分布の密度を算出する。この場合、話者の分布の密度は、ＧＭＭの対数ゆう度の平均値および分散値を計算することに相当する。

選択話者数算出手段２３３は、話者分布密度算出手段２３２から出力される話者の分布の密度を入力し、話者の分布の密度と選択話者数に正の相関を示す関数を用いて、選択話者数を算出し、類似話者選択手段２４へ出力する。ここでは、正の相関を示す関数として、シグモイド関数（式４）を用いる。

ここで、ｘは入力する密度（話者分布密度算出手段２３２が出力する密度）であり、Ｎは出力する選択話者数である。Ｎ_ｍａｘ、Ｎ_ｍｉｎ、ｋおよびａは、開発データを用いて音声認識実験を行い、認識性能が高くなるように設定する。なお、Ｎ_ｍａｘは、選択話者数の上限値であり、Ｎ_ｍｉｎは選択話者数の下限値である。なお、正の相関を示す関数はシグモイド関数でなくてもよく、例えば、一次関数、多項式関数、区分線形関数でもよい。

類似話者選択手段２４は、話者スコア算出手段２２から出力される話者ＩＤと話者スコアとの組を入力し、スコアの高い上位Ｎ人の話者ＩＤを出力する。Ｎの値は、選択話者数制御手段２３から出力される選択話者数と等しい。すなわち、話者スコアの高い話者ＩＤを、選択話者数制御手段２３が算出した選択話者の数だけ出力する。

次に、図３のフローチャートを参照して、図１および図２に示された第１の実施の形態の話者選択装置の動作を詳細に説明する。

まず、音響特徴量算出手段２１は、入力手段１から与えられた音声信号を読み込み、メルケプストラム係数（ＭＦＣＣ）やそれらの変化率といった、音声認識に必要な特徴量を、フレーム毎に算出する（ステップＡ１）。

次に、話者スコア算出手段２２は、話者モデル記憶部３１に記憶されているＧＭＭで表現された話者モデルを読み込み、ステップＡ１の処理で得られた特徴量に対するＧＭＭの対数ゆう度をフレーム毎に算出し、任意のフレームの数だけ加算することによって、話者スコアを算出する（ステップＡ２）。話者スコアは、話者モデル記憶部３１に記憶されている話者モデルの数（話者ＩＤの数）だけ存在する。

一方、発声話者モデル作成手段２３１は、ステップＡ１の処理で得られた特徴量を用いて発声話者モデルを作成する（ステップＡ３）。ここでは、発声話者モデルを、話者モデル記憶部３１に記憶されている話者モデルと同様に、ＧＭＭの形式で作成する。

話者分布密度算出手段２３２は、ステップＡ３の処理で得られた発声話者モデルと話者モデル記憶部３１に記憶されている複数の話者モデルすべてを読み込み、発声話者とすべての話者とのモデル間距離の平均値および分散値、すなわち話者の分布の密度を計算し、選択話者数算出手段２３３へ出力する（ステップＡ４）。

選択話者数算出手段２３３は、ステップＡ４の処理で得られた話者の分布の密度を読み込み、あらかじめ設計した、話者の分布の密度と選択話者数に正の相関を示す関数を用いて選択話者数Ｎを計算し、類似話者選択手段２４へ出力する（ステップＡ５）。正の相関を示す関数としてシグモイド関数を用いる場合、話者の分布の密度が高ければ大きな話者選択数を、密度が低ければ小さな話者選択数を出力する。

最後に、類似話者選択手段２４は、ステップＡ２の処理で得られた話者スコア（話者ＩＤと話者スコアとの組）とステップＡ５の処理で得られた選択話者数Ｎを読み込み、スコアを比較することによってスコアの高い上位Ｎ人の話者ＩＤを選択し、選択したスコアの高い上位Ｎ人の話者ＩＤを出力する（ステップＡ６）。

次に、本実施の形態の効果を説明する。

本実施の形態では、選択話者数制御手段２３が、音響特徴量算出手段２１が算出する特徴量から、発声話者モデルを作成し、作成した発声話者モデルと話者モデル記憶部３１に記憶されているすべての話者モデルから、話者の分布の密度を算出し、算出した話者の分布の密度から、話者の分布の密度と選択話者数に正の相関を示す関数を用いて選択話者数を算出する。その後、類似話者選択手段２４が、話者スコア算出手段２２が算出する話者スコアの高い話者を、選択話者数制御手段２３が算出した選択話者数の値だけ選択し、選択した話者のＩＤを出力する。このように構成されているので、本実施の形態では高精度に話者を選択できる。

（実施の形態２）
次に、本発明の第２の実施の形態を図面を参照して詳細に説明する。図４は、本発明の話者選択装置の第２の実施の形態の構成を示すブロック図である。

図４に示すように、第２の実施の形態の話者選択装置は、記憶手段３が、図１に示された第１の実施の形態における話者モデル記憶部３１に加えて、十分統計量記憶部３２を含む点が第１の実施の形態のものとは異なる。また、データ処理手段２が、第１の実施の形態における構成に加えて、適応モデル作成手段２５を含む点が第１の実施の形態とは異なる。なお、図４における記憶手段３、音響特徴量算出手段２１、話者スコア算出手段２２、選択話者数制御手段２３および類似話者選択手段２４を含む装置を「話者選択装置」とし、さらに適応モデル作成手段２５を含む装置を「話者適応モデル作成装置」と定義してもよい。

十分統計量記憶部３２は、話者毎のＨＭＭに関する十分統計量を記憶している。記憶している十分統計量は、話者適応モデルを作成する際に適応モデル作成手段２５に読み込まれる。十分統計量は、データベースのモデルを構成するのに十分な統計量のことであり、非特許文献１に記載されている話者選択装置の場合と同様に、ＨＭＭにより表現された音素モデルにおける平均、分散、ＥＭカウントである。十分統計量は、ＥＭアルゴリズムで学習することにより事前に計算し十分統計量記憶部３２に保存しておく。

適応モデル作成手段２５は、類似話者選択手段２４から出力される話者ＩＤを入力し、十分統計量記憶部３２にあらかじめ記憶されている十分統計量の中から、この話者ＩＤに対応する十分統計量を読み込む。読み込んだ十分統計量を用いて、統計処理計算により話者適応モデルを作成し出力する。適応モデル作成手段２５は、非特許文献１に記載されている話者選択装置の場合と同様に、上記の式１〜式３を用いて統計処理計算を行う。

次に、図５のフローチャートを参照して図４に示された第２の実施の形態の話者選択装置の全体の動作について詳細に説明する。

図５におけるステップＡ１、Ａ２、Ａ３、Ａ４、Ａ５、Ａ６で示される音響特徴量算出手段２１、話者スコア算出手段２２、選択話者数制御手段２３および類似話者数算出手段２４の動作は、第１の実施の形態におけるそれらの動作と同じであり、説明を省略する。

第１の実施の形態では、類似話者選択手段２４で選択された話者ＩＤを出力していた。本実施の形態では、適応モデル作成手段２５が、類似話者選択手段２４で選択された話者に対応する十分統計量を十分統計量記憶部３２から読み込み、統計処理計算によって話者適応モデルを作成する（ステップＡ７）。

適応モデル作成手段２５は、類似話者選択手段２４で選択された話者に対応する十分統計量を、例えば、話者スコア算出手段２２が出力する、入力された特徴量に対するＧＭＭの対数ゆう度を基に重み付けして統合したり、発声話者モデルを任意の値で重み付けして統合したりしてもよい。

次に、本発明の第２の実施の形態の効果を説明する。

第２の実施の形態では、選択話者数制御手段２３が、音響特徴量算出手段２１が算出する特徴量から、発声話者モデルを作成し、作成した発声話者モデルと話者モデル記憶部３１に記憶されているすべての話者モデルから、話者の分布の密度を算出し、算出した話者の分布の密度から、話者の分布の密度と選択話者数に正の相関を示す関数を用いて選択話者数を算出する。その後、類似話者選択手段２４が、話者スコア算出手段２２が算出する話者スコアの高い話者を、選択話者数制御手段２３が算出した選択話者数の値だけ選択する。そして、適応モデル作成手段２５が話者適応モデルを作成する。

このように構成されているので、本実施の形態では、発声話者が変わっても、発声話者毎に選択話者数を制御でき、これにより、適応モデルの精度劣化を抑制できる。また、正の相関を示す関数は、密度が低い場合（疎の状態の場合）にも、十分な統計量（学習データ）を確保するように設計されているので、適応モデルの精度劣化を抑制できる。

以上説明したように、上記の話者選択装置は、発声話者の音声またはこれにより抽出された特徴量に対する複数の話者モデルのそれぞれのゆう度、あるいは発声話者のモデルと複数の話者モデルを用いて、話者空間における話者の分布の密度を算出する話者分布密度算出手段と、あらかじめ設計した話者の分布の密度と選択話者数に正の相関を示す関数を用いて、選択話者数を算出する選択話者数算出手段とを備え、発声話者毎に選択話者数を制御している。

また、上記の話者適応モデル作成装置の好ましい態様は、上記の話者選択装置と、話者選択装置が選択した話者に対応する十分統計量にもとづく統計処理計算によって話者適応モデルを作成する適応モデル作成手段とを備えている。

さらに、選択話者数制御手段は、例えば、話者の分布の密度が低い、つまり疎の状態のときに十分な統計量（学習データ）は確保できる範囲で選択話者数を小さくし、話者の分布の密度が高い、つまり密の状態のときに選択話者数を大きくするような、話者の分布の密度と選択話者数に正の相関を示す関数を用いて選択話者数を決定している。

従って、上記の話者選択装置によれば、発声話者毎に選択話者数を制御できるため、適応モデルの精度劣化を抑制できる。その理由は、話者空間における話者の分布の密度を基準に選択話者数を決定するからである。具体的には、話者空間における話者の分布の密度が低い、つまり疎の状態のときに、発声話者と音響的特徴が似ていない話者まで選択せず、かつ十分な統計量（学習データ）を確保できるような範囲で選択話者数を小さくし、一方、密度が高い、つまり密の状態のときには、発声話者と音響的特徴が似ている話者をできるだけ多く選択、つまり、統計量（学習データ）を十分に確保できるように選択話者数を大きくするような、話者の分布の密度と選択話者数に正の相関を示す関数を用いることによって、音響的特徴の近さだけでなく、統計量（学習データ）も考慮しながら選択話者数を制御できるためである。

なお、上記各実施の形態に係る話者選択装置と、これを用いた話者適応モデル作成装置は、上述した各手段の機能を実現可能なものであれば、その構成（ハードウェア構成及びソフトウェア構成）については特に限定されるものではない。例えば、手段毎に独立して個別の回路やユニット或いはソフトウェア部品（モジュール等）を構成したり、複数の手段を１つの回路やユニット内に一体的に構成したりする等、いずれの形態でも提供可能である。これらの形態は、実際に使用する装置の機能や用途等の事情に応じて適宜選択可能である。

また、上述した各手段の機能に対応して、これらと同様の処理を行う各ステップ（工程）から構成される話者選択方法と、これを用いた話者適応モデル作成方法も、本発明の範疇に含まれる。

さらに、各手段の少なくとも一部の処理は、ＣＰＵ（Central Processing Unit）を有するプロセッサ等のコンピュータによるソフトウェア処理で実現してもよい。この場合、コンピュータを上記各手段の少なくとも一部として機能させるためのコンピュータプログラムである話者選択用プログラムと、これを用いた話者適応モデル作成用プログラムも、本発明の範疇に含まれる。これらのプログラムは、例えば装置全体の制御を行うＯＳ（Operating System）やファームウェア等の制御プログラムと連携して動作し、或いはその一部に組み込まれて一体的に動作するアプリケーションプログラムやそれを構成するソフトウェア部品（ソフトウェアモジュール）等、いずれの形態でも提供可能である。これらのプログラムは、無線又は有線回線を介して外部装置と通信する通信機能を有する装置に実装して使用する場合、例えば回線上に接続されたサーバ等の外部ノードからダウンロードして自装置内の記録媒体にインストールして使用することもできる。これらの形態は、実際に使用する装置の機能や用途等の事情に応じて適宜選択可能である。

また、上記のコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に含まれる。この場合、記録媒体は、ＲＯＭ（Read Only Memory）等のメモリ等、装置内に固定して使用されるものや、利用者により持ち運びが可能な可搬型のもの等、いずれの形態でも提供可能である。

以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２００７年１０月３１日に出願された日本出願特願２００７−２８３７６７号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明を、音声信号をテキスト化する音声認識装置や、音声認識装置をコンピュータで実現するためのプログラムといった用途に適用できる。また、使用者に意識させずに、使用者の発声の音響的な特徴に音声認識システムを適応させて音声認識性能を向上させる話者適応モデル作成装置や話者適応モデル作成装置をコンピュータで実現するためのプログラムといった用途に適用できる。さらに、音声を伴う映像コンテンツに話者インデックスを自動付与し、検索することができるコンテンツ検索装置といった用途にも適用できる。

Claims

入力された発声話者の音声信号より抽出された特徴量とあらかじめ記憶されている複数の話者の話者モデルを用いて、話者空間における発声話者を中心とする前記複数の話者の分布の密度を算出する話者分布密度算出手段と、
前記話者の分布の密度を用いて選択する話者の数を算出する選択話者数算出手段とを備えることを特徴とする話者選択装置。
前記話者分布密度算出手段は、前記特徴量に対する前記複数の話者の話者モデルのそれぞれのゆう度を算出する話者スコア算出手段を備え、前記ゆう度の平均値および分散値の少なくともいずれか１つを算出し、これを用いて密度を算出する請求項１記載の話者選択装置。
前記話者分布密度算出手段は、前記特徴量を用いて発声話者の話者モデルを作成する発声話者モデル作成手段を備え、前記発声話者の話者モデルと前記複数の話者の話者モデルを用いて、発声話者と複数の話者の話者モデル間距離の平均値および分散値の少なくともいずれか１つを算出し、これを用いて密度を算出する請求項１記載の話者選択装置。
前記ゆう度の平均値の逆数、分散値の逆数、平均値の逆数と分散値の逆数の重み付き平均のいずれか１つを密度とする請求項２または請求項３記載の話者選択装置。
前記話者モデル間距離の平均値の逆数、分散値の逆数、平均値の逆数と分散値の逆数の重み付き平均のいずれか１つを密度とする請求項２または請求項３記載の話者選択装置。
前記選択話者数算出手段は、話者の分布の密度と選択する話者の数に正の相関を示す関数を用いて選択する話者の数を算出する請求項２から請求項５のうちいずれかに記載された話者選択装置。
前記選択話者数算出手段は、話者の分布の密度と選択する話者の数に正の相関を示す関数としてシグモイド関数あるいは区分線形関数を用いて、選択する話者の数を算出する請求項６記載の話者選択装置。
請求項１から請求項７のうちのいずれかに記載された話者選択装置と、
前記話者選択装置が選択した話者に対応する十分統計量にもとづく統計処理計算によって話者適応モデルを作成する適応モデル作成手段とを備えた話者適応モデル作成装置。
入力された発声話者の音声信号より抽出された特徴量とあらかじめ記憶されている複数の話者の話者モデルを用いて、話者空間における発声話者を中心とする前記複数の話者の分布の密度を算出する話者分布密度算出ステップと、
前記話者の分布の密度を用いて選択する話者の数を算出する選択話者数算出ステップとを備えることを特徴とする話者選択方法。
前記話者分布密度算出ステップは、前記特徴量に対する前記複数の話者の話者モデルのそれぞれのゆう度を算出する話者スコア算出ステップを備え、前記ゆう度の平均値および分散値の少なくともいずれか１つを算出し、これを用いて密度を算出する請求項９記載の話者選択方法。
前記話者分布密度算出ステップは、前記特徴量を用いて発声話者の話者モデルを作成する発声話者モデル作成ステップを備え、前記発声話者の話者モデルと前記複数の話者の話者モデルを用いて、発声話者と複数の話者の話者モデル間距離の平均値および分散値の少なくともいずれか１つを算出し、これを用いて密度を算出する請求項９記載の話者選択方法。
前記ゆう度の平均値の逆数、分散値の逆数、平均値の逆数と分散値の逆数の重み付き平均のいずれか１つを密度とする請求項１０または請求項１１記載の話者選択方法。
前記話者モデル間距離の平均値の逆数、分散値の逆数、平均値の逆数と分散値の逆数の重み付き平均のいずれか１つを密度とする請求項１０または請求項１１記載の話者選択方法。
前記選択話者数算出ステップは、話者の分布の密度と選択する話者の数に正の相関を示す関数を用いて選択する話者の数を算出する請求項１０から請求項１３のうちいずれかに記載された話者選択方法。
前記選択話者数算出ステップは、話者の分布の密度と選択する話者の数に正の相関を示す関数としてシグモイド関数あるいは区分線形関数を用いて、選択する話者の数を算出する請求項１４記載の話者選択方法。
請求項９から請求項１５のうちのいずれかに記載された話者選択方法を用いて、選択した話者に対応する十分統計量にもとづく統計処理計算によって話者適応モデルを作成する適応モデル作成ステップを有することを特徴とする話者適応モデル作成方法。
コンピュータに、
入力された発声話者の音声信号より抽出された特徴量とあらかじめ記憶されている複数の話者の話者モデルを用いて、話者空間における発声話者を中心とする前記複数の話者の分布の密度を算出する話者分布密度算出処理と、
前記話者の分布の密度を用いて選択する話者の数を算出する選択話者数算出処理とを実行させることを特徴とする話者選択用プログラム。
前記話者分布密度算出処理は、前記特徴量に対する前記複数の話者の話者モデルのそれぞれのゆう度を算出する話者スコア算出処理を備え、
コンピュータに、
前記ゆう度の平均値および分散値の少なくともいずれか１つを算出し、これを用いて密度を算出する処理を実行させる請求項１７記載の話者選択用プログラム。
前記話者分布密度算出処理は、前記特徴量を用いて発声話者の話者モデルを作成する発声話者モデル作成処理を備え、
コンピュータに、
前記発声話者の話者モデルと前記複数の話者の話者モデルを用いて、発声話者と複数の話者の話者モデル間距離の平均値および分散値の少なくともいずれか１つを算出し、これを用いて密度を算出する処理を実行させる請求項１７記載の話者選択用プログラム。
前記ゆう度の平均値の逆数、分散値の逆数、平均値の逆数と分散値の逆数の重み付き平均のいずれか１つを密度とする請求項１８または請求項１９記載の話者選択用プログラム。
前記話者モデル間距離の平均値の逆数、分散値の逆数、平均値の逆数と分散値の逆数の重み付き平均のいずれか１つを密度とする請求項１８または請求項１９記載の話者選択用プログラム。
前記選択話者数算出処理は、話者の分布の密度と選択する話者の数に正の相関を示す関数を用いて選択する話者の数を算出する請求項１８から請求項２１のうちいずれかに記載された話者選択用プログラム。
前記選択話者数算出処理は、話者の分布の密度と選択する話者の数に正の相関を示す関数としてシグモイド関数あるいは区分線形関数を用いて、選択する話者の数を算出する請求項２２記載の話者選択用プログラム。
コンピュータに、
請求項１７から請求項２３のうちのいずれかに記載された話者選択用プログラムを用いて、選択した話者に対応する十分統計量にもとづく統計処理計算によって話者適応モデルを作成する適応モデル作成処理を実行させることを特徴とする話者適応モデル作成用プログラム。