JPWO2009122780A1 - 適応話者選択装置および適応話者選択方法並びにプログラム - Google Patents

適応話者選択装置および適応話者選択方法並びにプログラム Download PDF

Info

Publication number
JPWO2009122780A1
JPWO2009122780A1 JP2010505436A JP2010505436A JPWO2009122780A1 JP WO2009122780 A1 JPWO2009122780 A1 JP WO2009122780A1 JP 2010505436 A JP2010505436 A JP 2010505436A JP 2010505436 A JP2010505436 A JP 2010505436A JP WO2009122780 A1 JPWO2009122780 A1 JP WO2009122780A1
Authority
JP
Japan
Prior art keywords
speaker
adaptive
learning
speakers
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010505436A
Other languages
English (en)
Inventor
真宏 谷
真宏 谷
江森 正
正 江森
祥史 大西
祥史 大西
孝文 越仲
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2009122780A1 publication Critical patent/JPWO2009122780A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

適応話者選択装置の特徴量算出部は、評価話者の音声信号の特徴量を算出する。類似度算出部は、特徴量算出部が算出した評価話者音声信号の特徴量を用いて、各学習話者の話者モデルについて、評価話者との類似度を算出する(S20)。適応話者選択部は、評価話者と学習話者間の類似度、および学習話者間の類似度に基づいて、「評価話者と学習話者間の類似度ができるだけ大きく、学習話者間類似度ができるだけ小さく」なるN人の学習話者を適応話者として選択する(S30)。したがって、話者適応モデルの精度劣化を抑制できるように適応話者を選択できる。

Description

本発明は、評価話者に適応した音響モデルを作成するために学習話者から適応話者を選択する技術に関する。
音声認識システムは様々な分野で利用されている。音声認識の精度を高めるために、音声認識システムに用いられる音響モデルを利用者に適応させる技術(話者適応技術)が知られており、話者適応モデル(利用者に適応した音響モデル)の作成について様々な手法が提案されている。
特許文献1と非特許文献1には、十分統計量を用いて話者適応モデルを作成する手法が開示されている。図8は、この手法を実現する話者適応モデル作成装置の模式例を示す。
図8に示す話者適応モデル作成装置1は、記憶手段10と、入力手段20と、データ処理手段30を備える。記憶手段10は、十分統計量記憶部12と話者モデル記憶部14を有し、データ処理手段30は、特徴量算出部32と、類似度算出部34と、話者選択部36と、適応モデル作成部38を有する。
話者適応モデル作成装置1は、複数の話者のサンプル音声データで構成されたデータベースを用いて話者毎に音響モデルを作成し、これらの音響モデルから複数個を選択して、発声話者(上述した利用者に該当する)に適応させることによって発声話者用の音響モデルを作成する。本明細書の以下の説明において、サンプル音声データの話者を「学習話者」といい、学習話者毎に作成された、話者の音響的な特徴を表す確率モデルを「話者モデル」という。また、適応の対象となる発声話者を「評価話者」といい、評価話者に適応した音響モデルを「適応モデル」という。また、適応モデルを作成するために選択された話者モデルの話者を「適応話者」という。
話者適応モデル作成装置1は、下記のステップを経て適応モデルを作成する。
1.データベースを用いて十分統計量と話者モデルを作成する。
話者モデルは、学習話者毎に作成された、該話者の音響的な特徴を表す確率モデルである。ここでは、音素を区別することなく1状態64混合の混合ガウス分布モデル(GMM:Gaussian Mixture Model)で表現される。なお、GMMは、混合正規分布で表現した観測データの確率モデルである。
十分統計量は、学習話者毎に作成され、隠れマルコフモデル(HMM:Hidden Markov Model)で表現される。「十分統計量」とは、データベースから音響モデルを構築するために十分な統計量のことを意味し、ここでは、HMMにおける平均、分散、およびEMカウントが用いられる。なお、「EMカウント」は、HMMを学習する際に一般的に用いられるEMアルゴリズムにおいて、状態iから状態jの正規分布に遷移する確率の度数である。十分統計量は、当該学習話者の音声データを用いて、EMアルゴリズで不特定話者モデルから1回学習することにより算出される。
話者適応モデル作成装置1において、十分統計量記憶部12と話者モデル記憶部14は、上述のように算出された学習話者毎の十分統計量と話者モデルをそれぞれ記憶する。
2.評価話者の音声データの入力
話者適応モデル作成装置1において、入力手段20により、評価話者の音声データを入力する。なお、入力手段20は、例えばマイクロホンなどの音声入力デバイスから評価話者の音声データを受け取る。
3.適応話者の選択と適応モデルの作成
話者適応モデル作成装置1のデータ処理手段30は、これらの処理を担う。
特徴量算出部32は、入力手段20が入力した評価話者の音声データを受け取り、音声認識に必要な特徴量を算出して類似度算出部34に出力する。
類似度算出部34は、話者モデル記憶部14に記憶された各学習話者の話者モデルを読み込み、これらの話者モデル毎に、特徴量算出部32から受け取った評価話者の特徴量との類似度を算出し、類似度と、該類似度に対応する学習話者との組を話者選択部36に出力する。
ここでは、類似度として、学習話者の話者モデルに評価話者の音声から抽出した特徴量を入力して得た尤度が用いられる。この尤度が大きいほど類似度が高い。
話者選択部36は、類似度算出部34から出力された各々の類似度と学習話者の組から、類似度すなわち尤度が上位N人の学習話者を適応話者として選択し、選択された適応話者を示す識別子(ID番号など)を適応モデル作成部38に出力する。なお、適応話者の数Nは、経験的に定められた定数である。
適応モデル作成部38は、話者選択部36から、適応話者に選択された学習話者の識別子を受け取り、これらの識別子が示す学習話者の十分統計量を十分統計量記憶部12から読み出す。そして、読み出した十分統計量を用いて適応モデルを作成して出力し、評価話者の音声認識に供する。
十分統計量記憶部12から読み出した十分統計量を用いて適応モデルを作成する処理は、具体的には、下記の式(1)〜式(3)が示す統計処理演算である。
Figure 2009122780
Figure 2009122780
Figure 2009122780
ここで、μ adp(i=1,・・・,Nmix)、ν adp(i=1,・・・,Nmix)は、それぞれ、適応モデルのHMMの各状態における正規分布の平均と分散であり、Nmixは、混合分布数である。また、aadp[i][j](i=1,・・・,Nstate,j=1,・・・,Nstate)は、状態iから状態jへの遷移確率であり、Nstateは、状態数である。また、Nselは、選択された適応話者の数であり、μ (i=1,・・・,Nmix,j=1,・・・,Nsel)、ν (i=1,・・・,Nmix,j=1,・・・,Nsel)は、それぞれ、選択された適応話者の音響モデルの平均、分散である。また、Cmix (j=1,・・・,Nsel)、Cstate [i][j](k=1,・・・,Nsel,i=1,・・・,Nstate,j=1,・・・,Nstate)は、それぞれ、正規分布におけるEMカウント、状態遷移に関するEMカウントである。
なお、上述した手法では、経験的に適応話者の数Nを一定に定めているが、たとえば非特許文献2に記載されたように、評価話者と学習話者との音響特徴空間における話者間距離を基準に定める方法もある。
また、音声データの特徴量は、たとえば非特許文献3に記載されたメルケプラストラム係数(MFCC)やそれらの変化率などが知られている。
特許第3756879号公報 芳澤伸一,馬場朗,松浪加奈子,米良祐一郎,山田実一,李晃伸,鹿野清宏,「十分統計量と話者距離を用いた音韻モデルの教師なし学習法」,電子情報通信学会論文誌,D−II,Vol.J85−D−II,No.3,pp.382−289,2002年3月 谷真宏,江森正,大西祥史,越仲孝文,篠田浩一,「十分統計量を用いた教師なし話者適応における話者選択法」,信学技報,Vol.107,No.406,pp.85−89,2007年12月 鹿野清宏,伊藤克亘,河原達也,武田一哉,山本幹雄著,「音声認識システム」,株式会社オーム社,2001年,pp.13−15
特許文献1と非特許文献1に記載された上記の手法は、評価話者の音声に対する尤度を類似度として用い、類似度が高い学習話者を適応話者として選択する。すなわち、学習話者と評価話者間の音声の類似度のみを適応話者の選択基準としている。例えば、選択された複数の適応話者の音声間において、音響的な特徴のみならず、発話内容などを表す音韻性の特徴も類似している場合、適応話者の発話内容などのバリエーションが少ないため、学習に用いられる音素の出現頻度に偏りが生じ、適応モデルの精度劣化を引き起こしてしまう恐れがある。
本発明は、上記事情に鑑みてなされたものであり、適応モデルの精度劣化を回避するための適応話者選択技術を提供する。
本発明の一つの態様は、評価話者に適応した音響モデルを作成するために、学習話者の集合から複数の適応話者を選択する適応話者選択方法である。この方法は、評価話者と音声の類似度ができるだけ高く、かつ互いの音声の類似度ができるだけ小さい複数の学習話者を適応話者として選択する。
なお、上記態様の方法を、該方法を実行する装置や、該方法をコンピュータに実行せしめるプログラムとして置き換えて表現したものも、本発明の態様として有効である。
本発明にかかる適応話者選択技術によれば、選択された適応話者の音響モデルを用いて評価話者に適応した音響モデルを作成する際に、作成された音響モデルの精度劣化を抑制することができる。
本発明にかかる技術を説明するための適応話者選択装置の模式例を示す図である。 図1に示す適応話者選択装置における類似度算出部の構成例を示す図である。 図1に示す適応話者選択装置による処理の流れを示すフローチャートである。 図2に示す例の類似度算出部の処理の流れを示すフローチャートである。 図1に示す適応話者選択装置における適応話者選択部による処理の流れの一例を示すフローチャートである。 本発明の実施の形態にかかる適応話者モデル生成装置を示す図である。 図6に示す適応話者モデル生成装置による処理の流れを示すフローチャートである。 従来技術を説明するために用いた話者適応モデル作成装置の模式図である。
符号の説明
1 話者適応モデル作成装置 10 記憶手段
12 十分統計量記憶部 14 話者モデル記憶部
20 入力手段 30 データ処理手段
32 特徴量算出部 34 類似度算出部
36 話者選択部 38 適応モデル作成部
100 適応話者選択装置 112 話者モデル記憶部
114 学習話者間類似度記憶部 120 特徴量算出部
130 類似度算出部 132 評価話者モデル作成部
134 類似度算出実行部 140 適応話者選択部
200 適応話者モデル生成装置 210 記憶手段
212 十分統計量記憶部 214 話者モデル記憶部
216 学習話者間類似度記憶部 220 入力手段
230 データ処理手段 232 特徴量算出部
234 類似度算出部 236 話者選択部
238 適応モデル作成部
以下の説明に用いられる図面に、様々な処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、プロセッサ、メモリ、その他の回路で構成することができ、ソフトウェア的には、メモリに記録された、またはロードされたプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。また、分かりやすいように、これらの図面において、本発明の技術を説明するために必要なもののみを示す。
本発明の具体的な実施の形態を説明する前に、まず、本発明の原理を説明する。
図1は、本発明にかかる技術に基づく適応話者選択装置100の模式図の例である。適応話者選択装置100は、話者モデル記憶部112と、学習話者間類似度記憶部114と、特徴量算出部120と、類似度算出部130と、適応話者選択部140を備える。
話者モデル記憶部112は、学習話者毎に作成された話者モデルを、学習話者と対応付けて記憶している。対応付けの手法としては、例えば学習話者にユニークな識別番号を付与し、話者モデルと、識別番号とを対応付ける。話者モデルは、例えばGMMで表現されるものとするが、HMM、SVM(Support Vector Machine)や、NN(Neural Network)、BN(Beyesian Network)によるものであってもよい。
学習話者間類似度記憶部114は、話者モデル記憶部112にその話者モデルが記憶された各学習話者の集合における全ての2学習話者間の音声の類似度を示す類似度テーブルを記憶している。これらの類似度の数は、2学習話者の組合せの数と同一である。
2学習話者間の音声の類似度(以下単に学習話者間類似度という)は、例えば当該2学習話者の話者モデル間距離の逆数や逆数のn乗(n:正数)を用いる。話者モデル間距離の計算は、例えば、確率モデルである2つの話者モデルの統計的な距離を算出するKLダイバージェンスを用いることができる。なお、類似度は、モデル間距離から導き出されるものに限らず、たとえば、学習話者の音声または音声から抽出された特徴量に対する尤度に基づいたものであってもよい。
特徴量算出部120は、評価話者の音声信号(評価話者音声信号)から、音声認識に必要な特徴量を算出して類似度算出部130に出力する。評価話者音声信号は、例えば、サンプリング周波数16kHz、16bitのA/D変換により得られた評価話者の音声データである。特徴量算出部120が抽出する特徴量は、例えば、非特許文献3に記載されたメルケプラストラム係数(MFCC)やそれらの変化率である。この場合、特徴量算出部120は、評価話者音声信号を、フレームと呼ばれる10msec程度の一定区間毎に切り出し、プリエンファシス、高速フーリエ変換(FFT)、フィルタバンク分析、コサイン変換を行って、特徴ベクトルの時系列の形式の特徴量を抽出する。勿論、特徴量は、これに限られることがなく、音声の特徴を表すことができればたとえば音声データそのものであってもよい。
類似度算出部130は、特徴量算出部120が抽出した評価話者音声信号の特徴量を用いて、評価話者と学習話者の類似度を算出する。具体的には、例えば、話者モデル記憶部112から各学習話者の話者モデルを読み出して、それぞれの話者モデルについて、評価話者の特徴量に対する尤度を類似度として算出する。
評価話者と学習話者間の類似度算出は、上記手法に限らない。図2を参照して別の手法の一例を説明する。
この手法の場合、類似度算出部130は、評価話者モデル作成部132と類似度算出実行部134を有する。評価話者モデル作成部132は、特徴量算出部120が得た評価話者の特徴量を用いて評価話者の話者モデル(以下評価話者モデルという)を作成する。評価話者モデルは、話者モデル記憶部112に記憶された学習話者の話者モデルと同じ形式を有し、たとえば、話者モデルがGMMで表現されるものであれば、評価話者モデル作成部132は、GMM形式で評価話者モデルを作成する。
類似度算出実行部134は、話者モデル記憶部112から各話者モデルを読出し、それぞれの話者モデルについて、評価話者モデル作成部132が作成した評価話者モデルとの類似度を算出する。具体的には、たとえば、KLダイバージェンスを用いて評価話者モデルと話者モデルのモデル間距離を算出し、モデル間距離の逆数や逆数のn乗(n:正数)を類似度として導き出す。
類似度算出部130は、算出した各類似度を適応話者選択部140に出力する。
適応話者選択部140は、類似度算出部130が算出した評価話者と学習話者間の類似度と、および学習話者間類似度記憶部114に記憶された学習話者間類似度とを用いて適応話者をN人選択する。選択する適応話者の数Nは、従来知られているいかなる方法で定めてもよい。たとえば、非特許文献1に記載されたように、経験的に定数に定めるようにしてもよく、非特許文献2に記載されたように、評価話者と学習話者との音響特徴空間における話者間距離を基準に定めるようにしてもよい。
類似度算出部130は、具体的には、「評価話者と学習話者間の類似度ができるだけ大きく、学習話者間類似度ができるだけ小さく」なるように選択する。ここで、適応話者選択部140による適応話者選択の手法の例を説明する。
1つの手法は、評価話者と適応話者間の類似度の減少関数と、学習話者間の類似度の増加関数との和をポテンシャル関数とし、このポテンシャル関数の値を最小とする学習話者を適応話者として選択する。具体的には、式(4)を用いて、ポテンシャル関数Uを最小とする学習話者N人を選択する。
Figure 2009122780
式(4)において、Nは、上述した、選択する適応話者の数である。rtiは、評価話者tと学習話者iのモデル間距離であり、rijは学習話者iと学習話者jのモデル間距離であり、両者は共にKLダイバージェンスを用いて算出できる。ポテンシャル関数Uを特徴付けるパラメータ「k,k,・・・,l,l,・・・,m,m,・・・,n,n,・・・」は、例えば開発データを用いて音声認識実験を行い、認識性能が高くなるように設定される。また、演算の簡素化のために、式(4)に対して、k=1、l=1、m1=、n=1、他のパラメータを0とした場合に得た式(5)を用いてもよい。
Figure 2009122780
適応話者選択部140による適応話者の選択手法について、もう1つの例を説明する。この手法は、まず、適応話者の候補となる学習話者の候補を絞る。具体的には、例えば、適応話者との類似度が、予め定められた閾値以上の学習話者を候補として選択する。その後、選択した候補の学習話者について学習話者間類似度を学習話者間類似度記憶部114から読み出して、上述した第1の例の手法と同じように、ポテンシャル関数を用いて、候補となる学習話者から適応話者を選択する。なお、この手法の場合、候補として選出された学習話者の数が、選択する適応話者の数以下であるときには、候補から適応話者を選択する処理を行わずに、候補を適応話者として決定してもよい。
また、候補選択の閾値を用いずに、評価話者との類似度が高い順にM人(M>N)の学習話者を候補として選択し、その後、上述した第1の例の手法のように、ポテンシャル関数を用いて、候補となる学習話者から適応話者を選択するようにしてもよい。
候補となる学習話者の数を一度絞ってから適応話者を選択する手法は、処理速度の向上を図ることができる。例えば、学習話者が1000人存在し、この中から10人の適応話者を選択する場合、候補を絞らずに適応話者を選択する手法では、式(4)または式(5)の演算回数は100010回である。一方、候補を30人に絞ってから適応話者を選択すれば、式(4)または式(5)の演算回数は、3010回に削減される。
図3は、図1に示す適応話者選択装置100による処理の流れを示すフローチャートである。まず、特徴量算出部120は、評価話者音声信号の特徴量を算出する(S10)。類似度算出部130は、特徴量算出部120が算出した評価話者音声信号の特徴量を用いて、話者モデル記憶部112に記憶された各学習話者の話者モデルについて、評価話者との類似度を算出する(S20)。類似度の算出は、例えば評価話者音声信号の特徴量に対する尤度を話者モデル毎に算出してもよいし、図4に示すように、評価話者音声信号の特徴量を用いて評価話者モデルを作成し(S22)、各話者モデルについて、評価話者モデルとの類似度を算出する(S24)ようにしてもよい。
そして、適応話者選択部140は、評価話者と学習話者間の類似度、および学習話者間の類似度に基づいて、「評価話者と学習話者間の類似度ができるだけ大きく、学習話者間類似度ができるだけ小さく」なるN人の学習話者を適応話者として選択する(S30)。適応話者の選択に当たり、すべての学習話者から直接適応話者を選択するようにしてもよいし、図5に示すように、評価話者との間の類似度に応じてM人(M>N)の候補を選択し(S32)、選択されたM人の候補からN人の適応話者を選択する(S34)ようにしてもよい。
以上において、本発明にかかる適応話者選択技術の原理を説明した。この技術によれば、適応話者を選択する際に、「評価話者と学習話者間の類似度ができるだけ大きく、学習話者間類似度ができるだけ小さくなる」学習話者を適応話者として選択するので、適応話者の発話内容のバリエーションが少なくなることを防ぐことができる。したがって、適応話者の十分統計量を用いて作成した適応モデルの精度劣化を抑制することができる。
以上の説明を踏まえて本発明の実施の形態を説明する。
図6は、本発明の実施の形態にかかる適応話者モデル生成装置200を示す。適応話者モデル生成装置200は、記憶手段210と、入力手段220と、データ処理手段230を備える。
記憶手段210は、学習話者に対して求められた十分統計量を学習話者のID毎に記憶した十分統計量記憶部212と、学習話者の音響モデルを学習話者のID毎に記憶した話者モデル記憶部214と、各学習話者の集合における全ての2学習話者間の音声の類似度を示す類似度テーブルを記憶した学習話者間類似度記憶部216を有する。
入力手段220は、例えばマイクロホンなどの音声入力デバイスから評価話者の音声信号を受け取ってデータ処理手段230に入力する。
データ処理手段230は、特徴量算出部232と、類似度算出部234と、話者選択部236と、適応モデル作成部238を有する。
特徴量算出部232は、入力手段220から評価話者音声信号を受け取り、音声認識に必要な特徴量を算出して類似度算出部234に出力する。なお、特徴量算出部232による特徴量算出の具体的な手法は、図1に示す適応話者選択装置100における特徴量算出部120が用いる手法のいずれであってもよい。
類似度算出部234は、話者モデル記憶部214に記憶された各学習話者の話者モデルを読み込み、これらの話者モデル毎に、特徴量算出部232から受け取った評価話者音声信号との類似度を算出し、類似度と、該類似度に対応する学習話者のIDとの組を話者選択部236に出力する。なお、類似度算出部234が算出する類似度の種類、および類似度を算出する手法は、適応話者選択装置100における類似度算出部130のものと同じであるので、ここで詳細な説明を省略する。
話者選択部236も、適応話者選択装置100における適応話者選択部140と同様に、「評価話者と学習話者間の類似度ができるだけ大きく、学習話者間類似度ができるだけ小さくなる」学習話者N人を適応話者として選択する。話者選択部236は、選択したN人の適応話者のIDを適応モデル作成部238に出力する。
適応モデル作成部238は、話者選択部236から出力されたN人の適応話者のIDに対応する十分統計量を十分統計量記憶部212から読み出して、統計処理計算により、評価話者に適応した音響モデル(適応モデル)を作成する。
なお、適応モデル作成部238による適応モデルの作成手法は、上記手法に限らず、たとえば、類似度算出部234が算出した、適応話者の話者モデルの評価話者の特徴量に対する尤度に応じた重み付け係数で、各適応話者の十分統計量を重み付けして統合したり、適応話者の話者モデルを任意の係数で重み付けして統合するようにしたりするなどの手法であってもよい。
図7は、適応話者モデル生成装置200による処理の流れを示すフローチャートである。ステップS50〜S70は、適応話者を選択するまでの処理であり、図3に示す適応話者選択装置100による処理と同じである。ステップS80において、適応話者モデル生成装置200における適応モデル作成部238は、話者選択部236が選択したN人の適応話者の十分統計量を用いて、評価話者に適応した音響モデルを作成する。
本実施の形態の適応話者モデル生成装置200は、図1に示す適応話者選択装置100と同様の手法で適応話者を選択して、評価話者に適応したモデルを作成するので、適応モデルの精度劣化を抑制することができる。
以上、実施の形態(および実施例)を参照して本願発明を説明したが、本願発明は上記実施の形態(および実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2008年3月31日に出願された日本出願特願2008−092206を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、例えば、評価話者に適応した音響モデルを作成するために学習話者から適応話者を選択する技術に使用される。

Claims (12)

  1. 評価話者に適応した音響モデルを作成するために、学習話者の集合から複数の適応話者を選択する適応話者選択方法において、
    前記評価話者と音声の類似度ができるだけ高く、かつ互いの音声の類似度ができるだけ小さい複数の学習話者を前記適応話者として選択することを特徴とする適応話者選択方法。
  2. 式(1)に示すポテンシャル関数Uの値を最小化する学習話者N人を適応話者として選択することを特徴とする請求項1に記載の適応話者選択方法。
    Figure 2009122780
    式(1)において、rtiは、評価話者tと学習話者iのモデル間距離であり、rijは学習話者iと学習話者jのモデル間距離であり、「k,k,・・・,l,l,・・・,m,m,・・・,n,n,・・・」は、ポテンシャル関数Uの特徴パラメータである。
  3. 前記評価話者との類似度が所定の閾値以上である学習話者を候補として選択し、選択した候補から前記複数の適応話者を選択することを特徴とする請求項1または2に記載の適応話者選択方法。
  4. 請求項1から3のいずれかに記載の適応話者選択方法により選択され複数の適応話者の十分統計量を用いて前記評価話者に適応した音響モデルを作成する話者適応モデル生成方法。
  5. 評価話者に適応した音響モデルを作成するために、学習話者の集合から複数の適応話者を選択する適応話者選択装置であって、
    前記学習話者の集合における全ての2学習話者間の音声の類似度を記憶する学習話者類似度記憶部と、
    前記評価話者と各前記学習話者間の音声の類似度を夫々算出する類似度算出部と、
    該類似度算出部により算出した前記類似度と、前記学習話者類似度記憶部に記憶された各学習話者類似度とに基づいて、前記評価話者と音声の類似度ができるだけ高く、かつ互いの音声の類似度ができるだけ小さい複数の学習話者を前記適応話者として選択する話者選択部とを備えることを特徴とする適応話者選択装置。
  6. 前記話者選択部は、式(2)に示すポテンシャル関数Uの値を最小化する学習話者N人を適応話者として選択することを特徴とする請求項5に記載の適応話者選択装置。
    Figure 2009122780
    式(2)において、rtiは、評価話者tと学習話者iのモデル間距離であり、rijは学習話者iと学習話者jのモデル間距離であり、「k,k,・・・,l,l,・・・,m,m,・・・,n,n,・・・」は、ポテンシャル関数Uの特徴パラメータである。
  7. 前記話者選択部は、前記評価話者との類似度が所定の閾値以上である学習話者を候補として選択し、選択した候補から前記複数の適応話者を選択することを特徴とする請求項5または6に記載の適応話者選択装置。
  8. 各学習話者の十分統計量を記憶する十分統計量記憶部と、
    該十分当統計量記憶部に記憶された、請求項5から7のいずれか1項に記載の適応話者選択装置により選択され複数の適応話者の十分統計量を用いて前記評価話者に適応した音響モデルを作成する適応モデル作成手段とを備えた話者適応モデル生成装置。
  9. 評価話者に適応した音響モデルを作成するために、学習話者の集合から複数の適応話者を選択する適応話者選択処理をコンピュータに実行せしめるプログラムを記録したコンピュータ読取可能な記録媒体であって、
    前記適応話者選択処理は、記評価話者と音声の類似度ができるだけ高く、かつ互いの音声の類似度ができるだけ小さい複数の学習話者を前記適応話者として選択する処理であることを特徴とする記録媒体。
  10. 前記適応話者選択処理は、式(3)に示すポテンシャル関数Uの値を最小化する学習話者N人を適応話者として選択する処理であることを特徴とする請求項9に記載の記録媒体。
    Figure 2009122780
    式(3)において、rtiは、評価話者tと学習話者iのモデル間距離であり、rijは学習話者iと学習話者jのモデル間距離であり、「k,k,・・・,l,l,・・・,m,m,・・・,n,n,・・・」は、ポテンシャル関数Uの特徴パラメータである。
  11. 前記プログラムは、前記評価話者との類似度が所定の閾値以上である学習話者を候補として選択する候補選択処理をさらにコンピュータに実行せしめ、
    前記適応話者選択処理が、前記候補選択処理により選択した候補から前記複数の適応話者を選択する処理であることを特徴とする請求項9または10に記載の記録媒体。
  12. 請求項9から11のいずれかに記載の適応話者選択処理と、
    該適応話者選択処理により選択され複数の適応話者の十分統計量を用いて前記評価話者に適応した音響モデルを作成する処理とをコンピュータに実行せしめるプログラムを記録したコンピュータ読取可能な記録媒体。
JP2010505436A 2008-03-31 2009-02-13 適応話者選択装置および適応話者選択方法並びにプログラム Pending JPWO2009122780A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2008092206 2008-03-31
JP2008092206 2008-03-31
PCT/JP2009/052379 WO2009122780A1 (ja) 2008-03-31 2009-02-13 適応話者選択装置および適応話者選択方法並びに記録媒体

Publications (1)

Publication Number Publication Date
JPWO2009122780A1 true JPWO2009122780A1 (ja) 2011-07-28

Family

ID=41135179

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010505436A Pending JPWO2009122780A1 (ja) 2008-03-31 2009-02-13 適応話者選択装置および適応話者選択方法並びにプログラム

Country Status (2)

Country Link
JP (1) JPWO2009122780A1 (ja)
WO (1) WO2009122780A1 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2561553B2 (ja) * 1990-05-16 1996-12-11 三菱電機株式会社 標準話者選択装置
JPH04324499A (ja) * 1991-04-24 1992-11-13 Sharp Corp 音声認識装置
JP3536380B2 (ja) * 1994-10-28 2004-06-07 三菱電機株式会社 音声認識装置

Also Published As

Publication number Publication date
WO2009122780A1 (ja) 2009-10-08

Similar Documents

Publication Publication Date Title
US9536525B2 (en) Speaker indexing device and speaker indexing method
US11551708B2 (en) Label generation device, model learning device, emotion recognition apparatus, methods therefor, program, and recording medium
JP5229478B2 (ja) 統計モデル学習装置、統計モデル学習方法、およびプログラム
KR100800367B1 (ko) 음성 인식 시스템의 작동 방법, 컴퓨터 시스템 및 프로그램을 갖춘 컴퓨터 판독 가능 저장 매체
JP5229219B2 (ja) 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム
JP5418223B2 (ja) 音声分類装置、音声分類方法、および音声分類用プログラム
JP4590692B2 (ja) 音響モデル作成装置及びその方法
JP2012037619A (ja) 話者適応化装置、話者適応化方法および話者適応化用プログラム
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
JPWO2007105409A1 (ja) 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
JP5022387B2 (ja) クラスタリング計算装置、クラスタリング計算方法、クラスタリング計算プログラム並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体
Balemarthy et al. Our practice of using machine learning to recognize species by voice
US9355636B1 (en) Selective speech recognition scoring using articulatory features
JP2004117503A (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
JP5914119B2 (ja) 音響モデル性能評価装置とその方法とプログラム
JP7107377B2 (ja) 音声処理装置、音声処理方法、およびプログラム
WO2009122780A1 (ja) 適応話者選択装置および適応話者選択方法並びに記録媒体
KR20110071742A (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
JP6078402B2 (ja) 音声認識性能推定装置とその方法とプログラム
JP7216348B2 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
Nahar et al. Effect of data augmentation on dnn-based vad for automatic speech recognition in noisy environment
JP2005091504A (ja) 音声認識装置
WO2024038560A1 (ja) 学習装置、推定装置、学習方法、及びプログラム
JP2010117651A (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム