JPWO2009057739A1 - 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム - Google Patents

話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム Download PDF

Info

Publication number
JPWO2009057739A1
JPWO2009057739A1 JP2009539120A JP2009539120A JPWO2009057739A1 JP WO2009057739 A1 JPWO2009057739 A1 JP WO2009057739A1 JP 2009539120 A JP2009539120 A JP 2009539120A JP 2009539120 A JP2009539120 A JP 2009539120A JP WO2009057739 A1 JPWO2009057739 A1 JP WO2009057739A1
Authority
JP
Japan
Prior art keywords
speaker
speakers
density
model
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009539120A
Other languages
English (en)
Other versions
JP5626558B2 (ja
Inventor
真宏 谷
真宏 谷
祥史 大西
祥史 大西
江森 正
正 江森
孝文 越仲
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009539120A priority Critical patent/JP5626558B2/ja
Publication of JPWO2009057739A1 publication Critical patent/JPWO2009057739A1/ja
Application granted granted Critical
Publication of JP5626558B2 publication Critical patent/JP5626558B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification

Abstract

適応モデルの精度劣化を抑制することのできる話者選択装置を提供する。話者選択装置は、入力された発声話者の音声信号より抽出された特徴量とあらかじめ記憶されている複数の話者の話者モデルを用いて、話者空間における発声話者を中心とする複数の話者の分布の密度を算出する話者分布密度算出手段と、話者の分布の密度を用いて選択する話者の数を算出する選択話者数算出手段とを備える。

Description

本発明は、話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラムに関し、特に、発声話者に音響的特徴量が近い話者を選択するための話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラムに関する。
音声認識処理等において用いられる話者適応モデルを作成する装置として、あらかじめ記憶装置に記憶されている多数の話者モデルの中から、音響的特徴量が発声話者の音響的特徴量に近い話者モデルを選択し、選択した話者モデルにもとづいて発声話者の話者適応モデルを作成する装置がある。そのような話者適応モデル作成装置における話者選択装置の一例が、非特許文献1や特許文献1に記載されている。なお、以下、発声話者の音響的特徴量に近い話者モデルを選択することを、「話者を選択」または「話者選択」ということがある。また、「話者適応モデル」を、「適応モデル」ということがある。
図7は、非特許文献1、および特許文献1に記載されている関連技術の話者適応モデル作成装置の構成を示すブロック図である。図7に示すように、関連技術の話者適応モデル作成装置は、マイクロフォン等から音声信号を受け取る入力手段1と、データ処理手段2と、記憶手段3とを備えている。
記憶手段3は、話者モデル記憶部31と、十分統計量記憶部32と、選択話者数記憶部33とを備えている。
話者モデル記憶部31はGMM(Gaussian Mixture Model:混合正規分布で表現した観測データの確率モデル)で表現された複数の話者モデルを記憶している。非特許文献1、および特許文献1に記載された方法では、話者モデルを、音素を区別することなく1状態64混合のGMMを用いてあらかじめ作成しておく。
十分統計量記憶部32は、音声認識で一般的に用いられているHMM(Hidden Markov Model:音声認識の分野では、音声の音響的特徴を表現した確率モデル)で表現された十分統計量を、話者毎に計算し記憶している。「十分統計量」とは、データベースのモデルを構成するのに十分な統計量のことであり、非特許文献1、および特許文献1に記載された方法では、HMMの音素モデルにおける平均、分散、およびEMカウントである。「EMカウント」とは、HMMを学習する際に一般的に用いられるアルゴリズムであるEMアルゴリズムにおいて、状態iから状態jの正規分布kに遷移する確率的度数である。十分統計量は、話者毎の音声データを用いて、EMアルゴリズムで不特定話者モデルから1回学習することによって計算される。
選択話者数記憶部33は、選択する話者の数(N人)を記憶している。非特許文献1、および特許文献1に記載された方法では、Nは定数であり、経験的に決定する。
データ処理手段2は、音響特徴量算出手段21と、話者スコア算出手段22と、類似話者選択手段24と、適応モデル作成手段25とを備えている。
音響特徴量算出手段21は、入力手段1から音声信号を受け取り、音声認識に必要な特徴量を計算し、話者スコア算出手段22に出力する。
話者スコア算出手段22は、話者モデル記憶部31に記憶されている複数の話者モデルを読み込む。そして、音響特徴量算出手段21が抽出する特徴量を入力し、話者モデルのそれぞれについて話者スコアを計算し、話者スコアとそれに対応する話者(例えば、話者を識別する話者ID(Identification Data)等)との組を、類似話者選択手段24に出力する。非特許文献1、および特許文献1に記載された方法では、話者スコアは、入力された特徴量に対応するGMMのゆう度である。
類似話者選択手段24は、選択話者数記憶部33に記憶されている選択する話者の数Nを読み込む。そして、話者スコア算出手段22から出力される話者スコアと話者IDとの組を入力し、スコアの高い上位N人の話者IDを、適応モデル作成手段25に出力する。
適応モデル作成手段25は、類似話者選択手段24から出力される話者IDを入力し、十分統計量記憶部32に記憶されている十分統計量の中から、この話者IDに対応する十分統計量を読み込む。読み込んだ十分統計量を用いて、統計処理計算により話者適応モデルを作成し出力する。非特許文献1、および特許文献1に記載された方法では、統計処理は、式1〜式3を用いて行われる。
Figure 2009057739
Figure 2009057739
Figure 2009057739
ここで、μiadp(i=1,・・・,Nmix)、νiadp(i=1,・・・,Nmix)は、それぞれ、適応モデルのHMMの各状態における正規分布の平均、分散であり、Nmixは、混合分布数である。また、aadp[i][j](i,j=1,・・・,Nstate)は、状態iから状態jへの遷移確率であり、Nstateは、状態数である。Nselは、選択した話者の数であり、μi(i=1,・・・,Nmix,j=1,・・・,Nsel)、νi(i=1,・・・,Nmix,j=1,・・・,Nsel)は、それぞれ、選択話者の音素モデルの平均、分散である。また、Cmix (j=1,・・・,Nsel)、Cstate [i][j](k=1,・・・,Nsel、i,j=1,・・・,Nstate)は、それぞれ、正規分布におけるEMカウント、状態遷移に関するEMカウントである。
特許第3756879号公報 芳澤伸一、馬場朗、松浪加奈子、米良祐一郎、山田実一、李晃伸、鹿野清宏著、「十分統計量と話者距離を用いた音韻モデルの教師なし学習法」、電子情報通信学会論文誌、2002年3月、Vol. J85-D-II No.3、382〜389頁
関連技術の話者適応モデル作成装置における話者選択装置の問題点は、発声話者に依っては、選択する話者の数を適切に設定できず、適応モデルの精度が劣化することである。その理由は、関連技術の話者選択装置では、発声話者毎に選択する話者の数(以下、選択する話者の数を、「選択話者数」と呼ぶ)を制御する仕組みがなく、発声話者に依らず一意に設定した選択話者数を閾値として話者を選択しているためである。
発声話者に依らず一意に設定した選択話者数を閾値として話者を選択する手法は、発声話者に音響的特徴が相対的に近い話者が、話者空間において発声話者から散在している場合(以下、「疎の状態」と呼ぶ。発声話者の近傍に密集している場合は「密の状態」と呼ぶ。疎や密の状態に関する定量的な表現を「話者の分布の密度」と呼ぶ。)、音響的特徴が絶対的に近くない話者まで選択され、適応モデルの精度劣化を引き起こす。
そこで、本発明は、適応モデルの精度劣化を抑制することのできる話者選択装置、話者選択方法および話者選択用プログラム、ならびに話者選択装置を利用した話者適応モデル作成装置を提供することを目的とする。
本発明に係る話者選択装置は、入力された発声話者の音声信号より抽出された特徴量とあらかじめ記憶されている複数の話者の話者モデルを用いて、話者空間における発声話者を中心とする前記複数の話者の分布の密度を算出する話者分布密度算出手段と、前記話者の分布の密度を用いて選択する話者の数を算出する選択話者数算出手段とを備えることを特徴とする。
本発明に係る話者選択方法は、入力された発声話者の音声信号より抽出された特徴量とあらかじめ記憶されている複数の話者の話者モデルを用いて、話者空間における発声話者を中心とする前記複数の話者の分布の密度を算出する話者分布密度算出ステップと、前記話者の分布の密度を用いて選択する話者の数を算出する選択話者数算出ステップとを備えることを特徴とする。
本発明に係る話者選択用プログラムは、コンピュータに、入力された発声話者の音声信号より抽出された特徴量とあらかじめ記憶されている複数の話者の話者モデルを用いて、話者空間における発声話者を中心とする前記複数の話者の分布の密度を算出する話者分布密度算出処理と、前記話者の分布の密度を用いて選択する話者の数を算出する選択話者数算出処理とを実行させることを特徴とする。
本発明の効果は、発声話者毎に選択話者数を制御できるため、適応モデルの精度劣化を抑制できることである。その理由は、話者空間における話者の分布の密度を基準に選択話者数を決定するからである。
本発明の第1の実施の形態に係る話者選択装置の全体構成を示すブロック図である。 本発明の第1の実施の形態に係る話者選択装置における選択話者数制御手段の内部構成を示すブロック図である。 本発明の第1の実施の形態に係る話者選択装置の動作を示す流れ図である。 本発明の第2の実施の形態に係る話者選択装置の全体構成を示すブロック図である。 本発明の第2の実施の形態に係る話者選択装置の動作を示す流れ図である。 本発明の第1の実施の形態に係る話者選択装置における他の選択話者数制御手段の内部構成を示すブロック図である。 関連技術の一例を示すブロック図である。
符号の説明
1 入力手段
2 データ処理手段
3 記憶手段
21 音響特徴量算出手段
22 話者スコア算出手段
23 選択話者数制御手段
24 類似話者選択手段
25 適応モデル作成手段
31 話者モデル記憶部
32 十分統計量記憶部
33 選択話者数記憶部
231 発声話者モデル作成手段
232 話者分布密度算出手段
233 選択話者数算出手段
次に、本発明を実施するための最良の形態を、図面を参照して詳細に説明する。
(実施の形態1)
図1および図2は、本発明の話者選択装置の第1の実施の形態の構成を示すブロック図である。図1に示すように、第1の実施の形態の話者選択装置は、マイクロフォン等から音声信号を受け取る入力手段1と、データ処理手段2と、記憶手段3とを備えている。
記憶手段3は、話者モデル記憶部31を備える。話者モデル記憶部31は、それぞれGMMで表現された複数の話者モデルを記憶している。話者モデル記憶部31に記憶されている話者モデルは、話者スコアを算出する際に話者スコア算出手段22に読み込まれる。また、選択話者数を算出する際に選択話者数制御手段23に読み込まれる。ここでは、話者モデルとして、非特許文献1に記載されている話者モデルと同様に、GMMの形式で事前に作成しておく。ただし、話者モデルはGMMによるものでなくてもよい。例えば、HMM、SVM(Support Vector Machine)、NN(Neural Network)、BN(Bayesian Network)によるものでもよい。
データ処理手段2は、音響特徴量算出手段21と、話者スコア算出手段22と、選択話者数制御手段23と、類似話者選択手段24とを備えている。
音響特徴量算出手段21は、入力手段1から音声信号を受け取り、音声認識に必要な特徴量を計算し、話者スコア算出手段22および選択話者数制御手段23に出力する。音声信号は、例えば、サンプリング周波数44.1kHz、16bitでA−D変換された音声データである。特徴量は、例えば、下記の文献1に記載されているメルケプストラム係数(MFCC)やそれらの変化率である。音響特徴量算出手段21は、音声データをフレームと呼ばれる10msec程度の一定区間で切り出し、プリエンファシス、高速フーリエ変換(FFT)、フィルタバンク分析、コサイン変換し、特徴ベクトルの時系列のような形式で抽出する。なお、特徴量について特に規定はなく、音声データそのものを用いることもできる。
[文献1]鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著、「音声認識システム」、株式会社オーム社、2001年、13−15頁
話者スコア算出手段22は、話者モデル記憶部31にあらかじめ記憶されているGMMで表現された話者モデルを読み込む。そして、音響特徴量算出手段21が抽出するフレーム単位の特徴量を入力し、話者モデルのそれぞれについて話者スコアを計算し、話者スコアとそれに対応する話者(具体的には、例えば、話者を識別する話者IDすなわち話者モデルを識別する話者ID)との組を、類似話者選択手段24に出力する。話者スコアは、入力された特徴量に対するGMMの対数ゆう度である。話者スコア算出手段22は、フレーム毎に計算されたGMMの対数ゆう度を任意のフレームの数だけ加算することによって、例えば、一連の会話や通話単位の話者スコアを計算し、対応する話者IDと話者スコアとの組を類似話者選択手段24に出力する。
選択話者数制御手段23は、図2に示すように、発声話者モデル作成手段231と、話者分布密度算出手段232と、選択話者数算出手段233とを備えている。なお、選択話者数制御手段23は、図6のように構成されていてもよい。
発声話者モデル作成手段231は、音響特徴量算出手段21が抽出するフレーム単位の特徴量を入力し、発声話者の話者モデル(以下、「発声話者モデル」と呼ぶ)を、話者モデル記憶部31に記憶されている話者モデルと同様に、GMMの形式で作成する。
話者分布密度算出手段232は、発声話者モデル作成手段231で作成された発声話者モデルと話者モデル記憶部31に記憶されている複数の話者モデルを読み込み、話者の分布の密度を算出し、選択話者数算出手段233に出力する。
話者の分布の密度の算出は、例えば、読み込んだ発声話者とすべての話者とのモデル間距離の平均値および分散値を計算することに相当する。モデル間距離の計算には、例えば、2つの確率モデルの統計的な距離を計算するKLダイバージェンスを用いる。計算した平均値および分散値が小さいことは、話者空間において、発声話者に音響的特徴が近い話者が、発声話者の近くに密集していることを表す。一方、計算した平均値および分散値が大きいことは、発声話者に音響的特徴が近い話者が、発声話者から散在していることを表す。すなわち、モデル間距離の平均値および分散値の大小は、話者空間における話者の分布の疎密(密度が低い、高い)を表す。ここでは、モデル間距離の平均値の逆数を密度とする。ただし、密度は平均値の逆数でなくてもよい。例えば、分散値の逆数、あるいは平均値の逆数と分散値の逆数の重み付き平均でもよい。
なお、選択話者数制御手段23が図6のように構成されている場合、話者分布密度算出手段232は、話者スコア算出手段22から出力される話者スコア、例えば、GMMの対数ゆう度を入力し、話者の分布の密度を算出する。この場合、話者の分布の密度は、GMMの対数ゆう度の平均値および分散値を計算することに相当する。
選択話者数算出手段233は、話者分布密度算出手段232から出力される話者の分布の密度を入力し、話者の分布の密度と選択話者数に正の相関を示す関数を用いて、選択話者数を算出し、類似話者選択手段24へ出力する。ここでは、正の相関を示す関数として、シグモイド関数(式4)を用いる。
Figure 2009057739
ここで、xは入力する密度(話者分布密度算出手段232が出力する密度)であり、Nは出力する選択話者数である。Nmax、Nmin、kおよびaは、開発データを用いて音声認識実験を行い、認識性能が高くなるように設定する。なお、Nmaxは、選択話者数の上限値であり、Nminは選択話者数の下限値である。なお、正の相関を示す関数はシグモイド関数でなくてもよく、例えば、一次関数、多項式関数、区分線形関数でもよい。
類似話者選択手段24は、話者スコア算出手段22から出力される話者IDと話者スコアとの組を入力し、スコアの高い上位N人の話者IDを出力する。Nの値は、選択話者数制御手段23から出力される選択話者数と等しい。すなわち、話者スコアの高い話者IDを、選択話者数制御手段23が算出した選択話者の数だけ出力する。
次に、図3のフローチャートを参照して、図1および図2に示された第1の実施の形態の話者選択装置の動作を詳細に説明する。
まず、音響特徴量算出手段21は、入力手段1から与えられた音声信号を読み込み、メルケプストラム係数(MFCC)やそれらの変化率といった、音声認識に必要な特徴量を、フレーム毎に算出する(ステップA1)。
次に、話者スコア算出手段22は、話者モデル記憶部31に記憶されているGMMで表現された話者モデルを読み込み、ステップA1の処理で得られた特徴量に対するGMMの対数ゆう度をフレーム毎に算出し、任意のフレームの数だけ加算することによって、話者スコアを算出する(ステップA2)。話者スコアは、話者モデル記憶部31に記憶されている話者モデルの数(話者IDの数)だけ存在する。
一方、発声話者モデル作成手段231は、ステップA1の処理で得られた特徴量を用いて発声話者モデルを作成する(ステップA3)。ここでは、発声話者モデルを、話者モデル記憶部31に記憶されている話者モデルと同様に、GMMの形式で作成する。
話者分布密度算出手段232は、ステップA3の処理で得られた発声話者モデルと話者モデル記憶部31に記憶されている複数の話者モデルすべてを読み込み、発声話者とすべての話者とのモデル間距離の平均値および分散値、すなわち話者の分布の密度を計算し、選択話者数算出手段233へ出力する(ステップA4)。
選択話者数算出手段233は、ステップA4の処理で得られた話者の分布の密度を読み込み、あらかじめ設計した、話者の分布の密度と選択話者数に正の相関を示す関数を用いて選択話者数Nを計算し、類似話者選択手段24へ出力する(ステップA5)。正の相関を示す関数としてシグモイド関数を用いる場合、話者の分布の密度が高ければ大きな話者選択数を、密度が低ければ小さな話者選択数を出力する。
最後に、類似話者選択手段24は、ステップA2の処理で得られた話者スコア(話者IDと話者スコアとの組)とステップA5の処理で得られた選択話者数Nを読み込み、スコアを比較することによってスコアの高い上位N人の話者IDを選択し、選択したスコアの高い上位N人の話者IDを出力する(ステップA6)。
次に、本実施の形態の効果を説明する。
本実施の形態では、選択話者数制御手段23が、音響特徴量算出手段21が算出する特徴量から、発声話者モデルを作成し、作成した発声話者モデルと話者モデル記憶部31に記憶されているすべての話者モデルから、話者の分布の密度を算出し、算出した話者の分布の密度から、話者の分布の密度と選択話者数に正の相関を示す関数を用いて選択話者数を算出する。その後、類似話者選択手段24が、話者スコア算出手段22が算出する話者スコアの高い話者を、選択話者数制御手段23が算出した選択話者数の値だけ選択し、選択した話者のIDを出力する。このように構成されているので、本実施の形態では高精度に話者を選択できる。
(実施の形態2)
次に、本発明の第2の実施の形態を図面を参照して詳細に説明する。図4は、本発明の話者選択装置の第2の実施の形態の構成を示すブロック図である。
図4に示すように、第2の実施の形態の話者選択装置は、記憶手段3が、図1に示された第1の実施の形態における話者モデル記憶部31に加えて、十分統計量記憶部32を含む点が第1の実施の形態のものとは異なる。また、データ処理手段2が、第1の実施の形態における構成に加えて、適応モデル作成手段25を含む点が第1の実施の形態とは異なる。なお、図4における記憶手段3、音響特徴量算出手段21、話者スコア算出手段22、選択話者数制御手段23および類似話者選択手段24を含む装置を「話者選択装置」とし、さらに適応モデル作成手段25を含む装置を「話者適応モデル作成装置」と定義してもよい。
十分統計量記憶部32は、話者毎のHMMに関する十分統計量を記憶している。記憶している十分統計量は、話者適応モデルを作成する際に適応モデル作成手段25に読み込まれる。十分統計量は、データベースのモデルを構成するのに十分な統計量のことであり、非特許文献1に記載されている話者選択装置の場合と同様に、HMMにより表現された音素モデルにおける平均、分散、EMカウントである。十分統計量は、EMアルゴリズムで学習することにより事前に計算し十分統計量記憶部32に保存しておく。
適応モデル作成手段25は、類似話者選択手段24から出力される話者IDを入力し、十分統計量記憶部32にあらかじめ記憶されている十分統計量の中から、この話者IDに対応する十分統計量を読み込む。読み込んだ十分統計量を用いて、統計処理計算により話者適応モデルを作成し出力する。適応モデル作成手段25は、非特許文献1に記載されている話者選択装置の場合と同様に、上記の式1〜式3を用いて統計処理計算を行う。
次に、図5のフローチャートを参照して図4に示された第2の実施の形態の話者選択装置の全体の動作について詳細に説明する。
図5におけるステップA1、A2、A3、A4、A5、A6で示される音響特徴量算出手段21、話者スコア算出手段22、選択話者数制御手段23および類似話者数算出手段24の動作は、第1の実施の形態におけるそれらの動作と同じであり、説明を省略する。
第1の実施の形態では、類似話者選択手段24で選択された話者IDを出力していた。本実施の形態では、適応モデル作成手段25が、類似話者選択手段24で選択された話者に対応する十分統計量を十分統計量記憶部32から読み込み、統計処理計算によって話者適応モデルを作成する(ステップA7)。
適応モデル作成手段25は、類似話者選択手段24で選択された話者に対応する十分統計量を、例えば、話者スコア算出手段22が出力する、入力された特徴量に対するGMMの対数ゆう度を基に重み付けして統合したり、発声話者モデルを任意の値で重み付けして統合したりしてもよい。
次に、本発明の第2の実施の形態の効果を説明する。
第2の実施の形態では、選択話者数制御手段23が、音響特徴量算出手段21が算出する特徴量から、発声話者モデルを作成し、作成した発声話者モデルと話者モデル記憶部31に記憶されているすべての話者モデルから、話者の分布の密度を算出し、算出した話者の分布の密度から、話者の分布の密度と選択話者数に正の相関を示す関数を用いて選択話者数を算出する。その後、類似話者選択手段24が、話者スコア算出手段22が算出する話者スコアの高い話者を、選択話者数制御手段23が算出した選択話者数の値だけ選択する。そして、適応モデル作成手段25が話者適応モデルを作成する。
このように構成されているので、本実施の形態では、発声話者が変わっても、発声話者毎に選択話者数を制御でき、これにより、適応モデルの精度劣化を抑制できる。また、正の相関を示す関数は、密度が低い場合(疎の状態の場合)にも、十分な統計量(学習データ)を確保するように設計されているので、適応モデルの精度劣化を抑制できる。
以上説明したように、上記の話者選択装置は、発声話者の音声またはこれにより抽出された特徴量に対する複数の話者モデルのそれぞれのゆう度、あるいは発声話者のモデルと複数の話者モデルを用いて、話者空間における話者の分布の密度を算出する話者分布密度算出手段と、あらかじめ設計した話者の分布の密度と選択話者数に正の相関を示す関数を用いて、選択話者数を算出する選択話者数算出手段とを備え、発声話者毎に選択話者数を制御している。
また、上記の話者適応モデル作成装置の好ましい態様は、上記の話者選択装置と、話者選択装置が選択した話者に対応する十分統計量にもとづく統計処理計算によって話者適応モデルを作成する適応モデル作成手段とを備えている。
さらに、選択話者数制御手段は、例えば、話者の分布の密度が低い、つまり疎の状態のときに十分な統計量(学習データ)は確保できる範囲で選択話者数を小さくし、話者の分布の密度が高い、つまり密の状態のときに選択話者数を大きくするような、話者の分布の密度と選択話者数に正の相関を示す関数を用いて選択話者数を決定している。
従って、上記の話者選択装置によれば、発声話者毎に選択話者数を制御できるため、適応モデルの精度劣化を抑制できる。その理由は、話者空間における話者の分布の密度を基準に選択話者数を決定するからである。具体的には、話者空間における話者の分布の密度が低い、つまり疎の状態のときに、発声話者と音響的特徴が似ていない話者まで選択せず、かつ十分な統計量(学習データ)を確保できるような範囲で選択話者数を小さくし、一方、密度が高い、つまり密の状態のときには、発声話者と音響的特徴が似ている話者をできるだけ多く選択、つまり、統計量(学習データ)を十分に確保できるように選択話者数を大きくするような、話者の分布の密度と選択話者数に正の相関を示す関数を用いることによって、音響的特徴の近さだけでなく、統計量(学習データ)も考慮しながら選択話者数を制御できるためである。
なお、上記各実施の形態に係る話者選択装置と、これを用いた話者適応モデル作成装置は、上述した各手段の機能を実現可能なものであれば、その構成(ハードウェア構成及びソフトウェア構成)については特に限定されるものではない。例えば、手段毎に独立して個別の回路やユニット或いはソフトウェア部品(モジュール等)を構成したり、複数の手段を1つの回路やユニット内に一体的に構成したりする等、いずれの形態でも提供可能である。これらの形態は、実際に使用する装置の機能や用途等の事情に応じて適宜選択可能である。
また、上述した各手段の機能に対応して、これらと同様の処理を行う各ステップ(工程)から構成される話者選択方法と、これを用いた話者適応モデル作成方法も、本発明の範疇に含まれる。
さらに、各手段の少なくとも一部の処理は、CPU(Central Processing Unit)を有するプロセッサ等のコンピュータによるソフトウェア処理で実現してもよい。この場合、コンピュータを上記各手段の少なくとも一部として機能させるためのコンピュータプログラムである話者選択用プログラムと、これを用いた話者適応モデル作成用プログラムも、本発明の範疇に含まれる。これらのプログラムは、例えば装置全体の制御を行うOS(Operating System)やファームウェア等の制御プログラムと連携して動作し、或いはその一部に組み込まれて一体的に動作するアプリケーションプログラムやそれを構成するソフトウェア部品(ソフトウェアモジュール)等、いずれの形態でも提供可能である。これらのプログラムは、無線又は有線回線を介して外部装置と通信する通信機能を有する装置に実装して使用する場合、例えば回線上に接続されたサーバ等の外部ノードからダウンロードして自装置内の記録媒体にインストールして使用することもできる。これらの形態は、実際に使用する装置の機能や用途等の事情に応じて適宜選択可能である。
また、上記のコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に含まれる。この場合、記録媒体は、ROM(Read Only Memory)等のメモリ等、装置内に固定して使用されるものや、利用者により持ち運びが可能な可搬型のもの等、いずれの形態でも提供可能である。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2007年10月31日に出願された日本出願特願2007−283767号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明を、音声信号をテキスト化する音声認識装置や、音声認識装置をコンピュータで実現するためのプログラムといった用途に適用できる。また、使用者に意識させずに、使用者の発声の音響的な特徴に音声認識システムを適応させて音声認識性能を向上させる話者適応モデル作成装置や話者適応モデル作成装置をコンピュータで実現するためのプログラムといった用途に適用できる。さらに、音声を伴う映像コンテンツに話者インデックスを自動付与し、検索することができるコンテンツ検索装置といった用途にも適用できる。

Claims (24)

  1. 入力された発声話者の音声信号より抽出された特徴量とあらかじめ記憶されている複数の話者の話者モデルを用いて、話者空間における発声話者を中心とする前記複数の話者の分布の密度を算出する話者分布密度算出手段と、
    前記話者の分布の密度を用いて選択する話者の数を算出する選択話者数算出手段とを備えることを特徴とする話者選択装置。
  2. 前記話者分布密度算出手段は、前記特徴量に対する前記複数の話者の話者モデルのそれぞれのゆう度を算出する話者スコア算出手段を備え、前記ゆう度の平均値および分散値の少なくともいずれか1つを算出し、これを用いて密度を算出する請求項1記載の話者選択装置。
  3. 前記話者分布密度算出手段は、前記特徴量を用いて発声話者の話者モデルを作成する発声話者モデル作成手段を備え、前記発声話者の話者モデルと前記複数の話者の話者モデルを用いて、発声話者と複数の話者の話者モデル間距離の平均値および分散値の少なくともいずれか1つを算出し、これを用いて密度を算出する請求項1記載の話者選択装置。
  4. 前記ゆう度の平均値の逆数、分散値の逆数、平均値の逆数と分散値の逆数の重み付き平均のいずれか1つを密度とする請求項2または請求項3記載の話者選択装置。
  5. 前記話者モデル間距離の平均値の逆数、分散値の逆数、平均値の逆数と分散値の逆数の重み付き平均のいずれか1つを密度とする請求項2または請求項3記載の話者選択装置。
  6. 前記選択話者数算出手段は、話者の分布の密度と選択する話者の数に正の相関を示す関数を用いて選択する話者の数を算出する請求項2から請求項5のうちいずれかに記載された話者選択装置。
  7. 前記選択話者数算出手段は、話者の分布の密度と選択する話者の数に正の相関を示す関数としてシグモイド関数あるいは区分線形関数を用いて、選択する話者の数を算出する請求項6記載の話者選択装置。
  8. 請求項1から請求項7のうちのいずれかに記載された話者選択装置と、
    前記話者選択装置が選択した話者に対応する十分統計量にもとづく統計処理計算によって話者適応モデルを作成する適応モデル作成手段とを備えた話者適応モデル作成装置。
  9. 入力された発声話者の音声信号より抽出された特徴量とあらかじめ記憶されている複数の話者の話者モデルを用いて、話者空間における発声話者を中心とする前記複数の話者の分布の密度を算出する話者分布密度算出ステップと、
    前記話者の分布の密度を用いて選択する話者の数を算出する選択話者数算出ステップとを備えることを特徴とする話者選択方法。
  10. 前記話者分布密度算出ステップは、前記特徴量に対する前記複数の話者の話者モデルのそれぞれのゆう度を算出する話者スコア算出ステップを備え、前記ゆう度の平均値および分散値の少なくともいずれか1つを算出し、これを用いて密度を算出する請求項9記載の話者選択方法。
  11. 前記話者分布密度算出ステップは、前記特徴量を用いて発声話者の話者モデルを作成する発声話者モデル作成ステップを備え、前記発声話者の話者モデルと前記複数の話者の話者モデルを用いて、発声話者と複数の話者の話者モデル間距離の平均値および分散値の少なくともいずれか1つを算出し、これを用いて密度を算出する請求項9記載の話者選択方法。
  12. 前記ゆう度の平均値の逆数、分散値の逆数、平均値の逆数と分散値の逆数の重み付き平均のいずれか1つを密度とする請求項10または請求項11記載の話者選択方法。
  13. 前記話者モデル間距離の平均値の逆数、分散値の逆数、平均値の逆数と分散値の逆数の重み付き平均のいずれか1つを密度とする請求項10または請求項11記載の話者選択方法。
  14. 前記選択話者数算出ステップは、話者の分布の密度と選択する話者の数に正の相関を示す関数を用いて選択する話者の数を算出する請求項10から請求項13のうちいずれかに記載された話者選択方法。
  15. 前記選択話者数算出ステップは、話者の分布の密度と選択する話者の数に正の相関を示す関数としてシグモイド関数あるいは区分線形関数を用いて、選択する話者の数を算出する請求項14記載の話者選択方法。
  16. 請求項9から請求項15のうちのいずれかに記載された話者選択方法を用いて、選択した話者に対応する十分統計量にもとづく統計処理計算によって話者適応モデルを作成する適応モデル作成ステップを有することを特徴とする話者適応モデル作成方法。
  17. コンピュータに、
    入力された発声話者の音声信号より抽出された特徴量とあらかじめ記憶されている複数の話者の話者モデルを用いて、話者空間における発声話者を中心とする前記複数の話者の分布の密度を算出する話者分布密度算出処理と、
    前記話者の分布の密度を用いて選択する話者の数を算出する選択話者数算出処理とを実行させることを特徴とする話者選択用プログラム。
  18. 前記話者分布密度算出処理は、前記特徴量に対する前記複数の話者の話者モデルのそれぞれのゆう度を算出する話者スコア算出処理を備え、
    コンピュータに、
    前記ゆう度の平均値および分散値の少なくともいずれか1つを算出し、これを用いて密度を算出する処理を実行させる請求項17記載の話者選択用プログラム。
  19. 前記話者分布密度算出処理は、前記特徴量を用いて発声話者の話者モデルを作成する発声話者モデル作成処理を備え、
    コンピュータに、
    前記発声話者の話者モデルと前記複数の話者の話者モデルを用いて、発声話者と複数の話者の話者モデル間距離の平均値および分散値の少なくともいずれか1つを算出し、これを用いて密度を算出する処理を実行させる請求項17記載の話者選択用プログラム。
  20. 前記ゆう度の平均値の逆数、分散値の逆数、平均値の逆数と分散値の逆数の重み付き平均のいずれか1つを密度とする請求項18または請求項19記載の話者選択用プログラム。
  21. 前記話者モデル間距離の平均値の逆数、分散値の逆数、平均値の逆数と分散値の逆数の重み付き平均のいずれか1つを密度とする請求項18または請求項19記載の話者選択用プログラム。
  22. 前記選択話者数算出処理は、話者の分布の密度と選択する話者の数に正の相関を示す関数を用いて選択する話者の数を算出する請求項18から請求項21のうちいずれかに記載された話者選択用プログラム。
  23. 前記選択話者数算出処理は、話者の分布の密度と選択する話者の数に正の相関を示す関数としてシグモイド関数あるいは区分線形関数を用いて、選択する話者の数を算出する請求項22記載の話者選択用プログラム。
  24. コンピュータに、
    請求項17から請求項23のうちのいずれかに記載された話者選択用プログラムを用いて、選択した話者に対応する十分統計量にもとづく統計処理計算によって話者適応モデルを作成する適応モデル作成処理を実行させることを特徴とする話者適応モデル作成用プログラム。
JP2009539120A 2007-10-31 2008-10-31 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム Active JP5626558B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009539120A JP5626558B2 (ja) 2007-10-31 2008-10-31 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007283767 2007-10-31
JP2007283767 2007-10-31
JP2009539120A JP5626558B2 (ja) 2007-10-31 2008-10-31 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム
PCT/JP2008/069853 WO2009057739A1 (ja) 2007-10-31 2008-10-31 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム

Publications (2)

Publication Number Publication Date
JPWO2009057739A1 true JPWO2009057739A1 (ja) 2011-03-10
JP5626558B2 JP5626558B2 (ja) 2014-11-19

Family

ID=40591119

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009539120A Active JP5626558B2 (ja) 2007-10-31 2008-10-31 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム

Country Status (2)

Country Link
JP (1) JP5626558B2 (ja)
WO (1) WO2009057739A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143486A (ja) * 1997-11-10 1999-05-28 Fuji Xerox Co Ltd 話者適応装置および方法
JP2002149185A (ja) * 2000-09-27 2002-05-24 Koninkl Philips Electronics Nv 複数の学習用話者を表現する固有空間の決定方法
WO2005034086A1 (ja) * 2003-10-03 2005-04-14 Asahi Kasei Kabushiki Kaisha データ処理装置及びデータ処理装置制御プログラム
JP3756879B2 (ja) * 2001-12-20 2006-03-15 松下電器産業株式会社 音響モデルを作成する方法、音響モデルを作成する装置、音響モデルを作成するためのコンピュータプログラム
WO2008117626A1 (ja) * 2007-03-27 2008-10-02 Nec Corporation 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143486A (ja) * 1997-11-10 1999-05-28 Fuji Xerox Co Ltd 話者適応装置および方法
JP2002149185A (ja) * 2000-09-27 2002-05-24 Koninkl Philips Electronics Nv 複数の学習用話者を表現する固有空間の決定方法
JP3756879B2 (ja) * 2001-12-20 2006-03-15 松下電器産業株式会社 音響モデルを作成する方法、音響モデルを作成する装置、音響モデルを作成するためのコンピュータプログラム
WO2005034086A1 (ja) * 2003-10-03 2005-04-14 Asahi Kasei Kabushiki Kaisha データ処理装置及びデータ処理装置制御プログラム
WO2008117626A1 (ja) * 2007-03-27 2008-10-02 Nec Corporation 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム

Also Published As

Publication number Publication date
WO2009057739A1 (ja) 2009-05-07
JP5626558B2 (ja) 2014-11-19

Similar Documents

Publication Publication Date Title
US9536525B2 (en) Speaker indexing device and speaker indexing method
JP5229219B2 (ja) 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム
US9070367B1 (en) Local speech recognition of frequent utterances
US9514747B1 (en) Reducing speech recognition latency
JP5229478B2 (ja) 統計モデル学習装置、統計モデル学習方法、およびプログラム
US11495235B2 (en) System for creating speaker model based on vocal sounds for a speaker recognition system, computer program product, and controller, using two neural networks
WO2019102884A1 (ja) ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体
US8996373B2 (en) State detection device and state detecting method
EP1557822A1 (en) Automatic speech recognition adaptation using user corrections
JP2017513047A (ja) 音声認識における発音予測
JP2012037619A (ja) 話者適応化装置、話者適応化方法および話者適応化用プログラム
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
US20040199386A1 (en) Method of speech recognition using variational inference with switching state space models
WO2018051945A1 (ja) 音声処理装置、音声処理方法、および記録媒体
JP2013148697A (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
US7574359B2 (en) Speaker selection training via a-posteriori Gaussian mixture model analysis, transformation, and combination of hidden Markov models
JP5229124B2 (ja) 話者照合装置、話者照合方法およびプログラム
WO2018163279A1 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
JP2009086581A (ja) 音声認識の話者モデルを作成する装置およびプログラム
JPWO2019107170A1 (ja) 緊急度推定装置、緊急度推定方法、プログラム
JP2007078943A (ja) 音響スコア計算プログラム
JP5914119B2 (ja) 音響モデル性能評価装置とその方法とプログラム
JP5626558B2 (ja) 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム
JP7107377B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131021

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140318

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140618

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140703

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140904

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140917

R150 Certificate of patent or registration of utility model

Ref document number: 5626558

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150