WO2010050414A1

WO2010050414A1 - モデル適応装置、その方法及びそのプログラム

Info

Publication number: WO2010050414A1
Application number: PCT/JP2009/068263
Authority: WO
Inventors: 健花沢; 祥史大西
Original assignee: 日本電気株式会社
Priority date: 2008-10-31
Filing date: 2009-10-23
Publication date: 2010-05-06
Also published as: JPWO2010050414A1; JP5376341B2; US20110224985A1

Abstract

　モデル適応装置は、モデルを入力音声の特徴に近似させることでモデルを入力音声の話者に適応させるモデル適応によるものである。このモデル適応装置は、所定の音素を有する文を複数格納するテキストデータベースと、入力音声の内容を記述した複数の文を有する文リストと、入力音声が入力される入力手段と、入力音声と文リストとを用いてモデル適応を行い、モデルを入力音声に近似させるための適応用特徴情報を出力するモデル適応手段と、適応用特徴情報を格納する統計量データベースと、適応用特徴情報とモデルとの音響的な距離値を音素ごとに出力する距離計算手段と、距離値のうち閾値を超えるものを検出結果として出力する音素検出手段と、検出結果に係る音素を含む文をテキストデータベースから抽出し出力するラベル生成手段と、を備える。

Description

モデル適応装置、その方法及びそのプログラム

　本発明は、音声認識等において認識精度を高めるために音響モデルを話者等の対象者に適応させるモデル適応装置、その方法及びそのプログラムに関する。

　音声認識における音響モデルを話者等に適応させ、認識精度の向上を狙うモデル適応の技術が知られている。このとき、話者にあらかじめ用意された文または単語リストを発声させて適応を行う教師あり適応において、音響モデルが持つ各音素単位の必要最低学習量を効率よく確保するように、用意する文リストを生成するという方法が、例えば特許文献１及び図１に記載されている。

　この方法では、充分な量の音素及び音素における環境その他バリエーションを充分に含む元テキストデータベースを具備して元テキストデータベースから各音素の個数をカウントして個数リストを生成する。

　更に、個数リストの音素を個数順に並べ替えた並べ替えリストを生成し、並べ替えリストの中で個数の最も少ない最小個数音素αを含むすべての文を最小個数音素文リストに並べ、並べ替えリストの中で個数の最も少ない最小個数音素αを含む文リストの音素モデルの学習効率スコア、学習バリエーション効率を計算して効率計算文リストを生成する。

　次に、効率計算文リストから供給される文を学習効率スコア順に並べ替え、学習効率スコアが同値の場合は学習バリエーション効率順に並べ替えた並べ替え文リストを生成し、最小個数音素αの個数が各音素で必要とする音声データ数である基準学習データ数aに達するまで並べ替え文リストの上位から順に文を選択する。

　この選択した文で選択文リストを生成し、選択文リスト中に含まれる音素の個数を数えて既選択文音素個数リストを生成し、並べ替えリストの中で最小個数音素αの次に個数の少ない音素βについて、既選択文音素個数リスト中に基準学習データ数aに達していない場合、当該音素βをも含む基準学習データ数未満音素文リストを生成する。

　又、特許文献２には、音素のグループ毎に、話者クラスタリングを行い、音素の適切な話者クラスタを作成して選択することで、より緻密なモデル適応を行うようにした発明が開示されている。

　特許文献３には、音声を含むマルチメディアデータベースなどに対し、ユーザがキーワード音声による検索を行うことができる方法及び装置に係る発明が開示されている。

　特許文献４には、音素モデルクラスタリングによる音素モデル適応化に係る発明が開示されている。

　特許文献５には、辞書に登録するために文字を筆記する際の筆順と、識別時にその文字を筆記する際の筆順とが異なっていても、同じ筆者の筆跡であると判断することができる筆者識別方法及び筆者識別装置に係る発明が開示されている。

特開２００４－２５２１６７号公報特開２００１－０１３９８６号公報特開２００２－２２１９８４号公報特開２００７－２４８７４２号公報特開２００５－２０８７２９号公報

　しかしながら、先行技術にはモデルの適応に必要なデータを話者に依存して提示する、効率の良いモデル適応装置は開示されていなかった。

　特許文献1は、必要最低学習量である基準学習データ数aをあらかじめ人手で与えておかなければならないため、その設定を話者ごとに適切に行うことが難しいという課題がある。すなわち、適応しようとする話者とモデルとの関係を考慮していないため、話者によっては特定の音素に対して学習量が過剰または不足するという問題がある。

　特許文献２～４に開示されている発明は、１以上の音素を含む文章をデータベースの検索等によって生成し、更には話者毎に音素とモデルとの距離を計算した場合に距離に相関がある音素をグループ化したデータをデータベースに格納するが、緻密なモデル適応を可能とするには話者毎に膨大なデータの蓄積が必要であるという問題点がある。

　特許文献５に開示されている発明は、筆跡が異なるユーザの筆記上の特徴を標準辞書に付加して各ユーザを識別する辞書を作成するものである。しかしながら、筆記による一度の入力で各ユーザの辞書作成が可能な筆者識別の方式は、ユーザの発声を入力とする音声識別では正確なモデル適応は困難であるという問題点がある。

　本発明は上記に鑑みてなされたもので、効率の良いモデル適応を行うことが可能なモデル適応装置、その方法及びそのプログラムを提供することを目的とする。

　上述の問題を解決するため、本発明に係るモデル適応装置は、モデルを入力データである入力特徴量の特徴に近似させることで該モデルを該入力特徴量に適応させるモデル適応装置であって、前記入力特徴量とその内容である第一の教師ラベル列とから各ラベルに対応するモデル適応を行い、該モデル適応のための適応用特徴情報を出力するモデル適応手段と、前記適応用特徴情報と前記モデルとのモデル間距離を前記ラベルごとに計算する距離計算手段と、前記モデル間距離があらかじめ定められた閾値を超えるラベルを検出する検出手段と、前記検出手段の出力として一つ以上のラベルが得られた場合に、該検出されたラベルを少なくとも一つ以上含む第二の教師ラベル列を生成するラベル生成手段と、を備えることを特徴とする。

　上述の問題を解決するため、本発明に係るモデル適応方法は、モデルを入力データである入力特徴量の特徴に近似させることで該モデルを該入力特徴量に適応させるモデル適応方法であって、前記入力特徴量とその内容である第一の教師ラベル列とから各ラベルに対応するモデル適応を行い、該モデル適応のための適応用特徴情報を出力するモデル適応手順と、前記適応用特徴情報と前記モデルとのモデル間距離を前記ラベルごとに計算する距離計算手順と、前記モデル間距離があらかじめ定められた閾値を超えるラベルを検出する検出手順と、前記検出手順での出力として一つ以上のラベルが得られた場合に、該検出されたラベルを少なくとも一つ以上含む第二の教師ラベル列を生成するラベル生成手順と、を備えることを特徴とする。

　上述の問題を解決するため、本発明に係るモデル適応プログラムは、モデルを入力データである入力特徴量の特徴に近似させることで該モデルを該入力特徴量に適応させるモデル適応プログラムであって、前記入力特徴量とその内容である第一の教師ラベル列とから各ラベルに対応するモデル適応を行い、該モデル適応のための適応用特徴情報を出力するモデル適応処理と、前記適応用特徴情報と前記モデルとのモデル間距離を前記ラベルごとに計算する距離計算処理と、前記モデル間距離があらかじめ定められた閾値を超えるラベルを検出する検出処理と、前記検出処理での出力として一つ以上のラベルが得られた場合に、該検出されたラベルを少なくとも一つ以上含む第二の教師ラベル列を生成するラベル生成処理と、をコンピュータに実行させることを特徴とする。

　以上説明したように本発明によれば、モデル適応手段が、モデル適応を行い、適応用特徴情報を出力し、距離計算手段が適応用特徴情報とモデルとのモデル間距離をラベルごとに計算し、ラベル生成手段はモデル間距離が閾値を超えるラベルを含む第二の教師ラベル列を生成することにより、効率よくモデル適応を行うことが可能となるモデル適応装置、その方法及びそのプログラムを提供することができる。

先行技術における文リスト生成方法に係る図である。本発明の第１の実施の形態に係るモデル適応装置の構成を示すブロック図である。本発明の第１の実施の形態に係るモデル適応処理を示すフローチャート図である。本発明の第１の実施の形態の実施例に係る話者適応システムの全体構成を示すブロック図である。本発明の第１の実施の形態の実施例に係る話者適応処理を示すフローチャート図である。本発明の第２の実施の形態に係るモデル適応装置の構成を示すブロック図である。本発明の第２の実施の形態の実施例に係る言語適応システムの全体構成を示すブロック図である。

１０　モデル適応装置
１１　入力手段
１２　テキストデータベース
１３　文リスト
１４　モデル適応手段
１５　モデル
１６　距離計算手段
１７　音素検出手段
１８　ラベル生成手段
１９　統計量データベース
２０　出力手段
１００　話者適応システム
１０ｂ　モデル適応部
１１０　入力手段
１２０　テキストデータベース
１３０　文リスト
１５０　音響モデル
２００　文提示手段
２１０　判定手段
２２０　モデル更新手段
２３０　出力手段
１０ｃ　モデル適応装置
１７ｂ　音素検出手段
３０　クラスデータベース
１００ｂ　言語適応システム
１０ｄ　モデル適応部

　以下、図面を参照しながら、本発明に係る実施の形態を説明する。

　［第１の実施形態］
　図２は、本発明の第１の実施の形態に係るモデル適応装置の全体の構成を示した図である。図２のモデル適応装置１０は、入力音声と発声内容の文リストとを用いて、対象となる音響モデルをこの入力音声の特徴に近似させることで、この音響モデルをこの入力音声の話者に適応させるものである。

　本実施の形態に係るモデル適応装置１０は、汎用的なコンピュータシステムであり、図示しない構成として、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、及び不揮発性記憶装置を備える。

　モデル適応装置１０は、ＣＰＵがＲＡＭ、ＲＯＭ、又は不揮発性記憶装置に格納されたＯＳ（Operating System）及びモデル適応プログラムを読み込み、モデル適応処理を実行する。これにより、対象となるモデルを入力音声の特徴に近くなるように適応することができる。なお、モデル適応装置１０は１台のコンピュータシステムである必要はなく、複数台のコンピュータシステムで構成されていてもよい。

　図２に示すように、本発明のモデル適応装置１０は、モデル適応手段１４と、距離計算手段１６と、音素検出手段１７と、ラベル生成手段１８と、統計量データベース１９とを備える。

　入力手段１１は、入力音声あるいは入力音声を音響分析した特徴量系列を入力する。

　文リスト１３は、話者が発声すべき内容、すなわち入力音声の内容を記述した複数の文を有する文集合であり、所定の音素を有する文を複数格納するテキストデータベース１２からあらかじめ選択され、構成されたものである。

　又、テキストデータベース１２における所定の音素とは、音声認識を可能とする所定の充分な量の音素をいう。

　モデル１５は、例えば音声認識に用いる音響モデルであり、例えば各音素の特徴を表す特徴量系列を持つＨＭＭ（Hidden Markov Model）である。また、モデル適応を行う技術は、公知技術として良く知られているものであるから、ここでは詳細な説明を省略する。

　モデル適応手段１４は、入力手段１１によって入力された入力特徴量である音声と、第一の教師ラベル列であって発声内容の文リスト１３と、を用いて対象となるモデル１５を入力音声に近くなるように、各音素を各ラベルとして、これらの音素に対応するモデル適応を行い、適応用特徴情報を統計量データベース１９に出力する。ここで、適応用特徴情報とは、モデル１５を入力音声に近似させるための充分統計量である。

　距離計算手段１６は、モデル適応手段１４の出力である適応用特徴情報を統計量データベース１９から取得し、当該適応用特徴情報と元のモデル１５とのモデル間距離を音響的な距離として音素ごとに計算し、各音素についての距離値を出力する。このとき、文リスト１３に出現しなかった音素については適応用特徴情報に存在しないこともあるが、その場合には距離値を０とすれば良い。

　音素検出手段１７は、距離計算手段１６の出力である各音素の距離値に対し、あらかじめ定められた閾値を超えるものがあれば、その音素を検出結果として出力する。

　ラベル生成手段１８は、音素検出手段１７で検出された音素、すなわちラベルが１つ以上あった場合に、再度モデル適応を行うために当該検出された音素を含む１つ以上の文を第二の教師ラベル列として生成する。ここで、ラベル生成においては、例えば当該検出された音素からなる任意の文を自動生成してもよいし、例えば当該検出された音素を含む文をテキストデータベース１２から選択してもよい。検出された音素が１つもなかった場合、すなわち音素検出手段１７においてすべての音素の距離値が閾値以下であった場合には、ラベル生成を行わない。すなわち、例えば、生成結果として空集合を出力する。

　ラベル生成手段１８にて生成された１つ以上の文は、モデル適応装置１０の出力となり、新たな文リストとして再度のモデル適応を行うために使用される。

　尚、テキストデータベース１２は、ネットワーク、例えばインターネット等に接続された外部のデータベースを利用してもよい。

　尚、テキストデータベース１２、文リスト１３、モデル１５、及び統計量データベース１９は、ハードディスクドライブ、光磁気ディスクドライブ、フラッシュメモリ等の不揮発性の記憶装置でもよいし、ＤＲＡＭ（Dynamic Random Access Memory）等の揮発性の記憶装置であってもよい。また、テキストデータベース１２、文リスト１３、モデル１５、及び統計量データベース１９は、モデル適応装置１０に外付けされる記憶装置であってもよい。

　＜第１の実施形態の動作＞
　次に、本実施の形態に係るモデル適応処理を図３に示すフローチャート図により説明する。まず、モデル適応装置１０は、音声を入力する（Ｓ１００）。具体的には、マイクから入力される音声波形、あるいはそれを音響分析した特徴量系列が入力として得られる。

　次に、モデル適応装置１０は、入力音声と発声内容の文リスト１３とを用いて対象となるモデル１５を入力音声に近くなるように適応を行う（Ｓ１０１）。具体的には、モデル適応装置１０のモデル適応手段１４は、ステップＳ１００で得られた入力音声の特徴量系列とその内容を表す文リスト１３とからモデル１５に対してモデル適応を行い、例えば適応用特徴情報としての充分統計量を統計量データベース１９に出力する。

　例えば、モデルとして単音素を表すMonophoneを考えた場合、文リスト１３は発声内容をMonophoneで記述した教師ラベルであればよく、モデル適応手段１４は教師ありモデル適応を行い、例えば音素/ｓ/に対してその移動ベクトルＦ（ｓ）＝（ｓ１，ｓ２，．．．，ｓｎ）と適応サンプル数（フレーム数）を適応用特徴情報として得る。

　このように特徴量系列を用いてモデルの適応を行う、例えばモデル適応の技術は、公知技術として良く知られているものであるから、ここでは詳細な説明を省略する。

　次に、モデル適応装置１０は、適応用特徴情報とモデル１５との距離を計算する（Ｓ１０２）。すなわち、入力音声とモデル１５との差分を計算することになる。具体的には、モデル適応装置１０の距離計算手段１６は、ステップＳ１０１で得られたモデル適応手段１４の出力である適応用特徴情報を統計量データベース１９から取得し、当該適応用特徴情報と元のモデル１５との距離を音素ごとに計算し、各音素についての距離値を出力する。例えば、音素/ｓ/については距離値Ｄｉｓｔ（ｓ）＝０．２、音素/ａ/については距離値Ｄｉｓｔ（ａ）＝０．７というように音素ごとに距離値が得られる。

　文リスト１３に出現しなかった音素については距離値を０とする。例えば音素/ｚ/が出現しなかった場合、Ｄｉｓｔ（ｚ）＝０．０とする。

　ベクトルとモデルとの距離を計算する技術は、公知技術として良く知られているものであるから、ここでは詳細な説明を省略する。

　次に、モデル適応装置１０は、入力音声とモデル１５との差分が大きい音素を検出する（Ｓ１０３）。具体的には、モデル適応装置１０の音素検出手段１７は、ステップＳ１０２で得られた距離計算手段１６の出力である各音素の距離値に対し、あらかじめ定められた閾値を超えるものがあれば、その音素を検出結果として出力する。

　例えば、閾値Ｄｔｈｒｅ＝０．５が設定されていた場合に、各音素の距離値が音素/ｓ/についてＤｉｓｔ（ｓ）＝０．２、音素/ａ/についてＤｉｓｔ（ａ）＝０．７であるとすると、Ｄｔｈｒｅ＞Ｄｉｓｔ（ｓ）であるがＤｔｈｒｅ＜Ｄｉｓｔ（ａ）であるので、閾値を超えている音素として音素/ａ/を検出する。もちろん、音素検出の対象は音素/ａ/や音素/ｓ/に限らず、文リスト１３に含まれるすべての音素が検出対象となりうるし、部分的に検出対象とするのでも良い。

　尚、閾値Ｄｔｈｒｅはすべての音素について同じ値を用いても良いし、音素毎に異なる閾値を用いても良い。

　次に、モデル適応装置１０は、再度モデル適応を行うための文を生成する（Ｓ１０４）。具体的には、モデル適応装置１０のラベル生成手段１８は、ステップＳ１０３で得られた音素検出手段１７で検出された検出結果に係る音素に対し、当該検出された音素を含む１つ以上の文を生成するために、例えばテキストデータベース１２から当該検出された音素を含む文を検索し、この検索で抽出された文をステップＳ１０５で出力する。例えば、音素/ａ/と音素/ｅ/が検出された場合には、音素/ａ/と音素/ｅ/を含む文をテキストデータベース１２から検索し、１つ以上存在すればそれらを出力する。

　尚、ステップＳ１０３にて検出された音素が１つもなかった場合には、ステップＳ１０４にてラベル生成を行わずに終了しても良いし、ラベル生成結果が無かった旨を出力して終了しても良い。

　尚、再度モデル適応を行う場合には、ステップ１０２の距離計算処理において、それ以前のモデル適応処理で得られた適応用特徴情報も含めてすべての充分特徴量を用いることにより、加算的なモデル適応処理を行うことが可能となる。

　尚、本実施の形態では、モデルとして単音素を表すMonophoneを用いるとしたが、音素環境依存のDiphoneモデルやTriphoneモデルを用いる場合も同様である。

　このように、本発明にかかるモデル適応装置１０は、適応対象のモデル１５に対して入力音声と第一の文リスト１３を用いたモデル適応を行い、前記入力音声の特徴に基づきモデル１５との距離の大きい音素を検出し、当該検出された音素を含む新たな文リストを生成する。

　例えば、話者Ａと話者Ｂがモデル適応を行う場合を考えたとき、話者Ａについては音素/ｓ/の距離Ｄｉｓｔ（ｓ）＝０．２、音素/ａ/の距離Ｄｉｓｔ（ａ）＝０．７であったものが、話者Ｂについては音素/ｓ/の距離Ｄｉｓｔ（ｓ）＝０．８、音素/ａ/の距離Ｄｉｓｔ（ａ）＝０．４となるなど、話者Ａと話者Ｂで異なる距離値が得られることがある。この場合、例えば同じ閾値Ｄｔｈｒｅ＝０．５を用いた場合でもラベル生成手段１８にて得られる文が異なることになる。

　同様に、同じ話者の音声を用いた場合でも、適応対象のモデルが異なれば得られる文が異なる可能性がある。すなわち、話者やモデルが異なる場合でも、より適した文リストを生成することで、効率よくモデル適応を行うことが可能になる。

　＜第１の実施形態の実施例＞
　本実施の形態に係るモデル適応装置の実施例として、以下に話者適応システムの例を説明する。図４は、本実施例にかかる話者適応システムの全体の構成を示した図である。図４に示す話者適応システム１００は、入力手段１１０と、モデル適応部１０ｂと、テキストデータベース１２０と、文リスト１３０と、音響モデル１５０と、文提示手段２００と、判定手段２１０と、モデル更新手段２２０と、出力手段２３０とを備える。

　話者適応システム１００は、汎用的なコンピュータシステムであり、図示しない構成として、ＣＰＵ、ＲＡＭ、ＲＯＭ及び不揮発性記憶装置を備える。

　話者適応システム１００は、ＣＰＵがＲＡＭ、ＲＯＭ又は不揮発性記憶装置に格納されたＯＳ及び話者適応プログラムを読み込み、話者適応処理を実行する。これにより、対象となるモデルを入力音声の特徴に近くなるように適応することができる。なお、話者適応システム１００は１台のコンピュータシステムである必要はなく、複数台のコンピュータシステムで構成されていてもよい。

　入力手段１１０は、マイクなどの入力デバイスであり、図示しない構成としてＡ／Ｄ変換手段又は音響分析手段を含んでも良い。

　テキストデータベース１２０は、充分な量の音素及び音素における環境その他バリエーションを充分に含む文の集合である。

　文リスト１３０は、話者適応処理に用いる教師ラベルであり、テキストデータベース１２０から抽出された１つ以上の文からなる文の集合である。

　音響モデル１５０は、例えば各音素の特徴を表す特徴量系列を持つＨＭＭ（Hidden Markov Model）である。

　文提示手段２００は、話者適応を行うために話者に教師ラベル、すなわち発声すべき文リストを提示するものである。

　モデル適応部１０ｂは、図２のモデル適応装置１０に対応するものである。そのため、以下では、図２との違いを中心に説明し、図２と対応し同様の機能を有する構成については、説明を省略する。

　ラベル生成手段１８は、音素検出手段１７で検出された音素が１つ以上あった場合に、再度モデル適応を行うために当該検出された音素を含む１つ以上の文を生成し、判定手段２１０に通知する。検出された音素が１つも無かった場合には、その旨を判定手段２１０に通知する。

　判定手段２１０は、ラベル生成手段１８の出力を受け取り、文が生成された場合にはその文を新たな適応文リストとする。文が生成されなった場合には、その旨をモデル更新手段２２０に通知する。

　モデル更新手段２２０は、判定手段２１０から文が生成されなかった旨の通知を受けた場合に、統計量データベース１９から受け取る適応用特徴情報を音響モデル１５０に適用し、適応後音響モデルを得る。

　更に出力手段２３０では、モデル更新手段２２０で得られた適応後音響モデルを出力する。尚、話者適応におけるモデル更新に関する技術は、公知技術としてよく知られているものであるから、ここでは詳細な説明を省略する。

　尚、テキストデータベース１２０は、ネットワーク、例えばインターネット等に接続された外部のデータベースを利用してもよい。

　テキストデータベース１２０、文リスト１３０、モデル１５０、及び統計量データベース１９は、ハードディスクドライブ、光磁気ディスクドライブ、フラッシュメモリ等の不揮発性の記憶装置でもよいし、ＤＲＡＭ等の揮発性の記憶装置であってもよい。又、テキストデータベース１２０、文リスト１３０、モデル１５０、及び統計量データベース１９は、話者適応システム１００に外付けされる記憶装置であってもよい。

　＜第１の実施形態の実施例の動作＞
　次に、本実施例に係る話者適応処理の全体の流れを、図５に示すフローチャートにより説明する。まず、話者適応システム１００は、音声を入力する（Ｓ２００）。具体的には、話者適応システム１００は、入力手段１１０によってマイクから入力される音声波形、あるいはそれを音響分析した特徴量系列が入力として得られる。

　次に、話者適応システム１００は、モデル適応処理を実行する（Ｓ２０１）。具体的には、話者適応システム１００のモデル適応部１０ｂにおけるモデル適応手段１４、距離計算手段１６、音素検出手段１７及びラベル生成手段１８により、図３に示すようなモデル適応処理が行われる。

　次に、話者適応システム１００は、モデル適応処理において文が出力されたかどうかを判定する（Ｓ２０２）。具体的には、話者適応システム１００の判定手段２１０により、ステップＳ２０１のモデル適応処理の結果、文が出力された場合には出力された文を新たな文リストとする。

　新たな文リストは、話者適応システム１００によって話者に再度提示される（Ｓ２０３）。具体的には、話者適応システム１００の文提示手段２００により、新たな文リストを話者適応の教師ラベルとして話者に提示し、新たな音声入力を受け付け、ステップＳ２００の音声入力からの処理を繰り返す。

　すなわち、モデル適応手段１４は、新たな文リストに基づく音声入力と新たな文リストとを用いて再度のモデル適応を行い、再度の適応用特徴情報を出力し、統計量データベース１９は、再度の適応用特徴情報を格納し、距離計算手段１６は、再度の適応用特徴情報を統計量データベース１９から取得し、再度の適応用特徴情報と音響モデルとの距離を音素ごとに計算し、各音素についての再度の距離値を出力し、音素検出手段１７は、再度の距離値のうち予め定められた閾値を超えるものが存在する場合、該閾値を超えるものを再度の検出結果として出力し、ラベル生成手段１８は、再度の検出結果に係る音素を含む文をテキストデータベース１２０から検索し、この検索で抽出された文を出力する。

　文が出力されなかった場合には、判定手段２１０は、その旨をモデル更新手段２２０に通知する。

　次に、話者適応システム１００は、ステップＳ２０２の判定処理の結果、文が生成されなかった場合には、モデル更新処理を実行する（Ｓ２０４）。具体的には、話者適応システム１００のモデル更新手段２２０により、統計量データベース１９から受け取る適応用特徴情報を音響モデル１５０に適用し、適応後音響モデルを得る。その後、出力手段２３０は、得られた適応後音響モデルを話者適応音響モデルとして出力する（Ｓ２０５）。

　このように、本実施例では、話者が適応したい音響モデルに対して距離の大きい音素を重点的に用いた話者適応が行われるため、効率の良い話者適応を実現することができる。

　また、本実施例では、すべての必要な音素について距離計算結果が閾値以下であった場合にはそれ以降の適応処理を行わないようにすることができる。すなわち、音響モデルに充分近づいたと判断できた場合には適応処理を止めることができるため、話者適応を止める判断基準を与えることが可能となる。

　尚、本実施例では、適応用特徴情報として充分統計量を用い、当該適応用特徴情報と元のモデルとの距離を計算するとしたが、適応後のモデルと元のモデルとの距離を計算する場合も同様である。この場合には二つのモデル間の距離を計算すればよく、モデル間の距離を計算する技術は公知技術として良く知られているものであるから、ここでは説明を省略する。

　本実施例では、音響モデルを話者に適応する話者適応の例を示したが、例えば方言の違いに適応する場合であっても、例えば言語の違いに適応する場合であっても、同様である。方言に適応する場合には、例えば同じ関西弁を発声する複数の話者の音声により適応すれば良いし、言語に適応する場合には、例えば同じ日本人訛り英語を発声する複数の話者の音声により適応すれば良い。

　又、本実施例では教師あり話者適応の例を示したが、音声認識結果をそのまま教師ラベルとして用いる教師なし話者適応の場合でも同様であるし、入力音声と音響モデルとの距離を直接求める場合でも同様である。

　［第２の実施形態］
　以下、図面を参照しながら、本発明の第２の実施の形態について詳細に説明する。本実施の形態は、第１の実施の形態に比べ、クラスデータベースを用いることにより、少ない文リストでも話者適応の効率を高めるものである。

　ここで、クラスデータベースとは、事前に多数の音声データにより構築しておくデータベースであり、例えば第１の実施の形態によるモデル適応処理を複数の話者によって実行し、その音素別の距離計算結果をクラス化したデータベースである。

　例えば、音素/ｐ/の距離値と音素/ｄ/の距離値がともに大きい話者であれば音素/ｔ/の距離値も大きいといった話者の違いによる音素別距離値の偏りをクラス化することで、ある入力音声に対して音素/ｐ/と音素/ｄ/の距離値が閾値以上という結果が得られた場合に、同じクラスに属する音素/ｔ/についても、それが元の文リストに出現しなかった音素であってもラベル生成の対象とすることが可能になる。

　図６は、第２の実施の形態に係るモデル適応装置の全体の構成を示した図である。図６のモデル適応装置１０ｃは、入力音声と発声内容の文リストとを用いて、対象となるモデルを入力音声の特徴に近くなるように適応するものである。

　本発明のモデル適応装置１０ｃは、汎用的なコンピュータシステムであり、図示しない構成として、ＣＰＵ、ＲＡＭ、ＲＯＭ、及び不揮発性記憶装置を備える。モデル適応装置１０ｃは、ＣＰＵがＲＡＭ、ＲＯＭ又は不揮発性記憶装置に格納されたＯＳ及びモデル適応プログラムを読み込み、モデル適応処理を実行する。これにより、対象となるモデルを入力音声の特徴に近くなるように適応することができる。なお、モデル適応装置１０ｃは１台のコンピュータシステムである必要はなく、複数台のコンピュータシステムで構成されていてもよい。

　図６に示すように、本発明のモデル適応装置１０ｃは、モデル適応手段１４と、距離計算手段１６と、音素検出手段１７ｂと、ラベル生成手段１８と、統計量データベース１９と、クラスデータベース３０とを備える。ここで、モデル適応手段１４と、距離計算手段１６と、ラベル生成手段１８と、統計量データベース１９とは、図２と同様のため、説明を省略する。以下では、図２との違いについてのみ説明する。

　音素検出手段１７ｂは、距離計算手段１６の出力である各音素の距離値に対し、あらかじめ定められた閾値を超えるものがあれば、その音素を検出結果として出力する。同時に、クラスデータベース３０を参照し、閾値を超えた音素あるいは音素の組合せに対して、同じクラスに属する音素もあわせて検出結果として出力する。

　クラスデータベース３０は、音素又は音素の組合せをクラス化した情報を持つデータベースであり、例えば音素/ｐ/と音素/ｂ/と音素/ｔ/と音素/ｄ/が同じクラスに属することで、例えばこれらのうち２つ以上が検出結果として得られた場合には残りも検出結果とする。又は所定の音素の組合せによって別の所定の音素も検出結果とするようなルールを記述したものでも良い。

　尚、クラスデータベース３０は、ハードディスクドライブ、光磁気ディスクドライブ、フラッシュメモリ等の不揮発性の記憶装置でもよいし、ＤＲＡＭ等の揮発性の記憶装置であってもよい。また、クラスデータベース３０は、モデル適応装置１０ｃに外付けされる記憶装置であってもよい。

　＜第２の実施形態の動作＞
　次に、本実施の形態に係るモデル適応処理を説明する。ここで、本実施の形態は、図３におけるステップＳ１０３の音素検出処理以外は、図３と同様のため、説明を省略する。

　モデル適応装置１０ｃは、ステップＳ１０３において、入力音声とモデル１５との差分が大きい音素を検出する。具体的には、モデル適応装置１０ｃの音素検出手段１７ｂは、ステップＳ１０２で得られた距離計算手段１６の出力である各音素の距離値に対し、あらかじめ定められた閾値を超えるものがあれば、その音素を検出結果として出力する。同時に、クラスデータベース３０を参照し、閾値を超えた音素又は音素の組合せに対して、同じクラスに属する音素もあわせて検出結果として出力する。例えば、閾値Ｄｔｈｒｅ＝０．６が設定されていた場合に、各音素の距離値が音素/ｐ/についてＤｉｓｔ（ｐ）＝０．７、音素/ｄ/についてＤｉｓｔ（ｄ）＝０．９であるとすると、閾値を超えている音素として音素/ｐ/と音素/ｄ/を検出する。

　同時にクラスデータベース３０を参照し、クラスデータベース３０において音素/ｐ/と音素/ｂ/と音素/ｔ/と音素/ｄ/が同じクラスに属していた場合、音素/ｐ/と音素/ｄ/が検出されたことから、音素/ｔ/と音素/ｂ/も検出する。

　尚、閾値Ｄｔｈｒｅはすべての音素について同じ値を用いても良いし、音素によって違う閾値を用いても良いし、クラスデータベース３０に存在するクラスによって違う閾値を用いても良い。

　このように、本実施の形態にかかるモデル適応装置１０ｃは、適応対象のモデル１５に対して入力音声と第一の文リスト１３を用いたモデル適応を行う際に、クラスデータベース３０を用いることで、文リスト１３には存在しなかった音素も検出することが可能となる。すなわち、文リスト１３が少ない場合でも、適した文リストを生成することで、効率よくモデル適応を行うことが可能になる。

　＜第２の実施形態の実施例＞
　本発明の第２の実施の形態に係るモデル適応装置の実施例として、以下に言語適応システムの例を説明する。図７は、本実施例にかかる言語適応システムの全体の構成を示した図である。図７に示す言語適応システム１００ｂは、入力手段１１０と、モデル適応部１０ｄと、テキストデータベース１２０と、文リスト１３０と、音響モデル１５０と、文提示手段２００と、判定手段２１０と、モデル更新手段２２０と、出力手段２３０とを備える。

　言語適応システム１００ｂは、汎用的なコンピュータシステムであり、図示しない構成として、ＣＰＵ、ＲＡＭ、ＲＯＭ及び不揮発性記憶装置を備える。言語適応システム１００ｂは、ＣＰＵがＲＡＭ、ＲＯＭ、又は不揮発性記憶装置に格納されたＯＳ及び言語適応プログラムを読み込み、言語適応処理を実行する。これにより、対象となるモデルを入力音声の特徴に近くなるように適応することができる。なお、言語適応システム１００ｂは１台のコンピュータシステムである必要はなく、複数台のコンピュータシステムで構成されていてもよい。

　ここで、入力手段１１０と、テキストデータベース１２０と、文リスト１３０と、音響モデル１５０と、文提示手段２００と、判定手段２１０と、モデル更新手段２２０と、出力手段２３０とは、図４と同様のため、説明を省略する。以下では、図４との違いについてのみ説明する。

　モデル適応部１０ｄは、図４のモデル適応部１０ｂが置き換わったものであり、図６のモデル適応装置１０ｃに対応するものである。そのため、以下では、図６との違いを中心に説明し、図６と対応し同様の機能を有する構成については、説明を省略する。

　ラベル生成手段１８ｂは、音素検出手段１７ｂで検出された音素が１つ以上あった場合に、再度モデル適応を行うために当該検出された音素を含む１つ以上の文を生成し、判定手段２１０に通知する。検出された音素が１つも無かった場合には、その旨を判定手段２１０に通知する。

　判定手段２１０は、ラベル生成手段１８の出力を受け取り、文が生成された場合にはその文を新たな適応文リストとする。文が生成されなった場合には、その旨モデル更新手段２２０に通知する。

　テキストデータベース１２０、文リスト１３０、モデル１５０、統計量データベース１９及びクラスデータベース３０は、ハードディスクドライブ、光磁気ディスクドライブ、フラッシュメモリ等の不揮発性の記憶装置でもよいし、ＤＲＡＭ等の揮発性の記憶装置であってもよい。

　又、テキストデータベース１２０、文リスト１３０、モデル１５０、統計量データベース１９及びクラスデータベース３０は、言語適応システム１００ｂに外付けされる記憶装置であってもよい。

　＜第２の実施形態の実施例の動作＞
　次に、本実施例に係る言語適応処理を説明する。ここで、本実施例は、図５におけるステップＳ２０１のモデル適応処理以外は、図５と同様のため、説明を省略する。

　言語適応システム１００ｂは、ステップＳ２０１において、モデル適応処理を実行する。具体的には、言語適応システム１００ｂのモデル適応部１０ｄにおけるモデル適応手段１４、距離計算手段１６、音素検出手段１７ｂ、ラベル生成手段１８ｂにより、図３に示すようなモデル適応処理が行われる。

　ここで、クラスデータベース３０に、複数の話者からなる話者群から抽出した関西訛りの日本語話者のデータとして、例えば音素/ｉ:/（:は長母音記号）と音素/ｕ:/と音素/ｅ:/が同じクラスに属していたとする。ここで、標準語の日本語（東京方言）の音響モデルに対して、関西訛りの日本語話者が言語適応を行う場合、距離計算手段１６にて音素/ｉ:/が検出されたとすると、音素検出手段１７ｂにおいて、クラスデータベースを参照し、同じクラスに属する音素/ｕ:/と音素/ｅ:/も検出し、ラベル生成手段１８ｂにおいて、音素/ｉ:/と音素/ｕ:/と音素/ｅ:/を含んだ文を生成する。

　このように、本実施例では、話者が適応したい言語に対してモデルとの距離が大きい音素のクラス、例えば関西訛りの日本語話者に共通する音素を重点的に用いた適応が行われるため、第一の文リストが少ない場合でも効率の良い言語適応を実現することができる。

　尚、本実施例では、音響モデルを言語に適応する言語適応の例として、方言の例を示したが、例えば言語の違い、すなわち日本語と英語、あるいは日本人訛りの英語に適応する場合であっても、同様である。また、同じ言語あるいは方言の中で、特定の話者に適応する話者適応の場合も同様である。

　以上のように、本発明により得られる適応後音響モデルは、音声認識に用いることで高い認識精度が期待できる。同様に、話者照合に用いることで高い照合精度が期待できる。

　近年、音声認識・話者照合の技術を用いた製品において、高い精度が期待されることがある。本発明は、このような状況に適用可能である。

　なお、上記のモデル適応装置及び方法は、ハードウェア、ソフトウェア又はこれらの組合せにより実現することができる。

　例えば、上記のモデル適応装置は、ハードウェアによって実現することもできるが、コンピュータをそのシステムとして機能させるためのプログラムを、コンピュータが記録媒体から読み出して、実行することによっても実現することができる。

　また、上記のモデル適応方法は、ハードウェアによって実現することもできるが、コンピュータにその方法を実行させるためのプログラムを、コンピュータがコンピュータ読みと取り可能な記録媒体から読み出して、実行することによっても実現することができる。

　また、上述したハードウェア、ソフトウェア構成は特に限定されるものではなく、上述した各手段の機能を実現可能であれば、いずれのものでも適用可能である。例えば、上述した各手段の機能毎に個別に構成したものでも、各手段の機能を一体的に構成したものでも、いずれでもよい。

　以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２００８年１０月３１日に出願された日本出願特願２００８－２８１３８７号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本発明は、音声認識・話者照合技術を用いた音声入力・認証サービス等の用途に適用できる。

Claims

　モデルを入力データである入力特徴量の特徴に近似させることで該モデルを該入力特徴量に適応させるモデル適応装置であって、
　前記入力特徴量とその内容である第一の教師ラベル列とから各ラベルに対応するモデル適応を行い、該モデル適応のための適応用特徴情報を出力するモデル適応手段と、
　前記適応用特徴情報と前記モデルとのモデル間距離を前記ラベルごとに計算する距離計算手段と、
　前記モデル間距離があらかじめ定められた閾値を超えるラベルを検出する検出手段と、
　前記検出手段の出力として一つ以上のラベルが得られた場合に、該検出されたラベルを少なくとも一つ以上含む第二の教師ラベル列を生成するラベル生成手段と、
　を備えることを特徴とするモデル適応装置。
　音声認識に用いる音響モデルを入力音声の特徴に近似させることで該音響モデルを該入力音声の話者に適応させるモデル適応によるモデル適応装置であって、
　所定の音素を有する文を複数格納するテキストデータベースと、
　前記入力音声の内容を記述した複数の文を有する文リストと、
　前記入力音声が入力される入力手段と、
　前記入力音声と前記文リストとを用いて前記モデル適応を行い、前記音響モデルを前記入力音声に近似させるための充分統計量である適応用特徴情報を出力するモデル適応手段と、
　前記適応用特徴情報を格納する統計量データベースと、
　前記適応用特徴情報と前記音響モデルとの音響的な距離を音素ごとに計算し、各音素についての距離値を出力する距離計算手段と、
　前記距離値のうち予め定められた閾値を超えるものが存在する場合、該閾値を超えるものを検出結果として出力する音素検出手段と、
　前記検出結果に係る音素を含む文を前記テキストデータベースから検索し、該検索で抽出された文を出力するラベル生成手段と、
　を備えることを特徴とするモデル適応装置。
　前記ラベル生成手段が前記検索で文を出力した場合は、該文を新たな文リストとし、前記ラベル生成手段が該文を出力しなかった場合は、その旨を通知する判定手段と、
　前記判定手段から前記文が出力されなかった旨の通知を受けた場合に、前記統計量データベースから前記適応用特徴情報を取得し、これを前記音響モデルに適用することで適応後音響モデルを得るモデル更新手段と、
　前記適応後音響モデルを出力する出力手段と、
　前記文リスト及び前記新たな文リストを提示する文提示手段と、
　を更に備え、
　前記モデル適応手段は、前記新たな文リストに基づく音声入力と前記新たな文リストとを用いて再度のモデル適応を行い、再度の適応用特徴情報を出力し、
　前記距離計算手段は、前記再度の適応用特徴情報と前記音響モデルとの距離を音素ごとに計算し、各音素についての再度の距離値を出力し、
　前記音素検出手段は、前記再度の距離値のうち前記閾値を超えるものが存在する場合、前記閾値を超えるものを再度の検出結果として出力し、
　前記ラベル生成手段は、前記再度の検出結果に係る音素を含む文を前記テキストデータベースから検索し、該検索で抽出された文を出力することを特徴とする請求項２に記載のモデル適応装置。
　前記音素検出手段は、音素毎に異なる閾値を用いることを特徴とする請求項２又は３に記載のモデル適応装置。
　音素又は音素の組合せをクラス化した情報を格納するクラスデータベースを更に備え、
　前記音素検出手段は、前記クラスデータベースを参照し、前記距離計算手段の出力である各音素の距離値のうち前記閾値を超えるものがあれば、前記閾値を超えた音素と同じクラスに属する音素も検出結果として出力することを特徴とする請求項２乃至４のいずれか１項に記載のモデル適応装置。
　前記入力音声には、音声及び該音声を音響分析した特徴量系列のデータが含まれることを特徴とする請求項２乃至５のいずれか１項に記載のモデル適応装置。
　モデルを入力データである入力特徴量の特徴に近似させることで該モデルを該入力特徴量に適応させるモデル適応方法であって、
　前記入力特徴量とその内容である第一の教師ラベル列とから各ラベルに対応するモデル適応を行い、該モデル適応のための適応用特徴情報を出力するモデル適応手順と、
　前記適応用特徴情報と前記モデルとのモデル間距離を前記ラベルごとに計算する距離計算手順と、
　前記モデル間距離があらかじめ定められた閾値を超えるラベルを検出する検出手順と、
　前記検出手順での出力として一つ以上のラベルが得られた場合に、該検出されたラベルを少なくとも一つ以上含む第二の教師ラベル列を生成するラベル生成手順と、
　を備えることを特徴とするモデル適応方法。
　音声認識に用いる音響モデルを入力音声の特徴に近似させることで該音響モデルを該入力音声の話者に適応させるモデル適応によるモデル適応方法であって、
　前記入力音声が入力される入力手順と、
　前記入力音声と前記入力音声の内容を記述した複数の文を有する文リストとを用いて前記モデル適応を行い、前記音響モデルを前記入力音声に近似させるための充分統計量である適応用特徴情報を出力するモデル適応手順と、
　前記適応用特徴情報を統計量データベースに格納する手順と、
　前記適応用特徴情報と前記音響モデルとの音響的な距離を音素ごとに計算し、各音素についての距離値を出力する距離計算手順と、
　前記距離値のうち予め定められた閾値を超えるものが存在する場合、該閾値を超えるものを検出結果として出力する音素検出手順と、
　前記検出結果に係る音素を含む文を所定の音素を有する文を複数格納するテキストデータベースから検索し、該検索で抽出された文を出力するラベル生成手順と、
　を備えることを特徴とするモデル適応方法。
　前記ラベル生成手順が前記検索で文を出力した場合は、該文を新たな文リストとし、前記ラベル生成手順が該文を出力しなかった場合は、その旨を通知する判定手順と、
　前記判定手順から前記文が出力されなかった旨の通知を受けた場合に、前記統計量データベースから前記適応用特徴情報を取得し、これを前記音響モデルに適用することで適応後音響モデルを得るモデル更新手順と、
　前記適応後音響モデルを出力する出力手順と、
　前記文リスト及び前記新たな文リストを提示する文提示手順と、
　を更に備え、
　前記モデル適応手順は、前記新たな文リストに基づく音声入力と前記新たな文リストとを用いて再度のモデル適応を行い、再度の適応用特徴情報を出力し、
　前記距離計算手順は、前記再度の適応用特徴情報と前記音響モデルとの距離を音素ごとに計算し、各音素についての再度の距離値を出力し、
　前記音素検出手順は、前記再度の距離値のうち前記閾値を超えるものが存在する場合、前記閾値を超えるものを再度の検出結果として出力し、
　前記ラベル生成手順は、前記再度の検出結果に係る音素を含む文を前記テキストデータベースから検索し、該検索で抽出された文を出力することを特徴とする請求項８に記載のモデル適応方法。
　前記音素検出手順は、音素毎に異なる閾値を用いることを特徴とする請求項８又は９に記載のモデル適応方法。
　音素又は音素の組合せをクラス化した情報をクラスデータベースに格納する手順を更に備え、
　前記音素検出手順は、前記クラスデータベースを参照し、前記距離計算手順の出力である各音素の距離値のうち前記閾値を超えるものがあれば、前記閾値を超えた音素と同じクラスに属する音素も検出結果として出力することを特徴とする請求項８乃至１０のいずれか１項に記載のモデル適応方法。
　前記入力音声には、音声及び該音声を音響分析した特徴量系列のデータが含まれることを特徴とする請求項８乃至１１のいずれか１項に記載のモデル適応方法。
　モデルを入力データである入力特徴量の特徴に近似させることで該モデルを該入力特徴量に適応させるモデル適応プログラムであって、
　前記入力特徴量とその内容である第一の教師ラベル列とから各ラベルに対応するモデル適応を行い、該モデル適応のための適応用特徴情報を出力するモデル適応処理と、
　前記適応用特徴情報と前記モデルとのモデル間距離を前記ラベルごとに計算する距離計算処理と、
　前記モデル間距離があらかじめ定められた閾値を超えるラベルを検出する検出処理と、
　前記検出処理での出力として一つ以上のラベルが得られた場合に、該検出されたラベルを少なくとも一つ以上含む第二の教師ラベル列を生成するラベル生成処理と、
　をコンピュータに実行させることを特徴とするモデル適応プログラム。
　音声認識に用いる音響モデルを入力音声の特徴に近似させることで該音響モデルを該入力音声の話者に適応させるモデル適応によるモデル適応プログラムであって、
　前記入力音声が入力される入力処理と、
　前記入力音声と前記入力音声の内容を記述した複数の文を有する文リストとを用いて前記モデル適応を行い、前記音響モデルを前記入力音声に近似させるための充分統計量である適応用特徴情報を出力するモデル適応処理と、
　前記適応用特徴情報を統計量データベースに格納する処理と、
　前記適応用特徴情報と前記音響モデルとの音響的な距離を音素ごとに計算し、各音素についての距離値を出力する距離計算処理と、
　前記距離値のうち予め定められた閾値を超えるものが存在する場合、該閾値を超えるものを検出結果として出力する音素検出処理と、
　前記検出結果に係る音素を含む文を所定の音素を有する文を複数格納するテキストデータベースから検索し、該検索で抽出された文を出力するラベル生成処理と、
　をコンピュータに実行させることを特徴とするモデル適応プログラム。
　前記ラベル生成処理が前記検索で文を出力した場合は、該文を新たな文リストとし、前記ラベル生成処理が該文を出力しなかった場合は、その旨を通知する判定処理と、
　前記判定処理から前記文が出力されなかった旨の通知を受けた場合に、前記統計量データベースから前記適応用特徴情報を取得し、これを前記音響モデルに適用することで適応後音響モデルを得るモデル更新処理と、
　前記適応後音響モデルを出力する出力処理と、
　前記文リスト及び前記新たな文リストを提示する文提示処理と、
　を更にコンピュータに実行させ、
　前記モデル適応処理は、前記新たな文リストに基づく音声入力と前記新たな文リストとを用いて再度のモデル適応を行い、再度の適応用特徴情報を出力し、
　前記距離計算処理は、前記再度の適応用特徴情報と前記音響モデルとの距離を音素ごとに計算し、各音素についての再度の距離値を出力し、
　前記音素検出処理は、前記再度の距離値のうち前記閾値を超えるものが存在する場合、前記閾値を超えるものを再度の検出結果として出力し、
　前記ラベル生成処理は、前記再度の検出結果に係る音素を含む文を前記テキストデータベースから検索し、該検索で抽出された文を出力することを特徴とする請求項１４に記載のモデル適応プログラム。
　前記音素検出処理は、音素毎に異なる閾値を用いることを特徴とする請求項１４又は１５に記載のモデル適応プログラム。
　音素又は音素の組合せをクラス化した情報をクラスデータベースに格納する処理を更にコンピュータに実行させ、
　前記音素検出処理は、前記クラスデータベースを参照し、前記距離計算処理の出力である各音素の距離値のうち前記閾値を超えるものがあれば、前記閾値を超えた音素と同じクラスに属する音素も検出結果として出力することを特徴とする請求項１４乃至１６のいずれか１項に記載のモデル適応プログラム。
　前記入力音声には、音声及び該音声を音響分析した特徴量系列のデータが含まれることを特徴とする請求項１４乃至１７のいずれか１項に記載のモデル適応プログラム。