JPWO2012105231A1

JPWO2012105231A1 - モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム

Info

Publication number: JPWO2012105231A1
Application number: JP2012555747A
Authority: JP
Inventors: 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2011-02-03
Filing date: 2012-01-31
Publication date: 2014-07-03
Anticipated expiration: 2032-01-31
Also published as: WO2012105231A1; US20130317822A1; JP5861649B2

Abstract

認識手段８１は、認識対象のデータが想定する条件である目的ドメインに沿ったデータを、少なくとも２つのモデルとその各モデルが認識処理に与える重み値を示す重み係数の候補とを基に認識した認識結果を生成する。重み係数決定手段８３は、各モデルの信頼度が高いほど重み値が小さくなるように重み係数を決定する。モデル更新手段８２は、認識結果を教師ラベルとして、モデルのうち少なくとも１つ以上のモデルを更新する。

Description

本発明は、教師ラベルが付与されていないデータを用いてモデルの適応化を行う、いわゆる教師なし適応化を行うモデル適応化装置、モデル適応化方法およびモデル適応化用プログラムに関する。

非特許文献１には、音響モデルおよび言語モデルの教師なし適応を改善する方法が記載されている。非特許文献１に記載された方法では、音響モデルの教師なし適応として最尤線形回帰法（ＭＬＬＲ法：Maximum Likelihood Linear Regression）が用いられる。また、ベースラインとなる単語Ｎ−ｇｒａｍと品詞Ｎ−ｇｒａｍとを線形補間した適応モデルを構築することにより言語モデルが構築される。

なお、各種の計算方法として、非特許文献２には、動的計画法に基づく計算方法が記載されている。また、特許文献１および非特許文献３には、最急勾配法による反復解法が記載されている。

再表ＷＯ２００８／１０５２６３号

草間、奥山、加藤、小坂著「講演音声認識における教師なし適応の改善」電子情報通信学会技術報告書(SP)、2007年6月28日、第107巻、第116号、SP2007-20、p.73−78 F. Wessel, R. Schluter, K. Macherey, H. Ney, "Confidence measures for large vocabulary continuous speech recognition," IEEE Transactions on Speech and Audio Processing, Vol.9, No.3, pp.288-298, Mar 2001. T. Emori, Y. Onishi, K. Shinoda, "Automatic Estimation of Scaling Factors Among Probabilistic Models in Speech Recognition," Proc. of INTERSPEECH2007, pp.1453-1456, 2007.

図８は、非特許文献１に記載された方法に基づいて、音声認識に使用するモデルを適応化する一般的なモデル適応化装置の例を示すブロック図である。図８に例示するモデル適応化装置は、音声データ記憶手段２０１と、教師ラベル記憶手段２０２と、音響モデル記憶手段２０３と、言語モデル記憶手段２０４と、音声認識手段２０５と、音響モデル更新手段２０６と、言語モデル更新手段２０７とを備えている。

音声データ記憶手段２０１は音声データを記憶する。音響モデル記憶手段２０３は音響モデルを記憶する。また、言語モデル記憶手段２０４は、言語モデルを記憶する。音声認識手段２０５は、音声データ記憶手段２０１に記憶された音声データを読み出すと、音響モデル記憶手段２０３に記憶された音響モデルおよび言語モデル記憶手段２０４に記憶された言語モデルをそれぞれ参照して音声認識を行い、音声認識結果を教師ラベル記憶手段２０２に書き込む。

音響モデル更新手段２０６は、音響モデル記憶手段２０３から音響モデルを読み出すとともに、音声データ記憶手段２０１に記憶された音声データおよび教師ラベル記憶手段２０２に記憶された認識結果（すなわち、教師ラベル）をそれぞれ読み出す。そして、音響モデル更新手段２０６は、音声データの音響的条件に適合するように音響モデルの適応化を行い、適応化された音響モデルを音響モデル記憶手段２０３に記憶させる。

言語モデル更新手段２０７は、言語モデル記憶手段２０４から言語モデルを読み出すとともに、教師ラベル記憶手段２０２に記憶された認識結果（すなわち、教師ラベル）を読み出す。そして、言語モデル更新手段２０７は、認識結果の言語的条件に適合するように言語モデルの適応化を行い、適応化された言語モデルを言語モデル記憶手段２０４に記憶させる。なお、音声認識、音響モデル更新および言語モデル更新の一連の処理は、任意の順序、任意の回数で反復実行することが可能である。

また、上記説明では、音声認識に使用する音響モデルと言語モデルを適応化する方法に、上述するモデル適応化装置を使用する場合を例示した。モデルを適応化するこのようなモデル適応化技術は、音声認識に限らず、種々のパターン認識に用いることが可能である。例えば、光学的文字読取（ＯＣＲ）装置における文字画像モデルや言語モデル、ジェスチャ認識システムなどに用いられる映像イベント検出装置における映像イベントモデルや、イベント言語モデルなどの適応化に、上記モデル適応化技術を用いることができる。

しかし、上述する一般的なモデル適応化装置を用いて音声認識を行う際に、音声認識の結果が多くの誤りを含んでいたとする。この場合、音響モデルの更新処理および言語モデルの更新処理で、高い認識精度を達成するために必要な音響モデルおよび言語モデルを生成できないという問題がある。なぜならば、誤った認識結果というノイズを含んだ教師ラベルを用いてモデルを適応化させても、目的の音声データに十分に適合したモデルが得られないからである。

モデルの適応化とは、想定する音響的な条件、言語的な条件といった各種条件（以下、このような条件をドメインと記す。）が認識対象データのドメインと異なる場合に、元のドメイン（以下、原ドメインと記す。）のモデルを、認識対象のドメイン（以下、目的ドメインと記す。）に適合するように変換する手続きである。

図９は、モデルの適応化による変換手続きを概念的に示した説明図である。音響モデルを規定するパラメタ一式をθ_ＡＭ、言語モデルを規定するパラメタ一式をθ_ＬＭとすると、原ドメインＳのモデルは、θ_ＡＭおよびθ_ＬＭで規定されるモデル空間上の点Ｓに対応する。ここで、モデル空間上の点Ｔが目的ドメインＴのモデルに対応する場合、モデルの適応化とは、音響モデルと言語モデルの対を点Ｓから点Ｔに移す手続きといえる。

以下、簡単な例を挙げて説明する。原ドメインＳを、「音響的な条件＝静かな環境、言語的な条件＝政治の話題」とし、目的ドメインＴを、「音響的な条件＝うるさい環境、言語的な条件＝スポーツの話題」とする。この場合、原ドメインＳの音響モデルおよび言語モデルは、静かな環境で話される状況で政治の話題に関する音声を認識することを想定したモデルと言える。

しかし、認識しようとする対象が、うるさい環境で話されるスポーツの話題の場合、認識しようとする対象と原ドメインＳのモデルとの間にドメインの不一致（ミスマッチ）がある。そのため、このような対象に原ドメインＳを用いるのは適切でなく、この原ドメインＳを用いた場合には、正確な音声認識ができない。そこで、このミスマッチを解消し、正確な音声認識ができるように、モデルをＳからＴへ変換する処理がモデルの適応化である。

なお、音響的な条件には、例示した雑音の他、話者や音声伝送時の回線品質などの条件も含まれる。また、言語的な条件には、例示した話題の他、話者や音声伝送時の回線品質なども含まれ、話題の他にも、語彙や話し方（文語的、口語的）などの条件も含まれる。これらの様々な条件が、ドメインを規定する要素となり得る。

このように、モデルの適応化では、原ドメインと目的ドメインが異なるという前提がある。すなわち、原ドメインと目的ドメインとの間でミスマッチがなければ適応化の必要はないが、両者の間にミスマッチがある場合には適応化の必要があると言える。一方、ミスマッチがある以上、モデルの適応化に必要な教師ラベルには、認識誤りを示すノイズが混入する可能性がある。特に、原ドメインと目的ドメインが大きく異なる場合、教師ラベルには多くの認識誤りが含まれるため、適応化によって良好なモデルを得ることが難しくなる。

そこで、本発明は、元のドメインと目的ドメインとの間に差異があり、元のドメインに基づいて生成される教師ラベルに認識誤りを示すノイズが多数混入する場合でも、目的ドメインのデータから良好なモデルを生成できるモデル適応化装置、モデル適応化方法およびモデル適応化用プログラムを提供することを目的とする。

本発明によるモデル適応化装置は、認識対象のデータが想定する条件である目的ドメインに沿ったデータを、少なくとも２つのモデルとその各モデルが認識処理に与える重み値を示す重み係数の候補とを基に認識した認識結果を生成する認識手段と、認識結果を教師ラベルとして、モデルのうち少なくとも１つ以上のモデルを更新するモデル更新手段と、重み係数を決定する重み係数決定手段とを備え、重み係数決定手段が、各モデルの信頼度が高いほど重み値が小さくなるように重み係数を決定し、認識手段が、重み係数決定手段が決定した重み係数を基に認識結果を生成し、モデル更新手段が、重み係数に基づいて生成された認識結果を教師ラベルとして、モデルを更新することを特徴とする。

本発明によるモデル適応化方法は、認識対象のデータが想定する条件である目的ドメインに沿ったデータを、少なくとも２つのモデルとその各モデルが認識処理に与える重み値を示す重み係数の候補とを基に認識した認識結果を生成し、各モデルの信頼度が高いほど重み値が小さくなるように重み係数を決定し、決定された重み係数を基に認識結果を生成し、認識結果を教師ラベルとして、モデルのうち少なくとも１つ以上のモデルを更新することを特徴とする。

本発明によるモデル適応化用プログラムは、コンピュータに、認識対象のデータが想定する条件である目的ドメインに沿ったデータを、少なくとも２つのモデルとその各モデルが認識処理に与える重み値を示す重み係数の候補とを基に認識した認識結果を生成する認識処理、認識結果を教師ラベルとして、モデルのうち少なくとも１つ以上のモデルを更新するモデル更新処理、および、重み係数を決定する重み係数決定処理を実行させ、重み係数決定処理で、各モデルの信頼度が高いほど重み値が小さくなるように重み係数を決定させ、認識処理で、重み係数決定処理で決定された重み係数を基に認識結果を生成させ、モデル更新処理で、重み係数に基づいて生成された認識結果を教師ラベルとして、モデルを更新させることを特徴とする。

本発明によれば、元のドメインと目的ドメインとの間に差異があり、元のドメインに基づいて生成される教師ラベルに認識誤りを示すノイズが多数混入する場合でも、目的ドメインのデータから良好なモデルを生成できる。

本発明の第１の実施形態におけるモデル適応化装置の例を示すブロック図である。重み係数を決定する方法の例を示す説明図である。第１の実施形態におけるモデル適応化装置の動作例を示すフローチャートである。第２の実施形態におけるモデル適応化装置の動作例を示すフローチャートである。本発明の第３の実施形態におけるモデル適応化装置の例を示すブロック図である。本発明によるモデル適応化装置を実現するコンピュータの例を示すブロック図である。本発明によるモデル適応化装置の最小構成の例を示すブロック図である。一般的なモデル適応化装置の例を示すブロック図である。モデルの適応化による変換手続きを概念的に示した説明図である。

以下、本発明の実施形態を図面を参照して説明する。

実施形態１．
図１は、本発明の第１の実施形態におけるモデル適応化装置の例を示すブロック図である。本実施形態におけるモデル適応化装置は、データ記憶手段１０１と、教師ラベル記憶手段１０２と、モデル記憶手段１０と、認識手段１０５と、モデル更新手段２０と、重み係数制御手段１０８とを備えている。また、モデル記憶手段１０は、第１モデル記憶手段１０３と、第２モデル記憶手段１０４とを含み、モデル更新手段２０は、第１モデル更新手段１０６と、第２モデル更新手段１０７とを含む。

データ記憶手段１０１は、目的ドメインのデータを記憶する。上述の通り、目的ドメインとは、認識対象のデータに想定される条件であり、目的ドメインのデータとは、目的ドメインが示す条件に沿ったデータを意味する。目的ドメインのデータは、例えば、ユーザ等により予めデータ記憶手段１０１に記憶される。

教師ラベル記憶手段１０２は、後述する認識手段１０５が出力した認識結果を教師ラベルとして記憶する。

第１モデル記憶手段１０３は、データを認識する際に使用する第１のモデルを記憶する。同様に、第２モデル記憶手段１０４は、データを認識する際に使用する第２のモデルを記憶する。第１モデル記憶手段１０３および第２モデル記憶手段１０４には、それぞれ初期状態としてユーザ等により、第１のモデルおよび第２のモデルがそれぞれ記憶される。

認識手段１０５は、後述する重み係数制御手段１０８から重み係数の値を受け取ると、第１モデル記憶手段１０３および第２モデル記憶手段１０４に各々記憶された第１のモデルおよび第２のモデルを読み出す。認識手段１０５は、読み出したこれらのモデルと重み係数の候補とを基にデータ記憶手段１０１に記憶されたデータを認識する。ここで、重み係数とは、各モデルが認識処理に与える重み値のことを示す。

なお、モデルの内容に変更がない場合など、すでに読み出したモデルの内容をそのまま使用できる場合、認識手段１０５は、第１のモデルおよび第２のモデルを第１モデル記憶手段１０３および第２モデル記憶手段１０４から読み出さなくてもよい。そして、認識手段１０５は、認識結果を教師ラベルとして教師ラベル記憶手段１０２に記憶させる。

例えば、認識対象のデータが音声の場合、第１のモデルは音響モデルに対応付けることができる。また、第２のモデルは言語モデルに対応付けることができる。音響モデルは、音韻ごとの標準的な音のパターンであり、言語モデルは、単語間の接続可能性を数値化したデータである。この場合、認識手段１０５は、入力音声を種々の音韻パターンと照合し、かつ、単語の接続可能性を加味して、入力音声と最も適合する文字列や単語列を求める。このようにして、認識手段１０５は、認識対象のデータを認識する。

認識手段１０５は、例えば、ベイズの定理に基づき、与えられたデータＯに対する認識結果がＷである確率Ｐ（Ｗ｜Ｏ）を以下の式１で評価し、Ｐ（Ｗ｜Ｏ）が最大になるＷを１位の認識結果としてもよい。ただし、認識手段１０５がデータを認識する方法は、式１を用いる方法に限定されない。

ここで、κは、後述する重み係数制御手段１０８から受け取る重み係数である。また、右辺第１項が第１のモデルに基づく評価式に相当し、右辺第２項が第２のモデルに基づく評価式に相当する。また、第２項にかかる係数κが、第２のモデルに乗じる重み係数である。さらに、θ_１は、第一のモデルを規定するパラメタ一式であり、θ_２は、第二のモデルを規定するパラメタ一式である。なお、ここでは、第１のモデルに乗じる重み係数を定数である１としている。例えば、データが音声の場合、第１項が音響モデル、第２項が言語モデルに相当する。ただし、認識対象のデータは音声に限定されない。認識手段１０５は、音声以外のデータの場合でも、上記の式１を用いてデータを認識することが可能である。

認識手段１０５は、尤度１位の結果だけでなく、Ｎ位までの候補を列挙したＮベストなどを認識結果とすることが望ましい。また、データが音声や動画像、文字列のような時系列データの場合、認識手段１０５は、各時刻に対応する認識結果の候補をネットワークで結んだラティス（グラフ）のような形式とすることが望ましい。

重み係数制御手段１０８は、認識手段１０５が目的ドメインのデータを認識する際に、第１のモデルと第２のモデルに乗じる重み係数を制御する。具体的には、重み係数制御手段１０８は、第１のモデルと第２のモデルとに乗じる重み係数の候補として予め定められた値を認識手段１０５に順次通知し、認識手段１０５を動作させる。

また、重み係数制御手段１０８は、教師ラベル記憶手段１０２に記憶された認識結果、データ記憶手段１０１に記憶されたデータ、第１モデル記憶手段１０３に記憶された第１のモデルおよび第２モデル記憶手段１０４に記憶された第２のモデルを参照し、第１のモデルと第２のモデルに乗じる重み係数の値の候補の中から、最適な値を決定する。

なお、既に参照した第１のモデルおよび第２のモデルの内容に変化がない場合、重み係数制御手段１０８は、既に参照したモデルの内容を用いて最適な重み係数の値を決定してもよい。

図２は、重み係数を決定する方法の例を示す説明図である。Ｓは原ドメインを示し、Ｔ_１およびＴ_２は、目的ドメインを示す。以下、図２を参照して、重み係数の決定方法を説明する。上述したように、モデルの適応化は、２つのモデルのパラメタで張られる空間（モデル空間）上における、ある点（原ドメイン）から別の点（目的ドメイン）への変換と考えられる。

原ドメインと目的ドメインの関係については、あらゆるパターンがあり得る。基本パターンの一つとして、図２に例示するＳとＴ_１の関係のように、第１のモデルのドメインのみが異なり、第２のモデルのドメインはほぼ同一である場合が考えられる。また、もう一つの基本パターンとして、図２に例示するＳとＴ_２の関係のように、第２のモデルのドメインのみが異なり、第１のモデルのドメインはほぼ同一である場合が考えられる。

これらの基本パターンにおいては、重み係数を次のように設定すればよい。すなわち、ＳとＴ_１の関係のように、第２のモデルのドメインが同一である場合、目的ドメインのデータを認識するに際して、第２のモデルは信頼できる。したがって、第２のモデルにかかる重みを大きくし、第１のモデルにかかる重みを小さくすればよい。逆に、ＳとＴ_２の関係のように、第１のモデルのドメインが同一である場合、第１のモデルが信頼できる。そのため、第１のモデルにかかる重みを大きくし、第２のモデルにかかる重みを小さくすればよい。

以上の考察を一般化すると、重み係数は、第１のモデルにおける原ドメインと目的ドメインとの間の隔たり、および、第２のモデルにおける原ドメインと目的ドメインとの間の隔たりによって決定される。具体的には、ドメイン間の隔たりがより大きいモデルの重みをより小さくすべきである。

重み係数制御手段１０８は、ドメイン間の隔たりがより大きいモデルの重み係数をより小さくする（言い換えると、ドメイン間の隔たりがより小さいモデルの重み係数をより大きくする）ことができる方法であれば、重み係数を決定する方法としてどのような方法を用いてもよい。重み係数制御手段１０８は、例えば、目的ドメインのデータＯが与えられた場合における認識結果Ｗの条件付き確率Ｐ（Ｗ｜Ｏ）が最大になるように重み係数を決定してもよい。

例えば、認識手段１０５が上述する式１を用いてデータの認識を行う場合、重み係数制御手段１０８は、目的ドメインのデータに対する認識結果の条件付き確率が最大となるように、重み係数の値を決定する。具体的には、重み係数制御手段１０８は、以下の式２に例示する目的関数が最大になるように、重み係数の値の候補κ_１，κ_２，…の中から最適値を選択する。

ここで、Ｗ^（κ）は、重み係数κのもとで、認識手段１０５が生成した認識結果である。重み係数の値の候補の決定方法は任意である。例えば、０．１から１０の間を、指数尺度や対数尺度などの適当な尺度で１０等分した値を重み係数の値の候補として決定すればよい。なお、認識結果が、多数の認識結果の候補をネットワークで結んだ大規模なラティス（グラフ）であるような場合、上述する式２の右辺におけるＰ（Ｏ｜Ｗ^（κ），θ_１）やＰ（Ｗ^（κ）｜θ_２）の算出にかかる計算量が大きくなる。この場合、重み係数制御手段１０８は、例えば、非特許文献２に記載されている動的計画法に基づいて計算することで、効率的に重み係数を決定することが可能になる。

第１モデル更新手段１０６は、データ記憶手段１０１に記憶されたデータ、および、教師ラベル記憶手段１０２に記憶された教師ラベルを用いて、第１のモデルの適応化を行う。同様に、第２モデル更新手段１０７は、データ記憶手段１０１に記憶されたデータ、および、教師ラベル記憶手段１０２に記憶された教師ラベルを用いて、第２のモデルの適応化を行う。

具体的には、第１モデル更新手段１０６は、認識手段１０５が出力して教師ラベル記憶手段１０２に記憶させた認識結果（すなわち、教師ラベル）をもとに、第１のモデルに対して目的ドメインへの適応化を行う。このとき、第１モデル更新手段１０６は、教師ラベルとして、重み係数制御手段１０８が選択した重み係数κに対応するＷ^（κ）（すなわち、重み係数κのもとで、認識手段１０５が生成した認識結果）を使用する。

また、第１モデル更新手段１０６は、必要に応じて（具体的には、適応化の処理に必要な場合）、データ記憶手段１０１に記憶されたデータを用いてもよい。例えば、認識の対象とするデータが音声の場合、音響モデルの適応化を行う場合には、教師ラベルおよび音声データが必要になる。そのため、第１モデル更新手段１０６は、データ記憶手段１０１に記憶された音声データを利用する。一方、言語モデルの適応化を行う場合には、音声データは不要である。そのため、第１モデル更新手段１０６は、データ記憶手段１０１に記憶された音声データを利用しないことになる。

そして、第１モデル更新手段１０６は、適応化の結果得られたモデルで第１のモデルを更新し、更新した第１のモデルを第１モデル記憶手段１０３に記憶させる。

例えば、適応化の対象とするモデルが音響モデルの場合、第１モデル更新手段１０６は、ＭＬＬＲ法によりモデルの適応化を行ってもよい。また、例えば、適応化の対象とするモデルが言語モデルの場合、第１モデル更新手段１０６は、非特許文献１に記載された言語モデル適応方法に示すように、大量テキストから作成される単語Ｎ−ｇｒａｍと、品詞Ｎ−ｇｒａｍとを線形補間して適応モデルを構築してもよい。ただし、適応化の対象とするモデルは音響モデルや言語モデルに限定されず、また、適応化の方法も上記方法に限定されない。

また、第２モデル更新手段１０７は、第１モデル更新手段１０６と同様に、認識手段１０５が出力して教師ラベル記憶手段１０２に記憶させた認識結果（すなわち、教師ラベル）をもとに、第２のモデルに対して目的ドメインへの適応化を行う。このとき、第２モデル更新手段１０７も、教師ラベルとして、重み係数制御手段１０８が選択した重み係数κに対応するＷ^（κ）（すなわち、重み係数κのもとで、認識手段１０５が生成した認識結果）を使用する。なお、モデルを適応化する方法は、第１モデル更新手段１０６がモデルを適応化する方法と同一であってもよく、異なっていてもよい。

また、第２モデル更新手段１０７は、必要に応じて、データ記憶手段１０１に記憶されたデータを用いてもよい。そして、第２モデル更新手段１０７は、適応化の結果得られたモデルで第２のモデルを更新し、更新した第２のモデルを第２モデル記憶手段１０４に記憶させる。

なお、第１モデル更新手段１０６と第２モデル更新手段１０７のいずれか一方がモデルの更新を行ってもよく、第１モデル更新手段１０６と第２モデル更新手段１０７の両方がモデルの更新を行ってもよい。

データ記憶手段１０１、教師ラベル記憶手段１０２およびモデル記憶手段１０（より具体的には、第１モデル記憶手段１０３および第２モデル記憶手段１０４）は、例えば、磁気ディスク等により実現される。

また、認識手段１０５と、モデル更新手段２０（より具体的には、第１モデル更新手段１０６と、第２モデル更新手段１０７）と、重み係数制御手段１０８とは、プログラム（モデル適応化用プログラム）に従って動作するコンピュータのＣＰＵによって実現される。例えば、プログラムは、モデル適応化装置の記憶部（図示せず）に記憶され、ＣＰＵは、そのプログラムを読み込み、プログラムに従って、認識手段１０５、モデル更新手段２０（より具体的には、第１モデル更新手段１０６および第２モデル更新手段１０７）、および、重み係数制御手段１０８として動作してもよい。

また、認識手段１０５と、モデル更新手段２０（より具体的には、第１モデル更新手段１０６と、第２モデル更新手段１０７）と、重み係数制御手段１０８とは、それぞれが専用のハードウェアで実現されていてもよい。

なお、上記の説明では、モデル適応化装置が音声データを扱う場合について説明したが、モデル適応化装置が扱うデータは音声データに限られない。本実施形態におけるモデル適応化装置では、音声、画像、動画像など、任意のデータを扱うことが可能である。この場合、認識手段１０５は、複数のモデルを組み合わせてデータを認識すればよい。

具体的には、認識対象のデータが音声の場合、例えば、第１のモデルが音韻の音響モデルに相当し、第２のモデルが単語の言語モデルに相当する。また、認識対象のデータが文字画像の場合、例えば、第１のモデルが文字画像のモデルに相当し、第２のモデルが単語の言語モデルに相当する。さらに、認識対象のデータがジェスチャを表す動画像の場合、例えば、第１のモデルが、定義されたジェスチャの動画像モデルに相当し、第２のモデルが、ジェスチャの出現傾向を規定する言語モデル（例えば、文法規則など）に相当する。

次に、本実施形態のモデル適応化装置の動作を説明する。図３は、第１の実施形態におけるモデル適応化装置の動作例を示すフローチャートである。

まず、認識手段１０５は、第１モデル記憶手段１０３から第１のモデルを読み出し、第２モデル記憶手段１０４から第２のモデルを読み出す（ステップＡ１）。また、認識手段１０５は、データ記憶手段１０１に記憶されたデータを読み出す（ステップＡ２）。そして、重み係数制御手段１０８は、重み係数の値の候補の一つを認識手段１０５に通知する（ステップＡ３）。

認識手段１０５は、第１のモデル、第２のモデル、および重み係数の候補を参照して、読み出したデータを認識する（ステップＡ４）。そして、認識手段１０５は、認識した結果を教師ラベルとして、教師ラベル記憶手段１０２に記憶させる（ステップＡ５）。

なお、認識手段１０５は、ステップＡ２およびステップＡ４それぞれの処理を一括で行ってもよい。また、データの量がある程度多い場合、認識手段１０５は、小単位ごとにデータを読み出して認識するという処理を反復するパイプライン的な処理を行ってもよい。この場合、ステップＡ３の処理をステップＡ２の前段で行うことが好ましい。

認識手段１０５は、ステップＡ３からステップＡ５までの処理（すなわち、重み係数の値の候補を変えて認識処理を行い、認識結果を教師ラベルとして教師ラベル記憶手段１０２に記憶させる処理）が所定の回数分実行されたか否かを判断する（ステップＡ６）。所定の回数分実行されていない場合（ステップＡ６における「いいえ」）、ステップＡ３以降の処理を繰り返す。所定の回数分実行された場合、ステップＡ７の処理に移る。すなわち、重み係数の値を変えながら、ステップＡ３以降ステップＡ５までの処理が重み係数の値の候補の個数分反復される。

次に、重み係数制御手段１０８は、重み係数の候補ごとに教師ラベル記憶手段１０２に記憶された教師ラベルなどを用いて、例えば、上記式２の目的関数に従い、最適な重み係数の値を選択する（ステップＡ７）。

そして、第１モデル更新手段１０６は、最適な重み係数に対応する教師ラベルをもとに、第１のモデルに対して目的ドメインへの適応化を行う。そして、第１モデル更新手段１０６は、適応化の結果得られる更新された第１のモデルを第１モデル記憶手段１０３に記憶させる。適応化の際、第１モデル更新手段１０６は、必要に応じてデータ記憶手段１０１に記憶されたデータを用いてもよい。

同様に、第２モデル更新手段１０７は、最適な重み係数の値に対応する教師ラベルをもとに、第２のモデルに対して目的ドメインへの適応化を行う。そして、第２モデル更新手段１０７は、適応化の結果得られる更新された第２のモデルを第２モデル記憶手段１０４に記憶させる。また、第２モデル更新手段１０７は、適応化の際、必要に応じてデータ記憶手段１０１に記憶されたデータを用いてもよい（ステップＡ８）。

なお、本実施形態におけるモデル適応化装置では、図３に例示するフローチャートにおける一連の処理を複数回くり返すようにしてもよい。更新された第１のモデルと第２のモデルを使って再度データを認識すると、より良い認識結果（すなわち、教師ラベル）を得られる可能性があり、さらに、より良い教師ラベルを用いて重み係数を再度選び直すことで、更新されたモデルに適合したより良い重み係数が得られる可能性があるからである。

以上のように、本実施形態によれば、認識手段１０５が、第１のモデル、第２のモデルおよび重み係数の候補に基づいて目的ドメインのデータを認識することにより教師ラベルを生成する。そして、第１モデル更新手段１０６が、その教師ラベルを用いて第１のモデルを更新し、第２モデル更新手段１０７が、その教師ラベルを用いて第２のモデルを更新する。また、重み係数制御手段１０８が、認識手段１０５が第１のモデルと第２のモデルを参照する際の重み係数を制御する。

具体的には、重み係数制御手段１０８は、重み係数の値の候補から、第１のモデルと第２のモデルのうち、信頼のおけるモデル（すなわち、原ドメインと目的ドメインの間の差異が小さいモデル）に対して、より強い重みがかかる値を選択する。そして、認識手段１０５は、重み係数の値の候補に基づいてデータを認識し、教師ラベルを生成する。さらに、第１モデル更新手段１０６および第２モデル更新手段１０７は、それぞれ、重み係数制御手段１０８が選択した重み係数によって生成された教師ラベルを用いて、第１のモデルと第２のモデルを更新する。

以上のような構成により、元のドメイン（原ドメイン）と目的ドメインの間に差異があり、元のドメインに基づいて生成される教師ラベルに認識誤りを示すノイズが多く混入する場合でも、目的ドメインのデータから良好なモデルを生成できる。

実施形態２．
次に、本発明の第２の実施形態について説明する。本実施形態におけるモデル適応化装置の構成は、図１に例示する第１の実施形態と同様である。すなわち、本発明の第２の実施形態におけるモデル適応化装置は、データ記憶手段１０１と、教師ラベル記憶手段１０２と、モデル記憶手段１０と、認識手段１０５と、モデル更新手段２０と、重み係数制御手段１０８とを備えている。また、モデル記憶手段１０は、第１モデル記憶手段１０３と、第２モデル記憶手段１０４とを含み、モデル更新手段２０は、第１モデル更新手段１０６と、第２モデル更新手段１０７とを含む。

そして、データ記憶手段１０１は、目的ドメインのデータを記憶し、第１モデル記憶手段１０３および第２モデル記憶手段１０４は、データを認識する際に使用する第１のモデルおよび第２のモデルをそれぞれ記憶する。また、認識手段１０５は、第１のモデルおよび第２のモデルを参照してデータを認識する。そして、教師ラベル記憶手段１０２は、認識手段１０５が出力した認識結果を教師ラベルとして記憶する。

また、第１モデル更新手段１０６および第２モデル更新手段１０７は、データ記憶手段１０１に記憶されたデータと、教師ラベル記憶手段１０２に記憶された教師ラベルとを用いて、それぞれ第１のモデルおよび第２のモデルの適応化を行う。また、重み係数制御手段１０８は、認識手段１０５がデータを認識する際に、第１のモデルと第２のモデルに乗じる重み係数を制御する。

なお、本実施形態では、予め定めた有限個の候補から重み係数の最適値を選択するのではなく、探索アルゴリズムを用いて最適値を探索する点において、第１の実施形態と異なる。

認識手段１０５は、重み係数制御手段１０８から重み係数の候補を受け取ると、第１モデル記憶手段１０３に記憶された第１のモデルおよび第２モデル記憶手段１０４に記憶された第２のモデルを必要に応じて読み出し、これらのモデルと重み係数とを基にデータ記憶手段１０１に記憶されたデータを認識する。また、認識手段１０５は、認識結果（すなわち、教師ラベル）を教師ラベル記憶手段１０２に記憶させる。なお、すでに記憶された古い教師ラベルが教師ラベル記憶手段１０２に記憶されている場合、認識手段１０５は、古い教師ラベルを新たな教師ラベルで上書きする。

認識手段１０５がデータを認識する方法は、第１の実施形態の方法と同様である。また、認識結果を、第１の実施形態と同様、Ｎ位までの認識結果（Ｎベスト）やラティス（グラフ）のような形式とすることが望ましい。

重み係数制御手段１０８は、モデルごとの重み係数を決定する。本実施形態では、重み係数制御手段１０８は、まず、第１のモデルと第２のモデルに乗じる重み係数に、予め定めた初期値を設定する初期化処理を行う。初期化処理の後、重み係数制御手段１０８は、認識手段１０５が出力して教師ラベル記憶手段１０２に記憶させた認識結果（すなわち、教師ラベル）、データ記憶手段１０１に記憶されたデータ、第１モデル記憶手段１０３に記憶された第１のモデルおよび第２モデル記憶手段１０４に記憶された第２のモデルを参照し、重み係数の値を逐次更新する。なお、初期化処理で設定される初期値や重み係数を逐次更新する値は最終的な重み係数になり得る値である。よって、これらの値も、重み係数の候補と言うことができる。

なお、既に参照した第１のモデルおよび第２のモデルの内容に変化がない場合（例えば、第１モデル更新手段１０６および第２モデル更新手段１０７が各モデルを更新していない場合）、重み係数制御手段１０８は、既に参照したモデルの内容を用いて重み係数の値を更新してもよい。

認識手段１０５が上記の式１を用いてデータの認識を行う場合、重み係数制御手段１０８は、第１の実施形態と同様、目的ドメインのデータに対する認識結果の条件付き確率が最大となるように重み係数の値を更新する。具体的には、重み係数制御手段１０８は、上述する式２に例示する目的関数が最大になるように、重み係数の値を更新する。

重み係数の値を更新する方法として、例えば、非特許文献３や、特許文献１に記載された最急勾配法のような反復解法を用いることができる。重み係数制御手段１０８は、例えば、以下に示す式３を用いて重み係数κを更新してもよい。

ここで、ρは更新のステップサイズを示す予め定められた定数である。

そして、重み係数制御手段１０８は、予め定められた条件に基づいて重み係数を反復して更新するか否かを決定する収束判定を行う。重み係数制御手段１０８は、例えば、更新前の重み係数と更新後の重み係数との差が、予め定めた所定の閾値を上回るか否かを判定する。そして、この差が予め定めた所定の閾値を上回る場合に、重み係数制御手段１０８は、認識手段１０５による認識結果に基づいて重み係数を更新すると判定してもよい。また、重み係数制御手段１０８は、所定の回数分重み係数を更新した場合に、重み係数を更新しないと判定してもよい。ただし、収束判定の方法は、これらの方法に限定されない。

ここで、重み係数制御手段１０８が重み係数を更新すると判定した場合、認識手段１０５は、更新された重み係数で重み付けされたモデルに基づいて認識結果である教師ラベルを更新する。そして、第１モデル更新手段１０６および第２モデル更新手段１０７が、更新された教師ラベルに基づいてモデルの更新を行い、重み係数制御手段１０８が、更新されたモデルに基づいて重み係数を更新する。

第１モデル更新手段１０６は、認識手段１０５が出力して教師ラベル記憶手段１０２に記憶させた最新の認識結果（すなわち、教師ラベル）をもとに、第１のモデルに対して目的ドメインへの適応化を行う。また、第１モデル更新手段１０６は、必要に応じて、データ記憶手段１０１に記憶されたデータを用いてもよい。そして、第１モデル更新手段１０６は、適応化の結果得られたモデルで第１のモデルを更新し、更新した第１のモデルを第１モデル記憶手段１０３に記憶させる。なお、モデルを適応化する方法は、第１の実施形態において第１モデル更新手段１０６がモデルを適応化する方法と同様である。

また、第２モデル更新手段１０７は、第１モデル更新手段１０６と同様に、認識手段１０５が出力して教師ラベル記憶手段１０２に記憶させた認識結果（すなわち、教師ラベル）をもとに、第２のモデルに対して目的ドメインへの適応化を行う。また、第２モデル更新手段１０６は、必要に応じて、データ記憶手段１０１に記憶されたデータを用いてもよい。そして、第２モデル更新手段１０７は、適応化の結果得られたモデルで第２のモデルを更新し、更新した第２のモデルを第２モデル記憶手段１０４に記憶させる。なお、モデルを適応化する方法は、第１モデル更新手段１０６がモデルを適応化する方法と同一であってもよく、異なっていてもよい。

なお、本実施形態におけるモデル適応化装置でも、音声、画像、動画像など、任意のデータを扱うことが可能である。この点についても、第１の実施形態と同様である。また、本実施形態における認識手段１０５、モデル更新手段２０、および、重み係数制御手段１０８も、プログラム（モデル適応化用プログラム）に従って動作するコンピュータのＣＰＵによって実現される。

次に、本実施形態のモデル適応化装置の動作を説明する。図４は、第２の実施形態におけるモデル適応化装置の動作例を示すフローチャートである。

まず、認識手段１０５は、第１モデル記憶手段１０３から第１のモデルを読み出し、第２モデル記憶手段１０４から第２のモデルを読み出す（ステップＢ１）。また、認識手段１０５は、データ記憶手段１０１に記憶されたデータを読み出す（ステップＢ２）。そして、重み係数制御手段１０８は、第１のモデルと第２のモデルに乗じる重み係数の候補に、予め定めた初期値を設定する（ステップＢ３）。なお、ステップＢ１〜ステップＢ３の処理順は任意である。

次に、認識手段１０５は、第１のモデル、第２のモデル、および重み係数の候補を参照して、読み出したデータを認識する（ステップＢ４）。そして、認識手段１０５は、認識した結果を教師ラベルとして、教師ラベル記憶手段１０２に記憶させる（ステップＢ５）。なお、教師ラベル記憶手段１０２が既に教師ラベルを記憶している場合、この教師ラベルを新たな教師ラベルで上書きする。

なお、認識手段１０５は、ステップＢ２、ステップＢ４およびステップＢ５それぞれの処理を一括で行ってもよい。また、データの量がある程度多い場合、認識手段１０５は、小単位ごとにデータを読み出して認識するという処理を反復するパイプライン的な処理を行ってもよい。

次に、第１モデル更新手段１０６は、教師ラベル記憶手段１０２に記憶された教師ラベルをもとに、第１のモデルに対して目的ドメインへの適応化を行う。そして、第１モデル更新手段１０６は、適応化の結果得られる更新された第１のモデルを、第１モデル記憶手段１０３に記憶させる。なお、適応化の際、第１モデル更新手段１０６は、必要に応じてデータ記憶手段１０１に記憶されたデータを用いてもよい。

同様に、第２モデル更新手段１０７は、教師ラベル記憶手段１０２に記憶された教師ラベルをもとに、第２のモデルに対して目的ドメインへの適応化を行う。そして、第２モデル更新手段１０７は、適応化の結果得られる更新された第２のモデルを、第２モデル記憶手段１０４に記憶させる。また、第２モデル更新手段１０７は、適応化の際、必要に応じてデータ記憶手段１０１に記憶されたデータを用いてもよい（ステップＢ６）。

次に、重み係数制御手段１０８は、例えば、上記式３に例示する目的関数に従い、第１のモデルと第２のモデルに乗じる重み係数κを更新する（ステップＢ７）。

そして、重み係数制御手段１０８は、収束判定を行う（ステップＢ８）。具体的には、重み係数κの変化量が予め定めた所定の閾値よりも小さい場合、重み係数制御手段１０８は、重み係数κの値が収束したと判定し（ステップＳ８における「はい」）、処理を終了する。一方、重み係数κの変化量が予め定めた所定の閾値よりも小さい場合、重み係数制御手段１０８は、重み係数κの値が収束したと判定していないと判定し（ステップＳ８における「いいえ」）、ステップＢ４以降の処理を繰り返す。

なお、収束判定の方法は、上記方法に限定されない。重み係数制御手段１０８は、例えば、モデルの変化や教師ラベルの変化などを参照して重み係数κが収束したか否かを判定してもよい。また、重み係数制御手段１０８は、重み係数の更新回数に上限を設け、更新回数が上限に達した時点で処理を終了するようにしてもよい。

具体的には、重み係数制御手段１０８は、第１のモデルと第２のモデルのうち、信頼のおけるモデル（すなわち、原ドメインと目的ドメインの間の差異が小さいモデル）に対し、より強い重みがかかるように重み係数の値を反復的に更新する。そして、認識手段１０５は、その重み係数に基づいてデータを認識し、反復的に教師ラベルを生成する。さらに、第１モデル更新手段１０６および第２モデル更新手段１０７は、それぞれ、重み係数制御手段１０８が選択した重み係数によって生成された教師ラベルを用いて、第１のモデルと第２のモデルを反復的に更新する。

以上のような構成により、第１の実施形態の効果に加え、目的ドメインのデータから良好なモデルをより少ない計算量で生成できる。すなわち、第１の実施形態で示した重み係数の値の候補数よりも少ない数の認識処理によって、目的ドメインのデータから良好なモデルを生成できる。

実施形態３．
図５は、本発明の第３の実施形態におけるモデル適応化装置の例を示すブロック図である。本実施形態におけるモデル適応化装置は、データ記憶手段７０１と、教師ラベル記憶手段７０２と、モデル記憶手段７２と、認識手段７０３と、モデル更新手段７１と、重み係数制御手段７０４とを備えている。また、モデル記憶手段７２は、第１モデル記憶手段７２１〜第Ｎモデル記憶手段７２Ｎを含む。ここで、Ｎは、３以上の整数である。また、モデル更新手段７１は、第１モデル更新手段７１１〜第Ｎモデル更新手段７１Ｎを含む。

データ記憶手段７０１は、目的ドメインのデータを記憶する。第１モデル記憶手段７２１〜第Ｎモデル記憶手段７２Ｎは、データを認識する際に使用する第１のモデル〜第Ｎのモデルをそれぞれ記憶する。認識手段７０３は、第１のモデル〜第Ｎのモデルを参照してデータを認識する。そして、教師ラベル記憶手段７０２は、認識手段７０３が出力した認識結果を教師ラベルとして記憶する。

また、第１モデル更新手段７１１〜第Ｎモデル更新手段７１Ｎは、データ記憶手段７０１に記憶されたデータと、教師ラベル記憶手段７０２に記憶された教師ラベルとを用いて、それぞれ第１のモデル〜第Ｎのモデルの適応化を行う。また、重み係数制御手段７０４は、認識手段７０３がデータを認識する際に、第１のモデル〜第Ｎのモデルに乗じる重み係数を制御する。

上述するように、本発明の第３の実施形態は、第２の実施形態において２個であったモデルの個数をＮ個（Ｎ＞２）に拡張したものである。２個を超える数のモデルを同時に扱う認識処理には、様々な態様が考えられる。例えば、音声翻訳のモデルがこれに該当する。便宜的に、翻訳も認識処理の一種であると考えた場合、音声を認識して他の言語に翻訳する音声翻訳システムのようなシステムでは、音声認識に使用する音響モデルおよび言語モデルに加えて、認識結果を翻訳するための翻訳モデルが必要になる。

また、音声認識システムの中でも、条件の異なる複数の音響モデルや言語モデルを線形結合などにより組み合わせて用いるシステムの場合、本実施形態によるモデル適応化装置を用いることで、このシステムに用いられるモデルを適応化することが可能になる。

認識手段７０３は、重み係数制御手段７０４から重み係数の値を受け取ると、第１モデル記憶手段７２１〜第Ｎモデル記憶手段７２Ｎに各々記憶された第１のモデル〜第Ｎのモデルを必要に応じて読み出し、これらのモデルと重み係数の候補とを基にデータ記憶手段７０１に記憶されたデータを認識する。また、認識手段７０３は、認識結果（すなわち、教師ラベル）を教師ラベル記憶手段７０２に記憶させる。なお、すでに記憶された古い教師ラベルが教師ラベル記憶手段７０２に記憶されている場合、認識手段７０３は、古い教師ラベルを新たな教師ラベルで上書きする。

認識手段７０３がデータを認識する方法は、第１の実施形態および第２の実施形態に記載された方法と同様である。また、認識結果は、第１の実施形態および第２の実施形態と同様、Ｎ位までの認識結果（Ｎベスト）やラティス（グラフ）のような形式とすることが望ましい。

さらに、認識手段７０３は、モデルごとに認識した途中段階の認識結果も、教師ラベル記憶手段７０２に記憶させることが望ましい。例えば、上述する音声翻訳を行う場合、認識手段７０３は、最終的な翻訳結果に加えて、途中段階の認識結果である音声認識結果も教師ラベル記憶手段７０２に記憶させる。

重み係数制御手段７０４は、モデルごとの重み係数を決定する。本実施形態では、重み係数制御手段７０４は、まず、第１のモデル〜第Ｎのモデルに乗じる重み係数の候補に、予め定めた初期値を設定する初期化処理を行う。なお、本実施形態では、重み係数κはスカラではなく、モデルの個数から１を減じた（Ｎ−１）の次元数を持つベクトルである。

初期化処理の後、重み係数制御手段７０４は、認識手段７０３が出力して教師ラベル記憶手段７０２に記憶させた認識結果（すなわち、教師ラベル）、データ記憶手段７０１に記憶されたデータ、第１モデル記憶手段７２１〜第Ｎモデル記憶手段７２Ｎにそれぞれ記憶された第１のモデル〜第Ｎのモデルを参照し、重み係数の値を逐次更新する。

認識手段７０３が上述する式１を用いてデータの認識を行う場合、重み係数制御手段７０４は、第１の実施形態および第２の実施形態と同様、目的ドメインのデータに対する認識結果の条件付き確率が最大となるように重み係数の値を更新する。具体的には、重み係数制御手段７０４は、上述する式２に例示する目的関数が最大になるように、重み係数の値を更新する。重み係数制御手段７０４は、例えば、第２の実施形態で例示した最急勾配法のような反復解法を用いて、重み係数κを更新してもよい。なお、上述するように、重み係数κはベクトルであるので、最急勾配法に基づく更新式は、以下に示す式４で表すことができる。

ここで、ρは更新のステップサイズを示す予め定められた定数であり、κ_ｉはベクトルκの第ｉ要素である（ｉ＝１，…，Ｎ−１）。

そして、重み係数制御手段７０４は、予め定められた条件に基づいて重み係数を反復して更新するか否かを決定する収束判定を行う。なお、収束判定の方法は、第２の実施形態で記載した方法と同様である。

第１モデル更新手段７１１〜第Ｎモデル更新手段７１Ｎは、教師ラベル記憶手段７０２に記憶させた最新の認識結果（すなわち、教師ラベル）をもとに、それぞれ、第１のモデル〜第Ｎのモデルに対して目的ドメインへの適応化を行う。また、第１モデル更新手段１０６は、必要に応じて、データ記憶手段１０１に記憶されたデータを用いてもよい。そして、第１モデル更新手段７１１〜第Ｎモデル更新手段７１Ｎは、適応化の結果得られたモデルで第１のモデル〜第Ｎのモデルを更新し、更新した第１のモデル〜第Ｎのモデルをそれぞれ第１モデル記憶手段７２１〜第Ｎモデル記憶手段７２Ｎに記憶させる。なお、モデルを適応化する方法は、第１の実施形態において第１モデル更新手段１０６や第２モデル更新手段１０７がモデルを適応化する方法と同様である。

データ記憶手段７０１、教師ラベル記憶手段７０２およびモデル記憶手段７２（より具体的には、第１モデル記憶手段７２１〜第Ｎモデル記憶手段７２Ｎ）は、例えば、磁気ディスク等により実現される。

また、認識手段７０３と、モデル更新手段７１（より具体的には、第１モデル更新手段７１１〜第Ｎモデル更新手段７１Ｎ）と、重み係数制御手段７０４とは、プログラム（モデル適応化用プログラム）に従って動作するコンピュータのＣＰＵによって実現される。

なお、本実施形態のモデル適応化装置の動作は、第２の実施形態におけるモデル適応化装置の動作と同様のため、説明を省略する。また、第１の実施形態および第２の実施形態と同様、対象とするデータの形態に制限はなく、音声、画像、動画像など、任意のデータを扱うことが可能である。

以上のように、本実施形態によれば、認識手段７０３が、第１のモデル〜第Ｎのモデルおよび重み係数の候補に基づいて目的ドメインのデータを認識することにより教師ラベルを生成し、第１モデル更新手段７１１〜第Ｎモデル更新手段７１Ｎが、その教師ラベルを用いて第１のモデル〜第Ｎのモデルをそれぞれ更新する。また、重み係数制御手段７０４が、認識手段７０３が第１のモデル〜第Ｎのモデルを参照する際の重み係数を制御する。

具体的には、重み係数制御手段７０４は、第１のモデル〜第Ｎのモデルのうち、信頼のおけるモデル（すなわち、原ドメインと目的ドメインの間の差異が小さいモデル）に対し、より強い重みがかかるように重み係数の値を反復的に更新する。そして、認識手段７０３は、その重み係数の値に基づいてデータを認識し、反復的に教師ラベルを生成する。さらに、第１モデル更新手段７１１〜第Ｎモデル更新手段７１Ｎは、それぞれ、生成された教師ラベルを用いて、第１のモデル〜第Ｎのモデルを反復的に更新する。

以上のような構成により、第２の実施形態の効果に加え、任意の個数（Ｎ＞２）のモデルを目的ドメインに適応化させたい場合であっても、目的ドメインのデータから良好なモデルを生成できる。また、対象とするモデルの個数Ｎが多い場合、重み係数κの最適値を求めるためには高次元（Ｎ−１）空間の探索を行う必要がある。このような探索には、一般に多くの計算量を要するが、本実施形態では、最急勾配法のような探索アルゴリズムを用いているため、比較的少ない計算量で重み係数κの最適値を得ることができる。

図６は、本発明の第１の実施形態または第２の実施形態におけるモデル適応化装置を実現するコンピュータの例を示すブロック図である。

記憶装置８３は、データ記憶手段８３１、教師ラベル記憶手段８３２、第１モデル記憶手段８３３、および、第２モデル記憶手段８３４を含む。データ記憶手段８３１、教師ラベル記憶手段８３２、第１モデル記憶手段８３３、および、第２モデル記憶手段８３４は、第１の実施形態または第２の実施形態における音声データ記憶手段２０１、教師ラベル記憶手段２０２、第１モデル記憶手段２０３、および、第２モデル記憶手段２０４に相当する。すなわち、記憶装置８３は、認識対象とするデータ、教師ラベル、第１のモデルおよび第２のモデルを記憶する。

また、本発明におけるモデル適応化用プログラム８１は、データ処理装置８２に読み込まれ、データ処理装置８２の動作を制御する。このとき、データ処理装置８２は、第１の実施形態または第２の実施形態における認識手段１０５、第１モデル更新手段１０６、第２モデル更新手段１０７、および、重み係数制御手段１０８として動作する。具体的には、データ処理装置８２は、記憶装置８３から必要な情報を読み取る処理や、作成したモデル等の情報を記憶装置８３に書き込む処理を行う。

次に、本発明の最小構成を説明する。図７は、本発明によるモデル適応化装置の最小構成の例を示すブロック図である。本発明によるモデル適応化装置は、認識対象のデータが想定する条件である目的ドメインに沿ったデータを、少なくとも２つのモデル（例えば、音響モデルと言語モデル）とその各モデルが認識処理に与える重み値を示す重み係数の候補とを基に認識した認識結果を生成する認識手段８１（例えば、認識手段１０５）と、認識結果を教師ラベルとして、モデルのうち少なくとも１つ以上のモデルを更新するモデル更新手段８２（例えば、第１モデル更新手段１０６、第２モデル更新手段１０７）と、重み係数を決定する重み係数決定手段８３（例えば、重み係数制御手段１０８）とを備えている。

重み係数決定手段８３は、各モデルの信頼度が高いほど重み値が小さくなるように重み係数を決定する。また、認識手段８１は、重み係数決定手段８３が決定した重み係数を基に認識結果を生成する。そして、モデル更新手段８２は、重み係数に基づいて生成された認識結果を教師ラベルとして、モデルを更新する。

そのような構成により、元のドメインと目的ドメインとの間に差異があり、元のドメインに基づいて生成される教師ラベルに認識誤りを示すノイズが多数混入する場合でも、目的ドメインのデータから良好なモデルを生成できる。

また、重み係数決定手段８３は、目的ドメインのデータが与えられたとき、認識手段が生成した認識結果になる条件付き確率（例えば、目的ドメインのデータＯが与えられた場合における認識結果Ｗの条件付き確率Ｐ（Ｗ｜Ｏ））が最大になる重み係数を（例えば、式２に基づいて）決定してもよい。

また、認識手段８１が、複数の重み係数の候補ごとに目的ドメインのデータの認識結果をそれぞれ生成し、重み係数決定手段８３が、目的ドメインのデータに対する認識結果が最尤になる重み係数（例えば、式２の目的関数が最大になるκ）を重み係数の候補の中から選択することにより、重み係数を決定してもよい。

また、モデル更新手段８２が、重み係数決定手段８３が選択した重み係数で重み付けされたモデルに基づいて生成された認識結果を教師ラベルとしてモデルを更新し、認識手段８１が、更新されたモデルを基に、複数の重み係数の候補ごとに認識結果を再度生成し、重み係数決定手段８３が、生成された認識結果に基づいて、複数の重み係数の候補の中から重み係数を再度選択することにより、重み係数を決定してもよい。

また、重み係数決定手段８３が、予め定められた条件（例えば、更新前の重み係数と更新後の重み係数との差が予め定めた所定の閾値を上回る）に基づいて重み係数を反復して更新するか否かを決定する収束判定を行い、その収束判定において重み係数を更新すると判定したことを条件に重み係数を更新し、認識手段８１が、収束判定において重み係数を更新すると判定されたことを条件に、更新された重み係数で重み付けされたモデルに基づいて認識結果を更新してもよい。

また、重み係数決定手段８３は、目的ドメインのデータが与えられたとき、認識手段８１が生成した認識結果になる条件付き確率が最大になる重み係数を最急勾配法に基づいて更新してもよい。

また、認識手段８１が、３つ以上（例えば、Ｎ個）のモデルと重み係数の候補とを基に目的ドメインに沿ったデータを認識した認識結果を生成し、モデル更新手段８２が、認識結果を教師ラベルとして３つ以上のモデルのうちの少なくとも１つ以上のモデルを更新し、重み係数決定手段８３は、３つ以上のモデルのうち各モデルの信頼度が高いほど重み値が小さくなるように重み係数を決定してもよい。

また、重み係数決定手段８３は、各モデルが想定する条件と目的ドメインとの隔たりがより大きいモデルの重み係数をより小さくすると決定してもよい。

以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２０１１年２月３日に出願された日本特許出願２０１１−０２１９１８を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明は、教師ラベルが付与されていないデータを用いてモデルの適応化を行う、いわゆる教師なし適応化を行うモデル適応化装置に好適に適用される。例えば、本発明は、音声入力で機器に情報を入力する音声認識装置、手書き入力で機器に情報を入力する文字認識装置、紙文書をスキャンして電子化する光学的文字読取り（ＯＣＲ）装置などに適用される。また、本発明は、ジェスチャで機器などを操作するためのジェスチャ認識装置、野球中継のホームランシーンやサッカーのゴールシーンなどのイベントを検出してインデクスを付与する映像インデクシング装置などにも適用可能である。

１０，７２モデル記憶手段
２０，７１モデル更新手段
１０１，７０１，８３１データ記憶手段
１０２，２０２，７０２，８３２教師ラベル記憶手段
１０３，７２１，８３３第１モデル記憶手段
１０４，７２２，８４４第２モデル記憶手段
１０５，７０３認識手段
１０６，７１１第１モデル更新手段
１０７，７１２第２モデル更新手段
１０８，７０４重み係数制御手段
２０１音声データ記憶手段
２０３音響モデル記憶手段
２０４言語モデル記憶手段
２０５音声認識手段
２０６音響モデル更新手段
２０７言語モデル更新手段
７１Ｎ第Ｎモデル更新手段
７２Ｎ第Ｎモデル記憶手段
８１モデル適応化用プログラム
８２データ処理装置
８３記憶装置

Claims

認識対象のデータが想定する条件である目的ドメインに沿ったデータを、少なくとも２つのモデルと当該各モデルが認識処理に与える重み値を示す重み係数の候補とを基に認識した認識結果を生成する認識手段と、
前記認識結果を教師ラベルとして、前記モデルのうち少なくとも１つ以上のモデルを更新するモデル更新手段と、
前記重み係数を決定する重み係数決定手段とを備え、
前記重み係数決定手段は、各モデルの信頼度が高いほど重み値が小さくなるように重み係数を決定し、
前記認識手段は、前記重み係数決定手段が決定した重み係数を基に認識結果を生成し、
前記モデル更新手段は、前記重み係数に基づいて生成された認識結果を教師ラベルとして、前記モデルを更新する
ことを特徴とするモデル適応化装置。
重み係数決定手段は、目的ドメインのデータが与えられたとき、認識手段が生成した認識結果になる条件付き確率が最大になる重み係数を決定する
請求項１記載のモデル適応化装置。
認識手段は、複数の重み係数の候補ごとに目的ドメインのデータの認識結果をそれぞれ生成し、
重み係数決定手段は、目的ドメインのデータに対する前記認識結果が最尤になる重み係数を前記重み係数の候補の中から選択することにより、重み係数を決定する
請求項１または請求項２記載のモデル適応化装置。
モデル更新手段は、重み係数決定手段が選択した重み係数で重み付けされたモデルに基づいて生成された認識結果を教師ラベルとしてモデルを更新し、
認識手段は、更新されたモデルを基に、複数の重み係数の候補ごとに認識結果を再度生成し、
重み係数決定手段は、生成された前記認識結果に基づいて、前記複数の重み係数の候補の中から重み係数を再度選択することにより、重み係数を決定する
請求項３記載のモデル適応化装置。
重み係数決定手段は、予め定められた条件に基づいて重み係数を反復して更新するか否かを決定する収束判定を行い、当該収束判定において重み係数を更新すると判定したことを条件に重み係数を更新し、
認識手段は、前記収束判定において重み係数を更新すると判定されたことを条件に、更新された重み係数で重み付けされたモデルに基づいて認識結果を更新する
請求項１または請求項２記載のモデル適応化装置。
重み係数決定手段は、目的ドメインのデータが与えられたとき、認識手段が生成した認識結果になる条件付き確率が最大になる重み係数を最急勾配法に基づいて更新する
請求項５記載のモデル適応化装置。
認識手段は、３つ以上のモデルと重み係数の候補とを基に目的ドメインに沿ったデータを認識した認識結果を生成し、
モデル更新手段は、前記認識結果を教師ラベルとして前記３つ以上のモデルのうちの少なくとも１つ以上のモデルを更新し、
重み係数決定手段は、前記３つ以上のモデルのうち各モデルの信頼度が高いほど重み値が小さくなるように重み係数を決定する
請求項１記載のモデル適応化装置。
重み係数決定手段は、各モデルが想定する条件と目的ドメインとの隔たりがより大きいモデルの重み係数をより小さくすると決定する
請求項１から請求項７のうちのいずれか１項に記載のモデル適応化装置。
認識対象のデータが想定する条件である目的ドメインに沿ったデータを、少なくとも２つのモデルと当該各モデルが認識処理に与える重み値を示す重み係数の候補とを基に認識した認識結果を生成し、
各モデルの信頼度が高いほど重み値が小さくなるように重み係数を決定し、
決定された重み係数を基に認識結果を生成し、
前記認識結果を教師ラベルとして、前記モデルのうち少なくとも１つ以上のモデルを更新する
ことを特徴とするモデル適応化方法。
コンピュータに、
認識対象のデータが想定する条件である目的ドメインに沿ったデータを、少なくとも２つのモデルと当該各モデルが認識処理に与える重み値を示す重み係数の候補とを基に認識した認識結果を生成する認識処理、
前記認識結果を教師ラベルとして、前記モデルのうち少なくとも１つ以上のモデルを更新するモデル更新処理、および、
前記重み係数を決定する重み係数決定処理を実行させ、
前記重み係数決定処理で、各モデルの信頼度が高いほど重み値が小さくなるように重み係数を決定させ、
前記認識処理で、重み係数決定処理で決定された重み係数を基に認識結果を生成させ、
前記モデル更新処理で、前記重み係数に基づいて生成された認識結果を教師ラベルとして、前記モデルを更新させる
ためのモデル適応化用プログラム。