JPWO2012105231A1 - モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム - Google Patents

モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム Download PDF

Info

Publication number
JPWO2012105231A1
JPWO2012105231A1 JP2012555747A JP2012555747A JPWO2012105231A1 JP WO2012105231 A1 JPWO2012105231 A1 JP WO2012105231A1 JP 2012555747 A JP2012555747 A JP 2012555747A JP 2012555747 A JP2012555747 A JP 2012555747A JP WO2012105231 A1 JPWO2012105231 A1 JP WO2012105231A1
Authority
JP
Japan
Prior art keywords
model
weighting factor
recognition
unit
weight coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012555747A
Other languages
English (en)
Other versions
JP5861649B2 (ja
Inventor
孝文 越仲
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2012555747A priority Critical patent/JP5861649B2/ja
Publication of JPWO2012105231A1 publication Critical patent/JPWO2012105231A1/ja
Application granted granted Critical
Publication of JP5861649B2 publication Critical patent/JP5861649B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

認識手段81は、認識対象のデータが想定する条件である目的ドメインに沿ったデータを、少なくとも2つのモデルとその各モデルが認識処理に与える重み値を示す重み係数の候補とを基に認識した認識結果を生成する。重み係数決定手段83は、各モデルの信頼度が高いほど重み値が小さくなるように重み係数を決定する。モデル更新手段82は、認識結果を教師ラベルとして、モデルのうち少なくとも1つ以上のモデルを更新する。

Description

本発明は、教師ラベルが付与されていないデータを用いてモデルの適応化を行う、いわゆる教師なし適応化を行うモデル適応化装置、モデル適応化方法およびモデル適応化用プログラムに関する。
非特許文献1には、音響モデルおよび言語モデルの教師なし適応を改善する方法が記載されている。非特許文献1に記載された方法では、音響モデルの教師なし適応として最尤線形回帰法(MLLR法:Maximum Likelihood Linear Regression)が用いられる。また、ベースラインとなる単語N−gramと品詞N−gramとを線形補間した適応モデルを構築することにより言語モデルが構築される。
なお、各種の計算方法として、非特許文献2には、動的計画法に基づく計算方法が記載されている。また、特許文献1および非特許文献3には、最急勾配法による反復解法が記載されている。
再表WO2008/105263号
草間、奥山、加藤、小坂著「講演音声認識における教師なし適応の改善」電子情報通信学会技術報告書(SP)、2007年6月28日、第107巻、第116号、SP2007-20、p.73−78 F. Wessel, R. Schluter, K. Macherey, H. Ney, "Confidence measures for large vocabulary continuous speech recognition," IEEE Transactions on Speech and Audio Processing, Vol.9, No.3, pp.288-298, Mar 2001. T. Emori, Y. Onishi, K. Shinoda, "Automatic Estimation of Scaling Factors Among Probabilistic Models in Speech Recognition," Proc. of INTERSPEECH2007, pp.1453-1456, 2007.
図8は、非特許文献1に記載された方法に基づいて、音声認識に使用するモデルを適応化する一般的なモデル適応化装置の例を示すブロック図である。図8に例示するモデル適応化装置は、音声データ記憶手段201と、教師ラベル記憶手段202と、音響モデル記憶手段203と、言語モデル記憶手段204と、音声認識手段205と、音響モデル更新手段206と、言語モデル更新手段207とを備えている。
音声データ記憶手段201は音声データを記憶する。音響モデル記憶手段203は音響モデルを記憶する。また、言語モデル記憶手段204は、言語モデルを記憶する。音声認識手段205は、音声データ記憶手段201に記憶された音声データを読み出すと、音響モデル記憶手段203に記憶された音響モデルおよび言語モデル記憶手段204に記憶された言語モデルをそれぞれ参照して音声認識を行い、音声認識結果を教師ラベル記憶手段202に書き込む。
音響モデル更新手段206は、音響モデル記憶手段203から音響モデルを読み出すとともに、音声データ記憶手段201に記憶された音声データおよび教師ラベル記憶手段202に記憶された認識結果(すなわち、教師ラベル)をそれぞれ読み出す。そして、音響モデル更新手段206は、音声データの音響的条件に適合するように音響モデルの適応化を行い、適応化された音響モデルを音響モデル記憶手段203に記憶させる。
言語モデル更新手段207は、言語モデル記憶手段204から言語モデルを読み出すとともに、教師ラベル記憶手段202に記憶された認識結果(すなわち、教師ラベル)を読み出す。そして、言語モデル更新手段207は、認識結果の言語的条件に適合するように言語モデルの適応化を行い、適応化された言語モデルを言語モデル記憶手段204に記憶させる。なお、音声認識、音響モデル更新および言語モデル更新の一連の処理は、任意の順序、任意の回数で反復実行することが可能である。
また、上記説明では、音声認識に使用する音響モデルと言語モデルを適応化する方法に、上述するモデル適応化装置を使用する場合を例示した。モデルを適応化するこのようなモデル適応化技術は、音声認識に限らず、種々のパターン認識に用いることが可能である。例えば、光学的文字読取(OCR)装置における文字画像モデルや言語モデル、ジェスチャ認識システムなどに用いられる映像イベント検出装置における映像イベントモデルや、イベント言語モデルなどの適応化に、上記モデル適応化技術を用いることができる。
しかし、上述する一般的なモデル適応化装置を用いて音声認識を行う際に、音声認識の結果が多くの誤りを含んでいたとする。この場合、音響モデルの更新処理および言語モデルの更新処理で、高い認識精度を達成するために必要な音響モデルおよび言語モデルを生成できないという問題がある。なぜならば、誤った認識結果というノイズを含んだ教師ラベルを用いてモデルを適応化させても、目的の音声データに十分に適合したモデルが得られないからである。
モデルの適応化とは、想定する音響的な条件、言語的な条件といった各種条件(以下、このような条件をドメインと記す。)が認識対象データのドメインと異なる場合に、元のドメイン(以下、原ドメインと記す。)のモデルを、認識対象のドメイン(以下、目的ドメインと記す。)に適合するように変換する手続きである。
図9は、モデルの適応化による変換手続きを概念的に示した説明図である。音響モデルを規定するパラメタ一式をθAM、言語モデルを規定するパラメタ一式をθLMとすると、原ドメインSのモデルは、θAMおよびθLMで規定されるモデル空間上の点Sに対応する。ここで、モデル空間上の点Tが目的ドメインTのモデルに対応する場合、モデルの適応化とは、音響モデルと言語モデルの対を点Sから点Tに移す手続きといえる。
以下、簡単な例を挙げて説明する。原ドメインSを、「音響的な条件=静かな環境、言語的な条件=政治の話題」とし、目的ドメインTを、「音響的な条件=うるさい環境、言語的な条件=スポーツの話題」とする。この場合、原ドメインSの音響モデルおよび言語モデルは、静かな環境で話される状況で政治の話題に関する音声を認識することを想定したモデルと言える。
しかし、認識しようとする対象が、うるさい環境で話されるスポーツの話題の場合、認識しようとする対象と原ドメインSのモデルとの間にドメインの不一致(ミスマッチ)がある。そのため、このような対象に原ドメインSを用いるのは適切でなく、この原ドメインSを用いた場合には、正確な音声認識ができない。そこで、このミスマッチを解消し、正確な音声認識ができるように、モデルをSからTへ変換する処理がモデルの適応化である。
なお、音響的な条件には、例示した雑音の他、話者や音声伝送時の回線品質などの条件も含まれる。また、言語的な条件には、例示した話題の他、話者や音声伝送時の回線品質なども含まれ、話題の他にも、語彙や話し方(文語的、口語的)などの条件も含まれる。これらの様々な条件が、ドメインを規定する要素となり得る。
このように、モデルの適応化では、原ドメインと目的ドメインが異なるという前提がある。すなわち、原ドメインと目的ドメインとの間でミスマッチがなければ適応化の必要はないが、両者の間にミスマッチがある場合には適応化の必要があると言える。一方、ミスマッチがある以上、モデルの適応化に必要な教師ラベルには、認識誤りを示すノイズが混入する可能性がある。特に、原ドメインと目的ドメインが大きく異なる場合、教師ラベルには多くの認識誤りが含まれるため、適応化によって良好なモデルを得ることが難しくなる。
そこで、本発明は、元のドメインと目的ドメインとの間に差異があり、元のドメインに基づいて生成される教師ラベルに認識誤りを示すノイズが多数混入する場合でも、目的ドメインのデータから良好なモデルを生成できるモデル適応化装置、モデル適応化方法およびモデル適応化用プログラムを提供することを目的とする。
本発明によるモデル適応化装置は、認識対象のデータが想定する条件である目的ドメインに沿ったデータを、少なくとも2つのモデルとその各モデルが認識処理に与える重み値を示す重み係数の候補とを基に認識した認識結果を生成する認識手段と、認識結果を教師ラベルとして、モデルのうち少なくとも1つ以上のモデルを更新するモデル更新手段と、重み係数を決定する重み係数決定手段とを備え、重み係数決定手段が、各モデルの信頼度が高いほど重み値が小さくなるように重み係数を決定し、認識手段が、重み係数決定手段が決定した重み係数を基に認識結果を生成し、モデル更新手段が、重み係数に基づいて生成された認識結果を教師ラベルとして、モデルを更新することを特徴とする。
本発明によるモデル適応化方法は、認識対象のデータが想定する条件である目的ドメインに沿ったデータを、少なくとも2つのモデルとその各モデルが認識処理に与える重み値を示す重み係数の候補とを基に認識した認識結果を生成し、各モデルの信頼度が高いほど重み値が小さくなるように重み係数を決定し、決定された重み係数を基に認識結果を生成し、認識結果を教師ラベルとして、モデルのうち少なくとも1つ以上のモデルを更新することを特徴とする。
本発明によるモデル適応化用プログラムは、コンピュータに、認識対象のデータが想定する条件である目的ドメインに沿ったデータを、少なくとも2つのモデルとその各モデルが認識処理に与える重み値を示す重み係数の候補とを基に認識した認識結果を生成する認識処理、認識結果を教師ラベルとして、モデルのうち少なくとも1つ以上のモデルを更新するモデル更新処理、および、重み係数を決定する重み係数決定処理を実行させ、重み係数決定処理で、各モデルの信頼度が高いほど重み値が小さくなるように重み係数を決定させ、認識処理で、重み係数決定処理で決定された重み係数を基に認識結果を生成させ、モデル更新処理で、重み係数に基づいて生成された認識結果を教師ラベルとして、モデルを更新させることを特徴とする。
本発明によれば、元のドメインと目的ドメインとの間に差異があり、元のドメインに基づいて生成される教師ラベルに認識誤りを示すノイズが多数混入する場合でも、目的ドメインのデータから良好なモデルを生成できる。
本発明の第1の実施形態におけるモデル適応化装置の例を示すブロック図である。 重み係数を決定する方法の例を示す説明図である。 第1の実施形態におけるモデル適応化装置の動作例を示すフローチャートである。 第2の実施形態におけるモデル適応化装置の動作例を示すフローチャートである。 本発明の第3の実施形態におけるモデル適応化装置の例を示すブロック図である。 本発明によるモデル適応化装置を実現するコンピュータの例を示すブロック図である。 本発明によるモデル適応化装置の最小構成の例を示すブロック図である。 一般的なモデル適応化装置の例を示すブロック図である。 モデルの適応化による変換手続きを概念的に示した説明図である。
以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
図1は、本発明の第1の実施形態におけるモデル適応化装置の例を示すブロック図である。本実施形態におけるモデル適応化装置は、データ記憶手段101と、教師ラベル記憶手段102と、モデル記憶手段10と、認識手段105と、モデル更新手段20と、重み係数制御手段108とを備えている。また、モデル記憶手段10は、第1モデル記憶手段103と、第2モデル記憶手段104とを含み、モデル更新手段20は、第1モデル更新手段106と、第2モデル更新手段107とを含む。
データ記憶手段101は、目的ドメインのデータを記憶する。上述の通り、目的ドメインとは、認識対象のデータに想定される条件であり、目的ドメインのデータとは、目的ドメインが示す条件に沿ったデータを意味する。目的ドメインのデータは、例えば、ユーザ等により予めデータ記憶手段101に記憶される。
教師ラベル記憶手段102は、後述する認識手段105が出力した認識結果を教師ラベルとして記憶する。
第1モデル記憶手段103は、データを認識する際に使用する第1のモデルを記憶する。同様に、第2モデル記憶手段104は、データを認識する際に使用する第2のモデルを記憶する。第1モデル記憶手段103および第2モデル記憶手段104には、それぞれ初期状態としてユーザ等により、第1のモデルおよび第2のモデルがそれぞれ記憶される。
認識手段105は、後述する重み係数制御手段108から重み係数の値を受け取ると、第1モデル記憶手段103および第2モデル記憶手段104に各々記憶された第1のモデルおよび第2のモデルを読み出す。認識手段105は、読み出したこれらのモデルと重み係数の候補とを基にデータ記憶手段101に記憶されたデータを認識する。ここで、重み係数とは、各モデルが認識処理に与える重み値のことを示す。
なお、モデルの内容に変更がない場合など、すでに読み出したモデルの内容をそのまま使用できる場合、認識手段105は、第1のモデルおよび第2のモデルを第1モデル記憶手段103および第2モデル記憶手段104から読み出さなくてもよい。そして、認識手段105は、認識結果を教師ラベルとして教師ラベル記憶手段102に記憶させる。
例えば、認識対象のデータが音声の場合、第1のモデルは音響モデルに対応付けることができる。また、第2のモデルは言語モデルに対応付けることができる。音響モデルは、音韻ごとの標準的な音のパターンであり、言語モデルは、単語間の接続可能性を数値化したデータである。この場合、認識手段105は、入力音声を種々の音韻パターンと照合し、かつ、単語の接続可能性を加味して、入力音声と最も適合する文字列や単語列を求める。このようにして、認識手段105は、認識対象のデータを認識する。
認識手段105は、例えば、ベイズの定理に基づき、与えられたデータOに対する認識結果がWである確率P(W|O)を以下の式1で評価し、P(W|O)が最大になるWを1位の認識結果としてもよい。ただし、認識手段105がデータを認識する方法は、式1を用いる方法に限定されない。
Figure 2012105231
ここで、κは、後述する重み係数制御手段108から受け取る重み係数である。また、右辺第1項が第1のモデルに基づく評価式に相当し、右辺第2項が第2のモデルに基づく評価式に相当する。また、第2項にかかる係数κが、第2のモデルに乗じる重み係数である。さらに、θは、第一のモデルを規定するパラメタ一式であり、θは、第二のモデルを規定するパラメタ一式である。なお、ここでは、第1のモデルに乗じる重み係数を定数である1としている。例えば、データが音声の場合、第1項が音響モデル、第2項が言語モデルに相当する。ただし、認識対象のデータは音声に限定されない。認識手段105は、音声以外のデータの場合でも、上記の式1を用いてデータを認識することが可能である。
認識手段105は、尤度1位の結果だけでなく、N位までの候補を列挙したNベストなどを認識結果とすることが望ましい。また、データが音声や動画像、文字列のような時系列データの場合、認識手段105は、各時刻に対応する認識結果の候補をネットワークで結んだラティス(グラフ)のような形式とすることが望ましい。
重み係数制御手段108は、認識手段105が目的ドメインのデータを認識する際に、第1のモデルと第2のモデルに乗じる重み係数を制御する。具体的には、重み係数制御手段108は、第1のモデルと第2のモデルとに乗じる重み係数の候補として予め定められた値を認識手段105に順次通知し、認識手段105を動作させる。
また、重み係数制御手段108は、教師ラベル記憶手段102に記憶された認識結果、データ記憶手段101に記憶されたデータ、第1モデル記憶手段103に記憶された第1のモデルおよび第2モデル記憶手段104に記憶された第2のモデルを参照し、第1のモデルと第2のモデルに乗じる重み係数の値の候補の中から、最適な値を決定する。
なお、既に参照した第1のモデルおよび第2のモデルの内容に変化がない場合、重み係数制御手段108は、既に参照したモデルの内容を用いて最適な重み係数の値を決定してもよい。
図2は、重み係数を決定する方法の例を示す説明図である。Sは原ドメインを示し、TおよびTは、目的ドメインを示す。以下、図2を参照して、重み係数の決定方法を説明する。上述したように、モデルの適応化は、2つのモデルのパラメタで張られる空間(モデル空間)上における、ある点(原ドメイン)から別の点(目的ドメイン)への変換と考えられる。
原ドメインと目的ドメインの関係については、あらゆるパターンがあり得る。基本パターンの一つとして、図2に例示するSとTの関係のように、第1のモデルのドメインのみが異なり、第2のモデルのドメインはほぼ同一である場合が考えられる。また、もう一つの基本パターンとして、図2に例示するSとTの関係のように、第2のモデルのドメインのみが異なり、第1のモデルのドメインはほぼ同一である場合が考えられる。
これらの基本パターンにおいては、重み係数を次のように設定すればよい。すなわち、SとTの関係のように、第2のモデルのドメインが同一である場合、目的ドメインのデータを認識するに際して、第2のモデルは信頼できる。したがって、第2のモデルにかかる重みを大きくし、第1のモデルにかかる重みを小さくすればよい。逆に、SとTの関係のように、第1のモデルのドメインが同一である場合、第1のモデルが信頼できる。そのため、第1のモデルにかかる重みを大きくし、第2のモデルにかかる重みを小さくすればよい。
以上の考察を一般化すると、重み係数は、第1のモデルにおける原ドメインと目的ドメインとの間の隔たり、および、第2のモデルにおける原ドメインと目的ドメインとの間の隔たりによって決定される。具体的には、ドメイン間の隔たりがより大きいモデルの重みをより小さくすべきである。
重み係数制御手段108は、ドメイン間の隔たりがより大きいモデルの重み係数をより小さくする(言い換えると、ドメイン間の隔たりがより小さいモデルの重み係数をより大きくする)ことができる方法であれば、重み係数を決定する方法としてどのような方法を用いてもよい。重み係数制御手段108は、例えば、目的ドメインのデータOが与えられた場合における認識結果Wの条件付き確率P(W|O)が最大になるように重み係数を決定してもよい。
例えば、認識手段105が上述する式1を用いてデータの認識を行う場合、重み係数制御手段108は、目的ドメインのデータに対する認識結果の条件付き確率が最大となるように、重み係数の値を決定する。具体的には、重み係数制御手段108は、以下の式2に例示する目的関数が最大になるように、重み係数の値の候補κ,κ,…の中から最適値を選択する。
Figure 2012105231
ここで、W(κ)は、重み係数κのもとで、認識手段105が生成した認識結果である。重み係数の値の候補の決定方法は任意である。例えば、0.1から10の間を、指数尺度や対数尺度などの適当な尺度で10等分した値を重み係数の値の候補として決定すればよい。なお、認識結果が、多数の認識結果の候補をネットワークで結んだ大規模なラティス(グラフ)であるような場合、上述する式2の右辺におけるP(O|W(κ),θ)やP(W(κ)|θ)の算出にかかる計算量が大きくなる。この場合、重み係数制御手段108は、例えば、非特許文献2に記載されている動的計画法に基づいて計算することで、効率的に重み係数を決定することが可能になる。
第1モデル更新手段106は、データ記憶手段101に記憶されたデータ、および、教師ラベル記憶手段102に記憶された教師ラベルを用いて、第1のモデルの適応化を行う。同様に、第2モデル更新手段107は、データ記憶手段101に記憶されたデータ、および、教師ラベル記憶手段102に記憶された教師ラベルを用いて、第2のモデルの適応化を行う。
具体的には、第1モデル更新手段106は、認識手段105が出力して教師ラベル記憶手段102に記憶させた認識結果(すなわち、教師ラベル)をもとに、第1のモデルに対して目的ドメインへの適応化を行う。このとき、第1モデル更新手段106は、教師ラベルとして、重み係数制御手段108が選択した重み係数κに対応するW(κ)(すなわち、重み係数κのもとで、認識手段105が生成した認識結果)を使用する。
また、第1モデル更新手段106は、必要に応じて(具体的には、適応化の処理に必要な場合)、データ記憶手段101に記憶されたデータを用いてもよい。例えば、認識の対象とするデータが音声の場合、音響モデルの適応化を行う場合には、教師ラベルおよび音声データが必要になる。そのため、第1モデル更新手段106は、データ記憶手段101に記憶された音声データを利用する。一方、言語モデルの適応化を行う場合には、音声データは不要である。そのため、第1モデル更新手段106は、データ記憶手段101に記憶された音声データを利用しないことになる。
そして、第1モデル更新手段106は、適応化の結果得られたモデルで第1のモデルを更新し、更新した第1のモデルを第1モデル記憶手段103に記憶させる。
例えば、適応化の対象とするモデルが音響モデルの場合、第1モデル更新手段106は、MLLR法によりモデルの適応化を行ってもよい。また、例えば、適応化の対象とするモデルが言語モデルの場合、第1モデル更新手段106は、非特許文献1に記載された言語モデル適応方法に示すように、大量テキストから作成される単語N−gramと、品詞N−gramとを線形補間して適応モデルを構築してもよい。ただし、適応化の対象とするモデルは音響モデルや言語モデルに限定されず、また、適応化の方法も上記方法に限定されない。
また、第2モデル更新手段107は、第1モデル更新手段106と同様に、認識手段105が出力して教師ラベル記憶手段102に記憶させた認識結果(すなわち、教師ラベル)をもとに、第2のモデルに対して目的ドメインへの適応化を行う。このとき、第2モデル更新手段107も、教師ラベルとして、重み係数制御手段108が選択した重み係数κに対応するW(κ)(すなわち、重み係数κのもとで、認識手段105が生成した認識結果)を使用する。なお、モデルを適応化する方法は、第1モデル更新手段106がモデルを適応化する方法と同一であってもよく、異なっていてもよい。
また、第2モデル更新手段107は、必要に応じて、データ記憶手段101に記憶されたデータを用いてもよい。そして、第2モデル更新手段107は、適応化の結果得られたモデルで第2のモデルを更新し、更新した第2のモデルを第2モデル記憶手段104に記憶させる。
なお、第1モデル更新手段106と第2モデル更新手段107のいずれか一方がモデルの更新を行ってもよく、第1モデル更新手段106と第2モデル更新手段107の両方がモデルの更新を行ってもよい。
データ記憶手段101、教師ラベル記憶手段102およびモデル記憶手段10(より具体的には、第1モデル記憶手段103および第2モデル記憶手段104)は、例えば、磁気ディスク等により実現される。
また、認識手段105と、モデル更新手段20(より具体的には、第1モデル更新手段106と、第2モデル更新手段107)と、重み係数制御手段108とは、プログラム(モデル適応化用プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、モデル適応化装置の記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、認識手段105、モデル更新手段20(より具体的には、第1モデル更新手段106および第2モデル更新手段107)、および、重み係数制御手段108として動作してもよい。
また、認識手段105と、モデル更新手段20(より具体的には、第1モデル更新手段106と、第2モデル更新手段107)と、重み係数制御手段108とは、それぞれが専用のハードウェアで実現されていてもよい。
なお、上記の説明では、モデル適応化装置が音声データを扱う場合について説明したが、モデル適応化装置が扱うデータは音声データに限られない。本実施形態におけるモデル適応化装置では、音声、画像、動画像など、任意のデータを扱うことが可能である。この場合、認識手段105は、複数のモデルを組み合わせてデータを認識すればよい。
具体的には、認識対象のデータが音声の場合、例えば、第1のモデルが音韻の音響モデルに相当し、第2のモデルが単語の言語モデルに相当する。また、認識対象のデータが文字画像の場合、例えば、第1のモデルが文字画像のモデルに相当し、第2のモデルが単語の言語モデルに相当する。さらに、認識対象のデータがジェスチャを表す動画像の場合、例えば、第1のモデルが、定義されたジェスチャの動画像モデルに相当し、第2のモデルが、ジェスチャの出現傾向を規定する言語モデル(例えば、文法規則など)に相当する。
次に、本実施形態のモデル適応化装置の動作を説明する。図3は、第1の実施形態におけるモデル適応化装置の動作例を示すフローチャートである。
まず、認識手段105は、第1モデル記憶手段103から第1のモデルを読み出し、第2モデル記憶手段104から第2のモデルを読み出す(ステップA1)。また、認識手段105は、データ記憶手段101に記憶されたデータを読み出す(ステップA2)。そして、重み係数制御手段108は、重み係数の値の候補の一つを認識手段105に通知する(ステップA3)。
認識手段105は、第1のモデル、第2のモデル、および重み係数の候補を参照して、読み出したデータを認識する(ステップA4)。そして、認識手段105は、認識した結果を教師ラベルとして、教師ラベル記憶手段102に記憶させる(ステップA5)。
なお、認識手段105は、ステップA2およびステップA4それぞれの処理を一括で行ってもよい。また、データの量がある程度多い場合、認識手段105は、小単位ごとにデータを読み出して認識するという処理を反復するパイプライン的な処理を行ってもよい。この場合、ステップA3の処理をステップA2の前段で行うことが好ましい。
認識手段105は、ステップA3からステップA5までの処理(すなわち、重み係数の値の候補を変えて認識処理を行い、認識結果を教師ラベルとして教師ラベル記憶手段102に記憶させる処理)が所定の回数分実行されたか否かを判断する(ステップA6)。所定の回数分実行されていない場合(ステップA6における「いいえ」)、ステップA3以降の処理を繰り返す。所定の回数分実行された場合、ステップA7の処理に移る。すなわち、重み係数の値を変えながら、ステップA3以降ステップA5までの処理が重み係数の値の候補の個数分反復される。
次に、重み係数制御手段108は、重み係数の候補ごとに教師ラベル記憶手段102に記憶された教師ラベルなどを用いて、例えば、上記式2の目的関数に従い、最適な重み係数の値を選択する(ステップA7)。
そして、第1モデル更新手段106は、最適な重み係数に対応する教師ラベルをもとに、第1のモデルに対して目的ドメインへの適応化を行う。そして、第1モデル更新手段106は、適応化の結果得られる更新された第1のモデルを第1モデル記憶手段103に記憶させる。適応化の際、第1モデル更新手段106は、必要に応じてデータ記憶手段101に記憶されたデータを用いてもよい。
同様に、第2モデル更新手段107は、最適な重み係数の値に対応する教師ラベルをもとに、第2のモデルに対して目的ドメインへの適応化を行う。そして、第2モデル更新手段107は、適応化の結果得られる更新された第2のモデルを第2モデル記憶手段104に記憶させる。また、第2モデル更新手段107は、適応化の際、必要に応じてデータ記憶手段101に記憶されたデータを用いてもよい(ステップA8)。
なお、本実施形態におけるモデル適応化装置では、図3に例示するフローチャートにおける一連の処理を複数回くり返すようにしてもよい。更新された第1のモデルと第2のモデルを使って再度データを認識すると、より良い認識結果(すなわち、教師ラベル)を得られる可能性があり、さらに、より良い教師ラベルを用いて重み係数を再度選び直すことで、更新されたモデルに適合したより良い重み係数が得られる可能性があるからである。
以上のように、本実施形態によれば、認識手段105が、第1のモデル、第2のモデルおよび重み係数の候補に基づいて目的ドメインのデータを認識することにより教師ラベルを生成する。そして、第1モデル更新手段106が、その教師ラベルを用いて第1のモデルを更新し、第2モデル更新手段107が、その教師ラベルを用いて第2のモデルを更新する。また、重み係数制御手段108が、認識手段105が第1のモデルと第2のモデルを参照する際の重み係数を制御する。
具体的には、重み係数制御手段108は、重み係数の値の候補から、第1のモデルと第2のモデルのうち、信頼のおけるモデル(すなわち、原ドメインと目的ドメインの間の差異が小さいモデル)に対して、より強い重みがかかる値を選択する。そして、認識手段105は、重み係数の値の候補に基づいてデータを認識し、教師ラベルを生成する。さらに、第1モデル更新手段106および第2モデル更新手段107は、それぞれ、重み係数制御手段108が選択した重み係数によって生成された教師ラベルを用いて、第1のモデルと第2のモデルを更新する。
以上のような構成により、元のドメイン(原ドメイン)と目的ドメインの間に差異があり、元のドメインに基づいて生成される教師ラベルに認識誤りを示すノイズが多く混入する場合でも、目的ドメインのデータから良好なモデルを生成できる。
実施形態2.
次に、本発明の第2の実施形態について説明する。本実施形態におけるモデル適応化装置の構成は、図1に例示する第1の実施形態と同様である。すなわち、本発明の第2の実施形態におけるモデル適応化装置は、データ記憶手段101と、教師ラベル記憶手段102と、モデル記憶手段10と、認識手段105と、モデル更新手段20と、重み係数制御手段108とを備えている。また、モデル記憶手段10は、第1モデル記憶手段103と、第2モデル記憶手段104とを含み、モデル更新手段20は、第1モデル更新手段106と、第2モデル更新手段107とを含む。
そして、データ記憶手段101は、目的ドメインのデータを記憶し、第1モデル記憶手段103および第2モデル記憶手段104は、データを認識する際に使用する第1のモデルおよび第2のモデルをそれぞれ記憶する。また、認識手段105は、第1のモデルおよび第2のモデルを参照してデータを認識する。そして、教師ラベル記憶手段102は、認識手段105が出力した認識結果を教師ラベルとして記憶する。
また、第1モデル更新手段106および第2モデル更新手段107は、データ記憶手段101に記憶されたデータと、教師ラベル記憶手段102に記憶された教師ラベルとを用いて、それぞれ第1のモデルおよび第2のモデルの適応化を行う。また、重み係数制御手段108は、認識手段105がデータを認識する際に、第1のモデルと第2のモデルに乗じる重み係数を制御する。
なお、本実施形態では、予め定めた有限個の候補から重み係数の最適値を選択するのではなく、探索アルゴリズムを用いて最適値を探索する点において、第1の実施形態と異なる。
認識手段105は、重み係数制御手段108から重み係数の候補を受け取ると、第1モデル記憶手段103に記憶された第1のモデルおよび第2モデル記憶手段104に記憶された第2のモデルを必要に応じて読み出し、これらのモデルと重み係数とを基にデータ記憶手段101に記憶されたデータを認識する。また、認識手段105は、認識結果(すなわち、教師ラベル)を教師ラベル記憶手段102に記憶させる。なお、すでに記憶された古い教師ラベルが教師ラベル記憶手段102に記憶されている場合、認識手段105は、古い教師ラベルを新たな教師ラベルで上書きする。
認識手段105がデータを認識する方法は、第1の実施形態の方法と同様である。また、認識結果を、第1の実施形態と同様、N位までの認識結果(Nベスト)やラティス(グラフ)のような形式とすることが望ましい。
重み係数制御手段108は、モデルごとの重み係数を決定する。本実施形態では、重み係数制御手段108は、まず、第1のモデルと第2のモデルに乗じる重み係数に、予め定めた初期値を設定する初期化処理を行う。初期化処理の後、重み係数制御手段108は、認識手段105が出力して教師ラベル記憶手段102に記憶させた認識結果(すなわち、教師ラベル)、データ記憶手段101に記憶されたデータ、第1モデル記憶手段103に記憶された第1のモデルおよび第2モデル記憶手段104に記憶された第2のモデルを参照し、重み係数の値を逐次更新する。なお、初期化処理で設定される初期値や重み係数を逐次更新する値は最終的な重み係数になり得る値である。よって、これらの値も、重み係数の候補と言うことができる。
なお、既に参照した第1のモデルおよび第2のモデルの内容に変化がない場合(例えば、第1モデル更新手段106および第2モデル更新手段107が各モデルを更新していない場合)、重み係数制御手段108は、既に参照したモデルの内容を用いて重み係数の値を更新してもよい。
認識手段105が上記の式1を用いてデータの認識を行う場合、重み係数制御手段108は、第1の実施形態と同様、目的ドメインのデータに対する認識結果の条件付き確率が最大となるように重み係数の値を更新する。具体的には、重み係数制御手段108は、上述する式2に例示する目的関数が最大になるように、重み係数の値を更新する。
重み係数の値を更新する方法として、例えば、非特許文献3や、特許文献1に記載された最急勾配法のような反復解法を用いることができる。重み係数制御手段108は、例えば、以下に示す式3を用いて重み係数κを更新してもよい。
Figure 2012105231
ここで、ρは更新のステップサイズを示す予め定められた定数である。
そして、重み係数制御手段108は、予め定められた条件に基づいて重み係数を反復して更新するか否かを決定する収束判定を行う。重み係数制御手段108は、例えば、更新前の重み係数と更新後の重み係数との差が、予め定めた所定の閾値を上回るか否かを判定する。そして、この差が予め定めた所定の閾値を上回る場合に、重み係数制御手段108は、認識手段105による認識結果に基づいて重み係数を更新すると判定してもよい。また、重み係数制御手段108は、所定の回数分重み係数を更新した場合に、重み係数を更新しないと判定してもよい。ただし、収束判定の方法は、これらの方法に限定されない。
ここで、重み係数制御手段108が重み係数を更新すると判定した場合、認識手段105は、更新された重み係数で重み付けされたモデルに基づいて認識結果である教師ラベルを更新する。そして、第1モデル更新手段106および第2モデル更新手段107が、更新された教師ラベルに基づいてモデルの更新を行い、重み係数制御手段108が、更新されたモデルに基づいて重み係数を更新する。
第1モデル更新手段106は、認識手段105が出力して教師ラベル記憶手段102に記憶させた最新の認識結果(すなわち、教師ラベル)をもとに、第1のモデルに対して目的ドメインへの適応化を行う。また、第1モデル更新手段106は、必要に応じて、データ記憶手段101に記憶されたデータを用いてもよい。そして、第1モデル更新手段106は、適応化の結果得られたモデルで第1のモデルを更新し、更新した第1のモデルを第1モデル記憶手段103に記憶させる。なお、モデルを適応化する方法は、第1の実施形態において第1モデル更新手段106がモデルを適応化する方法と同様である。
また、第2モデル更新手段107は、第1モデル更新手段106と同様に、認識手段105が出力して教師ラベル記憶手段102に記憶させた認識結果(すなわち、教師ラベル)をもとに、第2のモデルに対して目的ドメインへの適応化を行う。また、第2モデル更新手段106は、必要に応じて、データ記憶手段101に記憶されたデータを用いてもよい。そして、第2モデル更新手段107は、適応化の結果得られたモデルで第2のモデルを更新し、更新した第2のモデルを第2モデル記憶手段104に記憶させる。なお、モデルを適応化する方法は、第1モデル更新手段106がモデルを適応化する方法と同一であってもよく、異なっていてもよい。
なお、本実施形態におけるモデル適応化装置でも、音声、画像、動画像など、任意のデータを扱うことが可能である。この点についても、第1の実施形態と同様である。また、本実施形態における認識手段105、モデル更新手段20、および、重み係数制御手段108も、プログラム(モデル適応化用プログラム)に従って動作するコンピュータのCPUによって実現される。
次に、本実施形態のモデル適応化装置の動作を説明する。図4は、第2の実施形態におけるモデル適応化装置の動作例を示すフローチャートである。
まず、認識手段105は、第1モデル記憶手段103から第1のモデルを読み出し、第2モデル記憶手段104から第2のモデルを読み出す(ステップB1)。また、認識手段105は、データ記憶手段101に記憶されたデータを読み出す(ステップB2)。そして、重み係数制御手段108は、第1のモデルと第2のモデルに乗じる重み係数の候補に、予め定めた初期値を設定する(ステップB3)。なお、ステップB1〜ステップB3の処理順は任意である。
次に、認識手段105は、第1のモデル、第2のモデル、および重み係数の候補を参照して、読み出したデータを認識する(ステップB4)。そして、認識手段105は、認識した結果を教師ラベルとして、教師ラベル記憶手段102に記憶させる(ステップB5)。なお、教師ラベル記憶手段102が既に教師ラベルを記憶している場合、この教師ラベルを新たな教師ラベルで上書きする。
なお、認識手段105は、ステップB2、ステップB4およびステップB5それぞれの処理を一括で行ってもよい。また、データの量がある程度多い場合、認識手段105は、小単位ごとにデータを読み出して認識するという処理を反復するパイプライン的な処理を行ってもよい。
次に、第1モデル更新手段106は、教師ラベル記憶手段102に記憶された教師ラベルをもとに、第1のモデルに対して目的ドメインへの適応化を行う。そして、第1モデル更新手段106は、適応化の結果得られる更新された第1のモデルを、第1モデル記憶手段103に記憶させる。なお、適応化の際、第1モデル更新手段106は、必要に応じてデータ記憶手段101に記憶されたデータを用いてもよい。
同様に、第2モデル更新手段107は、教師ラベル記憶手段102に記憶された教師ラベルをもとに、第2のモデルに対して目的ドメインへの適応化を行う。そして、第2モデル更新手段107は、適応化の結果得られる更新された第2のモデルを、第2モデル記憶手段104に記憶させる。また、第2モデル更新手段107は、適応化の際、必要に応じてデータ記憶手段101に記憶されたデータを用いてもよい(ステップB6)。
次に、重み係数制御手段108は、例えば、上記式3に例示する目的関数に従い、第1のモデルと第2のモデルに乗じる重み係数κを更新する(ステップB7)。
そして、重み係数制御手段108は、収束判定を行う(ステップB8)。具体的には、重み係数κの変化量が予め定めた所定の閾値よりも小さい場合、重み係数制御手段108は、重み係数κの値が収束したと判定し(ステップS8における「はい」)、処理を終了する。一方、重み係数κの変化量が予め定めた所定の閾値よりも小さい場合、重み係数制御手段108は、重み係数κの値が収束したと判定していないと判定し(ステップS8における「いいえ」)、ステップB4以降の処理を繰り返す。
なお、収束判定の方法は、上記方法に限定されない。重み係数制御手段108は、例えば、モデルの変化や教師ラベルの変化などを参照して重み係数κが収束したか否かを判定してもよい。また、重み係数制御手段108は、重み係数の更新回数に上限を設け、更新回数が上限に達した時点で処理を終了するようにしてもよい。
以上のように、本実施形態によれば、認識手段105が、第1のモデル、第2のモデルおよび重み係数の候補に基づいて目的ドメインのデータを認識することにより教師ラベルを生成する。そして、第1モデル更新手段106が、その教師ラベルを用いて第1のモデルを更新し、第2モデル更新手段107が、その教師ラベルを用いて第2のモデルを更新する。また、重み係数制御手段108が、認識手段105が第1のモデルと第2のモデルを参照する際の重み係数を制御する。
具体的には、重み係数制御手段108は、第1のモデルと第2のモデルのうち、信頼のおけるモデル(すなわち、原ドメインと目的ドメインの間の差異が小さいモデル)に対し、より強い重みがかかるように重み係数の値を反復的に更新する。そして、認識手段105は、その重み係数に基づいてデータを認識し、反復的に教師ラベルを生成する。さらに、第1モデル更新手段106および第2モデル更新手段107は、それぞれ、重み係数制御手段108が選択した重み係数によって生成された教師ラベルを用いて、第1のモデルと第2のモデルを反復的に更新する。
以上のような構成により、第1の実施形態の効果に加え、目的ドメインのデータから良好なモデルをより少ない計算量で生成できる。すなわち、第1の実施形態で示した重み係数の値の候補数よりも少ない数の認識処理によって、目的ドメインのデータから良好なモデルを生成できる。
実施形態3.
図5は、本発明の第3の実施形態におけるモデル適応化装置の例を示すブロック図である。本実施形態におけるモデル適応化装置は、データ記憶手段701と、教師ラベル記憶手段702と、モデル記憶手段72と、認識手段703と、モデル更新手段71と、重み係数制御手段704とを備えている。また、モデル記憶手段72は、第1モデル記憶手段721〜第Nモデル記憶手段72Nを含む。ここで、Nは、3以上の整数である。また、モデル更新手段71は、第1モデル更新手段711〜第Nモデル更新手段71Nを含む。
データ記憶手段701は、目的ドメインのデータを記憶する。第1モデル記憶手段721〜第Nモデル記憶手段72Nは、データを認識する際に使用する第1のモデル〜第Nのモデルをそれぞれ記憶する。認識手段703は、第1のモデル〜第Nのモデルを参照してデータを認識する。そして、教師ラベル記憶手段702は、認識手段703が出力した認識結果を教師ラベルとして記憶する。
また、第1モデル更新手段711〜第Nモデル更新手段71Nは、データ記憶手段701に記憶されたデータと、教師ラベル記憶手段702に記憶された教師ラベルとを用いて、それぞれ第1のモデル〜第Nのモデルの適応化を行う。また、重み係数制御手段704は、認識手段703がデータを認識する際に、第1のモデル〜第Nのモデルに乗じる重み係数を制御する。
上述するように、本発明の第3の実施形態は、第2の実施形態において2個であったモデルの個数をN個(N>2)に拡張したものである。2個を超える数のモデルを同時に扱う認識処理には、様々な態様が考えられる。例えば、音声翻訳のモデルがこれに該当する。便宜的に、翻訳も認識処理の一種であると考えた場合、音声を認識して他の言語に翻訳する音声翻訳システムのようなシステムでは、音声認識に使用する音響モデルおよび言語モデルに加えて、認識結果を翻訳するための翻訳モデルが必要になる。
また、音声認識システムの中でも、条件の異なる複数の音響モデルや言語モデルを線形結合などにより組み合わせて用いるシステムの場合、本実施形態によるモデル適応化装置を用いることで、このシステムに用いられるモデルを適応化することが可能になる。
認識手段703は、重み係数制御手段704から重み係数の値を受け取ると、第1モデル記憶手段721〜第Nモデル記憶手段72Nに各々記憶された第1のモデル〜第Nのモデルを必要に応じて読み出し、これらのモデルと重み係数の候補とを基にデータ記憶手段701に記憶されたデータを認識する。また、認識手段703は、認識結果(すなわち、教師ラベル)を教師ラベル記憶手段702に記憶させる。なお、すでに記憶された古い教師ラベルが教師ラベル記憶手段702に記憶されている場合、認識手段703は、古い教師ラベルを新たな教師ラベルで上書きする。
認識手段703がデータを認識する方法は、第1の実施形態および第2の実施形態に記載された方法と同様である。また、認識結果は、第1の実施形態および第2の実施形態と同様、N位までの認識結果(Nベスト)やラティス(グラフ)のような形式とすることが望ましい。
さらに、認識手段703は、モデルごとに認識した途中段階の認識結果も、教師ラベル記憶手段702に記憶させることが望ましい。例えば、上述する音声翻訳を行う場合、認識手段703は、最終的な翻訳結果に加えて、途中段階の認識結果である音声認識結果も教師ラベル記憶手段702に記憶させる。
重み係数制御手段704は、モデルごとの重み係数を決定する。本実施形態では、重み係数制御手段704は、まず、第1のモデル〜第Nのモデルに乗じる重み係数の候補に、予め定めた初期値を設定する初期化処理を行う。なお、本実施形態では、重み係数κはスカラではなく、モデルの個数から1を減じた(N−1)の次元数を持つベクトルである。
初期化処理の後、重み係数制御手段704は、認識手段703が出力して教師ラベル記憶手段702に記憶させた認識結果(すなわち、教師ラベル)、データ記憶手段701に記憶されたデータ、第1モデル記憶手段721〜第Nモデル記憶手段72Nにそれぞれ記憶された第1のモデル〜第Nのモデルを参照し、重み係数の値を逐次更新する。
認識手段703が上述する式1を用いてデータの認識を行う場合、重み係数制御手段704は、第1の実施形態および第2の実施形態と同様、目的ドメインのデータに対する認識結果の条件付き確率が最大となるように重み係数の値を更新する。具体的には、重み係数制御手段704は、上述する式2に例示する目的関数が最大になるように、重み係数の値を更新する。重み係数制御手段704は、例えば、第2の実施形態で例示した最急勾配法のような反復解法を用いて、重み係数κを更新してもよい。なお、上述するように、重み係数κはベクトルであるので、最急勾配法に基づく更新式は、以下に示す式4で表すことができる。
Figure 2012105231
ここで、ρは更新のステップサイズを示す予め定められた定数であり、κはベクトルκの第i要素である(i=1,…,N−1)。
そして、重み係数制御手段704は、予め定められた条件に基づいて重み係数を反復して更新するか否かを決定する収束判定を行う。なお、収束判定の方法は、第2の実施形態で記載した方法と同様である。
第1モデル更新手段711〜第Nモデル更新手段71Nは、教師ラベル記憶手段702に記憶させた最新の認識結果(すなわち、教師ラベル)をもとに、それぞれ、第1のモデル〜第Nのモデルに対して目的ドメインへの適応化を行う。また、第1モデル更新手段106は、必要に応じて、データ記憶手段101に記憶されたデータを用いてもよい。そして、第1モデル更新手段711〜第Nモデル更新手段71Nは、適応化の結果得られたモデルで第1のモデル〜第Nのモデルを更新し、更新した第1のモデル〜第Nのモデルをそれぞれ第1モデル記憶手段721〜第Nモデル記憶手段72Nに記憶させる。なお、モデルを適応化する方法は、第1の実施形態において第1モデル更新手段106や第2モデル更新手段107がモデルを適応化する方法と同様である。
データ記憶手段701、教師ラベル記憶手段702およびモデル記憶手段72(より具体的には、第1モデル記憶手段721〜第Nモデル記憶手段72N)は、例えば、磁気ディスク等により実現される。
また、認識手段703と、モデル更新手段71(より具体的には、第1モデル更新手段711〜第Nモデル更新手段71N)と、重み係数制御手段704とは、プログラム(モデル適応化用プログラム)に従って動作するコンピュータのCPUによって実現される。
なお、本実施形態のモデル適応化装置の動作は、第2の実施形態におけるモデル適応化装置の動作と同様のため、説明を省略する。また、第1の実施形態および第2の実施形態と同様、対象とするデータの形態に制限はなく、音声、画像、動画像など、任意のデータを扱うことが可能である。
以上のように、本実施形態によれば、認識手段703が、第1のモデル〜第Nのモデルおよび重み係数の候補に基づいて目的ドメインのデータを認識することにより教師ラベルを生成し、第1モデル更新手段711〜第Nモデル更新手段71Nが、その教師ラベルを用いて第1のモデル〜第Nのモデルをそれぞれ更新する。また、重み係数制御手段704が、認識手段703が第1のモデル〜第Nのモデルを参照する際の重み係数を制御する。
具体的には、重み係数制御手段704は、第1のモデル〜第Nのモデルのうち、信頼のおけるモデル(すなわち、原ドメインと目的ドメインの間の差異が小さいモデル)に対し、より強い重みがかかるように重み係数の値を反復的に更新する。そして、認識手段703は、その重み係数の値に基づいてデータを認識し、反復的に教師ラベルを生成する。さらに、第1モデル更新手段711〜第Nモデル更新手段71Nは、それぞれ、生成された教師ラベルを用いて、第1のモデル〜第Nのモデルを反復的に更新する。
以上のような構成により、第2の実施形態の効果に加え、任意の個数(N>2)のモデルを目的ドメインに適応化させたい場合であっても、目的ドメインのデータから良好なモデルを生成できる。また、対象とするモデルの個数Nが多い場合、重み係数κの最適値を求めるためには高次元(N−1)空間の探索を行う必要がある。このような探索には、一般に多くの計算量を要するが、本実施形態では、最急勾配法のような探索アルゴリズムを用いているため、比較的少ない計算量で重み係数κの最適値を得ることができる。
図6は、本発明の第1の実施形態または第2の実施形態におけるモデル適応化装置を実現するコンピュータの例を示すブロック図である。
記憶装置83は、データ記憶手段831、教師ラベル記憶手段832、第1モデル記憶手段833、および、第2モデル記憶手段834を含む。データ記憶手段831、教師ラベル記憶手段832、第1モデル記憶手段833、および、第2モデル記憶手段834は、第1の実施形態または第2の実施形態における音声データ記憶手段201、教師ラベル記憶手段202、第1モデル記憶手段203、および、第2モデル記憶手段204に相当する。すなわち、記憶装置83は、認識対象とするデータ、教師ラベル、第1のモデルおよび第2のモデルを記憶する。
また、本発明におけるモデル適応化用プログラム81は、データ処理装置82に読み込まれ、データ処理装置82の動作を制御する。このとき、データ処理装置82は、第1の実施形態または第2の実施形態における認識手段105、第1モデル更新手段106、第2モデル更新手段107、および、重み係数制御手段108として動作する。具体的には、データ処理装置82は、記憶装置83から必要な情報を読み取る処理や、作成したモデル等の情報を記憶装置83に書き込む処理を行う。
次に、本発明の最小構成を説明する。図7は、本発明によるモデル適応化装置の最小構成の例を示すブロック図である。本発明によるモデル適応化装置は、認識対象のデータが想定する条件である目的ドメインに沿ったデータを、少なくとも2つのモデル(例えば、音響モデルと言語モデル)とその各モデルが認識処理に与える重み値を示す重み係数の候補とを基に認識した認識結果を生成する認識手段81(例えば、認識手段105)と、認識結果を教師ラベルとして、モデルのうち少なくとも1つ以上のモデルを更新するモデル更新手段82(例えば、第1モデル更新手段106、第2モデル更新手段107)と、重み係数を決定する重み係数決定手段83(例えば、重み係数制御手段108)とを備えている。
重み係数決定手段83は、各モデルの信頼度が高いほど重み値が小さくなるように重み係数を決定する。また、認識手段81は、重み係数決定手段83が決定した重み係数を基に認識結果を生成する。そして、モデル更新手段82は、重み係数に基づいて生成された認識結果を教師ラベルとして、モデルを更新する。
そのような構成により、元のドメインと目的ドメインとの間に差異があり、元のドメインに基づいて生成される教師ラベルに認識誤りを示すノイズが多数混入する場合でも、目的ドメインのデータから良好なモデルを生成できる。
また、重み係数決定手段83は、目的ドメインのデータが与えられたとき、認識手段が生成した認識結果になる条件付き確率(例えば、目的ドメインのデータOが与えられた場合における認識結果Wの条件付き確率P(W|O))が最大になる重み係数を(例えば、式2に基づいて)決定してもよい。
また、認識手段81が、複数の重み係数の候補ごとに目的ドメインのデータの認識結果をそれぞれ生成し、重み係数決定手段83が、目的ドメインのデータに対する認識結果が最尤になる重み係数(例えば、式2の目的関数が最大になるκ)を重み係数の候補の中から選択することにより、重み係数を決定してもよい。
また、モデル更新手段82が、重み係数決定手段83が選択した重み係数で重み付けされたモデルに基づいて生成された認識結果を教師ラベルとしてモデルを更新し、認識手段81が、更新されたモデルを基に、複数の重み係数の候補ごとに認識結果を再度生成し、重み係数決定手段83が、生成された認識結果に基づいて、複数の重み係数の候補の中から重み係数を再度選択することにより、重み係数を決定してもよい。
また、重み係数決定手段83が、予め定められた条件(例えば、更新前の重み係数と更新後の重み係数との差が予め定めた所定の閾値を上回る)に基づいて重み係数を反復して更新するか否かを決定する収束判定を行い、その収束判定において重み係数を更新すると判定したことを条件に重み係数を更新し、認識手段81が、収束判定において重み係数を更新すると判定されたことを条件に、更新された重み係数で重み付けされたモデルに基づいて認識結果を更新してもよい。
また、重み係数決定手段83は、目的ドメインのデータが与えられたとき、認識手段81が生成した認識結果になる条件付き確率が最大になる重み係数を最急勾配法に基づいて更新してもよい。
また、認識手段81が、3つ以上(例えば、N個)のモデルと重み係数の候補とを基に目的ドメインに沿ったデータを認識した認識結果を生成し、モデル更新手段82が、認識結果を教師ラベルとして3つ以上のモデルのうちの少なくとも1つ以上のモデルを更新し、重み係数決定手段83は、3つ以上のモデルのうち各モデルの信頼度が高いほど重み値が小さくなるように重み係数を決定してもよい。
また、重み係数決定手段83は、各モデルが想定する条件と目的ドメインとの隔たりがより大きいモデルの重み係数をより小さくすると決定してもよい。
以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2011年2月3日に出願された日本特許出願2011−021918を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、教師ラベルが付与されていないデータを用いてモデルの適応化を行う、いわゆる教師なし適応化を行うモデル適応化装置に好適に適用される。例えば、本発明は、音声入力で機器に情報を入力する音声認識装置、手書き入力で機器に情報を入力する文字認識装置、紙文書をスキャンして電子化する光学的文字読取り(OCR)装置などに適用される。また、本発明は、ジェスチャで機器などを操作するためのジェスチャ認識装置、野球中継のホームランシーンやサッカーのゴールシーンなどのイベントを検出してインデクスを付与する映像インデクシング装置などにも適用可能である。
10,72 モデル記憶手段
20,71 モデル更新手段
101,701,831 データ記憶手段
102,202,702,832 教師ラベル記憶手段
103,721,833 第1モデル記憶手段
104,722,844 第2モデル記憶手段
105,703 認識手段
106,711 第1モデル更新手段
107,712 第2モデル更新手段
108,704 重み係数制御手段
201 音声データ記憶手段
203 音響モデル記憶手段
204 言語モデル記憶手段
205 音声認識手段
206 音響モデル更新手段
207 言語モデル更新手段
71N 第Nモデル更新手段
72N 第Nモデル記憶手段
81 モデル適応化用プログラム
82 データ処理装置
83 記憶装置

Claims (10)

  1. 認識対象のデータが想定する条件である目的ドメインに沿ったデータを、少なくとも2つのモデルと当該各モデルが認識処理に与える重み値を示す重み係数の候補とを基に認識した認識結果を生成する認識手段と、
    前記認識結果を教師ラベルとして、前記モデルのうち少なくとも1つ以上のモデルを更新するモデル更新手段と、
    前記重み係数を決定する重み係数決定手段とを備え、
    前記重み係数決定手段は、各モデルの信頼度が高いほど重み値が小さくなるように重み係数を決定し、
    前記認識手段は、前記重み係数決定手段が決定した重み係数を基に認識結果を生成し、
    前記モデル更新手段は、前記重み係数に基づいて生成された認識結果を教師ラベルとして、前記モデルを更新する
    ことを特徴とするモデル適応化装置。
  2. 重み係数決定手段は、目的ドメインのデータが与えられたとき、認識手段が生成した認識結果になる条件付き確率が最大になる重み係数を決定する
    請求項1記載のモデル適応化装置。
  3. 認識手段は、複数の重み係数の候補ごとに目的ドメインのデータの認識結果をそれぞれ生成し、
    重み係数決定手段は、目的ドメインのデータに対する前記認識結果が最尤になる重み係数を前記重み係数の候補の中から選択することにより、重み係数を決定する
    請求項1または請求項2記載のモデル適応化装置。
  4. モデル更新手段は、重み係数決定手段が選択した重み係数で重み付けされたモデルに基づいて生成された認識結果を教師ラベルとしてモデルを更新し、
    認識手段は、更新されたモデルを基に、複数の重み係数の候補ごとに認識結果を再度生成し、
    重み係数決定手段は、生成された前記認識結果に基づいて、前記複数の重み係数の候補の中から重み係数を再度選択することにより、重み係数を決定する
    請求項3記載のモデル適応化装置。
  5. 重み係数決定手段は、予め定められた条件に基づいて重み係数を反復して更新するか否かを決定する収束判定を行い、当該収束判定において重み係数を更新すると判定したことを条件に重み係数を更新し、
    認識手段は、前記収束判定において重み係数を更新すると判定されたことを条件に、更新された重み係数で重み付けされたモデルに基づいて認識結果を更新する
    請求項1または請求項2記載のモデル適応化装置。
  6. 重み係数決定手段は、目的ドメインのデータが与えられたとき、認識手段が生成した認識結果になる条件付き確率が最大になる重み係数を最急勾配法に基づいて更新する
    請求項5記載のモデル適応化装置。
  7. 認識手段は、3つ以上のモデルと重み係数の候補とを基に目的ドメインに沿ったデータを認識した認識結果を生成し、
    モデル更新手段は、前記認識結果を教師ラベルとして前記3つ以上のモデルのうちの少なくとも1つ以上のモデルを更新し、
    重み係数決定手段は、前記3つ以上のモデルのうち各モデルの信頼度が高いほど重み値が小さくなるように重み係数を決定する
    請求項1記載のモデル適応化装置。
  8. 重み係数決定手段は、各モデルが想定する条件と目的ドメインとの隔たりがより大きいモデルの重み係数をより小さくすると決定する
    請求項1から請求項7のうちのいずれか1項に記載のモデル適応化装置。
  9. 認識対象のデータが想定する条件である目的ドメインに沿ったデータを、少なくとも2つのモデルと当該各モデルが認識処理に与える重み値を示す重み係数の候補とを基に認識した認識結果を生成し、
    各モデルの信頼度が高いほど重み値が小さくなるように重み係数を決定し、
    決定された重み係数を基に認識結果を生成し、
    前記認識結果を教師ラベルとして、前記モデルのうち少なくとも1つ以上のモデルを更新する
    ことを特徴とするモデル適応化方法。
  10. コンピュータに、
    認識対象のデータが想定する条件である目的ドメインに沿ったデータを、少なくとも2つのモデルと当該各モデルが認識処理に与える重み値を示す重み係数の候補とを基に認識した認識結果を生成する認識処理、
    前記認識結果を教師ラベルとして、前記モデルのうち少なくとも1つ以上のモデルを更新するモデル更新処理、および、
    前記重み係数を決定する重み係数決定処理を実行させ、
    前記重み係数決定処理で、各モデルの信頼度が高いほど重み値が小さくなるように重み係数を決定させ、
    前記認識処理で、重み係数決定処理で決定された重み係数を基に認識結果を生成させ、
    前記モデル更新処理で、前記重み係数に基づいて生成された認識結果を教師ラベルとして、前記モデルを更新させる
    ためのモデル適応化用プログラム。
JP2012555747A 2011-02-03 2012-01-31 モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム Active JP5861649B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012555747A JP5861649B2 (ja) 2011-02-03 2012-01-31 モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2011021918 2011-02-03
JP2011021918 2011-02-03
JP2012555747A JP5861649B2 (ja) 2011-02-03 2012-01-31 モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム
PCT/JP2012/000606 WO2012105231A1 (ja) 2011-02-03 2012-01-31 モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム

Publications (2)

Publication Number Publication Date
JPWO2012105231A1 true JPWO2012105231A1 (ja) 2014-07-03
JP5861649B2 JP5861649B2 (ja) 2016-02-16

Family

ID=46602455

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012555747A Active JP5861649B2 (ja) 2011-02-03 2012-01-31 モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム

Country Status (3)

Country Link
US (1) US20130317822A1 (ja)
JP (1) JP5861649B2 (ja)
WO (1) WO2012105231A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821252A (zh) * 2022-03-16 2022-07-29 电子科技大学 一种图像识别算法的自成长方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9153231B1 (en) * 2013-03-15 2015-10-06 Amazon Technologies, Inc. Adaptive neural network speech recognition models
US9589565B2 (en) 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US9311298B2 (en) 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
US20150073790A1 (en) * 2013-09-09 2015-03-12 Advanced Simulation Technology, inc. ("ASTi") Auto transcription of voice networks
US9529794B2 (en) 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization
US20150325236A1 (en) * 2014-05-08 2015-11-12 Microsoft Corporation Context specific language model scale factors
US9874914B2 (en) 2014-05-19 2018-01-23 Microsoft Technology Licensing, Llc Power management contracts for accessory devices
US9717006B2 (en) 2014-06-23 2017-07-25 Microsoft Technology Licensing, Llc Device quarantine in a wireless network
KR102380833B1 (ko) * 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
KR102492318B1 (ko) 2015-09-18 2023-01-26 삼성전자주식회사 모델 학습 방법 및 장치, 및 데이터 인식 방법
US10896681B2 (en) * 2015-12-29 2021-01-19 Google Llc Speech recognition with selective use of dynamic language models
CN112259081B (zh) * 2020-12-21 2021-04-16 北京爱数智慧科技有限公司 语音的处理方法和装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7395205B2 (en) * 2001-02-13 2008-07-01 International Business Machines Corporation Dynamic language model mixtures with history-based buckets
JP2002268677A (ja) * 2001-03-07 2002-09-20 Atr Onsei Gengo Tsushin Kenkyusho:Kk 統計的言語モデル生成装置及び音声認識装置
US8010357B2 (en) * 2004-03-02 2011-08-30 At&T Intellectual Property Ii, L.P. Combining active and semi-supervised learning for spoken language understanding
CA2612404C (en) * 2005-06-17 2014-05-27 National Research Council Of Canada Means and method for adapted language translation
CN101034390A (zh) * 2006-03-10 2007-09-12 日电(中国)有限公司 用于语言模型切换和自适应的装置和方法
US7813926B2 (en) * 2006-03-16 2010-10-12 Microsoft Corporation Training system for a speech recognition application
WO2008096582A1 (ja) * 2007-02-06 2008-08-14 Nec Corporation 認識器重み学習装置および音声認識装置、ならびに、システム
EP2133868A4 (en) * 2007-02-28 2013-01-16 Nec Corp WEIGHT COEFFICIENT LEARNING SYSTEM AND AUDIO RECOGNITION SYSTEM
US7991615B2 (en) * 2007-12-07 2011-08-02 Microsoft Corporation Grapheme-to-phoneme conversion using acoustic data
JP4729078B2 (ja) * 2008-06-13 2011-07-20 日本電信電話株式会社 音声認識装置とその方法と、プログラムとその記録媒体
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US20110161072A1 (en) * 2008-08-20 2011-06-30 Nec Corporation Language model creation apparatus, language model creation method, speech recognition apparatus, speech recognition method, and recording medium

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821252A (zh) * 2022-03-16 2022-07-29 电子科技大学 一种图像识别算法的自成长方法

Also Published As

Publication number Publication date
WO2012105231A1 (ja) 2012-08-09
US20130317822A1 (en) 2013-11-28
JP5861649B2 (ja) 2016-02-16

Similar Documents

Publication Publication Date Title
JP5861649B2 (ja) モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム
KR102117574B1 (ko) 자기-학습 자연 언어 이해를 갖는 다이얼로그 시스템
US11210475B2 (en) Enhanced attention mechanisms
US20240161732A1 (en) Multi-dialect and multilingual speech recognition
Sriram et al. Robust speech recognition using generative adversarial networks
US10943583B1 (en) Creation of language models for speech recognition
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
US9934777B1 (en) Customized speech processing language models
US9767790B2 (en) Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium
JP6066354B2 (ja) 信頼度計算の方法及び装置
WO2020214259A1 (en) Conditional teacher-student learning for model training
JP5229216B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
WO2010021368A1 (ja) 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体
WO2010061507A1 (ja) 言語モデル作成装置
US9734826B2 (en) Token-level interpolation for class-based language models
US20130346066A1 (en) Joint Decoding of Words and Tags for Conversational Understanding
JPWO2008004666A1 (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP2008203469A (ja) 音声認識装置及び方法
JP2008216341A (ja) 誤り傾向学習音声認識装置及びコンピュータプログラム
WO2010100853A1 (ja) 言語モデル適応装置、音声認識装置、言語モデル適応方法、及びコンピュータ読み取り可能な記録媒体
WO2012001458A1 (en) Voice-tag method and apparatus based on confidence score
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
WO2012004955A1 (ja) テキスト補正方法及び認識方法
JP7466784B2 (ja) グラフベースの時間的分類を用いたニューラルネットワークの訓練

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151207

R150 Certificate of patent or registration of utility model

Ref document number: 5861649

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150