JPWO2014049998A1

JPWO2014049998A1 - 情報検索システム、情報検索方法およびプログラム

Info

Publication number: JPWO2014049998A1
Application number: JP2014538143A
Authority: JP
Inventors: 祥史大西
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-09-27
Filing date: 2013-09-12
Publication date: 2016-08-22
Also published as: WO2014049998A1; US20150234937A1

Abstract

認識結果としてあらわれにくい単語がクエリとなった場合にも、音声に関するデータを精度よく検索することが出来る、情報検索システム、情報検索方法、およびプログラムを提供すること。本発明は、入力された単語または単語集合の言語モデルであるクエリ用言語モデルを算出する算出手段と、音声認識用言語モデルを用いて音声データを音声認識した結果を記憶する記憶手段を参照して、前記結果から、前記クエリ用言語モデルとの類似度が高い結果を、適合データとして抽出する抽出手段と、前記適合データを用いて前記音声認識用言語モデルを更新する第一の更新手段と、更新された音声認識用言語モデルを用いて、前記記憶手段に記憶された結果を更新する第二の更新手段とを有し、前記抽出手段は、更新された結果から前記クエリ用言語モデルとの類似度が高い結果を抽出し、抽出された結果に対応するデータである検索結果を出力する情報検索システムである。

Description

本発明は、情報検索システム、情報検索方法およびプログラムに関し、特に、音声に関するデータを検索する、情報検索システム、情報検索方法およびプログラムに関する。

音声に関するデータを検索する技術の一例が、特許文献１に記載されている。特許文献１に記載された検索装置は、入力されたクエリおよび音声認識結果のテキスト間の類似度を、音声認識の信頼度を用いて算出し、類似度が高い音声認識結果を、検索結果として出力する。一般に、音声認識結果には誤認識が含まれる。この検索装置は、音声認識結果に対する信頼度を用いて、低い信頼度となる音声認識結果を検索結果から除外することにより、誤った認識結果を検索結果として出力する確率を減少させている。

特開２０１１‐２４８１０７号公報

特許文献１に記載された技術では、音声認識結果としてあらわれにくい単語がクエリとなったときに、音声に関するデータを、精度よく検索できないという課題がある。

例えば、音声認識においてＮ−ｇｒａｍなどの言語モデルを用いた場合、言語モデルの学習において出現頻度が低い単語は、音声認識結果にも出現しにくい。また、このような単語は、音声認識結果に出現しても言語モデルの確率値が低いため、低い信頼度となることがある。このため、このような単語に関するクエリが入力された場合、音声に関するデータを、精度よく検索できない。

[発明の目的]
本発明の目的は、上記課題を解決し、認識結果としてあらわれにくい単語がクエリとなった場合にも、音声に関するデータを精度よく検索することが出来る、情報検索システム、情報検索方法、およびプログラムを提供することである。

本発明は、入力された単語または単語集合の言語モデルであるクエリ用言語モデルを算出する算出手段と、音声認識用言語モデルを用いて音声データを音声認識した結果を記憶する記憶手段を参照して、前記結果から、前記クエリ用言語モデルとの類似度が高い結果を、適合データとして抽出する抽出手段と、前記適合データを用いて前記音声認識用言語モデルを更新する第一の更新手段と、更新された音声認識用言語モデルを用いて、前記記憶手段に記憶された結果を更新する第二の更新手段とを有し、前記抽出手段は、更新された結果から前記クエリ用言語モデルとの類似度が高い結果を抽出し、抽出された結果に対応するデータである検索結果を出力する情報検索システムである。

本発明は、入力された単語または単語集合の言語モデルであるクエリ言語モデルを算出し、音声認識用言語モデルを用いて音声データを音声認識した結果を記憶した記憶手段を参照して、前記結果から、前記クエリ用言語モデルとの類似度が高い結果を、適合データとして抽出し、前記適合データを用いて前記音声認識用言語モデルを更新し、更新された音声認識用言語モデルを用いて、前記記憶手段に記憶された結果を更新し、更新された結果から、前記クエリ言語モデルとの類似度が高い結果を抽出し、抽出された結果に対応するデータである検索結果を出力する情報検索方法である。

本発明は、入力された単語または単語集合の言語モデルであるクエリ言語モデルを算出するステップと、音声認識用言語モデルを用いて音声データを音声認識した結果を記憶した記憶手段を参照して、前記結果から、前記クエリ用言語モデルとの類似度が高い結果を、適合データとして抽出するステップと、前記適合データを用いて前記音声認識用言語モデルを更新するステップと、更新された音声認識用言語モデルを用いて、前記記憶手段に記憶された結果を更新するステップと、更新された結果から、前記クエリ言語モデルとの類似度が高い結果を抽出し、抽出された結果に対応するデータである検索結果を出力するステップと、をコンピュータに実行させるプログラムである。

本発明によれば、音声認識結果としてあらわれにくい単語がクエリとなった場合にも、音声に関するデータを精度よく検索することができる。

本発明の第一の実施の形態に係るハードウェア構成図である。本発明の第一の実施の形態に係るブロック図である。本発明の第一の実施の形態に係るフローチャートである。本発明の第二の実施の形態に係るブロック図である。本発明の第二の実施の形態に係るフローチャートである。本発明の第三の実施の形態に係るブロック図である。本発明の第三の実施の形態に係るフローチャートである。本発明の第四の実施の形態に係るブロック図である。本発明の第四の実施の形態に係るフローチャートである。本発明の実施例に係るブロック図である。本発明の実施例に係るフローチャートである。本発明の情報検索システムの構成を示すブロック図である。

次に、本発明の実施の形態について図面を参照して詳細に説明する。

実施の形態１．
図１は、本発明の第１の実施形態に係る情報検索システム１のハードウェア構成図である。図１に示すように、情報検索システム１は、ＣＰＵ１０、メモリ１２、ハードディスクドライブ（ＨＤＤ）１４、図示しないネットワークを介してデータの通信を行う通信インタフェース（ＩＦ）１６、ディスプレイ等の表示装置１８およびキーボードやマウス等のポインティングデバイスを含む入力装置２０を有する。これらの構成要素は、バス２２を通して互いに接続されており、互いにデータの入出力を行う。なお、情報検索システム１のハードウェア構成は、この構成に制限されず、適宜変更することができる。

図２は、本発明の第1の実施の形態による情報検索システムの構成を示すブロック図である。

図２に示すように、第1の実施の形態による情報検索システムは、算出手段１１０と、抽出手段１２０と、第一の更新手段１３０と、第二の更新手段１４０と、記憶手段２１０とを有する。

記憶手段２１０は、音声認識用言語モデルを利用して音声データを音声認識した結果（以下、音声認識結果）を、記憶している。音声認識用言語モデルは、音声信号を単語列として認識する際に、認識されるべき単語列の制約を定義したモデルである。記憶手段２１０は、１つの音声データのファイルを音声認識した結果を、１つのテキストファイルの形式で記憶している。記憶手段２１０は、少なくとも１つ以上の音声認識結果（テキストファイル）を記憶している。

算出手段１１０は、入力されたクエリに基づいて、クエリ用言語モデルを算出する。ここで、クエリとは、検索したい単語あるいは単語の集合である。

次に、クエリ用言語モデルの算出方法の一例を示す。算出手段１１０は、数１によってクエリ用言語モデルを算出する。数１において、クエリ用言語モデルは、クエリの単語集合に対するユニグラム確率値ｐ（ｗ｜θ_Q）である。ここで、Ｑはクエリの単語集合、｜Ｑ｜はＱの単語数、ｗは単語、θ_Qはクエリ用言語モデルのパラメータである。また、ｎ（ｗ，Ｑ）は、ｗがＱに含まれる単語の場合はＱに含まれるｗの個数であり、ｗがＱに含まれない場合は０となる関数である。

[数１]

抽出手段１２０は、算出手段１１０で算出されたクエリ用言語モデルと、記憶手段２１０に記憶された各音声認識結果（各テキストファイル）との類似度を算出し、類似度が高い音声認識結果（テキストファイル）を、適合データとして抽出する。

次に、抽出手段１２０の抽出方法の一例を示す。抽出手段１２０は、数２により、クエリ用言語モデルと音声認識結果の言語モデルのＫＬ（カルバック・ライブラー）距離を、類似度として算出する。ＫＬ距離は、２つの、確率分布である言語モデルの差異を表す指標である。２つの言語モデルの類似度は、ＫＬ距離の値が小さいほど高い。ＫＬ（θ_Q||θ_D）はＫＬ距離、ｐ（ｗ｜θ_D）は、記憶手段２１０に記憶された、個々の音声認識結果Ｄの言語モデルである。

［数２］

ここで、抽出手段１２０は、数３により、音声認識結果の言語モデルｐ（ｗ｜θ_D）を算出する。ｐ（ｗ｜θ_C）は、記憶手段２１０に記憶された音声認識結果の、全体集合Ｃの言語モデルである。ここで、｜Ｄ｜は音声認識結果Ｄの単語数であり、μは音声認識結果Ｄのユニグラム確率値とｐ（ｗ｜θ_C）のスムージングパラメタである。例えばμは事前に与えられている。さらに、抽出手段１２０は、記憶手段２１０に記憶された音声認識結果全体を用いて、例えばＮを３あるいは４としたＮ−ｇｒａｍ確率として、ｐ（ｗ｜θ_C）を算出する。

［数３］

次に、抽出手段１２０は、例えば、算出したＫＬ距離があらかじめ定めた閾値より小さい、または閾値以下である、音声認識結果を抽出する。あるいは、抽出手段１２０は、ＫＬ距離が近い順にあらかじめ定めた個数の、音声認識結果を抽出してもよい。

第一の更新手段１３０は、抽出手段１２０で抽出した、クエリ用言語モデルとの類似度が高い音声認識結果である適合データを利用して、音声認識用言語モデルを更新する。

第一の更新手段１３０は、例えば、数５により音声認識用言語モデルを更新する。ここで、ｐ（ｗ｜θ_ASR）は、更新される前の音声認識用言語モデルであり、ｐ（ｗ｜θ'_ASR）は、更新された後の音声認識用言語モデルである。また、ｐ（ｗ｜θ_CF）は、適合データの集合ＣＦの言語モデルである。βは、更新するためのパラメータであり、例えば事前に与えられる。

[数５]

第二の更新手段１４０は、第一の更新手段１３０で更新された音声認識用言語モデルを用いて、記憶手段２１０に記憶された音声認識結果を更新する。例えば、第二の更新手段１４０は、更新された音声認識用言語モデルを用いて、音声認識結果の元データである音声データを、再度音声認識することで、記憶手段２１０に記憶された音声認識結果を更新する。

あるいは、第二の更新手段１４０は、以下の方法で結果を更新してもよい。記憶手段２１０は、更新される前の音声認識用言語モデルを利用して音声データを音声認識した結果とともに、音声認識した結果に対応する単語グラフを記憶している。または、単語グラフは、記憶手段２１０と異なる記憶手段に記憶されていてもよい。第二の更新手段１４０は、更新された音声認識用言語モデルを用いて、前記単語グラフに対する言語確率をリスコアすることで、記憶手段２１０に記憶された音声認識結果を更新する。

抽出手段１２０は、算出手段１１０で算出されたクエリ用言語モデルと、記憶手段２１０に記憶された更新された音声認識結果との類似度を算出し、類似度が高い音声認識結果を、適合データとして抽出する。

さらに、抽出手段１２０は、検索結果を出力する条件を満たす場合、抽出された音声認識結果に対応するデータの少なくとも一部を、検索結果として出力する。検索結果を出力する条件は、例えば、音声認識用言語モデルの更新、記憶手段２１０に記憶された結果の更新および適合データの抽出が、所定の回数行われたことである。また、検索結果を出力する条件は、更新された音声認識結果から抽出された音声認識結果が、更新される前の音声認識結果から抽出された音声認識結果と同じであることであってもよい。つまり、抽出される音声認識結果が変化しなくなったことである。ここで、音声認識結果に対応するデータは、音声認識結果自体であってもよい。また、音声認識結果に対応するデータは、音声認識結果の元データである音声データであってもよい。

なお、算出手段１１０、抽出手段１２０、第一の更新手段１３０、第二の更新手段１４０の動作は、上述した例に限定されるわけではなく、適宜変更することができる。

次に、本発明を実施するための第１の実施の形態の動作について詳細に説明する。

図３は、第１の実施の形態の動作の一例を示すフローチャートである。

ステップ１０１では、算出手段１１０が、入力されたクエリに基づいて、クエリ用言語モデルを算出する。ステップ１０２では、抽出手段１２０が、算出手段１１０で算出されたクエリ用言語モデルと、記憶手段２１０に記憶された音声認識結果との類似度を算出し、類似度が高い音声認識結果を、適合データとして抽出する。ステップ１０３では、第一の更新手段１３０が、抽出手段１２０で抽出した適合データを利用して、音声認識用言語モデルを更新する。ステップ１０４では、第二の更新手段１４０が、更新された音声認識用言語モデルを用いて、記憶手段２１０に記憶された音声認識結果を更新する。ステップ１０５では、抽出手段１２０が、算出手段１１０で算出されたクエリ用言語モデルと、記憶手段２１０に記憶された更新された音声認識結果との類似度を算出し、類似度が高い音声認識結果を、適合データとして抽出する。検索結果を出力する条件を満たさない場合、ステップ１０３に戻る。検索結果を出力する条件を満たす場合、ステップ１０６で、抽出手段１２０は、抽出された音声認識結果に対応する検索結果の少なくとも一部を出力する。

本実施の形態によれば、クエリとして入力された単語集合と類似度が高い音声認識結果により、音声認識用言語モデルが更新される。さらに、記憶手段２１０に記憶された音声認識結果が、更新された音声認識用言語モデルによって、更新される。よって、本実施の形態による情報検索システムは、クエリに含まれた単語に対し、音声認識用言語モデルにおける確率値および音声認識結果における信頼度を適切に与えることができる。これにより、認識結果としてあらわれにくい単語がクエリとなった場合に、音声に関するデータを精度よく検索することができる。

実施の形態２．
図４は、本発明の第２の実施の形態による情報検索システムの構成を示すブロック図である。

第２の実施の形態による情報検索システムは、第１の実施形態の構成要素に加えて、選別手段１５０を有する。また、本実施の形態による情報検索システムは、第１の実施形態の第一の更新手段１３０の代わりに、第一の更新手段１３１を有する。選別手段１５０と第一の更新手段１３１以外の構成要素については、第１の実施形態と同様であるため、説明を省略する。

選別手段１５０は、適合データ間の類似度に基づいて、適合データを選別する。具体的には、選別手段１５０は、他の適合データとの類似度が低い適合データを、適合データから除外する。

選別手段１５０は、例えば、以下のように適合データを選別する。選別手段１５０は、適合データの集合ＣＦの言語モデルｐ（ｗ｜θ_CF）を算出する。ｐ（ｗ｜θ_CF）は、Ｎ−ｇｒａｍ確率値である。Ｎは、例えば、１または２である。次に、選別手段１５０は、適合データの集合ＣＦに含まれる適合データＦの言語モデルｐ（ｗ｜θ_F）を、数６により算出する。｜Ｆ｜は適合データＦの単語数であり、σはｐ（ｗ｜θ_CF）と適合データＦのユニグラム確率値のスムージングパラメタである。σは事前に与えられてもよい。

[数６]

選別手段１５０は、適合データの集合ＣＦと適合データＦとのＫＬ距離であるＫＬ（θ_CF||θ_F）を算出し、この値が所定の値より大きい文書を除外する。ＫＬ距離の算出方法は、数２と同様であるため、説明を省略する。

あるいは、選別手段１５０は、以下のように適合データを選別してもよい。選別手段１５０は、適合データの集合ＣＦに含まれる適合データＦ１、Ｆ２について、それぞれの言語モデルを数６により算出する。Ｆ１の言語モデルは、Ｐ（ｗ｜θ_F1）、Ｆ２の言語モデルは、Ｐ（ｗ｜θ_F2）とする。次に、選別手段１５０は、Ｆ１およびＦ２の類似度であるＳＫＬ（θ_F1，θ_F2）を、数７により算出する。

［数７］

さらに、選別手段１５０は、ＳＫＬ（θ_F1，θ_F2）に基づき、ボトムアップクラスタリングを行う。ボトムアップクラスタリングとは、距離が近い２つのデータを、順次階層的に指定のクラスタ数になるまでまとめあげる手法である。選別手段１５０は、主要クラスタ以外のクラスタに含まれるデータを、適合データから除外する。ここで、主要クラスタは、例えば、そのクラスタに所属する適合データの数が最大であるクラスタである。または、主要クラスタは、そのクラスタに所属する適合データの数が多い順に、指定した数までのクラスタでもよい。

第一の更新手段１３１は、選別手段１５０で選別された適合データを利用して、音声認識用言語モデルを更新する。モデルを更新する方法については、第一の更新手段１３０と同様であるため、説明を省略する。

図５は、第２の実施の形態の動作の一例を示すフローチャートである。ステップ１０１、１０２は、第１の実施の形態の動作と同様であるため、説明を省略する。ステップ１０７では、選別手段１５０が、適合データを選別する。ステップ１１３では、第一の更新手段１３１が、選別された適合データを用いて、音声認識結果を更新する。ステップ１０４〜１０６は、第１の実施の形態の動作と同様であるため、説明を省略する。

本実施の形態による情報検索システムは、他の適合データとの類似度が低い適合データを、適合データから除外する。よって、この情報検索システムは、適合データに誤って含まれる不適切な適合データを、適合データ間の、クエリの単語集合に含まれない単語も考慮した類似度に基づいて、除外することができる。よって、この情報検索システムは、音声認識誤りに対して、より頑健となる。

実施の形態３．
図６は、本発明の第３の実施の形態による情報検索システムの構成を示すブロック図である。

第３の実施の形態による情報検索システムは、第１の実施形態の構成要素に加えて、第三の更新手段１６０を有する。また、第１の実施形態の第一の更新手段１３０の代わりに、第一の更新手段１３２を有する。第三の更新手段１６０と第一の更新手段１３２以外の構成要素については、第１の実施形態と同様であるため、説明を省略する。

第三の更新手段１６０は、抽出手段１２０が抽出した適合データを用いて、クエリ用言語モデルを更新する。例えば、第三の更新手段１６０は、数８により、クエリ用言語モデルを更新する。ｐ（ｗ｜θ_Q）は、更新される前のクエリ用言語モデルである。ｐ（ｗ｜θ'_Q）は、更新された後のクエリ用言語モデルである。

［数８］

ここで、ｐ（ｗ｜θ_CF）は、適合データの集合ＣＦの言語モデルであり、αはｐ（ｗ｜θ_Q）とｐ（ｗ｜θ_CF）のスムージングパラメタである。αは、事前に与えられてもよい。

第一の更新手段１３２は、第三の更新手段１６０で更新されたクエリ用言語モデルを用いて、数９により、音声認識用言語モデルを更新する。なお、数９は、数５におけるｐ（ｗ｜θ_CF）が、ｐ（ｗ｜θ'_Q）に置き換わったものである。

[数９]

なお、クエリ用言語モデルを更新する手法は、非特許文献１にも記載されている。

[非特許文献１]CC. Zhai, “Statistical Language Models for Information Retrieval A Critical Review Found”,Trends Inf. Retr., Now Publishers Inc., 2008, 2, 137-213
非特許文献１に記載されている技術は、テキスト文書に対する検索技術の一例である。本発明における情報検索システムは、音声に関するデータを検索の対象としている。本発明における情報検索システムは、更新したクエリ用言語モデルによって、音声認識用言語モデルおよび音声認識結果を更新している。つまり、本発明における情報検索システムは、音声認識結果が音声認識に用いる言語モデルに依存して変化する性質を、利用している。

図７は、第３の実施の形態の動作の一例を示すフローチャートである。ステップ１０１、１０２は、第１の実施の形態の動作と同様であるため、説明を省略する。ステップ１０８では、第三の更新手段１６０が、抽出手段１２０が抽出した適合データを用いて、クエリ用言語モデルを更新する。ステップ１２３では、第一の更新手段１３２が、第三の更新手段１６０で更新されたクエリ用言語モデルを用いて、音声認識用言語モデルを更新する。ステップ１０４〜１０６は、第１の実施の形態の動作と同様であるため、説明を省略する。

本実施の形態による情報検索システムは、音声に関するデータを、精度よく検索することができる。クエリ用言語モデルが、適合データに基づいて更新される。さらに、音声認識用言語モデルも、更新されたクエリ用言語モデルによって更新される。よって、クエリ用言語モデルと音声認識用言語モデルが、整合性がとれた状態で更新されるためである。

実施の形態４．
図８は、本発明の第４の実施の形態による情報検索システムの構成を示すブロック図である。本実施の形態は、第２の実施の形態の構成と第３の実施の形態の構成とを、組み合わせたものである。各構成要素は、第１の実施の形態〜第３の実施の形態の構成要素と同様であるため、説明を省略する。

図９は、第４の実施の形態の動作の一例を示すフローチャートである。ステップ１０１〜１０８の動作は、第１の実施の形態〜第３の実施の形態における対応するステップの動作と同様であるため、説明を省略する。

本実施の形態によれば、音声に関するデータを、精度よく検索することができる。

変形例．
図１０は、第４の実施の形態の変形例による情報検索システムの構成を示すブロック図である。

本変形例による情報検索システムは、第４の実施の形態の構成要素に加えて、第二の記憶手段２２０、第三の記憶手段２３０、第四の記憶手段２４０を有する。

第二の記憶手段２２０は、検索対象となる、音声データを記憶している。

第二の更新手段１４０は、音声認識を行う手段である。第二の更新手段１４０は、音声認識用言語モデル記憶手段２３０に記憶された音声認識用言語モデルを用いて、第二の記憶手段２２０に記憶された音声データの少なくとも一部を音声認識する。さらに、第二の更新手段１４０は、音声認識した結果を記憶手段（第一の記憶手段）２１０に格納する。

第三の記憶手段２３０は、音声認識用言語モデルを記憶している。

第四の記憶手段２４０は、クエリ用言語モデルを記憶している。

算出手段１１０は、算出したクエリ用言語モデルを、第四の記憶手段２４０に格納する。また、第三の更新手段は、第四の記憶手段２４０に記憶されたクエリ用言語モデルを更新する。さらに、第一の更新手段は、第四の記憶手段２４０に記憶された、更新されたクエリ用言語モデルに基づいて、第三の記憶手段２３０に記憶された音声認識用言語モデルを更新する。

その他の構成要素については、第４の実施の形態の構成要素と同様であるため、説明を省略する。

図１１は、変形例の動作の一例を示すフローチャートである。ステップ１０９で、第二の更新手段１４０は、第三の記憶手段２３０に記憶された音声認識用言語モデルを用いて、第二の記憶手段２２０に記憶された音声データの少なくとも一部を音声認識する。さらに、ステップ１０９で、第二の更新手段１４０は、音声認識結果を第一の記憶手段２１０に格納する。ステップ１０１〜１０８の動作は、第１の実施の形態〜第４の実施の形態における対応するステップの動作と同様であるため、説明を省略する。なお、ステップ１０１は、ステップ１０９より前に動作してもよい。

なお、上述の説明で用いた複数のフローチャートでは、複数の処理が順番に記載されているが、各実施形態で実行される処理の実行順序は、その記載の順番に制限されない。各実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態及び変形例は、内容が相反しない範囲で組み合わせることができる。

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

（付記１）
入力された単語または単語集合の言語モデルであるクエリ用言語モデルを算出する算出手段と、音声認識用言語モデルを用いて音声データを音声認識した結果を記憶する記憶手段を参照して、前記結果から、前記クエリ用言語モデルとの類似度が高い結果を、適合データとして抽出する抽出手段と、前記適合データを用いて前記音声認識用言語モデルを更新する第一の更新手段と、更新された音声認識用言語モデルを用いて、前記記憶手段に記憶された結果を更新する第二の更新手段とを有し、前記抽出手段は、更新された結果から前記クエリ用言語モデルとの類似度が高い結果を抽出し、抽出された結果に対応するデータである検索結果を出力する情報検索システム。

図１２は、本情報検索システムの構成を示すブロック図である。

（付記２）
付記１に記載の情報検索システムにおいて、前記適合データの集合において、適合データ間の類似度に基づいて適合データを選別する選別手段を有し、前記第一の更新手段は、選別された適合データを用いて前記音声認識用言語モデルを更新する情報検索システム。

（付記３）
付記１または２に記載の情報検索システムにおいて、前記適合データを用いて前記クエリ用言語モデルを更新する第三の更新手段を有し、前記第一の更新手段は、前記適合データの代わりに、更新されたクエリ用言語モデルを用いて、前記音声認識用言語モデルを更新する情報検索システム。

（付記４）
付記１乃至３のいずれかに記載の情報検索システムにおいて、前記抽出手段は、更新された結果から抽出された結果が、更新される前の結果から抽出された結果と同じであった場合に、検索結果を出力する情報検索システム。

（付記５）
付記１乃至４のいずれかに記載の情報検索システムにおいて、前記第二の更新手段は、更新された音声認識用言語モデルを用いて前記音声データを音声認識することで、前記結果を更新する情報検索システム。

（付記６）
付記１乃至４のいずれかに記載の情報検索システムにおいて、前記第二の更新手段は、更新された音声認識用言語モデルを用いて、前記音声データを音声認識した結果に対応する単語グラフの言語確率をリスコアすることで、前記結果を更新する情報検索システム。

（付記７）
入力された単語または単語集合の言語モデルであるクエリ言語モデルを算出し、音声認識用言語モデルを用いて音声データを音声認識した結果を記憶した記憶手段を参照して、前記結果から、前記クエリ用言語モデルとの類似度が高い結果を、適合データとして抽出し、前記適合データを用いて前記音声認識用言語モデルを更新し、更新された音声認識用言語モデルを用いて、前記記憶手段に記憶された結果を更新し、更新された結果から、前記クエリ言語モデルとの類似度が高い結果を抽出し、抽出された結果に対応するデータである検索結果を出力する、情報検索方法。

（付記８）
付記７に記載の情報検索方法において、前記適合データの集合において、適合データ間の類似度に基づいて適合データを選別し、選別された適合データを用いて前記音声認識用言語モデルを更新する情報検索方法。

（付記９）
入力された単語または単語集合の言語モデルであるクエリ言語モデルを算出するステップと、音声認識用言語モデルを用いて音声データを音声認識した結果を記憶した記憶手段を参照して、前記結果から、前記クエリ用言語モデルとの類似度が高い結果を、適合データとして抽出するステップと、前記適合データを用いて前記音声認識用言語モデルを更新するステップと、更新された音声認識用言語モデルを用いて、前記記憶手段に記憶された結果を更新するステップと、更新された結果から、前記クエリ言語モデルとの類似度が高い結果を抽出し、抽出された結果に対応するデータである検索結果を出力するステップと、をコンピュータに実行させるプログラム。

（付記１０）
付記９に記載のプログラムにおいて、前記適合データの集合において、適合データ間の類似度に基づいて適合データを選別するステップと、選別された適合データを用いて前記音声認識用言語モデルを更新するステップと、をコンピュータに実行させるプログラム。

本発明は、会話や発言が記録された音声データに対し、指定した単語あるいは単語集合に関連が大きい部分を検索できる音声検索システムなどの用途に利用することができる。

この出願は、２０１２年９月２７日に出願された日本出願特願２０１２−２１４９５２を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１情報検索システム
１０ＣＰＵ
１２メモリ
１４ＨＤＤ
１６通信ＩＦ
１８表示装置
２０入力装置
２２バス
１１０算出手段
１２０抽出手段
１３０、１３１、１３２第一の更新手段
１４０第二の更新手段
１５０選別手段
１６０第三の更新手段
２１０記憶手段（第一の記憶手段）
２２０第二の記憶手段
２３０第三の記憶手段
２４０第四の記憶手段

Claims

入力された単語または単語集合の言語モデルであるクエリ用言語モデルを算出する算出手段と、
音声認識用言語モデルを用いて音声データを音声認識した結果を記憶する記憶手段を参照して、前記結果から、前記クエリ用言語モデルとの類似度が高い結果を、適合データとして抽出する抽出手段と、
前記適合データを用いて前記音声認識用言語モデルを更新する第一の更新手段と、
更新された音声認識用言語モデルを用いて、前記記憶手段に記憶された結果を更新する第二の更新手段と、を有し、
前記抽出手段は、更新された結果から前記クエリ用言語モデルとの類似度が高い結果を抽出し、抽出された結果に対応するデータである検索結果を出力する情報検索システム。
前記適合データの集合において、適合データ間の類似度に基づいて適合データを選別する選別手段を有し、
前記第一の更新手段は、選別された適合データを用いて前記音声認識用言語モデルを更新する、請求項１に記載の情報検索システム。
前記適合データを用いて前記クエリ用言語モデルを更新する第三の更新手段を有し、
前記第一の更新手段は、前記適合データの代わりに、更新されたクエリ用言語モデルを用いて、前記音声認識用言語モデルを更新する、請求項１または２に記載の情報検索システム。
前記抽出手段は、更新された結果から抽出された結果が、更新される前の結果から抽出された結果と同じであった場合に、検索結果を出力する、請求項１乃至３のいずれかに記載の情報検索システム。
前記第二の更新手段は、更新された音声認識用言語モデルを用いて前記音声データを音声認識することで、前記結果を更新する、請求項１乃至４のいずれかに記載の情報検索システム。
前記第二の更新手段は、更新された音声認識用言語モデルを用いて、前記音声データを音声認識した結果に対応する単語グラフの言語確率をリスコアすることで、前記結果を更新する、請求項１乃至４のいずれかに記載の情報検索システム。
入力された単語または単語集合の言語モデルであるクエリ言語モデルを算出し、
音声認識用言語モデルを用いて音声データを音声認識した結果を記憶した記憶手段を参照して、前記結果から、前記クエリ用言語モデルとの類似度が高い結果を、適合データとして抽出し、
前記適合データを用いて前記音声認識用言語モデルを更新し、
更新された音声認識用言語モデルを用いて、前記記憶手段に記憶された結果を更新し、
更新された結果から、前記クエリ言語モデルとの類似度が高い結果を抽出し、抽出された結果に対応するデータである検索結果を出力する情報検索方法。
前記適合データの集合において、適合データ間の類似度に基づいて適合データを選別し、
選別された適合データを用いて前記音声認識用言語モデルを更新する、請求項７に記載の情報検索方法。
入力された単語または単語集合の言語モデルであるクエリ言語モデルを算出するステップと、
音声認識用言語モデルを用いて音声データを音声認識した結果を記憶した記憶手段を参照して、前記結果から、前記クエリ用言語モデルとの類似度が高い結果を、適合データとして抽出するステップと、
前記適合データを用いて前記音声認識用言語モデルを更新するステップと、
更新された音声認識用言語モデルを用いて、前記記憶手段に記憶された結果を更新するステップと、
更新された結果から、前記クエリ言語モデルとの類似度が高い結果を抽出し、抽出された結果に対応するデータである検索結果を出力するステップと、をコンピュータに実行させるプログラム。
前記適合データの集合において、適合データ間の類似度に基づいて適合データを選別するステップと、
選別された適合データを用いて前記音声認識用言語モデルを更新するステップと、をコンピュータに実行させる請求項９に記載のプログラム。