JPWO2014049998A1 - 情報検索システム、情報検索方法およびプログラム - Google Patents

情報検索システム、情報検索方法およびプログラム Download PDF

Info

Publication number
JPWO2014049998A1
JPWO2014049998A1 JP2014538143A JP2014538143A JPWO2014049998A1 JP WO2014049998 A1 JPWO2014049998 A1 JP WO2014049998A1 JP 2014538143 A JP2014538143 A JP 2014538143A JP 2014538143 A JP2014538143 A JP 2014538143A JP WO2014049998 A1 JPWO2014049998 A1 JP WO2014049998A1
Authority
JP
Japan
Prior art keywords
language model
result
speech recognition
matching data
updated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014538143A
Other languages
English (en)
Inventor
祥史 大西
祥史 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2014049998A1 publication Critical patent/JPWO2014049998A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

認識結果としてあらわれにくい単語がクエリとなった場合にも、音声に関するデータを精度よく検索することが出来る、情報検索システム、情報検索方法、およびプログラムを提供すること。本発明は、入力された単語または単語集合の言語モデルであるクエリ用言語モデルを算出する算出手段と、音声認識用言語モデルを用いて音声データを音声認識した結果を記憶する記憶手段を参照して、前記結果から、前記クエリ用言語モデルとの類似度が高い結果を、適合データとして抽出する抽出手段と、前記適合データを用いて前記音声認識用言語モデルを更新する第一の更新手段と、更新された音声認識用言語モデルを用いて、前記記憶手段に記憶された結果を更新する第二の更新手段とを有し、前記抽出手段は、更新された結果から前記クエリ用言語モデルとの類似度が高い結果を抽出し、抽出された結果に対応するデータである検索結果を出力する情報検索システムである。

Description

本発明は、情報検索システム、情報検索方法およびプログラムに関し、特に、音声に関するデータを検索する、情報検索システム、情報検索方法およびプログラムに関する。
音声に関するデータを検索する技術の一例が、特許文献1に記載されている。特許文献1に記載された検索装置は、入力されたクエリおよび音声認識結果のテキスト間の類似度を、音声認識の信頼度を用いて算出し、類似度が高い音声認識結果を、検索結果として出力する。一般に、音声認識結果には誤認識が含まれる。この検索装置は、音声認識結果に対する信頼度を用いて、低い信頼度となる音声認識結果を検索結果から除外することにより、誤った認識結果を検索結果として出力する確率を減少させている。
特開2011‐248107号公報
特許文献1に記載された技術では、音声認識結果としてあらわれにくい単語がクエリとなったときに、音声に関するデータを、精度よく検索できないという課題がある。
例えば、音声認識においてN−gramなどの言語モデルを用いた場合、言語モデルの学習において出現頻度が低い単語は、音声認識結果にも出現しにくい。また、このような単語は、音声認識結果に出現しても言語モデルの確率値が低いため、低い信頼度となることがある。このため、このような単語に関するクエリが入力された場合、音声に関するデータを、精度よく検索できない。
[発明の目的]
本発明の目的は、上記課題を解決し、認識結果としてあらわれにくい単語がクエリとなった場合にも、音声に関するデータを精度よく検索することが出来る、情報検索システム、情報検索方法、およびプログラムを提供することである。
本発明は、入力された単語または単語集合の言語モデルであるクエリ用言語モデルを算出する算出手段と、音声認識用言語モデルを用いて音声データを音声認識した結果を記憶する記憶手段を参照して、前記結果から、前記クエリ用言語モデルとの類似度が高い結果を、適合データとして抽出する抽出手段と、前記適合データを用いて前記音声認識用言語モデルを更新する第一の更新手段と、更新された音声認識用言語モデルを用いて、前記記憶手段に記憶された結果を更新する第二の更新手段とを有し、前記抽出手段は、更新された結果から前記クエリ用言語モデルとの類似度が高い結果を抽出し、抽出された結果に対応するデータである検索結果を出力する情報検索システムである。
本発明は、入力された単語または単語集合の言語モデルであるクエリ言語モデルを算出し、音声認識用言語モデルを用いて音声データを音声認識した結果を記憶した記憶手段を参照して、前記結果から、前記クエリ用言語モデルとの類似度が高い結果を、適合データとして抽出し、前記適合データを用いて前記音声認識用言語モデルを更新し、更新された音声認識用言語モデルを用いて、前記記憶手段に記憶された結果を更新し、更新された結果から、前記クエリ言語モデルとの類似度が高い結果を抽出し、抽出された結果に対応するデータである検索結果を出力する情報検索方法である。
本発明は、入力された単語または単語集合の言語モデルであるクエリ言語モデルを算出するステップと、音声認識用言語モデルを用いて音声データを音声認識した結果を記憶した記憶手段を参照して、前記結果から、前記クエリ用言語モデルとの類似度が高い結果を、適合データとして抽出するステップと、前記適合データを用いて前記音声認識用言語モデルを更新するステップと、更新された音声認識用言語モデルを用いて、前記記憶手段に記憶された結果を更新するステップと、更新された結果から、前記クエリ言語モデルとの類似度が高い結果を抽出し、抽出された結果に対応するデータである検索結果を出力するステップと、をコンピュータに実行させるプログラムである。
本発明によれば、音声認識結果としてあらわれにくい単語がクエリとなった場合にも、音声に関するデータを精度よく検索することができる。
本発明の第一の実施の形態に係るハードウェア構成図である。 本発明の第一の実施の形態に係るブロック図である。 本発明の第一の実施の形態に係るフローチャートである。 本発明の第二の実施の形態に係るブロック図である。 本発明の第二の実施の形態に係るフローチャートである。 本発明の第三の実施の形態に係るブロック図である。 本発明の第三の実施の形態に係るフローチャートである。 本発明の第四の実施の形態に係るブロック図である。 本発明の第四の実施の形態に係るフローチャートである。 本発明の実施例に係るブロック図である。 本発明の実施例に係るフローチャートである。 本発明の情報検索システムの構成を示すブロック図である。
次に、本発明の実施の形態について図面を参照して詳細に説明する。
実施の形態1.
図1は、本発明の第1の実施形態に係る情報検索システム1のハードウェア構成図である。図1に示すように、情報検索システム1は、CPU10、メモリ12、ハードディスクドライブ(HDD)14、図示しないネットワークを介してデータの通信を行う通信インタフェース(IF)16、ディスプレイ等の表示装置18およびキーボードやマウス等のポインティングデバイスを含む入力装置20を有する。これらの構成要素は、バス22を通して互いに接続されており、互いにデータの入出力を行う。なお、情報検索システム1のハードウェア構成は、この構成に制限されず、適宜変更することができる。
図2は、本発明の第1の実施の形態による情報検索システムの構成を示すブロック図である。
図2に示すように、第1の実施の形態による情報検索システムは、算出手段110と、抽出手段120と、第一の更新手段130と、第二の更新手段140と、記憶手段210とを有する。
記憶手段210は、音声認識用言語モデルを利用して音声データを音声認識した結果(以下、音声認識結果)を、記憶している。音声認識用言語モデルは、音声信号を単語列として認識する際に、認識されるべき単語列の制約を定義したモデルである。記憶手段210は、1つの音声データのファイルを音声認識した結果を、1つのテキストファイルの形式で記憶している。記憶手段210は、少なくとも1つ以上の音声認識結果(テキストファイル)を記憶している。
算出手段110は、入力されたクエリに基づいて、クエリ用言語モデルを算出する。ここで、クエリとは、検索したい単語あるいは単語の集合である。
次に、クエリ用言語モデルの算出方法の一例を示す。算出手段110は、数1によってクエリ用言語モデルを算出する。数1において、クエリ用言語モデルは、クエリの単語集合に対するユニグラム確率値p(w|θQ)である。ここで、Qはクエリの単語集合、|Q|はQの単語数、wは単語、θQはクエリ用言語モデルのパラメータである。また、n(w,Q)は、wがQに含まれる単語の場合はQに含まれるwの個数であり、wがQに含まれない場合は0となる関数である。
[数1]
Figure 2014049998
抽出手段120は、算出手段110で算出されたクエリ用言語モデルと、記憶手段210に記憶された各音声認識結果(各テキストファイル)との類似度を算出し、類似度が高い音声認識結果(テキストファイル)を、適合データとして抽出する。
次に、抽出手段120の抽出方法の一例を示す。抽出手段120は、数2により、クエリ用言語モデルと音声認識結果の言語モデルのKL(カルバック・ライブラー)距離を、類似度として算出する。KL距離は、2つの、確率分布である言語モデルの差異を表す指標である。2つの言語モデルの類似度は、KL距離の値が小さいほど高い。KL(θQ||θD)はKL距離、p(w|θD)は、記憶手段210に記憶された、個々の音声認識結果Dの言語モデルである。
[数2]
Figure 2014049998
ここで、抽出手段120は、数3により、音声認識結果の言語モデルp(w|θD)を算出する。p(w|θC)は、記憶手段210に記憶された音声認識結果の、全体集合Cの言語モデルである。ここで、|D|は音声認識結果Dの単語数であり、μは音声認識結果Dのユニグラム確率値とp(w|θC)のスムージングパラメタである。例えばμは事前に与えられている。さらに、抽出手段120は、記憶手段210に記憶された音声認識結果全体を用いて、例えばNを3あるいは4としたN−gram確率として、p(w|θC)を算出する。
[数3]
Figure 2014049998

次に、抽出手段120は、例えば、算出したKL距離があらかじめ定めた閾値より小さい、または閾値以下である、音声認識結果を抽出する。あるいは、抽出手段120は、KL距離が近い順にあらかじめ定めた個数の、音声認識結果を抽出してもよい。
第一の更新手段130は、抽出手段120で抽出した、クエリ用言語モデルとの類似度が高い音声認識結果である適合データを利用して、音声認識用言語モデルを更新する。
第一の更新手段130は、例えば、数5により音声認識用言語モデルを更新する。ここで、p(w|θASR)は、更新される前の音声認識用言語モデルであり、p(w|θ'ASR)は、更新された後の音声認識用言語モデルである。また、p(w|θCF)は、適合データの集合CFの言語モデルである。βは、更新するためのパラメータであり、例えば事前に与えられる。
[数5]
Figure 2014049998
第二の更新手段140は、第一の更新手段130で更新された音声認識用言語モデルを用いて、記憶手段210に記憶された音声認識結果を更新する。例えば、第二の更新手段140は、更新された音声認識用言語モデルを用いて、音声認識結果の元データである音声データを、再度音声認識することで、記憶手段210に記憶された音声認識結果を更新する。
あるいは、第二の更新手段140は、以下の方法で結果を更新してもよい。記憶手段210は、更新される前の音声認識用言語モデルを利用して音声データを音声認識した結果とともに、音声認識した結果に対応する単語グラフを記憶している。または、単語グラフは、記憶手段210と異なる記憶手段に記憶されていてもよい。第二の更新手段140は、更新された音声認識用言語モデルを用いて、前記単語グラフに対する言語確率をリスコアすることで、記憶手段210に記憶された音声認識結果を更新する。
抽出手段120は、算出手段110で算出されたクエリ用言語モデルと、記憶手段210に記憶された更新された音声認識結果との類似度を算出し、類似度が高い音声認識結果を、適合データとして抽出する。
さらに、抽出手段120は、検索結果を出力する条件を満たす場合、抽出された音声認識結果に対応するデータの少なくとも一部を、検索結果として出力する。検索結果を出力する条件は、例えば、音声認識用言語モデルの更新、記憶手段210に記憶された結果の更新および適合データの抽出が、所定の回数行われたことである。また、検索結果を出力する条件は、更新された音声認識結果から抽出された音声認識結果が、更新される前の音声認識結果から抽出された音声認識結果と同じであることであってもよい。つまり、抽出される音声認識結果が変化しなくなったことである。ここで、音声認識結果に対応するデータは、音声認識結果自体であってもよい。また、音声認識結果に対応するデータは、音声認識結果の元データである音声データであってもよい。
なお、算出手段110、抽出手段120、第一の更新手段130、第二の更新手段140の動作は、上述した例に限定されるわけではなく、適宜変更することができる。
次に、本発明を実施するための第1の実施の形態の動作について詳細に説明する。
図3は、第1の実施の形態の動作の一例を示すフローチャートである。
ステップ101では、算出手段110が、入力されたクエリに基づいて、クエリ用言語モデルを算出する。ステップ102では、抽出手段120が、算出手段110で算出されたクエリ用言語モデルと、記憶手段210に記憶された音声認識結果との類似度を算出し、類似度が高い音声認識結果を、適合データとして抽出する。ステップ103では、第一の更新手段130が、抽出手段120で抽出した適合データを利用して、音声認識用言語モデルを更新する。ステップ104では、第二の更新手段140が、更新された音声認識用言語モデルを用いて、記憶手段210に記憶された音声認識結果を更新する。ステップ105では、抽出手段120が、算出手段110で算出されたクエリ用言語モデルと、記憶手段210に記憶された更新された音声認識結果との類似度を算出し、類似度が高い音声認識結果を、適合データとして抽出する。検索結果を出力する条件を満たさない場合、ステップ103に戻る。検索結果を出力する条件を満たす場合、ステップ106で、抽出手段120は、抽出された音声認識結果に対応する検索結果の少なくとも一部を出力する。
本実施の形態によれば、クエリとして入力された単語集合と類似度が高い音声認識結果により、音声認識用言語モデルが更新される。さらに、記憶手段210に記憶された音声認識結果が、更新された音声認識用言語モデルによって、更新される。よって、本実施の形態による情報検索システムは、クエリに含まれた単語に対し、音声認識用言語モデルにおける確率値および音声認識結果における信頼度を適切に与えることができる。これにより、認識結果としてあらわれにくい単語がクエリとなった場合に、音声に関するデータを精度よく検索することができる。
実施の形態2.
図4は、本発明の第2の実施の形態による情報検索システムの構成を示すブロック図である。
第2の実施の形態による情報検索システムは、第1の実施形態の構成要素に加えて、選別手段150を有する。また、本実施の形態による情報検索システムは、第1の実施形態の第一の更新手段130の代わりに、第一の更新手段131を有する。選別手段150と第一の更新手段131以外の構成要素については、第1の実施形態と同様であるため、説明を省略する。
選別手段150は、適合データ間の類似度に基づいて、適合データを選別する。具体的には、選別手段150は、他の適合データとの類似度が低い適合データを、適合データから除外する。
選別手段150は、例えば、以下のように適合データを選別する。選別手段150は、適合データの集合CFの言語モデルp(w|θCF)を算出する。p(w|θCF)は、N−gram確率値である。Nは、例えば、1または2である。次に、選別手段150は、適合データの集合CFに含まれる適合データFの言語モデルp(w|θF)を、数6により算出する。|F|は適合データFの単語数であり、σはp(w|θCF)と適合データFのユニグラム確率値のスムージングパラメタである。σは事前に与えられてもよい。
[数6]
Figure 2014049998
選別手段150は、適合データの集合CFと適合データFとのKL距離であるKL(θCF||θF)を算出し、この値が所定の値より大きい文書を除外する。KL距離の算出方法は、数2と同様であるため、説明を省略する。
あるいは、選別手段150は、以下のように適合データを選別してもよい。選別手段150は、適合データの集合CFに含まれる適合データF1、F2について、それぞれの言語モデルを数6により算出する。F1の言語モデルは、P(w|θF1)、F2の言語モデルは、P(w|θF2)とする。次に、選別手段150は、F1およびF2の類似度であるSKL(θF1,θF2)を、数7により算出する。
[数7]
Figure 2014049998
さらに、選別手段150は、SKL(θF1,θF2)に基づき、ボトムアップクラスタリングを行う。ボトムアップクラスタリングとは、距離が近い2つのデータを、順次階層的に指定のクラスタ数になるまでまとめあげる手法である。選別手段150は、主要クラスタ以外のクラスタに含まれるデータを、適合データから除外する。ここで、主要クラスタは、例えば、そのクラスタに所属する適合データの数が最大であるクラスタである。または、主要クラスタは、そのクラスタに所属する適合データの数が多い順に、指定した数までのクラスタでもよい。
第一の更新手段131は、選別手段150で選別された適合データを利用して、音声認識用言語モデルを更新する。モデルを更新する方法については、第一の更新手段130と同様であるため、説明を省略する。
図5は、第2の実施の形態の動作の一例を示すフローチャートである。ステップ101、102は、第1の実施の形態の動作と同様であるため、説明を省略する。ステップ107では、選別手段150が、適合データを選別する。ステップ113では、第一の更新手段131が、選別された適合データを用いて、音声認識結果を更新する。ステップ104〜106は、第1の実施の形態の動作と同様であるため、説明を省略する。
本実施の形態による情報検索システムは、他の適合データとの類似度が低い適合データを、適合データから除外する。よって、この情報検索システムは、適合データに誤って含まれる不適切な適合データを、適合データ間の、クエリの単語集合に含まれない単語も考慮した類似度に基づいて、除外することができる。よって、この情報検索システムは、音声認識誤りに対して、より頑健となる。
実施の形態3.
図6は、本発明の第3の実施の形態による情報検索システムの構成を示すブロック図である。
第3の実施の形態による情報検索システムは、第1の実施形態の構成要素に加えて、第三の更新手段160を有する。また、第1の実施形態の第一の更新手段130の代わりに、第一の更新手段132を有する。第三の更新手段160と第一の更新手段132以外の構成要素については、第1の実施形態と同様であるため、説明を省略する。
第三の更新手段160は、抽出手段120が抽出した適合データを用いて、クエリ用言語モデルを更新する。例えば、第三の更新手段160は、数8により、クエリ用言語モデルを更新する。p(w|θQ)は、更新される前のクエリ用言語モデルである。p(w|θ'Q)は、更新された後のクエリ用言語モデルである。
[数8]
Figure 2014049998
ここで、p(w|θCF)は、適合データの集合CFの言語モデルであり、αはp(w|θQ)とp(w|θCF)のスムージングパラメタである。αは、事前に与えられてもよい。
第一の更新手段132は、第三の更新手段160で更新されたクエリ用言語モデルを用いて、数9により、音声認識用言語モデルを更新する。なお、数9は、数5におけるp(w|θCF)が、p(w|θ'Q)に置き換わったものである。
[数9]
Figure 2014049998
なお、クエリ用言語モデルを更新する手法は、非特許文献1にも記載されている。
[非特許文献1]CC. Zhai, “Statistical Language Models for Information Retrieval A Critical Review Found”,Trends Inf. Retr., Now Publishers Inc., 2008, 2, 137-213
非特許文献1に記載されている技術は、テキスト文書に対する検索技術の一例である。本発明における情報検索システムは、音声に関するデータを検索の対象としている。本発明における情報検索システムは、更新したクエリ用言語モデルによって、音声認識用言語モデルおよび音声認識結果を更新している。つまり、本発明における情報検索システムは、音声認識結果が音声認識に用いる言語モデルに依存して変化する性質を、利用している。
図7は、第3の実施の形態の動作の一例を示すフローチャートである。ステップ101、102は、第1の実施の形態の動作と同様であるため、説明を省略する。ステップ108では、第三の更新手段160が、抽出手段120が抽出した適合データを用いて、クエリ用言語モデルを更新する。ステップ123では、第一の更新手段132が、第三の更新手段160で更新されたクエリ用言語モデルを用いて、音声認識用言語モデルを更新する。ステップ104〜106は、第1の実施の形態の動作と同様であるため、説明を省略する。
本実施の形態による情報検索システムは、音声に関するデータを、精度よく検索することができる。クエリ用言語モデルが、適合データに基づいて更新される。さらに、音声認識用言語モデルも、更新されたクエリ用言語モデルによって更新される。よって、クエリ用言語モデルと音声認識用言語モデルが、整合性がとれた状態で更新されるためである。
実施の形態4.
図8は、本発明の第4の実施の形態による情報検索システムの構成を示すブロック図である。本実施の形態は、第2の実施の形態の構成と第3の実施の形態の構成とを、組み合わせたものである。各構成要素は、第1の実施の形態〜第3の実施の形態の構成要素と同様であるため、説明を省略する。
図9は、第4の実施の形態の動作の一例を示すフローチャートである。ステップ101〜108の動作は、第1の実施の形態〜第3の実施の形態における対応するステップの動作と同様であるため、説明を省略する。
本実施の形態によれば、音声に関するデータを、精度よく検索することができる。
変形例.
図10は、第4の実施の形態の変形例による情報検索システムの構成を示すブロック図である。
本変形例による情報検索システムは、第4の実施の形態の構成要素に加えて、第二の記憶手段220、第三の記憶手段230、第四の記憶手段240を有する。
第二の記憶手段220は、検索対象となる、音声データを記憶している。
第二の更新手段140は、音声認識を行う手段である。第二の更新手段140は、音声認識用言語モデル記憶手段230に記憶された音声認識用言語モデルを用いて、第二の記憶手段220に記憶された音声データの少なくとも一部を音声認識する。さらに、第二の更新手段140は、音声認識した結果を記憶手段(第一の記憶手段)210に格納する。
第三の記憶手段230は、音声認識用言語モデルを記憶している。
第四の記憶手段240は、クエリ用言語モデルを記憶している。
算出手段110は、算出したクエリ用言語モデルを、第四の記憶手段240に格納する。また、第三の更新手段は、第四の記憶手段240に記憶されたクエリ用言語モデルを更新する。さらに、第一の更新手段は、第四の記憶手段240に記憶された、更新されたクエリ用言語モデルに基づいて、第三の記憶手段230に記憶された音声認識用言語モデルを更新する。
その他の構成要素については、第4の実施の形態の構成要素と同様であるため、説明を省略する。
図11は、変形例の動作の一例を示すフローチャートである。ステップ109で、第二の更新手段140は、第三の記憶手段230に記憶された音声認識用言語モデルを用いて、第二の記憶手段220に記憶された音声データの少なくとも一部を音声認識する。さらに、ステップ109で、第二の更新手段140は、音声認識結果を第一の記憶手段210に格納する。ステップ101〜108の動作は、第1の実施の形態〜第4の実施の形態における対応するステップの動作と同様であるため、説明を省略する。なお、ステップ101は、ステップ109より前に動作してもよい。
なお、上述の説明で用いた複数のフローチャートでは、複数の処理が順番に記載されているが、各実施形態で実行される処理の実行順序は、その記載の順番に制限されない。各実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態及び変形例は、内容が相反しない範囲で組み合わせることができる。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
(付記1)
入力された単語または単語集合の言語モデルであるクエリ用言語モデルを算出する算出手段と、音声認識用言語モデルを用いて音声データを音声認識した結果を記憶する記憶手段を参照して、前記結果から、前記クエリ用言語モデルとの類似度が高い結果を、適合データとして抽出する抽出手段と、前記適合データを用いて前記音声認識用言語モデルを更新する第一の更新手段と、更新された音声認識用言語モデルを用いて、前記記憶手段に記憶された結果を更新する第二の更新手段とを有し、前記抽出手段は、更新された結果から前記クエリ用言語モデルとの類似度が高い結果を抽出し、抽出された結果に対応するデータである検索結果を出力する情報検索システム。
図12は、本情報検索システムの構成を示すブロック図である。
(付記2)
付記1に記載の情報検索システムにおいて、前記適合データの集合において、適合データ間の類似度に基づいて適合データを選別する選別手段を有し、前記第一の更新手段は、選別された適合データを用いて前記音声認識用言語モデルを更新する情報検索システム。
(付記3)
付記1または2に記載の情報検索システムにおいて、前記適合データを用いて前記クエリ用言語モデルを更新する第三の更新手段を有し、前記第一の更新手段は、前記適合データの代わりに、更新されたクエリ用言語モデルを用いて、前記音声認識用言語モデルを更新する情報検索システム。
(付記4)
付記1乃至3のいずれかに記載の情報検索システムにおいて、前記抽出手段は、更新された結果から抽出された結果が、更新される前の結果から抽出された結果と同じであった場合に、検索結果を出力する情報検索システム。
(付記5)
付記1乃至4のいずれかに記載の情報検索システムにおいて、前記第二の更新手段は、更新された音声認識用言語モデルを用いて前記音声データを音声認識することで、前記結果を更新する情報検索システム。
(付記6)
付記1乃至4のいずれかに記載の情報検索システムにおいて、前記第二の更新手段は、更新された音声認識用言語モデルを用いて、前記音声データを音声認識した結果に対応する単語グラフの言語確率をリスコアすることで、前記結果を更新する情報検索システム。
(付記7)
入力された単語または単語集合の言語モデルであるクエリ言語モデルを算出し、音声認識用言語モデルを用いて音声データを音声認識した結果を記憶した記憶手段を参照して、前記結果から、前記クエリ用言語モデルとの類似度が高い結果を、適合データとして抽出し、前記適合データを用いて前記音声認識用言語モデルを更新し、更新された音声認識用言語モデルを用いて、前記記憶手段に記憶された結果を更新し、更新された結果から、前記クエリ言語モデルとの類似度が高い結果を抽出し、抽出された結果に対応するデータである検索結果を出力する、情報検索方法。
(付記8)
付記7に記載の情報検索方法において、前記適合データの集合において、適合データ間の類似度に基づいて適合データを選別し、選別された適合データを用いて前記音声認識用言語モデルを更新する情報検索方法。
(付記9)
入力された単語または単語集合の言語モデルであるクエリ言語モデルを算出するステップと、音声認識用言語モデルを用いて音声データを音声認識した結果を記憶した記憶手段を参照して、前記結果から、前記クエリ用言語モデルとの類似度が高い結果を、適合データとして抽出するステップと、前記適合データを用いて前記音声認識用言語モデルを更新するステップと、更新された音声認識用言語モデルを用いて、前記記憶手段に記憶された結果を更新するステップと、更新された結果から、前記クエリ言語モデルとの類似度が高い結果を抽出し、抽出された結果に対応するデータである検索結果を出力するステップと、をコンピュータに実行させるプログラム。
(付記10)
付記9に記載のプログラムにおいて、前記適合データの集合において、適合データ間の類似度に基づいて適合データを選別するステップと、選別された適合データを用いて前記音声認識用言語モデルを更新するステップと、をコンピュータに実行させるプログラム。
本発明は、会話や発言が記録された音声データに対し、指定した単語あるいは単語集合に関連が大きい部分を検索できる音声検索システムなどの用途に利用することができる。
この出願は、2012年9月27日に出願された日本出願特願2012−214952を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1 情報検索システム
10 CPU
12 メモリ
14 HDD
16 通信IF
18 表示装置
20 入力装置
22 バス
110 算出手段
120 抽出手段
130、131、132 第一の更新手段
140 第二の更新手段
150 選別手段
160 第三の更新手段
210 記憶手段(第一の記憶手段)
220 第二の記憶手段
230 第三の記憶手段
240 第四の記憶手段

Claims (10)

  1. 入力された単語または単語集合の言語モデルであるクエリ用言語モデルを算出する算出手段と、
    音声認識用言語モデルを用いて音声データを音声認識した結果を記憶する記憶手段を参照して、前記結果から、前記クエリ用言語モデルとの類似度が高い結果を、適合データとして抽出する抽出手段と、
    前記適合データを用いて前記音声認識用言語モデルを更新する第一の更新手段と、
    更新された音声認識用言語モデルを用いて、前記記憶手段に記憶された結果を更新する第二の更新手段と、を有し、
    前記抽出手段は、更新された結果から前記クエリ用言語モデルとの類似度が高い結果を抽出し、抽出された結果に対応するデータである検索結果を出力する情報検索システム。
  2. 前記適合データの集合において、適合データ間の類似度に基づいて適合データを選別する選別手段を有し、
    前記第一の更新手段は、選別された適合データを用いて前記音声認識用言語モデルを更新する、請求項1に記載の情報検索システム。
  3. 前記適合データを用いて前記クエリ用言語モデルを更新する第三の更新手段を有し、
    前記第一の更新手段は、前記適合データの代わりに、更新されたクエリ用言語モデルを用いて、前記音声認識用言語モデルを更新する、請求項1または2に記載の情報検索システム。
  4. 前記抽出手段は、更新された結果から抽出された結果が、更新される前の結果から抽出された結果と同じであった場合に、検索結果を出力する、請求項1乃至3のいずれかに記載の情報検索システム。
  5. 前記第二の更新手段は、更新された音声認識用言語モデルを用いて前記音声データを音声認識することで、前記結果を更新する、請求項1乃至4のいずれかに記載の情報検索システム。
  6. 前記第二の更新手段は、更新された音声認識用言語モデルを用いて、前記音声データを音声認識した結果に対応する単語グラフの言語確率をリスコアすることで、前記結果を更新する、請求項1乃至4のいずれかに記載の情報検索システム。
  7. 入力された単語または単語集合の言語モデルであるクエリ言語モデルを算出し、
    音声認識用言語モデルを用いて音声データを音声認識した結果を記憶した記憶手段を参照して、前記結果から、前記クエリ用言語モデルとの類似度が高い結果を、適合データとして抽出し、
    前記適合データを用いて前記音声認識用言語モデルを更新し、
    更新された音声認識用言語モデルを用いて、前記記憶手段に記憶された結果を更新し、
    更新された結果から、前記クエリ言語モデルとの類似度が高い結果を抽出し、抽出された結果に対応するデータである検索結果を出力する情報検索方法。
  8. 前記適合データの集合において、適合データ間の類似度に基づいて適合データを選別し、
    選別された適合データを用いて前記音声認識用言語モデルを更新する、請求項7に記載の情報検索方法。
  9. 入力された単語または単語集合の言語モデルであるクエリ言語モデルを算出するステップと、
    音声認識用言語モデルを用いて音声データを音声認識した結果を記憶した記憶手段を参照して、前記結果から、前記クエリ用言語モデルとの類似度が高い結果を、適合データとして抽出するステップと、
    前記適合データを用いて前記音声認識用言語モデルを更新するステップと、
    更新された音声認識用言語モデルを用いて、前記記憶手段に記憶された結果を更新するステップと、
    更新された結果から、前記クエリ言語モデルとの類似度が高い結果を抽出し、抽出された結果に対応するデータである検索結果を出力するステップと、をコンピュータに実行させるプログラム。
  10. 前記適合データの集合において、適合データ間の類似度に基づいて適合データを選別するステップと、
    選別された適合データを用いて前記音声認識用言語モデルを更新するステップと、をコンピュータに実行させる請求項9に記載のプログラム。
JP2014538143A 2012-09-27 2013-09-12 情報検索システム、情報検索方法およびプログラム Pending JPWO2014049998A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012214952 2012-09-27
JP2012214952 2012-09-27
PCT/JP2013/005401 WO2014049998A1 (ja) 2012-09-27 2013-09-12 情報検索システム、情報検索方法およびプログラム

Publications (1)

Publication Number Publication Date
JPWO2014049998A1 true JPWO2014049998A1 (ja) 2016-08-22

Family

ID=50387444

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014538143A Pending JPWO2014049998A1 (ja) 2012-09-27 2013-09-12 情報検索システム、情報検索方法およびプログラム

Country Status (3)

Country Link
US (1) US20150234937A1 (ja)
JP (1) JPWO2014049998A1 (ja)
WO (1) WO2014049998A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170229124A1 (en) * 2016-02-05 2017-08-10 Google Inc. Re-recognizing speech with external data sources
US10909180B2 (en) * 2019-01-11 2021-02-02 International Business Machines Corporation Dynamic query processing and document retrieval

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002149187A (ja) * 2000-11-07 2002-05-24 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
JP2003036093A (ja) * 2001-07-23 2003-02-07 Japan Science & Technology Corp 音声入力検索システム
MY141150A (en) * 2001-11-02 2010-03-15 Panasonic Corp Channel selecting apparatus utilizing speech recognition, and controling method thereof
JP4115723B2 (ja) * 2002-03-18 2008-07-09 独立行政法人産業技術総合研究所 音声入力によるテキスト検索装置
JP2004348552A (ja) * 2003-05-23 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> 音声文書検索装置および方法およびプログラム
US10635723B2 (en) * 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US10509915B2 (en) * 2004-04-01 2019-12-17 Google Llc Establishing an interactive environment for rendered documents
US9811728B2 (en) * 2004-04-12 2017-11-07 Google Inc. Adding value to a rendered document
JP5089955B2 (ja) * 2006-10-06 2012-12-05 三菱電機株式会社 音声対話装置
US8352264B2 (en) * 2008-03-19 2013-01-08 Canyon IP Holdings, LLC Corrective feedback loop for automated speech recognition
US20100138852A1 (en) * 2007-05-17 2010-06-03 Alan Hirsch System and method for the presentation of interactive advertising quizzes
US7945847B2 (en) * 2007-06-26 2011-05-17 International Business Machines Corporation Recasting search engine results as a motion picture with audio
KR20100067174A (ko) * 2008-12-11 2010-06-21 한국전자통신연구원 음성 인식을 이용한 메타데이터 검색기, 검색 방법, iptv 수신 장치
US8463799B2 (en) * 2011-06-29 2013-06-11 International Business Machines Corporation System and method for consolidating search engine results
KR20140028174A (ko) * 2012-07-13 2014-03-10 삼성전자주식회사 음성 인식 방법 및 이를 적용한 전자 장치
EP2893435B1 (en) * 2012-09-07 2019-05-08 Carnegie Mellon University Methods for hybrid gpu/cpu data processing

Also Published As

Publication number Publication date
WO2014049998A1 (ja) 2014-04-03
US20150234937A1 (en) 2015-08-20

Similar Documents

Publication Publication Date Title
JP5257071B2 (ja) 類似度計算装置及び情報検索装置
JP6556575B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
US20120290293A1 (en) Exploiting Query Click Logs for Domain Detection in Spoken Language Understanding
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
US9697819B2 (en) Method for building a speech feature library, and method, apparatus, device, and computer readable storage media for speech synthesis
US9747893B2 (en) Unsupervised training method, training apparatus, and training program for an N-gram language model based upon recognition reliability
CN108027814B (zh) 停用词识别方法与装置
CN107229627B (zh) 一种文本处理方法、装置及计算设备
KR20040104420A (ko) 텍스트 및 음성 분류를 위하여 언어 모델을 구별하는트레이닝
KR20120011010A (ko) 수기 인식 방법 및 장치
JP2011018330A (ja) 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
JP4930379B2 (ja) 類似文検索方法、類似文検索システム及び類似文検索用プログラム
CN110457672A (zh) 关键词确定方法、装置、电子设备及存储介质
EP2707808A2 (en) Exploiting query click logs for domain detection in spoken language understanding
JP6599219B2 (ja) 読み付与装置、読み付与方法、およびプログラム
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN113128209B (zh) 用于生成词库的方法及装置
JP2010181884A (ja) 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法
JP2018018330A (ja) データ検索プログラム、データ検索方法およびデータ検索装置
JP5183120B2 (ja) 平方根ディスカウンティングを使用した統計的言語による音声認識
US9330662B2 (en) Pattern classifier device, pattern classifying method, computer program product, learning device, and learning method
WO2014049998A1 (ja) 情報検索システム、情報検索方法およびプログラム
JP2010032865A (ja) 音声認識装置、音声認識システムおよびプログラム
WO2019064137A1 (en) EXPRESSION OF EXPRESSION FOR TREATMENT OF NATURAL LANGUAGE
JP5252596B2 (ja) 文字認識装置、文字認識方法及びプログラム