JPWO2009147745A1

JPWO2009147745A1 - 検索装置

Info

Publication number: JPWO2009147745A1
Application number: JP2010515721A
Authority: JP
Inventors: 岡登　洋平; 洋平岡登; 知弘岩崎
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2008-06-06
Filing date: 2008-06-06
Publication date: 2011-10-20
Also published as: WO2009147745A1

Abstract

音声入力によるデータベース検索は認識誤りのために、テキスト入力との組合せで認識誤り修正の方法があるが、搭載機器によっては、手操作による制限が生じ、手操作での検索が継続できなくなり、音声操作と手操作を相互に引き継ぎ入力および検索を進められることが望まれる。音声認識手段で認識された入力音声の検索発話の認識結果と、テキスト入力手段で手操作入力された検索テキスト結果を操作履歴格納手段に格納し、検索クエリ生成手段で操作履歴格納手段からの入力を統合し信頼度を付与して生成された検索クエリに基づいてデータベースの検索をデータベース検索手段で行い、検索結果を検索結果提示手段でユーザへ提示する。

Description

この発明は、音声入力およびテキスト入力によって、あいまい性を含む検索結果を提示する検索装置に関するものである。

音声による入力は、キーボードやタッチパネルに比べて初心者でも素早い入力が可能な利点がある。音声による検索においては、近年、大語彙連続音声認識とデータベース検索を組み合わせた全文検索や名称検索が検討されている。典型的な音声認識とデータベース検索の組み合わせは、図１１に示すように入力音声を音声認識手段１０３で音響標準パタン１０１と認識辞書１０２を参照して音声認識し、その結果を用いて検索クエリ生成手段１０６で検索クエリを生成し、この生成検索クエリによりデータベース検索手段１０８で検索対象データベース１０７の検索を行い、検索結果提示手段１０９で提示するものである。このとき、音声認識の出力は、語彙に制限があること、認識誤りが含まれることを考慮する必要がある。

これら音声認識の性質を考慮した検索方法として、特開２００４−５６００号公報（特許文献１）では、単語の認識単位について音声認識の確からしさを表すスコアを考慮して認識結果に含まれる複数の単語を検索に用いる方法が開示されている。また、特開２００４−３４８５５２号公報（特許文献２）では、音声認識誤りを考慮して認識結果から検索に用いる単語を拡大する方法が開示されている。

さらに、従来、複数の発話に基づく操作、また手操作と組み合わせて誤認識を修正する方法が開示されており、特開２００４−２５８４８０号公報（特許文献３）では、車載機器での利用を想定して音声認識結果の訂正の際、同一母音の文字、音声認識スコアの高い文字・語に該当する文字等、特定の一文字へのみ修正できるようにすることで選択候補を制限する訂正方法が開示されている。

特開２００４−５６００号公報特開２００４−３４８５５２号公報特開２００４−２５８４８０号公報

上記の通り音声の性質を考慮して検索の精度を改善する方法と、テキスト入力との組み合わせにより音声認識誤りを修正する方法が開示されている。これらを組合わせて音声入力の認識結果を修正して精度を高めることが可能である。しかし、検索用途において、音声とテキストで入力可能な場合、音声とテキストで入力内容が異なる場合が生じやすい。これは、音声による入力では１０音節以上の名称でも一言で容易に入力できるため、長い発話で候補を限定する方が利便性が大きく、その一方で、手操作による入力は、特にタッチパネルで提示された多数の文字から選択する場合、手間が大きくユーザは最小の入力数による検索を試みる傾向があるためである。また、音声の訂正操作は、語頭から入力する、あるいは特定箇所を指定して入力する必要があるため複雑である。この結果、音声入力による検索に失敗した場合、訂正よりも手操作で再入力する方が好まれる。

また、カーナビゲーションシステム等の車載機器においては、車の走行中に手操作が制限される場合が生じる。このため、手操作で実施していた検索が継続できなくなる場合がある。逆に音声検索の途中で手操作が解除される場合がある。このような場合、音声操作と手操作を相互に引き継いで入力および検索を進められることが望ましい。

本発明は、上記を鑑みて、信頼度と操作履歴とを考慮して統合したクエリを生成して検索を行うことにより、音声による入力と、手操作による入力を組合せて検索の精度を改善することを目的とする。また、音声操作による入力内容または検索結果の少なくとも一方を参照して入力されるテキストを予測し、操作性を改善することを目的とする。

本発明に係る検索装置は、
入力された音声による検索発話を認識する音声認識手段と、
手操作による検索テキストを入力するテキスト入力手段と、
音声の認識結果とテキスト入力結果を格納する操作履歴格納手段と、
操作履歴格納手段から入力される音声の認識結果とテキスト入力結果を統合し信頼度を付与した検索クエリを生成する検索クエリ生成手段と、
検索クエリに基づいてデータベースの検索を行うデータベース検索手段と
検索結果をユーザへ提示する検索結果提示手段を備える。

本発明に係る検索装置によれば、
操作履歴格納手段に、音声認識手段で認識された入力音声の検索発話の認識結果と、テキスト入力手段で手操作入力された検索テキスト結果が格納され、検索クエリ生成手段で操作履歴格納手段から出力を統合し信頼度を付与して検索クエリを生成し、この生成された検索クエリに基づいてデータベースの検索をデータベース検索手段で行うので、信頼度を考慮して複数の入力手段に基づく検索が実現できる。このため、例えば、カーナビゲーションシステム等の車載機器において手操作が制限される状況が生じる場合にも、音声操作と手操作を組み合わせて検索が行える。また、対話履歴を考慮して訂正操作や絞込み操作の改善が可能となる。

本発明の実施の形態１に係る検索装置の機能ブロック図である。隠れマルコフモデルにより表現された音素の時間構造例の説明図である。認識辞書に記載された単語とその制約を記述する単語定義辞書例の説明図である。認識辞書に記載された単語連鎖とその確率を示す単語接続辞書例の説明図である。音声認識手段による認識結果の音節列および音節ラティス例の説明図である。検索用索引ファイルの構成例の説明図である。操作画面構成例の説明図である。実施の形態１に係る検索装置の動作フロー説明図である。実施の形態２に係る検索装置の機能ブロック図である。実施の形態２に係る検索装置の動作フロー説明図である。従来の音声検索装置の構成を示す機能ブロック図である。

実施の形態１．
図１は、本発明の実施の形態１に係る検索装置の構成を示すブロック図である。
図に示す検索装置は、制御手段１００、音響標準パタン１０１、認識辞書１０２、音声認識手段１０３、テキスト入力手段１０４、操作履歴格納手段１０５、検索クエリ生成手段１０６、検索対象データベース１０７、データベース検索手段１０８、検索結果提示手段１０９からなる。

従来の検索装置と異なる本発明に係る実施の形態１に特徴的な部分は、操作履歴格納手段１０５を備え、制御手段１００、音声認識手段１０３、テキスト入力手段１０４から入力される操作の履歴と、入力の信頼度を考慮して検索クエリを生成し検索することである。以下、実施の形態１に係る検索装置の構成および動作を説明する。

制御手段１００は、ユーザ操作または外部機器からの入力に基づいて操作履歴格納手段１０５の初期化や操作履歴の訂正要求等を行う。また、操作履歴格納手段１０５の要求に応じてユーザ操作や外部機器からの入力を取得し操作履歴へ追加する。

音響標準パタン１０１は、音声認識の際に照合する音素など音声認識の基本単位に対応する音声のスペクトルとその時間的な構造を表す。例えば、音素を単位とする時系列を自己回帰アークあり、後戻りアーク無しの各３状態の隠れマルコフモデルを用いる。各状態に対応する音響特徴量は、共分散を保持する８混合ガウス分布で表す。図２は上記の隠れマルコフモデルの構造を図示したものである。音響標準パタンのパラメータは、予め多数の話者の学習用音声データから推定しておく。

認識辞書１０２は、認識対象の表現を音響標準パタンの組み合わせで記述するための辞書である。具体的には、音響標準パタンの中に対象の言語的な出力対象と制約を記述する単語定義辞書と、単語間のつながりを記述する単語接続辞書からなる。単語定義辞書の例を図３に示す。また、３つの単語の連鎖（トライグラム）する確率として単語接続を記述する例を図４に示す。

音声認識手段１０３は、入力された音声を音響標準パタン１０１および認識辞書１０２と照合し、照合の度合いを表すスコアが高い単語の組み合わせを単語単位で信頼度が付与された認識結果を出力する。具体的な処理は、音声分析処理、照合処理、探索処理からなる。

音声分析処理は、入力音声を音声認識に好適な音響特徴量へ変換する処理である。例えば、音響特徴量の算出方法として、マイクロフォンで入力された音声波形を標本化周期１６ｋＨｚ・１６ビットでＡ／Ｄ変換し、時間フレーム１０ｍｓ間隔で２５６点フーリエ変換によりパワースペクトルを求め、振幅および周波数軸を対数化した後で逆フーリエ変換を行い１２次元のメルケプストラムと、その時間方向の１次回帰係数１２次元の合計２４次元を用いる。

照合処理は、音声分析処理で算出した時間フレームの音響特徴量と音響標準パタン１０１を照合し、照合度合いを表す局所的スコアを算出する処理である。例えば、音響標準パタンを多次元混合ガウス分布で表現しておき、入力された音響特徴量が出力される確率を算出しスコアとする。

探索処理は、認識辞書１０２に記載される言語的な制約のもとで、照合処理による算出される局所スコアを累積し、音声全体に対してスコアが高い単語列の候補とそのスコアを求める処理である。入力音声全体との照合が終了した場合、バックトラックを行い、認識結果を取得する。認識結果とは、認識単位の単語により表現される単語列、または単語ラティスである。ここで、認識単位の単語とは、言語学的な意味の単語ではなく音響標準パタン１０１に記載された標準パタンの組み合わせで表現される単位であり、音素や音節であっても良い。また、認識時よりも短い単位への変換を認識終了後に行うことは容易である

単語ラティスとは、音声認識結果の出力表現の一つであり、各時刻における複数の上位候補の結果を時間方向に集約してグラフ構造としたものである。単語ラティスは、最大スコアとなる認識結果の単語列や文単位で複数の候補を出力するＮベスト認識結果を包含する。認識結果の出力表現の例を図５に示す。図５（１）が１位の認識結果の音節表現（和歌山県町の滝）、図５（２）が音節ラティス表現であり「和歌山県町の滝」「岡山県町の滝」「和歌山県那智大滝」「岡山県那智大滝」の４種類の表現を包含する。

認識結果の単語やその一部を表す音節に対して、それぞれ信頼度が付与される。信頼度とは、認識結果に含まれる単語の妥当性を表す指標である。具体的には、音響標準パタン１０１との照合スコア、認識辞書１０２における単語の並び、競合する候補との関係等を集約している。ここでは、信頼度は、０以上１以下に正規化されているものとする。信頼度が大きい程確実性が高く、信頼度が１の場合ユーザの入力に確実に含まれることを表す。

音声認識の詳細な方法については、「音声認識の基礎（上）（下）」、ＬａｗｒｅｎｃｅＲａｂｉｎｅｒ、Ｂｉｉｎｇ−ＨｗａｎｇＪｕａｎｇ共著、古井貞煕監訳、ＮＴＴアドバンステクノロジ株式会社（参照文献１）および「ＳＰＯＫＥＮＬＡＮＧＵＡＧＥＰＲＯＣＥＳＳＩＮＧ −ＡｇｕｉｄｅｔｏＴｈｅｏｒｙ、ＡｌｇｏｒｉｔｈｍａｎｄＳｙｓｔｅｍＤｅｖｅｌｏｐｍｅｎｔ−」、ＸｕｅｄｏｎｇＨｕａｎｇ、ＡｌｅｘＡｃｅｒｏ、Ｈｓｉａｏ−ＷｕｅｎＨｏｎ共著、ＰｒｅｎｔｉｃｅＨａｌｌ．（参照文献２）に詳細に説明されている。特に、ラティスの算出方法は、参照文献２の１３．３節に詳しく説明されている。

テキスト入力手段１０４は、キーボードやタッチパネル等の文字を入力するインタフェースであり、入力単位ごとに操作履歴格納手段１０５へ格納する。好適な入力単位は言語や入力インタフェースに依存する。日本語であれば音節（カナ１文字に相当）、英語であればアルファベットまたは単語となる。テキスト入力結果も信頼度１の単語ラティスとみなすことができる。

操作履歴格納手段１０５は、音声認識手段１０３による音声認識結果あるいはテキスト入力手段１０４によるテキスト入力結果を検索に必要な情報を保持して順次格納しておくメモリである。具体的には、入力の順番、入力方法の種別、認識結果を表す単語ラティスと信頼度、テキスト入力結果等である。また、入力以外にも検索結果に対する「訂正」等のユーザ操作を格納する。

検索クエリ生成手段１０６は、操作履歴格納手段１０５に格納された操作履歴を取り出し、入力文字列に対して付与された信頼度を考慮して検索クエリベクトルへ変換する。検索クエリベクトルは、入力から抽出される音素・音節・単語等の言語的な単位やその組み合わせを単位としたベクトル表現である。整合性のため音声認識手段１０３、テキスト入力手段１０４から取得される単位のうち短い言語的な単位に合わせる。検索クエリベクトルの作成方法については後述する。

検索用データベース１０７は、検索対象のデータベースである。予め、検索クエリを構成する検索語に対する索引を生成しておくことで検索を高速化できる。検索方法および索引作成方法については、「情報検索アルゴリズム」北研二、津田和彦、獅子堀正幹共著、共立出版２００２、（参照文献３）に説明されている。例えば、検索単位を音節として名称「和歌山の那智大滝」（音節表記：ｗａ−ｋａ−ｙａ−ｍａ−ｎｏ−ｎａ−ｃｉ−ｏ−ｏ−ｔａ−ｋｉ、候補ＩＤ＝１）、「日光華厳の滝」（音節表記：ｎｉ−Ｑ−ｋｏ−ｏ−ｋｅ−ｇｏ−Ｎ−ｎｏ−ｔａ−ｋｉ、候補ＩＤ＝２）に対する索引の例を図６に示す。

データベース検索手段１０８は、検索用データベース１０７を参照し、検索クエリ生成手段が生成したクエリに基づいて検索結果の候補を取得する。このとき、マッチした検索クエリを構成する個々の音節に付与された信頼度の合計により検索スコアを定義する。
例えば信頼度が全て１の音節列による検索クエリ「華厳の滝」（ｋｅ−ｇｏ−Ｎ−ｎｏ−ｔａ−ｋｉ）に対して図６に示す索引を参照すると、ＩＤ＝１については「ｎｏ」「ｔａ」「ｋｉ」の３検索語がマッチし信頼度の合計による検索スコアは３点、ＩＤ＝２に対しては全てマッチしスコアが６点となる。「ｔｅ−ｇｏ−Ｎ−ｎｏ−ｔａ−ｋｉ」と誤って認識した場合でもスコアはそれぞれ３点と５点となり、音声認識誤りや登録通りの名称で無い場合であっても部分的なマッチから検索できる。

上記では、信頼度の合計により検索スコアを定義したが、予め索引側の検索語に対して指標値を付与しておき積和等の演算により検索スコアとしても良い。索引側へ付与する指標値としては、ＴＦ・ＩＤＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ・ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）や検索語の長さを表す重み等が利用できる。検索を行う際、信頼度１の検索語に対して該当しない候補は最終的に削除するようにしても良い。この場合、テキスト入力で入力した語彙を必ず含む検索結果を取得できる。
検索結果提示手段１０９は、データベース検索手段１０８の検索結果をユーザへ提示する。

図７は、本検索装置に好適なユーザインタフェース画面の一例である。画面の上半分は検索結果を提示しており、ユーザは任意の検索結果を選択可能である。画面の下半分は、入力およびフロー操作のためのボタンと、入力結果を提示する文字提示ボックスが配置されている。入力のボタンとしてテキスト入力のための５０音文字入力パレット、音声入力開始のための「発声」キー、「訂正」キー、操作履歴を初期状態に戻す「クリア」キーが配置されている。１発話または１文字入力するたびに、検索クエリを生成し、検索結果を更新する。別途、「検索」キーを配置し文字入力後に「検索」キーを押下する設計としても良い。また、画面を機能ごとに複数に分割して提示しても良い。

次に図８のフローチャートを参照し、実施の形態１に係る検索装置の動作を説明する。あらかじめ、制御手段１００により操作履歴格納手段１０５の履歴を初期化しておく（ステップＳ１００）。検索装置は、ユーザの入力を待ち受ける（ステップＳ１０１）。

入力が音声の場合、音声認識手段１０３は入力音声の時間区間を検出し、単語ごとに信頼度が付与された認識結果を出力し、入力方法の情報を記載して操作履歴格納手段１０５へ格納する（ステップＳ１０２）。

入力がテキストの場合、テキスト入力手段１０４はテキスト入力単位の入力が完了すると操作履歴格納手段１０５へ格納する（ステップＳ１０３）。
ステップＳ１０２・ステップＳ１０３の入力完了信号、あるいは制御手段１００より取得される信号により操作履歴管理手段１０５が送出した操作履歴に基づいて、検索クエリ生成手段１０６は検索クエリを生成する（ステップＳ１０４）。

データベース検索手段１０８は、検索クエリ生成手段１０６で生成された検索クエリにより検索対象データベース１０７を検索し、候補エントリごとに集計した検索スコアに基づいて提示候補リストを生成する（ステップＳ１０５）。

検索結果提示手段１０９は、データベース検索手段１０８で生成された提示候補リストを画面提示してユーザへ通知する（ステップＳ１０６）。
この後、ステップＳ１０１に戻りユーザの入力待ち受け状態となる。ユーザが所望する検索結果が提示できた場合、検索結果を閲覧でき、ユーザは目的を達成する。
候補数が多いためユーザが所望の検索結果を提示できなかった場合、さらに音声またはテキストを入力し、候補を限定することが可能である。

所望の結果（例えば施設等）が検索できなかった場合、ユーザは入力内容を訂正して再検索を行う。ユーザからの訂正要求があった場合、操作履歴格納手段１０５に登録された最後の入力から順に無効にしていく。この結果、有効な入力が０件となった場合、提示候補も０件となる。１件以上ある場合、前の検索結果に戻る（ステップＳ１０７）。

検索クエリの作成方法
検索クエリ作成手段１０６における検索クエリの作成方法について説明する。以下、音声認識結果のみ、テキスト入力結果のみ、音声認識結果とテキスト入力結果の組み合わせの場合、複数の音声入力の場合について、それぞれ説明する。また、訂正操作の扱い、絞り込み操作の扱いを説明する。この説明では検索語は音節とし、認識結果・テキスト入力は予め音節と音節ごとの信頼度へ変換されているものとする。

単一の音声認識結果である場合。
操作履歴格納手段１０５より取得される操作履歴が単一の音声認識結果である場合、音節と音節ごとの信頼度の組み合わせからなる検索クエリベクトルへ変換する。認識結果中に複数回出現する音節の信頼度は、個別の信頼度の和あるいは最大値とする。
テキスト入力である場合。
操作履歴格納手段１０５より取得される操作履歴がテキスト入力である場合、各音節の信頼度が１である他は音声認識結果の場合と同様である。

音声認識結果ｓ１およびテキスト入力ｔ１である場合。
操作履歴格納手段１０５より取得される操作履歴が音声認識結果ｓ１およびテキスト入力ｔ１である場合、音声認識結果ｓ１とテキスト入力ｔ１を統合した検索クエリベクトルを生成する。この生成方法は２通りある。一つは、音声認識結果ｓ１とテキスト入力ｔ１それぞれから検索クエリベクトルを作成し、作成した検索クエリベクトルを単一の検索クエリベクトルへマージするものである。各検索語の信頼度は２つの信頼度の和あるいは最大値とする。

もう一つの方法は、ｓ１とｔ１の対応関係の仮説を準備しておき、仮説に基づいて音節あるいは単語のラティスの一致度合いを求め、一つのラティス表現へ集約し検索クエリを生成するものである。このとき、音声認識結果がラティス表現である場合、競合する他候補の信頼度も更新される。具体的な一致度合いの算出は、音節の挿入・削除・置換を考慮して動的計画法（ＤＰ；ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）でマッチングを行い認識結果と入力テキストで共通して含まれる音節・類似した音節列を特定する。このとき、ＤＰマッチング判定対象とする対応関係の仮説としては、（１）ｓ１とｔ１が同内容、（２）ｓ１とｔ１の一方が他方を包含、（３）ｓ１の末尾がｔ１の先頭よりも前（あるいはその逆）等のパタンがある。ＤＰスコアを算出し、これらの仮説を検証する。ＤＰマッチングにより対応関係の仮説と、仮説に基づくｓ１とｔ１を構成する音節または単語の対応関係が得られる。対応付けの結果、同一と判定した音節または単語はマージして元の信頼度を更新する。例えば、ｓ１に付与された信頼度０.１とｔ１に付与された信頼度０.９の合計１.０または最大値０.９をマージ後の信頼度とする。ラティスの場合、信頼度の変化に応じて全体の信頼度を更新する。例えば、図５（２）に示すラティスで示される音声認識結果と、テキスト入力「ナチ」があった場合、ラティス中の「ｎａｃｉ」と照合する。これら音節の信頼度を１へ増加させた結果、競合する「ｍａｃｉ」の信頼度はＤＰスコアを考慮して相対的に低下する。この後、更新されたラティス表現に基づいて検索クエリを生成する。

上記の方法により、ラティス表現同士のマージも可能である。このため、複数回の音声入力に対しての認識結果についても認識結果とテキスト入力の場合と同様に認識結果をマージして単一の検索クエリへ変換できる。

ユーザの訂正操作に対して、信頼度を変化させても良い。例えば、操作履歴が（１）音声入力→（２）検索候補提示→（３）「訂正」操作→（４）テキスト入力という順序である場合、（４）は（１）を訂正している操作であることが想定される。このような訂正履歴が抽出された場合、（１）の信頼度へ所定のペナルティを乗じて検索クエリを生成する。ペナルティを０とすれば訂正発話は無視される。０以上の場合、（１）で求めた音声認識結果の信頼度をより低く見積もった上で（４）と合成した検索クエリを生成する。ペナルティを０より大きくする利点は、テキスト入力による訂正部分を考慮して改訂したラティスに基づいて検索するためテキスト入力のみの場合よりも妥当な検索結果が得られる点である。前出の例では、（１）音声入力「和歌山県那智の滝」（「ワカヤマケンマチノタキ」と誤認識、目的施設「和歌山の那智大滝」より上位の候補が多数あり提示できず）に対して、（４）テキスト入力において「ナ」と入力した時点で「和歌山の那智大滝」を候補名称中で相対的に高いスコアを付与できる。

ユーザの絞込み操作に対して信頼度を変化させても良い。例えば、操作履歴が（１）音声入力→（２）検索候補提示→（３）絞込み操作→（４）音声入力という順序である場合、（４）は（１）に対して絞込みしている操作であることが想定される。このような絞込み履歴が抽出された場合、（１）の信頼度へ所定のプライム値を加算して検索クエリを生成する。プライム値を０とした場合、（１）と（４）は等価と見なされる。このとき、（４）から高い信頼度の候補が得られると相対的に（１）の検索への寄与が小さくなる。ユーザは（１）に基づく検索結果を（２）で承認しており、少なくとも提示済みの候補に対して高い信頼度が得られるように信頼度を改訂する正のプライム値を付与することで、絞込み操作として一貫性の高い候補を提示できる。プライム値を付与することで、例えば、第１発話でチェーン店名称、第２発話で支店名を発声する場合、第２発話に含まれる誤認識によりチェーン店が候補から無くなる割合を少なくできる。

以上に説明したように、実施の形態１に係る検索装置は、信頼度を考慮して複数の入力手段に基づく検索が実現できる。このため、カーナビゲーションシステム等、車載機器において手操作が制限される状況が生じる場合に、音声操作と手操作を組み合わせて検索が行える。また、対話履歴を考慮して訂正操作や絞込み操作の改善が可能である。

なお、上記実施の形態では音声入力とテキスト入力の場合について説明したが、検索単位について信頼度が付与される場合であれば、文字認識等、その他の入力方式と組み合わせることも可能である。また、誤認識の傾向を表すテーブルを参照し認識結果から検索クエリを生成する際に、認識結果または単語ラティスを拡大することも可能である

実施の形態２．
図９は、実施の形態２に係る検索装置の構成を示すブロック図である。

図に示す検索装置は、制御手段１００、音響標準パタン１０１、認識辞書１０２、音声認識手段１０３、テキスト入力手段１０４、操作履歴格納手段１０５、検索クエリ生成手段１０６、検索対象データベース１０７、データベース検索手段１０８、検索結果提示手段１０９、テキスト入力予測手段２０１からなる。

実施の形態１による検索装置と異なる本実施の形態２に特徴的な部分は、テキスト入力予測手段２０１を備え、操作履歴格納手段１０５に格納された音声認識結果とデータベース検索結果の少なくとも一方を参照してテキスト入力を予測しユーザへ提示することである。

以下、実施の形態２に係る検索装置の構成および動作を説明する。ただし、実施の形態１において既に説明済みの機能ブロックについては同一の符号を付し説明を省略する。

テキスト入力予測手段２０１は、操作履歴格納手段１０５を参照して音声認識結果が訂正されている可能性があると判定した場合に、認識結果の単語ラティスと文字入力結果に基づいて次にテキスト入力される文字を予測する。予測結果の信頼度がしきい値を超える場合、ユーザへ通知する。

次に図１０のフローチャートを参照し、実施の形態２に係る検索装置の動作を説明する。あらかじめ、制御手段１００により操作履歴格納手段１０５の履歴を初期化しておく（ステップＳ２００）。

テキスト入力予測手段２０１は、操作履歴格納手段１０５を参照してテキスト入力の予測が可能か判定する（ステップＳ２０１）。可能である場合、テキスト入力を予測し候補とそのスコアを得る。そして、スコアのしきい値、提示する最大候補数に基づいて提示する候補を決めて候補をユーザを提示する（ステップＳ２０２）。具体的な候補提示方法としては、タッチパネルで提示する場合、タッチパネルの文字やボタンの色・フォント・字の大きさなどの表示形態を変えてそれ以外のボタンとの区別を容易にする。

検索装置は、ユーザの入力を待ち受ける（ステップＳ２０３）。
入力が音声の場合、音声認識手段１０３は入力音声の時間区間を検出し、単語ごとに信頼度が付与された認識結果を出力し、入力方法の情報を記載して操作履歴格納手段１０５へ格納する（ステップＳ２０４）。

入力がテキストの場合、テキスト入力手段１０４はテキスト入力単位の入力が完了すると操作履歴格納手段１０５へ格納する（ステップＳ２０５）。
ステップＳ２０２およびステップＳ２０３の入力完了信号、あるいは制御手段１００より取得される信号により操作履歴管理手段１０５が送出した操作履歴に基づいて、検索クエリ生成手段１０６は検索クエリを生成する（ステップＳ２０６）。
データベース検索手段１０８は、検索クエリ生成手段１０６により生成された検索クエリにより検索対象データベース１０７を検索し、候補エントリごとに集計した検索スコアに基づいて提示候補リストを生成する（ステップＳ２０７）。

検索結果提示手段１０９は、生成された提示候補リストを画面提示してユーザへ通知する（ステップＳ２０８）。
この後、ステップＳ２０１に戻りテキスト入力予測しその後、ユーザの入力待ち受け状態となる。
ユーザが所望する検索結果が提示できた場合、ユーザは検索結果を閲覧し、目的を達成する。

候補数が多いためユーザの所望する検索結果が提示できなかった場合、さらに音声またはテキストを入力し、候補を限定することが可能である。
所望の結果（例えば所望の施設）を検索できなかった場合、ユーザは入力内容を訂正して再検索を行う。ユーザからの訂正要求があった場合、操作履歴格納手段１０５に登録された最後の入力から順に無効にしていく。この結果、有効な入力が０件となった場合、提示候補も０件となる。１件以上ある場合、前の検索結果に戻る（ステップＳ２０９）。

入力テキストの予測方法
音声認識結果および音声認識結果による検索結果に基づく２通りの入力テキスト予測方法について説明する。

まず、テキスト入力予測を行なう第１の方法を説明する。
テキスト入力予測が実施される条件に該当する場合、操作履歴格納手段１０５に基づいて訂正対象となった音声認識結果を取得し既存の音声認識結果ラティスｓ１と既存のテキスト入力結果ｔ１の一致度合いを求め、一致部分の次の文字を入力候補リストへ追加する。具体的な一致度合いの算出は、音節の挿入・削除・置換を考慮してＤＰマッチングを行い認識結果と入力テキストで共通して含まれる音節・類似した音節列を特定する。このとき、ＤＰマッチング可能なパスとして、（１）ｓ１とｔ１が同内容、（２）ｓ１がｔ１を包含、のパタンについてＤＰスコアを算出し、これらの仮説を検証する。ＤＰマッチングの結果、テキスト入力と一致する音節を取得し、後続する音節を取得し予測結果とする。また、抽出した音節の信頼度に応じて予測した音節へスコアを付与する。テキスト入力が全く無い状態では、認識結果の先頭部分を候補として提示する。

テキスト入力予測を行なう第２の方法を説明する。
テキスト入力予測が実施される条件に該当する場合、実施の形態１に基づいて候補名称を検索しスコアが上位の候補を抽出する。さらに、検索結果の名称のうち、テキスト入力と一致する表現を含む名称を抽出し、一致する表現に続く音節のリストを作成し音節の予測結果とする。また、頻度に応じて予測した音節へスコアを付与する。テキスト入力が全く無い状態では、音声認識結果のみに基づく検索結果の名称の先頭音節を候補として提示する。

以上に説明したように、実施の形態２に係る検索装置は、音声認識結果の訂正においてテキストが入力される場合に、音声認識結果の一部分である可能性または入力テキストと音声認識結果に基づく検索結果の名称の一部分である可能性に基づいて次に入力される可能性の高い音節としてユーザへ提示することができる。このようにすることにより、ユーザのテキスト入力の手間を省くことが可能となる。

本発明は音声検索技術の利便性に関するもので、例えば、カーナビゲーションシステム等に適用され、利用される可能性がある。

Claims

入力された音声による検索発話を認識する音声認識手段と、
手操作による検索テキストを入力するテキスト入力手段と、
音声の認識結果とテキスト入力結果を操作履歴として格納する操作履歴格納手段と、
操作履歴格納手段から入力される音声の認識結果とテキスト入力結果を統合し信頼度を付与した検索クエリを生成する検索クエリ生成手段と、
検索クエリに基づいてデータベースの検索を行うデータベース検索手段と
検索結果をユーザへ提示する検索結果提示手段
を備えることを特徴とする検索装置。
検索クエリ生成手段は、操作履歴格納手段に格納された操作履歴に含まれる複数の入力それぞれに検索語に対する信頼値がベクトルで表される検索クエリベクトルを生成し、ベクトルの各要素を演算して検索クエリを生成することを特徴とする請求項１記載の検索装置。
検索クエリ生成手段は、操作履歴格納手段に格納された操作履歴に含まれる複数の入力を表す単語または音節から構成されるラティスを時系列順に並べ、隣接するラティスを動的計画法によりマージするとともに信頼値を更新し、生成された単一のラティスから検索クエリを生成することを特徴とした請求項１記載の検索装置。
ユーザが音声認識結果を訂正した場合、操作履歴から訂正操作を含む履歴と訂正対象の認識結果を抽出し、訂正対象の認識結果を構成する単語または音節の信頼度を下げ、検索クエリ生成手段は、信頼度が下げられた訂正対象の認識結果を構成する単語または音節を用いて検索クエリを生成することを特徴とする請求項２又は３記載の検索装置。
ユーザが検索結果の絞込みを行った場合、操作履歴から絞込み操作を構成する入力を抽出し、絞込み前の入力を構成する単語または音節の信頼度を上げ、検索クエリ生成手段は、信頼度が上げられた単語または音節を用いて検索クエリを生成することを特徴とする請求項２又は３記載の検索装置。
操作履歴から音声認識の訂正操作を含む履歴と訂正対象の認識結果を抽出し、訂正対象の認識結果とテキスト入力結果を動的計画法により照合してテキスト入力との対応付けをとり入力文字列を予測して提示するテキスト入力予測手段を備えることを特徴とする請求項１記載の検索装置。
ユーザが音声認識結果を訂正した場合、操作履歴から音声認識の訂正操作を含む履歴と訂正対象の認識結果を抽出し、検索クエリ生成手段は、訂正対象の認識結果とテキスト入力結果を動的計画法により照合してテキスト入力との対応付けをとって検索クエリを生成し、データベース検索手段がこの検索クエリで検索対象データベースを検索し、その検索結果からテキスト入力文字列を予測文字列として取得するテキスト入力予測手段を備えることを特徴とする請求項１記載の検索装置。
テキスト入力のための文字パレットを備え予測した文字の文字パレットによる表示形態は他の場合と変えることを特徴とする請求項６又は７記載の検索装置。
テキスト入力予測手段は予測した入力文字列の予測スコアを取得し、文字パレットは予測スコアに応じて提示形態を変えることを特徴とする請求項８記載の検索装置。