JPWO2009147745A1 - 検索装置 - Google Patents
検索装置 Download PDFInfo
- Publication number
- JPWO2009147745A1 JPWO2009147745A1 JP2010515721A JP2010515721A JPWO2009147745A1 JP WO2009147745 A1 JPWO2009147745 A1 JP WO2009147745A1 JP 2010515721 A JP2010515721 A JP 2010515721A JP 2010515721 A JP2010515721 A JP 2010515721A JP WO2009147745 A1 JPWO2009147745 A1 JP WO2009147745A1
- Authority
- JP
- Japan
- Prior art keywords
- search
- input
- result
- search query
- text input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012937 correction Methods 0.000 claims description 26
- 239000000284 extract Substances 0.000 claims 1
- 238000000034 method Methods 0.000 abstract description 37
- 230000014509 gene expression Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
音声入力によるデータベース検索は認識誤りのために、テキスト入力との組合せで認識誤り修正の方法があるが、搭載機器によっては、手操作による制限が生じ、手操作での検索が継続できなくなり、音声操作と手操作を相互に引き継ぎ入力および検索を進められることが望まれる。音声認識手段で認識された入力音声の検索発話の認識結果と、テキスト入力手段で手操作入力された検索テキスト結果を操作履歴格納手段に格納し、検索クエリ生成手段で操作履歴格納手段からの入力を統合し信頼度を付与して生成された検索クエリに基づいてデータベースの検索をデータベース検索手段で行い、検索結果を検索結果提示手段でユーザへ提示する。
Description
この発明は、音声入力およびテキスト入力によって、あいまい性を含む検索結果を提示する検索装置に関するものである。
音声による入力は、キーボードやタッチパネルに比べて初心者でも素早い入力が可能な利点がある。音声による検索においては、近年、大語彙連続音声認識とデータベース検索を組み合わせた全文検索や名称検索が検討されている。典型的な音声認識とデータベース検索の組み合わせは、図11に示すように入力音声を音声認識手段103で音響標準パタン101と認識辞書102を参照して音声認識し、その結果を用いて検索クエリ生成手段106で検索クエリを生成し、この生成検索クエリによりデータベース検索手段108で検索対象データベース107の検索を行い、検索結果提示手段109で提示するものである。このとき、音声認識の出力は、語彙に制限があること、認識誤りが含まれることを考慮する必要がある。
これら音声認識の性質を考慮した検索方法として、特開2004−5600号公報(特許文献1)では、単語の認識単位について音声認識の確からしさを表すスコアを考慮して認識結果に含まれる複数の単語を検索に用いる方法が開示されている。また、特開2004−348552号公報(特許文献2)では、音声認識誤りを考慮して認識結果から検索に用いる単語を拡大する方法が開示されている。
さらに、従来、複数の発話に基づく操作、また手操作と組み合わせて誤認識を修正する方法が開示されており、特開2004−258480号公報(特許文献3)では、車載機器での利用を想定して音声認識結果の訂正の際、同一母音の文字、音声認識スコアの高い文字・語に該当する文字等、特定の一文字へのみ修正できるようにすることで選択候補を制限する訂正方法が開示されている。
上記の通り音声の性質を考慮して検索の精度を改善する方法と、テキスト入力との組み合わせにより音声認識誤りを修正する方法が開示されている。これらを組合わせて音声入力の認識結果を修正して精度を高めることが可能である。しかし、検索用途において、音声とテキストで入力可能な場合、音声とテキストで入力内容が異なる場合が生じやすい。これは、音声による入力では10音節以上の名称でも一言で容易に入力できるため、長い発話で候補を限定する方が利便性が大きく、その一方で、手操作による入力は、特にタッチパネルで提示された多数の文字から選択する場合、手間が大きくユーザは最小の入力数による検索を試みる傾向があるためである。また、音声の訂正操作は、語頭から入力する、あるいは特定箇所を指定して入力する必要があるため複雑である。この結果、音声入力による検索に失敗した場合、訂正よりも手操作で再入力する方が好まれる。
また、カーナビゲーションシステム等の車載機器においては、車の走行中に手操作が制限される場合が生じる。このため、手操作で実施していた検索が継続できなくなる場合がある。逆に音声検索の途中で手操作が解除される場合がある。このような場合、音声操作と手操作を相互に引き継いで入力および検索を進められることが望ましい。
本発明は、上記を鑑みて、信頼度と操作履歴とを考慮して統合したクエリを生成して検索を行うことにより、音声による入力と、手操作による入力を組合せて検索の精度を改善することを目的とする。また、音声操作による入力内容または検索結果の少なくとも一方を参照して入力されるテキストを予測し、操作性を改善することを目的とする。
本発明に係る検索装置は、
入力された音声による検索発話を認識する音声認識手段と、
手操作による検索テキストを入力するテキスト入力手段と、
音声の認識結果とテキスト入力結果を格納する操作履歴格納手段と、
操作履歴格納手段から入力される音声の認識結果とテキスト入力結果を統合し信頼度を付与した検索クエリを生成する検索クエリ生成手段と、
検索クエリに基づいてデータベースの検索を行うデータベース検索手段と
検索結果をユーザへ提示する検索結果提示手段を備える。
入力された音声による検索発話を認識する音声認識手段と、
手操作による検索テキストを入力するテキスト入力手段と、
音声の認識結果とテキスト入力結果を格納する操作履歴格納手段と、
操作履歴格納手段から入力される音声の認識結果とテキスト入力結果を統合し信頼度を付与した検索クエリを生成する検索クエリ生成手段と、
検索クエリに基づいてデータベースの検索を行うデータベース検索手段と
検索結果をユーザへ提示する検索結果提示手段を備える。
本発明に係る検索装置によれば、
操作履歴格納手段に、音声認識手段で認識された入力音声の検索発話の認識結果と、テキスト入力手段で手操作入力された検索テキスト結果が格納され、検索クエリ生成手段で操作履歴格納手段から出力を統合し信頼度を付与して検索クエリを生成し、この生成された検索クエリに基づいてデータベースの検索をデータベース検索手段で行うので、信頼度を考慮して複数の入力手段に基づく検索が実現できる。このため、例えば、カーナビゲーションシステム等の車載機器において手操作が制限される状況が生じる場合にも、音声操作と手操作を組み合わせて検索が行える。また、対話履歴を考慮して訂正操作や絞込み操作の改善が可能となる。
操作履歴格納手段に、音声認識手段で認識された入力音声の検索発話の認識結果と、テキスト入力手段で手操作入力された検索テキスト結果が格納され、検索クエリ生成手段で操作履歴格納手段から出力を統合し信頼度を付与して検索クエリを生成し、この生成された検索クエリに基づいてデータベースの検索をデータベース検索手段で行うので、信頼度を考慮して複数の入力手段に基づく検索が実現できる。このため、例えば、カーナビゲーションシステム等の車載機器において手操作が制限される状況が生じる場合にも、音声操作と手操作を組み合わせて検索が行える。また、対話履歴を考慮して訂正操作や絞込み操作の改善が可能となる。
実施の形態1.
図1は、本発明の実施の形態1に係る検索装置の構成を示すブロック図である。
図に示す検索装置は、制御手段100、音響標準パタン101、認識辞書102、音声認識手段103、テキスト入力手段104、操作履歴格納手段105、検索クエリ生成手段106、検索対象データベース107、データベース検索手段108、検索結果提示手段109からなる。
図1は、本発明の実施の形態1に係る検索装置の構成を示すブロック図である。
図に示す検索装置は、制御手段100、音響標準パタン101、認識辞書102、音声認識手段103、テキスト入力手段104、操作履歴格納手段105、検索クエリ生成手段106、検索対象データベース107、データベース検索手段108、検索結果提示手段109からなる。
従来の検索装置と異なる本発明に係る実施の形態1に特徴的な部分は、操作履歴格納手段105を備え、制御手段100、音声認識手段103、テキスト入力手段104から入力される操作の履歴と、入力の信頼度を考慮して検索クエリを生成し検索することである。以下、実施の形態1に係る検索装置の構成および動作を説明する。
制御手段100は、ユーザ操作または外部機器からの入力に基づいて操作履歴格納手段105の初期化や操作履歴の訂正要求等を行う。また、操作履歴格納手段105の要求に応じてユーザ操作や外部機器からの入力を取得し操作履歴へ追加する。
音響標準パタン101は、音声認識の際に照合する音素など音声認識の基本単位に対応する音声のスペクトルとその時間的な構造を表す。例えば、音素を単位とする時系列を自己回帰アークあり、後戻りアーク無しの各3状態の隠れマルコフモデルを用いる。各状態に対応する音響特徴量は、共分散を保持する8混合ガウス分布で表す。図2は上記の隠れマルコフモデルの構造を図示したものである。音響標準パタンのパラメータは、予め多数の話者の学習用音声データから推定しておく。
認識辞書102は、認識対象の表現を音響標準パタンの組み合わせで記述するための辞書である。具体的には、音響標準パタンの中に対象の言語的な出力対象と制約を記述する単語定義辞書と、単語間のつながりを記述する単語接続辞書からなる。単語定義辞書の例を図3に示す。また、3つの単語の連鎖(トライグラム)する確率として単語接続を記述する例を図4に示す。
音声認識手段103は、入力された音声を音響標準パタン101および認識辞書102と照合し、照合の度合いを表すスコアが高い単語の組み合わせを単語単位で信頼度が付与された認識結果を出力する。具体的な処理は、音声分析処理、照合処理、探索処理からなる。
音声分析処理は、入力音声を音声認識に好適な音響特徴量へ変換する処理である。例えば、音響特徴量の算出方法として、マイクロフォンで入力された音声波形を標本化周期16kHz・16ビットでA/D変換し、時間フレーム10ms間隔で256点フーリエ変換によりパワースペクトルを求め、振幅および周波数軸を対数化した後で逆フーリエ変換を行い12次元のメルケプストラムと、その時間方向の1次回帰係数12次元の合計24次元を用いる。
照合処理は、音声分析処理で算出した時間フレームの音響特徴量と音響標準パタン101を照合し、照合度合いを表す局所的スコアを算出する処理である。例えば、音響標準パタンを多次元混合ガウス分布で表現しておき、入力された音響特徴量が出力される確率を算出しスコアとする。
探索処理は、認識辞書102に記載される言語的な制約のもとで、照合処理による算出される局所スコアを累積し、音声全体に対してスコアが高い単語列の候補とそのスコアを求める処理である。入力音声全体との照合が終了した場合、バックトラックを行い、認識結果を取得する。認識結果とは、認識単位の単語により表現される単語列、または単語ラティスである。ここで、認識単位の単語とは、言語学的な意味の単語ではなく音響標準パタン101に記載された標準パタンの組み合わせで表現される単位であり、音素や音節であっても良い。また、認識時よりも短い単位への変換を認識終了後に行うことは容易である
単語ラティスとは、音声認識結果の出力表現の一つであり、各時刻における複数の上位候補の結果を時間方向に集約してグラフ構造としたものである。単語ラティスは、最大スコアとなる認識結果の単語列や文単位で複数の候補を出力するNベスト認識結果を包含する。認識結果の出力表現の例を図5に示す。図5(1)が1位の認識結果の音節表現(和歌山県町の滝)、図5(2)が音節ラティス表現であり「和歌山県町の滝」「岡山県町の滝」「和歌山県那智大滝」「岡山県那智大滝」の4種類の表現を包含する。
認識結果の単語やその一部を表す音節に対して、それぞれ信頼度が付与される。信頼度とは、認識結果に含まれる単語の妥当性を表す指標である。具体的には、音響標準パタン101との照合スコア、認識辞書102における単語の並び、競合する候補との関係等を集約している。ここでは、信頼度は、0以上1以下に正規化されているものとする。信頼度が大きい程確実性が高く、信頼度が1の場合ユーザの入力に確実に含まれることを表す。
音声認識の詳細な方法については、「音声認識の基礎(上)(下)」、Lawrence Rabiner、Biing−Hwang Juang共著、古井貞煕監訳、NTTアドバンステクノロジ株式会社(参照文献1)および「SPOKEN LANGUAGE PROCESSING −A guide to Theory、 Algorithm and System Development−」、Xuedong Huang、 Alex Acero、Hsiao−Wuen Hon共著、Prentice Hall.(参照文献2)に詳細に説明されている。特に、ラティスの算出方法は、参照文献2の13.3節に詳しく説明されている。
テキスト入力手段104は、キーボードやタッチパネル等の文字を入力するインタフェースであり、入力単位ごとに操作履歴格納手段105へ格納する。好適な入力単位は言語や入力インタフェースに依存する。日本語であれば音節(カナ1文字に相当)、英語であればアルファベットまたは単語となる。テキスト入力結果も信頼度1の単語ラティスとみなすことができる。
操作履歴格納手段105は、音声認識手段103による音声認識結果あるいはテキスト入力手段104によるテキスト入力結果を検索に必要な情報を保持して順次格納しておくメモリである。具体的には、入力の順番、入力方法の種別、認識結果を表す単語ラティスと信頼度、テキスト入力結果等である。また、入力以外にも検索結果に対する「訂正」等のユーザ操作を格納する。
検索クエリ生成手段106は、操作履歴格納手段105に格納された操作履歴を取り出し、入力文字列に対して付与された信頼度を考慮して検索クエリベクトルへ変換する。検索クエリベクトルは、入力から抽出される音素・音節・単語等の言語的な単位やその組み合わせを単位としたベクトル表現である。整合性のため音声認識手段103、テキスト入力手段104から取得される単位のうち短い言語的な単位に合わせる。検索クエリベクトルの作成方法については後述する。
検索用データベース107は、検索対象のデータベースである。予め、検索クエリを構成する検索語に対する索引を生成しておくことで検索を高速化できる。検索方法および索引作成方法については、「情報検索アルゴリズム」 北研二、津田和彦、獅子堀正幹 共著、共立出版2002、(参照文献3)に説明されている。例えば、検索単位を音節として名称「和歌山の那智大滝」(音節表記:wa−ka−ya−ma−no−na−ci−o−o−ta−ki、候補ID=1)、「日光華厳の滝」(音節表記:ni−Q−ko−o−ke−go−N−no−ta−ki、候補ID=2)に対する索引の例を図6に示す。
データベース検索手段108は、検索用データベース107を参照し、検索クエリ生成手段が生成したクエリに基づいて検索結果の候補を取得する。このとき、マッチした検索クエリを構成する個々の音節に付与された信頼度の合計により検索スコアを定義する。
例えば信頼度が全て1の音節列による検索クエリ「華厳の滝」(ke−go−N−no−ta−ki)に対して図6に示す索引を参照すると、ID=1については「no」「ta」「ki」の3検索語がマッチし信頼度の合計による検索スコアは3点、ID=2に対しては全てマッチしスコアが6点となる。「te−go−N−no−ta−ki」と誤って認識した場合でもスコアはそれぞれ3点と5点となり、音声認識誤りや登録通りの名称で無い場合であっても部分的なマッチから検索できる。
例えば信頼度が全て1の音節列による検索クエリ「華厳の滝」(ke−go−N−no−ta−ki)に対して図6に示す索引を参照すると、ID=1については「no」「ta」「ki」の3検索語がマッチし信頼度の合計による検索スコアは3点、ID=2に対しては全てマッチしスコアが6点となる。「te−go−N−no−ta−ki」と誤って認識した場合でもスコアはそれぞれ3点と5点となり、音声認識誤りや登録通りの名称で無い場合であっても部分的なマッチから検索できる。
上記では、信頼度の合計により検索スコアを定義したが、予め索引側の検索語に対して指標値を付与しておき積和等の演算により検索スコアとしても良い。索引側へ付与する指標値としては、TF・IDF(Term Frequency・Inverse Document Frequency)や検索語の長さを表す重み等が利用できる。検索を行う際、信頼度1の検索語に対して該当しない候補は最終的に削除するようにしても良い。この場合、テキスト入力で入力した語彙を必ず含む検索結果を取得できる。
検索結果提示手段109は、データベース検索手段108の検索結果をユーザへ提示する。
検索結果提示手段109は、データベース検索手段108の検索結果をユーザへ提示する。
図7は、本検索装置に好適なユーザインタフェース画面の一例である。画面の上半分は検索結果を提示しており、ユーザは任意の検索結果を選択可能である。画面の下半分は、入力およびフロー操作のためのボタンと、入力結果を提示する文字提示ボックスが配置されている。入力のボタンとしてテキスト入力のための50音文字入力パレット、音声入力開始のための「発声」キー、「訂正」キー、操作履歴を初期状態に戻す「クリア」キーが配置されている。1発話または1文字入力するたびに、検索クエリを生成し、検索結果を更新する。別途、「検索」キーを配置し文字入力後に「検索」キーを押下する設計としても良い。また、画面を機能ごとに複数に分割して提示しても良い。
次に図8のフローチャートを参照し、実施の形態1に係る検索装置の動作を説明する。あらかじめ、制御手段100により操作履歴格納手段105の履歴を初期化しておく(ステップS100)。検索装置は、ユーザの入力を待ち受ける(ステップS101)。
入力が音声の場合、音声認識手段103は入力音声の時間区間を検出し、単語ごとに信頼度が付与された認識結果を出力し、入力方法の情報を記載して操作履歴格納手段105へ格納する(ステップS102)。
入力がテキストの場合、テキスト入力手段104はテキスト入力単位の入力が完了すると操作履歴格納手段105へ格納する(ステップS103)。
ステップS102・ステップS103の入力完了信号、あるいは制御手段100より取得される信号により操作履歴管理手段105が送出した操作履歴に基づいて、検索クエリ生成手段106は検索クエリを生成する(ステップS104)。
ステップS102・ステップS103の入力完了信号、あるいは制御手段100より取得される信号により操作履歴管理手段105が送出した操作履歴に基づいて、検索クエリ生成手段106は検索クエリを生成する(ステップS104)。
データベース検索手段108は、検索クエリ生成手段106で生成された検索クエリにより検索対象データベース107を検索し、候補エントリごとに集計した検索スコアに基づいて提示候補リストを生成する(ステップS105)。
検索結果提示手段109は、データベース検索手段108で生成された提示候補リストを画面提示してユーザへ通知する(ステップS106)。
この後、ステップS101に戻りユーザの入力待ち受け状態となる。ユーザが所望する検索結果が提示できた場合、検索結果を閲覧でき、ユーザは目的を達成する。
候補数が多いためユーザが所望の検索結果を提示できなかった場合、さらに音声またはテキストを入力し、候補を限定することが可能である。
この後、ステップS101に戻りユーザの入力待ち受け状態となる。ユーザが所望する検索結果が提示できた場合、検索結果を閲覧でき、ユーザは目的を達成する。
候補数が多いためユーザが所望の検索結果を提示できなかった場合、さらに音声またはテキストを入力し、候補を限定することが可能である。
所望の結果(例えば施設等)が検索できなかった場合、ユーザは入力内容を訂正して再検索を行う。ユーザからの訂正要求があった場合、操作履歴格納手段105に登録された最後の入力から順に無効にしていく。この結果、有効な入力が0件となった場合、提示候補も0件となる。1件以上ある場合、前の検索結果に戻る(ステップS107)。
検索クエリの作成方法
検索クエリ作成手段106における検索クエリの作成方法について説明する。以下、音声認識結果のみ、テキスト入力結果のみ、音声認識結果とテキスト入力結果の組み合わせの場合、複数の音声入力の場合について、それぞれ説明する。また、訂正操作の扱い、絞り込み操作の扱いを説明する。この説明では検索語は音節とし、認識結果・テキスト入力は予め音節と音節ごとの信頼度へ変換されているものとする。
検索クエリ作成手段106における検索クエリの作成方法について説明する。以下、音声認識結果のみ、テキスト入力結果のみ、音声認識結果とテキスト入力結果の組み合わせの場合、複数の音声入力の場合について、それぞれ説明する。また、訂正操作の扱い、絞り込み操作の扱いを説明する。この説明では検索語は音節とし、認識結果・テキスト入力は予め音節と音節ごとの信頼度へ変換されているものとする。
単一の音声認識結果である場合。
操作履歴格納手段105より取得される操作履歴が単一の音声認識結果である場合、音節と音節ごとの信頼度の組み合わせからなる検索クエリベクトルへ変換する。認識結果中に複数回出現する音節の信頼度は、個別の信頼度の和あるいは最大値とする。
テキスト入力である場合。
操作履歴格納手段105より取得される操作履歴がテキスト入力である場合、各音節の信頼度が1である他は音声認識結果の場合と同様である。
操作履歴格納手段105より取得される操作履歴が単一の音声認識結果である場合、音節と音節ごとの信頼度の組み合わせからなる検索クエリベクトルへ変換する。認識結果中に複数回出現する音節の信頼度は、個別の信頼度の和あるいは最大値とする。
テキスト入力である場合。
操作履歴格納手段105より取得される操作履歴がテキスト入力である場合、各音節の信頼度が1である他は音声認識結果の場合と同様である。
音声認識結果s1およびテキスト入力t1である場合。
操作履歴格納手段105より取得される操作履歴が音声認識結果s1およびテキスト入力t1である場合、音声認識結果s1とテキスト入力t1を統合した検索クエリベクトルを生成する。この生成方法は2通りある。一つは、音声認識結果s1とテキスト入力t1それぞれから検索クエリベクトルを作成し、作成した検索クエリベクトルを単一の検索クエリベクトルへマージするものである。各検索語の信頼度は2つの信頼度の和あるいは最大値とする。
操作履歴格納手段105より取得される操作履歴が音声認識結果s1およびテキスト入力t1である場合、音声認識結果s1とテキスト入力t1を統合した検索クエリベクトルを生成する。この生成方法は2通りある。一つは、音声認識結果s1とテキスト入力t1それぞれから検索クエリベクトルを作成し、作成した検索クエリベクトルを単一の検索クエリベクトルへマージするものである。各検索語の信頼度は2つの信頼度の和あるいは最大値とする。
もう一つの方法は、s1とt1の対応関係の仮説を準備しておき、仮説に基づいて音節あるいは単語のラティスの一致度合いを求め、一つのラティス表現へ集約し検索クエリを生成するものである。このとき、音声認識結果がラティス表現である場合、競合する他候補の信頼度も更新される。具体的な一致度合いの算出は、音節の挿入・削除・置換を考慮して動的計画法(DP;Dynamic Programming)でマッチングを行い認識結果と入力テキストで共通して含まれる音節・類似した音節列を特定する。このとき、DPマッチング判定対象とする対応関係の仮説としては、(1)s1とt1が同内容、(2)s1とt1の一方が他方を包含、(3)s1の末尾がt1の先頭よりも前(あるいはその逆)等のパタンがある。DPスコアを算出し、これらの仮説を検証する。DPマッチングにより対応関係の仮説と、仮説に基づくs1とt1を構成する音節または単語の対応関係が得られる。対応付けの結果、同一と判定した音節または単語はマージして元の信頼度を更新する。例えば、s1に付与された信頼度0.1とt1に付与された信頼度0.9の合計1.0または最大値0.9をマージ後の信頼度とする。ラティスの場合、信頼度の変化に応じて全体の信頼度を更新する。例えば、図5(2)に示すラティスで示される音声認識結果と、テキスト入力「ナチ」があった場合、ラティス中の「na ci」と照合する。これら音節の信頼度を1へ増加させた結果、競合する「ma ci」の信頼度はDPスコアを考慮して相対的に低下する。この後、更新されたラティス表現に基づいて検索クエリを生成する。
上記の方法により、ラティス表現同士のマージも可能である。このため、複数回の音声入力に対しての認識結果についても認識結果とテキスト入力の場合と同様に認識結果をマージして単一の検索クエリへ変換できる。
ユーザの訂正操作に対して、信頼度を変化させても良い。例えば、操作履歴が(1)音声入力→(2)検索候補提示→(3)「訂正」操作→(4)テキスト入力という順序である場合、(4)は(1)を訂正している操作であることが想定される。このような訂正履歴が抽出された場合、(1)の信頼度へ所定のペナルティを乗じて検索クエリを生成する。ペナルティを0とすれば訂正発話は無視される。0以上の場合、(1)で求めた音声認識結果の信頼度をより低く見積もった上で(4)と合成した検索クエリを生成する。ペナルティを0より大きくする利点は、テキスト入力による訂正部分を考慮して改訂したラティスに基づいて検索するためテキスト入力のみの場合よりも妥当な検索結果が得られる点である。前出の例では、(1)音声入力「和歌山県那智の滝」(「ワカヤマケンマチノタキ」と誤認識、目的施設「和歌山の那智大滝」より上位の候補が多数あり提示できず)に対して、(4)テキスト入力において「ナ」と入力した時点で「和歌山の那智大滝」を候補名称中で相対的に高いスコアを付与できる。
ユーザの絞込み操作に対して信頼度を変化させても良い。例えば、操作履歴が(1)音声入力→(2)検索候補提示→(3)絞込み操作→(4)音声入力という順序である場合、(4)は(1)に対して絞込みしている操作であることが想定される。このような絞込み履歴が抽出された場合、(1)の信頼度へ所定のプライム値を加算して検索クエリを生成する。プライム値を0とした場合、(1)と(4)は等価と見なされる。このとき、(4)から高い信頼度の候補が得られると相対的に(1)の検索への寄与が小さくなる。ユーザは(1)に基づく検索結果を(2)で承認しており、少なくとも提示済みの候補に対して高い信頼度が得られるように信頼度を改訂する正のプライム値を付与することで、絞込み操作として一貫性の高い候補を提示できる。プライム値を付与することで、例えば、第1発話でチェーン店名称、第2発話で支店名を発声する場合、第2発話に含まれる誤認識によりチェーン店が候補から無くなる割合を少なくできる。
以上に説明したように、実施の形態1に係る検索装置は、信頼度を考慮して複数の入力手段に基づく検索が実現できる。このため、カーナビゲーションシステム等、車載機器において手操作が制限される状況が生じる場合に、音声操作と手操作を組み合わせて検索が行える。また、対話履歴を考慮して訂正操作や絞込み操作の改善が可能である。
なお、上記実施の形態では音声入力とテキスト入力の場合について説明したが、検索単位について信頼度が付与される場合であれば、文字認識等、その他の入力方式と組み合わせることも可能である。また、誤認識の傾向を表すテーブルを参照し認識結果から検索クエリを生成する際に、認識結果または単語ラティスを拡大することも可能である
実施の形態2.
図9は、実施の形態2に係る検索装置の構成を示すブロック図である。
図9は、実施の形態2に係る検索装置の構成を示すブロック図である。
図に示す検索装置は、制御手段100、音響標準パタン101、認識辞書102、音声認識手段103、テキスト入力手段104、操作履歴格納手段105、検索クエリ生成手段106、検索対象データベース107、データベース検索手段108、検索結果提示手段109、テキスト入力予測手段201からなる。
実施の形態1による検索装置と異なる本実施の形態2に特徴的な部分は、テキスト入力予測手段201を備え、操作履歴格納手段105に格納された音声認識結果とデータベース検索結果の少なくとも一方を参照してテキスト入力を予測しユーザへ提示することである。
以下、実施の形態2に係る検索装置の構成および動作を説明する。ただし、実施の形態1において既に説明済みの機能ブロックについては同一の符号を付し説明を省略する。
テキスト入力予測手段201は、操作履歴格納手段105を参照して音声認識結果が訂正されている可能性があると判定した場合に、認識結果の単語ラティスと文字入力結果に基づいて次にテキスト入力される文字を予測する。予測結果の信頼度がしきい値を超える場合、ユーザへ通知する。
次に図10のフローチャートを参照し、実施の形態2に係る検索装置の動作を説明する。あらかじめ、制御手段100により操作履歴格納手段105の履歴を初期化しておく(ステップS200)。
テキスト入力予測手段201は、操作履歴格納手段105を参照してテキスト入力の予測が可能か判定する(ステップS201)。可能である場合、テキスト入力を予測し候補とそのスコアを得る。そして、スコアのしきい値、提示する最大候補数に基づいて提示する候補を決めて候補をユーザを提示する(ステップS202)。具体的な候補提示方法としては、タッチパネルで提示する場合、タッチパネルの文字やボタンの色・フォント・字の大きさなどの表示形態を変えてそれ以外のボタンとの区別を容易にする。
検索装置は、ユーザの入力を待ち受ける(ステップS203)。
入力が音声の場合、音声認識手段103は入力音声の時間区間を検出し、単語ごとに信頼度が付与された認識結果を出力し、入力方法の情報を記載して操作履歴格納手段105へ格納する(ステップS204)。
入力が音声の場合、音声認識手段103は入力音声の時間区間を検出し、単語ごとに信頼度が付与された認識結果を出力し、入力方法の情報を記載して操作履歴格納手段105へ格納する(ステップS204)。
入力がテキストの場合、テキスト入力手段104はテキスト入力単位の入力が完了すると操作履歴格納手段105へ格納する(ステップS205)。
ステップS202およびステップS203の入力完了信号、あるいは制御手段100より取得される信号により操作履歴管理手段105が送出した操作履歴に基づいて、検索クエリ生成手段106は検索クエリを生成する(ステップS206)。
データベース検索手段108は、検索クエリ生成手段106により生成された検索クエリにより検索対象データベース107を検索し、候補エントリごとに集計した検索スコアに基づいて提示候補リストを生成する(ステップS207)。
ステップS202およびステップS203の入力完了信号、あるいは制御手段100より取得される信号により操作履歴管理手段105が送出した操作履歴に基づいて、検索クエリ生成手段106は検索クエリを生成する(ステップS206)。
データベース検索手段108は、検索クエリ生成手段106により生成された検索クエリにより検索対象データベース107を検索し、候補エントリごとに集計した検索スコアに基づいて提示候補リストを生成する(ステップS207)。
検索結果提示手段109は、生成された提示候補リストを画面提示してユーザへ通知する(ステップS208)。
この後、ステップS201に戻りテキスト入力予測しその後、ユーザの入力待ち受け状態となる。
ユーザが所望する検索結果が提示できた場合、ユーザは検索結果を閲覧し、目的を達成する。
この後、ステップS201に戻りテキスト入力予測しその後、ユーザの入力待ち受け状態となる。
ユーザが所望する検索結果が提示できた場合、ユーザは検索結果を閲覧し、目的を達成する。
候補数が多いためユーザの所望する検索結果が提示できなかった場合、さらに音声またはテキストを入力し、候補を限定することが可能である。
所望の結果(例えば所望の施設)を検索できなかった場合、ユーザは入力内容を訂正して再検索を行う。ユーザからの訂正要求があった場合、操作履歴格納手段105に登録された最後の入力から順に無効にしていく。この結果、有効な入力が0件となった場合、提示候補も0件となる。1件以上ある場合、前の検索結果に戻る(ステップS209)。
所望の結果(例えば所望の施設)を検索できなかった場合、ユーザは入力内容を訂正して再検索を行う。ユーザからの訂正要求があった場合、操作履歴格納手段105に登録された最後の入力から順に無効にしていく。この結果、有効な入力が0件となった場合、提示候補も0件となる。1件以上ある場合、前の検索結果に戻る(ステップS209)。
入力テキストの予測方法
音声認識結果および音声認識結果による検索結果に基づく2通りの入力テキスト予測方法について説明する。
音声認識結果および音声認識結果による検索結果に基づく2通りの入力テキスト予測方法について説明する。
まず、テキスト入力予測を行なう第1の方法を説明する。
テキスト入力予測が実施される条件に該当する場合、操作履歴格納手段105に基づいて訂正対象となった音声認識結果を取得し既存の音声認識結果ラティスs1と既存のテキスト入力結果t1の一致度合いを求め、一致部分の次の文字を入力候補リストへ追加する。具体的な一致度合いの算出は、音節の挿入・削除・置換を考慮してDPマッチングを行い認識結果と入力テキストで共通して含まれる音節・類似した音節列を特定する。このとき、DPマッチング可能なパスとして、(1)s1とt1が同内容、(2)s1がt1を包含、のパタンについてDPスコアを算出し、これらの仮説を検証する。DPマッチングの結果、テキスト入力と一致する音節を取得し、後続する音節を取得し予測結果とする。また、抽出した音節の信頼度に応じて予測した音節へスコアを付与する。テキスト入力が全く無い状態では、認識結果の先頭部分を候補として提示する。
テキスト入力予測が実施される条件に該当する場合、操作履歴格納手段105に基づいて訂正対象となった音声認識結果を取得し既存の音声認識結果ラティスs1と既存のテキスト入力結果t1の一致度合いを求め、一致部分の次の文字を入力候補リストへ追加する。具体的な一致度合いの算出は、音節の挿入・削除・置換を考慮してDPマッチングを行い認識結果と入力テキストで共通して含まれる音節・類似した音節列を特定する。このとき、DPマッチング可能なパスとして、(1)s1とt1が同内容、(2)s1がt1を包含、のパタンについてDPスコアを算出し、これらの仮説を検証する。DPマッチングの結果、テキスト入力と一致する音節を取得し、後続する音節を取得し予測結果とする。また、抽出した音節の信頼度に応じて予測した音節へスコアを付与する。テキスト入力が全く無い状態では、認識結果の先頭部分を候補として提示する。
テキスト入力予測を行なう第2の方法を説明する。
テキスト入力予測が実施される条件に該当する場合、実施の形態1に基づいて候補名称を検索しスコアが上位の候補を抽出する。さらに、検索結果の名称のうち、テキスト入力と一致する表現を含む名称を抽出し、一致する表現に続く音節のリストを作成し音節の予測結果とする。また、頻度に応じて予測した音節へスコアを付与する。テキスト入力が全く無い状態では、音声認識結果のみに基づく検索結果の名称の先頭音節を候補として提示する。
テキスト入力予測が実施される条件に該当する場合、実施の形態1に基づいて候補名称を検索しスコアが上位の候補を抽出する。さらに、検索結果の名称のうち、テキスト入力と一致する表現を含む名称を抽出し、一致する表現に続く音節のリストを作成し音節の予測結果とする。また、頻度に応じて予測した音節へスコアを付与する。テキスト入力が全く無い状態では、音声認識結果のみに基づく検索結果の名称の先頭音節を候補として提示する。
以上に説明したように、実施の形態2に係る検索装置は、音声認識結果の訂正においてテキストが入力される場合に、音声認識結果の一部分である可能性または入力テキストと音声認識結果に基づく検索結果の名称の一部分である可能性に基づいて次に入力される可能性の高い音節としてユーザへ提示することができる。このようにすることにより、ユーザのテキスト入力の手間を省くことが可能となる。
本発明は音声検索技術の利便性に関するもので、例えば、カーナビゲーションシステム等に適用され、利用される可能性がある。
Claims (9)
- 入力された音声による検索発話を認識する音声認識手段と、
手操作による検索テキストを入力するテキスト入力手段と、
音声の認識結果とテキスト入力結果を操作履歴として格納する操作履歴格納手段と、
操作履歴格納手段から入力される音声の認識結果とテキスト入力結果を統合し信頼度を付与した検索クエリを生成する検索クエリ生成手段と、
検索クエリに基づいてデータベースの検索を行うデータベース検索手段と
検索結果をユーザへ提示する検索結果提示手段
を備えることを特徴とする検索装置。 - 検索クエリ生成手段は、操作履歴格納手段に格納された操作履歴に含まれる複数の入力それぞれに検索語に対する信頼値がベクトルで表される検索クエリベクトルを生成し、ベクトルの各要素を演算して検索クエリを生成することを特徴とする請求項1記載の検索装置。
- 検索クエリ生成手段は、操作履歴格納手段に格納された操作履歴に含まれる複数の入力を表す単語または音節から構成されるラティスを時系列順に並べ、隣接するラティスを動的計画法によりマージするとともに信頼値を更新し、生成された単一のラティスから検索クエリを生成することを特徴とした請求項1記載の検索装置。
- ユーザが音声認識結果を訂正した場合、操作履歴から訂正操作を含む履歴と訂正対象の認識結果を抽出し、訂正対象の認識結果を構成する単語または音節の信頼度を下げ、検索クエリ生成手段は、信頼度が下げられた訂正対象の認識結果を構成する単語または音節を用いて検索クエリを生成することを特徴とする請求項2又は3記載の検索装置。
- ユーザが検索結果の絞込みを行った場合、操作履歴から絞込み操作を構成する入力を抽出し、絞込み前の入力を構成する単語または音節の信頼度を上げ、検索クエリ生成手段は、信頼度が上げられた単語または音節を用いて検索クエリを生成することを特徴とする請求項2又は3記載の検索装置。
- 操作履歴から音声認識の訂正操作を含む履歴と訂正対象の認識結果を抽出し、訂正対象の認識結果とテキスト入力結果を動的計画法により照合してテキスト入力との対応付けをとり入力文字列を予測して提示するテキスト入力予測手段を備えることを特徴とする請求項1記載の検索装置。
- ユーザが音声認識結果を訂正した場合、操作履歴から音声認識の訂正操作を含む履歴と訂正対象の認識結果を抽出し、検索クエリ生成手段は、訂正対象の認識結果とテキスト入力結果を動的計画法により照合してテキスト入力との対応付けをとって検索クエリを生成し、データベース検索手段がこの検索クエリで検索対象データベースを検索し、その検索結果からテキスト入力文字列を予測文字列として取得するテキスト入力予測手段を備えることを特徴とする請求項1記載の検索装置。
- テキスト入力のための文字パレットを備え予測した文字の文字パレットによる表示形態は他の場合と変えることを特徴とする請求項6又は7記載の検索装置。
- テキスト入力予測手段は予測した入力文字列の予測スコアを取得し、文字パレットは予測スコアに応じて提示形態を変えることを特徴とする請求項8記載の検索装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2008/060454 WO2009147745A1 (ja) | 2008-06-06 | 2008-06-06 | 検索装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2009147745A1 true JPWO2009147745A1 (ja) | 2011-10-20 |
Family
ID=41397837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010515721A Pending JPWO2009147745A1 (ja) | 2008-06-06 | 2008-06-06 | 検索装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2009147745A1 (ja) |
WO (1) | WO2009147745A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5925313B2 (ja) * | 2012-07-03 | 2016-05-25 | 三菱電機株式会社 | 音声認識装置 |
JP6165619B2 (ja) * | 2013-12-13 | 2017-07-19 | 株式会社東芝 | 情報処理装置、情報処理方法、および情報処理プログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001282779A (ja) * | 2000-03-30 | 2001-10-12 | Telecommunication Advancement Organization Of Japan | 電子化テキスト作成システム |
JP2004258480A (ja) * | 2003-02-27 | 2004-09-16 | Toyota Central Res & Dev Lab Inc | 車両用音声入力装置 |
JP2005275348A (ja) * | 2004-02-23 | 2005-10-06 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 |
JP2006277519A (ja) * | 2005-03-30 | 2006-10-12 | Toshiba Corp | 対話装置、対話シナリオ編集装置、対話方法及びプログラム |
-
2008
- 2008-06-06 JP JP2010515721A patent/JPWO2009147745A1/ja active Pending
- 2008-06-06 WO PCT/JP2008/060454 patent/WO2009147745A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001282779A (ja) * | 2000-03-30 | 2001-10-12 | Telecommunication Advancement Organization Of Japan | 電子化テキスト作成システム |
JP2004258480A (ja) * | 2003-02-27 | 2004-09-16 | Toyota Central Res & Dev Lab Inc | 車両用音声入力装置 |
JP2005275348A (ja) * | 2004-02-23 | 2005-10-06 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 |
JP2006277519A (ja) * | 2005-03-30 | 2006-10-12 | Toshiba Corp | 対話装置、対話シナリオ編集装置、対話方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2009147745A1 (ja) | 2009-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7949524B2 (en) | Speech recognition correction with standby-word dictionary | |
US8380505B2 (en) | System for recognizing speech for searching a database | |
JP5089955B2 (ja) | 音声対話装置 | |
US8612212B2 (en) | Method and system for automatically detecting morphemes in a task classification system using lattices | |
JP6188831B2 (ja) | 音声検索装置および音声検索方法 | |
CN106663424B (zh) | 意图理解装置以及方法 | |
US8200491B2 (en) | Method and system for automatically detecting morphemes in a task classification system using lattices | |
JP4705023B2 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
JP4680714B2 (ja) | 音声認識装置および音声認識方法 | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
KR101526918B1 (ko) | 다언어 이국 음성 인식 | |
JP5703491B2 (ja) | 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置 | |
JP5004863B2 (ja) | 音声検索装置および音声検索方法 | |
WO2009147745A1 (ja) | 検索装置 | |
JP4639990B2 (ja) | 音声対話装置及び音声理解結果生成方法 | |
JP3472101B2 (ja) | 音声入力解釈装置及び音声入力解釈方法 | |
JP4987530B2 (ja) | 音声認識辞書作成装置および音声認識装置 | |
JP2006031278A (ja) | 音声検索システムおよび方法ならびにプログラム | |
JP5201973B2 (ja) | 音声検索装置 | |
KR20210052564A (ko) | 빅 데이터를 이용한 최적의 언어 모델 생성 방법 및 이를 위한 장치 | |
JP2021529338A (ja) | 発音辞書生成方法及びそのための装置 | |
JP2011007862A (ja) | 音声認識装置、音声認識プログラム、および音声認識方法 | |
JP2008083165A (ja) | 音声認識処理プログラム及び音声認識処理方法 | |
JP2008286930A (ja) | 音声対話装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120731 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121127 |