WO2018043137A1

WO2018043137A1 - 情報処理装置及び情報処理方法

Info

Publication number: WO2018043137A1
Application number: PCT/JP2017/029491
Authority: WO
Inventors: 祐平滝; 真一河野
Original assignee: ソニー株式会社
Priority date: 2016-08-31
Filing date: 2017-08-17
Publication date: 2018-03-08
Also published as: EP3509059A4; US20190228764A1; CN109643545A; EP3509059A1; JPWO2018043137A1

Abstract

本技術は、所望の音声認識結果を迅速に得ることができるようにする情報処理装置及び情報処理方法に関する。情報処理装置は、認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象の後の語句である後続語句のうち少なくとも一方を含む語句情報に基づいて、前記認識対象語句の音声認識を行う音声認識部を備える。本技術は、例えば、音声認識を利用する装置に適用できる。

Description

情報処理装置及び情報処理方法

　本技術は、情報処理装置及び情報処理方法に関し、特に、所望の音声認識結果を迅速に得ることができるようにした情報処理装置及び情報処理方法に関する。

　従来、音声で地名を入力する場合に、所望の認識結果を得られずに音声を再入力するとき、先の音声認識において誤認識であると判定された地名を候補から除外するカーナビゲーションシステムが提案されている（例えば、特許文献１参照）。

特開平１０－３９８９２号公報

　しかしながら、特許文献１に記載の技術では、誤認識した地名全体が候補から除外されるとともに、ユーザは再度地名全体を音声入力する必要がある。従って、例えば、特許文献１に記載の技術を通常の文章の音声認識に適用した場合、誤認識した文章全体が候補から除外されるため、文章が長くなり誤認識する語句が多くなると、全ての語句が正しく認識されるまで、ユーザは何度も同じ文章を音声入力する必要が生じる。

　そこで、本技術は、所望の音声認識結果を迅速に得ることができるようにするものである。

　本技術の第１の側面の情報処理装置は、認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象の後の語句である後続語句のうち少なくとも一方を含む語句情報に基づいて、前記認識対象語句の音声認識を行う音声認識部を備える。

　前記認識対象語句を、先に行われた音声認識の認識結果として提示された文章を修正する部分に入る語句とし、前記先行語句を、前記修正する部分の前の語句とし、前記後続語句を、前記修正する部分の後の語句とすることができる。

　前記語句情報には、音声認識の認識結果から除外する語句である除外語句をさらに含ませることができる。

　前記除外語句を、先に行われた音声認識において前記認識対象語句を誤認識したと判定された語句とすることができる。

　前記語句情報を含む関連情報、及び、前記入力音声を他の情報処理装置から受信し、音声認識の認識結果を前記他の情報処理装置に送信する通信部をさらに設けることができる。

　前記関連情報に、前記他の情報処理装置において音声認識を使用するコンテキストに関するコンテキスト情報、音声認識を使用するユーザに関するユーザ情報、及び、音声を入力するシステムに関するシステム情報のうち少なくとも１つをさらに含ませ、前記音声認識部には、さらに前記コンテキスト情報、前記ユーザ情報、及び、前記システム情報のうち少なくとも１つに基づいて音声認識を行わせることができる。

　前記コンテキスト情報には、音声認識の用途に関する情報、前記他の情報処理装置の位置、及び、現在時刻のうち少なくとも１つを含ませることができる。

　前記ユーザ情報には、前記ユーザを識別するための情報、前記ユーザの行動を示す情報、及び、前記ユーザの感情を示す情報のうち少なくとも１つを含ませることができる。

　前記システム情報には、前記他の情報処理装置の種類、及び、前記他の情報処理装置の音声入力システムの構成のうち少なくとも１つを含ませることができる。

　前記音声認識部には、前記コンテキスト情報、前記ユーザ情報、及び、前記システム情報のうち少なくとも１つに基づいて、使用する音響モデル及び言語モデルのうち少なくとも１つを選択させることができる。

　前記ユーザの音声認識の実行履歴に基づいて、前記ユーザの認識結果の傾向を学習する学習部をさらに設け、前記音声認識部には、さらに前記学習部による学習結果に基づいて音声認識を行わせることができる。

　前記音声認識部には、前記認識対象語句の音声認識の認識結果として得られた各候補と、前記先行語句及び前記後続語句のうち少なくとも一方との関連度に基づいて、最終的な認識結果を選択させることができる。

　本技術の第１の側面の情報処理方法は、認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象の後の語句である後続語句のうち少なくとも一方を含む語句情報に基づいて、前記認識対象語句の音声認識を行う音声認識ステップを含む。

　本技術の第２の側面の情報処理装置は、認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象語句の後の語句である後続語句のうち少なくとも一方を含む語句情報を他の情報処理装置に送信し、前記認識対象語句の音声認識の認識結果を前記他の情報処理装置から受信する通信部と、前記認識結果の提示を制御する提示制御部とを備える。

　本技術の第２の側面の情報処理方法は、認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象語句の後の語句である後続語句のうち少なくとも一方を含む語句情報の他の情報処理装置への送信を制御する送信制御ステップと、前記認識対象語句の音声認識の認識結果の前記他の情報処理装置からの受信を制御する受信制御ステップと、前記認識結果の提示を制御する提示制御ステップとを含む。

　本技術の第１の側面においては、認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象の後の語句である後続語句のうち少なくとも一方を含む語句情報に基づいて、前記認識対象語句の音声認識が行われる。

　本技術の第２の側面においては、認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象語句の後の語句である後続語句のうち少なくとも一方を含む語句情報が他の情報処理装置に送信され、前記認識対象語句の音声認識の認識結果が前記他の情報処理装置から受信され、前記認識結果の提示が制御される。

　本技術の第１又は第２の側面によれば、音声認識を行うことができる。特に、本技術の第１又は第２の側面によれば、所望の音声認識結果を迅速に得ることができる。

　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術を適用した情報処理システムの一実施の形態を示すブロック図である。クライアントの処理を説明するためのフローチャートである。音声認識開始ＡＰＩの例を示す図である。関連情報提供ＡＰＩの例を示す図である。その他の関連ＡＰＩの例を示す図である。認識結果返却ＡＰＩの例を示す図である。認識結果の提示方法の例を示す図である。音声認識開始ＡＰＩの引数の例を示す図である。認識結果の提示方法の例を示す図である。手入力モードの入力画面の例を示す図である。選択モードの入力画面の例を示す図である。１文字入力モードの入力画面の例を示す図である。学習用データ提供ＡＰＩの例を示す図である。サーバの処理を説明するためのフローチャートである。音声認識処理の具体例を説明するための図である。音声認識処理の具体例を説明するための図である。コンバートフィルタのデータ構造の例を示す図である。音声認識履歴のデータ構造の例を示す図である。コンピュータの構成例を示すブロック図である。

　以下、発明を実施するための形態（以下、「実施形態」と記述する）について図面を用いて詳細に説明する。なお、説明は以下の順序で行う。
　１．実施の形態
　２．変形例
　３．応用例

　＜＜１．実施の形態＞＞
　＜１－１．情報処理システムの構成例＞
　まず、図１を参照して、本技術を適用した情報処理システム１０の構成例について説明する。

　情報処理システム１０は、ユーザが入力した入力音声の音声認識を行い、認識結果を提示するシステムである。情報処理システム１０は、クライアント１１、サーバ１２、及び、ネットワーク１３により構成される。クライアント１１とサーバ１２は、ネットワーク１３を介して相互に接続されている。

　なお、図中、クライアント１１が１つのみ示されているが、実際には複数のクライアント１１がネットワーク１３に接続され、複数のユーザがクライアント１１を介して情報処理システム１０を利用することが可能である。

　クライアント１１は、ユーザが入力した入力音声をサーバ１２に送信し、その入力音声に対する音声認識結果をサーバ１２から受信し、提示する。

　例えば、クライアント１１は、スマートフォン、タブレット、携帯電話機、ノート型のパーソナルコンピュータ等の携帯情報端末、ウエアラブルデバイス、デスクトップ型のパーソナルコンピュータ、ゲーム機、動画再生装置、音楽再生装置等により構成される。また、ウエアラブルデバイスには、例えば、眼鏡型、腕時計型、ブレスレット型、ネックレス型、ネックバンド型、イヤフォン型、ヘッドセット型、ヘッドマウント型等の各種の方式を採用することができる。

　クライアント１１は、音声入力部２１、操作部２２、表示部２３、提示部２４、センサ部、通信部２６、制御部２７、及び、記憶部２８を備える。制御部２７は、音声認識制御部４１、提示制御部４２、及び、関連情報取得部４３を備える。音声入力部２１、操作部２２、表示部２３、提示部２４、センサ部２５、通信部２６、制御部２７、及び、記憶部２８は、バス２９を介して相互に接続されている。

　音声入力部２１は、例えばマイクロフォンにより構成される。マイクロフォンの数は、任意に設定することができる。音声入力部２１は、ユーザが発する音声等を収集し、収集した音声を示す音声データを制御部２７に供給したり、記憶部２８に記憶させたりする。

　操作部２２は、各種の操作部材により構成され、クライアント１１の操作に用いられる。例えば、操作部２２は、コントローラ、リモートコントローラ、タッチパネル、ハードウエアボタン等により構成される。

　表示部２３は、例えばディスプレイにより構成される。表示部２３は、提示制御部４２の制御の下に、音声認識結果を示す画面、ＧＵＩ（Graphical User Interface）、各種のアプリケーションプログラムやサービスの画面等の画像を表示する。

　提示部２４は、例えば、スピーカ、振動デバイス、他の連携デバイス等により構成される。提示部２４は、提示制御部４２の制御の下に、音声認識結果等の提示を行う。

　センサ部２５は、カメラ、距離センサ、ＧＰＳ（Global Positioning System）受信機、加速度センサ、ジャイロセンサ、生体情報センサ等の各種のセンサを備える。センサ部２５は、各センサの検出結果を示すセンサデータを制御部２７に供給したり、記憶部２８に記憶させたりする。

　通信部２６は、各種の通信デバイスにより構成される。通信部２６の通信方式は特に限定されるものではなく、無線通信又は有線通信のいずれでもよい。また、通信部２６が、複数の通信方式に対応していてもよい。通信部２６は、ネットワーク１３を介してサーバ１２と通信を行い、各種のデータの送受信を行う。通信部２６は、サーバ１２から受信したデータを制御部２７に供給したり、記憶部２８に記憶させたりする。

　制御部２７は、例えば、各種のプロセッサ等により構成される。

　音声認識制御部４１は、音声データ、関連情報等のサーバ１２の音声認識部７１の処理に必要なデータを取得し、通信部２６及びネットワーク１３を介して、サーバ１２に送信する。また、音声認識制御部４１は、通信部２６及びネットワーク１３を介して、音声認識の認識結果等をサーバ１２から受信する。

　提示制御部４２は、表示部２３及び提示部２４による各種の情報等の提示を制御する。

　関連情報取得部４３は、音声入力部２１から供給される音声データ、操作部２２に対するユーザ操作、センサ部２５から供給されるセンサデータ、及び、制御部２７により実行されるプログラム等に基づいて、関連情報を取得する。ここで、関連情報とは、音声認識に関連する情報であって、音声認識に用いられる情報のことである。

　記憶部２８は、クライアント１１の処理に必要なプログラム、データ等を記憶する。

　サーバ１２は、クライアント１１から受信した入力音声の音声認識を行い、認識結果を、ネットワーク１３を介してクライアント１１に送信する。サーバ１２は、通信部６１、制御部６２、及び、記憶部６３を備える。制御部６２は、音声認識部７１及び学習部７２を備える。通信部６１、制御部６２、及び、記憶部６３は、バス６４を介して相互に接続されている。

　通信部６１は、各種の通信デバイスにより構成される。通信部６１の通信方式は特に限定されるものではなく、無線通信又は有線通信のいずれでもよい。また、通信部６１が、複数の通信方式に対応していてもよい。通信部６１は、ネットワーク１３を介してクライアント１１と通信を行い、各種のデータの送受信を行う。通信部６１は、クライアント１１から受信したデータを制御部６２に供給したり、記憶部６３に記憶させたりする。

　制御部６２は、例えば、各種のプロセッサ等により構成される。

　音声認識部７１は、クライアント１１から取得した入力音声の音声認識を行う。

　学習部７２は、各ユーザの音声認識の実行履歴（以下、音声認識履歴と称する）を生成し、記憶部６３に記憶させる。また、学習部７２は、各ユーザの音声認識履歴に基づいて、例えば、音声認識部７１による音声認識処理をユーザ毎に最適化するための学習を行う。

　記憶部６３は、サーバ１２の処理に必要なプログラム、データ等を記憶する。

　なお、以下、クライアント１１（通信部２６）とサーバ１２（通信部６１）がネットワーク１３を介して通信を行う場合の”ネットワーク１３を介して”の記載は省略する。以下、クライアント１１の各部がバス２９を介してデータの授受を行う場合の”バス２９を介して”の記載は省略する。以下、サーバ１２の各部がバス６４を介してデータの授受を行う場合の”バス６４を介して”の記載は省略する。

　＜１－２．情報処理システム１０の処理＞
　次に、図２乃至図１８を参照して、情報処理システム１０の処理について説明する。

　（クライアント１１の処理）
　まず、図２のフローチャートを参照して、クライアント１１の処理について説明する。なお、この処理は、例えば、ユーザが操作部２２を介して音声認識の実行の指令を入力したとき開始される。

　ステップＳ１において、関連情報取得部４３は、音声入力部２１から供給される音声データ、操作部２２に対するユーザ操作、センサ部２５から供給されるセンサデータ、及び、制御部２７により実行されるプログラム等に基づいて、関連情報の取得を開始する。以下、関連情報の例を挙げる。

　例えば、関連情報は、音声認識の認識結果等に関する音声認識情報、クライアント１１において音声認識を使用するコンテキストに関するコンテキスト情報、音声認識を使用するユーザに関するユーザ情報、及び、音声を入力するシステムに関するシステム情報のうち１つ以上を含む。

　音声認識情報は、例えば、除外語句、先行語句、及び、後続語句のうち１つ以上を含む語句情報、並びに、音声認識の試行回数のうち１つ以上を含む。

　除外語句は、音声認識の認識結果から除外する語句であり、例えば、同じセッション内で先に行われた音声認識において誤認識である判定された語句が設定される。ここで、同じセッションとは、ある文章の音声認識が開始されてから、認識結果の確定や音声認識の中止等により、その文章に対する音声認識が終了するまでのセッションのことである。

　先行語句は、音声認識の認識結果として得られた文章（以下、認識文章と称する）を修正する場合に、修正する部分に入る語句であって、音声認識の認識対象となる語句（以下、認識対象語句と称する）の前（修正する部分の前）の語句であり、後続語句は、認識対象語句の後（修正する部分の後）の語句である。なお、認識対象語句、先行語句、後続語句は、それぞれ複数の単語により構成されてもよい。また、認識文章は、必ずしも１つの完成された文章である必要はなく、例えば、完成された文章を構成しない１以上の単語の並びであってもよい。或いは、認識文章に、２以上の文章が含まれてもよい。

　音声認識の試行回数は、同じ音声認識のセッション内において、音声認識を試行した回数のことである。

　なお、音声認識情報の取得は、後述するステップＳ４において、音声認識の認識結果を取得してから開始される。

　コンテキスト情報は、例えば、音声認識の用途に関する情報、クライアント１１の現在位置に関する位置情報、及び、現在時刻のうち１つ以上を含む。

　音声認識の用途に関する情報は、例えば、音声認識を使用するアプリケーションプログラムやサービス等の種類（例えば、ウエブ検索、メール、チャット等）を含む。

　クライアント１１の現在位置は、例えば、具体的な緯度・経度、地名等により表してもよいいし、駅、地下街、森、ビル街等の場所の種類により表してもよい。

　ユーザ情報は、例えば、ユーザを識別するためのユーザＩＤ、ユーザの現在の行動を示す行動情報（例えば、歩行中、停止中、車で移動中、座っている等）、及び、ユーザの現在の感情を示す感情情報（例えば、怒っている、悲しんでいる、楽しんでいる等）のうち１つ以上を含む。

　システム情報は、例えば、クライアント１１の種類（例えば、スマートフォン、タブレット、携帯電話機、パーソナルコンピュータ、ウエアラブルデバイス等）、及び、クライアント１１の音声入力システムの構成に関する情報のうち１つ以上を含む。

　クライアント１１の音声入力システムの構成に関する情報は、例えば、マイクロフォンの種類、マイクロフォンの個数、マイクロフォンとユーザの口元との間の距離、音声処理に用いるソフトウエア等の情報を含む。

　また、関連情報は、関連情報に含まれる各情報の有効期間を定めるセッション情報を含む。

　ステップＳ２において、音声認識制御部４１は、通信部２６を介して、サーバ１２に音声認識の実行を依頼する。また、音声認識制御部４１は、通信部２６を介して、必要に応じて関連情報を提供する。例えば、クライアント１１からサーバ１２（の音声認識部７１）への音声認識の実行の依頼や各種の関連情報の提供は、ＡＰＩ（Application Programming Interface）を用いて行われる。ここで、図３乃至図５を参照して、それらのＡＰＩの例について説明する。

　図３は、サーバ１２に音声認識の開始を指示するためのＡＰＩであるStartRecognition()の例を示している。

　StartRecognition()は、文字列配列型のignoreList、文字列型のpreSentence、文字列型のpostSentence等の関連情報をサーバ１２に提供するための引数をとる。例えば、ignoreListには、１以上の除外語句を含む除外リストが設定される。preSentenceには、認識対象語句の前の先行語句が設定される。postSentenceには、認識対象語句の後に後続語句が設定される。

　なお、上記以外の種類の関連情報を提供する場合には、さらに引数が追加される。或いは、構造体の引数を用いて、複数の関連情報をまとめて提供するようにしてもよい。

　図４は、サーバ１２に関連情報を提供するためのＡＰＩの例を示している。

　RegisterIgnoreList()は、文字列配列型のignoreListを引数にとり、除外リストを提供するためのＡＰＩである。

　RegisterPreSentence()は、文字列型のpreSentenceを引数にとり、先行語句を提供するためのＡＰＩである。

　RegisterPostSentence()は、文字列型のpostSentenceを引数にとり、後続語句を提供するためのＡＰＩである。

　RegisterRecognitionInfo()は、構造型のrecogInfoを引数にとり、複数の関連情報をまとめて提供するためのＡＰＩである。

　これらのＡＰＩを用いることにより、StartRecognition()を実行するタイミングと異なる任意のタイミングで、サーバ１２に関連情報を提供することができる。

　図５は、その他の関連情報に関するＡＰＩの例を示している。

　ResetReognitionInfo()は、先に提供した関連情報の破棄をサーバ１２に指示するためのＡＰＩである。

　RegisterCorrectionInfo()は、サーバ１２に正解文章を提供するためのＡＰＩである。RegisterCorrectionInfo()は、文字列型のorgSentence及びfixedSentenceを引数にとる。orgSentenceには、１回目の音声認識により認識された修正前の認識文章が設定される。fixedSentenceには、認識文章を修正することにより最終的に得られた正解文章が設定される。

　PauseRegisterInfo()は、関連情報の使用を一時的に停止させるためのＡＰＩである。PauseRegisterInfo()は、整数型のuserIdを引数にとる。userIdには、関連情報の使用を停止する対象となるユーザのユーザＩＤが設定される。

　ResumeRegisterInfo()は、関連情報の使用を再開させるためのＡＰＩである。ResumeRegisterInfo()は、整数型のuserIdを引数にとる。userIdには、関連情報の使用を再開する対象となるユーザのユーザＩＤが設定される。

　ExportRegisterInfo()は、関連情報をエクスポートするためのＡＰＩである。ExportRegisterInfo()は、整数型のuserIdを引数にとる。従って、ExportRegisterInfo()はにより、userIdにより示されるユーザの関連情報がエクスポートされる。

　ImportRegisterInfo()は、クライアント１１の記憶部２８又はサーバ１２の記憶部６３に蓄積されている関連情報をインポートするためのＡＰＩである。ImportRegisterInfo()は、構造型のrecogInfoを引数にとる。recogInfoには、インポートする関連情報が設定される。

　ExportRegisterInfo()及びImportRegisterInfo()により、過去のユーザの関連情報を使用したり、他のユーザの関連情報を使用したりすることが可能になる。

　サーバ１２は、後述する図１４のステップＳ５１において、クライアント１１からの音声認識の実行の依頼を受ける。

　ステップＳ３において、クライアント１１は、音声入力を受け付ける。例えば、提示制御部４２は、表示部２３又は提示部２４を制御して、ユーザに音声の入力を促す。そして、音声認識制御部４１は、ユーザにより音声入力部２１に入力された入力音声を示す音声データを取得し、通信部２６を介してサーバ１２に送信する。

　サーバ１２は、後述する図４のステップＳ５２において、音声データを受信し、音声データに基づいて音声認識を行い、ステップＳ５３において、認識結果をクライアント１１に送信する。

　ステップＳ４において、音声認識制御部４１は、通信部２６を介して、認識結果を受信する。

　図６は、サーバ１２からクライアント１１に音声認識の認識結果を返すためのＡＰＩであるOnFinalRecognitionResult()の例を示している。OnFinalRecognitionResult()は、例えば、コールバック関数としてサーバ１２の音声認識部７１から呼び出される。

　OnFinalRecognitionResult()は、文字列型のresultText、構造型のrecogInfo、整数型のrecommendedBehaviourを引数にとる。

　resultTextには、音声認識の認識結果を示すテキストデータが設定される。なお、例えば、resultTextに、認識結果として得られた複数の語句の候補と各候補の信頼度を設定できるようにしてもよい。

　recogInfoには、音声認識に用いられた関連情報が設定される。

　recommendedBehaviourは、推奨されるクライアント１１の次のアクションを示す定数が設定される。例えば、recommendedBehaviourには、REGISTER_PRE_SENTENCE、REGISTER_POST_SENTENCE、RESISTER_IGNORE_LIST、USE_OTHER_METHOD、REGISTER_DEVICE_TYPE等の定数が設定される。REGISTER_PRE_SENTENCEは、認識対象語句の前の先行語句の登録を推奨する場合に設定される。REGISTER_POST_SENTENCEは、認識対象語句の後の後続語句の登録を推奨する場合に設定される。RESISTER_IGNORE_LISTは、除外リストの登録を推奨する場合に設定される。USE_OTHER_METHODは、他の入力方法の利用を推奨する場合に設定される。REGISTER_DEVICE_TYPEは、クライアント１１の種類の登録を推奨する場合に設定される。

　なお、recommendedBehaviourに、複数のアクションを組み合わせた定数を設定可能にし、複数のアクションを一度に推奨できるようにしてもよい。

　例えば、音声認識制御部４１は、OnFinalRecognitionResult()の引数resultText、recogInfo、及び、recommendedBehaviourを介して、サーバ１２から認識結果を受信する。

　ステップＳ５において、表示部２３は、提示制御部４２の制御の下に、認識結果を提示する。

　図７は、認識結果の提示方法の例を示している。より具体的には、図７は、ユーザが"I see a person with a red shirt"という音声を入力した場合に、"I sue a person with a red shirt"という認識結果（認識文章）が得られたときの認識結果の提示方法の例を示している。

　この例では、認識文章が、単語、冠詞＋単語、又は、所有格＋単語の単位で区切られて提示されている。また、認識文章を区切る位置により、認識文章を修正可能な単位（以下、修正単位と称する）が定められる。すなわち、認識文章を区切ることにより、認識文章が複数の修正単位に分割される。ユーザは、操作部２２を介して、カーソル１０１を移動させることにより、認識文章内の所望の修正単位を選択することができる。

　ステップＳ６において、音声認識制御部４１は、認識結果の修正が必要であるか否かを判定する。例えば、音声認識制御部４１は、ユーザが操作部２２を介して認識文章を修正するための操作を行った場合、認識結果の修正が必要であると判定し、処理はステップＳ７に進む。

　例えば、上述した図７の例において、ユーザが、操作部２２を介して、カーソル１０１の位置の語句を削除した場合、認識結果の修正が必要であると判定され、処理はステップＳ７に進む。このとき、音声認識制御部４１は、削除された語句が誤認識された語句であると認識し、削除された語句を修正対象に設定する。

　ステップＳ７において、音声認識制御部４１は、入力モードを変更するか否かを判定する。例えば、音声認識制御部４１は、上述したOnFinalRecognitionResult()の引数recommendedBehaviourにUSE_OTHER_METHODが設定されていない場合、入力モードを変更しないと判定し、処理はステップＳ２に戻る。

　その後、ステップＳ２において、認識結果の修正が必要でないと判定されるか、ステップＳ７において、入力モードを変更すると判定されるまで、ステップＳ２乃至Ｓ７の処理が繰り返し実行され、認識結果の修正が行われる。

　ここで、図７乃至図９を参照して、認識結果の修正処理の具体例について説明する。

　例えば、上述した図７の例において、ユーザは、提示された認識文章のうち"sue"が間違っていると判定し、修正する場合、カーソル１０１を"sue"の位置に移動した後、"sue"を削除する。そして、ユーザは、操作部２２を介して、削除した"sue"の代わりに置き換える語句（認識対象語句）の音声を入力するための操作を行う。

　このとき、例えば、音声認識制御部４１は、図８に示されるようにStartRecognition()の引数に関連情報を設定して、StartRecognition()を実行する。

　具体的には、ignoreListに、認識結果から削除された"sue"を含む除外リストが設定される。これにより、サーバ１２の音声認識の認識結果から"sue"が除外されるようになる。

　また、削除した"sue"の前の先行語句である"I"がpreSentenceに設定され、"sue"の後の後続語句である"a person"がpostSentenceに設定される。そして、後述するように、先行語句と後続語句を用いて音声認識が行われることにより、認識精度が向上する。

　なお、認識対象語句が文章の先頭にある場合、例えば、preSentenceには、先行語句がないことを示すNULLが設定される。認識対象語句が文章の末尾にある場合、例えば、preSentenceには、後続語句がないことを示すNULLが設定される。

　そして、ユーザは、"sue"の代わりに入るべき正しい語句である"see"の音声を入力する。クライアント１１は、入力音声を示す音声データをサーバ１２に送信し、入力音声により示される認識対象語句の音声認識の認識結果をサーバ１２から受信する。

　図９は、音声認識の結果として"see"が得られた場合の認識結果の提示方法の例を示している。

　例えば、図７の例において"sue"が表示されていた位置に、認識結果として得られた"see"が表示される。また、"see"の位置にカーソル１０１が表示される。さらに、"see"の前の先行語句である"I"を"see"を認識するために用いたことをユーザに通知するために、"I"と"see"とを結ぶライン１１１が表示される。同様に、"see"の後の後続語句である"a person"を"see"を認識するために用いたことをユーザに通知するために、"see"と"a person"を結ぶライン１１２が表示される。ライン１１１及びライン１１２は、認識結果が提示された直後に表示され、しばらくすると消える。

　なお、認識文章内の複数の修正単位を修正する場合、修正対象となる修正単位毎に同様の処理を行って、認識文章を修正するようにすればよい。ただし、修正対象となる修正単位が隣接する場合、隣接する修正単位の音声を一度に入力して、一度に修正するようにすることも可能である。

　図２に戻り、一方、ステップＳ７において、例えば、音声認識制御部４１は、上述したOnFinalRecognitionResult()の引数recommendedBehaviourにUSE_OTHER_METHODが設定されている場合、入力モードを変更すると判定し、処理はステップＳ８に進む。

　ステップＳ８において、クライアント１１は、変更した入力モードで入力を受け付ける。例えば、音声認識制御部４１は、手入力モード、選択モード、及び、１文字入力モードのうちいずれかのモードを選択する。提示制御部４２は、選択したモードに対応する入力画面を表示部２３に表示させる。

　図１０は、手入力モードに対応する入力画面の例を示している。この入力画面には、キーボード１２１及び表示部１２２が表示される。そして、キーボード１２１を用いて入力された文字列が、表示部１２２に表示される。

　手入力モードは、例えば、クライアント１１の周囲の雑音が多く、かつ、サーバ１２で認識結果として得られた語句の候補が少ない場合に選択される。ユーザは、キーボード１２１を用いて、入力したい語句を１文字ずつ手入力する。

　図１１は、選択モードに対応する入力画面の例を示している。この入力画面には、表示部１３１、カーソル１３２、及び、ボタン１３３が表示される。表示部１３１には、サーバ１２で認識結果として得られた語句の候補が並べて表示される。カーソル１３２は、表示部１３１に表示された語句の選択に用いられる。ボタン１３３は、図１０を参照して上述した手入力モードに遷移するために用いられる。

　選択モードは、例えば、クライアント１１の周囲の雑音が多く、かつ、サーバ１２で認識結果として得られた語句の候補が多い場合に選択される。ユーザは、表示部１３１に提示された語句の候補の中から所望のものを、カーソル１３２を用いて選択することにより、所望の語句を入力することができる。

　図１２は、１文字入力モードに対応する入力画面の例を示している。この入力画面には、表示部１４１、ボタン１４２乃至１４４、及び、カーソル１４５が表示される。表示部１３１には、音声認識により得られた文字が１文字ずつ表示される。ボタン１４２は、図１０を参照して上述した手入力モードに遷移するために用いられる。ボタン１４３は、音声認識をやり直す場合に用いられる。ボタン１４４は、音声認識の認識結果を確定する場合に用いられる。カーソル１４５は、ボタン１４２乃至１４４のうち１つを選択するために用いられる。

　１文字入力モードは、例えば、クライアント１１の周囲の雑音が少ない場合に選択される。ユーザは、所望の語句のスペルを１文字ずつ音声入力する。入力した音声を示す音声データは、サーバ１２に送信される。サーバ１２は、例えば、１文字入力専用の音声認識エンジンを用いて音声認識を行い、認識結果をクライアント１１に送信する。そして、認識結果が表示部１４１に表示される。

　なお、以下、通常の音声認識による入力モードを、手入力モード、選択モード、及び、１文字入力モードと区別するために、通常入力モードと称する。

　音声認識制御部４１は、選択した入力モードにおいて、ユーザの入力に従って、認識文章を修正する。また、表示部２３は、提示制御部４２の制御の下に、修正された認識文章を提示する。

　その後、処理はステップＳ９に進む。

　一方、ステップＳ６において、例えば、提示制御部４２は、ユーザが操作部２２を介して、認識文章を確定する操作を行った場合、又は、次の文章の音声認識を行うための操作を行った場合、認識結果の修正が必要でないと判定し、処理はステップＳ９に進む。

　ステップＳ９において、音声認識制御部４１は、現在の認識文章で認識結果を確定する。そして、例えば、音声認識制御部４１は、確定した認識結果を記憶部２８に記憶させる。また、例えば、提示制御部４２は、確定した認識結果を、表示部２３又は提示部２４に提示させる。さらに、例えば、音声認識制御部４１は、通信部２６を介して、確定した認識結果を他の装置に送信する。

　ステップＳ１０において、音声認識制御部４１は、通信部２６を介して、サーバ１２に学習用データを送信する。例えば、クライアント１１からサーバ１２（の学習部７２）への学習用データの提供は、ＡＰＩを用いて行われる。

　図１３は、サーバ１２に学習用データを提供するためのＡＰＩであるLearnRecognitionData()の例を示している。

　LearnRecognitionData()は、文字列型のwrongSentence及びcorrectSentenceの引数をとる。wrongSentenceには、間違い文章、すなわち、１回目の音声認識により認識された修正前の認識文章が設定される。correctSentenceには、認識文章を修正することにより最終的に得られた正解文章が設定される。

　サーバ１２は、後述する図１４のステップＳ５４において、学習用データを受信する。

　ステップＳ１１において、音声認識制御部４１は、音声認識を継続するか否かを判定する。例えば、音声認識制御部４１は、ユーザが操作部２２を介して、次の音声認識を行うための操作を行った場合、音声認識を継続すると判定し、処理はステップＳ２に戻る。

　その後、ステップＳ１１において、音声認識を終了すると判定されるまで、ステップＳ２乃至Ｓ１１の処理が繰り返し実行される。

　一方、ステップＳ１１において、音声認識制御部４１は、ユーザが操作部２２を介して、音声認識を終了するための操作を行った場合、音声認識を終了すると判定し、クライアント１１の処理は終了する。

　次に、図１４のフローチャートを参照して、図２のクライアント１１の処理に対応してサーバ１２により実行される処理について説明する。

　ステップＳ５１において、音声認識部７１は、音声認識の実行が依頼されたか否かを判定する。音声認識部７１は、上述した図２のステップＳ３において、クライアント１１がStartRecognition()を実行することにより音声認識の実行の依頼がなされ、その依頼を、通信部６１を介して受信した場合、音声認識の実行が依頼されたと判定し、処理はステップＳ５２に進む。

　ステップＳ５２において、音声認識部７１は、音声認識を実行する。

　例えば、音声認識部７１は、クライアント１１から取得した関連情報に基づいて、音声認識に用いる言語モデルを選択する。例えば、音声認識部７１は、クライアント１１の現在位置、現在時刻、音声認識の用途、ユーザの現在の行動、及び、ユーザの現在の感情のうち１つ以上に基づいて、現在の状況においてユーザが使用する頻度が高い語句を推定する。そして、音声認識部７１は、使用頻度の高い語句がより多く登録されている辞書を有する言語モデルを選択する。

　また、例えば、音声認識部７１は、クライアント１１から取得した音声データ及び関連情報に基づいて、音声認識に使用する音響モデルを選択する。例えば、音声認識部７１は、音声データ、クライアント１１の現在位置、現在時刻、クライアント１１の種類、及び、クライアント１１の音声入力システムのうち１つ以上に基づいて、ユーザの周辺の音響特性（例えば、雑音レベル、反響特性等）を推定する。そして、音声認識部７１は、推定した音響特性に適した音響モデルを選択する。また、例えば、音声認識部７１は、ユーザＩＤにより識別されるユーザに適した音響モデルを選択するようにしてもよい。

　また、音声認識部７１は、図２のステップＳ３においてクライアント１１から送信された音声データを、通信部６１を介して受信する。音声認識部７１は、選択した言語モデル及び音響モデルを用いて、また、必要に応じて関連情報を用いて、受信した音声データにより示される入力音声の音声認識を行う。また、音声認識部７１は、認識結果に対する信頼度を算出する。

　ここで、図１５及び図１６を参照して、図７乃至図９を参照して上述したクライアント１１の認識結果の修正処理に対応して、サーバ１２により実行される音声認識処理の例について説明する。

　上述したように、図７乃至図９の例では、"I sue a person with a red shirt"の"sue"を修正するために"see"の音声が入力される。また、除外リストに"sue"が登録され、先行語句に"I"が登録され、後続語句に"a person"が登録される。

　例えば、音声認識部７１は、クライアント１１から受信した入力音声に対して音声認識を行う。その結果、図１５に示される語句の候補と、各候補に対する信頼度が得られたものとする。この例では、"she"、"sea"、"sue"、"seed"、"see"の５つの候補が得られ、各候補の信頼度は、それぞれ0.92、0.91、0.95、0.77、0.90となっている。

　例えば、信頼度のみに基づいて最終的な認識結果を選択した場合、最も信頼度が高い"sue"が選択される。すなわち、前回の音声認識で誤認識された語句と同じ語句が、認識結果として得られる。

　一方、図１６に示されるように、音声認識部７１は、先行語句である"I"と各候補との関連度を示すスコア（以下、前関連スコアと称する）を算出する。前関連スコアは、"I"の次に出現する可能性が高い語句ほど高くなり、"I"の次に出現する可能性が低い語句ほど低くなる。この例では、"she"、"sea"、"sue"、"seed"、"see"の各候補に対する前関連スコアが、それぞれ0.1、0.2、0.7、0.4、0.7となっている。

　また、音声認識部７１は、各候補と後続語句である"a person"との関連度を示すスコア（以下、後関連スコアと称する）を算出する。後関連スコアは、"a person"の前に出現する可能性が高い語句ほど高くなり、"a person"の前に出現する可能性が低い語句ほど低くなる。この例では、"she"、"sea"、"sue"、"seed"、"see"の各候補に対する後関連スコアが、それぞれ0.1、0.1、0.9、0.2、0.8となっている。

　音声認識部７１は、除外リストに登録されている"sue"を候補から除外する。そして、音声認識部７１は、信頼度、前関連スコア、及び、後関連スコアに基づいて、残った候補の中から最終的な認識結果を選択する。これにより、信頼度、前関連スコア、及び、後関連スコアがともに高い"see"が選択される。例えば、"she"や"sea"は、"see"より信頼度が高いが、前後の語句との関係を考慮して除外される。

　このように、先に行われた音声認識で誤認識と判定された語句を除外し、音声認識の対象となる認識対象語句とその前後の語句との関係を考慮することにより、認識精度が向上する。

　なお、音声認識部７１は、除外語句、先行語句、及び、後続語句の必ずしも全てを用いる必要はなく、そのうちの１つ又は２つを用いて音声認識を行うようにしてもよい。

　また、音声認識部７１は、後述するように学習部７２により学習される、ユーザの認識結果の傾向に基づいて、音声認識を行うようにしてもよい。例えば、音声認識部７１は、図１７に示される個人化フィルタであるコンバートフィルタを用いて、音声認識を行うようにしてもよい。

　図１７は、コンバートフィルタのデータ構造の例を示している。コンバートフィルタの各レコードには、orgSentence、fixSentence、及び、userIdが含まれる。

　orgSentenceには、変換前の文章が登録される。

　fixSentenceには、変換後の文章が登録される。

　userIdには、コンバートフィルタを適用するユーザを識別するためのユーザＩＤが登録される。

　例えば、音声認識部７１は、userIdにより示されるユーザの音声認識の結果が、orgSentenceに登録されている文章と一致する場合、fixSentenceに登録されている文章に変換する。すなわち、userIdにより示されるユーザが、fixSentenceに登録されている文章を音声入力した場合、orgSentenceに登録されている文章と誤認識される可能性が非常に高い。そこで、音声認識部７１は、fixSentenceに登録されている文章からorgSentenceに登録されている文章に、自動的に認識結果を訂正する。

　図１４に戻り、ステップＳ５３において、音声認識部７１は、通信部６１を介して、クライアント１１に認識結果を送信する。例えば、音声認識部７１は、図６を参照して上述したOnFinalRecognitionResult()を実行することにより、クライアント１１に認識結果を送信する。

　このとき、音声認識部７１は、内部処理の状態等に基づいて、OnFinalRecognitionResult()のrecommendedBehaviourに設定可能なアクションの中から、認識結果の改善に効果が高いと推定されるアクションを選択し、recommendedBehaviourに設定する。

　その後、処理はステップＳ５４に進む。

　一方、ステップＳ５１において、音声認識の実行が依頼されていないと判定された場合、ステップＳ５１乃至Ｓ５３の処理はスキップされ、処理はステップＳ５４に進む。

　ステップＳ５４において、学習部７２は、学習用データを受信したか否かを判定する。学習部７２は、上述した図２のステップＳ１０において、クライアント１１がLearnRecognitionData()を実行することにより学習用データを送信し、その学習用データを、通信部６１を介して受信した場合、学習用データを受信したと判定し、処理はステップＳ５５に進む。

　ステップＳ５５において、学習部７２は、学習処理を行う。例えば、学習部７２は、学習用データに基づいて、音声認識履歴を登録する。

　図１８は、音声認識履歴のデータ構造の例を示している。音声認識履歴の各レコードは、セッション毎に生成され、orgSentence、fixSentence、trialNum、finalInputMethod、recording、及び、userIdを含む。

　orgSentenceには、対象となるセッションの１回目の音声認識で得られた認識文章が登録される。

　fixSentenceには、最終的に確定された認識文章（正解文章）が登録される。

　trialNumには、音声認識の試行回数が登録される。

　finalInputMethodには、認識結果を確定したときの入力モードが登録される。例えば、通常入力モード、手入力モード、選択モード、１文字入力モードのうちのいずれかのモードが登録される。この例のMANUAL_INPUTは手入力モードを示しており、最終的に手入力モードにより修正された文章で認識結果が確定されたことが分かる。

　recordingには、対象となるセッションの１回目の音声認識時にユーザにより入力された入力音声を示す音声データ、又は、音声データのファイル名が登録される。

　userIdには、音声認識を行ったユーザ、すなわち、音声を入力したユーザを識別するためのユーザＩＤが登録される。

　また、学習部７２は、各ユーザの音声認識履歴に基づいて、音声認識エンジンを改良する。例えば、学習部７２は、音声認識エンジンの音響モデルや言語モデルを改良したり、ユーザ毎に音声認識エンジンを調整することにより個人化したりする。

　さらに、学習部７２は、各ユーザの音声認識履歴に基づいて、ユーザの認識結果の傾向を学習し、図１７を参照して上述したコンバートフィルタを生成する。

　その後、処理はステップＳ５１に戻り、ステップＳ５１以降の処理が実行される。

　一方、ステップＳ５４において、学習用データを受信していないと判定された場合、処理はステップＳ５１に戻り、ステップＳ５１以降の処理が実行される。

　以上のようにして、入力音声だけでなく、関連情報やユーザ毎の学習結果を用いることにより、音声認識の認識精度が向上する。また、ユーザは、認識結果を修正する場合、全ての文章を再入力したり、発話方法を変更したりすることなく、修正が必要な語句の音声のみを入力すればよいため、ユーザの負担が軽減される。その結果、ユーザは、所望の音声認識の認識結果を迅速に得ることができる。

　＜＜２．変形例＞＞
　以下、上述した本技術の実施の形態の変形例について説明する。

　＜２－１．システムの構成例に関する変形例＞
　図１の情報処理システム１０の構成例は、その一例であり、必要に応じて変更することが可能である。

　例えば、クライアント１１の機能の一部をサーバ１２に設けたり、サーバ１２の機能の一部をクライアント１１に設けたりすることが可能である。

　例えば、学習処理をクライアント１１で行うようにしてもよい。また、例えば、クライアント１１からセンサデータ等をサーバ１２に送信して、サーバ１２が、関連情報の一部又は全部を生成するようにしてもよい。

　さらに、例えば、サーバ１２から次のアクションを推奨せずに、クライアント１１で次のアクションを独自に選択することも可能である。

　また、例えば、クライアント１１とサーバ１２を一体化し、１台の装置で上記の処理を行うことも可能である。

　＜２－２．認識結果の提示方法に関する変形例＞
　図７を参照して上述した認識結果の提示方法は、その一例であり、任意に変更することが可能である。

　例えば、認識結果を区切る単位を、単語単位、節・句単位等に変更することが可能である。

　また、例えば、認識結果を区切らずに提示するようにすることも可能である。

　＜２－３．関連情報に関する変形例＞
　上述した関連情報は、その一例であり、使用する関連情報の種類を減らしたり、他の関連情報を追加したりすることが可能である。

　また、サーバ１２は、音声認識処理の内部状態等に基づいて、関連情報を使用するタイミングを制御したり、使用する関連情報を選択したりすることが可能である。

　＜＜３．応用例＞＞
　上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図１９は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

　コンピュータにおいて、ＣＰＵ（Central Processing Unit）３０１，ＲＯＭ（Read Only Memory）３０２，ＲＡＭ（Random Access Memory）３０３は、バス３０４により相互に接続されている。

　バス３０４には、さらに、入出力インタフェース３０５が接続されている。入出力インタフェース３０５には、入力部３０６、出力部３０７、記憶部３０８、通信部３０９、及びドライブ３１０が接続されている。

　入力部３０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部３０７は、ディスプレイ、スピーカなどよりなる。記憶部３０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部３０９は、ネットワークインタフェースなどよりなる。ドライブ３１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア３１１を駆動する。

　以上のように構成されるコンピュータでは、ＣＰＵ３０１が、例えば、記憶部３０８に記憶されているプログラムを、入出力インタフェース３０５及びバス３０４を介して、ＲＡＭ３０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（ＣＰＵ３０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア３１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブルメディア３１１をドライブ３１０に装着することにより、入出力インタフェース３０５を介して、記憶部３０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部３０９で受信し、記憶部３０８にインストールすることができる。その他、プログラムは、ＲＯＭ３０２や記憶部３０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、複数のコンピュータが連携して上述した処理を行うようにしてもよい。そして、上述した処理を行う単数又は複数のコンピュータにより、コンピュータシステムが構成される。

　また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

　また、例えば、本技術は以下のような構成も取ることができる。

（１）
　認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象の後の語句である後続語句のうち少なくとも一方を含む語句情報に基づいて、前記認識対象語句の音声認識を行う音声認識部を
　備える情報処理装置。
（２）
　前記認識対象語句は、先に行われた音声認識の認識結果として提示された文章を修正する部分に入る語句であり、
　前記先行語句は、前記修正する部分の前の語句であり、
　前記後続語句は、前記修正する部分の後の語句である
　前記（１）に記載の情報処理装置。
（３）
　前記語句情報は、音声認識の認識結果から除外する語句である除外語句をさらに含む
　前記（１）又は（２）に記載の情報処理装置。
（４）
　前記除外語句は、先に行われた音声認識において前記認識対象語句を誤認識したと判定された語句である
　前記（３）に記載の情報処理装置。
（５）
　前記語句情報を含む関連情報、及び、前記入力音声を他の情報処理装置から受信し、音声認識の認識結果を前記他の情報処理装置に送信する通信部を
　さらに備える前記（１）乃至（４）のいずれかに記載の情報処理装置。
（６）
　前記関連情報は、前記他の情報処理装置において音声認識を使用するコンテキストに関するコンテキスト情報、音声認識を使用するユーザに関するユーザ情報、及び、音声を入力するシステムに関するシステム情報のうち少なくとも１つをさらに含み、
　前記音声認識部は、さらに前記コンテキスト情報、前記ユーザ情報、及び、前記システム情報のうち少なくとも１つに基づいて音声認識を行う
　前記（５）に記載の情報処理装置。
（７）
　前記コンテキスト情報は、音声認識の用途に関する情報、前記他の情報処理装置の位置、及び、現在時刻のうち少なくとも１つを含む
　前記（６）に記載の情報処理装置。
（８）
　前記ユーザ情報は、前記ユーザを識別するための情報、前記ユーザの行動を示す情報、及び、前記ユーザの感情を示す情報のうち少なくとも１つを含む
　前記（６）又は（７）に記載の情報処理装置。
（９）
　前記システム情報は、前記他の情報処理装置の種類、及び、前記他の情報処理装置の音声入力システムの構成のうち少なくとも１つを含む
　前記（６）乃至（８）のいずれかに記載の情報処理装置。
（１０）
　前記音声認識部は、前記コンテキスト情報、前記ユーザ情報、及び、前記システム情報のうち少なくとも１つに基づいて、使用する音響モデル及び言語モデルのうち少なくとも１つを選択する
　前記（６）乃至（９）のいずれかに記載の情報処理装置。
（１１）
　前記ユーザの音声認識の実行履歴に基づいて、前記ユーザの認識結果の傾向を学習する学習部を
　さらに備え、
　前記音声認識部は、さらに前記学習部による学習結果に基づいて音声認識を行う
　前記（６）乃至（１０）のいずれかに記載の情報処理装置。
（１２）
　前記音声認識部は、前記認識対象語句の音声認識の認識結果として得られた各候補と、前記先行語句及び前記後続語句のうち少なくとも一方との関連度に基づいて、最終的な認識結果を選択する
　前記（１）乃至（１１）のいずれかに記載の情報処理装置。
（１３）
　認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象の後の語句である後続語句のうち少なくとも一方を含む語句情報に基づいて、前記認識対象語句の音声認識を行う音声認識ステップを
　含む情報処理方法。
（１４）
　認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象語句の後の語句である後続語句のうち少なくとも一方を含む語句情報を他の情報処理装置に送信し、前記認識対象語句の音声認識の認識結果を前記他の情報処理装置から受信する通信部と、
　前記認識結果の提示を制御する提示制御部と
　を備える情報処理装置。
（１５）
　前記認識対象語句は、先に行われた音声認識の認識結果として提示された文章を修正する部分に入る語句であり、
　前記先行語句は、前記修正する部分の前の語句であり、
　前記後続語句は、前記修正する部分の後の語句である
　前記（１４）に記載の情報処理装置。
（１６）
　認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象語句の後の語句である後続語句のうち少なくとも一方を含む語句情報の他の情報処理装置への送信を制御する送信制御ステップと、
　前記認識対象語句の音声認識の認識結果の前記他の情報処理装置からの受信を制御する受信制御ステップと、
　前記認識結果の提示を制御する提示制御ステップと
　を含む情報処理方法。

　１０　情報処理システム，　１１　クライアント，　１２　サーバ，　２１　音声入力部，　２３　表示部，　２４　提示部，　２５　センサ部，　２６　通信部,　２７　制御部，　４１　音声認識制御部，　４２　提示制御部，　４３　関連情報取得部，　６１　通信部，　６２　制御部，　７１　音声認識部，　７２　学習部

Claims

　認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象の後の語句である後続語句のうち少なくとも一方を含む語句情報に基づいて、前記認識対象語句の音声認識を行う音声認識部を
　備える情報処理装置。
　前記認識対象語句は、先に行われた音声認識の認識結果として提示された文章を修正する部分に入る語句であり、
　前記先行語句は、前記修正する部分の前の語句であり、
　前記後続語句は、前記修正する部分の後の語句である
　請求項１に記載の情報処理装置。
　前記語句情報は、音声認識の認識結果から除外する語句である除外語句をさらに含む
　請求項１に記載の情報処理装置。
　前記除外語句は、先に行われた音声認識において前記認識対象語句を誤認識したと判定された語句である
　請求項３に記載の情報処理装置。
　前記語句情報を含む関連情報、及び、前記入力音声を他の情報処理装置から受信し、音声認識の認識結果を前記他の情報処理装置に送信する通信部を
　さらに備える請求項１に記載の情報処理装置。
　前記関連情報は、前記他の情報処理装置において音声認識を使用するコンテキストに関するコンテキスト情報、音声認識を使用するユーザに関するユーザ情報、及び、音声を入力するシステムに関するシステム情報のうち少なくとも１つをさらに含み、
　前記音声認識部は、さらに前記コンテキスト情報、前記ユーザ情報、及び、前記システム情報のうち少なくとも１つに基づいて音声認識を行う
　請求項５に記載の情報処理装置。
　前記コンテキスト情報は、音声認識の用途に関する情報、前記他の情報処理装置の位置、及び、現在時刻のうち少なくとも１つを含む
　請求項６に記載の情報処理装置。
　前記ユーザ情報は、前記ユーザを識別するための情報、前記ユーザの行動を示す情報、及び、前記ユーザの感情を示す情報のうち少なくとも１つを含む
　請求項６に記載の情報処理装置。
　前記システム情報は、前記他の情報処理装置の種類、及び、前記他の情報処理装置の音声入力システムの構成のうち少なくとも１つを含む
　請求項６に記載の情報処理装置。
　前記音声認識部は、前記コンテキスト情報、前記ユーザ情報、及び、前記システム情報のうち少なくとも１つに基づいて、使用する音響モデル及び言語モデルのうち少なくとも１つを選択する
　請求項６に記載の情報処理装置。
　前記ユーザの音声認識の実行履歴に基づいて、前記ユーザの認識結果の傾向を学習する学習部を
　さらに備え、
　前記音声認識部は、さらに前記学習部による学習結果に基づいて音声認識を行う
　請求項６に記載の情報処理装置。
　前記音声認識部は、前記認識対象語句の音声認識の認識結果として得られた各候補と、前記先行語句及び前記後続語句のうち少なくとも一方との関連度に基づいて、最終的な認識結果を選択する
　請求項１に記載の情報処理装置。
　認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象の後の語句である後続語句のうち少なくとも一方を含む語句情報に基づいて、前記認識対象語句の音声認識を行う音声認識ステップを
　含む情報処理方法。
　認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象語句の後の語句である後続語句のうち少なくとも一方を含む語句情報を他の情報処理装置に送信し、前記認識対象語句の音声認識の認識結果を前記他の情報処理装置から受信する通信部と、
　前記認識結果の提示を制御する提示制御部と
　を備える情報処理装置。
　前記認識対象語句は、先に行われた音声認識の認識結果として提示された文章を修正する部分に入る語句であり、
　前記先行語句は、前記修正する部分の前の語句であり、
　前記後続語句は、前記修正する部分の後の語句である
　請求項１４に記載の情報処理装置。
　認識対象となる語句である認識対象語句を示す入力音声、並びに、前記認識対象語句を含む文章において前記認識対象語句の前の語句である先行語句及び前記認識対象語句の後の語句である後続語句のうち少なくとも一方を含む語句情報の他の情報処理装置への送信を制御する送信制御ステップと、
　前記認識対象語句の音声認識の認識結果の前記他の情報処理装置からの受信を制御する受信制御ステップと、
　前記認識結果の提示を制御する提示制御ステップと
　を含む情報処理方法。