WO2023073945A1

WO2023073945A1 - 情報処理装置、情報処理方法および情報処理プログラム

Info

Publication number: WO2023073945A1
Application number: PCT/JP2021/040095
Authority: WO
Inventors: 義大石原
Original assignee: パイオニア株式会社
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2023-05-04

Abstract

情報処理装置（２００）は、第１の発話音声が入力された後に、所定の対象物に触れることで情報入力する第２の入力操作が行われた場合には、第１の発話音声が示す発話内容と、第２の入力操作が示す操作内容とに基づいて、第２の入力操作が発話内容を訂正するための訂正操作であるか否かを判定する訂正操作判定部（２３７）と、訂正操作判定部（２３７）により第２の入力操作が訂正操作であると判定された場合には、操作内容と、発話内容とを紐付ける紐付部（１３４）と、紐付部（１３４）による紐付結果に基づいて、発話内容に対する所定の制御を行う情報制御部（１３６）とを有する。

Description

情報処理装置、情報処理方法および情報処理プログラム

　本発明は、情報処理装置、情報処理方法および情報処理プログラムに関する。

　従来、車両のナビゲーション装置に対して実行される音声認識システムが知られている。例えば、特許文献１には、音声認識システムに搭載される音声認識エンジンが発話音声を誤認識した場合に、誤認識による認識結果を訂正できるようにする手法が開示されている。

特開２００４－３３３７０３号公報

　しかしながら、上記の従来技術では、利用者の音声による操作入力に対して正しい動作を実行できるよう制御することができるとは限らない。

　例えば、上記の従来技術では、音声認識エンジンによる発話音声の誤認識を検知した場合に、誤認識された単語に対して利用者が以前に訂正したことのある単語を認識単語リンクＤＢから読み出して正解候補として提示するとともに、誤認識された単語と利用者により訂正された正解単語とを対応付けて認識単語リンクＤＢに新たに登録している。

　このように、上記の従来技術は、利用者が発話した単語を音声認識エンジンが誤認識した場合であっても、誤認識された単語に対する正しい単語を音声認識エンジンが認識することができるよう辞書登録するものであり、係る処理は、利用者による言い間違えを正しく認識するものではない。

　したがって、上記の従来技術では、利用者が言い間違えた場合であっても言い間違えに対する正しい動作を実行できるよう制御することができるとは限らない。また、上記の従来技術では、利用者が発話した単語が、操作動作として登録されている単語とは異なる場合、音声認識エンジンは利用者の意図する操作を正しく認識することはできない。

　本発明は、上記に鑑みてなされたものであって、利用者の音声による操作入力に対して正しい動作を実行できるよう制御することができる情報処理装置、情報処理方法および情報処理プログラムを提供することを目的とする。

　請求項１に記載の情報処理装置は、第１の発話音声が入力された後に、所定の対象物に触れることで情報入力する第２の入力操作が行われた場合には、前記第１の発話音声が示す発話内容と、前記第２の入力操作が示す操作内容とに基づいて、前記第２の入力操作が前記発話内容を訂正するための訂正操作であるか否かを判定する判定部と、前記判定部により前記第２の入力操作が前記訂正操作であると判定された場合には、前記操作内容と、前記発話内容とを紐付ける紐付部と、前記紐付部による紐付結果に基づいて、前記発話内容に対する所定の制御を行う情報制御部とを有することを特徴とする。

　請求項９に記載の情報処理方法は、情報処理装置が実行する情報処理方法であって、第１の発話音声が入力された後に、所定の対象物に触れることで情報入力する第２の入力操作が行われた場合には、前記第１の発話音声が示す発話内容と、前記第２の入力操作が示す操作内容とに基づいて、前記第２の入力操作が前記発話内容を訂正するための訂正操作であるか否かを判定する判定工程と、前記判定工程により前記第２の入力操作が前記訂正操作であると判定された場合には、前記操作内容と、前記発話内容とを紐付ける紐付工程と、前記紐付工程による紐付結果に基づいて、前記発話内容に対する所定の制御を行う情報制御工程とを含むことを特徴とする。

　請求項１０に記載の情報処理プログラムは、第１の発話音声が入力された後に、所定の対象物に触れることで情報入力する第２の入力操作が行われた場合には、前記第１の発話音声が示す発話内容と、前記第２の入力操作が示す操作内容とに基づいて、前記第２の入力操作が前記発話内容を訂正するための訂正操作であるか否かを判定する判定手順と、前記判定手順により前記第２の入力操作が前記訂正操作であると判定された場合には、前記操作内容と、前記発話内容とを紐付ける紐付手順と、前記紐付手順による紐付結果に基づいて、前記発話内容に対する所定の制御を行う情報制御手順とを情報処理装置に実行させるための情報処理プログラムである。

図１は、実施形態に係る情報処理システムの一例を示す図である。図２は、第１の実施形態に係る情報処理を説明する説明図である。図３は、第１の実施形態に係る情報処理装置の構成例を示す図である。図４は、第１の実施形態に係る実施形態に係る発話情報データベースの一例を示す図である。図５は、実施形態に係る紐付情報データベースの一例を示す図である。図６は、実施形態に係るユーザ辞書データベースの一例を示す図である。図７は、第１の実施形態に係る情報処理の手順を示すフローチャートである。図８は、第２の実施形態に係る情報処理を説明する説明図である。図９は、第２の実施形態に係る情報処理装置の構成例を示す図である。図１０は、第２の実施形態に係る操作情報データベースの一例を示す図である。図１１は、第２の実施形態に係る情報処理の手順を示すフローチャートである。図１２は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

　以下に、情報処理装置、情報処理方法および情報処理プログラムを実施するための形態（以下、「実施形態」と記載する）の一例について図面を参照しつつ詳細に説明する。なお、この実施形態により情報処理装置、情報処理方法および情報処理プログラムが限定されるものではない。また、以下の実施形態において同一の部位には同一の符号を付し、重複する説明は省略する。

［実施形態］
（各実施形態における共通事項）
〔１．はじめに〕
　例えば、車両のナビゲーション装置には、利用者により入力された音声を認識し、認識結果に応じた情報処理（例えば、ルート案内）を行うという音声認識システムが搭載されている場合がある。このような場合、利用者は、ナビゲーション装置に対して、特定の動作を行うよう指示する内容の発話音声や、目的地を示す発話音声等を入力するが、言い間違えにより、意図した内容とは異なる内容の発話音声を入力してしまうことがある。そうすると、音声認識システムは、言い間違えられた誤りの内容に応じた動作を実行することとなるため、利用者にとって都合が悪い。

　そこで、本発明は、上記事情に着目してなされたものであって、その目的とするところは、利用者が言い間違えた場合であっても言い間違えに対する正しい動作を実行できるよう制御することにある。このような目的のため、本発明では、利用者の動作から言い間違えを訂正しようとする意図を推定する。そして、本発明では、言い間違えを訂正しようとする意図の元に行われた動作の内容に基づいて、言い間違えられた内容と、この内容に対する本来の正しい内容とを紐付けておくことで、今後、紐付結果に応じた処理を実行する。

　ここで、本発明に対応する情報処理は、言い間違えた誤りの内容を発話音声で訂正しようとする利用者の訂正音声を検出することで、検出した訂正音声の内容に基づく紐付けを行う情報処理と、言い間違えた誤りの内容を発話音声以外の入力手段（例えば、手入力）で訂正しようとする利用者の訂正操作を検出することで、検出した訂正操作の内容に基づく紐付けを行う情報処理とに分けることができる。よって、以下の実施形態では、前者の情報処理を第１の実施形態とし、後者の情報処理を第２の実施形態として説明する。

〔２．システムの全体像について〕
　第１の実施形態、第２の実施形態それぞれについて具体的に説明するにあたって、まず、双方の実施形態の共通事項として、実施形態に係る情報処理システムの構成を説明する。図１は、実施形態に係る情報処理システムの一例を示す図である。図１には、実施形態に係る情報処理システムの一例として、情報処理システム１が示される。後述する第１の実施形態、および、第２の実施形態は、図１に示す情報処理システム１内で実現されてよい。

　図１に示すように、情報処理システム１は、端末装置１０と、情報処理装置１００とを備えてよい。また、端末装置１０と、情報処理装置１００とは、ネットワークＮを介して、有線または無線により通信可能に接続される。また、図１に示す情報処理システム１には、任意の数の端末装置１０と、任意の数の情報処理装置１００とが含まれてもよい。

　端末装置１０は、移動体の一例である車両に搭載される車載装置であってよい。図１には、端末装置１０が車両ＶＥｘの車載装置である例が示される。係る例では、端末装置１０は、例えば、車両ＶＥｘに内蔵される専用のナビゲーション装置、あるいは、車両ＶＥｘに取り付けられる専用のナビゲーション装置であってよい。

　また、端末装置１０は、後述する情報処理装置１００として機能するよう構成されてもよい。例えば、図１には、端末装置１０と、情報処理装置１００とが別々の装置として示されているが、端末装置１０と情報処理装置１００とは一体化されて１つの情報処理装置として構成されてもよい。係る場合、例えば、端末装置１０に対して、情報処理装置１００が有する機能の一部または全てが導入されてよい。

　なお、端末装置１０は、所定のナビゲーションシステムに対応するアプリケーションが導入されている携帯型端末装置（例えば、スマートフォン、タブレット型端末、ノート型ＰＣ、デスクトップＰＣ、ＰＤＡ等）であってもよい。係る例では、端末装置１０は、例えば、車両ＶＥｘの運転者によって日常的に利用されるものであってよい。

　また、端末装置１０は、利用者による発話音声を集音する集音部（例えば、マイク）を有してよい。そして、集音部を介して収集された発話音声を示す発話情報は、端末装置１０によって情報処理装置１００に送信されてよい。

　また、端末装置１０は、カメラ、加速度センサ、ジャイロセンサ、ＧＰＳセンサ、気圧センサ等の各種センサも有していてよい。そして、センサによって検出されたセンサ情報は、端末装置１０によって情報処理装置１００に送信されてよい。また、車両ＶＥｘも、例えば、安全走行システム用のセンサを有していてよく、このセンサによるセンサ情報も情報処理装置１００に送信されてよい。

　情報処理装置ＳＶは、実施形態に係る情報処理を行う装置である。例えば、情報処理装置ＳＶは、実施形態に係る情報処理プログラムで実現される情報処理方法に従って、実施形態に係る情報処理を行ってよい。

　また、例えば、情報処理装置ＳＶは、第１の実施形態に係る情報処理として、第１の発話音声が入力された後に、第２の発話音声が入力された場合には、第１の発話音声が示す第１の発話内容と、第２の発話音声が示す第２の発話内容とに基づいて、第２の発話音声が第１の発話内容を訂正するために入力された音声であるか否かを判定する。

　具体的には、情報処理装置ＳＶは、第１の発話内容が言い間違えによる誤りの内容であり、この誤りの内容を訂正する意図で利用者が第２の発話音声を入力したか否か利用者の意図を推定する。つまり、情報処理装置ＳＶは、第１の発話音声が示す第１の発話内容と、第２の発話音声が示す第２の発話内容とに基づいて、利用者が第２の発話内容によって第１の発話内容を訂正する意図があるか否かを推定する。そして、情報処理装置ＳＶは、推定結果に応じて、第２の発話音声が第１の発話内容を訂正するために入力された訂正音声であるか否かを判定する。

　また、情報処理装置ＳＶは、第２の発話音声が第１の発話内容を訂正するために入力された訂正音声であると判定した場合には、第１の発話内容と、第２の発話内容とを紐付けることで、紐付結果に基づいて、第１の発話内容に対する所定の制御を行う。

　一方、情報処理装置ＳＶは、第２の実施形態に係る情報処理として、第１の発話音声が入力された後に、所定の対象物に触れることで情報入力する第２の入力操作（例えば、手入力操作）が行われた場合には、第１の発話音声が示す発話内容と、第２の入力操作が示す操作内容とに基づいて、第２の入力操作が発話内容を訂正するための訂正操作であるか否かを判定する。

　具体的には、情報処理装置ＳＶは、発話内容が言い間違えによる誤りの内容であり、この誤りの内容を訂正する意図で利用者が第２の入力操作を行ったか否か利用者の意図を推定する。つまり、情報処理装置ＳＶは、第１の発話音声が示す発話内容と、第２の入力操作が示す操作内容とに基づいて、利用者が操作内容によって発話内容を訂正する意図があるか否かを推定する。そして、情報処理装置ＳＶは、推定結果に応じて、第２の入力操作が発話内容を訂正するための訂正操作であるか否かを判定する。

　また、情報処理装置ＳＶは、第２の入力操作が訂正操作であると判定した場合には、操作内容と、発話内容とを紐付けることで、紐付結果に基づいて、発話内容に対する所定の制御を行う。

　ここで、端末装置１０を利用者の近くでエッジ処理を行うエッジコンピュータとするなら、情報処理装置ＳＶは、例えば、クラウド側で処理を行うクラウドコンピュータであってよい。すなわち、情報処理装置ＳＶは、サーバ装置であってよい。

　以下では、第１の実施形態、第２の実施形態それぞれについて具体的に説明する。なお、第１の実施形態に係る情報処理を行う情報処置装置ＳＶを「情報処理装置１００」とする。また、第２の実施形態に係る情報処理を行う情報処置装置ＳＶを「情報処理装置２００」とする。

　また、各実施形態では、移動体を車両ＶＥｘとして説明するが、移動体は車両ＶＥｘに限定されるものではない。また、各実施形態で示す利用者とは、車両ＶＥｘに搭乗して端末装置１０に対して音声入力したことのある人物であれば、いかなる人物であってよい。例えば、利用者とは、車両ＶＥｘを日常的に利用している人物、すなわち車両ＶＥｘの所有者であってよい。

（第１の実施形態）
〔１．第１の実施形態の全体像〕
　ここからは、図２を用いて、第１の実施形態について説明する。図２は、第１の実施形態に係る情報処理を説明する説明図である。

　図２には、利用者Ｕ１が、車両ＶＥ１（車両ＶＥｘの一例）に搭載される端末装置１０に向かって発話することで、発話音声を入力している場面が示される。より具体的には、図２には、利用者Ｕ１が、「大阪府のイバラキ市に存在する目的地○○」までのルートを案内するよう指示する内容の発話音声を入力している場面が示される。

　このような場合、端末装置１０は、発話音声の入力を受け付けるたびに、受け付けた発話音声を示す音声情報を情報処理装置１００に送信する。この結果、情報処理装置１００は、端末装置１０から音声情報を取得する（ステップＳ１１）。

　例えば、図２には、利用者Ｕ１が、「「イバラギ」市の○○までルート案内おねがい！」といった内容Ｃ１１の発話音声ＶＯ１１を入力した例が示される。係る例では、端末装置１０は、発話音声ＶＯ１１の入力に応じて、発話内容Ｃ１１を示す音声情報を情報処理装置１００に送信する。この結果、情報処理装置１００は、発話内容Ｃ１１を示す音声情報を取得する。

　ここで、利用者Ｕ１は、正しくは「イバラキ」と発話すべきところ、「イバラギ」と言い間違えてしまったことに気付いたとする。そして、利用者Ｕ１は、図２に示すように、「「イバラキ」市の○○までルート案内おねがい！」といった内容Ｃ１２の発話音声ＶＯ１２を入力し直したとする。係る例では、端末装置１０は、発話音声ＶＯ１２の入力に応じて、発話内容Ｃ１２を示す音声情報を情報処理装置１００に送信する。この結果、情報処理装置１００は、発話内容Ｃ１２を示す音声情報を取得する。

　次に、情報処理装置１００は、利用者Ｕ１によって発話されたタイミングの前後関係に基づいて、第１の発話音声を示す第１の音声情報、および、第２の発話音声を示す第２の音声情報を取得する（ステップＳ１２）。例えば、情報処理装置１００は、発話タイミングの前後関係に基づいて、先に入力された発話音声である第１の発話音声と、第１の発話音声が入力された後に入力された発話音声である第２の発話音声とを認識してよい。また、これにより情報処理装置１００は、端末装置１０を介してこれまでに収集している音声情報の中から、第１の発話音声を示す第１の音声情報、および、第２の発話音声を示す第２の音声情報を取得してよい。

　図２の例では、情報処理装置１００は、発話音声ＶＯ１１を第１の発話音声として認識することで、発話内容Ｃ１１を示す音声情報を第１の音声情報として取得したものとする。また、図２の例では、情報処理装置１００は、発話音声ＶＯ１２を第２の発話音声として認識することで、発話内容Ｃ１２を示す音声情報を第２の音声情報として取得したものとする。以下、発話音声ＶＯ１１を「第１の発話音声ＶＯ１１」と表記し、発話音声ＶＯ１２を「第２の発話音声ＶＯ１２」と表記する場合がある。

　次に、情報処理装置１００は、第１の音声情報（第１の発話内容）を構成する各キーワードである第１のキーワードと、第２の音声情報（第２の発話内容）を構成する各キーワードである第２のキーワードとの類似性に基づいて、言い間違えたことによる訂正の意図を推定する意図解析を行う（ステップＳ１３）。具体的には、情報処理装置１００は、第１のキーワードと、第２のキーワードとの類似性に基づいて、利用者Ｕ１が第２の発話内容によって、第１の発話内容を訂正する意図があるか否か意図推定を行う。ステップＳ１３で行われる意図解析の具体的な手法については後述する。

　なお、情報処理装置１００は、ステップＳ１３では、第１の音声情報を示すテキストに対する形態素解析により、このテキストを構成する各単語を第１のキーワードとして抽出してよい。同様に、情報処理装置１００は、第２の音声情報を示すテキストに対する形態素解析により、このテキストを構成する各単語を第２のキーワードとして抽出してよい。

　続いて、情報処理装置１００は、意図解析による推定結果に基づいて、第２の発話音声ＶＯ１２が、第１の発話音声ＶＯ１１に対応する第１の発話内容を訂正するために音声入力された訂正音声であるか否かを判定する（ステップＳ１４）。例えば、情報処理装置１００は、第１のキーワードの１つである「イバラギ」と、第２のキーワードの１つである「イバラキ」との間で類似性があると認められた場合には、利用者Ｕ１が第２の発話内容（第２のキーワードＫＷ１２）によって、第１の発話内容（第１のキーワードＫＷ１１）を訂正する意図があると推定することができる。また、この結果、情報処理装置１００は、第２の発話音声ＶＯ１２が、第１の発話内容を訂正するために音声入力された訂正音声であると判定することができる。

　このように、第２の発話音声ＶＯ１２が、第１の発話内容を訂正するために音声入力された訂正音声であると判定した場合には、情報処理装置１００は、第２のキーワード「イバラキ」を正解情報とし、第１のキーワード「イバラギ」を正解情報に対する誤り情報として、第２のキーワード「イバラキ」と、第１のキーワード「イバラギ」とを紐付ける（ステップＳ１５）。図２には、第２のキーワード「イバラキ」を正解情報とし、第１のキーワード「イバラギ」を正解情報とした今回の例を含めて、利用者Ｕ１が過去にも「イバラキ」を「イバラギ」と言い間違えたことによる紐付結果の例や、「イバラキ」を「イバラク」と言い間違えたことによる紐付結果の例が示される。また、このような紐付結果は、紐付けＩＤを用いて紐付情報データベース１２２（図５）で管理されてよい。

　また、情報処理装置１００は、正解情報と誤り情報との組を学習データとして、誤り情報が示す第１のキーワードのうち、正解情報が示す第２のキーワードに対して間違えられやすいキーワードを学習する（ステップＳ１６）。図２の例では、情報処理装置１００は、第１のキーワード「イバラギ」、および、第１のキーワード「イバラク」のうち、第２のキーワード「イバラキ」に対して間違えられやすいものを学習する。

　そして、情報処理装置１００は、学習結果に基づいて、キーワードを辞書登録する（ステップＳ１７）。例えば、情報処理装置１００は、学習結果に基づいて、第１のキーワードのうち、第２のキーワードに対して間違えられやすいキーワードを含む発話音声が入力された場合に、入力されたこの第１のキーワードが第２のキーワードとして認識されるよう、この第１のキーワードをユーザ辞書（図６）に登録する。図２には、情報処理装置１００が、第１のキーワード「イバラギ」を含む発話音声が入力された場合に、第１のキーワード「イバラギ」が第２のキーワード「イバラキ」として認識されるよう、第１のキーワード「イバラギ」をユーザ辞書に登録している例が示される。

　さて、これまで図２で説明してきたように、第１の実施形態では、情報処理装置１００は、第１の発話音声が入力された後に、第２の発話音声が入力された場合には、第１の発話音声が示す第１の発話内容と、第２の発話音声が示す第２の発話内容とに基づいて、第２の発話音声が第１の発話内容を訂正するために入力された音声であるか否かを判定する。そして、情報処理装置２００は、第２の発話音声が第１の発話内容を訂正するために入力された音声であると判定した場合には、第１の発話内容と、第２の発話内容とを紐付けることで、紐付結果に基づいて、第１の発話内容をユーザ辞書に登録する。

　このような第１の実施形態に係る情報処理によれば、情報処理装置１００は、利用者が言い間違えた場合であっても言い間違えに対する正しい動作を実行できるよう制御することができる。

〔２．情報処理装置の構成〕
　ここからは、図３を用いて、第１の実施形態に係る情報処理装置１００について説明する。図３は、第１の実施形態に係る情報処理装置１００の構成例を示す図である。図３に示すように、情報処理装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。

（通信部１１０について）
　通信部１１０は、例えば、ＮＩＣ（Network　Interface　Card）等によって実現される。そして、通信部１１０は、ネットワークと有線または無線で接続され、例えば、端末装置１０との間で情報の送受信を行う。

（記憶部１２０について）
　記憶部１２０は、例えば、ＲＡＭ（Random　Access　Memory)、フラッシュメモリ等の半導体メモリ素子またはハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２０は、発話情報データベース１２１と、紐付情報データベース１２２と、ユーザ辞書データベース１２３とを有する。

（発話情報データベース１２１について）
　発話情報データベース１２１は、利用者により入力された発話音声に関する情報を記憶する。ここで、図４に、第１の実施形態に係る実施形態に係る発話情報データベース１２１の一例を示す。図４の例では、発話情報データベース１２１は、「利用者ＩＤ」、「発話日時」、「音声情報」といった項目を有する。

　「利用者ＩＤ」は、端末装置１０に対して発話音声を入力した利用者を識別する識別情報を示す。例えば、情報処理装置１００は、端末装置１０が有するセンサ（例えば、カメラ）による撮像画像に基づき、発話音声を入力した利用者を認識することで、認識した利用者に対して「利用者ＩＤ」を払い出してよい。

　「発話日時」は、発話音声が入力された日時に関する情報を示す。図４には、利用者ＩＤ「Ｕ１」と、「発話日時♯１１」とが対応付けられる例が示される。係る例は、利用者Ｕ１が、発話日時♯１１という日時に発話音声を入力した例を示す。例えば、情報処理装置１００は、「発話日時」を発話タイミングと捉えることで、先に入力された発話音声である第１の発話音声と、第１の発話音声が入力された後に入力された発話音声である第２の発話音声とを認識することができる。

　「音声情報」は、「利用者ＩＤ」が示す利用者によって入力された発話音声の内容を示す情報である。例えば、「音声情報」は、発話音声に対して任意の音声認識技術が適用されることで得られたテキスト情報であって、発話音声の内容を示すテキスト情報であってよい。なお、発話音声に対する音声認識処理は、端末装置１０によって実行されてもよいし、図１では図示されない音声認識装置によって実行されてもよい。図４には、利用者ＩＤ「Ｕ１」と、「発話日時♯１１」と、「音声情報♯１１」とが対応付けられる例が示される。係る例は、利用者Ｕ１が、発話日時♯１１という日時に入力した発話音声から、この発話音声の内容を示す音声情報♯１１が得られた例を示す。

（紐付情報データベース１２２について）
　紐付情報データベース１２２は、正解情報と誤り情報とを紐付けて管理する。ここで、図５に、実施形態に係る紐付情報データベース１２２の一例を示す。図５の例では、紐付情報データベース１２２は、「利用者ＩＤ」、「紐付けＩＤ」、「正解情報」、「誤り情報」といった項目を有する。

　「利用者ＩＤ」は、端末装置１０に対して発話音声を入力した利用者を識別する識別情報を示し、図４の「利用者ＩＤ」に対応する。

　「紐付けＩＤ」は、「正解情報」に対する「誤り情報」を、「正解情報」が示すキーワードごとに管理するための識別情報である。図５に示すように、「紐付けＩＤ」は、「正解情報」が示すキーワードごと払い出されてよい。図５には、利用者ＩＤ「Ｕ１」と、紐付けＩＤ「Ｈ１１」と、正解情報「イバラキ」とが対応付けられる例が示される。係る例は、利用者Ｕ１による発話音声の入力に応じて、正解情報としての１つの第２のキーワード「イバラキ」が紐付けＩＤ「Ｈ１１」によって管理される例を示す。

　「正解情報」は、第１の発話音声に含まれる第１のキーワードのうち、特定の第１のキーワードを訂正するために、訂正音声として入力された第２の発話音声に含まれる第２のキーワードであって、特定の第１のキーワードを訂正する正しい第２のキーワードを示す情報である。

　「誤り情報」は、第１の発話音声に含まれる第１のキーワードのうち、訂正音声として入力された第２の発話音声に含まれる第２のキーワードによって訂正される対象のキーワードを示す情報である。

　図５には、利用者ＩＤ「Ｕ１」と、紐付けＩＤ「Ｈ１１」と、正解情報「イバラキ」と、誤り情報「イバラギ」とが対応付けられる例が示される。係る例は、正しくは「イバラキ」と発話すべきところ、利用者Ｕ１が「イバラギ」と言い間違えたことによる紐付結果を示し、この紐付結果が紐付けＩＤ「Ｈ１１」を用いて管理される例を示す。

　また、図５には、利用者ＩＤ「Ｕ１」と、紐付けＩＤ「Ｈ１１」と、正解情報「イバラキ」と、誤り情報「イバラク」とが対応付けられる例が示される。係る例は、正しくは「イバラキ」と発話すべきところ、利用者Ｕ１が「イバラク」と言い間違えたことによる紐付結果を示し、この紐付結果が紐付けＩＤ「Ｈ１１」を用いて管理される例を示す。

　また、図５には、利用者ＩＤ「Ｕ１」と、紐付けＩＤ「Ｈ１１」と、正解情報「案内中断」と、誤り情報「案内中止」とが対応付けられる例が示される。係る例は、正しくは「案内中断」と発話すべきところ、利用者Ｕ１が「案内中止」と言い間違えたことによる紐付結果を示し、この紐付結果が紐付けＩＤ「Ｈ１２」を用いて管理される例を示す。

　なお、図２で説明したように、「正解情報」と「誤り情報」との組は、「誤り情報」が示す第１のキーワードのうち、「正解情報」が示す第２のキーワードに対して間違えられやすいキーワードのパターンを学習するための学習データとして利用される。

（ユーザ辞書データベース１２３について）
　ユーザ辞書データベース１２３は、第２のキーワードに対して間違えられやすい第１のキーワードが、この第２のキーワードとして認識されるよう、第１のキーワードと、第２のキーワードとを対応付けて記憶する。ここで、図６に、実施形態に係るユーザ辞書データベース１２３の一例を示す。図６の例では、ユーザ辞書データベース１２３は、「利用者ＩＤ」、「発話キーワード」、「認識キーワード」といった項目を有する。

　「利用者ＩＤ」は、端末装置１０に対して発話音声を入力した利用者を識別する識別情報を示し、図４および図５の「利用者ＩＤ」に対応する。

　「発話キーワード」は、学習データを用いた学習の結果、「認識キーワード」が示す第２のキーワードに対して間違えられやすい傾向にあると推定された第１のキーワードを示す。また、「発話キーワード」は、この第１のキーワードを含む発話音声が入力された場合には、この第１のキーワードが「認識キーワード」が示す第２のキーワードとして認識されるよう条件付ける条件情報に相当する。

　「認識キーワード」は、「発話キーワード」が示す第１のキーワードを含む発話音声が入力された場合に、この第１のキーワードについて正しくはどのようなキーワードとして認識されるべきかを条件付ける条件情報に相当する。

　図６には、利用者ＩＤ「Ｕ１」に対して、発話キーワード「イバラギ」と、認識キーワード「イバラキ」とが対応付けられる例が示される。係る例は、第１のキーワード「イバラギ」を含む発話音声が利用者Ｕ１によって入力された場合に、第１のキーワード「イバラギ」が第２のキーワード「イバラキ」として認識されるよう、第１のキーワード「イバラギ」と、第２のキーワード「イバラキ」とが対応付けられた状態で、利用者Ｕ１のユーザ辞書に登録されている例を示す。

　図６には、利用者ＩＤ「Ｕ１」に対して、発話キーワード「案内中止」と、認識キーワード「案内中断」とが対応付けられる例が示される。係る例は、第１のキーワード「案内中止」を含む発話音声が利用者Ｕ１によって入力された場合に、第１のキーワード「案内中止」が第２のキーワード「案内中断」として認識されるよう、第１のキーワード「案内中止」と、第２のキーワード「案内中断」とが対応付けられた状態で、利用者Ｕ１のユーザ辞書に登録されている例を示す。

（制御部１３０について）
　図３に戻り、制御部１３０は、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）等によって、情報処理装置１００内部の記憶装置に記憶されている各種プログラム（例えば、実施形態に係る情報処理プログラム）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、例えば、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現される。

　図３に示すように、制御部１３０は、取得部１３１と、訂正音声判定部１３２と、検出部１３３と、紐付部１３４と、学習部１３５と、情報制御部１３６とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図３に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部１３０が有する各処理部の接続関係は、図３に示した接続関係に限られず、他の接続関係であってもよい。

（取得部１３１について）
　取得部１３１は、第１の実施形態に係る情報処理で用いられる各種情報を取得する。また、取得部１３１は、取得した情報を、この情報を用いて処理を行う適切な処理部へと出力してよい。

　例えば、取得部１３１は、利用者によって発話音声が端末装置１０に入力された場合に、入力された発話音声を示す音声情報を取得する。例えば、取得部１３１は、端末装置１０によって音声情報が生成された場合には、端末装置１０から音声情報を取得してよい。また、例えば、取得部１３１は、音声認識装置（不図示）によって音声情報が生成された場合には、音声認識装置から音声情報を取得してよい。

　また、取得部１３１は、第１の発話音声を示す第１の音声情報、および、第２の発話音声を示す第２の音声情報を取得してよい。例えば、取得部１３１は、発話タイミングの前後関係に基づいて、先に入力された発話音声である第１の発話音声と、第１の発話音声が入力された後に入力された発話音声である第２の発話音声とを認識してよい。また、これにより取得部１３１は、これまでに収集されている音声情報（発話情報データベース１２１に記憶される音声情報）の中から、第１の発話音声を示す第１の音声情報、および、第２の発話音声を示す第２の音声情報を取得してよい。

（訂正音声判定部１３２について）
　訂正音声判定部１３２は、第１の発話音声が入力された後に、第２の発話音声が入力された場合には、第１の発話音声が示す第１の発話内容と、第２の発話音声が示す第２の発話内容とに基づいて、第２の発話音声が第１の発話内容を訂正するために入力された音声であるか否かを判定する。

　例えば、訂正音声判定部１３２は、第１の発話内容が言い間違えによる誤りの内容であり、この誤りの内容を訂正する意図で利用者が第２の発話音声を入力したか否か利用者の意図を推定する。つまり、訂正音声判定部１３２は、第１の発話音声が示す第１の発話内容と、第２の発話音声が示す第２の発話内容とに基づいて、利用者が第２の発話内容によって第１の発話内容を訂正する意図があるか否かを推定する。そして、訂正音声判定部１３２は、推定結果に応じて、第２の発話音声が第１の発話内容を訂正するために入力された訂正音声であるか否かを判定する。例えば、訂正音声判定部１３２は、利用者が第２の発話内容によって第１の発話内容を訂正する意図があるとの推定結果が得られた場合には、第２の発話音声が第１の発話内容を訂正するために入力された訂正音声であると判定することができる。

　以下では、利用者が第２の発話内容によって第１の発話内容を訂正する意図があるか否かを推定し、推定結果に応じて、第２の発話音声が第１の発話内容を訂正するために入力された訂正音声であるか否かを判定するという意図解析の具体例を示す。

　例えば、訂正音声判定部１３２は、第１の音声内容（第１の音声情報）を示すテキストに対する形態素解析により、このテキストを構成する各単語を第１のキーワードとして抽出してよい。同様に、訂正音声判定部１３２は、第２の音声内容（第２の音声情報）を示すテキストに対する形態素解析により、このテキストを構成する各単語を第２のキーワードとして抽出してよい。

　そして、訂正音声判定部１３２は、例えば、１つの第１のキーワードと、１つの第２のキーワードとの間で成立する組合せごとに、類似性を検出することで、検出した類似性に基づいて、第２の発話音声が第１の発話内容を訂正するために入力された訂正音声であるか否かを判定してよい。

　１つ目の例として、訂正音声判定部１３２は、読みの類似性を検出してよい。例えば、訂正音声判定部１３２は、第１のキーワードと、第２のキーワードとの間で成立する組合ごとに、この組合せに含まれる第１のキーワードと、第２のキーワードとが文字（読み）としてどれだけ類似しているか指標する類似度を算出してよい。

　具体的な一例として、訂正音声判定部１３２は、第１のキーワードにおける母音の並びと、第２のキーワードにおける母音の並びとの類似性を示す類似度を算出してよい。他の例として、訂正音声判定部１３２は、第１のキーワードにおける子音の並びと、第２のキーワードにおける子音の並びとの類似性を示す類似度を算出してよい。

　そして、訂正音声判定部１３２は、組合せの中に、類似度が所定値を超えるものが存在する場合には、第２の発話音声が第１の発話内容を訂正するために入力された訂正音声であると判定してよい。

　２つ目の例として、訂正音声判定部１３２は、意味の類似性を検出してよい。例えば、訂正音声判定部１３２は、第１のキーワードと、第２のキーワードとの間で成立する組合ごとに、この組合せに含まれる第１のキーワードと、第２のキーワードとが文字（意味）としてどれだけ類似しているかを指標する類似度を算出してよい。

　例えば、第１のキーワードが「おじいちゃんのいえ」であり、第２のキーワード「おじいちゃんち」であったとする。係る例では、訂正音声判定部１３２は、第１のキーワード「おじいちゃんのいえ」と、第２のキーワード「おじいちゃんち」とが文字（読み）としてどれだけ類似しているか指標する類似度を算出したうえで、算出した類似度に対して、「おじいちゃんのいえ」と、「おじいちゃんち」とが意味としてどれだけ類似しているか類似性に応じた重み付けを行ってよい。一例として、訂正音声判定部１３２は、「おじいちゃんのいえ」と、「おじいちゃんち」とが意味としてどれだけ類似しているか類似性を指標する類似度を算出し、算出した類似度を重み値として用いることで、文字（読み）としての類似度に対して重み付けを行ってよい。

　３つ目の例として、訂正音声判定部１３２は、漢字の読み方の類似性を検出してよい。この例としては、図２で説明したように、漢字表記される１つの単語について、間違いやすい複数の読み（例えば、「イバラキ」と「イバラギ」）が存在することによる類似性が挙げられる。

　４つ目の例として、訂正音声判定部１３２は、発話音声の入力時間の間隔に応じて、類似性を検出してよい。例えば、訂正音声判定部１３２は、第２のキーワードとして、第１の発話音声が入力されてから所定の時間が経過するまでに入力された第２の発話音声に含まれる第２のキーワードと第１のキーワードとの類似性に基づいて、第２の発話音声が第１の発話内容を訂正するために入力された訂正音声であるか否かを判定してよい。例えば、訂正音声判定部１３２は、第１の発話音声に対して連続して入力された第２の発話音声に含まれる第２のキーワードと、この第１の発話音声に含まれる第１のキーワードとの類似性に基づいて、第２の発話音声が第１の発話内容を訂正するために入力された訂正音声であるか否かを判定してよい。

　また、訂正音声判定部１３２は、上記の４つの要素（読みの類似性、意味の類似性、漢字の読み方の類似性、入力時間間隔に応じた類似性）がどれだけ満たされているかを条件として、条件が満たされるような発話音声が入力された回数に基づいて、第２の発話音声が第１の発話内容を訂正するために入力された訂正音声であるか否かを判定してよい。

（検出部１３３について）
　検出部１３３は、第２の発話音声が入力された入力状況を検出してよい。例えば、検出部１３３は、端末装置１０が有するセンサによるセンサ情報、あるいは、車両ＶＥｘが有するセンサによるセンサ情報に基づいて、入力状況を検出することができる。

　例えば、検出部１３３は、入力状況として、第２の発話音声が入力された入力回数を検出してよい。一例として、検出部１３３は、第１の発話音声が入力された後の所定期間内において、第２の発話音声が入力された入力回数を検出してよい。

　また、訂正音声判定部１３２は、検出部１３３により検出された入力回数に基づいて、上述した類似度以外の観点から、利用者が第２の発話内容によって第１の発話内容を訂正する意図があるか否かを推定してよい。例えば、訂正音声判定部１３２は、検出部１３３により検出された入力回数が所定回数を超えるか否かに基づいて、第２の発話音声が第１の発話内容を訂正するために入力された訂正音声であるか否かを判定してよい。具体的には、訂正音声判定部１３２は、所定期間内に第２の発話音声が入力された入力回数が所定回数を超える場合には、所定期間内に入力された第２の発話音声が第１の発話内容を訂正するために入力された音声であると判定してよい。

　なお、第２の発話音声が第１の発話内容を訂正するために入力された訂正音声であると判定された場合、第２の発話内容に含まれるどの第２のキーワードを正解情報とし、第１の発話内容に含まれるどの第１のキーワードを誤り情報とするかは、第２のキーワードと第１のキーワードとの類似性の観点から判断されてよい。

　また、他の例として、検出部１３３は、入力状況として、第２の発話音声を示す周波数を検出してよい。係る場合、訂正音声判定部１３２は、検出部１３３により検出された周波数に基づいて、上述した類似度以外の観点から、利用者が第２の発話内容によって第１の発話内容を訂正する意図があるか否かを推定してよい。例えば、訂正音声判定部１３２は、周波数から特定される第２の発話音声のトーンに基づいて、第２の発話音声が第１の発話内容を訂正するために入力された訂正音声であるか否かを判定してよい。具体的には、訂正音声判定部１３２は、特定されたトーンが所定の発話態様を示す場合には、第２の発話音声が第１の発話内容を訂正するために入力された訂正音声であると判定してよい。

（紐付部１３４について）
　紐付部１３４は、第２の発話音声が第１の発話内容を訂正するために入力された訂正音声であると判定された場合には、第１の発話内容と、この第２の発話音声が示す第２の発話内容とを紐付ける。

　例えば、紐付部１３４は、第２の発話音声が第１の発話内容を訂正するために入力された音声であると判定された場合には、第２の発話内容に含まれる第２のキーワードと、第１の発話内容に含まれる第１のキーワードとの組合せのうち、互いに類似していると判定された第２のキーワードと、第１のキーワードとを組合せを抽出する。そして、紐付部１３４は、抽出した組合せにおける第２のキーワードを正解情報とし、また、この組合せにおける第１のキーワードを当該正解情報に対する誤り情報として、第２のキーワードと、第１のキーワードとを紐付ける。

　また、紐付部１３４は、第２の発話音声が第１の発話内容を訂正するために入力された訂正音声であると判定された場合には、第１の発話音声が入力された後の所定期間内において入力された第２の発話音声それぞれに含まれる第２のキーワードのうちいずれかのキーワードを正解情報とし、第１の発話音声に含まれる第１のキーワードを正解情報に対する誤り情報として、第２のキーワードと、第１のキーワードとを紐付けてよい。例えば、紐付部１３４は、所定期間内に入力された第２の発話音声が示す第２の発話内容に含まれる第２のキーワードと、第１の発話内容に含まれる第１のキーワードとの組合せのうち、互いに類似していると判定された第２のキーワードと、第１のキーワードとを組合せを抽出する。そして、紐付部１３４は、抽出した組合せにおける第２のキーワードを正解情報とし、また、この組合せにおける第１のキーワードを当該正解情報に対する誤り情報として、第２のキーワードと、第１のキーワードとを紐付けてよい。

　また、例えば、紐付部１３４は、第２の発話音声が第１の発話内容を訂正するために入力された訂正音声であると判定された場合には、所定の発話態様が示すトーンで発話された第２の発話音声に含まれる第２のキーワードを正解情報とし、第１の発話音声に含まれる第１のキーワードを正解情報に対する誤り情報として、第２のキーワードと、第１のキーワードとを紐付けてよい。例えば、紐付部１３４は、所定の発話態様が示すトーンで発話された第２の発話音声に含まれる第２のキーワードと、第１の発話内容に含まれる第１のキーワードとの組合せのうち、互いに類似していると判定された第２のキーワードと、第１のキーワードとを組合せを抽出する。そして、紐付部１３４は、抽出した組合せにおける第２のキーワードを正解情報とし、また、この組合せにおける第１のキーワードを当該正解情報に対する誤り情報として、第２のキーワードと、第１のキーワードとを紐付けてよい。

　例えば、紐付部１３４は、第２のキーワードを正解情報とし、第１のキーワードを正解情報に対する誤り情報として、第２のキーワードと、第１のキーワードとを紐付けた紐付結果に対して、この第２のキーワードに対して払い出した紐付けＩＤを対応付けた状態で、紐付情報データベース１２２に登録してよい。

（学習部１３５について）
　学習部１３５は、紐付部１３４により紐付けられた正解情報と誤り情報との組を学習データとして、誤り情報が示す発話内容のうち、正解情報が示す発話内容に対して間違えられやすい発話内容のパターンを学習する。例えば、学習部１３５は、正解情報と誤り情報との組を学習データとして、誤り情報が示す第１のキーワードのうち、正解情報が示す第２のキーワードに対して間違えられやすいキーワードのパターンを学習する。

（情報制御部１３６について）
　情報制御部１３６は、紐付部１３４による紐付結果に基づいて、第１の発話内容に対する所定の制御を行う。

　例えば、情報制御部１３６は、紐付部１３４により紐付けられた正解情報と誤り情報との関係性に基づいて、誤り情報が示す発話内容の音声が入力された場合に、入力された発話内容が、当該誤り情報に対応付けられる正解情報が示す発話内容として認識されるよう、当該誤り情報を正解情報としてユーザ辞書（ユーザ辞書データベース１２３）に登録する。

　例えば、情報制御部１３６は、学習部１３５による学習結果に基づいて、誤り情報が示す発話内容のうち、正解情報が示す発話内容に対して間違えられやすい発話内容の音声が入力された場合に、入力された発話内容が、当該誤り情報に対応付けられる正解情報が示す発話内容として認識されるよう、当該誤り情報を正解情報としてユーザ辞書に登録する。例えば、情報制御部１３６は、学習部１３５による学習結果に基づいて、キーワードをユーザ辞書に登録する。例えば、情報制御部１３６は、学習結果に基づいて、第１のキーワードのうち、第２のキーワードに対して間違えられやすいキーワードを含む発話音声が入力された場合に、入力されたこの第１のキーワードが第２のキーワードとして認識されるよう、この第１のキーワードをユーザ辞書に登録する。

〔３．処理手順〕
　次に、図７を用いて、第１の実施形態に係る情報処理の手順について説明する。図７は、第１の実施形態に係る情報処理の手順を示すフローチャートである。なお、図７の例では、端末装置１０が、発話音声の入力を受け付けるたびに、受け付けた発話音声を示す発話情報を情報処理装置１００に送信しているものとする。また、情報処理装置１００は、端末装置１０から送信された音声情報を発話情報データベース１２１に随時蓄積しているものとする。また、図７では、車両ＶＥ１の利用者Ｕ１を一例に用いて、情報処理手順を説明する。

　このような状態において、取得部１３１は、意図解析を行うタイミングになったか否かを判定する（ステップＳ７０１）。例えば、取得部１３１は、意図解析を行う上で十分な数の音声情報が発話情報データベース１２１に蓄積されているか否かに基づき、意図解析を行うタイミングになったか否かを判定してよい。

　取得部１３１は、意図解析を行うタイミングになっていないと判定している間は（ステップＳ７０１；Ｎｏ）、意図解析を行うタイミングになったと判定できるまで待機する。

　一方、取得部１３１は、意図解析を行うタイミングになったと判定できた場合には（ステップＳ７０１；Ｙｅｓ）、利用者Ｕ１による発話タイミングの前後関係に基づいて、第１の発話音声を示す第１の音声情報、および、第２の発話音声を示す第２の音声情報を取得する（ステップＳ７０２）。例えば、取得部１３１は、発話タイミングの前後関係に基づいて、利用者Ｕ１によって先に入力された発話音声である第１の発話音声と、第１の発話音声が入力された後に利用者Ｕ１によって入力された発話音声である第２の発話音声とを認識する。そして、取得部１３１は、発話情報データベース１２１に蓄積されている音声情報であって、利用者Ｕ１に対応する音声情報の中から、第１の発話音声を示す第１の音声情報、および、第２の発話音声を示す第２の音声情報を取得する。

　次に、訂正音声判定部１３２は、第１の音声情報と、第２の音声情報との組の全てについて、意図解析が済んでいない状態であるか否かを判定する（ステップＳ７０３）。なお、ここでいう、第１の音声情報と、第２の音声情報との組とは、発話タイミングが連続する関係にある第１の発話音声と、第２の発話音声とに対応する組であってよい。

　訂正音声判定部１３２は、第１の音声情報と、第２の音声情報との組の全てについて、意図解析済みであると判定した場合には（ステップＳ７０３；Ｎｏ）、この時点で第１の実施形態に係る情報処理を終了させる。

　一方、訂正音声判定部１３２は、第１の音声情報と、第２の音声情報との組の全てについて、意図解析が済んでいない状態であると判定した場合には（ステップＳ７０３；Ｙｅｓ）、第１の音声情報と、第２の音声情報との組のうち、意図解析が済んでいない未処理の組を取得する（ステップＳ７０４）。

　続いて、訂正音声判定部１３２は、ステップＳ７０４で取得した第１の音声情報および第２の音声情報に基づいて、第１の音声情報が示す第１の発話内容を訂正するために、第２の発話音声が入力されたか否か利用者Ｕ１の意図を推定する（ステップＳ７０５）。具体的には、訂正音声判定部１３２は、第１の発話音声が示す第１の発話内容と、第２の発話音声が示す第２の発話内容とに基づいて、第２の発話内容によって第１の発話内容を訂正するために、利用者Ｕ１が第２の発話内容を示す第２の発話音声を入力したか否か利用者Ｕ１の意図を推定する。

　例えば、訂正音声判定部１３２は、第１の音声内容（第１の音声情報）を示すテキストに対する形態素解析により、このテキストを構成する各単語を第１のキーワードとして抽出する。また、訂正音声判定部１３２は、第２の音声内容（第２の音声情報）を示すテキストに対する形態素解析により、このテキストを構成する各単語を第２のキーワードとして抽出する。そして、訂正音声判定部１３２は、抽出した第１のキーワードと、第２のキーワードとの類似性に基づいて、第２の発話内容によって第１の発話内容を訂正するために、利用者Ｕ１が第２の発話内容を示す第２の発話音声を入力したか否か利用者Ｕ１の意図を推定する。

　続いて、訂正音声判定部１３２は、意図解析により利用者Ｕ１の意図を推定した推定結果に基づいて、第２の発話音声が第１の発話内容を訂正するために入力された訂正音声であるか否かを判定する（ステップＳ７０６）。

　訂正音声判定部１３２は、第２の発話音声が第１の発話内容を訂正するために入力された訂正音声でないと判定した場合には（ステップＳ７０６；Ｎｏ）、第１の音声情報と、第２の音声情報との組のうち、意図解析が済んでいない未処理の他の組について処理を行うべくステップＳ７０３に戻る。

　一方、紐付部１３４は、第２の発話音声が第１の発話内容を訂正するために入力された訂正音声であると判定した場合には（ステップＳ７０６；Ｙｅｓ）、第１のキーワードと、第２のキーワードとを紐付ける紐付処理を行う（ステップＳ７０７）。例えば、紐付部１３４は、第２の発話内容（第２の発話情報）に含まれる第２のキーワードと、第１の発話内容（第１の発話情報）に含まれる第１のキーワードとの組合せのうち、互いに類似していると判定された第２のキーワードと、第１のキーワードとの組合せを抽出する。そして、紐付部１３４は、抽出した組合せにおける第２のキーワードを正解情報とし、また、この組合せにおける第１のキーワードを当該正解情報に対する誤り情報として、第２のキーワードと、第１のキーワードとを紐付ける。

　また、紐付部１３４は、第２のキーワードと、第１のキーワードとを紐付けた紐付結果に対して、利用者Ｕ１を示す利用者ＩＤおよび紐付けＩＤの組を対応付けた状態で、紐付情報データベース１２２に登録してよい。この結果、図５に示すような、紐付情報データベース１２２が得られる。

　次に、学習部１３５は、紐付処理の結果得られた正解情報と誤り情報との組を学習データとして、誤り情報が示す第１のキーワードのうち、正解情報が示す第２のキーワードに対して間違えられやすいキーワードのパターンを学習する（ステップＳ７０８）。

　次に、情報制御部１３６は、学習結果に基づいて、キーワードを辞書登録する（ステップＳ７０９）。例えば、情報制御部１３６は、学習結果に基づいて、第１のキーワードのうち、第２のキーワードに対して間違えられやすいキーワードを含む発話音声が入力された場合に、入力された第１のキーワードが第２のキーワードとして認識されるよう、第１のキーワードを「発話キーワード」とし、第２のキーワードを「認識キーワード」として、双方のキーワードを対応付けた状態でユーザ辞書に登録する。この結果、図６に示すような、ユーザ辞書データベース１２３が得られる。

　ここで、情報制御部１３６は、ステップＳ７０３へと処理を戻す。そして、第１の音声情報と、第２の音声情報との組の全てについて、意図解析済みであると判定された場合には、この時点で第１の実施形態に係る情報処理は終了となる。

（第２の実施形態）
〔１．第２の実施形態の全体像〕
　ここからは、図８を用いて、第２の実施形態について説明する。第１の実施形態では、言い間違えた誤りの内容を発話音声で訂正しようとする利用者の訂正音声を検出することで、検出した訂正音声の内容に基づく紐付けが行われていた。これに対して、第２の実施形態では、言い間違えた誤りの内容を発話音声以外の入力手段で訂正しようとする利用者の訂正操作を検出することで、検出した訂正操作の内容に基づく紐付けが行われる点で第１の実施形態とは異なる。

　以下では、図８を用いて、第２の実施形態に係る情報処理を説明する。図８は、第２の実施形態に係る情報処理を説明する説明図である。また、第２の実施形態では、発話音声以外の入力手段を、所定の対象物（例えば、端末装置１０の表示パネル（表示画面））に触れることで情報入力するという手入力操作とする。

　図８には、利用者Ｕ１が、車両ＶＥ１（車両ＶＥｘの一例）に搭載される端末装置１０に向かって発話することで発話音声を入力したり、端末装置１０に触れることで情報入力したりしている場面が示される。

　例えば、端末装置１０は、発話音声の入力を受け付けるたびに、受け付けた発話音声を示す音声情報を情報処理装置２００に送信する。この結果、情報処理装置２００は、端末装置１０から音声情報を取得する（ステップＳ２１）。

　図８には、利用者Ｕ１が、「大阪府のイバラキ市に存在する目的地○○」までのルートを案内するよう指示する内容の発話音声を入力している場面が示される。具体的には、図８には、利用者Ｕ１が、「「イバラギ」市の○○までルート案内おねがい！」といった内容Ｃ１１の発話音声ＶＯ１１を入力した例が示される。係る例では、端末装置１０は、発話音声ＶＯ１１の入力に応じて、発話内容Ｃ１１を示す音声情報を情報処理装置２００に送信する。この結果、情報処理装置２００は、発話内容Ｃ１１を示す音声情報を取得する。

　また、端末装置１０は、手入力操作による入力を受け付けるたびに、入力された操作内容を示す操作情報も情報処理装置２００に送信してよい。この結果、情報処理装置２００は、端末装置１０から手入力操作による操作情報を取得する（ステップＳ２２）。

　ここで、利用者Ｕ１は、正しくは「イバラキ」と発話すべきところ、「イバラギ」と言い間違えてしまったことに気付いたとする。図２では、利用者Ｕ１は、「「イバラキ」市の○○までルート案内おねがい！」といった内容Ｃ１２の発話音声ＶＯ１２を入力し直していた。

　しかしながら、図８の例では、利用者Ｕ１は、発話では不安があるため手入力の方が確実であると考える。そして、図８の例では、利用者Ｕ１は、端末装置１０において経路案内に関するナビゲーション画面が表示されている状態で、正しい目的地「イバラキ」を打ち込むという操作内容Ｃ１２の手入力操作ＩＯ１２を行っている。係る例では、端末装置１０は、手入力操作ＩＯ１２に応じて、操作内容Ｃ１２を示す操作情報を情報処理装置２００に送信する。この結果、情報処理装置２００は、操作内容Ｃ１２を示す操作情報を取得する。

　なお、図８の例では、操作内容Ｃ１２を示す操作情報とは、目的地「イバラキ」を示すキーワードを含むものであってよい。また、このようなことから、手入力操作ＩＯ１２は、目的地設定操作といえる。

　次に、情報処理装置２００は、利用者Ｕ１による発話のタイミングと、利用者Ｕ１による手入力操作のタイミングとの前後関係に基づいて、第１の発話音声を示す第１の音声情報と、第１の発話音声の後に行われた手入力操作（目的地設定操作）である第２の入力操作を示す第２の操作情報とを取得する（ステップＳ２３）。例えば、情報処理装置２００は、発話タイミングと、手入力操作のタイミングとの前後関係に基づいて、先に入力された発話音声である第１の発話音声と、第１の発話音声が入力された後に行われた手入力操作である第２の入力操作とを認識してよい。また、これにより情報処理装置２００は、端末装置１０を介してこれまでに収集している音声情報の中から、第１の発話音声を示す第１の音声情報を取得してよい。また、情報処理装置２００は、端末装置１０を介してこれまでに収集している操作情報の中から、第２の入力操作を示す第２の操作情報を取得してよい。

　図８の例では、情報処理装置２００は、発話音声ＶＯ１１を第１の発話音声として認識することで、発話内容Ｃ１１を示す音声情報を第１の音声情報として取得したものとする。また、図８の例では、情報処理装置２００は、手入力操作ＩＯ１２を第２の入力操作として認識することで、操作内容Ｃ１２を示す操作情報を第２の操作情報として取得したものとする。以下、発話音声ＶＯ１１を「第１の発話音声ＶＯ１１」と表記し、手入力操作ＩＯ１２を「第２の入力操作ＩＯ１２」と表記する場合がある。

　次に、情報処理装置２００は、第１の音声情報（第１の発話内容）を構成する各キーワードである第１のキーワードと、第２の操作情報（第２の操作内容）を構成する各キーワードである第２のキーワードとの類似性に基づいて、言い間違えたことによる訂正の意図を推定する意図解析を行う（ステップＳ２４）。具体的には、情報処理装置２００は、第１のキーワードと、第２のキーワードとの類似性に基づいて、利用者Ｕ１が第２の操作内容によって、第１の発話内容を訂正する意図があるか否か意図推定を行う。ステップＳ２４で行われる意図解析の具体的な手法については後述する。

　なお、情報処理装置２００は、ステップＳ２４では、第１の音声情報を示すテキストに対する形態素解析により、このテキストを構成する各単語を第１のキーワードとして抽出してよい。同様に、情報処理装置２００は、第２の操作情報を示すテキストに対する形態素解析により、このテキストを構成する各単語を第２のキーワードとして抽出してよい。

　続いて、情報処理装置２００は、意図解析による推定結果に基づいて、第２の入力操作ＩＯ１２が、第１の発話音声ＶＯ１１に対応する第１の発話内容を訂正するために手入力された訂正操作であるか否かを判定する（ステップＳ２５）。例えば、情報処理装置２００は、第１のキーワードの１つである「イバラギ」と、第２のキーワードの１つである「イバラキ」との間で類似性があると認められた場合には、利用者Ｕ１が第２の操作内容（第２のキーワードＫＷ１２）によって、第１の発話内容（第１のキーワードＫＷ１１）を訂正する意図があると推定することができる。また、この結果、情報処理装置２００は、第２の入力操作ＩＯ１２が、第１の発話内容を訂正するために手入力された訂正操作であると判定することができる。

　このように、第２の入力操作ＩＯ１２が、第１の発話内容を訂正するために手入力された訂正操作であると判定した場合には、情報処理装置２００は、第２のキーワード「イバラキ」を正解情報とし、第１のキーワード「イバラギ」を正解情報に対する誤り情報として、第２のキーワード「イバラキ」と、第１のキーワード「イバラギ」とを紐付ける（ステップＳ２６）。図８には、第２のキーワード「イバラキ」を正解情報とし、第１のキーワード「イバラギ」を正解情報とした今回の例を含めて、利用者Ｕ１が過去にも「イバラキ」を「イバラギ」と言い間違えたことによる紐付結果の例や、「イバラキ」を「イバラク」と言い間違えたことによる紐付結果の例が示される。また、このような紐付結果は、紐付けＩＤを用いて紐付情報データベース１２２（図５）で管理されてよい。

　また、情報処理装置２００は、正解情報と誤り情報との組を学習データとして、誤り情報が示す第１のキーワードのうち、正解情報が示す第２のキーワードに対して間違えられやすいキーワードを学習する（ステップＳ２７）。図８の例では、情報処理装置２００は、第１のキーワード「イバラギ」、および、第１のキーワード「イバラク」のうち、第２のキーワード「イバラキ」に対して間違えられやすいものを学習する。

　そして、情報処理装置２００は、学習結果に基づいて、キーワードを辞書登録する（ステップＳ２８）。例えば、情報処理装置２００は、学習結果に基づいて、第１のキーワードのうち、第２のキーワードに対して間違えられやすいキーワードを含む発話音声が入力された場合に、入力されたこの第１のキーワードが第２のキーワードとして認識されるよう、この第１のキーワードをユーザ辞書（図６）に登録する。図８には、情報処理装置２００が、第１のキーワード「イバラギ」を含む発話音声が入力された場合に、第１のキーワード「イバラギ」が第２のキーワード「イバラキ」として認識されるよう、第１のキーワード「イバラギ」をユーザ辞書に登録している例が示される。

　さて、これまで図８で説明してきたように、第２の実施形態では、情報処理装置２００は、第１の発話音声が入力された後に、第２の入力操作が行われた場合には、第１の発話音声が示す第１の発話内容と、第２の入力操作が示す第２の操作内容とに基づいて、第２の入力操作が第１の発話内容を訂正するために手入力された訂正操作であるか否かを判定する。そして、情報処理装置２００は、第２の入力操作が第１の発話内容を訂正するために手入力された訂正操作であると判定した場合には、第１の発話内容と、第２の操作内容とを紐付けることで、紐付結果に基づいて、第１の発話内容をユーザ辞書に登録する。

　このような第２の実施形態に係る情報処理によれば、情報処理装置２００は、利用者が言い間違えた場合であっても言い間違えに対する正しい動作を実行できるよう制御することができる。

　なお、他の一例として、情報処理装置２００は、第１のキーワード「案内中止」の後に、案内中断ボタンが操作された際には、第１のキーワードの１つである「案内中止」を、案内中断ボタンと対応している第２のキーワードの１つである「案内中断」へ訂正する意図を含む操作であると推定することができる。このように、情報処理装置２００は、キーワードの直接入力によらず、キーワードと機能とが対応する操作ボタン等から、訂正する意図を含む操作であると推定することも可能である。

〔２．情報処理装置の構成〕
　ここからは、図９を用いて、第２の実施形態に係る情報処理装置２００について説明する。なお、情報処理装置２００において情報処理装置１００と同一の符号が付された処理部については説明を省略する場合がある。図９は、第２の実施形態に係る情報処理装置２００の構成例を示す図である。図９に示すように、情報処理装置２００は、通信部１１０と、記憶部２２０と、制御部２３０とを有する。

（記憶部２２０について）
　記憶部２２０は、例えば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子またはハードディスク、光ディスク等の記憶装置によって実現される。記憶部２２０は、操作情報データベース２２４をさらに有してよい。

（操作情報データベース２２４について）
　操作情報データベース２２４は、利用者により行われた手入力操作に関する情報を記憶する。ここで、図１０に、第２の実施形態に係る操作情報データベース２２４の一例を示す。図１０の例では、操作情報データベース２２４は、「利用者ＩＤ」、「操作日時」、「操作情報」といった項目を有する。

　「利用者ＩＤ」は、端末装置１０に対して手入力により情報（例えば、目的地を示す情報）を入力した利用者を識別する識別情報を示す。例えば、情報処理装置１００は、端末装置１０が有するセンサ（例えば、カメラ）による撮像画像に基づき、手入力操作を行った利用者を認識することで、認識した利用者に対して「利用者ＩＤ」を払い出してよい。

　「操作日時」は、手入力操作により情報入力が行われた日時に関する情報を示す。図１０には、利用者ＩＤ「Ｕ１」と、「操作日時♯１１」とが対応付けられる例が示される。係る例は、利用者Ｕ１が、操作日時♯１１という日時に手入力操作を行うことで、端末装置１０に対して目的地等を入力した例を示す。例えば、情報処理装置１００は、発話情報データベース１２１の「発話日時」を発話タイミングと捉え、図１０での「操作日時」操作タイミングと捉えることで、先に入力された発話音声である第１の発話音声と、第１の発話音声が入力された後に行われた手入力操作である第２の入力操作とを認識することができる。

　「操作情報」は、「利用者ＩＤ」が示す利用者によって行われた手入力操作によってどのような内容（例えば、どのような目的地）の情報が入力されたか手入力操作の内容を示す情報である。すなわち、「操作情報」は、端末装置１０の表示パネルに触れることによる目的地設定操作で入力された目的地を示すキーワードを含んでよい。図１０には、利用者ＩＤ「Ｕ１」と、「操作日時♯１１」と、「操作情報♯１１」とが対応付けられる例が示される。係る例は、利用者Ｕ１が、操作日時♯１１という日時に行った手入力操作によって、操作情報♯１１という内容が入力された例を示す。

（制御部２３０について）
　図９に戻り、制御部２３０は、ＣＰＵやＭＰＵ等によって、情報処理装置２００内部の記憶装置に記憶されている各種プログラム（例えば、実施形態に係る情報処理プログラム）がＲＡＭを作業領域として実行されることにより実現される。また、制御部２３０は、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現される。

　図９に示すように、制御部２３０は、取得部１３１、訂正音声判定部１３２、検出部１３３、紐付部１３４、学習部１３５、情報制御部１３６に加えて、訂正操作判定部２３７をさらに有してよい。そして、訂正操作判定部２３７は、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部２３０の内部構成は、図９に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部２３０が有する各処理部の接続関係は、図９に示した接続関係に限られず、他の接続関係であってもよい。

（取得部１３１について）
　取得部１３１は、第２の実施形態に係る情報処理で用いられる各種情報を取得する。また、取得部１３１は、取得した情報を、この情報を用いて処理を行う適切な処理部へと出力してよい。

　また、取得部１３１は、第１の発話音声を示す第１の音声情報、および、第２の入力操作を示す第２の操作情報を取得してよい。例えば、取得部１３１は、発話タイミングと、手入力操作のタイミングとの前後関係に基づいて、先に入力された発話音声である第１の発話音声と、第１の発話音声が入力された後に行われた手入力操作である第２の入力操作とを認識してよい。また、これにより取得部１３１は、端末装置１０を介してこれまでに収集されている音声情報の中から、第１の発話音声を示す第１の音声情報を取得してよい。また、取得部１３１は、端末装置１０を介してこれまでに収集されている操作情報の中から、第２の入力操作を示す第２の操作情報を取得してよい。

（訂正操作判定部２３７について）
　訂正操作判定部２３７は、第１の発話音声が入力された後に、所定の対象物に触れることで情報入力する第２の入力操作が行われた場合には、第１の発話音声が示す発話内容（第１の発話内容）と、第２の入力操作が示す操作内容（第２の操作内容）とに基づいて、第２の入力操作が第１の発話内容を訂正するための訂正操作であるか否かを判定する。

　例えば、訂正操作判定部２３７は、第１の発話内容が言い間違えによる誤りの内容であり、この誤りの内容を訂正する意図で利用者が第２の操作内容を手入力したか否か利用者の意図を推定する。つまり、訂正操作判定部２３７は、第１の発話音声が示す第１の発話内容と、第２の入力操作が示す第２の操作内容とに基づいて、利用者が第２の操作内容によって第１の発話内容を訂正する意図があるか否かを推定する。そして、訂正操作判定部２３７は、推定結果に応じて、第２の入力操作が第１の発話内容を訂正するための訂正操作であるか否かを判定する。例えば、訂正操作判定部２３７は、利用者が第２の入力操作によって第１の発話内容を訂正する意図があるとの推定結果が得られた場合には、第２の入力操作が第１の発話内容を訂正するための訂正音声であると判定することができる。

　以下では、利用者が第２の入力によって第１の発話内容を訂正する意図があるか否かを推定し、推定結果に応じて、第２の入力操作が第１の発話内容を訂正するための訂正操作であるか否かを判定するという意図解析の具体例を示す。

　例えば、訂正操作判定部２３７は、第１の音声内容（第１の音声情報）を示すテキストに対する形態素解析により、このテキストを構成する各単語を第１のキーワードとして抽出してよい。また、訂正操作判定部２３７は、第２の操作内容（第２の操作情報）に含まれる目的地に関する単語を第２のキーワードとして抽出してよい。

　係る場合、訂正操作判定部２３７は、第１の発話内容に対応する第１のキーワードと、第２の操作内容に対応する第２のキーワードとに基づいて、第２の入力操作が第１の発話内容を訂正するための訂正操作であるか否かを判定する。

　ここで、上記の通り、第２の入力操作は、第１の発話音声に引き続き行われた目的地設定操作であってよい。このようなことから、訂正操作判定部２３７は、目的地設定操作としての第２の入力操作で入力された目的地を示す第２のキーワードを用いて、第２の入力操作が第１の発話内容を訂正するための訂正操作であるか否かを判定する。

　例えば、訂正操作判定部２３７は、第１のキーワードと、第２のキーワードとの類似性に基づいて、第２の入力操作が第１の発話内容を訂正するための訂正操作であるか否かを判定してよい。例えば、訂正音声判定部１３２は、１つの第１のキーワードと、１つの第２のキーワードとの間で成立する組合せごとに、類似性を検出することで、検出した類似性に基づいて、第２の入力操作が第１の発話内容を訂正するために入力された訂正音声であるか否かを判定してよい。

　例えば、訂正操作判定部２３７は、第１のキーワードと、第２のキーワードとの類似性を検出するにあたって、第１の実施形態に係る情報処理と同様の手法を用いてよい。具体的には、訂正操作判定部２３７は、読みの類似性、意味の類似性、漢字の読み方の類似性等を検出することで、類似度を算出し、算出した類似度に基づいて、利用者の意図を推定してよい。

　また、訂正操作判定部２３７は、第１の発話音声が入力されてから所定の時間が経過するまでの第２の入力操作で入力された第２のキーワードとの類似性に基づいて、第２の入力操作が第１の発話内容を訂正するための訂正操作であるか否かを判定してもよい。

　ここで、利用者は、目的地を示す発話音声を入力したが、目的地を言い間違えていたことに気付いた場合、一般に、車両ＶＥｘを停車させた状態で、端末装置１０に対する手入力により目的地を設定し直す。このようなことから、訂正操作判定部２３７は、第１の発話音声が入力されてから車両ＶＥｘが動き出すまでの間（第１の発話音声が入力された後、車両ＶＥｘが停車されている間）において、第２の入力操作が行われたことを検知できた場合には、この第２の入力操作で入力された第２のキーワードとの類似性に基づいて、第２の入力操作が第１の発話内容を訂正するための訂正操作であるか否かを判定してもよい。

（紐付部１３４について）
　紐付部１３４は、第２の入力操作が第１の発話内容を訂正するための訂正操作であると判定された場合には、第１の発話内容と、第２の入力操作が示す第２の入力内容とを紐付ける。

　例えば、紐付部１３４は、第２の入力操作が第１の発話内容を訂正するための訂正操作であると判定された場合には、第２の操作内容が示す第２のキーワードと、第１の発話内容に含まれる第１のキーワードとの組合せのうち、互いに類似していると判定された第２のキーワードと、第１のキーワードとを組合せを抽出する。そして、紐付部１３４は、抽出した組合せにおける第２のキーワードを正解情報とし、また、この組合せにおける第１のキーワードを当該正解情報に対する誤り情報として、第２のキーワードと、第１のキーワードとを紐付ける。

（学習部１３５について）
　学習部１３５は、紐付部１３４により紐付けられた正解情報と誤り情報との組を学習データとして、誤り情報が示す発話内容のうち、正解情報が示す操作内容に対して間違えられやすい発話内容のパターンを学習する。例えば、学習部１３５は、正解情報と誤り情報との組を学習データとして、誤り情報が示す第１のキーワードのうち、正解情報が示す第２のキーワードに対して間違えられやすいキーワードのパターンを学習する。

　例えば、情報制御部１３６は、紐付部１３４により紐付けられた正解情報と誤り情報との関係性に基づいて、誤り情報が示す発話内容の音声が入力された場合に、入力された発話内容が、当該誤り情報に対応付けられる正解情報が示す操作内容として認識されるよう、当該誤り情報を正解情報としてユーザ辞書（ユーザ辞書データベース１２３）に登録する。

　例えば、情報制御部１３６は、学習部１３５による学習結果に基づいて、誤り情報が示す発話内容のうち、正解情報が示す操作内容に対して間違えられやすい発話内容の音声が入力された場合に、入力された発話内容が、当該誤り情報に対応付けられる正解情報が示す操作内容として認識されるよう、当該誤り情報を正解情報としてユーザ辞書に登録する。例えば、情報制御部１３６は、学習部１３５による学習結果に基づいて、キーワードをユーザ辞書に登録する。例えば、情報制御部１３６は、学習結果に基づいて、第１のキーワードのうち、第２のキーワードに対して間違えられやすいキーワードを含む発話音声が入力された場合に、入力されたこの第１のキーワードが第２のキーワードとして認識されるよう、この第１のキーワードをユーザ辞書に登録する。

〔３．処理手順〕
　次に、図１１を用いて、第２の実施形態に係る情報処理の手順について説明する。図１１は、第２の実施形態に係る情報処理の手順を示すフローチャートである。なお、図１１の例では、端末装置１０が、発話音声の入力を受け付けるたびに、受け付けた発話音声を示す発話情報を情報処理装置１００に送信しているものとする。また、情報処理装置１００は、端末装置１０から送信された音声情報を発話情報データベース１２１に随時蓄積しているものとする。

　一方、図１１の例では、端末装置１０が、手入力操作による入力を受け付けるたびに、入力された操作内容を示す操作情報を情報処理装置１００に送信しているものとする。また、情報処理装置１００は、端末装置１０から送信された操作情報を操作情報データベース２２４に随時蓄積しているものとする。

　また、図１１では、車両ＶＥ１の利用者Ｕ１を一例に用いて、情報処理手順を説明する。

　このような状態において、取得部１３１は、意図解析を行うタイミングになったか否かを判定する（ステップＳ８０１）。例えば、取得部１３１は、意図解析を行う上で十分な数の音声情報が発話情報データベース１２１に蓄積され、また、意図解析を行う上で十分な数の操作情報が操作情報データベース２２４に蓄積されているか否かに基づき、意図解析を行うタイミングになったか否かを判定してよい。

　取得部１３１は、意図解析を行うタイミングになっていないと判定している間は（ステップＳ８０１；Ｎｏ）、意図解析を行うタイミングになったと判定できるまで待機する。

　一方、取得部１３１は、意図解析を行うタイミングになったと判定できた場合には（ステップＳ８０１；Ｙｅｓ）、発話タイミングと、操作タイミングとの前後関係に基づいて、第１の発話音声を示す第１の音声情報、および、第２の入力操作を示す第２の操作情報を取得する（ステップＳ８０２）。例えば、取得部１３１は、発話タイミングと、操作タイミングとの前後関係に基づいて、利用者Ｕ１によって先に入力された発話音声である第１の発話音声と、第１の発話音声が入力された後に利用者Ｕ１によって行われた手入力操作である第２の入力操作とを認識してよい。

　そして、取得部１３１は、発話情報データベース１２１に蓄積されている音声情報であって、利用者Ｕ１に対応する音声情報の中から、第１の発話音声を示す第１の音声情報を取得する。また、取得部１３１は、操作情報データベース２２４に蓄積されている操作情報であって、利用者Ｕ１に対応する操作情報の中から、第２の入力操作を示す第２の操作情報を取得する。

　次に、訂正操作判定部２３７は、第１の音声情報と、第２の入力情報との組の全てについて、意図解析が済んでいない状態であるか否かを判定する（ステップＳ８０３）。なお、ここでいう、第１の音声情報と、第２の音声情報との組とは、発話タイミングと操作タイミングとが連続する関係にある第１の発話音声と、第２の入力操作とに対応する組であってよい。

　訂正操作判定部２３７は、第１の音声情報と、第２の入力情報との組の全てについて、意図解析済みであると判定した場合には（ステップＳ８０３；Ｎｏ）、この時点で第２の実施形態に係る情報処理を終了させる。

　一方、訂正操作判定部２３７は、第１の音声情報と、第２の入力情報との組の全てについて、意図解析が済んでいない状態であると判定した場合には（ステップＳ８０３；Ｙｅｓ）、第１の音声情報と、第２の入力情報との組のうち、意図解析が済んでいない未処理の組を取得する（ステップＳ８０４）。

　続いて、訂正操作判定部２３７は、ステップＳ８０４で取得した第１の音声情報および第２の入力情報に基づいて、第１の音声情報が示す第１の発話内容を訂正するために、第２の入力操作が行われたか否か利用者Ｕ１の意図を推定する（ステップＳ８０５）。具体的には、訂正操作判定部２３７は、第１の発話音声が示す第１の発話内容と、第２の入力操作が示す第２の操作内容とに基づいて、第２の操作内容によって第１の発話内容を訂正するために、利用者Ｕ１が第２の発話内容を示す第２の入力操作を行ったか否か利用者Ｕ１の意図を推定する。

　例えば、訂正操作判定部２３７は、第１の音声内容（第１の音声情報）を示すテキストに対する形態素解析により、このテキストを構成する各単語を第１のキーワードとして抽出する。また、訂正操作判定部２３７は、第２の操作内容（第２の操作情報）に含まれる目的地に関する単語を第２のキーワードとして抽出してよい。そして、訂正操作判定部２３７は、抽出した第１のキーワードと、第２のキーワードとの類似性に基づいて、第２の操作内容によって第１の発話内容を訂正するために、利用者Ｕ１が第２の入力操作を行ったか否か利用者Ｕ１の意図を推定する。

　続いて、訂正操作判定部２３７は、意図解析により利用者Ｕ１の意図を推定した推定結果に基づいて、第２の入力操作が第１の発話内容を訂正するための訂正操作であるか否かを判定する（ステップＳ８０６）。

　訂正操作判定部２３７は、第２の入力操作が第１の発話内容を訂正するための訂正操作でないと判定した場合には（ステップＳ８０６；Ｎｏ）、第１の音声情報と、第２の操作情報との組のうち、意図解析が済んでいない未処理の他の組について処理を行うべくステップＳ８０３に戻る。

　一方、紐付部１３４は、第２の入力操作が第１の発話内容を訂正するための訂正操作であると判定した場合には（ステップＳ８０６；Ｙｅｓ）、第１のキーワードと、第２のキーワードとを紐付ける紐付処理を行う（ステップＳ８０７）。例えば、紐付部１３４は、第２の操作内容（第２の操作情報）に含まれる第２のキーワードと、第１の発話内容（第１の発話情報）に含まれる第１のキーワードとの組合せのうち、互いに類似していると判定された第２のキーワードと、第１のキーワードとの組合せを抽出する。そして、紐付部１３４は、抽出した組合せにおける第２のキーワードを正解情報とし、また、この組合せにおける第１のキーワードを当該正解情報に対する誤り情報として、第２のキーワードと、第１のキーワードとを紐付ける。

　次に、学習部１３５は、紐付処理の結果得られた正解情報と誤り情報との組を学習データとして、誤り情報が示す第１のキーワードのうち、正解情報が示す第２のキーワードに対して間違えられやすいキーワードのパターンを学習する（ステップＳ８０８）。

　次に、情報制御部１３６は、学習結果に基づいて、キーワードを辞書登録する（ステップＳ８０９）。例えば、情報制御部１３６は、学習結果に基づいて、第１のキーワードのうち、第２のキーワードに対して間違えられやすいキーワードを含む発話音声が入力された場合に、入力された第１のキーワードが第２のキーワードとして認識されるよう、第１のキーワードを「発話キーワード」とし、第２のキーワードを「認識キーワード」として、双方のキーワードを対応付けた状態でユーザ辞書に登録する。この結果、図６に示すような、ユーザ辞書データベース１２３が得られる。

　ここで、情報制御部１３６は、ステップＳ８０３へと処理を戻す。そして、第１の音声情報と、第２の操作情報との組の全てについて、意図解析済みであると判定された場合には、この時点で第２の実施形態に係る情報処理は終了となる。

（その他の実施形態）
　情報処理装置１００（情報処理装置２００）は、上記実施形態以外にも種々の異なる態様で実現されてよい。そこで、以下では、情報処理装置１００（情報処理装置２００）の他の実施形態について説明する。

〔１．言い間違いを示唆するワード検出〕
　上記第１の実施形態では、取得部１３１が、発話タイミングの前後関係に基づいて、先に入力された発話音声である第１の発話音声と、第１の発話音声が入力された後に入力された発話音声である第２の発話音声とを認識することで、第１の音声情報、および、第２の音声情報を取得する例を示した。

　しかし、取得部１３１は、言い間違いを示唆するワードを検出できた場合には、このワードが発せられたタイミングに基づいて、第１の発話音声と第２の発話音声とを認識することで、第１の音声情報、および、第２の音声情報を取得してよい。

　例えば、利用者は、言い間違いに気付いた場合、条件反射的に、「間違えた！」あるいは「しまった！」等と発してしまう場合がある。また、利用者は、このように発した直後に、言い間違いを訂正するための発話音声を入力する傾向にある。

　このようなことから、取得部１３１は、「間違えた！」あるいは「しまった！」等の言い間違いを示唆するワードを検出できた場合には、係るワードの直前に入力された発話音声を第１の発話音声として認識し、また、係るワードの直後に入力された発話音声を第２の発話音声として認識してよい。

　また、訂正音声判定部１３２は、言い間違いを示唆するワードが検出された場合には、係るワードの直後に入力された発話音声（すなわち、第２の発話音声）が、第１の発話内容を訂正するために入力された訂正音声であると判定してもよい。

　また、取得部１３１は、第２の実施形態でも言い間違いを示唆するワードを検出してよい。そして、第２の実施形態では、取得部１３１は、言い間違いを示唆するワードを検出できた場合には、このワードが発せられたタイミングに基づいて、第１の発話音声と第２の入力操作とを認識することで、第１の音声情報、および、第２の操作情報を取得してよい。

　例えば、取得部１３１は、「間違えた！」あるいは「しまった！」等の言い間違いを示唆するワードを検出できた場合には、係るワードの直前に入力された発話音声を第１の発話音声として認識し、また、係るワードの直後に行われた手入力操作を第２の入力操作として認識してよい。

　また、訂正操作判定部２３７は、言い間違いを示唆するワードが検出された場合には、係るワードの直後に行われた手入力操作（すなわち、第２の入力操作）が、第１の発話内容を訂正するための訂正操作であると判定してもよい。

〔２．登録精度向上に関する施策〕
　上記第２の実施形態では、情報制御部１３６が、学習部１３５による学習結果に基づいて、第２の操作内容に含まれる第２のキーワードと、第２の発話音声に含まれる第１のキーワードのうち第２のキーワードに対して間違えられやすい第１のキーワードとを対応付けてユーザ辞書に登録する例を示した。

　しかし、情報制御部１３６は、第２のキーワードが示す目的地に利用者が実際に到着したか否かに基づいて、第２のキーワードと、第１のキーワードとを対応付けてユーザ辞書に登録してもよい。例えば、情報制御部１３６は、利用者（利用者の車両ＶＥｘ）の位置情報と、利用者により設定された目的地（第２のキーワード）に基づき、利用者がこの目的地に到着したか否かを判定し、利用者が目的地に到着したことを検知できた場合には、第２のキーワードと、第１のキーワードとを対応付けてユーザ辞書に登録してもよい。

　このような第２の実施形態に係る情報処理によれば、情報処理装置２００は、ユーザ辞書への登録精度を向上させることができるようになる。

（その他）
〔１．ハードウェア構成〕
　また、上述してきた第１の実施形態に係る情報処理装置１００、および、第２の実施形態に係る情報処理装置２００は、例えば、図１２に示すような構成のコンピュータ１０００によって実現される。以下、情報処理装置１００を例に説明する。図１２は、情報処理装置１００の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を有する。

　ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、所定の通信網を介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを所定の通信網を介して他の機器へ送信する。

　ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを入出力インターフェイス１６００を介して出力装置へ出力する。

　メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラムまたはデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital　Versatile　Disc）、ＰＤ（Phase　change　rewritable　Disk）等の光学記録媒体、ＭＯ（Magneto-Optical　disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が第１の実施形態に情報処理装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラム（例えば、実施形態に係る情報処理プログラム）を実行することにより、制御部１３０の機能を実現する。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを記録媒体１８００から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。

　また、例えば、コンピュータ１０００が第２の実施形態に情報処理装置２００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラム（例えば、実施形態に係る情報処理プログラム）を実行することにより、制御部２３０の機能を実現する。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを記録媒体１８００から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。

〔２．その他〕
　また、上記各実施形態において説明した処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

　また、上記各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

（まとめ）
　以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

　また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。

　　　１　情報処理システム
　　１０　端末装置
　１００　情報処理装置
　１２０　記憶部
　１２１　発話情報データベース
　１２２　紐付情報データベース
　１２３　ユーザ辞書データベース
　１３０　制御部
　１３１　取得部
　１３２　訂正音声判定部
　１３３　検出部
　１３４　紐付部
　１３５　学習部
　１３６　情報制御部
　２００　情報処理装置
　２２０　記憶部
　２２４　操作情報データベース
　２３０　制御部
　２３７　訂正操作判定部

Claims

　第１の発話音声が入力された後に、所定の対象物に触れることで情報入力する第２の入力操作が行われた場合には、前記第１の発話音声が示す発話内容と、前記第２の入力操作が示す操作内容とに基づいて、前記第２の入力操作が前記発話内容を訂正するための訂正操作であるか否かを判定する判定部と、
　前記判定部により前記第２の入力操作が前記訂正操作であると判定された場合には、前記操作内容と、前記発話内容とを紐付ける紐付部と、
　前記紐付部による紐付結果に基づいて、前記発話内容に対する所定の制御を行う情報制御部と
　を有することを特徴とする情報処理装置。
　前記判定部は、前記第１の発話音声が示す発話内容として前記第１の発話音声に含まれる第１のキーワードと、前記第２の入力操作が示す操作内容として前記第２の入力操作で入力された第２のキーワードとに基づいて、前記第２の入力操作が前記発話内容を訂正するための訂正操作であるか否かを判定する
　ことを特徴とする請求項１に記載の情報処理装置。
　前記第２の入力操作は、前記第１の発話音声に引き続き行われた目的地設定操作であり、
　前記判定部は、前記第２の入力操作が、前記第２のキーワードとして、前記目的地設定操作で入力された目的地を示す第２のキーワードを用いて前記発話内容を訂正するための訂正操作であるか否かを判定する
　ことを特徴とする請求項２に記載の情報処理装置。
　前記判定部は、前記第１のキーワードと、前記第２のキーワードとの類似性に基づいて、前記第２の入力操作が前記発話内容を訂正するための訂正操作であるか否かを判定する
　ことを特徴とする請求項２または３に記載の情報処理装置。
　前記判定部は、前記第２のキーワードとして、前記第１の発話音声が入力されてから所定の時間が経過するまでに入力された前記第２の入力操作に含まれる第２のキーワードとの類似性に基づいて、前記第２の入力操作が前記発話内容を訂正するための訂正操作であるか否かを判定する
　ことを特徴とする請求項４に記載の情報処理装置。
　前記紐付部は、前記判定部により前記第２の入力操作が前記訂正操作であると判定された場合には、前記第２のキーワードを正解情報とし、前記第１のキーワードを前記正解情報に対する誤り情報として、前記第２のキーワードと前記第１のキーワードとを紐付ける
　ことを特徴とする請求項２～５のいずれか１つに記載の情報処理装置。
　前記情報制御部は、前記紐付部により紐付けられた前記正解情報と前記誤り情報との関係性に基づいて、前記誤り情報が示す発話内容の音声が入力された場合に、入力された発話内容が、当該誤り情報に対応付けられる正解情報が示す操作内容として認識されるよう、当該誤り情報を正解情報として所定の辞書に登録する
　ことを特徴とする請求項６に記載の情報処理装置。
　前記紐付部により紐付けられた前記正解情報と前記誤り情報との組を学習データとして、前記誤り情報が示す発話内容のうち、前記正解情報が示す操作内容に対して間違えられやすい発話内容のパターンを学習する学習部をさらに有し、
　前記情報制御部は、前記学習部による学習結果に基づいて、前記誤り情報が示す発話内容のうち、前記正解情報が示す操作内容に対して間違えられやすい発話内容の音声が入力された場合に、入力された発話内容が、当該誤り情報に対応付けられる正解情報が示す操作内容として認識されるよう、当該誤り情報を正解情報として前記所定の辞書に登録する
　ことを特徴とする請求項７に記載の情報処理装置。
　情報処理装置が実行する情報処理方法であって、
　第１の発話音声が入力された後に、所定の対象物に触れることで情報入力する第２の入力操作が行われた場合には、前記第１の発話音声が示す発話内容と、前記第２の入力操作が示す操作内容とに基づいて、前記第２の入力操作が前記発話内容を訂正するための訂正操作であるか否かを判定する判定工程と、
　前記判定工程により前記第２の入力操作が前記訂正操作であると判定された場合には、前記操作内容と、前記発話内容とを紐付ける紐付工程と、
　前記紐付工程による紐付結果に基づいて、前記発話内容に対する所定の制御を行う情報制御工程と
　を含むことを特徴とする情報処理方法。
　第１の発話音声が入力された後に、所定の対象物に触れることで情報入力する第２の入力操作が行われた場合には、前記第１の発話音声が示す発話内容と、前記第２の入力操作が示す操作内容とに基づいて、前記第２の入力操作が前記発話内容を訂正するための訂正操作であるか否かを判定する判定手順と、
　前記判定手順により前記第２の入力操作が前記訂正操作であると判定された場合には、前記操作内容と、前記発話内容とを紐付ける紐付手順と、
　前記紐付手順による紐付結果に基づいて、前記発話内容に対する所定の制御を行う情報制御手順と
　を情報処理装置に実行させるための情報処理プログラム。