WO2017195388A1

WO2017195388A1 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: WO2017195388A1
Application number: PCT/JP2016/074223
Authority: WO
Inventors: 長坂　英夫
Original assignee: ソニー株式会社
Priority date: 2016-05-12
Filing date: 2016-08-19
Publication date: 2017-11-16
Also published as: US11195517B2; EP3457297A4; EP3457297A1; JPWO2017195388A1; CN109074364A; US20200335087A1

Abstract

【課題】音声認識結果に応じた処理結果がユーザに提供されるに際して、ユーザの所望する処理結果がユーザに提供される可能性を高めることが可能な技術が提供されることが望まれる。【解決手段】表示装置によって表示される表示情報に関連する関連情報を取得するデータ取得部と、前記関連情報に応じて音声認識結果の意図解釈がなされると、意図解釈結果に基づく処理結果をユーザに提供する提供部と、を備える、情報処理装置が提供される。

Description

情報処理装置、情報処理方法およびプログラム

　本開示は、情報処理装置、情報処理方法およびプログラムに関する。

　近年、ユーザによって発話がなされると、ユーザ発話に対して音声認識処理を実行し、音声認識処理の実行により得られた音声認識結果に応じた処理結果をユーザに提供する技術が存在する（例えば、特許文献１参照）。

特開２０１１－２５３３７５号公報

　しかし、ユーザ発話の意図は状況に応じて変化し得る。したがって、音声認識結果に応じた処理結果がユーザに提供されるに際して、ユーザの所望する処理結果がユーザに提供される可能性を高めることが可能な技術が提供されることが望まれる。

　本開示によれば、表示装置によって表示される表示情報に関連する関連情報を取得するデータ取得部と、前記関連情報に応じて音声認識結果の意図解釈がなされると、意図解釈結果に基づく処理結果をユーザに提供する提供部と、を備える、情報処理装置が提供される。

　本開示によれば、表示装置によって表示される表示情報に関連する関連情報を取得することと、前記関連情報に応じて音声認識結果の意図解釈がなされると、プロセッサにより、意図解釈結果に基づく処理結果をユーザに提供することと、を含む、情報処理方法が提供される。

　本開示によれば、コンピュータを、表示装置によって表示される表示情報に関連する関連情報を取得するデータ取得部と、前記関連情報に応じて音声認識結果の意図解釈がなされると、意図解釈結果に基づく処理結果をユーザに提供する提供部と、を備える情報処理装置として機能させるためのプログラムが提供される。

　以上説明したように本開示によれば、音声認識結果に応じた処理結果がユーザに提供されるに際して、ユーザの所望する処理結果がユーザに提供される可能性を高めることが可能な技術が提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態に係る情報処理装置の概要について説明するための図である。同実施形態に係る情報処理装置の概要について説明するための図である。エージェントの機能構成例を示す図である。制御部の詳細構成例を示す図である。ＰＣ型のエージェントの表示部によって表示される画面例を示す図である。商品絞り込み時の画面構成例を説明するための図である。状況に応じた意図解釈の動作例を示すシーケンス図である。意図解釈モードを示す情報の表示例を示す図である。状況に応じた意図解釈がなされる場合におけるシステムの構成例を示す図である。表示情報を見ているか否かに応じた対話の動作例を示すシーケンス図である。ＥＣ画面の表示例を示す図である。一般的なＥＣサイトにおいて表示される検索キー表示エリアの例を示す図である。本開示の実施形態に係る絞り込みの支援を説明するための図である。ユーザ発話をシンプルかつノイズに強くするための工夫を説明するための図である。候補リストを属性情報ごとにユーザに提供する例を説明するための図である。第３の音声認識結果に含まれる属性情報に対応する候補リストのすべてが属性情報ごとにユーザに提供される例を説明するための図である。ユーザ発話に有効語が含まれる場合と有効語が含まれない場合それぞれにおける動作例を示す図である。候補リストがユーザに提供される場合におけるシステムの構成例を示す図である。ＥＣサイトを利用した商品の購入に係るエージェントの動作例を示すフローチャートである。ＥＣサイトを利用した商品の購入に係るシステム全体の動作例を示すシーケンス図である。一般的に検索に利用される画面の例を示す図である。属性情報の選択例を説明するための図である。ＥＣサイトを利用した楽曲の配信に係るシステム全体の動作例を示すシーケンス図である。複数の属性情報が階層的に構成されている場合を説明するための図である。検索対象と検索対象に対応する属性情報の例を示す図である。手動によって入力された検索キーに基づいて検索がなされる場合を説明するための図である。画像情報がロード時間の例を示す図である。情報処理装置のハードウェア構成例を示すブロック図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。

　なお、説明は以下の順序で行うものとする。
　１．本開示の実施形態
　　１．１．概要
　　１．２．機能構成例
　　１．３．機能詳細
　　　１．３．１．画面構成例
　　　１．３．２．商品絞り込み時の対話例
　　　１．３．３．商品絞り込み時の画面構成例
　　　１．３．４．状況に応じた意図解釈
　　　１．３．５．表示情報を見ているか否かに応じた対話
　　　１．３．６．ＥＣ画面の表示例
　　　１．３．７．絞り込みを支援する技術
　　　１．３．８．属性情報の選択
　　　１．３．９．補足情報のアナウンス
　　１．４．ハードウェア構成例
　　１．５．補足
　　　１．５．１．計算における変形例の詳細
　　　１．５．２．補足事項１
　　　１．５．３．補足事項２
　　　１．５．４．補足事項３
　　　１．５．５．補足事項４
　　　１．５．６．補足事項５
　　　１．５．７．補足事項６
　　　１．５．８．補足事項７
　　　１．５．９．補足事項８
　　　１．５．１０．補足事項９
　　　１．５．１１．補足事項１０
　　　１．５．１２．補足事項１１

　＜１．本開示の実施形態＞
　［１．１．概要］
　まず、図面を参照しながら、本開示の一実施形態に係る情報処理装置の概要について説明する。図１および図２は、本開示の一実施形態に係る情報処理装置の概要について説明するための図である。本開示の一実施形態においては、図１および図２に示すように、情報処理装置１０とユーザ８０とが登場する。

　なお、本明細書においては、情報処理装置１０がエージェントとして機能する場合を主に想定する（本明細書においては、情報処理装置をエージェントと称することがある。）。ここで、エージェントは、ユーザによって発せられた音声（以下、「ユーザ発話」とも言う。）を音声情報として受け取り、この音声情報に対する音声認識結果に応じた処理結果をユーザに提供する装置であり得る。

　エージェント１０は、図１に示すように、ＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）型のエージェント１０－１として実現され得る。図１に示した例では、表示部１５０にエージェントのキャラクタ画像Ｃｈが表示されている。あるいは、エージェント１０は、図２に示すように、ロボット型のエージェント１０－２としても実現され得る。以下では、エージェント１０がＰＣ型のエージェント１０－１によって実現される例を主に説明するが、エージェント１０がロボット型のエージェント１０－２によって実現される例も適宜説明する。

　近年では、ＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）およびモバイルなどといった電子機器を使うのが困難である老人を中心として、インターネットを利用して誰もが簡単に買い物することを可能とする技術が望まれている。かかる技術の実現のためには、ユーザが難しいＧＵＩ（Ｇｒａｐｈｉｃａｌ　Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ）などを操作することなく、図１および図２に示すように、ユーザとエージェント１０との対話（特に自然言語での対話）により商品の購入を可能とするサービスを提供することが必要である。

　例えば、このようなサービスとして、ユーザが「お米を買いたい」と発話するだけで目的のお米の購入を可能とするサービスが一般的にイメージされると推定される。しかし、実際には「お米を買いたい」というユーザ発話に基づいて検索が実行された場合には、候補となる「お米」が大量に見つかってしまうため、ユーザが目的のお米を購入するためには、お米の品種、量、産地およびブランドなどといった複数の条件を設定する必要がある。

　図１および図２に示された例では、「お米」という条件に「２キロ」という量についての条件を加えるようにユーザ８０から発話がなされている。この例のように、一般的なイメージとは裏腹に、音声情報だけを用いてユーザが目的の商品にたどり着くことは難しいと言える。したがって、本明細書においては、音声情報による操作と目的の商品の選択を助けるための視覚情報とを組み合わせることにより、簡単に目的の商品の選択および購入を可能とする技術を主に提案する。

　例として、あるＥＣ（ｅｌｅｃｔｒｏｎｉｃ　ｃｏｍｍｅｒｃｅ）サイトにおいて「お米」というキーワードを用いた検索が実行された場合、検索結果として数千件の候補が見つかる。つまり、ユーザが最終的に目的の商品を購入するためには、数千件の候補から目的の商品（例えば、１件）が残るまで絞り込みを行う必要がある。具体的に、ユーザは、購入したい商品を示すメインワード（例えば、「お米」などといった商品の名称）をもとに、下記のような２つの作業のいずれかを行う必要がある。

　１つめの作業として、商品の重さ、種別およびブランドなどといった各種条件を設定し、各種条件を検索に用いることによって、検索だけによって目的の商品が残るまで絞り込みを行う作業が挙げられる。２つめの作業として、同様にして各種条件を検索に用いることによって、検索によってある程度の数の商品が残るまで絞り込みを行い、残った商品のリストから商品を一つずつ取捨選択しながら目的の商品が残るまで絞り込みを行う作業が挙げられる。

　これらの例によって示されるように、ユーザがＥＣサイトにおいて目的の商品にたどり着くためには、目的の商品を示すメインワードを最初にユーザに入力させ、このメインワードを起点として、絞り込みのための条件に利用されるキーワードを、簡単かつ適切にユーザに入力させることが重要となる。

　図１および図２を参照しながら、エージェント１０の概要について説明した。

　［１．２．機能構成例］
　続いて、エージェント１０の機能構成例について説明する。図３は、エージェント１０の機能構成例を示す図である。図３に示したように、エージェント１０は、音出力部１１１、音声入力部１１３、非音声入力部１１４、距離検出部１１５、制御部１２０、記憶部１３０、通信部１４０および表示部１５０を有している。また、エージェント１０は、通信ネットワーク９３１を介して意図理解器３０およびサーバ装置４０と接続されている。通信ネットワーク９３１は、例えば、インターネットにより構成される。

　音出力部１１１は、音を出力する機能を有する。例えば、音出力部１１１は、スピーカを含んでおり、スピーカによって音を出力する。音出力部１１１に含まれるスピーカの数は１以上であれば特に限定されない。そして、音出力部１１１に含まれる１以上のスピーカそれぞれが設けられる位置も特に限定されない。なお、音出力部１１１は、音を出力する機能を有すれば、スピーカ以外の形態（例えば、イヤホン、ヘッドセットなど）の音出力装置を含んでもよい。

　音声入力部１１３は、集音によって音を得る機能を有する。例えば、音声入力部１１３は、マイクロフォンを含んでおり、マイクロフォンによって集音する。音声入力部１１３に含まれるマイクロフォンの数は１以上であれば特に限定されない。そして、音声入力部１１３に含まれる１以上のマイクロフォンそれぞれが設けられる位置も特に限定されない。なお、音声入力部１１３は、音情報を集音する機能を有すれば、マイクロフォン以外の形態の集音装置を含んでもよい。

　非音声入力部１１４は、音声以外の情報を得る機能を有する。本明細書においては、非音声入力部１１４がタッチパネルおよび撮像装置を備える例を主に説明する。タッチパネルは、ユーザによる押下操作を検出し得る。また、撮像装置は、撮像によって得られた画像からユーザのジェスチャおよび視線を検出し得る。しかし、非音声入力部１１４は、かかる例に限定されない。例えば、非音声入力部１１４は、押下操作を検出するボタンを備えてもよい。また、非音声入力部１１４は、ユーザの動きを検出するモーションセンサを備えてもよい。モーションセンサは、加速度センサによって加速度を検出してもよいし、ジャイロセンサによって角速度を検出してもよい。

　距離検出部１１５は、ユーザまでの距離を検出する機能を有する。例えば、距離検出部１１５は測距センサを含んでおり、測距センサによって検出されたユーザまでの距離を取得する。測距センサが設けられる位置は特に限定されない。また、測距センサの種類は特に限定されない。例えば、測距センサは、赤外線距離センサであってもよいし、超音波距離センサであってもよい。

　通信部１４０は、通信ネットワーク９３１を介して通信ネットワーク９３１に接続されたサーバ装置４０および意図理解器３０と通信を行う機能を有する。例えば、通信部１４０は、通信インターフェースにより構成される。なお、通信ネットワーク９３１に接続されるサーバ装置４０は、１つであってもよいし、複数であってもよい。本明細書においては、サーバ装置４０がエージェント１０にＥＣサイトを提供する例を主に説明する。

　記憶部１３０は、制御部１２０によって実行されるプログラムを記憶したり、プログラムの実行に必要なデータを記憶したりする記録媒体である。また、記憶部１３０は、制御部１２０による演算のためにデータを一時的に記憶する。記憶部１３０は、磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または、光磁気記憶デバイスなどにより構成される。

　表示部１５０は、各種の画面を表示する機能を有する。本実施形態においては、表示部１５０がプロジェクタである場合を主に想定するが、表示部１５０の種類は限定されない。例えば、表示部１５０は、ユーザに視認可能な表示を行うことが可能なディスプレイ（表示装置）であればよく、液晶ディスプレイであってもよいし、有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイであってもよい。また、本明細書においては、表示部１５０が比較的高い位置（例えば、壁など）に表示を行ったり、比較的低い位置（例えば、エージェントのお腹、ユーザの手元など）に表示を行ったりする場合を主に想定するが、表示部１５０が表示を行う位置も限定されない。

　制御部１２０は、エージェント１０の各部の制御を実行する。図４は、制御部１２０の詳細構成例を示す図である。図４に示したように、制御部１２０は、データ取得部１２１、認識部１２２、提供部１２３および処理部１２４を備える。これらの各機能ブロックについての詳細は、後に説明する。なお、制御部１２０は、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ；中央演算処理装置）などで構成されていてよい。制御部１２０がＣＰＵなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成されてよい。

　なお、以下の説明において、音声（ｖｏｉｃｅまたはｓｐｅｅｃｈ）と音（ｓｏｕｎｄ）とは区別して用いられる。すなわち、音声（ｖｏｉｃｅまたはｓｐｅｅｃｈ）は、音声入力部１１３によって集音された音のうち、主にユーザ発話を示すのに対し、音（ｓｏｕｎｄ）は、ユーザ発話の他、物音などをも含み得る。

　以上、本実施形態に係るエージェント１０の機能構成例について説明した。

　［１．３．機能詳細］
　　（１．３．１．画面構成例）
　続いて、エージェント１０の機能詳細について説明する。まず、ＰＣ型のエージェント１０－１の表示部１５０によって表示される画面例について説明する。図５は、ＰＣ型のエージェント１０－１の表示部１５０によって表示される画面例を示す図である。図５に示すように、表示部１５０によって画面Ｇ１０が表示される。画面Ｇ１０には、キャラクタ画像表示エリアＧ２０が含まれる他、ＥＣ画面Ｇ３０が含まれる。

　キャラクタ画像表示エリアＧ２０は、キャラクタ画像Ｃｈおよびその背景画像を含んでいる。キャラクタ画像Ｃｈは、ユーザに対して対話を喚起させたり愛着を湧かせたりするようなキャラクタの画像であるのがよい。キャラクタ画像Ｃｈが表示されることによって、ユーザがエージェント１０－１との間で対話を行いやすくなる。なお、キャラクタ画像表示エリアＧ２０は特に存在していなくてもよい。あるいは、キャラクタ画像Ｃｈを省略し、背景画像のみを表示しても良い。

　ＥＣ画面Ｇ３０には、検索ワード（以下、「検索キー」とも言う。）が表示される検索キー表示エリアＧ３１および商品リストが表示される商品リスト表示エリアＧ３２が含まれる。検索キー表示エリアＧ３１には、ユーザ発話から音声認識処理によって得られた検索キー（例えば、メインワードおよび絞り込みワード）が表示される。例えば、メインワード（以下、「メインキー」とも言う。）は、商品名であり、絞り込みワード（以下、「絞り込みキー」とも言う。）は、商品の重さ、種別およびブランドなどであってよい。商品リスト表示エリアＧ３２には、検索キーを用いた検索によって取得された商品に関する情報の一覧（商品リスト）が表示される。

　例えば、ユーザが「お米を買いたい」と発話すると、エージェント１０－１のデータ取得部１２１は、音声入力部１１３を介してユーザ発話「お米を買いたい」を取得し、認識部１２２は、ユーザ発話「お米を買いたい」から商品名「お米」を抽出し、商品名が「お米」である一つまたは複数の商品に関する情報を商品名「お米」に関連付けられた検索結果として取得する。そして、提供部１２３は、商品リスト表示エリアＧ３２に「お米」に関連付けられた検索結果を表示する。なお、商品名として、「お米」のような一般名称だけでなく固有の商品名が認識されてもよい。例えば、固有の商品名として商標権により保護されている商品名が認識されてもよい。

　続いて、ユーザが「洗剤を買いたい」と発話すると、同様にして、処理部１２４は、商品名が「洗剤」である一つまたは複数の商品に関する情報を商品名「洗剤」に関連付けられた検索結果として取得する。そして、提供部１２３は、商品リスト表示エリアＧ３２の表示を、「お米」に関連付けられた検索結果から「洗剤」に関連付けられた検索結果に切り替える。

　　（１．３．２．商品絞り込み時の対話例）
　基本的には、最初に商品名をメインキーとした検索がなされるが、商品名を検索キーとして利用するだけでは、目的の商品だけが残るように絞り込みを行うことができない場合がある。かかる場合には、ユーザが追加的に絞り込みワード（商品絞り込みのための検索キー）を入力する必要がある。例えば、ユーザは、品種、量、産地およびブランドなどの絞り込みキーを「お米」というメインキーに付加していく必要がある。

　例えば、最初にユーザが「お米が欲しい」と発話した場合、ユーザ発話「お米が欲しい」から商品名「お米」が抽出され、商品名「お米」が商品選択のためのメインキーとして入力される。そして、サーバ装置４０（ＥＣサイト）において、メインキー「お米」を検索キーとして用いた商品検索が実行される。

　続いて、ユーザが「５Ｋｇを加えて」と発話した場合、ユーザ発話「５Ｋｇを加えて」から商品の量「５Ｋｇ」が抽出され、量「５Ｋｇ」が絞り込みキーとして入力される。そして、サーバ装置４０（ＥＣサイト）において、メインキー「お米」と絞り込みキー「５Ｋｇ」とがａｎｄ条件として組み合わされた検索キー「お米＋５Ｋｇ」を用いた商品検索が実行される。

　続いて、ユーザが「ＡＡＡ（銘柄）を加えて」と発話した場合、ユーザ発話「ＡＡＡ（銘柄）を加えて」から商品の銘柄「ＡＡＡ」が抽出され、銘柄「ＡＡＡ」が絞り込みキーとして入力される。そして、サーバ装置４０（ＥＣサイト）において、メインキー「お米」と絞り込みキー「５Ｋｇ」と絞り込みキー「ＡＡＡ」とがａｎｄ条件として組み合わされた検索キー「お米＋５Ｋｇ＋ＡＡＡ」を用いた商品検索が実行される。

　続いて、ユーザが「決定」と発話し、認識部１２２によって「決定」が認識されると、サーバ装置４０（ＥＣサイト）においては、検索によって見つかった商品の購入処理（検索によって見つかった商品をカートに入れる処理、または、検索によって見つかった商品の決済処理）を行う。続いて、ユーザが「マヨネーズが欲しい」と発話した場合、同様にして、サーバ装置４０（ＥＣサイト）において、メインキー「マヨネーズ」を検索キーとして用いた商品検索が実行される。

　　（１．３．３．商品絞り込み時の画面構成例）
　続いて、商品絞り込み時の画面構成例について説明する。図６は、商品絞り込み時の画面構成例を説明するための図である。図６を参照すると、ユーザ発話の各段階が示されており、ユーザ発話の各段階に対応した「ロボット型エージェント」「２Ｄ型エージェントＵＩ遷移」および「エージェントの処理」が示されている。

　「ロボット型エージェント」は、エージェント１０がロボット型のエージェント１０－２である場合におけるロボット型のエージェント１０－２の外観例を示している。「２Ｄ型エージェントＵＩ遷移」は、エージェント１０がＰＣ型のエージェント１０－１である場合において、ＰＣ型のエージェント１０－１によって表示される画面Ｇ１０の例を示している。「エージェントの処理」は、エージェント１０が実行する処理の例を示している。

　例えば、「ユーザ発話」に示すように、ユーザが「お米を買いたい」と発話した場合、「エージェントの処理」に示すように、データ取得部１２１は、音声入力部１１３を介してユーザ発話「お米を買いたい」を取得し、認識部１２２は、ユーザ発話「お米を買いたい」から商品名「お米」を抽出する。サーバ装置４０（ＥＣサイト）において、商品名が「お米」である商品リストが検索されると、処理部１２４は、商品リストを取得する。そして、提供部１２３は、取得された商品リストをＥＣ画面Ｇ３０に表示する。

　続いて、「ユーザ発話」に示すように、ユーザが「５ｋｇを加えて」と発話した場合、ユーザ発話「５Ｋｇを加えて」から商品の量「５Ｋｇ」が抽出され、量「５Ｋｇ」が絞り込みキーとして入力される。そして、「エージェントの処理」に示すように、サーバ装置４０（ＥＣサイト）において、メインキー「お米」と絞り込みキー「５Ｋｇ」とがａｎｄ条件として組み合わされた検索キー「お米＋５Ｋｇ」を用いた商品検索が実行される。

　続いて、「ユーザ発話」に示すように、ユーザが「ＡＡＡ（銘柄）を加えて」と発話した場合、ユーザ発話「ＡＡＡ（銘柄）を加えて」から商品の銘柄「ＡＡＡ」が抽出され、銘柄「ＡＡＡ」が絞り込みキーとして入力される。そして、「エージェントの処理」に示すように、サーバ装置４０（ＥＣサイト）において、メインキー「お米」と絞り込みキー「５Ｋｇ」と絞り込みキー「ＡＡＡ」とがａｎｄ条件として組み合わされた検索キー「お米＋５Ｋｇ＋ＡＡＡ」を用いた商品検索が実行される。

　続いて、「ユーザ発話」に示すように、ユーザが「それ買う」と発話し、認識部１２２によって「それ買う」が認識されると、サーバ装置４０（ＥＣサイト）においては、検索によって見つかった商品の購入処理（検索によって見つかった商品をカートに入れる処理、または、検索によって見つかった商品の決済処理）を行う。続いて、「ユーザ発話」に示すように、ユーザが「買い物終わり」と発話し、認識部１２２によって「買い物終わり」が認識されると、ＥＣ画面Ｇ３０の表示が終了する。

　ここで、ＥＣ画面Ｇ３０が表示されていないタイミングで「ＡＡＡ（銘柄）を加えて」とユーザが発話したとしても、「ＡＡＡ（銘柄）」を絞り込みキーとして追加しないようにしてもよい（ＴＰＯ（Ｔｉｍｅ　Ｐｌａｃｅ　Ｏｃｃａｓｉｏｎ）、または、コンテキストに応じてユーザ発話に対する意図解釈が異なってもよい）。例えば、キャラクタ画像Ｃｈが着ている服、キャラクタ画像Ｃｈの背景画像に応じて、同じ発話に対して異なる解釈がなされてもよい。

　さらに具体的には、キャラクタ画像Ｃｈがエプロンを着ている様子が表示されている場合（または、キャラクタ画像Ｃｈの背景にキッチンが表示されている場合）には、ユーザ発話が食材関連の意図を有していると解釈されるときにだけ、その意図解釈結果に基づいた処理が実行されてもよい（すなわち、表示情報に含まれる所定の要素の属性に基づいてユーザ発話に対する意図解釈がなされてよい）。

　　（１．３．４．状況に応じた意図解釈）
　ユーザは、エージェント１０に対して同じ発話を行ったとしても、状況に応じて発話の意図が異なることが想定される。例えば、ユーザは、エージェント１０に対して「ＸＸＸを加えて」と発話を行ったとしても、以下に例を示すように、状況に応じてユーザ発話「ＸＸＸを加えて」の意図が異なることが想定される。

　例えば、ＥＣ画面Ｇ３０が表示されている状態であり、かつ、商品リスト表示エリアＧ３２に商品リストが表示されていない状態においては、ユーザ発話「ＸＸＸを加えて」は、検索時の絞り込みキー「ＸＸＸ」の追加を意図した発話であることが想定される。一方、ＥＣ画面Ｇ３０が表示されている状態（商品絞り込み中の状態）であり、かつ、商品リスト表示エリアＧ３２に商品リストが表示されている状態においては、カートへの新たな商品「ＸＸＸ」の追加を意図した発話であることが想定される。

　あるいは、教育関連のアプリケーション（以下、「アプリケーション」を単に「アプリ」と言う場合がある。）の画面が表示されている状態においては（例えば、数学の問題を解くための画面が表示されている状態においては）、ユーザ発話「ＸＸＸを加えて」は、何らかの数（例えば、既に入力された数）に対して「ＸＸＸ」を足し合わせる演算を意図した発話であることが想定される。したがって、ユーザ発話に対する意図解釈は、状況に応じて異なるのがよい。

　図７は、状況に応じた意図解釈の動作例を示すシーケンス図である。例えば、データ取得部１２１が、音声入力部１１３を介してユーザ発話「ＸＸＸを加えて」を取得し（Ｓ１１）、認識部１２２が、ユーザ発話に対する音声認識処理を実行すると（Ｓ１２）、データ取得部１２１は、表示部１５０によって表示されている情報（表示情報）に関連する情報（以下、「関連情報」とも言う。）の例として、表示情報と連動するアプリケーションの状態を取得し、チェックする（Ｓ１３）。

　以下では、関連情報が表示情報と連動するアプリケーションの状態である場合を説明するが、関連情報はアプリケーションの状態に限定されず、表示情報に関連する情報であればよい。アプリケーションの状態は、アプリケーションの種類（例えば、ＥＣサイトのアプリケーション、教育関連のアプリケーションなど）を含み得る。また、アプリケーションの状態は、アプリケーションの実行段階（例えば、商品絞り込み中の状態、商品リストの表示状態など）をさらに含み得る。

　表示情報と連動するアプリケーションは、表示情報を表示させるアプリケーションであってよいが、表示情報と連動するアプリケーションは、これに限定されず、表示情報と何らかの関係を有するアプリケーションであってよい。表示情報と連動するアプリケーションの状態は、提供部１２３によって、音声認識結果「ＸＸＸを加えて」とともに、意図理解器３０に提供される（Ｓ１４）。意図理解器３０は、アプリケーションの状態に応じて音声認識結果の意図解釈を行う。そして、意図理解器３０は、意図解釈結果をエージェント１０に提供する（Ｓ１５）。

　表示情報が異なる場合には、意図解釈結果は異なっていてよい。より詳細には、表示部１５０によって表示される表示情報は、第１の関連情報と関連する第１の表示情報を含み得る。また、表示部１５０によって表示される表示情報は、第２の関連情報と関連する第２の表示情報を含み得る。そして、第１の関連情報に応じた意図解釈結果と、第１の関連情報とは異なる第２の関連情報に応じた意図解釈結果とは異なっていてよい。

　意図理解器３０は、アプリケーションの状態に応じて音声認識結果の意図解釈モードを決定し、決定した意図解釈モードに従って音声認識結果の意図を解釈する。ここで、意図理解器３０は、アプリケーションの状態に応じて音声認識結果の意図解釈モードが決定されると、意図解釈モードを示す情報をエージェント１０に提供し、エージェント１０において、提供部１２３は、意図解釈モードを示す情報をユーザに提供する。

　ここでは、提供部１２３が、意図解釈モードを示す情報を視覚情報として表示する例を想定する（Ｓ１６）。しかし、意図解釈モードを示す情報は、視覚情報および音声情報の少なくとも一方によってユーザに提供されればよい。また、意図解釈モードを示す情報は、キャラクタ画像、アイコン画像、背景画像およびＢＧＭのうち少なくともいずれか一つを含んでよい。

　図８は、意図解釈モードを示す情報の表示例を示す図である。図８に示す例では、意図解釈モードを示す情報が、キャラクタ画像Ｃｈ、アイコン画像Ｇ２１、背景画像Ｇ２２およびＢＧＭ（Ｔ１０）を含んでいる。しかし、これらの少なくともいずれか一つが意図解釈モードを示す情報に含まれていてもよい。

　キャラクタ画像Ｃｈは、意図解釈モードに対応する服を着ているように表示されれば、その服によって意図解釈モードを示す情報を表現し得る。このとき、服に特定のシンボルまたはマーク（例えば、企業ロゴなど）が付加されれば、そのシンボルまたはマークによって意図解釈モードを示す情報が表現され得る。なお、服の代わりに他の着用可能な物（例えば、帽子など）が表示されてもよい。あるいは、キャラクタ画像Ｃｈは、キャラクタそのものによって意図解釈モードを示す情報を表現してもよい。

　アイコン画像Ｇ２１は、その形状または色によって意図解釈モードを示す情報を表現し得る。例えば、アプリケーションの状態が商品絞り込み中の状態においては、アイコン画像Ｇ２１はカートであってよい。あるいは、アプリケーションの状態が教育関連のアプリケーションの画面が表示されている状態においては、アイコン画像Ｇ２１は電卓アイコンであってよい。

　その他、背景画像Ｇ２２は、背景に描かれる物または背景色によって意図解釈モードを示す情報を表現し得る。また、ＢＧＭ（Ｔ１０）は、意図解釈モードに対応する音（例えば、楽曲など）が出力されれば、その音によって意図解釈モードを示す情報を表現し得る。

　図７に戻って説明を続ける。処理部１２４は、意図解釈結果に基づく処理を実行し（Ｓ１７）、提供部１２３は、意図解釈結果に基づく処理結果をユーザに提供する。意図解釈結果に基づく処理結果がユーザに提供されれば、ユーザ発話の意図が考慮された処理結果がユーザに提供される。したがって、ユーザの所望する処理結果がユーザに提供される可能性を高めることが可能となる。例えば、処理結果は、視覚情報および音声情報の少なくともいずれか一方によってユーザに提供されればよい。

　ここで、意図解釈結果に基づく処理の種類は特に限定されない。例えば、アプリケーションの状態が商品絞り込み中の状態である場合には、意図解釈結果に基づく処理は、「ＸＸＸ」を検索キーとして追加する処理であってよい。あるいは、アプリケーションの状態が教育関連のアプリケーションの画面の表示状態である場合には、意図解釈結果に基づく処理は、何らかの数（例えば、既に入力された数）に対して「ＸＸＸ」を足し合わせる処理であってよい。

　図９は、状況に応じた意図解釈がなされる場合におけるシステムの構成例を示す図である。図９に示すように、ユーザが「ＸＸＸ（ここでは、２キロ）を加えて」と発話すると、エージェント１０において、データ取得部１２１は、音声入力部１１３を介してユーザ発話「ＸＸＸを加えて」を取得し、認識部１２２は、「ＸＸＸを加えて」を音声認識結果として認識する。音声認識結果「ＸＸＸを加えて」とアプリケーション状態とは、意図理解器３０に通知される。

　アプリケーション状態の例としては、「エージェントからの状態通知（※１）」に示すように、「検索状態」「商品リスト表示状態」「ＸＸＸを足すという計算状態」などが挙げられる。意図理解器３０は、音声認識結果「ＸＸＸを加えて」の意図を、アプリケーション状態に応じて解釈する。

　例えば、意図理解器３０は、「意図解釈結果（※２）」に示すように、アプリケーション状態が「検索状態」である場合、アプリケーション状態「検索状態」に対応して、音声認識結果「ＸＸＸを加えて」の意図を「検索キーにＸＸＸを加える指示」であると解釈する。このとき、意図理解器３０からエージェント１０には、意図解釈結果「検索キーにＸＸＸを加える指示」が提供され、エージェント１０は、意図解釈結果「検索キーにＸＸＸを加える指示」に応じた処理として、サーバ装置（ＥＣサイト）４０に対して、検索キーにＸＸＸを加える処理を指示する。

　また、意図理解器３０は、アプリケーション状態が「商品リスト表示状態」である場合、アプリケーション状態「商品リスト表示状態」に対応して、音声認識結果「ＸＸＸを加えて」の意図を「商品リストにＸＸＸを追加する指示」であると解釈する。エージェント１０は、意図解釈結果「商品リストにＸＸＸを追加する指示」に応じた処理として、サーバ装置（ＥＣサイト）４０に対して、商品リストにＸＸＸを追加する処理を指示する。

　また、意図理解器３０は、アプリケーション状態が「ＸＸＸを足すという計算状態」である場合、アプリケーション状態「ＸＸＸを足すという計算状態」に対応して、音声認識結果「ＸＸＸを加えて」の意図を「計算式にＸＸＸを加える指示」であると解釈する。エージェント１０は、意図解釈結果「計算式にＸＸＸを加える指示」に応じた処理として、サーバ装置（ＥＣサイト）４０に対して、計算式にＸＸＸを加える処理を指示する。

　　（１．３．５．表示情報を見ているか否かに応じた対話）
　表示情報がユーザによって見られている場合には、ユーザが処理結果を見ることが可能な状況であるため、処理結果は視覚的にユーザによって認識され得る。一方、表示情報がユーザによって見られていない場合には、ユーザが処理結果を見ることができない状況であるため、処理結果が視覚的にユーザによって認識され得ない。例えば、処理結果は、エージェント１０が認識している状態（ｃｏｎｔｅｘｔ；ユーザが入力した検索キーを含み得る）であり得る。

　したがって、提供部１２３は、ユーザが表示情報を見ている場合と、ユーザが表示情報を見ていない場合とにおいて、異なる音声情報をユーザに提供するとよい。そうすれば、ユーザの状況に合わせた音声情報がユーザに提供される。ユーザが表示情報を見ているか否かは、ユーザの視線が表示情報の表示範囲内に存在するか否かによって判断され得る。なお、ユーザの視線は、例えば撮像によって得られたユーザの画像から得られる、ユーザの眼球表面のプルキニエ像に基づいて推定され得る。

　なお、ユーザが表示情報を見ているか否かは、ユーザの視線に関連する情報以外の種々の情報に基づいて推定され得る。例えば、撮像によって得られたユーザの画像に基づいて判定されるユーザの向きに基づいて、ユーザが表示情報を見ているか否かが推定されても良い。ここで、ユーザの向きはユーザの顔の向きと見做されても良く、あるいはユーザの体全体の向きと見做されても良い。これらのユーザの向きは、画像中に含まれるユーザの顔や体全体の特徴量から推定され得る。あるいは、ユーザがウェアラブルデバイスを装着している場合、ウェアラブルデバイスの向きを示すセンサ情報に基づいてユーザが表示情報を見ているか否かが推定されても良い。ウェアラブルデバイスの一例としてはヘッドマウントディスプレイが挙げられる。ウェアラブルデバイスはヘッドマウントディスプレイに限られず、リストバンド型、ネックバンド型等の種々の形態が採用されてよい。また、センサ情報としては、加速度情報、角加速度情報、撮像画像情報等が採用され得る。

　例えば、エージェント１０から提供される音声情報が増えるとユーザが音声情報を聞く時間が増えてしまうために、ユーザが目的の商品にたどり着くまでに時間が掛かってしまう。したがって、ユーザが処理結果を見ることが可能な状況においては、処理結果が視覚情報によってユーザに提供されるのが望ましい。一方で、ユーザが処理結果を見ることができない状況においては、処理結果の一部または全部が音声情報によってユーザに提供されるのが望ましい。

　したがって、提供部１２３は、ユーザが表示情報を見ていない場合には、ユーザが表示情報を見ている場合よりも、詳細な音声情報をユーザに提供すればよい。より詳細には、提供部１２３は、ユーザが表示情報を見ている場合には、処理結果を少なくとも視覚情報としてユーザに提供し、ユーザが表示情報を見ていない場合には、視覚情報に対応する音声情報（視覚情報と同等の音声情報）を詳細な音声情報としてユーザに提供してもよい。

　具体例を説明する。ユーザが「お米を買いたい」と発話し、エージェント１０がＥＣ画面Ｇ３０を表示した後に、ユーザが「ＸＸＸを加えて」と発話した場合を想定する。かかる場合、提供部１２３は、ユーザが表示情報を見ている場合には、「はい」という音声情報を提供し、ＥＣ画面Ｇ３０に検索キーを表示し、その検索キーを用いた検索結果と検索結果件数とを表示する。

　一方、提供部１２３は、ユーザが表示情報を見ていない場合には、処理内容「ＸＸＸを絞り込みキーとして検索キーに加えますね」を音声情報によって提供する。これによって、ユーザによる入力が正しかったか否かも確認され得る。また、エージェント１０は、ＥＣ画面Ｇ３０に絞り込みキーを追加し、メインキーと絞り込みキーとを用いた検索結果件数を音声情報「絞り込みの結果はＮ件です」によって提供し、次の動作をユーザに促す音声情報「絞り込みキーをさらに追加しますか？」を提供する。

　図１０は、表示情報を見ているか否かに応じた対話の動作例を示すシーケンス図である。図１０に示した例は、図７に示した例と比較して、提供部１２３が、ユーザが画面（すなわち、表示情報）を見ているか否かを認識し（Ｓ２１）、ユーザが画面を見ているか否かを追加的に意図理解器３０に提供する点（Ｓ２２）が異なっている。この例においては、意図理解器３０は、ユーザが画面を見ているか否かにさらに応じて、音声認識結果の意図を解釈する。

　また、図１０に示した例は、図７に示した例と比較して、提供部１２３が、ユーザが画面を見ているか否かにさらに応じた発話（音声情報の提供）を行う点（Ｓ２３）が異なっている。例えば、提供部１２３は、ユーザが表示情報を見ている場合には、エージェント１０は「はい」という音声情報を提供する。一方、提供部１２３は、ユーザが表示情報を見ていない場合には、検索結果件数を音声情報「絞り込みの結果はＮ件です」によって提供する。

　　（１．３．６．ＥＣ画面の表示例）
　ＥＣ画面Ｇ３０の表示例について説明する。図１１は、ＥＣ画面Ｇ３０の表示例を示す図である。図１１に示すように、表示部１５０によって表示される画面Ｇ１０には、ＥＣ画面Ｇ３０が含まれ得る。ＥＣサイトによる検索が行われると、ＥＣ画面Ｇ３０には、検索によって得られた商品リストが表示される。図１１に示された例では、商品リストとして、商品１～４が表示されている。

　ここで、ユーザが決定を示す発話（図１１に示した例では、「それ」という発話）を行い、エージェント１０において、決定を示す発話が認識されると、意図理解器３０は、アプリの状態および画面状態に基づいて、フォーカスが当たっている商品を特定する。その後、特定された商品の購入処理が実行される。アプリの状態および画面状態は、ＥＣ．Ｓｅｌｅｃｔ．Ｒｅｃｏｍｍｅｎｄなどの指示によって、エージェント１０から意図理解器３０に通知される。

　図１１に示した例では、商品リストの中で一番購入される可能性が高い商品（商品１）にフォーカスが当てられている。しかし、フォーカスが当てられる商品は、ユーザの操作によって適宜に変更されてよい。あるいは、フォーカスは商品に当てられていなくてもよく、商品を選択する発話（例えば、右から３番目）によって、購入商品が選択されてもよい。このとき、選択された商品が強調表示されてもよい。

　　（１．３．７．絞り込みを支援する技術）
　上記においては、ユーザに絞り込みキーを入力させる例を示した。かかる例によれば、ユーザは、絞り込みキーの入力によって目的の商品にたどり着くことが可能である。しかし、現実的には、ユーザは商品に対してどのような絞り込みキーを入力すべきか判断しにくい場合もあり得る。すなわち、絞り込みキーをユーザが自力で思いついて、最短距離で商品にたどり着くのは困難である場合もあり得る。

　そこで、ユーザによる絞り込みキーの入力を支援するために、検索サイトまたはＥＣサイトにおいて行われているサジェスチョンのような仕掛け（候補ワードの表示など）が実行されるとよい。まず、一般的なＥＣサイトにおいて行われているサジェスチョンについて説明する。

　図１２は、一般的なＥＣサイトにおいて表示される検索キー表示エリアの例を示す図である。図１２を参照すると、ユーザによって入力された検索キーＫ１１が表示されている。また、図１２を参照すると、検索キーＫ１１に関連するワードが、候補ワードＫ１２として表示されている。候補ワードＫ１２の表示によって、ユーザが商品の絞り込みのアシストがなされる。なお、候補ワードＫ１２は、ユーザによる商品の検索履歴または購入履歴に基づいて作成される。

　図１３は、本開示の実施形態に係る絞り込みの支援を説明するための図である。図１３に示すように、ユーザがメインキーの入力に際して「お米を買いたい」と発話すると、ユーザ発話に対して音声認識処理がなされ、第１の音声認識結果「お米を買いたい」とアプリケーションの状態とが意図理解器３０に提供される。意図理解器３０は、アプリケーションの状態に応じて第１の音声認識結果の意図解釈を行う。そして、意図理解器３０は、意図解釈結果をエージェント１０に提供する。

　エージェント１０においては、データ取得部１２１は、意図解釈結果から第１の入力ワード「お米」を抽出し、第１の入力ワード「お米」に対応する１または複数の候補ワードを含む候補リストを取得する。図１３に示すように、提供部１２３は、検索キーＫ１１「お米」を検索キー表示エリアＧ３１に表示させるとともに、候補リストＫ１３「５ｋｇ,１０ｋｇ，２ｋｇ，無洗米」を検索キー表示エリアＧ３１に表示させる。また、提供部１２３は、意図解釈結果に基づく処理結果をユーザに提供する。具体的に、提供部１２３は、検索キー「お米」の検索結果と検索結果件数とを商品リスト表示エリアＧ３２に表示させる。

　候補リストＫ１３によって、ユーザによる絞り込みキーの選択が支援される。続いて、ユーザが候補リストＫ１３「５ｋｇ，１０ｋｇ，２ｋｇ，無洗米」から絞り込みキーとして「５ｋｇ」を選択し、「５ｋｇを足して」と発話すると、ユーザ発話に対して音声認識処理がなされ、第２の音声認識結果「５ｋｇを足して」とアプリケーションの状態とが意図理解器３０に提供される。意図理解器３０は、アプリケーションの状態に応じて第２の音声認識結果の意図解釈を行う。そして、意図理解器３０は、意図解釈結果をエージェント１０に提供する。

　エージェント１０においては、データ取得部１２１は、意図解釈結果から第２の入力ワード「５ｋｇ」を抽出し、第２の入力ワード「５ｋｇ」に対応する１または複数の候補ワードを含む候補リストを取得する。図１３に示すように、提供部１２３は、検索キーＫ１１「お米，５ｋｇ」を検索キー表示エリアＧ３１に表示させるとともに、候補リストＫ１３「無洗米，ＸＸＸ（銘柄）」を検索キー表示エリアＧ３１に表示させる。また、提供部１２３は、意図解釈結果に基づく処理結果をユーザに提供する。具体的に、提供部１２３は、検索キー「お米＋５ｋｇ」の検索結果と検索結果件数とを商品リスト表示エリアＧ３２に表示させる。

　ここで、ユーザ発話をシンプルかつノイズに強くするための工夫がなされてもよい。図１４は、ユーザ発話をシンプルかつノイズに強くするための工夫を説明するための図である。例えば、メインキー入力に際して「お米を買いたい」と発話され、絞り込みキー入力に際して「５ｋｇ」と発話された場合を想定する。すなわち、発話に指示ワード（図１４に示した例では、「を足して」）が含まれていない場合を想定する。このとき、エージェント１０によって第２の音声認識結果「５ｋｇ」が得られ、第２の入力ワード「５ｋｇ」が得られる。なお、本明細書において“指示ワード”とは、“入力ワード”に関してどのような処理を行うのかを情報処理装置１０に対し指示するための発話として見做されてよい。例えば、「を買いたい」、「を足して」等の動詞が“指示ワード”に相当すると見做されてもよい。

　図１４を参照すると、第２の入力ワード「５ｋｇ」が候補リストＫ１３に含まれている。このような場合、提供部１２３は、第２の音声認識結果「５ｋｇ」に指示ワードが含まれていない場合であっても、第２の入力ワード「５ｋｇ」に応じた意図解釈結果に基づく処理結果をユーザに提供するとよい。具体的には、提供部１２３は、第２の入力ワード「５ｋｇ」を絞り込みキーとしてメインキー「お米」に追加し、検索キー「お米、５ｋｇ」による検索結果をユーザに提供するとよい。これによって、ユーザ発話がシンプルかつノイズに強くなることが期待される。

　なお、候補リストＫ１３のすべてが表示されていなくてもよい。すなわち、図１４には、候補ワード「５ｋｇ」が表示されている例を示したが、候補ワード「５ｋｇ」が表示されていなくてもよい。また、提供部１２３は、更なる商品の絞り込みが必要であるか否かをユーザに判断させるために、商品リストよりも先に検索結果数をユーザに提供してもよい。

　また、提供部１２３は、ユーザ発話によって絞り込みキー「５ｋｇ」が追加されて新たな検索キー「お米、５ｋｇ」が生成されるたびに、新たな検索キー「お米、５ｋｇ」による検索結果をユーザに提供してもよい。あるいは、提供部１２３は、所定時間内にユーザが絞り込みキーを発話しなかった場合、候補リストＫ１３に存在する候補ワード「５ｋｇ」が絞り込みキーとして追加された新たな検索キー「お米、５ｋｇ」による検索結果をユーザに提供してもよい。

　上記した例では、第２の入力ワードが候補リストＫ１３に含まれている場合を想定したが、第２の入力ワードが候補リストＫ１３に含まれていない場合もあり得る。かかる場合、提供部１２３は、第２の音声認識結果に指示ワードが含まれている場合には、第２の入力ワードに応じた意図解釈結果に基づく処理結果をユーザに提供すればよい。

　例えば、絞り込みキーの入力に際して、ユーザが「２０ｋｇを足して」と発話した場合を想定する。かかる場合、第２の入力ワード「２０ｋｇ」は候補リストＫ１３に含まれていないが、第２の音声認識結果「２０ｋｇを足して」に指示ワードが含まれている。そのため、提供部１２３は、第２の入力ワード「２０ｋｇ」に応じた意図解釈結果に基づく処理結果をユーザに提供すればよい。具体的に、提供部１２３は、検索キー「お米＋２０ｋｇ」の検索結果と検索結果件数とを商品リスト表示エリアＧ３２に表示させればよい。

　一方、第２の入力ワードが候補リストＫ１３に含まれていない場合、かつ、第２の音声認識結果に指示ワードが含まれていない場合も想定される。かかる場合には、提供部１２３は、第２の入力ワードを無視すればよい。

　例えば、絞り込みキーの入力に際して、ユーザが「２０ｋｇ」と発話した場合を想定する。かかる場合、第２の入力ワード「２０ｋｇ」は候補リストＫ１３に含まれておらず、第２の音声認識結果「２０ｋｇ」に指示ワードが含まれていない。そのため、提供部１２３は、第２の入力ワード「２０ｋｇ」を無視すればよい。具体的に、検索キー「お米＋２０ｋｇ」による検索は行われなくてよい。

　ここで、候補リストに含まれる１または複数の候補ワードそれぞれは、属性を有している。例えば、候補ワード「２ｋｇ」は、属性「重さ」を有しており、候補ワード「ＸＸＸ」は、属性「銘柄」を有している。上記した例では、候補リストに含まれる１または複数の候補ワードそれぞれが有する属性は特に考慮されていないが、それぞれの属性が考慮された上で、候補リストがユーザに提供されてもよい。そうすれば、ユーザは、属性を考慮に入れて候補ワードを選択することが可能である。

　ここで、候補リストに含まれる１または複数の候補ワードそれぞれには属性情報があらかじめ関連付けられていてよい。そして、提供部１２３は、属性が考慮された候補リストの提供の例として、候補リストの少なくとも一部を対応する属性情報ごとにユーザに提供してもよい。以下では、一例として、作成された候補リストのすべてが属性情報ごとにユーザに提供される例を説明する。

　図１５は、候補リストを属性情報ごとにユーザに提供する例を説明するための図である。図１５を参照すると、候補ワード「数字＋ｋｇ」は、属性情報「重さ，重量，質量」に関連付けられた上で、辞書１３１に登録されている。また、これらの候補ワードのうち、候補ワード「数字＋ＭＬ，Ｌ，ＣＣ」は、属性情報「容量，量」に関連付けられた上で、辞書１３１に登録されている。また、これらの候補ワードのうち、候補ワード「Ｓ会社，Ｃ会社」は、属性情報「メーカー，会社，ブランド」に関連付けられた上で、辞書１３１に登録されている。

　また、図１５を参照すると、複数の候補ワードの例として「２ｋｇ，５ｋｇ，１０ｋｇ，・・・，ＸＸＸ（銘柄），ＹＹＹ（銘柄）」などが用意されている。このような複数の候補ワードは、辞書１３１に登録されている候補ワードと属性情報との関連付けに基づいて、属性情報ごとに分類される。

　続いて、図１５に示すように、ユーザがメインキーの入力に際して「お米を買いたい」と発話すると、上記したように、エージェント１０において、データ取得部１２１は、第１の入力ワード「お米」に対応する１または複数の候補ワードを含む候補リストを取得する。提供部１２３は、検索キーＫ１１「お米」を検索キー表示エリアＧ３１に表示させるとともに、候補リストＫ１３を属性情報ごとに検索キー表示エリアＧ３１に表示させる。

　候補ワード「２ｋｇ，５ｋｇ，１０ｋｇ」の属性情報は「重さ」であり、候補ワード「ＸＸＸ，ＹＹＹ」の属性情報は「銘柄」である。ここで、複数の候補ワードの表示順序は、特に限定されない。例えば、複数の候補ワードの表示順序は、検索回数が多い順であってもよいし、商品の量が小さい順であってもよいし、購入回数が高い順であってもよい。

　また、提供部１２３は、属性が考慮された候補リストの提供の例として、第２の音声認識結果の前に取得される第３の音声認識結果に属性情報が含まれる場合、属性情報に対応する候補リストの少なくとも一部をユーザに提供してもよい。以下では、一例として、第３の音声認識結果に含まれる属性情報に対応する候補リストのすべてが属性情報ごとにユーザに提供される例を説明する。

　図１６は、第３の音声認識結果に含まれる属性情報に対応する候補リストのすべてが属性情報ごとにユーザに提供される例を説明するための図である。図１６を参照すると、図１５に示した例と同様に、複数の候補ワードの例として「２ｋｇ，５ｋｇ，１０ｋｇ，・・・，ＸＸＸ（銘柄），ＹＹＹ（銘柄）」などが想定されている。このような複数の候補ワードがあらかじめ用意されている。また、図１６を参照すると、図１５に示した例と同様に、辞書１３１の登録がなされている。

　続いて、図１６に示すように、ユーザがメインキーの入力に際して「お米を買いたい」と発話し、絞り込みキーの入力前に「重さは？」と発話すると、エージェント１０において、データ取得部１２１は、第１の入力ワード「お米」に対応し、かつ、属性情報「重さ」に対応する１または複数の候補ワードを含む候補リストを取得する。提供部１２３は、検索キーＫ１１「お米」を検索キー表示エリアＧ３１に表示させるとともに、属性情報「重さ」に対応する候補リストＫ１３を検索キー表示エリアＧ３１に表示させる。

　例えば、絞り込みキーの入力に際して、候補リストに存在しない重さ「３ｋｇ」が発話された場合には、ユーザ発話「３ｋｇ」に最も近い「２ｋｇ」が自動的に選択されてもよい。また、この例では、ユーザが属性を指定するための発話として「重さは？」を想定しているが、ユーザが属性を指定するための発話は、「重さは？」に限定されず、「メーカーは？」などであってもよい。また、上記と同様に、複数の候補ワードの表示順序は、特に限定されない。例えば、複数の候補ワードの表示順序は、検索回数が多い順であってもよいし、商品の量が小さい順であってもよいし、購入回数が高い順であってもよい。

　ここで、ユーザによる入力が必須な検索キーは商品ごとにあらかじめ決められていてもよい。このとき、ユーザは、入力が必須であるが、まだ入力がされていない検索キーが存在する場合には、当該検索キーの属性を指定するための発話を行ってよい。ユーザは、かかる検索キーが複数存在する場合、サジェスチョンの順位（絞り込みキーとしての利用頻度が高い順）または必要度に応じて属性指定の順序を決めてもよい。

　上記では、ユーザが商品購入に関係する発話をする場合を主に説明した。しかし、エージェント１０がユーザ発話を受け付け可能である状態において、ユーザは商品購入とは関係しない発話をする可能性もある。そこで、エージェント１０は、ユーザ発話が商品購入に関係するか否かを判断してもよい。

　例えば、商品購入に関係する発話の形式を「ＸＸＸを加えて」といったように決められている場合、この形式に従ってユーザ発話が商品購入に関係するか否かを判断することが可能である。しかし、人間同士の会話のように文脈を読んで自然な対話ができるほうが望ましい。

　そこで、提供部１２３は、音声認識結果に含まれる入力ワードがアプリケーションの状態に対応している場合にのみ、処理結果をユーザに提供すればよい。そうすれば、アプリケーションの状態に対応していない入力ワードは無効語としてブロックされる。以下では、アプリケーションの状態に対応していない入力ワードを無効語と言い、アプリケーションの状態に対応している入力ワードを有効語と言う場合がある。すなわち、有効語とはアプリケーションの操作に利用される入力ワードとして見做され良い。

　より具体的には、エージェント１０は、辞書１３１に登録されているデータに基づいて、アプリケーションの状態（例えば、商品絞り込み中の状態）に対応する１または複数の候補ワードをあらかじめ把握している。そのため、提供部１２３は、音声認識結果に含まれる入力ワードがこれらの候補ワードのいずれかとマッチした場合にのみ、その候補ワードを検索キーに追加することが可能である。

　このような無効語のブロックは、ユーザ発話の音声認識処理の精度が低い状態においても（例えば、外乱などが含まれている場合においても）、有効に働くと考えられる。

　また、ユーザの周囲に会話を行っている他のユーザが存在する場合などには、ユーザ発話と他のユーザによる会話との分離が難しく、ユーザ発話の音声認識処理を正確に行うことができない可能性がある。しかし、無効語のブロックによって、ユーザ発話の音声認識処理を部分的に誤ってもアプリケーションの状態に対応する入力ワードが検出されれば、正常に処理結果がユーザに提供される。

　図１７は、ユーザ発話に有効語が含まれる場合と有効語が含まれない場合それぞれにおける動作例を示す図である。ここでは、アプリケーションの状態が商品絞り込み中の状態となった場合を想定し、アプリケーションの状態が商品絞り込み中の状態となった後に、音声認識結果に含まれる入力ワードを判断する例を説明する。したがって、ユーザが買い物会話をする場合には、音声認識結果に有効語が含まれ、一般会話をする場合には、音声認識結果に有効語が含まれないと考えられる。ここで、一般会話とは、アプリケーションの状態に対応している入力ワードを含まない会話、すなわち有効語を含まない会話として見做されてよい。

　図１７に示すように、有効語が含まれるユーザ発話として「（１）ユーザがＸＸＸ（銘柄）はうまいよね」を想定し、有効語が含まれないユーザ発話として「（２）今日は暑いね」を想定する。それぞれのユーザ発話に対して音声認識処理がなされると（Ｓ３１）、ＴＥＸＴ列として「ＸＸＸはうまいよね」および「今日は暑いね」が取得される。

　ここで、エージェント１０においては、サーバ装置（ＥＣサイト）４０から提供される１または複数の候補ワードに基づいて、アプリケーションの状態（商品絞り込み中の状態）に対応する１または複数の候補ワードがあらかじめ把握されている。そのため、提供部１２３は、ＴＥＸＴ列「ＸＸＸはうまいよね」およびＴＥＸＴ列「今日は暑いね」とアプリケーションの状態に対応する１または複数の候補ワードとの間でＴｅｘｔマッチングによる文脈判定を行う（Ｓ３２）。

　ＴＥＸＴ列「ＸＸＸはうまいよね」には、候補ワード「ＸＸＸ」にマッチする入力ワード「ＸＸＸ」が含まれている。そのため、提供部１２３は、候補ワード「ＸＸＸ」を検索キーに追加する旨を示す発話を生成する。一方、ＴＥＸＴ列「今日は暑いね」には、候補ワードにマッチする入力ワードが含まれていない。そのため、提供部１２３は、候補ワードの追加とは異なる一般的な発話を生成する（Ｓ３３）。

　続いて、提供部１２３は、「（１）ユーザがＸＸＸ（銘柄）はうまいよね」に対応する発話として、候補ワード「ＸＸＸ」を検索キーに追加する旨を示す「ＸＸＸを検索キーに加えます」といった発話を提供する。一方、提供部１２３は、「（２）今日は暑いね」に対応する発話として、候補ワードの追加とは異なる一般的な発話の例として「そうですね！」といった発話を提供する。発話の提供は、視覚情報および音声情報の少なくともいずれか一方によってなされてよい。

　図１８は、候補リストがユーザに提供される場合におけるシステムの構成例を示す図である。図１８に示すように、ユーザが「お米を買いたい」と発話すると、エージェント１０において、データ取得部１２１は、音声入力部１１３を介してユーザ発話「お米を買いたい」を取得し、認識部１２２は、「お米を買いたい」を音声認識結果として認識する。音声認識結果「お米を買いたい」とアプリケーション状態とは、意図理解器３０に通知される。

　アプリケーション状態の例としては、「検索状態」「商品リスト表示状態」などが挙げられる。意図理解器３０は、音声認識結果「お米を買いたい」の意図を、アプリケーション状態に応じて解釈する。意図理解器３０からエージェント１０には、意図解釈結果が提供され、エージェント１０は、意図解釈結果に応じた処理として、サーバ装置（ＥＣサイト）４０に対して、検索キーに「お米」を設定する処理を指示する。

　サーバ装置（ＥＣサイト）４０においては、検索履歴１３２および購入履歴１３３の少なくともいずれか一方に基づいて、候補リストＫ１３を生成し、候補リストＫ１３をエージェント１０に提供する。エージェント１０においては、候補リストＫ１３がユーザに提供され、候補リストＫ１３に含まれる複数の候補ワードのいずれかの発話を受け付ける。ここでは、候補ワード「２キロ」がユーザによって発話されたとする。

　提供部１２３は、候補ワード（２キロ）を検索キーに追加し、検索キー「お米，候補ワード（２キロ）」をサーバ装置（ＥＣサイト）４０に提供する。サーバ装置（ＥＣサイト）４０においては、検索キー「お米，候補ワード（２キロ）」を用いた検索が実行され、検索結果がエージェント１０に提供される。エージェント１０においては、提供部１２３が、検索結果と検索結果件数とをユーザに提供する。

　続いて、ＥＣサイトを利用した商品の購入に係るエージェント１０の動作例を説明する。図１９は、ＥＣサイトを利用した商品の購入に係るエージェント１０の動作例を示すフローチャートである。図１９に示すように、ユーザ発話による指定商品の購入指示がなされると（Ｓ４１）、ユーザ発話による指定商品名の抽出がなされる（Ｓ４２）。エージェント１０においては、指定商品名による検索結果が取得される（Ｓ４３）。

　エージェント１０は、検索結果件数が「０件」である場合には、商品名の入力を促すメッセージ「お探しの商品はありません。再度ご指定ください。」をユーザに提供する（Ｓ４５）。エージェント１０は、商品名の入力待ちを経て（Ｓ４６）、Ｓ４２に移行する。一方、エージェント１０は、検索結果件数が「１件以上」である場合には、指定商品リストを表示し（Ｓ４４）、指定商品名に対応する候補ワードがない場合には、Ｓ５１に移行し、指定商品名に対応する候補ワードがある場合には、Ｓ６１に移行する。

　エージェント１０は、指定商品名に対応する候補ワードがない場合には、ユーザに対する購入の意志を確認し（Ｓ５１）、購入の意志が確認されたら購入処理を行い（Ｓ５２）、次の商品を促す発話を行い（Ｓ５３）、Ｓ４６に移行する。一方、エージェント１０は、指定商品名に対応する候補ワードがある場合には、候補ワードの表示を行い（Ｓ６１）、ユーザ発話の入力待ちをする（Ｓ６２）。ユーザ発話の入力があると、エージェント１０は、ユーザ発話の意図チェックを行う（Ｓ６３）。

　エージェント１０は、ユーザ発話に候補ワードとマッチする入力ワードが含まれない場合には、ユーザ発話が一般会話であると解釈し、商品の絞り込みを促す発話を行って（Ｓ６４）、Ｓ６２に移行する。一方、エージェント１０は、ユーザ発話に候補ワードとマッチする入力ワードが含まれる場合には、既に検索が開始されている商品名に当該候補ワードを絞り込みキーとして追加し、Ｓ４３に移行する。その他の場合（例えば、商品よりも上位カテゴリと一致する発話がなされた場合）、エージェント１０は、既に検索が開始されている商品名とは異なる商品名を改めてユーザに指定させ、Ｓ４２に移行する。

　続いて、ＥＣサイトを利用した商品の購入に係るシステム全体の動作例を説明する。図２０は、ＥＣサイトを利用した商品の購入に係るシステム全体の動作例を示すシーケンス図である。エージェント１０は、音声処理部およびＵＩ部を有している。図２０に示すように、ユーザが「ＸＸＸを買いたい」と発話した場合を想定する（Ｓ７１）。このとき、エージェント１０には、ユーザ発話「ＸＸＸを買いたい」が入力され、音声処理部においてユーザ発話「ＸＸＸを買いたい」から商品名「ＸＸＸ」が抽出される。音声処理部は、ＵＩ部にＥＣサイトの起動指示と商品名「ＸＸＸ」とを出力し（Ｓ７２）、ＵＩ部は、ＥＣサイトの起動指示を受け付けると、商品名「ＸＸＸ」を含んだ検索情報をサーバ装置（ＥＣサイト）４０に出力する（Ｓ７３）。

　サーバ装置（ＥＣサイト）４０は、商品名「ＸＸＸ」によって検索を実行し、検索結果と商品名「ＸＸＸ」に対応する候補ワードとをＵＩ部に返信する（Ｓ７４）。ＵＩ部は、検索結果を表示するとともに（Ｓ７５）、候補ワードを表示し、検索結果件数と候補ワードとを音声処理部に出力する（Ｓ７６）。音声処理部は、絞り込みキーの入力を促すガイダンス「ＸＸＸに対する絞り込みキーを入力してください」を発話し（Ｓ７７）。ユーザ発話があるまで待機する。

　ユーザによって「ＹＹＹ」が発話されると（Ｓ８１）、音声処理部は、「ＹＹＹ」が候補ワードであるか否かを確認する（Ｓ８２）。なお、「ＹＹＹ」が候補ワードであるか否かの確認は、サーバ装置（ＥＣサイト）４０によってなされてもよい。音声処理部は、「ＹＹＹ」が候補ワードである場合、商品名「ＸＸＸ」と候補ワード「ＹＹＹ」とをＵＩ部に出力し、ＵＩ部は、検索キー「ＸＸＸ＋ＹＹＹ」を含んだ検索情報をサーバ装置（ＥＣサイト）４０に出力する（Ｓ８４）。サーバ装置（ＥＣサイト）４０は、検索キー「ＸＸＸ＋ＹＹＹ」によって検索を実行し、検索結果と検索キー「ＸＸＸ＋ＹＹＹ」に対応する候補ワードとをＵＩ部に返信する（Ｓ８５）。

　　（１．３．８．属性情報の選択）
　上記では、ユーザが発する音声によって検索キーを生成する例を説明した。しかし、ユーザが発する音声から認識されるテキストだけでは、そのテキストが何を意味しているかを判断するのが難しいこともある。図２１は、一般的に検索に利用される画面Ｇ９０の例を示す図である。図２１に示すように、画面Ｇ９０には、マイクアイコンＧ４１が含まれている。ユーザによってマイクアイコンＧ４１が選択され、音声「ベートーベン」が入力されると、音声「ベートーベン」が認識され、「ベートーベン」によって検索がなされる。

　しかし、「ベートーベン」は、楽曲、アルバムおよびバンドのいずれにも該当してしまう。仮に、楽曲、アルバムおよびバンドすべてに対して検索を行うと、楽曲、アルバムおよびバンドそれぞれに対する検索結果が得られるため、ボタンＧ５１～Ｇ５３のいずれかの選択によって絞り込みを行う必要が生じる。そこで、以下では、楽曲、アルバムおよびバンドといった属性情報を容易に選択することを可能にする技術について説明する。

　なお、以下では、非音声入力部１１４が、表示部１５０によって画面表示がなされるタッチパネルを含み、各種操作を検出する場合を主に想定する。しかし、非音声入力部１１４は、タッチパネルに限定されない。例えば、非音声入力部１１４は、押下操作を検出可能なボタンを含んでもよい。あるいは、非音声入力部１１４は、撮像画像から認識したジェスチャまたは視線から各種操作を検出可能な撮像装置を含んでもよい。あるいは、非音声入力部１１４は、ユーザの動きから各種操作を検出可能なモーションセンサ（加速度センサ、ジャイロセンサなど）を含んでもよい。

　図２２は、属性情報の選択例を説明するための図である。図２２に示すように、画面Ｇ１０－１は、マイクアイコン（第１の音声入力部）Ｇ４１と音声入力「ベートーベン」に関連付けられた属性情報（楽曲、アルバムおよびバンド）に応じたボタン（第２の音声入力部）Ｇ５１～Ｇ５３とを含んでいる。属性情報は少なくとも１つ存在すればよい。ユーザは、非音声入力部１１４への入力（タッチ操作）によって、属性情報のいずれかを選択可能である。

　あるいは、図２２に示すように、マイクアイコンＧ４１を含む画面Ｇ１０－３が表示され、マイクアイコンＧ４１が選択されている間、マイクアイコンＧ４１の隣接する位置に、音声入力「ベートーベン」に関連付けられた属性情報に応じたボタンＧ５１～Ｇ５３が表示されてもよい（画面Ｇ１０－４）。表示されるボタンＧ５１～Ｇ５３は、あらかじめ決められていてもよいし、ユーザの好みに依存して決定されてもよい。ユーザは、マイクアイコンＧ４１からボタンＧ５１～Ｇ５３のいずれかに至るまでフリック操作を行うことによって、属性情報のいずれかを選択可能である。

　データ取得部１２１は、画面Ｇ１０－１または画面Ｇ１０－４において属性情報のいずれかが選択された場合、選択された属性情報に対応する１または複数の候補ワードを含む候補リストを取得する。例えば、属性情報「アルバム」が選択された場合、属性情報「アルバム」に対応する候補リストＫ１３を取得する。画面Ｇ１０－２は、候補リストＫ１３を含んでいる。

　ユーザは、属性情報「アルバム」に対応する候補リストＫ１３を参照して発話を行うことが可能である。ユーザ発話に対して音声認識処理がなされると、提供部１２３は、属性情報「アルバム」に対応する候補リストＫ１３に基づいて、音声認識結果の意図解釈結果に基づく処理結果をユーザに提供する。例えば、属性情報「アルバム」に対応する候補リストＫ１３に含まれる候補ワードのいずれかが発話された場合、その候補ワードの意図解釈に基づく処理結果がユーザに提供される。

　続いて、ＥＣサイトを利用した楽曲の配信に係るシステム全体の動作例を説明する。図２３は、ＥＣサイトを利用した楽曲の配信に係るシステム全体の動作例を示すシーケンス図である。エージェント１０は、音声処理部およびＵＩ部を有している。図２３に示すように、ユーザがアーティストボタンを押下した場合を想定する（Ｓ９１）。ＧＵＩ部は、ユーザ発話からアーティスト名を抽出するように指示を出す（Ｓ９２）。

　続いて、ユーザがアーティスト名「ベートーベン」を発話した場合を想定する（Ｓ９３）。このとき、音声処理部は、このとき、エージェント１０には、ユーザ発話「ベートーベン」が入力され、音声処理部においてユーザ発話「ベートーベン」からアーティスト名「ベートーベン」が抽出される。音声処理部は、ＵＩ部にＥＣサイトの起動指示とアーティスト名「ベートーベン」とアーティストを示す情報とを出力し（Ｓ９４）、ＵＩ部は、ＥＣサイトの起動指示を受け付けると、アーティスト名「ベートーベン」とアーティストを示す情報とを含んだ検索情報をサーバ装置（ＥＣサイト）４０に出力する（Ｓ９５）。

　サーバ装置（ＥＣサイト）４０は、アーティスト名「ベートーベン」によって検索を実行し、検索結果とアーティスト名「ベートーベン」に対応する候補ワードとをＵＩ部に返信する（Ｓ９６）。ＵＩ部は、検索結果を表示するとともに（Ｓ９７）、候補ワードを表示し、検索結果件数と候補ワードとを音声処理部に出力する（Ｓ９８）。音声処理部は、絞り込みキーの入力を促すガイダンス「ベートーベンに対する絞り込みキーを入力してください」を発話し（Ｓ９９）。ユーザ発話があるまで待機する。

　ユーザによって楽曲ボタンが押下され（Ｓ１０１）、ユーザによって「ＢＢＢ」が発話されると（Ｓ１０２）、音声処理部は、「ＢＢＢ」が候補ワードであるか否かを確認する。なお、「ＢＢＢ」が候補ワードであるか否かの確認は、サーバ装置（ＥＣサイト）４０によってなされてもよい。音声処理部は、「ＢＢＢ」が候補ワードである場合、アーティスト名「ベートーベン」と候補ワード「ＢＢＢ」と楽曲を示す情報とをＵＩ部に出力し、ＵＩ部は、検索キー「ベートーベン＋ＢＢＢ」と楽曲を示す情報とを含んだ検索情報をサーバ装置（ＥＣサイト）４０に出力する（Ｓ１０４）。サーバ装置（ＥＣサイト）４０は、検索キー「ベートーベン＋ＢＢＢ」によって検索を実行し、検索結果と検索キー「ベートーベン＋ＢＢＢ」に対応する候補ワードとをＵＩ部に返信する（Ｓ１０５）。

　ＵＩ部は、検索結果を表示するとともに（Ｓ１０６）、候補ワードを表示し、検索結果件数と候補ワードとを音声処理部に出力する。音声処理部は、楽曲データの選択を促すガイダンスを発話し。ユーザ発話があるまで待機する。ユーザによって楽曲データが選択され、再生指示がなされると（Ｓ１０７）、ＵＩ部は、楽曲データの配信をサーバ装置（ＥＣサイト）４０に指示し（Ｓ１０８）、サーバ装置（ＥＣサイト）４０は、楽曲データをＵＩ部に配信する（Ｓ１０９）。

　なお、上記では、属性情報が一度選択される場合を主に想定している。しかし、複数の属性情報が階層的に構成されている場合も想定される。かかる場合には、ある属性情報の選択に続いて、当該属性情報に関連する属性情報が選択可能であってもよい。図２４は、複数の属性情報が階層的に構成されている場合を説明するための図である。具体的には、属性情報「料理名」に対して、属性情報「中華」「フレンチ」が関連している。

　このような場合には、図２４に示すように、マイクアイコンＧ４１が選択されている間、マイクアイコンＧ４１の隣接する位置に、音声入力「ベートーベン」に関連付けられた属性情報に応じたボタンＧ６１～Ｇ６３が表示されてもよい（画面Ｇ１０－５）。ユーザは、マイクアイコンＧ４１からボタンＧ６１～Ｇ６３のいずれかに至るまでフリック操作を行うことによって、属性情報のいずれかを選択可能である。そして、ボタンＧ６１が選択されたとする。

　かかる場合、図２４に示すように、ボタンＧ６１が選択されている間、ボタンＧ６１の隣接する位置に、属性情報「料理名」に関連付けられた属性情報に応じたボタンＧ７１～Ｇ７２が表示されてもよい（画面Ｇ１０－６）。ユーザは、ボタンＧ６１からボタンＧ７１～Ｇ７２のいずれかに至るまでフリック操作を行うことによって、属性情報「中華」「フレンチ」のいずれかを選択可能である。そして、ボタンＧ７１が選択されたとする。

　かかる場合には、属性情報「料理名」と属性情報「中華」とが選択されたことになる。そのため、これらの属性情報「料理名，中華」に対応する候補リストは、単に属性情報「料理名」に対応する候補リストよりも、絞り込み度合いが強まると考えられる。したがって、よりユーザの望む候補ワードがユーザに提供され得る。図２５は、検索対象と検索対象に対応する属性情報（フリックによる表示内容）の例を示す図である。

　上記した例では、ユーザによって音声入力がなされる例を説明した。しかし、音声入力がなされる場合に限らず、手動によって入力された検索キーに基づいて検索がなされる場合にも、同様な手法が適用され得る。図２６は、手動によって入力された検索キーに基づいて検索がなされる場合を説明するための図である。

　図２６を参照すると、図２４に示したマイクアイコンＧ４１の代わりに、検索アイコンＧ４２が表示されている。図２６に示した例においても、図２４に示した例と同様に、フリック操作によって属性情報が選択され、選択された属性情報に対応する候補リストがユーザに提供され得る。ユーザは、属性情報に対応する候補リストに含まれる候補ワードのいずれかを、新たな検索キーとして選択することが可能である。

　　（１．３．９．補足情報のアナウンス）
　ここで、意図解釈結果に基づく処理に画像情報のロードが含まれる場合が想定される。かかる場合には、画像情報がロードされている時間が有効に利用されるとよい。図２７は、画像情報がロード時間の例を示す図である。図２７に示す例においては、意図解釈結果に基づく処理として、メインキー「お米」に対して、絞り込みキー「ＸＸＸ（銘柄）」を追加する処理が実行される場合を想定している。

　この意図解釈結果に基づく処理に画像情報のロードが含まれる場合、画像情報がロードされている時間が有効に利用されるとよい。例えば、提供部１２３は、意図解釈結果に基づく処理に画像情報のロードが含まれる場合、画像情報のロード中に、意図解釈結果に含まれる入力ワード（例えば、「お米」など）に対応する所定の補足情報を音声情報としてユーザに提供してもよい。補足情報は特に限定されないが、「お米」の絞り込みを価格が安い順に行うことができるといった情報などであってよい。

　以上、本実施形態に係るエージェント１０の機能詳細について説明した。

　［１．４．ハードウェア構成例］
　次に、図２８を参照して、本開示の実施形態に係る情報処理装置（エージェント）１０のハードウェア構成について説明する。図２８は、本開示の実施形態に係る情報処理装置１０のハードウェア構成例を示すブロック図である。

　図２８に示すように、情報処理装置１０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　ｕｎｉｔ）９０１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）９０３、およびＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）９０５を含む。また、情報処理装置１０は、ホストバス９０７、ブリッジ９０９、外部バス９１１、インターフェース９１３、入力装置９１５、出力装置９１７、ストレージ装置９１９、ドライブ９２１、接続ポート９２３、通信装置９２５を含んでもよい。さらに、情報処理装置１０は、必要に応じて、撮像装置９３３、およびセンサ９３５を含んでもよい。情報処理装置１０は、ＣＰＵ９０１に代えて、またはこれとともに、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）またはＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）と呼ばれるような処理回路を有してもよい。

　ＣＰＵ９０１は、演算処理装置および制御装置として機能し、ＲＯＭ９０３、ＲＡＭ９０５、ストレージ装置９１９、またはリムーバブル記録媒体９２７に記録された各種プログラムに従って、情報処理装置１０内の動作全般またはその一部を制御する。ＲＯＭ９０３は、ＣＰＵ９０１が使用するプログラムや演算パラメータなどを記憶する。ＲＡＭ９０５は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。ＣＰＵ９０１、ＲＯＭ９０３、およびＲＡＭ９０５は、ＣＰＵバスなどの内部バスにより構成されるホストバス９０７により相互に接続されている。さらに、ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（Ｐｅｒｉｐｈｅｒａｌ　Ｃｏｍｐｏｎｅｎｔ　Ｉｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９１１に接続されている。

　入力装置９１５は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置９１５は、ユーザの音声を検出するマイクロフォンを含んでもよい。入力装置９１５は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置１０の操作に対応した携帯電話などの外部接続機器９２９であってもよい。入力装置９１５は、ユーザが入力した情報に基づいて入力信号を生成してＣＰＵ９０１に出力する入力制御回路を含む。ユーザは、この入力装置９１５を操作することによって、情報処理装置１０に対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置９３３も、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。

　出力装置９１７は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置９１７は、例えば、ＬＣＤ（Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）、ＰＤＰ（Ｐｌａｓｍａ　Ｄｉｓｐｌａｙ　Ｐａｎｅｌ）、有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などであり得る。出力装置９１７は、情報処理装置１０の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。また、出力装置９１７は、周囲を明るくするためライトなどを含んでもよい。

　ストレージ装置９１９は、情報処理装置１０の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９は、例えば、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置９１９は、ＣＰＵ９０１が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。

　ドライブ９２１は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体９２７のためのリーダライタであり、情報処理装置１０に内蔵、あるいは外付けされる。ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録されている情報を読み出して、ＲＡＭ９０５に出力する。また、ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録を書き込む。

　接続ポート９２３は、機器を情報処理装置１０に直接接続するためのポートである。接続ポート９２３は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）ポートなどであり得る。また、接続ポート９２３は、ＲＳ－２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（Ｈｉｇｈ－Ｄｅｆｉｎｉｔｉｏｎ　Ｍｕｌｔｉｍｅｄｉａ　Ｉｎｔｅｒｆａｃｅ）ポートなどであってもよい。接続ポート９２３に外部接続機器９２９を接続することで、情報処理装置１０と外部接続機器９２９との間で各種のデータが交換され得る。

　通信装置９２５は、例えば、通信ネットワーク９３１に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置９２５は、例えば、有線または無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、またはＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カードなどであり得る。また、通信装置９２５は、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、または、各種通信用のモデムなどであってもよい。通信装置９２５は、例えば、インターネットや他の通信機器との間で、ＴＣＰ／ＩＰなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置９２５に接続される通信ネットワーク９３１は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信などである。

　撮像装置９３３は、例えば、ＣＣＤ（Ｃｈａｒｇｅ　Ｃｏｕｐｌｅｄ　Ｄｅｖｉｃｅ）またはＣＭＯＳ（Ｃｏｍｐｌｅｍｅｎｔａｒｙ　Ｍｅｔａｌ　Ｏｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置９３３は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。

　センサ９３５は、例えば、測距センサ、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ９３５は、例えば情報処理装置１０の筐体の姿勢など、情報処理装置１０自体の状態に関する情報や、情報処理装置１０の周辺の明るさや騒音など、情報処理装置１０の周辺環境に関する情報を取得する。また、センサ９３５は、ＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）信号を受信して装置の緯度、経度および高度を測定するＧＰＳセンサを含んでもよい。

　［１．５．補足］
　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　　（１．５．１．計算における変形例の詳細）
　エージェント１０は、計算において音声認識をする場合、ＥＣサイトにおけるサジェスチョンと同様に、認識したキーワードに応じて数学記号を予測表示してもよい。この変形例においては、エージェント１０は、認識したキーワードに応じて、数学記号や数値等の計算に関連するキーワードのみを認識してもよい。

　　（１．５．２．補足事項１）
　本開示の実施形態は、特定の装置、方法、プログラム、システムおよび記録媒体等に適用されてよい。例えば、コンピュータに内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアを、上記した制御部１２０が有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。

　また、音声は、ユーザが接している端末から直接／間接的に取得され得る。また、音声認識結果の意図解釈は、端末／クラウドコンピューティングのいずれが実施してもよい。音声認識結果の意図解釈に限られず、各種処理はクラウドコンピューティング等の端末外部の処理部で実行されてよい。具体的な一例として、認識部１２２などは、通信ネットワーク９３１を介して接続された図示しないサーバなどに設けられてもよい。この場合には、エージェント１０が当該サーバに通信ネットワーク９３１を介して接続されたクライアントに相当し得る。

　　（１．５．３．補足事項２）
　本開示の実施形態および変形例によれば、例えば、文章作成のための音声入力がなされたのか、あるいは、エージェント１０への音声指示がなされたのかを判別することができる。文章作成の一例としては、小説の執筆やビジネス文書の作成が挙げられる。

　　（１．５．４．補足事項３）
　本開示の実施形態においては、実空間の画像認識情報に基づいて意図解釈モードが決定されてもよい。実空間の画像認識情報が取得される場合、ユーザのジェスチャ、実オブジェクトを含む環境情報に基づいて意図解釈モードが決定されてもよい。また、画像認識情報に含まれる特定用途の実オブジェクトに基づいて意図解釈モードが決定されてもよい。特定の実オブジェクトは、家電、調理器具等の一般家庭に備えられた実オブジェクトに限定されない。例えば、医療器具等の特殊用途の実オブジェクトが認識されてもよい。

　あるいは、ユーザによる端末のボタン操作情報に基づいて意図解釈モードが決定されてもよい。

　　（１．５．５．補足事項４）
　あるいは、特定機器に関連した情報に基づいて、意図解釈モードが決定されてもよい。このようなケースとしては、いわゆる家庭内におけるＩｏＴの例が挙げられる。あるいは、特定の機器間で連携して処理が行われるケースにおいては、連携している機器の状態情報に基づいて、意図解釈入力モードが決定されてもよい。例えば、起動している機器（例えば、コーヒーメーカー、炊飯器など）に対応する意図解釈モードが決定されてもよい。ここで、機器間の連携は、有線／無線のいずれであってもよい。

　　（１．５．６．補足事項５）
　本開示の実施形態は、医療用途にも適用され得る。医療用途においては、手術中等においてユーザが非接触で端末を操作入力する需要があるため、スムーズにキーワードが認識されることが有効である。また、非接触で操作入力できることは、感染症予防の観点からも有効である。

　　（１．５．７．補足事項６）
　また、本開示の実施形態は、医療用途以外にも、工場、車両、農業等に適用され得る。例えば、車両、特に乗用車においては、車両の走行状態情報（速度、加速度、温度、ＳＯＣ（Ｓｔａｔｅ　ｏｆ　Ｃｈａｒｇｅ）、燃料の残量等）、ナビゲーション情報、車両内の音情報（音声、音楽等）等に基づいて、意図解釈モードが決定されてよい。例えば、車両が走行状態であるときには、主に道路交通情報、地図情報に関するキーワードが認識されるようにしてもよい。車両が停止状態であるときのみ、音楽等のエンターテイメントに関連したキーワードが認識されてもよい。車両のコンポーネントのいずれかに異常がある場合には、異常に関連したキーワードが認識されてもよい。

　　（１．５．８．補足事項７）
　また、複数のユーザの属性情報を取得した場合、ユーザそれぞれの属性情報に応じて認識されるキーワードが切り替えられてもよい。すなわち、ある時点において、ユーザごとに異なる意図解釈モードが設定されていてもよい。

　　（１．５．９．補足事項８）
　認識されたキーワードと認識されなかったキーワードが区別されて表示されてもよい。この場合、認識されなかったキーワードは、ユーザにわずかでも視認できる程度の視認性を有していればよい。例えば、認識されたキーワードの視認性が、認識されなかったキーワードの視認性よりも大きく設定されてもよい。この場合、例えば、視認性は、明度、輝度、サイズ、あるいは、太さの変更によって変更されてよい。例えば、視認性の変更には、フォント種類の変更、フォント彩度（色）の変更、フォントサイズの変更、太字、斜体、下線等の表示処理の付加、フォントに対するアニメーションの付加等、種々の方法が採用されてよい。

　　（１．５．１０．補足事項９）
　エージェント１０は、視覚情報と音声情報の少なくとも一方を用いて意図解釈モードを示す情報を提供する。また、エージェント１０は、提供している／提供した意図解釈モードを示す情報に基づいて、音声認識に応じて提供する意図解釈結果を異ならせる。この場合、意図解釈結果は、視覚情報と音声情報の少なくとも一方を用いて提供されればよい。エージェント１０は、意図解釈モードを示す情報が異なる場合、提供する意図解釈結果の少なくとも一部を異ならせる。

　エージェント１０は、意図解釈モードを示す情報に基づいて、意図解釈結果の視覚情報を提供する。エージェント１０は、意図解釈モードが異なる場合、音声認識に応じて提供する意図解釈結果の少なくとも一部を異ならせる。この場合、意図解釈モードを示す情報は、視覚情報と音声情報の少なくとも一方を用いてユーザに提供されてもよいが、ユーザに提供されなくてもよい。すなわち、設定されている意図解釈モードを示す情報が取得されればよく、取得された意図解釈モードを示す情報はユーザに提供されなくてもよい。

　　（１．５．１１．補足事項１０）
　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。

　　（１．５．１２．補足事項１１）
　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　表示装置によって表示される表示情報に関連する関連情報を取得するデータ取得部と、
　前記関連情報に応じて音声認識結果の意図解釈がなされると、意図解釈結果に基づく処理結果をユーザに提供する提供部と、
　を備える、情報処理装置。
（２）
　前記表示情報は、第１の関連情報と関連する第１の表示情報および第２の関連情報と関連する第２の表示情報の少なくとも一方を含み、
　前記第１の関連情報に応じた意図解釈結果と、前記第１の関連情報とは異なる前記第２の関連情報に応じた意図解釈結果とは異なる、
　前記（１）に記載の情報処理装置。
（３）
　前記提供部は、前記関連情報に応じて音声認識結果の意図解釈モードが決定されると、前記意図解釈モードを示す情報をユーザに提供する、
　前記（１）または（２）に記載の情報処理装置。
（４）
　前記意図解釈モードを示す情報は、キャラクタ画像、アイコン画像、背景画像およびＢＧＭのうち少なくともいずれか一つを含む、
　前記（３）に記載の情報処理装置。
（５）
　前記提供部は、前記処理結果を、視覚情報および音声情報の少なくとも一方によって前記ユーザに提供する、
　前記（１）～（４）のいずれか一項に記載の情報処理装置。
（６）
　前記提供部は、前記ユーザが前記表示情報を見ている場合と、前記ユーザが前記表示情報を見ていない場合とにおいて、異なる音声情報を前記ユーザに提供する、
　前記（５）に記載の情報処理装置。
（７）
　前記提供部は、前記ユーザが前記表示情報を見ていない場合には、前記ユーザが前記表示情報を見ている場合よりも、詳細な音声情報を前記ユーザに提供する、
　前記（６）に記載の情報処理装置。
（８）
　前記提供部は、前記ユーザが前記表示情報を見ている場合には、前記処理結果を少なくとも視覚情報として前記ユーザに提供し、前記ユーザが前記表示情報を見ていない場合には、前記視覚情報に対応する音声情報を前記詳細な音声情報として前記ユーザに提供する、
　前記（７）に記載の情報処理装置。
（９）
　前記データ取得部は、前記関連情報に応じて第１の音声認識結果の意図解釈がなされると、意図解釈結果に含まれる第１の入力ワードに対応する１または複数の候補ワードを含む候補リストを取得し、
　前記提供部は、前記候補リストに基づいて、前記第１の音声認識結果の後に取得される第２の音声認識結果の意図解釈結果に基づく処理結果を前記ユーザに提供する、
　前記（１）～（８）のいずれか一項に記載の情報処理装置。
（１０）
　前記提供部は、前記第２の音声認識結果に含まれる第２の入力ワードが前記候補リストに含まれている場合、かつ、前記第２の音声認識結果に前記第２の入力ワードの処理に関する指示ワードが含まれていない場合、前記第２の入力ワードに応じた意図解釈結果に基づく処理結果を前記ユーザに提供する、
　前記（９）に記載の情報処理装置。
（１１）
　前記提供部は、前記第２の音声認識結果に含まれる第２の入力ワードが前記候補リストに含まれていない場合、かつ、前記第２の音声認識結果に前記第２の入力ワードの処理に関する指示ワードが含まれている場合、前記第２の入力ワードに応じた意図解釈結果に基づく処理結果を前記ユーザに提供する、
　前記（９）または（１０）に記載の情報処理装置。
（１２）
　前記提供部は、前記第２の音声認識結果に含まれる前記第２の入力ワードが前記候補リストに含まれていない場合、かつ、前記第２の音声認識結果に前記指示ワードが含まれていない場合、前記第２の入力ワードを無視する、
　前記（１０）または（１１）に記載の情報処理装置。
（１３）
　前記提供部は、前記候補リストの少なくとも一部を前記ユーザに提供し、
　前記提供部は、前記第２の音声認識結果の前に取得される第３の音声認識結果に属性情報が含まれる場合、前記属性情報に対応する前記候補リストの少なくとも一部を前記ユーザに提供する、
　前記（９）～（１１）のいずれか一項に記載の情報処理装置。
（１４）
　前記提供部は、前記候補リストの少なくとも一部を前記候補リストに対応する属性情報ごとに前記ユーザに提供する、
　前記（９）～（１１）のいずれか一項に記載の情報処理装置。
（１５）
　音声入力部と非音声入力部とを備え、
　前記データ取得部は、音声入力に関連付けられかつ前記表示装置によって表示されている少なくとも１つの属性情報が前記非音声入力部への入力により選択された場合、前記選択された属性情報に対応する１または複数の候補ワードを含む候補リストを取得し、
　前記提供部は、前記候補リストに基づいて、前記音声認識結果の意図解釈結果に基づく処理結果を前記ユーザに提供する、
　前記（１）～（８）のいずれか一項に記載の情報処理装置。
（１６）
　前記非音声入力部はタッチパネルであり、
　前記表示装置は、前記タッチパネルに第１の音声入力部を表示し、
　前記タッチパネルへのタッチ操作により前記第１の音声入力部が選択されている間、前記第１の音声入力部の隣接する位置に、前記属性情報に応じた少なくとも１つの第２の音声入力部を表示する、
　前記（１５）に記載の情報処理装置。
（１７）
　前記提供部は、前記音声認識結果に含まれる入力ワードが前記関連情報に対応している場合にのみ、前記処理結果を前記ユーザに提供する、
　前記（１）～（１６）のいずれか一項に記載の情報処理装置。
（１８）
　前記提供部は、前記意図解釈結果に基づく処理に画像情報のロードが含まれる場合、前記画像情報のロード中に、前記意図解釈結果に含まれる入力ワードに対応する所定の補足情報を音声情報として前記ユーザに提供する、
　前記（１）～（１７）のいずれか一項に記載の情報処理装置。
（１９）
　表示装置によって表示される表示情報に関連する関連情報を取得することと、
　前記関連情報に応じて音声認識結果の意図解釈がなされると、プロセッサにより、意図解釈結果に基づく処理結果をユーザに提供することと、
　を含む、情報処理方法。
（２０）
　コンピュータを、
　表示装置によって表示される表示情報に関連する関連情報を取得するデータ取得部と、
　前記関連情報に応じて音声認識結果の意図解釈がなされると、意図解釈結果に基づく処理結果をユーザに提供する提供部と、
　を備える情報処理装置として機能させるためのプログラム。

　１０　　情報処理装置（エージェント）
　１１１　音出力部
　１１３　音声入力部
　１１４　非音声入力部
　１１５　距離検出部
　１２０　制御部
　１２１　データ取得部
　１２２　認識部
　１２３　提供部
　１２４　処理部
　１３０　記憶部
　１３１　辞書
　１３２　検索履歴
　１３３　購入履歴
　１４０　通信部
　１５０　表示部
　３０　　意図理解器
　４０　　サーバ装置

Claims

　表示装置によって表示される表示情報に関連する関連情報を取得するデータ取得部と、
　前記関連情報に応じて音声認識結果の意図解釈がなされると、意図解釈結果に基づく処理結果をユーザに提供する提供部と、
　を備える、情報処理装置。
　前記表示情報は、第１の関連情報と関連する第１の表示情報および第２の関連情報と関連する第２の表示情報の少なくとも一方を含み、
　前記第１の関連情報に応じた意図解釈結果と、前記第１の関連情報とは異なる前記第２の関連情報に応じた意図解釈結果とは異なる、
　請求項１に記載の情報処理装置。
　前記提供部は、前記関連情報に応じて音声認識結果の意図解釈モードが決定されると、前記意図解釈モードを示す情報をユーザに提供する、
　請求項１に記載の情報処理装置。
　前記意図解釈モードを示す情報は、キャラクタ画像、アイコン画像、背景画像およびＢＧＭのうち少なくともいずれか一つを含む、
　請求項３に記載の情報処理装置。
　前記提供部は、前記処理結果を、視覚情報および音声情報の少なくとも一方によって前記ユーザに提供する、
　請求項１に記載の情報処理装置。
　前記提供部は、前記ユーザが前記表示情報を見ている場合と、前記ユーザが前記表示情報を見ていない場合とにおいて、異なる音声情報を前記ユーザに提供する、
　請求項５に記載の情報処理装置。
　前記提供部は、前記ユーザが前記表示情報を見ていない場合には、前記ユーザが前記表示情報を見ている場合よりも、詳細な音声情報を前記ユーザに提供する、
　請求項６に記載の情報処理装置。
　前記提供部は、前記ユーザが前記表示情報を見ている場合には、前記処理結果を少なくとも視覚情報として前記ユーザに提供し、前記ユーザが前記表示情報を見ていない場合には、前記視覚情報に対応する音声情報を前記詳細な音声情報として前記ユーザに提供する、
　請求項７に記載の情報処理装置。
　前記データ取得部は、前記関連情報に応じて第１の音声認識結果の意図解釈がなされると、意図解釈結果に含まれる第１の入力ワードに対応する１または複数の候補ワードを含む候補リストを取得し、
　前記提供部は、前記候補リストに基づいて、前記第１の音声認識結果の後に取得される第２の音声認識結果の意図解釈結果に基づく処理結果を前記ユーザに提供する、
　請求項１に記載の情報処理装置。
　前記提供部は、前記第２の音声認識結果に含まれる第２の入力ワードが前記候補リストに含まれている場合、かつ、前記第２の音声認識結果に前記第２の入力ワードの処理に関する指示ワードが含まれていない場合、前記第２の入力ワードに応じた意図解釈結果に基づく処理結果を前記ユーザに提供する、
　請求項９に記載の情報処理装置。
　前記提供部は、前記第２の音声認識結果に含まれる第２の入力ワードが前記候補リストに含まれていない場合、かつ、前記第２の音声認識結果に前記第２の入力ワードの処理に関する指示ワードが含まれている場合、前記第２の入力ワードに応じた意図解釈結果に基づく処理結果を前記ユーザに提供する、
　請求項９に記載の情報処理装置。
　前記提供部は、前記第２の音声認識結果に含まれる前記第２の入力ワードが前記候補リストに含まれていない場合、かつ、前記第２の音声認識結果に前記指示ワードが含まれていない場合、前記第２の入力ワードを無視する、
　請求項１０に記載の情報処理装置。
　前記提供部は、前記候補リストの少なくとも一部を前記ユーザに提供し、
　前記提供部は、前記第２の音声認識結果の前に取得される第３の音声認識結果に属性情報が含まれる場合、前記属性情報に対応する前記候補リストの少なくとも一部を前記ユーザに提供する、
　請求項９に記載の情報処理装置。
　前記提供部は、前記候補リストの少なくとも一部を前記候補リストに対応する属性情報ごとに前記ユーザに提供する、
　請求項９に記載の情報処理装置。
　音声入力部と非音声入力部とを備え、
　前記データ取得部は、音声入力に関連付けられかつ前記表示装置によって表示されている少なくとも１つの属性情報が前記非音声入力部への入力により選択された場合、前記選択された属性情報に対応する１または複数の候補ワードを含む候補リストを取得し、
　前記提供部は、前記候補リストに基づいて、前記音声認識結果の意図解釈結果に基づく処理結果を前記ユーザに提供する、
　請求項１に記載の情報処理装置。
　前記非音声入力部はタッチパネルであり、
　前記表示装置は、前記タッチパネルに第１の音声入力部を表示し、
　前記タッチパネルへのタッチ操作により前記第１の音声入力部が選択されている間、前記第１の音声入力部の隣接する位置に、前記属性情報に応じた少なくとも１つの第２の音声入力部を表示する、
　請求項１５に記載の情報処理装置。
　前記提供部は、前記音声認識結果に含まれる入力ワードが前記関連情報に対応している場合にのみ、前記処理結果を前記ユーザに提供する、
　請求項１に記載の情報処理装置。
　前記提供部は、前記意図解釈結果に基づく処理に画像情報のロードが含まれる場合、前記画像情報のロード中に、前記意図解釈結果に含まれる入力ワードに対応する所定の補足情報を音声情報として前記ユーザに提供する、
　請求項１に記載の情報処理装置。
　表示装置によって表示される表示情報に関連する関連情報を取得することと、
　前記関連情報に応じて音声認識結果の意図解釈がなされると、プロセッサにより、意図解釈結果に基づく処理結果をユーザに提供することと、
　を含む、情報処理方法。
　コンピュータを、
　表示装置によって表示される表示情報に関連する関連情報を取得するデータ取得部と、
　前記関連情報に応じて音声認識結果の意図解釈がなされると、意図解釈結果に基づく処理結果をユーザに提供する提供部と、
　を備える情報処理装置として機能させるためのプログラム。