JPWO2018034028A1

JPWO2018034028A1 - 情報処理装置

Info

Publication number: JPWO2018034028A1
Application number: JP2018534269A
Authority: JP
Inventors: 長坂　英夫; 英夫長坂
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-08-16
Filing date: 2017-05-11
Publication date: 2019-03-28
Anticipated expiration: 2037-05-11
Also published as: US20190163437A1; EP3502840A4; EP3502840B1; EP3502840A1; US10795641B2; JP2019075135A; JP6451907B2; WO2018034028A1

Abstract

【課題】発話に基いて処理が実行される場面における利便性を向上させることが可能な、情報処理装置、情報処理方法、およびプログラムを提案する。
【解決手段】集音された発話を取得する取得部と、現在の表示範囲に応じた第１の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、所定の処理を行う処理実行部と、を備える、情報処理装置。
【選択図】図９

Description

本開示は、情報処理装置、情報処理方法、およびプログラムに関する。

従来、例えばネットショッピングなどのＥＣ（ＥｌｅｃｔｒｏｎｉｃＣｏｍｍｅｒｃｅ）に関する技術が各種開発されている。

例えば、下記特許文献１には、ネットショッピングにおいてユーザが商品名を音声入力することにより、当該商品名の商品を購入可能とする技術が記載されている。

特開２０１４−２２９２７８号公報

しかしながら、特許文献１に記載の技術では、音声入力の利用時の利便性が低い。例えば、特許文献１に記載の技術では、入力された音声の音声認識結果のみに依存して、実行される処理が決定されてしまう。

そこで、本開示では、発話に基いて処理が実行される場面における利便性を向上させることが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。

本開示によれば、集音された発話を取得する取得部と、現在の表示範囲に応じた第１の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、所定の処理を行う処理実行部と、を備える、情報処理装置が提供される。

また、本開示によれば、集音された発話を取得することと、現在の表示範囲に応じた第１の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、プロセッサが所定の処理を行うことと、を含む、情報処理方法が提供される。

また、本開示によれば、コンピュータを、集音された発話を取得する取得部と、現在の表示範囲に応じた第１の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、所定の処理を行う処理実行部、として機能させるためのプログラムが提供される。

以上説明したように本開示によれば、発話に基いて処理が実行される場面における利便性を向上させることができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本開示の実施形態による情報処理システムの構成例を示した説明図である。同実施形態による処理定義ＤＢ３０の構成例を示した説明図である。同実施形態によるＥＣアプリを用いた商品の購入に関する全体的な処理の流れの一例を示したフローチャートである。同実施形態による検索結果表示画面の表示例を示した図である。同実施形態によるエージェント装置１０の構成例を示した機能ブロック図である。同実施形態による音声認識の一例を示した説明図である。同実施形態による検索結果表示画面の別の表示例を示した図である。同実施形態による複数の表示オブジェクトが選出された場合における問い合わせの情報の出力例を示した説明図である。同実施形態による複数の表示オブジェクトの表示例、および、表示オブジェクトを選び出すための発話の例を示した説明図である。同実施形態による複数の表示オブジェクトの中からの表示オブジェクトの選出例を示した説明図である。同実施形態による複数の表示オブジェクトの中からの表示オブジェクトの別の選出例を示した説明図である。同実施形態による複数の表示オブジェクトの中からの表示オブジェクトの別の選出例を示した説明図である。表示画面４０に対するスクロール操作と同時に発話が行われる例を示した説明図である。同実施形態による選出対象の表示範囲の例を示した説明図である。同実施形態による「現在の表示範囲」の例を示した説明図である。同実施形態による、表示オブジェクトを連続的に選び出す発話の例を示した説明図である。同実施形態による処理の流れの一部を示したシーケンス図である。同実施形態による処理の流れの一部を示したシーケンス図である。同実施形態の応用例による、発話に対する回答の情報の出力例を示した説明図である。同実施形態の応用例による、発話に基づいて複数のタスクが並行的に実行される例を示した説明図である。図２０に示した状況に対応する処理の流れを示した説明図である。同応用例による買い物メモのメイン画面の表示例を示した図である。同実施形態によるエージェント装置１０のハードウェア構成を示した説明図である。同実施形態の変形例による、スクロールのためのスライド操作と、マイクロフォンの起動のためのスライド操作との区別の例を示した説明図である。同変形例による、発話に基づくプレイリストの作成例を示した説明図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の構成を、必要に応じてエージェント装置１０ａおよびエージェント装置１０ｂのように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、エージェント装置１０ａおよびエージェント装置１０ｂを特に区別する必要が無い場合には、単にエージェント装置１０と称する。

また、以下に示す項目順序に従って当該「発明を実施するための形態」を説明する。
１．情報処理システムの構成
２．実施形態の詳細な説明
３．ハードウェア構成
４．変形例

＜＜１．情報処理システムの構成＞＞
まず、本開示の実施形態による情報処理システムの構成について、図１を参照して説明する。図１に示すように、当該情報処理システムは、エージェント装置１０、サーバ２０、および、通信網２２を含む。

＜１−１．サーバ２０＞
サーバ２０は、例えばＥＣサービスを管理するための装置である。サーバ２０は、例えば複数の事業者からＷｅｂページなどへ掲載することを依頼された複数の商品の情報を管理する。また、当該複数の商品の各々と、一または複数の表示オブジェクトとが関連付けられ得る。

ここで、表示オブジェクトは、表示される文字列、画像、および／または、ＧＵＩオブジェクトなどを一以上含み得る。なお、表示オブジェクトは、該当の表示オブジェクトに関連付けられている情報（メタデータ（例えば商品の詳細情報など）やリンク情報など）をさらに含んでもよい。なお、以下では、表示オブジェクトが、例えばＥＣサービスに関する表示画面（Ｗｅｂページなど）上に表示される例を中心に説明を行う。例えば、表示オブジェクトは、当該表示オブジェクトに対応する商品の名前や価格などの文字列、当該商品の画像、および、当該商品の購入用ボタンなどを含み得る。

＜１−２．エージェント装置１０＞
｛１−２−１．概要｝
エージェント装置１０は、本開示における情報処理装置の一例である。エージェント装置１０は、例えば所定の建物（例えばユーザの自宅など）内の机、壁、または、天井などに配置され得る。但し、かかる例に限定されず、エージェント装置１０は、携帯型の装置であってもよい。

このエージェント装置１０は、ユーザの発話などの音を集音すること、および、集音された音声の音声認識を行うことが可能である。例えば、エージェント装置１０は、集音された発話に対して音声認識を行い、そして、音声認識結果から得られる文字列の意味を解析することが可能である。

また、エージェント装置１０は、画像を表示する機能を有する。例えば、図１に示すように、エージェント装置１０は、画像を投影面２４上に投影することが可能である。

また、エージェント装置１０は、撮影部（図示省略）を有し得る。そして、エージェント装置１０は、例えば投影面２４の方向を撮影した画像に基いて、投影面２４に対するユーザのタッチ操作などを認識することが可能である。

また、エージェント装置１０は、ユーザがＥＣ（ＥｌｅｃｔｒｏｎｉｃＣｏｍｍｅｒｃｅ）サービスを利用するためのアプリケーション（以下、ＥＣアプリと称する）を実装することが可能である。エージェント装置１０は、このＥＣアプリを用いて、サーバ２０に登録されている複数の商品の各々に対応する表示オブジェクトの一覧を後述する通信網２２を介してサーバ２０から受信し、表示することが可能である。また、エージェント装置１０は、例えばユーザの自然発話やタッチ入力などに基いて、複数の表示オブジェクトの中から一部の表示オブジェクトのみを選び出して表示したり、または、表示オブジェクトの並び順を変更することが可能である。例えば、エージェント装置１０は、ユーザの発話から特定される検索キーワードを通信網２２を介してサーバ２０へ送信し、そして、サーバ２０から受信される検索結果に基いて当該複数の表示オブジェクトのうちの一部の表示オブジェクトのみを表示する。これにより、ユーザは、表示される複数の表示オブジェクトの各々に対応する商品の中から（ＥＣサービスを介した）購入希望の商品を絞り込むことができる。

図２は、ＥＣアプリに関して、ユーザの発話の種類と、当該発話の音声データの取得時にエージェント装置１０が実行する処理の種類とが定義された処理定義ＤＢ３０の構成例を示した説明図である。図２に示したように、例えば、処理定義ＤＢ３０では、シーンと、発話の種類と、当該発話の音声データの取得時にエージェント装置１０が実行する処理の種類とが対応付けられている。図２の一レコード目に示した例では、ＥＣアプリが起動していない状態において、「ｘｘｘが買いたい」という発話が集音された際には、エージェント装置１０は、ＥＣアプリを起動し、かつ、例えばサーバ２０に登録されている複数の商品の各々に対応する表示オブジェクトの中から、「ｘｘｘ」というキーワードに基いた検索結果をサーバ２０から受信し、そして、表示する。

｛１−２−２．ＥＣアプリに関する処理の流れ｝
ここで、図３を参照して、ＥＣアプリを用いた商品の購入に関する全体的な処理の流れの一例について説明する。なお、図３に示したフローチャートは、処理定義ＤＢ３０の登録内容によって変更され得る。

図３に示したように、まず、「ＥＣアプリを立ち上げて、買い物をしたい」とユーザが発話すると（Ｓ１１）、エージェント装置１０は、ＥＣアプリのトップ画面を投影面２４に投影する（Ｓ１３）。

また、最初に、もしくは、Ｓ１３の後に、「ＸＸＸが買いたい」とユーザが発話すると（Ｓ１５）、エージェント装置１０は、「ＸＸＸ」に対応する表示オブジェクトの検索要求をサーバ２０へ送信することにより、検索結果の一覧をサーバ２０から受信する。そして、エージェント装置１０は、受信した検索結果の一覧を含む検索結果表示画面を投影面２４上に投影する（Ｓ１７）。あるいは、エージェント装置１０は、当該検索結果表示画面の表示制御情報をサーバ２０から受信してもよい。そして、エージェント装置１０は、当該表示制御情報に基づいて検索結果表示画面を投影面２４上に投影してもよい。

なお、この検索結果表示画面の表示時に、例えば「ＸＸＸを買う」などとユーザが発話すると、エージェント装置１０は、表示されている複数の表示オブジェクトのうち「ＸＸＸ」に対応する表示オブジェクトを選び出し、そして、選び出した表示オブジェクト（または当該表示オブジェクトに対応する商品）の識別情報を、後述する記憶部１３０に一時的に格納する。

Ｓ１７の後、「ＸＸＸの詳細を見せて」とユーザが発話すると（Ｓ１９）、エージェント装置１０は、「ＸＸＸ」に対応する表示オブジェクトが示す商品の商品詳細画面を投影面２４上に投影する（Ｓ２１）。なお、この商品詳細画面の表示時に、例えば「これ買う」などとユーザが発話すると、エージェント装置１０は、該当の商品の識別情報を記憶部１３０に一時的に格納する。

また、Ｓ１７の後、もしくは、Ｓ２１の後に、「カートを見せて」とユーザが発話すると（Ｓ２３）、エージェント装置１０は、現在カートに格納されている商品の一覧を示すカート画面を投影面２４上に投影する（Ｓ２５）。

｛１−２−３．検索結果表示画面｝
次に、図４を参照して、検索結果表示画面の表示例（検索結果表示画面４０ａ）について説明する。図４に示したように、検索結果表示画面４０ａには、複数の商品の各々に対応する表示オブジェクト４１０が表示される。ここで、複数の表示オブジェクト４１０は、図４に示したように、カテゴリ欄４００ごとに分類されて表示され得る。また、図４に示したように、検索結果表示画面４０ａには、さらに、発話ヒント４２０が表示され得る。ここで、発話ヒント４２０は、購入対象の商品をユーザが絞り込むための検索キーワードの候補を含む。なお、個々のカテゴリ欄４００、および／または、発話ヒント４２０には、過去の検索履歴などに基いて学習されたキーワードの候補が表示され得る。例えば、個々のカテゴリ欄４００、および／または、発話ヒント４２０には、絞り込み（検索）のキーワードとしてユーザが使用する確率が高い種類の順番で、一回の絞り込みごとに異なる種類のキーワードの候補が表示され得る。図４に示した例では、１回目は「内容量」、２回目は「ブランド」、３回目は「個数」などのように、絞り込みのキーワードとしてユーザが使用する確率が高い種類の順番で、（当該順番に沿ってユーザが絞り込みを指示する度に）異なる種類のキーワードの候補が表示され得る。この表示例によれば、購入希望の商品をユーザは効率的に絞り込んでいくことができる。

＜１−３．通信網２２＞
通信網２２は、通信網２２に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網２２は、電話回線網、インターネット、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、通信網２２は、ＩＰ−ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ−ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

＜１−４．課題の整理＞
以上、本実施形態による情報処理システムの構成について説明した。ところで、例えば図４に示したような検索結果一覧画面の表示中に、当該検索結果一覧画面に含まれる複数の表示オブジェクトの中から特定の表示オブジェクト（例えば、表示オブジェクト４１０ｅなど）を自然発話により直接指定可能であると利便性が高く、望ましい。特に、検索結果一覧画面が表示されている投影面（または当該検索結果一覧画面を表示するディスプレイ）とユーザとの間の距離が大きいなど、当該検索結果一覧画面に対してユーザがタッチすることが非常に困難な場面では、特定の表示オブジェクトを自然発話により指定可能であることが一層望まれる。

そこで、上記事情を一着眼点にして、本実施形態によるエージェント装置１０を創作するに至った。本実施形態によるエージェント装置１０は、集音された発話を取得し、そして、現在の表示範囲に応じた選出対象の表示範囲内の複数の表示オブジェクトと、当該発話とに基いて、当該複数の表示オブジェクトの中から表示オブジェクトを選び出すことが可能である。このため、ユーザは、例えば、現在見えている複数の表示オブジェクトの中から所望の表示オブジェクトを容易に選び出すことができる。ここで、選出対象の表示範囲は、本開示における第１の表示範囲の一例である。なお、選出対象の表示範囲の具体的な内容については後述する。

＜＜２．実施形態の詳細な説明＞＞
＜２−１．構成＞
次に、本実施形態による構成について詳細に説明する。図５は、本実施形態によるエージェント装置１０の構成例を示した機能ブロック図である。図５に示すように、エージェント装置１０は、制御部１００、通信部１２０、センサ部１２２、集音部１２４、表示部１２６、音声出力部１２８、および、記憶部１３０を有する。

｛２−１−１．制御部１００｝
制御部１００は、エージェント装置１０に内蔵される、例えば、後述するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１５０や、後述するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１５４などのハードウェアを用いて、エージェント装置１０の動作を統括的に制御する。また、図５に示すように、制御部１００は、検出結果取得部１０２、音声認識部１０４、選出部１０６、および、出力制御部１０８を有する。

｛２−１−２．検出結果取得部１０２｝
検出結果取得部１０２は、本開示における取得部の一例である。検出結果取得部１０２は、後述するセンサ部１２２により検出された各種の情報、および、集音部１２４により集音された音情報を取得する。

｛２−１−３．音声認識部１０４｝
音声認識部１０４は、本開示における処理実行部の一例である。音声認識部１０４は、例えば表示部１２６により現在表示されている複数の表示オブジェクトに基いて、検出結果取得部１０２により取得された発話に対して音声認識を行う。例えば、音声認識部１０４は、まず、集音された発話に対して音声認識を行うことにより、音声認識結果の候補を複数特定する。そして、音声認識部１０４は、現在表示されている複数の表示オブジェクトに基づいて、特定した複数の音声認識結果の候補の各々のマッチ度を算出する。そして、音声認識部１０４は、マッチ度が最も高い候補を、当該発話の音声認識結果として決定する。

図６は、音声認識部１０４による音声認識の一例を示した説明図である。図６に示した例では、複数の表示オブジェクト４１０を含む検索結果表示画面４０が表示されている際に、ユーザが「ｆｌｏｕｒ」という発話５０を行ったことを前提とする。

この場合、例えば、音声認識部１０４は、まず、集音された発話の音素列に基いて、「ｆｌｏｗｅｒ」や「ｆｌｏｕｒ」など複数の音声認識結果の候補を特定する。次に、音声認識部１０４は、現在表示されている複数の表示オブジェクト４１０に基づいて、特定した複数の音声認識結果の候補の各々のマッチ度を算出する。図６に示した例では、表示オブジェクト４１０ｂは、「ｆｌｏｕｒ」という文字列を含んでおり、かつ、他の音声認識結果の候補に対応する文字列は検索結果画面４０内に表示されていない。そこで、音声認識部１０４は、特定した複数の音声認識結果の候補のうち「ｆｌｏｕｒ」のマッチ度を最も高く算出する。そして、音声認識部１０４は、「ｆｌｏｕｒ」を発話５０の音声認識結果として決定する。

｛２−１−４．出力制御部１０８｝
（２−１−４−１．表示制御）
出力制御部１０８は、本開示における処理実行部の一例である。出力制御部１０８は、表示部１２６に対する表示を制御する。例えば、表示方法に関する指示を含む発話が集音された場合には、出力制御部１０８は、当該発話の音声認識結果に応じた表示方法で複数の表示オブジェクトを表示部１２６に表示させるように、表示部１２６による表示を更新する。例えば、表示オブジェクトの並び替えを指示する発話が集音された場合には、出力制御部１０８は、当該発話に応じた順序で複数の表示オブジェクトを並べ替えて、表示部１２６に表示させる。図４に示した例において、「安い順に並べて」という発話が集音された場合には、出力制御部１０８は、複数の表示オブジェクト４１０の各々に対応する商品の価格の安い順に当該複数の表示オブジェクト４１０を並べ替えて、表示部１２６に表示させる。

また、分類の変更を指示する発話が集音された場合には、出力制御部１０８は、当該発話に応じた分類で複数の表示オブジェクトを表示し直すように、表示部１２６による表示を更新する。図４に示した例において、「ブランド別で表示して」という発話が集音された場合には、出力制御部１０８は、例えば図７に示した検索結果表示画面４０ｂのように、複数の表示オブジェクト４１０の各々に対応する商品の「ブランド」別に当該複数の表示オブジェクト４１０を分類し直して、表示部１２６に表示させる。

また、出力制御部１０８は、後述する選出部１０６による選出の結果に基いて、表示部１２６に対する表示を制御する。例えば、複数の表示オブジェクトの中から一以上の表示オブジェクトが選出部１０６により選び出された場合には、出力制御部１０８は、当該選び出された表示オブジェクトのみが表示されるように、表示部１２６による表示を更新する。

（２−１−４−２．音の出力制御）
また、出力制御部１０８は、音声出力部１２８に対する音の出力を制御する。例えば、発話が集音された際に、出力制御部１０８は、例えば音声認識部１０４による当該発話の意味の解析結果などに基づいて、当該発話に対する応答の音声を生成し、そして、生成した音声を音声出力部１２８に出力させる。

また、出力制御部１０８は、選出部１０６による選出の結果に基いて、音声出力部１２８に対する音の出力を制御する。例えば、選出部１０６により複数の表示オブジェクトが選び出された場合には、出力制御部１０８は、当該選び出された複数の表示オブジェクトのうちのいずれを選択するかに関する問い合わせの情報を音声出力部１２８（または表示部１２６）に出力させることが可能である。

ここで、図８を参照して、上記の機能についてより詳細に説明する。図８に示したように、「ＡＢＣ」という文字列を含む表示オブジェクト４１０が５個、表示画面４０に表示されている状況において、ユーザが、まず、「カートに入れて」という発話５０ａを行い、その後「ＡＢＣ」という発話５０ｂを行ったとする。そして、集音された発話５０ｂに基いて、５個の表示オブジェクト４１０（表示オブジェクト４１０ａ〜表示オブジェクト４１０ｅ）が選出部１０６により選び出されたことを想定する。

この場合、出力制御部１０８は、図８に示したように、「５個あるよ」という音声５２ｂのような、５個の表示オブジェクト４１０の中から一以上をユーザに選択させるための問い合わせの音声５２ｂを音声出力部１２８に出力させる。なお、その後、ユーザが例えば「ＡＢＣ４をカートに入れて」という発話５０ｃを行うと、（５個の表示オブジェクト４１０の中から）表示オブジェクト４１０ｄが選出部１０６により選び出され得る。なお、問い合わせの音声５２ｂの出力時から、音声５２ｂに対するユーザの回答の発話５０ｃが取得されるまでの間は、出力制御部１０８は、仮にユーザがスクロール操作などを行っても、現在の表示範囲を変更しないように制御し得る。これにより、５個の表示オブジェクト４１０をユーザに十分確認させ、所望の表示オブジェクトをユーザに正確に選択させることができる。

｛２−１−５．選出部１０６｝
（２−１−５−１．基本的な選出例）
選出部１０６は、本開示における処理実行部の一例である。選出部１０６は、選出対象の表示範囲内の複数の表示オブジェクトの中から、音声認識部１０４による発話の音声認識結果に対応する表示オブジェクト（または当該表示オブジェクトに対応する商品）を選び出す。ここで、選出対象の表示範囲は、現在の表示範囲を含み得る。

例えば、選出部１０６は、当該複数の表示オブジェクトの各々に関連する情報と、当該音声認識結果との比較に基いて、当該複数の表示オブジェクトの中から、当該音声認識結果に対応する表示オブジェクトを選び出す。一例として、選出部１０６は、当該複数の表示オブジェクトの各々に関連する情報と、当該音声認識結果に含まれるキーワードとの比較結果が一致する表示オブジェクトのみを、当該複数の表示オブジェクトの中から選び出す。

例えば、選出部１０６は、まず、当該複数の表示オブジェクトの中から、当該音声認識結果に対応する表示オブジェクトのみを抽出するための検索ワードを特定する。そして、選出部１０６は、特定した検索ワードを含む検索要求をサーバ２０へ通信部１２０に送信させることにより、当該音声認識結果に対応する表示オブジェクトをサーバ２０から取得する。

ここで、表示オブジェクトに関連する情報は、該当の表示オブジェクトに関連付けられているメタデータ、該当の表示オブジェクトの画像解析の結果（色、形状、ラベルの種類など）、および／または、現在の表示範囲における該当の表示オブジェクトの表示位置の情報を含み得る。また、メタデータは、該当の表示オブジェクトに関連付けられている識別番号、該当の表示オブジェクトに対応する商品の名称、当該商品の個数、当該商品のメーカー名、当該商品のブランド名などを含み得る。

−具体例１
例えば、発話が集音された際に、選出部１０６は、当該発話の音声認識結果に含まれる番号と、当該複数の表示オブジェクトの各々に関連付けられている識別番号とをそれぞれ比較することにより、当該複数の表示オブジェクトの中から、当該音声認識結果に対応する表示オブジェクトを選び出す。また、例えば、「ブランドＡの２００ｍｌ」のような、特徴に関する発話が集音された場合には、選出部１０６は、当該発話の音声認識結果と、当該複数の表示オブジェクトの各々に関連付けられているメタデータ内の情報とをそれぞれ比較することにより、当該複数の表示オブジェクトの中から、当該音声認識結果に対応する表示オブジェクトを選び出す。

ここで、図９〜図１０を参照して、上記の選出例についてより詳細に説明する。例えば、図９に示したように、複数の表示オブジェクト４１０を含む表示画面４０が表示されている状況において、ユーザが「６缶のにする」という発話５０を行ったとする。この場合、図１０に示したように、選出部１０６は、まず、「６缶のにする」という発話５０の音声認識結果から「６缶」というキーワードを抽出する。次に、選出部１０６は、表示画面４０中に表示されている複数の表示オブジェクト４１０の各々に関して、当該表示オブジェクト４１０に関連付けられているメタデータ６０内の情報と、「６缶」というキーワードとをそれぞれ比較する。そして、選出部１０６は、「販売単位」が「６缶」である商品に対応する表示オブジェクト４１０（図９に示した例では表示オブジェクト４１０ａ）を選び出す。

−具体例２
また、例えば「真ん中の赤いやつ」という発話が集音された場合には、選出部１０６は、現在の表示範囲における「真ん中」に対応する位置に存在する一以上の表示オブジェクトのうち画像解析結果が「赤色」である表示オブジェクトを、当該音声認識結果に対応する表示オブジェクトとして選び出す。

ここで、図１１〜図１２を参照して、上記の選出例についてより詳細に説明する。例えば、図１１に示したように、９個の表示オブジェクト４１０を含む表示画面４０ａが表示されている状況において、ユーザが「青いやつ」という発話５０ａを行ったとする。この場合、図１１に示したように、選出部１０６は、まず、発話５０ａの音声認識結果から「青」というキーワードを抽出する。次に、選出部１０６は、表示画面４０ｂに示したように、当該９個の表示オブジェクト４１０のうち、画像解析結果が「青色」である２個の表示オブジェクト４１０を選び出す。

その後、ユーザが「右」という発話５０ｂを行ったとする。この場合、図１１に示したように、選出部１０６は、まず、発話５０ｂの音声認識結果から「右」というキーワードを抽出する。そして、選出部１０６は、表示画面４０ｂに表示されている２個の表示オブジェクト４１０のうち、表示画面４０ｂにおける「右」に位置する表示オブジェクト４１０ｂをさらに選び出す。

また、図１２は、別の選出例を示した説明図である。なお、図１２に示した例では、表示オブジェクト４１０ｃおよび表示オブジェクト４１０ｄにそれぞれ対応する商品の色は青以外の色であり、かつ、これらの商品のシリーズとして青色タイプがそれぞれ存在することを前提としている。なお、その他の内容に関しては、図１１に示した例と同様である。

図１２に示したように、表示画面４０ａが表示されている状況において、ユーザが「青いやつ」という発話５０ａを行ったとする。この場合、選出部１０６は、まず、発話５０ａの音声認識結果から「青」というキーワードを抽出する。次に、選出部１０６は、図１２に示した表示画面４０ｂのように、当該９個の表示オブジェクト４１０のうち、画像解析結果が「青色」である２個の表示オブジェクト４１０（つまり表示オブジェクト４１０ａおよび表示オブジェクト４１０ｂ）、および、青色タイプの商品が存在する２個の表示オブジェクト４１０（つまり表示オブジェクト４１０ｃおよび表示オブジェクト４１０ｄ）を選び出す。

その後、ユーザが「右上」という発話５０ｂを行ったとする。この場合、図１２に示したように、選出部１０６は、まず、発話５０ｂの音声認識結果から「右上」というキーワードを抽出する。そして、選出部１０６は、表示画面４０ｂに表示されている４個の表示オブジェクト４１０のうち、表示画面４０ｂにおける「右上」に位置する表示オブジェクト４１０ｂをさらに選び出す。

−具体例３
また、選出部１０６は、さらに、ユーザ（発話者）の属性情報（例えば年齢、性別、身長、体重、住所など）に基いて、当該複数の表示オブジェクトの中から、当該音声認識結果に対応する表示オブジェクトを選び出すことも可能である。また、選出部１０６は、さらに、当該発話の音声認識結果から特定される、ジャンルや用途（例えばプレゼント向けの商品など）の指定に基いて、当該複数の表示オブジェクトの中から、当該音声認識結果に対応する表示オブジェクトを選び出すことも可能である。また、選出部１０６は、さらに、表示部１２６により表示されている、現在の表示範囲に対するユーザの注視位置や注視方向の検出結果に基いて、当該複数の表示オブジェクトの中から、当該音声認識結果に対応する表示オブジェクトを選び出すことも可能である。

（２−１−５−２．スクロールしながらの選出例）
また、選出部１０６は、例えばスクロール操作などのタッチ操作中に集音された発話の音声認識結果に基いて、選出対象の表示範囲内の複数の表示オブジェクトの中から一以上の表示オブジェクトを選び出すことも可能である。例えば、図１３に示したように、表示画面４０に対してスクロール操作６を行っている最中に、「６缶のにする」という発話５０をユーザが行ったとする。この場合、選出部１０６は、当該選出対象の表示範囲内の複数の表示オブジェクトの中から、発話５０に対応する表示オブジェクト４１０（例えば表示オブジェクト４１０ａ）を選び出す。

‐選出対象の表示範囲
ここで、図１４および図１５を参照して、選出対象の表示範囲の一例（選出対象の表示範囲７０）について詳細に説明する。図１４に示したように、選出対象の表示範囲７０は、現在の表示範囲７２、（現在の表示範囲以外の）表示済みの表示範囲７４、および、未表示の表示範囲７８を含む。また、選出対象の表示範囲７０は、図１４に示したように、スクロールの方向６に沿った表示範囲であり得る。ここで、表示済みの表示範囲７４は、本開示における第２の表示範囲の一例である。表示済みの表示範囲７４は、現在の表示範囲７２の表示タイミングよりも前に表示部１２６により連続的に表示された表示範囲であり得る。また、未表示の表示範囲７８は、本開示における第３の表示範囲の一例である。未表示の表示範囲７８は、現在の表示範囲７２の表示タイミングまでには表示されておらず、かつ、当該表示タイミング後に表示部１２６により連続的に表示されることが推定される表示範囲であり得る。

例えば、図１４に示したように、ユーザが「ＸＹＺの」という発話５０を行ったとする。また、「ＸＹＺ」という文字列に対応する表示オブジェクト４１０が、表示済みの表示範囲７４内、および、未表示の表示範囲７８内にそれぞれ一つずつ含まれているとする。この場合、選出部１０６は、表示済みの表示範囲７４内の表示オブジェクト４１０ａ、および、未表示の表示範囲７８内の表示オブジェクト４１０ｂをともに選び出すことが可能である。

なお、現在の表示範囲７２は、発話の開始の検出タイミングに応じて定められ得る。例えば、図１５に示したように、上から下へとスクロール中にユーザが「ＸＹＺの」という発話５０を行う場合、現在の表示範囲７２の最上位ラインが、発話５０の最初の音素の検出タイミング（図１５に示した例では時刻ｔ１）における最上位ラインと同一になるように現在の表示範囲７２は定められ得る。

また、選出部１０６による選出の優先度は、表示範囲の種類ごとに異なるように定められ得る。例えば、現在の表示範囲７２、（現在の表示範囲以外の）表示済みの表示範囲７４、未表示の表示範囲７８の順に優先度が低くなるように、選出部１０６による選出の優先度は定められ得る。例えば、図１４に示した例では、選出部１０６は、表示済みの表示範囲７４内の表示オブジェクト４１０ａを、未表示の表示範囲７８内の表示オブジェクト４１０ｂよりも優先的に選び出す。但し、かかる例に限定されず、例えば、「さっきの赤いやつ」や「さっき見た、６缶入りのモノ」など、過去を示すキーワードが含む発話が集音された場合には、選出部１０６は、表示済みの表示範囲内の表示オブジェクトを、現在の表示範囲内の表示オブジェクトよりも優先的に選び出してもよい。また、「ＸＸの６缶入りのものない？」など、ユーザがまだ閲覧していないと推定される表示オブジェクトを選び出すことを指示する発話が集音された場合には、選出部１０６は、未表示の表示範囲内の表示オブジェクトを、現在の表示範囲内の表示オブジェクトよりも優先的に選び出してもよい。

（２−１−５−３．連続発話による選出例）
また、発話が連続になされる場合には、選出部１０６は、発話が集音される度に、当該発話の音声認識結果が所定の条件を満たす限り、当該発話に対応する表示オブジェクトを連続的に選び出すことが可能である。例えば、発話が集音される度に、選出部１０６は、まず、当該発話の音声認識結果が所定の条件を満たすか否かを判定する。そして、当該発話の音声認識結果が所定の条件を満たさないと最初に判定したタイミングまでに取得された全ての発話の各々に関して、選出部１０６は、（選出対象の表示範囲内の）複数の表示オブジェクトの中から当該発話の音声認識結果に対応する表示オブジェクトをそれぞれ選び出す。

ここで、図１６を参照して、上記の機能についてより詳細に説明する。図１６に示したように、ユーザは、例えば「カートに入れて」などの所定の開始の発話５０ａを行う。その後、ユーザは、例えば「ＡＡＡと」という発話５０ｂ、「ＢＢＢと」という発話５０ｂ、および「ＣＣＣと」という発話５０ｃのように、選択を希望する商品名および「と（ａｎｄ）」からなる発話を連続的に行う。この場合、語尾に「と」を含む発話５０が連続的に取得される度に、選出部１０６は、選出対象の表示範囲内の複数の表示オブジェクトの中から、当該発話５０の音声認識結果に対応する表示オブジェクトを逐次選び出し、かつ、選び出した表示オブジェクトの識別情報を例えば記憶部１３０に一時的に保存する。その後、例えば図１６に示したように「終わり」などの所定の終了の発話５０ｅが検出された際には、選出部１０６は、当該検出タイミングまでに一時的に保存されている全ての表示オブジェクトを、ユーザにより選択された表示オブジェクトとして確定する。

（２−１−５−４．変形例）
なお、変形例として、表示部１２６により現在表示されている複数の表示オブジェクトのうちいずれかが指でポインティング（例えばタッチなど）されながら、かつ、例えば「これ」という発話が集音された場合には、選出部１０６は、当該指のポインティング先の表示オブジェクトを選び出すことも可能である。この場合、選出部１０６は、さらに、選び出した表示オブジェクトに対応する商品をカートに入れる処理（例えば、「カート」用の保存領域に格納すること）を行ってもよい。

一般的にタッチ操作では、表示オブジェクトを選択するためのタッチと、カートに入れる操作のためのタッチとが必要になる。一方、この変形例によれば、一回のタッチだけで所望の表示オブジェクトをカートに入れることができるので、通常のタッチ操作と比較して、操作時間が短縮することが期待できる。

｛２−１−６．通信部１２０｝
通信部１２０は、例えば通信網２２を介して他の装置との間で情報の送受信を行う。例えば、通信部１２０は、選出部１０６の制御に従って、集音された発話の音声認識結果に対応する表示オブジェクトを抽出するための検索要求をサーバ２０へ送信する。また、通信部１２０は、検索結果の一覧をサーバ２０から受信する。

｛２−１−７．センサ部１２２｝
センサ部１２２は、例えばイメージセンサ（カメラ）、および／または、デプスセンサなどを含み得る。例えば、センサ部１２２に含まれるカメラは、当該カメラの前方の映像を所定のタイミング（例えば所定時間間隔など）で撮影する。また、センサ部１２２に含まれるデプスカメラは、当該デプスカメラの前方に位置する各物体までの距離を計測する。また、センサ部１２２は、さらに、３軸加速度センサ、ジャイロスコープ、および、磁気センサなどを含んでもよい。

｛２−１−８．集音部１２４｝
集音部１２４は、例えばマイクロフォンである。集音部１２４は、外部の音（空気振動）を検出し、そして、電気信号に変換する。また、集音部１２４は、変換後の信号を制御部１００へ伝達する。

｛２−１−９．表示部１２６｝
表示部１２６は、出力制御部１０８の制御に従って、画像を表示する。例えば、表示部１２６がプロジェクタを有する場合、表示部１２６は、出力制御部１０８の制御に従って、画像を当該プロジェクタの投影方向へ投影する。また、表示部１２６がディスプレイを有する場合、表示部１２６は、出力制御部１０８の制御に従って、画像を当該ディスプレイに表示する。

｛２−１−１０．音声出力部１２８｝
音声出力部１２８は、スピーカを含み得る。音声出力部１２８は、出力制御部１０８の制御に従って、音声を出力する。

｛２−１−１１．記憶部１３０｝
記憶部１３０は、各種のデータや各種のソフトウェアを記憶する。例えば、図５に示したように、記憶部１３０は、処理定義ＤＢ３０を記憶する。

＜２−２．処理の流れ＞
以上、本実施形態の構成について説明した。次に、本実施形態による処理の流れについて、図１７および図１８を参照して説明する。なお、ここでは、ユーザがエージェント装置１０に対する発話により、サーバ２０に登録されている複数の商品の中から所望の商品を検索する場面における処理の流れの例について説明する。

図１７に示したように、まず、ユーザ２は、エージェント装置１０に対して「ＸＸを買いたい」と発話する。そして、エージェント装置１０の音声認識部１０４は、集音された発話に対して音声認識を行う（Ｓ１０１）。

続いて、選出部１０６は、Ｓ１０１の音声認識結果から特定される「ＸＸ」というキーワードを検索ワードに設定することにより、検索要求を生成する。そして、通信部１２０は、生成された検索要求をサーバ２０へ送信する（Ｓ１０３）。

その後、サーバ２０は、複数の商品の情報が登録されているデータベースに対して、受信された検索要求に基いて検索を行う（Ｓ１０５）。そして、サーバ２０は、検索結果の一覧をエージェント装置１０へ送信する（Ｓ１０７）。

その後、エージェント装置１０の表示部１２６は、出力制御部１０８の制御に従って、受信された検索結果の一覧を表示する（Ｓ１０９）。

その後、ユーザ２は、エージェント装置１０に対して「ＹＹで絞り込んで、並び替えて」と発話する。そして、エージェント装置１０の音声認識部１０４は、集音された発話に対して音声認識を行い、そして、当該発話の意味を解析する（Ｓ１１１）。

続いて、通信部１２０は、制御部１００の制御に従って、状態確認およびＧＵＩのロック依頼をサーバ２０へ送信する（Ｓ１１３）。

その後、サーバ２０は、受信されたロック依頼に基いて、例えば全てのＧＵＩをロックする（Ｓ１１５）。そして、サーバ２０は、アプリケーションのステート情報をエージェント装置１０へ送信する（Ｓ１１７）。その後、サーバ２０は、所定の時間が経過するまで待機する（Ｓ１１９）。所定の時間が経過した場合には（Ｓ１１９：Ｙｅｓ）、サーバ２０は、後述するＳ１３７の処理を行う。

また、Ｓ１１７の後、エージェント装置１０の制御部１００は、受信されたステート情報が示す値が「ＯＫ」であるか否かを判定する（Ｓ１２１）。当該ステート情報が示す値が「ＯＫ」ではない場合（例えば「ＮＧ」である場合）には（Ｓ１２１：Ｎｏ）、音声出力部１２８は、出力制御部１０８の制御に従って、例えば「カート画面では絞り込みできません」など、Ｓ１１１の発話に対応する処理が実行不可能であることを示す音声を出力する（Ｓ１２３）。そして、本処理は終了する。

ここで、図１８を参照して、Ｓ１２１において、当該ステート情報が示す値が「ＯＫ」である場合（Ｓ１２１：Ｙｅｓ）における処理の流れについて説明する。

図１８に示したように、エージェント装置１０の選出部１０６は、Ｓ１０１の音声認識結果から特定される「ＸＸ」というキーワード、および、Ｓ１１１の音声認識結果から特定される「ＹＹ」というキーワードを検索ワードに設定することにより、検索要求を生成する。また、出力制御部１０８は、Ｓ１１１の音声認識結果に応じた並べ方で、検索結果の表示オブジェクトを表示させるための指示情報を生成する。そして、通信部１２０は、生成された検索要求および指示情報をサーバ２０へ送信する（Ｓ１３１）。

その後、サーバ２０は、上記のデータベースに対して、受信された検索要求に基いて検索を行う（Ｓ１３３）。そして、サーバ２０は、検索結果の一覧をエージェント装置１０へ送信する（Ｓ１３５）。

Ｓ１３５の後、もしくは、Ｓ１１９の条件が成立した場合には、サーバ２０は、Ｓ１１５でロックされた全てのＧＵＩのロックを解除する（Ｓ１３７）。

また、Ｓ１３５の後、エージェント装置１０の表示部１２６は、出力制御部１０８の制御に従って、受信された検索結果の一覧を表示する（Ｓ１３９）。

＜２−３．効果＞
｛２−３−１．効果１｝
以上説明したように、本実施形態によれば、エージェント装置１０は、集音された発話を取得し、そして、現在の表示範囲に応じた選出対象の表示範囲内の複数の表示オブジェクトと、当該発話とに基いて、当該複数の表示オブジェクトの中から表示オブジェクトを選び出したり、複数の表示オブジェクトの表示の仕方を変更することが可能である。このため、集音された発話と、選出対象の表示範囲内の複数の表示オブジェクトとの関係に適応的に処理が実行されるので、ユーザの利便性が高い。例えば、ユーザは、現在見えている複数の表示オブジェクトの中から所望の表示オブジェクトを、自然発話により容易に選び出すことができる。そして、ユーザが高齢者などである場合でも、自然発話により所望の表示オブジェクトを選び出すことが可能であるので、より多くのユーザがＥＣを容易に利用することができる。

｛２−３−２．効果２｝
なお、一般的に、ＧＵＩボタン（例えば図９に示したカートボタン４１２など）を含む表示画面では、スクロール操作時に当該ＧＵＩボタンをユーザが誤って押してしまう恐れがあるので、スクロール操作時には当該ＧＵＩボタンが無効になるように設定される場合が多い。このため、スクロール操作を一旦停止しないと所望のＧＵＩボタンをユーザは選択することができず、不便になり得る。また、例えばスクロール操作中の手の位置と、所望のＧＵＩボタンとの間の距離が大きい状況では手の移動距離が大きくなるので、操作し難い。特にエージェント装置１０が、ディスプレイを有する携帯型装置である場合では操作が一層不安定になり得る。

一方、本実施形態によれば、発話により表示オブジェクトを選び出すことが可能であるので、スクロール操作中でも誤操作が生じないことが期待できる。例えば「ＸＸＸをカートに入れて」のような発話が集音された場合には、エージェント装置１０は、当該発話に対応する商品をカートに正確に格納することができる。また、スクロール操作中に、所望の商品に対応するＧＵＩボタンが表示範囲外になった場合でも、ユーザは、現在の表示範囲を変更することなく、発話により当該商品を正確に選択することができるという利点がある。また、本実施形態によれば、エージェント装置１０が、ディスプレイを有する携帯型装置である場合であっても、ユーザは所望の操作を安定的に行うことができる。

｛２−３−３．効果３｝
また、本実施形態によれば、通常のタッチ操作と比較して、サイトの切り替え時における操作が容易になる。例えば、サイトＡに表示されている文字列をサイトＢにおいて検索することをユーザが希望する場合、通常のタッチ操作では、ユーザは、当該文字列を一旦コピーして、そして、サイトＢにおける該当箇所にペーストを行う必要がある。一方、本実施形態によれば、サイトＡの表示時において、例えば「ＸＸＸをサイトＢで調べて」のような発話をユーザはエージェント装置１０に対して行うだけで、該当の文字列（つまりＸＸＸ）をサイトＢで検索することができるので、操作が容易である。

｛２−３−４．効果４｝
また、本実施形態によれば、通常のタッチ操作と比較して、検索窓を含むＷｅｂページの表示中における検索操作が容易になる。例えば、現在表示されている表示範囲内の文字列を検索キーにすることをユーザが希望し、かつ、現在の表示範囲外に当該検索窓が位置する場合には、通常のタッチ操作では、ユーザは、該当の文字列を一旦コピーして、そして、当該検索窓の位置まで表示範囲をスクロールする必要があり、操作が面倒である。一方、本実施形態によれば、表示範囲を変更せずに、例えば「ＸＸＸを検索して」のような発話をユーザはエージェント装置１０に対して行うだけで、該当の文字列を検索することができるので、操作が容易である。

＜２−４．応用例＞
以上、本実施形態について説明した。ところで、ある表示画面の閲覧時に、ユーザは、当該表示画面に表示されている内容から影響を受けることにより、別の作業をしたくなったり、別の作業をする必要があることを思い出すことがあり得る。

次に、本実施形態の応用例について説明する。後述するように、本応用例によれば、ある表示画面の表示中において、他のタスクを実行させるための発話が集音されると、エージェント装置１０は、当該表示画面を表示しながら、当該他のタスクを並行的に処理することができる。なお、以下では、上記の説明と重複する内容については説明を省略する。

｛２−４−１．応用例１｝
（２−４−１−１．出力制御部１０８）
まず、応用例１について説明する。応用例１による出力制御部１０８は、現在の表示範囲内の一以上の表示オブジェクトと、集音された発話の意味解析の結果とに基いて、当該発話に対する回答の情報を特定し、かつ、特定した回答の情報を出力することが可能である。

ここで、図１９を参照して、上記の内容についてより詳細に説明する。図１９に示した例では、「ＡＢＣ」という文字列を含む表示オブジェクト４１０ａが表示画面４０に表示されている状況において、ユーザが「ＡＢＣのメーカはどこ？」という発話５０を行ったとする。この場合、まず、エージェント装置１０の選出部１０６は、現在の表示範囲内の一以上の表示オブジェクトの各々に関連付けられているメタ情報の中から、「ＡＢＣ」という文字列を商品名に含む表示オブジェクト４１０ａを選び出す。そして、出力制御部１０８は、表示オブジェクト４１０ａのメタ情報に基づいて、当該発話５０が示す質問に対応する回答（図１９に示した例では「ＸＤＺ」）を特定し、そして、特定した回答を示す音声５２を音声出力部１２８に出力させる。

なお、出力制御部１０８は、表示オブジェクト４１０ａのメタ情報から、当該質問に対する回答を特定する代わりに、例えばサーバ２０へ問い合わせることにより、当該質問に対する回答を特定することも可能である。

（２−４−１−２．音声認識部１０４）
また、応用例１による音声認識部１０４は、集音された発話から特定される音素列に対応する文字列が現在の表示範囲内に存在する場合には、当該音素列が特定される度に、毎回当該音素列を当該文字列に変換するように音声認識を行うことが可能である。

例えば、図６に示した検索結果表示画面４０の表示中に、「ｆｌｏｕｒって何？」や「ｆｌｏｕｒをメモして」などのように、「ｆｌｏｕｒ」を含む発話が集音される度に、音声認識部１０４は、当該発話から特定される「ｆｌｏｕｒ」に対応する音素列を、全て同じ文字列（「ｆｌｏｕｒ」）に変換する。これにより、複数の作業をユーザは効率的に行うことができる。

｛２−４−２．応用例２｝
次に、応用例２について説明する。図２０は、応用例２によるエージェント装置１０により、集音された発話の取得に基づいて実行される処理の一例を示した説明図である。図２０に示したように、例えば、料理のレシピのＷｅｂページ４０が表示部１２６により現在表示されているとする。そして、当該Ｗｅｂページ４０に含まれる「パプリカ」という文字列４３０ａを見た際に、ユーザは、「今夜はパプリカの・・・」という文面のメールを家族に対して送信したくなり、そして、「「今夜はパプリカの・・・」と家族にメールして」という発話５０ａをエージェント装置１０に対して行ったとする。この場合、エージェント装置１０は、別の画面に遷移させずに、当該文面のメールを当該家族宛てに送信する処理を行う。そして、当該処理が完了すると、エージェント装置１０は、図２０に示したように、例えば「「今夜はパプリカの・・・」と家族にメールを送りました」という文字列を含むＧＵＩ補助画面４４０ａを当該Ｗｅｂページ４０上に表示する。

その後、ユーザは、「パプリカ」を買い物メモに登録したくなり、そして、例えば「パプリカを買い物メモに入れて」という発話５０ｂをエージェント装置１０に対して行ったとする。この場合、エージェント装置１０は、別の画面に遷移させずに、「パプリカ」を買い物メモに登録する処理を行う。そして、当該処理が完了すると、エージェント装置１０は、例えば「パプリカを買い物メモに登録しました」という文字列を含むＧＵＩ補助画面４４０ｂをＷｅｂページ４０上に表示する。

（２−４−２−１．処理の流れ）
次に、応用例２による処理の流れについて、図２１を参照して説明する。なお、図２１では、図２０に示した状況に対応する処理の流れの例を示している。

図２１に示したように、まず、エージェント装置１０は、例えば発話の音声データの取得に基いてＥＣアプリを起動する。そして、エージェント装置１０の表示部１２６は、出力制御部１０８の制御に従って、ＥＣアプリの表示画面（以下、ＥＣアプリ画面と称する）を表示する（Ｓ２０１）。なお、エージェント装置１０は、後述するＳ２１５まで、画面遷移させずに、ＥＣアプリ画面を表示し続ける。

その後、図２０に示した発話５０ａの音声データが取得されると、エージェント装置１０の制御部１００は、メールアプリケーションを起動する（Ｓ２０３）。そして、メールの送信処理が完了すると、表示部１２６は、出力制御部１０８の制御に従って、図２０に示したＧＵＩ補助画面４４０ａを例えば所定の時間だけＥＣアプリ画面上に表示する（Ｓ２０５）。

その後、図２０に示した発話５０ｂの音声データが取得されると、エージェント装置１０の制御部１００は、買い物メモを起動する（Ｓ２０７）。そして、買い物メモの登録処理が完了すると、表示部１２６は、出力制御部１０８の制御に従って、図２０に示したＧＵＩ補助画面４４０ｂを例えば所定の時間だけＥＣアプリ画面上に表示する（Ｓ２０９）。

さらに、エージェント装置１０は、登録された買い物メモに関するワークの情報を一時的に記憶部１３０にスタック（保存）する。これにより、後述するように、ＥＣアプリ画面の終了後に、買い物メモのメイン画面を自動的に表示することが可能になる。

その後、図２０に示した発話５０ｃの音声データが取得されると、エージェント装置１０は、上述したＳ２０７〜Ｓ２０９と概略同様の処理を行う（Ｓ２１１〜Ｓ２１３）。

その後、例えばＥＣアプリ画面の表示を終了する操作をユーザが行うと、エージェント装置１０の出力制御部１０８は、ＥＣアプリ画面から、例えば図２２に示したような、Ｓ２０９でスタックされた買い物メモのメイン画面８０へ画面遷移させる（Ｓ２１７）。

その後、スタック中の、発話５０ｂに対応するワーク（例えば、「パプリカ」を購入するか否かを決定する入力を行うことなど）が終了すると、エージェント装置１０の出力制御部１０８は、買い物メモのメイン画面８０の表示内容を更新する。そして、スタック中の、発話５０ｃに対応するワークが開始される（Ｓ２１９）。

（２−４−２−２．効果）
以上説明したように、応用例２によれば、他のタスクを実行させるための発話をユーザが行うだけで、現在表示されている表示画面が遷移されずに、同じ表示画面内で複数の作業を並行して行うことができる。例えば、ユーザは、メインの作業を中止せずに、サブの作業を次々に行うことができる。

｛２−４−３．変形例｝
なお、本応用例は、上述した例に限定されない。例えば、表示中のＷｅｂページ内に音楽に関する情報（画像や文字列など）が含まれており、かつ、当該音楽を再生するように指示する発話が集音された場合には、エージェント装置１０は、当該発話の音声認識結果に基いて、該当の音楽を再生してもよい。

また、表示中のＷｅｂページ内に広告が含まれており、かつ、当該広告に対応する商品を買い物リストへ入れるように指示する発話が集音された場合には、エージェント装置１０は、当該発話の音声認識結果に基いて、該当の商品を買い物リストへ入れてもよい。

また、表示中のＷｅｂページ内に含まれる文字列に関する検索結果を音声で出力するように指示する発話が集音された場合には、エージェント装置１０は、当該発話の音声認識結果に基いて、該当の文字列に関して検索を行い、かつ、検索結果を音声で出力してもよい。

また、表示部１２６により表示中の、第１の言語の文章をユーザが読み上げる音声が集音された際には、エージェント装置１０は、当該音声の音声認識結果を第２の言語（例えば予め設定されている言語）で翻訳し、かつ、翻訳結果に対応する音声を出力してもよい。

また、ＳＮＳ（ＳｏｃｉａｌＮｅｔｗｏｒｋｉｎｇＳｅｒｖｉｃｅ）の表示画面の表示中に、当該ＳＮＳ上で他のユーザからメッセージが届いた際には、エージェント装置１０は、当該メッセージを自動的に読み上げてもよい。その後、当該メッセージに対する返信の発話が集音された場合には、さらに、エージェント装置１０は、当該発話の音声認識結果から得られるメッセージを当該他のユーザ宛てに自動的に送信してもよい。

（効果）
一般的に、Ｗｅｂページ間ではリンクが張られているので、ユーザがリンクを辿ると、現在行っている作業が中断されてしまう。一方、これらの変形例によれば、例えばＷｅｂページの表示中であっても、エージェント装置１０に対してユーザが発話により指示を行うことにより、作業が中断されることなく、他の作業を並行して進めることができる。

＜＜３．ハードウェア構成＞＞
次に、本実施形態によるエージェント装置１０のハードウェア構成について、図２３を参照して説明する。図２３に示すように、エージェント装置１０は、ＣＰＵ１５０、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１５２、ＲＡＭ１５４、バス１５６、インターフェース１５８、入力装置１６０、出力装置１６２、ストレージ装置１６４、および、通信装置１６６を備える。

ＣＰＵ１５０は、演算処理装置および制御装置として機能し、各種プログラムに従ってエージェント装置１０内の動作全般を制御する。また、ＣＰＵ１５０は、エージェント装置１０において制御部１００の機能を実現する。なお、ＣＰＵ１５０は、マイクロプロセッサなどのプロセッサにより構成される。

ＲＯＭ１５２は、ＣＰＵ１５０が使用するプログラムや演算パラメータなどの制御用データなどを記憶する。

ＲＡＭ１５４は、例えば、ＣＰＵ１５０により実行されるプログラムなどを一時的に記憶する。

バス１５６は、ＣＰＵバスなどから構成される。このバス１５６は、ＣＰＵ１５０、ＲＯＭ１５２、および、ＲＡＭ１５４を相互に接続する。

インターフェース１５８は、入力装置１６０、出力装置１６２、ストレージ装置１６４、および、通信装置１６６を、バス１５６と接続する。

入力装置１６０は、例えばタッチパネル、ボタン、スイッチ、レバー、マイクロフォンなどユーザが情報を入力するための入力手段、および、ユーザによる入力に基づいて入力信号を生成し、ＣＰＵ１５０に出力する入力制御回路などから構成される。

出力装置１６２は、プロジェクタや、例えばＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）やＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）などのディスプレイなどの表示装置を含む。また、出力装置１６２は、スピーカなどの音声出力装置を含む。

ストレージ装置１６４は、記憶部１３０として機能する、データ格納用の装置である。ストレージ装置１６４は、例えば、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置、または、記憶媒体に記録されたデータを削除する削除装置などを含む。

通信装置１６６は、例えば通信網２２などに接続するための通信デバイス等で構成された通信インターフェースである。また、通信装置１６６は、無線ＬＡＮ対応通信装置、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）対応通信装置、または、有線による通信を行うワイヤー通信装置であってもよい。この通信装置１６６は、通信部１２０として機能する。

＜＜４．変形例＞＞
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

＜４−１．変形例１＞
例えば、ユーザは、十分判断しないまま、発話により、とりあえずカートに商品を入れることも考えられる。そこで、例えば、同じカテゴリの商品がカートに格納された場合には、エージェント装置１０は、当該複数の商品同士を比較し、かつ、比較結果のリストを生成してもよい。また、エージェント装置１０は、ユーザが過去に購入している商品の種類の学習結果と、カートに格納された複数の商品の各々とを比較し、そして、比較結果のリストを生成してもよい。これらの変形例によれば、ユーザが商品の決済を行う前に、エージェント装置１０が当該比較リストを表示することができる。これにより、意図しない商品を購入しないようにユーザに注意喚起することができる。

＜４−２．変形例２＞
また、別の変形例として、エージェント装置１０のカメラ、または、ロボットなどの他の装置が有するカメラ（以下、環境カメラと称する）で例えばリアルタイムに撮影された映像が表示されている間において集音されたユーザの発話の音声認識結果と、当該映像の解析結果とに基いて、エージェント装置１０は、購入対象の商品を選び出すことも可能である。例えば、当該環境カメラが店舗や倉庫における商品棚、または、ユーザの自宅内を撮影しており、かつ、当該環境カメラにより撮影された映像をエージェント装置１０が受信し、そして、表示しているとする。この場合、例えば「ＸＸＸが買いたい」、「その洗剤が買いたい」、または、「真ん中のやつ」などのユーザの発話が集音された場合には、エージェント装置１０は、当該映像における、当該発話の音声認識結果に対応する商品を購入対象の商品として選び出すことが可能である。

または、テレビジョン受信機で表示されている映像をユーザが見ていることが推定される状況において、当該映像の表示中に集音された発話の音声認識結果と、当該映像に関する情報とに基いて、エージェント装置１０は、購入対象の商品を選び出すことも可能である。例えば、テレビジョン受信機により男性の映像が表示されている際に、「男の人が着ているシャツを買いたい」という発話が集音された場合には、エージェント装置１０は、当該男性が着ているシャツを購入対象の商品として選び出してもよい。

＜４−３．変形例３＞
また、一般的に、長い文章を発話する場合では、スクロール操作をしながら発話をすることは不便であり、通常のタッチ入力の方が容易な場合もある。そこで、変形例として、スクロール操作と、マイクロフォンの起動操作とが予め区別して設定されることが望ましい。例えば図２４に示したように、表示画面４０に対する縦方向（上下方向）のスライド操作６ａが表示範囲のスクロール操作、また、横方向（左右方向）のスライド操作６ｂがマイクロフォンの起動のジェスチャーとしてそれぞれ設定されてもよい。

＜４−４．変形例４＞
また、上記の説明では、本実施形態がＥＣにおいて適用される例を中心に説明したが、かかる例に限定されず、ＥＣ以外のサービスやアプリケーションにも適用可能である。図２５は、音楽再生用アプリケーションにおける適用例を示した説明図である。図２５に示したように、音楽再生用アプリケーションの表示画面９０の表示中において、エージェント装置１０は、楽曲の情報を示す発話の音声データの取得に基いてプレイリストを作成することが可能である。

例えば、図２５に示したように、まず、ユーザは、例えば「プレイリストを作って」などの所定の開始の発話５０ａを行う。その後、ユーザは、例えば「サムデイと」という発話５０ｂや「ナイトライフと」という発話５０ｂなどのように、選択を希望する楽曲の情報（楽曲名など）および「と（ａｎｄ）」からなる発話を連続的に行う。この場合、語尾に「と」を含む発話５０が連続的に取得される度に、選出部１０６は、表示画面９０内の複数の楽曲の情報の中から、当該発話５０の音声認識結果に対応する楽曲の情報を逐次選び出し、かつ、選び出した楽曲の情報を例えば記憶部１３０に一時的に保存する。その後、例えば図２５に示したように「終わり」などの所定の終了の発話５０ｅが検出された際には、選出部１０６は、当該検出タイミングまでに一時的に保存されている全ての種類の楽曲を含むようにプレイリストを作成する。なお、楽曲名の発話に限定されず、選出部１０６は、例えば「ビートの早い曲」や「盛り上がるやつ」のような発話などに基いて、当該発話に対応する楽曲を選び出すことも可能である。

＜４−５．変形例５＞
また、本実施形態による情報処理システムの構成は、図１に示した例に限定されない。例えば、図１では、エージェント装置１０が一台だけ図示されているが、かかる例に限定されず、複数台のコンピュータが協同して動作することにより、上述したエージェント装置１０の機能が実現されてもよい。

＜４−６．変形例６＞
また、本実施形態によるエージェント装置１０の構成は、図５に示した例に限定されない。例えば、センサ部１２２、集音部１２４、表示部１２６、および、音声出力部１２８のうちの一以上はエージェント装置１０に含まれる代わりに、エージェント装置１０が通信可能な他の装置に含まれてもよい。

＜４−７．変形例７＞
また、上述した実施形態では、本開示における情報処理装置がエージェント装置１０である例について説明したが、本開示はかかる例に限定されない。例えば、当該情報処理装置は、汎用ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、タブレット型端末、ゲーム機、スマートフォンなどの携帯電話、携帯型音楽プレーヤ、テレビジョン受信機、ロボット、または、例えばＨＭＤ（ＨｅａｄＭｏｕｎｔｅｄＤｉｓｐｌａｙ）、ヘッドセット、または、スマートウォッチなどのウェアラブルデバイスであってもよい。

また、上述した制御部１００に含まれる各構成要素をサーバ２０が含む場合には、当該情報処理装置は、サーバ２０であってもよい。

＜４−８．変形例８＞
また、図１７および図１８に示した処理の流れにおける各ステップは、必ずしも記載された順序に沿って処理されなくてもよい。例えば、各ステップは、適宜順序が変更されて処理されてもよい。また、各ステップは、時系列的に処理される代わりに、一部並列的に又は個別的に処理されてもよい。また、記載されたステップのうちの一部が省略されたり、または、別のステップがさらに追加されてもよい。

また、上述した実施形態によれば、例えばＣＰＵ１５０、ＲＯＭ１５２、およびＲＡＭ１５４などのハードウェアを、上述した実施形態によるエージェント装置１０の構成と同等の機能を発揮させるためのコンピュータプログラムも提供可能である。また、該コンピュータプログラムが記録された記録媒体も提供される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
集音された発話を取得する取得部と、
現在の表示範囲に応じた第１の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、所定の処理を行う処理実行部と、
を備える、情報処理装置。
（２）
前記第１の表示範囲は、前記現在の表示範囲を含む、前記（１）に記載の情報処理装置。
（３）
前記処理実行部は、前記複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを選び出す、前記（２）に記載の情報処理装置。
（４）
前記処理実行部は、前記複数の表示オブジェクトの各々に関連する情報と、前記発話の音声認識結果との比較に基いて、前記複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを選び出す、前記（３）に記載の情報処理装置。
（５）
前記処理実行部は、前記複数の表示オブジェクトの各々の画像解析の結果と、前記発話の音声認識結果とに基いて、前記複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを選び出す、前記（３）または（４）に記載の情報処理装置。
（６）
集音された発話が取得される度に、前記処理実行部は、当該発話の音声認識結果が所定の条件を満たすか否かを判定し、かつ、
前記処理実行部は、当該発話の音声認識結果が前記所定の条件を満たさないと最初に判定された第１のタイミングまでに取得された一以上の発話の各々の音声認識結果に対応する表示オブジェクトを前記複数の表示オブジェクトの中からそれぞれ選び出す、前記（３）〜（５）のいずれか一項に記載の情報処理装置。
（７）
前記処理実行部は、さらに、選び出した表示オブジェクトを表示部に表示させる、前記（３）〜（６）のいずれか一項に記載の情報処理装置。
（８）
前記発話の音声認識結果に対応する表示オブジェクトが複数選び出される場合には、前記処理実行部は、さらに、当該選び出された複数の表示オブジェクトのうちの一以上をユーザに選択させるための問い合わせの情報の出力を制御する、前記（３）〜（７）のいずれか一項に記載の情報処理装置。
（９）
前記処理実行部は、前記複数の表示オブジェクトに基づいて前記発話の音声認識を行う、前記（２）に記載の情報処理装置。
（１０）
前記処理実行部は、さらに、前記複数の表示オブジェクトの中から、前記音声認識の結果に対応する表示オブジェクトを選び出す、前記（９）に記載の情報処理装置。
（１１）
前記現在の表示範囲は、前記発話の開始の検出タイミングに応じたタイミングに、表示部により表示された表示範囲である、前記（２）〜（１０）のいずれか一項に記載の情報処理装置。
（１２）
前記処理実行部は、前記複数の表示オブジェクトのうち、表示部により表示される複数の表示オブジェクトの表示順を、前記発話の音声認識結果に基いて変更する、前記（１１）に記載の情報処理装置。
（１３）
前記処理実行部は、前記複数の表示オブジェクトのうち、表示部により表示される複数の表示オブジェクトの表示分類を、前記発話の音声認識結果に基いて変更する、前記（１１）に記載の情報処理装置。
（１４）
前記第１の表示範囲は、さらに、前記現在の表示範囲の表示タイミングよりも前に表示部により連続的に表示された第２の表示範囲を含む、前記（２）〜（１３）のいずれか一項に記載の情報処理装置。
（１５）
前記処理実行部は、前記第２の表示範囲内の複数の表示オブジェクトよりも、前記現在の表示範囲内の複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを優先的に選び出す、前記（１４）に記載の情報処理装置。
（１６）
前記第１の表示範囲は、さらに、前記現在の表示範囲の表示タイミングまでには表示されておらず、かつ、当該表示タイミング後に表示部により表示されることが推定される第３の表示範囲を含む、前記（２）〜（１５）のいずれか一項に記載の情報処理装置。
（１７）
前記処理実行部は、前記第３の表示範囲内の複数の表示オブジェクトよりも、前記現在の表示範囲内の複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを優先的に選び出す、前記（１６）に記載の情報処理装置。
（１８）
前記第１の表示範囲は、ユーザにより指定された方向に沿って表示部により連続的に表示される、前記（２）〜（１７）のいずれか一項に記載の情報処理装置。
（１９）
集音された発話を取得することと、
現在の表示範囲に応じた第１の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、プロセッサが所定の処理を行うことと、
を含む、情報処理方法。
（２０）
コンピュータを、
集音された発話を取得する取得部と、
現在の表示範囲に応じた第１の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、所定の処理を行う処理実行部、
として機能させるためのプログラム。

１０エージェント装置
２０サーバ
２２通信網
３０処理定義ＤＢ
１００制御部
１０２検出結果取得部
１０４音声認識部
１０６選出部
１０８出力制御部
１２０通信部
１２２センサ部
１２４集音部
１２６表示部
１２８音声出力部
１３０記憶部

Claims

集音された発話を取得する取得部と、
現在の表示範囲に応じた第１の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、所定の処理を行う処理実行部と、
を備える、情報処理装置。
前記第１の表示範囲は、前記現在の表示範囲を含む、請求項１に記載の情報処理装置。
前記処理実行部は、前記複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを選び出す、請求項２に記載の情報処理装置。
前記処理実行部は、前記複数の表示オブジェクトの各々に関連する情報と、前記発話の音声認識結果との比較に基いて、前記複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを選び出す、請求項３に記載の情報処理装置。
前記処理実行部は、前記複数の表示オブジェクトの各々の画像解析の結果と、前記発話の音声認識結果とに基いて、前記複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを選び出す、請求項３に記載の情報処理装置。
集音された発話が取得される度に、前記処理実行部は、当該発話の音声認識結果が所定の条件を満たすか否かを判定し、かつ、
前記処理実行部は、当該発話の音声認識結果が前記所定の条件を満たさないと最初に判定された第１のタイミングまでに取得された一以上の発話の各々の音声認識結果に対応する表示オブジェクトを前記複数の表示オブジェクトの中からそれぞれ選び出す、請求項３に記載の情報処理装置。
前記処理実行部は、さらに、選び出した表示オブジェクトを表示部に表示させる、請求項３に記載の情報処理装置。
前記発話の音声認識結果に対応する表示オブジェクトが複数選び出される場合には、前記処理実行部は、さらに、当該選び出された複数の表示オブジェクトのうちの一以上をユーザに選択させるための問い合わせの情報の出力を制御する、請求項３に記載の情報処理装置。
前記処理実行部は、前記複数の表示オブジェクトに基づいて前記発話の音声認識を行う、請求項２に記載の情報処理装置。
前記処理実行部は、さらに、前記複数の表示オブジェクトの中から、前記音声認識の結果に対応する表示オブジェクトを選び出す、請求項９に記載の情報処理装置。
前記現在の表示範囲は、前記発話の開始の検出タイミングに応じたタイミングに、表示部により表示された表示範囲である、請求項２に記載の情報処理装置。
前記処理実行部は、前記複数の表示オブジェクトのうち、表示部により表示される複数の表示オブジェクトの表示順を、前記発話の音声認識結果に基いて変更する、請求項１１に記載の情報処理装置。
前記処理実行部は、前記複数の表示オブジェクトのうち、表示部により表示される複数の表示オブジェクトの表示分類を、前記発話の音声認識結果に基いて変更する、請求項１１に記載の情報処理装置。
前記第１の表示範囲は、さらに、前記現在の表示範囲の表示タイミングよりも前に表示部により連続的に表示された第２の表示範囲を含む、請求項２に記載の情報処理装置。
前記処理実行部は、前記第２の表示範囲内の複数の表示オブジェクトよりも、前記現在の表示範囲内の複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを優先的に選び出す、請求項１４に記載の情報処理装置。
前記第１の表示範囲は、さらに、前記現在の表示範囲の表示タイミングまでには表示されておらず、かつ、当該表示タイミング後に表示部により表示されることが推定される第３の表示範囲を含む、請求項２に記載の情報処理装置。
前記処理実行部は、前記第３の表示範囲内の複数の表示オブジェクトよりも、前記現在の表示範囲内の複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを優先的に選び出す、請求項１６に記載の情報処理装置。
前記第１の表示範囲は、ユーザにより指定された方向に沿って表示部により連続的に表示される、請求項２に記載の情報処理装置。
集音された発話を取得することと、
現在の表示範囲に応じた第１の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、プロセッサが所定の処理を行うことと、
を含む、情報処理方法。
コンピュータを、
集音された発話を取得する取得部と、
現在の表示範囲に応じた第１の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、所定の処理を行う処理実行部、
として機能させるためのプログラム。