WO2021230048A1

WO2021230048A1 - 情報処理システム

Info

Publication number: WO2021230048A1
Application number: PCT/JP2021/016515
Authority: WO
Inventors: 貴則野村
Original assignee: 株式会社Ｎｔｔドコモ
Priority date: 2020-05-15
Filing date: 2021-04-23
Publication date: 2021-11-18
Also published as: JPWO2021230048A1; JP7402322B2

Abstract

情報処理システムは、ユーザに装着された端末において表示されることによりユーザに視認される画像、ユーザの視線情報、及びユーザが発した音声であるユーザ音声を取得する取得部と、撮像画像に示されているユーザのジェスチャを認識するジェスチャ認識部と、視線情報及びジェスチャ認識部によるジェスチャの認識結果に基づいて、ユーザ音声に応じて画像に係る第１処理を実行する第１モード、及びユーザ音声に応じて画像に係る処理とは異なる第２処理を実行する第２モードのいずれを適用するかを決定する決定部と、を備える。

Description

情報処理システム

　本発明の一態様は、情報処理システムに関する。

　特許文献１には、画像形成装置及び携帯端末装置のそれぞれにおいて、入力が受け付けられた音声信号から変換された文字列に対応するコマンドが生成され、画像形成装置と携帯端末装置とで一致した当該コマンドを実行する画像形成装置が記載されている。

特開２０１９－７４６０８号公報

　近年では、例えばユーザに装着される端末において、ユーザによる音声の入力に応じて、端末において表示される画像に係る処理、及び、当該画像に係る処理とは異なる処理が実行される技術が知られている。しかしながら、例えば、当該音声が、画像に係る処理及び画像に係る処理とは異なる処理のいずれにも適用され得る内容である場合、音声のみによってユーザがいずれの処理を要求しているのか判断が困難な場合がある。この場合、例えば、ユーザは画像に係る処理を意図して音声を発したにもかかわらず、画像に係る処理とは異なる処理が実行されてしまうおそれがあった。

　本発明の一態様は上記実情に鑑みてなされたものであり、ユーザの要求に沿った適切な処理を行うことができる情報処理システムに関する。

　本発明の一態様に係る情報処理システムは、ユーザに装着される端末において表示されることによりユーザに視認される画像、ユーザの視線情報、及びユーザが発した音声であるユーザ音声を取得する取得部と、取得部によって取得された画像に示されているユーザのジェスチャを認識するジェスチャ認識部と、取得部によって取得されたユーザ音声を認識する音声認識部と、視線情報及びジェスチャ認識部による認識結果に基づいて、音声認識部によって認識されたユーザ音声に応じて画像に係る第１処理を実行する第１モード、及び、音声認識部によって認識されたユーザ音声に応じて画像に係る処理とは異なる第２処理を実行する第２モードのいずれを適用するかを決定する決定部と、決定部によって適用すると決定された第１モード又は第２モードの処理を実行する処理実行部と、を備える。

　本発明の一態様に係る情報処理システムでは、ユーザ音声、端末において表示されることでユーザに視認される画像、及びユーザの視線情報が取得され、ユーザのジェスチャ及びユーザ音声が認識される。そして、ユーザの視線情報、及びジェスチャの認識結果に基づいて、第１モード及び第２モードのいずれを適用するかが決定される。第１モードは、ユーザ音声に応じて画像に係る第１処理を実行するモードである。第２モードは、ユーザ音声に応じて画像に係る処理とは異なる第２処理を実行するモードである。例えば、情報処理システムが、単に音声認識のみによって第１モード及び第２モードのいずれを適用するかを決定する場合においては、情報処理システムは、ユーザの音声を認識するが、当該音声が、いずれの処理に係る音声なのかを把握することが困難である場合がある。この場合、例えば、当該音声が画像に係る処理に係る音声であっても、画像に係る処理とは異なる処理が実行されるおそれがある。この点、本発明の一態様に係る情報処理システムでは、ユーザの意思を反映していると考えられる、ユーザの視線情報及びジェスチャに基づいて、画像に係る処理が実行されるモード、及び画像に係る処理以外の処理が実行されるモードのいずれが適用されるかが決定されるため、ユーザの要求に沿った適切な処理を行うことができる。

　本発明によれば、ユーザの要求に沿った適切な処理を行うことができる。

図１は、本実施形態に係る情報処理システムの概要を説明する図である。図２は、図１の情報処理システム物体情報サーバの機能構成を示すブロック図である。図３は、情報処理システムによる情報表示の一例を説明する図である。図４は、情報処理システムによる情報表示の一例を説明する図である。図５は、情報処理システムによる情報表示の一例を説明する図である。図６は、情報処理システムによる情報表示の一例を説明する図である。図７は、情報処理システムによる情報表示の一例を説明する図である。図８は、情報処理システムが行う処理を示すシーケンス図である。図９は、情報処理システムに含まれるスマートグラス、物体情報サーバ、及び音声認識サーバのハードウェア構成を示す図である。

　以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。図面の説明において、同一又は同等の要素には同一符号を用い、重複する説明を省略する。

　図１は、本実施形態に係る情報処理システム１の概要を説明する図である。図２は、情報処理システムの機能構成を示すブロック図である。情報処理システム１は、ユーザに装着されるスマートグラス（端末）２において、ユーザが要求する処理にしたがって種々の情報処理を実施する。本実施形態に係る情報処理システム１では、スマートグラス２において、ユーザが要求する処理に係る画像が表示される。図１に示されるように、情報処理システム１は、スマートグラス２と、物体情報サーバ１０（特定部、記憶部）と、音声認識サーバ５０（音声認識部）と、を備えている。情報処理システム１では、スマートグラス２と、物体情報サーバ１０と、音声認識サーバ５０とが相互に通信可能に構成されている。

　情報処理システム１では、スマートグラス２が、物体情報サーバ１０及び音声認識サーバ５０における処理結果を考慮して、ユーザ音声に応じた処理を実行し、ユーザ音声に応じて生成した情報を表示する。一例として、情報処理システム１では、物体情報サーバ１０が、スマートグラス２が撮像した撮像画像において認識されたユーザのジェスチャ（第２ジェスチャ）が示す範囲に基づいて、ユーザ音声に応じた処理（第１処理）の対象のオブジェクトである対象オブジェトを特定する。なお、対象オブジェクトは、更に、音声認識サーバ５０によるユーザ音声の認識結果に基づき特定されてもよい（絞り込まれてもよい）。また、情報処理システム１では、音声認識サーバ５０が、ユーザ音声を認識する。そして、スマートグラス２は、音声認識サーバ５０によって認識されたユーザ音声に含まれる処理内容に応じた処理を、物体情報サーバ１０によって特定された対象オブジェクトに対して実行する。スマートグラス２は、例えば、ユーザ音声に応じて、対象オブジェクトに関する情報を対象オブジェクトに対応付けて重畳表示した重畳画像を生成し、該重畳画像を画面に表示する。

　図３には、スマートグラス２において撮像された画像Ｐ１が例示されている。画像Ｐ１には、看板Ｈ１及び椅子Ｈ２等のオブジェクトが表示されている。この場合、スマートグラス２は、ユーザのハンドジェスチャであるジェスチャＨＪ２（第２ジェスチャ）を認識する。そして、物体情報サーバ１０は、ジェスチャＨＪ２が示す範囲に基づいて、画像Ｐ１に含まれる各オブジェクトのうち、例えばジェスチャＨＪ２と領域が重なる或いはジェスチャＨＪ２から所定の範囲内にあるオブジェクトである看板Ｈ１及び椅子Ｈ２を、対象オブジェクトとして特定する。さらに、音声認識サーバ５０によって「看板、情報表示」とのユーザ音声が認識された場合には、スマートグラス２は、物体情報サーバ１０によって特定された対象オブジェクトの候補のうち看板Ｈ１のみを対象オブジェクトとして絞り込み、看板Ｈ１に関する情報（看板Ｈ１が提示する情報である提示情報Ｉ）を表示すべく、提示情報Ｉを画像Ｐ１に重畳した（詳細には、提示情報Ｉを対象オブジェクトである看板Ｈ１に対応付けて表示した）画像Ｐ２を生成し、該画像Ｐ２を画面に表示する。

　以上の処理を行うことにより、情報処理システム１では、ユーザに装着されるスマートグラス２において、ユーザが要求する処理（具体的には、ユーザが音声によって要求した画像に係る処理）が実行され、処理後の画像が画面に表示される。なお、図１及び図２に示されるスマートグラス２の数は１台であるが、スマートグラス２の数は複数であってもよい。

　図１に戻り、音声認識サーバ５０は、ユーザ音声を認識する音声認識部として機能する。音声認識サーバ５０は、単にユーザ音声を認識して文字列に変換する機能を有していればよく、ユーザ音声に基づくユーザの識別等の機能を有していなくてもよい。音声認識サーバ５０は、周知の音声認識技術を利用してもよい。音声認識サーバ５０は、音声認識結果（すなわち、ユーザ音声を文字列に変換した情報）を物体情報サーバ１０に送信する。なお、本実施形態では、物体情報サーバ１０が音声認識サーバ５０より音声認識結果を取得するとして説明するが、例えば、物体情報サーバ１０がユーザ音声を認識する音声認識部として機能してもよい。

　物体情報サーバ１０は、スマートグラス２及び音声認識サーバ５０から取得した情報に基づき、対象オブジェクト等を特定し、特定した情報をスマートグラス２に提供するサーバである。対象オブジェクトとは、スマートグラス２から取得した撮像画像に含まれるオブジェクトであって画像に係る第１処理の対象のオブジェクトである。

　物体情報サーバ１０は、スマートグラス２及び音声認識サーバ５０から取得した各種情報、すなわち、撮像画像、ユーザ音声認識結果、スマートグラス２の測位結果等を記憶する。また、物体情報サーバ１０は、複数のオブジェクトに係るオブジェクト情報を予め記憶する記憶部として機能する。オブジェクト情報とは、現実空間に存在する物体（オブジェクト）の情報である。オブジェクト情報では、例えば、複数のオブジェクトのそれぞれについて、オブジェクトを示す（一意に特定する）情報であるオブジェクトＩＤと、オブジェクトの種別を特定する情報である種別情報と、オブジェクトが存在する位置情報と、オブジェクトの画像と、オブジェクトに係る詳細情報（オブジェクトに関する情報）と、が対応付けられて記憶されている。種別情報は、オブジェクトの名称を含んでいてもよい。なお、オブジェクト情報では、上述した情報の一部だけが対応付けられて記憶されていてもよい。すなわち、例えば、種別情報、オブジェクトの画像、及びオブジェクトに係る詳細情報のみが対応付けられて記憶されていてもよい。

　オブジェクトに係る詳細情報とは、例えばオブジェクトの内容に関する情報であり、例えばオブジェクトが店の看板である場合には、当該店の名称、店の営業時間、店で販売・提供する商品名、店で販売する商品・サービスの料金、店の電話番号、店のＵＲＬ等である。また、オブジェクトが商品そのものである場合には、オブジェクトに係る詳細情報とは、例えば当該商品の料金、当該商品の価格、当該商品のスペック、当該商品が説明されたＵＲＬ等である。

　オブジェクトに係る詳細情報の各項目は、ユーザ音声と紐づけられていてもよい。すなわち、例えば、オブジェクトが店の看板である場合において、「店」を含んだユーザ音声に対して店自体の情報（店の営業時間、店の電話番号等）が紐づけられ、「（商品名）」を含んだユーザ音声に対して店の商品の情報（商品の価格、商品のスペック等）が紐づけられ、「情報表示」とのユーザ音声に対して全ての詳細情報の項目が紐づけられる、というように、ユーザ音声の種別と詳細情報の項目とが紐づけられていてもよい。なお、物体情報サーバ１０は、オブジェクト情報として仮想空間に存在する物体の情報を記憶していてもよい。

　物体情報サーバ１０は、対象オブジェクトを特定する特定部として機能する。物体情報サーバ１０は、スマートグラス２から取得した撮像画像においてユーザのジェスチャ（第２ジェスチャ，図３に示されるジェスチャＨＪ２）が示す範囲に基づいて、対象オブジェクトを特定する。ユーザのジェスチャ（第２ジェスチャ）が示す範囲とは、撮像画像においてユーザが指定する指定範囲であり、例えばジェスチャと領域が重なる或いはジェスチャに近接する範囲である。物体情報サーバ１０は、例えば、スマートグラス２からジェスチャ（第２ジェスチャ）が示す範囲（指定範囲）の情報を取得する。物体情報サーバ１０は、スマートグラス２から、ユーザのジェスチャが示す範囲の撮像画像のみを取得してもよい。物体情報サーバ１０は、撮像画像に含まれる各オブジェクトのうち例えばジェスチャと領域が重なる或いはジェスチャから所定の範囲内にあるオブジェクトを対象オブジェクトとして特定する。物体情報サーバ１０は、従来から周知の画像認識処理を利用することによって、対象オブジェクトを特定する。物体情報サーバ１０は、例えば、記憶しているオブジェクト情報に含まれる各オブジェクトの画像と、ユーザのジェスチャが示す範囲（指定範囲）の画像とを照合することによって、対象オブジェクトを特定する。この場合、物体情報サーバ１０は、スマートグラス２における測位結果とオブジェクト情報に含まれるオブジェクトが存在する位置情報とを照合し、スマートグラス２に近い位置に存在するオブジェクトの画像（オブジェクト情報に含まれるオブジェクトの画像）のみを、ユーザの指定範囲の画像と照合してもよい。物体情報サーバ１０は、対象オブジェクトを特定すると、オブジェクト情報に基づき、当該対象オブジェクトの名称を特定してもよい。

　図５を参照して、対象オブジェクトの特定方法について説明する。いま、スマートグラス２によって、枠Ｆ内が、ジェスチャＨＪ２が示す範囲（指定範囲Ａ）であると特定されているとする。この場合、物体情報サーバ１０は、記憶しているオブジェクト情報に基づいて、指定範囲Ａ内にある対象オブジェクトを特定する。具体的には、物体情報サーバ１０は、例えば、オブジェクト情報に含まれるオブジェクトの画像と、撮像画像のうち指定範囲Ａに対応する画像とを照合することによって、対象オブジェクトを特定する。図５に示される例では、物体情報サーバ１０は、看板Ｈ１及び椅子Ｈ２を対象オブジェクトとして特定する。物体情報サーバ１０は、対象オブジェクトとして特定したオブジェクトを示す情報（スマートグラス２においてどれが対象オブジェクトであるかを判別できる情報）と、該オブジェクトの名称とを対応付けてスマートグラス２に送信する。

　物体情報サーバ１０は、音声認識サーバ５０によって認識されたユーザ音声にオブジェクトを示す情報が含まれている場合においては、上述したジェスチャ（第２ジェスチャ）が示す範囲のオブジェクトのうち、ユーザ音声に含まれているオブジェクトを対象オブジェクトとして特定してもよい。すなわち、例えば図６に示されるように、「看板」とのユーザ音声が音声認識サーバ５０によって認識されている場合においては、物体情報サーバ１０は、対象オブジェクトの候補である看板Ｈ１及び椅子Ｈ２のうち、看板Ｈ１のみを対象オブジェクトとして特定してもよい。物体情報サーバ１０は、対象オブジェクトとして特定したオブジェクトを示す情報（スマートグラス２においてどれが対象オブジェクトであるかを判別できる情報）をスマートグラス２に送信する。

　物体情報サーバ１０は、特定した対象オブジェクトについて、記憶しているオブジェクト情報に基づき、オブジェクトに係る詳細情報（オブジェクトに関する情報）を更に特定する。物体情報サーバ１０は、例えば、音声認識サーバ５０によって認識されたユーザ音声に第１処理に係る処理内容（具体的には、対象オブジェクトに係る詳細情報の表示）が含まれている場合において、記憶しているオブジェクト情報に基づき、対象オブジェクトに係る詳細情報の特定処理を行う。すなわち、例えば図６に示されるように看板Ｈ１が対象オブジェクトとして特定されている状況において、「情報表示」とのユーザ音声が音声認識サーバ５０によって認識された場合においては、物体情報サーバ１０は、記憶しているオブジェクト情報に基づき、看板Ｈ１に係る詳細情報を提示情報として特定する。図６に示される例では、物体情報サーバ１０は、提示情報Ｉとして、店の名称（「ＸＸＸＸ」）、商品名及び商品の料金（「・ボロネーゼ：１，０００円　・ジェノベーゼ：１，１００円　・マルゲリータ：８００円」）を特定している。物体情報サーバ１０は、提示情報として特定した対象オブジェクトに係る詳細情報をスマートグラス２に送信する。

　物体情報サーバ１０は、例えば、音声認識サーバ５０によって認識されたユーザ音声に表示態様の変更指示が含まれている場合には、当該変更指示に応じた処理要求をスマートグラス２に送信する。具体的には、物体情報サーバ１０は、例えば、「拡大表示」とのユーザ音声が音声認識サーバ５０によって認識された場合においては、スマートグラス２に対して、提示情報の拡大表示要求を送信する。

　スマートグラス２は、ユーザに装着されるゴーグル型のウェアラブル機器であり、無線通信を行うように構成された端末である。スマートグラス２は、ユーザに視認される画像を表示可能に構成されている。スマートグラス２は、撮像機能を有しており、例えば、撮像した画像（撮像画像）をリアルタイムに表示する。なお、本実施形態ではスマートグラス２が撮像画像を表示するとして説明しているが、スマートグラス２は、撮像画像以外の画像を表示するものであってもよい。また、スマートグラス２は、装着したユーザの視線情報を取得する機能及び装着したユーザが発した音声（ユーザ音声）を取得する機能を有している。

　スマートグラス２は、自身で又は他のサーバ（不図示）と通信を行うことによって、測位を行うものであってもよい。本実施形態では、スマートグラス２が測位を行うとして説明する。スマートグラス２の測位方法は、限定されず、ＧＰＳ（Global　Positioning　System）測位であってもよいし、基地局測位であってもよいし、撮像した画像と他のサーバ（不図示）において記憶されているマップデータとを突合させて行う測位であってもよい。スマートグラス２は、測位結果を継続的に物体情報サーバ１０に送信する。

　スマートグラス２は、図２に示されるように、取得部２１と、ジェスチャ認識部２２と、決定部２３と、生成部２４及び出力部２５（処理実行部）と、を備えている。なお、スマートグラス２は、取得部２１が取得する各種情報等を記憶する記憶部（不図示）を更に備えていてもよい。

　取得部２１は、ユーザに視認される撮像画像、ユーザの視線情報、及びユーザ音声を取得する。撮像画像とは、上述したようにスマートグラス２において撮像される画像であり、スマートグラス２の画面に表示されてユーザに視認される画像である。ユーザの視線情報とは、上述したようにスマートグラス２を装着したユーザの視線の情報である。ユーザ音声とは、上述したようにスマートグラス２を装着したユーザが発した音声である。取得部２１は、取得したユーザ音声を音声認識サーバ５０に送信する。

　ジェスチャ認識部２２は、取得部２１によって取得された撮像画像に示されているユーザのジェスチャを認識する。本実施形態では、ジェスチャ認識部２２は、例えば従来から周知の画像認識技術を利用することにより、ユーザのジェスチャを認識する。ジェスチャ認識部２２は、第１処理に係るジェスチャとして予め定められた第１ジェスチャを認識する。第１ジェスチャは、画像に係る第１処理を実行するか、或いは、画像に係る処理とは異なる第２処理を実行するか、の決定に係るジェスチャである。第１ジェスチャは、例えば、ユーザが拳を握りしめているハンドジェスチャ（図４に示されるジェスチャＨＪ１）である。

　また、ジェスチャ認識部２２は、対象オブジェクトが含まれ得る範囲を示すジェスチャとして予め定められた第２ジェスチャを更に認識する。第２ジェスチャは、例えば、ユーザが拳を握りしめている状態から開いた状態に変化する一連のハンドジェスチャ（図５に示されるジェスチャＨＪ２）である。第２ジェスチャは、拳の開き方によって対象オブジェクトが含まれる範囲を表している。すなわち、ジェスチャ認識部２２は、図５に示されるように、ユーザが拳を握りしめている状態から徐々に拳を開くジェスチャＨＪ２を認識すると、ジェスチャＨＪ２における拳の開き具合（開き方）に応じて、ジェスチャＨＪ２が示す範囲（対象オブジェクトが含まれる範囲）を特定する。ジェスチャ認識部２２によって特定されたジェスチャＨＪ２が示す範囲は、後述する生成部２４によって生成される画像において「枠Ｆ」（図５参照）で示される。なお、第１ジェスチャ及び第２ジェスチャは、他のハンドジェスチャ、又はユーザの身体の他の部位のジェスチャであってもよい。ジェスチャ認識部２２は、第２ジェスチャを認識した場合において、第２ジェスチャを認識した撮像画像と、該第２ジェスチャが示す範囲の情報とを物体情報サーバ１０に送信する。なお、ジェスチャ認識部２２は、第２ジェスチャが示す範囲の撮像画像のみを物体情報サーバ１０に送信してもよい。

　決定部２３は、ユーザの視線情報及びジェスチャ認識部２２による認識結果に基づいて、第１モード及び第２モードのいずれを適用するかを決定する。第１モードとは、音声認識サーバ５０によって認識されたユーザ音声に応じて画像に係る第１処理を実行するモードである。第２モードとは、音声認識サーバ５０によって認識されたユーザ音声に応じて画像に係る処理とは異なる第２処理を実行するモードである。

　具体的には、決定部２３は、視線情報及びジェスチャ認識部２２による第１ジェスチャの認識結果に基づいて、ユーザが撮像画像に示されている第１ジェスチャを注視しているか否かを判定し、注視している場合に、第１モードを適用すると決定し、注視していない場合に、第２モードを適用すると決定する。すなわち、決定部２３は、まず、ジェスチャ認識部２２によって第１ジェスチャが認識されているか否かを判定する。そして、決定部２３は、第１ジェスチャが認識されている場合において、視線情報に基づき撮像画像においてユーザが第１ジェスチャを注視しているか否かを判定する。決定部２３は、第１ジェスチャからのユーザの視線のずれが所定の範囲内（例えば１５°以内）である場合には、ユーザが第１ジェスチャを注視していると判定する。

　図４を参照して、対象オブジェクトの特定方法について説明する。いま、スマートグラス２において、メッセージが受信されており、撮像画像である画像Ｐ３に「新着メッセージあり」との、ユーザがメッセージを受信した旨の情報が重畳された画像Ｐ４が表示されているとする。画像Ｐ３には、看板Ｈ１、椅子Ｈ２、及びユーザのジェスチャＨＪ１（第１ジェスチャ）が表示されている。この場合、ユーザにより撮像画像に係る処理（第１処理）が要求され得る状況であると共に、ユーザによりメッセージを画面に表示させる処理（第２処理に含まれる処理）が要求され得る状況であるといえる。

　図４に示される例では、ユーザによって拳が握られたジェスチャＨＪ１が示されているため、ジェスチャ認識部２２によって第１ジェスチャが認識される。そして、決定部２３によって、視線情報に基づきユーザがジェスチャＨＪ１を注視していると判定された場合には、ユーザにより撮像画像に係る処理（第１処理）が要求されていると判断され、第１モードを適用することが決定される。一方で、決定部２３によって、視線情報に基づきユーザがジェスチャＨＪ１を注視していないと判定された場合には、ユーザにより撮像画像に係る処理以外の第２処理（例えば、メッセージを画面に表示させる処理）が要求されていると判断され、第２モードを適用することが決定される。

　なお、決定部２３は、第１モードを適用することを決定した後において、ジェスチャ認識部２２によって、第１処理に係る第２ジェスチャが認識されている間においては、第１モードの適用を継続する。これは、第１処理に係る第２ジェスチャをユーザが表している間は、ユーザは、第２処理ではなく第１処理を要求していると考えられるためである。一方、決定部２３は、第１モードを適用することを決定した後において、ジェスチャ認識部２２によって第２ジェスチャが認識されなくなった場合においては、第２モードを適用することを決定する。これは、第１処理に係る第２ジェスチャをユーザが止めた場合は、ユーザは、第１処理を要求していないと考えられるためである。

　生成部２４は、物体情報サーバ１０から取得した情報に基づいて、スマートグラス２の画面に表示（出力）する情報を生成する。生成部２４は、物体情報サーバ１０から対象オブジェクトとして特定したオブジェクトを示す情報及び該オブジェクトの名称を受信した場合において、撮像画像に対象オブジェクトの名称が重畳された第１画像を生成する。生成部２４は、ジェスチャ認識部２２によって第２ジェスチャが認識されている場合においては、第１画像において第２ジェスチャが示す範囲を示す枠を更に重畳させる。図５に示される例では、生成部２４は、物体情報サーバ１０から取得した情報及びジェスチャ認識部２２による認識結果に基づいて、撮像画像である画像Ｐ５に、第２ジェスチャが示す範囲を示す枠Ｆ、対象オブジェクトである看板Ｈ１の名称「看板」及び椅子Ｈ２の名称「椅子」が重畳された画像Ｐ６（第１画像）を生成している。なお、生成部２４は、各対象オブジェクトの名称が、対応する対象オブジェクトの近傍に位置するように第１画像を生成してもよい。

　生成部２４は、物体情報サーバ１０から、対象オブジェクトとして特定したオブジェクトを示す情報、及び、提示情報として特定した対象オブジェクトに係る詳細情報を受信した場合において、撮像画像に提示情報が重畳された第２画像を生成する。図６に示される例では、生成部２４は、物体情報サーバ１０から取得した情報に基づいて、撮像画像である画像Ｐ７に、看板Ｈ１が提示する提示情報Ｉが重畳されると共に看板Ｈ１が強調表示された画像Ｐ８（第２画像）を生成している。なお、生成部２４は、対象オブジェクトの提示情報が、対応する対象オブジェクトの近傍に位置するように第２画像を生成してもよい。

　生成部２４は、物体情報サーバ１０から、第２画像における提示情報の表示態様の変更要求を受信した場合において、第２画像の提示情報の表示態様を変更した第３画像を生成する。図７に示される例では、生成部２４は、物体情報サーバ１０から、提示情報の拡大表示要求を受信している。この場合、生成部２４は、撮像画像である画像Ｐ９に、文字が拡大された態様の提示情報Ｉが重畳された画像Ｐ１０（第３画像）を生成する。

　生成部２４は、上述したように、決定部２３によって適用すると決定された第１モードの処理を実行する処理実行部として機能している。すなわち、生成部２４は、音声認識サーバ５０によって認識されたユーザ音声に第１処理に係る処理内容（例えば、情報提示）が含まれている場合において、該処理内容に応じた処理である第２画像等の生成を第１処理として実行している。また、生成部２４は、上述したように、物体情報サーバ１０により特定された対象オブジェクトに関する情報に基づいて、出力情報を生成している。より具体的には、生成部２４は、対象オブジェクトに関する情報が対象オブジェクトに対応付けられて重畳表示された重畳画像である第２画像を出力情報として生成している。

　出力部２５は、生成部２４が生成した情報を出力（スマートグラス２の画面に表示）する。すなわち、出力部２５は、上述した第１画像、第２画像、及び第３画像をスマートグラス２の画面に表示する。出力部２５は、このように、決定部２３によって適用すると決定された第１モードの処理を実行する処理実行部として機能している。すなわち、出力部２５は、音声認識サーバ５０によって認識されたユーザ音声に第１処理に係る処理内容（例えば、情報提示）が含まれている場合において、該処理内容に応じた処理である第２画像等の出力を第１処理として実行している。

　なお、生成部２４及び出力部２５は、決定部２３によって第２モードの処理を実行する（すなわち、撮像画像に係る処理以外の第２処理を実行する）と決定された場合において、当該第２処理を実行する処理実行部として機能してもよい。すなわち、例えば、決定部２３によって、新着メッセージを画面に表示させる処理（第２処理）を実行すると決定された場合において、生成部２４が新着メッセージを重畳させた画像を生成し、出力部２５が当該画像を出力してもよい。

　次に、本実施形態に係る情報処理システム１が行う処理について、図８を参照して説明する。図８は、情報処理システム１が行う処理を示すシーケンス図である。

　図８に示されるように、情報処理システム１では、最初にスマートグラス２がユーザの視線情報及び第１ジェスチャに基づき第１モードの適用を決定する（ステップＳ１）。具体的には、スマートグラス２は、第１ジェスチャをユーザが注視している場合に、第１モードの適用を決定する。

　つづいて、スマートグラス２は、第２ジェスチャを認識し、第２ジェスチャが示す範囲に基づいて対象オブジェクトが存在し得る範囲を特定する（ステップＳ２）。つづいて、スマートグラス２は、物体情報サーバ１０に、撮像画像を送信する（ステップＳ３）。スマートグラス２は、ステップＳ２において特定した対象オブジェクトが存在し得る範囲の撮像画像のみを物体情報サーバ１０に送信してもよい。

　つづいて、物体情報サーバ１０は、スマートグラス２から取得した撮像画像（第２ジェスチャが示す範囲の情報を含む）と、記憶している対象オブジェクト情報とに基づいて、対象オブジェクト及びその名称を特定する（ステップＳ４）。スマートグラス２は、特定した情報をスマートグラス２に送信する（ステップＳ５）。

　つづいて、スマートグラス２は、物体情報サーバ１０から取得した情報（対象オブジェクト及びその名称）に基づいて、撮像画像に対象オブジェクトの名称が重畳された第１画像（図５に示される画像Ｐ６）を生成し、画面に表示する（ステップＳ６）。画像Ｐ６においては、第２ジェスチャが示す範囲を示す枠Ｆ、対象オブジェクトである看板Ｈ１の名称「看板」及び椅子Ｈ２の名称「椅子」が表示されている。

　この状態において、スマートグラス２は、ユーザが発する音声であるユーザ音声を取得し、音声認識サーバ５０に送信する（ステップＳ７）。いま、スマートグラス２は、画像Ｐ６を閲覧したユーザから、対象オブジェクトを絞り込むための名称（「看板」）、及び、処理内容（「情報表示」）を含んだユーザ音声を取得したとする。この場合、音声認識サーバ５０は、音声認識によって「看板」「情報表示」との用語を認識する（ステップＳ８）。そして、音声認識サーバ５０は、音声認識結果を物体情報サーバ１０に送信する（ステップＳ９）。

　つづいて、物体情報サーバ１０は、音声認識結果を受信し、「看板」とのオブジェクトを示す情報に基づき対象オブジェクトを看板Ｈ１に絞り込むと共に、「情報表示」との処理内容に基づき記憶しているオブジェクト情報から看板Ｈ１に係る詳細情報（提示情報）を特定し、特定した情報をスマートグラス２に送信する（ステップＳ１０）。

　つづいて、スマートグラス２は、物体情報サーバ１０から取得した情報（対象オブジェクト及び提示情報）に基づいて、撮像画像に提示情報が重畳された第２画像（図６に示される画像Ｐ８）を生成し、画面に表示する（ステップＳ１１）。画像Ｐ８においては、看板Ｈ１が提示する提示情報Ｉが表示されると共に看板Ｈ１が強調表示される。

　この状態において、スマートグラス２は、更なるユーザ音声を取得し、音声認識サーバ５０に送信する（ステップＳ１２）。いま、スマートグラス２は、画像Ｐ８を閲覧したユーザから、更なる処理内容（拡大表示）を含んだユーザ音声を取得したとする。この場合、音声認識サーバ５０は、音声認識によって「拡大表示」との用語を認識する（ステップＳ１３）。そして、音声認識サーバ５０は、音声認識結果を物体情報サーバ１０に送信する（ステップＳ１４）。

　つづいて、物体情報サーバ１０は、音声認識結果を受信し、「拡大表示」との処理内容を特定し、拡大表示要求をスマートグラス２に送信する（ステップＳ１５）。そして、スマートグラス２は、物体情報サーバ１０から取得した情報（拡大表示要求）に基づいて、撮像画像に文字が拡大された態様の提示情報Ｉが重畳された画像（図７に示される画像Ｐ１０）を生成し、画面に表示する（ステップＳ１６）。

　次に、本実施形態に係る情報処理システム１の作用効果について説明する。

　本実施形態に係る情報処理システム１は、ユーザに装着されるスマートグラス２において表示されることによりユーザに視認される画像、ユーザの視線情報、及びユーザが発した音声であるユーザ音声を取得する取得部２１と、取得部２１によって取得された画像に示されているユーザのジェスチャを認識するジェスチャ認識部２２と、取得部２１によって取得されたユーザ音声を認識する音声認識サーバ５０と、視線情報及びジェスチャ認識部２２による認識結果に基づいて、音声認識サーバ５０によって認識されたユーザ音声に応じて画像に係る第１処理を実行する第１モード、及び、音声認識サーバ５０によって認識されたユーザ音声に応じて画像に係る処理とは異なる第２処理を実行する第２モードのいずれを適用するかを決定する決定部２３と、決定部２３によって適用すると決定された第１モード又は第２モードの処理を実行する生成部２４及び出力部２５と、を備える。

　本実施形態に係る情報処理システム１では、ユーザ音声、スマートグラス２において表示されることでユーザに視認される画像（撮像画像）及びユーザの視線情報が取得され、ユーザのジェスチャ及びユーザ音声が認識される。そして、ユーザの視線情報、及びジェスチャの認識結果に基づいて、第１モード及び第２モードのいずれを適用するかが決定される。第１モードは、ユーザ音声に応じて画像に係る処理を実行するモードである。第２モードは、ユーザ音声に応じて画像に係る処理とは異なる処理を実行するモードである。例えば、情報処理システムが、単に音声認識のみによって第１モード及び第２モードのいずれを適用するかを決定する場合において、まず、ユーザから音声の入力が受け付けられる。そして、情報処理システムは、ユーザの音声を認識するが、当該音声が、いずれの処理に係る音声なのかを把握することが困難である場合がある。この場合、例えば、当該音声が画像に係る処理に係る音声であっても、画像に係る処理とは異なる処理が実行されるおそれがある。

　この点、情報処理システム１では、ユーザの意思を反映していると考えられる、ユーザの視線情報及びジェスチャに基づいて、画像に係る処理が実行されるモード、及び画像に係る処理以外の処理が実行されるモードのいずれが適用されるかが決定されるため、ユーザの要求に沿った適切な処理を行うことができる。また、情報処理システム１では、ユーザの意思に沿わない処理（すなわち、不要な処理）が行われることが抑制されるので、処理負荷を軽減することができるという技術的効果を奏する。

　情報処理システム１では、ジェスチャ認識部２２が、第１処理に係るジェスチャとして予め定められた第１ジェスチャを認識し、決定部２３は、視線情報及びジェスチャ認識部２２による第１ジェスチャの認識結果に基づいて、ユーザが、画像に示されている第１ジェスチャを注視しているか否かを判定し、第１ジェスチャをユーザが注視している場合に、第１モードを適用することを決定する。

　一般的に、ある領域をユーザが注視している場合、ユーザは当該領域に関心をもっていると考えられる。そして、第１処理に係るジェスチャとして予め定められた第１ジェスチャをユーザが注視している場合、ユーザは第１処理（画像に対する処理）を要求している可能性が高いと考えられる。情報処理システム１では第１ジェスチャをユーザが注視している場合に、ユーザ音声に応じて画像に対する処理を実行する第１モードが適用されるため、ユーザが画像に対する処理を要求している場合において、第１モードが適用される可能性を高めることができる。

　情報処理システム１では、処理実行部として機能する生成部２４及び出力部２５が、音声認識サーバ５０によって認識されたユーザ音声に第１処理に係る処理内容が含まれている場合においては、当該処理内容に応じた処理を第１処理として実行する。このように、ユーザ音声に基づいてユーザが要求している処理内容が判断されて該処理内容に応じた画像の生成及び表示（出力）がなされることにより、ユーザの要求に沿った適切な処理を行うことができる。

　情報処理システム１は、画像に含まれるオブジェクトであって第１処理の対象のオブジェクトである対象オブジェクトを特定する処理を実行する物体情報サーバ１０を備え、ジェスチャ認識部２２は、対象オブジェクトが含まれ得る範囲を示すジェスチャとして予め定められた第２ジェスチャを更に認識し、物体情報サーバ１０は、画像において第２ジェスチャが示す範囲に基づいて、対象オブジェクトを特定する。このように、ユーザの意思が反映されているジェスチャが示す範囲に基づいて対象オブジェクトが特定されることにより、ユーザが対象オブジェクトとしたい（処理の対象としたい）オブジェクトを適切に特定することができる。

　情報処理システム１では、物体情報サーバ１０が、複数のオブジェクトのそれぞれについてオブジェクトを示す情報とオブジェクトに関する情報とが少なくとも対応付けられたオブジェクト情報を記憶すると共に、特定した対象オブジェクトについてオブジェクト情報に基づきオブジェクトに関する情報を更に特定し、生成部２４が、第１モードの第１処理として、物体情報サーバ１０により特定された対象オブジェクトに関する情報に基づいて出力情報（図６の画像Ｐ８等）を生成し、出力部２５が、生成部２４が生成した出力情報をスマートグラス２の画面に表示する。このような構成によれば、ユーザがジェスチャを行うことによって対象オブジェクトに関する情報が容易に取得される。すなわち、このような構成によれば、ユーザにとって簡易な方法によってユーザが知りたい情報を取得することができる。

　情報処理システム１では、生成部２４が、物体情報サーバ１０により特定された対象オブジェクトに関する情報が対象オブジェクトに対応付けられて重畳表示された重畳画像（図６の画像Ｐ８）を出力情報として生成する。このように、対象オブジェクトと対象オブジェクトに関する情報とが対応付けられて表示されることによって、対象オブジェクトに関する情報を、よりユーザが把握し易い態様で表示することができる。

　情報処理システム１では、物体情報サーバ１０が、音声認識サーバ５０によって認識されたユーザ音声にオブジェクトを示す情報が含まれている場合においては、第２ジェスチャが示す範囲のオブジェクトのうち、ユーザ音声に含まれているオブジェクトを対象オブジェクトとして特定する。このように、ユーザ音声の情報を更に考慮して対象オブジェクトが特定されることにより、ユーザが対象オブジェクトとしたいオブジェクトをより確実且つ容易に特定することができる。

　決定部２３は、第１モードを適用することを決定した後において、ジェスチャ認識部２２によって第２ジェスチャが認識されている間においては、第１モードの適用を継続する。

　ユーザの意思が反映されている第２ジェスチャをユーザが継続している状態においては、ユーザは、画像に係る処理を継続して要求している可能性が高いと考えられる。情報処理システム１では、そのような状態において第１モードを継続するため、ユーザの要求する処理を確実に実行することができる。

　決定部２３は、第１モードを適用することを決定した後において、ジェスチャ認識部２２によって第２ジェスチャが認識されなくなった場合においては、第２モードを適用することを決定する。

　ユーザの意思が反映されている第２ジェスチャをユーザが中断した場合には、ユーザは、画像に対する処理を要求しなくなった可能性が高いと考えられる。情報処理システム１では、そのような状態において、第１処理（画像に係る処理）を実行する第１モードから、第２処理（画像に係る処理とは異なる処理）を実行する第２モードに切り替えられるため、ユーザの要求する処理を確実に実行することができる。

　次に、情報処理システム１に含まれたスマートグラス２、音声認識サーバ５０、及び物体情報サーバ１０のハードウェア構成について、図９を参照して説明する。上述のスマートグラス２、音声認識サーバ５０、及び物体情報サーバ１０は、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、バス１００７などを含むコンピュータ装置として構成されてもよい。

　なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。スマートグラス２、音声認識サーバ５０、及び物体情報サーバ１０のハードウェア構成は、図９に示した各装置を１つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。

　スマートグラス２、音声認識サーバ５０、及び物体情報サーバ１０における各機能は、プロセッサ１００１、メモリ１００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることで、プロセッサ１００１が演算を行い、通信装置１００４による通信や、メモリ１００２及びストレージ１００３におけるデータの読み出し及び／又は書き込みを制御することで実現される。

　プロセッサ１００１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１００１は、周辺装置とのインタフェース、制御装置、演算装置、レジスタなどを含む中央処理装置（ＣＰＵ：Central　Processing　Unit）で構成されてもよい。例えば、スマートグラス２の取得部２１等の制御機能はプロセッサ１００１で実現されてもよい。

　また、プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュールやデータを、ストレージ１００３及び／又は通信装置１００４からメモリ１００２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。

　例えば、スマートグラス２の取得部２１等の制御機能は、メモリ１００２に格納され、プロセッサ１００１で動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、１つのプロセッサ１００１で実行される旨を説明してきたが、２以上のプロセッサ１００１により同時又は逐次に実行されてもよい。プロセッサ１００１は、１以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。

　メモリ１００２は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（Read　Only　Memory）、ＥＰＲＯＭ（Erasable　Programmable　ＲＯＭ）、ＥＥＰＲＯＭ（Electrically　Erasable　Programmable ＲＯＭ）、ＲＡＭ（Random　Access　Memory）などの少なくとも１つで構成されてもよい。メモリ１００２は、レジスタ、キャッシュ、メインメモリ（主記憶装置）などと呼ばれてもよい。メモリ１００２は、本発明の一実施の形態に係る無線通信方法を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを保存することができる。

　ストレージ１００３は、コンピュータ読み取り可能な記録媒体であり、例えば、ＣＤＲＯＭ（Compact　Disc　ＲＯＭ）などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ－ｒａｙ（登録商標）ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー（登録商標）ディスク、磁気ストリップなどの少なくとも１つで構成されてもよい。ストレージ１００３は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ１００２及び／又はストレージ１００３を含むデータベース、サーバその他の適切な媒体であってもよい。

　通信装置１００４は、有線及び／又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。

　入力装置１００５は、外部からの入力を受け付ける入力デバイス（例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど）である。出力装置１００６は、外部への出力を実施する出力デバイス（例えば、ディスプレイ、スピーカー、ＬＥＤランプなど）である。なお、入力装置１００５及び出力装置１００６は、一体となった構成（例えば、タッチパネル）であってもよい。

　また、プロセッサ１００１やメモリ１００２などの各装置は、情報を通信するためのバス１００７で接続される。バス１００７は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。

　また、スマートグラス２、音声認識サーバ５０、及び物体情報サーバ１０は、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ：Digital　Signal　Processor）、ＡＳＩＣ（Application　Specific　Integrated　Circuit）、ＰＬＤ（Programmable　Logic　Device）、ＦＰＧＡ（Field　Programmable　Gate　Array）などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ１００１は、これらのハードウェアの少なくとも１つで実装されてもよい。

　以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。

　例えば、情報処理システム１は、スマートグラス２、音声認識サーバ５０、及び物体情報サーバ１０を含んで構成されているとして説明したが、これに限定されず、情報処理システム１の各機能が、スマートグラス２のみによって実現されてもよい。また、情報処理システム１の各機能のうち、決定部２３による第１モードの決定処理、及び第２ジェスチャに基づいた指定範囲の画定処理が物体情報サーバ１０によって実現されてもよい。

　本明細書で説明した各態様／実施形態は、ＬＴＥ（Long　Term　Evolution）、ＬＴＥ－Ａ（LTE-Advanced）、ＳＵＰＥＲ　３Ｇ、ＩＭＴ－Ａｄｖａｎｃｅｄ、４Ｇ、５Ｇ、ＦＲＡ（Future　Radio　Access）、Ｗ－ＣＤＭＡ（登録商標）、ＧＳＭ（登録商標）、ＣＤＭＡ２０００、ＵＭＢ（Ultra　Mobile　Broad-band）、ＩＥＥＥ　８０２．１１（Ｗｉ－Ｆｉ）、ＩＥＥＥ　８０２．１６（ＷｉＭＡＸ）、ＩＥＥＥ　８０２．２０、ＵＷＢ（Ultra-Wide　Band）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、その他の適切なシステムを利用するシステム及び／又はこれらに基づいて拡張された次世代システムに適用されてもよい。

　本明細書で説明した各態様／実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。

　入出力された情報等は特定の場所（例えば、メモリ）に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

　判定は、１ビットで表される値（０か１か）によって行われてもよいし、真偽値（Boolean：trueまたはfalse）によって行われてもよいし、数値の比較（例えば、所定の値との比較）によって行われてもよい。

　本明細書で説明した各態様／実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行うものに限られず、暗黙的（例えば、当該所定の情報の通知を行わない）ことによって行われてもよい。

　ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

　また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線（ＤＳＬ）などの有線技術及び／又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び／又は無線技術は、伝送媒体の定義内に含まれる。

　本明細書で説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。

　なお、本明細書で説明した用語及び／又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。

　また、本明細書で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。

　スマートグラス２は、当業者によって、移動通信端末、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、またはいくつかの他の適切な用語で呼ばれる場合もある。

　本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

　本明細書で「第１の」、「第２の」などの呼称を使用した場合においては、その要素へのいかなる参照も、それらの要素の量または順序を全般的に限定するものではない。これらの呼称は、２つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第１および第２の要素への参照は、２つの要素のみがそこで採用され得ること、または何らかの形で第１の要素が第２の要素に先行しなければならないことを意味しない。

　「含む（include）」、「含んでいる（including）」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または（or）」は、排他的論理和ではないことが意図される。

　本明細書において、文脈または技術的に明らかに１つのみしか存在しない装置である場合以外は、複数の装置をも含むものとする。

　本開示の全体において、文脈から明らかに単数を示したものではなければ、複数のものを含むものとする。

　１…情報処理システム、２…スマートグラス（端末）、１０…物体情報サーバ（特定部，記憶部）、２１…取得部、２２…ジェスチャ認識部、２３…決定部、２４…生成部（処理実行部）、２５…出力部（処理実行部）、５０…音声認識サーバ（音声認識部）、Ｈ１…看板（対象オブジェクト）、Ｈ２…椅子（対象オブジェクト）、ＨＪ１…ジェスチャ（第１ジェスチャ）、ＨＪ２…ジェスチャ（第２ジェスチャ）、Ｐ８…画像（重畳画像）。

Claims

　ユーザに装着された端末において表示されることにより前記ユーザに視認される画像、前記ユーザの視線情報、及び前記ユーザが発した音声であるユーザ音声を取得する取得部と、
　前記取得部によって取得された前記画像に示されている前記ユーザのジェスチャを認識するジェスチャ認識部と、
　前記取得部によって取得された前記ユーザ音声を認識する音声認識部と、
　前記視線情報、及び前記ジェスチャ認識部による認識結果に基づいて、前記音声認識部によって認識された前記ユーザ音声に応じて前記画像に係る第１処理を実行する第１モード、及び、前記音声認識部によって認識された前記ユーザ音声に応じて前記画像に係る処理とは異なる第２処理を実行する第２モードのいずれを適用するかを決定する決定部と、
　前記決定部によって適用すると決定された前記第１モード又は前記第２モードの処理を実行する処理実行部と、を備える、情報処理システム。
　前記ジェスチャ認識部は、前記第１処理に係る前記ジェスチャとして予め定められた第１ジェスチャを認識し、
　前記決定部は、
　前記視線情報、及び前記ジェスチャ認識部による前記第１ジェスチャの認識結果に基づいて、前記ユーザが、前記画像に示されている前記第１ジェスチャを注視しているか否かを判定し、
　前記第１ジェスチャを前記ユーザが注視している場合に、前記第１モードを適用すると決定する、請求項１に記載の情報処理システム。
　前記処理実行部は、前記音声認識部によって認識された前記ユーザ音声に前記第１処理に係る処理内容が含まれている場合においては、該処理内容に応じた処理を前記第１処理として実行する、請求項１又は２に記載の情報処理システム。
　前記画像に含まれるオブジェクトであって前記第１処理の対象のオブジェクトである対象オブジェクトを特定する特定部を更に備え、
　前記ジェスチャ認識部は、前記対象オブジェクトが含まれ得る範囲を示す前記ジェスチャとして予め定められた第２ジェスチャを更に認識し、
　前記特定部は、前記画像において前記第２ジェスチャが示す範囲に基づいて、前記対象オブジェクトを特定する、請求項１～３のいずれか一項に記載の情報処理システム。
　複数のオブジェクトのそれぞれについて、オブジェクトを示す情報とオブジェクトに関する情報とが少なくとも対応付けられたオブジェクト情報を記憶する記憶部を更に備え、
　前記特定部は、特定した前記対象オブジェクトについて、前記オブジェクト情報に基づき前記オブジェクトに関する情報を更に特定し、
　前記処理実行部は、前記第１モードの第１処理として、前記特定部により特定された前記対象オブジェクトに関する情報に基づいて出力情報を生成すると共に、生成した該出力情報を出力する、請求項４に記載の情報処理システム。
　前記処理実行部は、前記特定部により特定された前記対象オブジェクトに関する情報が前記対象オブジェクトに対応付けられて重畳表示された重畳画像を前記出力情報として生成する、請求項５に記載の情報処理システム。
　前記特定部は、前記音声認識部によって認識された前記ユーザ音声にオブジェクトを示す情報が含まれている場合においては、前記第２ジェスチャが示す範囲のオブジェクトのうち、前記ユーザ音声に含まれているオブジェクトを前記対象オブジェクトとして特定する、請求項４～６のいずれか一項に記載の情報処理システム。
　前記決定部は、前記第１モードを適用することを決定した後において、前記ジェスチャ認識部によって前記第２ジェスチャが認識されている間においては、前記第１モードの適用を継続する、請求項４～７のいずれか一項に記載の情報処理システム。
　前記決定部は、前記第１モードを適用することを決定した後において、前記ジェスチャ認識部によって前記第２ジェスチャが認識されなくなった場合においては、前記第２モードを適用することを決定する、請求項４～８のいずれか一項に記載の情報処理システム。