WO2019039119A1

WO2019039119A1 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: WO2019039119A1
Application number: PCT/JP2018/026110
Authority: WO
Inventors: 龍一鈴木; 健太郎井田; 拓也池田; 文彦飯田
Original assignee: ソニー株式会社
Priority date: 2017-08-23
Filing date: 2018-07-11
Publication date: 2019-02-28
Also published as: US11417135B2; CN111052044B; EP3674854A1; EP3674854A4; JPWO2019039119A1; CN111052044A; US20200250412A1; JP7211367B2

Abstract

【課題】空間内の環境に応じて情報出力の最適化を行うことが可能な情報処理装置、情報処理方法、およびプログラムを提供する。【解決手段】コンテンツを出力する空間をセンシングしたセンサデータに基づいて空間内の状況を認識する認識部と、前記認識の結果と、前記コンテンツの関連情報の解析結果に基づき、当該コンテンツの出力方式を決定する決定部と、を備える、情報処理装置。

Description

情報処理装置、情報処理方法、およびプログラム

　本開示は、情報処理装置、情報処理方法、およびプログラムに関する。

　従来、人が情報提示を受ける場合には、例えばテレビジョン装置等の予め固定された表示情報の前に自ら移動したり、スマートフォン等のモバイル端末を用いる場合にはモバイル端末を携帯していなければならかった。

　ここで、近年、指向性を持ったスピーカや、駆動するプロジェクタが提案され、空間内の任意の場所に音場を形成したり映像を出力することが可能となってきている。

　特にプロジェクタに関しては、近年、小型化および高輝度化により、コンシューマ、ビジネス向けへの導入が進んでいる。プロジェクタに関し、例えば下記特許文献１では、投射可能な領域を自動判別する投射型表示装置が開示されている。かかる投射型表示装置は、デプスセンサなどのエリアセンサを用いて障害物等を検出し、投影可能な領域を判定することができる。

　また、下記特許文献２では、対話する人間が見やすい位置に自ら移動し、かつ探索した最適投影面に投影することができるプロジェクタ投影器搭載型の自律型ロボットが開示されている。かかる自律型ロボットは、投影領域が平面であるか否か、投影領域の色調、光沢具合に関する情報を取得し、最適投影面を決定している。

特開２０１５－１４５８９４号公報特開２００５－３１３２９１号公報

　しかしながら、上記特許文献１では、空間に映像を投影する際、投影面の形状を計測し最適な投影サイズを推定しているが、投影面以外の環境情報を考慮しておらず、視聴状況が十分ではなかった。また、空間内には、テレビジョン装置やスマートフォン等複数のデバイスが存在しているが、出力装置の最適化は考慮されていなかった。

　また、上記特許文献２は、自走式の単一のロボットに投影装置が搭載されることが想定されており、自走式以外の投影装置や、出力装置の最適化に関しては考慮されていない。

　このように、従来の技術では、空間内の環境に応じた出力の最適化が実現されておらず、人がデバイスの制約から解放されていなかった。

　そこで、本開示では、空間内の環境に応じて情報出力の最適化を行うことが可能な情報処理装置、情報処理方法、およびプログラムを提案する。

　本開示によれば、コンテンツを出力する空間をセンシングしたセンサデータに基づいて空間内の状況を認識する認識部と、前記認識の結果と、前記コンテンツの関連情報の解析結果に基づき、当該コンテンツの出力方式を決定する決定部と、を備える、情報処理装置を提案する。

　本開示によれば、プロセッサが、コンテンツを出力する空間をセンシングしたセンサデータに基づいて空間内の状況を認識することと、前記認識の結果と、前記コンテンツの関連情報の解析結果に基づき、当該コンテンツの出力方式を決定することと、を含む、情報処理方法を提案する。

　本開示によれば、コンピュータを、コンテンツを出力する空間をセンシングしたセンサデータに基づいて空間内の状況を認識する認識部と、前記認識の結果と、前記コンテンツの関連情報の解析結果に基づき、当該コンテンツの出力方式を決定する決定部と、として機能させるための、プログラムを提案する。

　以上説明したように本開示によれば、空間内の環境に応じて情報出力の最適化を行うことが可能となる。

　なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態による情報処理システムの概要について説明する図である。本実施形態による情報処理装置の構成の一例を示すブロック図である。本実施形態による出力制御処理を示すフローチャートである。本実施形態による空間内に存在する人認識処理について説明する図である。本実施形態による人認識処理の出力結果例を示す図である。本実施形態による環境認識処理における平面検出結果および投影不適切エリアの一例を示す図である。本実施形態による照度Ｍａｐおよび音場認識の一例を示す図である。本実施形態による平面領域に障害物が置いてある場合について説明する図である。本実施形態による平面領域に障害物が置いてある場合における投影面の検出について説明する図である。本実施形態による平面領域に障害物が置いてある場合における投影面の検出について説明する図である。本実施形態による出力装置の検出結果の一例を示す図である。本実施形態によるコンテンツ解析結果の一例を示す図である。本実施形態による人物に関する要素算出の一例を示す図である。本実施形態による出力装置に関する要素算出の一例を示す図である。本実施形態による照度のスコア化の変換式における指数nを変化させた際のグラフを示す図である。本実施形態による空間内における環境および人と出力装置の位置関係を示す図である。本実施形態によるスコアマトリクス表を示す図である。本実施形態によるクライミング競技大会の人物配置について説明する図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　また、説明は以下の順序で行うものとする。
　１．本開示の一実施形態による情報処理システムの概要
　２．情報処理装置１０の構成
　３．動作処理
　　３－１．全体の流れ
　　３－２．認識処理
　　（３－２－１．人認識処理）
　　（３－２－２．環境認識処理）
　　（３－２－３．機器認識処理）
　　３－３．コンテンツ解析処理
　　３－４．要素処理
　　（３－４－１．要素算出）
　　（３－４－２．要素のスコア化）
　　（３－４－３．特定要素の重み付け）
　　３－５．出力方式決定処理
　４．応用例
　５．まとめ

　＜＜１．本開示の一実施形態による情報処理システムの概要＞＞
　図１は、本開示の一実施形態による情報処理システムの概要について説明する図である。図１に示すように、本実施形態による情報処理システム１は、情報処理装置１０、センサ１１、および出力装置１２を含む。以下、本実施形態による情報処理システム１に含まれる各装置について説明する。

　（センサ１１）
　センサ１１は、周辺の環境情報を検知し、情報処理装置１０に出力する。センサ１１は、主に人関連の情報と、環境関連の情報を取得する。人関連の情報とは、空間内における１以上のユーザの位置、姿勢、視界エリア、視線方向、顔の向き等が挙げられる。また、環境関連の情報とは、投影面の形状、凹凸、色検出、障害物や遮蔽物、照度情報や音量等が挙げられる。センサ１１は、単一若しくは複数であってもよい。また、センサ１１は、出力装置１２に設けられていてもよい。

　本実施形態によるセンサ１１は、図１に示すように、例えばカメラ１１ａ、距離センサ１１ｂ、照度センサ１１ｃ、およびマイクロホン１１ｄにより実現され、空間内おける人関連の情報や環境関連の情報を取得する。

　カメラ１１ａは、空間内に居る１以上のユーザや投影領域を撮像して撮像画像を取得する。当該カメラ１１ａは、単一若しくは複数個であってもよい。また、撮像波長は、可視光域に限らず、紫外、赤外を含んでもよいし、特定波長領域に制限してもよい。また、照度のみを測定するセンサであってもよい。

　距離センサは、プロジェクタ１２ａの投影距離（投影面までの距離）や、ユーザの視聴距離（各出力装置１２までの距離）等を取得する。また、距離センサは、赤外光を光源とした方式、超音波を用いた方式、複数台のカメラを用いた方式、および画像処理を用いた方式等が挙げられる。また、距離センサは、単一若しくは複数個であってもよいし、エリア内の距離情報を一括取得してもよい。

　照度センサ１１ｃは、空間内の各箇所の照度を取得する。照度センサ１１ｃは、単一若しくは複数個であってもよい。

　マイクロホン１１ｄは、周辺の音声を集音し、音声データを取得する。

　なおセンサ１１を実現するカメラ１１ａ、距離センサ１１ｂ、照度センサ１１ｃ、およびマイクロホン１１ｄは、それぞれ異なる場所に設けられてもよいし、同一の場所に設けられてもよい。

　（情報処理装置１０）
　情報処理装置１０は、センサ１１から取得した情報の解析と、コンテンツ属性（コンテンツに関連する何らかの情報）の解析を行った上で、空間内の環境に応じた情報出力の最適化を行う。センサデータの解析では、例えばプロジェクタ１２ａのような投射表示装置と投影面の３次元位置関係等を算出し、投影面に出力される映像がユーザにどのように認識されるか等、出力された情報をユーザによりどのように認識されるかを解析し、情報出力の最適化に用いる。

　また、コンテンツ属性の解析では、何らかの形でコンテンツをユーザに伝えるトリガが発動された際、当該コンテンツのフォーマット（文章、動画、音声等）や伝える対象者、緊急性、重要度等の関連情報を解析し、コンテンツの属性も考慮して情報出力の最適化を行う。

　情報出力の最適化では、ユーザに情報提示を行うための最適なデバイス（出力装置１２）の選定および当該デバイスで出力する際の最適な各種パラメータを決定し、最適な情報出力を行うようデバイス（出力装置１２）を制御する。

　パラメータは、例えばプロジェクタ１２ａの場合、投影される映像の明るさや、大きさを調整するズーム機構、フォーカス機構等の調整パラメータ、スピーカ１２ｃであれば出力の大きさ（音量パラメータ）、ＡＲ（Augmented　Reality）グラス（ウェアラブルデバイス１２ｄの一例）であれば調光素子の設定パラメータ等が想定される。

　なお本実施形態による情報処理装置１０の具体的な構成については、図２を参照して後述する。

　（出力装置１２）
　出力装置１２は、情報処理装置１０の制御に従ってユーザに情報提示を行う各種デバイスである。例えば出力装置１２は、図１に示すように、例えばプロジェクタ１２ａ、表示装置１２ｂ、スピーカ１２ｃ、またはウェアラブルデバイス１２ｄ等により実現される。なお出力装置１２の具体例は図１に図示したものに限定されず、他にも例えば振動装置や風出力装置、空調装置、照明装置、各種アクチュエータ等、何らかの情報をユーザに提示し得る装置は全て想定し得る。また、空間内には、１以上の種類の出力装置が１以上存在することを想定する。

　また、プロジェクタ１２ａ等の投影表示装置やスピーカ１２ｃ等の音声出力装置は、空間内に固定されたものであってもよいし、駆動するプロジェクタにより空間内のどこにでも投影できるものであってもよい。また、表示装置１２ｂは、テレビジョン装置のように空間内に固定されたものであってもよいし、スマートフォンや携帯電話端末、タブレット端末等のようにユーザが携帯するモバイル端末であってもよい。また、ウェアラブルデバイス１２ｄは、ユーザに装着され、例えばＨＭＤ（Head　Mounted　Display）、スマートアイグラス（すなわちＡＲグラス）、スマートウォッチ、スマートバンド、スマートネック、ネック型スピーカ、イヤリング型スピーカ、イヤカフ型スピーカ等が想定される。

　以上、本実施形態による情報処理システム１の構成について説明した。情報処理システム１の各装置は、各々別箇所に設置してもよいし、同一箇所に設置してもよい。

　また、情報処理システム１の各装置は、各々別体として構成されてもよいし、少なくとも一部の装置が同一体として構成されてもよい。

　＜＜２．情報処理装置１０の構成＞＞
　図２は、本実施形態による情報処理装置１０の構成の一例を示すブロック図である。図２に示すように、情報処理装置１０は、制御部１００、通信部１１０、入力部１２０、および記憶部１３０を有する。

　制御部１００は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置１０内の動作全般を制御する。制御部１００は、例えばＣＰＵ（Central　Processing　Unit）、マイクロプロセッサ等の電子回路によって実現される。また、制御部１００は、使用するプログラムや演算パラメータ等を記憶するＲＯＭ（Read　Only　Memory）、及び適宜変化するパラメータ等を一時記憶するＲＡＭ（Random　Access　Memory）を含んでいてもよい。

　また、本実施形態による制御部１００は、認識部１０１、コンテンツ解析部１０２、要素処理部１０３、出力方式決定部１０４、および出力制御部１０５としても機能する。

　認識部１０１は、センサ１１から送信された各種センサデータに基づいて、人認識処理、環境認識処理、および機器認識処理を行う。各認識処理の詳細については後述するが、例えば人認識処理では、各ユーザの位置や視線、個人の特定や姿勢認識、行動認識等を行う。また、環境認識処理では、ユーザが置かれている環境を認識し、情報伝達する際の最適な環境を把握する。また、機器認識処理では、出力に使用するデバイス（出力装置１２）の状態を把握する。

　コンテンツ解析部１０２は、詳しくは後述するが、例えばコンテンツに関連する情報（例えば属性）として、当該コンテンツがどのようなフォーマット（動画、文章、音声、静止画等）であるか、コンテンツを利用する対象者は誰か、ユーザの作業有無（目視確認のみのコンテンツか否か、表示されたコンテンツに対する所定のユーザ操作等)、重要度（緊急通知、通知、（常時）表示等）等を解析する。これらはシステム側で予め決定されていてもよいし、コンテンツに予め関連付けられたメタデータ（例えばコンテンツのフォーマットや対象、当該コンテンツに対する所定のユーザ操作、重要度に関するメタデータ）を特定することにより解析してもよいし、動画／静止画の場合に画像情報を学習して重要度を自動で検出してもよい。

　要素処理部１０３は、最適な出力方式決定のための要素に関する処理を行う。例えば、各ユーザの視聴距離、投影面の角度差、視力、年齢等の人の要素や、表示面形状、表示面材質、プロジェクト解像度、スピーカの音量等、環境の各要素についてスコア化する。また、要素処理部１０３は、コンテンツ解析結果に基づいて、特定要素のスコアの重み付けを行う。

　出力方式決定部１０４は、コンテンツ解析部１０２によるコンテンツの関連情報の解析結果に基づいて、出力方式の決定、すなわち、最適な出力位置、出力装置、および出力の各種パラメータを決定する。出力位置とは、投影表示装置（プロジェクタ１２ａ）からの投影出力の場合は空間内における平面領域の位置（例えば図６に示す平面領域Ｐ１～Ｐ７）が相当し、表示装置１２ｂやスピーカ１２ｃ等の場合は各装置自体の設置位置が相当する。また、ウェアラブルデバイス１２ｄの場合、端末自体の位置すなわち装着しているユーザの位置が相当する。また、本実施形態による出力方式決定部１０４は、さらに要素処理部１０３により算出された、コンテンツ解析結果に基づく各要素のスコアを考慮して、出力方式を決定してもよい。具体的には、例えば出力方式決定部１０４は、コンテンツがビデオの場合、画面サイズ（投影面のサイズを含む）を優先して大画面での出力を行うよう出力方式を決定してもよい。また、例えば出力方式決定部１０４は、コンテンツがタッチＵＩ（ユーザインタフェース）の場合、ユーザによるタッチ操作を考慮して出力位置（投影位置、表示位置）とユーザとの距離の近さを優先し、ユーザに最も近い場所での画像出力を決定してもよい。また、例えば出力方式決定部１０４は、コンテンツが文字主体の場合（例えばＷＥＢコンテンツや電子書籍等）、細かな文字も視認できるよう、出力解像度（出力装置１２における解像度）を優先して出力方式を決定するようにしてもよい。出力解像度とは、ユーザが視認できる所定表示面積当たりの解像度である。また、例えば出力方式決定部１０４は、コンテンツが音声の場合、出力位置における音場の状況を優先し、より静かな場所から音声を出力するよう、若しくはユーザの位置も考慮してよりユーザに音声が届き易い位置から音声を出力するよう出力方式を決定してもよい。

　出力制御部１０５は、出力方式決定部１０４により決定された内容に従って、所定の出力装置１２に対して所定の出力制御を行う。具体的には、出力制御部１０５は、決定した出力方式で出力するよう制御する制御信号やコンテンツデータを通信部１１０から出力装置１２に送信するよう制御する。

　（通信部１１０）
　通信部１１０は、有線または無線により外部装置と直接若しくはネットワークを介してデータの送受信を行う。例えば通信部１１０は、有線／無線ＬＡＮ（Local　Area　Network）、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、近距離無線通信等を用いてセンサ１１や出力装置１２と通信接続する。例えば、通信部１１０は、出力制御部１０５の制御に従って、決定された出力方式で出力するよう所定の出力装置１２を制御する制御信号やコンテンツデータを出力装置１２に送信する。

　（入力部１２０）
　入力部１２０は、情報処理装置１０への入力情報を受け付ける。例えば入力部１２０は、ユーザによる操作指示を受け付ける操作入力部であってもよい。操作入力部は、タッチセンサ、圧力センサ、若しくは近接センサであってもよい。あるいは、操作入力部は、ボタン、スイッチ、およびレバーなど、物理的構成であってもよい。また、入力部１２０は、音声入力部（マイクロホン）であってもよい。

　（記憶部１４０）
　記憶部１４０は、制御部１００の処理に用いられるプログラムや演算パラメータ等を記憶するＲＯＭ（Read　Only　Memory）、および適宜変化するパラメータ等を一時記憶するＲＡＭ（Random　Access　Memory）により実現される。

　記憶部１４０には、表示情報（コンテンツ）が記憶される。なお表示情報は、通信部１１０を介して外部装置から送信されてもよい。

　以上、本実施形態による情報処理装置１０の構成について具体的に説明した。なお、本実施形態による情報処理装置１０の構成は図２に示す例に限定されず、例えばさらに出力部を有していてもよい。出力部は、例えば表示部または音声出力部（マイクロホン）により実現されていてもよい。表示部は、操作画面やメニュー画面等を出力し、例えば液晶ディスプレイ（ＬＣＤ：Liquid　Crystal　Display）、有機ＥＬ（（Electro　Luminescence）ディスプレイなどの表示装置であってもよい。

　また、情報処理装置１０が複数の装置により構成されていてもよい。また、情報処理装置１０は、クライアント装置（スマートフォン、タブレット端末、ＰＣ（Personal　Computer）、等）により実現されてもよいし、ネットワーク上のサーバにより実現されてもよい。

　＜＜３．動作処理＞＞
　続いて、本実施形態による情報処理システムの動作処理について図面を用いて具体的に説明する。

　　＜３－１．全体の流れ＞
　まず、図３を参照して本実施形態による出力制御処理について説明する。図３は、本実施形態による出力制御処理を示すフローチャートである。

　図３に示すように、まず、情報処理装置１０は、センサ１１からセンサデータを取得し（ステップＳ１０３）、次いで、コンテンツ情報を取得する（ステップＳ１０６）。センサデータの取得は、センサ１１から継続的に取得してもよいし、コンテンツ情報を取得した際に取得するようにしてもよい。コンテンツ情報の取得は、何らかの形でコンテンツを人に伝えるトリガが発動された際（メッセージの受信、電話の着信、プッシュ通知、インターフォン（訪問者）、ユーザによる出力指示等）、当該コンテンツの属性等の情報を外部装置または記憶部１３０から取得する。

　次に、情報処理装置１０の認識部１０１は、空間内に存在する各ユーザの位置や視線方向等の人に関する認識処理（ステップＳ１０９）、空間内における平面検出や照度、音場等、環境に関する認識処理（ステップＳ１１２）、および空間内に存在する出力装置１２の形態や出力位置、状態等の機器に関する認識処理（ステップＳ１１５）を行う。

　次いで、コンテンツ解析部１０２は、コンテンツのフォーマットや対象者、作業の有無、および重要性等のコンテンツ解析を行う（ステップＳ１１８）。

　次に、要素処理部１０３は、出力方式を決定するための要素算出を行い（ステップＳ１２１）、算出した要素に基づいて要素のスコア化を行う（ステップＳ１２４）。

　次いで、要素処理部１０３は、コンテンツ解析結果に基づいて、各要素スコアの重み付け処理を行う（ステップＳ１２７）。

　続いて、出力方式決定部１０４は、要素スコアに基づいて環境に応じた最適な出力方式を決定し（ステップＳ１３０）、出力制御部１０５は、決定された出力方式に従ってコンテンツの出力制御を行う（ステップＳ１３３）。

　以上、本実施形態による情報処理システムの全体の流れについて図３を参照して説明した。続いて、上述した各ステップにおける処理について詳細に説明する。

　　＜３－２．認識処理＞
　　（３－２－１．人認識処理）
　人認識処理では、センサデータに基づいて、空間内に存在する１以上のユーザの位置や視線方向、個人の特定、姿勢認識、行動認識等を行う。図４は、本実施形態による人認識処理について説明する図である。認識部１０１は、図４に示すように、空間Ｓ内に複数のユーザ（ユーザＡ、ユーザＢ）がいる場合に、各ユーザの位置や視界ベクトルＶ（視線方向）を３次元座標位置（x,y,z）で取得し得る。また、認識部１０１は、各ユーザの状態（姿勢、行動）も取得し得る。

　ここで、図５に、人認識処理の出力結果例を示す。認識部１０１は、例えば図５に示すように、各ユーザの位置座標、視界ベクトル、姿勢、行動等を取得し得る。各ユーザの位置座標は、例えば各ユーザが所有しているスマートフォンやスマートウォッチ、ＡＲグラス等から位置情報を取得して算出してもよい。なお空間Ｓの認識（空間の３次元形状の把握）も認識部１０１により行われ得る。例えば認識部１０１は、センサデータに基づいて周辺空間における物体情報を取得し（物体認識）、空間内のレイアウトを認識し、その中で各ユーザの位置座標を把握する。なお位置座標の取得は、ユーザが所持する通信端末から送信される位置情報に限定されず、例えばユーザが再帰性反射機能を有したものを身に着けている場合に、光の反射により取得することも可能である。また、空間内の撮像画像に基づいてユーザの位置の特定、個人識別（顔認識）、顔の向きの推定を行うことも可能である。また、サーモカメラや超音波センサ、レーザー測量等を用いることも考え得る。

　　（３－２－２．環境認識処理）
　環境認識処理では、ユーザがおかれている環境を認識することで、情報を伝達する際の最適な環境を把握することを可能とする。

　ここで、図６～図１０を参照し、環境認識結果の一例について説明する。

　図６は、平面検出結果および投影不適切エリアの一例を示す図である。認識部１０１は、各種センサデータを解析し、図６左に示すように空間Ｓ内における平面領域Ｐ１～Ｐ７を検出したり、図６右に示すように投影不適切エリア２１～２３を判定したりする。平面検出結果および投影不適切エリアといった投影面の認識には、人認識処理で用いたレーザー測量（例えばLIDAR（Light　Detection　and　Ranging）など）や、超音波センサデータ、距離センサデータ、撮像画像、物体認識結果等を使用してもよい。

　また、投影面の認識では、検出した各平面が、映像を投影するのに適している材質、色味、照度であるかも併せて認識してもよい。このような平面の色味や凹凸、明るさの認識は、出力がプロジェクタによる映像投影の場合はプロジェクタと平面（投影面）の位置関係によっては映像が暗く見え難くなったり、投影面の色味が投影する色と近い場合には視認性が低くなったり、ガラス等のそもそも映像を投影できない場合などを回避するためである。

　図７は、照度Ｍａｐおよび音場認識の一例を示す図である。図７左に示すように、照度Ｍａｐでは、空間Ｓ内における各箇所の照度を認識し、空間Ｓ内の明るい個所や暗い個所が把握される。各箇所の照度の認識には、カメラセンサや照度センサ等から取得したセンサデータを使用することが想定される。また、音場認識では、空間Ｓ内における静かな個所や騒音個所、音が聞こえ難い／聞こえ易い個所等が把握される。音場認識は、空間Ｓ内に設置されたスピーカの位置から音場を推定してもよいし、空間Ｓ内やウェアラブルデバイス（ＡＲグラスやスマートフォンなど）等に設けられたマイクロホンやジャイロセンサ等から取得したセンサデータを使用してもよい。

　以上説明した投影面の認識や、音場、照度Ｍａｐの認識は、人認識処理と同様に、空間認識（空間の３次元形状の把握）と併せて行われ得る。なお、環境の状態があまり変化しない公共の施設や大型の構造物のみの場合は、予め空間の図面や空間の３次元形状の情報等を情報処理装置１０に登録しておいてもよい。

　また、検出される平面内には障害物が複数個置いてある場合がある。例えば図８に示すように、平面領域５０にコップや本等、複数の障害物５１～５３が置いてある場合、認識部１０１は、図９に示すように、障害物５１～５３のエリアを除いた複数の矩形を投影面候補６１～６６として検出してもよい。また、図１０に示すように、障害物５１～５３の周囲を覆う範囲を投影面候補６６として検出してもよい。

　　（３－２－３．機器認識処理）
　機器認識処理では、空間内に存在する出力装置１２の状態を把握する。ここで、図１１に、出力装置１２の検出結果の一例を示す。図１１に示すように、例えば出力装置１２の名称およびＩＤ毎に、出力装置１２の形態（固定／駆動／ウェアラブル）、出力可能位置（出力可能な位置の数）、応答性（起動時間、情報提示に掛かる時間）、状態（スタンバイ／起動中／使用中）、出力種類（表示／音声／振動）といった情報が取得される。これらの情報は、出力装置１２と通信接続して受信してもよいし、空間Ｓ内のカメラセンサやマイクロセンサ等から取得したセンサデータを解析して取得してもよい。

　「状態」や「応答性」も把握しておくことで、適切なタイミングで適切なデバイスを使用できないことを回避することが可能となる。例えば既に他のユーザに使用されている場合や、電源が入っておらず起動しなければならない場合（駆動型プロジェクタの場合、投影方向に振り向かせる駆動時間も掛かる）、すぐに情報提示を行うことができない。例えば歩いているユーザの周辺に情報提示しようとした場合、このような使用中の出力装置や応答に時間の掛かる出力装置では、ユーザが通り過ぎてしまって適切なタイミングで情報提示を行うことができない。

　また、機器の性能も予め把握することで、例えば環境の音量に対してスピーカの最大出力が足りない場合は、当該スピーカの使用を回避することができる。

　　＜３－３．コンテンツ解析処理＞
　コンテンツ解析処理では、コンテンツがどのようなフォーマットか（動画、文章、音声、静止画等）、コンテンツを利用する対象者は誰か、ユーザの作業有無（目視確認のみのコンテンツか否か、表示されたコンテンツに対する所定のユーザ操作（例えば画像コンテンツに対する画像編集操作が発生するか否かや、当該コンテンツに対して直接的なタッチ操作やコンテンツから離れた地点における動作によるジェスチャ操作等どのような種類の操作が発生するか等）、重要度（緊急通知、通知、（常時）表示）等を解析する。これらはシステム側で属性が予め決められてもよいし、コンテンツに予め関連付けられたメタデータ（例えばコンテンツのフォーマットや対象、当該コンテンツに対する所定のユーザ操作、重要度に関するメタデータ）を特定することにより解析しても良いし、動画／静止画の場合に画像情報を学習して、重要度を自動で検出してもよい。

　ここで、図１２に、コンテンツ解析結果の一例を示す。図１２に示すように、コンテンツ毎に、対象者、要求、およびフォーマットが解析される。図１２に示す「インターフォン」とは、玄関チャイムを鳴らすものであって、対象者は室内にいるユーザ全員（ユーザＡ、ユーザＢ）となる。また、作業の有無は、「通知」のため無しとなり、重要度は「ユーザＡおよびユーザＢに対する即時通知」となる。フォーマットとしては、例えば玄関チャイムを鳴らした者を撮像した撮像画像（静止画、フルカラー）となる。

　また、図１２に示す「メッセージ」は、ＳＮＳ（social　networking　service）における通知、メール、所定のアプリケーションからのプッシュ通知等、個人宛の情報であって、プライバシーを考慮して対象者は例えば「ユーザＢ」のみとなり、同空間内に居るユーザＡは対象除外者となる。対象除外者を設定することで、通知の際はユーザＢのみに見えるよう出力装置が決定される（例えばユーザが着用するＡＲグラス、スマートフォン等）。

　タッチＵＩ入力は、操作入力画面にタッチして何らかの情報を入力するものであって、例えば対象者以外にも見えてよい場合は、図１２に示すように、対象除外者は特に設定されない。また、タッチＵＩ入力はユーザによる能動的な入力作業が必要なものとなる。

　　＜３－４．要素処理＞
　続いて、出力方式を決定するための要素処理について説明する。

　（３－４－１．要素算出）
　要素処理部１０３は、認識部１０１による認識結果に基づいて、複数のユーザや出力装置１２毎の要素を算出する。図１３および図１４は、要素算出の一例を示す図である。

　例えば、要素処理部１０３は、人認識処理により検出した人の位置や視線方向（図４参照）と、環境認識処理により検出された平面（投影面）の位置（図６参照）に基づいて、図１３に示すような人物に関する要素を算出する。また、要素処理部１０３は、環境認識処理により検出された平面（投影面）の位置（図６参照）や各出力装置１２の検出結果（図１１参照）に基づいて、図１４に示すような出力装置に関する要素を算出する。なお、投影面は、図６に示すように複数検出され得るため、人と投影面との角度差や、投影面の形状や材質、環境照度等は、投影面毎に要素算出され得る。

　（３－４－２．要素のスコア化）
　次に、上記算出した各要素に基づいて、最適な出力位置（出力装置１２、投影面の位置）が決定されるが、各要素の単位は各々異なるため比較し辛い。そこで、本実施形態では、各要素のスコア化を行い、出力装置１２や投影面毎に１つのスコアを算出する。スコア化は、各要素を４～５段階にカテゴライズしたり、特定の変換式を作成して行ってもよい。以下、スコア化に用いる変換式の具体例について説明する。

　例えば、環境内の投影面の大きさのスコア（投影面スコアS_[surface]）は、下記式１により求められる。

　上記式１において、投影面スコアS_[surface]を求めるために、予め環境内で取り得る投影サイズの最大値、最小値をそれぞれS_[Max]、S_[Min]と定義する。また、要素別重みづけ係数k_[surface]は基本１とするが、コンテンツに応じて係数を変化させてもよい。詳細は後述する。このときk=1とすると、投影サイズxに対し、S_[surface]は0から1までの数値が得られる。このような手法を各要素に適用することで、各要素の単位を除いたスコアを算出することができる。

　また、スコア化の変換式は、人間の感覚の分布とスコアの分布が線形に比例しない場合がある。例として照度を挙げる。照度[ルクス]は、深夜帯が数十ルクス、部屋の照明をつけた際が200～300ルクス、明るい場所でも数百ルクス～千ルクスに対し、直射日光などが外から当たる際は数十万ルクスになる。よって、上記式１では、取りうるルクスの最大値S_[max]があまりにも巨大なため、深夜帯や部屋の照明を付けた際の変化量が僅かとなり、スコアの合計値を算出する際にはその要素の特性が失われてしまう。そこで，各要素の範囲が指数関数、対数のような人間の特性に対し偏った分布となるものは、上記式１に対し、累乗の指数nを追加した下記のような式２を使用してもよい．

　これにより、照度の場合、n=0.25など1以下の値にすることで、値が小さい区間にて微小な変化にも対応したスコアが算出できる。また、値が大きい区間の微小な変化に対応する場合は、累乗の指数nを1以上に設定することで対応できる。ここで、図１５に、指数nを変化させた際のグラフを示す。図１５では、入力0から1までに対し、累乗指数nを0.25、1、4にした際の傾向がそれぞれ示される。なお、この指数は、出力位置毎に変化させず、環境ごとに固定して使用するが、別々の環境の場合はその環境に適した値に修正してもよい。

　また，各要素の中で、入力値の特性が数段階の変化しか持たないものも存在する。そのようなものは数段階のスコアにカテゴライズしてもよい。例として、年齢を18歳以下、18歳～40歳、40歳以上など３段階の値にしたい場合は、以下のような式３を使用してもよい。

　（３－４－３．特定要素の重み付け）
　以上説明したように、投影面および出力装置１２（すなわち出力位置）毎に１つのスコアが算出され、その中で一番得点の高いスコアを選択することで、出力位置を決定することができるが、さらにコンテンツの特性を踏まえることで最適なスコア化を実現することが可能となる。

　そこで、図１２に示すようなコンテンツ解析結果に基づいて各要素の重み付けを行い、ユーザの意図を反映することを可能とする。

　ここで、下記表１に、特定のコンテンツにおける各要素kの重み付け係数の一例を示す。

　各要素は、上記式１を採用した場合、例えば投影サイズは大きいほどスコアが高く、投影面とユーザの距離は離れているほどスコアが高くなる。ここで、上記表１に示すように、例えば映画など大画面で見たいビデオコンテンツでは、視聴距離が遠くても画面サイズを優先させるよう、k_[投影サイズ]とk_[投影面とユーザの距離]の重み付け係数を1以上にする。また、ユーザに入力をさせるTouch　UIや文章などの細かな情報を表示する場合は、画面サイズよりも視聴距離が短い方を優先するため、k_[投影面とユーザの距離]の重み付けを-1以下にする。これにより、近いほど高スコアにすることができる。また、細かな情報でも文字などが視認できるよう、k_[投影面の解像度]を1以上にするようにしてもよい。

　このように、重み付け係数は、1以上でそれぞれ要素の特性をより影響度を大きくし、0に近付く程その要素の特性を無視することができる。また、符号を変えることでその特性を反転させることができる。

　　＜３－５．出力方式決定処理＞
　続いて、出力方式決定部１０４による出力方式の決定処理について図１６～図１７を参照して説明する。出力方式決定部１０４は、重み付けされた各要素のスコアを統合し、各出力位置（例えば空間内における各投影面（平面領域Ｐ１～Ｐ７）や、表示装置１２ｂ、スピーカ１２ｃ、ウェアラブルデバイス１２ｄの位置）に１つのスコアを算出する。また、複数の出力装置１２と出力種類（例えば、表示、音声、振動等）の組み合わせから最適な出力方式を選択する。

　ここで、図１６に、空間内における環境および人と出力装置の位置関係を示す。図１６に示すように、例えば空間内にユーザＡとユーザＢが存在し、出力装置１２としてスマートフォン５（ユーザＢが所有）、ＡＲグラス６（ユーザＡが所有）、ＴＶ装置８、および駆動型プロジェクタ７が存在し、また、平面検出により平面領域（投影面）Ｐ１～Ｐ７が検出されている。

　このとき、出力装置１２と、出力種類（表示、音声、振動）および出力位置（投影面、出力装置１２の位置）別のスコアマトリクス表を図１７に示す。駆動型プロジェクタ７の「表示」および「音声」出力位置はそれぞれ6か所可能であるため、平面領域Ｐ１～Ｐ６の6か所別にスコアが算出される。

　また、ＡＲグラス６はユーザＡに所有されるため、出力位置は「ユーザＡ」となる。また、スマートフォン５はユーザＢに所有されるため、出力位置は「ユーザＢ」となる。

　図１７に示す各スコアは、図１３および図１４に示すように算出した要素を、スコア化およびコンテンツに応じた重み付けを行ったものとする。例えば出力するコンテンツが、図１２に示す「ＩＤ３、Touch　UI、対象者：ユーザＡ」の場合、ユーザＡの近くに存在する程スコアが高くなるよう重み付けされ、例えば駆動型プロジェクタの表示位置としてユーザＡの近くに存在する平面領域Ｐ３（テーブル）の値が高くなる。出力方式決定部１０４は、最もスコアの高い出力装置１２と出力種類の組み合わせを選択してもよいし、映像と音声を両方使用する際は、映像で使用する出力装置と音声出力で使用する出力装置は別のものであってもよい。

　また、複数のスコアが同列になった場合は、上記表１に示す各重み付け係数の絶対値が大きい要素を優先させるようにしてもよい。例えば出力するコンテンツが、図１２に示す「ＩＤ３、Touch　UI、対象者：ユーザＡ」の場合、投影サイズより投影面とユーザＡとの距離や解像度を優先するため、複数の投影面（平面領域Ｐ１～Ｐ６）の中から、ユーザとの距離に基づいて選択することで、１つの候補を絞り込むことができる。

　また、出力方式決定部１０４は、複数人に対して大画面の映像を提示する場合など、複数のユーザを１つの画面に振り向かせる必要がある場合、各ユーザの状態に応じて個別に移動コストを算出してもよい。例えば、立っている人物は振り向くコストが低く、椅子に座っている人物は特に椅子が動かせない構造の場合は振り向くコストを重く見積もる等、人物の位置だけではなく、人物の状態や、人物と接している家具等も考慮して振り向きコストを算出し、出力位置を決定するようにしてもよい。また、年齢（子供か大人か）等のユーザ属性も考慮して振り向きコストを算出してもよい。

　また、１つのコンテンツは必ずしも１つの画面で提示する必要はなく、周辺の複数の投影面を組み合わせてコンテンツが要求するサイズを満たせようにしてもよい。

　また、ユーザが移動中における映像の提示は、ユーザの移動を妨げないように、かつ、ユーザの視線を逸らさないようにする必要がある。そのため、移動中の場合はユーザの視線による要素を重くしたり、ユーザの移動経路を予想することでそのルートに投影面が続いているかを確認する。予想した移動経路の途中で映像を提示できないエリアが断続的に存在する場合は、最適な環境でないものの、最初からスマートフォンやＡＲグラスなどで連続してコンテンツを視聴できるようにしてもよい。

　また、コンテンツの特性として複数のカテゴリが混在する場合、コンテンツ内で特性が限定されるまで分割し、それぞれ別の投影面に表示してもよい。例えば、インターネット動画サイトでは、動画コンテンツと、そのコンテンツの説明文が存在するため、動画はより大きい面に表示させ、説明文はユーザ近くの解像度を高く映し出せる場所に表示してもよい。

　＜＜４．応用例＞＞
　本実施形態による情報処理システムは屋内の生活環境だけでなく、公共施設や、スポーツ観戦等にも応用することが可能である。例えば、大型施設であるクライミング競技大会の例について図１８を参照して説明する。

　図１８は、クライミング競技大会の人物配置について説明する図である。図１８に示すように、例えばクライミング競技大会施設９では、正面にクライミングウォール９１、その手前に関係者席９２、これらを囲むように観客席９３が配置されている。

　このとき、提示したいコンテンツとしては、選手に向けた協議に関わる表示(例えば、エラー、反則など)や、観客に向けた表示（例えば、選手の情報、得点、コメントなど）が想定される。本実施形態による情報処理システム１は、コンテンツ解析において、対象者および対象除外者を設定し、適宜最適な出力位置を決定することが可能となる。例えば選手に向けた協議に関わるコンテンツの表示は、選出に近い場所や選手が所有しているウェアラブルデバイス等から出力し、多数の観客に向けたコンテンツは、全員が見られるようより大きな投影面に投影するようにしてもよい。

　＜＜５．まとめ＞＞
　上述したように、本開示の実施形態による情報処理システムでは、空間内の環境に応じて情報出力の最適化を行うことが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　例えば、上述した情報処理装置１０、センサ１１、または出力装置１２に内蔵されるＣＰＵ、ＲＯＭ、およびＲＡＭ等のハードウェアに、情報処理装置１０、センサ１１、または出力装置１２の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、本技術は以下のような構成も取ることができる。
（１）
　コンテンツを出力する空間をセンシングしたセンサデータに基づいて空間内の状況を認識する認識部と、
　前記認識の結果と、前記コンテンツの関連情報の解析結果に基づき、当該コンテンツの出力方式を決定する決定部と、
を備える、情報処理装置。
（２）
　前記コンテンツの関連情報の解析結果は、前記コンテンツのフォーマット、前記コンテンツを利用する対象者、前記コンテンツに対する作業、または前記コンテンツの重要度を含む、前記（１）に記載の情報処理装置。
（３）
　前記認識部は、空間内の状況として、空間内に存在するユーザに関する認識処理を行う、前記（２）に記載の情報処理装置。
（４）
　前記ユーザに関する認識処理として、ユーザの位置座標、視界方向、および状態を認識する、前記（３）に記載の情報処理装置。
（５）
　前記認識部は、空間内の状況として、空間内におけるユーザ周辺の環境に関する認識処理を行う、前記（２）～（４）のいずれか１項に記載の情報処理装置。
（６）
　前記環境に関する認識処理として、空間内から平面領域の検出、照度Ｍａｐの生成、および音場認識の少なくともいずれかを行う、前記（５）に記載の情報処理装置。
（７）
　前記認識部は、空間内の状況として、空間内に存在する出力装置に関する認識処理を行う、前記（２）～（６）のいずれか１項に記載の情報処理装置。
（８）
　前記決定部は、前記出力方式として、前記コンテンツの出力位置、出力装置、および出力パラメータを決定する、前記（２）～（７）のいずれか１項に記載の情報処理装置。
（９）
　前記出力位置は、投影表示装置からの投影出力の場合、空間内における平面領域の位置である、前記（８）に記載の情報処理装置。
（１０）
　前記出力位置は、出力装置の設置位置である、前記（８）に記載の情報処理装置。
（１１）
　前記出力位置は、出力装置がウェアラブルデバイスの場合、当該ウェアラブルデバイスを装着しているユーザの位置が相当する、前記（８）に記載の情報処理装置。
（１２）
　前記決定部は、
　　前記認識部による環境およびユーザに関する認識結果に基づいて算出され、前記コンテンツの関連情報の解析結果に応じて重み付けされた各要素のスコアに基づいて算出された出力位置毎のスコアに基づき、前記出力位置を決定する、前記（８）～（１１）のいずれか１項に記載の情報処理装置。
（１３）
　前記決定部は、
　　前記コンテンツの解析結果に基づき、前記コンテンツがビデオの場合、画面サイズを優先して前記出力方式を決定する、前記（８）～（１２）のいずれか１項に記載の情報処理装置。
（１４）
　前記決定部は、
　　前記コンテンツがタッチＵＩの場合、出力位置とユーザとの距離の近さを優先して前記出力方式を決定する、前記（８）～（１３）のいずれか１項に記載の情報処理装置。
（１５）
　前記決定部は、
　　前記コンテンツが文字主体の場合、出力解像度を優先して前記出力方式を決定する、前記（８）～（１４）のいずれか１項に記載の情報処理装置。
（１６）
　前記決定部は、
　　前記コンテンツが音声の場合、出力位置における音場の状況を優先して前記出力方式を決定する、前記（８）～（１５）のいずれか１項に記載の情報処理装置。
（１７）
　前記決定部は、
　　前記コンテンツが画像であって、かつユーザが移動中の場合、当該ユーザの視線方向を優先して前記出力方式を決定する、前記（８）～（１６）のいずれか１項に記載の情報処理装置。
（１８）
　前記情報処理装置は、
　前記決定した出力方式で出力装置に出力させる情報を送信する送信部をさらに備える、前記（１）～（１７）のいずれか１項に記載の情報処理装置。
（１９）
　プロセッサが、
　コンテンツを出力する空間をセンシングしたセンサデータに基づいて空間内の状況を認識することと、
　前記認識の結果と、前記コンテンツの関連情報の解析結果に基づき、当該コンテンツの出力方式を決定することと、
を含む、情報処理方法。
（２０）
　コンピュータを、
　コンテンツを出力する空間をセンシングしたセンサデータに基づいて空間内の状況を認識する認識部と、
　前記認識の結果と、前記コンテンツの関連情報の解析結果に基づき、当該コンテンツの出力方式を決定する決定部と、
として機能させるための、プログラム。

　１　　情報処理システム
　１０　情報処理装置
　１１　センサ
　１１ａ　カメラ
　１１ｂ　距離センサ
　１１ｃ　照度センサ
　１１ｄ　マイクロホン
　１２　出力装置
　１２ａ　プロジェクタ
　１２ｂ　表示装置
　１２ｃ　スピーカ
　１２ｄ　ウェアラブルデバイス
　１００　制御部１００
　１０１　認識部
　１０２　コンテンツ解析部
　１０３　要素処理部
　１０４　出力方式決定部
　１０５　出力制御部
　１１０　通信部
　１２０　入力部
　１３０　記憶部

Claims

　コンテンツを出力する空間をセンシングしたセンサデータに基づいて空間内の状況を認識する認識部と、
　前記認識の結果と、前記コンテンツの関連情報の解析結果に基づき、当該コンテンツの出力方式を決定する決定部と、
を備える、情報処理装置。
　前記コンテンツの関連情報の解析結果は、前記コンテンツのフォーマット、前記コンテンツを利用する対象者、前記コンテンツに対する作業、または前記コンテンツの重要度を含む、請求項１に記載の情報処理装置。
　前記認識部は、空間内の状況として、空間内に存在するユーザに関する認識処理を行う、請求項２に記載の情報処理装置。
　前記ユーザに関する認識処理として、ユーザの位置座標、視界方向、および状態を認識する、請求項３に記載の情報処理装置。
　前記認識部は、空間内の状況として、空間内におけるユーザ周辺の環境に関する認識処理を行う、請求項２に記載の情報処理装置。
　前記環境に関する認識処理として、空間内から平面領域の検出、照度Ｍａｐの生成、および音場認識の少なくともいずれかを行う、請求項５に記載の情報処理装置。
　前記認識部は、空間内の状況として、空間内に存在する出力装置に関する認識処理を行う、請求項２に記載の情報処理装置。
　前記決定部は、前記出力方式として、前記コンテンツの出力位置、出力装置、および出力パラメータを決定する、請求項２に記載の情報処理装置。
　前記出力位置は、投影表示装置からの投影出力の場合、空間内における平面領域の位置である、請求項８に記載の情報処理装置。
　前記出力位置は、出力装置の設置位置である、請求項８に記載の情報処理装置。
　前記出力位置は、出力装置がウェアラブルデバイスの場合、当該ウェアラブルデバイスを装着しているユーザの位置が相当する、請求項８に記載の情報処理装置。
　前記決定部は、
　　前記認識部による環境およびユーザに関する認識結果に基づいて算出され、前記コンテンツの関連情報の解析結果に応じて重み付けされた各要素のスコアに基づいて算出された出力位置毎のスコアに基づき、前記出力位置を決定する、請求項８に記載の情報処理装置。
　前記決定部は、
　　前記コンテンツの解析結果に基づき、前記コンテンツがビデオの場合、画面サイズを優先して前記出力方式を決定する、請求項８に記載の情報処理装置。
　前記決定部は、
　　前記コンテンツがタッチＵＩの場合、出力位置とユーザとの距離の近さを優先して前記出力方式を決定する、請求項８に記載の情報処理装置。
　前記決定部は、
　　前記コンテンツが文字主体の場合、出力解像度を優先して前記出力方式を決定する、請求項８に記載の情報処理装置。
　前記決定部は、
　　前記コンテンツが音声の場合、出力位置における音場の状況を優先して前記出力方式を決定する、請求項８に記載の情報処理装置。
　前記決定部は、
　　前記コンテンツが画像であって、かつユーザが移動中の場合、当該ユーザの視線方向を優先して前記出力方式を決定する、請求項８に記載の情報処理装置。
　前記情報処理装置は、
　前記決定した出力方式で出力装置に出力させる情報を送信する送信部をさらに備える、請求項１に記載の情報処理装置。
　プロセッサが、
　コンテンツを出力する空間をセンシングしたセンサデータに基づいて空間内の状況を認識することと、
　前記認識の結果と、前記コンテンツの関連情報の解析結果に基づき、当該コンテンツの出力方式を決定することと、
を含む、情報処理方法。
　コンピュータを、
　コンテンツを出力する空間をセンシングしたセンサデータに基づいて空間内の状況を認識する認識部と、
　前記認識の結果と、前記コンテンツの関連情報の解析結果に基づき、当該コンテンツの出力方式を決定する決定部と、
として機能させるための、プログラム。