WO2017056631A1

WO2017056631A1 - 情報処理システム及び情報処理方法

Info

Publication number: WO2017056631A1
Application number: PCT/JP2016/070477
Authority: WO
Inventors: 俊一笠原; 暦本　純一
Original assignee: ソニー株式会社
Priority date: 2015-09-30
Filing date: 2016-07-11
Publication date: 2017-04-06
Also published as: CN108028906B; US10628114B2; KR20180064370A; EP3358836A4; KR20230049131A; EP3358836A1; EP3358836B1; KR102647544B1; KR102516096B1; CN108028906A; US20180349083A1; JPWO2017056631A1; JP6822410B2

Abstract

撮像画像の受信機器で入力される情報の表示を制御する情報処理システム及び情報処理方法を提供する。　Ｂｏｄｙによる撮像画像（一人称映像）を第１のＧｈｏｓｔと第２のＧｈｏｓｔがそれぞれ受信し、第１のＧｈｏｓｔに対する入力に応じて生成される第１の情報と第２のＧｈｏｓｔに対する入力に応じて生成される第２の情報がＢｏｄｙに送られてくる場合、制御部５０９は、これら第１の情報と第２の情報を集約して得られる集約画像を表示部５０３で表示出力するように制御する。

Description

情報処理システム及び情報処理方法

　本明細書で開示する技術は、撮像画像の受信機器で入力される情報の表示を制御する情報処理システム及び情報処理方法に関する。

　ユーザーが自分以外の視界光景（自分以外の移動体から見える光景）にアクセスする技術が知られている。

　例えば、車両などの移動体に搭載された移動カメラにより撮像された画像を遠隔的に取得する移動カメラ・システムについて提案がなされている（例えば、特許文献１を参照のこと）。また、撮像センシング無線機器を配置したメガネを掛けた人が取得する視覚情報と同様の情報をヘッド・マウント・ディスプレイの装着者に提供する画像処理システムについて提案がなされている（例えば、特許文献２を参照のこと）。

　さらに、移動体の撮像画像を表示する表示装置側から移動体の撮像装置に対して撮像する視点位置及び視線方向、さらに撮影時の速度を指定する画像表示システムについて提案がなされている（例えば、特許文献３を参照のこと）。

特開２００６－１８６６４５号公報特開２００４－２２２２５４号公報特開２００８－１５４１９２号公報特開２０１４－１０４１８５号公報特開２０１０－１５５５８号公報

　本明細書で開示する技術の目的は、撮像画像の受信機器で入力される情報の表示を好適に制御することができる、優れた情報処理システム及び情報処理方法を提供することにある。

　本明細書で開示する技術は、上記課題を参酌してなされたものであり、その第１の側面は、
　撮像システムによる撮像画像を受信する第１のシステムに対する入力に応じて生成される第１の情報と、前記撮像システムによる撮像画像を受信する第２のシステムに対する入力に応じて生成される第２の情報とを集約して得られる集約画像の表示を制御する制御部を具備する、情報処理システムである。

　但し、ここで言う「システム」とは、特定の機能を実現する機能モジュールが論理的に集合した物のことを言い、単一の装置として構成される場合と、複数の装置が連携して機能する場合の双方を含むものとする。

　本明細書で開示する技術の第２の側面によれば、第１の側面に係る情報処理システムの前記制御部は、前記第１のシステムに入力される音声情報に基づく前記第１の情報と、前記第２のシステムに入力される音声情報に基づく前記第２の情報とを集約して得られる集約画像の表示を制御するように構成されている。

　本明細書で開示する技術の第３の側面によれば、第１の側面に係る情報処理システムの前記制御部は、前記第１のシステムに入力される音声情報に基づいて、前記集約画像の表示を制御するように構成されている。

　本明細書で開示する技術の第４の側面によれば、第３の側面に係る情報処理システムの前記制御部は、前記第１のシステムに入力される音声の強弱の変化に応じて、前記集約画像に含まれる前記第１の情報を変化させるように構成されている。

　本明細書で開示する技術の第５の側面によれば、第１の側面に係る情報処理システムの前記制御部は、前記第１のシステム及び前記第２のシステムを含む、前記撮像画像を受信する複数のシステムで指示された場所の分布を示す集約画像の表示を制御するように構成されている。

　本明細書で開示する技術の第６の側面によれば、第１の側面に係る情報処理システムの前記制御部は、文字情報からなる前記第１の情報及び前記第２の情報を集約して得られる集約画像の表示を制御するように構成されている。

　本明細書で開示する技術の第７の側面によれば、第１の側面に係る情報処理システムの前記制御部は、前記第１のシステム及び前記第２のシステムを含む、前記撮像画像を受信する複数のシステムで生成された複数の文字情報の中から共通し又は頻出する単語を抽出して表示させるように構成されている。

　本明細書で開示する技術の第８の側面によれば、第７の側面に係る情報処理システムの前記制御部は、前記抽出した単語をタグ・クラウド形式で表示させるように構成されている。

　本明細書で開示する技術の第９の側面によれば、第１の側面に係る情報処理システムの前記制御部は、前記第１のシステム及び前記第２のシステムを含む、前記撮像画像を受信する複数のシステムで生成された複数の文字情報を要約して表示させるように構成されている。

　本明細書で開示する技術の第１０の側面によれば、第１の側面に係る情報処理システムは、前記撮像画像を生成する撮像部をさらに備えている。

　本明細書で開示する技術の第１１の側面によれば、第１の側面に係る情報処理システムは、表示部をさらに備えている。そして、前記制御部は、前記表示部による前記集約画像の表示を制御するように構成されている。

　本明細書で開示する技術の第１２の側面によれば、第１１の側面に係る情報処理システムの前記表示部は、前記集約情報を実世界の風景に重畳して表示するように構成されている。

　また、本明細書で開示する技術の第１３の側面は、
　撮像システムによる撮像画像を受信する第１のシステムに対する入力に応じて生成される第１の情報と、前記撮像システムによる撮像画像を受信する第２のシステムに対する入力に応じて生成される第２の情報とを集約して得られる集約画像の表示を制御する制御ステップを有する、情報処理方法である。

　本明細書で開示する技術によれば、撮像画像の受信機器で入力される情報の表示を好適に制御することができる、優れた情報処理システム及び情報処理方法を提供することができる。

　なお、本明細書に記載された効果は、あくまでも例示であり、本発明の効果はこれに限定されるものではない。また、本発明が、上記の効果以外に、さらに付加的な効果を奏する場合もある。

　本明細書で開示する技術のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。

図１は、本明細書で開示する技術を適用した視界情報共有システム１００の概要を示した図である。図２は、１対Ｎのネットワーク・トポロジーを模式的に示した図である。図３は、Ｎ対１のネットワーク・トポロジーを模式的に示した図である。図４は、Ｎ対Ｎのネットワーク・トポロジーを模式的に示した図である。図５は、画像提供装置１０１と画像表示装置１０２の機能的構成例を示した図である。図６は、ＧｈｏｓｔがＢｏｄｙの視界に介入する様子を例示した図である。図７は、ＧｈｏｓｔがＢｏｄｙへ視界介入する仕組みを説明するための図である。図８は、ＧｈｏｓｔがＢｏｄｙの視界に介入する様子を例示した図である。図９は、ＧｈｏｓｔがＢｏｄｙの視界に介入する様子を例示した図である。図１０は、ＧｈｏｓｔがＢｏｄｙへ視界介入する仕組みを説明するための示した図である。図１１は、ＧｈｏｓｔがＢｏｄｙの視界に介入する様子（視界の移動方向の表示）を例示した図である。図１２は、ＧｈｏｓｔがＢｏｄｙの視界に介入する様子（文字情報の表示）を例示した図である。図１３は、ＧｈｏｓｔがＢｏｄｙの視界に介入する様子（チャット形式）を例示した図である。図１４は、ＧｈｏｓｔがＢｏｄｙへ聴覚介入する仕組みを説明するための図である。図１５は、複数のＧｈｏｓｔからＢｏｄｙへ同時介入する空間１５００を例示した図である。図１６は、Ｇｈｏｓｔの声のボリュームのパターンと同じ明滅パターンをポインターに与える視界介入を例示した図である。図１７は、画像提供装置１０１においてＧｈｏｓｔからの視界介入を処理する手順の一例を示したフローチャートである。図１８は、Ｇｈｏｓｔが指し示す場所を示すヒートマップを表示する例を示した図である。図１９は、画像提供装置１０１において多数のＧｈｏｓｔからの視界介入をヒートマップ形式で表示するための処理手順を示したフローチャートである。図２０は、画像提供装置１０１においてＧｈｏｓｔから送られてくる文字情報を表示するための処理手順を示したフローチャートである。

　以下、図面を参照しながら本明細書で開示する技術の実施形態について詳細に説明する。

Ａ．システム構成
　図１には、本明細書で開示する技術を適用した視界情報共有システム１００の概要を示している。図示の視界情報共有システム１００は、現場を撮影した画像を提供する画像提供装置１０１と、画像提供装置１０１から提供される画像を表示する画像表示装置１０２の組み合わせで構成される。

　画像提供装置１０１は、具体的には、実際に現場に居て活動する観察者１１１が頭部に着用するカメラ付きシースルー型のヘッド・マウント・ディスプレイで構成される。ここで言う「シースルー型」のヘッド・マウント・ディスプレイは、光学透過型であることを基本とするが、ビデオ・シースルー型であってもよい。ヘッド・マウント・ディスプレイに搭載されるカメラは、観察者１１１のほぼ視線方向を撮影して、その一人称映像（ＦＰＶ：Ｆｉｒｓｔ　Ｐｅｒｅｓｏｎ　Ｖｉｅｗ）を提供する。

　一方、画像表示装置１０２は、現場すなわち画像提供装置１０１から離間して配置され、画像提供装置１０１と画像表示装置１０２はネットワーク経由で通信することを想定している。ここで言う「離間」には、遠隔地の他、同じ室内でわずかに（例えば、数メートル程度）離れている状況も含むものとする。また、図示しないサーバーを介して画像提供装置１０１と画像表示装置１０２の間でデータ交換を行なうことも想定される。

　画像表示装置１０２は、例えば、現場には居ない人（撮影画像の視聴者）１１２が着用するヘッド・マウント・ディスプレイである。没入型のヘッド・マウント・ディスプレイを画像表示装置１０２に用いれば、視聴者１１２は、観察者１１１と同じ光景をよりリアルに体験することができる。但し、シースルー型のヘッド・マウント・ディスプレイを画像表示装置１０２に用いてもよい。

　また、画像表示装置１０２は、ヘッド・マウント・ディスプレイには限定されず、例えば腕時計型のディスプレイであってもよい。あるいは、画像表示装置１０２は、ウェアラブル端末である必要はなく、スマートフォンやタブレットなどの多機能情報端末、コンピューター・スクリーンやテレビジョン受像機などの一般的なモニター・ディスプレイ、ゲーム機、さらにはスクリーンに画像を投影するプロジェクターなどでもよい。

　観察者１１１は、実際に現場に居て、自らの身体を以って活動していることから、画像提供装置１０１のユーザーである観察者１１１（又は、画像提供装置１０１）のことを、以下では「Ｂｏｄｙ」とも呼ぶ。これに対し、視聴者１１２は、現場で身体を以って活動する訳ではないが、観察者１１１の一人称映像を視聴することによって現場に対する意識を持つことから、画像表示装置１０２のユーザーである視聴者１１２（又は、画像表示装置１０２）のことを、以下では「Ｇｈｏｓｔ」とも呼ぶ。

　Ｂｏｄｙは、自分の周辺状況をＧｈｏｓｔに伝達し、さらに状況をＧｈｏｓｔと共有する。一方のＧｈｏｓｔは、Ｂｏｄｙとコミュニケーションをとって離間した場所から作業支援などのインタラクションを実現することができる。視界情報共有システム１００において、ＧｈｏｓｔがＢｏｄｙの一人称体験に没入してインタラクションを行なうことを、以下では「ＪａｃｋＩｎ」とも呼ぶ。

　視界情報共有システム１００は、ＢｏｄｙからＧｈｏｓｔへ一人称映像を送信しＧｈｏｓｔ側でも視聴・体験することと、ＢｏｄｙとＧｈｏｓｔ間でコミュニケーションをとることを基本的な機能とする。後者のコミュニケーション機能を利用して、Ｇｈｏｓｔは、Ｂｏｄｙの視界に介入する「視界介入」、Ｂｏｄｙの聴覚に介入する「聴覚介入」、Ｂｏｄｙの身体若しくは身体の一部を動作させたり刺激を与えたりする「身体介入」、ＧｈｏｓｔがＢｏｄｙに代わって現場で話をする「代替会話」といった、遠隔地からの介入によって、Ｂｏｄｙに対するインタラクションを実現することができる。ＪａｃｋＩｎでは、「視界介入」、「聴覚介入」、「身体介入」、「代替会話」といった複数のコミュニケーション・チャネルがあるということもできる。「視界介入」、「聴覚介入」、「身体介入」、「代替会話」それぞれの詳細については後述に譲る。

　Ｇｈｏｓｔは、「視界介入」、「聴覚介入」、「身体介入」、「代替会話」を通じて、Ｂｏｄｙに対して現場での行動を指示することができる。例えば、外科手術などの医療現場や土木作業などの建築現場などさまざまな産業分野の作業支援、飛行機やヘリコプターの操縦の指示や誘導、自動車の運転者の案内、スポーツにおけるコーチング若しくはインストラクションなどの用途に視界情報共有システム１００を活用することができる。

　例えば、Ｂｏｄｙは、自分の視界を他人と共有したい場合の他、視界介入などを通じて、現在行なっている作業に対して他人から支援や指示、誘導、案内を受けたい（若しくは、受けなければならない）場合に、自ら主導的に適当なＧｈｏｓｔとのＪａｃｋＩｎ（Ｂｏｄｙ　ｉｎｉｔｉａｔｉｖｅ　ｓｔａｒｔ）を実施する。

　また、Ｇｈｏｓｔは、自分が出向くことなく現場の映像（他人の一人称映像）を視聴したい場合の他、他人が行なっている作業に対して支援や指示、誘導、案内を行ないたい（若しくは、行なわなければならない）場合に、自ら主導的に該当するＢｏｄｙとのＪａｃｋＩｎ（Ｇｈｏｓｔ　ｉｎｉｔｉａｔｉｖｅ　ｓｔａｒｔ）を実施する。

　但し、Ｂｏｄｙは、無制限に自分の視界や聴覚、身体、会話に介入されると、自分の行動がＧｈｏｓｔに邪魔され、あるいは自分の行動に支障をきたし危険な場合や、プライバシーが侵害されることもある。一方、Ｇｈｏｓｔにとっても、見たくない映像がある場合や、頼まれてもＢｏｄｙに対して適切な支援や指示、誘導、案内などのサービスを提供できない場合がある。したがって、ＧｈｏｓｔのＢｏｄｙへのＪａｃｋＩｎや、ＪａｃｋＩｎした状態でのＧｈｏｓｔからＢｏｄｙへの介入に一定の制限を課すようにしてもよい。

　なお、図１では簡素化のため、画像提供装置１０１と画像表示装置１０２をそれぞれ１台しか存在しない、ＢｏｄｙとＧｈｏｓｔが１対１のネットワーク・トポロジーを描いている。図２には、１つのＢｏｄｙと複数（Ｎ）のＧｈｏｓｔが同時にＪａｃｋＩｎする１対Ｎのネットワーク・トポロジーや、図３に示すような、複数（Ｎ）のＢｏｄｙと１つのＧｈｏｓｔが同時にＪａｃｋＩｎするＮ対１のネットワーク・トポロジー、図４に示すような、複数（Ｎ）のＢｏｄｙと複数（Ｎ）のＧｈｏｓｔが同時にＪａｃｋＩｎするＮ対Ｎのネットワーク・トポロジーも想定される。

　また、１つの装置がＢｏｄｙからＧｈｏｓｔへ切り替わったり、逆にＧｈｏｓｔからＢｏｄｙへ切り替わったりすることや、同時にＢｏｄｙとＧｈｏｓｔの役割を持つことも想定される。１つの装置がＧｈｏｓｔとしてあるＢｏｄｙにＪａｃｋＩｎすると同時に、他のＧｈｏｓｔに対してＢｏｄｙとして機能して、３台以上の装置がディジーチェーン接続されるネットワーク・トポロジー（図示を省略）も想定される。いずれのネットワーク・トポロジーにおいても、ＢｏｄｙとＧｈｏｓｔ間にサーバー（図示しない）が介在することもある。

Ｂ．機能的構成
　図５には、画像提供装置１０１と画像表示装置１０２の機能的構成例を示している。

　画像提供装置１０１は、Ｂｏｄｙとしての役割を果たすユーザー（観察者１１２）の利用に供される装置である。図５に示す例では、画像提供装置１０１は、撮像部５０１と、画像処理部５０２と、出力部としての表示部５０３、第１の音声出力部５０４、駆動部５０５及び第２の音声出力部５０６と、位置検出部５０７と、通信部５０８と、制御部５０９と、認証部５１０を備えている。

　撮像部５０１は、Ｂｏｄｙの一人称映像を撮影するカメラで構成される。撮像部５０１は、例えばＢｏｄｙすなわち観察者１１１の視線方向を撮影するように、観察者１１１の頭部に取り付けられる。あるいは、撮像部５０１に全天周型カメラを用いて、Ｂｏｄｙの周囲３６０度の全天周画像を提供できるようにしてもよい。但し、全天周画像は必ずしも３６０度である必要はなく、一部の視野が欠けていてもよい。また、全天周画像は、情報の少ない床面を含まない半天球画像であってもよい（以下、同様）。

　画像処理部５０２は、撮像部５０１から出力される画像信号の処理を行なう。撮像部５０１で撮影されるＢｏｄｙの一人称映像をそのままストリーミングする場合、Ｂｏｄｙは自分の意思で周辺を見渡したり視線方向を変えたりするので、Ｇｈｏｓｔは揺れの激しい映像を視聴することになり、ＶＲ（Ｖｉｒｔｕａｌ　Ｒｅａｌｉｔｙ）酔い若しくはモーション・シックネスを起こすなどの健康被害が懸念される。また、Ｂｏｄｙが着目していない別の個所をＧｈｏｓｔが視聴したい場合もある。そこで、画像処理部５０２は、撮像部５０１が撮影するＢｏｄｙの一人称映像の連続画像から周辺の空間を疑似的に構築するようにしている。具体的には、画像処理部５０２は、撮像部５０１が撮影する映像（全天周画像）に対してリアルタイムにＳＬＡＭ（Ｓｉｍｕｌｔａｎｅｏｕｓ　Ｌｏｃａｌｉｚａｔｉｏｎ　ａｎｄ　Ｍａｐｐｉｎｇ）認識技術などに基づく空間認識を行ない、現在のビデオ・フレームと過去のビデオ・フレームを空間的につなぎ合わせることで、Ｇｈｏｓｔがコントロールする仮想的なカメラ視点からの映像をレンダリングする。仮想的なカメラ視点でレンダリングされた映像は、Ｂｏｄｙの一人称映像というよりも疑似的にＢｏｄｙの体外に離脱した視点映像である。したがって、Ｇｈｏｓｔ側ではＢｏｄｙの動きとは独立にＢｏｄｙの周囲環境を観察できるので、映像の揺れを安定化させてＶＲ酔いを防ぐとともに、Ｂｏｄｙが着目していない別の個所を視聴することができる。

　表示部５０３は、画像表示装置１０２から送られてくる情報を表示出力して、ＧｈｏｓｔによるＢｏｄｙの視界への介入を実現する。上述したように画像提供装置１０１がシースルー型のヘッド・マウント・ディスプレイとして構成される場合、表示部５０３は、Ｂｏｄｙと一人称体験を共有するＧｈｏｓｔの意識を表現したＡＲ（Ａｕｇｍｅｎｔｅｄ　Ｒｅａｌｉｔｙ）画像を、観察者１１１の視界（すなわち、実世界の風景）に重畳表示する。ＡＲ画像は、例えばＧｈｏｓｔが指し示した場所を示すポインターやアノテーションなどの画像からなる。したがって、Ｇｈｏｓｔは、Ｂｏｄｙとのコミュニケーションを通じてその視界に介入して、現場に居るＢｏｄｙに対するインタラクションを行なうことができる。

　第１の音声出力部５０４は、例えばイヤホンやヘッドホンなどで構成され、画像表示装置１０２から送られてくる情報をＢｏｄｙに聴かせることで、ＧｈｏｓｔによるＢｏｄｙの聴覚への介入を実現する。画像表示装置１０２からは、Ｂｏｄｙと一人称体験を共有するＧｈｏｓｔの意識に関する情報が送信される。画像提供装置１０１側では、受信した情報を音声信号に変換して、第１の音声出力部５０４から音声出力し、Ｂｏｄｙすなわち観察者１１１に聴かせる。あるいは、一人称体験中のＧｈｏｓｔが発話した音声信号が、そのまま画像表示装置１０２から送信される。画像提供装置１０１側では、受信した音声信号をそのまま第１の音声出力部５０４から音声出力し、Ｂｏｄｙすなわち観察者１１１に聴かせる。また、第１の音声出力部５０４から出力する音声の音量や音質、出力タイミングなどを適宜調整するようにしてもよい。あるいは、画像表示装置１０２から届く画像情報や文字情報を音声信号に変換して、第１の音声出力部５０４から音声出力するようにしてもよい。したがって、Ｇｈｏｓｔは、Ｂｏｄｙとのコミュニケーションを通じてその聴覚に介入して、現場に居るＢｏｄｙに対するインタラクションを行なうことができる。

　駆動部５０５は、Ｂｏｄｙの身体若しくは身体の一部を動作させたり刺激を与えたりして、ＧｈｏｓｔによるＢｏｄｙの身体への介入を実現する。駆動部５０５は、例えば、観察者１１１の身体に対して、触覚（タクタイル）や（健康に害のない程度の軽微な）電気刺激を印加するアクチュエーターで構成される。あるいは、駆動部５０５は、観察者１１１が腕や手、脚などに装着するパワースーツや外骨格（ｅｘｏｓｋｅｌｅｔｏｎ）を駆動することで身体の運動を補助又は拘束する装置（例えば、特許文献５を参照のこと）で構成される。したがって、Ｇｈｏｓｔは、Ｂｏｄｙとのコミュニケーションを通じてその身体に介入して、現場に居るＢｏｄｙに対するインタラクションを行なうことができる。

　第２の音声出力部５０６は、例えばＢｏｄｙが装着するウェアラブル・スピーカーなどで構成され、画像表示装置１０２から届く情報又は音声信号を外部に音声出力する。第２の音声出力部５０６から出力される音声は、現場では、あたかもＢｏｄｙ本人が話しているように聴こえる。したがって、Ｇｈｏｓｔは、Ｂｏｄｙに代わって、Ｂｏｄｙが居る現場の人たちと会話したり、音声による指示を行なったりすること（代替会話）ができる。

　位置検出部５０７は、例えばＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）信号を用いて画像提供装置１０１（すなわちＢｏｄｙ）の現在位置情報を検出する。検出された位置情報は、例えばＧｈｏｓｔが所望する場所にいるＢｏｄｙを検索する際に利用される。

　通信部５０８は、ネットワーク経由で画像表示装置１０２と相互接続し、撮像部５０１で撮影した一人称映像や空間情報の送信、画像表示装置１０２とのコミュニケーションを行なう。通信部５０８の通信手段は無線又は有線のいずれでもよく、また、特定の通信規格に限定されない。

　認証部５１０は、ネットワーク経由で相互接続される画像表示装置１０２（若しくは、そのユーザーであるＧｈｏｓｔ）の認証処理を行ない、画像表示装置１０２からの情報を出力する出力部を決定する。そして、制御部５０９は、認証部５１０による認証結果に応じて、出力部からの出力動作を制御する。制御部５０９は、例えばＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）とＧＰＵ（Ｇｒａｐｈｉｃ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）に相当する機能を備えている。

　例えば、認証処理の結果、画像表示装置１０２に視界介入のみが許容されている場合には、制御部５０９は、表示部５０３からの表示出力のみを実行する。また、画像表示装置１０２に視界介入だけでなく聴覚介入も許容されている場合には、制御部５０９は、表示部５０３からの表示出力とともに第１の音声出力部５０４からに音声出力も実行する。ＢｏｄｙがＧｈｏｓｔからの介入を許容する範囲は、ｐｅｒｍｉｓｓｉｏｎレベルとして定義される。一方、ＧｈｏｓｔがＢｏｄｙに対して介入を行なう範囲は、ｍｉｓｓｉｏｎレベルとして定義される（後述）。但し、認証部５１０及び制御部５０９による上記の処理を、画像提供装置１０１ではなく、画像提供装置１０１と画像表示装置１０２の間に介在するサーバー（図示しない）で実行するように、視界情報共有システム１００を構成することも可能である。

　一方、画像表示装置１０２は、Ｇｈｏｓｔとしての役割を果たすユーザー（視聴者１１２）の利用に供される装置である。図５に示す例では、画像表示装置１０２は、通信部５１１と、画像復号部５１２と、表示部５１３と、ユーザー入力部５１４と、位置姿勢検出部５１５を備えている。

　通信部５１１は、ネットワーク経由で画像提供装置１０１と相互接続し、画像提供装置１０１から一人称映像の受信や、画像提供装置１０１とのコミュニケーションを行なう。通信部５１１の通信手段は無線又は有線のいずれでもよく、特定の通信規格に限定されないが、画像提供装置１０１側の通信部５０８と整合しているものとする。

　画像復号部５１２は、通信部５１１で画像提供装置１０１から受信した画像信号を復号処理する。表示部５１３は、画像復号部５１２で復号した後の全天周画像（Ｂｏｄｙの一人称映像）を表示出力する。なお、Ｂｏｄｙの一人称映像からＢｏｄｙの体外に離脱した視点映像をレンダリングする処理（前述）を、画像提供装置１０１側の画像処理部５０２ではなく、画像復号部５１２で行なうようにしてもよい。

　位置姿勢検出部５１５は、視聴者１１２の頭部の位置及び姿勢を検出する。検出した位置及び姿勢は、Ｇｈｏｓｔの現在の視点位置及び視線方向に相当する。Ｂｏｄｙの一人称映像から疑似的にＢｏｄｙの体外に離脱した視点映像を作り出す際の仮想的なカメラ（前述）の視点位置及び視線方向を、位置姿勢検出部５１５で検出した視聴者１１２の頭部の位置及び姿勢に基づいてコントロールすることができる。

　表示部５１３は、例えば、Ｇｈｏｓｔとしての視聴者１１２が着用するヘッド・マウント・ディスプレイで構成される。没入型のヘッド・マウント・ディスプレイを表示部５１３に用いれば、視聴者１１２は、観察者１１１と同じ光景をよりリアルに体験することができる。視聴者１１２すなわちＧｈｏｓｔが視聴する映像は、Ｂｏｄｙの一人称映像そのものではなく、一人称映像の連続画像から疑似的に構築された周辺の空間（疑似的にＢｏｄｙの体外に離脱した視点映像）であるとする（前述）。また、Ｇｈｏｓｔのヘッド・トラッキング、すなわち位置姿勢検出部５１５で検出した視聴者１１２の視点位置及び視線方向に追従するように仮想カメラを制御して、表示部５１３の表示画角を移動させることができる。

　表示部５１３として、没入型のヘッド・マウント・ディスプレイに代えて、シースルー型のヘッド・マウント・ディスプレイや、腕時計型のディスプレイなどのウェアラブル端末を用いてもよい。あるいは、表示部５１３は、ウェアラブル端末である必要はなく、スマートフォンやタブレットなどの多機能情報端末、コンピューター・スクリーンやテレビジョン受像機などの一般的なモニター・ディスプレイ、ゲーム機、さらにはスクリーンに画像を投影するプロジェクターなどでもよい。

　ユーザー入力部５１４は、Ｇｈｏｓｔとしての視聴者１１２が、表示部５１３に表示されているＢｏｄｙの一人称映像を観察したことに対して、Ｇｈｏｓｔ自身の意図や意識を入力するためのデバイスである。

　ユーザー入力部５１４は、例えばタッチパネルやマウス、ジョイスティックなどの座標入力装置で構成される。Ｇｈｏｓｔは、Ｂｏｄｙの一人称映像を表示する画面内で、特に関心のある場所を、タッチやマウスのクリック操作などにより直接指示することができる。Ｇｈｏｓｔは視聴している映像の画素座標上に指示を行なうが、Ｂｏｄｙ側の撮影映像は常に変化するので意味をなさない。そこで、ユーザー入力部５１４は、Ｇｈｏｓｔが画面のタッチやクリック操作などにより指示した画素位置に対応する３次元空間上の位置情報を画像解析などにより特定し、その３次元空間上の位置情報を画像提供装置１０１に送信する。したがって、Ｇｈｏｓｔは、画素座標ではなく、空間に対して固定できるポインティングを行なうことができる。

　また、ユーザー入力部５１４は、カメラによるＧｈｏｓｔの顔の撮影画像や眼電位を用いて眼球運動を捕捉して、Ｇｈｏｓｔが熟視（ｇａｚｅ）している場所を割り出し、その場所を特定する情報を画像提供装置１０１に送信するようにしてもよい。その際も、ユーザー入力部５１４は、Ｇｈｏｓｔが熟視する画素位置に対応する３次元空間上の位置情報を画像解析などにより特定し、その３次元空間上の位置情報を画像提供装置１０１に送信する。したがって、Ｇｈｏｓｔは、画素座標ではなく、空間に対して固定できるポインティングを行なうことができる。

　また、ユーザー入力部５１４は、キーボードなどの文字入力装置で構成される。Ｇｈｏｓｔは、Ｂｏｄｙと同じ一人称体験をしたときに、Ｂｏｄｙに伝えたい意図や抱いた意識などを、文字情報として入力することができる。ユーザー入力部５１４は、Ｇｈｏｓｔが入力した文字情報をそのまま画像提供装置１０１に送信してもよいし、音声信号など他の信号形式に置き換えてから画像提供装置１０１に送信するようにしてもよい。

　また、ユーザー入力部５１４は、マイクなどの音声入力装置で構成され、Ｇｈｏｓｔが発話した音声を入力する。ユーザー入力部５１４は、入力された音声を、音声信号のままで、通信部５１１から画像提供装置１０１へ送信してもよい。あるいは、ユーザー入力部５１４は、入力音声を音声認識して文字情報に変換し、文字情報として画像提供装置１０１に送信するようにしてもよい。

　Ｇｈｏｓｔは、Ｂｏｄｙの一人称映像を視聴しながら、「その」、「これ」といった指示語を使って事物を指し示すことが想定される。このような場合、ユーザー入力部５１４は、指示語が指し示す事物の３次元空間上の位置情報を言語解析並びに画像解析などにより特定し、その３次元空間上の位置情報を画像提供装置１０１に送信する。したがって、Ｇｈｏｓｔは、画素座標ではなく、空間に対して固定できるポインティングを行なうことができる。

　また、ユーザー入力部５１４は、Ｇｈｏｓｔの身振りや手振りを入力するジェスチャー入力装置でもよい。ジェスチャーを捕捉する手段は特に限定されない。例えば、ユーザー入力部５１４は、Ｇｈｏｓｔの四肢の動きを撮影するカメラとその撮影画像を処理する画像認識装置を備えていてもよい。また、画像認識を容易にするために、Ｇｈｏｓｔの身体にマーカーを取り付けていてもよい。ユーザー入力部５１４は、入力されたジェスチャーを、例えばＢｏｄｙの身体に介入する制御信号として、通信部４１１から画像提供装置１０１へ送信してもよい。また、ユーザー入力部５１４は、入力されたジェスチャーを、Ｂｏｄｙの視界に介入する画像情報（座標情報や、重畳表示するＡＲ画像、又は文字情報など）や、Ｂｏｄｙの聴覚に介入する音声信号に変換して、通信部５１１から画像提供装置１０１へ送信してもよい。また、ユーザー入力部５１４は、Ｇｈｏｓｔがジェスチャーにより指示した画素位置に対応する３次元空間上の位置情報を画像解析などにより特定し、その３次元空間上の位置情報を画像提供装置１０１に送信する。したがって、Ｇｈｏｓｔは、画素座標ではなく、空間に対して固定できるポインティングを行なうことができる。

　視界情報共有システム１００において展開されるＪａｃｋＩｎというサービスは、ＡＲ画像を重畳表示するという観点からは、一般的なＡＲ技術に類似する。但し、ＪａｃｋＩｎにおいては、人間（Ｇｈｏｓｔ）が他の人間（Ｂｏｄｙ）を拡張するという点で、コンピューターにより付与される通常のＡＲ技術とは相違するものと思料する。

　また、ＪａｃｋＩｎは、テレプレゼンス（前述）と類似する点もある。但し、通常のテレプレゼンスは、ロボットのような機械の視点から世界を眺めるインターフェースであるのに対し、ＪａｃｋＩｎは人間（Ｇｈｏｓｔ）が他の人間（Ｂｏｄｙ）の視点から眺めるという状況であるという点で相違する。また、テレプレゼンスでは、人間がマスターで機械がスレーブとなり、スレーブである機械は人間の動きを忠実に再現することを前提としている。これに対し、人間（Ｇｈｏｓｔ）が他の人間（Ｂｏｄｙ）にＪａｃｋＩｎする場合、ＢｏｄｙはＧｈｏｓｔに従って動くとは限らず、独立性を許すインターフェースである。

　上記の視界情報共有システム１００において、画像提供装置１０１から画像表示装置１０２に提供される映像は、Ｂｏｄｙが現場で観察しているリアルタイム映像（すなわち、撮像部５０１が撮影するライブ映像）とは限らず、録画された過去の映像であってもよい。例えば、画像提供装置１０１が過去の映像を録画する大容量記憶装置（図示しない）を備え、画像提供装置１０１から過去の映像を配信するようにしてもよい。あるいは、ＢｏｄｙとＧｈｏｓｔ間のＪａｃｋＩｎを統制するＪａｃｋＩｎサーバー（仮称）、あるいはその他の記録サーバー上で画像提供装置１０１による過去の録画映像を蓄積しておき、これらのサーバーからＧｈｏｓｔ（画像表示装置１０２）に過去の映像をストリーミング配信するようにしてもよい。但し、Ｇｈｏｓｔは、過去の映像を視聴する場合には、視界、聴覚を含むＢｏｄｙへの介入が一切許されない。何故ならば、Ｇｈｏｓｔが視聴している映像はＢｏｄｙが現在作業を行なっている現場の映像ではなく、過去の映像に基づいて介入するとＢｏｄｙの現在の作業に支障をきたすからである。

　なお、２台の機器間における視界共有の詳細については、例えば本出願人に既に譲渡されている特願２０１３－７８８９３号明細書も参照されたい。また、同システム１００における視界介入（ＡＲ画像の表示）の詳細については、例えば本出願人に既に譲渡されている特願２０１３－７８８９２号明細書、特願２０１３－７８８９４号明細書、特願２０１３－１９１４６４号明細書も参照されたい。

Ｃ．ＧｈｏｓｔからＢｏｄｙへの視界介入
　上述したように、ＪａｃｋＩｎでは、「視界介入」、「聴覚介入」、「身体介入」、「代替会話」といった複数のコミュニケーション・チャネルがある。したがって、Ｂｏｄｙは、ＧｈｏｓｔとのＪａｃｋＩｎを開始することによって、自分の視界をＧｈｏｓｔと共有できるとともに、視界介入などを通じて、現在行なっている作業に対してＧｈｏｓｔから支援や指示、誘導、案内を受けることができる。また、Ｇｈｏｓｔは、ＢｏｄｙとのＪａｃｋＩｎを開始することによって、自分は現場に出向かなくてもＢｏｄｙの一人称体験をすることができるとともに、視界介入などを通じてＢｏｄｙの作業に対して支援や指示、誘導、案内を行なうことができる。以下では、特に視界介入に着目して、ＢｏｄｙとＧｈｏｓｔ間のインタラクションについて説明する。

　画像表示装置１０２側では、タッチパネルやマウス、ジョイスティックなどの座標入力装置で構成されるユーザー入力部５１４を介してＧｈｏｓｔが表示画像上のある場所を指示したとき、その場所を特定する情報を画像提供装置１０１に送信する。そして、画像提供装置１０１側では、表示部５０３が、Ｇｈｏｓｔが指示した場所を示すポインターなどのＡＲ画像を、Ｂｏｄｙの視界に重畳して表示する。図６（Ａ）には、表示部５１３に表示される画像（Ｇｈｏｓｔが体験するＢｏｄｙの一人称画像）を例示している。参照番号６０１で示すように、Ｇｈｏｓｔは、この画像中のある場所をタッチにより指示したとする。図６（Ｂ）には、このときのＢｏｄｙの視界を例示している。参照番号６０２で示すように、画像提供装置１０１側の表示部５０３は、Ｇｈｏｓｔによって指示された場所を示すＡＲ画像を、Ｂｏｄｙの視界に重ね合わせて表示する。

　また、Ｇｈｏｓｔが音声やジェスチャーによって表示画像上のある場所を指示したときも、図６に示した例と同様に、その場所を特定する情報を画像提供装置１０１に送信し、画像提供装置１０１側ではその場所を示すＡＲ画像が重畳表示される。あるいは、Ｇｈｏｓｔの眼球運動を捕捉するなどして視線方向を検出して、Ｇｈｏｓｔが熟視（ｇａｚｅ）している場所を割り出し、その場所を特定する情報を画像提供装置１０１に送信するようにしてもよい。

　図７には、ＧｈｏｓｔからＢｏｄｙへ視覚介入する仕組みを模式的に示している。画像表示装置１０２側からは、Ｇｈｏｓｔがユーザー入力部５１４を介して指示した画面上の画素座標情報を送出するのではなく、Ｂｏｄｙの一人称画像の３次元空間上でＧｈｏｓｔが指示した場所を画像解析などにより特定し、その３次元空間上の位置情報を画像提供装置１０１に送信する。そして、画像提供装置１０１側では、表示部５０３は、受信した３次元位置情報に基づいて、Ｇｈｏｓｔが指示した場所をＢｏｄｙの視界上の同じ場所にマッピングして、その場所を提示するようなＡＲ画像（ポインター）をＢｏｄｙの視界に重畳表示するようにする。また、ポインターなどのＡＲ画像は、表示部５０３の表示画面上の画素位置にマッピングされているのではなく、実際の３次元空間にマッピングされているので、Ｂｏｄｙが首を振ったり場所を移動したりしても、ポインターは３次元空間上の同じ場所に重畳表示されたままとなる。

　画像表示装置１０２側でＧｈｏｓｔのヘッド・トラッキング（前述）を行なっている場合には、Ｂｏｄｙの視界とＧｈｏｓｔが観察する表示画角が一致しない場合がある。例えば、Ｂｏｄｙの現在の視野が図８であり、これに対し、Ｇｈｏｓｔは右を向いたため、画像表示装置１０２の表示部４１３では図９に示す画像が表示されており、Ｂｏｄｙの視界とは一致しない。このような場合でも、Ｇｈｏｓｔがユーザー入力部５１４で指示した場所を、Ｂｏｄｙ側の視界の３次元空間上の位置情報に変換してから送信することで、画像提供装置１０１側では表示部５０３が３次元空間上の同じ場所にＡＲ画像を表示して、Ｇｈｏｓｔに指示された場所をＢｏｄｙに正しく伝えることができる。

　例えば、Ｇｈｏｓｔが図９に示す表示画像内で、参照番号９０１で示すように、運河の岸に係留されている１艘の舟を指示したとする。ユーザー入力部５１４は、Ｇｈｏｓｔが舟９０１を画面上で指示していることを突き止めると、舟９０１の場所を示す３次元空間上の位置情報を画像提供装置１０１に送信する。画像提供装置１０１側では、表示部５０３は、受信した３次元位置情報に基づいて、Ｇｈｏｓｔが指示した場所をＢｏｄｙの視界にマッピングして、Ｇｈｏｓｔが指示した舟に対して、参照番号８０１で示すポインターのようなＡＲ画像をＢｏｄｙの視界に重畳表示する。したがって、Ｂｏｄｙは、自分の視界にある舟をＧｈｏｓｔが指示していることを視覚的に理解することができ、Ｇｈｏｓｔからの視覚介入によるインタラクションを実現することができる。

　また、図８に示したような場所の指示という形態以外に、視野の移動の指示という形態でも、ＧｈｏｓｔはＢｏｄｙの視界に介入することができる。

　図１０には、ＧｈｏｓｔがＢｏｄｙに視界の移動を指示する仕組みを模式的に示している。画像表示装置１０２側では、Ｇｈｏｓｔは、参照番号１００１で示すように、タッチパネル上でのスワイプ操作によって、Ｂｏｄｙに対する視野の移動方向の指示を入力することができる。マウスを用いたドラッグ操作、ジョイスティックによる方向入力を用いることもできる。あるいは、Ｇｈｏｓｔは、「もっと左を向いて」などの音声入力によってもＢｏｄｙに対する視野の移動方向の指示を入力することができる。

　また、画像表示装置１０２側で音声入力を利用する場合には、ユーザー入力部５１４は、Ｇｈｏｓｔの音声を認識して、Ｂｏｄｙに対する視野の移動方向の指示に変換すればよい。画像表示装置１０２側でのこのような指示に対し、画像提供装置１０１側では、参照番号１１０１で示す矢印のような、視界の移動方向を示すＡＲ画像をＢｏｄｙの視界に重畳表示して（図１１を参照のこと）、もっと左側を向く（あるいは左側に進む）ようにＢｏｄｙに指示を与えることができる。

　また、表示部５０３は、図７や図１１に示したような図形からなるＡＲ画像をＢｏｄｙの視界に重畳するという表示形態の他に、Ｇｈｏｓｔからの指示を表す文字情報を表示するようにしてもよい。図１２には、参照番号１２０１で示すように、Ｇｈｏｓｔから指示された「もっと左を向いて」という文字情報を表示している様子を示している。あるいは、図１３に示すように、Ｂｏｄｙの視界の周縁の領域１３０１を用いて、チャットや電子掲示板のような表示形式で、Ｇｈｏｓｔが指示する文字情報を表示するようにしてもよい。

　表示部５０３が文字情報をＢｏｄｙの視界のどの場所に配置するは任意である。但し、観察者１１１が行なっている作業の邪魔にならないようにするには、図１２に示したようにＢｏｄｙの視界の周縁に文字情報を表示するようにして、なるべく視界を遮らないようにすることが好ましい。あるいは、ＢｏｄｙがＧｈｏｓｔからの緊急の指示を見落とさないようにするには、表示部５０３は、敢えてＢｏｄｙの視覚の中央に大きく（すなわち、目立つように）、文字情報を表示するようにしてもよい。

　また、Ｇｈｏｓｔから文字情報からなる指示が連続して送られてくる場合には、表示部５０３は、受信した順に文字情報を切り替えて表示したり、文字情報を垂直又は水平方向にスクロール表示したりするようにしてもよい。

　また、画像提供装置１０１側では、Ｇｈｏｓｔの指示を、画像表示装置１０２から文字情報として受け取った場合に、上記のように表示部５０３で表示するのではなく、文字情報を音声信号に変換して、第１の音声出力部５０４から音声出力して、音声のメッセージとしてＢｏｄｙに伝達するようにしてもよい（図１４を参照のこと）。文字情報を、視覚ではなく聴覚として出力することで、Ｂｏｄｙの視界を遮ることなく、Ｇｈｏｓｔからの指示を伝えることができる。Ｂｏｄｙとしての観察者１１１が視界を一部でも遮られると現場での作業に支障をきたす場合や、Ｂｏｄｙが現場での音声を聴かなくても作業を継続できる場合（一人作業の場合など）には、文字情報を音声信号に変換して音声出力するようにすれば、Ｂｏｄｙに対して効果的に指示を行なうことができる。

Ｄ．複数のＧｈｏｓｔからＢｏｄｙへの同時介入
　上述したように、Ｇｈｏｓｔは、画像表示装置１０２と画像提供装置１０１間のコミュニケーション機能を利用して、「視界介入」、「聴覚介入」、「身体介入」を行なうことによって、Ｂｏｄｙに対して現場での行動を指示することができる。

　ＢｏｄｙとＧｈｏｓｔが１対１の関係にあるときには、Ｂｏｄｙは、「視界介入」、「聴覚介入」、「身体介入」が誰からの指示によるものかを明確に理解することができる。

　他方、図２に示したような、１つのＢｏｄｙに対して複数（Ｎ）のＧｈｏｓｔがＪａｃｋＩｎする１対Ｎ（若しくはＮ対Ｎ）のネットワーク・トポロジーでは、同時に複数のＧｈｏｓｔが同時にＢｏｄｙの視界、聴覚、身体に介入してくることも想定される。例えば、１人のＢｏｄｙに対して複数のＧｈｏｓｔが視覚介入してきてＢｏｄｙの視界（ＡＲ表示）が煩雑になったり、複数のＧｈｏｓｔからの聴覚介入が混じり合って個々のＧｈｏｓｔからのインストラクションを聴き取れなくなったり、複数のＧｈｏｓｔが同時に身体介入してＢｏｄｙが身動きをとれなくなったりする「混信」が問題になる。

　１対Ｎ形式のＪａｃｋＩｎのユースケースとして、例えば図１５に示すように、参照番号１５００で示す空間で、２人のＢｏｄｙ１５１０、１５２０がゲームなどの対戦を行なう際に、一方のＢｏｄｙ１５１１に対して空間１３００を俯瞰する複数のＧｈｏｓｔ１５１１、１５１２、１５１３が指示を送り（すなわち介入し）、同様に、他方のＢｏｄｙ１５２０に対して後方の複数のＧｈｏｓｔ１５２１、１５２２、１５２３が指示を送る（すなわち介入する）、という形態が挙げられる。

　このような場合、Ｇｈｏｓｔ１５１１、１５１２、１５１３の集団（若しくは、Ｇｈｏｓｔ１５２１、１５２２、１５２３の集団）は、「三人寄れば文殊の知恵」の言葉の通りに、Ｂｏｄｙ１５１０（若しくは、Ｂｏｄｙ１５２０）に、一人一人では想起できない的確で優れた指示を与えることができる。逆に、Ｂｏｄｙ１５１０（若しくは、Ｂｏｄｙ１５２０）に指図する人間が多過ぎるために統一がとれず、見当違いの方向にゲームを進めてしまい、「船頭多くして船山に上る」という言葉の方がむしろ当てはまる状況に陥るおそれもある。

　そこで、本実施形態では、画像提供装置１０１側の出力部（表示部５０３、第１の音声出力部５０４、駆動部５０５、第２の音声出力部）は、複数のＧｈｏｓｔが同時に介入してきた場合（すなわち、複数台の画像表示装置１０２からの情報を同時に受信した場合）、すべてのＧｈｏｓｔからの情報を単純に出力するのではなく、複数の情報を集約してから出力することにより、Ｂｏｄｙ側での混信防止処理を行なうようにする。

　例えば、Ｂｏｄｙによる撮像画像（一人称映像）を第１のＧｈｏｓｔと第２のＧｈｏｓｔがそれぞれ受信し、第１のＧｈｏｓｔに対する入力に応じて生成される第１の情報と第２のＧｈｏｓｔに対する入力に応じて生成される第２の情報がＢｏｄｙに送られてくる場合、制御部５０９は、これら第１の情報と第２の情報を集約して得られる集約画像を表示部５０３で表示出力するように制御する。

　具体例について、図１６を参照しながら説明する。複数のＧｈｏｓｔがそれぞれ声を発しながらＢｏｄｙの視野内のいずれかの場所を指し示すという視界介入を行なう場合、各Ｇｈｏｓｔがそれぞれ指示した場所に単にポインターをＡＲ表示するだけでは、Ｂｏｄｙは各Ｇｈｏｓｔの声とポインターのマッチングをとることが難しい。そこで、視覚介入部４０３は、図１６に示すように、該当するＧｈｏｓｔの声のボリュームのパターン１６０２と同じ波形で同期的に明滅する明滅パターン１６０３をポインター１６０１に与えるようにする。これによって、Ｂｏｄｙは、声のボリュームの変化と同期して明滅するポインター１６０１を自分の視界内で探すことで、Ｇｈｏｓｔの声とポインターのマッチングをとり易くなる。

　図１７には、画像提供装置１０１においてＧｈｏｓｔからの視界介入を処理するための手順の一例をフローチャートの形式で示している。

　画像表示装置１０２から、Ｂｏｄｙの視界に介入するインストラクション（例えば、Ｇｈｏｓｔが指し示す場所の情報）を通信部４０６で受信したときには（ステップＳ１５０１のＹｅｓ）、同じ画像表示装置１０２からＧｈｏｓｔの音声情報も受信したかどうかをさらにチェックする（ステップＳ１５０２）。

　ここで、同じ画像表示装置１０２からＧｈｏｓｔの音声情報を受信していない場合には（ステップＳ１５０２のＮｏ）、表示部５０３は、Ｇｈｏｓｔが指し示す場所を示すポインターのＡＲ画像を、そのまま（明滅なしに）Ｂｏｄｙの視界に重畳表示して（ステップＳ１５０３）、本処理ルーチンを終了する。

　一方、同じ画像表示装置１０２からＧｈｏｓｔの音声情報を受信している場合には（ステップＳ１５０２のＹｅｓ）、表示部５０３は、その音声情報を解析して音声のボリュームのパターンを抽出すると（ステップＳ１５０４）、声のボリュームのパターンと同じ明滅パターンを持つポインターのＡＲ画像をＢｏｄｙの視界に重畳表示して（ステップＳ１５０５）、本処理ルーチンを終了する。

　また、１人のＢｏｄｙに対して膨大数のＧｈｏｓｔが同時に視界介入してきたときに、各Ｇｈｏｓｔが指し示す場所にポインターを表示していくと、Ｂｏｄｙの視界はポインターで遮られ、実際にどの場所が指示されているのか分からなくなってしまう。また、Ｂｏｄｙの視界がポインターのＡＲ画像で覆われてしまい、Ｂｏｄｙは現場で身動きが取れなくなってしまう。そこで、表示部５０３は、同時に視界介入してくる多数のＧｈｏｓｔが指し示す場所を集計して、図１８中の参照番号１８０１～１８０４で示すように、指示された場所の分布をヒートマップ形式にして表示するようにしてもよい。これにより、同時に視界介入してくるＧｈｏｓｔの数がいくら増大しても、Ｂｏｄｙの視界が無制限に遮られるのを防ぐことができるとともに、Ｂｏｄｙは、より多くのＧｈｏｓｔが指示する場所をヒートマップの表示に基づいて容易に視認することができる。

　ヒートマップは、集合的なポインター表示ということもできる。なお、ヒートマップは、表示部５０３の表示画面上の画素位置にマッピングされているのではなく、実際の３次元空間にマッピングされているので、Ｂｏｄｙが首を振ったり場所を移動したりしても、ヒートマップは３次元空間上の同じ場所に重畳表示されたままとなる。

　図１９には、画像提供装置１０１において多数のＧｈｏｓｔからの視界介入をヒートマップの形式で表示するための処理手順をフローチャートの形式で示している。

　まず、Ｂｏｄｙの視界に介入するＧｈｏｓｔの数（すなわち、Ｇｈｏｓｔが指し示す場所の情報を送信してくる画像表示装置１０２の台数）が所定数を超えたか否かをチェックする（ステップＳ１７０１）。

　ここで、視界に介入するＧｈｏｓｔの数が所定数未満のときには（ステップＳ１７０１のＮｏ）、表示部５０３は、通常の視界介入処理を実行して（ステップＳ１７０２）、本処理ルーチンを終了する。通常の視覚介入処理は、例えば図１７に示した処理手順に従って実施され、Ｇｈｏｓｔが指し示した場所にポインターが重畳表示される。

　一方、視界に介入するＧｈｏｓｔの数が所定数を超えるときには（ステップＳ１７０１のＹｅｓ）、表示部５０３は、同時に視界介入してくる多数のＧｈｏｓｔが指し示す場所を示すヒートマップの表示を実施する。具体的には、Ｂｏｄｙの視界の３次元空間上で各Ｇｈｏｓｔが指し示す場所の分布をとり（ステップＳ１７０３）、その分布をカラースケール若しくは濃淡スケールに従ってプロットしたヒートマップを作成する（ステップＳ１７０４）。そして、作成したヒートマップをＢｏｄｙの視界に重畳表示する（ステップＳ１７０５）。

　また、図１３に示したように、画像表示装置１０２側でキーボードなどから文字入力された文字情報や、Ｇｈｏｓｔの音声を認識して得られる文字情報を、チャットのような表示形式でＢｏｄｙの視界に表示するという視界介入の形態もある。ところが、多数のＧｈｏｓｔから同時に文字情報が送られてきた場合に、これらを例えば時系列的に単純に並べてＢｏｄｙの視界に表示すると、Ｂｏｄｙは何をすればよいのか分からなくなってしまう、という問題がある。簡単な例を挙げると、「もっと左を向いて」と「もっと右を向いて」という、相反する行動を指示する文字情報が同時に表示されると、Ｂｏｄｙはどちらの指示に従うべきか分からず、混乱してしまうであろう。また、Ｂｏｄｙの視界が沢山の文字情報で埋め尽くされてしまう、という問題がある。

　そこで、表示部５０３は、多数のＧｈｏｓｔから送られてきた文字情報をすべて表示するのではなく、Ｂｏｄｙの視界に表示する文字情報の情報量（若しくは、文字数）を間引く処理を行なうことが好ましい。

　例えば、表示部５０３は、多数のＧｈｏｓｔから送られてきた文字情報の中から共通し又は頻出する単語やキーワードとなっている単語だけを抽出して文字情報を間引き処理するようにしてもよい。単語抽出の際には、類似語を１つの単語にまとめるようにしてもよい。そして、表示部５０３は、抽出された複数のキーワードを、タグ・クラウド（ｔａｇ　ｃｌｏｕｄ）の形式（例えば、特許文献５を参照のこと）で、出現頻度や重要度などに応じてフォント・サイズや色、濃淡などを変えて、雲のように浮かんで見えるようにＢｏｄｙの視界に重畳表示するようにしてもよい。

　あるいは、表示部５０３は、送られてきた多数の文字情報に対して言語解析や言語認識などの処理を適用して、要約した文字情報だけをＢｏｄｙの視界に表示するようにしてもよい。

　図２０には、画像提供装置１０１においてＧｈｏｓｔから送られてくる文字情報を表示するための処理手順をフローチャートの形式で示している。

　まず、Ｇｈｏｓｔから届いた文字情報の数（すなわち、文字情報を送信してくる画像表示装置１０２の台数）が所定数を超えたか否かをチェックする（ステップＳ１８０１）。

　ここで、文字情報の数が所定数未満のときには（ステップＳ１８０１のＮｏ）、表示部５０３は、通常の視界介入処理を実行して（ステップＳ１８０２）、本処理ルーチンを終了する。通常の視界介入処理では、例えば図１２に示したように、文字情報がそのまま表示される。あるいは、図１３に示したように、Ｂｏｄｙの視界の周縁の領域を用いて、チャットや電子掲示板などの形式で文字情報を表示してもよい。

　一方、文字情報の数が所定数を超えるときには（ステップＳ１８０１のＹｅｓ）、表示部５０３は、Ｂｏｄｙの視界に表示する文字情報の情報量（若しくは、文字数）を間引く処理を実施する。表示部５０３は、例えば、送られてきた多数の文字情報の中から共通する単語を抽出して（ステップＳ１８０３）、タグ・クラウド形式でＢｏｄｙの視界に重畳表示する（ステップＳ１８０４）。あるいは、表示部５０３は、多数の文字情報に対して言語解析や言語認識などの処理を適用して、要約した文字情報だけをＢｏｄｙの視界に表示する。間引き処理によって、Ｂｏｄｙは混乱しなくて済む。

　なお、ある１人のＢｏｄｙに対する複数人のＧｈｏｓｔからの指示情報を集約したりする上記処理は、画像表示装置１０２（例えば、Ｂｏｄｙが着用するヘッド・マウント・ディスプレイ）で行なうのではなく、ＢｏｄｙとＧｈｏｓｔ間に介在するサーバー上で実施して、サーバーによる処理結果をＢｏｄｙに提供するようにしてもよい。

　以上、特定の実施形態を参照しながら、本明細書で開示する技術について詳細に説明してきた。しかしながら、本明細書で開示する技術の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。

　本明細書で開示する技術は、例えば、外科手術などの医療現場、土木作業などの建築現場、飛行機やヘリコプターの操縦、自動車の運転者のナビゲーション、スポーツのインストラクションなど、さまざまな産業分野の作業支援などの用途に活用することができる。

　また、本明細書では、身体を以って現場で活動するＢｏｄｙに対して、Ｂｏｄｙの一人称画像を共有するＧｈｏｓｔがＢｏｄｙの視界や聴覚などに介入するシステムに関する実施形態を中心に説明してきたが、本明細書で開示する技術の要旨はこれに限定されるものではない。ある人物の視界に他人からの支援や指示、誘導、案内に関する情報を表示するさまざまな情報処理装置に対しても、同様に本明細書で開示する技術を適用することができる。

　要するに、例示という形態により本明細書で開示する技術について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本明細書で開示する技術の要旨を判断するためには、特許請求の範囲を参酌すべきである。

　なお、本明細書の開示の技術は、以下のような構成をとることも可能である。
（１）撮像システムによる撮像画像を受信する第１のシステムに対する入力に応じて生成される第１の情報と、前記撮像システムによる撮像画像を受信する第２のシステムに対する入力に応じて生成される第２の情報とを集約して得られる集約画像の表示を制御する制御部を具備する、情報処理システム。
（２）前記制御部は、前記第１のシステムに入力される音声情報に基づく前記第１の情報と、前記第２のシステムに入力される音声情報に基づく前記第２の情報とを集約して得られる集約画像の表示を制御する、
上記（１）に記載の情報処理システム。
（３）前記制御部は、前記第１のシステムに入力される音声情報に基づいて、前記集約画像の表示を制御する、
上記（１）に記載の情報処理システム。
（４）前記制御部は、前記第１のシステムに入力される音声の強弱の変化に応じて、前記集約画像に含まれる前記第１の情報を変化させる、
上記（３）に記載の情報処理システム。
（５）前記制御部は、前記第１のシステム及び前記第２のシステムを含む、前記撮像画像を受信する複数のシステムで指示された場所の分布を示す集約画像の表示を制御する、
上記（１）に記載の情報処理システム。
（６）前記制御部は、文字情報からなる前記第１の情報及び前記第２の情報を集約して得られる集約画像の表示を制御する、
上記（１）に記載の情報処理システム。
（７）前記制御部は、前記第１のシステム及び前記第２のシステムを含む、前記撮像画像を受信する複数のシステムで生成された複数の文字情報の中から共通し又は頻出する単語を抽出して表示させる、
上記（１）に記載の情報処理システム。
（８）前記制御部は、前記抽出した単語をタグ・クラウド形式で表示させる、
上記（７）に記載の情報処理システム。
（９）前記制御部は、前記第１のシステム及び前記第２のシステムを含む、前記撮像画像を受信する複数のシステムで生成された複数の文字情報を要約して表示させる、
上記（１）に記載の情報処理システム。
（１０）前記撮像画像を生成する撮像部をさらに備える、
上記（１）に記載の情報処理システム。
（１１）表示部をさらに備え、
　前記制御部は、前記表示部による前記集約画像の表示を制御する、
上記（１）に記載の情報処理システム。
（１２）前記表示部は、前記集約情報を実世界の風景に重畳して表示する、
上記（１１）に記載の情報処理システム。
（１３）撮像システムによる撮像画像を受信する第１のシステムに対する入力に応じて生成される第１の情報と、前記撮像システムによる撮像画像を受信する第２のシステムに対する入力に応じて生成される第２の情報とを集約して得られる集約画像の表示を制御する制御ステップを有する、情報処理方法。

　１００…視界情報共有システム
　１０１…画像提供装置、１０２…画像表示装置
　５０１…撮像部、５０２…画像処理部、５０３…表示部
　５０４…第１の音声出力部、５０５…駆動部
　５０６…第２の音声出力部、５０７…位置検出部、５０８…通信部
　５０９…制御部、５１０…認証部
　５１１…通信部、５１２…画像復号部、５１３…表示部
　５１４…ユーザー入力部、５１５…位置姿勢検出部

Claims

　撮像システムによる撮像画像を受信する第１のシステムに対する入力に応じて生成される第１の情報と、前記撮像システムによる撮像画像を受信する第２のシステムに対する入力に応じて生成される第２の情報とを集約して得られる集約画像の表示を制御する制御部を具備する、情報処理システム。
　前記制御部は、前記第１のシステムに入力される音声情報に基づく前記第１の情報と、前記第２のシステムに入力される音声情報に基づく前記第２の情報とを集約して得られる集約画像の表示を制御する、
請求項１に記載の情報処理システム。
　前記制御部は、前記第１のシステムに入力される音声情報に基づいて、前記集約画像の表示を制御する、
請求項１に記載の情報処理システム。
　前記制御部は、前記第１のシステムに入力される音声の強弱の変化に応じて、前記集約画像に含まれる前記第１の情報を変化させる、
請求項３に記載の情報処理システム。
　前記制御部は、前記第１のシステム及び前記第２のシステムを含む、前記撮像画像を受信する複数のシステムで指示された場所の分布を示す集約画像の表示を制御する、
請求項１に記載の情報処理システム。
　前記制御部は、文字情報からなる前記第１の情報及び前記第２の情報を集約して得られる集約画像の表示を制御する、
請求項１に記載の情報処理システム。
　前記制御部は、前記第１のシステム及び前記第２のシステムを含む、前記撮像画像を受信する複数のシステムで生成された複数の文字情報の中から共通し又は頻出する単語を抽出して表示させる、
請求項１に記載の情報処理システム。
　前記制御部は、前記抽出した単語をタグ・クラウド形式で表示させる、
請求項７に記載の情報処理システム。
　前記制御部は、前記第１のシステム及び前記第２のシステムを含む、前記撮像画像を受信する複数のシステムで生成された複数の文字情報を要約して表示させる、
請求項１に記載の情報処理システム。
　前記撮像画像を生成する撮像部をさらに備える、
請求項１に記載の情報処理システム。
　表示部をさらに備え、
　前記制御部は、前記表示部による前記集約画像の表示を制御する、
請求項１に記載の情報処理システム。
　前記表示部は、前記集約情報を実世界の風景に重畳して表示する、
請求項１１に記載の情報処理システム。
　撮像システムによる撮像画像を受信する第１のシステムに対する入力に応じて生成される第１の情報と、前記撮像システムによる撮像画像を受信する第２のシステムに対する入力に応じて生成される第２の情報とを集約して得られる集約画像の表示を制御する制御ステップを有する、情報処理方法。