WO2023074148A1

WO2023074148A1 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: WO2023074148A1
Application number: PCT/JP2022/033884
Authority: WO
Inventors: 保乃花尾崎; 華蓮村田; 恵一朗谷口
Original assignee: ソニーグループ株式会社
Priority date: 2021-10-26
Filing date: 2022-09-09
Publication date: 2023-05-04

Abstract

【課題】遠隔作業支援の利便性をさらに高めることが可能な情報処理装置、情報処理方法、およびプログラムを提供する。【解決手段】遠隔作業支援を行う指示者の動作情報と作業者の状態とに基づいて推定される前記指示者の意図を取得し、取得した前記指示者の意図に対応するガイド情報を出力する制御を行う制御部を備える、情報処理装置。

Description

情報処理装置、情報処理方法、およびプログラム

　本開示は、情報処理装置、情報処理方法、およびプログラムに関する。

　近年、遠隔地の作業者に対して指示者が音声や画像を用いて支援する遠隔作業支援システムが提案されている。

　遠隔作業支援システムでは、例えば、作業者側で撮影された撮像画像が指示者側に送信され、指示者がそれを見て音声で指示を行う。このような遠隔作業支援システムに関し、例えば下記特許文献１では、作業者側から送信される撮像画像では十分に作業現場の全貌を把握できないため、複数のカメラを用いて３Ｄパノラマ画像を生成し、撮像画像の範囲外に位置する対象物も指示できるようにすることが記載されている。

特開２０１７－５８７５２号公報

　しかしながら、作業者に対して望む挙動を指示者が全て口頭で説明することは面倒であり、指示者が望むことが十分に伝わらない場合もある。

　そこで、本開示では、遠隔作業支援の利便性をさらに高めることが可能な情報処理装置、情報処理方法、およびプログラムを提案する。

　本開示によれば、遠隔作業支援を行う指示者の動作情報と作業者の状態とに基づいて推定される前記指示者の意図を取得し、取得した前記指示者の意図に対応するガイド情報を出力する制御を行う制御部を備える、情報処理装置を提案する。

　本開示によれば、プロセッサが、遠隔作業支援を行う指示者の動作情報と作業者の状態とに基づいて推定される前記指示者の意図を取得し、取得した前記指示者の意図に対応するガイド情報を出力する制御を行うことを含む、情報処理方法を提案する。

　本開示によれば、コンピュータを、遠隔作業支援を行う指示者の動作情報と作業者の状態とに基づいて推定される前記指示者の意図を取得し、取得した前記指示者の意図に対応するガイド情報を出力する制御を行う制御部として機能させる、プログラムを提案する。

本開示の一実施形態による遠隔作業支援システムの概要について説明する図である。本実施形態による情報処理装置の構成の一例を示すブロック図である。本実施形態による本実施形態による遠隔作業支援システムの動作処理の流れの一例を示すシーケンス図である。本実施形態による指示者が見たい方向に作業者の顔向きを誘導するガイド出力について説明する図である。本実施形態による本実施形態によるガイド表示の一例を示す図である。本実施形態による本実施形態によるガイド表示の一例を示す図である。本実施形態による本実施形態によるガイド表示の一例を示す図である。本実施形態による本実施形態によるガイド表示の一例を示す図である。本実施形態による指示者の意図に対応する表示変更について説明する図である。本実施形態による指示者の意図に対応する一部拡大画像の表示について説明する図である。本実施形態による指示者による作業支援として書き込まれる描画情報の表示変更について説明する図である。本実施形態による表示範囲外に対する指示におけるガイド出力の一例について説明する図である。本実施形態による視野範囲外に対する指示におけるガイド出力の一例について説明する図である。本実施形態による指示語に対応する作業者画像の表示処理の流れの一例を示すシーケンス図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　また、説明は以下の順序で行うものとする。
　１．本開示の一実施形態による遠隔作業支援システムの概要
　２．情報処理装置１０の構成例
　３．動作処理
　４．指示者の意図に対応するガイドについて
　　４－１．指示者の意図推定とガイド出力
　　４－２．ガイド表示例
　５．指示者の意図に対応する表示変更について
　　５－１．拡大画像の表示
　　５－２．描画情報の表示変更
　　５－３．対象画像の拡大
　６．応用例
　　６－１．システムによる作業支援の補助および通信負担の減少
　　６－２．表示範囲外に対する指示におけるガイド出力
　　６－３．指示語に対応する作業者画像の表示
　７．補足

　＜＜１．本開示の一実施形態による遠隔作業支援システムの概要＞＞
　図１は、本開示の一実施形態による遠隔作業支援システムの概要について説明する図である。図１に示すように、本実施形態による遠隔作業支援システムは、作業者に対して遠隔作業支援を行う指示者（ユーザＡ）に用いられる指示者用装置１０Ａ（情報処理装置１０の一例）と、作業者（ユーザＢ）に用いられる作業者用装置１０Ｂ（情報処理装置１０の一例）と、を含む。各装置は、表示部１５０（１５０Ａ、１５０Ｂ）を含み、また、表示部１５０には、表示部１５０に対向するユーザ（指示者、作業者）を撮像するカメラ１４２（１４２Ａ、１４２Ｂ）が設置されている。なおカメラ１４２の設置位置は図１に示す例に特に限定しない。

　指示者用装置１０Ａおよび作業者用装置１０Ｂは、ネットワークを介して通信接続し、データの送受信を行う。一例として、音声データと撮像画像の送受信が行われる。ネットワークは、専用回線であってもよいし、一般回線（公衆回線）であってもよい。指示者は、表示部１５０Ａに映る作業者の映像を見ながら遠隔作業支援を行うことができ、また、作業者は、表示部１５０Ｂに映る指示者の手本を見ながら作業支援を受けることもできる。

　本明細書において、遠隔とは、少なくとも異なる場所であることを意味し、必ずしも遠く離れた場所には限定されない。指示者用装置１０Ａおよび作業者用装置１０Ｂは、少なくとも異なる場所に位置する。

　また、本明細書において、作業とは、工場や点検等の現場作業の他、ヘアメイク指導、スポーツ指導、手芸レッスン、手術等の医療行為等、広く実技指導を含んでもよい。以下の説明では、一例としてメイク指導の支援について説明する。

　（課題の整理）
　ここで、指示者が、作業者に対して望む挙動を全て口頭で説明することは面倒であり、また、口頭で説明を行っても指示者が望むことが作業者に十分に伝わらない場合もある。例えば、指示者は作業者のカメラを直接動かすことができないため、作業者の状況を所望の角度から見て指示を出すことが困難である。また、指示者が画角に関する意図を作業者に伝える場合、そのやり取りが複雑化し、本来の作業支援を阻害してしまう場合もある。また、遠隔作業支援はネットワーク遅延の影響も受けやすく、互いの映像を見ながら適切に意図を伝えることは難しい。

　そこで、本開示による遠隔作業支援システムでは、遠隔作業支援の利便性をさらに高めることを可能とする。

　より具体的には、例えば図１に示すように、指示者用装置１０Ａにおいて、指示者の動作情報に基づいてユーザの意図を推定し、意図情報を作業者用装置１０Ｂに送信する。作業者用装置１０Ｂでは、意図に対応するガイド情報を出力したり、表示変更したりすることで、指示者の意図を作業者に適切に伝えることが可能となり、指示者の負担も減り、遠隔作業支援の利便性をさらに高めることができる。また、指示者用装置１０Ａにおいて、指示者の意図に対応する表示変更を行うことで、遠隔作業支援の利便性をさらに高めることも可能である。指示者の意図推定処理は、指示者用装置１０Ａにおいて行われることに限定されず、指示者の動作情報を作業者用装置１０Ｂに送信して作業者用装置１０Ｂで行ってもよい。

　なお、さらに作業者用装置１０Ｂにおいて作業者の意図を推定し、意図情報を指示者用装置１０Ａに送信してもよい。指示者用装置１０Ａでは、意図に対応するガイド情報を出力したり、表示変更したりすることで、作業者の意図を指示者に適切に伝えることも可能となる。

　以上、本開示の一実施形態による遠隔作業支援システムの概要について説明した。続いて、本実施形態による遠隔作業支援システムに含まれる情報処理装置１０の具体的な構成について図面を参照して説明する。

　＜＜２．情報処理装置１０の構成例＞＞
　本実施形態による指示者用装置１０Ａおよび作業者用装置１０Ｂは、情報処理装置１０の一例である。ここでは、図２を参照して情報処理装置１０の構成について説明する。なお、情報処理装置１０は、例えばＰＣ（パーソナルコンピュータ）、スマートフォン、タブレット端末、視界全体を覆う非透過型のＨＭＤ（Head　Mounted　Display）、透過型のメガネ型デバイス、またはプロジェクター等により実現され得る。

　図２は、本実施形態による情報処理装置１０の構成の一例を示すブロック図である。図２に示すように、情報処理装置１０は、通信部１１０、制御部１２０、操作部１３０、センサ部１４０、表示部１５０、スピーカ１６０、および記憶部１７０を有する。

　（通信部１１０）
　通信部１１０は、有線または無線により、外部装置と通信接続してデータの送受信を行う。通信部１１０は、例えば有線／無線ＬＡＮ（Local　Area　Network）、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、赤外線通信、または携帯通信網（４Ｇ（第４世代の移動体通信方式）、５Ｇ（第５世代の移動体通信方式））等を用いた通信を行い得る。例えば指示者用装置１０Ａと作業者用装置１０Ｂは、通信部１１０からネットワークを介してデータの送受信を行い得る。

　本実施形態では、通信部１１０により、「映像データ（撮像画像）」、「音声データ」、「意図情報」が送信される。映像データおよび音声データは、既存のオンラインツールを介して送信してもよいし、専用の回線で送信してもよい。意図情報は、映像データおよび音声データとは異なる通信手段で送信してもよいし、専用の回線で送信してもよい。

　（操作部１３０）
　操作部１３０は、ユーザによる操作入力を受付け、入力情報を制御部１２０に出力する。操作部１３０は、例えばタッチセンサ、圧力センサ、若しくは近接センサであってもよい。あるいは、操作部１３０は、ボタン、スイッチ、およびレバーなど、物理的構成であってもよい。本実施形態による操作部１３０は、例えば表示部１５０に設けられるタッチパネルであってもよい。タッチパネルは、ユーザの指やタッチペンといった操作体による操作入力を受け付ける。また、操作部１３０は、表示部１５０に対してタッチ入力する際に用いられる電子ペンであってもよい。電子ペンからは、電子ペンのモーションデータ（加速度、角速度、方向等）がさらに入力されてもよい。

　（センサ部１４０）
　センサ部１４０は、ユーザや、周囲の状況をセンシングする機能を有する。センサ部１４０は、例えば、人感センサ１４１、カメラ１４２、マイク（マイクロホン）１４３、デプスセンサ１４４等であってもよい。センサ部１４０は、１以上のセンサを含む。さらに、センサ部１４０は、ユーザの視線を検出する視線検出センサ（赤外線センサ）を含んでもよい。なおセンサ部は、非ウェアラブルなデバイス（ユーザの周囲に設置されるデバイス）であってもよいし、ウェアラブルなデバイス（ユーザに装着されるデバイス）であってもよい。また、これらが混在していてもよい。

　（表示部１５０）
　表示部１５０は、画像を表示する機能を有する。例えば表示部１５０は、液晶ディスプレイ（ＬＣＤ：Liquid　Crystal　Display）、有機ＥＬ（Electro　Luminescence）ディスプレイなどの表示パネルであってもよい。

　（スピーカ１６０）
　スピーカ１６０は、制御部１２０の制御に従って、音声データを出力する。

　（制御部１２０）
　制御部１２０は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置１０内の動作全般を制御する。制御部１２０は、例えばＣＰＵ（Central　Processing　Unit）、マイクロプロセッサ等の電子回路によって実現される。また、制御部１２０は、使用するプログラムや演算パラメータ等を記憶するＲＯＭ（Read　Only　Memory）、及び適宜変化するパラメータ等を一時記憶するＲＡＭ（Random　Access　Memory）を含んでいてもよい。

　本実施形態による制御部１２０は、カメラ１４２で撮像したユーザ（指示者／作業者）の撮像画像（メイク支援の場合、顔を撮像）およびマイク１４３で収音したユーザの音声データを、通信部１１０から、相手側装置（作業者用装置１０Ｂ／指示者用装置１０Ａ）に送信する制御を行う。また、制御部１２０は、相手側装置から受信した撮像画像を表示部１５０に表示し、音声データをスピーカ１６０から出力する制御を行う。

　また、制御部１２０は、ユーザ情報認識部１２１、操作体認識部１２２、受信画像解析部１２３、優先情報検出部１２４、意図推定部１２５、ガイド生成部１２６、および表示変更部１２７としても機能し得る。

　ユーザ情報認識部１２１は、センサ部１４０からのセンシングデータに基づいて、ユーザ情報を認識する。ユーザ情報とは、ユーザ（指示者／作業者）に関する様々な情報であって、例えばユーザの状態が含まれる。ユーザ情報認識部１２１は、例えば人感センサ１４１により、情報処理装置１０の周辺にユーザが居るか否かを認識する。また、ユーザ情報認識部１２１は、表示部１５０に設けられたカメラ１４２により撮像されたユーザの撮像画像を解析し、表示部１５０に対するユーザの顔向き、視線、位置（距離）等を認識する。また、ユーザ情報認識部１２１は、ユーザの撮像画像を解析し、ユーザの姿勢、身体の動き（手の動き等）、把持してる道具等を認識し得る。また、ユーザ情報認識部１２１は、表示部１５０に設置されたデプスセンサ１４４からのデプスデータに基づいて、表示部１５０とユーザとの距離を認識してもよい

　操作体認識部１２２は、センサ部１４０からのセンシングデータに基づいて、操作体を認識する。ここでは、操作体として電子ペンを想定する。操作体認識部１２２は、電子ペンに設けられた各種センサ（加速度センサ、ＩＭＵ等）から受信した情報や、表示部１５０に設置された各種センサ（カメラ、デプスセンサ等）から取得した情報から、操作体の位置、姿勢、向き等を認識する。

　受信画像解析部１２３は、相手側装置から受信した受信画像を解析し、受信画像に映る人物の状態を認識する。例えば、指示者用装置１０Ａに設けられる受信画像解析部１２３の場合、作業者用装置１０Ｂから受信した撮像画像を解析し、撮像画像に映る作業者の状態を認識する。また、作業者用装置１０Ｂに設けられる受信画像解析部１２３の場合、指示者用装置１０Ａから受信した撮像画像を解析し、撮像画像に映る指示者の状態を認識する。

　優先情報検出部１２４は、ユーザの動作情報に基づいて、優先情報を検出する。優先情報とは、予め既定された、優先的に処理すべき指示である。具体的には、意図推定の処理や意図情報の送信より優先して優先情報を相手側装置に送信する。相手側装置では、意図に対応するガイドの出力よりも優先して優先情報に応じた出力制御を行う。優先情報を優先的に送信することで、遅延を低減し、遅延により作業者が指示者の意図しない行動を取ってしまうことを防ぐ。優先情報として、例えば、キャンセル、作業の停止指示、または不具合発生等の重要な情報が挙げられる。

　「キャンセル」とは、例えば指示者が誤った指示を出した場合や、意図推定部１２５が推定した意図が間違っていた場合に、作業者への指示の送信キャンセルや、作業者に送信されてしまった指示のキャンセルを通知する処理である。意図推定部１２５が推定した意図が、作業者に通知される前に指示者に確認のため表示される場合、指示者は、意図が間違っていればキャンセルボタンをタップしてキャンセルすることができる。「作業の停止指示」とは、相手に動作の停止を求める旨を通知する処理である。例えば音声に遅延が発生している場合にも、優先情報の送信により、「作業の停止指示」をより早く相手に伝えることができる。「不具合発生」とは、例えば指示者／作業者の映像が一定時間以上変化していない場合に、装置や通信等の不具合が発生した可能性が高いことを相手に通知する処理である。このように、キャンセルや一時停止等の重要度の高い特定の指示を、映像や音声とは別の手段で伝達することで、より円滑なコミュニケーションを実現することができる。

　優先情報の検出は、例えば、指示者の撮像画像の解析結果から、優先情報として予め登録されたポーズやジェスチャを認識することで行われる。また、表示部１５０に表示された、優先情報を示すＵＩボタン（キャンセルボタン、作業停止指示ボタン等）のタップを認識することで行われる。

　優先情報検出部１２４により検出された優先情報は、通信部１１０により、相手側装置に送信される。なお、優先情報は、意図推定部１２５による意図推定処理や、推定結果（意図情報）の送信よりも優先的に行われる。これにより、重要度の高い特定の指示については、いち早く対応することができる。

　意図推定部１２５は、ユーザの動作情報と、相手ユーザの状態（ユーザが見ている映像から認識される相手ユーザの状態）とに基づいて、ユーザの意図を推定する。一例として、意図推定部１２５は、指示者の動作情報と、指示者が視聴している作業者の状態とに基づいて、指示者の意図を推定する。指示者の動作情報は、センサ部１４０からのセンシングデータに基づいてユーザ情報認識部１２１が認識した結果から得られる。また、指示者の動作情報は、操作体認識部１２２により認識された、指示者が用いる操作体の情報から得てもよい。また、作業者の状態は、受信画像解析部１２３の解析結果から得られる。作業者の状態としては、例えば、作業者が作業中か、手を止めているか、手を止めて指示者（作業者側に映る指示者の映像）に注目しているか等が挙げられる。

　より具体的には、指示者の動作情報とは、少なくとも作業者の撮像画像（以下、作業者画像とも称する）が表示される表示部１５０に対する指示者の視線、姿勢、顔向き、または顔の位置の少なくともいずれかに関する情報である。または、指示者の動作情報は、少なくとも作業者画像が表示される表示部１５０に対して操作体（指、タッチペン、電子ペン等）により行われる指示入力（タッチ操作、タッチ位置等）の情報であってもよい。作業者の状態は、作業者用装置１０Ｂから受信した作業者画像の解析結果から得られる。

　意図推定部１２５は、予め登録された意図推定用の情報（例えば、指示者がどのような動作を行って、作業者がどのような状態の場合に、どのような意図であるかを対応付けたパターン等）を用いて、指示者の意図を推定してもよい。また、意図推定部１２５は、作業支援の履歴データに基づく機械学習の結果を用いて、指示者の意図を推定（算出）してもよい。また、意図推定部１２５は、推定した意図を指示者に呈示し、指示者からのフィードバックを得て、機械学習してもよい。これにより、意図推定の精度がより高まる。また、意図推定部１２５は、指示者の直前の動作も考慮して意図を推定してもよい。以上、意図推定の方法について具体的に説明したが、本実施形態による意図推定の方法はこれに限定されない。

　推定される意図としては、例えば、顔向きの変更、映像の拡大／縮小、画面（カメラ）から離れて／近付いて欲しい（位置の変更）、指示／作業領域の拡大等が挙げられる。

　制御部１２０は、意図推定部１２５により推定された意図の情報（意図情報）を、通信部１１０により相手側装置に送信する。また、制御部１２０は、意図の内容がユーザ側の装置で対応可能な場合は、ユーザ側の装置で対応を行い（後述する表示変更）、相手側装置には送信しない。

　ここで、生成される優先情報や意図情報のデータ型（データ項目）の一例を、下記表１に示す。データ型には、タイムスタンプ、優先伝送フラグ、送信元、出力モーダル、優先／意図内容などが含まれる。タイムスタンプとは、データが記録された時刻である。優先送信フラグとは、情報の送信優先度である。送信元とは、指示者、作業者のいずれであるかを示す。出力モーダルとは、情報を受信した側が出力する際のモーダルを示す。優先／意図内容とは、優先情報／意図情報の内容を示す。下記表１では、意図情報の一例として、意図している動作（回転、拡大縮小）、動作方向（上下左右前後、拡縮の指定）、動作の程度（角度、拡縮率等の変化量）にそれぞれフラグを割り当て示してもよい（意図情報を３項の組み合わせで表現）。

　以上説明したデータ型は一例であって、本実施形態はこれに限定されない。例えば、出力モーダルが規定の場合は、出力モーダルの情報が含まれていなくてもよい。また、それぞれに割り当てられる値の規則については、使用デバイスによって変更してもよい。

　ガイド生成部１２６は、推定された指示者の意図に応じて、ガイドを生成する。指示者の意図は、相手側装置から通信により取得してもよいし、相手側装置から受信した情報に基づいて推定することで取得してもよい。ガイドとは、ユーザの状態を、相手側からの意図に沿った状態に誘導する情報である。例えば作業者用装置１０Ｂに設けられるガイド生成部１２６は、指示者用装置１０Ａから送信された意図情報に応じて、作業者の状態を意図に沿った状態に誘導するガイドを生成する。例えば、意図に応じて、少なくとも指示者画像が表示される表示部１５０Ｂに対する作業者の顔向き、姿勢、または位置の少なくともいずれかを誘導する（指示者が望む顔向き、姿勢、位置に誘導する）ガイドが生成される。生成されるガイドは、表示データ（視覚情報）であってもよいし、音声データ（聴覚情報）であってもよいし、振動データ（触覚情報）であってもよい。表１に示すように、出力モーダルが指定されている場合は、指定された出力モーダルの形式で生成する。制御部１２０は、ガイド生成部１２６により生成されたガイドを、表示部１５０やスピーカ１６０から出力する。ガイドの生成例や出力例については、後述する。

　表示変更部１２７は、推定された意図に応じて、表示部１５０の表示を変更する。意図に応じた出力制御の一つとして、上述したガイドの出力が挙げられるが、その他の例として、表示変更が挙げられる。例えば、表示部１５０において、画面を二分割して作業者画像と指示者画像（指示者の撮像画像）を並べて表示する場合をデフォルトとしていた際に、作業者画像を拡大して欲しい意図に応じて、作業者画像を、指示者画像よりも大きく表示するよう表示を変更する制御を行う。かかる意図は、指示者が作業者画像を注視している場合や、画面に近付いて作業者画像を見ている場合等に、推定され得る。この場合、指示者用装置１０Ａの表示変更部１２７は、指示者用装置１０Ａの表示部１５０に表示される作業者画像を拡大する表示制御を行う。このような表示変更の例については、さらに後述する。

　（記憶部１７０）
　記憶部１７０は、制御部１２０の処理に用いられるプログラムや演算パラメータ等を記憶するＲＯＭ（Read　Only　Memory）、および適宜変化するパラメータ等を一時記憶するＲＡＭ（Random　Access　Memory）により実現される。例えば、ユーザや操作体の認識に用いられる情報、意図推定に用いられる情報、優先情報検出に用いられる情報、ガイド生成に用いられる情報等が、記憶部１７０に記憶される。認識に用いられる情報や、意図推定に用いられる情報は、機械学習データであってもよい。記憶部１７０には、予め生成された機械学習データが記憶されていてもよい。

　以上、情報処理装置１０の構成について具体的に説明したが、本開示による情報処理装置１０の構成は図２に示す例に限定されない。例えば、情報処理装置１０は、図２に示す全ての構成を有していなくともよい。また、情報処理装置１０は、複数の装置により実現されてもよい。また、図２を参照して説明した情報処理装置１０の構成は、指示者用装置１０Ａおよび作業者用装置１０Ｂのいずれにも適用される構成である。ただし、指示者用装置１０Ａおよび作業者用装置１０Ｂは、同じ構成であってもよいし、制御部１２０の少なくとも一部の構成が異なる構成であってもよい。

　また、制御部１２０は、センサ部１４０のセンシングデータが、ユーザと操作体のいずれについてのセンシングデータであるかを判定した上で、センシングデータを、ユーザ情報認識部１２１または操作体認識部１２２に出力してもよい。判定に必要となるデータは、記憶部１７０に事前に保存されている。また、制御部１２０は、判定結果や認識結果についてユーザの確認を求めることで（フィードバックの実施）、学習し、判定や認識の精度をより高めることも可能である。

　また、意図推定部１２５は、ユーザ／操作体の認識結果に加えて、環境情報を参照して意図を推定してもよい。環境情報とは、例えば、作業／指示空間の広さ、明るさ、環境音の大きさ等が挙げられる。制御部１２０は、センサ部１４０（カメラ１４２、マイク１４３、デプスセンサ１４４、照度センサ等）からのセンシングデータに基づいて、作業／指示空間の環境を認識し得る。

　＜＜３．動作処理＞＞
　次に、本実施形態による遠隔作業支援システムの動作処理について図面を用いて具体的に説明する。

　図３は、本実施形態による遠隔作業支援システムの動作処理の流れの一例を示すシーケンス図である。本説明において、指示者用装置１０Ａに設けられる構成については符号の末尾にＡを付記し、作業者用装置１０Ｂに設けられる構成については符号の末尾にＢを付記する。

　図３に示すように、まず、指示者用装置１０Ａと作業者用装置１０Ｂは、各々センサ部１４０（１４０Ａ、１４０Ｂ）によりセンシングデータを取得し（ステップＳ１０３ａ、Ｓ１０３ｂ）、センシングデータのうち撮像画像（指示者画像、作業者画像）を互いに送受信する（ステップＳ１０６）。なお、ここでは記載していないが、センシングデータのうち音声データも互いに送受信する。また、ここでは記載していないが、各装置では、受信した撮像画像および音声データを出力する制御を行う。また、各装置では、受信した相手ユーザの撮像画像と、撮像したユーザの撮像画像を並べて同時に表示してもよい。かかる撮像画像および音声データの送受信は、作業支援中、継続的に行われる。

　次に、各装置では、各種データの認識処理を行う（ステップＳ１０９ａ、Ｓ１０９ｂ）。具体的には、指示者用装置１０Ａでは、ユーザ情報認識部１２１Ａにより指示者の状態を認識したり、操作体認識部１２２Ａにより操作体の状態を認識したり、受信画像解析部１２３Ａにより受信画像（作業者画像）に映る作業者の状態を認識したりする。一方、作業者用装置１０Ｂでは、ユーザ情報認識部１２１Ｂにより作業者の状態を認識する。

　次いで、指示者用装置１０Ａは、指示者の動作情報（指示者の状態認識の結果や、操作体の状態認識の結果）から優先情報が検出された場合（ステップＳ１１２／Ｙｅｓ）、優先情報を作業者用装置１０Ｂに送信する（ステップＳ１１５）。後述する意図推定より優先して優先情報の検出、送信を行うことで、より早く、指示者の指示に対応することが可能となる。

　一方、作業者用装置１０Ｂでは、認識した作業者の状態を記憶する（ステップＳ１１８）。

　次に、指示者用装置１０Ａから優先情報を受信した場合（ステップＳ１２１／Ｙｅｓ）、制御部１２０Ａは、優先情報に対応付けられる既定のガイドを表示する制御を行う（ステップＳ１２４）。既定のガイドとは、例えばキャンセル通知、一時停止指示、装置の不具合等を示す警告画像であってもよい。制御部１２０Ａは、指示者画像と作業者画像が表示されている表示部１４０Ａにおいて、警告画像を表示する。警告画像は、テキストのみであってもよいし、図形が含まれていてもよいし、所定のアイコンのみであってもよい。

　続いて、指示者用装置１０Ａでは、意図推定部１２５により、指示者の動作情報（指示者の状態認識の結果や、操作体の状態認識の結果）と、作業者の状態とに基づいて意図推定が行われる（ステップＳ１２７）。

　次に、推定された意図が、指示者側の表示変更で対応可能である場合（ステップＳ１３０／Ｙｅｓ）、制御部１２０Ａは、表示部１５０Ａの表示を、意図に応じて変更する制御を行う（ステップＳ１３３）。例えば制御部１２０Ａは、作業者の作業に着目したいという意図の場合、表示部１５０Ａに表示される作業者画像をより大きく表示する制御を行う。

　一方、指示者側の表示変更では対応できない（作業者に動いて貰わないとならない）場合（ステップＳ１３０／Ｎｏ）、制御部１２０Ａは、意図情報を作業者用装置１０Ｂに送信する（ステップＳ１３６）。かかる意図情報には、例えば作業者に所望する動作（顔の回転、顔の位置の変更等）に関する情報が含まれる。

　次いで、作業者用装置１０Ｂのガイド生成部１２６Ｂは、指示者の意図情報を受信した場合（ステップＳ１４２／Ｙｅｓ）、意図に基づき、作業者の状態に応じてガイドを生成する（ステップＳ１４５）。具体的には、ガイド生成部１２６Ｂは、作業者の状態に適した出力モーダルで、意図に対応するガイドを生成してもよい。例えばガイド生成部１２６Ｂは、作業者が画面に着目している際は視覚情報でガイドを生成し、作業者が画面に着目していない際は音声情報でガイドを生成する。なお、ここでは一例として、作業者の状態に応じてガイド出力における出力モーダルを選択する場合について説明したが、本実施形態はこれに限定されない。例えば指示者用装置１０Ａから指定されている場合は、それに従ってもよい（表１の「出力モーダル」参照）。また、既定の出力モーダルとして視覚情報が設定されていてもよい。この際、作業者が画面に着目していない場合は、画面に注目するよう警告音をさらに出力するようにしてもよい。また、ガイド生成部１２６Ａは、ガイドの内容やガイドの表示方法を、作業者の状態に適した形態にしてもよい。例えば、意図情報が、「真横を向いて欲しい」といった意図の場合に、作業者が正面向きであれば、「真横を向いてください」といったガイドを生成し、作業者が少し横を向いていれば、「あと少し横を向いてください」といったガイドを生成する。このように、作業者の状態を考慮することで、より適切なガイドを生成し得る。また、作業者の状態に適した形態として、作業者の視野範囲にガイドを表示したり、ユーザの顔画像に重畳表示したりする。

　そして、制御部１２０Ｂは、生成されたガイドを出力する（ステップＳ１４８）。なお、制御部１２０Ｂは、作業者の状態を継続的に認識し、ガイド表示が不要になった場合は、ガイド表示を削除することで、映像の視認性を向上させる。

　（変形例）
　図３を参照して説明した動作処理では、指示者の意図推定を指示者用装置１０Ａで行っているが、本実施形態はこれに限定されない。指示者の意図推定は、作業者用装置１０Ｂで行われてもよい。具体的には、指示者用装置１０Ａが指示者の意図推定に用いられる情報を作業者用装置１０Ｂに送信し、作業者用装置１０Ｂの意図推定部１２５により、指示者の意図を推定する。送信される情報は、指示者の動作情報と、（指示者が見ている映像の）作業者の状態情報であってもよい。若しくは、作業者用装置１０Ｂにおいて、指示者用装置１０Ａから受信する指示者画像を解析し、指示者の動作情報を検出してもよい。

　また、指示者側での意図推定が困難な場合に、作業者側で意図推定を行ってもよい。指示者側で意図推定が困難な場合とは、例えば指示者用装置１０Ａでの処理が遅れており、意図推定までに遅延が発生している場合や、通信帯域が確保できず、指示者画像と意図情報の両方を作業者用装置１０Ｂに送信することが困難な場合等である。

　＜＜４．指示者の意図に対応するガイドについて＞＞
　続いて、本実施形態によるガイドについて、より具体的に説明する。

　＜４－１．指示者の意図推定とガイド出力＞
　一例として、指示者が見たい方向に作業者の顔向きを誘導するガイド出力について、図４を参照して説明する。図４では、指示者と作業者の、各表示部１５０（１５０Ａ、１５０Ｂ）に対する顔向きを俯瞰で示す。例えばメイク作業の支援の場合に、指示者は、作業者の顔を所望の角度から見たい場合があるが、言葉で説明することは困難であり、やり取りが複雑になる場合がある。そこで、指示者が実際に自身の顔向きを変えた際に、顔向き指示の意図と推定し、作業者に対して同じように顔向きを変えるようガイドを出力することを可能とする。

　図４に示すように、まず、指示者側（指示者用装置１０Ａ）では、指示者の顔向きが一定角度以上変化し、さらにこの状態で一定時間経過した場合、作業者に同じように回転して欲しい意図（回転の指示）と推定される。指示者用装置１０Ａは、指示者が正面（表示部１５０の方向）を向いた時の回転角を０として、指示者の顔の回転角度を算出し、この角度を作業者に求める顔向きとする。

　推定された意図情報は、作業者側（作業者用装置１０Ｂ）に送信され、作業者側において、かかる意図情報に基づいて、指示者と同じ角度回転させるガイドが出力される。この際、作業者用装置１０Ｂは、作業者の現在の顔の向き（回転角度）を考慮し、作業者の状態に適したガイドを出力する。作業者用装置１０Ｂは、作業者の顔の回転角度を検出し、指示と一致した場合には、ガイドの出力を終了する。

　なお、顔の回転角度の指示（意図）では、ｐｉｔｃｈおよびｙａｗに適応し、ｒｏｌｌには適応しない等、作業に適した制約を設けてもよい。

　（意図の変化によるガイド調整）
　本システムでは、指示者側で意図の変化があった場合に、作業者側で、既に出力しているガイドを調整（更新）してもよい。例えば図４を参照して説明したように、指示者が実際に横を向くことで作業者に対して顔向きの指示を出した際、指示者が正面に向き直して作業者が要求通り横を向いているか確認したい場合がある。一方で、作業者の顔向きをさらに横に向かせたり、上に向かせたり、若しくは少し戻して欲しい場合もある。本実施形態による指示者用装置１０Ａの意図推定部１２５Ａでは、このような指示者の意図もより精度良く推定する。具体的には、意図推定部１２５Ａは、指示者の意図を推定する際、指示者の直前の動作等を考慮することで、推定の精度を高め得る。

　ここでは、一例として、指示者が顔向きを右向きから正面に変化させた場合について説明する。

　意図推定部１２５Ａは、例えば、指示者の直前（顔向きを右向きから正面に変化させる直前）の顔の動きを考慮して意図を推定する。例えば「顔向きを変化」させていた場合、指示角度の微調整中の意図と推定し、新たな角度を意図推定として作業者側に送信し、作業者側で出力されていたガイドを再調整する（顔向きの指示角度を更新）。一方、直前の動作で「顔向きを一定時間停止」させていた場合、角度の指示は終了し、画面をよく見ようとする意図と推定し、意図情報の送信は行わない（作業者側でのガイド変更なし）。

　また、意図推定部１２５Ａは、例えば、指示者の視線の動を考慮して意図を推定する。例えば、指示者が顔向きを右向きから正面に変化させた際に、指示者の視線が、「作業者の特定パーツを注視」していた場合、特定パーツ（頬等）がよく見えるよう（作業者の顔の回転が足りず、特定パーツが見え難いため）顔の角度の微調整を望む意図と推定し、さらに回転するよう指示する意図を作業者側に送信し、作業者側で出力されていたガイドを再調整する（もっと顔を右に向けるよう指示するガイドに更新）。一方、指示者の視線が、「一点に定まってない」場合、角度の指示は終了し、（作業者の顔が映る）画面全体を正面から見たいという意図と推定し、意図情報の送信は行わない（作業者側でのガイド変更なし）。

　また、意図推定部１２５Ａは、例えば、指示者の顔と画面（表示部１５０Ａ）との距離を考慮して意図を推定する。例えば、指示者が顔向きを右向きから正面に変化させた際における、指示者の顔と画面との距離が「一定値未満」の場合、顔を画面に近付けて見ており（作業者の顔の回転が足りず、望むパーツが見え難い）、まだ顔の角度の微調整を望む意図と推定し、さらに回転するよう指示する意図を作業者側に送信し、作業者側で出力されていたガイドを再調整する（もっと顔を右に向けるよう指示するガイドに更新）。一方、指示者の顔と画面との距離が「一定値以上」の場合、角度の指示は終了し、（作業者の顔が映る）画面全体を正面から見たいという意図と推定し、意図情報の送信は行わない（作業者側でのガイド変更なし）。

　また、意図推定部１２５Ａは、例えば、作業者の状態を考慮して意図を推定する。例えば、指示者が顔向きを右向きから正面に変化させた際における、作業者の状態が「顔の角度調整中」の場合、まだ顔の角度の微調整を望む意図と推定し、回転を続けるよう指示する意図を作業者側に送信し、作業者側で出力されていたガイドを再調整する（そのまま顔を右に向けるよう指示するガイドに更新）。一方、作業者の状態が「顔の角度調整後」の場合、角度の指示は終了し、（作業者の顔が映る）画面全体を正面から見たいという意図と推定し、意図情報の送信は行わない（作業者側でのガイド変更なし）。

　　＜４－２．ガイド表示例＞
　続いて、本実施形態によるガイド表示例について説明する。

　図５～図８は、本実施形態によるガイド表示の一例を示す図である。

　例えば、顔を回転させる指示のガイドの場合、図５のガイド表示３０に示すように、作業者の現在の状態（現状）を示す顔アイコンと、指示者が所望する状態を示す顔アイコンを表示してもよい。これにより、作業者は、現在の状態からどの程度顔を回転させれば良いかを直感的に把握できる。なお、顔アイコンは、図５に示すように俯瞰の顔アイコンであってもよいし、（鏡像を模した）正面の顔アイコンであってもよい。

　また、図６のガイド表示３１に示すように、俯瞰の顔アイコンに、現状の角度と、指示者が所望する角度とを重ねて示してもよい。これにより、より明確な回転方向や回転角が直感的に把握され得る。

　また、図７のガイド表示３２ａ～３２ｃに示すように、作業者の回転角を随時反映させる俯瞰の顔アイコンに、矢印を併せて表示し、指示通りの角度になった場合には、その状態で停止するよう停止指示を示してもよい。これにより、角度の微調整を指示し得る。

　また、図８に示すように、表示部１５０Ｂに表示される作業者（ユーザＢ）の実際の顔映像に、矢印等のガイド表示３３を重畳表示してもよい。表示部１５０Ｂには、指示者（ユーザＡ）の顔映像（受信画像）も表示され得る。

　以上、ガイド表示の一例について説明した。なお、ガイド表示は、上述した例（アイコン画像等）に限定されず、例えば、作業者に求める動作の内容を文字、記号等で表示してもよい。

　＜＜５．指示者の意図に対応する表示変更について＞＞
　次に、指示者の意図に対応する指示者側／作業者側における表示変更について説明する。

　＜５－１．拡大画像の表示＞
　指示者用装置１０Ａは、指示者の意図に対して、表示部１５０Ａの表示変更により対応することも可能である。

　図９は、本実施形態による指示者の意図に対応する表示変更について説明する図である。図９左上に示すように、通常は、指示者（ユーザＡ）の撮像画像と、作業者（ユーザＢ）の撮像画像が、表示部１５０Ａにおいて二分割で並べて表示されている。この際に、指示者の意図として、作業者の作業に注視したい意図が検出された場合（例えば指示者の視線と、作業者が作業中の状態であることから推定され得る）、図９右下に示すように、作業者（ユーザＢ）の撮像画像が大きく表示される制御が表示変更部１２７Ａにより行われ得る。この際、作業者用装置１０Ｂに対しても、作業者の作業に注視したい意図が送信され、作業者用装置１０Ｂにおいて、作業者自身の映像が大きく表示されてもよい。また、ここでは指示者の意図推定について説明したが、作業者用装置１０Ｂにおいて、作業者の意図推定を行い、作業者が自身の作業に注視したい場合（メイク作業の場合、表示部１５０Ｂを鏡のように利用していることを想定）、作業者自身の映像が大きく表示するようにしてもよい。

　また、指示者が注目したい映像が複数あることが意図推定により得られた場合、指示者用装置１０Ａは、作業者の映像のうち、注目したいパーツを切り出して拡大した映像をさらに表示するよう表示変更を行ってもよい。図１０は、本実施形態による指示者の意図に対応する一部拡大画像の表示について説明する図である。例えばメイク作業の支援において、指示者がアイメイクといった細部への指示を出したい／出している場合（例えば指示者が作業者の目を注視しており、かつ、作業者が目のメイク作業を行っている場合）、意図推定部１２５Ａにより、細部に指示を出すという指示者の意図が推定される。これに対し、表示変更部１２７Ａは、表示部１５０Ａにおいて、作業者（ユーザＢ）の撮像画像のうち、目の部分を切り出して拡大した表示画像４２を表示する。これにより、細部の視認性が上がり、細部への指示が行い易くなる。また、指示者は、表示画像４２に対して、操作体を用いて、作業を支援するための描画情報４３（アイシャドウを塗る場所や、アイラインを引く場所を示す描画等）を書き込むことも可能である。描画情報４３は、作業者用装置１０Ｂに送信され、表示部１５０Ｂで、作業者画像に重畳表示される。描画情報４３の表示位置は、作業者画像に映る作業者の顔に追随するよう表示制御されてもよい。なお、意図に応じた拡大画像の表示は、指示者側に限定されない。指示者が注目したい映像が複数あることを示す意図が作業者用装置１０Ｂに送信された場合、表示部１５０Ｂにおいて、作業者画像と、指示者が注目するパーツを切り出して拡大した映像を並べて表示する表示変更が行われてもよい。

　また、指示者により細部への指示を所望する意図が推定された場合、かかる意図に応じて、作業者側において、指示者による作業（手本）の詳細に伝わるよう、指示者画像と、指示者画像から対象のパーツを切り出して拡大した映像を並べて表示する表示変更を行ってもよい。

　＜５－２．描画情報の表示変更＞
　本実施形態では、指示者が、作業者や指示者の撮像画像に作業支援として操作体（指、タッチペン、電子ペン等）で描画を行うことも可能である。かかる描画の情報は、作業者側に送信され、指示者／作業者の撮像画像に同様に重畳表示される。指示者側では、かかる描画情報が書き込まれる工程を、この順で作業してくださいという指示者の意図と推定し得る。作業者側では、受信した描画情報を順次表示すると共に、意図に応じて、追加の描画情報を強調して表示するよう、各描画情報の表示変更を行う。

　図１１は、指示者による作業支援として書き込まれる描画情報の表示変更について説明する図である。図１１左に示すように、まず作業者側の表示部１５０Ｂにおいて、表示部１５０Ｂに映る作業者の顔の左側に、指示者により書き込まれた描画情報４４ａ（例えばチークを塗る範囲や、チークブラシを動かす方向を説明する書き込み）が表示される。次いで、図１１右に示すように、表示部１５０Ｂに映る作業者の顔の右側に、指示者により書き込まれた描画情報４４ｂが表示される。この際、表示変更部１２７Ｂは、追加された描画情報４４ｂを強調表示するよう表示制御する。例えば、古い描画情報４４ａ’の色を薄くしたり、点線にさせたり、削除したり等することで、相対的に、新しい描画情報４４ｂを強調表示し得る。また、新しい描画情報４４ｂを点滅させたり、軌跡を描いたり、表示する色を変更したりすることで、強調表示することも可能である。これにより、作業者は、作業工程を直感的に把握して作業を行うことができる。

　＜５－３．対象画像の拡大＞
　指示者側において、例えば指示者が電子ペンやタッチペンを表示部１５０Ａに向けた状態で表示部１５０Ａに近付いた場合、意図推定部１２５は、描画情報の書き込みを行う意図と推定し、作業者画像を大きく（例えば実際の頭の大きさに近いサイズで）表示してもよい。これにより、作業の精度を上げることができる。なお、実際の頭の大きさは、作業者の性別や身長から平均値を算出して求めてもよい。

　＜＜６．応用例＞＞
　＜６－１．システムによる作業支援の補助および通信負担の減少＞
　例えば指示者がアイシャドウについて指導する際、指示者は作業者の開眼および閉眼の両方の状態を確認したい旨の意図が推定される。例えば、作業者がアイシャドウの作業を行っており、指示者が作業者の目の領域に注目している場合、このような意図が推定される。その場合、指示者用装置１０Ａの制御部１２０Ａは、作業者が瞬きまたは目を閉じているタイミングで作業者の目の画像を切り出し、表示部１５０Ａで指示者に表示する。これにより、「目を閉じてください」といった指示を減らすことができる。また、制御部１２０Ａは、切り出した画像に指示者が注目している場合、意図が正しく算出されたと判断し、作業者に対して指示者の現在の作業状況（アイシャドウの作業結果を確認している）を伝えてもよい。

　また、指示者がアイブロウについて指導する際、眉頭・眉山・眉尻には望ましい位置があるが（例えば眉頭は小鼻の上、眉山は黒目の外側、眉尻は口角と目尻の延長線上）、遠隔指導でかかる位置を確認するためには、作業者がしっかりと正面を向く必要がある。しかし、確認の度に作業者が正面を向いたり、これをキープしたりすることは、作業者の負担や、指示者による指示の時間増加に繋がる。そこで、作業者がアイブロウの工程を行っており、指示者が作業者の眉毛の領域に注目している場合、意図推定部１２５Ａは、アイブロウの作業支援を行う旨の意図を推定し、かかる意図に応じて、制御部１２０Ａにより、アイブロウの作業支援の補助情報を抽出する。具体的には、制御部１２０Ａは、作業者の顔画像から顔のパーツを認識し、眉頭・眉山・眉尻に適している点をそれぞれ算出して、作業者の顔画像（例えば切り出した目の画像）に重畳して補助情報として表示してもよい。当該補助情報に基づいて、指示者は、さらに独自の作業支援として描画情報（アイブロウのライン等）を書き込むことができる。これにより、作業者に対する顔の角度指示を減らすことができる。

　また、指示者がメイク道具を一定時間以上所持して動かしており、作業者が指示者を注視している場合、意図推定部１２５Ａは、指示者が説明を行うことを望む意図であると推定する。この場合、作業者への指示は不要であるため、意図情報の送信は行わないことで、通信負担を軽減する。

　また、指示者が所望の画角等を伝達しているにも関わらず、作業者が一定時間以上指示と異なる行動をしている場合、制御部１２０Ａは、通信遅延または装置の不具合が発生していると判断し、指示者へ指示の入力の一時停止を促し、指示者の意図情報の送信を一時停止する。これにより、通信や装置への負荷を軽減する。

　＜６－２．表示範囲外に対する指示におけるガイド出力＞
　指示者の意図が、作業者用装置１０Ｂの表示部１５０Ｂに表示される作業者画像の表示範囲外に対する指示の場合、指示について視覚的にガイド出力することは困難であるため、その際は例えば音声を用いて指示を行う。図１２は、本実施形態による表示範囲外に対する指示におけるガイド出力の一例について説明する図である。

　図１２に示すように、指示者は作業者の口元に指示を出したい／出したが、作業者側の表示部１５０Ｂでは、作業者の口元が画角に入っておらず、口元への指示を視覚的にガイド出力できない。この場合、意図推定部１２５Ｂは、音声によるガイドを生成し、出力する。具体的には、警告音を出してもよいし、「口元を映してください」、「カメラから離れてください」、「後ろに下がってください」等のアナウンスを流してもよい。

　なお、指示者側では、例えば作業者画像を表示する表示領域のアスペクト比が作業者側と異なるため作業者の口元が見えており、作業者側では見えていない口元に指示が出せることが想定される（口元に指示を出すことが意図推定される）。若しくは、指示者側でも同様に作業者の口元が映っていない場合でもあっても、例えば画面下端をタッチすることで、表示範囲外に対して指示を出したい意図を伝えることができる（表示範囲外に指示を出したいことが意図推定される）。また、指示者側では、表示部１５０Ａに表示される画角拡大ボタンをタップされた場合に、表示範囲外に対して指示を出したい意図を推定し、作業者側に送信してもよい。

　＜６－３．視野範囲外に対する指示におけるガイド出力＞
　また、例えばメイク作業支援において、作業者が表示部１５０Ｂに映る自身の撮像画像を鏡のように用いて作業している場合に、作業者が画面に近付き過ぎたり、作業に集中したりすることで、作業者の視野範囲が狭くなる場合がある。視野範囲は、作業者の視線方向と、作業者の位置（表示部１５０Ｂとの距離）に基づいて算出され得る。また、表示部１５０Ｂが大画面の場合にも、視野範囲外の領域が生じやすい。

　このような場合に、視野範囲外に対する指示のガイド出力は、音声を用いたり、視野範囲外へ視線誘導する表示を視野範囲内に出すことが考え得る。図１３は、本実施形態による視野範囲外に対する指示におけるガイド出力の一例について説明する図である。図１３に示すように、作業者の視野範囲外に指示が出ている場合、制御部１２０Ｂは、ガイド出力として、警告音を出力したり、表示部１５０Ｂにおける視野範囲４６内に、視線を誘導する表示４８を出したりする。これにより、視野範囲４６外に表示される指示者による指示（ここでは、一例として描画情報４４）に気付かせることができる。

　なお、表示部１５０Ｂに表示される作業者の顔画像（撮像映像）に指示者の映像が重畳して指示者に書き込まれた指示（描画情報）等が見えない場合、作業者は顔を水平方向に移動等して、指示者の映像が邪魔にならない位置に移動してもよい。なお、描画情報は、作業者の顔画像に追随する。また、作業者は任意に指示者の映像の表示位置や表示サイズを変更し得る（例えばタッチ操作（ドラッグ＆ドロップ、ピンチイン／ピンチアウト等）により）。

　＜６－４．指示語に対応する作業者画像の表示＞
　例えば、メイク作業の支援において、作業者が自分の顔を指差して位置を指定し、指示者がその様子を見て、「そこに色をつけてください」等と音声により指示を出す時、作業者が指を差すタイミングと、作業者画像を指示者が見るタイミング、さらに指示者からの音声が作業者に届くタイミングに遅延が発生する可能性がある。つまり、指示者が「そこ」と発話したタイミングと、作業者が適切な位置を指差したタイミングがずれてしまい、指示者の意図通りの指示が届かない現象が起きる。これを解消するため、指示者が指示語を発した際に見ていた作業者画像を作業者側に送信することが考え得る。以下、図１４を参照して説明する。

　図１４は、本実施形態による指示語に対応する作業者画像の表示処理の流れの一例を示すシーケンス図である。図１４に示すように、まず、指示者用装置１０Ａのユーザ情報認識部１２１Ａは、指示者の指示音声を認識する（ステップＳ２０３）。

　次に、指示音声の認識結果から指示語が検出された場合（ステップＳ２０６）、意図推定部１２５Ａは、指示者の意図を示す情報として作業者画像を保存する（ステップＳ２０９）。

　次いで、制御部１２０Ａは、ユーザ情報認識部１２１Ａから、作業者画像を作業者用装置１０Ｂに送信する（ステップＳ２１２）。かかる作業者画像は、意図推定の情報の一つとして送信されてもよい。

　一方、作業者用装置１０Ｂでは、カメラ１４２Ｂにより作業者の撮像が継続的に行われる（ステップＳ２１５）。撮像画像は、継続的に指示者用装置１０Ａに送信される。

　次に、指示者用装置１０Ａから、作業者画像を受信した場合（ステップＳ２１８／Ｙｅｓ）、ガイド生成部１２６Ｂは、受信した作業者画像の作業者の状態と、現在の作業者の状態が一致するか否かを判断する（ステップＳ２２１）。受信した作業者画像の作業者の状態は、受信画像解析部１２３Ｂにより解析され得る。例えば、作業者が自分の顔のある位置を指差している状態が検出され、現在の作業者の状態と比較される。

　次いで、一致しない場合（ステップＳ２２１／Ｎｏ）、意図推定部１２５Ｂは、現在の作業者の状態が受信した作業者画像の作業者の状態に一致するよう作業者を誘導するガイドを生成し（ステップＳ２２４）、表示出力する（ステップＳ２２７）。これにより、指示者の指示音声とタイミングがずれていた場合も、作業者状態を誘導することで（例えば、手で顔を差してください、もっと上を差してください、もっと右を差してください等）、指示者の意図を正確に、また、負担無く伝えることができる。

　＜６－５．その他＞
　情報処理装置１０は、ユーザの検出が不可となった場合、装置や通信への負荷を軽減させるため、認識処理や、画像の送受信を一時的に停止してもよい。

　情報処理装置１０は、ユーザ特性や作業環境によって、表示領域や色を変更してもよい。例えば、表示部１５０がユーザの視野範囲に比べて極端に大きい場合、表示領域を狭くする。また、情報処理装置１０は、ガイド表示や描画情報の色が、重畳対象の画像（作業者画像等）の色と同系色の場合は、色を変更して視認性を高める。

　情報処理装置１０は、ユーザの動作認識において、特徴的な動作にラベル付けを行うことで、誤検出を減らしてもよい。特徴的な動作とラベルは予め用意され得る。

　情報処理装置１０は、ユーザの頭部に装着されるＡＲ／ＶＲデバイス（表示部１５０の一例）を用いて、ユーザの顔向きを検出したり、ガイド表示を行ってもよい。また、ユーザの顔向きは、赤外光カメラを用いてセンシングされてもよい。また、情報処理装置１０は、プロジェクターによりガイド表示を行ってもよい。

　ガイドの表示形態がユーザの望む形でない場合、フィードバックを与え変更できるようにしてもよい。例えば、ユーザが見たい表示領域をガイド表示が遮蔽している場合、ユーザはガイド表示に対して消しゴムで消すような動作をすることで当該ガイド表示を消すことが可能である。

　情報処理装置１０は、作業者が指示と異なる挙動をしていることを振動や音声で伝えてもよいし、作業が順調であることを音声で伝えてもよい。

　＜＜７．補足＞＞
　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、上述した情報処理装置１０（指示者用装置１０Ａ、作業者用装置１０Ｂ）に内蔵されるＣＰＵ、ＲＯＭ、およびＲＡＭ等のハードウェアに、情報処理装置１０の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、本技術は以下のような構成も取ることができる。
（１）
　遠隔作業支援を行う指示者の動作情報と作業者の状態とに基づいて推定される前記指示者の意図を取得し、取得した前記指示者の意図に対応するガイド情報を出力する制御を行う制御部を備える、情報処理装置。
（２）
　前記指示者の動作情報は、少なくとも前記作業者の撮像画像が表示される表示部に対する前記指示者の視線、姿勢、顔向き、または顔の位置の少なくともいずれかに関する情報である、前記（１）に記載の情報処理装置。
（３）
　前記指示者の動作情報は、少なくとも前記作業者の撮像画像が表示される表示部に対して操作体により行われる指示入力の情報である、前記（１）に記載の情報処理装置。
（４）
　前記ガイド情報は、現在の作業者の状態を、前記意図に沿った状態に誘導する情報である、前記（１）～（３）のいずれか１項に記載の情報処理装置。
（５）
　前記誘導は、少なくとも前記指示者の撮像画像が表示される表示部に対する前記作業者の顔向き、姿勢、または位置の少なくともいずれかの誘導である、前記（４）に記載の情報処理装置。
（６）
　前記制御部は、前記意図に応じて、前記作業者の現在の状態に適したガイド情報を生成する、前記（４）または（５）に記載の情報処理装置。
（７）
　前記ガイド情報の出力は、表示、音声、振動の少なくともいずれかで行われる、前記（４）～（６）のいずれか１項に記載の情報処理装置。
（８）
　前記制御部は、前記ガイド情報の出力の種類を、前記作業者の状態に応じて選択する、前記（７）に記載の情報処理装置。
（９）
　前記情報処理装置は、前記作業者に用いられる作業者用装置であり、
　前記制御部は、
　　前記指示者に用いられる指示者用装置から継続的に受信する前記指示者の撮像画像と、前記作業者を継続的に撮像する撮像画像とを、表示部に表示する処理と、
　　前記ガイド情報を、前記表示部に表示される前記作業者の撮像画像に重畳表示する処理と、
を行う、前記（４）～（８）のいずれか１項に記載の情報処理装置。
（１０）
　前記指示者の意図は、前記指示者用装置において推定され、前記指示者用装置から前記作業者用装置に送信される、前記（９）に記載の情報処理装置。
（１１）
　前記制御部は、前記指示者の動作情報と前記と作業者の状態とに基づいて、前記指示者の意図を推定する処理を行う、前記（９）に記載の情報処理装置。
（１２）
　前記制御部は、前記ガイド情報の出力に代えて、前記指示者の意図に応じて、前記表示部に表示される前記作業者の撮像画像または前記指示者の撮像画像に対して表示変更を行う、前記（９）～（１１）のいずれか１項に記載の情報処理装置。
（１３）
　前記制御部は、前記指示者用装置から規定の優先情報を受信した場合、前記意図に対応するガイド情報よりも優先して、前記優先情報に応じた出力制御を行う、前記（９）～（１２）のいずれか１項に記載の情報処理装置。
（１４）
　前記優先情報は、キャンセル、作業の停止指示、または不具合発生を示す情報である、前記（１３）に記載の情報処理装置。
（１５）
　前記制御部は、
　　前記指示者用装置から受信した、前記指示者の発話音声に指示語が含まれていた際に前記指示者用装置で表示されていた前記作業者の撮像画像と、現在の作業者の状態とを比較し、前記作業者の状態を、前記撮像画像と同じ状態に誘導するガイド情報を出力する、前記（９）～（１４）のいずれか１項に記載の情報処理装置。
（１６）
　前記制御部は、
　　前記指示者により作成された、前記作業を支援するための描画情報を、前記作業者の撮像画像に重畳表示する処理を行い、
　　さらに、追加の描画情報を強調表示するよう制御する、前記（９）～（１５）のいずれか１項に記載の情報処理装置。
（１７）
　前記制御部は、
　　さらに、前記作業者の動作情報に基づいて推定される前記作業者の意図と、前記指示者の状態とに基づいて、前記作業者の意図を推定する、前記（１）～（１６）のいずれか１項に記載の情報処理装置。
（１８）
　プロセッサが、
　遠隔作業支援を行う指示者の動作情報と作業者の状態とに基づいて推定される前記指示者の意図を取得し、取得した前記指示者の意図に対応するガイド情報を出力する制御を行うことを含む、情報処理方法。
（１９）
　コンピュータを、
　遠隔作業支援を行う指示者の動作情報と作業者の状態とに基づいて推定される前記指示者の意図を取得し、取得した前記指示者の意図に対応するガイド情報を出力する制御を行う制御部として機能させる、プログラム。

　１０　情報処理装置（１０Ａ　指示者用装置、１０Ｂ　作業者用装置）
　　１１０　通信部
　　１２０　制御部
　　　１２１　ユーザ情報認識部
　　　１２２　操作体認識部
　　　１２３　受信画像解析部
　　　１２４　優先情報検出部
　　　１２５　意図推定部
　　　１２６　ガイド生成部
　　　１２７　表示変更部
　　１３０　操作部
　　１４０　センサ部
　　１５０　表示部
　　１６０　スピーカ
　　１７０　記憶部

Claims

　遠隔作業支援を行う指示者の動作情報と作業者の状態とに基づいて推定される前記指示者の意図を取得し、取得した前記指示者の意図に対応するガイド情報を出力する制御を行う制御部を備える、情報処理装置。
　前記指示者の動作情報は、少なくとも前記作業者の撮像画像が表示される表示部に対する前記指示者の視線、姿勢、顔向き、または顔の位置の少なくともいずれかに関する情報である、請求項１に記載の情報処理装置。
　前記指示者の動作情報は、少なくとも前記作業者の撮像画像が表示される表示部に対して操作体により行われる指示入力の情報である、請求項１に記載の情報処理装置。
　前記ガイド情報は、現在の作業者の状態を、前記意図に沿った状態に誘導する情報である、請求項１に記載の情報処理装置。
　前記誘導は、少なくとも前記指示者の撮像画像が表示される表示部に対する前記作業者の顔向き、姿勢、または位置の少なくともいずれかの誘導である、請求項４に記載の情報処理装置。
　前記制御部は、前記意図に応じて、前記作業者の現在の状態に適したガイド情報を生成する、請求項４に記載の情報処理装置。
　前記ガイド情報の出力は、表示、音声、振動の少なくともいずれかで行われる、請求項４に記載の情報処理装置。
　前記制御部は、前記ガイド情報の出力の種類を、前記作業者の状態に応じて選択する、請求項７に記載の情報処理装置。
　前記情報処理装置は、前記作業者に用いられる作業者用装置であり、
　前記制御部は、
　　前記指示者に用いられる指示者用装置から継続的に受信する前記指示者の撮像画像と、前記作業者を継続的に撮像する撮像画像とを、表示部に表示する処理と、
　　前記ガイド情報を、前記表示部に表示される前記作業者の撮像画像に重畳表示する処理と、
を行う、請求項４に記載の情報処理装置。
　前記指示者の意図は、前記指示者用装置において推定され、前記指示者用装置から前記作業者用装置に送信される、請求項９に記載の情報処理装置。
　前記制御部は、前記指示者の動作情報と前記と作業者の状態とに基づいて、前記指示者の意図を推定する処理を行う、請求項９に記載の情報処理装置。
　前記制御部は、前記ガイド情報の出力に代えて、前記指示者の意図に応じて、前記表示部に表示される前記作業者の撮像画像または前記指示者の撮像画像に対して表示変更を行う、請求項９に記載の情報処理装置。
　前記制御部は、前記指示者用装置から規定の優先情報を受信した場合、前記意図に対応するガイド情報よりも優先して、前記優先情報に応じた出力制御を行う、請求項９に記載の情報処理装置。
　前記優先情報は、キャンセル、作業の停止指示、または不具合発生を示す情報である、請求項１３に記載の情報処理装置。
　前記制御部は、
　　前記指示者用装置から受信した、前記指示者の発話音声に指示語が含まれていた際に前記指示者用装置で表示されていた前記作業者の撮像画像と、現在の作業者の状態とを比較し、前記作業者の状態を、前記撮像画像と同じ状態に誘導するガイド情報を出力する、請求項９に記載の情報処理装置。
　前記制御部は、
　　前記指示者により作成された、前記作業を支援するための描画情報を、前記作業者の撮像画像に重畳表示する処理を行い、
　　さらに、追加の描画情報を強調表示するよう制御する、請求項９に記載の情報処理装置。
　前記制御部は、
　　さらに、前記作業者の動作情報に基づいて推定される前記作業者の意図と、前記指示者の状態とに基づいて、前記作業者の意図を推定する、請求項１に記載の情報処理装置。
　プロセッサが、
　遠隔作業支援を行う指示者の動作情報と作業者の状態とに基づいて推定される前記指示者の意図を取得し、取得した前記指示者の意図に対応するガイド情報を出力する制御を行うことを含む、情報処理方法。
　コンピュータを、
　遠隔作業支援を行う指示者の動作情報と作業者の状態とに基づいて推定される前記指示者の意図を取得し、取得した前記指示者の意図に対応するガイド情報を出力する制御を行う制御部として機能させる、プログラム。