WO2023181808A1

WO2023181808A1 - 情報処理装置、情報処理方法、及び、記録媒体

Info

Publication number: WO2023181808A1
Application number: PCT/JP2023/007501
Authority: WO
Inventors: 健一郎細川
Original assignee: ソニーグループ株式会社
Priority date: 2022-03-23
Filing date: 2023-03-01
Publication date: 2023-09-28

Abstract

情報処理装置（１００）は、制御部（１３０）を備える。制御部（１３０）は、ディスプレイに対し設定された仮想カメラに対し対称性を有するように配置された第１の撮像装置及び第２の撮像装置のうち、第１の撮像装置と相対するようにユーザを誘導するよう出力装置を制御する。制御部（１３０）は、第１の撮像装置と相対したユーザを含む教師画像を第１の撮像装置から取得する。制御部（１３０）は、第１の撮像装置及び第２の撮像装置の仮想カメラに対する対称性及び教師画像に基づき、仮想カメラの視点に対応させるための第２の撮像装置の視点変換の学習処理を行う。

Description

情報処理装置、情報処理方法、及び、記録媒体

　本開示は、情報処理装置、情報処理方法、及び、記録媒体に関する。

　従来、遠隔地にいるユーザ同士が対面しているかのように会話することでコミュニケーションを図るテレコミュニケーションシステムが利用されている。一般的に、テレコミュニケーションシステムでは、撮像装置や表示装置の配置が制限され得る。そのため、ユーザ同士の視線が一致せず、例えば、アイコンタクトが成立しないことがあった。

　そこで、ユーザ同士の視線が一致するように、撮像画像の視点変換を行う技術が知られている。テレコミュニケーションシステムは、第１のユーザを撮像した撮像画像に基づき、仮想撮影位置から第１のユーザを撮影したように見える画像を生成する。ここで、仮想撮影位置は、表示装置に表示される第２のユーザの視点位置である。

　すなわち、テレコミュニケーションシステムは、表示装置周囲に配置された撮像装置が第１のユーザを撮像した撮像画像に対して、表示装置に表示される第２のユーザの視点位置から撮像したかのような視点変換を行う。テレコミュニケーションシステムは、視点変換を行った撮像画像を、第２のユーザ側の表示装置に表示する。

　これにより、テレコミュニケーションシステムは、第１のユーザ及び第２のユーザの視線を一致させることができる。

国際公開第２０１８／２２５５１８号

　上述したテレコミュニケーションシステムは、例えば視点補間技術を用いて複数の撮像画像を用いた視点変換を行う。複数の撮像画像を用いた視点変換を行う技術として、例えば、機械学習を用いた視点変換技術が知られている。

　機械学習を用いて撮像画像の視点変換を行う場合、テレコミュニケーションシステムが、特定の人物に特化した視点変換を学習すると、不特定の人物を対象とした視点変換の精度が劣化する恐れがある。すなわち、特定の人物に特化して学習した視点変換は、汎用性が低下してしまう。

　一方、テレコミュニケーションシステムが、汎用的に、換言すると人物を特定せずに視点変換を学習すると、特定の人物を対象とした視点変換の精度が劣化する恐れがある。すなわち、不特定の人物を対象として学習した視点変換は、変換対象の人物によっては精度が低下してしまう恐れがある。

　そこで、本開示では、不特定の人物を対象とした視点変換において、特定の人物を対象とした視点変換の精度をより向上させることができる仕組みを提供する。

　なお、上記課題又は目的は、本明細書に開示される複数の実施形態が解決し得、又は達成し得る複数の課題又は目的の１つに過ぎない。

　本開示の情報処理装置は、制御部を備える。制御部は、ディスプレイに対し設定された仮想カメラに対し対称性を有するように配置された第１の撮像装置及び第２の撮像装置のうち、前記第１の撮像装置と相対するようにユーザを誘導するよう出力装置を制御する。制御部は、第１の撮像装置と相対したユーザを含む教師画像を第１の撮像装置から取得する。制御部は、前記第１の撮像装置及び前記第２の撮像装置の前記仮想カメラに対する前記対称性及び前記教師画像に基づき、前記仮想カメラの視点に対応させるための前記第２の撮像装置の視点変換の学習処理を行う。

本開示の実施形態に係るテレコミュニケーションシステムの概要を説明するための図である。撮像装置が撮像した撮像画像の一例を示す図である。撮像装置が撮像した撮像画像の一例を示す図である。本開示の実施形態に係る撮像装置の配置例を示す図である。本開示の実施形態に係る情報処理システムが視点変換処理によって生成する変換画像の一例を示す図である。本開示の実施形態に係る生徒画像及び教師画像の取得例について説明するための図である。本開示の実施形態に係る情報処理システムが視点変換に用いる変換モデルのネットワーク構造の一例を示す図である。本開示の実施形態に係る情報処理システムが実施する個人特化学習の一例を説明するための図である。本開示の実施形態に係る個人特化学習に使用する撮像装置の組み合わせの一例を示す図表である。本開示の実施形態に係る個人特化学習に使用する撮像装置の組み合わせの一例を示す図表である。本開示の実施形態に係る撮像装置の配置の他の例を示す図である。本開示の実施形態に係る情報処理システムの構成例を示すブロック図である。本開示の実施形態に係る管理部の構成例を示すブロック図である。本開示の実施形態に係る学習データ取得計画の一例を示す図である。本開示の実施形態に係るヘッドポーズの一例を示す図表である。本開示の実施形態に係る表情の一例を示す図表である。本開示の実施形態に係る学習制御部の構成例を示すブロック図である。本開示の実施形態に係る変換部の構成例を示すブロック図である。本開示の実施形態に係る推定部の構成例を示すブロック図である。本開示の実施形態に係る推定部の他の構成例を示すブロック図である。本開示の実施形態に係るＵＩ制御部の構成例を示すブロック図である。本開示の実施形態に係るＵＩ画像の一例を説明するための図である。本開示の実施形態に係るＵＩ画像の他の例を説明するための図である。本開示の実施形態に係る学習処理の流れの一例を示すフローチャートである。本開示の実施形態に係る取得処理の流れの一例を示すフローチャートである。本開示の実施形態に係る誘導処理の流れの一例を示すフローチャートである。本開示の実施形態に係るＵＩ生成処理の流れの一例を示すフローチャートである。本開示の実施形態に係る個人特化学習処理の流れの一例を示すフローチャートである。本開示の実施形態に係る検証処理の流れの一例を示すフローチャートである。本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。

　以下に添付図面を参照しながら、本開示の実施形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　また、本明細書及び図面において、具体的な値を示して説明する場合があるが、値は一例であり、別の値が適用されてもよい。

　また、本明細書及び図面において、実施形態の類似する構成要素については、同一の符号の後に異なるアルファベット及び数字の少なくとも一方を付して区別する場合がある。例えば、実質的に同一の機能構成を有する複数の構成を、必要に応じて撮像装置３００Ａ＿１、３００Ａ＿２及び３００Ｂ＿１のように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、撮像装置３００Ａ＿１及び３００Ａ＿２を特に区別する必要が無い場合には、単に撮像装置３００Ａと称する。例えば、撮像装置３００Ａ＿１、３００Ａ＿２及び３００Ｂ＿１を特に区別する必要が無い場合には、単に撮像装置３００と称する。

　以下に説明される１又は複数の実施形態（実施例、変形例を含む）は、各々が独立に実施されることが可能である。一方で、以下に説明される複数の実施形態は少なくとも一部が他の実施形態の少なくとも一部と適宜組み合わせて実施されてもよい。これら複数の実施形態は、互いに異なる新規な特徴を含み得る。したがって、これら複数の実施形態は、互いに異なる目的又は課題を解決することに寄与し得、互いに異なる効果を奏し得る。

＜＜１．はじめに＞＞
＜１．１．情報処理システムの概要構成例＞
　図１は、本開示の実施形態に係るテレコミュニケーションシステム１の概要を説明するための図である。テレコミュニケーションシステム１は、情報処理システム１０Ａ、１０Ｂを有する。情報処理システム１０Ａ、１０Ｂは、ネットワークを介して接続する。

　テレコミュニケーションシステム１は、情報処理システム１０Ａを使用するユーザＵＡと、情報処理システム１０Ｂを使用するユーザＵＢに、テレコミュニケーションサービスを提供する。テレコミュニケーションサービスは、遠隔地にいるユーザＵＡ、ＵＢに対して、双方向的なコミュニケーションを提供するサービスである。

　図１に示す情報処理システム１０Ａは、情報処理装置１００Ａと、ディスプレイ２１０Ａと、スピーカ２２０Ａ＿１、２２０Ａ＿２と、撮像装置３００Ａ＿１～３００Ａ＿８と、を備える。

（ディスプレイ）
　ディスプレイ２１０Ａは、情報処理装置１００Ａからの指示に従い、ユーザＵＡに画像情報を提示する装置である。ディスプレイ２１０Ａは、例えば、情報処理システム１０Ｂから受信した受信画像を表示し得る。ディスプレイ２１０Ａは、例えば、撮像装置３００Ａ＿１～３００Ａ＿８が撮像した撮像画像を表示し得る。

　ディスプレイ２１０Ａは、受信画像や撮像画像以外の、例えば情報処理装置１００Ａが生成したＵＩ画像などを表示し得る。ディスプレイ２１０Ａは、受信画像、撮像画像、及び、ＵＩ画像のうち、少なくとも２つを組み合わせて表示し得る。

（スピーカ）
　スピーカ２２０Ａ＿１、２２０Ａ＿２は、情報処理装置１００Ａからの指示に従い、ユーザＵＡに音情報を提示する装置である。スピーカ２２０Ａ＿１、２２０Ａ＿２は、例えば、ユーザＵＢの音声情報を出力し得る。ユーザＵＢの音声情報は、例えば、情報処理システム１０Ｂから取得される。

　スピーカ２２０Ａ＿１、２２０Ａ＿２は、例えば、ユーザＵＡの音声情報を出力し得る。ユーザＵＡの音声情報は、例えば、情報処理システム１０Ａが有するマイク（図示省略）から取得され得る。

　スピーカ２２０Ａ＿１、２２０Ａ＿２は、例えば、音楽などユーザＵＡ、ＵＢの音声情報以外の音情報を出力し得る。スピーカ２２０Ａ＿１、２２０Ａ＿２は、複数の音情報を重畳して出力し得る。

　なお、スピーカ２２０Ａ＿１は、スピーカ２２０Ａ＿２と同じ音情報を出力してもよく、スピーカ２２０Ａ＿２と異なる音情報を出力してもよい。

　スピーカ２２０Ａ＿１、２２０Ａ＿２の配置は、図１の例に限定されない。スピーカ２２０Ａ＿１、２２０Ａ＿２は、例えば、ディスプレイ２１０Ａの周囲に配置されてもよく、ディスプレイ２１０Ａとは離れた位置に配置されてもよい。

　スピーカ２２０Ａの台数は、２台に限定されない。スピーカ２２０Ａは、１台であってもよく、３台以上であってもよい。また、スピーカ２２０Ａが、ディスプレイ２１０Ａや情報処理装置１００Ａに内蔵されていてもよい。

　ディスプレイ２１０Ａ及びスピーカ２２０Ａは、まとめて出力装置とも称される。

（撮像装置）
　撮像装置３００Ａ＿１～３００Ａ＿８は、例えば、ディスプレイ２１０Ａの周囲に配置され、ディスプレイ２１０Ａ周辺を撮像するカメラである。撮像装置３００Ａ＿１～３００Ａ＿８は、例えば、ユーザＵＡを撮像する。撮像装置３００Ａが撮像する撮像画像は動画像であってもよく、静止画像であってもよい。

　撮像装置３００Ａ＿１～３００Ａ＿８は、ディスプレイ２１０Ａに内蔵されてもよく、外付けのカメラとしてディスプレイ２１０Ａの周囲に配置されてもよい。また、撮像装置３００Ａの台数は８台に限定されない。撮像装置３００Ａは、少なくとも２台あればよく、７台以下であっても９台以上であってもよい。

（情報処理装置）
　情報処理装置１００Ａは、情報処理システム１０Ａが有する各装置を制御する。例えば、情報処理装置１００Ａは、出力装置から出力する情報を生成する。情報処理装置１００Ａは、ネットワークを介して情報処理システム１０Ｂと通信を行う。

　図１の例では、情報処理システム１０Ｂは、情報処理システム１０Ａと同様に構成される。なお、情報処理システム１０Ｂは、情報処理システム１０Ａと異なる構成であってもよい。例えば、スピーカ２２０Ｂの台数や配置などが、情報処理システム１０Ａと異なっていてもよい。また、撮像装置３００Ｂについても、後述する対称性があるのであれば、台数や配置などが情報処理システム１０Ａと異なっていてもよい。

＜１．２．課題＞
　ディスプレイ２１０の周囲に配置された撮像装置３００の撮像画像を用いてユーザＵがテレコミュニケーションを行うと、ユーザＵ同士の視線が一致しにくくなる。

　図２及び図３は、撮像装置３００が撮像した撮像画像の一例を示す図である。図２に示す撮像画像Ｐ＿２は、ディスプレイ２１０の上部に配置される撮像装置３００（例えば撮像装置３００Ａ＿２（図１参照））で撮像された画像である。図３に示す撮像画像Ｐ＿５は、ディスプレイ２１０のサイドに配置される撮像装置３００（例えば撮像装置３００Ａ＿５（図１参照））で撮像された画像である。

　ユーザＵが双方向のテレプレゼンスによるコミュニケーションを行う場合、ディスプレイ２１０に相手の映像が表示される。そのため、ユーザＵは、ディスプレイ２１０を見て相手とのコミュニケーションを行う。

　このとき、情報処理システム１０が、ディスプレイ２１０の周囲に配置される撮像装置３００でユーザＵを撮影すると、図２及び図３に示すようにユーザＵの視線が斜めを向いた映像が撮影される。当該映像が相手側のディスプレイ２１０に表示されると、相手側は、ユーザＵと視線を一致させにくくなり、自然なアイコンタクトを行うことが難しくなる。

　一方、情報処理システム１０がユーザＵを正面から撮影できれば、相手側は、ユーザＵと視線を一致させやすくなり、より容易に自然なアイコンタクトを行えるようになる。

　しかしながら、ユーザＵの正面にはディスプレイ２１０が配置されるため、情報処理システム１０がユーザＵの正面から撮影することは難しい。例えば、撮像装置３００がディスプレイ２１０の前面に配置されると、ディスプレイ２１０の一部が撮像装置３００によって隠れることで相手が見えなくなってしまう。このように撮像装置３００をディスプレイ２１０の前面に配置することは、円滑なコミュニケーションの妨げとなる恐れがある。

　ここで、例えば、ハーフミラー（図示省略）を使用することで、ディスプレイ２１０が配置されるユーザＵの正面からユーザＵを撮影する方法が考えられる。例えば、ハーフミラーは、ディスプレイ２１０とユーザＵとの間に斜めに配置される。ユーザＵは、ハーフミラーを介してディスプレイ２１０が映し出す映像を視認する。また、ハーフミラーの上部に配置されるカメラが、ハーフミラーに映るユーザＵの撮像を行う。

　このように、ハーフミラーを使用することで、カメラが、ユーザＵの視聴体験を邪魔することなく、ディスプレイ２１０に正対するユーザＵを撮影することができる。しかしながら、ハーフミラーを使用する場合、情報処理システム１０が大がかりになってしまうという問題がある。

　また、ディスプレイ２１０を透過ディスプレイとすることで、ディスプレイ２１０が配置されるユーザＵの正面からユーザＵを撮影する方法が考えられる。この場合、カメラは、ディスプレイ２１０の背面に配置される。

　このように、ディスプレイ２１０の背面にカメラが配置されることで、当該カメラは、ディスプレイ２１０に正対するユーザＵを撮影することができる。しかしながら、ディスプレイ２１０の背面にカメラが配置される場合、ディスプレイ２１０の光量が小さくなるなど、ディスプレイ２１０の性能が劣化するおそれがある。

　一方、図１に示すように、ディスプレイ２１０の周囲に配置された撮像装置３００を使用して、ディスプレイ２１０の正面からユーザＵを撮影する方法として、撮像装置３００が撮像した撮像画像の視点を変換する方法がある。

　この場合、情報処理システム１０は、例えば、機械学習を用いて撮像装置３００が撮像した撮像画像の視点変換処理を行い、ディスプレイ２１０の略中央から撮像した変換画像を生成する。

　しかしながら、ディスプレイ２１０のサイズが大きくなると、撮像装置３００と、ディスプレイ２１０の略中央と、の間の距離が大きくなる。この場合、撮像画像を変換画像に変換する変換画角が大きくなり、高精度に変換することが難しいという問題があった。

　例えば、情報処理システム１０を使用するユーザＵが事前に特定される場合、情報処理システム１０は、ユーザＵに関する生徒画像及び教師画像を予め取得することで、特定されるユーザＵに特化した学習（以下、個人特化学習とも記載する）を行うことができる。これにより、情報処理システム１０は、特定のユーザＵを含む撮像画像の変換精度を改善することができる。

　しかしながら、テレコミュニケーションシステム１のユースケースによっては、事前にユーザＵを特定することが難しい場合がある。このように、事前にユーザＵを特定することが難しく、予め学習に必要な生徒画像や教師画像が取得できない場合であっても、ユーザＵを含む撮像画像の変換精度をより改善することが望まれる。

　このように、情報処理システム１０が、撮像画像をディスプレイ２１０の正面（例えば、略中央）から撮像したように視点変換を行う場合において、より高精度に視点変換を行うことが望まれる。

＜１．３．提案技術の概要＞
　そこで、本開示の実施形態に係る情報処理システム１０は、撮像装置３００の配置の対称性を利用して、生徒画像（学習データ）及び教師画像（正解データ）を取得する。これにより、情報処理システム１０は、不特定のユーザＵが使用するテレコミュニケーションシステム１において、当該システムを使用するユーザＵに特化した個人特化学習を行うことができる。

　まず、図４を用いて撮像装置３００の配置例について説明する。図４は、本開示の実施形態に係る撮像装置３００の配置例を示す図である。図４では、撮像装置３００とディスプレイ２１０との位置関係が模式的に示される。また、図５は、本開示の実施形態に係る情報処理システム１０が視点変換処理によって生成する変換画像の一例を示す図である。

　図４に示すように、８台の撮像装置３００＿１～３００＿８が、ディスプレイ２１０の周囲に配置される。ここで、情報処理システム１０は、撮像装置３００＿１～３００＿８が撮像した撮像画像を、ディスプレイ２１０の略中央の仮想カメラＣ＿Ｖから撮像した変換画像Ｐ＿Ｖ（図５参照）に変換するものとする。すなわち、情報処理システム１０は、撮像画像を、ディスプレイ２１０の略中央にある視点から見た変換画像Ｐ＿Ｖに変換する。変換画像Ｐ＿Ｖは、例えば、図５に示すように、ユーザＵを正面から撮像した画像である。

　なお、仮想カメラＣ＿Ｖは実際には存在しない。情報処理システム１０は、撮像装置３００＿１～３００＿８が撮像した撮像画像を用いて視点変換処理を実行することで、あたかも仮想カメラＣ＿Ｖから撮像したかのような仮想画像を生成する。

　図４に示す８台の撮像装置３００＿１～３００＿８は、仮想カメラＣ＿Ｖに対して対称性を有するように配置される。例えば、撮像装置３００＿１及び撮像装置３００＿２は、撮像装置３００＿４及び仮想カメラＣ＿Ｖの相対的な位置関係に応じて配置される。また、撮像装置３００＿１、３００＿２、３００＿４は、撮像装置３００＿５、３００＿７及び仮想カメラＣ＿Ｖの相対的な位置関係に応じて配置される。

　このように、撮像装置３００（例えば、撮像装置３００＿５）は、仮想カメラＣ＿Ｖとの相対的な位置関係が、他の撮像装置３００（例えば、撮像装置３００＿６、３００＿７）の相対的な位置関係と同じになるように配置される。

　図４の例では、撮像装置３００＿１、３００＿３、３００＿６、３００＿８それぞれが、ディスプレイ２１０の角部に配置される。撮像装置３００＿２、３００＿４、３００＿５、３００＿７それぞれが、ディスプレイ２１０の端辺部に配置される。

　本実施形態では、このように仮想カメラＣ＿Ｖとの相対的な位置関係に応じた撮像装置３００の配置を、対称性を有する配置と記載する。本実施形態に係る撮像装置３００は、仮想カメラＣ＿Ｖとの相対関係に応じて、仮想カメラＣ＿Ｖに対して対称性を有するように配置される。

　このように配置された撮像装置３００を用いて、情報処理システム１０は、ユーザＵを含む生徒画像及び教師画像を取得し、ユーザＵに特化した視点変換学習を行う。

　図６は、本開示の実施形態に係る生徒画像及び教師画像の取得例について説明するための図である。ここでは、情報処理システム１０は、撮像装置３００＿２（第３の撮像装置の一例。以下、入力撮像装置Ｃ＿Ｉとも記載する）の撮像画像を、仮想カメラＣ＿Ｖから撮像した変換画像Ｐ＿Ｖに変換するための個人特化学習を行うものとする。

　この場合、情報処理システム１０は、撮像装置３００＿４を、教師画像を取得するための撮像装置（第１の撮像装置の一例。以下、教師撮像装置Ｃ＿Ｔとも記載する）とする。情報処理システム１０は、教師撮像装置Ｃ＿Ｔが撮像した撮像画像を教師画像（教師データ）Ｐ＿Ｔとする。

　情報処理システム１０は、撮像装置３００＿１を、生徒画像を取得するための撮像装置（第２の撮像装置の一例。以下、生徒撮像装置Ｃ＿Ｓとも記載する）とする。情報処理システム１０は、生徒撮像装置Ｃ＿Ｓが撮像した撮像画像を生徒画像（生徒データ）Ｐ＿Ｓとする。

　情報処理システム１０では、ディスプレイ２１０に対し設定された仮想カメラＣ＿Ｖに対し対称性を有するように教師撮像装置Ｃ＿Ｔ及び生徒撮像装置Ｃ＿Ｓが配置される。

　このとき、情報処理システム１０は、教師撮像装置Ｃ＿Ｔと正対（相対）するようにユーザＵを誘導するよう出力装置を制御する。ここで、ユーザＵが教師撮像装置Ｃ＿Ｔと正対（相対）するとは、ユーザＵが教師撮像装置Ｃ＿Ｔの前に位置することを意味する。より具体的に、ユーザＵが教師撮像装置Ｃ＿Ｔと正対（相対）するとは、例えば、ユーザＵが教師撮像装置Ｃ＿Ｔの画角の略中央に位置することを意味する。

　情報処理システム１０は、教師撮像装置Ｃ＿Ｔと正対（相対）したユーザＵを含む教師画像Ｐ＿Ｔを教師撮像装置Ｃ＿Ｔから取得する。情報処理システム１０は、教師撮像装置Ｃ＿Ｔと正対（相対）したユーザＵを含む生徒画像Ｐ＿Ｓを生徒撮像装置Ｃ＿Ｓから取得する。

　情報処理システム１０は、教師撮像装置Ｃ＿Ｔ及び生徒撮像装置Ｃ＿Ｓの仮想カメラＣ＿Ｖに対する対称性及び教師画像に基づき、仮想カメラＣ＿Ｖの視点に対応させるための変換処理であって、生徒撮像装置Ｃ＿Ｓの視点変換の学習処理を行う。情報処理システム１０は、生徒画像Ｐ＿Ｓ及び教師画像Ｐ＿Ｔを用いて、入力撮像装置Ｃ＿Ｉで撮像される撮像画像を、ディスプレイ２１０に対して設定される視点からの変換画像Ｐ＿Ｖに視点変換する変換処理の学習を行う。

　すなわち、情報処理システム１０は、生徒画像Ｐ＿Ｓ及び教師画像Ｐ＿Ｔを用いて、入力撮像装置Ｃ＿Ｉで撮像される撮像画像を仮想カメラＣ＿Ｖから撮像したかのような変換画像Ｐ＿Ｖに視点変換する変換処理の個人特化学習を行う。以下、生徒画像Ｐ＿Ｓ及び教師画像Ｐ＿Ｔをまとめて学習用画像とも記載する。

　ここで、入力撮像装置Ｃ＿Ｉは、教師撮像装置Ｃ＿Ｔと生徒撮像装置Ｃ＿Ｓとの相対位置に応じた位置に配置される。具体的に、入力撮像装置Ｃ＿Ｉは、入力撮像装置Ｃ＿Ｉと仮想カメラＣ＿Ｖとの相対的な位置が、教師撮像装置Ｃ＿Ｔと生徒撮像装置Ｃ＿Ｓとの相対的な位置に応じた位置になるように配置される。

　ここで、図７及び図８を用いて情報処理システム１０が実施する個人特化学習の一例について説明する。図７は、本開示の実施形態に係る情報処理システム１０が視点変換に用いる変換モデルのネットワーク構造の一例を示す図である。図８は、本開示の実施形態に係る情報処理システム１０が実施する個人特化学習の一例を説明するための図である。

　図７では、変換モデルに対するネットワークの一例を示している。図７に示すネットワークは、入力層ＩＮＬと出力層ＯＵＴＬとの間に複数（多層）の中間層を含む。

　図７の例では、入力層ＩＮＬは８個の入力ノードＮ１～Ｎ８を有する。入力ノードＮ１～Ｎ８それぞれに、撮像装置３００＿１～３００＿８が撮像した撮像画像Ｐ＿１～Ｐ＿８が入力される。

　出力層ＯＵＴＬは１個の出力ノードを有する。出力ノードから視点変換後の変換画像Ｐ＿Ｖが出力される。

　図７に示すネットワーク構造を有する変換モデルのパラメータは、個人を特定しない形で予め学習されているものとする。情報処理システム１０は、不特定のユーザＵを対象として学習されている変換モデルに対して、ユーザＵを特定した追加の学習（個人特化学習）を行う。

　図８では、情報処理システム１０は、撮像装置３００＿２を入力撮像装置Ｃ＿Ｉ、撮像装置３００＿１を生徒撮像装置Ｃ＿Ｓ、撮像装置３００＿４を教師撮像装置Ｃ＿Ｔとして、個人特化学習を行う。

　この場合、情報処理システム１０は、入力ノードＮ２に生徒撮像装置Ｃ＿Ｓが撮像した生徒画像Ｐ＿Ｓを入力することで出力ノードから変換画像Ｐ＿Ｖを取得する。ここで、入力ノードＮ２は、入力撮像装置Ｃ＿Ｉである撮像装置３００＿２が撮像した撮像画像Ｐ＿２が入力されるノードである。

　なお、生徒画像Ｐ＿Ｓが入力される入力ノードＮ２以外の入力ノードＮ１、Ｎ３～Ｎ８には、撮像画像が入力されないものとする。このように、本実施形態に係る変換モデルは、一部の入力ノードＮに撮像画像が入力されていない場合でも、変換画像Ｐ＿Ｖを出力し得るモデルである。

　あるいは、情報処理システム１０は、撮像画像の代わりに黒画像（全ての画素が黒色である画像）を、生徒画像Ｐ＿Ｓが入力される入力ノードＮ２以外の入力ノードＮ１、Ｎ３～Ｎ８に入力するようにしてもよい。この場合、変換モデルは、一部の入力ノードＮに黒画像が入力されても変換画像Ｐ＿Ｖを出力するよう構成される。

　情報処理システム１０は、変換モデルの出力である変換画像Ｐ＿Ｖと、教師撮像装置３００＿４が撮像した教師画像Ｐ＿Ｔと、に応じて変換モデルのパラメータを更新する。このようにして、情報処理システム１０は、不特定のユーザＵを対象とした変換モデルに対して個人特化学習（再学習）を行う。

　なお、ここでは、変換モデルがニューラルネットワーク構造を有するとしたが、変換モデルの構造はこれに限定されない。変換モデルは、撮像画像Ｐ＿１～Ｐ＿８を入力とし、変換画像Ｐ＿Ｖを出力すればよい。変換モデルは、例えば、ＣＮＮ（Convolutional　Neural　Network）やＤＮＮ（Deep　Neural　Network）、ＲＮＮ（Recurrent　Neural　Network）、ＧＡＮ（Generative　Adversarial　Network）等、種々の構造を取り得る。

　また、ここでは、情報処理システム１０が、撮像装置３００＿２を入力撮像装置Ｃ＿Ｉ、撮像装置３００＿１を生徒撮像装置Ｃ＿Ｓ、撮像装置３００＿４を教師撮像装置Ｃ＿Ｔとした。しかしながら、入力撮像装置Ｃ＿Ｉ、生徒撮像装置Ｃ＿Ｓ、及び、教師撮像装置Ｃ＿Ｔの組み合わせはこれに限定されない。

　図９及び図１０は、本開示の実施形態に係る個人特化学習に使用する撮像装置３００の組み合わせの一例を示す図表である。個人特化学習に使用する撮像装置３００の組み合わせは、生徒撮像装置Ｃ＿Ｓ、入力撮像装置Ｃ＿Ｉ、及び、教師撮像装置Ｃ＿Ｔの組み合わせを意味する。

　図９及び図１０では、撮像装置３００＿１～３００＿８を識別するＩＤ（ＩＤ＃１～ＩＤ＃８）によって、撮像装置３００＿１～３００＿８が区別される。ＩＤ（ＩＤ＃１～ＩＤ＃８）の数字は、撮像装置３００＿１～３００＿８の末尾の数字と対応する。

　図９では、情報処理システム１０が生徒撮像装置Ｃ＿Ｓとして１台の撮像装置３００を選択する。情報処理システム１０は、例えば、撮像装置３００＿６を生徒撮像装置Ｃ＿Ｓ、撮像装置３００＿４を入力撮像装置Ｃ＿Ｉ、撮像装置３００＿７を教師撮像装置Ｃ＿Ｔとして選択する。

　図１０では、情報処理システム１０が生徒撮像装置Ｃ＿Ｓとして２台の撮像装置３００を選択する。情報処理システム１０は、例えば、撮像装置３００＿２、３００＿４を生徒撮像装置Ｃ＿Ｓ、撮像装置３００＿５、３００＿７を入力撮像装置Ｃ＿Ｉ、撮像装置３００＿１を教師撮像装置Ｃ＿Ｔとして選択する。

　撮像装置３００＿１～３００＿８が図３に示すようにディスプレイ２１０周囲に配置される場合、情報処理システム１０は、図９及び図１０に示すように、２８通りの組み合わせの中から個人特化学習に使用する撮像装置３００の組み合わせを選択し得る。

　情報処理システム１０は、図９及び図１０に示す組み合わせのうち少なくとも１通りの組み合わせを、個人特化学習に使用する撮像装置３００の組み合わせとして選択し得る。情報処理システム１０は、複数の組み合わせを選択した場合、組み合わせを順次切り替えながら学習用画像を取得する。情報処理システム１０は、ユーザＵを次の教師撮像装置Ｃ＿Ｔまで順次誘導して学習用画像を取得する。

　なお、図９及び図１０に示すように、撮像装置３００の組み合わせごとに番号（以下、組み合わせ番号とも記載する）が付与される。組み合わせ番号は、後述する個人特化学習の計画時に参照される。

　このように、情報処理システム１０は、ディスプレイ２１０の周囲に配置された複数の撮像装置３００＿１～３００＿８を使用して個人特化学習を実行する。

　このとき、情報処理システム１０は、適切な学習用画像を取得するために、ユーザＵに対して適切な位置への移動を促す。適切な位置とは、ユーザＵが教師撮像装置Ｃ＿Ｔと正対する位置である。

　情報処理システム１０は、教師撮像装置Ｃ＿Ｔで撮像したユーザＵの正対画像を教師画像とし、生徒撮像装置Ｃ＿Ｓで撮像したユーザＵの非正対画像を生徒画像とした視点変換の学習を行う。このとき、情報処理システム１０は、撮像装置３００配置の対称性を利用することで、実際には撮像装置３００が配置されない、例えばディスプレイ２１０の略中央から見た変換画像Ｐ＿Ｖを生成する変換モデルの学習を行うことができる。

　このように、本開示の実施形態に係る情報処理システム１０は、ユーザＵ個人に特化して学習を行う。これにより、情報処理システム１０は、ユーザＵを特定しない汎用処理に対し、ユーザＵ個人の顔に関してより高品質な視点変換を行うことができる。

　また、この個人特化学習がテレコミュニケーションシステム１に適用されることで、ユーザＵＡ、ＵＢは、互いに正対して自然なアイコンタクトを行うことができる。このように、本開示の実施形態に係るテレコミュニケーションシステム１は、より高画質なテレプレゼンスサービスをユーザＵに提供することができる。

　また、情報処理システム１０は、予め学習した変換モデルに対して、ユーザＵに特化した追加の学習（再学習）を行う。そのため、情報処理システム１０は、ユーザＵに特化した学習を一から行う場合と比較して、より少ない学習画像で再学習を行うことができる。

　情報処理システム１０は、例えば、ワンショット学習（フューショット学習）のような学習モデルを使用することで、より少ないサンプル数（生徒画像数）で再学習を行うことが可能となる。

　情報処理システム１０は、少ない学習画像で個人特化学習を行うことで、個人特化学習を行う時間を短縮することができる。そのため、情報処理システム１０は、予め個人特化学習を行う必要がなく、ユーザＵがテレコミュニケーションを行う際にオンラインで個人特化学習を行うことができる。例えば、情報処理システム１０は、ユーザＵがユーザ利用登録を行う際など、初めてテレコミュニケーションシステム１を使用する場合に、個人特化学習を実施し得る。

　なお、ここでは、情報処理システム１０が８台の撮像装置３００＿１～３００＿８を有するとしたが、撮像装置３００の台数はこれに限定されない。情報処理システム１０は、生徒撮像装置Ｃ＿Ｓ、教師撮像装置Ｃ＿Ｔ、及び、入力撮像装置Ｃ＿Ｉとして機能する撮像装置３００を有していればよい。

　例えば、情報処理システム１０は、撮像装置３００＿２、３００＿４、３００＿６（図４参照）の３台を備えるものとする。この場合、情報処理システム１０は、撮像装置３００＿４を生徒撮像装置Ｃ＿Ｓ、撮像装置３００＿６を教師撮像装置Ｃ＿Ｔ、撮像装置３００＿２を入力撮像装置Ｃ＿Ｉとして、個人特化学習を行うことができる。

　例えば、情報処理システム１０は、撮像装置３００＿１、３００＿２、３００＿４（図４参照）の３台を備えるものとする。この場合、情報処理システム１０は、撮像装置３００＿１を生徒撮像装置Ｃ＿Ｓ、撮像装置３００＿４を教師撮像装置Ｃ＿Ｔ、撮像装置３００＿２を入力撮像装置Ｃ＿Ｉとして、個人特化学習を行うことができる。

　また、この場合、情報処理システム１０は、撮像装置３００＿１を生徒撮像装置Ｃ＿Ｓ、撮像装置３００＿２を教師撮像装置Ｃ＿Ｔ、撮像装置３００＿４を入力撮像装置Ｃ＿Ｉとして、個人特化学習を行うことができる。

　このように、撮像装置３００の配置によっては、情報処理システム１０は、同じ撮像装置３００を使用して異なる個人特化学習を行うことができる。この場合、情報処理システム１０は、より少ない台数の撮像装置３００でより高精度に視点変換処理を実行することができるようになる。

　なお、例えば、情報処理システム１０が教師撮像装置Ｃ＿Ｔ及び入力撮像装置Ｃ＿Ｉとして１台の撮像装置３００を選択することで、情報処理システム１０は、２台の撮像装置３００を用いた個人特化学習を行い得る。

　図１１は、本開示の実施形態に係る撮像装置３００の配置の他の例を示す図である。図１１では、撮像装置３００とディスプレイ２１０との位置関係が模式的に示される。

　図１１に示すように、ここでは、情報処理システム１０が、撮像装置３００＿４、３００＿９を備えるものとする。撮像装置３００＿９は、ディスプレイ２１０の外側に配置される。撮像装置３００＿９は、撮像装置３００＿９と撮像装置３００＿４との相対的な位置関係が撮像装置３００＿４と仮想カメラＣ＿Ｖとの相対的な位置関係と同じになるように配置される。

　図１１の例では、撮像装置３００＿９は、撮像装置３００＿４と仮想カメラＣ＿Ｖと結ぶ直線上であって、撮像装置３００＿９と撮像装置３００＿４との間の距離が、撮像装置３００＿４と仮想カメラＣ＿Ｖとの間の距離と同じになるように配置される。

　この場合、情報処理システム１０は、撮像装置３００＿９を生徒撮像装置Ｃ＿Ｓ、撮像装置３００＿４を教師撮像装置Ｃ＿Ｔ、撮像装置３００＿４を入力撮像装置Ｃ＿Ｉとして、個人特化学習を行うことができる。

　このように、情報処理システム１０は、ディスプレイ２１０の周囲及び外側に撮像装置３００をそれぞれ配置することで、２台の撮像装置を用いた個人特化学習を行うことができる。

　なお、図１１では、撮像装置３００＿９が、ディスプレイ２１０の撮像装置３００＿４より外側、すなわちディスプレイ２１０の左横側に配置される場合を示したが、撮像装置３００＿９の配置はこれに限定されない。例えば、撮像装置３００＿９は、ディスプレイ２１０の撮像装置３００＿２より外側、すなわちディスプレイ２１０の上側に配置されてもよい。撮像装置３００＿９は、ディスプレイ２１０の撮像装置３００＿８より外側、すなわちディスプレイ２１０の右斜め下側に配置されてもよい。

　また、ディスプレイ２１０の外側に配置される撮像装置３００の数は１台に限定されず、２台以上であってもよい。

　なお、撮像装置３００の数が多いと、情報処理システム１０はより多くの学習画像を取得することができ、変換モデルによる視点変換の精度をより向上させることができる。

　本開示の技術は、ユーザＵに個人特化した視点変換を学習する処理に主眼を置いている。上述したように、情報処理システム１０は、個人特化していない視点変換を行う変換モデルを事前に学習しており、事前学習した変換モデルの係数データ（パラメータ）を初期値として、追加で個人特化学習を実施する。例えば、変換モデルがＤＮＮで実装される場合、追加で学習を行うことは一般的なことである。情報処理システム１０は、初期値の特性を引き継ぎながら、追加で実施した個人特化学習により、変換モデルをより最適化することができる。

　変換モデルの事前学習は、例えばテレコミュニケーションシステム１をローンチする前に行われる。そのため、情報処理システム１０は、テレプレゼンスを実際には行わずに学習画像を収集し得る。また、情報処理システム１０は、仮想カメラＣ＿Ｖの位置に学習用撮像装置（図示省略）を実際に配置して教師画像を取得し得る。

　また、不特定のユーザＵを対象とした学習を行う場合、情報処理システム１０は、ＣＧ（コンピュータグラフィックス）などを用いて生成した多視点画像を学習用画像として使用し得る。

　情報処理システム１０は、撮像装置３００＿１～３００＿８で撮像した撮像画像Ｐ＿１～Ｐ＿８を生徒画像Ｐ＿Ｓ、学習用撮像装置で撮像した画像を教師画像Ｐ＿Ｔとして、変換モデルの事前学習を行う。

　なお、個人特化学習は、撮像装置３００＿１～３００＿８の配置の対称性を利用した学習である。そのため、上述したように、情報処理システム１０が個人特化学習を追加で行う場合、撮像装置３００＿１～３００＿８で撮像した撮像画像Ｐ＿１～Ｐ＿８全てが、変換モデルに入力されるわけではない。例えば、図９及び図１０の例では、変換モデルには１又は２つの撮像画像Ｐが入力される。個人特化学習では、変換モデルに黒信号など無効データが入力され得る。

　そのため、情報処理システム１０は、事前学習において、無効データの入力を許容する変換モデルを学習する。情報処理システム１０は、一部の入力データが無効データである追加学習が行われることを想定した事前学習を行う。

　すなわち、情報処理システム１０は、入力データの一部として無効データが入力された場合に、無効データは無視し、有効な入力データ（例えば、生徒画像）から視点変換を行う変換モデルを予め学習しておく。

　具体的には、情報処理システム１０は、事前学習時に、撮像画像Ｐ＿１～Ｐ＿８の中から撮像画像Ｐをランダムに選択する。情報処理システム１０は、選択した撮像画像Ｐを無効データに変更して視点変換の学習を行う。

　情報処理システム１０は、ランダムに選択する撮像画像Ｐの数を確率的な手段を用いて決定し得る。情報処理システム１０は、選択する撮像画像Ｐの数として、「０」から「７」の間の数を正規分布に従って決定し得る。

　情報処理装置１００が比較的少数のサンプルで効率よく追加学習を行うためには、変換モデルが無効な黒信号が入力された場合であっても変換画像Ｐ＿Ｖを生成する能力を予め有していることが望ましい。情報処理システム１０は、追加学習時に無効データが入力されることを予め想定して事前学習を行う。これにより、情報処理システム１０は、この能力を予め有する予測モデルを、追加学習前に得ることができる。

　情報処理システム１０は、変換モデルの事前学習を行うことで、撮像装置３００＿１～３００＿８全ての視点間の相関を活用しながら、精度の高い非個人特化の視点変換を行い得る。

　このように、変換モデルの事前学習では、全ての視点間の相関が活用される。そのため、一般的に、視点数が多い、すなわち、撮像装置３００が多いほど、情報処理システム１０は、より精度の高い事前学習を行い得る。また、上述したように、情報処理システム１０は、入力データの一部として無効データを受け付ける予測モデルを事前に学習し得る。

　個人特化学習を行う場合、情報処理システム１０は、事前学習で得られた変換モデルの係数を初期係数として、個人特化学習を実行する。例えば、予測モデルがＤＮＮで実装されているのであれば、情報処理システム１０は、誤差逆伝搬を追加で行うことで、係数を微小変化させて学習を行う。

　上述したように、情報処理システム１０は、撮像装置３００の配置の対称性を利用して個人特化学習を行う。そのため、情報処理システム１０は、多くの入力画像として無効データを予測モデルに入力し得る（図８参照）。

　図８の例では、情報処理システム１０は、撮像画像Ｐ＿２として生徒画像Ｐ＿Ｓ（撮像画像Ｐ＿１）を予測モデルに入力するが、それ以外の撮像画像Ｐ＿１、Ｐ＿３～Ｐ＿８として、例えば黒信号などの無効データを入力する。

　この場合、情報処理システム１０は、撮像画像Ｐ＿１～Ｐ８の全視点間の相関ではなく、撮像画像Ｐ＿１を活用した視点変換を行えるように、変換モデルの係数を微小変化させる個人特化学習を行う。

　例えば、情報処理システム１０が、撮像画像Ｐ＿２、Ｐ＿４を生徒画像Ｐ＿Ｓとし、撮像画像Ｐ＿１を教師画像Ｐ＿Ｔとする。この場合、情報処理システム１０は、撮像画像Ｐ＿５、Ｐ＿７として生徒画像Ｐ＿Ｓ（撮像画像Ｐ＿２、Ｐ＿４）を入力し、撮像画像Ｐ＿１～Ｐ＿４、Ｐ＿６、Ｐ＿８として例えば黒信号などの無効データを入力する。

　この場合、情報処理システム１０は、撮像画像Ｐ＿１～Ｐ８の全視点間の相関ではなく、撮像画像Ｐ＿５、Ｐ＿７の視点間の相関を活用した視点変換を行えるように、変換モデルの係数を微小変化させる個人特化学習を行う。

　このように、情報処理システム１０がオンラインで個人に特化した視点変換を学習するとする。この場合、情報処理システム１０は、撮像装置３００＿１～３００＿８全ての視点間の相関を利用するのではなく、特定の撮像装置３００（入力撮像装置Ｃ＿Ｉ）の視点相関を利用して学習を行うことになる。

　上述したように、オンラインでの個人特化学習は、事前学習した予測モデルの係数を初期係数として行われる。そのため、情報処理システム１０が特定の撮像装置３００の視点相関を利用して学習を行ったとしても、予測モデルが事前学習で獲得した全視点間の相関を活用した視点変換を全て忘却するとは限らない。

　また、情報処理システム１０は、予測モデルが全視点間の相関を活用した視点変換を忘却しないような工夫を加えて、個人特化学習を行い得る。例えば、情報処理システム１０は、個人特化学習を行う場合でも、事前学習相当の、全視点間の相関を活用する学習を時折挿入し得る。

　このように、情報処理システム１０は、全視点間の相関を利用した学習を維持しつつ、個人特化学習による予測モデルの性能向上を行うことができる。

　実際の運用の際には、情報処理システム１０は、変換モデルに全ての撮像画像Ｐ＿１～Ｐ８を入力する。理想的には、個人特化学習を行った変換モデルは、全ての撮像画像Ｐ＿１～Ｐ８を利用しながら、個人特化した性能を発揮し得る。

　上述したように、一般的に、変換モデルは視点数が多い方がより精度の高い視点変換を行い得るという性質を有する。この性質は、個人特化学習後も予測モデルに引き継がれ得る。そのため、予測モデルは、情報処理システム１０が有する撮像装置３００の台数が多い程より高い画質で視点変換を行える可能性がある。そのため、情報処理システム１０が、より多くの撮像装置３００を備えるようにしてもよい。

＜＜２．情報処理システムの構成例＞＞
　図１２は、本開示の実施形態に係る情報処理システム１０の構成例を示すブロック図である。図１２に示す情報処理システム１０は、情報処理装置１００と、出力装置２００と、複数の撮像装置３００＿１～３００＿８と、を備える。

［出力装置２００］
　出力装置２００は、情報処理システム１０を使用するユーザＵに誘導情報を提示するなど、ユーザＵに対して視覚的又は聴覚的に情報を通知する装置である。出力装置２００は、ディスプレイ２１０と、スピーカ２２０と、を備える。

（ディスプレイ２１０）
　ディスプレイ２１０は、例えば、ＬＣＤ（Liquid　Crystal　Display）、有機ＥＬ（Electro　Luminescence）ディスプレイ等の表示装置である。ディスプレイ２１０は、誘導情報やテレコミュニケーションの相手など、各種情報を表示する。

（スピーカ２２０）
　スピーカ２２０は、ユーザＵに音情報を通知する音響出力装置である。スピーカ２２０は、誘導情報やテレコミュニケーションの相手の音声などの音情報を出力する。

　なお、出力装置２００は、ディスプレイ２１０及びスピーカ２２０以外の装置を備え得る。出力装置２００は、例えば、ＬＥＤ（Light　Emitting　Diode）ランプ等の点灯装置やブザーのような音響出力装置を備え得る。

　例えば、出力装置２００は、教師撮像装置Ｃ＿Ｔとして選択された撮像装置３００の近傍に配置されるＬＥＤランプを点灯させることで、ユーザＵを教師撮像装置Ｃ＿Ｔの方に誘導するようにしてもよい。

［撮像装置３００］
　撮像装置３００は、例えば、ＣＣＤ（Charge　Coupled　Device）イメージセンサやＣＭＯＳ（Complementary　Metal　Oxide　Semiconductor）イメージセンサ等の撮像素子を有するカメラである。撮像装置３００は、例えばディスプレイ２１０の周囲に配置される（図４参照）。撮像装置３００は、撮像画像Ｐを生成する。

　なお、複数の撮像装置３００＿１～３００＿８に対して、ディスプレイ２１０や各撮像装置３００間の相対位置に関するキャリブレーションが行われているものとする。

　また、情報処理システム１０は、撮像装置３００以外のセンサ、例えば、マイクロフォンや測距センサなど各種センサを備え得る。情報処理システム１０は、キーボードやマウス、タッチパネルなどの入力装置を備え得る。

［情報処理装置１００］
　図１２に示す情報処理装置１００は、通信部１１０と、記憶部１２０と、制御部１３０と、を備える。情報処理装置１００は、出力装置２００を制御して、各種情報をユーザＵに通知する。情報処理装置１００は、撮像画像Ｐを取得するよう撮像装置３００を制御する。

（通信部１１０）
　通信部１１０は、有線または無線により、ネットワークを介して外部装置（例えば、他の情報処理装置１００）と通信する通信インターフェイスである。図１２に示す通信部１１０は、例えば、ＮＩＣ（Network　Interface　Card）等によって実現される。通信部１１０は、情報処理装置１００の通信手段として機能する。

（記憶部１２０）
　記憶部１２０は、ＤＲＡＭ、ＳＲＡＭ、フラッシュメモリ、ハードディスク等のデータ読み書き可能な記憶装置である。記憶部１２０は、情報処理装置１００の記憶手段として機能する。

（制御部１３０）
　制御部１３０は、情報処理装置１００の各部を制御する。制御部１３０は、例えば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）、ＧＰＵ（Graphics　Processing　Unit）等によって情報処理装置１００内部に記憶されたプログラムがＲＡＭ（Random　Access　Memory）等を作業領域として実行されることにより実現される。また、制御部１３０は、例えば、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現される。

　制御部１３０は、管理部１３１と、学習制御部１３２と、変換部１３３と、推定部１３４と、ＵＩ制御部１３５と、を備える。制御部１３０を構成する各ブロック（管理部１３１～ＵＩ制御部１３５）はそれぞれ制御部１３０の機能を示す機能ブロックである。これら機能ブロックはソフトウェアブロックであってもよいし、ハードウェアブロックであってもよい。例えば、上述の機能ブロックが、それぞれ、ソフトウェア（マイクロプログラムを含む。）で実現される１つのソフトウェアモジュールであってもよいし、半導体チップ（ダイ）上の１つの回路ブロックであってもよい。勿論、各機能ブロックがそれぞれ１つのプロセッサ又は１つの集積回路であってもよい。制御部１３０は上述の機能ブロックとは異なる機能単位で構成されていてもよい。機能ブロックの構成方法は任意である。

　なお、制御部１３０は上述の機能ブロックとは異なる機能単位で構成されていてもよい。また、制御部１３０を構成する各ブロック（管理部１３１～ＵＩ制御部１３５）の一部又は全部の動作を、他の装置が行ってもよい。例えば、制御部１３０を構成する各ブロックの一部又は全部の動作を、クラウドコンピューティングにより実現される制御装置が行ってもよい。

（管理部１３１）
　管理部１３１は、学習制御部１３２が行う個人特化学習に使用する学習データの取得を管理する。管理部１３１は、例えば学習制御部１３２からの要求に応じて、学習データを取得する。管理部１３１は、学習データ取得のための計画を生成する。管理部１３１は、計画に従ってユーザＵを誘導し、学習データを生成する。管理部１３１は、学習データを学習制御部１３２に通知する。

（学習制御部１３２）
　学習制御部１３２は、個人特化学習の計画を生成し、管理部１３１が取得した学習データを用いて計画を実行する。学習制御部１３２は、個人特化学習の結果を検証する。学習制御部１３２は、学習後の変換モデルが所望の視点変換精度を満たすか否かを検証する。

（変換部１３３）
　変換部１３３は、変換モデルを用いて、撮像画像Ｐから変換画像Ｐ＿Ｖを生成する。変換部１３３は、撮像画像Ｐの視点を仮想カメラＣ＿Ｖから見た視点に変換した変換画像Ｐ＿Ｖを生成する。変換部１３３は、学習制御部１３２が学習した変換モデルを用いて撮像画像Ｐの視点を仮想カメラＣ＿Ｖから見た視点に変換する。

（推定部１３４）
　推定部１３４は、撮像画像Ｐを用いてユーザＵの顔状態を推定する。推定部１３４は、ユーザＵの顔状態として、例えば、顔の位置や表情、頭の向き（ヘッドポーズ）を推定する。推定部１３４は、例えば、管理部１３１からの指示に応じてユーザＵの顔状態を推定し、推定した顔状態を顔情報として管理部１３１に通知する。

（ＵＩ制御部１３５）
　ＵＩ制御部１３５は、管理部１３１からの指示に応じて、表示情報を生成する。表示情報は、例えば、出力装置２００から出力される。表示情報には、例えば、ユーザＵを誘導する誘導情報が含まれる。

［管理部１３１の詳細］
　管理部１３１は、個人特化学習を行う際に使用する学習データの取得方法に関する計画を立てる。この計画には、個人特化学習に使用する撮像装置３００の組み合わせに関する情報が含まれる。管理部１３１は、撮像装置３００の位置情報に基づき、撮像装置３００の配置の対称性を考慮して、個人特化学習に使用する撮像装置３００の組み合わせを選択する。

　管理部１３１は、作成した計画に従って学習データを取得する。管理部１３１は、計画に基づき、教師撮像装置Ｃ＿Ｔを選択する。管理部１３１は、選択した教師撮像装置Ｃ＿Ｔと正対するようユーザＵを誘導する。管理部１３１は、例えば、推定部１３４が推定するユーザＵの顔状態、及び、教師撮像装置Ｃ＿Ｔに応じてユーザＵの誘導目標を決定する。管理部１３１は、決定した誘導目標に従ってユーザＵを誘導するためのＵＩを作成するようＵＩ制御部１３５に指示する。

　管理部１３１は、推定部１３４が推定するユーザＵの顔状態に基づき、ユーザＵが誘導目標まで移動したか否かを判定する。管理部１３１は、ユーザＵが誘導目標まで移動した場合に、学習データを取得する。管理部１３１は、取得した学習データを学習制御部１３２に出力する。管理部１３１は、学習制御部１３２から学習データの取得要求を受け取った場合、学習データの取得方法に関する計画を更新し、学習データを新たに取得する。

　図１３は、本開示の実施形態に係る管理部１３１の構成例を示すブロック図である。図１３に示すように、管理部１３１は、作成制御部１３１１と、誘導制御部１３１２と、データ生成部１３１３と、を備える。

（作成制御部１３１１）
　作成制御部１３１１は、学習データ取得計画を作成する。作成制御部１３１１は、例えば記憶部１２０から撮像装置３００の配置や位置に関する情報（以下、カメラ情報と記載する）を取得する。

　なお、カメラ情報は、例えばディスプレイ２１０における撮像装置３００の位置や、撮像装置３００の相対的な位置関係などを示す情報であり、予め記憶部１２０に記憶される。あるいは、作成制御部１３１１は、例えば撮像装置３００や外部装置からカメラ情報を取得してもよい。

　作成制御部１３１１は、カメラ情報を考慮して、個人特化学習に使用する撮像装置３００の組み合わせ（以下、単に組み合わせとも記載する）を少なくとも１つ選択することで、学習データ取得計画を作成する。

　作成制御部１３１１は、選択した組み合わせごとに、取得する学習データの撮像シーンや長さ（尺）を選択する。作成制御部１３１１は、撮像シーンとして、ユーザＵのヘッドポーズや表情を選択する。作成制御部１３１１は、例えば取得する撮像画像Ｐの数（フレーム数）を長さとして選択する。作成制御部１３１１は、取得する学習データの順番を選択する。

　図１４は、本開示の実施形態に係る学習データ取得計画の一例を示す図である。図１４では、スタートからエンドにむかって順次実行される学習データ取得計画が示される。作成制御部１３１１は、図９及び図１０に示す２８通りの組み合わせの中から、学習データを使用する順に複数の組み合わせを選択する。

　図１４の例では、作成制御部１３１１は、まず組み合わせ番号＃１３の組み合わせを選択し、次に組み合わせ番号＃１６の組み合わせを選択する。

　例えば、作成制御部１３１１は、撮像装置３００＿２、３００＿４を生徒撮像装置Ｃ＿Ｓ、撮像装置３００＿５、３００＿７を入力撮像装置Ｃ＿Ｉ、撮像装置３００＿１を教師撮像装置Ｃ＿Ｔとする組み合わせを、組み合わせ番号＃１３の組み合わせとして選択する。

　例えば、作成制御部１３１１は、撮像装置３００＿５、３００＿７を生徒撮像装置Ｃ＿Ｓ、撮像装置３００＿２、３００＿４を入力撮像装置Ｃ＿Ｉ、撮像装置３００＿８を教師撮像装置Ｃ＿Ｔとする組み合わせを、組み合わせ番号＃１６の組み合わせとして選択する。

　作成制御部１３１１は、組み合わせごとに少なくとも１つのヘッドポーズを選択する。図１５は、本開示の実施形態に係るヘッドポーズの一例を示す図表である。

　図１５に示すように、ヘッドポーズには、ユーザＵの頭の向きが異なる複数のポーズが含まれる。図１５の例では、ヘッドポーズには、ポーズ１～ポーズ５の５つのヘッドポーズが含まれる。

　例えば、ポーズ１は、ユーザＵが正面を向いたヘッドポーズである。ポーズ２は、ユーザＵが図中右斜めを向いたヘッドポーズである。ポーズ３は、ユーザＵが図中左斜めを向いたヘッドポーズである。ポーズ４は、ユーザＵが図中右側に頭を傾げたヘッドポーズである。ポーズ５は、ユーザＵが図中左側に頭を傾げたヘッドポーズである。

　なお、ここでは、ヘッドポーズが５つある場合について示したが、ヘッドポーズの数は４つ以下であっても６つ以上であってもよい。ユーザＵが後ろを向くポーズなど、図１５に示したポーズ１～５以外のポーズがヘッドポーズに含まれていてもよい。

　作成制御部１３１１は、複数のヘッドポーズの中から少なくとも１つのポーズを選択して、学習データ取得計画を生成する。

　図１４の例では、作成制御部１３１１は、組み合わせ番号＃１３の組み合わせを選択時に実行するヘッドポーズとして、順にポーズ１、２、３を選択する。作成制御部１３１１は、組み合わせ番号＃１６の組み合わせを選択時に実行するヘッドポーズとして、順にポーズ４、５、１を選択する。

　ここでは、作成制御部１３１１は、１つの組み合わせに対して３つのヘッドポーズを選択するが、作成制御部１３１１が選択するヘッドポーズの数はこれに限定されない。作成制御部１３１１が、１つの組み合わせに対して２つ以下のヘッドポーズを選択してもよく、４つ以上のヘッドポーズを選択してもよい。

　作成制御部１３１１は、ヘッドポーズごとに少なくとも１つの表情を選択する。図１６は、本開示の実施形態に係る表情の一例を示す図表である。

　図１６に示すように、表情には、複数の表情１、２、３、・・・が含まれる。例えば、表情１は、「喜」を示す表情である。表情１が選択された場合、情報処理装置１００は、ユーザＵに対して喜んだ表情を行うように誘導する。表情５は「無表情」である。表情６は、指定文１を発話した時の表情である。このように、表情には、感情を表す表情以外にも、特定の動作（例えば、発話）を行った時の表情が含まれ得る。

　なお、ここでは、表情が７つ以上ある場合について示したが、表情の数は６つ以下であってもよい。

　作成制御部１３１１は、複数の表情の中から少なくとも１つの表情を選択して、学習データ取得計画を生成する。

　図１４の例では、作成制御部１３１１は、組み合わせ番号＃１３の組み合わせを選択時にヘッドポーズとしてポーズ１が選択される場合、表情として順に表情１、２を選択する。作成制御部１３１１は、組み合わせ番号＃１６の組み合わせを選択時にヘッドポーズとしてポーズ４が選択される場合、表情として順に表情３、４、２を選択する。

　図１４では、作成制御部１３１１は、１つのヘッドポーズに対して２～４つの表情を選択するが、作成制御部１３１１が選択する表情の数はこれに限定されない。作成制御部１３１１が、１つのヘッドポーズに対して１つの表情を選択してもよく、５つ以上の表情を選択してもよい。

　作成制御部１３１１は、表情ごとに撮像画像Ｐを取得する長さ（フレーム数）を選択する。作成制御部１３１１は、組み合わせ番号＃１３の組み合わせ、ポーズ１のヘッドポーズ、及び、表情１を選択した場合、６０フレームの撮像画像Ｐを取得すると決定する。作成制御部１３１１は、組み合わせ番号＃１３の組み合わせ、ポーズ２のヘッドポーズ、及び、表情４を選択した場合、４０フレームの撮像画像Ｐを取得すると決定する。

　このように、作成制御部１３１１は、撮像装置３００の組み合わせやヘッドポーズ、表情、撮像時間などを選択することで、学習データ取得計画を生成する。なお、図１４に示す学習データ取得計画は一例であり、作成制御部１３１１は、既存の手法を用いて種々の計画を作成し得る。情報処理装置１００が、撮像装置３００の配置の対称性を利用して学習データを取得できればよく、学習データ取得計画として、任意の項目、任意の計画が採用され得る。

　作成制御部１３１１は、例えば、いくつかの指針に基づき、学習データ取得計画を作成し得る。例えば、作成制御部１３１１は、なるべく多くの撮像装置３００を利用して、十分な量の個人特化学習ができるように学習データ取得計画を作成する。作成制御部１３１１は、多くの学習データを取得することで、視点変換の性能の最大化を目指す。

　あるいは、作成制御部１３１１が、学習データの取得を最小限に抑えるよう学習データ取得計画を作成するようにしてもよい。この場合、作成制御部１３１１は、ユーザＵへの負荷を抑制しつつ、視点変換の性能をより向上させることができる。

　作成制御部１３１１は、学習制御部１３２から学習データの取得要求を受け取る。取得要求には、取得したい学習データの種別、例えば、撮像装置３００の組み合わせ、ヘッドポーズや表情などが指定され得る。

　取得要求を受けると、作成制御部１３１１は、取得要求に応じた学習データ取得計画を作成する。あるいは、作成制御部１３１１は、既に作成済みの学習データ取得計画を取得要求に応じて更新する。

　次に、作成制御部１３１１は、作成した学習データ取得計画を実行する。作成制御部１３１１は、スタートから順に実行する計画を選択する。

　図１４の例では、作成制御部１３１１は、まず、組み合わせ番号＃１３の組み合わせ、ポーズ１のヘッドポーズ、及び、表情１において６０フレームの撮像画像Ｐを取得すると決定する。以下、組み合わせ番号＃１３の組み合わせ、ポーズ１のヘッドポーズ、及び、表情１において６０フレームの撮像画像Ｐを取得する計画を学習データ取得計画の第１のシーンとも記載する。

　この場合、作成制御部１３１１は、撮像装置３００＿２、３００＿４を生徒撮像装置Ｃ＿Ｓ、撮像装置３００＿５、３００＿７を入力撮像装置Ｃ＿Ｉ、撮像装置３００＿１を教師撮像装置Ｃ＿Ｔとする。

　作成制御部１３１１は、誘導目標を「ユーザＵが撮像装置３００＿１と正対し、ポーズ１のヘッドポーズで、表情１の表情をすること」に設定する。作成制御部１３１１は、設定した誘導目標を誘導制御部１３１２に通知する。なお、作成制御部１３１１は、誘導目標に加えて、カメラ情報を誘導制御部１３１２に通知するようにしてもよい。

　作成制御部１３１１は、要求仕様をデータ生成部１３１３に通知する。要求仕様は、第１のシーンで学習データを取得するときの撮像装置３００の組み合わせに関する情報及び第１のシーンの長さ（図１４の例では６０フレーム）を含む。要求仕様に、ヘッドポーズや表情などの情報が含まれ得る。これらの情報は、学習制御部１３２で使用され得る。

　図１３に示すように、作成制御部１３１１は、推定部１３４に注目カメラＩＤを通知する。注目カメラは、情報処理装置１００が、ユーザＵに正対するよう誘導する撮像装置３００のことである。第１のシーンの場合、情報処理装置１００は、ユーザＵに対して撮像装置３００＿１と正対するよう誘導する。この場合、注目カメラは撮像装置３００＿１となる。

　作成制御部１３１１は、注目カメラＩＤとして撮像装置３００＿１を示す情報を推定部１３４に通知する。

　上述したように、推定部１３４は、ユーザＵの顔状態を推定する。情報処理装置１００が撮像装置３００＿１に正対するようユーザＵを誘導して第１のシーンを実行する場合、情報処理装置１００は、ユーザＵが撮像装置３００＿１の前に移動して所望のヘッドポーズや表情を行っていることを確認してから学習データを取得する。

　そのため、推定部１３４は、撮像装置３００＿１の撮像画像Ｐ＿１からユーザＵの顔状態を推定すれば十分である。作成制御部１３１１が注目カメラＩＤを推定部１３４に通知することで、推定部１３４は、どの撮像装置３００に基づいて顔状態を推定すればよいかを認識できる。これにより、情報処理装置１００は、推定部１３４による顔状態推定の処理負荷をより低減することができる。

（誘導制御部１３１２）
　図１３の誘導制御部１３１２は、作成制御部１３１１から誘導目標を受け取り、推定部１３４から顔状態に関する情報を受け取る。誘導制御部１３１２は、誘導目標及び顔状態に基づいて誘導指示を生成する。誘導制御部１３１２は、誘導指示をＵＩ制御部１３５に通知する。

　誘導制御部１３１２は、ユーザＵの顔状態が、誘導目標に近づくように誘導指示を生成する。なお、ユーザＵの顔状態に関する情報（以下、顔情報とも記載する）は、現時刻のユーザＵの顔の状態を示す情報である。

　顔情報は、学習データ取得計画の各項目が満たされるか否かを、誘導制御部１３１２が判断するために十分なものとして定義され得る。例えば、図１４の学習データ取得計画では、顔情報に、ユーザＵの顔位置に関する情報、ヘッドポーズの推定結果に関する情報、及び、表情の推定結果に関する情報が含まれる。

　なお、顔情報に含まれる情報は、上述した例に限定されない。顔情報に含まれる情報は、学習データ取得計画の項目に応じて適宜設定され得る。

（顔位置情報）
　ユーザＵの顔位置に関する情報（以下、顔位置情報とも記載する）は、ユーザＵを所望の撮像装置３００の位置まで誘導するために使用される。誘導制御部１３１２は、所望の撮像装置３００の位置と、現在のユーザＵの顔位置と、を比較することで、所望の撮像装置３００に正対するようユーザＵを誘導するための誘導指示を生成する。

　当該誘導指示には、誘導先に関する情報が含まれる。例えば、ＵＩ制御部１３５が、ユーザＵの顔を誘導したい位置に四角の枠を表示させることで、ユーザＵを誘導するとする。このとき、誘導制御部１３１２は、四角の枠の位置やサイズに関する情報を誘導指示に含め得る。

　また、誘導制御部１３１２は、誘導指示に現在のユーザＵの顔位置情報を含め得る。これにより、ＵＩ制御部１３５は、現在のユーザＵの顔位置から誘導先の位置（上述した四角の枠）まで誘導するようなビジュアル表現をＵＩとして表示させることができる。

　誘導指示は上述した誘導先に関する情報に限定されない。誘導指示は、ユーザＵを誘導する方向及び移動量に関する情報であってもよい。また、誘導指示には、さらに注目カメラＩＤが含まれ得る。

　なお、誘導制御部１３１２は、例えば、撮像装置３００の位置情報（カメラ情報）を作成制御部１３１１から取得する。あるいは、誘導制御部１３１２は、記憶部１２０からカメラ情報を取得するようにしてもよい。なお、撮像装置３００の位置情報の座標系、及び、顔位置情報の座標系は統一されているものとする。あるいは、誘導制御部１３１２は、撮像装置３００の位置とユーザＵの顔位置との比較を行う際に、両方の位置を同一座標系に射影して比較を行うものとする。

（ヘッドポーズ情報）
　ユーザＵのヘッドポーズの推定結果に関する情報（以下、ヘッドポーズ情報とも記載する）は、ユーザＵに対して所望のヘッドポーズを取るよう誘導するために使用される。

　誘導制御部１３１２は、所望のヘッドポーズと現在のヘッドポーズ情報とを比較することで、所望のヘッドポーズを取るようユーザＵを誘導するための誘導指示を生成する。誘導制御部１３１２は、ユーザＵが所望のヘッドポーズを取っていない場合、所望のヘッドポーズを指定する情報を誘導指示としてＵＩ制御部１３５に通知する。また、誘導制御部１３１２は、ユーザＵが所望のヘッドポーズを取っている場合、その旨をＵＩ制御部１３５に通知し得る。

（表情情報）
　ユーザＵの表情の推定結果に関する情報（以下、表情情報とも記載する）は、ユーザＵに対して所望の表情をするよう誘導するために使用される。

　誘導制御部１３１２は、所望の表情と現在の表情情報とを比較することで、所望の表情をするようユーザＵを誘導するための誘導指示を生成する。誘導制御部１３１２は、ユーザＵが所望の表情でない場合、所望の表情を指定する情報を誘導指示としてＵＩ制御部１３５に通知する。また、誘導制御部１３１２は、ユーザＵが所望の表情である場合、その旨をＵＩ制御部１３５に通知し得る。

　なお、誘導制御部１３１２は、誘導する全ての項目をまとめてユーザＵに提示することで、全ての項目をまとめてユーザＵを誘導し得る。あるいは、誘導制御部１３１２は、誘導する複数の項目を１つずつ順にユーザＵに提示することで、順次ユーザＵを誘導するようにしてもよい。例えば、誘導制御部１３１２は、まずユーザＵの位置を誘導し、次にヘッドポーズを誘導し、最後に表情を誘導するようにしてもよい。

　誘導制御部１３１２によるユーザＵの誘導の仕方には自由度がある。誘導制御部１３１２は、ユーザＵの誘導の仕方を学習データ取得計画のサブ計画として作成し得る。あるいは、作成制御部１３１１がサブ計画を作成し、誘導目標に含めて誘導制御部１３１２に通知するようにしてもよい。

（誘導状況）
　また、誘導制御部１３１２は、現在のユーザＵの状況を誘導状況として作成制御部１３１１に通知する。誘導制御部１３１２は、推定部１３４から取得した顔状況に関する情報に基づき、顔位置情報、ヘッドポーズ情報、及び、表情情報を含む誘導状況を生成する。誘導制御部１３１２は、誘導状況をデータ生成部１３１３に通知する。誘導制御部１３１２は、誘導状況をＵＩ制御部１３５に通知するようにしても良い。ＵＩ制御部１３５は、誘導状況を使用してユーザＵに提示するＵＩを生成し得る。

（データ生成部）
　データ生成部１３１３は、作成制御部１３１１から要求仕様を取得する。上述したように、要求仕様には、学習データを取得するときの撮像装置３００の組み合わせに関する情報及び学習データを取得する期間（長さ。例えばフレーム数）が含まれる。

　また、データ生成部１３１３は、撮像装置３００の撮像画像Ｐを取得する。データ生成部１３１３は、どの撮像装置３００がどの撮像画像Ｐを撮像したか対応付けて、撮像画像Ｐを取得する。

　データ生成部１３１３は、誘導制御部１３１２から誘導状況を取得する。データ生成部１３１３は、ユーザＵの状態が誘導目標を満たしている場合、取得した撮像画像Ｐから要求仕様を満たす学習データを生成する。

　例えば、学習データ取得計画の第１のシーンが実行される場合、データ生成部１３１３は、取得した撮像画像Ｐのうち、撮像画像Ｐ＿２、Ｐ＿４を生徒画像Ｐ＿Ｓ、撮像画像Ｐ＿１を教師画像Ｐ＿Ｔとし、各撮像画像Ｐを６０フレーム分取得する。

　データ生成部１３１３は、取得した各撮像画像Ｐを第１のシーンにおける学習データとして、学習制御部１３２に出力する。データ生成部１３１３は、取得した撮像画像Ｐが生徒画像Ｐ＿Ｓであるか教師画像Ｐ＿Ｔであるかを示す画像種別情報や撮像装置３００を識別するカメラＩＤ情報など、個人特化学習に使用され得る情報を、学習データに含めて学習制御部１３２に通知し得る。なお、学習データのデータフォーマットは任意であり、既存のデータフォーマットが採用され得る。

　データ生成部１３１３は、撮像装置３００の組み合わせに関する情報やヘッドポーズ、表情に関する情報を学習データに紐付けて学習制御部１３２に通知し得る。これらの情報は、学習制御部１３２で行われる個人特化学習で使用され得る。

　なお、複数の撮像装置３００＿１～３００＿８は、予めキャリブレーションが行われ、撮像タイミング等の同期が取れているものとする。

　データ生成部１３１３は、取得要求で要求された長さの学習データの生成が完了すると、データ作成状況として完了した旨を作成制御部１３１１に通知する。

　なお、データ生成部１３１３が学習データを取得している最中に、データ取得に失敗した場合、それまでに作成した学習データを一度破棄してから再度データ取得を行う。

　例えば、学習データ取得中にユーザＵが移動することで、ユーザＵの状態が誘導目標からずれてしまったとする。この場合、誘導状況が誘導目標を満たす状態から満たさない状態に変化する。この場合、データ生成部１３１３は、作成した学習データを破棄し、ユーザＵの状態が誘導目標を満たすまで待ってから再度学習データを取得する。

　なお、誘導状況が誘導目標を満たすか否かの判定は、データ生成部１３１３が行ってもよく、誘導制御部１３１２が行ってもよい。誘導制御部１３１２がユーザＵの状態が誘導目標を満たすか否かを判定する場合、誘導制御部１３１２が判定結果を誘導状況としてデータ生成部１３１３に通知するようにしてもよい。

　上述したように、データ生成部１３１３は、学習データ取得計画の１シーンでの学習データ生成が完了すると、その旨をデータ作成状況として作成制御部１３１１に通知する。

　データ作成状況を受け取った作成制御部１３１１は、学習データ取得計画を次のシーンに進め、誘導制御部１３１２にユーザＵを誘導するよう指示し、データ生成部１３１３に学習データを生成するよう指示する。

　例えば、管理部１３１が第１のシーンとして、組み合わせ番号＃１３の組み合わせ、ポーズ１のヘッドポーズ、及び、表情１において６０フレームの撮像画像Ｐを取得する計画を完了したとする。この場合、作成制御部１３１１は、第２のシーンとして組み合わせ番号＃１３の組み合わせ、ポーズ１のヘッドポーズ、及び、表情２において６０フレームの撮像画像Ｐを取得する計画を実行する。

　作成制御部１３１１は、学習データ取得計画の全てのシーンが完了するまで順次各シーンを実行する。作成制御部１３１１は、最後のシーンを実行する場合、その旨を要求仕様に含めてデータ生成部１３１３に通知し得る。最後のシーンである旨の要求仕様を受け取ったデータ生成部１３１３は、生成した学習データが計画の最後のデータであることを示す情報を、学習データに紐付けて学習制御部１３２に出力し得る。

［学習制御部１３２の詳細］
　学習制御部１３２は、管理部１３１から学習データを取得し、学習データを管理する機能を有する。学習制御部１３２は、個人特化学習を計画して実行し、係数データを更新する機能を有する。学習制御部１３２は、個人特化学習に不足がある場合には、追加の学習データの取得を要求する取得要求を管理部１３１に通知する機能を有する。

　図１７は、本開示の実施形態に係る学習制御部１３２の構成例を示すブロック図である。図１７に示すように、学習制御部１３２は、データ管理部１３２１と、計画制御部１３２２と、学習実行部１３２３と、を備える。

（データ管理部１３２１）
　データ管理部１３２１は、管理部１３１から学習データを取得し、学習データを管理する。データ管理部１３２１は、学習データを取得すると、取得した学習データを記憶部１２０に追加する。あるいは、データ管理部１３２１は、学習データを保持するデータベース（図示省略）に学習データを追加するようにしてもよい。

　データ管理部１３２１は、学習データに含まれる撮像画像Ｐを、カメラＩＤ情報、組み合わせ、ヘッドポーズ、表情、及び、取得フレーム数などの属性情報と紐付けて管理する。

　記憶部１２０が記憶する学習データが更新された場合、データ管理部１３２１は、データ管理状況を計画制御部１３２２に通知する。データ管理状況には、例えば、データ管理部１３２１が管理する学習データのリストファイルなどが含まれる。

　管理部１３１から取得した学習データが学習データ取得計画の最後に生成された学習データである場合、データ管理部１３２１は、最後の学習データである旨を示す情報（以下、取得完了通知とも記載する）を含むデータ管理状況を計画制御部１３２２に通知する。

　また、データ管理部１３２１は、計画制御部１３２２から学習データを要求するデータ要求の通知を受けた場合、データ要求に従って、記憶部１２０に記憶した学習データを取得する。

　データ管理部１３２１は、例えば、取得した学習データの一部を学習に使用する学習用データとし、残りを検証に使用する検証用データとすることで、学習用データ及び検証用データを生成し得る。データ管理部１３２１は、例えば、所定のフォーマットの学習用データ及び検証用データを生成する。

　データ管理部１３２１は、学習用データ、及び、検証用データを学習実行部１３２３に出力する。

（計画制御部１３２２）
　計画制御部１３２２は、個人特化学習を計画し、個人特化学習を制御する。具体的に、計画制御部１３２２は、データ管理部１３２１から取得したデータ管理状況、及び、学習実行部１３２３から取得した検証結果を参照し、データ管理部１３２１に対して学習用データの取得要求を通知する。計画制御部１３２２は、取得した学習用データを用いた個人特化学習を指示する学習指示、及び、学習結果得られた係数データの更新を指示する更新指示の少なくとも１つを実行するよう、学習実行部１３２３に通知する。

　また、計画制御部１３２２は、データ管理部１３２１から取得したデータ管理状況、及び、学習実行部１３２３から取得した検証結果を参照し、追加の学習データの取得要求を管理部１３１に通知する。

（第１の学習計画）
　例えば、管理部１３１が生成する学習データの総量が事前に定められている場合、計画制御部１３２２は、第１の学習計画を実行する。なお、生成する学習データの総量が事前に定められているという情報は、管理部１３１及び学習制御部１３２の両方で共有されているものとする。

　計画制御部１３２２は、例えば、データ管理状況を参照しながら、データ管理部１３２１が全ての学習データを取得した時点で、データ管理部１３２１に対してデータ要求を通知する。このとき、計画制御部１３２２は、例えば、データ管理部１３２１が取得した全ての学習データを、学習用データ及び検証用データに振り分けて要求する。

　計画制御部１３２２は、学習用データを含む学習指示、及び、検証用データを含む検証指示を学習実行部１３２３に通知する。計画制御部１３２２は、学習指示及び検証指示を学習実行部１３２３に同時に通知してもよい。計画制御部１３２２は、学習実行部１３２３に学習指示を通知し、学習実行部１３２３による個人特化学習の終了後に検証指示を通知するようにしてもよい。

　計画制御部１３２２は、適切な個人特化学習に関するパラメータ（例えば、ハイパーパラメータ）を添えて学習指示を学習実行部１３２３に通知する。パラメータは、機械学習の方式に応じて異なる。機械学習がＤＮＮである場合のパラメータとして、学習率やロス関数の重みなどが挙げられる。

　計画制御部１３２２は、個人特化学習に使用する情報（以下、学習関連情報とも記載する）を例えば通信部１１０を介して外部装置（図示省略）から取得し得る。学習関連情報には、上述した個人特化学習に関するパラメータや変換モデルのネットワーク構成に関する情報などが含まれる。記憶部１２０が学習関連情報の少なくとも一部を予め記憶している場合、計画制御部１３２２は、学習関連情報の少なくとも一部を記憶部１２０から取得し得る。

（第２の学習計画）
　例えば、管理部１３１が生成する学習データの総量が事前に定められていない場合、計画制御部１３２２は、第２の学習計画を実行する。この場合、計画制御部１３２２は、データ管理状況に含まれる取得完了通知によって、管理部１３１が全ての学習データを取得したことを確認する。

　なお、計画制御部１３２２は、学習データの総量が事前に定められていない点を除き、第１の学習計画と同様に第２の学習計画を生成し得る。第２の学習計画のうち、第１の学習計画と同じ内容については説明を省略する。

　第２の学習計画では、管理部１３１は任意のサイズの学習データを取得し得る。そのため、例えば、管理部１３１は、計画制御部１３２２から通知される学習データの取得要求に応じて学習データ取得計画を更新し、学習データを取得することができる。計画制御部１３２２は、学習実行部１３２３による検証結果を参照して学習データの取得要求を管理部１３１に通知する。

　これにより、情報処理装置１００は、第２の学習計画を実行することで、柔軟に学習データ取得計画を変更しながら、効率的に個人特化学習を行うことができる。

　この場合、計画制御部１３２２は、データ管理部１３２１が学習データを全て取得したことを示す取得完了通知を送信する前に、学習指示を学習実行部１３２３に指示することが望ましい。すなわち、学習制御部１３２は、学習データの取得完了を待たずに、ある程度学習データが取得された時点で逐次個人特化学習を行う。

　これにより、学習制御部１３２は、個人特化学習の検証結果に基づき、学習データの取得要求を管理部１３１に通知することができ、管理部１３１は、取得要求に応じて柔軟に学習データ取得計画を更新することができる。

　第２の学習計画では、データ管理部１３２１が所定量の学習データを取得した時点で、計画制御部１３２２は、学習データを学習用データ及び検証用データに振り分けて取得を要求する。なお、第２の学習計画でも、第１の学習計画と同様に、データ管理部１３２１が取得完了通知を計画制御部１３２２に通知した時点で、計画制御部１３２２は、学習用データ及び検証用データを要求し得る。

　計画制御部１３２２は、学習用データ及び検証用データすると、学習指示及び検証指示を学習実行部１３２３に通知する。

　なお、第１の学習計画及び第２の学習計画の両方の計画において、計画制御部１３２２は、学習実施後に行われる性能の評価結果を、検証結果として学習実行部１３２３から取得する。

　計画制御部１３２２は、検証結果が目標に届かない場合、追加で取得すべき、すなわち強化すべき学習データを特定し、学習データの取得要求を管理部１３１に通知する。

　検証結果が十分である場合、計画制御部１３２２は、学習済みの係数データを変換部１３３に通知するよう学習実行部１３２３に指示する。

　また、学習を繰り返しても検証結果が目標に届かない場合、計画制御部１３２２は、個人特化学習を終了する。例えば、計画制御部１３２２は、学習データの取得要求を所定回数行っても検証結果が目標に届かない場合、それ以上の取得要求を行わない。

　この場合、計画制御部１３２２は、それまでに実行した個人特化学習のうち、もっとも性能がよかった学習の係数データを学習済みの係数データとして変換部１３３に通知するよう学習実行部１３２３に指示する。

　そのため、計画制御部１３２２は、係数データと検証結果とを紐付けて管理しておく。計画制御部１３２２は、複数の検証結果を比較し、最も性能が高い検証結果に紐付いた係数データを学習済みの係数データとして変換部１３３に通知する。

　なお、学習実行部１３２３が係数データ及び検証結果の管理を行うようにしてもよい。この場合、計画制御部１３２２は、最も性能が高い検証結果を示す情報（例えば、検証結果に付与した検証ＩＤなど）を学習実行部１３２３に通知する。学習実行部１３２３は、検証ＩＤで指定される検証結果に紐付く係数データを変換部１３３に出力する。

　計画制御部１３２２は、取得要求として、これ以上の学習データの取得を要求しない旨を管理部１３１に通知し得る。例えば、計画制御部１３２２は、検証結果が目標に届いた場合、これ以上の学習データの取得は不要である旨を管理部１３１に通知する。

　管理部１３１は、学習データを取得しているときに、これ以上の学習データの取得は不要である旨を計画制御部１３２２から受け取ると、学習データの取得を終了する。これにより、管理部１３１は、学習データ取得計画を実行中であっても学習データの取得を終了することができる。

　なお、計画制御部１３２２が作成する学習計画は、上述した第１の学習計画及び第２の学習計画に限定されない。計画制御部１３２２は、種々の学習計画を作成し得る。

（学習実行部１３２３）
　学習実行部１３２３は、個人特化学習を実行する。学習実行部１３２３は、学習結果を検証し、係数データを更新する。

（学習）
　学習実行部１３２３は、学習指示を計画制御部１３２２から取得すると、学習用データを用いて個人特化学習を実行する。学習実行部１３２３は、変換部１３３から個人特化学習前の係数データを取得する。個人特化学習前の係数データは、不特定のユーザＵに対応するよう事前に学習された変換モデルの係数データである。

　学習実行部１３２３は、学習用データを用い、個人特化学習に関するパラメータに従って個人特化学習を実行し、係数データを更新する。個人特化学習に関するパラメータは、例えば学習指示に添えて学習実行部１３２３に通知される。

　例えば、撮像装置３００＿２、３００＿４を生徒撮像装置Ｃ＿Ｓ、撮像装置３００＿５、３００＿７を入力撮像装置Ｃ＿Ｉ、撮像装置３００＿１を教師撮像装置Ｃ＿Ｔとして撮像された撮像画像Ｐを学習用データとする場合の個人特化学習について説明する。

　この場合、学習実行部１３２３は、生徒画像Ｐ＿Ｓである撮像画像Ｐ＿２、Ｐ＿４を、撮像画像Ｐ＿５、Ｐ＿７として変換モデルに入力し、出力結果である変換画像Ｐ＿Ｖを得る。なお、撮像画像Ｐ＿５、Ｐ＿７以外の撮像画像Ｐ＿１～Ｐ＿４、Ｐ＿６、Ｐ＿８は、例えば黒信号等の無効な信号として変換モデルに入力される。

　学習実行部１３２３は、変換画像Ｐ＿Ｖが、教師画像Ｐ＿Ｔである撮像画像Ｐ＿１に近づくように係数データを更新する。

（検証）
　学習実行部１３２３は、計画制御部１３２２の検証指示に従って、更新後の係数データを検証する。学習実行部１３２３は、検証用データに対して、更新後の係数データを用いた変換モデルでの視点変換を実行する。学習実行部１３２３は、視点変換後の変換画像Ｐ＿Ｖを用いて視点変換処理結果の性能を評価する。学習実行部１３２３は、評価結果を,検証結果として計画制御部１３２２に通知する。

　検証用データは、学習用データと同等のデータである。検証用データには、教師画像Ｐ＿Ｔ及び生徒画像Ｐ＿Ｓが含まれる。学習実行部１３２３は、検証用データの生徒画像Ｐ＿Ｓに対して視点変換処理を行う。学習実行部１３２３は、検証用データの教師画像Ｐ＿Ｔにどの程度近い処理結果（変換画像Ｐ＿Ｖ）が得られるかを評価する。

　例えば、学習実行部１３２３が、検証用データとして学習データの一部を使用する場合、学習実行部１３２３は、個人特化学習と同様に、生徒画像Ｐ＿Ｓ及び黒信号を変換モデルに入力して変換画像Ｐ＿Ｖを生成する。

　なお、ここでは、検証用データは、管理部１３１が取得した学習データの一部であるとしたが、検証用データはこれに限定されない。検証用データは、事前に取得されたデータであってもよい。この場合、検証用データは、生徒画像Ｐ＿Ｓとして、全ての撮像装置３００＿１～３００＿８で撮像された撮像画像Ｐ＿１～Ｐ＿８を含み得る。検証用データは、教師画像Ｐ＿Ｔとして、ディスプレイ２１０の略中央から学習用撮像装置（図示省略）によって撮像された撮像画像を含み得る。

　この場合、検証用データに含まれるユーザは、個人特化学習で学習するユーザＵとは別の人物であることが想定される。

　そのため、当該検証用データを用いた検証は、個人特化学習によってユーザＵに特化した視点変換処理の検証というより、全撮像装置３００＿１～３００＿８を使用した視点変換処理の検証という側面が大きい。

　この検証により、学習実行部１３２３は、個人特化学習によって、全ての撮像装置３００＿１～３００＿８を用いた視点変換処理の能力が不当に損なわれていないかを検証することができる。

　学習実行部１３２３は、学習データを検証用データとした検証、及び、事前に撮影したデータを検証用データとした検証のいずれか一方を実行してもよく、両方を実行してもよい。両方を実行した場合、学習実行部１３２３は、個人特化学習によって、ユーザＵに特化した視点変換処理が行えるか、及び、全ての撮像装置３００を用いた視点変換処理の能力が不当に損なわれていないか、両方の検証を行うことができる。

　事前に撮影したデータを検証用データとした検証を行う場合、学習実行部１３２３は、管理部１３１が取得した学習データ全てを学習用データとして個人特化学習を行うことができる。これにより、情報処理装置１００は、より効率的に学習用データを取得することができる。

　学習実行部１３２３が上述した検証に用いる評価指標として、例えば、ＰＳＮＲ、ＳＳＩＭ、ＬＰＩＰＳ等が挙げられる。

　学習実行部１３２３は、例えば、学習データ取得計画の項目（カテゴリ）ごとに検証用データを分類し、項目ごとに学習結果の検証を実施するようにしてもよい。例えば、学習実行部１３２３は、撮像装置３００の組み合わせ、ヘッドポーズ、表情など、学習データの付帯情報を用いて、検証用データをカテゴリに分類する。

　学習実行部１３２３がカテゴリごとに検証を実施することで、計画制御部１３２２は、視点変換処理の高精度化に不足している学習データのカテゴリを特定することができる。計画制御部１３２２は、管理部１３１に対して、カテゴリを指定して追加の学習データの取得要求を行う。

　なお、上述したように、学習実行部１３２３は、学習済み係数データと、学習済み係数データを用いた検証結果とを紐付けて管理し得る。また、学習実行部１３２３は、検証ＩＤを検証結果に付して計画制御部１３２２に通知し得る。学習実行部１３２３は、計画制御部１３２２が指示に従い、検証ＩＤに対応する学習済み係数データを変換部１３３に出力する。

　また、学習実行部１３２３は、計画制御部１３２２と同様に、学習関連情報を例えば通信部１１０を介して外部装置から取得し得る。

　上述したように、個人特化学習では、変換モデルの入力として無効信号が使用される。そのため、全ての撮像装置３００を用いた視点変換処理の能力が不当に損なわれる恐れがある。これを避けるために、学習実行部１３２３は、事前に行う不特定のユーザＵを対象とした学習と同様の学習を、個人特化学習に挿入するようにしてもよい。この場合、例えば、記憶部１２０に、事前に行う不特定のユーザＵを対象とした学習に使用する学習データと同様のデータが保存されているものとする。

［変換部１３３の詳細］
　変換部１３３は、撮像装置３００＿１～３００＿８が撮像する撮像画像Ｐ＿１～Ｐ＿８用いて、仮想カメラＣ＿Ｖから撮像したように視点変換を行い、変換画像Ｐ＿Ｖを生成する。

　図１８は、本開示の実施形態に係る変換部１３３の構成例を示すブロック図である。図１８に示すように、変換部１３３は、係数データ管理部１３３１と、視点変換部１３３２と、学習実行部１３２３と、を備える。

（係数データ管理部１３３１）
　係数データ管理部１３３１は、視点変換部１３３２で使用する係数データを管理する。例えば、視点変換部１３３２がＤＮＮを用いて視点変換を行う場合、係数データは、ＤＮＮの重み係数に相当する。

　係数データ管理部１３３１は、複数種類の係数データを管理する。係数データ管理部１３３１は、例えば、事前に学習した不特定のユーザを対象とした学習（以下、不特定対象学習とも記載する）によって学習した係数データ（以下、不特定対象係数とも記載する）を管理する。係数データ管理部１３３１は、個人特化学習によって学習した係数データ（以下、個人対象係数とも記載する）を管理する。

　係数データ管理部１３３１は、複数種類の不特定対象係数を管理し得る。例えば、係数データ管理部１３３１は、年齢、性別、人種などに応じて複数のカテゴリを設け、カテゴリごとに行った不特定対象学習によって学習された不特定対処係数を管理する。係数データ管理部１３３１は、不特定対象係数をカテゴリごとに管理する。

　係数データ管理部１３３１は、学習制御部１３２から係数データを要求された場合、係数データを学習制御部１３２に出力する。このとき、係数データ管理部１３３１が出力する係数データは、学習制御部１３２が実行する個人特化学習のベースとなる係数であり、例えば、学習前の係数データ（不特定対象係数）である。

　係数データ管理部１３３１が複数種類の不特定対象係数を管理している場合、係数データ管理部１３３１は、個人特化学習の対象となるユーザＵに応じた不特定対象係数を学習制御部１３２に出力する。例えば、係数データ管理部１３３１は、ユーザＵを年齢、性別、人種などに応じたカテゴリに分類し、同じカテゴリの不特定対象係数を学習制御部１３２に出力する。

　係数データ管理部１３３１は、ユーザＵに関する情報（ユーザ属性情報）をユーザＵから直接取得してもよく、ユーザＵを撮像した撮像画像Ｐから推定するようにしてもよい。例えば、情報処理装置１００は、ユーザＵが利用登録を行う際に、ユーザ属性情報をユーザＵから取得し得る。

　係数データ管理部１３３１は、学習済み係数データを学習制御部１３２から取得する。係数データ管理部１３３１は、取得した学習済み係数データを特定対象係数として管理する。例えば、ユーザＵがテレコミュニケーションを行う場合、視点変換部１３３２が撮像装置３００の撮像画像Ｐを変換画像Ｐ＿Ｖに変換する。係数データ管理部１３３１は、このとき視点変換部１３３２が使用する特定対象係数を係数データとして視点変換部１３３２に出力する。

　係数データ管理部１３３１は、ユーザＵによるテレコミュニケーションが終了した場合、ユーザＵと特定対象係数とを対応付けて記憶部１２０に記憶し得る。次回、ユーザＵがテレコミュニケーションを実行する場合、係数データ管理部１３３１は、ユーザＵに対応する特定対象係数を記憶部１２０から取得し、視点変換部１３３２に出力する。

　これにより、同一のユーザＵが情報処理システム１０を複数回使用する場合、情報処理システム１０は、２回目以降、ユーザＵの個人特化学習を省略することができる。

　また、係数データ管理部１３３１は、不特定対象係数を記憶部１２０に記憶して管理し得る。異なるユーザＵが情報処理システム１０を使用する場合、学習制御部１３２は、係数データ管理部１３３１が管理する不特定対象係数を使用して、ユーザＵごとに個人特化学習を実行する。あるいは、不特定対象係数は、例えばユーザがユーザ登録を行わずに情報処理システム１０を使用する場合など、不特定のユーザＵを対象とした視点変換に使用され得る。

（視点変換部１３３２）
　視点変換部１３３２は、係数データ管理部１３３１から取得した係数データを使用し、機械学習によって撮像装置３００の撮像画像Ｐの視点を変換し、変換画像Ｐ＿Ｖを生成する。視点変換部１３３２は、オンライン学習が可能な任意の機械学習を使用して視点変換を実行し得る。

　視点変換部１３３２は、変換画像Ｐ＿Ｖをディスプレイ２１０に出力することで、ユーザＵに提示する。視点変換部１３３２は、通信部１１０を介して変換画像Ｐ＿Ｖをテレコミュニケーションの相手である他の情報処理システム１０に送信する。これにより、情報処理システム１０は、ディスプレイ２１０の略中央の仮想カメラＣ＿Ｖから撮像されたかのような変換画像Ｐ＿Ｖをテレコミュニケーションの相手に提示することができる。

　変換部１３３は、上述した学習実行部１３２３（図１７参照）と同じ機能を一部有する。これは、学習実行部１３２３が、個人特化学習を行う機能と、当該学習を検証する機能と、を有するためである。そのため、変換部１３３及び学習実行部１３２３は、同一の機能を互いに共有するように構成され得る。例えば、変換部１３３及び学習実行部１３２３が一つの構成要素として実現されてもよい。

［推定部１３４の詳細］
　推定部１３４は、撮像装置３００の撮像画像ＰからユーザＵの顔状態を推定し、顔情報を生成する。推定部１３４は、顔情報を管理部１３１に出力する。ここでは、推定部１３４が撮像画像Ｐから顔状態を推定する場合について説明するが、推定部１３４は、例えばＴｏＦなどのセンサ装置（図示省略）を用いたセンシング技術によって顔状態を推定し得る。

　顔情報は、現時刻でのユーザＵの顔の状態を示す情報である。顔情報は、管理部１３１が作成する学習データ取得計画の項目を満たすか否か判定するために十分な情報として定義され得る。例えば、顔情報は、上述した顔位置情報、ヘッドポーズ情報、及び、表情情報を含む。

　顔位置情報は、例えば、ユーザＵの顔の重心の３次元座標を示す情報である。なお、上述したように、顔位置情報の座標系は、撮像装置３００の位置情報の座標系と同じであることが望ましい。

　ヘッドポーズ情報は、例えば、ユーザＵの顔の向きを示す情報である。ユーザＵの顔の向きは、例えば、Ｙａｗ、Ｒｏｌｌ、Ｐｉｔｃｈで表される。あるいは、ヘッドポーズ情報は、例えば、図１５に示す各ポーズを示す情報であってもよい。

　表情情報は、例えば、ユーザＵの表情を示す情報である。表情情報は、例えば、図１６の各表情を示す情報である。

　図１９は、本開示の実施形態に係る推定部１３４の構成例を示すブロック図である。図１９に示すように、推定部１３４は、顔位置推定部１３４１と、ヘッドポーズ推定部１３４２と、選択部１３４３と、表情推定部１３４４と、統合部１３４５と、を備える。

　顔位置推定部１３４１は、撮像装置３００の撮像画像Ｐ及びカメラ情報を用いてユーザＵの顔位置を推定する。ヘッドポーズ推定部１３４２は、撮像装置３００の撮像画像Ｐ及びカメラ情報を用いてユーザＵのヘッドポーズを推定する。

　顔位置推定部１３４１は、複数の撮像画像Ｐを用いて顔位置を推定する。これにより、顔位置推定部１３４１は、ステレオ視を用いてユーザＵの頭部を立体的にとらえることができ、顔位置の推定精度がより向上する。

　顔位置推定部１３４１が顔位置推定に使用する撮像画像Ｐが多いほど、顔位置の推定精度は向上する。しかしながら、顔位置推定に使用する撮像画像Ｐが多いほど処理時間も増加する。顔位置推定部１３４１が何枚の撮像画像Ｐを顔位置推定に使用するかは、顔位置の推定精度及び処理時間に依存する。顔位置推定部１３４１は、より高精度に、かつ、リアルタイムで推定が行える枚数の撮像画像Ｐを用いて、顔位置を推定する。

　ヘッドポーズ推定部１３４２も同様に、複数の撮像画像Ｐを用いることで、より高精度にヘッドポーズを推定することができる。

　選択部１３４３は、注目カメラＩＤ情報を用いて、撮像装置３００の撮像画像ＰからユーザＵが正対する撮像装置３００（注目カメラ）の撮像画像Ｐ（以下、注目画像とも記載する）を選択する。選択部１３４３は、選択した注目画像を表情推定部１３４４に出力する。

　表情推定部１３４４は、注目画像を用いてユーザＵの表情を推定する。注目画像は、上述したように、ユーザＵが正対する注目カメラで撮像した画像である。そのため、注目画像は、ユーザＵが正面を向いている画像である可能性が高い。表情推定部１３４４は、注目画像を用いてユーザＵの表情を推定することで、より高精度に表情を推定することができる。

　統合部１３４５は、顔位置推定部１３４１が推定した顔位置情報、ヘッドポーズ推定部１３４２が推定したヘッドポーズ情報、及び、表情推定部１３４４が推定した表情情報を取得する。統合部１３４５は、各部が推定した情報の同期を取り、各情報を統合して、顔情報として管理部１３１に出力する。

　顔情報に含まれる顔位置情報、ヘッドポーズ情報、及び、表情情報は、同一時刻のユーザＵの情報であることが望ましい。統合部１３４５は、これらの情報の同期を取ることで、同一時刻の顔位置情報、ヘッドポーズ情報、及び、表情情報を含む顔情報を生成する。

　図１９の例では、推定部１３４が複数の処理部で構成される場合について示したが、推定部１３４の構成はこれに限定されない。

　図２０は、本開示の実施形態に係る推定部１３４の他の構成例を示すブロック図である。図２０に示す推定部１３４は、顔位置推定部１３４１、ヘッドポーズ推定部１３４２、選択部１３４３、表情推定部１３４４、及び、統合部１３４５の代わりに推定処理部１３４６を有する。

　推定処理部１３４６は、撮像装置３００の撮像画像Ｐ、カメラ情報、及び、注目カメラＩＤ情報を用いて、顔情報を生成する。推定処理部１３４６は、例えば機械学習を用いて顔情報を生成し得る。

　このように、推定部１３４による顔状態推定処理の実現手段は任意であるが、顔情報はユーザＵの誘導に利用されることから、推定部１３４はリアルタイムで顔状態推定を行えることが求められる。

［ＵＩ制御部１３５の詳細］
　ＵＩ制御部１３５は、管理部１３１から誘導指示を取得する。ＵＩ制御部１３５は、誘導指示に基づき、ＵＩ画像を生成する。ＵＩ制御部１３５は、撮像画像ＰにＵＩ画像を重畳した表示画像を生成し、ディスプレイ２１０に出力する。

　図２１は、本開示の実施形態に係るＵＩ制御部１３５の構成例を示すブロック図である。図２１に示すように、ＵＩ制御部１３５は、ＵＩ生成部１３５１と、ＵＩ表示部１３５２と、を備える。

（ＵＩ生成部１３５１）
　ＵＩ生成部１３５１は、管理部１３１から取得する誘導指示に基づき、ＵＩ画像を生成する。ＵＩ画像は、ユーザＵを所望の位置やヘッドポーズ、表情に誘導するための画像である。

　誘導指示には、例えば、誘導目標とする顔位置情報（以下、誘導位置情報とも記載する）、及び、現在のユーザＵの顔位置情報（以下、現在位置情報とも記載する）が含まれる。誘導位置情報は、誘導先である顔位置の３次元情報を含む。現在位置情報は、現在のユーザＵの顔位置の３次元情報を含む。

　あるいは、誘導指示に、ユーザＵに対して移動を誘導する方向（以下、誘導方向とも記載する）、及び、移動量（以下、誘導量とも記載する）が含まれてもよい。

　誘導指示には、例えば、注目カメラＩＤ情報が含まれる。

　誘導指示には、例えば、誘導目標とするヘッドポーズに関する情報（以下、誘導ヘッドポーズ情報とも記載する）が含まれる。誘導ヘッドポーズ情報は、例えば、図１５に示すヘッドポーズの複数ポーズの中から目標とするポーズを指定する情報である。あるいは、誘導ヘッドポーズ情報は、目標とするヘッドポーズのＹｏｗ、Ｒｏｌｌ、Ｐｉｔｃｈを示す情報であってもよい。

　また、誘導指示に、誘導ヘッドポーズ情報に加えて、現在のヘッドポーズ情報（以下、現在ヘットポーズ情報とも記載する）が含まれていてもよい。現在ヘッドポーズ情報は、例えば、図１５に示すヘッドポーズの複数ポーズのうち、ユーザＵが取っているポーズに近いポーズを指定する情報であってもよく、ユーザＵのヘッドポーズのＹｏｗ、Ｒｏｌｌ、Ｐｉｔｃｈを示す情報であってもよい。

　誘導指示に、例えば、誘導目標とする表情に関する情報（以下、誘導表情情報とも記載する）が含まれる。誘導表情情報は、例えば、図１６に示す複数の表情の中から目標とする表情を指定する情報である。例えば、表情に指定文発話が含まれる場合、誘導指示には指定文に関する情報が含まれる。

　誘導指示に、例えば、達成状況に関する情報（以下、達成状況情報とも記載する）が含まれる。達成状況情報は、例えば、ユーザＵの顔位置、ヘッドポーズ、及び、表情に関して、誘導目標を達成しているか否かを示す情報である。達成状況情報は、ユーザＵの顔位置、ヘッドポーズ、及び、表情の項目ごとに、誘導の成否として表される。

　ＵＩ生成部１３５１は、誘導指示に基づき、ＵＩ画像を生成する。

　図２２は、本開示の実施形態に係るＵＩ画像の一例を説明するための図である。図２２では、ＵＩ画像を撮像画像Ｐに重畳した表示画像が示される。ここでは、誘導指示に誘導位置情報及び現在位置情報が含まれる場合にＵＩ生成部１３５１が生成するＵＩ画像について説明する。

　ＵＩ生成部１３５１は、誘導位置情報に基づき、目標とする顔位置を示す顔位置ＵＩ画像を生成する。例えば、ＵＩ生成部１３５１は、誘導位置情報に含まれる座標を中心座標とする四角の枠を含む顔位置ＵＩ画像を生成する。

　また、ＵＩ生成部１３５１は、現在位置情報の顔位置を始点とし、顔位置ＵＩ画像を終点とする矢印を、移動ＵＩ画像として生成する。情報処理装置１００は、顔位置ＵＩ画像及び移動ＵＩ画像を用いて、ユーザＵに対して顔位置の移動を促す。

　ＵＩ生成部１３５１は、移動ＵＩ画像として、立体的な３次元矢印を描画し得る。これにより、ＵＩ生成部１３５１は、ディスプレイ２１０と平行な方向の移動に加え、ディスプレイ２１０と垂直な方向の移動を、ユーザＵに対して促すことができる。

　このとき、ＵＩ生成部１３５１は、適切な座標位置に顔位置ＵＩ画像及び移動ＵＩ画像を描画するために、カメラ情報を使用する。

　ＵＩ生成部１３５１は、顔位置ＵＩ画像に重畳するようヘッドポーズＵＩ画像を生成する。ヘッドポーズＵＩ画像は、誘導ヘッドポーズ情報に含まれるヘッドポーズを示す画像である。

　誘導ヘッドポーズ情報にポーズを指定する情報が含まれる場合、指定されたポーズを示す画像をヘッドポーズＵＩ画像として生成する。

　誘導ヘッドポーズ情報に、Ｙｏｗ、Ｒｏｌｌ、Ｐｉｔｃｈなどパラメータ情報が含まれる場合、ＵＩ生成部１３５１は、パラメータに応じたヘッドポーズを描画することでヘッドポーズＵＩ画像を生成する。このとき、ＵＩ生成部１３５１は、現在ヘッドポーズ情報を用いて、現在のヘッドポーズと目標とするヘッドポーズとのずれ（差分）をユーザＵに提示し得る。あるいは、ＵＩ生成部１３５１は、例えば、頭を傾ける方向に矢印を示すなど、ずれを小さくする行動を促すＵＩ画像を生成し得る。

　ＵＩ生成部１３５１が顔位置ＵＩ画像に重畳するようにヘッドポーズＵＩ画像を生成することで、情報処理装置１００は、ユーザＵに対して、目標となる顔位置までの移動とともに、目標とするヘッドポーズをとるように促すことができる。ユーザＵは、顔位置の移動方向及びとるべきヘッドポーズを直感的に認識することができる。

　ＵＩ生成部１３５１は、誘導表情情報を示す表情ＵＩ画像を生成する。表情ＵＩ画像は、例えば、「喜」、「怒」など目標表情を示す文字情報である。表示ＵＩ画像に、感情を示す顔のアイコンが含まれていてもよい。

　また、誘導表示情報によって表情として指定文発話が指定される場合、ＵＩ生成部１３５１は、図２２に示すように目標表情が指定文であることを示す表情ＵＩ画像を生成する。この表情ＵＩ画像には、発話内容（図２２の例では「こんにちは」）が含まれる。

　表情ＵＩ画像は、例えば表示画像の上部など、ユーザＵの目に付きやすい位置に重畳され得る。

　ＵＩ生成部１３５１は、達成状況情報を示す達成ＵＩ画像を生成する。達成ＵＩ画像は、顔位置、ヘッドポーズや表情といった項目ごとの達成状況を示す画像である。図２２の例では、達成している項目を「○」でしめし、達成していない項目を「×」で示している。図２２では、顔位置及びヘッドポーズは目標を達成していないが、表情は達成している。すなわち、ユーザＵが発話を行っていることが示されている。

　なお、ＵＩ生成部１３５１が生成するＵＩ画像は、上述した例に限定されない。例えば、ＵＩ生成部１３５１は、未達成の項目に関するＵＩ画像（図２２の例では、顔位置ＵＩ画像、移動ＵＩ画像及びヘッドポーズＵＩ画像）を強調表示させるようにしてもよい。例えば、ＵＩ生成部１３５１は、未達成の項目に関するＵＩ画像を、点滅させたり、他のＵＩ画像とは異なる色で描画したりすることで、強調表示させる。

　また、表示画像をユーザＵに提示する場合、ＵＩ制御部１３５は、撮像画像Ｐを左右反転させた画像にＵＩ画像を重畳して表示画像を生成する。ＵＩ生成部１３５１は、撮像画像Ｐが左右反転されることを考慮してＵＩ画像を生成する。ＵＩ制御部１３５が撮像画像Ｐを反転させて表示画像を生成することで、ユーザＵは、鏡を見る場合と同様に自身を確認することができる。

　図２３は、本開示の実施形態に係るＵＩ画像の他の例を説明するための図である。図２３では、ＵＩ画像を撮像画像Ｐに重畳した表示画像が示される。ここでは、誘導指示に誘導方向及び誘導量が含まれる場合にＵＩ生成部１３５１が生成するＵＩ画像について説明する。なお、図２２に示すＵＩ画像と同じＵＩ画像については説明を省略する。

　図２３の例では、ＵＩ生成部１３５１は、顔位置ＵＩ画像及び移動ＵＩ画像の代わりに、誘導方向及び誘導量を示す矢印を矢印ＵＩ画像として生成する。ＵＩ生成部１３５１は、ユーザＵの顔位置情報を取得していないため、矢印ＵＩ画像は、ユーザＵの位置によらない位置（図２３の例では、表示画像の略中央）に描画される。

　ＵＩ生成部１３５１は、目標とするヘッドポーズ（以下、目標ヘッドポーズとも記載する）を表すヘッドポーズＵＩ画像を所定の位置に表示させる。図２３の例では、ヘッドポーズＵＩ画像は、例えば表示画像の上部など、ユーザＵの目に付きやすい位置に描画される。そのため、図２３に示す例では、表情ＵＩ画像が、ヘッドポーズＵＩ画像の直下に描画される。

　この場合、ＵＩ生成部１３５１は、撮像装置３００の位置情報を使用せずにＵＩ画像を生成し得る。

　ＵＩ生成部１３５１は、生成したＵＩ画像及び注目カメラＩＤを示す注目カメラＩＤ情報をＵＩ表示部１３５２に出力する。

（ＵＩ表示部１３５２）
　ＵＩ表示部１３５２は、注目カメラＩＤ情報に基づき、注目カメラで撮像された注目画像にＵＩ画像を重畳して表示画像を生成する。このとき、ＵＩ表示部１３５２は、上述したように注目画像を左右反転させてＵＩ画像を重畳することで表示画像を生成する。

　ＵＩ表示部１３５２は、表示画像をディスプレイ２１０に出力することで、ユーザＵに表示画像を提示する。

　なお、ここでは、ＵＩ制御部１３５が画像情報を用いてユーザＵを誘導する場合を示したが、ユーザＵを誘導する方法は画像情報を用いた方法に限定されない。例えば、ＵＩ制御部１３５が音声やＬＥＤランプを用いてユーザＵを誘導するようにしてもよい。例えば、ＵＩ制御部１３５は、注目カメラ近傍に設置されたＬＥＤランプを点灯させることで、注目カメラの位置をユーザＵに認識させるようにしてもよい。

＜＜３．情報処理＞＞
＜３．１．学習処理＞
　図２４は、本開示の実施形態に係る学習処理の流れの一例を示すフローチャートである。図２４に示す学習処理は、情報処理装置１００によって実行される。情報処理装置１００は、ユーザＵがユーザ登録を行う場合など、ユーザＵがテレコミュニケーションサービスの提供を受ける前に、図２４に示す学習処理を実行する。

　図２４に示すように、情報処理装置１００は、取得処理を実行する（ステップＳ１０１）。取得処理は、例えば、学習データを取得する場合に実行される処理である。

　情報処理装置１００は、取得した学習データを用いて個人特化学習処理を実行する（ステップＳ１０２）。情報処理装置１００は、個人特化学習処理で行った個人特化学習の結果を検証する検証処理を実行する（ステップＳ１０３）。

　情報処理装置１００は、検証処理の実行結果、学習データの追加の取得要求があるか否かを判定する（ステップＳ１０４）。追加の取得要求がある場合（ステップＳ１０４；Ｙｅｓ）、情報処理装置１００は、ステップＳ１０１に戻り、取得処理を実行する。一方、追加の取得要求がない場合（ステップＳ１０４；Ｎｏ）、情報処理装置１００は、学習処理を終了する。

　情報処理装置１００は、学習処理を終了後、例えば、ユーザＵからの指示に従って、ユーザＵに対してテレコミュニケーションサービスを提供する。

　なお、情報処理装置１００は、取得処理と、個人特化学習処理及び検証処理と、を並列に処理し得る。例えば、情報処理装置１００は、所定の学習データが取得された場合、取得処理を実行中であっても、個人特化学習処理及び検証処理を実行し得る。

＜３．２．取得処理＞
　図２５は、本開示の実施形態に係る取得処理の流れの一例を示すフローチャートである。図２５に示す取得処理は、主に、情報処理装置１００の管理部１３１によって実行される。

　図２５に示すように、管理部１３１は、学習データ取得計画を作成する（ステップＳ２０１）。管理部１３１は、学習データ取得計画から実行するシーン（以下、実行シーンとも記載）を選択する（ステップＳ２０２）。例えば、管理部１３１は、上述した第１のシーンを選択する。

　管理部１３１は、誘導処理を実行し、ユーザＵの顔状態が実行シーンに応じた目標の顔状態になるようユーザＵを誘導する（ステップＳ２０３）。誘導完了後、管理部１３１は、実行ステップに応じた学習データを取得する（ステップＳ２０４）。

　管理部１３１は、実行ステップでの学習データの取得が完了したか否かを判定する（ステップＳ２０５）。例えば、管理部１３１は、目標の顔状態で、目標の長さ（フレーム数）の学習データを取得したか否かに応じて学習データの取得が完了したか否かを判定する。

　例えば、学習データ取得の途中でユーザＵが移動するなどして、学習データの取得が完了していない場合（ステップＳ２０５；Ｎｏ）、管理部１３１は、ステップＳ２０３に戻る。一方、学習データの取得が完了した場合（ステップＳ２０５；Ｙｅｓ）、管理部１３１は、学習制御部１３２に取得した学習データを送信する（ステップＳ２０６）。

　次に、管理部１３１は、学習データ取得計画の計画全てで学習データの取得が完了したか否かを判定する（ステップＳ２０７）。学習データを取得していないシーンがある場合（ステップＳ２０７；Ｎｏ）、管理部１３１は、ステップＳ２０２に戻る。

　計画全てで学習データの取得が完了した場合（ステップＳ２０７；Ｙｅｓ）、すなわち、全てのシーンで学習データを取得した場合、管理部１３１は、学習制御部１３２から追加の取得要求があるか否かを判定する（ステップＳ２０８）。

　追加の取得要求がある場合（ステップＳ２０８；Ｙｅｓ）、管理部１３１は、ステップＳ２０１に戻る。一方、追加の取得要求がない場合（ステップＳ２０８；Ｎｏ）、管理部１３１は、取得処理を終了する。

＜３．３．誘導処理＞
　図２６は、本開示の実施形態に係る誘導処理の流れの一例を示すフローチャートである。図２６に示す誘導処理は、主に、情報処理装置１００の誘導制御部１３１２によって実行される。

　誘導制御部１３１２は、推定部１３４から顔情報を取得する（ステップＳ３０１）。誘導制御部１３１２は、作成制御部１３１１から実行ステップに応じた誘導目標を取得する（ステップＳ３０２）。管理部１３１は、誘導目標に基づいて誘導指示を生成し、ＵＩ制御部１３５に誘導指示を通知する（ステップＳ３０３）。

　誘導制御部１３１２は、推定部１３４から顔情報を取得する（ステップＳ３０４）。誘導制御部１３１２は、取得した顔情報に基づいて誘導状況を生成し、作成制御部１３１１に誘導状況を通知する（ステップＳ３０５）。

　誘導制御部１３１２は、ユーザＵを誘導目標まで誘導したか、すなわち、誘導が完了したか否かを判定する（ステップＳ３０６）。誘導が完了していない場合（ステップＳ３０６；Ｎｏ）、誘導制御部１３１２は、ステップＳ３０２に戻る。誘導が完了した場合（ステップＳ３０６；Ｙｅｓ）、誘導制御部１３１２は、誘導処理を終了する。

　なお、ここでは、誘導制御部１３１２が、誘導が完了したか否かを判定するとしたが、誘導完了の判定を作成制御部１３１１が行うようにしてもよい。この場合、作成制御部１３１１は、誘導制御部１３１２から取得した誘導状況に基づいて誘導が完了したか否かを判定する。

　作成制御部１３１１は、誘導が完了した場合、学習データの取得を実行する。誘導が完了していない場合、作成制御部１３１１は、例えば新たな誘導目標を作成し、誘導制御部１３１２に通知し得る。あるいは、作成制御部１３１１が、誘導が完了していない旨の通知を行うようにしてもよい。この場合、誘導制御部１３１２は、既に取得している誘導目標に基づいて誘導指示を再度生成する。

＜３．４．ＵＩ生成処理＞
　図２７は、本開示の実施形態に係るＵＩ生成処理の流れの一例を示すフローチャートである。図２７に示すＵＩ生成処理は、主に、情報処理装置１００のＵＩ制御部１３５によって実行される。ＵＩ制御部１３５は、例えば、誘導制御部１３１２から誘導指示を取得した場合に図２７に示すＵＩ生成処理を実行する。

　ＵＩ制御部１３５は、誘導制御部１３１２から誘導指示を取得する（ステップＳ４０１）。ＵＩ制御部１３５は、誘導指示に基づいてＵＩ画像を生成する（ステップＳ４０２）。

　ＵＩ制御部１３５は、表示画像を生成する（ステップＳ４０３）。ＵＩ制御部１３５は、例えば、注目カメラが撮像した注目画像を左右反転させた画像に、ＵＩ画像を重畳することで、表示画像を生成する。

　ＵＩ制御部１３５は、ディスプレイ２１０に表示画像を表示させる（ステップＳ４０４）。

＜３．５．個人特化学習処理＞
　図２８は、本開示の実施形態に係る個人特化学習処理の流れの一例を示すフローチャートである。図２８に示す個人特化学習処理は、情報処理装置１００の学習制御部１３２によって実行される。

　学習制御部１３２は、学習計画を作成する（ステップＳ５０１）。学習制御部１３２は、管理部１３１から学習データを取得する（ステップＳ５０２）。

　学習制御部１３２は、学習データの取得が完了したか否かを判定する（ステップＳ５０３）。学習制御部１３２は、学習制御部１３２が所定量の学習データを管理部１３１から取得した場合に、学習データの取得が完了したと判定する。また、学習制御部１３２は、管理部１３１による学習データの取得が終了した場合に、学習データの取得が完了したと判定する。

　学習データの取得が完了していない場合（ステップＳ５０３；Ｎｏ）、学習制御部１３２は、ステップＳ５０２に戻る。学習データの取得が完了した場合（ステップＳ５０３；Ｙｅｓ）、学習制御部１３２は、例えば記憶部１２０が記憶する学習データの少なくとも一部である学習用データを取得する（ステップＳ５０４）。

　学習制御部１３２は、個人特化学習に使用する学習前係数データ（例えば、不特定対象係数）を取得する（ステップＳ５０５）。学習制御部１３２は、個人特化学習を行い、ユーザＵ個人に特化した視点変換を学習する（ステップＳ５０６）。

＜３．６．検証処理＞
　図２９は、本開示の実施形態に係る検証処理の流れの一例を示すフローチャートである。図２９に示す検証処理は、情報処理装置１００の学習制御部１３２によって実行される。

　学習制御部１３２は、例えば記憶部１２０が記憶する検証用データを取得する（ステップＳ６０１）。検証用データは、事前に個人特化学習用に生成されたデータである。あるいは、学習制御部１３２は、学習データの少なくとも一部を検証用データとして記憶部１２０から取得するようにしてもよい。

　学習制御部１３２は、個人特化学習の学習結果を検証する（ステップＳ６０２）。学習制御部１３２は、個人特化学習によって更新された係数データ及び検証用データを用いて学習結果を検証する。

　学習制御部１３２は、個人特化学習が完了したか否かを判定する（ステップＳ６０３）。例えば、学習制御部１３２は、ステップＳ６０２の検証結果、所望の精度を満たす場合、個人特化学習が完了したと判定する。

　また、学習制御部１３２は、所定回数学習を行っても所望の精度を満たせない場合、個人特化学習が完了したと判定する。例えば、学習制御部１３２は、管理部１３１に対して追加の学習データの取得要求を所定回数行って、個人特化学習を実行しても、所望の精度を満たせない場合、個人特化学習が完了したと判定する。

　個人特化学習が完了した場合（ステップＳ６０３；Ｙｅｓ）、学習制御部１３２は、学習済みの係数データを変換部１３３に通知することで、変換部１３３で使用される係数データを学習済み係数データに更新する（ステップＳ６０４）。

　個人特化学習が完了していない場合（ステップＳ６０３；Ｎｏ）、学習制御部１３２は、管理部１３１に学習データの追加取得を要求する（ステップＳ６０５）。学習制御部１３２は、管理部１３１に追加の取得要求を通知する。

　本開示の実施形態に係る情報処理装置１００は、機械学習を用いた視点変換を行う。情報処理装置１００は、汎用的なデータセットを用いて、予め視点変換の学習（不特定対象学習）を行う。情報処理装置１００は、情報処理システム１０が有する全ての撮像装置３００の撮像画像Ｐを用いて、視点変換処理を行うことで、仮想カメラＣ＿Ｖから撮像したような変換画像Ｐ＿Ｖを生成する。

　このとき、情報処理装置１００は、情報処理システム１０が有する全ての撮像装置３００のうち、少なくとも１つの撮像装置３００が撮像した撮像画像Ｐを入力して視点変換を行えるように不特定対象学習を行う。例えば、情報処理装置１００は、ランダムに選択した撮像画像Ｐ及び黒画像のように無効データを用いて不特定対象学習を行う。

　情報処理装置１００は、個人特化学習を開始する際に、まず学習データ取得計画を作成する。情報処理装置１００は、既知の、あるいは、外部装置（図示省略）から取得したカメラ情報（撮像装置３００の位置や配置に関する情報）を考慮し、撮像装置３００の配置の対称性を利用して学習データ取得計画を作成する。

　情報処理装置１００は、撮像装置３００の撮像画像ＰからユーザＵの顔状態を推定する。情報処理装置１００は、顔状態の推定に、例えばカメラ情報を使用する。

　情報処理装置１００は、学習データ取得計画に従って、所望の顔位置やヘッドポーズ、表情になるよう、ユーザＵを誘導する。情報処理装置１００は、ＵＩ画像を重畳した表示画像をディスプレイ２１０に表示させることで、ユーザＵを誘導する。情報処理装置１００は、ユーザＵが所望の顔状態になるまでユーザＵの誘導を継続する。

　ユーザＵが所望の顔状態になると、情報処理装置１００は、学習データを取得する。情報処理装置１００は、学習データ取得計画の実行シーンに応じて、学習データを所定のフォーマットに変換し、記憶部１２０に記憶する。

　情報処理装置１００は、既知の、あるいは、外部装置（図示省略）から取得した学習関連情報を参照しながら適切なハイパーパラメータを定める。情報処理装置１００は、ハイパーパラメータを参照し、学習データの少なくとも一部から生成した学習用データを用いて、個人特化学習を行い、係数データを更新する。

　情報処理装置１００は、例えば学習データの少なくとも一部から生成した検証用データを用いて、個人特化学習の学習結果を検証する。情報処理装置１００は、学習結果の性能評価を行い、評価結果に応じて追加の学習データ取得を決定する。情報処理装置１００は、追加の学習データを取得する場合、学習データ取得計画を更新して学習データを取得する。なお、情報処理装置１００が、追加の学習データ取得を決定した時点で、既に学習データ取得計画の実行が終了している場合、情報処理装置１００は、新たな学習データ取得計画を作成するようにしてもよい。

＜＜４．ハードウェア構成＞＞
　図３０を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図３０は、本実施形態に係る情報処理装置８００のハードウェア構成の一例を示すブロック図である。なお、図３０に示す情報処理装置８００は、例えば、情報処理装置１００を実現し得る。本実施形態に係る情報処理装置１００による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。

　図３０に示すように、情報処理装置８００は、例えば、ＣＰＵ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェイス８７７と、入力装置８７８と、出力装置８７９と、ストレージ８８０と、ドライブ８８１と、接続ポート８８２と、通信装置８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

（ＣＰＵ８７１）
　ＣＰＵ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、ストレージ８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

　具体的には、ＣＰＵ８７１は、情報処理装置１００内の動作処理を実現する。

（ＲＯＭ８７２、ＲＡＭ８７３）
　ＲＯＭ８７２は、ＣＰＵ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、ＣＰＵ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェイス８７７）
　ＣＰＵ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェイス８７７を介して種々の構成要素と接続される。

（入力装置８７８）
　入力装置８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置８７８には、マイクロフォンなどの音声入力装置が含まれる。

（出力装置８７９）
　出力装置８７９は、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置８７９は、触覚刺激を出力することが可能な種々の振動デバイスを含む。出力装置８７９は、例えば、出力装置２００を実現する。

（ストレージ８８０）
　ストレージ８８０は、各種のデータを格納するための装置である。ストレージ８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

（ドライブ８８１）
　ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

（リムーバブル記録媒体９０１）
　リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙ（登録商標）メディア、ＨＤ　ＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

（接続ポート８８２）
　接続ポート８８２は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

（外部接続機器９０２）
　外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

（通信装置８８３）
　通信装置８８３は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、又は各種通信用のモデム等である。

＜＜５．その他の実施形態＞＞
　上述の実施形態は一例を示したものであり、種々の変更及び応用が可能である。

　例えば、上述した実施形態では仮想カメラＣ＿Ｖの位置をディスプレイ２１０の略中央としたが、仮想カメラＣ＿Ｖの位置は、これに限定されない。例えば、仮想カメラＣ＿Ｖの位置は、ディスプレイ２１０の略中央よりやや上方であってもよい。例えば、仮想カメラＣ＿Ｖの位置は、ディスプレイ２１０に表示されるユーザＵの顔や目（例えば、両目の略中央）の位置であってもよい。

　この場合でも、撮像装置３００は、仮想カメラＣ＿Ｖに対して対称性を有するように配置される。すなわち、仮想カメラＣ＿Ｖと入力撮像装置Ｃ＿Ｉとの相対的な位置関係が、教師撮像装置Ｃ＿Ｔと生徒撮像装置Ｃ＿Ｓとの相対的な位置関係と略一致するように、撮像装置３００が配置され得る。

　例えば、上述の動作を実行するための通信プログラムを、光ディスク、半導体メモリ、磁気テープ、フレキシブルディスク等のコンピュータ読み取り可能な記録媒体に格納して配布する。そして、例えば、該プログラムをコンピュータにインストールし、上述の処理を実行することによって制御装置を構成する。このとき、制御装置は、情報処理装置１００の外部の装置（例えば、パーソナルコンピュータ）であってもよい。また、制御装置は、情報処理装置１００の内部の装置（例えば、制御部１３０）であってもよい。

　また、上記通信プログラムをインターネット等のネットワーク上のサーバ装置が備えるディスク装置に格納しておき、コンピュータにダウンロード等できるようにしてもよい。また、上述の機能を、ＯＳ（Operating　System）とアプリケーションソフトとの協働により実現してもよい。この場合には、ＯＳ以外の部分を媒体に格納して配布してもよいし、ＯＳ以外の部分をサーバ装置に格納しておき、コンピュータにダウンロード等できるようにしてもよい。

　また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。なお、この分散・統合による構成は動的に行われてもよい。

　また、上述の実施形態は、処理内容を矛盾させない領域で適宜組み合わせることが可能である。

　また、例えば、本実施形態は、装置又はシステムを構成するあらゆる構成、例えば、システムＬＳＩ（Large　Scale　Integration）等としてのプロセッサ、複数のプロセッサ等を用いるモジュール、複数のモジュール等を用いるユニット、ユニットにさらにその他の機能を付加したセット等（すなわち、装置の一部の構成）として実施することもできる。

　なお、本実施形態において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、全ての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　また、例えば、本実施形態は、１つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

＜＜６．むすび＞＞
　以上、本開示の実施形態について説明したが、本開示の技術的範囲は、上述の各実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、異なる実施形態及び変形例にわたる構成要素を適宜組み合わせてもよい。

　また、本明細書に記載された各実施形態における効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　ディスプレイに対し設定された仮想カメラに対し対称性を有するように配置された第１の撮像装置及び第２の撮像装置のうち、前記第１の撮像装置と相対するようにユーザを誘導するよう出力装置を制御し、
　前記第１の撮像装置と相対した前記ユーザを含む教師画像を前記第１の撮像装置から取得し、
　前記第１の撮像装置及び前記第２の撮像装置の前記仮想カメラに対する前記対称性及び前記教師画像に基づき、前記仮想カメラの視点に対応させるための前記第２の撮像装置の視点変換の学習処理を行う、制御部、
　を備える情報処理装置。
（２）
　前記第１の撮像装置及び前記第２の撮像装置は、前記ディスプレイの周囲に配置される、（１）に記載の情報処理装置。
（３）
　前記制御部は、複数の撮像装置の中から前記第１の撮像装置を選択する、（１）又は（２）に記載の情報処理装置。
（４）
　前記制御部は、選択する前記第１の撮像装置を順次切り替えて前記学習を行う、（３）に記載の情報処理装置。
（５）
　前記制御部は、前記ディスプレイの周囲に配置される複数の前記撮像装置のうち、前記ディスプレイの角部に配置される前記撮像装置を、前記第１の撮像装置として選択する、（３）又は（４）に記載の情報処理装置。
（６）
　前記制御部は、前記ディスプレイの周囲に配置される複数の前記撮像装置のうち、前記ディスプレイの辺の略中央に配置される前記撮像装置を、前記第１の撮像装置として選択する、（３）又は（４）に記載の情報処理装置。
（７）
　前記制御部は、前記ディスプレイの周囲に配置される複数の前記撮像装置のうち、前記ディスプレイの角部に配置される前記撮像装置を、前記第２の撮像装置として選択する、（３）～（６）のいずれか１つに記載の情報処理装置。
（８）
　前記制御部は、前記ディスプレイの周囲に配置される複数の前記撮像装置のうち、前記ディスプレイの辺の略中央に配置される前記撮像装置を、前記第２の撮像装置として選択する、（３）～（６）のいずれか１つに記載の情報処理装置。
（９）
　前記視点は、前記ディスプレイの略中央に設定される、（１）～（８）のいずれか１つに記載の情報処理装置。
（１０）
　前記制御部は、前記学習処理として、予め学習したモデルの再学習を行う、（１）～（９）のいずれか１つに記載の情報処理装置。
（１１）
　前記制御部は、
　前記仮想カメラに対し前記対称性を有するように配置された前記第１の撮像装置、前記第２の撮像装置、及び、第３の撮像装置のうち、前記第１の撮像装置と相対するようにユーザを誘導するよう前記出力装置を制御し、
　前記第１の撮像装置、前記第２の撮像装置、及び、前記第３の撮像装置の前記仮想カメラに対する前記対称性、及び、前記教師画像に基づき、前記仮想カメラの前記視点に対応させるための前記第２の撮像装置及び前記第３の撮像装置の前記視点変換の前記学習処理を行う、
　（１）～（１０）のいずれか１つに記載の情報処理装置。
（１２）
　前記制御部は、前記ユーザの表情、前記ユーザの顔の向き、及び、前記ユーザの顔の位置の少なくとも１つを誘導するよう前記出力装置に指示する、（１）～（１１）のいずれか１つに記載の情報処理装置。
（１３）
　前記制御部は、前記ユーザの表情、前記ユーザの顔の向き、及び、前記ユーザの顔の位置のうち、少なくとも２つを誘導対象とする場合、前記誘導対象を１つずつ順番に誘導するよう前記出力装置に指示する、（１２）に記載の情報処理装置。
（１４）
　ディスプレイに対し設定された仮想カメラに対し対称性を有するように配置された第１の撮像装置及び第２の撮像装置のうち、前記第１の撮像装置と相対するようにユーザを誘導するよう出力装置を制御することと、
　前記第１の撮像装置と相対した前記ユーザを含む教師画像を前記第１の撮像装置から取得することと、
　前記第１の撮像装置及び前記第２の撮像装置の前記仮想カメラに対する前記対称性及び前記教師画像に基づき、前記仮想カメラの視点に対応させるための前記第２の撮像装置の視点変換の学習処理を行うことと、
　を含む情報処理方法。
（１５）
　コンピュータに、
　ディスプレイに対し設定された仮想カメラに対し対称性を有するように配置された第１の撮像装置及び第２の撮像装置のうち、前記第１の撮像装置と相対するようにユーザを誘導するよう出力装置を制御することと、
　前記第１の撮像装置と相対した前記ユーザを含む教師画像を前記第１の撮像装置から取得することと、
　前記第１の撮像装置及び前記第２の撮像装置の前記仮想カメラに対する前記対称性及び前記教師画像に基づき、前記仮想カメラの視点に対応させるための前記第２の撮像装置の視点変換の学習処理を行うことと、
を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。

　１　テレコミュニケーションシステム
　１０　情報処理システム
　１００　情報処理装置
　１１０　通信部
　１２０　記憶部
　１３０　制御部
　１３１　管理部
　１３２　学習制御部
　１３３　変換部
　１３４　推定部
　１３５　ＵＩ制御部
　２００　出力装置
　２１０　ディスプレイ
　２２０　スピーカ
　３００　撮像装置
　１３１１　作成制御部　１３１２　誘導制御部
　１３１３　データ生成部
　１３２１　データ管理部
　１３２２　計画制御部
　１３２３　学習実行部
　１３３１　係数データ管理部
　１３３２　視点変換部
　１３４１　顔位置推定部
　１３４２　ヘッドポーズ推定部
　１３４３　選択部
　１３４４　表情推定部
　１３４５　統合部
　１３４６　推定処理部
　１３５１　ＵＩ生成部
　１３５２　ＵＩ表示部

Claims

　ディスプレイに対し設定された仮想カメラに対し対称性を有するように配置された第１の撮像装置及び第２の撮像装置のうち、前記第１の撮像装置と相対するようにユーザを誘導するよう出力装置を制御し、
　前記第１の撮像装置と相対した前記ユーザを含む教師画像を前記第１の撮像装置から取得し、
　前記第１の撮像装置及び前記第２の撮像装置の前記仮想カメラに対する前記対称性及び前記教師画像に基づき、前記仮想カメラの視点に対応させるための前記第２の撮像装置の視点変換の学習処理を行う、制御部、
　を備える情報処理装置。
　前記第１の撮像装置及び前記第２の撮像装置は、前記ディスプレイの周囲に配置される、請求項１に記載の情報処理装置。
　前記制御部は、複数の撮像装置の中から前記第１の撮像装置を選択する、請求項１に記載の情報処理装置。
　前記制御部は、選択する前記第１の撮像装置を順次切り替えて前記学習を行う、請求項３に記載の情報処理装置。
　前記制御部は、前記ディスプレイの周囲に配置される複数の前記撮像装置のうち、前記ディスプレイの角部に配置される前記撮像装置を、前記第１の撮像装置として選択する、請求項３に記載の情報処理装置。
　前記制御部は、前記ディスプレイの周囲に配置される複数の前記撮像装置のうち、前記ディスプレイの辺の略中央に配置される前記撮像装置を、前記第１の撮像装置として選択する、請求項３に記載の情報処理装置。
　前記制御部は、前記ディスプレイの周囲に配置される複数の前記撮像装置のうち、前記ディスプレイの角部に配置される前記撮像装置を、前記第２の撮像装置として選択する、請求項３に記載の情報処理装置。
　前記制御部は、前記ディスプレイの周囲に配置される複数の前記撮像装置のうち、前記ディスプレイの辺の略中央に配置される前記撮像装置を、前記第２の撮像装置として選択する、請求項３に記載の情報処理装置。
　前記仮想カメラは、前記ディスプレイの略中央に設定される、請求項１に記載の情報処理装置。
　前記制御部は、前記学習処理として、予め学習したモデルの再学習を行う、請求項１に記載の情報処理装置。
　前記制御部は、
　前記仮想カメラに対し前記対称性を有するように配置された前記第１の撮像装置、前記第２の撮像装置、及び、第３の撮像装置のうち、前記第１の撮像装置と相対するようにユーザを誘導するよう前記出力装置を制御し、
　前記第１の撮像装置、前記第２の撮像装置、及び、前記第３の撮像装置の前記仮想カメラに対する前記対称性、及び、前記教師画像に基づき、前記仮想カメラの前記視点に対応させるための前記第２の撮像装置及び前記第３の撮像装置の前記視点変換の前記学習処理を行う、
　請求項１に記載の情報処理装置。
　前記制御部は、前記ユーザの表情、前記ユーザの顔の向き、及び、前記ユーザの顔の位置の少なくとも１つを誘導するよう前記出力装置に指示する、請求項１に記載の情報処理装置。
　前記制御部は、前記ユーザの表情、前記ユーザの顔の向き、及び、前記ユーザの顔の位置のうち、少なくとも２つを誘導対象とする場合、前記誘導対象を１つずつ順番に誘導するよう前記出力装置に指示する、請求項１２に記載の情報処理装置。
　ディスプレイに対し設定された仮想カメラに対し対称性を有するように配置された第１の撮像装置及び第２の撮像装置のうち、前記第１の撮像装置と相対するようにユーザを誘導するよう出力装置を制御することと、
　前記第１の撮像装置と相対した前記ユーザを含む教師画像を前記第１の撮像装置から取得することと、
　前記第１の撮像装置及び前記第２の撮像装置の前記仮想カメラに対する前記対称性及び前記教師画像に基づき、前記仮想カメラの視点に対応させるための前記第２の撮像装置の視点変換の学習処理を行うことと、
　を含む情報処理方法。
　コンピュータに、
　ディスプレイに対し設定された仮想カメラに対し対称性を有するように配置された第１の撮像装置及び第２の撮像装置のうち、前記第１の撮像装置と相対するようにユーザを誘導するよう出力装置を制御することと、
　前記第１の撮像装置と相対した前記ユーザを含む教師画像を前記第１の撮像装置から取得することと、
　前記第１の撮像装置及び前記第２の撮像装置の前記仮想カメラに対する前記対称性及び前記教師画像に基づき、前記仮想カメラの視点に対応させるための前記第２の撮像装置の視点変換の学習処理を行うことと、
を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。