WO2019167380A1

WO2019167380A1 - コンピュータプログラム、画像処理方法、及び通信装置

Info

Publication number: WO2019167380A1
Application number: PCT/JP2018/045611
Authority: WO
Inventors: 康仁藤田; 柿井　俊昭; 信夫吉江; 畑　洋一; 康野村
Original assignee: 住友電気工業株式会社
Priority date: 2018-03-01
Filing date: 2018-12-12
Publication date: 2019-09-06
Also published as: JP2021071735A

Abstract

コンピュータプログラムは、コンピュータに、ユーザの非正面の画像データを取得するための画像取得機能、及び、非正面及び正面の各々から撮像された人物の顔領域を含む人物画像から、非正面と正面とにおける前記人物画像の変化を学習させた学習モデルを用いて、前記画像取得機能が取得した前記ユーザの前記非正面の画像データに基づいて当該ユーザの正面の画像データを生成するための生成機能、を実現させる。

Description

コンピュータプログラム、画像処理方法、及び通信装置

　この発明はコンピュータプログラム、画像処理方法、及び通信装置に関する。本出願は、２０１８年３月１日出願の日本出願第２０１８－０３６１３７号に基づく優先権を主張し、前記日本出願に記載された全ての内容を援用するものである。

　複数の遠隔地を結んで双方向の画像及び音声により会議を行なうためのビデオ会議システムが知られている。ビデオ会議システムでは、会議のメンバーはディスプレイに表示された相手を見ながら話をする。会議のメンバーはカメラによって撮影され、その映像は相手側のディスプレイに表示される。カメラの設置位置はメンバーが注視するディスプレイ正面とは異なるため、ディスプレイに映る顔画像の視線がそのディスプレイを見ながら話をする相手の視線とずれる視線不一致が生じる。

　後掲の特許文献１及び２には、ビデオ会議システムにおいて、視線を一致させるための技術が提案されている。

　特許文献１では、予め学習された識別器に基づいてカメラ入力画像が表す対話者が対話相手を注視しているか否かを判定する。注視していると判定されると、カメラ入力画像が表す対話者の目領域にカメラを注視したときの画像が合成される。合成される画像は、対話者毎に予め撮影されて注視画像としてシステムに記憶されている。これにより、視線一致画像が生成される。

　特許文献２では、カメラ画像（ＲＧＢカラー画像）とともにその奥行データを出力可能なＲＧＢ－Ｄカメラが用いられる。このカメラで会議のメンバーを撮影することにより、そのメンバーの顔領域の三次元モデルを生成する。生成された三次元モデルは、ディスプレイの向きとカメラの向きとの角度差（既知）に応じて回転される。得られた回転画像でカメラ画像の顔領域を置換することにより視線一致画像が生成される。

特開２０１７－１３００４６号公報特開２０１５－１９１５３７号公報

　本開示の一態様に係るコンピュータプログラムは、コンピュータに、ユーザの非正面の画像データを取得するための画像取得機能、及び、非正面及び正面の各々から撮像された人物の顔領域を含む人物画像から、非正面と正面とにおける前記人物画像の変化を学習させた学習モデルを用いて、前記画像取得機能が取得した前記ユーザの前記非正面の画像データに基づいて当該ユーザの正面の画像データを生成するための生成機能、を実現させる。

　また、本開示の一の態様に係る画像処理方法は、ユーザの非正面の画像データを取得するステップと、非正面及び正面の各々から撮像された人物の顔領域を含む人物画像から、非正面と正面とにおける前記人物画像の変化を学習させた学習モデルを用いて、取得された前記ユーザの前記非正面の画像データに基づいて当該ユーザの正面の画像データを生成するステップと、を有する。

　また、本開示の一の態様に係る通信装置は、ユーザの非正面の画像データを取得するための画像取得部と、非正面及び正面の各々から撮像された人物の顔領域を含む人物画像から、非正面と正面とにおける前記人物画像の変化を学習させた学習モデルを用いて、前記画像取得部が取得した前記ユーザの前記非正面の画像データに基づいて当該ユーザの正面の画像データを生成するための生成部と、を備える。

　本開示は、このような特徴的な処理部を備える通信装置、かかる特徴的な処理をステップとする画像処理方法、及びかかるステップをコンピュータに実行させるためのコンピュータプログラムとして実現することができるだけでなく、通信装置の一部又は全部を実現する半導体集積回路として実現することができる。

第１の実施の形態に係る会議システムの全体構成を示す図である。図１に示す通信端末のハードウェア構成を示す制御ブロック図である。図１に示す通信端末の機能的構成を示すブロック図である。図１に示す会議システムにおける学習フェーズ及び利用フェーズの概要を説明するための図である。訓練データの取得方法を説明するための図である。訓練データの取得方法を説明するための図である。訓練データの取得時におけるカメラの設置状況を示す図である。訓練データのデータセットを説明するための図である。学習モデル構築用のコンピュータで実行されるプログラムの制御構造を示すフローチャートである。図１に示す通信端末で実行されるプログラムの制御構造を示すフローチャートである。図１０のステップＳ２１００の詳細のフローを示す図である。図１０のステップＳ２２００の詳細のフローを示す図である。第２の実施の形態に係る通信端末の機能的構成を示すブロック図である。抽出する顔パーツを説明するための図である。第２の実施の形態における学習フェーズ及び利用フェーズの概要を説明するための図である。第２の実施の形態における学習モデル構築用のコンピュータで実行されるプログラムの制御構造を示すフローチャートである。図１３に示す通信端末で実行されるプログラムの制御構造を示すフローチャートである。図１７のステップＳ３０００の詳細なフローを示す図である。顔パーツの配置基準例を説明するための図である。第３の実施の形態に係る通信端末の機能的構成を示すブロック図である。第３の実施の形態における学習フェーズ及び利用フェーズの概要を説明するための図である。第３の実施の形態における学習モデル構築用のコンピュータで実行されるプログラムの制御構造を示すフローチャートである。図２０に示す通信端末で実行されるプログラムの制御構造を示すフローチャートである。図２３のステップＳ４０００の詳細なフローを示す図である。第４の実施の形態に係る通信端末の機能的構成を示すブロック図である。図２５に示す通信端末で実行されるプログラムの制御構造を示すフローチャートである。図２６のステップＳ５０００の詳細なフローを示す図である。図２６のステップＳ６０００の詳細なフローを示す図である。第５の実施の形態に係る会議システムの全体構成を示す図である。図２９に示すサーバのハードウェア構成を示す制御ブロック図である。図２９に示すサーバで実行されるプログラムの制御構造を示すフローチャートである。図３１のステップＳ７１００の詳細なフローを示す図である。

　＜本開示が解決しようとする課題＞

　特許文献１に開示の技術では、対話者の目領域のみがカメラを注視したときの画像に置換される。視線は一致するものの、対話者の顔の向きは対話相手と一致しないため、その分、臨場感が不足するという問題がある。加えて、注視画像が記憶されていない対話者に対しては、視線一致画像を生成できないという問題もある。

　特許文献２に開示の技術では、顔領域の三次元モデルを回転させるため、顔の向きを相手と一致させることができる。しかし、そのためには、ＲＧＢ－Ｄカメラが必要になる。すなわち、特許文献２では、利用時に特別な機器が必要になるという問題がある。

　本開示は、ユーザ（対話者）を選ばず、かつ、ＲＧＢ－Ｄカメラのような特別な機器を用いることなく、臨場感の高い視線一致を実現するためのコンピュータプログラム、画像処理方法、及び通信装置を提供することを目的とする。

　＜本開示の効果＞
　本開示によれば、ユーザを選ばず、かつ、ＲＧＢ－Ｄカメラのような特別な機器を用いることなく、臨場感の高い視線一致を実現するためのコンピュータプログラムを得ることができる。

　＜本発明の実施形態の概要＞
　以下、本発明の実施形態の概要を列記して説明する。
　（１）　本実施形態に係るコンピュータプログラムは、コンピュータに、ユーザの非正面の画像データを取得するための画像取得機能、及び、非正面及び正面の各々から撮像された人物の顔領域を含む人物画像から、非正面と正面とにおける前記人物画像の変化を学習させた学習モデルを用いて、前記画像取得機能が取得した前記ユーザの前記非正面の画像データに基づいて当該ユーザの正面の画像データを生成するための生成機能、を実現させる。

　生成機能は、上記学習モデルを用いて、画像取得機能が取得したユーザの非正面の画像データに基づいて当該ユーザの正面の画像データを生成する。これにより、ユーザを選ばず、かつ、ＲＧＢ－Ｄカメラのような特別な機器を用いることなく、臨場感の高い視線一致画像を生成できる。

　（２）　また、本実施形態に係るコンピュータプログラムにおいて、前記画像取得機能は、ユーザの顔領域を含む非正面の画像を撮像するための撮像装置を介して、前記コンピュータを操作するユーザの非正面の画像データを取得するための機能を含み、前記コンピュータプログラムは、前記コンピュータに、前記生成機能により生成された前記正面の画像データを、他のコンピュータに送信するための送信機能をさらに実現させてもよい。

　生成機能により生成された正面の画像データは、送信機能によって他のコンピュータに送信される。相手側のディスプレイ（表示装置）には上記ユーザの正面画像が表示されるので、ディスプレイに映る顔画像の視線とそのディスプレイを見ながら話をする相手の視線とが一致する。正面画像は、視線のみならず、顔の向きも相手と一致する視線一致画像である。そのため、こうした正面画像を相手側のディスプレイに表示することによって臨場感をより高めることができる。上述のように、正面画像は、ユーザの非正面の画像データから学習モデルを用いて生成されるので、ＲＧＢ－Ｄカメラのような特別な機器も不要となる。加えて、上記学習モデルを用いた正面画像の生成は、ユーザの非正面の画像データがあれば可能である。そのため、どのようなユーザに対しても正面画像（視線一致画像）を容易に生成できる。すなわち、ユーザを選ばない。

　（３）　また、本実施形態に係るコンピュータプログラムにおいて、前記画像取得機能は、ネットワークを介して、他のコンピュータを操作するユーザの顔領域を含む非正面の画像データを取得するための機能を含み、前記コンピュータプログラムは、前記コンピュータに、前記生成機能により生成された前記正面の画像データが示す正面画像を表示装置に表示させるための表示機能をさらに実現させてもよい。

　生成機能により生成された正面の画像データは、表示機能によって表示装置（ディスプレイ）に表示される。ディスプレイには他のコンピュータを操作するユーザの正面画像が表示されるので、ディスプレイに映る顔画像の視線とそのディスプレイを見ながら話をするユーザの視線とが一致する。正面画像は、視線のみならず、顔の向きも相手と一致する視線一致画像である。そのため、こうした正面画像をディスプレイに表示することによって臨場感をより高めることができる。上述のように、正面画像は、ネットワークを介して取得した非正面の画像データから学習モデルを用いて生成されるので、非正面の画像データを受信する側だけでなく送信する側も、ＲＧＢ－Ｄカメラのような特別な機器が不要となる。加えて、上記学習モデルを用いた正面画像の生成は、ユーザの非正面の画像データがあれば可能である。そのため、どのようなユーザに対しても正面画像（視線一致画像）を容易に生成できる。すなわち、ユーザを選ばない。

　（４）　また、本実施形態に係るコンピュータプログラムにおいて、前記学習モデルは、非正面及び正面の各々から撮像された人物の顔領域を含む人物画像から、非正面と正面とにおける、前記人物画像の顔を構成する各顔パーツの変化を学習させた顔パーツ学習モデルを含み、前記生成機能は、前記画像取得機能が取得した前記ユーザの前記非正面の画像データから顔パーツを抽出するための顔パーツ抽出機能と、前記顔パーツ学習モデルを用いて、前記顔パーツ抽出機能が抽出した顔パーツを前記ユーザの正面の顔パーツに変換するための変換機能と、前記変換機能が変換した正面の顔パーツを用いて当該ユーザの正面の画像データを生成するための正面画像生成機能とを含んでもよい。これにより、正面の画像データの生成時間を短縮できる。

　（５）　また、本実施形態に係るコンピュータプログラムにおいて、前記学習モデルは、グループ毎に分類され、非正面及び正面の各々から撮像された人物の顔領域を含む人物画像から、非正面と正面とにおける前記人物画像の変化をグループ毎に学習させた分類学習モデルを含み、前記生成機能は、前記画像取得機能が取得した前記ユーザの前記非正面の画像データに基づいて、前記分類されたグループの中から前記非正面の画像データが示す人物画像が属するグループを選択するための選択機能と、前記選択機能が選択したグループの前記分類学習モデルを用いて、前記画像取得機能が取得した前記ユーザの前記非正面の画像データに基づいて当該ユーザの正面の画像データを生成するための機能とを含んでもよい。これにより、正面の画像データの生成精度を高めることができる。

　（６）　また、本実施形態に係るコンピュータプログラムにおいて、前記学習モデルは、方向が互いに異なる複数の非正面から撮像された人物の顔領域を含む人物画像と、正面から撮像された当該人物の顔領域を含む人物画像とから、非正面と正面とにおける前記人物画像の変化を学習させており、前記生成機能は、前記学習モデルを用いて、前記画像取得機能が取得した前記ユーザの前記非正面の画像データに基づいて当該ユーザの正面の画像データを生成してもよい。これにより、より効果的に、正面の画像データを生成できる。例えば、撮像装置の設置位置を変えた場合でも、ユーザの非正面の画像データから学習モデルを用いて正面の画像データを生成できる。

　（７）　本実施形態に係る画像処理方法は、ユーザの非正面の画像データを取得するステップと、非正面及び正面の各々から撮像された人物の顔領域を含む人物画像から、非正面と正面とにおける前記人物画像の変化を学習させた学習モデルを用いて、取得された前記ユーザの前記非正面の画像データに基づいて当該ユーザの正面の画像データを生成するステップと、を有する。

　生成するステップでは、上記学習モデルを用いて、画像データを取得するステップにおいて取得されたユーザの非正面の画像データに基づいて当該ユーザの正面の画像データが生成される。これにより、ユーザを選ばず、かつ、ＲＧＢ－Ｄカメラのような特別な機器を用いることなく、臨場感の高い視線一致画像を生成できる。

　（８）　本実施形態に係る通信装置は、ユーザの非正面の画像データを取得するための画像取得部と、非正面及び正面の各々から撮像された人物の顔領域を含む人物画像から、非正面と正面とにおける前記人物画像の変化を学習させた学習モデルを用いて、前記画像取得部が取得した前記ユーザの前記非正面の画像データに基づいて当該ユーザの正面の画像データを生成するための生成部と、を備える。

　生成部は、上記学習モデルを用いて、画像取得部が取得したユーザの非正面の画像データに基づいて当該ユーザの正面の画像データを生成する。これにより、ユーザを選ばず、かつ、ＲＧＢ－Ｄカメラのような特別な機器を用いることなく、臨場感の高い視線一致画像を生成できる。

　＜本発明の実施形態の詳細＞
　以下、図面を参照して、本発明の実施形態の詳細を説明する。なお、以下に記載する実施形態の少なくとも一部を任意に組み合わせてもよい。以下の説明では、同一の部品および構成要素には同一の符号を付してある。それらの名称および機能も同じである。したがって、これらの説明は繰り返さない。

　以下の実施の形態では、同一の部品には同一の参照番号を付してある。それらの機能及び名称も同一である。従って、それらについての詳細な説明は繰返さない。以下では、遠隔コミュニケーションシステムの一種であるビデオ会議システムに本発明を適用した例について説明する。
　（第１の実施の形態）
　［全体構成］
　図１を参照して、本実施の形態に係るビデオ会議システム１０は、第１の通信端末１００Ａ及び第２の通信端末１００Ｂを含む。第１の通信端末１００Ａ及び第２の通信端末１００Ｂはいずれもパーソナルコンピュータ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ：ＰＣ）であり、総称する場合は「通信端末１００」と記す。第１の通信端末１００Ａと第２の通信端末１００Ｂとは、ネットワーク５０を介して、互いに通信可能に接続されている。本実施の形態では、第１の通信端末１００Ａは会議のメンバーであるユーザＡが使用するものとし、第２の通信端末１００Ｂは同じ会議のメンバーであるユーザＢが使用するものとする。なお、通信端末１００の台数は２台に限定されず、３台以上であってもよい。

　ビデオ会議システム１０はさらに、通信端末１００に接続される、ディスプレイ６０、カメラ７０、及びマイクスピーカ８０を含む。ディスプレイ６０は第１のディスプレイ６０ａ及び第２のディスプレイ６０ｂを含み、カメラ７０は第１のカメラ７０ａ及び第２のカメラ７０ｂを含み、マイクスピーカ８０は第１のマイクスピーカ８０ａ及び第２のマイクスピーカ８０ｂを含む。

　第１の通信端末１００Ａには、第１のディスプレイ６０ａ、第１のカメラ７０ａ、及び第１のマイクスピーカ８０ａが接続される。第１のディスプレイ６０ａは、例えば液晶ディスプレイ等の表示装置であり、相手メンバー（ユーザＢ）の画像を表示する。第１のカメラ７０ａは、第１の通信端末１００Ａを使用するユーザＡを撮像するための撮像装置である。第１のカメラ７０ａには、例えば、静止画像及び動画像を撮影可能なＷｅｂカメラを用いることができる。第１のマイクスピーカ８０ａは、マイク８２ａ及びスピーカ８４ａを含む。第１のマイクスピーカ８０ａは、ハウジングによってマイク８２ａ及びスピーカ８４ａが一体化されている。

　同様に、第２の通信端末１００Ｂには、第２のディスプレイ６０ｂ、第２のカメラ７０ｂ、及び第２のマイクスピーカ８０ｂが接続されている。第２のディスプレイ６０ｂは、例えば液晶ディスプレイ等の表示装置であり、相手メンバー（ユーザＡ）の画像を表示する。第２のカメラ７０ｂは、第２の通信端末１００Ｂを使用するユーザＢを撮像するための撮像装置である。第２のカメラ７０ｂには、例えば、静止画像及び動画像を撮影可能なＷｅｂカメラを用いることができる。第２のマイクスピーカ８０ｂは、マイク８２ｂ及びスピーカ８４ｂを含む。第２のマイクスピーカ８０ｂは、ハウジングによってマイク８２ｂ及びスピーカ８４ｂが一体化されている。

　なお、マイクスピーカ８０に代えて、マイクとスピーカとが別々に第１の通信端末１００Ａ及び第２の通信端末１００Ｂに接続される構成であってもよい。マイクはカメラ７０に内蔵されるタイプであってもよい。スピーカもディスプレイ６０に内蔵されるタイプであってもよい。また、マイク８２ａ及び８２ｂ、並びにスピーカ８４ａ及び８４ｂは、総称する場合は、それぞれ、マイク８２及びスピーカ８４と記す。

　第１の通信端末１００Ａは、第１のカメラ７０ａによってユーザＡの顔領域を含む画像を撮像し、第１のマイクスピーカ８０ａ（マイク８２ａ）によってユーザＡの音声を取得する。第１の通信端末１００Ａは、ユーザＡの画像及び音声を、ネットワーク５０を介して他の通信端末（ここでは、第２の通信端末１００Ｂ）に送信する。第２の通信端末１００Ｂは、第１の通信端末１００Ａから送信されたユーザＡの画像を第２のディスプレイ６０ｂに表示し、これに同期して、ユーザＡの音声を第２のマイクスピーカ８０ｂ（スピーカ８４ｂ）から出力する。

　同様に、第２の通信端末１００Ｂは、第２のカメラ７０ｂによってユーザＢの顔領域を含む画像を撮像し、第２のマイクスピーカ８０ｂ（マイク８２ｂ）によってユーザＢの音声を取得する。第２の通信端末１００Ｂは、ユーザＢの画像及び音声を、ネットワーク５０を介して他の通信端末（ここでは、第１の通信端末１００Ａ）に送信する。第１の通信端末１００Ａは、第２の通信端末１００Ｂから送信されたユーザＢの画像を第１のディスプレイ６０ａに表示し、これに同期して、ユーザＢの音声を第１のマイクスピーカ８０ａ（スピーカ８４ａ）から出力する。

　ビデオ会議システム１０の利用時に、第１のカメラ７０ａによって撮像されるユーザＡの画像、及び第２のカメラ７０ｂによって撮像されるユーザＢの画像は、いずれも、非正面画像となる。

　より詳細に説明すると、ユーザがディスプレイ６０を注視している状態では、当該ユーザの正面にはディスプレイ６０の画面が位置することになる。通常、カメラ７０はディスプレイ６０のフレーム部分に設置される。すなわち、カメラ７０の設置位置はユーザが注視するディスプレイ正面とは異なる。そのため、カメラ７０によるユーザの撮像は斜め方向からの撮像となる。よって、得られる画像はユーザの非正面画像となる。

　第１の通信端末１００Ａは、ユーザＡの非正面画像に基づいて、後述する学習モデルを用いて、ユーザＡの正面画像を生成し、生成した正面画像を第２の通信端末１００Ｂに送信する。第２の通信端末１００Ｂも同様に、ユーザＢの非正面画像に基づいて、後述する学習モデルを用いて、ユーザＢの正面画像を生成し、生成した正面画像を第１の通信端末１００Ａに送信する。

　ここで、ディスプレイに対して「正面」とは、ユーザの顔の向きがディスプレイの法線に沿った方向から所定の境界角度以下の範囲内にあることをいい、「非正面」とは、ユーザの顔の向きがディスプレイの法線に沿った方向から所定の境界角度より大きい範囲内にあることをいう。境界角度は、水平方向の角度と垂直方向の角度とを含む。この境界角度は、例えば０度以上４５度以下とすることができる。より好ましい境界角度は０度以上３０度以下であり、さらに好ましい境界角度は０度以上１５度以下である。上記した「正面画像」とは、正面方向から見たユーザの画像を意味し、「非正面画像」とはそれ以外の方向（非正面方向）から見た当該ユーザの画像を意味する。具体的には、例えば、ディスプレイ６０の対話相手が表示される部分をユーザが注視している状態において、当該対話相手が表示される部分から見たユーザの画像が「正面画像」となり、そのときにカメラ７０によって撮像される画像が「非正面画像」となる。

　ユーザＡ側の第１のディスプレイ６０ａにはユーザＢの正面画像が表示され、ユーザＢ側の第２のディスプレイ６０ｂにはユーザＡの正面画像が表示される。したがって、第１のディスプレイ６０ａに映るユーザＢの視線とその第１のディスプレイ６０ａを見ながら話をするユーザＡの視線とが一致する。同様に、第２のディスプレイ６０ｂに映るユーザＡの視線とその第２のディスプレイ６０ｂを見ながら話をするユーザＢの視線とが一致する。

　［ハードウェア構成］
　《通信端末１００》
　図２を参照して、通信端末１００は、制御部１１０、記憶装置１２０、入力インターフェイス（以下「インターフェイス」を「ＩＦ」と記す。）１３０、出力ＩＦ１４０、及び通信ＩＦ１５０を含む。

　制御部１１０は、実質的にコンピュータであって、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１１２、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１１４、ＲＯＭ（Ｒｅａｄ－Ｏｎｌｙ　Ｍｅｍｏｒｙ）１１６、及び、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１１８を含む。ＣＰＵ１１２は通信端末１００全体を制御する。ＧＰＵ１１４は、画像の演算処理を実行する。ＲＯＭ１１６は不揮発性の記憶装置である。ＲＯＭ１１６にはＣＰＵ１１２が通信端末１００を制御するためのプログラム及びデータが記憶されている。ＲＡＭ１１８は揮発性の記憶装置である。記憶装置１２０は不揮発性の記憶装置であり、例えばハードディスクドライバ（ＨＤＤ）又はフラッシュメモリである。

　ＣＰＵ１１２、ＧＰＵ１１４、ＲＯＭ１１６、ＲＡＭ１１８、記憶装置１２０、入力ＩＦ１３０、出力ＩＦ１４０、及び通信ＩＦ１５０はいずれもバス１６０に接続されており、相互間のデータ交換はバス１６０を介して行なわれる。

　入力ＩＦ１３０は、カメラ７０及びマイク８２との間の接続に関するインターフェイスを提供する。入力ＩＦ１３０はさらに、マウス及びキーボード（以上、いずれも図示せず。）との間の接続に関するインターフェイスを提供する。出力ＩＦ１４０は、ディスプレイ６０及びスピーカ８４との間の接続に関するインターフェイスを提供する。通信ＩＦ１５０は、有線又は無線（本実施の形態においては有線）によりネットワーク５０への接続を提供する。

　バス１６０、ＧＰＵ１１４、ＲＯＭ１１６、ＲＡＭ１１８、記憶装置１２０、入力ＩＦ１３０、出力ＩＦ１４０及び通信ＩＦ１５０は、いずれもＣＰＵ１１２の制御のもとに協調して動作し、本実施の形態に係る通信端末として通信端末１００は種々のアプリケーション（コンピュータプログラム）による処理を実現する。それらのアプリケーションは、例えば、ユーザを選ばず、かつ、ＲＧＢ－Ｄカメラ（Ｄｅｐｔｈカメラ）のような特別な機器を用いることなく、臨場感のより高い視線一致画像を生成して表示するビデオ会議システムにおける通信端末を実現する。

　通信端末１００はさらに、カメラ７０で撮像したユーザの非正面画像から当該ユーザの正面画像を生成する際に用いる学習モデルを記憶装置１２０に記憶している。

　通信端末１００に、本実施の形態に係るビデオ会議システム１０における通信端末としての動作を行なわせるためのコンピュータプログラムは、通信端末１００に接続される光ディスクドライブ（図示せず。）に挿入される光ディスクに記憶され、さらに記憶装置１２０に転送される。又は、プログラムはネットワーク５０を通じて通信端末１００に送信され記憶装置１２０に記憶されてもよい。プログラムは実行の際にＲＡＭ１１８にロードされる。光ディスクから、又はネットワーク５０を介して、直接にＲＡＭ１１８にプログラムをロードしてもよい。

　［機能的構成］
　図３を参照して、通信端末１００の制御部１１０は、機能部としての画像処理部２００及び音声処理部２１０を含む。画像処理部２００は画像生成部２０２を含む。記憶装置１２０は、非正面及び正面の各々から撮像された人物の顔領域を含む人物画像から、非正面と正面とにおける人物画像の変化を機械学習させた学習モデルを記憶させた学習モデル記憶部１２２を含む。

　画像処理部２００は、カメラ７０を介して、ユーザの非正面の画像データを取得するための画像取得機能を持つ。画像生成部２０２は、学習モデル記憶部１２２に記憶された学習モデルを用いて、上記画像取得機能によって取得されたユーザの非正面の画像データに基づいて当該ユーザの正面の画像データを生成するための生成機能を持つ。音声処理部２１０は、マイク８２を介してユーザの音声データを取得して所定の処理を実行する機能を持つ。制御部１１０はさらに、通信ＩＦ１５０を制御して、上記生成機能により生成された正面の画像データ及び音声処理部２１０が取得した音声データをネットワーク５０上の他の通信端末に送信するための送信機能を持つ。

　これらの機能の実現は、制御部１１０のＣＰＵ１１２が上記コンピュータプログラムにしたがって通信端末１００を制御することによって達成される。

　［学習モデルの構築］
　本ビデオ会議システム１０では、予め、機械学習によって学習モデルが構築されている。構築された学習モデルは、本ビデオ会議システム１０の利用時において、ユーザの正面画像を生成する際に用いられる。本実施の形態において、学習モデルを構築するフェーズを「学習フェーズ」と呼び、ビデオ会議システム１０を利用するフェーズを「利用フェーズ」と呼ぶ。

　学習モデルの構築には、ビデオ会議システム１０を構成する通信端末１００とは異なるコンピュータを用いることができる。無論、ビデオ会議システム１０を構成する通信端末１００を用いて学習モデルを構築することも可能である。

　図４を参照して、学習フェーズでは、人物の顔領域を含む、当該人物の非正面及び正面の人物画像を訓練データとして用いる。学習モデルを構築するためのコンピュータは学習モデル生成部２２０を含む。学習モデル生成部２２０には、人物の非正面画像と、当該人物の正面画像とが入力される。正面画像は教師データとして用いられる。すなわち、学習モデル生成部２２０は、非正面と正面とにおける人物画像の変化を学習する。より具体的には、学習モデル生成部２２０は、入力された非正面画像に対してその正面画像がどのようになるのか（非正面画像から正面画像への変化）を機械学習する。機械学習のアルゴリズムには、例えば、ディープニューラルネットワーク（ＤＮＮ）の一種である畳込みニューラルネットワーク（ＣＮＮ）等を用いることができる。その他、例えばＧＡＮ（Ｇｅｎｅｒａｔｉｖｅ　Ａｄｖｅｒｓａｒｉａｌ　Ｎｅｔｗｏｒｋ）等の公知のアルゴリズムを適宜用いてもよい。

　図５を参照して、訓練データは、複数のカメラ１７０及びカメラ１８０で顔領域を含む人物画像を撮像することによって取得される。カメラ１７０は人物の非正面画像を取得し、カメラ１８０は当該人物の正面画像を取得する。そのため、カメラ１７０は人物の非正面画像を撮像可能な位置に設置され、カメラ１８０は当該人物の正面画像を撮像可能な位置に設置される。例えば、カメラ１７０は、ビデオ会議システム１０の利用時にカメラ７０が通常設置される場所（例えばディスプレイ１９０の上部等）に設置される。カメラ１８０は、ディスプレイ１９０裏側の正面位置（例えば、対話相手が表示される位置）に設置される。ディスプレイ１９０のカメラ１８０が設置される位置には穴加工が施されており、カメラ１８０によって、ディスプレイ１９０を注視する人物の正面画像を撮像可能に構成されている。カメラ１７０及びカメラ１８０による人物画像の撮像時には、対話相手の画像をディスプレイ１９０に表示させてもよい。これにより、利用フェーズをより考慮した訓練データが取得される。なお、複数のカメラ１７０及びカメラ１８０は、いずれも、同じ機種又は同等の機能を持つカメラを用いるのが好ましい。

　ディスプレイ１９０に穴加工を施す代わりに、ハーフミラーを用いてもよい。図６を参照して、人物の正面にはハーフミラー１９４が所定の角度で傾けた状態で設置され、カメラ１８０はそのハーフミラー１９４の裏側に設置される。ハーフミラー１９４の下方にはディスプレイ１９２が配置される。カメラ１８０はハーフミラー１９４を透過した人物の正面画像を撮像する。カメラ１７０は、図５と同様、人物の非正面画像を撮像可能な位置に設置される。

　なお、人物の非正面画像を撮像可能な位置にカメラ１７０が設置され、当該人物の正面画像を撮像可能な位置にカメラ１８０が設置されていれば、訓練データを取得することは可能である。そのため、ディスプレイ１９０（図５参照）に代えてダミーのディスプレイ（図示せず。）を用いてもよい。これにより、ディスプレイへの穴加工が容易となる。さらに、カメラ１７０及びカメラ１８０を支持する支持部材があれば、ディスプレイを設けない構成とすることも可能である。

　図７を参照して、人物の非正面画像を撮像するためのカメラ１７０を複数台設置して訓練データを取得するようにすればより好ましい。例えば、ディスプレイの上端中央部にカメラ１７０を設置し、ディスプレイの右端部にカメラ１７２を設置し、ディスプレイの左端部にカメラ１７４を設置するようにしてもよい。これにより、ビデオ会議システム１０の利用時にカメラ７０（図１参照）の設置が想定される複数の位置に対応した位置で訓練データを取得できる。このような訓練データを用いて機械学習を行なうことにより、学習モデルを構築するようにしてもよい。この場合も、上述のように、ハーフミラーを用いるようにしてもよいし、ダミーのディスプレイを用いるようにしてもよい。さらに、ディスプレイを設けない構成としてもよい。

　図８を参照して、訓練データのデータセット２３０は、正面画像と非正面画像とがペアになった複数の訓練データ２３０＿１～２３０＿ｎを含む。データセット２３０は、種々の人物の訓練データを含むよう構成されていると好ましい。例えば、人物の顔を構成する顔パーツ（目、鼻、口等）の相対位置が異なる、様々な顔のタイプ（丸顔、四角顔等）、又は、体形、性別、年齢等が異なる人物の人物画像を上記方法で撮像することによって訓練データを取得するようにするのが好ましい。さらに、正面画像の生成精度を向上させる観点から、訓練データはできるだけ多く収集するのが好ましい。

　訓練データのデータセット２３０は、学習用の訓練データと、学習モデルの精度を確認するためのテスト用の訓練データとに分けられる。すなわち、データセット２３０の一部は、学習モデルの精度を確認するためのテストデータに用いられる。

　再び図４を参照して、学習フェーズでは上記のようにして学習モデルが構築される。構築された学習モデルは、通信端末１００の画像生成部２０２（図３参照）で利用可能に学習モデル記憶部１２２に記憶される。

　［ソフトウェア構成］
　〈学習フェーズ〉
　図９を参照して、学習モデルを構築するために、学習モデル構築用のコンピュータで実行されるコンピュータプログラムの制御構造について説明する。このプログラムは、ユーザの操作に応じて開始する。

　このプログラムは、モデルパラメータの初期化を行なうステップＳ１０００と、ステップＳ１０００の後に実行され、以下に説明するステップＳ１０２０～ステップＳ１０４０を、前回の繰返しと今回の繰返しにおける学習モデルの精度の差が所定の値以下となるまで機械学習を繰返すステップＳ１０１０と、ステップＳ１０１０の後に実行され、機械学習によって構築された学習モデルを保存するステップＳ１０５０とを含む。

　ステップＳ１０１０において、学習モデルの精度の差が所定の値以下となるまで機械学習を繰返す処理は、人物の正面画像及び非正面画像のペアからなる訓練データのデータセットを入力し、正面画像を教師データとして、非正面画像及び正面画像における人物画像の変化を学習するステップＳ１０２０と、ステップＳ１０２０の後に実行され、学習により得られたモデルにテストデータを入力して当該モデルをテストするステップＳ１０３０と、ステップＳ１０３０の後に実行され、テストデータを入力して得られるデータと当該テストデータの正面画像データとを比較することで精度計算を行ない、前回の精度と比較するステップＳ１０４０とを含む。

　構築された学習モデルは、通信端末１００の記憶装置１２０に記憶され、これによって、学習モデル記憶部１２２が形成される。

　〈利用フェーズ〉
　図１０を参照して、ビデオ会議システム１０の利用時に、ビデオ会議システム１０を構成する通信端末１００で実行されるコンピュータプログラムの制御構造について説明する。このプログラムは、ユーザの操作に応じて開始する。

　このプログラムは、他の通信端末に対して通信が接続されているか否かを判定し、通信が接続されるまで待機するステップＳ２０００と、通信が接続されたことに応答して、映像データの送信処理を実行するステップＳ２１００と、通信が接続されたことに応答して、映像データの受信処理を実行するステップＳ２２００と、ステップＳ２１００及びステップＳ２２００の後に実行され、通信が終了したか否かを判定し、判定結果に応じて制御の流れを分岐させるステップＳ２３００とを含む。ステップＳ２３００において、通信が終了していないと判定された場合は、制御はステップＳ２１００及びステップＳ２２００に戻る。ステップＳ２３００において、通信が終了したと判定された場合は、このプログラムは終了する。

　図１１は、図１０のステップＳ２１００の詳細なフローである。図１１を参照して、このルーチンは、カメラ７０（図３参照）から出力された、顔領域を含むユーザの画像データ（非正面画像データ）を画像生成部２０２に入力するステップＳ２１１０と、ステップＳ２１１０の後に実行され、学習モデル記憶部１２２に記憶されている学習モデルを用いて、非正面の入力画像データを正面画像データに変換するステップＳ２１２０と、非正面画像データの入力と並行して、マイク８２（図３参照）が取得した音声データを音声処理部２１０に入力するステップＳ２１３０と、ステップＳ２１２０及びステップＳ２１３０の後に実行され、正面画像データ及び音声データを圧縮処理（エンコード）した後、通信ＩＦ１５０（図３参照）を介して、他の通信端末に圧縮処理後のデータを送信するステップＳ２１４０とを含む。ステップＳ２１４０の処理が終了すると、このルーチンは終了する。

　図１２は、図１０のステップＳ２２００の詳細なフローである。図１２を参照して、このルーチンは、ネットワーク５０を介して他の通信端末から送信された映像データ（画像データ及び音声データ）を取得し、取得した映像データを伸張処理（デコード）するステップＳ２２１０と、ステップＳ２２１０の後に実行され、取得した画像データをディスプレイ６０に表示するステップＳ２２２０と、ステップＳ２２１０の後に実行され、ディスプレイ６０への表示と同期して、取得した音声データをスピーカ８４（図３参照）から出力するステップＳ２２３０とを含む。ステップＳ２２２０及びステップＳ２２３０の処理が終了すると、このルーチンは終了する。

　［動作］
　本実施の形態に係るビデオ会議システム１０は以下のように動作する。

　図１を参照して、第１の通信端末１００Ａと第２の通信端末１００Ｂとがネットワーク５０を介して接続されている（図１０のステップＳ２０００においてＹＥＳ）。第１のカメラ７０ａは、ユーザＡの顔領域を含む非正面画像を撮像する。第１のマイクスピーカ８０ａ（マイク８２ａ）は、ユーザＡが発した音声を集音する。同様に、第２のカメラ７０ｂは、ユーザＢの顔領域を含む非正面画像を撮像する。第２のマイクスピーカ８０ｂ（マイク８２ｂ）は、ユーザＢが発した音声を集音する。

　図３を参照して、第１の通信端末１００Ａの画像処理部２００（画像生成部２０２）には、第１のカメラ７０ａで撮像されたユーザＡの非正面画像データが入力される（図１１のステップＳ２１１０）。画像生成部２０２は、非正面画像データが入力されると、学習モデル記憶部１２２に記憶されている学習モデルを用いて、入力された非正面画像データに基づいて、ユーザＡの正面画像データを生成して出力する（ステップＳ２１２０）。入力される非正面画像データが動画データである場合、画像生成部２０２は、例えばフレーム画像毎にユーザＡの正面画像データを生成して出力する。第１のマイクスピーカ８０ａ（マイク８２ａ）が集音したユーザＡの音声データは、音声処理部２１０に入力される（ステップＳ２１３０）。

　画像処理部２００は、画像生成部２０２が生成した正面画像データを圧縮処理する。音声処理部２１０は、入力された音声データを圧縮処理する。制御部１１０は、圧縮処理された正面画像データ及び音声データを、ネットワーク５０を介して第２の通信端末１００Ｂに送信するよう、通信ＩＦ１５０を制御する（ステップＳ２１４０）。

　第２の通信端末１００Ｂも第１の通信端末１００Ａと同様に動作する。

　第２の通信端末１００Ｂは、第１の通信端末１００Ａから送信された正面画像データ及び音声データを受信し、それらデータを伸張処理する（図１２のステップＳ２２１０）。第２の通信端末１００Ｂは、正面画像データが示すユーザＡの正面画像を第２のディスプレイ６０ｂに表示し（ステップＳ２２２０）、それに同期して、ユーザＡの音声をスピーカ８４ｂから出力する（ステップＳ２２３０）。

　同様に、第１の通信端末１００Ａは、第２の通信端末１００Ｂから送信された正面画像データ及び音声データを受信し、それらデータを伸張処理する。第１の通信端末１００Ａは、正面画像データが示すユーザＢの正面画像を第１のディスプレイ６０ａに表示し、それに同期して、ユーザＢの音声をスピーカ８４ａから出力する。

　ユーザＡ及びユーザＢは、それぞれ、第１のディスプレイ６０ａに表示されたユーザＢ及び第２のディスプレイ６０ｂに表示されたユーザＡの映像を見ながら互いに遠隔対話を行なう。

　［本実施の形態の効果］
　以上の説明から明らかなように、本実施の形態に係るコンピュータプログラムをビデオ会議システム１０に適用することにより、以下に述べる効果を奏する。

　画像生成部２０２は、学習モデル記憶部１２２に記憶されている学習モデルを用いて、ユーザの非正面の画像データに基づいて当該ユーザの正面の画像データを生成する。生成された正面の画像データは、ネットワーク５０を介して、他の通信端末に送信される。相手側のディスプレイには上記ユーザの正面画像が表示されるので、ディスプレイに映る顔画像の視線とそのディスプレイを見ながら話をする相手の視線とが一致する。正面画像は、視線のみならず、顔の向きも相手と一致する視線一致画像である。加えて、体の部位の位置も相手と一致するよう補正される。そのため、こうした正面画像を相手側のディスプレイに表示することによって対話時の臨場感をより高めることができる。さらに、正面画像は、ユーザの非正面の画像データから学習モデルを用いて生成されるので、ＲＧＢ－Ｄカメラのような特別な機器も不要となる。加えて、上記学習モデルを用いた正面画像の生成は、ユーザの非正面の画像データがあれば可能である。そのため、どのようなユーザに対しても正面画像（視線一致画像）を生成できる。すなわち、ユーザを選ばない。

　複数台のカメラを用いて人物の非正面画像を撮像し、これら非正面データを訓練データとして用いることにより、方向が互いに異なる複数の非正面から撮像された人物の顔領域を含む人物画像と、正面から撮像された当該人物の顔領域を含む人物画像とから、非正面と正面とにおける人物画像の変化を機械学習させて学習モデルを構築できる。こうした学習モデルを用いることにより、より効果的に、ユーザの非正面画像データから正面画像データを生成できる。例えば、ビデオ会議システム１０の利用時に、カメラ７０の設置位置を変えた場合でも、ユーザの非正面の画像データから学習モデルを用いてより正確な正面画像データを生成できる。加えて、ディスプレイの向きとカメラの向きとの角度差を予め測定しておく必要もないため、そうした手間を省くこともできる。

　（第２の実施の形態）
　本実施の形態に係る通信端末は、非正面画像データに基づく正面画像データの生成方法が第１の実施の形態とは異なる。

　図１３を参照して、本実施の形態に係る通信端末３００は、制御部１１０（図３参照）に代えて、制御部３１０を含む。制御部３１０は、機能部としての画像処理部３２０及び音声処理部２１０を含む。画像処理部３２０は画像生成部３２２を含み、画像生成部３２２はパーツ配置部３２４を含む。通信端末３００はさらに、記憶装置１２０（図３参照）に代えて、記憶装置３４０を含む。記憶装置３４０は、学習モデル記憶部３４２を含む。

　画像生成部３２２は、ユーザの非正面画像から当該ユーザの顔を構成する顔パーツ（顔パーツ画像）を抽出するための顔パーツ抽出機能、学習モデル記憶部３４２に記憶されている学習モデルを用いて、抽出された各顔パーツをそれぞれ正面画像の各顔パーツに変換するための変換機能、及び、変換した正面の顔パーツを用いて当該ユーザの正面の画像データを生成するための正面画像生成機能を持つ。正面画像生成機能は、非正面画像において、各顔パーツをそれぞれ正面画像の各顔パーツに置換えた後に、予め定められた配置基準に基づいて配置を調整することでユーザの正面画像データを生成する機能を持つ。正面画像の各顔パーツの配置は、パーツ配置部３２４によって行なわれる。

　図１４を参照して、抽出される顔パーツ画像は、例えば、左目画像３５０、右目画像３５２、鼻画像３５４、口画像３５６、及び顔の輪郭画像３５８を含む。

　［学習モデルの構築］
　図１５を参照して、本実施の形態で用いる学習モデルは、非正面と正面とにおける、人物画像の各顔パーツの変化を機械学習させた顔パーツ学習モデル３４４を含む。学習モデルは、人物の非正面画像及び正面画像から顔パーツを抽出し、抽出した各顔パーツを訓練データとして用いることで、顔パーツ毎に学習モデル生成部２２０ａに機械学習させることで構築される。その他の構成は第１の実施の形態と同様である。

　［ソフトウェア構成］
　〈学習フェーズ〉
　図１６を参照して、学習モデルを構築するために、学習モデル構築用のコンピュータで実行されるコンピュータプログラムの制御構造について説明する。このプログラムは、ユーザの操作に応じて開始する。

　このプログラムは、モデルパラメータの初期化を行なうステップＳ１１００と、ステップＳ１１００の後に実行され、入力された訓練データの各画像から各顔パーツを抽出するステップＳ１１１０と、ステップＳ１１１０の後に実行され、以下に説明するステップＳ１１３０～ステップＳ１１５０を、前回の繰返しと今回の繰返しにおける学習モデルの精度の差が所定の値以下となるまで機械学習を繰返すステップＳ１１２０と、ステップＳ１１２０の後に実行され、機械学習によって構築された学習モデルを保存するステップＳ１１６０とを含む。

　ステップＳ１１６０において、学習モデルの精度の差所定の値以下となるまで機械学習を繰返す処理は、正面画像から抽出した各パーツ画像を教師データとして、非正面画像及び正面画像における各顔パーツの変化を学習するステップＳ１１３０と、ステップＳ１１３０の後に実行され、学習により得られた各モデルにテストデータを入力して当該各モデルをテストするステップＳ１１４０と、ステップＳ１１４０の後に実行され、テストデータを入力して得られるデータと当該テストデータの正面画像データとを比較することで精度計算を行ない、前回の繰返しの精度と比較するステップＳ１１５０とを含む。ステップＳ１１３０では、非正面画像の各顔パーツをどのように補正すれば正面画像の各顔パーツが得られるかを入力された訓練データによって機械学習する。

　構築された学習モデルは、通信端末３００の記憶装置３４０に記憶され、これによって、学習モデル記憶部３４２が形成される。

　〈利用フェーズ〉
　本実施の形態に係るビデオ会議システム（通信端末３００）では、図１０に示されるプログラムに代えて、図１７に示されるプログラムが実行される。図１７のプログラムは、図１０のステップＳ２１００に代えて、ステップＳ３０００を含む。図１７のステップＳ２０００、ステップＳ２２００、及びステップＳ２３００における処理は、図１０に示される各ステップにおける処理と同じである。

　図１８は、図１７のステップＳ３０００の詳細なフローである。図１８を参照して、このルーチンは、カメラ７０（図１３参照）から出力された、顔領域を含むユーザの画像データ（非正面画像データ）を画像生成部３２２に入力するステップＳ３０１０と、ステップＳ３０１０の後に実行され、入力画像データから顔パーツを抽出するステップＳ３０２０と、ステップＳ３０２０の後に実行され、学習モデル記憶部３４２に記憶されている顔パーツ学習モデル３４４（図１５参照）を用いて、非正面の入力画像データの各顔パーツをそれぞれ正面画像データの各顔パーツに変換するステップＳ３０３０と、ステップＳ３０３０の後に実行され、変換された各顔パーツを用いてユーザの正面画像データを生成するステップＳ３０４０と、非正面画像データの入力と並行して、マイク８２（図１３参照）が取得した音声データを音声処理部２１０に入力するステップＳ３０５０と、ステップＳ３０４０及びステップＳ３０５０の後に実行され、正面画像データ及び音声データを圧縮処理した後に、通信ＩＦ１５０（図１３参照）を介して、他の通信端末に圧縮処理後のデータを送信するステップＳ３０６０とを含む。ステップＳ３０６０の処理が終了すると、このルーチンは終了する。

　ステップＳ３０４０では、入力された非正面画像において、各顔パーツ画像を変換後の各顔パーツ画像にそれぞれ置換える処理、及び、変換後の各顔パーツ画像を予め定められた配置基準に基づいて配置調整を行なう処理が実行される。変換後の各顔パーツ画像の配置は、パーツ配置部３２４によって、例えば、以下に示す配置基準に基づいて行なわれる。

　図１９（Ａ）を参照して、パーツ配置部３２４は、入力された非正面画像において、両耳を結ぶ線分Ｌ１と顔の中心線Ｍ１との交点（基準点Ｃ１）、及び、あごの先端の点（基準点Ｄ１）を求め、基準点Ｃ１から基準点Ｄ１までの長さＰ１及び顔の幅Ｈ１を算出する。パーツ配置部３２４はさらに、各顔パーツの基準点Ｃ１に対する距離（位置）を算出する。

　図１９（Ｂ）を参照して、パーツ配置部３２４は、変換後の輪郭画像において、両耳を結ぶ線分Ｌ２と顔の中心線Ｍ２との交点（基準点Ｃ２）と、あごの先端の点（基準点Ｄ２）とを求め、基準点Ｃ２から基準点Ｄ２までの長さＰ２及び顔の幅Ｈ２を算出する。パーツ配置部３２４は、入力された非正面画像において、例えば、基準点Ｃ１と基準点Ｃ２とが一致するようにして、変換前の輪郭画像を変換後の輪郭画像に置換える。パーツ配置部３２４はさらに、変換後の各顔パーツが配置される位置（基準点Ｃ２に対する位置）を、長さＰ１と長さＰ２との比、及び、幅Ｈ１と幅Ｈ２との比に基づいて算出し、算出された位置に変換後の各顔パーツが配置されるよう、残りの顔パーツを置換える。

　例えば、入力された非正面画像において、右目の基準点Ｃ１に対する位置が（ｘ１、ｙ１）であった場合、変換後の右目画像を配置する位置（ｘ２、ｙ２）は以下の式から算出される。
　ｘ２＝ｘ１（Ｈ２／Ｈ１）
　ｙ２＝ｙ１（Ｐ２／Ｐ１）

　他の顔パーツの配置位置も上記と同様にして算出される。なお、配置基準は上記した基準に限定されず、他の基準を用いてもよい。

　［作用・効果］
　学習モデルは、非正面及び正面の各々から撮像された人物の顔領域を含む人物画像から、非正面と正面とにおける、人物画像の顔を構成する各顔パーツの変化を学習させた顔パーツ学習モデル３４４を含む。画像生成部３２２は、入力された、ユーザの非正面画像から当該ユーザの顔を構成する顔パーツ（顔パーツ画像）を抽出し、顔パーツ学習モデル３４４を用いて、抽出した各顔パーツをユーザの正面の各顔パーツに変換する。画像生成部３２２はさらに、変換した正面の顔パーツを用いて当該ユーザの正面の画像データを生成する。ユーザの正面画像データを生成する際に、画像全体ではなく、画像の一部（顔パーツ）を変換して正面画像データを生成するため、正面画像データの生成時間を短縮できる。

　その他の効果は第１の実施の形態と同様である。

　（第３の実施の形態）
　本実施の形態に係る通信端末は、非正面画像データに基づく正面画像データの生成方法が第１及び第２の実施の形態とは異なる。

　図２０を参照して、本実施の形態に係る通信端末４００は、制御部１１０（図３参照）又は制御部３１０（図１３参照）に代えて、制御部４１０を含む。制御部４１０は、機能部としての画像処理部４２０及び音声処理部２１０を含む。画像処理部４２０は画像生成部４２２を含み、画像生成部４２２は選択部４２４を含む。通信端末４００はさらに、記憶装置１２０（図３参照）又は記憶装置３４０（図１３参照）に代えて、記憶装置４４０を含む。記憶装置４４０は、学習モデル記憶部４４２、及び分類器記憶部４４４を含む。分類器記憶部４４４は、カメラ７０によって撮像されたユーザの非正面画像に基づいて、正面画像データの生成に用いる、後述する分類学習モデルを選択するための分類器を記憶する。

　図２１を参照して、学習モデル記憶部４４２に記憶される学習モデルは、グループ毎に分類された複数の分類学習モデル４４８（４４８＿１～４４８＿Ｎ）を含む。分類学習モデル４４８は、それぞれ、予めグループ分けされた訓練データを用いた機械学習により構築されている。

　再び図２０を参照して、分類器は、選択部４２４で利用可能に分類器記憶部４４４に記憶されている。分類器にはサポートベクターマシン（ＳＶＭ）等のアルゴリズムを用いることができる。

　［学習モデルの構築］
　再び図２１を参照して、本実施の形態で用いる学習モデルは、グループ毎に分類され、非正面及び正面の各々から撮像された人物の顔領域を含む人物画像から、非正面と正面とにおける人物画像の変化をグループ毎に分類学習モデル生成部２２０ｂに機械学習させた上記分類学習モデル４４８を含む。

　学習フェーズでは、訓練データ記憶部４５０に記憶された訓練データのデータセットがクラスタリング４５２によって所定数（Ｎ個）のグループに分類される。クラスタリング４５２により結果として、顔の特徴がよく似たものが同じグループに属するようにデータセットが分類される。クラスタリング４５２には、ｋ平均法、階層法等を用いることができる。分類されたデータセットによって分類器４５２の学習が行なわれ、学習済みの分類器が分類器記憶部４４４に記憶される。分類器は、カメラ画像が入力されると、入力された画像が属するグループを選択する。なお、訓練データの分類は人手で行なうことも可能である。その他の構成は第１の実施の形態と同様である。

　［ソフトウェア構成］
　〈学習フェーズ〉
　図２２を参照して、学習モデルを構築するために、学習モデル構築用のコンピュータで実行されるコンピュータプログラムの制御構造について説明する。このプログラムは、ユーザの操作に応じて開始する。

　このプログラムは、人物の正面画像及び非正面画像のペアからなる訓練データのデータセットを取得するステップＳ１２００と、ステップＳ１２００の後に実行され、取得した訓練データ（データセット）を予め設定された所定数のグループに分類するステップＳ１２１０と、ステップＳ１２１０の後に実行され、以下に説明するステップＳ１０２０～ステップＳ１０４０を、分類された全てのグループにおいて学習モデルが構築されるまで繰返すステップＳ１２２０とを含む。

　ステップＳ１２２０において、分類された全てのグループにおいて学習モデルが構築されるまで繰返される処理は、モデルパラメータの初期化を行なうステップＳ１２３０と、ステップＳ１２３０の後に実行され、以下に説明するステップＳ１２５０～ステップＳ１２７０を、前回の繰返しと今回の繰返しにおける学習モデルの精度差が所定の値以下となるまで機械学習を繰返すステップＳ１２４０と、ステップＳ１２４０の後に実行され、機械学習によって構築された学習モデルを保存するステップＳ１２８０とを含む。

　ステップＳ１２４０において、学習モデルの精度差が所定の値以下となるまで機械学習を繰返す処理は、人物の正面画像及び非正面画像のペアからなる訓練データのデータセットを入力し、正面画像を教師データとして、非正面画像及び正面画像における人物画像の変化を学習するステップＳ１２５０と、ステップＳ１２５０の後に実行され、学習により得られたモデルにテストデータを入力して当該モデルをテストするステップＳ１２６０と、ステップＳ１２６０の後に実行され、テストデータを入力して得られるデータと当該テストデータの正面画像データとを比較することで精度計算を行ない、前回の繰返し時の精度と比較するステップＳ１２７０とを含む。

　構築された学習モデル（分類学習モデル４４８）は、通信端末４００の記憶装置４４０に記憶され、これによって、学習モデル記憶部４４２が形成される。

　〈利用フェーズ〉
　本実施の形態に係るビデオ会議システム（通信端末４００）では、図１０に示されるプログラムに代えて、図２３に示されるプログラムが実行される。図２３のプログラムは、図１０のステップＳ２１００に代えて、ステップＳ４０００を含む。図２３のステップＳ２０００、ステップＳ２２００、及びステップＳ２３００における処理は、図１０に示される各ステップにおける処理と同じである。

　図２４は、図２３のステップＳ４０００の詳細なフローである。図２４を参照して、このルーチンは、カメラ７０（図２０参照）から出力された、顔領域を含むユーザの画像データ（非正面画像データ）を画像生成部４２２に入力するステップＳ４０１０と、ステップＳ４０１０の後に実行され、識別器を用いたマッチング処理により、正面画像データの生成に用いる分類学習モデル４４８を選択するステップＳ４０２０と、ステップＳ４０２０の後に実行され、選択された分類学習モデル４４８を用いて、非正面の入力画像データを正面画像データに変換するステップＳ４０３０と、非正面画像データの入力と並行して、マイク８２（図２０参照）が取得した音声データを音声処理部２１０に入力するステップＳ４０４０と、ステップＳ４０３０及びステップＳ４０４０の後に実行され、正面画像データ及び音声データを圧縮処理した後、通信ＩＦ１５０（図２０参照）を介して、他の通信端末に圧縮処理後のデータを送信するステップＳ４０５０とを含む。ステップＳ４０５０の処理が終了すると、このルーチンは終了する。

　［動作］
　本実施の形態に係るビデオ会議システムは以下のように動作する。なお、正面画像データの生成動作を除いた動作は、上記第１の実施の形態と同様である。したがって、同様の動作についての詳細な説明は繰返さない。

　図２０を参照して、通信端末４００の画像処理部４２０（画像生成部４２２）には、カメラ７０で撮像されたユーザの非正面画像データが入力される（図２４のステップＳ４０１０）。非正面画像データが入力されると、選択部４２４は、分類器を用いて正面画像データの生成に用いる分類学習モデル４４８を選択する（図２４のステップＳ４０２０）。

　画像生成部４２２は、選択された分類学習モデル４４８を用いて、入力された非正面画像データに基づいて、ユーザの正面画像データを生成して出力する（ステップＳ４０３０）。

　［作用・効果］
　上述のように、画像生成部４２２は、ユーザの非正面画像に基づいて、分類されたグループの中から非正面画像データが示す人物画像が属するグループを選択するための選択機能、及び、選択機能によって選択されたグループの分類学習モデル４４８を用いて、画像取得機能が取得したユーザの非正面画像データに基づいて当該ユーザの正面画像データを生成するための機能を持つ。

　学習モデルは、グループ毎に分類され、非正面及び正面の各々から撮像された人物の顔領域を含む人物画像から、非正面と正面とにおける人物画像の変化をグループ毎に学習させた分類学習モデル４４８を含む。画像生成部４２２は、入力された、ユーザの非正面画像に基づいて、分類されたグループの中から当該非正面画像と類似する人物画像が属するグループを選択し、選択されたグループの分類学習モデル４４８を用いて、ユーザの非正面画像に基づいて当該ユーザの正面画像を生成する。ユーザの正面画像データを生成する際に、類似度の高い画像を用いて学習させた学習モデルを用いることができるため、より精度の高い正面画像データを容易に生成できる。

　その他の効果は第１の実施の形態と同様である。

　（第４の実施の形態）
　上記第１～第３の実施の形態では、カメラで撮像したユーザの非正面画像データに基づいて当該ユーザの正面画像データを生成し、生成した正面画像データを他の通信端末に送信する例について示した。

　本実施の形態では、上記実施の形態とは異なり、画像データを送信する側の通信端末はカメラで撮像したユーザの非正面画像データを送信し、その非正面画像データを受信する側の通信端末が受信した非正面画像データに基づいて正面画像データを生成する。

　図２５を参照して、本実施の形態に係る通信端末５００は、制御部１１０（図３参照）に代えて、制御部５１０を含む。制御部５１０は、機能部としての画像処理部５２０及び音声処理部２１０を含む。画像処理部５２０は画像生成部５２２を含む。

　画像処理部５２０は、ネットワーク５０を介して、他の通信端末を操作（使用）するユーザの非正面の画像データを取得するための画像取得機能を持つ。画像生成部５２２は、学習モデル記憶部１２２に記憶されている学習モデルを用いて、上記画像取得機能によって取得された、他の通信端末のユーザの非正面の画像データに基づいて当該ユーザの正面の画像データを生成するための生成機能を持つ。制御部５１０はさらに、通信ＩＦ１５０を制御して、上記生成機能により生成された正面の画像データをディスプレイ６０に表示させるための表示機能を持つ。

　［ソフトウェア構成］
　〈学習フェーズ〉
　本実施の形態では、第１の実施の形態と同様の学習モデルを用いる。したがって、学習モデルを構築するために、学習モデル構築用のコンピュータで実行されるコンピュータプログラムの制御構造については、その説明を省略する。
　〈利用フェーズ〉
　本実施の形態に係るビデオ会議システム（通信端末５００）では、図１０に示されるプログラムに代えて、図２６に示されるプログラムが実行される。図２６のプログラムは、図１０のステップＳ２１００及びステップＳ２２００に代えて、それぞれ、ステップＳ５０００及びステップＳ６０００を含む。図２６のステップＳ２０００、及びステップＳ２３００における処理は、図１０に示される各ステップにおける処理と同じである。

　図２７は、図２６のステップＳ５０００の詳細なフローである。図２７を参照して、このルーチンは、カメラ７０（図２５参照）及びマイク８２（図２５参照）を介して取得した映像データ（非正面画像データ及び音声データ）を入力するステップＳ５０１０と、ステップＳ５０１０の後に実行され、映像データを圧縮処理した後に、通信ＩＦ１５０（図２５参照）を介して、他の通信端末に圧縮処理後のデータを送信するステップＳ５０２０とを含む。ステップＳ５０２０の処理が終了すると、このルーチンは終了する。ステップＳ５０１０では、カメラ７０から出力された、顔領域を含むユーザの非正面画像データ、及びマイク８２から出力された、当該ユーザの音声データを取得する。

　図２８は、図２６のステップＳ６０００の詳細なフローである。図２８を参照して、このルーチンは、ネットワーク５０を介して他の通信端末から送信された映像データ（非正面画像データ及び音声データ）を取得し、取得した映像データを伸張処理するステップＳ６０１０と、ステップＳ６０１０の後に実行され、受信した非正面画像データ（伸張処理後の非正面画像データ）を画像生成部５２２に入力するステップＳ６０２０と、ステップＳ６０２０の後に実行され、学習モデル記憶部１２２に記憶されている学習モデルを用いて、非正面の入力画像データを正面画像データに変換するステップＳ６０３０と、ステップＳ６０３０の後に実行され、変換された正面画像データをディスプレイ６０に表示するステップＳ６０４０と、ステップＳ６０１０の後に実行され、ディスプレイ６０への表示と同期して、取得した音声データをスピーカ８４（図２５参照）から出力するステップＳ６０５０とを含む。ステップＳ６０４０及び６０５０の処理が終了すると、このルーチンは終了する。

　［作用・効果］
　生成機能は、上記学習モデルを用いて、画像取得機能が取得したユーザの非正面の画像データに基づいて当該ユーザの正面の画像データを生成する。表示機能は、生成機能により生成された正面の画像データが示す正面画像をディスプレイ６０に表示させる。ディスプレイ６０には他の通信端末を操作（使用）するユーザの正面画像が表示されるので、ディスプレイ６０に映る顔画像の視線とそのディスプレイ６０を見ながら話をするユーザの視線とが一致する。正面画像は、視線のみならず、顔の向きも相手と一致する視線一致画像である。加えて、体の部位の位置も相手と一致するよう補正される。そのため、こうした正面画像をディスプレイ６０に表示することによって臨場感をより高めることができる。さらに、正面画像は、ユーザの非正面の画像データから学習モデルを用いて生成されるので、ＲＧＢ－Ｄカメラのような特別な機器も不要となる。加えて、上記学習モデルを用いた正面画像の生成は、ユーザの非正面の画像データがあれば可能である。そのため、どのようなユーザに対しても正面画像（視線一致画像）を生成できる。すなわち、ユーザを選ばない。

　その他の効果を上記第１の実施の形態と同様である。

　（第５の実施の形態）
　本実施の形態では、非正面画像データに基づく正面画像データの生成が、ネットワークを介して通信端末と接続されるサーバで行なわれる。この点において、本実施の形態は、上記第１～第４の実施の形態とは異なる。

　［全体構成］
　図２９を参照して、本実施の形態に係るビデオ会議システム２０は、第１の通信端末１００Ａ及び第２の通信端末１００Ｂ（図１参照）に代えて、第１の通信端末６００Ａ及び第２の通信端末６００Ｂを含む。第１の通信端末６００Ａ及び第２の通信端末６００Ｂは、第１の実施の形態と同様、いずれもパーソナルコンピュータ（ＰＣ）であり、総称する場合は「通信端末６００」と記す。

　ビデオ会議システム２０はさらに、サーバ７００を含む。第１の通信端末６００Ａ及び第２の通信端末６００Ｂは、ネットワーク５０を介してサーバ７００に接続されている。第１の通信端末６００Ａと第２の通信端末６００Ｂとの間のデータの送受信は、サーバ７００を介して行なわれる。

　サーバ７００は、第１の通信端末６００Ａ及び第２の通信端末６００Ｂの一方から受信した非正面画像データに基づいて、学習モデルを用いて正面画像データを生成し、生成した正面画像データを第１の通信端末６００Ａ及び第２の通信端末６００Ｂの他方に送信する。なお、サーバ７００は、生成した正面画像データを第１の通信端末６００Ａ及び第２の通信端末６００Ｂの両方に送信するよう構成されていてもよい。

　［ハードウェア構成］
　《通信端末６００》
　通信端末６００は、図２に示す通信端末１００と同様のハードウェア構成を有する。
　《サーバ７００》
　図３０を参照して、サーバ７００は、制御部７１０、記憶装置７２０、入力ＩＦ７３０、出力ＩＦ７４０、及び通信ＩＦ７５０を含む。

　制御部７１０は、実質的にコンピュータであって、ＣＰＵ７１２、ＧＰＵ７１４、ＲＯＭ７１６、及び、ＲＡＭ７１８を含む。ＣＰＵ７１２はサーバ７００全体を制御する。ＧＰＵ７１４は、画像の演算処理を実行する。ＲＯＭ７１６は不揮発性の記憶装置である。ＲＯＭ７１６にはＣＰＵ７１２がサーバ７００を制御するためのプログラム及びデータが記憶されている。ＲＡＭ７１８は揮発性の記憶装置である。記憶装置７２０は不揮発性の記憶装置であり、例えばハードディスクドライバ（ＨＤＤ）又はフラッシュメモリである。記憶装置７２０は、学習モデル記憶部１２２（図３参照）と同様の学習モデル記憶部７２２を含む。

　ＣＰＵ７１２、ＧＰＵ７１４、ＲＯＭ７１６、ＲＡＭ７１８、記憶装置７２０、入力ＩＦ７３０、出力ＩＦ７４０、及び通信ＩＦ７５０はいずれもバス７６０に接続されており、相互間のデータ交換はバス７６０を介して行なわれる。

　入力ＩＦ７３０は、マウス及びキーボード（以上、いずれも図示せず。）との間の接続に関するインターフェイスを提供する。出力ＩＦ７４０は、ディスプレイ（図示せず。）との間の接続に関するインターフェイスを提供する。通信ＩＦ７５０は、有線又は無線（本実施の形態においては有線）によりネットワーク５０への接続を提供する。

　バス７６０、ＧＰＵ７１４、ＲＯＭ７１６、ＲＡＭ７１８、記憶装置７２０、入力ＩＦ７３０、出力ＩＦ７４０及び通信ＩＦ７５０は、いずれもＣＰＵ７１２の制御のもとに協調して動作し、本実施の形態に係るサーバとしてサーバ７００は種々のアプリケーション（コンピュータプログラム）による処理を実現する。それらのアプリケーションは、例えば、ユーザを選ばず、かつ、ＲＧＢ－Ｄカメラのような特別な機器を用いることなく、臨場感のより高い視線一致画像を生成して表示するビデオ会議システムにおけるサーバを実現する。

　［ソフトウェア構成］
　《サーバ７００》
　図３０を参照して、ビデオ会議システム２０の利用時に、ビデオ会議システム２０を構成するサーバ７００で実行されるコンピュータプログラムの制御構造について説明する。このプログラムは、通信端末の接続が確立されたことに応じて開始する。

　図３１を参照して、このプログラムは、通信端末６００から送信される映像データを受信するステップＳ７０００と、ステップＳ７０００の後に実行され、受信した映像データに含まれる非正面画像データを正面画像データに変換して、当該正面画像データを含む映像データを他の通信端末６００に送信し、制御をステップＳ７０００に戻すステップＳ７１００とを含む。

　図３２は、図３１のステップＳ７１００の詳細なフローである。図３２を参照して、このルーチンは、受信した映像データに含まれる非正面画像データを入力するステップＳ７１１０と、ステップＳ７１１０の後に実行され、学習モデル記憶部７２２に記憶されている学習モデルを用いて、非正面の入力画像データを正面画像データに変換するステップＳ７１２０と、ステップＳ７１２０の後に実行され、変換した正面画像データ及び受信した音声データを含む映像データを他の通信端末６００に送信してこのルーチンを終了するステップＳ７１３０とを含む。

　［動作］
　本実施の形態に係るビデオ会議システム２０は以下のように動作する。なお、正面画像データの生成動作を除いた動作は、上記第１の実施の形態と同様である。したがって、同様の動作についての詳細な説明は繰返さない。

　図２９を参照して、第１の通信端末６００Ａは、カメラ７０で撮像したユーザＡの顔領域を含む非正面画像データをサーバ７００に送信する。サーバ７００は、第１の通信端末６００Ａから送信された非正面画像データを受信すると、学習モデル記憶部７２２（図３０参照）に記憶された学習モデルを用いて、受信した非正面画像データに基づいてユーザＡの正面画像データを生成する。サーバ７００は、生成した正面画像データを第２の通信端末６００Ｂに送信する。第２の通信端末６００Ｂは、サーバ７００から送信された正面画像データを受信すると、当該正面画像データが示すユーザＡの正面画像を第２のディスプレイ６０ｂに表示する。

　同様に、第２の通信端末６００Ｂは、カメラ７０で撮像したユーザＢの顔領域を含む非正面画像データをサーバ７００に送信する。サーバ７００は、第２の通信端末６００Ｂから送信された非正面画像データを受信すると、学習モデル記憶部７２２（図３０参照）に記憶された学習モデルを用いて、受信した非正面画像データに基づいてユーザＢの正面画像データを生成する。サーバ７００は、生成した正面画像データを第１の通信端末６００Ａに送信する。第１の通信端末６００Ａは、サーバ７００から送信された正面画像データを受信すると、当該正面画像データが示すユーザＢの正面画像を第１のディスプレイ６０ａに表示する。

　本実施の形態に係るビデオ会議システム２０は、上記のように、通信端末６００から送信された非正面画像データに基づいて正面画像データを生成するサーバ７００を含む。このような構成によっても、ユーザを選ばず、かつ、ＲＧＢ－Ｄカメラのような特別な機器を用いることなく、臨場感の高い視線一致を実現できる。

　（変形例）
　上記実施の形態では、遠隔コミュニケーションシステムの一種であるビデオ会議システムに本発明を適用した例について示したが、本発明はそのような実施の形態には限定されない。本発明は、会議以外の遠隔コミュニケーション又はビジュアルコミュニケーションを行なうためのシステムに適用することもできる。本発明を会議システムに適用する場合、会議システムはＷｅｂ会議システム及びテレビ会議システムのいずれであってもよい。

　上記実施の形態では、通信端末にＰＣを用いた例について示したが、本発明はそのような実施の形態には限定されない。通信端末として、例えば、スマートフォン、又はタブレット端末を用いてもよい。さらに、ＰＣ以外の専用端末を通信端末として用いてもよい。

　上記第１～第４の実施の形態では、通信端末が学習モデルを保持する例について示したが、本発明はそのような実施の形態には限定されない。例えば、ネットワーク上のサーバが学習モデルを保持する構成であってもよい。さらに、学習モデルは、所定のタイミングで更新されるよう構成されていてもよい。

　上記第２の実施の形態では、非正面と正面とにおける、人物画像の各顔パーツの変化を機械学習させる例について示したが、顔パーツの変化に加えて、体の部位の変化を学習させるようにしてもよい。これにより、非正面の入力画像データの各顔パーツ及び体の部位をそれぞれ正面画像データの各顔パーツ及び体の部位に変換できる。変換後の顔パーツ及び体の部位の各画像を用いて正面画像を生成することにより、より臨場感の高い視線一致画像を生成できる。

　上記第３の実施の形態では、学習モデル（学習モデル記憶部）に加えて、非正面画像のデータベース（画像記憶部）及び識別器（識別器記憶部）を通信端末が保持する例について示したが、本発明はそのような実施の形態には限定されない。例えばネットワーク上のサーバが、学習モデル、データベース、及び識別器のいずれか、又は全てを保持する構成であってもよい。

　上記第４及び第５の実施の形態では、非正面画像データに基づく正面画像データの生成方法に、第１の実施の形態で示した生成方法を用いた例について示したが、本発明はそのような実施の形態には限定されない。非正面画像データに基づく正面画像データの生成方法は、第２の実施の形態、又は第３の実施の形態で示した方法を用いるようにしてもよい。

　上記第５の実施の形態では、２台の通信端末を含むビデオ会議システムの例について示したが、本発明はそのような実施の形態には限定されない。第５の実施の形態においても、通信端末の台数は３台以上であってもよい。その場合、サーバは、いずれかの通信端末から受信した非正面画像データに基づいて、学習モデルを用いて正面画像データを生成し、生成した正面画像データを、非正面画像データを送信した通信端末以外の通信端末に送信する。サーバはさらに、非正面画像データを送信した通信端末に対しても、生成した正面画像データを送信するよう構成されていてもよい。すなわち、ビデオ会議システムを構成する全ての通信端末に、サーバが生成した正面画像データを送信するようにしてもよい。

　上記実施の形態において、各通信端末に接続されるディスプレイには、対話相手の画像に加えて当該通信端末を使用するユーザの画像を表示するようにしてもよい。さらに、例えば、ユーザがディスプレイを注視しているか否かを判定して、判定結果が肯定であることに応答して、非正面画像データに基づいて正面画像データを生成するようにしてもよい。

　なお、上記で開示された技術を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。

　今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに限定されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

　１０、２０　　　　　　　　　　　　　　　　　　　ビデオ会議システム
　５０　　　　　　　　　　　　　　　　　　　　　　ネットワーク
　６０、６０ａ、６０ｂ　　　　　　　　　　　　　　ディスプレイ
　７０、７０ａ、７０ｂ　　　　　　　　　　　　　　カメラ
　８０、８０ａ、８０ｂ　　　　　　　　　　　　　　マイクスピーカ
　８２、８２ａ、８２ｂ　　　　　　　　　　　　　　マイク
　８４、８４ａ、８４ｂ　　　　　　　　　　　　　　スピーカ
　１００、１００Ａ、１００Ｂ、３００～６００　　　通信端末
　１１０、３１０、４１０、５１０、７１０　　　　　制御部
　１２０、３４０、４４０、７２０　　　　　　　　　記憶装置
　１２２、３４２、４４２、７２２　　　　　　　　　学習モデル記憶部
　１３０、７３０　　　　　　　　　　　　　　　　　入力ＩＦ
　１４０、７４０　　　　　　　　　　　　　　　　　出力ＩＦ
　１５０、７５０　　　　　　　　　　　　　　　　　通信ＩＦ
　２００、３２０、４２０、５２０　　　　　　　　　画像処理部
　２０２、３２２、４２２、５２２　　　　　　　　　画像生成部
　３２４　　　　　　　　　　　　　　　　　　　　　パーツ配置部
　３４４　　　　　　　　　　　　　　　　　　　　　顔パーツ学習モデル
　２１０　　　　　　　　　　　　　　　　　　　　　音声処理部
　２２０、２２０ａ　　　　　　　　　　　　　　　　学習モデル生成部
　２２０ｂ　　　　　　　　　　　　　　　　　　　　分類学習モデル生成部
　４２４　　　　　　　　　　　　　　　　　　　　　選択部
　４４４　　　　　　　　　　　　　　　　　　　　　分類器記憶部
　４５０　　　　　　　　　　　　　　　　　　　　　訓練データ記憶部
　７００　　　　　　　　　　　　　　　　　　　　　サーバ

Claims

　コンピュータに、
　ユーザの非正面の画像データを取得するための画像取得機能、及び
　非正面及び正面の各々から撮像された人物の顔領域を含む人物画像から、非正面と正面とにおける前記人物画像の変化を学習させた学習モデルを用いて、前記画像取得機能が取得した前記ユーザの前記非正面の画像データに基づいて当該ユーザの正面の画像データを生成するための生成機能、
　を実現させるための、コンピュータプログラム。
　前記画像取得機能は、ユーザの顔領域を含む非正面の画像を撮像するための撮像装置を介して、前記コンピュータを操作するユーザの非正面の画像データを取得するための機能を含み、
　前記コンピュータに、前記生成機能により生成された前記正面の画像データを、他のコンピュータに送信するための送信機能をさらに実現させるための、請求項１に記載のコンピュータプログラム。
　前記画像取得機能は、ネットワークを介して、他のコンピュータを操作するユーザの顔領域を含む非正面の画像データを取得するための機能を含み、
　前記コンピュータに、前記生成機能により生成された前記正面の画像データが示す正面画像を表示装置に表示させるための表示機能をさらに実現させるための、請求項１に記載のコンピュータプログラム。
　前記学習モデルは、非正面及び正面の各々から撮像された人物の顔領域を含む人物画像から、非正面と正面とにおける、前記人物画像の顔を構成する各顔パーツの変化を学習させた顔パーツ学習モデルを含み、
　前記生成機能は、
　　前記画像取得機能が取得した前記ユーザの前記非正面の画像データから顔パーツを抽出するための顔パーツ抽出機能と、
　　前記顔パーツ学習モデルを用いて、前記顔パーツ抽出機能が抽出した顔パーツを前記ユーザの正面の顔パーツに変換するための変換機能と、
　　前記変換機能が変換した正面の顔パーツを用いて当該ユーザの正面の画像データを生成するための正面画像生成機能とを含む、請求項１～請求項３のいずれか１項に記載のコンピュータプログラム。
　前記学習モデルは、グループ毎に分類され、非正面及び正面の各々から撮像された人物の顔領域を含む人物画像から、非正面と正面とにおける前記人物画像の変化をグループ毎に学習させた分類学習モデルを含み、
　前記生成機能は、
　　前記画像取得機能が取得した前記ユーザの前記非正面の画像データに基づいて、前記分類されたグループの中から前記非正面の画像データが示す人物画像が属するグループを選択するための選択機能と、
　　前記選択機能が選択したグループの前記分類学習モデルを用いて、前記画像取得機能が取得した前記ユーザの前記非正面の画像データに基づいて当該ユーザの正面の画像データを生成するための機能とを含む、請求項１～請求項３のいずれか１項に記載のコンピュータプログラム。
　前記学習モデルは、方向が互いに異なる複数の非正面から撮像された人物の顔領域を含む人物画像と、正面から撮像された当該人物の顔領域を含む人物画像とから、非正面と正面とにおける前記人物画像の変化を学習させており、
　前記生成機能は、前記学習モデルを用いて、前記画像取得機能が取得した前記ユーザの前記非正面の画像データに基づいて当該ユーザの正面の画像データを生成する、請求項１～請求項５のいずれか１項に記載のコンピュータプログラム。
　ユーザの非正面の画像データを取得するステップと、
　非正面及び正面の各々から撮像された人物の顔領域を含む人物画像から、非正面と正面とにおける前記人物画像の変化を学習させた学習モデルを用いて、取得された前記ユーザの前記非正面の画像データに基づいて当該ユーザの正面の画像データを生成するステップと、
　を有する、画像処理方法。
　ユーザの非正面の画像データを取得するための画像取得部と、
　非正面及び正面の各々から撮像された人物の顔領域を含む人物画像から、非正面と正面とにおける前記人物画像の変化を学習させた学習モデルを用いて、前記画像取得部が取得した前記ユーザの前記非正面の画像データに基づいて当該ユーザの正面の画像データを生成するための生成部と、
　を備える、通信装置。