WO2023223377A1

WO2023223377A1 - 情報処理装置、情報処理方法、及び記録媒体

Info

Publication number: WO2023223377A1
Application number: PCT/JP2022/020343
Authority: WO
Inventors: 昭裕早坂
Original assignee: 日本電気株式会社
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2023-11-23

Abstract

情報処理装置１は、少なくとも人物の画像を含む当該人物に関する情報を取得する取得部１１、画像から人物の顔を含む顔領域を検出する検出部１２と、顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する領域推定部１３と、人物に関する情報に基づいて人物の表情を推定する表情推定部１４と、表情推定部１４により推定された表情に応じた、遮蔽領域に対応する領域の推定表情画像を生成する推定表情画像生成部１５と、画像、及び推定表情画像に基づき合成画像を生成する合成画像生成部１６とを備える。

Description

情報処理装置、情報処理方法、及び記録媒体

　この開示は、情報処理装置、情報処理方法、及び記録媒体の技術分野に関する。

　顔を表す画像である入力画像において遮蔽されている遮蔽領域を判定し、遮蔽領域に基づく遮蔽パターンと関連付けられている領域以外を用いて、入力画像の識別を行い、遮蔽領域を含む顔画像の認識精度をより向上させる技術が特許文献１に記載されている。顔画像を入力し、顔画像に含まれる、目、鼻、口、頬などの部位を含む領域を検出し、検出した部位領域の内部を塗りつぶし、部位領域を塗りつぶした顔画像に、予め記憶されている部位の画像を合成する技術が特許文献２に記載されている。ヘッドマウントディスプレイに固定したカメラの位置からヘッドマウントディスプレイ越しに使用者の正面画像（動画像）を撮影し、この動画像でのヘッドマウントディスプレイに隠れない顔領域はそのまま使用し、隠れる領域は同一視点からあらかじめ撮影して蓄積手段に蓄積したヘッドマウントディスプレイ未装着時の静止画像からヘッドマウントディスプレイのマスクパターンで切り出した領域で置き換える処理を行い、動画像と静止画像から合成した顔画像を、立方体等の適当な立体の表面にテクスチャマップ手法で貼り付けて、それを人物の頭部として出力または表示する技術が特許文献３に記載されている。

特開２０２１－１０３５３８号公報特開２００２－３５２２５８号公報特開平１１－０９６３６６号公報

　この開示は、先行技術文献に記載された技術の改良を目的とする情報処理装置、情報処理方法、及び記録媒体を提供することを課題とする。

　この開示の情報処理装置の一の態様は、少なくとも人物の画像を含む当該人物に関する情報を取得する取得手段と、前記画像から前記人物の顔を含む顔領域を検出する検出手段と、前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する推定手段と、前記人物に関する情報に基づいて前記人物の表情を推定する表情推定手段と、前記表情推定手段により推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成する推定表情画像生成手段と、前記画像、及び前記推定表情画像に基づき合成画像を生成する合成画像生成手段とを備える。

　この開示の情報処理方法の一の態様は、少なくとも人物の画像を含む当該人物に関する情報を取得し、前記画像から前記人物の顔を含む顔領域を検出し、前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定し、前記人物に関する情報に基づいて前記人物の表情を推定し、推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成し、前記画像、及び前記推定表情画像に基づき合成画像を生成する。

　この開示の記録媒体の一の態様は、コンピュータに、少なくとも人物の画像を含む当該人物に関する情報を取得し、前記画像から前記人物の顔を含む顔領域を検出し、前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定し、前記人物に関する情報に基づいて前記人物の表情を推定し、推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成し、前記画像、及び前記推定表情画像に基づき合成画像を生成する情報処理方法を実行させるためのコンピュータプログラムが記録されている。

図１は、第１実施形態における情報処理装置の構成を示すブロック図である。図２は、第２実施形態における情報処理装置の構成を示すブロック図である。図３は、第２実施形態における情報処理装置が行う情報処理動作の流れを示すフローチャートである。図４は、第４実施形態における情報処理装置の構成を示すブロック図である。図５は、第４実施形態における情報処理装置が行う学習動作の流れを示すフローチャートである。図６は、第５実施形態における情報処理装置が行う推定表情画像生成動作の流れを示すフローチャートである。図７は、第６実施形態における情報処理装置の構成を示すブロック図である。図８は、第６実施形態における情報処理装置による表示制御による表示例を示す概念図である。図９は、第７実施形態におけるオンライン会議システムの概念図である。図１０は、第７実施形態におけるオンライン会議制御装置の構成を示すブロック図である。図１１は、第７実施形態におけるオンライン会議制御装置が行うオンライン会議制御動作の流れを示すフローチャートである。

　以下、図面を参照しながら、情報処理装置、情報処理方法、及び記録媒体の実施形態について説明する。
　［１：第１実施形態］

　情報処理装置、情報処理方法、及び記録媒体の第１実施形態について説明する。以下では、情報処理装置、情報処理方法、及び記録媒体の第１実施形態が適用された情報処理装置１を用いて、情報処理装置、情報処理方法、及び記録媒体の第１実施形態について説明する。
　［１－１：情報処理装置１の構成］

　図１を参照しながら、第１実施形態における情報処理装置１の構成について説明する。図１は、第１実施形態における情報処理装置１の構成を示すブロック図である。

　図１に示すように、情報処理装置１は、取得部１１と、検出部１２と、領域推定部１３と、表情推定部１４と、推定表情画像生成部１５と、合成画像生成部１６とを備える。取得部１１は、少なくとも人物の画像を含む当該人物に関する情報を取得する。検出部１２は、画像から人物の顔を含む顔領域を検出する。領域推定部１３は、顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する。表情推定部１４は、人物に関する情報に基づいて人物の表情を推定する。推定表情画像生成部１５は、表情推定部１４により推定された表情に応じた、遮蔽領域に対応する領域の推定表情画像を生成する。合成画像生成部１６は、画像、及び推定表情画像に基づき合成画像を生成する。
　［１－２：情報処理装置１の技術的効果］

　第１実施形態における情報処理装置１は、画像、及び推定された人物の表情に応じた画像に基づき合成画像を生成するので、人物の顔領域の少なくとも一部の領域が遮蔽されている場合にも、人物の顔領域が遮蔽されていない、人物の表情に応じた画像（つまり、合成画像）を取得することができる。
　［２：第２実施形態］

　情報処理装置、情報処理方法、及び記録媒体の第２実施形態について説明する。以下では、情報処理装置、情報処理方法、及び記録媒体の第２実施形態が適用された情報処理装置２を用いて、情報処理装置、情報処理方法、及び記録媒体の第２実施形態について説明する。
　［２－１：情報処理装置２の構成］

　図２を参照しながら、第２実施形態における情報処理装置２の構成について説明する。図２は、第２実施形態における情報処理装置２の構成を示すブロック図である。

　図２に示すように、情報処理装置２は、演算装置２１と、記憶装置２２とを備えている。更に、情報処理装置２は、通信装置２３と、入力装置２４と、出力装置２５とを備えていてもよい。但し、情報処理装置２は、通信装置２３、入力装置２４及び出力装置２５のうちの少なくとも１つを備えていなくてもよい。演算装置２１と、記憶装置２２と、通信装置２３と、入力装置２４と、出力装置２５とは、データバス２６を介して接続されていてもよい。

　演算装置２１は、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｅｃｓｓｉｎｇ　Ｕｎｉｔ）及びＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）のうちの少なくとも１つを含む。演算装置２１は、コンピュータプログラムを読み込む。例えば、演算装置２１は、記憶装置２２が記憶しているコンピュータプログラムを読み込んでもよい。例えば、演算装置２１は、コンピュータで読み取り可能であって且つ一時的でない記録媒体が記憶しているコンピュータプログラムを、情報処理装置２が備える図示しない記録媒体読み取り装置（例えば、後述する入力装置２４）を用いて読み込んでもよい。演算装置２１は、通信装置２３（或いは、その他の通信装置）を介して、情報処理装置２の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい（つまり、ダウンロードしてもよい又は読み込んでもよい）。演算装置２１は、読み込んだコンピュータプログラムを実行する。その結果、演算装置２１内には、情報処理装置２が行うべき動作を実行するための論理的な機能ブロックが実現される。つまり、演算装置２１は、情報処理装置２が行うべき動作（言い換えれば、処理）を実行するための論理的な機能ブロックを実現するためのコントローラとして機能可能である。

　図２には、情報処理動作を実行するために演算装置２１内に実現される論理的な機能ブロックの一例が示されている。図２に示すように、演算装置２１内には、後述する付記に記載された「取得手段」の一具体例である取得部２１１と、後述する付記に記載された「検出手段」の一具体例である検出部２１２と、後述する付記に記載された「推定手段」の一具体例である領域推定部２１３と、「表情推定手段」の一具体例である表情推定部２１４と、後述する付記に記載された「推定表情画像生成手段」の一具体例である推定表情画像生成部２１５と、後述する付記に記載された「合成画像生成手段」の一具体例である合成画像生成部２１６とが実現される。取得部２１１、検出部２１２、領域推定部２１３、表情推定部２１４、推定表情画像生成部２１５、及び合成画像生成部２１６の夫々の動作については、図３を参照しながら後述する。

　記憶装置２２は、所望のデータを記憶可能である。例えば、記憶装置２２は、演算装置２１が実行するコンピュータプログラムを一時的に記憶していてもよい。記憶装置２２は、演算装置２１がコンピュータプログラムを実行している場合に演算装置２１が一時的に使用するデータを一時的に記憶してもよい。記憶装置２２は、情報処理装置２が長期的に保存するデータを記憶してもよい。尚、記憶装置２２は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ハードディスク装置、光磁気ディスク装置、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）及びディスクアレイ装置のうちの少なくとも１つを含んでいてもよい。つまり、記憶装置２２は、一時的でない記録媒体を含んでいてもよい。

　通信装置２３は、不図示の通信ネットワークを介して、情報処理装置２の外部の装置と通信可能である。

　入力装置２４は、情報処理装置２の外部からの情報処理装置２に対する情報の入力を受け付ける装置である。例えば、入力装置２４は、情報処理装置２のオペレータが操作可能な操作装置（例えば、キーボード、マウス及びタッチパネルのうちの少なくとも１つ）を含んでいてもよい。例えば、入力装置２４は情報処理装置２に対して外付け可能な記録媒体にデータとして記録されている情報を読み取り可能な読取装置を含んでいてもよい。

　出力装置２５は、情報処理装置２の外部に対して情報を出力する装置である。例えば、出力装置２５は、情報を画像として出力してもよい。つまり、出力装置２５は、出力したい情報を示す画像を表示可能な表示装置（いわゆる、ディスプレイ）を含んでいてもよい。例えば、出力装置２５は、情報を音声として出力してもよい。つまり、出力装置２５は、音声を出力可能な音声装置（いわゆる、スピーカ）を含んでいてもよい。例えば、出力装置２５は、紙面に情報を出力してもよい。つまり、出力装置２５は、紙面に所望の情報を印刷可能な印刷装置（いわゆる、プリンタ）を含んでいてもよい。
　［２－２：情報処理装置２が行う情報処理動作］

　図３を参照して、第２実施形態における情報処理装置２が行う情報処理動作の流れを説明する。図３は、第２実施形態における情報処理装置２が行う情報処理動作の流れを示すフローチャートである。

　図３に示すように、取得部２１１は、少なくとも人物の画像を含む当該人物に関する情報を取得する（ステップＳ２０）。取得部２１１は、人物に関する情報として、人物の画像以外に、例えば、人物の画像が生成された際に取得された音声情報等を取得してもよい。

　検出部２１２は、画像から人物の顔を含む顔領域を検出する（ステップＳ２１）。検出部２１２は、画像に対して公知の顔検出処理を適用して顔領域を検出してもよい。検出部２１２は、顔部の特徴を有する領域を顔領域として検出してもよい。顔部の特徴を有する領域は、目、鼻、口等の顔を構成する特徴的な部位を含む領域であってもよい。検出部２１２が行う顔領域の検出の方法に特に制限はない。検出部２１２は、例えば、顔領域に特徴的なエッジやパターンの抽出に基づいて、顔領域を検出してもよい。

　検出部２１２は、顔領域の検出を機械学習したニューラルネットワークを用いて顔領域を検出してもよい。検出部２１２は、畳み込みニューラルネットワーク（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋ、以下「ＣＮＮ」とも称する）で構成されていてもよい。

　領域推定部２１３は、顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する（ステップＳ２２）。第２実施形態において、顔領域の少なくとも一部の領域が遮蔽されている遮蔽領域は、人物が着用しているマスクによって遮蔽されているマスク領域であってもよい。領域推定部２１３は、人物が着用しているマスクによって、顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されているマスク領域を推定してもよい。領域推定部２１３は、例えば、顔領域から鼻翼及び口端等の特徴点が検出されない場合、顔領域がマスク領域を含むと判定してもよい。マスクで隠れるマスク領域は、鼻翼、口端等を含む所定の領域であってもよい。

　表情推定部２１４は、人物に関する情報に基づいて人物の表情を推定する（ステップＳ２３）。人物が着用しているマスクによって、顔領域の少なくとも一部の領域が遮蔽されている場合、表情推定部２１４は、人物に関する情報として、マスク領域以外から取得できる情報を採用してもよい。この場合、表情推定部２１４は、例えば、顔領域に含まれるマスク領域以外の領域から取得できる情報に基づいて人物の表情を推定してもよい。また、表情推定部２１４は、例えば、顔領域に含まれるマスク領域以外の領域から取得できる情報に加えて、又は替えて、顔の角度、人物の取るポーズ及び人物が行っているジェスチャのうちの少なくとも一つに基づいて人物の表情を推定してもよい。また、表情推定部２１４は、例えば、人物の画像から取得できる情報に加えて、又は替えて、人物の画像が生成された際に取得された音声情報に基づいて人物の表情を推定してもよい。音声情報は、発声の状態を示す情報及び発話内容を示す情報等の少なくとも一つを含んでいてもよい。発声の状態は、発声のトーン及びテンポ等の少なくとも一つを含んでいてもよい。また、表情推定部２１４は、例えば、人物自身の情報に加えて、又は替えて、人物の画像が生成された際の周囲の状況を示す情報に基づいて人物の表情を推定してもよい。表情推定部２１４は、人物に関する情報として、人物の表情の推定精度が向上する情報を採用してもよい。

　表情推定部２１４は、例えば、所定のルールに基づいて、人物の表情を推定してもよい。例えば、顔の筋肉の動きの状態により人物の表情を推定してもよい。顔の筋肉の動きの状態は、眉が上がるという動きの状態、眉が下がるという動きの状態、及び、頬が上がるという動きの状態の少なくとも一つを含んでいてもよい。表情推定部２１４は、複数の顔の筋肉の動きの状態を組み合わせて人物の表情を推定してもよい。表情推定部２１４は、人物の表情を、喜びの表情、驚きの表情、恐怖の表情、嫌悪の表情、怒りの表情、悲しみの表情、及び、無表情の少なくとも何れかだと推定してもよい。表情推定部２１４は、例えば、人物の頬が所定よりも上がっている場合、喜びの表情であると推定してもよい。

　また、第２実施形態では、顔領域の少なくとも一部の領域が遮蔽されている遮蔽領域は、顔が着用しているマスクによって遮蔽されているマスク領域である場合を例に挙げたが、遮蔽領域は、例えば、サングラスによって遮蔽されている領域であってもよい。この場合、表情推定部２１４は、口元の状態から人物の表情を推定してもよい。口元の状態は、例えば、上唇が上がるという状態、口角が上がるという状態、えくぼが生じるという状態、及び、顎が上がるという状態等の少なくとも一つを含んでいてもよい。

　推定表情画像生成部２１５は、表情推定部２１４により推定された表情に応じた、遮蔽領域に対応する領域の推定表情画像を生成する（ステップＳ２４）。

　合成画像生成部２１６は、画像、及び推定表情画像に基づき合成画像を生成する。合成画像生成部２１６は、少なくとも遮蔽領域が前記推定表情画像により隠れるように合成画像を生成してもよい。すなわち、合成画像生成部２１６は、人物の顔領域の遮蔽領域を、推定された人物の表情に応じた画像によって補完してもよい。
　［２－３：情報処理装置２の技術的効果］

　第２実施形態における情報処理装置２は、画像、及び推定された人物の表情に応じたマスク領域の画像に基づき合成画像を生成するので、人物がマスクを着用している場合にも、人物の口元が遮蔽されていない、人物の表情に応じた画像を取得することができる。

　昨今、衛生意識の変化から、特に人の多い場所においては、マスクの着用が推奨されている。しかしながら、人の多い場所、例えば観光地等で記念写真等を撮影すると、マスクの着用の顔ばかりが写ることになり、味気ない写真となってしまい残念である。つまり、人の多い場所等のマスクを外すことが躊躇われる場所においても、マスク非着用の自然な顔画像の記録の需要がある。

　これに対し、第２実施形態における情報処理装置２は、人物がマスクを着用している場合に、推定された人物の表情に応じた、マスク領域に対応する領域の画像に基づき、マスク非着用の合成画像を生成するので、マスク非着用の自然な顔画像を提供することができる。したがって、人の多い場所で撮影した写真において、マスク非着用の自然な顔画像が含まれることになり、魅力のある写真を記録することができる。
　［３：第３実施形態］

　情報処理装置、情報処理方法、及び記録媒体の第３実施形態について説明する。以下では、情報処理装置、情報処理方法、及び記録媒体の第３実施形態が適用された情報処理装置３を用いて、情報処理装置、情報処理方法、及び記録媒体の第３実施形態について説明する。

　第３実施形態において、顔が着用しているマスクによって、顔領域の少なくとも一部の領域が遮蔽されている場合、表情推定部２１４は、顔領域に含まれるマスク領域以外の領域として、顔領域における人物の目の周囲の領域に基づいて前記人物の表情を推定してもよい。表情推定部２１４は、顔領域に含まれる目の周囲の領域から取得できる情報に基づいて人物の表情を推定してもよい。

　表情推定部２１４は、例えば、顔に含まれる両目の間の距離に基づいて、顔領域から、目の周囲の領域を抽出してもよい。また、表情推定部２１４は、顔に含まれる鼻背の下部の両側部に基づいて、顔領域から、目の周囲の領域を抽出してもよい。

　また、表情推定部２１４は、顔領域に含まれる目の周囲の領域情報に加えて、例えば、顔の角度、人物の取るポーズ／ジェスチャに基づいて人物の表情を推定してもよい。また、表情推定部２１４は、顔領域に含まれる目の周囲の領域情報に加えて、例えば、人物の画像が生成された際に取得された音声情報に基づいて人物の表情を推定してもよい。また、表情推定部２１４は、顔領域に含まれる目の周囲の領域情報に加えて、人物の画像が生成された際の周囲の状況を示す情報に基づいて人物の表情を推定してもよい。第２実施形態と同様に、表情推定部２１４は、人物に関する情報として、人物の表情の推定精度が向上する情報を採用してもよい。
　［情報処理装置３の技術的効果］

　第３実施形態における情報処理装置３は、目元周辺の画像情報からマスクの下の顔の表情を推定し、適切な表情のマスク非着用の顔画像を合成することができる。
　［４：第４実施形態］

　情報処理装置、情報処理方法、及び記録媒体の第４実施形態について説明する。以下では、情報処理装置、情報処理方法、及び記録媒体の第４実施形態が適用された情報処理装置４を用いて、情報処理装置、情報処理方法、及び記録媒体の第４実施形態について説明する。
　［４－１：情報処理装置４の構成］

　図４を参照しながら、第４実施形態における情報処理装置４の構成について説明する。図４は、第４実施形態における情報処理装置４の構成を示すブロック図である。

　図４に示すように、第４実施形態における情報処理装置４は、第２実施形態における情報処理装置２、及び第３実施形態における情報処理装置３と同様に、演算装置２１と、記憶装置２２とを備えている。更に、情報処理装置４は、第２実施形態における情報処理装置２、及び第３実施形態における情報処理装置３と同様に、通信装置２３と、入力装置２４と、出力装置２５とを備えていてもよい。但し、情報処理装置４は、通信装置２３、入力装置２４及び出力装置２５のうちの少なくとも１つを備えていなくてもよい。第４実施形態における情報処理装置４は、第２実施形態における情報処理装置２、及び第３実施形態における情報処理装置３と比較して、演算装置２１が学習部４１７を備え、学習動作をする点において異なる。情報処理装置４のその他の特徴は、第２実施形態における情報処理装置２、及び第３実施形態における情報処理装置３の少なくとも一方のその他の特徴と同一であってもよい。
　［４－２：情報処理装置４が行う学習動作］

　図５を参照して、第４実施形態における情報処理装置４が行う情報処理動作の流れを説明する。図５は、第４実施形態における情報処理装置４が行う情報処理動作の流れを示すフローチャートである。

　図５に示すように、取得部２１１は、所定の表情のサンプル人物に関するサンプル情報と、所定の表情を示す表情ラベルとを含む学習情報を取得する（ステップＳ４０）。所定の表情は、喜びの表情、驚きの表情、恐怖の表情、嫌悪の表情、怒りの表情、悲しみの表情、及び、無表情の少なくとも何れかを含んでいてもよい。表情ラベルは、これらの各々の表情を示すラベルであってもよい。さらに、各々の表情の複数段階の強度毎のラベルを設けてもよい。

　取得部２１１は、記憶装置２２から、記憶装置２２に格納されている学習情報を取得してもよい。取得部２１１は、通信装置２３を介して、外部の装置から学習情報を取得してもよい。

　検出部２１２は、画像から人物の顔を含む顔領域を検出する（ステップＳ２１）。表情推定部２１４は、サンプル情報に基づいてサンプル人物の表情を推定する（ステップＳ４１）。

　学習部４１７は、表情ラベルと表情推定部２１４によるサンプル人物の表情の推定結果とに基づいて、表情推定部２１４に人物の表情の推定方法の学習を行わせる（ステップＳ４２）。学習部４１７は、顔領域の少なくとも一部の領域が遮蔽されている人物の表情を推定することのできる表情推定モデルを構築してもよい。表情推定部２１４は、表情推定モデルを用いて、人物に関する情報に基づいて、顔領域の少なくとも一部の領域が遮蔽されている人物の表情を推定してもよい。表情推定部２１４は、学習済みの表情推定モデルを用いることにより、精度よく、顔領域の少なくとも一部の領域が遮蔽されている人物の表情を推定することができる。

　表情推定モデルの動作を規定するパラメータは、記憶装置２２に記憶されてもよい。表情推定モデルの動作を規定するパラメータは、学習動作によって更新されるパラメータであってもよく、例えば、ニューラルネットワークの重みやバイアス等であってもよい。

　マスク領域に遮蔽されている顔の表情の学習に用いる画像は、マスク領域以外の人物の状態がわかればよい。つまり、学習は、マスク領域以外の領域を用いて行ってもよい。すなわち、学習に用いる画像は、マスクを着用している画像であってもよく、マスクを着用していない画像であってもよい。
　［４－３：情報処理装置４の技術的効果］

　第４実施形態における情報処理装置４は、機械学習により、精度のよい人物の表情の推定を実現することができる。
　［５：第５実施形態］

　情報処理装置、情報処理方法、及び記録媒体の第５実施形態について説明する。以下では、情報処理装置、情報処理方法、及び記録媒体の第５実施形態が適用された情報処理装置５を用いて、情報処理装置、情報処理方法、及び記録媒体の第５実施形態について説明する。

　第５実施形態に係る情報処理装置５について、図６を参照して説明する。なお、第５実施形態は、上述した第２実施形態から第４実施形態における推定表情画像の生成の際の動作（即ち、図３のステップＳ２４に対応する動作）の具体例を説明するものである。第５実施形態において、記憶装置２２には、様々な表情の人物の画像であって、少なくとも遮蔽領域が遮蔽されていない人物の画像が、予め登録されていてもよい。推定表情画像の生成の際の動作の他の部分については第２実施形態から第４実施形態の少なくとも１つと同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
　［５－１：情報処理装置５が行う推定表情画像生成動作］

　図６を参照しながら、第５実施形態に係る情報処理装置５による推定表情画像生成（即ち、推定表情画像を生成する際の動作）の流れについて説明する。図６は、第５実施形態に係る情報処理装置５による推定表情画像生成動作の流れを示すフローチャートである。

　図６に示すように、推定表情画像生成部２１５は、処理対象の人物が誰であるか推定する（ステップＳ５０）。推定表情画像生成部２１５は、検出部２１２が検出した顔領域を用いた顔認証を行い、処理対象の人物が誰であるか推定してもよい。

　推定表情画像生成部２１５は、予め登録されている少なくとも遮蔽領域が遮蔽されていない人物の画像のうち、処理対象の人物（以下、「本人」と称する場合がある）の画像と推定される画像を探索及び取得する（ステップＳ５１）。推定表情画像生成部２１５は、ステップＳ５１において、本人の画像が取得できたか否かを判定する（ステップＳ５２）。

　ステップＳ５１において、本人の画像が取得できた場合（ステップＳ５２：Ｙｅｓ）、推定表情画像生成部２１５は、ステップＳ２３において推定された表情に対応する表情の本人の画像が有るか否かを判定する（ステップＳ５３）。推定された表情に対応する表情は、推定された表情に一致する、又は類似する表情を含んでいてもよい。

　ステップＳ２３において推定された表情に対応する表情の本人の画像が有る場合（ステップＳ５３：Ｙｅｓ）、推定表情画像生成部２１５は、表情推定部２１４が推定した表情に対応する表情の予め登録されている本人の画像に基づいて、推定表情画像を生成する（ステップＳ５４）。推定表情画像生成部２１５は、表情推定部２１４が推定した表情に対応する表情の予め登録されている本人の画像を選択し、画像の明るさ、人物の姿勢等を補正して、推定表情画像を生成してもよい。

　ステップＳ２３において推定された表情に対応する表情の本人の画像が無い場合（ステップＳ５３：Ｎｏ）、推定表情画像生成部２１５は、予め登録されている、少なくとも遮蔽領域が遮蔽されていない本人の画像に基づいて、推定表情画像を生成する（ステップＳ５５）。表情推定部２１４が推定した表情に対応する表情の予め登録されている本人の画像が無い場合、推定表情画像生成部２１５は、本人の任意の画像を選択し、画像の表情を表情推定部２１４が推定した表情に対応する表情に変換して、推定表情画像を生成してもよい。推定表情画像生成部２１５は、例えば敵対的生成ネットワーク（ＧＡＮ：Ｇｅｎｅｒａｔｉｖｅ　Ａｄｖｅｒｓａｒｉａｌ　Ｎｅｔｗｏｒｋ）等の深層学習の技術を適用して、画像の表情を表情推定部２１４が推定した表情に対応する表情の画像を、推定表情画像として生成してもよい。

　ステップＳ５１において、本人の画像が取得できなかった場合（ステップＳ５２：Ｎｏ）、推定表情画像生成部２１５は、例えばＧＡＮ等の深層学習の技術を適用して、画像の表情を表情推定部２１４が推定した表情に対応する表情の画像を、推定表情画像として生成してもよい（ステップＳ５６）。

　なお、本人画像は、１人の人物につき１画像のみが登録されていてもよい。すなわち、情画像生成部２１５は、ステップＳ５３の動作を省略し、ステップＳ５５の動作を実施してもよい。また、推定表情画像生成部２１５は、本人画像の有無にかかわらず、例えばＧＡＮ等の深層学習の技術を適用して、推定表情画像を生成してもよい。すなわち、情画像生成部２１５は、ステップＳ５０からステップＳ５２の動作を省略し、ステップＳ５６の動作を実施してもよい。

　また、本実施形態において生成する画像は、人物認証の使用を目的としなくてもよい。したがって、推定表情画像生成部２１５は、個人性よりも、画像が生成された際の人物の状況に合った表情の顔画像を生成してもよい。
　［５－２：情報処理装置５の技術的効果］

　第５実施形態における情報処理装置５は、予め登録されている、少なくとも遮蔽領域が遮蔽されていない人物の画像に基づいて、前記推定表情画像を生成するので、本人らしい、画像を得ることができる。さらに、情報処理装置５は、推定した表情に対応する表情の少なくとも遮蔽領域が遮蔽されていない人物の画像が予め登録されていた場合には、予め登録されている当該画像に基づいて、推定表情画像を生成するので、より本人らしい、画像を得ることができる。
　［６：第６実施形態］

　情報処理装置、情報処理方法、及び記録媒体の第６実施形態について説明する。以下では、情報処理装置、情報処理方法、及び記録媒体の第６実施形態が適用された情報処理装置６を用いて、情報処理装置、情報処理方法、及び記録媒体の第６実施形態について説明する。
　［６－１：情報処理装置６の構成］

　図７を参照しながら、第６実施形態における情報処理装置６の構成について説明する。図７は、第６実施形態における情報処理装置６の構成を示すブロック図である。

　図７に示すように、第６実施形態における情報処理装置６は、第２実施形態における情報処理装置２から第５実施形態における情報処理装置５と同様に、演算装置２１と、記憶装置２２とを備えている。更に、情報処理装置６は、第２実施形態における情報処理装置２から第５実施形態における情報処理装置５と同様に、通信装置２３と、入力装置２４と、出力装置２５とを備えていてもよい。但し、情報処理装置６は、通信装置２３、入力装置２４及び出力装置２５のうちの少なくとも１つを備えていなくてもよい。第６実施形態における情報処理装置６は、第２実施形態における情報処理装置２から第６実施形態における情報処理装置５と比較して、演算装置２１が表示制御部６１８を備える点で異なる。情報処理装置６のその他の特徴は、第２実施形態における情報処理装置２から第５実施形態における情報処理装置５の少なくとも１つのその他の特徴と同一であってもよい。
　［６－２：情報処理装置６が行う情報処理動作］

　表示制御部６１８は、合成画像生成部２１６が合成画像を生成した場合、画像に替えて合成画像を表示させ、合成画像生成部２１６が生成した画像であることを示す情報を合成画像に重畳して表示させる。例えば図８（ａ）に例示すように、表示制御部６１８は、合成画像生成部２１６が合成画像を生成した場合、表示機構Ｄの右下に「マスク領域補完画像」等の文字を表示させてもよい。または、例えば図８（ｂ）に例示すように、表示制御部６１８は、合成画像生成部２１６が合成画像を生成した場合、未合成の画像におけるマスク領域に対応する領域に、半透明のマスクを重畳させて表示させてもよい。
　［６－３：情報処理装置６の技術的効果］

　第６実施形態における情報処理装置６は、合成画像を表示する場合に、合成画像であることを示す情報を合成画像に重畳して表示させるので、利用者は、画像が合成された画像なのか否かを容易に見分けることができる。
　［７：第７実施形態］

　オンライン会議システムの第７実施形態について説明する。以下では、オンライン会議システムの第７実施形態が適用されたオンライン会議システム７００を用いて、オンライン会議システムの第７実施形態について説明する。
　［７－１：オンライン会議システム７００の構成］
　図９に例示するように、第７実施形態におけるオンライン会議システム７００は、オンライン会議制御装置７と、会議を行う複数の端末７０（図９においては、端末７０－１、端末７０－２、端末７０－３、・・・、端末７０－Ｎを例示している。）を含んでいてもよい。オンライン会議制御装置７は、複数の端末７０と通信可能である。複数の端末７０は、オンライン会議を行ってもよい。複数の端末７０は、ウェブ会議を行ってもよい。
　［７－２：オンライン会議制御装置７の構成］

　図１０を参照しながら、オンライン会議制御装置７の構成について説明する。図１０は、第７実施形態におけるオンライン会議制御装置７の構成を示すブロック図である。

　図１０に示すように、オンライン会議制御装置７は、演算装置７１と、記憶装置７２とを備えている。更に、オンライン会議制御装置７は、通信装置７３と、入力装置７４と、出力装置７５とを備えていてもよい。但し、オンライン会議制御装置７は、通信装置７３、入力装置７４及び出力装置７５のうちの少なくとも１つを備えていなくてもよい。演算装置７１と、記憶装置７２と、通信装置７３と、入力装置７４と、出力装置７５とは、データバス７６を介して接続されていてもよい。

　演算装置７１は、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｅｃｓｓｉｎｇ　Ｕｎｉｔ）及びＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）のうちの少なくとも１つを含む。演算装置７１は、コンピュータプログラムを読み込む。例えば、演算装置７１は、記憶装置７２が記憶しているコンピュータプログラムを読み込んでもよい。例えば、演算装置７１は、コンピュータで読み取り可能であって且つ一時的でない記録媒体が記憶しているコンピュータプログラムを、オンライン会議制御装置７が備える図示しない記録媒体読み取り装置（例えば、後述する入力装置７４）を用いて読み込んでもよい。演算装置７１は、通信装置７３（或いは、その他の通信装置）を介して、オンライン会議制御装置７の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい（つまり、ダウンロードしてもよい又は読み込んでもよい）。演算装置７１は、読み込んだコンピュータプログラムを実行する。その結果、演算装置７１内には、オンライン会議制御装置７が行うべき動作を実行するための論理的な機能ブロックが実現される。つまり、演算装置７１は、オンライン会議制御装置７が行うべき動作（言い換えれば、処理）を実行するための論理的な機能ブロックを実現するためのコントローラとして機能可能である。

　図１０には、オンライン会議制御動作を実行するために演算装置７１内に実現される論理的な機能ブロックの一例が示されている。図１０に示すように、演算装置７１内には、後述する付記に記載された「取得手段」の一具体例である取得部７１１と、後述する付記に記載された「検出手段」の一具体例である検出部７１２と、後述する付記に記載された「推定手段」の一具体例である領域推定部７１３と、「表情推定手段」の一具体例である表情推定部７１４と、後述する付記に記載された「推定表情画像生成手段」の一具体例である推定表情画像生成部７１５と、後述する付記に記載された「合成画像生成手段」の一具体例である合成画像生成部７１６と、「出力制御手段」の一具体例である出力制御部７１９とが実現される。取得部７１１、検出部７１２、領域推定部７１３、表情推定部７１４、推定表情画像生成部７１５、合成画像生成部７１６、及び出力制御部７１９の夫々の動作については、図１１を参照しながら後述する。

　記憶装置７２は、所望のデータを記憶可能である。例えば、記憶装置７２は、演算装置７１が実行するコンピュータプログラムを一時的に記憶していてもよい。記憶装置７２は、演算装置７１がコンピュータプログラムを実行している場合に演算装置７１が一時的に使用するデータを一時的に記憶してもよい。記憶装置７２は、オンライン会議制御装置７が長期的に保存するデータを記憶してもよい。尚、記憶装置７２は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ハードディスク装置、光磁気ディスク装置、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）及びディスクアレイ装置のうちの少なくとも１つを含んでいてもよい。つまり、記憶装置７２は、一時的でない記録媒体を含んでいてもよい。

　通信装置７３は、不図示の通信ネットワークを介して、オンライン会議制御装置７の外部の装置と通信可能である。オンライン会議制御装置７は、通信装置７３を介して複数の端末７０の各々と通信可能であってもよい。

　入力装置７４は、オンライン会議制御装置７の外部からのオンライン会議制御装置７に対する情報の入力を受け付ける装置である。例えば、入力装置７４は、オンライン会議制御装置７のオペレータが操作可能な操作装置（例えば、キーボード、マウス及びタッチパネルのうちの少なくとも１つ）を含んでいてもよい。例えば、入力装置７４はオンライン会議制御装置７に対して外付け可能な記録媒体にデータとして記録されている情報を読み取り可能な読取装置を含んでいてもよい。

　出力装置７５は、オンライン会議制御装置７の外部に対して情報を出力する装置である。例えば、出力装置７５は、情報を画像として出力してもよい。つまり、出力装置７５は、出力したい情報を示す画像を表示可能な表示装置（いわゆる、ディスプレイ）を含んでいてもよい。例えば、出力装置７５は、情報を音声として出力してもよい。つまり、出力装置７５は、音声を出力可能な音声装置（いわゆる、スピーカ）を含んでいてもよい。例えば、出力装置７５は、紙面に情報を出力してもよい。つまり、出力装置７５は、紙面に所望の情報を印刷可能な印刷装置（いわゆる、プリンタ）を含んでいてもよい。
　［７－３：オンライン会議制御装置７が行うオンライン会議制御動作］

　図１１を参照して、第７実施形態におけるオンライン会議制御装置７が行うオンライン会議制御動作の流れを説明する。図１１は、第７実施形態におけるオンライン会議制御装置７が行うオンライン会議制御動作の流れを示すフローチャートである。

　図１１に示すように、取得部７１１は、会議を行う複数の端末７０のうちの少なくとも１台の端末７０から、少なくとも人物の画像を含む当該人物に関する情報を取得する（ステップＳ７０）。取得部７１１は、少なくとも端末７０を操作する人物の画像を含む当該人物に関する情報を取得してもよい。取得部７１１は、端末７０を操作する人物の動画を含む当該人物に関する情報を取得してもよい。

　検出部７１２は、画像から人物の顔を含む顔領域を検出する（ステップＳ７１）。領域推定部７１３は、顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する（ステップＳ７２）。表情推定部７１４は、人物に関する情報に基づいて人物の表情を推定する（ステップＳ７３）。推定表情画像生成部７１５は、表情推定部７１４により推定された表情に応じた、遮蔽領域に対応する領域の推定表情画像を生成する（ステップＳ７４）。合成画像生成部７１６は、画像、及び推定表情画像に基づき合成画像を生成する（ステップＳ７５）。

　なお、検出部７１２が行う動作は、第２実施形態から第６実施形態における検出部２１２の少なくとも１つが行う動作と同様であってもよい。また、領域推定部７１３が行う動作は、第２実施形態から第６実施形態における領域推定部２１３の少なくとも１つが行う動作と同様であってもよい。また、表情推定部７１４が行う動作は、第２実施形態から第６実施形態における表情推定部２１４の少なくとも１つが行う動作と同様であってもよい。また、推定表情画像生成部７１５が行う動作は、第２実施形態から第６実施形態における推定表情画像生成部２１５の少なくとも１つが行う動作と同様であってもよい。また、合成画像生成部７１６が行う動作は、第２実施形態から第６実施形態における合成画像生成部２１６の少なくとも１つが行う動作と同様であってもよい。

　出力制御部７１９は、合成画像生成部７１６が合成画像を生成した場合、画像に替えて合成画像を複数の端末７０に出力する（ステップＳ７６）。取得部７１１が端末７０を操作する人物の動画を取得する場合、出力制御部７１９は、画像又は合成画像を、複数の端末７０にリアルタイム出力してもよい。または、出力制御部７１９は、複数の端末７０に合成画像を出力する場合、複数の端末７０に画像を出力する場合と比較して遅く出力してもよい。出力制御部７１９は、複数の端末７０に合成画像を出力する場合、複数の端末７０に画像を出力する場合と比較して、例えば数秒間等の遅れを伴って出力してもよい。

　なお、第２実施形態における情報処理装置２から第６実施形態における情報処理装置６の少なくとも１つにおいても、合成画像の生成動作をリアルタイムで実施してもよい。または、第２実施形態における情報処理装置２から第６実施形態における情報処理装置６の少なくとも１つにおいても、例えば数秒間等のタイムラグが生じてもよい。

　また、取得部７１１が端末７０を操作する人物の静止画を取得する場合、学習部７１７はオフラインで合成画像を生成し、出力制御部７１９は、オフラインで生成された合成画像を複数の端末７０に出力してもよい。

　なお、取得部７１１が、人物の動画を含む当該人物に関する情報を取得した場合、領域推定部７１３は、フレーム毎に推定処理を実施しなくてもよい。すなわち、領域推定部７１３は、所定のフレーム数毎に推定処理を実施してもよい。すなわち、表情推定部７１４は、所定のフレーム数の間は同じ表情に応じた推定表情画像を生成してもよい。

　さらに、第７実施形態におけるオンライン会議制御装置７は、演算装置７１が学習部７１７を備えていてもよい。すなわち、学習部７１７は、第４実施形態の学習部４１７と同様に、表情ラベルと表情推定部７１４によるサンプル人物の表情の推定結果とに基づいて、表情推定部７１４に人物の表情の推定方法の学習を行わせてもよい。

　さらに、第７実施形態におけるオンライン会議制御装置７は、演算装置７１が表示制御部７１８を備えていてもよい。すなわち、表示制御部７１８は、第６実施形態の表示制御部６１８と同様に、合成画像生成部７１６が合成画像を生成した場合、画像に替えて合成画像を表示させ、合成画像生成部７１６が生成した画像であることを示す情報を合成画像に重畳して表示させてもよい。
　［７－４：オンライン会議制御装置７の技術的効果］

　第７実施形態におけるオンライン会議制御装置７は、画像、及び推定された人物の表情に応じたマスク領域の画像に基づき合成画像を生成するので、人物がマスクを着用している場合にも、人物の口元が遮蔽されていない、人物の表情に応じた画像を取得することができる。

　昨今、衛生意識の変化から、特に人の多い場所においては、マスクの着用が推奨されている。オンラインのコミュニケーションには、マスク非着用で参加することを希望するも、サテライトオフィス等の共用の場所から参加する場合には、マスクの着用が推奨されてしまう。つまり、人の多い場所等のマスクを外すことが躊躇われる場所においても、マスク非着用の自然な顔画像の配信の需要がある。

　これに対し、第７実施形態におけるオンライン会議制御装置７は、人物がマスクを着用している場合に、推定された人物の表情に応じた、マスク領域に対応する領域の画像に基づき、マスク非着用の合成画像を生成するので、マスク非着用の自然な顔画像を提供することができる。したがって、サテライトオフィス等の共用の場所から参加する場合にも、マスク非着用の自然な顔画像を配信することができる。
　［８：付記］

　以上説明した実施形態に関して、更に以下の付記を開示する。
　［付記１］
　少なくとも人物の画像を含む当該人物に関する情報を取得する取得手段と、
　前記画像から前記人物の顔を含む顔領域を検出する検出手段と、
　前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する推定手段と、
　前記人物に関する情報に基づいて前記人物の表情を推定する表情推定手段と、
　前記表情推定手段により推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成する推定表情画像生成手段と、
　前記画像、及び前記推定表情画像に基づき合成画像を生成する合成画像生成手段と
　を備える情報処理装置。
　［付記２］
　前記顔領域の少なくとも一部の領域が遮蔽されている遮蔽領域は、前記人物が着用しているマスクによって遮蔽されているマスク領域である
　付記１に記載の情報処理装置。
　［付記３］
　前記表情推定手段は、前記顔領域における前記人物の目の周囲の領域に基づいて前記人物の表情を推定する
　付記２に記載の情報処理装置。
　［付記４］
　前記取得手段は、所定の表情のサンプル人物に関するサンプル情報と、前記所定の表情を示す表情ラベルとを含む学習情報を取得し、
　前記表情推定手段は、前記サンプル情報に基づいて前記サンプル人物の表情を推定し、
　前記表情ラベルと前記表情推定手段による前記サンプル人物の表情の推定結果とに基づいて、前記表情推定手段に前記人物の表情の推定方法の学習を行わせる学習手段を更に備える
　付記１から３の何れか一項に記載の情報処理装置。
　［付記５］
　前記推定表情画像生成手段は、予め登録されている、少なくとも前記遮蔽領域が遮蔽されていない前記人物の画像に基づいて、前記推定表情画像を生成する
　付記１から３の何れか一項に記載の情報処理装置。
　［付記６］
　前記推定表情画像生成手段は、前記表情推定手段が推定した表情に対応する表情の予め登録されている前記人物の画像に基づいて、前記推定表情画像を生成する
　付記５に記載の情報処理装置。
　［付記７］
　前記合成画像生成手段が前記合成画像を生成した場合、前記画像に替えて前記合成画像を表示させ、前記合成画像生成手段が生成した画像であることを示す情報を前記合成画像に重畳して表示させる表示制御手段を更に備える
　付記１から３の何れか一項に記載の情報処理装置。
　［付記８］
　会議を行う複数の端末のうちの少なくとも１台の端末から、少なくとも人物の画像を含む当該人物に関する情報を取得する取得手段と、
　前記画像から前記人物の顔を含む顔領域を検出する検出手段と、
　前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する推定手段と、
　前記人物に関する情報に基づいて前記人物の表情を推定する表情推定手段と、
　前記表情推定手段により推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成する推定表情画像生成手段と、
　前記画像、及び前記推定表情画像に基づき合成画像を生成する合成画像生成手段と、
　前記合成画像生成手段が前記合成画像を生成した場合、前記画像に替えて前記合成画像を前記複数の端末に出力する出力制御手段と
　を備えるオンライン会議システム。
　［付記９］
　少なくとも人物の画像を含む当該人物に関する情報を取得し、
　前記画像から前記人物の顔を含む顔領域を検出し、
　前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定し、
　前記人物に関する情報に基づいて前記人物の表情を推定し、
　推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成し、
　前記画像、及び前記推定表情画像に基づき合成画像を生成する
　情報処理方法。
　［付記１０］
　コンピュータに、
　少なくとも人物の画像を含む当該人物に関する情報を取得し、
　前記画像から前記人物の顔を含む顔領域を検出し、
　前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定し、
　前記人物に関する情報に基づいて前記人物の表情を推定し、
　推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成し、
　前記画像、及び前記推定表情画像に基づき合成画像を生成する
　情報処理方法を実行させるためのコンピュータプログラムが記録されている記録媒体。

　この開示は、請求の範囲及び明細書全体から読み取ることのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴う情報処理装置、情報処理方法、及び記録媒体もまたこの開示の技術思想に含まれる。

１，２，３，４，５，６　情報処理装置
１１，２１１，７１１　取得部
１２，２１２，７１２　検出部
１３，２１３，７１３　領域推定部
１４，２１４，７１４　表情推定部
１５，２１５，７１５　推定表情画像生成部
１６，２１６，７１６　合成画像生成部
４１７，７１７　学習部
６１８，７１８　表示制御部
７００　オンライン会議システム
７　オンライン会議制御装置
７０　端末
７１９　出力制御部

Claims

　少なくとも人物の画像を含む当該人物に関する情報を取得する取得手段と、
　前記画像から前記人物の顔を含む顔領域を検出する検出手段と、
　前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する推定手段と、
　前記人物に関する情報に基づいて前記人物の表情を推定する表情推定手段と、
　前記表情推定手段により推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成する推定表情画像生成手段と、
　前記画像、及び前記推定表情画像に基づき合成画像を生成する合成画像生成手段と
　を備える情報処理装置。
　前記顔領域の少なくとも一部の領域が遮蔽されている遮蔽領域は、前記人物が着用しているマスクによって遮蔽されているマスク領域である
　請求項１に記載の情報処理装置。
　前記表情推定手段は、前記顔領域における前記人物の目の周囲の領域に基づいて前記人物の表情を推定する
　請求項２に記載の情報処理装置。
　前記取得手段は、所定の表情のサンプル人物に関するサンプル情報と、前記所定の表情を示す表情ラベルとを含む学習情報を取得し、
　前記表情推定手段は、前記サンプル情報に基づいて前記サンプル人物の表情を推定し、
　前記表情ラベルと前記表情推定手段による前記サンプル人物の表情の推定結果とに基づいて、前記表情推定手段に前記人物の表情の推定方法の学習を行わせる学習手段を更に備える
　請求項１から３の何れか一項に記載の情報処理装置。
　前記推定表情画像生成手段は、予め登録されている、少なくとも前記遮蔽領域が遮蔽されていない前記人物の画像に基づいて、前記推定表情画像を生成する
　請求項１から３の何れか一項に記載の情報処理装置。
　前記推定表情画像生成手段は、前記表情推定手段が推定した表情に対応する表情の予め登録されている前記人物の画像に基づいて、前記推定表情画像を生成する
　請求項５に記載の情報処理装置。
　前記合成画像生成手段が前記合成画像を生成した場合、前記画像に替えて前記合成画像を表示させ、前記合成画像生成手段が生成した画像であることを示す情報を前記合成画像に重畳して表示させる表示制御手段を更に備える
　請求項１から３の何れか一項に記載の情報処理装置。
　会議を行う複数の端末のうちの少なくとも１台の端末から、少なくとも人物の画像を含む当該人物に関する情報を取得する取得手段と、
　前記画像から前記人物の顔を含む顔領域を検出する検出手段と、
　前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する推定手段と、
　前記人物に関する情報に基づいて前記人物の表情を推定する表情推定手段と、
　前記表情推定手段により推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成する推定表情画像生成手段と、
　前記画像、及び前記推定表情画像に基づき合成画像を生成する合成画像生成手段と、
　前記合成画像生成手段が前記合成画像を生成した場合、前記画像に替えて前記合成画像を前記複数の端末に出力する出力制御手段と
　を備えるオンライン会議システム。
　少なくとも人物の画像を含む当該人物に関する情報を取得し、
　前記画像から前記人物の顔を含む顔領域を検出し、
　前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定し、
　前記人物に関する情報に基づいて前記人物の表情を推定し、
　推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成し、
　前記画像、及び前記推定表情画像に基づき合成画像を生成する
　情報処理方法。
　コンピュータに、
　少なくとも人物の画像を含む当該人物に関する情報を取得し、
　前記画像から前記人物の顔を含む顔領域を検出し、
　前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定し、
　前記人物に関する情報に基づいて前記人物の表情を推定し、
　推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成し、
　前記画像、及び前記推定表情画像に基づき合成画像を生成する
　情報処理方法を実行させるためのコンピュータプログラムが記録されている記録媒体。