WO2023223377A1 - 情報処理装置、情報処理方法、及び記録媒体 - Google Patents
情報処理装置、情報処理方法、及び記録媒体 Download PDFInfo
- Publication number
- WO2023223377A1 WO2023223377A1 PCT/JP2022/020343 JP2022020343W WO2023223377A1 WO 2023223377 A1 WO2023223377 A1 WO 2023223377A1 JP 2022020343 W JP2022020343 W JP 2022020343W WO 2023223377 A1 WO2023223377 A1 WO 2023223377A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- facial expression
- image
- person
- information processing
- estimated
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 173
- 238000003672 processing method Methods 0.000 title claims description 29
- 230000008921 facial expression Effects 0.000 claims abstract description 299
- 238000001514 detection method Methods 0.000 claims abstract description 29
- 230000001815 facial effect Effects 0.000 claims abstract description 23
- 239000002131 composite material Substances 0.000 claims description 84
- 238000004590 computer program Methods 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 15
- 238000004891 communication Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 210000001097 facial muscle Anatomy 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 210000004709 eyebrow Anatomy 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 210000001142 back Anatomy 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Image Processing (AREA)
Abstract
情報処理装置1は、少なくとも人物の画像を含む当該人物に関する情報を取得する取得部11、画像から人物の顔を含む顔領域を検出する検出部12と、顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する領域推定部13と、人物に関する情報に基づいて人物の表情を推定する表情推定部14と、表情推定部14により推定された表情に応じた、遮蔽領域に対応する領域の推定表情画像を生成する推定表情画像生成部15と、画像、及び推定表情画像に基づき合成画像を生成する合成画像生成部16とを備える。
Description
この開示は、情報処理装置、情報処理方法、及び記録媒体の技術分野に関する。
顔を表す画像である入力画像において遮蔽されている遮蔽領域を判定し、遮蔽領域に基づく遮蔽パターンと関連付けられている領域以外を用いて、入力画像の識別を行い、遮蔽領域を含む顔画像の認識精度をより向上させる技術が特許文献1に記載されている。顔画像を入力し、顔画像に含まれる、目、鼻、口、頬などの部位を含む領域を検出し、検出した部位領域の内部を塗りつぶし、部位領域を塗りつぶした顔画像に、予め記憶されている部位の画像を合成する技術が特許文献2に記載されている。ヘッドマウントディスプレイに固定したカメラの位置からヘッドマウントディスプレイ越しに使用者の正面画像(動画像)を撮影し、この動画像でのヘッドマウントディスプレイに隠れない顔領域はそのまま使用し、隠れる領域は同一視点からあらかじめ撮影して蓄積手段に蓄積したヘッドマウントディスプレイ未装着時の静止画像からヘッドマウントディスプレイのマスクパターンで切り出した領域で置き換える処理を行い、動画像と静止画像から合成した顔画像を、立方体等の適当な立体の表面にテクスチャマップ手法で貼り付けて、それを人物の頭部として出力または表示する技術が特許文献3に記載されている。
この開示は、先行技術文献に記載された技術の改良を目的とする情報処理装置、情報処理方法、及び記録媒体を提供することを課題とする。
この開示の情報処理装置の一の態様は、少なくとも人物の画像を含む当該人物に関する情報を取得する取得手段と、前記画像から前記人物の顔を含む顔領域を検出する検出手段と、前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する推定手段と、前記人物に関する情報に基づいて前記人物の表情を推定する表情推定手段と、前記表情推定手段により推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成する推定表情画像生成手段と、前記画像、及び前記推定表情画像に基づき合成画像を生成する合成画像生成手段とを備える。
この開示の情報処理方法の一の態様は、少なくとも人物の画像を含む当該人物に関する情報を取得し、前記画像から前記人物の顔を含む顔領域を検出し、前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定し、前記人物に関する情報に基づいて前記人物の表情を推定し、推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成し、前記画像、及び前記推定表情画像に基づき合成画像を生成する。
この開示の記録媒体の一の態様は、コンピュータに、少なくとも人物の画像を含む当該人物に関する情報を取得し、前記画像から前記人物の顔を含む顔領域を検出し、前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定し、前記人物に関する情報に基づいて前記人物の表情を推定し、推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成し、前記画像、及び前記推定表情画像に基づき合成画像を生成する情報処理方法を実行させるためのコンピュータプログラムが記録されている。
以下、図面を参照しながら、情報処理装置、情報処理方法、及び記録媒体の実施形態について説明する。
[1:第1実施形態]
[1:第1実施形態]
情報処理装置、情報処理方法、及び記録媒体の第1実施形態について説明する。以下では、情報処理装置、情報処理方法、及び記録媒体の第1実施形態が適用された情報処理装置1を用いて、情報処理装置、情報処理方法、及び記録媒体の第1実施形態について説明する。
[1-1:情報処理装置1の構成]
[1-1:情報処理装置1の構成]
図1を参照しながら、第1実施形態における情報処理装置1の構成について説明する。図1は、第1実施形態における情報処理装置1の構成を示すブロック図である。
図1に示すように、情報処理装置1は、取得部11と、検出部12と、領域推定部13と、表情推定部14と、推定表情画像生成部15と、合成画像生成部16とを備える。取得部11は、少なくとも人物の画像を含む当該人物に関する情報を取得する。検出部12は、画像から人物の顔を含む顔領域を検出する。領域推定部13は、顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する。表情推定部14は、人物に関する情報に基づいて人物の表情を推定する。推定表情画像生成部15は、表情推定部14により推定された表情に応じた、遮蔽領域に対応する領域の推定表情画像を生成する。合成画像生成部16は、画像、及び推定表情画像に基づき合成画像を生成する。
[1-2:情報処理装置1の技術的効果]
[1-2:情報処理装置1の技術的効果]
第1実施形態における情報処理装置1は、画像、及び推定された人物の表情に応じた画像に基づき合成画像を生成するので、人物の顔領域の少なくとも一部の領域が遮蔽されている場合にも、人物の顔領域が遮蔽されていない、人物の表情に応じた画像(つまり、合成画像)を取得することができる。
[2:第2実施形態]
[2:第2実施形態]
情報処理装置、情報処理方法、及び記録媒体の第2実施形態について説明する。以下では、情報処理装置、情報処理方法、及び記録媒体の第2実施形態が適用された情報処理装置2を用いて、情報処理装置、情報処理方法、及び記録媒体の第2実施形態について説明する。
[2-1:情報処理装置2の構成]
[2-1:情報処理装置2の構成]
図2を参照しながら、第2実施形態における情報処理装置2の構成について説明する。図2は、第2実施形態における情報処理装置2の構成を示すブロック図である。
図2に示すように、情報処理装置2は、演算装置21と、記憶装置22とを備えている。更に、情報処理装置2は、通信装置23と、入力装置24と、出力装置25とを備えていてもよい。但し、情報処理装置2は、通信装置23、入力装置24及び出力装置25のうちの少なくとも1つを備えていなくてもよい。演算装置21と、記憶装置22と、通信装置23と、入力装置24と、出力装置25とは、データバス26を介して接続されていてもよい。
演算装置21は、例えば、CPU(Central Processing Unit)、GPU(Graphics Proecssing Unit)及びFPGA(Field Programmable Gate Array)のうちの少なくとも1つを含む。演算装置21は、コンピュータプログラムを読み込む。例えば、演算装置21は、記憶装置22が記憶しているコンピュータプログラムを読み込んでもよい。例えば、演算装置21は、コンピュータで読み取り可能であって且つ一時的でない記録媒体が記憶しているコンピュータプログラムを、情報処理装置2が備える図示しない記録媒体読み取り装置(例えば、後述する入力装置24)を用いて読み込んでもよい。演算装置21は、通信装置23(或いは、その他の通信装置)を介して、情報処理装置2の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい(つまり、ダウンロードしてもよい又は読み込んでもよい)。演算装置21は、読み込んだコンピュータプログラムを実行する。その結果、演算装置21内には、情報処理装置2が行うべき動作を実行するための論理的な機能ブロックが実現される。つまり、演算装置21は、情報処理装置2が行うべき動作(言い換えれば、処理)を実行するための論理的な機能ブロックを実現するためのコントローラとして機能可能である。
図2には、情報処理動作を実行するために演算装置21内に実現される論理的な機能ブロックの一例が示されている。図2に示すように、演算装置21内には、後述する付記に記載された「取得手段」の一具体例である取得部211と、後述する付記に記載された「検出手段」の一具体例である検出部212と、後述する付記に記載された「推定手段」の一具体例である領域推定部213と、「表情推定手段」の一具体例である表情推定部214と、後述する付記に記載された「推定表情画像生成手段」の一具体例である推定表情画像生成部215と、後述する付記に記載された「合成画像生成手段」の一具体例である合成画像生成部216とが実現される。取得部211、検出部212、領域推定部213、表情推定部214、推定表情画像生成部215、及び合成画像生成部216の夫々の動作については、図3を参照しながら後述する。
記憶装置22は、所望のデータを記憶可能である。例えば、記憶装置22は、演算装置21が実行するコンピュータプログラムを一時的に記憶していてもよい。記憶装置22は、演算装置21がコンピュータプログラムを実行している場合に演算装置21が一時的に使用するデータを一時的に記憶してもよい。記憶装置22は、情報処理装置2が長期的に保存するデータを記憶してもよい。尚、記憶装置22は、RAM(Random Access Memory)、ROM(Read Only Memory)、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)及びディスクアレイ装置のうちの少なくとも1つを含んでいてもよい。つまり、記憶装置22は、一時的でない記録媒体を含んでいてもよい。
通信装置23は、不図示の通信ネットワークを介して、情報処理装置2の外部の装置と通信可能である。
入力装置24は、情報処理装置2の外部からの情報処理装置2に対する情報の入力を受け付ける装置である。例えば、入力装置24は、情報処理装置2のオペレータが操作可能な操作装置(例えば、キーボード、マウス及びタッチパネルのうちの少なくとも1つ)を含んでいてもよい。例えば、入力装置24は情報処理装置2に対して外付け可能な記録媒体にデータとして記録されている情報を読み取り可能な読取装置を含んでいてもよい。
出力装置25は、情報処理装置2の外部に対して情報を出力する装置である。例えば、出力装置25は、情報を画像として出力してもよい。つまり、出力装置25は、出力したい情報を示す画像を表示可能な表示装置(いわゆる、ディスプレイ)を含んでいてもよい。例えば、出力装置25は、情報を音声として出力してもよい。つまり、出力装置25は、音声を出力可能な音声装置(いわゆる、スピーカ)を含んでいてもよい。例えば、出力装置25は、紙面に情報を出力してもよい。つまり、出力装置25は、紙面に所望の情報を印刷可能な印刷装置(いわゆる、プリンタ)を含んでいてもよい。
[2-2:情報処理装置2が行う情報処理動作]
[2-2:情報処理装置2が行う情報処理動作]
図3を参照して、第2実施形態における情報処理装置2が行う情報処理動作の流れを説明する。図3は、第2実施形態における情報処理装置2が行う情報処理動作の流れを示すフローチャートである。
図3に示すように、取得部211は、少なくとも人物の画像を含む当該人物に関する情報を取得する(ステップS20)。取得部211は、人物に関する情報として、人物の画像以外に、例えば、人物の画像が生成された際に取得された音声情報等を取得してもよい。
検出部212は、画像から人物の顔を含む顔領域を検出する(ステップS21)。検出部212は、画像に対して公知の顔検出処理を適用して顔領域を検出してもよい。検出部212は、顔部の特徴を有する領域を顔領域として検出してもよい。顔部の特徴を有する領域は、目、鼻、口等の顔を構成する特徴的な部位を含む領域であってもよい。検出部212が行う顔領域の検出の方法に特に制限はない。検出部212は、例えば、顔領域に特徴的なエッジやパターンの抽出に基づいて、顔領域を検出してもよい。
検出部212は、顔領域の検出を機械学習したニューラルネットワークを用いて顔領域を検出してもよい。検出部212は、畳み込みニューラルネットワーク(Convolutional neural network、以下「CNN」とも称する)で構成されていてもよい。
領域推定部213は、顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する(ステップS22)。第2実施形態において、顔領域の少なくとも一部の領域が遮蔽されている遮蔽領域は、人物が着用しているマスクによって遮蔽されているマスク領域であってもよい。領域推定部213は、人物が着用しているマスクによって、顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されているマスク領域を推定してもよい。領域推定部213は、例えば、顔領域から鼻翼及び口端等の特徴点が検出されない場合、顔領域がマスク領域を含むと判定してもよい。マスクで隠れるマスク領域は、鼻翼、口端等を含む所定の領域であってもよい。
表情推定部214は、人物に関する情報に基づいて人物の表情を推定する(ステップS23)。人物が着用しているマスクによって、顔領域の少なくとも一部の領域が遮蔽されている場合、表情推定部214は、人物に関する情報として、マスク領域以外から取得できる情報を採用してもよい。この場合、表情推定部214は、例えば、顔領域に含まれるマスク領域以外の領域から取得できる情報に基づいて人物の表情を推定してもよい。また、表情推定部214は、例えば、顔領域に含まれるマスク領域以外の領域から取得できる情報に加えて、又は替えて、顔の角度、人物の取るポーズ及び人物が行っているジェスチャのうちの少なくとも一つに基づいて人物の表情を推定してもよい。また、表情推定部214は、例えば、人物の画像から取得できる情報に加えて、又は替えて、人物の画像が生成された際に取得された音声情報に基づいて人物の表情を推定してもよい。音声情報は、発声の状態を示す情報及び発話内容を示す情報等の少なくとも一つを含んでいてもよい。発声の状態は、発声のトーン及びテンポ等の少なくとも一つを含んでいてもよい。また、表情推定部214は、例えば、人物自身の情報に加えて、又は替えて、人物の画像が生成された際の周囲の状況を示す情報に基づいて人物の表情を推定してもよい。表情推定部214は、人物に関する情報として、人物の表情の推定精度が向上する情報を採用してもよい。
表情推定部214は、例えば、所定のルールに基づいて、人物の表情を推定してもよい。例えば、顔の筋肉の動きの状態により人物の表情を推定してもよい。顔の筋肉の動きの状態は、眉が上がるという動きの状態、眉が下がるという動きの状態、及び、頬が上がるという動きの状態の少なくとも一つを含んでいてもよい。表情推定部214は、複数の顔の筋肉の動きの状態を組み合わせて人物の表情を推定してもよい。表情推定部214は、人物の表情を、喜びの表情、驚きの表情、恐怖の表情、嫌悪の表情、怒りの表情、悲しみの表情、及び、無表情の少なくとも何れかだと推定してもよい。表情推定部214は、例えば、人物の頬が所定よりも上がっている場合、喜びの表情であると推定してもよい。
また、第2実施形態では、顔領域の少なくとも一部の領域が遮蔽されている遮蔽領域は、顔が着用しているマスクによって遮蔽されているマスク領域である場合を例に挙げたが、遮蔽領域は、例えば、サングラスによって遮蔽されている領域であってもよい。この場合、表情推定部214は、口元の状態から人物の表情を推定してもよい。口元の状態は、例えば、上唇が上がるという状態、口角が上がるという状態、えくぼが生じるという状態、及び、顎が上がるという状態等の少なくとも一つを含んでいてもよい。
推定表情画像生成部215は、表情推定部214により推定された表情に応じた、遮蔽領域に対応する領域の推定表情画像を生成する(ステップS24)。
合成画像生成部216は、画像、及び推定表情画像に基づき合成画像を生成する。合成画像生成部216は、少なくとも遮蔽領域が前記推定表情画像により隠れるように合成画像を生成してもよい。すなわち、合成画像生成部216は、人物の顔領域の遮蔽領域を、推定された人物の表情に応じた画像によって補完してもよい。
[2-3:情報処理装置2の技術的効果]
[2-3:情報処理装置2の技術的効果]
第2実施形態における情報処理装置2は、画像、及び推定された人物の表情に応じたマスク領域の画像に基づき合成画像を生成するので、人物がマスクを着用している場合にも、人物の口元が遮蔽されていない、人物の表情に応じた画像を取得することができる。
昨今、衛生意識の変化から、特に人の多い場所においては、マスクの着用が推奨されている。しかしながら、人の多い場所、例えば観光地等で記念写真等を撮影すると、マスクの着用の顔ばかりが写ることになり、味気ない写真となってしまい残念である。つまり、人の多い場所等のマスクを外すことが躊躇われる場所においても、マスク非着用の自然な顔画像の記録の需要がある。
これに対し、第2実施形態における情報処理装置2は、人物がマスクを着用している場合に、推定された人物の表情に応じた、マスク領域に対応する領域の画像に基づき、マスク非着用の合成画像を生成するので、マスク非着用の自然な顔画像を提供することができる。したがって、人の多い場所で撮影した写真において、マスク非着用の自然な顔画像が含まれることになり、魅力のある写真を記録することができる。
[3:第3実施形態]
[3:第3実施形態]
情報処理装置、情報処理方法、及び記録媒体の第3実施形態について説明する。以下では、情報処理装置、情報処理方法、及び記録媒体の第3実施形態が適用された情報処理装置3を用いて、情報処理装置、情報処理方法、及び記録媒体の第3実施形態について説明する。
第3実施形態において、顔が着用しているマスクによって、顔領域の少なくとも一部の領域が遮蔽されている場合、表情推定部214は、顔領域に含まれるマスク領域以外の領域として、顔領域における人物の目の周囲の領域に基づいて前記人物の表情を推定してもよい。表情推定部214は、顔領域に含まれる目の周囲の領域から取得できる情報に基づいて人物の表情を推定してもよい。
表情推定部214は、例えば、顔に含まれる両目の間の距離に基づいて、顔領域から、目の周囲の領域を抽出してもよい。また、表情推定部214は、顔に含まれる鼻背の下部の両側部に基づいて、顔領域から、目の周囲の領域を抽出してもよい。
また、表情推定部214は、顔領域に含まれる目の周囲の領域情報に加えて、例えば、顔の角度、人物の取るポーズ/ジェスチャに基づいて人物の表情を推定してもよい。また、表情推定部214は、顔領域に含まれる目の周囲の領域情報に加えて、例えば、人物の画像が生成された際に取得された音声情報に基づいて人物の表情を推定してもよい。また、表情推定部214は、顔領域に含まれる目の周囲の領域情報に加えて、人物の画像が生成された際の周囲の状況を示す情報に基づいて人物の表情を推定してもよい。第2実施形態と同様に、表情推定部214は、人物に関する情報として、人物の表情の推定精度が向上する情報を採用してもよい。
[情報処理装置3の技術的効果]
[情報処理装置3の技術的効果]
第3実施形態における情報処理装置3は、目元周辺の画像情報からマスクの下の顔の表情を推定し、適切な表情のマスク非着用の顔画像を合成することができる。
[4:第4実施形態]
[4:第4実施形態]
情報処理装置、情報処理方法、及び記録媒体の第4実施形態について説明する。以下では、情報処理装置、情報処理方法、及び記録媒体の第4実施形態が適用された情報処理装置4を用いて、情報処理装置、情報処理方法、及び記録媒体の第4実施形態について説明する。
[4-1:情報処理装置4の構成]
[4-1:情報処理装置4の構成]
図4を参照しながら、第4実施形態における情報処理装置4の構成について説明する。図4は、第4実施形態における情報処理装置4の構成を示すブロック図である。
図4に示すように、第4実施形態における情報処理装置4は、第2実施形態における情報処理装置2、及び第3実施形態における情報処理装置3と同様に、演算装置21と、記憶装置22とを備えている。更に、情報処理装置4は、第2実施形態における情報処理装置2、及び第3実施形態における情報処理装置3と同様に、通信装置23と、入力装置24と、出力装置25とを備えていてもよい。但し、情報処理装置4は、通信装置23、入力装置24及び出力装置25のうちの少なくとも1つを備えていなくてもよい。第4実施形態における情報処理装置4は、第2実施形態における情報処理装置2、及び第3実施形態における情報処理装置3と比較して、演算装置21が学習部417を備え、学習動作をする点において異なる。情報処理装置4のその他の特徴は、第2実施形態における情報処理装置2、及び第3実施形態における情報処理装置3の少なくとも一方のその他の特徴と同一であってもよい。
[4-2:情報処理装置4が行う学習動作]
[4-2:情報処理装置4が行う学習動作]
図5を参照して、第4実施形態における情報処理装置4が行う情報処理動作の流れを説明する。図5は、第4実施形態における情報処理装置4が行う情報処理動作の流れを示すフローチャートである。
図5に示すように、取得部211は、所定の表情のサンプル人物に関するサンプル情報と、所定の表情を示す表情ラベルとを含む学習情報を取得する(ステップS40)。所定の表情は、喜びの表情、驚きの表情、恐怖の表情、嫌悪の表情、怒りの表情、悲しみの表情、及び、無表情の少なくとも何れかを含んでいてもよい。表情ラベルは、これらの各々の表情を示すラベルであってもよい。さらに、各々の表情の複数段階の強度毎のラベルを設けてもよい。
取得部211は、記憶装置22から、記憶装置22に格納されている学習情報を取得してもよい。取得部211は、通信装置23を介して、外部の装置から学習情報を取得してもよい。
検出部212は、画像から人物の顔を含む顔領域を検出する(ステップS21)。表情推定部214は、サンプル情報に基づいてサンプル人物の表情を推定する(ステップS41)。
学習部417は、表情ラベルと表情推定部214によるサンプル人物の表情の推定結果とに基づいて、表情推定部214に人物の表情の推定方法の学習を行わせる(ステップS42)。学習部417は、顔領域の少なくとも一部の領域が遮蔽されている人物の表情を推定することのできる表情推定モデルを構築してもよい。表情推定部214は、表情推定モデルを用いて、人物に関する情報に基づいて、顔領域の少なくとも一部の領域が遮蔽されている人物の表情を推定してもよい。表情推定部214は、学習済みの表情推定モデルを用いることにより、精度よく、顔領域の少なくとも一部の領域が遮蔽されている人物の表情を推定することができる。
表情推定モデルの動作を規定するパラメータは、記憶装置22に記憶されてもよい。表情推定モデルの動作を規定するパラメータは、学習動作によって更新されるパラメータであってもよく、例えば、ニューラルネットワークの重みやバイアス等であってもよい。
マスク領域に遮蔽されている顔の表情の学習に用いる画像は、マスク領域以外の人物の状態がわかればよい。つまり、学習は、マスク領域以外の領域を用いて行ってもよい。すなわち、学習に用いる画像は、マスクを着用している画像であってもよく、マスクを着用していない画像であってもよい。
[4-3:情報処理装置4の技術的効果]
[4-3:情報処理装置4の技術的効果]
第4実施形態における情報処理装置4は、機械学習により、精度のよい人物の表情の推定を実現することができる。
[5:第5実施形態]
[5:第5実施形態]
情報処理装置、情報処理方法、及び記録媒体の第5実施形態について説明する。以下では、情報処理装置、情報処理方法、及び記録媒体の第5実施形態が適用された情報処理装置5を用いて、情報処理装置、情報処理方法、及び記録媒体の第5実施形態について説明する。
第5実施形態に係る情報処理装置5について、図6を参照して説明する。なお、第5実施形態は、上述した第2実施形態から第4実施形態における推定表情画像の生成の際の動作(即ち、図3のステップS24に対応する動作)の具体例を説明するものである。第5実施形態において、記憶装置22には、様々な表情の人物の画像であって、少なくとも遮蔽領域が遮蔽されていない人物の画像が、予め登録されていてもよい。推定表情画像の生成の際の動作の他の部分については第2実施形態から第4実施形態の少なくとも1つと同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
[5-1:情報処理装置5が行う推定表情画像生成動作]
[5-1:情報処理装置5が行う推定表情画像生成動作]
図6を参照しながら、第5実施形態に係る情報処理装置5による推定表情画像生成(即ち、推定表情画像を生成する際の動作)の流れについて説明する。図6は、第5実施形態に係る情報処理装置5による推定表情画像生成動作の流れを示すフローチャートである。
図6に示すように、推定表情画像生成部215は、処理対象の人物が誰であるか推定する(ステップS50)。推定表情画像生成部215は、検出部212が検出した顔領域を用いた顔認証を行い、処理対象の人物が誰であるか推定してもよい。
推定表情画像生成部215は、予め登録されている少なくとも遮蔽領域が遮蔽されていない人物の画像のうち、処理対象の人物(以下、「本人」と称する場合がある)の画像と推定される画像を探索及び取得する(ステップS51)。推定表情画像生成部215は、ステップS51において、本人の画像が取得できたか否かを判定する(ステップS52)。
ステップS51において、本人の画像が取得できた場合(ステップS52:Yes)、推定表情画像生成部215は、ステップS23において推定された表情に対応する表情の本人の画像が有るか否かを判定する(ステップS53)。推定された表情に対応する表情は、推定された表情に一致する、又は類似する表情を含んでいてもよい。
ステップS23において推定された表情に対応する表情の本人の画像が有る場合(ステップS53:Yes)、推定表情画像生成部215は、表情推定部214が推定した表情に対応する表情の予め登録されている本人の画像に基づいて、推定表情画像を生成する(ステップS54)。推定表情画像生成部215は、表情推定部214が推定した表情に対応する表情の予め登録されている本人の画像を選択し、画像の明るさ、人物の姿勢等を補正して、推定表情画像を生成してもよい。
ステップS23において推定された表情に対応する表情の本人の画像が無い場合(ステップS53:No)、推定表情画像生成部215は、予め登録されている、少なくとも遮蔽領域が遮蔽されていない本人の画像に基づいて、推定表情画像を生成する(ステップS55)。表情推定部214が推定した表情に対応する表情の予め登録されている本人の画像が無い場合、推定表情画像生成部215は、本人の任意の画像を選択し、画像の表情を表情推定部214が推定した表情に対応する表情に変換して、推定表情画像を生成してもよい。推定表情画像生成部215は、例えば敵対的生成ネットワーク(GAN:Generative Adversarial Network)等の深層学習の技術を適用して、画像の表情を表情推定部214が推定した表情に対応する表情の画像を、推定表情画像として生成してもよい。
ステップS51において、本人の画像が取得できなかった場合(ステップS52:No)、推定表情画像生成部215は、例えばGAN等の深層学習の技術を適用して、画像の表情を表情推定部214が推定した表情に対応する表情の画像を、推定表情画像として生成してもよい(ステップS56)。
なお、本人画像は、1人の人物につき1画像のみが登録されていてもよい。すなわち、情画像生成部215は、ステップS53の動作を省略し、ステップS55の動作を実施してもよい。また、推定表情画像生成部215は、本人画像の有無にかかわらず、例えばGAN等の深層学習の技術を適用して、推定表情画像を生成してもよい。すなわち、情画像生成部215は、ステップS50からステップS52の動作を省略し、ステップS56の動作を実施してもよい。
また、本実施形態において生成する画像は、人物認証の使用を目的としなくてもよい。したがって、推定表情画像生成部215は、個人性よりも、画像が生成された際の人物の状況に合った表情の顔画像を生成してもよい。
[5-2:情報処理装置5の技術的効果]
[5-2:情報処理装置5の技術的効果]
第5実施形態における情報処理装置5は、予め登録されている、少なくとも遮蔽領域が遮蔽されていない人物の画像に基づいて、前記推定表情画像を生成するので、本人らしい、画像を得ることができる。さらに、情報処理装置5は、推定した表情に対応する表情の少なくとも遮蔽領域が遮蔽されていない人物の画像が予め登録されていた場合には、予め登録されている当該画像に基づいて、推定表情画像を生成するので、より本人らしい、画像を得ることができる。
[6:第6実施形態]
[6:第6実施形態]
情報処理装置、情報処理方法、及び記録媒体の第6実施形態について説明する。以下では、情報処理装置、情報処理方法、及び記録媒体の第6実施形態が適用された情報処理装置6を用いて、情報処理装置、情報処理方法、及び記録媒体の第6実施形態について説明する。
[6-1:情報処理装置6の構成]
[6-1:情報処理装置6の構成]
図7を参照しながら、第6実施形態における情報処理装置6の構成について説明する。図7は、第6実施形態における情報処理装置6の構成を示すブロック図である。
図7に示すように、第6実施形態における情報処理装置6は、第2実施形態における情報処理装置2から第5実施形態における情報処理装置5と同様に、演算装置21と、記憶装置22とを備えている。更に、情報処理装置6は、第2実施形態における情報処理装置2から第5実施形態における情報処理装置5と同様に、通信装置23と、入力装置24と、出力装置25とを備えていてもよい。但し、情報処理装置6は、通信装置23、入力装置24及び出力装置25のうちの少なくとも1つを備えていなくてもよい。第6実施形態における情報処理装置6は、第2実施形態における情報処理装置2から第6実施形態における情報処理装置5と比較して、演算装置21が表示制御部618を備える点で異なる。情報処理装置6のその他の特徴は、第2実施形態における情報処理装置2から第5実施形態における情報処理装置5の少なくとも1つのその他の特徴と同一であってもよい。
[6-2:情報処理装置6が行う情報処理動作]
[6-2:情報処理装置6が行う情報処理動作]
表示制御部618は、合成画像生成部216が合成画像を生成した場合、画像に替えて合成画像を表示させ、合成画像生成部216が生成した画像であることを示す情報を合成画像に重畳して表示させる。例えば図8(a)に例示すように、表示制御部618は、合成画像生成部216が合成画像を生成した場合、表示機構Dの右下に「マスク領域補完画像」等の文字を表示させてもよい。または、例えば図8(b)に例示すように、表示制御部618は、合成画像生成部216が合成画像を生成した場合、未合成の画像におけるマスク領域に対応する領域に、半透明のマスクを重畳させて表示させてもよい。
[6-3:情報処理装置6の技術的効果]
[6-3:情報処理装置6の技術的効果]
第6実施形態における情報処理装置6は、合成画像を表示する場合に、合成画像であることを示す情報を合成画像に重畳して表示させるので、利用者は、画像が合成された画像なのか否かを容易に見分けることができる。
[7:第7実施形態]
[7:第7実施形態]
オンライン会議システムの第7実施形態について説明する。以下では、オンライン会議システムの第7実施形態が適用されたオンライン会議システム700を用いて、オンライン会議システムの第7実施形態について説明する。
[7-1:オンライン会議システム700の構成]
図9に例示するように、第7実施形態におけるオンライン会議システム700は、オンライン会議制御装置7と、会議を行う複数の端末70(図9においては、端末70-1、端末70-2、端末70-3、・・・、端末70-Nを例示している。)を含んでいてもよい。オンライン会議制御装置7は、複数の端末70と通信可能である。複数の端末70は、オンライン会議を行ってもよい。複数の端末70は、ウェブ会議を行ってもよい。
[7-2:オンライン会議制御装置7の構成]
[7-1:オンライン会議システム700の構成]
図9に例示するように、第7実施形態におけるオンライン会議システム700は、オンライン会議制御装置7と、会議を行う複数の端末70(図9においては、端末70-1、端末70-2、端末70-3、・・・、端末70-Nを例示している。)を含んでいてもよい。オンライン会議制御装置7は、複数の端末70と通信可能である。複数の端末70は、オンライン会議を行ってもよい。複数の端末70は、ウェブ会議を行ってもよい。
[7-2:オンライン会議制御装置7の構成]
図10を参照しながら、オンライン会議制御装置7の構成について説明する。図10は、第7実施形態におけるオンライン会議制御装置7の構成を示すブロック図である。
図10に示すように、オンライン会議制御装置7は、演算装置71と、記憶装置72とを備えている。更に、オンライン会議制御装置7は、通信装置73と、入力装置74と、出力装置75とを備えていてもよい。但し、オンライン会議制御装置7は、通信装置73、入力装置74及び出力装置75のうちの少なくとも1つを備えていなくてもよい。演算装置71と、記憶装置72と、通信装置73と、入力装置74と、出力装置75とは、データバス76を介して接続されていてもよい。
演算装置71は、例えば、CPU(Central Processing Unit)、GPU(Graphics Proecssing Unit)及びFPGA(Field Programmable Gate Array)のうちの少なくとも1つを含む。演算装置71は、コンピュータプログラムを読み込む。例えば、演算装置71は、記憶装置72が記憶しているコンピュータプログラムを読み込んでもよい。例えば、演算装置71は、コンピュータで読み取り可能であって且つ一時的でない記録媒体が記憶しているコンピュータプログラムを、オンライン会議制御装置7が備える図示しない記録媒体読み取り装置(例えば、後述する入力装置74)を用いて読み込んでもよい。演算装置71は、通信装置73(或いは、その他の通信装置)を介して、オンライン会議制御装置7の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい(つまり、ダウンロードしてもよい又は読み込んでもよい)。演算装置71は、読み込んだコンピュータプログラムを実行する。その結果、演算装置71内には、オンライン会議制御装置7が行うべき動作を実行するための論理的な機能ブロックが実現される。つまり、演算装置71は、オンライン会議制御装置7が行うべき動作(言い換えれば、処理)を実行するための論理的な機能ブロックを実現するためのコントローラとして機能可能である。
図10には、オンライン会議制御動作を実行するために演算装置71内に実現される論理的な機能ブロックの一例が示されている。図10に示すように、演算装置71内には、後述する付記に記載された「取得手段」の一具体例である取得部711と、後述する付記に記載された「検出手段」の一具体例である検出部712と、後述する付記に記載された「推定手段」の一具体例である領域推定部713と、「表情推定手段」の一具体例である表情推定部714と、後述する付記に記載された「推定表情画像生成手段」の一具体例である推定表情画像生成部715と、後述する付記に記載された「合成画像生成手段」の一具体例である合成画像生成部716と、「出力制御手段」の一具体例である出力制御部719とが実現される。取得部711、検出部712、領域推定部713、表情推定部714、推定表情画像生成部715、合成画像生成部716、及び出力制御部719の夫々の動作については、図11を参照しながら後述する。
記憶装置72は、所望のデータを記憶可能である。例えば、記憶装置72は、演算装置71が実行するコンピュータプログラムを一時的に記憶していてもよい。記憶装置72は、演算装置71がコンピュータプログラムを実行している場合に演算装置71が一時的に使用するデータを一時的に記憶してもよい。記憶装置72は、オンライン会議制御装置7が長期的に保存するデータを記憶してもよい。尚、記憶装置72は、RAM(Random Access Memory)、ROM(Read Only Memory)、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)及びディスクアレイ装置のうちの少なくとも1つを含んでいてもよい。つまり、記憶装置72は、一時的でない記録媒体を含んでいてもよい。
通信装置73は、不図示の通信ネットワークを介して、オンライン会議制御装置7の外部の装置と通信可能である。オンライン会議制御装置7は、通信装置73を介して複数の端末70の各々と通信可能であってもよい。
入力装置74は、オンライン会議制御装置7の外部からのオンライン会議制御装置7に対する情報の入力を受け付ける装置である。例えば、入力装置74は、オンライン会議制御装置7のオペレータが操作可能な操作装置(例えば、キーボード、マウス及びタッチパネルのうちの少なくとも1つ)を含んでいてもよい。例えば、入力装置74はオンライン会議制御装置7に対して外付け可能な記録媒体にデータとして記録されている情報を読み取り可能な読取装置を含んでいてもよい。
出力装置75は、オンライン会議制御装置7の外部に対して情報を出力する装置である。例えば、出力装置75は、情報を画像として出力してもよい。つまり、出力装置75は、出力したい情報を示す画像を表示可能な表示装置(いわゆる、ディスプレイ)を含んでいてもよい。例えば、出力装置75は、情報を音声として出力してもよい。つまり、出力装置75は、音声を出力可能な音声装置(いわゆる、スピーカ)を含んでいてもよい。例えば、出力装置75は、紙面に情報を出力してもよい。つまり、出力装置75は、紙面に所望の情報を印刷可能な印刷装置(いわゆる、プリンタ)を含んでいてもよい。
[7-3:オンライン会議制御装置7が行うオンライン会議制御動作]
[7-3:オンライン会議制御装置7が行うオンライン会議制御動作]
図11を参照して、第7実施形態におけるオンライン会議制御装置7が行うオンライン会議制御動作の流れを説明する。図11は、第7実施形態におけるオンライン会議制御装置7が行うオンライン会議制御動作の流れを示すフローチャートである。
図11に示すように、取得部711は、会議を行う複数の端末70のうちの少なくとも1台の端末70から、少なくとも人物の画像を含む当該人物に関する情報を取得する(ステップS70)。取得部711は、少なくとも端末70を操作する人物の画像を含む当該人物に関する情報を取得してもよい。取得部711は、端末70を操作する人物の動画を含む当該人物に関する情報を取得してもよい。
検出部712は、画像から人物の顔を含む顔領域を検出する(ステップS71)。領域推定部713は、顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する(ステップS72)。表情推定部714は、人物に関する情報に基づいて人物の表情を推定する(ステップS73)。推定表情画像生成部715は、表情推定部714により推定された表情に応じた、遮蔽領域に対応する領域の推定表情画像を生成する(ステップS74)。合成画像生成部716は、画像、及び推定表情画像に基づき合成画像を生成する(ステップS75)。
なお、検出部712が行う動作は、第2実施形態から第6実施形態における検出部212の少なくとも1つが行う動作と同様であってもよい。また、領域推定部713が行う動作は、第2実施形態から第6実施形態における領域推定部213の少なくとも1つが行う動作と同様であってもよい。また、表情推定部714が行う動作は、第2実施形態から第6実施形態における表情推定部214の少なくとも1つが行う動作と同様であってもよい。また、推定表情画像生成部715が行う動作は、第2実施形態から第6実施形態における推定表情画像生成部215の少なくとも1つが行う動作と同様であってもよい。また、合成画像生成部716が行う動作は、第2実施形態から第6実施形態における合成画像生成部216の少なくとも1つが行う動作と同様であってもよい。
出力制御部719は、合成画像生成部716が合成画像を生成した場合、画像に替えて合成画像を複数の端末70に出力する(ステップS76)。取得部711が端末70を操作する人物の動画を取得する場合、出力制御部719は、画像又は合成画像を、複数の端末70にリアルタイム出力してもよい。または、出力制御部719は、複数の端末70に合成画像を出力する場合、複数の端末70に画像を出力する場合と比較して遅く出力してもよい。出力制御部719は、複数の端末70に合成画像を出力する場合、複数の端末70に画像を出力する場合と比較して、例えば数秒間等の遅れを伴って出力してもよい。
なお、第2実施形態における情報処理装置2から第6実施形態における情報処理装置6の少なくとも1つにおいても、合成画像の生成動作をリアルタイムで実施してもよい。または、第2実施形態における情報処理装置2から第6実施形態における情報処理装置6の少なくとも1つにおいても、例えば数秒間等のタイムラグが生じてもよい。
また、取得部711が端末70を操作する人物の静止画を取得する場合、学習部717はオフラインで合成画像を生成し、出力制御部719は、オフラインで生成された合成画像を複数の端末70に出力してもよい。
なお、取得部711が、人物の動画を含む当該人物に関する情報を取得した場合、領域推定部713は、フレーム毎に推定処理を実施しなくてもよい。すなわち、領域推定部713は、所定のフレーム数毎に推定処理を実施してもよい。すなわち、表情推定部714は、所定のフレーム数の間は同じ表情に応じた推定表情画像を生成してもよい。
さらに、第7実施形態におけるオンライン会議制御装置7は、演算装置71が学習部717を備えていてもよい。すなわち、学習部717は、第4実施形態の学習部417と同様に、表情ラベルと表情推定部714によるサンプル人物の表情の推定結果とに基づいて、表情推定部714に人物の表情の推定方法の学習を行わせてもよい。
さらに、第7実施形態におけるオンライン会議制御装置7は、演算装置71が表示制御部718を備えていてもよい。すなわち、表示制御部718は、第6実施形態の表示制御部618と同様に、合成画像生成部716が合成画像を生成した場合、画像に替えて合成画像を表示させ、合成画像生成部716が生成した画像であることを示す情報を合成画像に重畳して表示させてもよい。
[7-4:オンライン会議制御装置7の技術的効果]
[7-4:オンライン会議制御装置7の技術的効果]
第7実施形態におけるオンライン会議制御装置7は、画像、及び推定された人物の表情に応じたマスク領域の画像に基づき合成画像を生成するので、人物がマスクを着用している場合にも、人物の口元が遮蔽されていない、人物の表情に応じた画像を取得することができる。
昨今、衛生意識の変化から、特に人の多い場所においては、マスクの着用が推奨されている。オンラインのコミュニケーションには、マスク非着用で参加することを希望するも、サテライトオフィス等の共用の場所から参加する場合には、マスクの着用が推奨されてしまう。つまり、人の多い場所等のマスクを外すことが躊躇われる場所においても、マスク非着用の自然な顔画像の配信の需要がある。
これに対し、第7実施形態におけるオンライン会議制御装置7は、人物がマスクを着用している場合に、推定された人物の表情に応じた、マスク領域に対応する領域の画像に基づき、マスク非着用の合成画像を生成するので、マスク非着用の自然な顔画像を提供することができる。したがって、サテライトオフィス等の共用の場所から参加する場合にも、マスク非着用の自然な顔画像を配信することができる。
[8:付記]
[8:付記]
以上説明した実施形態に関して、更に以下の付記を開示する。
[付記1]
少なくとも人物の画像を含む当該人物に関する情報を取得する取得手段と、
前記画像から前記人物の顔を含む顔領域を検出する検出手段と、
前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する推定手段と、
前記人物に関する情報に基づいて前記人物の表情を推定する表情推定手段と、
前記表情推定手段により推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成する推定表情画像生成手段と、
前記画像、及び前記推定表情画像に基づき合成画像を生成する合成画像生成手段と
を備える情報処理装置。
[付記2]
前記顔領域の少なくとも一部の領域が遮蔽されている遮蔽領域は、前記人物が着用しているマスクによって遮蔽されているマスク領域である
付記1に記載の情報処理装置。
[付記3]
前記表情推定手段は、前記顔領域における前記人物の目の周囲の領域に基づいて前記人物の表情を推定する
付記2に記載の情報処理装置。
[付記4]
前記取得手段は、所定の表情のサンプル人物に関するサンプル情報と、前記所定の表情を示す表情ラベルとを含む学習情報を取得し、
前記表情推定手段は、前記サンプル情報に基づいて前記サンプル人物の表情を推定し、
前記表情ラベルと前記表情推定手段による前記サンプル人物の表情の推定結果とに基づいて、前記表情推定手段に前記人物の表情の推定方法の学習を行わせる学習手段を更に備える
付記1から3の何れか一項に記載の情報処理装置。
[付記5]
前記推定表情画像生成手段は、予め登録されている、少なくとも前記遮蔽領域が遮蔽されていない前記人物の画像に基づいて、前記推定表情画像を生成する
付記1から3の何れか一項に記載の情報処理装置。
[付記6]
前記推定表情画像生成手段は、前記表情推定手段が推定した表情に対応する表情の予め登録されている前記人物の画像に基づいて、前記推定表情画像を生成する
付記5に記載の情報処理装置。
[付記7]
前記合成画像生成手段が前記合成画像を生成した場合、前記画像に替えて前記合成画像を表示させ、前記合成画像生成手段が生成した画像であることを示す情報を前記合成画像に重畳して表示させる表示制御手段を更に備える
付記1から3の何れか一項に記載の情報処理装置。
[付記8]
会議を行う複数の端末のうちの少なくとも1台の端末から、少なくとも人物の画像を含む当該人物に関する情報を取得する取得手段と、
前記画像から前記人物の顔を含む顔領域を検出する検出手段と、
前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する推定手段と、
前記人物に関する情報に基づいて前記人物の表情を推定する表情推定手段と、
前記表情推定手段により推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成する推定表情画像生成手段と、
前記画像、及び前記推定表情画像に基づき合成画像を生成する合成画像生成手段と、
前記合成画像生成手段が前記合成画像を生成した場合、前記画像に替えて前記合成画像を前記複数の端末に出力する出力制御手段と
を備えるオンライン会議システム。
[付記9]
少なくとも人物の画像を含む当該人物に関する情報を取得し、
前記画像から前記人物の顔を含む顔領域を検出し、
前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定し、
前記人物に関する情報に基づいて前記人物の表情を推定し、
推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成し、
前記画像、及び前記推定表情画像に基づき合成画像を生成する
情報処理方法。
[付記10]
コンピュータに、
少なくとも人物の画像を含む当該人物に関する情報を取得し、
前記画像から前記人物の顔を含む顔領域を検出し、
前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定し、
前記人物に関する情報に基づいて前記人物の表情を推定し、
推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成し、
前記画像、及び前記推定表情画像に基づき合成画像を生成する
情報処理方法を実行させるためのコンピュータプログラムが記録されている記録媒体。
[付記1]
少なくとも人物の画像を含む当該人物に関する情報を取得する取得手段と、
前記画像から前記人物の顔を含む顔領域を検出する検出手段と、
前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する推定手段と、
前記人物に関する情報に基づいて前記人物の表情を推定する表情推定手段と、
前記表情推定手段により推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成する推定表情画像生成手段と、
前記画像、及び前記推定表情画像に基づき合成画像を生成する合成画像生成手段と
を備える情報処理装置。
[付記2]
前記顔領域の少なくとも一部の領域が遮蔽されている遮蔽領域は、前記人物が着用しているマスクによって遮蔽されているマスク領域である
付記1に記載の情報処理装置。
[付記3]
前記表情推定手段は、前記顔領域における前記人物の目の周囲の領域に基づいて前記人物の表情を推定する
付記2に記載の情報処理装置。
[付記4]
前記取得手段は、所定の表情のサンプル人物に関するサンプル情報と、前記所定の表情を示す表情ラベルとを含む学習情報を取得し、
前記表情推定手段は、前記サンプル情報に基づいて前記サンプル人物の表情を推定し、
前記表情ラベルと前記表情推定手段による前記サンプル人物の表情の推定結果とに基づいて、前記表情推定手段に前記人物の表情の推定方法の学習を行わせる学習手段を更に備える
付記1から3の何れか一項に記載の情報処理装置。
[付記5]
前記推定表情画像生成手段は、予め登録されている、少なくとも前記遮蔽領域が遮蔽されていない前記人物の画像に基づいて、前記推定表情画像を生成する
付記1から3の何れか一項に記載の情報処理装置。
[付記6]
前記推定表情画像生成手段は、前記表情推定手段が推定した表情に対応する表情の予め登録されている前記人物の画像に基づいて、前記推定表情画像を生成する
付記5に記載の情報処理装置。
[付記7]
前記合成画像生成手段が前記合成画像を生成した場合、前記画像に替えて前記合成画像を表示させ、前記合成画像生成手段が生成した画像であることを示す情報を前記合成画像に重畳して表示させる表示制御手段を更に備える
付記1から3の何れか一項に記載の情報処理装置。
[付記8]
会議を行う複数の端末のうちの少なくとも1台の端末から、少なくとも人物の画像を含む当該人物に関する情報を取得する取得手段と、
前記画像から前記人物の顔を含む顔領域を検出する検出手段と、
前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する推定手段と、
前記人物に関する情報に基づいて前記人物の表情を推定する表情推定手段と、
前記表情推定手段により推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成する推定表情画像生成手段と、
前記画像、及び前記推定表情画像に基づき合成画像を生成する合成画像生成手段と、
前記合成画像生成手段が前記合成画像を生成した場合、前記画像に替えて前記合成画像を前記複数の端末に出力する出力制御手段と
を備えるオンライン会議システム。
[付記9]
少なくとも人物の画像を含む当該人物に関する情報を取得し、
前記画像から前記人物の顔を含む顔領域を検出し、
前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定し、
前記人物に関する情報に基づいて前記人物の表情を推定し、
推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成し、
前記画像、及び前記推定表情画像に基づき合成画像を生成する
情報処理方法。
[付記10]
コンピュータに、
少なくとも人物の画像を含む当該人物に関する情報を取得し、
前記画像から前記人物の顔を含む顔領域を検出し、
前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定し、
前記人物に関する情報に基づいて前記人物の表情を推定し、
推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成し、
前記画像、及び前記推定表情画像に基づき合成画像を生成する
情報処理方法を実行させるためのコンピュータプログラムが記録されている記録媒体。
この開示は、請求の範囲及び明細書全体から読み取ることのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴う情報処理装置、情報処理方法、及び記録媒体もまたこの開示の技術思想に含まれる。
1,2,3,4,5,6 情報処理装置
11,211,711 取得部
12,212,712 検出部
13,213,713 領域推定部
14,214,714 表情推定部
15,215,715 推定表情画像生成部
16,216,716 合成画像生成部
417,717 学習部
618,718 表示制御部
700 オンライン会議システム
7 オンライン会議制御装置
70 端末
719 出力制御部
11,211,711 取得部
12,212,712 検出部
13,213,713 領域推定部
14,214,714 表情推定部
15,215,715 推定表情画像生成部
16,216,716 合成画像生成部
417,717 学習部
618,718 表示制御部
700 オンライン会議システム
7 オンライン会議制御装置
70 端末
719 出力制御部
Claims (10)
- 少なくとも人物の画像を含む当該人物に関する情報を取得する取得手段と、
前記画像から前記人物の顔を含む顔領域を検出する検出手段と、
前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する推定手段と、
前記人物に関する情報に基づいて前記人物の表情を推定する表情推定手段と、
前記表情推定手段により推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成する推定表情画像生成手段と、
前記画像、及び前記推定表情画像に基づき合成画像を生成する合成画像生成手段と
を備える情報処理装置。 - 前記顔領域の少なくとも一部の領域が遮蔽されている遮蔽領域は、前記人物が着用しているマスクによって遮蔽されているマスク領域である
請求項1に記載の情報処理装置。 - 前記表情推定手段は、前記顔領域における前記人物の目の周囲の領域に基づいて前記人物の表情を推定する
請求項2に記載の情報処理装置。 - 前記取得手段は、所定の表情のサンプル人物に関するサンプル情報と、前記所定の表情を示す表情ラベルとを含む学習情報を取得し、
前記表情推定手段は、前記サンプル情報に基づいて前記サンプル人物の表情を推定し、
前記表情ラベルと前記表情推定手段による前記サンプル人物の表情の推定結果とに基づいて、前記表情推定手段に前記人物の表情の推定方法の学習を行わせる学習手段を更に備える
請求項1から3の何れか一項に記載の情報処理装置。 - 前記推定表情画像生成手段は、予め登録されている、少なくとも前記遮蔽領域が遮蔽されていない前記人物の画像に基づいて、前記推定表情画像を生成する
請求項1から3の何れか一項に記載の情報処理装置。 - 前記推定表情画像生成手段は、前記表情推定手段が推定した表情に対応する表情の予め登録されている前記人物の画像に基づいて、前記推定表情画像を生成する
請求項5に記載の情報処理装置。 - 前記合成画像生成手段が前記合成画像を生成した場合、前記画像に替えて前記合成画像を表示させ、前記合成画像生成手段が生成した画像であることを示す情報を前記合成画像に重畳して表示させる表示制御手段を更に備える
請求項1から3の何れか一項に記載の情報処理装置。 - 会議を行う複数の端末のうちの少なくとも1台の端末から、少なくとも人物の画像を含む当該人物に関する情報を取得する取得手段と、
前記画像から前記人物の顔を含む顔領域を検出する検出手段と、
前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定する推定手段と、
前記人物に関する情報に基づいて前記人物の表情を推定する表情推定手段と、
前記表情推定手段により推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成する推定表情画像生成手段と、
前記画像、及び前記推定表情画像に基づき合成画像を生成する合成画像生成手段と、
前記合成画像生成手段が前記合成画像を生成した場合、前記画像に替えて前記合成画像を前記複数の端末に出力する出力制御手段と
を備えるオンライン会議システム。 - 少なくとも人物の画像を含む当該人物に関する情報を取得し、
前記画像から前記人物の顔を含む顔領域を検出し、
前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定し、
前記人物に関する情報に基づいて前記人物の表情を推定し、
推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成し、
前記画像、及び前記推定表情画像に基づき合成画像を生成する
情報処理方法。 - コンピュータに、
少なくとも人物の画像を含む当該人物に関する情報を取得し、
前記画像から前記人物の顔を含む顔領域を検出し、
前記顔領域の少なくとも一部の領域が遮蔽されている場合、遮蔽されている遮蔽領域を推定し、
前記人物に関する情報に基づいて前記人物の表情を推定し、
推定された表情に応じた、前記遮蔽領域に対応する領域の推定表情画像を生成し、
前記画像、及び前記推定表情画像に基づき合成画像を生成する
情報処理方法を実行させるためのコンピュータプログラムが記録されている記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/020343 WO2023223377A1 (ja) | 2022-05-16 | 2022-05-16 | 情報処理装置、情報処理方法、及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/020343 WO2023223377A1 (ja) | 2022-05-16 | 2022-05-16 | 情報処理装置、情報処理方法、及び記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023223377A1 true WO2023223377A1 (ja) | 2023-11-23 |
Family
ID=88834798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2022/020343 WO2023223377A1 (ja) | 2022-05-16 | 2022-05-16 | 情報処理装置、情報処理方法、及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2023223377A1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017534096A (ja) * | 2014-08-04 | 2017-11-16 | フェイスブック,インク. | 仮想現実環境において遮られた顔部分を再構築する方法およびシステム |
JP2018151919A (ja) * | 2017-03-14 | 2018-09-27 | オムロン株式会社 | 画像解析装置、画像解析方法、及び画像解析プログラム |
JP2020048149A (ja) * | 2018-09-21 | 2020-03-26 | ヤマハ株式会社 | 画像処理装置、カメラ装置、および画像処理方法 |
JP2021149961A (ja) * | 2020-03-23 | 2021-09-27 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 情報処理方法及び情報処理装置 |
-
2022
- 2022-05-16 WO PCT/JP2022/020343 patent/WO2023223377A1/ja unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017534096A (ja) * | 2014-08-04 | 2017-11-16 | フェイスブック,インク. | 仮想現実環境において遮られた顔部分を再構築する方法およびシステム |
JP2018151919A (ja) * | 2017-03-14 | 2018-09-27 | オムロン株式会社 | 画像解析装置、画像解析方法、及び画像解析プログラム |
JP2020048149A (ja) * | 2018-09-21 | 2020-03-26 | ヤマハ株式会社 | 画像処理装置、カメラ装置、および画像処理方法 |
JP2021149961A (ja) * | 2020-03-23 | 2021-09-27 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 情報処理方法及び情報処理装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9348950B2 (en) | Perceptually guided capture and stylization of 3D human figures | |
Bhat et al. | High fidelity facial animation capture and retargeting with contours | |
CN113781610B (zh) | 一种虚拟人脸的生成方法 | |
JP2020047237A (ja) | データ融合を用いた顔表情生成の方法 | |
JP2018538593A (ja) | 表情検出機能を備えたヘッドマウントディスプレイ | |
JP2019532374A (ja) | ユーザの感情状態を用いて仮想画像生成システムを制御するための技術 | |
KR101743763B1 (ko) | 감성 아바타 이모티콘 기반의 스마트 러닝 학습 제공 방법, 그리고 이를 구현하기 위한 스마트 러닝 학습 단말장치 | |
US10467793B2 (en) | Computer implemented method and device | |
WO2018079255A1 (ja) | 画像処理装置、画像処理方法、および画像処理プログラム | |
Lance et al. | Emotionally expressive head and body movement during gaze shifts | |
JP7070435B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
TWI736054B (zh) | 化身臉部表情產生系統及化身臉部表情產生方法 | |
EP4073682B1 (en) | Generating videos, which include modified facial images | |
US7257538B2 (en) | Generating animation from visual and audio input | |
KR20200019297A (ko) | 표정 인식 모델 생성 장치 및 방법, 및 이를 이용한 표정 인식 장치 및 방법 | |
JP2008140385A (ja) | キャラクタアニメーション時の皮膚のしわのリアルタイム表現方法及び装置 | |
Patterson et al. | Comparison of synthetic face aging to age progression by forensic sketch artist | |
WO2023223377A1 (ja) | 情報処理装置、情報処理方法、及び記録媒体 | |
KR102229056B1 (ko) | 표정 인식 모델 생성 장치, 방법 및 이러한 방법을 수행하도록 프로그램된 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능한 기록매체 | |
JP2021189674A (ja) | コンピュータプログラム、サーバ装置、端末装置、及び方法 | |
JP2011215709A (ja) | 漫画作成支援装置、漫画作成支援方法及びプログラム | |
CN116489299A (zh) | 视频通信平台中的化身生成 | |
Du et al. | Realistic mouth synthesis based on shape appearance dependence mapping | |
KR20060115700A (ko) | 등장인물의 얼굴 변경이 용이한 플래쉬 형식의 아동용 어학학습 시스템 | |
JP2001034785A (ja) | 仮想変身装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22942582 Country of ref document: EP Kind code of ref document: A1 |