WO2019026598A1

WO2019026598A1 - 画像処理装置、画像処理方法、プログラム、および遠隔コミュニケーションシステム

Info

Publication number: WO2019026598A1
Application number: PCT/JP2018/026656
Authority: WO
Inventors: 雅人赤尾
Original assignee: ソニー株式会社
Priority date: 2017-07-31
Filing date: 2018-07-17
Publication date: 2019-02-07
Also published as: US20200186729A1; CN110959286A

Abstract

本開示は、より少ない計算量で良好なユーザ体験を提供することができるようにする画像処理装置、画像処理方法、プログラム、および遠隔コミュニケーションシステムに関する。表示装置の正面に向かうユーザを、その正面以外の方向から撮像装置により撮像した画像から、ユーザの顔が写された顔領域、および、ユーザの胴体が写された胴体領域が検出される。そして、顔領域に基づいて、ユーザの顔を正面から撮像したような正面顔画像が生成され、胴体領域に基づいて、ユーザの胴体を正面から撮像したような正面胴体画像に補正されて、正面顔画像および正面胴体画像が結合される。本技術は、例えば、遠隔コミュニケーションシステムに適用できる。

Description

画像処理装置、画像処理方法、プログラム、および遠隔コミュニケーションシステム

　本開示は、画像処理装置、画像処理方法、プログラム、および遠隔コミュニケーションシステムに関し、特に、より少ない計算量で良好なユーザ体験を提供することができるようにした画像処理装置、画像処理方法、プログラム、および遠隔コミュニケーションシステムに関する。

　従来、遠隔地に居るユーザどうしが、お互いに顔を合わせているかのようにコミュニケーションを図ることができる遠隔コミュニケーションシステムの開発が進められている。このような遠隔コミュニケーションシステムでは、それぞれのユーザが正面を向いているような画像を表示することで、例えば、ユーザどうしの視線を一致させることや、ユーザが互いに正面から見たような姿勢とすることなどができる。これにより、遠隔コミュニケーションを行うユーザに、良好なユーザ体験を提供することができる。

　例えば、特許文献１には、会話者が表示面に正対していない場合でも、パース補正によって、会話者どうしの視線が一致しているかのように見える画像を表示することができるコミュニケーションシステムが開示されている。また、特許文献２には、３次元モデルデータを生成し、３次元モデルの表面にテクスチャを貼り付けることによって、正面を向いたように見える画像を表示することができるコミュニケーションシステムが開示されている。

特開２０１１－９７４４７号公報特開２０１４－８６７７３号公報

　ところで、上述の特許文献１で開示されている技術では、全身像に対応していないとともに、大画面に適用した場合には、互いのユーザの視線を一致させることは困難であった。また、上述の特許文献２で開示されている技術では、計算量が膨大となるのに加えて、高精度なデプス情報が必要となるため、より高性能な装置が必要となっていた。

　本開示は、このような状況に鑑みてなされたものであり、より少ない計算量で良好なユーザ体験を提供することができるようにするものである。

　本開示の一側面の画像処理装置は、画像を表示する表示装置の正面に向かうユーザを、その正面以外の方向から撮像装置により撮像した画像から、前記ユーザの顔が写された顔領域、および、前記ユーザの胴体が写された胴体領域を検出する検出部と、前記顔領域に基づいて、前記ユーザの顔を正面から撮像したような正面顔画像を生成する正面顔生成部と、前記胴体領域に基づいて、前記ユーザの胴体を正面から撮像したような正面胴体画像に補正する胴体補正部と、前記正面顔画像および前記正面胴体画像を結合する結合部とを備える。

　本開示の一側面の画像処理方法またはプログラムは、画像を表示する表示装置の正面に向かうユーザを、その正面以外の方向から撮像装置により撮像した画像から、前記ユーザの顔が写された顔領域、および、前記ユーザの胴体が写された胴体領域を検出することと、前記顔領域に基づいて、前記ユーザの顔を正面から撮像したような正面顔画像を生成することと、前記胴体領域に基づいて、前記ユーザの胴体を正面から撮像したような正面胴体画像に補正することと、前記正面顔画像および前記正面胴体画像を結合することとを含む。

　本開示の一側面の遠隔コミュニケーションシステムは、コミュニケーションの相手と、少なくとも画像の送受信を行う通信装置と、相手側から送信されてきた画像を表示する表示装置と、前記表示装置の正面に向かうユーザを、その正面以外の方向から撮像する撮像装置と、前記撮像装置により前記ユーザを撮像した画像から、前記ユーザの顔が写された顔領域、および、前記ユーザの胴体が写された胴体領域を検出する検出部と、前記顔領域に基づいて、前記ユーザの顔を正面から撮像したような正面顔画像を生成する正面顔生成部と、前記胴体領域に基づいて、前記ユーザの胴体を正面から撮像したような正面胴体画像に補正する胴体補正部と、前記正面顔画像および前記正面胴体画像を結合する結合部とを備える。

　本開示の一側面においては、画像を表示する表示装置の正面に向かうユーザを、その正面以外の方向から撮像装置により撮像した画像から、ユーザの顔が写された顔領域、および、ユーザの胴体が写された胴体領域が検出され、顔領域に基づいて、ユーザの顔を正面から撮像したような正面顔画像が生成され、胴体領域に基づいて、ユーザの胴体を正面から撮像したような正面胴体画像に補正され、正面顔画像および正面胴体画像が結合される。

　本開示の一側面によれば、より少ない計算量で良好なユーザ体験を提供することができる。

　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術を適用した遠隔コミュニケーションシステムの一実施の形態の構成例を示すブロック図である。コミュニケーション処理部の構成を示すブロック図である。遠隔コミュニケーション処理を説明するフローチャートである。正面顔画像および正面胴体画像を個別に画像処理する例について説明する図である。人物像合成処理の第１の処理例を説明するフローチャートである。上肢または下肢を個別にパース補正する処理について説明する図である。人物像合成処理の第２の処理例を説明するフローチャートである。複数の人物が写されているときの処理について説明する図である。人物像合成処理の第３の処理例を説明するフローチャートである。本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

　以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。

　＜遠隔コミュニケーションシステムの構成例＞
　図１は、本技術を適用した遠隔コミュニケーションシステムの一実施の形態の構成例を示すブロック図である。

　図１に示すように、遠隔コミュニケーションシステム１１は、インターネットなどのネットワーク１２を介して、遠隔地にあるコミュニケーション端末１３Ａおよび１３Ｂが接続されて構成される。

　例えば、遠隔コミュニケーションシステム１１では、コミュニケーション端末１３Ａおよび１３Ｂがネットワーク１２を通して遠隔通信することで、画像および音声をリアルタイムに相互に送受信することができる。これにより、コミュニケーション端末１３Ａ側に居るユーザＡと、コミュニケーション端末１３Ｂ側に居るユーザＢとは、互いに対面しているかのように会話をすることができ、よりリアルなコミュニケーションを図ることができる。

　なお、コミュニケーション端末１３Ａおよび１３Ｂは、同様に構成されており、それらを区別する必要がない場合、単にコミュニケーション端末１３と称し、コミュニケーション端末１３Ａおよび１３Ｂを構成する各部についても同様に称する。また、コミュニケーション端末１３側に居るユーザ（例えば、コミュニケーション端末１３Ａに対するユーザＡ、コミュニケーション端末１３Ｂに対するユーザＢ）を、自身側のユーザと称する。そして、そのユーザのコミュニケーションの相手となるユーザ（例えば、コミュニケーション端末１３Ａに対するユーザＢ、コミュニケーション端末１３Ｂに対するユーザＡ）を、相手側のユーザと称する。

　コミュニケーション端末１３は、センサ部２１、提示部２２、およびコミュニケーション処理部２３を備えて構成される。

　センサ部２１は、例えば、提示部２２の前方に居るユーザを撮像する撮像素子、撮像素子による撮像範囲におけるデプス情報を取得するデプスセンサ、および、そのユーザが発した音声を入力するマイクロフォンなどの音声入力素子を有して構成される。そして、センサ部２１は、自身側のユーザを撮像して得られる画像信号や、その撮像されているユーザのデプスを検出して得られるデプス情報、自身側のユーザの音声から得られる音声信号などをコミュニケーション処理部２３に供給し、ネットワーク１２を介して、相手側のコミュニケーション端末１３に送信させる。ここで、デプスセンサとしては、赤外光の反射を利用したＴＯＦ（Time Of Flight）センサを利用したり、複数の撮像素子を利用したステレオカメラを利用したりすることができる。

　提示部２２は、例えば、相手側のユーザが写されている画像を表示するディスプレイ、および、そのユーザが発話した音声を出力するスピーカなどの音声出力素子を有して構成される。例えば、提示部２２には、相手側のコミュニケーション端末１３からネットワーク１２を介して送信されてくる画像信号や音声信号などが、コミュニケーション処理部２３から供給される。

　コミュニケーション処理部２３は、ネットワーク１２を介して通信を行うための通信処理や、互いのユーザどうしが良好なコミュニケーションを図ることができるようにするための画像処理など、コミュニケーションを行うのに必要な各種の処理を行う。

　例えば、コミュニケーション端末１３では、図示するように、提示部２２を構成するディスプレイの上側に、センサ部２１を構成する撮像素子が配置されており、センサ部２１は、提示部２２の前方に居るユーザを上側から撮像することになる。このため、このような配置のセンサ部２１がユーザを撮像した画像は、そのユーザが正面を向いていないように写されることになる。即ち、上側からユーザを見下ろしたように撮像されるため、例えば、ユーザどうしの視線を一致させることができず、互いのユーザを正面から見たような姿勢とは異なって写したような違和感のある画像で遠隔コミュニケーションが行われてしまう。

　そこで、コミュニケーション処理部２３は、センサ部２１から供給される画像信号およびデプス情報を用いて、ユーザの全身が正面を向いている姿勢で、かつ、ユーザの顔が高精度に正面を向いて写されたように画像を合成する画像処理（以下、人物像合成処理と称する）を施すことができる。ここで、ユーザの顔が高精度に正面を向いている画像とは、例えば、自身側のユーザが正面を見たときに、互いの視線が合っているかのように相手側のユーザに認識させる程度に顔が正面を向いているように写されている画像である。従って、コミュニケーション端末１３により、ユーザは、より違和感のない画像で遠隔コミュニケーションを行うことができ、より良好なユーザ体験を得ることができる。なお、以下では、コミュニケーション端末１３で行われるコミュニケーション処理のうち、画像に関する処理についてのみ説明を行い、音声に関する処理についての説明は省略する。

　図２を参照して、コミュニケーション処理部２３の構成について説明する。

　図２に示すように、コミュニケーション処理部２３は、ローカル情報処理部３１、符号化部３２、送信部３３、受信部３４、復号部３５、およびリモート情報処理部３６を備えて構成される。

　ローカル情報処理部３１は、センサ部２１から画像信号およびデプス情報が供給されると、自身側のユーザが写された画像に対する各種の処理（以下、ローカル情報処理と称する）を行う。例えば、ローカル情報処理部３１は、ユーザの全身が正面を向いている姿勢で、かつ、ユーザの顔が高精度に正面を向いて写されたように画像を合成する人物像合成処理を、ローカル情報処理として行う。そして、ローカル情報処理部３１は、ローカル情報処理を施した画像信号を、符号化部３２に供給する。

　符号化部３２は、例えば、H.320/H.323などの通信プロトコルに対応するブロックであり、ローカル情報処理部３１から供給される画像信号に対する符号化を行って、送信部３３に供給する。

　送信部３３は、符号化部３２により符号化された画像信号を、ネットワーク１２を介して相手側のコミュニケーション端末１３に送信する。

　受信部３４は、ネットワーク１２を介して相手側のコミュニケーション端末１３から送信されてくる画像信号を受信して、復号部３５に供給する。

　復号部３５は、符号化部３２と同様の通信プロトコルに対応するブロックであり、受信部３４から供給される画像信号（相手側のコミュニケーション端末１３の符号化部３２で符号化されている画像信号）を復号して、リモート情報処理部３６に供給する。

　リモート情報処理部３６は、復号部３５から画像信号が供給されると、相手側のユーザが写された画像に対する各種の処理（以下、リモート情報処理と称する）を行って、提示部２２に供給して表示させる。例えば、リモート情報処理部３６は、相手側のコミュニケーション処理部２３において人物像合成処理が行われていない場合には、その人物像合成処理を、リモート情報処理として行う。

　以上のようにコミュニケーション処理部２３は構成されており、ローカル情報処理部３１またはリモート情報処理部３６により人物像合成処理を行うことで、ユーザの顔が正面を向いていて、かつ、相手側のユーザから見たときに見た目通りの姿勢となるような画像を表示することができる。このような画像を利用してユーザに遠隔コミュニケーションを行わせることで、コミュニケーション端末１３は、より良好なユーザ体験を提供することができる。

　図３は、コミュニケーション端末１３において行われる遠隔コミュニケーション処理について説明するフローチャートである。

　例えば、コミュニケーション端末１３の電源が投入され、遠隔コミュニケーションを行うアプリケーションが起動すると処理が開始され、ステップＳ１１において、送信部３３および受信部３４は、相手側のコミュニケーション端末１３との通信を確立する処理を行う。そして、コミュニケーション端末１３どうしで通信が開始され、それぞれのセンサ部２１によりユーザの撮像が行われて画像の送受信が行われると、互いのユーザが写された画像が相手側の提示部２２に表示される。

　ステップＳ１２において、例えば、ローカル情報処理部３１またはリモート情報処理部３６は、ユーザの全身が正面を向いている姿勢で、かつ、ユーザの顔が高精度に正面を向いて写されたように画像を合成する人物像合成処理（図５参照）を行う。

　ステップＳ１３において、コミュニケーション処理部２３は、例えば、ステップＳ１１で起動したアプリケーションに対して遠隔コミュニケーションを終了する操作が行われたか否かに基づいて、コミュニケーションを継続するか否かを判定することができる。

　ステップＳ１３において、コミュニケーションを継続すると判定された場合、処理はステップＳ１２に戻り、以下、同様の処理が繰り返して行われる。一方、ステップＳ１３において、遠隔コミュニケーションを継続しないと判定された場合、処理はステップＳ１４に進む。ステップＳ１４において、送信部３３および受信部３４は、相手側のコミュニケーション端末１３との通信を切断する処理を行い、通信を終了する。

　＜人物像合成処理の第１の処理例＞
　図４および図５を参照して、人物像合成処理の第１の処理例について説明する。

　例えば、図４のＡに示すように、提示部２２を構成するディスプレイの上側に配置されたセンサ部２１を構成する撮像素子によりユーザを撮像すると、図４のＢの左側に示すように、ユーザを上から見下ろしたような画像が撮像される。即ち、顔が下方を向いていて、胴体が下側に向かうに従って狭まるような姿勢となるようにユーザが写された画像となる。

　このような画像に対し、人物像合成処理では、ユーザの顔が写された顔領域（二点鎖線で囲われた領域）と、ユーザの胴体が写された胴体領域（一点鎖線で囲われた領域）とが検出され、顔領域および胴体領域それぞれを用いた画像処理が個別に行われる。

　例えば、人間は、顔の向きを認識する感度が高いため、顔領域に対しては、３Ｄモデリングを行うことで、ユーザの顔を正面から撮像したような正面顔画像を生成する。即ち、顔領域に基づいて、デプス情報を用いてユーザの顔の３Ｄモデルを作成し、正面を向くように顔の３Ｄモデルに対する回転処理を行った後、顔のテクスチャを貼り付けることにより、より高精度な正面顔画像を生成する。このような画像処理を行うことで、例えば、自身側のユーザが正面を見たときに、互いの視線が合っているかのように相手側のユーザに認識させる程度に、ユーザの顔を正面から撮像したような、より違和感の少ない正面顔画像を生成することができる。

　一方、人間は、胴体の向きを認識する感度は低いため、胴体領域に対しては、透視投影変換を行うことで、ユーザの胴体を正面から撮像したような正面胴体画像となるようにパース補正を施す。例えば、ユーザの正面に仮想的に配置された仮想撮像部によりユーザを撮像する方向と、図４のＡに示すように上側からセンサ部２１によりユーザを撮像する方向との角度に従ったパラメータで、ユーザの胴体を、図４のＡに示すような平面と仮定してパース補正を行う。なお、パース補正を行うためのパラメータは手動調整してもよく、仮想撮像部の位置は、被写体の位置（距離および左右）に対して静的または動的に調整することができる。このような画像処理を行うことで、例えば、ユーザの胴体を正面から撮像したような正面胴体画像を、少ない計算量で求めることができる。

　そして、それぞれ画像処理を個別に行って得られる正面顔画像および正面胴体画像を結合することで、図４のＢの右側に示すように、ユーザの全身が正面を向いている姿勢で、かつ、ユーザの顔が高精度に正面を向いて写されたような画像を生成することができる。

　例えば、提示部２２として縦型の大型ディスプレイを使用する構成では、より高い位置からユーザの全身を写した画像が撮像されることになる。このような画像に対し、人物像合成処理を施すことによって、効果的に、特に、胴体領域に対するパース補正が効果的に、ユーザの全身が正面を向いている姿勢で写されたような画像を生成することができる。

　また、３Ｄモデリングで高精度に正面顔画像を生成する処理について、図４のＢに示すように、顔の輪郭も含めた顔全体に対して処理を行う他、図４のＣに示すように、顔の輪郭の内側の領域（顔内部領域）に対してのみ処理を行うようにしてもよい。このように、顔内部領域のみ用いることで、３Ｄモデリングで高精度に正面顔画像を生成する処理における計算量を、顔全体を用いる場合よりも削減することができる。また、顔内部領域のみ用いて正面顔画像を生成した場合でも、顔全体を用いる場合と同様に、ユーザの顔が高精度に正面を向いている画像を生成することができる。

　図５は、図３のステップＳ１２において行われる人物像合成処理の第１の処理例を説明するフローチャートである。なお、以下では、ローカル情報処理部３１が自身側のユーザが写された画像に対して処理を行う場合について説明するが、リモート情報処理部３６が相手側のユーザが写された画像に対して処理を行う場合も同様の処理が行われる。

　ステップＳ２１において、ローカル情報処理部３１は、センサ部２１から供給される画像信号に基づく画像に写されているユーザを認識し、そのユーザの顔領域および胴体領域を検出する。

　ステップＳ２２において、ローカル情報処理部３１は、ステップＳ２１で検出した顔領域に基づいて、デプス情報を用いた３Ｄモデリングを行うことにより、より高精度な正面顔画像を生成する。

　ステップＳ２３において、ローカル情報処理部３１は、ステップＳ２１で検出した胴体領域に基づいて、透視投影変換により、正面胴体画像となるようにパース補正を施す。なお、ステップＳ２２の処理およびステップＳ２３の処理は、ステップＳ２１の処理後、並列的に行うことができる。

　ステップＳ２４において、ローカル情報処理部３１は、ステップＳ２２で生成された正面顔画像、および、ステップＳ２３で生成された正面胴体画像を結合する画像処理を行った後、処理は終了される。例えば、正面顔画像および正面胴体画像を結合する画像処理を、画像連結（image stitching）で行う際に、顔領域および胴体領域の位置の情報を利用することで、計算量を削減することができる。また、この画像処理を行う際に、画像修復（image inpainting）することで、例えば、オクルージョン領域などを穴埋めすることができる。

　以上のような人物像合成処理を行うことにより、ローカル情報処理部３１は、ユーザの全身が正面を向いている姿勢で、かつ、ユーザの顔が高精度に正面を向いて写されたような画像を、少ない計算量で出力することができる。これにより、コミュニケーション端末１３は、ユーザどうしが、正面を向かい合っていて、互いの視線を合わせてコミュニケーションを図ることができるような、より良好なユーザ体験を提供することができる。

　＜人物像合成処理の第２の処理例＞
　図６および図７を参照して、人物像合成処理の第２の処理例について説明する。

　例えば、図４を参照して上述したように、ユーザの胴体を平面と仮定してパース補正を行う場合、例えば、ユーザが手足を出すような姿勢であったり、座ったり屈んだりするように、上肢または下肢が胴体（を含む平面仮定）から外れていると、不自然な正面胴体画像となる。

　即ち、図６のＡに示すように、ユーザが、片手を前に出して、握手をするようなジェスチャを行う場合、その片手が、胴体の平面仮定から外れることになる。また、図６のＢに示すように、ユーザが椅子などに座っている場合、ユーザの足が、胴体の平面仮定から外れることになる。

　このように、ユーザの上肢または下肢が、ユーザの胴体を含むように設定される平面仮定から外れた場合には、その上肢または下肢を棒と仮定して、胴体とは別にパース補正した後、胴体と結合するような画像処理を施すことができる。例えば、ユーザのジェスチャを認識して、上肢または下肢が胴体の平面仮定から外れるような特定のジェスチャである場合には、上肢、下肢、胴体を個別にパース補正することで、より自然な正面胴体画像とすることができる。具体的には、握手をするジェスチャが認識された場合には、握手を行う手を、胴体とは別にパース補正するような画像処理を施すことができる。

　図７は、図３のステップＳ１２において行われる人物像合成処理の第２の処理例を説明するフローチャートである。

　ステップＳ３１およびＳ３２において、図５のステップＳ２１およびＳ２２と同様の処理が行われ、ステップＳ３３において、ローカル情報処理部３１は、ステップＳ３１で検出した胴体領域の中から、ユーザの上肢および下肢を検出する。

　ステップＳ３４において、ローカル情報処理部３１は、ステップＳ３３で検出した上肢および下肢に基づいて、ユーザのジェスチャを認識する。そして、ローカル情報処理部３１は、上肢または下肢が胴体の平面仮定から外れるような特定のジェスチャが行われている場合には、そのような特定のジェスチャが行われていることを認識する。

　ステップＳ３５において、ローカル情報処理部３１は、ユーザの上肢または下肢が、ユーザの胴体を含むように設定される平面仮定に沿っているか否かを判定する。例えば、ローカル情報処理部３１は、ステップＳ３４で特定のジェスチャが行われていることを認識した場合には、ユーザの上肢または下肢が、ユーザの胴体を含むように設定される平面仮定に沿っていないと判定する。

　ステップＳ３５において、ローカル情報処理部３１が、ユーザの上肢または下肢が、ユーザの胴体を含むように設定される平面仮定に沿っていると判定した場合、処理はステップＳ３６に進む。ステップＳ３６において、ローカル情報処理部３１は、図５のステップＳ２３と同様に、ユーザの胴体を含むように設定される平面仮定で、胴体とともに上肢および下肢をパース補正する。

　一方、ステップＳ３５において、ローカル情報処理部３１が、ユーザの上肢または下肢が、ユーザの胴体を含むように設定される平面仮定に沿っていないと判定した場合、処理はステップＳ３７に進む。ステップＳ３７において、ローカル情報処理部３１は、上肢、下肢、および胴体を個別にパース補正する。なお、この場合、平面仮定に沿っていないと判定された上肢または下肢だけを、個別にパース補正してもよい。例えば、上述したように、握手をするジェスチャが認識された場合には、その握手を求めた手だけを個別にパース補正してもよい。

　ステップＳ３６またはＳ３７の処理後、処理はステップＳ３８に進み、ローカル情報処理部３１は、図５のステップＳ２４と同様に、正面顔画像および正面胴体画像を結合する画像処理を行った後、処理は終了される。

　以上のような人物像合成処理を行うことにより、ローカル情報処理部３１は、ユーザの手や足などが前方に出されるような姿勢であっても、不自然となるような画像処理が施されることを回避することができる。例えば、ユーザが握手をするジェスチャを行う場合、その握手を求める手を、ユーザの胴体を含むように設定される平面仮定でパース補正すると、前に出した手が長く見えるような不自然となる画像処理が施されてしまう。これに対し、そのジェスチャを認識したときには、手を個別にパース補正することで、より自然な画像となるように画像処理を施すことができる。

　＜人物像合成処理の第３の処理例＞
　図８および図９を参照して、人物像合成処理の第３の処理例について説明する。

　例えば、図８の上側に示すように、複数（図８の例では二人）の人物が撮像された画像において、それぞれの人物を個別に分離することができる場合、人物ごとにパース補正を行うことができる。これにより、図８の下側に示すように、それぞれの人物について、全身が正面を向いている姿勢で、かつ、顔が高精度に正面を向いて写されたように画像を合成する画像処理を行うことができる。

　また、例えば、複数の人物の中から、ジェスチャを検出することによって重要人物を認識し、それぞれの人物を個別に分離することができない場合には、その重要人物に対するパース補正を行うパラメータを使用して、複数の人物をパース補正してもよい。また、例えば、複数の人物のうち、中心にいる人物を重要人物として認識したり、会話中の人物を重要人物として認識したりしてもよい。

　このとき、それぞれの人物が写されている領域のデプス情報を取得して、デプス範囲が狭いとき、重要人物のパラメータを使用したパース補正を行うようにすることができる。なお、デプス範囲が広い場合には、パース補正を行わずにフォールバックしてもよい。

　図９は、図３のステップＳ１２において行われる人物像合成処理の第３の処理例を説明するフローチャートである。

　ステップＳ４１において、ローカル情報処理部３１は、センサ部２１から供給される画像信号に基づく画像に写されている複数の人物を検出する。

　ステップＳ４２およびＳ４３において、図５のステップＳ２１およびＳ２２と同様の処理が行われ、ステップＳ４４において、ローカル情報処理部３１は、ステップＳ４１で検出した複数の人物のジェスチャを検出して、それらの人物の中から重要人物を認識する。

　ステップＳ４５において、ローカル情報処理部３１は、複数の人物の胴体領域が重畳している割合に基づいて、それぞれの人物を個別に分離することができるか否かを判定する。例えば、ローカル情報処理部３１は、二人の人物の胴体領域が重畳している割合が、所定の割合（例えば、３割）未満であれば、その二人の人物を個別に分離することができると判定することができる。

　ステップＳ４５において、それぞれの人物を個別に分離することができると判定された場合、処理はステップＳ４６に進み、ステップＳ４４で認識した重要人物と、その他の人物との胴体領域を個別にパース補正する。

　一方、ステップＳ４５において、それぞれの人物を個別に分離することができないと判定された場合、処理はステップＳ４７に進む。

　ステップＳ４７において、ローカル情報処理部３１は、ステップＳ４１で検出した複数の人物のうちの、最も近い人物から最も遠い人物までのデプス範囲が、規定範囲よりも広いか否かを判定する。ここで、判定の基準となる規定範囲は、複数の人物の胴体領域を単一のパラメータでパース補正しても、違和感が発生しないようなデプス範囲とされる。

　ステップＳ４７において、デプス範囲が規定範囲よりも広くないと判定された場合、処理はステップＳ４８に進み、ローカル情報処理部３１は、重要人物の胴体領域をパース補正するためのパラメータで、複数の人物の胴体領域をパース補正する。

　ステップＳ４６の処理後、ステップＳ４７でデプス範囲が規定範囲よりも広いと判定された場合、または、ステップＳ４８の処理後、処理はステップＳ４９に進む。

　ステップＳ４９において、ローカル情報処理部３１は、複数の人物の顔領域および胴体領域を、それぞれ結合する画像処理を行った後、処理は終了される。

　以上のような人物像合成処理を行うことにより、ローカル情報処理部３１は、複数の人物に対して、それぞれの全身が正面を向いている姿勢で、かつ、それぞれの顔が高精度に正面を向いて写されたような画像を、少ない計算量で出力することができる。

　なお、センサ部２１を構成する撮像素子は、提示部２２を構成するディスプレイの上側に配置されるのに限らず、ディスプレイの右側または左側などの側方に配置されていてもよく、ディスプレイの正面に向かうユーザを正面以外の方向から撮像するように配置されていればよい。

　＜コンピュータの構成例＞
　なお、上述のフローチャートを参照して説明した各処理は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含むものである。また、プログラムは、単一のCPUにより処理されるものであっても良いし、複数のCPUによって分散処理されるものであっても良い。また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。

　また、上述した一連の処理（画像処理方法）は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラムが記録されたプログラム記録媒体からインストールされる。

　図１０は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）１０１，ROM（Read Only Memory）１０２，RAM（Random Access Memory）１０３は、バス１０４により相互に接続されている。

　バス１０４には、さらに、入出力インタフェース１０５が接続されている。入出力インタフェース１０５には、キーボード、マウス、マイクロフォンなどよりなる入力部１０６、ディスプレイ、スピーカなどよりなる出力部１０７、ハードディスクや不揮発性のメモリなどよりなる記憶部１０８、ネットワークインタフェースなどよりなる通信部１０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア１１１を駆動するドライブ１１０が接続されている。

　以上のように構成されるコンピュータでは、CPU１０１が、例えば、記憶部１０８に記憶されているプログラムを、入出力インタフェース１０５及びバス１０４を介して、RAM１０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU１０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア１１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

　そして、プログラムは、リムーバブルメディア１１１をドライブ１１０に装着することにより、入出力インタフェース１０５を介して、記憶部１０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部１０９で受信し、記憶部１０８にインストールすることができる。その他、プログラムは、ROM１０２や記憶部１０８に、あらかじめインストールしておくことができる。

　＜構成の組み合わせ例＞
　なお、本技術は以下のような構成も取ることができる。
（１）
　画像を表示する表示装置の正面に向かうユーザを、その正面以外の方向から撮像装置により撮像した画像から、前記ユーザの顔が写された顔領域、および、前記ユーザの胴体が写された胴体領域を検出する検出部と、
　前記顔領域に基づいて、前記ユーザの顔を正面から撮像したような正面顔画像を生成する正面顔生成部と、
　前記胴体領域に基づいて、前記ユーザの胴体を正面から撮像したような正面胴体画像に補正する胴体補正部と、
　前記正面顔画像および前記正面胴体画像を結合する結合部と
　を備える画像処理装置。
（２）
　前記正面顔生成部は、前記顔領域から前記ユーザの顔の３Ｄモデルを作成し、正面を向くように前記３Ｄモデルに対する回転処理を行った後、前記ユーザの顔のテクスチャを貼り付けることで前記正面顔画像を生成する
　上記（１）に記載の画像処理装置。
（３）
　前記胴体補正部は、前記胴体領域に対して透視投影変換を行うことで前記正面胴体画像を求める
　上記（１）または（２）に記載の画像処理装置。
（４）
　前記胴体補正部は、前記ユーザの胴体を含む平面を仮定し、その平面に前記ユーザの上肢または下肢が沿っていない場合、前記胴体領域とは個別に前記上肢または前記下肢を補正する
　上記（３）に記載の画像処理装置。
（５）
　前記胴体補正部は、前記撮像装置により撮像した画像に複数の人物が写されている場合、それぞれの人物の前記胴体領域を個別に補正する
　上記（１）から（４）までのいずれかに記載の画像処理装置。
（６）
　前記胴体補正部は、前記撮像装置により撮像した画像に複数の人物が写されている場合、それらの人物のうちの、特定の人物の前記胴体領域の補正に用いるパラメータを使用して、全ての人物の前記胴体領域を補正する
　上記（１）から（４）までのいずれかに記載の画像処理装置。
（７）
　画像を送受信する遠隔コミュニケーションにおける前記画像を処理する画像処理装置が、
　画像を表示する表示装置の正面に向かうユーザを、その正面以外の方向から撮像装置により撮像した画像から、前記ユーザの顔が写された顔領域、および、前記ユーザの胴体が写された胴体領域を検出することと、
　前記顔領域に基づいて、前記ユーザの顔を正面から撮像したような正面顔画像を生成することとし
　前記胴体領域に基づいて、前記ユーザの胴体を正面から撮像したような正面胴体画像に補正することと、
　前記正面顔画像および前記正面胴体画像を結合することと
　を含む画像処理方法。
（８）
　画像を送受信する遠隔コミュニケーションにおける前記画像を処理する画像処理装置が、
　画像を表示する表示装置の正面に向かうユーザを、その正面以外の方向から撮像装置により撮像した画像から、前記ユーザの顔が写された顔領域、および、前記ユーザの胴体が写された胴体領域を検出することと、
　前記顔領域に基づいて、前記ユーザの顔を正面から撮像したような正面顔画像を生成することとし
　前記胴体領域に基づいて、前記ユーザの胴体を正面から撮像したような正面胴体画像に補正することと、
　前記正面顔画像および前記正面胴体画像を結合することと
　を含む画像処理をコンピュータに実行させるプログラム。
（９）
　コミュニケーションの相手と、少なくとも画像の送受信を行う通信装置と、
　相手側から送信されてきた画像を表示する表示装置と、
　前記表示装置の正面に向かうユーザを、その正面以外の方向から撮像する撮像装置と、
　前記撮像装置により前記ユーザを撮像した画像から、前記ユーザの顔が写された顔領域、および、前記ユーザの胴体が写された胴体領域を検出する検出部と、
　前記顔領域に基づいて、前記ユーザの顔を正面から撮像したような正面顔画像を生成する正面顔生成部と、
　前記胴体領域に基づいて、前記ユーザの胴体を正面から撮像したような正面胴体画像に補正する胴体補正部と、
　前記正面顔画像および前記正面胴体画像を結合する結合部と
　を備える遠隔コミュニケーションシステム。

　なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

　１１　遠隔コミュニケーションシステム，　１２　ネットワーク，　１３　コミュニケーション端末，　２１　センサ部，　２２　提示部，　２３　コミュニケーション処理部，　３１　ローカル情報処理部，　３２　符号化部，　３３　送信部，　３４　受信部，　３５　復号部，　３６　リモート情報処理部

Claims

　画像を表示する表示装置の正面に向かうユーザを、その正面以外の方向から撮像装置により撮像した画像から、前記ユーザの顔が写された顔領域、および、前記ユーザの胴体が写された胴体領域を検出する検出部と、
　前記顔領域に基づいて、前記ユーザの顔を正面から撮像したような正面顔画像を生成する正面顔生成部と、
　前記胴体領域に基づいて、前記ユーザの胴体を正面から撮像したような正面胴体画像に補正する胴体補正部と、
　前記正面顔画像および前記正面胴体画像を結合する結合部と
　を備える画像処理装置。
　前記正面顔生成部は、前記顔領域から前記ユーザの顔の３Ｄモデルを作成し、正面を向くように前記３Ｄモデルに対する回転処理を行った後、前記ユーザの顔のテクスチャを貼り付けることで前記正面顔画像を生成する
　請求項１に記載の画像処理装置。
　前記胴体補正部は、前記胴体領域に対して透視投影変換を行うことで前記正面胴体画像を求める
　請求項１に記載の画像処理装置。
　前記胴体補正部は、前記ユーザの胴体を含む平面を仮定し、その平面に前記ユーザの上肢または下肢が沿っていない場合、前記胴体領域とは個別に前記上肢または前記下肢を補正する
　請求項３に記載の画像処理装置。
　前記胴体補正部は、前記撮像装置により撮像した画像に複数の人物が写されている場合、それぞれの人物の前記胴体領域を個別に補正する
　請求項１に記載の画像処理装置。
　前記胴体補正部は、前記撮像装置により撮像した画像に複数の人物が写されている場合、それらの人物のうちの、特定の人物の前記胴体領域の補正に用いるパラメータを使用して、全ての人物の前記胴体領域を補正する
　請求項１に記載の画像処理装置。
　画像を送受信する遠隔コミュニケーションにおける前記画像を処理する画像処理装置が、
　画像を表示する表示装置の正面に向かうユーザを、その正面以外の方向から撮像装置により撮像した画像から、前記ユーザの顔が写された顔領域、および、前記ユーザの胴体が写された胴体領域を検出することと、
　前記顔領域に基づいて、前記ユーザの顔を正面から撮像したような正面顔画像を生成することとし
　前記胴体領域に基づいて、前記ユーザの胴体を正面から撮像したような正面胴体画像に補正することと、
　前記正面顔画像および前記正面胴体画像を結合することと
　を含む画像処理方法。
　画像を送受信する遠隔コミュニケーションにおける前記画像を処理する画像処理装置のコンピュータに、
　画像を表示する表示装置の正面に向かうユーザを、その正面以外の方向から撮像装置により撮像した画像から、前記ユーザの顔が写された顔領域、および、前記ユーザの胴体が写された胴体領域を検出することと、
　前記顔領域に基づいて、前記ユーザの顔を正面から撮像したような正面顔画像を生成することと、
　前記胴体領域に基づいて、前記ユーザの胴体を正面から撮像したような正面胴体画像に補正することと、
　前記正面顔画像および前記正面胴体画像を結合することと
　を含む画像処理をコンピュータに実行させるプログラム。
　コミュニケーションの相手と、少なくとも画像の送受信を行う通信装置と、
　相手側から送信されてきた画像を表示する表示装置と、
　前記表示装置の正面に向かうユーザを、その正面以外の方向から撮像する撮像装置と、
　前記撮像装置により前記ユーザを撮像した画像から、前記ユーザの顔が写された顔領域、および、前記ユーザの胴体が写された胴体領域を検出する検出部と、
　前記顔領域に基づいて、前記ユーザの顔を正面から撮像したような正面顔画像を生成する正面顔生成部と、
　前記胴体領域に基づいて、前記ユーザの胴体を正面から撮像したような正面胴体画像に補正する胴体補正部と、
　前記正面顔画像および前記正面胴体画像を結合する結合部と
　を備える遠隔コミュニケーションシステム。