WO2011148449A1

WO2011148449A1 - 映像処理装置、映像処理方法、および映像通信システム

Info

Publication number: WO2011148449A1
Application number: PCT/JP2010/007616
Authority: WO
Inventors: 大場　章男; 博之勢川; 稲田　徹悟
Original assignee: 株式会社ソニー・コンピュータエンタテインメント
Priority date: 2010-05-24
Filing date: 2010-12-28
Publication date: 2011-12-01
Also published as: US20180012064A1; JP4794678B1; US9798920B2; US9225973B2; US20160071330A1; JP2011248466A; US20120327196A1; US10235560B2

Abstract

　映像処理装置において、撮像部は、３次元空間における被写体を異なる視点から見た場合の第１の視差画像と第２の視差画像とを含む立体映像を観察するためのめがねをかけた人物の顔を含む被写体を撮像する。めがね特定部３０６は、前記撮像部が撮像した被写体の映像から前記めがねを特定する。顔検出部３０８は、めがね特定部３０６が特定しためがねをもとに、前記撮像部が撮像した被写体の映像から人物の顔領域を検出する。拡張現実演出部３１４は、顔検出部が検出した人物の顔領域に仮想的な特徴を付加する。

Description

映像処理装置、映像処理方法、および映像通信システム

　本発明は、映像処理装置、映像処理方法、および映像通信システムに関する。

　近年、民生用テレビの高性能化が進み、奥行きを持った立体映像を提示することが可能な３次元テレビが普及してきている。このような３次元テレビを実現するための方式は種々存在するが、中には立体映像を観察するためにユーザが専用のめがねを着用する方式が存在する。

　立体映像を観察するために専用のめがねを要する方式においては、当然のことながら、ユーザは必ず専用のめがねを着用することになる。本発明者は、ユーザが必ず専用のめがねを着用する点に着目し、本めがねを立体映像を観察するために利用するのみならず、新たな利用の可能性を探求できると考えた。

　本発明はこのような状況を鑑みてなされたものであり、その目的は、立体映像を観察するためのめがねの新たな利用分野を提供することにある。

　上記課題を解決するために、本発明のある態様は映像処理装置である。この装置は、３次元空間における被写体を異なる視点から見た場合の第１の視差画像と第２の視差画像とを含む立体映像を観察するためのめがねをかけた人物の顔を含む被写体を撮像する撮像部と、前記撮像部が撮像した被写体の映像から前記めがねを特定するめがね特定部と、
　前記めがね特定部が特定しためがねをもとに、前記撮像部が撮像した被写体の映像から人物の顔領域を検出する顔検出部と、前記顔検出部が検出した人物の顔領域に仮想的な特徴を付加する拡張現実演出部とを含む。

　本発明の別の態様は映像通信システムである。このシステムは、上記の映像処理装置を少なくともふたつ含み、当該映像処理装置が通信回線を通じて相互に通信可能に接続されている映像通信システムである。

　本発明のさらに別の態様は、映像処理方法である。この方法は、３次元空間における被写体を異なる視点から見た場合の第１の視差画像と第２の視差画像とを含む立体映像を観察するためのめがねをかけた人物の顔を含む被写体を撮像するステップと、撮像した被写体の映像から前記めがねを特定するステップと、特定しためがねをもとに、撮像した被写体の映像から人物の顔領域を検出するステップと、検出した人物の顔領域に仮想的な特徴を付加するステップとをプロセッサに実行させる。

　なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

　本発明によると、立体映像を観察するためのめがねの新たな利用分野を提供することができる。

実施の形態に係る映像処理システムの概観を示す図である。３次元めがねのシャッタのタイミングと、３次元テレビにおけるバックライトの点灯のタイミングとの関係を示す図である。実施の形態に係る映像処理装置の機能構成を模式的に示す図である。図４（ａ）は、３次元めがねの左右のレンズのシャッタが閉じている場合の映像を示す図である。図４（ｂ）は、３次元めがねの右目用のレンズのシャッタが閉じており、左目用のレンズのシャッタが空いている場合の映像を示す図である。図４（ｃ）は、３次元めがねの左目用のレンズのシャッタが閉じており、右目用のレンズのシャッタが空いている場合の映像を示す図である。図４（ｄ）は、３次元めがねのレンズ領域を出発点としてユーザの顔領域を抽出した結果を示す図である。図５（ａ）は、人物の表情が現れやすい目や口付近の表情エリアを示す図である。図５（ｂ）は、図５（ａ）に示す表情エリアの特徴点を示す図である。実施の形態に係る撮像位置補正部の動作を説明する図である。実施の形態に係る顔演出部による変装の演出の例を示す図である。実施の形態に係る顔演出部が３次元めがねを除去した画像をもとに、鏡像生成部が生成した鏡像画像の例を示す図である。実施の形態に係る映像処理装置３００における拡張実現の処理手順を示すフローチャートである。実施の形態に係る３次元テレビ電話システムを模式的に示す図である。実施の形態に係る３次元テレビ電話システムの使用例を示す図である。実施の形態に係る３次元テレビ電話システムにおいて送信する情報の種類に応じた送信頻度を示す図である。

　本発明の実施の形態の概要を述べる。実施の形態は、立体映像を観察するためのめがねを着用した人物の顔を含む映像を取得し、そのめがねをランドマークとして人物の顔領域を検出する。検出した顔領域を中心に、仮想的な特徴を付加する拡張現実による演出を施す。

　図１は、実施の形態に係る映像処理システム１００の概観を示す図である。映像処理システム１００は、ステレオカメラ２００、映像処理装置３００、３次元テレビ４００、および３次元テレビ４００が表示する立体映像を観察するための３次元めがね５００を含む。

　ステレオカメラ２００は、被写体であるユーザを異なる視点から撮像するための第１のカメラ２０２と第２のカメラ２０４とを含む。ここで、３次元空間における被写体を異なる視点から見た場合の画像を「視差画像」という。人間の左右の目は６ｃｍ程度離れているため、左目から見える映像と右目から見える映像には視差が生じる。人間の脳は、左右の目で知覚した視差画像を利用して物体の奥行きを認識しているといわれている。そのため、左目で知覚される視差画像と右目で知覚される視差画像とをそれぞれの目に投影すると、人間には奥行きを持った立体映像として認識される。以下、３次元空間における被写体を異なる視点から見た場合の左目用の視差画像と右目用の視差画像とを含む映像を単に「立体映像」という。ステレオカメラ２００は、例えばＣＣＤ（Charge Coupled Device）やＣＭＯＳ（Complementary Metal Oxide Semiconductor）等の個体撮像素子を用いて実現できる。

　映像処理装置３００は、ステレオカメラ２００が撮像した被写体の映像を処理する。映像処理装置３００の詳細については後述する。３次元テレビ４００は、映像処理装置３００が生成した立体映像を表示する。ユーザは３次元めがね５００を着用することにより、３次元テレビ４００に表示される映像を奥行きを持った立体映像として認識することが可能となる。

　視差画像を利用して人間に奥行きを持った映像を見せるための３次元テレビには様々な方式があるが、本実施の形態では左目用の視差画像と右目用の視差画像とを交互に時分割で表示する方式の３次元テレビを例に説明する。

　３次元テレビ４００は、映像処理装置３００が生成した左目用の視差画像と右目用の視差画像とを交互に時分割で提示する。映像処理装置３００は、３次元テレビ４００の視差画像の表示タイミングを同期信号として３次元めがね５００に送信する。３次元めがね５００は、受信した同期信号に応じて左右のレンズにシャッタをかける。シャッタは、例えば既知の液晶シャッタの技術を用いることで実現できる。

　具体的には、３次元テレビ４００が左目用の視差画像を表示する場合、３次元めがね５００は右目のレンズのシャッタを閉じることで、ユーザの右目に入る映像を遮蔽する。これにより、３次元テレビ４００が左目用の視差画像を表示する場合、ユーザの左目にのみ左目用の視差画像が投影される。反対に、３次元テレビ４００が右目用の視差画像を表示する場合、３次元めがね５００が左目のレンズのシャッタを閉じることにより、ユーザの右目にのみ右目用の視差画像が投影される。

　図１は映像処理装置３００と３次元テレビ４００とが別の装置の場合について図示したものであり、映像処理装置３００は例えば据置型のゲーム機である。映像処理装置３００の機能の全部または一部は、３次元テレビ４００の一部として組み込まれていてもよい。

　図２は、３次元めがね５００のシャッタのタイミングと、３次元テレビ４００における視差画像の表示のタイミングとの関係を示す図である。図２においては、時刻２ｔにおいて所定の時間（例えば１０ミリ秒）３次元めがね５００の右目のシャッタが開くと同時に同じ期間３次元テレビ４００の表示パネルのバックライトが点灯することを示している。また、時刻４ｔにおいて所定の時間３次元めがね５００の左目のシャッタが開くと同時に同じ期間３次元テレビ４００の表示パネルのバックライトが点灯することを示している。それ以外の時刻においては３次元めがね５００の右目のシャッタおよび左目のシャッタが閉じ、かつ３次元テレビ４００の表示パネルのバックライトは消灯する。

　時刻２ｔにおいて３次元テレビ４００が右目用の視差画像を表示してユーザの右目に右目用視差画像を提示し、時刻４ｔにおいて３次元テレビ４００が左目用の視差画像を表示してユーザの左目に左目用視差画像を提示することで、ユーザに奥行き感のある３次元映像を提示することが可能となる。

　図３は、実施の形態に係る映像処理装置３００の機能構成を模式的に示す図である。映像処理装置３００は、左目映像生成部３０２、右目映像生成部３０４、めがね特定部３０６、顔検出部３０８、特徴点検出部３１０、３次元モデル生成部３１２、拡張現実演出部３１４、立体映像生成部３１６、および出力部３１８を含む。

　左目映像生成部３０２は、第１のカメラ２０２から取得した情報を画像化して、左目用の視差画像を生成する。右目映像生成部３０４は、第２のカメラ２０４から取得した情報を画像化して、右目用の視差画像を生成する。

　めがね特定部３０６は、ステレオカメラ２００が撮像し、左目映像生成部３０２および右目映像生成部３０４がそれぞれ画像化した被写体の映像から、３次元めがね５００を特定する。前述したように、本実施の形態は、映像処理装置３００から受信した同期信号に応じて左右のレンズにシャッタをかける方式のシャッタめがねを採用する。このため、めがね特定部３０６は、シャッタ領域特定部３２０とフレーム特定部３２２とを含む。

　３次元めがね５００は、レンズのシャッタを交互に時分割で閉じることにより、ユーザの目に投影される映像を遮蔽する。このことは、３次元めがね５００を装着しているユーザの顔を撮像した映像においては、３次元めがね５００の左右のレンズを通して見えるユーザの目が交互に時分割に遮蔽され、撮像されなくなることを意味する。そこでシャッタ領域特定部３２０は、３次元めがね５００を着用したユーザの顔を含む被写体の映像から、被写体の映像の通過が遮蔽されている領域をレンズの領域として検出することにより、３次元めがね５００を特定する。

　フレーム特定部３２２は、シャッタ領域特定部３２０が特定したレンズの領域を出発点として、３次元めがね５００のめがねフレームを追跡して特定する。顔検出部３０８は、めがね特定部３０６が特定しためがね領域を出発点として、ユーザの顔を検出する。

　このように、専用のめがねを着用する方式の３次元テレビ４００を鑑賞するユーザは、３次元めがね５００を着用することが保証される。このため、めがね領域を特定することから始めることが可能となる。特にシャッタ方式の３次元めがね５００の場合、３次元めがね５００のレンズ領域をランドマークとして特定することが可能となる。レンズ領域は人間の顔の大きさと比較しても大きめの領域であり、安定かつ高速に検出することができる。例えばめがねフレームを検出する場合と比較して、レンズは２次元的な広がりを持っているため、安定かつ高速に検出することができる。

　図４は、３次元めがね５００を着用したユーザの顔部分の映像と、シャッタ領域をもとに抽出したユーザの顔領域を示す図である。図４（ａ）は、３次元めがね５００の左右のレンズのシャッタが閉じている場合の映像を示す図である。図４（ｂ）は、３次元めがね５００の右目用のレンズのシャッタが閉じており、左目用のレンズのシャッタが空いている場合の映像を示す図である。図４（ｃ）は、３次元めがね５００の左目用のレンズのシャッタが閉じており、右目用のレンズのシャッタが空いている場合の映像を示す図である。図４（ｄ）は、３次元めがね５００のレンズ領域を出発点としてユーザの顔領域を抽出した結果を示す図である。図４の各図において、斜線のハッチングで示す領域はシャッタの閉じている領域である。

　シャッタ領域特定部３２０は、例えば図４（ａ）に示すような、３次元めがね５００の左右のレンズのシャッタが閉じている場合の映像と、図４（ｂ）に示す３次元めがね５００の右目用のレンズのシャッタが閉じており、左目用のレンズのシャッタが空いている場合の映像との画素の差分を計算する。両者は左目用のレンズの領域に大きな相違点があるため、この領域の画素の差分値が大きくなる。そこでシャッタ領域特定部３２０は、がｓの差分値の大きな領域を左目用のレンズの領域として特定する。また、シャッタ領域特定部３２０は、図４（ａ）に示すような、３次元めがね５００の左右のレンズのシャッタが閉じている場合の映像と、図４（ｃ）に示す３次元めがね５００の左目用のレンズのシャッタが閉じており、右目用のレンズのシャッタが空いている場合の映像との画素の差分を計算する。これにより、シャッタ領域特定部３２０は右目用のレンズ領域を特定することができる。

　３次元めがね５００のレンズ領域が特定できれば、フレーム特定部３２２はその領域と連結しているエッジを追跡することで、３次元めがね５００のフレームを特定することができる。また、３次元めがね５００のレンズ領域が特定できればユーザの両目を特定できるので、両目間の距離からユーザの顔のおおよその大きさも推定できる。顔検出部３０８は、３次元めがね５００のレンズ領域を出発点として肌色領域やエッジを検出することで、ユーザの顔領域を特定することができる。

　図５は、人物の表情エリアや、表情エリアの特徴点を示す図である。図５（ａ）は、人物の表情が現れやすい目や口付近の表情エリアを示す図である。図５（ａ）は、表情エリア３３４と総称する目付近の表情エリア３３４ａと、口付近の表情エリア３３４ｂとを示す。表情エリア３３４は人物の感情（例えば怒りや戸惑い、笑い等）の特徴が出やすい領域であり、後述する拡張現実（Ａｕｇｍｅｎｔｅｄ　Ｒｅａｌｉｔｙ；ＡＲ）の演出に利用される。

　図５（ｂ）は、図５（ａ）に示す表情エリア３３４の特徴点（符号３３４で総称する。）を示す図である。特徴点とは、例えば、眉尻（符号３３６ａおよび３３６ｄ）、眉頭（符号３３６ｂおよび３３６ｃ）、目尻（符号３３６ｅおよび３３６ｇ）、目頭（符号３３６ｆおよび３３６ｈ）、口角（符号３３６ｉおよび３３６ｋ）、上唇の中央部３３６ｊ、下唇の中央部３３６ｌ、あご３３６ｍ、および瞳の中央などである。これらの特徴点は、後述する拡張現実の演出や、ユーザの顔の向き、表情の解析、および三角測量の原理を用いてユーザの顔の奥行き情報を計算する際に利用される。

　図３の説明に戻る。特徴点検出部３１０は、顔検出部３０８が検出したユーザの顔領域をもとに、図５（ｂ）に示す特徴点を検出する。これは例えばエッジ検出等の汎用的な技術を用いて実現できる。３次元モデル生成部３１２は、ユーザの顔を汎用的な人物の顔の３次元モデルにマッピングする。これは例えば、複数のポリゴン等で構成される顔のワイヤーフレームモデルを用いて、ポリゴンの頂点に特徴点検出部３１０が検出した特徴点をマッピングした後、顔検出部３０８が検出した顔領域をテクスチャマッピングすることで実現できる。あるいは、三角測量の原理を用いて特徴点からユーザの顔の奥行き情報を計算し、３次元モデルを生成してもよい。以下、顔検出部３０８が検出したユーザの顔領域の画像を「表情画像」、特徴点検出部３１０が検出したユーザの顔の特徴点を「表情データ」と呼ぶことがある。

　拡張現実演出部３１４は、顔検出部が検出した人物の顔領域、およびその周辺の領域に仮想的な特徴を付加する。ここで「拡張現実」とは、３次元めがね５００を着用して観察する３次元テレビ４００に映される現実の空間に３次元モデルを投影することによって、現実の空間に様々な仮想的な特徴を付加するという考え方や、それを実現するための技術の総称である。

　具体的には、拡張現実演出部３１４は、３次元モデル生成部３１２が生成したユーザの顔の３次元モデルをもとに、種々の拡張現実を付加する。このため、拡張現実演出部３１４は、背景演出部３２６、鏡像生成部３２８、撮像位置補正部３３０、顔演出部３３２、およびこれら各部の動作を制御する演出制御部３２４を含む。

　背景演出部３２６は、顔検出部３０８が検出し、３次元モデル生成部３１２がモデル化したユーザの顔以外の領域である背景領域に対して拡張現実による演出を施す。例えば、背景領域を他の画像に差し替えたり、背景領域をぼかしたりする。後述するように、映像処理システム１００はネットワークを介して他の映像処理システム１００と接続することにより、例えばテレビ電話として利用可能である。この場合、ステレオカメラ２００はユーザの家庭内に設置されることが通常であると考えられるが、家庭内の様子をありのまま送信することは好ましくない場合もある。このようなとき、背景演出部３２６が背景領域を他の画像に差し替えたり、背景領域をぼかしたりすることにより、家庭内の様子をありのまま送信することを防止できる点で有利である。

　図６は、実施の形態に係る撮像位置補正部３３０の動作を説明する図である。ユーザは通常３次元テレビ４００を正面から見るため、ステレオカメラ２００はユーザを正面から撮像する位置（図６において符号２１６）に設置することができず、例えば３次元テレビ４００の上部（図６において符号２１２）または、下部（図６において符号２１４）に設置することになる。この場合、ステレオカメラ２００が取得するユーザの映像はユーザを見下ろした場合の映像となるか、あるいはユーザを見上げる場合の映像となる。

　３次元モデル生成部３１２がユーザの顔の３次元モデルを生成しているため、撮像位置補正部３３０は、ユーザを任意の方向から撮像した場合の映像を生成することが可能である。そこで撮像位置補正部３３０は、３次元モデル生成部３１２が生成したユーザの顔の３次元モデルをもとに、ユーザを正面の方向から撮像した場合の映像を生成する。これにより、ユーザは自分の顔を正面から撮像した場合の映像を観察することが可能となる。また、テレビ電話をする場合には、相手はユーザの顔を正面から撮像した場合の映像を見ることができ、互いにアイコンタクトができるため、相手を正面以外から撮像した映像を用いて会話する場合と比較して、会話をする上での違和感を低減することが可能となる。

　図３に戻り、顔演出部３３２は、めがね特定部３０６が特定した３次元めがね５００を除去し、ユーザが３次元めがね５００をかけない場合の顔の映像を生成する。顔演出部３３２はまた、ユーザの顔に化粧をしたり、美肌にしたりする等の画像処理を施す。顔演出部３３２はユーザの顔を別人の顔、あるいは動物等のキャラクタに置換する等の画像処理による変装を施す。このように、顔演出部３３２は、重要な被写体と考えられるユーザの顔に、拡張現実による演出を施す。ユーザに非日常的な演出を提供できる点で有利である。

　図７は、顔演出部３３２による変装の演出の例を示す図である。この例では、顔演出部３３２は、特徴点検出部３１０が検出した特徴点と、あらかじめ用意してある犬の画像およびその特徴点（図示せず）とをマッチングすることにより、ユーザの顔を犬の顔に変装させる演出を施す。

　鏡像生成部３２８は、顔検出部３０８が検出し、３次元モデル生成部３１２が生成したユーザの顔の３次元モデルをもとに、ユーザが鏡に映った場合の３次元モデルを生成する。ユーザはテレビ電話の送信の前に、拡張現実の施された自分の顔を鏡のように映る映像として観察することが可能となる。３次元めがね５００を着用して本システムを利用することにより、いわばサイバーワールドに入る前に拡張現実による演出が施された自分の姿を確認し、日常的な光景から非日常への切り替わりを実感することができる。

　図８は、顔演出部３３２が３次元めがね５００を除去した画像をもとに、鏡像生成部３２８が生成した鏡像画像の例を示す図である。現実のユーザは３次元めがね５００を着用しているのであるが、３次元テレビ４００の画面には３次元めがね５００をかけていない場合の映像が提示されている。また、３次元テレビ４００の画面には現実のユーザの鏡像が提示されている。

　立体映像を観察するために３次元めがね５００の着用が必要ではあるが、ユーザは、３次元めがね５００を着用している映像をそのまま３次元テレビ４００に映したり、相手に送信したりすることを必ずしも望むわけではない。むしろ、拡張現実を用いたテレビ電話でにおいては、ユーザはありのままの映像を映し出したり送信したりすることにはそれほど積極的ではなく、映像に対して非日常的な演出を施すことを望む場合がある。

　本実施の形態では、３次元モデル生成部３１２がユーザの顔の３次元モデルを生成するため、映像に種々の拡張現実による非日常的な演出を施すことが可能となる。そして、３次元モデルを生成するための前処理としての顔検出処理に、３次元めがね５００を利用することができる。ユーザが３次元めがね５００を着用していることが保証されているからである。

　演出制御部３２４は、図示しないリモコン等のユーザインタフェースを介してユーザからの指示を受け付け、拡張現実演出部３１４内の各部の演出を制御する。なお、図示はしないが、拡張現実演出部３１４は、例えばユーザの顔付近に「吹き出し」を用いて文字を表示する等、他の拡張現実を付加する機能を備えていてもよい。

　立体映像生成部３１６は、３次元モデル生成部３１２が生成したユーザの３次元モデル、または拡張現実演出部３１４が演出を施したユーザの３次元モデルをもとに、仮想的な３次元空間におけるユーザの３次元モデルを異なる視点から見た場合の左目用の視差画像と右目用の視差画像とを含む立体映像を生成する。出力部３１８は、立体映像生成部３１６が生成した立体映像を３次元テレビ４００に出力したり、インターネット等のネットワークを介して他の映像処理システム１００に送信したりする。

　図３は、実施の形態に係る映像処理装置３００を実現するための機能構成を示しており、その他の構成は省略している。図３において、さまざまな処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、ＣＰＵ、メインメモリ、その他のＬＳＩで構成することができ、ソフトウェア的には、メインメモリにロードされたプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組み合わせによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。

　図９は、実施の形態に係る映像処理装置３００における拡張実現の処理手順を示すフローチャートである。以下フローチャートにおいては、各部の処理手順を、ステップを意味するＳ（Ｓｔｅｐの頭文字）と数字との組み合わせによって表示する。本フローチャートにおける処理は、左目映像生成部３０２および右目映像生成部３０４がステレオカメラ２００の出力を映像化したときに開始する。

　左目映像生成部３０２および右目映像生成部３０４は、ステレオカメラ２００から出力された３次元めがね５００をかけたユーザの顔を含む被写体を映像化する（Ｓ１０）。めがね特定部３０６は、左目映像生成部３０２および右目映像生成部３０４が映像化した被写体の映像から３次元めがね５００を特定する（Ｓ１２）。

　顔検出部３０８は、めがね特定部３０６が特定した３次元めがねをもとに、左目映像生成部３０２および右目映像生成部３０４が映像化したユーザの顔を含む被写体の映像からユーザの顔領域を検出する（Ｓ１４）。特徴点検出部３１０は、顔検出部３０８が検出したユーザの顔領域から特徴点を検出する（Ｓ１６）。

　３次元モデル生成部３１２は、顔検出部３０８が検出したユーザの顔領域および特徴点検出部３１０が検出した特徴点をもとにユーザの顔の３次元モデルを生成する（Ｓ１８）。拡張現実演出部３１４は、３次元モデル生成部３１２が生成したユーザの顔の３次元モデルをもとに、拡張現実による演出を施す（Ｓ２０）。

　立体映像生成部３１６は、３次元モデル生成部３１２が生成したユーザの３次元モデルまたは拡張現実演出部３１４が演出を施したユーザの３次元モデルをもとに、仮想的な３次元空間におけるユーザの３次元モデルを異なる視点から見た場合の左目用の視差画像と右目用の視差画像とを含む立体映像を生成する（Ｓ２２）。出力部３１８は、立体映像生成部３１６が生成した立体映像を３次元テレビ４００等の外部デバイスに出力する（Ｓ２４）。出力部３１８が立体映像を出力すると、本フローチャートにおける処理は終了する。

　図１０は、実施の形態に係る３次元テレビ電話システム７００を模式的に示す図である。３次元テレビ電話システム７００は、少なくともふたつの映像処理システム１００が通信回線６００を介して通信可能に接続された映像通信システムである。図１０に示す例では、第１のステレオカメラ２００ａ、第１の映像処理装置３００ａ、および第１の３次元テレビ４００ａを含む第１の映像処理システム１００ａと、第２のステレオカメラ２００ｂ、第２の映像処理装置３００ｂ、および第２の３次元テレビ４００ｂを含む第２の映像処理システム１００ｂとが、インターネット等の通信回線６００を通じて相互に通信可能に接続されている。

　図１１は、実施の形態に係る３次元テレビ電話システム７００の使用例を示す図である。第１のステレオカメラ２００ａは、３次元めがね５００ａを着用した第１のユーザ８００の顔を含む被写体を撮像する。第１のステレオカメラ２００ａが撮像した映像は図１０における第１の映像処理装置３００ａにおいて、例えばめがね除去や撮像位置補正等の様々な拡張現実による演出が施され、通信回線６００を介して第２の３次元テレビ４００ｂに送信される。第２のユーザ９００は、３次元めがね５００ｂを着用して第２の３次元テレビ４００ｂを見ることにより、第１の映像処理装置３００ａから送られた立体映像を鑑賞することができる。

　図１１において、第１のステレオカメラ２００ａが撮像した映像は拡張現実による演出が施されているため、第１のユーザ８００は３次元めがね５００ａを着用していても、第２の３次元テレビ４００ｂに映される第１のユーザ８００の映像においては、３次元めがね５００ａが除去されている。

　同様に、３次元めがね５００ｂを着用している第２のユーザ９００の映像も拡張現実による演出が施された後、第１のユーザ８００の鑑賞する第１の３次元テレビ４００ａに送信される。このように、３次元テレビ電話システム７００を利用することで、ユーザは拡張現実による演出を施した映像でビデオチャットを実行することができる。

　図１２は、実施の形態に係る３次元テレビ電話システム７００において送信する情報の種類に応じた送信頻度を示す図である。実施の形態に係る３次元テレビ電話システム７００においては、送信側で生成した立体映像をＭＶＣ（Multiview Video Coding）等の立体映像の伝送フォーマットに変換した後に送信する。

　前述したとおり、本実施の形態では３次元めがねをランドマークとすることにより、顔の３次元モデルの生成を高精度かつ安定して生成したり、背景画像や表情画像等のレンダリング素材の分離したりすることが可能となる。そこで、本実施の形態では、ユーザの顔の位置、向き、表情画像、表情データ等のリアルタイム性が要求される情報はＭＶＣのフレーム単位にまとめられ、リアルタイムに送信される。一方で、顔の３次元モデルや拡張現実による演出等は、３次元テレビ電話による通信に先立ってあらかじめ送信しておき、フレーム単位での送信は行わない。

　図１２に示すように、リアルタイム性が要求される度合いが高い情報はリアルタイム性が要求される度合いが低い情報よりも高頻度で送信することにより、高品質かつ低ビットレートでの３次元テレビ電話が可能となる。また背景画像は分離されているので、差し替えや送信の際のフレームレートを低くしたり、圧縮率を高めたりすることも可能である。

　以上の構成による動作は以下のとおりである。ユーザは３次元めがね５００を着用して映像処理システム１００を利用する。ステレオカメラ２００は、３次元めがね５００を着用したユーザの顔を含む被写体を撮像する。３次元めがね５００をランドマークとしてユーザの顔領域が検出され、種々の拡張現実による演出が施される。拡張現実による演出が施された映像は３次元テレビ４００に映されたり、通信回線６００を介して他の映像処理システム１００に送信されたりする。

　以上説明したように、実施の形態によれば、３次元めがね５００を立体映像を観察するためのみならず、拡張現実による演出を施す際のランドマークとして利用するという新たな利用分野を提供することができる。

　以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

　上記の説明では３次元めがね５００としてシャッタ方式のめがねを採用する場合について説明したが、３次元めがね５００はシャッタ方式に限らず、例えば偏光を利用した方式のめがねでもよい。この場合、めがねフレームにレンチキュラーマーカや発光ダイオード等を付加すれば、ランドマークとして利用可能となる。特にレンチキュラーマーカは見る角度によって絵柄のパターンが変化する特性があるため、めがねとカメラとの相対角度をパターンの変化に変換することにより、顔の向きや角度を測定することができる点で有利である。また、表情エリア３３４を観察しやすくするために、レンズの下半分のみを覆うアンダーリム方式のめがねフレームを採用してもよい。

　上記の説明では、ユーザを異なる視点から撮像するための第１のカメラ２０２と第２のカメラ２０４とを含むステレオカメラ２００を利用する場合ついて説明したが、撮像装置はステレオカメラに限らず、単眼カメラでもよい。この場合、特徴点検出部３１０が検出した特徴点をそのまま汎用的な顔の３次元モデルにマッピングすることになる。ステレオカメラを用いる場合と比較してマッピングの精度が落ちる可能性もあるが、３次元モデルを用いる拡張現実においては正確性はそれほど重要でないことを考えると、むしろカメラがひとつで済むことによるコスト抑制の点で有利である。

　１００，２００　ステレオカメラ、　２０２　第１のカメラ、　２０４　第２のカメラ、　３００　映像処理装置、　３０６　特定部、　３０８　顔検出部、　３１０　特徴点検出部、　３１２　３次元モデル生成部、　３１４　拡張現実演出部、　３１６　立体映像生成部、　３１８　出力部、　３２０　シャッタ領域特定部、　３２２　フレーム特定部、　３２４　演出制御部、　３２６　背景演出部、　３２８　鏡像生成部、　３３０　撮像位置補正部、　３３２　顔演出部、　４００　３次元テレビ、　６００　通信回線、　７００　３次元テレビ電話システム。

　本発明は、立体映像を観察するためのめがねに利用することができる。

Claims

　３次元空間における被写体を異なる視点から見た場合の第１の視差画像と第２の視差画像とを含む立体映像を観察するためのめがねをかけた人物の顔を含む被写体を撮像する撮像部と、
　前記撮像部が撮像した被写体の映像から前記めがねを特定するめがね特定部と、
　前記めがね特定部が特定しためがねをもとに、前記撮像部が撮像した被写体の映像から人物の顔領域を検出する顔検出部と、
　前記顔検出部が検出した人物の顔領域に仮想的な特徴を付加する拡張現実演出部とを含むことを特徴とする映像処理装置。
　前記めがねは、左右のレンズが交互に時分割で当該レンズを通過する映像を遮蔽するシャッタめがねであり、
　前記めがね特定部は、前記撮像部が撮像した映像から被写体の映像の通過が遮蔽されている領域をレンズの領域として検出することにより、前記シャッタめがねを特定するシャッタ領域特定部をさらに含むことを特徴とする請求項１に記載の映像処理装置。
　前記拡張現実演出部は、前記めがね特定部が特定しためがねを除去し、当該めがねをかけない場合の顔の映像を生成する顔演出部をさらに含むことを特徴とする請求項１または２に記載の映像処理装置。
　前記撮像部は、３次元空間における被写体を異なる視点から見た場合の第１の視差画像と第２の視差画像とをそれぞれ撮像する第１のカメラと第２のカメラとを含むステレオカメラであり、
　前記顔検出部は、前記第１の視差画像と前記第２の視差画像とのそれぞれについて顔領域を検出するものであり、
　前記顔検出部が前記第１の視差画像と前記第２の視差画像とのそれぞれから検出した被写体の顔領域から特徴点を検出する特徴点検出部と、
　前記顔検出部が検出した被写体の顔領域および前記特徴点検出部が前記第１の視差画像と前記第２の視差画像とのそれぞれから検出した特徴点をもとに、前記人物の３次元モデルを生成する３次元モデル生成部と、
　前記３次元モデル生成部が生成した人物の３次元モデルをもとに、当該人物を任意の方向から撮像した場合の映像を生成する撮像位置補正部とをさらに含むことを特徴とする請求項１から３のいずれかに記載の映像処理装置。
　前記拡張現実演出部は、前記３次元モデル生成部が生成した人物の３次元モデルをもとに、当該人物が鏡に映った場合の３次元モデルを生成する鏡像生成部をさらに含み、
　前記鏡像生成部が生成した人物の鏡像モデルをもとに、仮想的な３次元空間における当該人物の３次元モデルを異なる視点から見た場合の第１の視差画像と第２の視差画像とを含む立体映像を生成する立体映像生成部と、
　前記立体映像生成部が生成した立体映像を、当該立体映像を表示するための３次元テレビに出力する出力部とをさらに含むことを特徴とする請求項４に記載の映像処理装置。
　請求項１から５のいずれかに記載の映像処理装置を少なくともふたつ含み、当該映像処理装置が通信回線を通じて相互に通信可能に接続されていることを特徴とする映像通信システム。
　３次元空間における被写体を異なる視点から見た場合の第１の視差画像と第２の視差画像とを含む立体映像を観察するためのめがねをかけた人物の顔を含む被写体を撮像するステップと、
　撮像した被写体の映像から前記めがねを特定するステップと、
　特定しためがねをもとに、撮像した被写体の映像から人物の顔領域を検出するステップと、
　検出した人物の顔領域に仮想的な特徴を付加するステップとをプロセッサに実行させることを特徴とする映像処理方法。
　３次元空間における被写体を異なる視点から見た場合の第１の視差画像と第２の視差画像とを含む立体映像を観察するためのめがねをかけた人物の顔を含む被写体を撮像する機能と、
　撮像した被写体の映像から前記めがねを特定するステップと、
　特定しためがねをもとに、撮像した被写体の映像から人物の顔領域を検出する機能と、
　検出した人物の顔領域に仮想的な特徴を付加する機能とをコンピュータに実現させることを特徴とするプログラム。