WO2011114683A1

WO2011114683A1 - 立体視用画像位置合わせ装置、立体視用画像位置合わせ方法、及びそのプログラム

Info

Publication number: WO2011114683A1
Application number: PCT/JP2011/001455
Authority: WO
Inventors: ボリ; ポンサクラーサン; チンペクオン; シェンメイシェン; 田川　潤一
Original assignee: パナソニック株式会社
Priority date: 2010-03-19
Filing date: 2011-03-14
Publication date: 2011-09-22
Also published as: JP5679978B2; EP2549762A1; EP2549762B1; CN102428707A; US8890934B2; JPWO2011114683A1; EP2549762A4; US20120147139A1; CN102428707B

Abstract

　カメラパラメータに依存せず、単眼式カメラ及び可変ベースラインカメラで撮影した画像対にも適用でき、従来よりも短時間で自動的に立体視のために画像対を位置合わせするために、立体視用画像位置合わせ装置（２００）は、左眼用画像と、左眼用画像に対応する右眼用画像とを含む画像対を取得する画像対取得部（２０５）と、画像対の一方である第１の画像に含まれる第１の点と、他方である第２の画像に含まれる点であり、第１の点に対応する点である第２の点との組である対応点を検出する対応点検出部（２５２）と、第１の点と第２の点との垂直視差が最小となり、かつエピポーラ拘束を満たすように第１の点を変換する射影変換行列を算出する第１行列算出部（２５４）と、射影変換行列を用いて第１の画像を変換する変換部（２６０）と、変換された第１の画像である第３の画像と、第２の画像とを出力する出力部（２１０）とを備える。

Description

立体視用画像位置合わせ装置、立体視用画像位置合わせ方法、及びそのプログラム

　本発明は、複数の画像対から対応点を検出し、それらを一定の基準を満たすように位置合わせする立体視用画像位置合わせ装置等に関し、特に、立体視表示装置において立体視が可能となるように画像対を位置合わせする、立体視用画像位置合わせ装置等に関する。

　立体画像化は、当該技術において長年研究されてきた。立体画像により、視聴者は奥行きを感じて臨場感を得ることができ、家庭向け娯楽産業においては、現在では期待の高い最新の話題になっている。立体画像化の用途は、軍用ナビゲーションから、医療用画像、産業用検査、消費者用電子機器などまで多岐に亘る。立体画像化および表示の原理は、よく知られている。すなわち、画像対を構成する左眼用及び右眼用の各画像が、わずかに異なる視点（通常は、水平方向に位置がずれた視点）から撮影される。左眼用画像を左目に、かつ右眼用画像を右目に別々に表示することにより、人間の脳はそれらを組み合わせて、これらの視差を奥行きと知覚する。

　従来、この画像対は、２つのイメージセンサを有する撮影装置（たとえば、デジタルステレオカメラ）を使用することで得ることができる。撮影した画像対が適切に位置合わせされると、視聴者／観察者が見たときに、快適な３Ｄ感覚を得る。残念ながら、撮影された画像対は、通常、（多くの理由により）適切に位置合わせされていない。たとえば、製造時における２つのイメージセンサ（光学系を含む）の配置は、完璧ではない。さらに、撮影された画像は、レンズの歪みまたはカメラの構造により、歪むことがある。これにより、水平方向および垂直方向に差異が生じる。２つの画像間の垂直方向および水平方向の差異は、一般的には視差として知られている。観察者の視覚的不快感と眼精疲労とを軽減し、立体視の効果を得るには、少なくとも垂直方向の視差を排除しなくてはならず、水平方向の視差を適切に調整する必要がある。

　また、単眼式イメージセンサ装置を用いて異なる視点から連続的に撮影することにより、画像対を撮影することもできる。すなわち、１つの画像を撮影して、カメラを移動して次の画像を撮影することで立体視のための画像対を得ることができる。単眼式センサの装置を用いることの利点は２つある。１つは、二眼式の（ステレオ）センサ装置を用いる場合と比較して低コストであるということである。もう１つの利点は、左画像と右画像との距離を、そのシーン内容により変更できる柔軟性である。しかしながら、この方法による主な課題は、手持ち式のＤＳＣ（Digital still camera；デジタルスチルカメラ）を用いた場合、主に手振れにより左画像と右画像との位置ずれが起こることである。

　特許文献１（米国特許第６，１９１，８０９、２００１年２月２０日に発行）は、たとえば立体電子内視鏡などの立体画像撮影システムの光学的な位置ずれを補正するための方法および装置を開示している。この方法は、較正目標を用いて、変換率、回転率、および縮尺を算出することで較正情報を決定している。そして、この決定された較正情報を用いて画像対の位置合わせを行う。

　特許文献２（特開２００３－２４４５００）は、時系列的に左右の視差画像を撮影して対象物の立体画像を得る撮影システムを開示している。この発明では、ＬＣＤビューファインダを用いて、撮影中に２つの画像の位置合わせを行うようにユーザをガイドしている。

　特許文献３（米国特許第７，１１３，６３２、２００６年９月２６日に発行）は、一対の画像の平行化変換を決定する方法を開示している。

　特許文献４（米国特許第６，６０６，４０４、１９９９年６月１９日に出願）は、３次元の対象物を立体視処理するための射影変換の修正を算出するシステムおよび方法を開示している。この発明の目的は、エピポールが無限遠にマッピングされ、エピポーラ線が水平軸と平行になるように左右の画像を変換することである。この方法により、立体視に適切な画像を出力することができる。

米国特許第６，１９１，８０９号明細書特開２００３－２４４５００号公報米国特許第７，１１３，６３２号明細書米国特許第６，６０６，４０４号明細書

D.Lowe, "Object recognition from local scale-invariant features", International Conference on Computer Vision, 1999 H.Bay, et al., "SURF: Speeded up robust features", European Conference on Computer Vision, 2006 R.Hartley and A.Zisserman, "Multiple View Geometry in Computer Vision", Cambridge University Press、London, 2000 X. Armangue and J. Salvi, "Overall view regarding fundamental matrix estimation", Image and Vision Computing, 2003, Vol.21, p. 205-220 Z.Zhang, "Determining the epipolar geometry and its uncertainty:a review", International Journal of Computer Vision, 1998, Vol.27, p. 161-198

　しかし、特許文献１に開示された方法は、たとえば、衝撃などでカメラの位置が変更された場合には適用できない。また、この方法は、単眼式の装置で撮影された画像対への適用は困難である。また、この方法は可変ベースラインステレオカメラで撮影された画像対への適用も困難である。

　また、特許文献２に開示された方法は、その位置合わせの質と精度は、ユーザの技量に大きく依存する。ユーザによる位置合わせの調整には長時間かかることもあり、不便である。すなわち、この方法は、自動的ではない。

　また、特許文献３に開始された方法は、特に、２つのセンサ間の距離が固定され、左右の画像が同時に撮影されるステレオカメラ用に構成されている方法である。よって、この方法は、単眼式の装置で撮影する画像対への適用は困難である。また、この方法は、可変ベースラインステレオカメラで撮影された画像対への適用も困難である。

　また、特許文献４に開始された方法では、エピポールを無限遠にマッピングし、エピポーラ線を水平軸と平行にするが、しかしながら、立体視には、エピポールを無限遠にマッピングする必要も、エピポーラ線を水平軸と平行にする必要もない。よって、この方法は、立体視のために画像対の位置合わせを行うには必要以上に処理が複雑である。

　そこで本発明は、カメラパラメータに依存せず、単眼式カメラ及び可変ベースラインカメラで撮影した画像対にも適用でき、従来よりも短時間で自動的に立体視のために画像対を位置合わせする、立体視用画像位置合わせ装置等を提供することを目的としている。

　上記課題を解決するために、本発明のある局面に係る立体視用画像位置合わせ装置は、左眼用画像と、前記左眼用画像に対応する右眼用画像とを含む画像対を取得する画像対取得部と、前記画像対の一方である第１の画像に含まれる第１の点と、他方である第２の画像に含まれる点であり、前記第１の点に対応する点である第２の点との組である対応点を検出する対応点検出部と、前記第１の点と前記第２の点との垂直視差が最小となり、かつエピポーラ拘束を満たすように前記第１の点を変換する射影変換行列を算出する第１行列算出部と、前記射影変換行列を用いて前記第１の画像を変換する変換部と、前記変換された第１の画像である第３の画像と、前記第２の画像とを出力する出力部とを備える。

　この構成によると、立体視用画像位置合わせ装置は、画像対に含まれる左右の画像が有する垂直方向の視差をなくすよう、位置合わせをすることができる。一般に、立体視に必要な視差は水平方向の視差であり、垂直方向の視差は、自然な立体視の効果を妨げる。特に、１つのレンズ及びイメージセンサしか備えていない通常のデジタルスチルカメラで２度にわけて左右の画像を撮影し、立体視用画像を作成する場合に、本実施の形態にかかる立体視用画像位置合わせ装置は効果的である。本実施の形態における射影変換行列の算出方法は、計算機で自動化可能であり、カメラパラメータに依存せず、単眼式カメラ及び可変ベースラインカメラで撮影した画像対にも適用できる。また、画像対に含まれる２枚の画像のうち、一方を基準にして、この画像と垂直方向の視差をなくすよう、他方の画像のみを変換するため、従来技術のように２枚の画像に処理を施すよりも、およそ半分の行列計算で済む。したがって、従来よりも短時間で計算を行うことができる。

　具体的には、前記画像対取得部は、２つのイメージセンサと２つのレンズ、１つのイメージセンサと２つのレンズ、または２つのイメージセンサと１つのレンズにより同時に撮影された２つの画像を前記画像対として取得するとしてもよい。

　また、前記画像対取得部は、１つのイメージセンサと１つのレンズを用いて、異なる視点から異なる時間に撮影された２つの画像を前記画像対として取得するとしてもよい。

　また、前記第３の画像の座標系が直交性を有し、かつ、前記第１の画像と同じアスペクト比を有するように前記第３の画像を変換する斜傾変換行列を算出する第２行列算出部と、前記射影変換行列と前記斜傾変換行列とを組み合わせて合成変換行列を生成する行列合成部とをさらに備え、前記変換部は、前記合成変換行列を用いて、前記第１の画像を変換するとしてもよい。

　この構成において、第２行列算出部は、斜傾した第３の画像の座標系が直交性を有し（すなわち、画像面における水平方向の軸と垂直方向の軸が垂直となり）、かつ、第１の画像と同じアスペクト比を有するように、第３の画像を変換する斜傾変換行列を算出する。これにより、取得した画像対を、より精度の高い立体視が可能な画像対を出力することができる。

　また、前記第１の画像及び前記第２の画像に共通する領域である視域を算出する視域算出部をさらに備え、前記第２行列算出部は、前記第３の画像のうち前記視域に含まれる部分の座標系が、直交性を有し、かつ、前記第１の画像のうち前記視域に含まれる部分と同じアスペクト比を有するように前記斜傾変換行列を算出するとしてもよい。

　これによると、視域算出部により立体視の効果を妨げる画像領域を事前に削除することができる。その結果、快適な立体視に有効な画像領域のみを対象に処理を施し、処理時間を短縮すると共に、より快適な立体視が可能な画像対を出力することができる。

　また、前記対応点検出部は、前記画像対に含まれる前記第１の画像及び前記第２の画像の各々の中心から事前に定められた範囲内において、均一に分散された複数の小領域を選択し、当該小領域のなかから前記対応点を検出するとしてもよい。

　これによると、対応点検出部は、対象画像に含まれる領域のうち、より対応点を見つけやすい領域に注目して、対象点を検出することができる。その結果、対応点の検出精度が高まり、より正確な射影変換行列による画像の補正処理が可能となる。

　また、前記画像対においてブレ領域を検出するブレ領域検出部をさらに備え、前記対応点検出部は、前記画像対のうち前記ブレ領域以外の領域から前記対応点を検出するとしてもよい。

　一般に、ブレ領域からの対応点検出は困難である。したがって、この構成により、事前にブレ領域を取り除くことで、対応点検出部による対応点検出の精度を向上させることができる。

　また、前記出力部は、視聴ユーザからの入力操作、表示装置の大きさ、及び、表示装置と視聴ユーザとの距離のうち少なくとも１つを示す調整情報を取得し、前記調整情報に基づいて、前記第３の画像及び前記第２の画像の視差、３Ｄポップアップ、及びディープイン効果のうち少なくとも１つを調整して出力するとしてもよい。

　この構成によると、出力部はその場のコンテキストに基づき、快適性や安全性等の指標を基準に最適な立体視の効果を出力画像に付与することができる。

　また、前記画像対取得部は、（Ａ）複数の画像対の候補である画像対候補を取得し、（Ｂ）前記複数の画像対候補の各々について、他の画像対候補の各々と共通する前記視域である共通視域を特定し、前記共通視域における光量、輝度、色、及び鮮明度のうち少なくとも１つに関する情報である品質情報を取得し、（Ｃ）前記品質情報によって示される画像品質が最もよい前記画像対候補を前記画像対として選択するとしてもよい。

　この構成によれば、画像対取得部は、画像対となるべき画像を大量に取得した場合であっても、その中から、より品質のよい立体視の効果が得られる画像を選択し、画像対とすることができる。

　また、前記画像対取得部は、（１）前記左眼用画像及び右眼用画像を含む画像群が圧縮され、かつメモリカードに記憶されている場合、または、（２）前記画像群が圧縮され、かつ外部装置からネットワークを介して送信されている場合は、圧縮されている前記画像群を復号するとしてもよい。

　この構成によると、画像対取得部は、外部記憶媒体や通信ネットワークを介して取得した画像に対して、より適切な立体視が可能となる修正を施すことが可能となる。

　また、前記対応点検出部は、回転角に対応する情報を出力するジャイロセンサからの出力に一致するように、前記射影変換行列の作成に用いる回転パラメータおよびシフトパラメータを算出するとしてもよい。

　この構成によると、対応点検出部は、関連技術に係る対応点検出アルゴリズムとジャイロセンサによる実測値を併用することで、より高速かつ正確に、対応点を算出することができる。

　なお、本発明は、このような立体視用画像位置合わせ装置として実現できるだけでなく、立体視用画像位置合わせ装置に含まれる特徴的な手段をステップとする立体視用画像位置合わせ方法として実現したり、そのような特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｃ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）等の記録媒体及びインターネット等の伝送媒体を介して流通させることができるのは言うまでもない。

　さらに、本発明は、このような立体視用画像位置合わせ装置の機能の一部又は全てを実現する半導体集積回路（ＬＳＩ）として実現したり、このような立体視用画像位置合わせ装置を含む立体視用画像位置合わせシステムとして実現したりできる。

　カメラパラメータに依存せず、単眼式カメラ及び可変ベースラインカメラで撮影した画像対にも適用でき、従来よりも短時間で自動的に立体視のために画像対を位置合わせする、立体視用画像位置合わせ装置等を提供できる。

　すなわち、本発明は、自動的に処理が可能であるため、特許文献２における先行技術を超える効果を有する。また、本発明は、較正目標に依存しないため、特許文献１における先行技術を超える効果を有する。また、本発明は、単眼式カメラ用に設計されたものであり、可変ベースラインの二眼式カメラで撮影された画像対にも適用できるため、特許文献１および特許文献３における先行技術を超える効果を有する。

　その他の効果を、図５ａ、図５ｂ、および図５ｃを用いて説明する。特許文献４における方法は、図５ａに左画像４０２および右画像４０４として示される、位置合わせ前のカメラ及び画像の向きを、図５ｂに平行化済み左画像４０６および平行化済み右画像４０８として示されるような向きとする位置合わせ（平行化）を実現することを目的としている。ここではエピポールが無限遠にマッピングされ、エピポーラ線が水平軸と平行になっている。一方、本発明は、これを実現することを目的としていない。その代わりに、本発明は図５ｃにおいて示す位置合わせを実現することを目的としている。ここでは、垂直視差が最小限となり、アスペクト比および視域の直交性が保持される（詳細は、実施形態において説明する）。右画像４０４は、右画像４１０によって示されているように、変換（変形）される。本発明は、左画像及び右画像の両方ではなく、いずれか一方の画像変換を行う。したがって、本発明は、特許文献４における先行技術よりも複雑性が低い（処理が簡単である）ため、処理時間を短縮できるという効果を有する。

　本発明における好ましい特徴を、付属図面を参照して図示例を用いて説明する。当該図面は、以下を示す。
図１は、手持ち式の単眼式撮影装置を用いて撮影された立体画像対の位置ずれを示す図である。図２は、本発明の実施の形態１に係る立体視用画像位置合わせ装置の概要を示すブロック図である。図３は、本発明の実施の形態１及び２に係る画像位置合わせモジュールの詳細な機能構成を示すブロック図である。図４ａは、本発明の実施の形態１及び２に係る画像位置合わせモジュールの処理を示すフローチャートである。図４ｂは、本発明の実施の形態１及び２に係るブレ領域操作機能を含む画像位置合わせモジュールの処理を示すフローチャートである。図５ａは、位置合わせを行う前のカメラと画像との方向を示す図である。図５ｂは、先行技術による平行化を行った後のカメラと画像との方向を示す図である。図５ｃは、本発明の実施の形態１及び２に係る立体視用画像位置合わせ装置による位置合わせを行った後のカメラと画像との方向を示す図である。図６ａは、画像対からの視域または重なり合う領域の概念を示す図である。図６ｂは、直交性の概念および射影変換行列による変形を行う前後の視域または重なり合う領域のアスペクト比を示す図である。図７は、本発明の実施形態２に係る撮影装置のブロック図である。図８は、本発明の実施形態１及び２に係る立体視用画像位置合わせ装置等の効果を示した結果の１つである。図９は、３Ｄ処理エンジンとして本発明を用いた適用例である。図１０ａは、正視差で立体表示を行う場合を示す図である。図１０ｂは、ゼロ視差で立体表示を行う場合を示す図である。図１０ｃは、負視差で立体表示を行う場合を示す図である。図１１は、３Ｄ表示ボタンを介して３Ｄ表示内の３Ｄ処理エンジンと通信する、ユーザインタラクションを示す図である。図１２ａは、特徴点の抽出および変形行列を生成するための画像領域選択を示す第１の図である。図１２ｂは、特徴点の抽出および変形行列を生成するための画像領域選択を示す第２の図である。図１３は、本発明の実施の形態１及び２における斜傾変換行列の算出方法の一例を説明する図である。図１４は、本発明の実施の形態１及び２における射影変換行列及び斜傾変換行列による画像変換処理のイメージを示す概念図である。

　図１は、単眼式の（すなわち、１つのレンズと、１つのイメージセンサを備える）撮影装置を用いて画像対を撮影する例を示す。左画像１０２および右画像１０４は、単眼式デジタルカメラ１０６を用いて、異なる視点から連続的に撮影される。左画像１０２の撮影と右画像１０４の撮影間のカメラの移動距離は、距離１０８で示される。たとえば、ユーザがある位置で左画像１０２を撮影した後、手を距離１０８だけ右へ移動させて右画像１０４を撮影することが考えられる。

　この例において、撮影された画像（左画像１０２および右画像１０４）は位置合わせされておらず、カメラの（たとえば、手による）動きによる、変換および回転の影響を含む。なお、距離１０８は、シーンに応じて変動してもよい。たとえば、距離１０８は、対象物が近い場合には短くなり、対象物が遠い場合には、長くなる。この例で撮影された左画像１０２および右画像１０４を、本発明における立体視用画像位置合わせ装置によって適切に位置合わせすることが可能である。

　図２は、本発明の一実施形態に係る立体視用画像位置合わせ装置２００のブロック図である。

　図２に示されるように、本実施の形態に係る立体視用画像位置合わせ装置２００は、画像対取得部２０５と、画像位置合わせモジュール２０８と、出力部２１０と、内部バッファ２１２とを備える。

　画像対取得部２０５は、左眼用画像と、左眼用画像に対応する右眼用画像とを含む画像対を取得する。画像対取得部２０５は、イメージセンサ及びレンズよりなる撮影装置（図示なし）から画像対を取得してもよく、記憶媒体又はネットワーク等を介して、画像対を取得してもよい。

　ここで、画像対取得部２０５が撮影装置から画像対を取得する場合、（１）２つのイメージセンサと２つのレンズ、（２）１つのイメージセンサと２つのレンズ、または、（３）２つのイメージセンサと１つのレンズのいずれかを備えた撮影装置により、同時に撮影された２つの画像を画像対として取得することが考えられる。または、画像対取得部２０５は、１つのイメージセンサと１つのレンズを用いて、異なる視点から異なる時間に撮影された２つの画像を画像対として取得してもよい。

　画像対取得部２０５は、記憶媒体リーダ２０２と、画像デコーダ２０４とを有する。たとえば、ＳＤメモリカードのような記憶媒体から画像対である画像データを取得する場合、記憶媒体リーダ２０２は、記憶媒体から画像データを取得する。画像データＳ２２が符号化されている場合は、必要に応じて、画像デコーダ２０４は、画像データを復号する。なお、画像デコーダ２０４は、たとえばネットワークを介して取得した符号化データを復号してもよい。すなわち、画像対取得部２０５は、（１）左眼用画像及び右眼用画像を含む画像群が圧縮され、かつメモリカードに記憶されている場合、または、（２）画像群が圧縮され、かつ外部装置からネットワークを介して送信されている場合は、圧縮されている画像群を復号してもよい。

　画像位置合わせモジュール２０８は、画像変換を行うことで圧縮されていない画像対Ｓ２３を位置合わせする。位置合わせ処理に伴う中間データは、内部バッファ２１２に記録される。位置合わせされた画像対Ｓ２５は、出力部２１０に送信される。

　出力部２１０は、位置合わせにより変換された画像を含む画像対を出力する。具体的には、出力部２１０は、好ましい出力タイプに応じて出力画像フォーマットを調整する。たとえば、出力部２１０は、表示装置２１４に表示させるため、表示装置２１４が表示可能な表示フォーマットに合致するように画像フォーマットを調整してもよい。このような形式には、眼鏡を使用せずに視聴する裸眼立体装置のための形式、（眼鏡を使用して視聴する）グレー／カラーアナグリフ、インターレース形式、チェッカーボード形式、またはアクティブシャッターメガネを用いて視聴する、フレームシーケンシャル型立体表示装置のための他の形式が含まれてもよい。または、位置合わせされた画像対Ｓ２６を、記憶／送信装置２１６を用いて記憶／送信してもよい。記憶装置の例には、フラッシュベースのメモリカード、ハードドライブ、および光学ドライブが含まれるが、これらに限定されない。送信装置の例には、ＨＤＭＩインターフェース、ＵＳＢインターフェース、ワイヤレスインターフェースおよびｄｉｒｅｃｔ－ｔｏ－ｐｒｉｎｔｅｒインターフェースが含まれるが、これらに限定されない。記憶装置または送信装置で処理されるデータは、任意に可逆または不可逆圧縮されていてもよい。位置合わせされた画像対Ｓ２６は、プリンタ２１８で印刷するために出力することもできる。プリンタ２１８は、印刷される画像上に奥行きの錯覚を構築する、レンチキュラーシートを備えてもよい。記憶／送信装置２１６において記憶された画像は、プリンタ２１８に直接送信されてもよく、または信号Ｓ２７を介して表示装置２１４に送信されてもよい。必要に応じて、表示の幅を含むことができるフィードバック信号Ｓ２９を画像位置合わせモジュール２０８にフィードバックしてもよい。

　立体視用画像位置合わせ装置２００が備える、画像位置合わせモジュール２０８、および他の内部モジュールは、通常、ＩＣ（集積回路）、ＡＳＩＣ（用途限定集積回路）、ＬＳＩ（大規模集積回路）、ＤＳＰ（デジタルシグナルプロセッサ）の形で実現することができ、またはＣＰＵベースのプロセッサおよびＰＣを含む機械により実現される。これらの各モジュールは、複数の単一機能ＬＳＩ内、または１つの集積ＬＳＩ内にも備えることができる。ここで用いた名称はＬＳＩであるが、集積度に応じて、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、またはウルトラＬＳＩとも呼ばれることもある。さらに、集積化を実現する方法としては、ＬＳＩのみではなく、専用回路または汎用プロセッサなども集積化を実現することができる。これには、プログラム命令により制御することができる、ＤＳＰ（デジタルシグナルプロセッサ）など、特化したマイクロプロセッサが含まれる。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（フィールド・プログラマブル・ゲートアレイ）、またはＬＳＩの接続もしくは構成を再構成可能なプロセッサを、同じ用途に用いることができる。将来的には、製造および処理技術が向上し、全く新しい技術がＬＳＩにとって代わるかもしれない。その技術により、集積を行うこともできる。実施の際に、時系列に画像を表示する液晶表示装置またはプラズマ表示装置、レンチキュラーレンズ層が付加された表示装置、または他の種類の表示装置等、立体画像を表示可能な表示装置に立体視用画像位置合わせ装置２００を組み込んでもよい。立体視用画像位置合わせ装置２００は、デジタルビデオディスクプレーヤ、ブルーレイ（登録商標）ディスクプレーヤ、および他の種類のデジタルメディアプレーヤなどのデジタルメディアプレーヤ装置に実装されてもよい。他の種類の装置において立体視用画像位置合わせ装置２００を実装することも可能であり、本願の範囲を限定するものではない。

　図３は、本実施の形態に係る画像位置合わせモジュール２０８の詳細な機能構成を示すブロック図である。

　図３に示されるように、画像位置合わせモジュール２０８は、対応点検出部２５２と、第１行列算出部２５４と、第２行列算出部２５６と、行列合成部２５８と、変換部２６０と、ブレ領域検出部２２０と、視域算出部２６２とを備える。

　対応点検出部２５２は、画像対取得部２０５が取得した画像対の一方である第１の画像に含まれる第１の点と、他方である第２の画像に含まれる点であり、第１の点に対応する点である第２の点との組である対応点を検出する。

　ブレ領域検出部２２０は、画像対においてブレ領域を検出する。ブレ領域の検出方法は、任意のものを使用できる。たとえば、画像を複数のブロックに分割し、ブロックごとに、一方向に並んだ複数の画素の濃度変化が閾値以上である部分の割合を検出することで、ブレがあるブロックを特定するブレ領域検出方法等を利用してもよい。

　ブレ領域検出部２２０によりブレ領域が検出された場合、対応点検出部２５２は、画像対のうちブレ領域として特定された領域以外の領域から対応点を検出することが好ましい。

　第１行列算出部２５４は、第１の点と第２の点との垂直視差が最小となり、かつエピポーラ拘束を満たすように第１の点を変換する射影変換行列を算出する。なお、垂直視差とは、垂直位置値の差である。詳細については、後述する。

　第２行列算出部２５６は、第１行列算出部２５４が算出した射影変換行列により変換された第１の画像である第３の画像の座標系が、直交性を有し、かつ、第１の画像と同じアスペクト比を有するように、第３の画像を再度、変換する斜傾変換行列を算出する。より詳細には、後述する。

　視域算出部２６２は、第１の画像及び第２の画像に共通する領域である視域を算出する。なお、視域が算出された場合、第２行列算出部２５６は、第３の画像すべてではなく、第３の画像のうち、視域に含まれる部分が直交性を有し、かつ、第１の画像のうち視域に含まれる部分と同じアスペクト比を有するように斜傾変換行列を算出することが好ましい。なお、視域の詳細については後述する。

　行列合成部２５８は、射影変換行列と斜傾変換行列とを組み合わせて合成変換行列を生成する。

　最後に、変換部２６０は、合成変換行列を用いて、第１の画像を変換する。

　こうして画像位置合わせモジュール２０８によって変換された、第３の画像と、第２の画像とを含む画像対は、出力部２１０から補正後の画像対として出力される。

　以上、図３を参照して画像位置合わせモジュール２０８の構成について説明した。

　次に、画像位置合わせモジュール２０８が備える各処理部の処理内容について、より詳細に説明する。

　図４ａは、本実施形態に係る画像位置合わせモジュール２０８の動作を示すフロー図である。ステップＳ３０２では、画像対取得部２０５が画像対を取得することで、立体視用画像位置合わせ装置２００へ画像対が入力される。ステップＳ３０４では、対応点検出部２５２により、画像対の対応点が検出される。

　なお、画像対に含まれる２つの画像が撮影されたときに、ジャイロセンサのようなセンサを用いて２つの撮影位置の間の回転量を導き出す場合には、処理時間を短縮するためにステップＳ３０４を省くことができる。すなわち、対応点検出部２５２は、回転角に対応する情報を出力するジャイロセンサからの出力に一致するように、第１行列算出部２５４が射影変換行列の作成に用いる回転パラメータおよびシフトパラメータを算出することで、行列算出のための処理時間を短縮し、精度を向上させることができる。

　ステップＳ３０６において、第１行列算出部２５４は、対応点を用いて基礎行列（Ｆｕｎｄａｍｅｎｔａｌ　Ｍａｔｒｉｘ；Ｆ行列）を算出する。ステップＳ３０８において、第１行列算出部２５４は、対応点を用いて射影変換行列を算出する。これは、対応点の垂直視差が最小となり、かつエピポーラ拘束が満たされるように画像の一方を変形するための行列を見つけることを目的としている。

　ステップＳ３１０において、第２行列算出部２５６は、変形された画像の視域が直交性を保ち、変形前の視域と同じアスペクト比を有するように斜傾変換行列を算出する。視域は、立体視のために用いられる、切り出し領域であり、両画像に共通する領域を含む。左右の画像の重なり合う領域である共通領域内の対応点のみが、斜傾変換行列の算出に役立ち、それ以外の領域を使用した場合は最終的に得られる３Ｄ画像の品質が保証されない。

　ステップＳ３１２において、行列合成部２５８は、射影変換行列および斜傾変換行列を合成する。次にステップＳ３１４において、合成された変換行列（合成変換行列）に応じて画像対のうち一方の画像が変換される。最後に、ステップＳ３１６において、出力部２１０から位置合わせされた立体画像対が出力される。

　図４ｂは、ブレ領域検出ステップＳ３１７（ｂ）、ブレ領域補償ステップＳ３１８（ｂ）、視差調整ステップＳ３１９（ｂ）、およびユーザフィードバックステップＳ３２０（ｂ）を含む別のフロー図である。

　ステップＳ３０２（ｂ）における入力画像対は、対応点検出のためにステップＳ３０４（ｂ）に移る。ここではある一定の領域のみが対応点検出の対象とされる。具体的には、中央領域は、２つの画像の共通または重なり合う領域を好適に表すために、対応点検出の対象領域として中央領域を用いることが好ましい。また、ブレ領域検出ステップＳ３１７（ｂ）からの結果を用いることによって対応点検出の対象領域からブレ領域を避けてもよい。複雑性を低減させるため、または特徴点抽出を迅速化するために中央周辺の均等に分布された領域のみを対応点検出の対象領域として選択してもよい。すなわち、対応点検出部２５２は、画像対に含まれる第１の画像及び第２の画像の各々の中心から事前に定められた範囲内において、均一に分散された複数の小領域を選択し、当該小領域のなかから対応点を検出してもよい。図１２ａ及び図１２ｂは、そのような構成の１つを示しており、その説明は本実施の形態の後半部分において行う。

　ステップＳ３０６（ｂ）、ステップＳ３０８（ｂ）、およびステップＳ３１０（ｂ）において、選択されたこれらの候補点のみを用いて、ブレ領域におけるあらゆる点を除外することにより、第１行列算出部２５４及び第２行列算出部２５６は、変換行列を生成する。

　ステップＳ３１８（ｂ）において、１つのフレーム内のブレ領域またはブレ対象物が、他のフレーム内の同じブレ領域またはステップ対象物を参照することにより補償またはシフトバックされる。そして、得られた画像は、ステップＳ３１４（ｂ）において変形処理が施される。

　ステップＳ３１９（ｂ）において、出力部２１０は、ポップアップ効果（画像が飛び出る向きの効果）またはディープイン効果（画像が沈み込む向きの効果）のような視差または３Ｄ効果を、ステップＳ３２０（ｂ）からのフィードバックでベースラインまたは他のパラメータを変更することによって調整することができる。そのフィードバックは、たとえば３Ｄ表示ボタン（図１１に示す）を押すことによるユーザインタラクションによりステップＳ３１９（ｂ）にフィードバックが行われるか、または測距センサもしくは２カメラシステムなどによって、視聴距離を自動的に検出することでステップＳ３１９（ｂ）にフィードバックが行われる。たとえば、ユーザとの距離が近いほど、３Ｄ効果を弱めるように出力部２１０が画像対に対して画像処理を施した後、出力してもよい。

　また、図１１において、ユーザフィードバックは、３Ｄ表示ボタンを押すことで行うことができ、フィードバック信号は、図１１に示す３Ｄ処理エンジンに送信される。たとえば、ユーザの可視距離およびユーザの目の許容範囲に応じて、「３Ｄ視差」上／下ボタンを押すことにより、さらに奥行きが深くまたは浅くなり、または「ポップアップ」もしくは「ディープイン」というボタンを押すことでコンテンツの３Ｄ効果を調整する。

　また、出力部２１０は表示装置の大きさを取得し、表示装置が大きいほど、より３Ｄ効果を弱めるように画像対に対して画像処理を施した後、出力してもよい。

　すなわち、出力部２１０は、視聴ユーザからの入力操作、表示装置の大きさ、及び、表示装置と視聴ユーザとの距離のうち少なくとも１つを示す調整情報を取得し、調整情報に基づいて、第３の画像及び第２の画像の視差、３Ｄポップアップ、及びディープイン効果のうち少なくとも１つを調整して出力する。

　なお、３Ｄポップアップ及びディープイン効果等の３Ｄ効果を調整する際は、具体的には、出力部２１０は、画像対に含まれる左右画像の視差を調整する。たとえば、出力部２１０は、左眼用画像を基準にして、右眼用画像が左眼用画像よりも左側に配置される交差視差では、その交差視差を大きくするほど（すなわち、右眼用画像が左眼用画像よりも、より左側に配置されるほど）、３Ｄポップアップ効果を強めることができる。また、左眼用画像を基準にして、右眼用画像が左眼用画像よりも右側に配置される非交差視差では、その非交差視差を大きくするほど（すなわち、右眼用画像が左眼用画像よりも、より右側に配置されるほど）、ディープイン効果を強めることができる。

　なお、図１２ａを参照し、対応点検出部２５２は、図１２ａに示されるように、画像１１００を５つのサブブロックである、Ｂ１、Ｂ２、Ｂ３、Ｂ４、およびＢ５に分割してもよい。これらのブロック（または一部のブロック）は、特徴の検出、記述子の算出、および対応点の決定に用いてもよい。この場合、画像全体の処理は必要ない。これにより、システムの演算時間が迅速化される。さらに、これらのブロックは、変換行列の精度の向上、および望ましい対応点の選択の迅速化に役立つ。また、均質なブロックの場合は、通常、有益な特徴が存在しない。したがって、均質なブロックは除外すべきである。図１２（ｂ）のブロックＢ１を例に考えると、Ｂ１が均質なブロックである場合、Ｂ１の周囲の非均質なブロック（たとえば、Ｂ１’が非均質なブロックであればＢ１’）が選択される。これは、選択されたブロックがすべて有益な特徴を含むようにするためである。上記の前提で、画像領域選択の他の方式を用いてもよい。

　ここで、ブロックが均質であるとは、当該ブロックに含まれる画像情報の分散が小さいことを意味する。たとえば、（１）ブロック内で隣接する画素の画素値が、事前に定められた閾値以上変化する画素（いわゆるエッジ部分）の数が事前に定められた閾値より小さい場合、又は、（２）ブロックごとの空間周波数の中央値又は平均値が事前に定められた閾値より小さい場合に、当該ブロックは均質であると判断し、その他のブロックは非均質であると判断してもよい。

　対応点検出部２５２は、従来技術における任意の対応点検出方法を、対応点の検出に用いることができる。例えば、画像対の各々の画像を同一サイズの所定のブロックに分割し、各ブロックに含まれるエッジ間を抽出する。その後、エッジごとに類似度（例えば最小二乗和、尤度、ＡＩＣ等）を算出し、最も類似するエッジに含まれる点を対応点として検出することなどが考えられる。より詳細には、既知の方法の例が、D.Loweの"International Conference on Computer Vision"(1999)における"Object recognition from local scale-invariant features"（非特許文献１）、およびH.Bayらの"European Conference on Computer Vision"(2006)における"SURF:Speeded up robust features"（非特許文献２）に開示されている。なお、対応点検出部２５２は、対応点検出の他の方法を用いてもよく、これは本発明の範囲および精神に影響するものではない。

　次に、ステップＳ３０６において、第１行列算出部２５４は検出された対応点を用いて基礎行列Ｆを算出する。以下簡単に基礎行列Ｆの求め方を説明する。

　基礎行列Ｆは、ランク２の３×３の行列であり、第１の画像に含まれる点を、第２の画像に含まれるエピポーラ線へと変換する行列である。すなわち、第１の画像に含まれる点ｒを基礎行列Ｆで変換したＦｒは、第２の画像におけるエピポーラ線となる。ここから明らかなように、基礎行列Ｆは、ｌ^ΤＦｒ＝０となる性質を有する。なお、ｌは、第２の画像における、ｒの対応点である。

　ここで、ｌ、Ｆ、ｒをそれぞれ以下の数式１で表すとする。

　さらに、ベクトルｕ＝（ｆ_１１、ｆ_１２、ｆ_１３、ｆ_２１、ｆ_２２、ｆ_２３、ｆ_３１、ｆ_３２、ｆ_３３）^Ｔとし、ベクトルξ＝（ｌ_ｘｒ_ｘ、ｌ_ｘｒ_ｙ、ｌ_ｘ、ｌ_ｙｒ_ｘ、ｌ_ｙｒ_ｙ、ｌ_ｙ、ｒ_ｘ、ｒ_ｙ、１）^Ｔとすると、ｌ^ΤＦｒ＝０より、ｕ・ξ＝０となる。

　したがって、対応点検出部２５２で検出された、複数の対応点（実際にはこれらは、誤差を含む）で生成される９次元ベクトルデータ｛ξ_α｝から、内積が０になるという制約条件のもとで、９次元ベクトルｕを推定すればよい。この解法は様々なものが知られているが、例えば最尤推定法により、尤度が最大になるように数値計算的にｕを決定する等の方法で基礎行列Ｆを求めることができる。より詳細には、たとえば、R.Hartley and A.Zisserman、Multiple View Geometry in Computer Vision、Cambridge University Press、London、2000（非特許文献３）、X. Armangue and J. Salvi、"Overall view regarding fundamental matrix estimation"、 Image and Vision Computing、Vol.21、2003、205-220頁（非特許文献４）、およびZ.Zhang、"Determining the epipolar geometry and its uncertainty:a review"、"International Journal of Computer Vision"、Vol.27、1998、161-198頁（非特許文献５）に記載の方法を用いることができる。

　次に、ステップＳ３０８における射影変換行列の演算に関する詳細をここに開示する。第２行列算出部２５６は、画像対のうち一方の画像を変形するための射影変換行列を算出する。どちらの画像を選択してもよい。本実施形態において、右眼用画像を変形の対象として選択する。しかしながら、左眼用画像が選択されたとしても、本発明の範囲または精神に影響することはない。一定の基準に基づき、変形のために左眼用画像または右眼用画像を選択する順応的アルゴリズムがあってもよい。その基準は、たとえば、左眼用画像もしくは右眼用画像のどちらがより水平であるか、左眼用画像もしくは右眼用画像のどちらがより鮮明であるか、または、左眼用画像もしくは右眼用画像のどちらが興味の対象を含んでいるかなどである。

　本発明は、エピポーラ幾何対応の射影変換、すなわち、基礎行列に一致または適合する射影変換を用いている(非特許文献３を参照)。これは、通常の射影変換の自由度が８ではなく、３に制限され、以下の数式２によって表される。

　数式２において、Ｈは、右画像を変換するための３×３の射影変換行列（いわゆるホモグラフィ；Ｈｏｍｏｇｒａｐｈｙ）である。すなわち、第１の画像に含まれる点をｒ、第２の画像に含まれる点をｌとすると、ｌ＝Ｈｒとなるようにｒの座標を変換する行列である。

　また、Ｆは、ステップＳ３０６において算出された３×３の基礎行列Ｆである。

　また、ｅ’は、右画像のエピポールの３×１同次座標である。これは、基礎行列Ｆから導き出すことができる。具体的には、エピポールｅ’は、基礎行列ＦによりＦ^Ｔｅ’＝０となる性質を有するので、エピポールｅ’は、行列ＦＦ^Ｔの最小の固有値に対応する固有ベクトルとして求められる。

　また、［ａ］_ｘｂは、外積であり、ａ×ｂを意味する。

　また、ｖ^Ｔは、自由度３のパラメータを含む、１×３ベクトルである。

　本実施の形態に係る第１行列算出部２５４は、対応点間の垂直視差が最小化されるように、ｖ^Ｔによってパラメータ化されたＨを求める。すなわち、次の数式３を満たすｖを求める。ここで、Ｘ_Ｌは、左画像における対応点のリストであり、Ｘ_Ｒが右画像における対応点のリストであるとする。数式３を以下に示す。

　ここで、y_component_of (X) は、点Ｘの垂直座標成分を意味する。

　したがって、第１行列算出部２５４は、複数の対応点（Ｘ_Ｌ及びＸ_Ｒ）から、数値計算的にパラメータｖ^Ｔを決定することができる。例えば、最小二乗法により、数式３を最小化するｖを決定することが可能である。なお、Ｈを求める他の方法としては、各対応点の対のＨを求め、その平均を求める方法もある。

　次に、ステップＳ３１０における斜傾変換行列を算出する方法の詳細をここに開示する。ステップＳ３０８において算出された射影変換行列は、ｘ方向における視差を拘束しない。したがって、Ｈによって射影変換された画像は傾斜することもあるため、斜傾変換を行うことにより画像の傾斜をなおす必要がある。傾斜量を算出するために、本発明はアスペクト比と視域の直交性を復元する。「視域」、「アスペクト比」、および「直交性」という用語を、図６ａおよび図６ｂを用いて説明する。

　図６ａは、左眼用画像５０２および右眼用画像５０４を示す。内側の矩形５０６、５０８は、両画像に共通する領域の外形を示している。内側の矩形５０６、５０８より外側の領域は、どちらか一方の画像のみに現れる。立体視において、これらの領域は不快である。なぜなら、これらの領域は１つの目のみで見ているため、人間の脳は、奥行きを知覚するための視差情報を抽出することができないからである。この内側の共通領域である矩形５０６、５０８を、視域と呼ぶ。図６ｂは、左右いずれかの画像の、変形前画像５１０および変形後画像５１２を示す。変形前視域５１４は、一定のアスペクト比を有しており、このアスペクト比は、点５１８および点５２２間の距離と、点５２０および点５２４間の距離との比により決定することができる。角５２６も直角である。変形後視域５１６も同様に、アスペクト比は変形点５２８、５３０、５３２、５３４により決定され、異なるアスペクト比を有してもよい。角５４０は、直角でなくてもよい。シアー変換行列は、直交性およびアスペクト比を復元させるために算出される。

　以下、第２行列算出部２５６が算出する斜傾変換行列であるシアー変換行列の算出方法について、より具体的に説明する。

　数式４に、シアー変換行列の一般形を示す。

　図１３を参照して、数式４で表される行列Ｓは、第１行列算出部２５４で算出された行列Ｈにより右眼用画像３５０を変換した結果である右眼用画像３５２の斜傾を元にもどし、座標軸が直交した右眼用画像３５４を得るための行列である。

　ここで、右眼用画像３５０、右眼用画像３５２、及び右眼用画像３５４において、それぞれ対応する点は、以下のとおりである。すなわち、右眼用画像３５０の点ａは、右眼用画像３５２の点ａ’に対応し、右眼用画像３５２の点ａ’は、右眼用画像３５４の点ａ’’に対応する。

　以下同様に、ｂ、ｂ’、及びｂ’’が対応し、ｃ、ｃ’、及びｃ’’が対応し、ｄ、ｄ’、及びｄ’’が対応する。

　さらに、定義よりａ’＝Ｈａ、ｂ’＝Ｈｂ、ｃ’＝Ｈｃ、ｄ’＝Ｈｄであり、ａ’’＝ＳＨａ、ｂ’’＝ＳＨｂ、ｃ’’＝ＳＨｃ、ｄ’’＝ＳＨｄである。

　また、前述のとおり、右眼用画像３５４内の線分ａ’’ｃ’’３５５と、線分ｂ’’ｄ’’３５６は直交する。さらに、右眼用画像３５０と右眼用画像３５２のアスペクト比が一致することから、線分ａ’’ｃ’’３５５の長さと、線分ｂ’’ｄ’’３５６の長さの比は、線分ａｃの長さｈ_０と、線分ｂｄの長さｗ_０の比に一致する。

　以上から、第２行列算出部２５６は、以下の数式５で示される２つの制約条件をともに満たすように、斜傾変換行列Ｓに含まれる変数ｓ１及びｓ２を算出する。

　次に、視域を算出する方法の１つを説明する。まず、左眼用画像における複数の対応点の重心を算出する。次に、右眼用画像における対応点を変換し、変換された複数の対応点の重心を算出する。その結果、これらの重心の差が算出される。重心の差の垂直方向の成分は、図６ａの垂直差５３６に対応する。また、重心の差の水平方向の成分は、図６ａの水平差５３８に対応する。よって、視域の寸法は、元の画像サイズおよび重心の差から導き出すことができる。この方法によって、完璧な視域を求められないことがある。すなわち、算出された視域と、実際の視域との間に差異が生じる可能性がある。しかしながら、この方法で十分満足な結果が得られる。

　射影変換行列およびシアー変換行列は、対応点を用いて算出される。画像そのものは、変形されていない。別々の２つの変換処理ではなく、１つの変換処理を行う前に、射影変換とシアー変換行列とを組み合わせることが好ましい。

　以上説明した、ステップＳ３０８～ステップＳ３１４における処理の効果を、図１４を参照して、再度、説明する。

　図１４は、射影変換行列Ｈ及び斜傾変換行列Ｓによる画像変換処理のイメージを示す概念図である。

　図１４に示される画像のうち、左眼用画像面に含まれる視域３６２と、右眼用画像面に含まれる視域３６４ａが、本実施の形態に係る画像対取得部２０５が取得した画像対に含まれる左右２つの画像の視域とする。なお、視域３６２に含まれる点３７２と、視域３６４ａに含まれる点３７８は、点３７０を左焦点ｃ’及び右焦点ｃからそれぞれ見たときに、左眼用画像面及び右眼用画像面にそれぞれ写される点である。すなわち、点３７２と、点３７８は対応点である。

　ここで、点３７２と、点３７８の垂直位置は大きく異なっている。同様に、他の対応点の垂直位置も大きく異なっている。

　視域３６４ｂは、視域３６４ａを射影変換行列Ｈにより変換した画像である。この変換により、視域３６２と、視域３６４ｂの対応点の垂直位置は一致する。例えば、点３７２と、その対応点である点３７６の垂直位置は一致している。

　しかし、図１４に示されるように、視域３６２と視域３６４ｂとを比較すると、視域３６４ｂは座標軸が直交せず、傾斜している。

　この視域３６４ｂを斜傾変換行列Ｓにより変換した画像が、視域３６４ｃである。視域３６４ｃは、視域３６２と対応点（点３７２及び点３７４）の垂直位置が一致し、かつ、視域内の座標の直交性が保たれた画像となる。

　なお、行列Ｈと行列Ｓを合成した行列Ｈ_Ｓ（＝ＳＨ）を算出することにより、視域３６４ａから直接に視域３６４ｃへと変換できる。

　図３との対応を示すと、第１行列算出部２５４は、射影変換行列Ｈを算出する。第２行列算出部２５６は、斜傾変換行列Ｓを算出する。行列合成部２５８は、行列Ｈ_Ｓを算出する。変換部２６０は、行列Ｈ_Ｓによる変換を取得画像対の一方に含まれる視域（例えば、視域３６４ａ）に施す。

　次に、図７を参照して、本発明の実施の形態２について説明する。実施の形態２では、画像位置合わせモジュール２０８を撮影装置に組み込んだ実施形態について説明する。なお、図７における画像位置合わせモジュール１２４６は、立体視用画像位置合わせモジュール２００と同様の構成を有する。

　図７は、本発明の他の実施形態による撮影装置１２００の概略ブロック図を示す。撮影装置１２００は、光学系１２０２と、イメージセンサ１２０４と、ＡＤＣ（アナログ－デジタル変換器）１２０６と、イメージプロセッサ１２０８と、マイクロコンピュータ１２１０と、外部メモリ１２１２と、ドライバコントローラ１２２０と、ＯＩＳ（光学式手振れ防止機構）センサ１２１８と、操作部１２２２と、記憶／送信装置１２１６と、表示装置１２１４とを備える。イメージプロセッサ１２０８は、内部メモリ１２４０と、画像位置合わせモジュール１２４６と、原画像プロセッサ１２４２と、カラー画像プロセッサ１２４４とを備える。マイク、スピーカなどの他の構成要素は図示されていないが、これは本発明の範囲および精神を限定するものではない。

　光学系１２０２は、イメージセンサ１２０４に到達する光信号を制御するために、複数のレンズまたはレンズの集合、ズーム／フォーカス機構、アクチュエータ、シャッター、開口部などの構成要素を備えてもよい。イメージセンサ１２０４は、マイクロコンピュータ１２１０の制御によって入射光信号を蓄積してその光信号を電気信号に変換する。電気信号は、ＡＤＣ１２０６によりデジタルデータ（原画像データ）に変換され、内部メモリ１２４０または外部メモリ１２１２に記憶される。原画像データは、左右の画像が異なる視点から連続的に撮影された立体画像対を含んでもよい。原画像プロセッサ１２４２は、原画像データを内部メモリ１２４０（または外部メモリ１２１２）から取得し、ノイズ低減、リニア補正、ホワイトバランス、ガンマ補正等、多くの前処理（図示せず）を行ってから、前処理された原画像を出力してもよい。この前処理された原画像を、記憶／送信装置１２１６により記憶または送信することができる。前処理された原画像を、カラー画像プロセッサ１２４４で処理することで、ＲＧＢまたはＹＣｂＣｒ等のカラー画像を生成することもできる。カラー画像プロセッサ１２４４は、好適なカラー画像を生成するために、色補間、色補正、色調範囲の調整、色ノイズの低減等を含んでもよい。画像位置合わせモジュール１２４６は、立体画像対のカラー画像を取り込み、位置合わせする。出力される位置合わせ済み立体画像対は、３Ｄ視用の立体画像を表示可能なレンチキュラーレンズ層が付着された液晶モニタ等の表示装置１２１４により、表示することができる。上記画像は、２Ｄで表示することもできる。出力される位置合わせ済み立体画像対は、記憶／送信装置に記憶することもできる。前処理された原画像および出力画像は、記憶／送信装置１２１６により記憶／送信される前に、圧縮部（図示せず）により圧縮されてもよい。記憶装置の例には、フラッシュベースのメモリカード、ハードドライブ、および光学ドライブが含まれるが、これらに限定されない。送信装置の例には、ＨＤＭＩインターフェース、ＵＳＢインターフェース、ワイヤレスインターフェースおよびｄｉｒｅｃｔ－ｔｏ－ｐｒｉｎｔｅｒインターフェースが含まれるが、これらに限定されない。記憶装置または送信装置で処理されるデータは、任意に可逆または不可逆圧縮されていてもよい。

　光学系１２０２は、ドライバコントローラ１２２０により制御されてもよい。ドライバコントローラ１２２０は、マイクロコンピュータ１２１０により制御される。操作部１２２２は、ユーザ操作入力を受信し、その電気信号をマイクロプロセッサ１２１０に送信することで、ユーザの入力に対応して関連するモジュール、たとえば、ドライバコントローラ１２２０、イメージセンサ１２０４、イメージプロセッサ１２０８等を制御することができる。ＯＩＳセンサ１２１８は、手振れまたはカメラの動きによる揺れを検出し、その電気信号をマイクロコンピュータ１２１０に送信する。マイクロコンピュータ１２１０は、ドライバコントローラ１２２０を制御して、揺れを補償するようレンズを動かすために光学系１２０２におけるアクチュエータ等を制御するので、手振れまたはカメラの動きに起因するブレを低減させる。

　画像位置合わせモジュール１２４６の詳細については、前述の実施形態を参照することができる。一定の基準において快適な視聴をもたらす、よりよい３Ｄ効果を与える画像対を選択しやすくするために、画像位置合わせモジュール１２４６の処理を行う前に、画像対選択モジュール１２５１による処理を行ってもよい。

　画像撮影が異なる時間に行われた場合、３Ｄで視聴する際、被写体のブレ領域検出および補償モジュール１２５０を適用して被写体のモーションブラーを除去することがよいであろう。

　画像処理１２０８、画像位置合わせモジュール１２４６、およびその内部のモジュールは、通常、ＩＣ（集積回路）、ＡＳＩＣ（特定用途集積回路）、またはＬＳＩ（大規模集積回路）の形で実現される。これらの各モジュールは、複数の単一機能ＬＳＩ内、または１つの集積ＬＳＩ内にも備えることができる。ここで用いた名称はＬＳＩであるが、集積度に応じて、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、またはウルトラＬＳＩとも呼ばれることもある。さらに、集積化を達成する方法は、ＬＳＩのみではなく、専用回路または汎用プロセッサなども集積化を達成することができる。これには、プログラム命令により制御することができる、ＤＳＰ（デジタルシグナルプロセッサ）など、特化したマイクロプロセッサが含まれる。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（フィールド・プログラマブル・ゲートアレイ）、またはＬＳＩの接続または構成を再構成可能なプロセッサを、同じ用途に用いることができる。将来的には、製造および処理技術が向上し、全く新しい技術がＬＳＩにとって代わるかもしれない。その技術により、集積を行うこともできる。

　図８は、本発明の実施の形態１に係る立体視用画像位置合わせ装置２００の効果を図示した画像結果の例である。得られた画像１３ＬＲは、画像の位置合わせを行う前の立体画像対の左眼用画像および右眼用画像間のオーバーレイ画像を示す。さらに、これらの画像間の対応（ズレ）を示す差分線（たとえば、Ｌ１３０２）が、オーバーレイ画像に重畳されて示されている。得られた画像１３ＬＲから、差分線は手振れのため垂直方向および水平方向のどちらにおいても長く伸びており、位置合わせされていないことがわかる。得られた画像１３ＬＲの立体画像対が３Ｄ視用に表示される場合、表示された画像により、視聴者は眼精疲労および視覚的不快感を覚える可能性がある。

　得られた画像１４ＬＲは、本発明による画像位置合わせを行った後の立体画像対の左画像と右画像とのオーバーレイ画像を示す。得られた画像１４ＬＲから、差分線（Ｌ１３０４）は、好適に位置合わせされている（画像対が好適に位置合わせされている）ことがわかる。また、線Ｌ１３０６は、切り出し領域を示す。この位置合わせされた立体画像対を表示すると、非常に快適な３Ｄ視を生成することができる。したがって、本発明の効果は図８により実証される。

　なお、実施の形態１に係る立体視用画像位置合わせ装置２００をマルチショットモードで動作する画像撮影装置において用いてもよい。このようなモードにおいては、ユーザがボタンを押した際、複数の画像が自動的に撮影される。マルチショット撮影中にユーザがカメラを動かすと、異なる視点から同じシーンの画像が複数撮影される。画像対は、複数の画像から選択することができる。選択の基準は、対応点に基づくことができる。画像位置合わせモジュールに入力するために、十分な数の対応点を有する画像対を選択することが好ましい。対応点を検出する方法は、前述の実施形態１において開示されている。各撮影間の時間間隔は、タイマーによって設定することができる。各撮影は、撮影装置を動かすことにより開始することもできる。このような動きを判定するために、ジャイロセンサまたは加速度センサを用いることができる。視差が立体視に十分となるように、撮影装置が所定の距離を移動した際に、撮影を開始させることが好ましい。

　また、１つの撮影シーンの中で対象物が異なる奥行きを有することもある。対象物が近い場合は、装置を動かす距離は短くなり、対象物が遠い場合には、装置を動かす距離は長くなる。この距離は、対象物の奥行きに応じて適応的に算出することができる。奥行きを求める方法の１つとして、合焦位置により求められるものがある。

　また、現在の画像を隣接する画像のうち１つと対にして画像対を作成するビデオ撮影装置において、実施の形態１に係る立体視用画像位置合わせ装置２００を用いることができる。よって、通常の２Ｄ映像から立体映像を生成することができる。

　図９において、可能性のある用途を示している。通常のカメラまたは携帯電話が２以上の画像の撮影に用いられ、ＳＤカードまたは他のメモリカードに記憶される。３Ｄ画像の位置合わせは、カメラまたは携帯電話の内部において行うことができる。また、３Ｄ画像の位置合わせは、３Ｄ画像位置合わせモジュール２０８をプレーヤまたはディスプレイのハードウェアに組み込むことで、任意のプレーヤまたはディスプレイにおいて行うことができる。３Ｄ画像の位置合わせは、３Ｄディスプレイに表示する前に、ＰＣまたはサーバによって行うことも可能である。

　前述のように、図２におけるフィードバック信号Ｓ２９は、視聴者からディスプレイまでの視聴距離となることもある。フィードバック信号は、自動的にまたはユーザインタラクションを介して得ることができる。このフィードバックを得ることにより、画像位置合わせモジュール２０８は、画像変形または変換の途中または処理後に、左右の画像のベースラインを調整することができる。

　画像位置合わせモジュール２０８と表示画面上の外部ボタンとの間のＡＰＩ（アプリケーションインターフェース）は、表示のコントラストまたは明るさを調整するボタンのように作られる。この外部ボタンを介して、ユーザは視覚的な快適さおよび３Ｄ効果を調整することができ、ユーザの要求を画像位置合わせモジュール２０８に送信することができる。

　上記の構成を他の３Ｄ表示装置に適用して、３Ｄ処理モジュールおよびユーザ間のユーザインターフェースを作成することが可能である。

　異なる３Ｄ効果の詳細な説明を、図１０ａ、図１０ｂおよび図１０ｃに示す。図１０ａにおいて、正視差を示す。左眼用画像である左対象物９Ｌが、表示画面９００の左側に表示され、右眼用画像である右対象物９Ｒが、表示画面９００の右側に表示される。この場合、観察者は、対象物ＰＯが表示画面の後ろにあるように知覚する。水平視差は、たとえば原点を表示画面の左下端にとった場合、ｄ_ｘ＝ｘ_Ｒ－ｘ_Ｌ＞０となる。なお、式中ｘ_Ｒは、右目画像の画面上の位置であり、ｘ_Ｌは、左眼用画像の画面上の位置である。知覚された対象物の奥行きは、ｄ_ｘによって制御することができる。ｄ_ｘが大きくなるほど、知覚される奥行きが大きくなり、一方ｄ_ｘが小さくなるほど、知覚される奥行きが小さくなる。図１０ｂにおいて、ゼロ視差を示す。左対象物９Ｌと、右対象物９Ｒとが重なり合って、表示画面９００に表示されている。この場合、観察者は、対象物ＰＯが表示画面上にあるように知覚する。この水平視差は、ｄ_ｘ＝ｘ_Ｒ－ｘ_Ｌ＝０である。図１０ｃにおいて、負視差を示す。表示画面９００において、左対象物９Ｌが右側に表示され、右対象物９Ｒが左側に表示される。この場合、観察者は対象物ＰＯが表示画面より手前にあるように知覚する。水平視差は、ｄ_ｘ＝ｘ_Ｒ－ｘ_Ｌ＜０である。快適な３Ｄ視のための立体画像対を生成するために、水平視差ｄ_ｘを調整する必要がある。その理由の１つは、観察者の目には、ｄ_ｘに限界があるからである。そのような限界は、眼間ｅ（左目ＥＬと右目ＥＲとの間の距離である）によって生じる。眼間ｅは、５０ｍｍ～７０ｍｍ（平均６５ｍｍ）の範囲である。これは、表示画面上において、左画像および右画像の間の物理的差異が、距離ｅを超えてはならないことを意味する。

　なお、立体視用画像位置合わせ装置２００は、前述した構成の全てを備えなくとも、同様の発明の効果を奏する。

　たとえば、立体視用画像位置合わせ装置２００は、ブレ領域検出部２２０を備えなくてもよい。ブレを含む画像からも、対応点の検出は可能なためである。なお、対応点検出においては、ブレの少ない画像の方が好ましいため、たとえば手振れが激しい撮影状況では、ブレ領域検出部２２０を備えた方が、対応点検出の精度向上が期待できる。

　また、立体視用画像位置合わせ装置２００は、第２行列算出部２５６を備えなくてもよい。通常、一方の画像からみて他方の画像が極端に歪むこと、及び、アスペクト比に大きな差が生じることはまれである。よって、たとえば、事前に定められた斜傾変換行列を、変換部２６０が記憶しておき、この斜傾変換行列を第３の画像に適用することで、第２行列算出部２５６を備えなくても発明の効果を奏する。なお、第２行列算出部２５６により、撮影条件に応じて斜傾変換行列を算出することで、より、自然な立体効果を画像に付与することが可能となる。なお、立体視用画像位置合わせ装置２００が第２行列算出部２５６を備えない場合、変換部２６０は、第１行列算出部２５４で算出された射影変換行列を用いて第１の画像を変換する。

　また、立体視用画像位置合わせ装置２００は、視域算出部２６２を備えなくてもよい。左右画像で共通する領域は、通常、毎回大きく異なることはないと考えられる。よって、たとえば、左眼用画像のうち右８０％分の領域と、右眼用画像の左８０％部の領域を視域と特定するなど、事前に定められたルールに従うことで、第２行列算出部２５６は、視域算出部２６２を備えなくても、画像中の処理領域を決定することができる。なお、視域算出部２６２を備えることで、より正確に視域を特定できる結果、より自然な立体効果を画像に付与することが可能となる。

　また、立体視用画像位置合わせ装置２００は、行列合成部２５８を備えなくてもよい。立体視用画像位置合わせ装置２００が第２行列算出部２５６を備えない場合、行列合成部２５８は不要である。また、立体視用画像位置合わせ装置２００が第２行列算出部２５６を備える場合であっても、変換部２６０は、記憶領域に記憶されている射影変換行列及び斜傾変換行列を順次用いて第１の画像に変換処理を施すことができるため、行列合成部２５８による合成を行わなくても、同様の発明の効果を奏する。

　なお、実施の形態１に係る画像対取得部２０５は、（Ａ）複数の画像対の候補である画像対候補を取得し、（Ｂ）複数の画像対候補の各々について、他の画像対候補の各々と共通する視域である共通視域を特定し、共通視域における光量、輝度、色、及び鮮明度のうち少なくとも１つに関する情報である品質情報を取得し、（Ｃ）品質情報によって示される画像品質が最もよい画像対候補を画像対として選択してもよい。上記（Ａ）で、複数の画像対を取得する方法としては、例えば、連続撮影モードに設定されたデジタルスチルカメラを把持し、ユーザが把持した手を水平方向に移動させることにより、容易に取得することが可能である。

　また、本発明の実施の形態１及び２に係る、立体視用画像位置合わせ装置２００の機能の一部又は全てを、ＣＰＵ等のプロセッサがプログラムを実行することにより実現してもよい。

　さらに、本発明は上記プログラムであってもよいし、上記プログラムが記録された記録媒体であってもよい。また、上記プログラムは、インターネット等の伝送媒体を介して流通させることができるのはいうまでもない。

　本発明は、複数の画像対から対応点を検出し、それらを一定の基準を満たすように位置合わせする立体視用画像位置合わせ装置等に適用でき、特に立体視表示装置において立体視が可能となるように画像対を位置合わせする、立体視用画像位置合わせ装置等に適用できる。

１３ＬＲ、１４ＬＲ、１１００　画像
１０２、４０２、４０６　左画像
１０４、４０４、４０８、４１０　右画像
１０６　単眼式デジタルカメラ
１０８　距離
２００　立体視用画像位置合わせ装置
２０２　記憶媒体リーダ
２０４　画像デコーダ
２０５　画像対取得部
２０８　画像位置合わせモジュール
２１０　出力部
２１２　内部バッファ
２１４　表示装置
２１６　記憶／送信装置
２１８　プリンタ
２２０　ブレ領域検出部
２５２　対応点検出部
２５４　第１行列算出部
２５６　第２行列算出部
２５８　行列合成部
２６０　変換部
２６２　視域算出部
３５０、３５２、３５４、５０４　右眼用画像
３５５　線分ａ’’ｃ’’
３５６　線分ｂ’’ｄ’’
３６２、３６４ａ、３６４ｂ、３６４ｃ　視域
３７０、３７２、３７４、３７６、３７８　点
５０２　左眼用画像
５０６、５０８　矩形
５１０　変形前画像
５１２　変形後画像
５１４　変形前視域
５１６　変形後視域
５１８、５２０、５２２、５２４　点
５２８、５３０、５３２、５３４　変形点
５２６、５４０　角
５３６　垂直差
５３８　水平差
９００　表示画面
Ｌ１３０２、Ｌ１３０４　差分線

Claims

　左眼用画像と、前記左眼用画像に対応する右眼用画像とを含む画像対を取得する画像対取得部と、
　前記画像対の一方である第１の画像に含まれる第１の点と、他方である第２の画像に含まれる点であり、前記第１の点に対応する点である第２の点との組である対応点を検出する対応点検出部と、
　前記第１の点と前記第２の点との垂直視差が最小となり、かつエピポーラ拘束を満たすように前記第１の点を変換する射影変換行列を算出する第１行列算出部と、
　前記射影変換行列を用いて前記第１の画像を変換する変換部と、
　前記変換された第１の画像である第３の画像と、前記第２の画像とを出力する出力部とを備える
　立体視用画像位置合わせ装置。
　前記画像対取得部は、２つのイメージセンサと２つのレンズ、１つのイメージセンサと２つのレンズ、または２つのイメージセンサと１つのレンズにより同時に撮影された２つの画像を前記画像対として取得する
　請求項１に記載の立体視用画像位置合わせ装置。
　前記画像対取得部は、１つのイメージセンサと１つのレンズを用いて、異なる視点から異なる時間に撮影された２つの画像を前記画像対として取得する
　請求項１に記載の立体視用画像位置合わせ装置。
　さらに、前記第３の画像の座標系が直交性を有し、かつ、前記第１の画像と同じアスペクト比を有するように前記第３の画像を変換する斜傾変換行列を算出する第２行列算出部と、
　前記射影変換行列と前記斜傾変換行列とを組み合わせて合成変換行列を生成する行列合成部とを備え、
　前記変換部は、前記合成変換行列を用いて、前記第１の画像を変換する
　請求項１に記載の立体視用画像位置合わせ装置。
　さらに、前記第１の画像及び前記第２の画像に共通する領域である視域を算出する視域算出部を備え、
　前記第２行列算出部は、前記第３の画像のうち前記視域に含まれる部分の座標系が、直交性を有し、かつ、前記第１の画像のうち前記視域に含まれる部分と同じアスペクト比を有するように前記斜傾変換行列を算出する
　請求項４に記載の立体視用画像位置合わせ装置。
　前記対応点検出部は、前記画像対に含まれる前記第１の画像及び前記第２の画像の各々の中心から事前に定められた範囲内において、均一に分散された複数の小領域を選択し、当該小領域のなかから前記対応点を検出する
　請求項１に記載の立体視用画像位置合わせ装置。
　さらに、前記画像対においてブレ領域を検出するブレ領域検出部を備え、
　前記対応点検出部は、前記画像対のうち前記ブレ領域以外の領域から前記対応点を検出する
　請求項１または３に記載の立体視用画像位置合わせ装置。
　前記出力部は、視聴ユーザからの入力操作、表示装置の大きさ、及び、表示装置と視聴ユーザとの距離のうち少なくとも１つを示す調整情報を取得し、前記調整情報に基づいて、前記第３の画像及び前記第２の画像の視差、３Ｄポップアップ、及びディープイン効果のうち少なくとも１つを調整して出力する
　請求項１に記載の立体視用画像位置合わせ装置。
　前記画像対取得部は、（Ａ）複数の画像対の候補である画像対候補を取得し、（Ｂ）前記複数の画像対候補の各々について、他の画像対候補の各々と共通する前記視域である共通視域を特定し、前記共通視域における光量、輝度、色、及び鮮明度のうち少なくとも１つに関する情報である品質情報を取得し、（Ｃ）前記品質情報によって示される画像品質が最もよい前記画像対候補を前記画像対として選択する
　請求項１に記載の立体視用画像位置合わせ装置。
　前記画像対取得部は、（１）前記左眼用画像及び右眼用画像を含む画像群が圧縮され、かつメモリカードに記憶されている場合、または、（２）前記画像群が圧縮され、かつ外部装置からネットワークを介して送信されている場合は、圧縮されている前記画像群を復号する
　請求項１に記載の立体視用画像位置合わせ装置。
　前記対応点検出部は、回転角に対応する情報を出力するジャイロセンサからの出力に一致するように、前記射影変換行列の作成に用いる回転パラメータおよびシフトパラメータを算出する
　請求項１に記載の立体視用画像位置合わせ装置。
　２Ｄカメラに組み込むことで３Ｄカメラになり、３Ｄ処理エンジンとして３Ｄディスプレイに組み込むことで２Ｄ画像群を３Ｄ画像または３Ｄ映像に変換し、プレーヤまたはレコーダに組み込むことで２Ｄ画像群を３Ｄ画像または３Ｄ映像に変換する
　請求項１に記載の立体視用画像位置合わせ装置。
　左眼用画像と、前記左眼用画像に対応する右眼用画像とを含む画像対を取得し、
　前記画像対の一方である第１の画像に含まれる第１の点と、他方である第２の画像に含まれる点であり、前記第１の点に対応する点である第２の点との組である対応点を検出し、
　前記第１の点と、前記第２の点とが同じ垂直位置値を有し、かつエピポーラ拘束を満たすように前記第１の点を変換する射影変換行列を算出し、
　前記射影変換行列を用いて前記第１の画像を変換し、
　前記変換された第１の画像である第３の画像と、前記第２の画像とを出力する
　立体視用画像位置合わせ方法。
　請求項１３に記載の立体視用画像位置合わせ方法をコンピュータに実行させる
　プログラム。
　請求項１４に記載のプログラムを記録した
　コンピュータ読み取り可能な記録媒体。
　左眼用画像と右眼用画像とを含む画像対を取得する画像対取得部と、
　前記画像対に含まれる一方である第１の画像に含まれる第１の点と、他方である第２の画像に含まれる点であり、前記第１の点に対応する点である第２の点との組である対応点を検出する対応点検出部と、
　前記第１の点と、前記第２の点とが同じ垂直位置値を有し、かつエピポーラ拘束を満たすように前記第１の点を変換する射影変換行列を算出する第１行列算出部と、
　前記射影変換行列を用いて前記第１の画像を変換する変換部と、
　前記変換された第１の画像である第３の画像と、前記第２の画像とを出力する出力部とを備える
　集積回路。
　請求項３に記載の立体視用画像位置合わせ装置を備える
　デジタルスチルカメラ。