WO2018105530A1

WO2018105530A1 - 情報処理装置および情報処理方法

Info

Publication number: WO2018105530A1
Application number: PCT/JP2017/043334
Authority: WO
Inventors: 真樹内田
Original assignee: 株式会社ソニー・インタラクティブエンタテインメント
Priority date: 2016-12-08
Filing date: 2017-12-01
Publication date: 2018-06-14
Also published as: EP3553465A1; KR102196845B1; KR20190082880A; US20200265601A1; CN110036258B; US11282224B2; JP6602743B2; JP2018096716A; EP3553465A4; EP3553465B1; CN110036258A

Abstract

対象物検出部は、動画撮影されたフレーム画像から対象物の像の領域を検出する（Ｓ１０）。輪郭探索部は、当該像の領域内部で、対応する素子の観測対象がＧ（緑）であった画素を始点とし、画素配列の４つの対角方向に画素値をサンプリングする（Ｓ１２、Ｓ１４）。そしてサンプリングした画素の輝度Ｙの変化に基づき対象物の輪郭線上の座標点候補を検出し、対象物の色成分の輝度変化に基づきフィルタリングしたうえ、その分布から輪郭線を近似する（Ｓ１６、Ｓ１８、Ｓ２０）。位置情報生成部は輪郭線から得た対象物の像の重心やサイズを利用して対象物の実空間での位置情報を取得する（Ｓ２２、Ｓ２４）。

Description

情報処理装置および情報処理方法

　本発明は、撮影画像を用いて対象物の位置を特定する情報処理装置、およびその情報処理方法に関する。

　近年、パーソナルコンピュータやゲーム機などにカメラを搭載し、ユーザの姿を撮影して様々な形で利用することが一般的に行われるようになってきた。例えばテレビ電話、ビデオチャットなど、ユーザの画像を、ネットワークを介してそのまま相手に伝送するものや、画像解析によってユーザの動きを認識し、ゲームや情報処理の入力情報とするものなどが実用化されている（例えば特許文献１参照）。特に、奥行き方向を含む３次元空間における対象物の動きを精度よく検出することにより、臨場感のあるゲームや画像表現が可能となっている。

ＷＯ　２００７／０５０８８５　Ａ２公報

　多様な物が存在する空間を撮影し、その撮影画像を入力データとして情報処理を行う場合、入力装置のハードウェアキーやＧＵＩ（Graphical User Interface）を介した操作と比較し、画像解析の精度が情報処理の精度に大きく影響を与える。より高精度かつ複雑な情報処理を実現するためには、サブピクセル単位での詳細な画像解析が求められる。

　本発明はこのような課題に鑑みてなされたものであり、その目的は、撮影画像を用いた情報処理において、高精度に対象物の位置を検出できる技術を提供することにある。

　上記課題を解決するために、本発明のある態様は情報処理装置に関する。この情報処理装置は、対象物を撮影した撮影画像のデータを取得する撮影画像取得部と、撮影画像における対象物の像の領域内部からの輝度の、位置に対する変化が所定の条件を満たす座標点を探索することにより、当該像の輪郭線を求める輪郭探索部と、輪郭線に基づき対象物の実空間における位置情報を生成し出力する位置情報生成部と、を備え、輪郭探索部は、像の領域内部の画素を始点とし、画素配列における対角方向に前記座標点を探索することを特徴とする。

　本発明の別の態様は情報処理方法に関する。この情報処理方法は、対象物を撮影した撮影画像のデータを取得しメモリに格納するステップと、メモリから読み出した撮影画像における対象物の像の領域内部からの輝度の、位置に対する変化が所定の条件を満たす座標点を探索することにより、当該像の輪郭線を求めるステップと、輪郭線に基づき対象物の実空間における位置情報を生成し出力するステップと、を含み、輪郭線を求めるステップは、像の領域内部の画素を始点とし、画素配列における対角方向に前記座標点を探索することを特徴とする。

　なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

　本発明によると、撮影画像を利用して対象物の位置情報を高精度に取得できる。

本実施の形態における情報処理システムの構成例を示す図である。本実施の形態における発光デバイスの外観形状を例示する図である。本実施の形態における情報処理装置の内部回路構成を示す図である。本実施の形態における情報処理装置の機能ブロックの構成を示す図である。本実施の形態において、左右の視点から撮影したステレオ画像における視差と対象物の距離との関係を説明するための図である。本実施の形態における撮像装置からの距離に対する視差の変化を表す図である。本実施の形態において輪郭探索部が対象物の像の輪郭を特定する手法を説明するための図である。本実施の形態において、探索方向の輝度の変化に基づき輪郭線の位置を画素より高い解像度で検出する手法の例を説明するための図である。対象物の輪郭線の探索方向の設定例を示す図である。撮影画像において各画素に対応する素子が観測対象とした色と、対象物の輪郭との関係を模式的に示す図である。図９と同様の探索経路を、経路に位置する画素が観測対象としている色のパターンで類別した際の、探索経路の数を示す図である。本実施の形態における対象物の輪郭線の探索経路を模式的に示す図である。本実施の形態における情報処理装置のうち位置情報取得部が対象物の位置情報を取得する際の処理手順を示すフローチャートである。

　図１は本実施の形態における情報処理システムの構成例を示す。情報処理システム１は、ユーザ４が保持する発光デバイス１８、発光デバイス１８を含む空間を撮影する撮像装置１２、発光デバイス１８の位置を特定しそれに基づき情報処理を行う情報処理装置１０、情報処理の結果として生成されたデータを出力する表示装置１６を含む。

　情報処理装置１０と、撮像装置１２および表示装置１６とは、有線ケーブルで接続されても、Bluetooth（登録商標）など既知の無線通信技術により接続されてもよい。またこれらの装置の外観形状は図示するものに限らない。さらにこれらのうち２つ以上の装置を一体的に備えた装置としてもよい。例えば情報処理装置１０、撮像装置１２、表示装置１６を、それらを備えた携帯端末などで実現してもよい。また、撮像装置１２は必ずしも表示装置１６の上に搭載されていなくてもよい。ユーザ４は情報処理装置１０で処理される内容によって複数でもよく、発光デバイス１８もまた複数でよい。

　撮像装置１２は、発光デバイス１８を含む空間を所定のフレームレートで撮影するカメラと、その出力信号にデモザイク処理など一般的な処理を施すことにより撮影画像の出力データを生成し、情報処理装置１０に送出する機構とを有する。カメラはＣＣＤ（Charge Coupled Device）センサやＣＭＯＳ（Complementary Metal Oxide Semiconductor）センサなど、一般的な可視光センサを備える。

　図示するように、そのようなカメラを既知の間隔で左右に配置したステレオカメラとすることにより、発光デバイス１８などの対象物の、撮像面からの距離を含む３次元空間での位置を特定することができる。ただし撮像装置１２は単眼のカメラとしてもよい。また、撮像装置１２は可視光センサが取得したベイヤ配列などで構成されるいわゆるＲＡＷ画像をそのまま送出し、情報処理装置１０においてデモザイク処理等、必要な処理を施すようにしてもよい。

　情報処理装置１０は、撮像装置１２から送信されたデータを用いて発光デバイス１８の実空間での位置を特定する。そして当該位置情報に基づき必要な情報処理を行い、その結果を表す画像や音声などの出力データを生成する。情報処理装置１０が発光デバイス１８の位置情報を利用して行う処理の内容は特に限定されず、ユーザが求める機能やアプリケーションの内容などによって適宜決定してよい。例えば情報処理装置１０は、発光デバイス１８の動きからユーザ４の動きを取得し、同様の動きをするキャラクタが登場するゲームを進捗させたり、発光デバイス１８の動きをコマンド入力に変換して、それと対応する機能を実現させたりする。

　表示装置１６は、表示画像を出力するディスプレイおよび音声を出力するスピーカーを有するテレビでよく、例えば液晶テレビ、有機ＥＬテレビ、プラズマテレビ、ＰＣディスプレイ等である。あるいはタブレット端末や携帯端末のディスプレイおよびスピーカーであってもよい。なお表示装置１６は、図示するような平板型のディスプレイでもよいし、ユーザが頭に装着することによってその眼前に画像を表示させるヘッドマウントディスプレイであってもよい。あるいはその双方でもよい。

　情報処理システム１にはさらに、ユーザが操作することにより処理の開始、終了、機能の選択などの要求や各種コマンド入力を受け付け、電気信号として情報処理装置１０に供給する入力装置が含まれていてもよい。当該入力装置は、例えばハードウェアキーを備えるコントローラ、マウス、ジョイスティックなど固有の装置でもよいし、表示装置１６のディスプレイを覆うタッチパッドなどでもよい。

　図２は発光デバイス１８の外観形状を例示している。発光デバイス１８は、発光部６およびハンドル８を含む。発光部６は、光透過性を有する樹脂などのカバー材で形成され発光ダイオードや電球など一般的な光源を内蔵した球体であり、点灯状態にあるとき球面全体が発光する。複数のユーザが個々に発光デバイス１８を用いる場合は、発光色を異ならせることによりそれらを区別して認識できるようにする。

　ハンドル８はユーザが手にする部分であり、図示はしないが、必要に応じてオン／オフボタンなどの入力ボタンを備えてもよい。また、有線あるいは無線で情報処理装置１０と通信を確立し、必要な情報を送受する通信手段を備えてもよい。例えば複数の発光デバイスに対する発光色の割り当てを情報処理装置１０が決定し、各発光デバイス１８に通知したり、点灯や点滅などの発光態様を情報処理装置１０が制御したりしてもよい。

　さらにハンドル８の内部に加速度センサやジャイロセンサなどのモーションセンサを設け、その計測値を発光デバイス１８から情報処理装置１０に所定のレートで送信するようにしてもよい。これにより情報処理装置１０は、発光デバイス１８の姿勢を逐次特定することができる。なお発光デバイス１８の外観形状は図示するものに限らない。例えばユーザの体に装着可能な機構を有していてもよいし、上述のヘッドマウンドディスプレイや入力装置と一体的に実現してもよい。例えばヘッドマウントディスプレイや入力装置の表面に所定形状の発光領域を設けてもよい。このとき発光領域は１つであっても複数であってもよい。

　本実施の形態では、様々な物が存在する空間を撮影した画像から、発光部６の像を高精度に抽出し、その位置やサイズに基づき発光デバイス１８の位置を特定する。図２に示したような発光デバイス１８の場合、発光部６の像の領域がおよそ円形に抽出されるが、発光色が既知であれば光源が入力装置やヘッドマウントディスプレイであってもよく、その形状は限定されない。また発光デバイス１８の発光は、撮像装置１２の視野にある他の物との区別を容易にするが、本実施の形態をそれに限る主旨ではない。すなわち位置を検出する対象は色や形状が既知であればよく、発光体に限定されない。以後、撮影画像における像に基づき実空間での位置を取得する発光デバイス１８のような対象を「対象物」と総称する。

　図３は情報処理装置１０の内部回路構成を示している。情報処理装置１０は、ＣＰＵ（Central Processing Unit）２２、ＧＰＵ（Graphics Processing Unit)２４、メインメモリ２６を含む。これらの各部は、バス３０を介して相互に接続されている。バス３０にはさらに入出力インターフェース２８が接続されている。入出力インターフェース２８には、ＵＳＢやＩＥＥＥ１３９４などの周辺機器インターフェースや、有線又は無線ＬＡＮのネットワークインターフェースからなる通信部３２、ハードディスクドライブや不揮発性メモリなどの記憶部３４、表示装置１６へデータを出力する出力部３６、撮像装置１２や入力装置からデータを入力する入力部３８、磁気ディスク、光ディスクまたは半導体メモリなどのリムーバブル記録媒体を駆動する記録媒体駆動部４０が接続される。

　ＣＰＵ２２は、記憶部３４に記憶されているオペレーティングシステムを実行することにより情報処理装置１０の全体を制御する。ＣＰＵ２２はまた、リムーバブル記録媒体から読み出されてメインメモリ２６にロードされた、あるいは通信部３２を介してダウンロードされた各種プログラムを実行する。ＧＰＵ２４は、ジオメトリエンジンの機能とレンダリングプロセッサの機能とを有し、ＣＰＵ２２からの描画命令に従って描画処理を行い、表示画像を図示しないフレームバッファに格納する。そしてフレームバッファに格納された表示画像をビデオ信号に変換して出力部３６に出力する。メインメモリ２６はＲＡＭ（Random Access Memory）により構成され、処理に必要なプログラムやデータを記憶する。

　図４は、本実施形態における情報処理装置１０の機能ブロックの構成を示す。情報処理装置１０は、撮像装置１２から撮影画像のデータを取得する撮影画像取得部６０、撮影画像や位置情報のデータを格納するデータ記憶部６２、撮影画像から対象物の像を検出することによりその実空間での位置情報を取得する位置情報取得部６４、位置情報に基づき所定の情報処理を実施する情報処理部６６、および、情報処理の結果として出力すべきデータを生成する出力データ生成部６８を含む。

　同図においてさまざまな処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、図３で示したＣＰＵ２２、ＧＰＵ２４、メインメモリ２６等の各主回路で構成することができ、ソフトウェア的には、記録媒体駆動部４０により駆動される記録媒体や記憶部３４からメインメモリ２６にロードされたプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。

　撮影画像取得部６０は、撮像装置１２が撮影した動画像のフレームデータを順次取得し、データ記憶部６２に格納する。フレーム画像にデモザイク処理やシェーディング補正がなされていない場合、撮影画像取得部６０はそれらの処理や補正を実施したうえでデータ記憶部６２に格納する。位置情報取得部６４は、データ記憶部６２から読み出した撮影画像から対象物の像を抽出し、それに基づき対象物の実空間での位置情報を取得する。位置情報取得部６４は対象物の像のおよその位置を検出する対象物検出部７０、対象物の輪郭を探索する輪郭探索部７２、および対象物の３次元空間での位置情報を生成する位置情報生成部７４を含む。

　対象物検出部７０は、発光色や形状に基づき、撮影画像における対象物の像を検出する。例えば発光マーカーの像としてとり得る形状および色のテンプレート画像を準備しておき、それと類似度の高い画像上の領域を検出する。対象物検出部７０による検出処理は対象物の像のおよその位置を検出できればよく、その手段は特に限定されない。輪郭探索部７２は、対象物検出部７０の検出結果に基づき、対象物の像の輪郭を探索し、その位置を厳密に求める。本実施の形態では輪郭の位置をサブピクセルレベルで精度よく求めることにより、対象物の実空間での位置取得、ひいては位置情報を用いた情報処理の精度を向上させる。具体的な手法は後に述べる。

　位置情報生成部７４は、輪郭探索部７２による輪郭探索の結果に基づき対象物の像の重心の位置座標やサイズを取得し、それを利用して対象物の実空間での位置を特定する。撮像装置１２をステレオカメラとした場合、位置情報生成部７４は左右の視点から撮影されたステレオ画像のそれぞれにおいて、同じ対象物の像の重心の位置座標を求める。それらの水平方向の差分を視差とすれば、一般的な三角測量の原理で撮像面から対象物までの距離を取得できる。

　図２で示した発光部６のように、角度によらず見かけ上のサイズが変化しないマーカーや、所定の間隔でデバイス表面に配置させた複数のマーカーを対象物とした場合、単眼のカメラであっても、像のサイズや間隔から距離を取得できる。位置情報生成部７４は、そのようにして特定した撮像面からの奥行き方向の距離を、フレーム画像における対象物の像の領域の画素値として表した、いわゆるデプスマップを作成するなどして位置情報をデータ化し、データ記憶部６２に格納する。なお複数の対象物が存在する場合は、対象物ごとに重心位置などを求め位置情報を生成する。

　情報処理部６６は、データ記憶部６２から対象物の位置情報を読み出し、それに応じた情報処理を実施する。上述のとおりここで実施する情報処理の内容は特に限定されない。出力データ生成部６８は、情報処理部６６が実施した情報処理の結果として表示すべき画像や出力すべき音声のデータを生成し順次、表示装置１６へ出力する。

　図５は撮像装置１２としてステレオカメラを導入した場合に、左右の視点から撮影したステレオ画像における視差と対象物の距離との関係を説明するための図である。同図において第１カメラ１３ａ、第２カメラ１３ｂは一対でステレオカメラを構成する。第１カメラ１３ａ、第２カメラ１３ｂは距離Ｌを隔てた平行な光軸を有するように設置されるか、そのような画角となるように撮影画像が補正される。ここで対象物は奥行き方向に距離Ｚ離れた右端の矢印に位置するとする。

　各カメラが撮影した画像の１画素が表す実空間での幅Δｘは、距離Ｚに比例して次のように表される。
　Δｘ＝Ｚ×ｗ／Ｗ
ここでＷはカメラの横方向の画素数、ｗは距離Ｚが１のときの実空間の横方向の視野範囲であり視角によって定まる。

　距離Ｌだけ離れたカメラで撮影された同一の対象物は、その画像上でおよそ下記のような画素数上の視差Ｄを有する。
　Ｄ＝Ｌ／Δｘ＝Ｌ×（Ｗ／ｗ）×（１／Ｚ）＝Ｃ／Ｚ
ここでＣはカメラおよびそのセッティングにより定まる値であり、運用時は定数とみなせる。

　図６は撮像装置１２からの距離Ｚに対する視差Ｄの変化を表している。上式に示すように視差Ｄは距離Ｚに反比例した曲線５６となる。この関係を利用することにより、ステレオ画像における対象物の像の視差Ｄから、対象物の奥行き方向の距離Ｚが求められる。撮影画像は輝度を画素単位で表したデータであることを踏まえ、対象物の像の位置、ひいては視差Ｄも画素単位で取得する場合、対象物の距離は、次に表されるΔｚの単位で求められる。
　Δｚ＝Δｘ×Ｚ／Ｌ＝Ｚ^２×（ｗ／Ｗ）×（１／Ｌ）

　すなわち対象物の位置の取得単位を固定とした場合、対象物の距離Ｚの分解能は、距離Ｚの２乗に比例して低下する。図６のグラフにおける縦の点線の間隔はΔｚを表している。例えば対象物が矢印５８の位置にあっても、像の位置特定が画素単位であれば、その距離Ｚは最大でΔｚ程度の誤差を含むｚ１またはｚ２として算出されてしまう。つまり対象物が撮像装置１２から離れるほど、撮影画像上での像の位置の取得誤差による距離算出精度への影響が深刻になる。

　撮像装置１２として単眼カメラを用い、対象物の像のサイズに基づき距離を導出する場合であっても、対象物が撮像装置１２から離れるほど、サイズの僅かなずれが、算出される距離に大きな誤差をもたらすのは同様である。距離に大きな誤差が含まれると、画像平面からの逆射影によって得られる、対象物の３次元空間での位置座標にも大きな誤差を生じさせ、後の情報処理の精度に看過できない影響を与えることが考えられる。そこで本実施の形態の輪郭探索部７２は、サブピクセルレベルで像の輪郭線を正確に求めることにより、対象物の実空間での位置情報の取得精度を向上させる。

　図７は本実施の形態において輪郭探索部７２が対象物の像の輪郭を特定する手法を説明するための図である。対象物検出部７０はテンプレートマッチングや前景抽出など一般的な手法により、撮影画像８０における対象物の像８２の領域を抽出する。この抽出処理は、効率性を優先し画素単位またはそれより大きい単位でよい。輪郭探索部７２はその結果に基づき探索経路の始点および方向を決定して、像の輪郭位置を探索する。定性的には対象物の像の内側から外側へ探索していき、輝度が急激に変化する位置に輪郭があると判定する。

　例えば始点８４から矢印８６の方向に画素値をサンプリングしていくと、輪郭線上の座標点８８が得られる。このような探索を複数方向に行うことで、輪郭線上の座標点が複数個得られる。なお図ではそのようにして得られた座標点を白抜きの丸印で示しているが、それらは画像平面上の位置座標を表象しているに過ぎず、撮影画像として表れるものではない。輪郭探索部７２は、そのようにして得られた複数の座標点を最小二乗法など一般的な手法により近似して、対象物の像の輪郭線を画像平面上での数式として取得する。

　対象物が球体の発光マーカーである場合、その像は円形となるため、円近似の計算を用いることで像の輪郭線９４が円形として得られる。なお近似に際して楕円歪みなど位置座標の分布に全体的な歪みが検出される場合、一般的な補正フィルタなどにより座標点を補正しておく。また近似式からの誤差が大きい座標点があればそれを排除しながら最終的な近似式に収束させる。図示する例では、発光デバイスのハンドルによって一部が隠蔽されたことにより本来の発光マーカーの輪郭と異なる位置に検出された座標点９２を除去している。

　除去すべき座標点はこのように他の物によって隠蔽されて生じる場合のほか、座標点の検出誤差によっても生じる可能性がある。このようにして得られた輪郭線９４の円の中心座標Ｃ（ｘ_ｃ，ｙ_ｃ）が対象物たる発光マーカーの像の重心であり、半径Ｒが当該像のサイズを表す。位置情報生成部７４はそれらのデータを用いて対象物の実空間での位置を上述のように求める。なお座標点集合から線への近似や、輪郭線に基づく重心やサイズの取得には様々な手法が考えられ、よって形状も限定されないことは当業者には理解されるところである。

　すなわち対象物が球体以外のいかなる形状であっても、像の形状が限定的であれば、その情報をあらかじめ設定しておくことにより、そのうち誤差の最も小さい近似線が得られる形状を最終的に決定できる。形状を決定できれば、重心やサイズの算出手法も一意に決定できる。また撮影された動画像の前のフレームまでに得られている像の形状に基づき以後の像の形状を推測し、当該形状で近似してもよい。

　輪郭探索部７２が検出する輪郭線上の座標点すなわち位置座標や、それに基づく重心の位置座標は、画素より高い解像度で取得する。図８は、探索方向の輝度の変化に基づき輪郭線の位置を画素より高い解像度で検出する手法の例を説明するための図である。同図の右方向を探索方向としたとき、その経路に存在する画素を抽出して並べたものが画素列９６である。画素列９６の各画素はそれぞれ輝度値を有し、それを探索経路上の位置に対する変化として表すと、例えばグラフ９８のようになる。

　輝度値は本来、画素単位で得られるため、探索方向の画素の幅をΔｘとすると、グラフ９８は、黒丸で示すｘ－２Δｘ、ｘ－Δｘ、ｘ、ｘ＋Δｘ、ｘ＋２Δｘ、ｘ＋３Δｘ、・・・の位置に対して得られた離散的な輝度値をつなげたものである。このような輝度の変化を規格化するなどし、あらかじめ準備しておいた輝度変化の想定曲線を、図示する想定曲線１００ａ、１００ｂ、１００ｃのように平行移動させながら比較して、最も類似度が大きい状態を両者の差分の総和などから特定する。そしてそのときの想定曲線１００ｂの中点Ｍなどの基準位置を、対象物の輪郭線の位置とする。同図ではこの位置を白抜き矢印で示している。

　想定曲線を画素の幅Δｘより細かい単位で移動させ、このような一種のマッチング処理を実施することにより、輪郭線の位置も画素の幅より小さい単位で特定できる。一方、このようにしてサブピクセル単位で輪郭線上の座標点を検出しても、それが大きな誤差を含めば、対象物が遠くにあるほど実空間での位置情報に大きな誤差を生じさせることは上述と同様である。例えば撮像装置１２から２ｍ離れた対象物では、重心の検出位置が０．５画素ずれたのみで、ステレオマッチングによって算出される距離が３ｃｍ程度ずれてしまう。これにより、動いていない対象物を動いているように誤認識してしまうこともあり得る。

　これを踏まえ、サブピクセルレベルでの位置検出を精度よく行うためには、輪郭線の探索経路に関し次のような課題があることに本発明者は想到した。
（１）探索方向によって座標点検出の分解能や精度が異なる
（２）探索経路にある画素で本来観測された色によって輝度データの信頼性が異なる

　まず上記（１）について説明する。図９は探索方向の設定例を示している。同図において格子で区切られた各矩形は１画素を表し、破線の矢印が探索経路および方向を表している。この例では、対象物検出部７０がおよそ特定した対象物の像の中心近傍と推定される画素群１０２のいずれかから放射状に、２４本の探索を行う。すなわち矢印群１０４ａ、１０４ｂに示すように、画素群１０２から右方向および左方向に３本ずつ、計６本の探索を行う。また矢印群１０６ａ、１０６ｂに示すように、画素群１０２から上方向および下方向に３本ずつ、計６本の探索を行う。

　さらに矢印群１０８ａ、１０８ｂ、１０８ｃ、１０８ｄに示すように、画素群１０２から右上方向、右下方向、左下方向、左上方向に３本ずつ、計１２本の探索を行う。このような設定において上記（１）のように、座標点検出の分解能や精度に方向依存性が生じる。すなわち図８に示すように輝度変化の想定曲線を探索方向に移動させて、画像平面の縦横２成分からなる座標点を検出した場合、矢印群１０４ａ、１０４ｂに示す横方向の探索では、横方向の成分はサブピクセル単位で定まる一方、縦方向の成分は画素単位となってしまう。

　矢印群１０６ａ、１０６ｂに示す縦方向の探索では、縦方向の成分はサブピクセル単位で定まる一方、横方向の成分は画素単位となってしまう。つまり横方向の探索および縦方向の探索では、縦方向または横方向の位置座標に最大１画素分の誤差が生じる。一方、矢印群１０８ａ、１０８ｂ、１０８ｃ、１０８ｄで示す対角方向の探索では、縦横両成分がサブピクセル単位となる。しかしながら探索方向における画素の間隔、すなわち図８におけるΔｘが、縦方向や横方向の探索と比べ１．４倍程度となるため、両方向の位置座標に最大１．４／２＝０．７画素分程度の誤差が生じる。

　次に上記（２）について説明する。上述のとおり解析対象となる撮影画像は、各画素が１色の輝度データを保持するＲＡＷ画像を、デモザイク処理により補間したものである。したがってそのようにして生成された撮影画像の各画素は、補間処理による誤差を内包し、どのように誤差が含まれるかは、対応する素子が観測対象とした色に依存して画素ごとに異なる。図１０は、撮影画像において各画素に対応する素子が観測対象とした色と、対象物の輪郭との関係を模式的に示している。撮影画像１１２のうち格子で区切られた各矩形が１画素を表し、対応する素子が観測対象とした赤、緑、青の色をそれぞれ「Ｒ」、「Ｇ」、「Ｂ」と表記している。以後の説明でも同様の表記とする。

　図示するような色の配列はベイヤ配列と呼ばれる一般的なものである。ただし本実施の形態をこの配列に限定する主旨ではない。対象物の像の輪郭線１１４上の座標点を上述のように探索する際、その探索経路に存在する画素の観測対象が元々何色であったか、座標点をどの色の輝度変化で判定するか、対象物は何色か、といった要素の組み合わせによって、検出される座標点の信頼性が変化する。例えば矢印Ａの探索経路にある画素は観測される色が「Ｒ」、「Ｂ」、「Ｒ」、「Ｂ」、・・・のパターンであるのに対し、矢印Ｂの探索経路では観測される色が全て「Ｇ」である。

　ここで例えば、Ｇの輝度の変化で輪郭線１１４上の座標点を検出する場合、矢印Ａの探索経路におけるＧの情報は補間による誤差を含むため、矢印Ｂの探索経路による結果の方が、信頼性が高くなる。矢印Ｂを探索経路としても、ＲやＢの輝度の変化で座標点を検出する場合、経路上でのそれらの色の情報は誤差を含むため、Ｇの輝度の変化で座標点を検出するより信頼性が低くなる。

　図１１は、図９と同様の探索経路を、経路に位置する画素が観測対象としている色のパターンで類別した際の、探索経路の数を示している。下段の図に示すようにＢの画素を中心として探索経路を設定した場合、経路の画素が観測対象とする色がＢとＧの繰り返しとなる「ＢＧ配列」の探索が横方向で２つ、縦方向で２つとなる。ＲとＧの繰り返しとなる「ＲＧ配列」の探索は横方向で４つ、縦方向で４つとなる。ＢとＲの繰り返しとなる「ＢＲ配列」の探索は対角方向で４つ、全てＧとなる「ＧＧ配列」の探索は対角方向で８つとなる。

　同様に、探索経路の中心がＲの場合、Ｇの場合でも、「ＢＧ配列」および「ＲＧ配列」は縦方向および横方向の探索で表れ、「ＢＲ配列」および「ＧＧ配列」は対角方向の探索で表れる。このように、色の配列が出現する割合は探索方向によって偏りがある。また探索中心の画素が観測対象とする色によって、色の配列と探索方向の組み合わせの出現割合が変化する。なお探索中心がＧの場合、Ｂの左右にあるか上下にあるかによって当該割合が異なり、同図では下段に示すように前者を「Ｇ１」、後者を「Ｇ２」と表記している。

　このように図示するような経路設定では、用いるデータ自体の信頼性も探索経路ごとに異なってくる。最小二乗法のように多数のデータを統計的に扱う計算法は基本的に、当該元のデータが特性的に均質であることを前提としている。したがってこのように探索経路起因で、検出された座標点の誤差特性が異なると、輪郭線の近似の精度、ひいては重心位置やサイズの取得精度が十分に得られない可能性がある。また探索中心は、対象物検出部７０による検出結果に基づきフレームごとに決定されるため、図１１に示すような探索中心依存の割合の変化により、重心位置やサイズの算出結果もフレームごとに変動することが考えられる。このような知見を踏まえ、本実施の形態では探索経路間やフレーム間で、座標点の誤差特性が変化しないように探索経路を設定する。

　図１２は、本実施の形態における対象物の輪郭線の探索経路を模式的に示している。図に破線の矢印で示すように、本実施の形態ではＧを観測対象とする画素を始点とし、画素配列の対角方向に限定して探索を行う。すなわち始点の画素から、右上、右下、左下、左上にある、同じくＧを観測対象とする画素を辿るように探索を行う。図９で示したのと同様に２４の経路で探索する場合、図１２に丸印で示したように、６つの始点を設定できる。

　このとき図示するように画像平面の縦方向、あるいは横方向で同じ列にある、観測対象がＧの画素を始点として選択することにより、探索経路の重複や偏りを避けることができる。始点の位置は対象物検出部７０がおよそ検出した対象物の像の領域内であればよく、好適には当該領域の重心近傍に始点の列の中心を設定する。また図示する例では縦方向で直近のＧの画素、すなわち１つおきの画素を始点としているが、始点の間隔はこれに限らず、対象物の像の大きさなどに応じて調整してもよい。探索数も、求められる精度や装置の処理性能などに応じて調整してよい。

　このような探索経路を設定することにより、上記（１）、（２）の課題を解決できる。すなわち全ての探索経路が画素配列の対角方向であるため、検出された座標点の縦成分、横成分は双方、サブピクセルの単位で得られ、誤差特性も全ての探索経路で同等である。また探索経路にある画素は全て観測対象がＧに統一されているため、誤差を含む色や度合いが均一である。結果として検出される座標点は常に均質であり、最小二乗法によって近似される輪郭線や、それに基づく重心の位置座標などが精度よくかつ安定的に得られる。

　球体の対象物を想定すると、図１２で示した２４経路の探索により、その像の重心が０．０１６画素程度の誤差で特定できる。同じ探索数でも、図９に示すように縦方向、横方向、対角方向の３方向で探索し、ＲＧＢそれぞれの輝度の変化に基づき座標点を求めた場合と比較すると、対象物の位置の取得精度が３倍以上に改善される。

　なお図１２で示した探索経路によれば、上記（１）、（２）を同時かつ最適に解決できるが、探索経路を対角方向に限定することで（１）のみを解決することも可能である。また探索の始点をＲに限定したりＢに限定したりしても、ベイヤ配列を対角方向に探索すれば、経路にある画素が観測対象とする色の配列は統一されるため、検出される座標点の誤差特性はおよそ均一となる。結果として始点の画素を限定しない場合と比較し輪郭線の近似精度が向上する。

　次にこれまで述べた構成によって実施できる情報処理装置の動作について説明する。図１３は情報処理装置１０のうち位置情報取得部６４が対象物の位置情報を取得する際の処理手順を示すフローチャートである。まず対象物検出部７０は、撮影画像からテンプレートマッチングなどにより対象物の像の領域を検出する（Ｓ１０）。ここで用いる撮影画像はデモザイク後のＲＧＢ画像などである。

　次に輪郭探索部７２は、当該領域内で、素子の観測対象がＧである画素を探索の始点として決定する（Ｓ１２）。図１２の例では、縦方向で１つおきに６つの画素が始点とされている。ただし画素の間隔や始点の数は適宜調整してよい。なお撮影画像における各画素と、対応する素子が観測する色とを対応づけた情報はあらかじめ取得しておき、輪郭探索部７２内部で保持しておく。この情報は例えば図１０の撮影画像１１２に示すベイヤ配列などの配列情報である。

　なお観測対象の色と画素の対応関係が得られていない場合、検出結果の誤差の小ささを利用してキャリブレーションにより取得することもできる。例えば撮像装置１２から所定の距離に対象物を設置して撮影を実施し、探索の始点を上下左右に１画素ずつ移動させて、対角方向に探索することによりそれぞれ輪郭線を導出する。そして各探索条件で対象物の位置を算出し、誤差が最も小さくなるときの始点の位置に、観測対象がＧの画素があると判断する。そのような画素が最低１つ判明すれば、ベイヤ配列などの繰り返しパターンに基づき、撮影画像全体で観測対象の色と画素の対応づけが可能である。

　次に輪郭探索部７２は、始点として決定した画素から４つの対角方向に探索を行い、輪郭線上の座標点を検出する（Ｓ１４～Ｓ１８）。具体的には探索経路にある画素の輝度値をサンプリングしてラインバッファに格納する（Ｓ１４）。図１２の例では６つの始点からそれぞれ４方向にサンプリングすることで、合計２４列のサンプリングがなされる。そしてまず、各サンプリング列の輝度Ｙの変化に基づき、輪郭線上の座標点候補を検出する（Ｓ１６）。具体的には図８で示したように、想定曲線の位置をずらしながら輝度Ｙの変化グラフとの類似度が最も高くなる位置を見つけ、そのときの基準位置を座標点候補とする。

　ここで輝度Ｙは、各画素値をＹＵＶの色空間で表したときの輝度の成分であり、ＲＧＢのデータから一般的な変換式により取得できる。この変換はＳ１４でＲＧＢ値をサンプリングした後に行ってもよいし、撮影画像のデータを取得した時点やデモザイクを行った時点で撮影画像全体に対し行っておき、変換後の輝度画像をサンプリングの対象としてもよい。輝度Ｙを座標点検出時の評価の対象とするのは、探索経路において誤差が最も小さいＧの寄与率が最も高いことと、補間によって周囲の画素のＲやＢの情報も含まれていることによる。これにより、単色を対象とするより多くの情報を考慮できるとともに、均一かつ高い精度での評価を実現できる。

　次に輪郭探索部７２は、対象物の色成分の輝度変化によってＳ１６で検出した座標点候補をフィルタリングし、信頼性の低い座標点を除く（Ｓ１８）。例えば赤で発光するマーカーを対象物とする場合、Ｒの輝度で評価する。マゼンダで発光するマーカーを対象物とする場合、マゼンダの成分の輝度で評価する。輝度Ｙの変化のみを評価対象とすると、周囲の環境に影響されて座標点を誤検出することがあり得る。例えば撮像装置１２から見て対象物の輪郭近傍に窓や照明などの光源がある場合、人の目では区別が容易であっても輝度Ｙの変化のみからは対象物の光と別の光との境界が不明確になる可能性がある。

　その結果、輪郭とは異なる位置で座標点を検出してしまう可能性があるため、対象物の本来の色の変化に基づき誤って検出した座標点を排除する。例えば探索方向で座標点候補の前後に位置する所定数の画素列において、対象物の色成分の輝度変化が所定範囲以下であったら、当該座標点候補は対象物の像の内側にあり輪郭ではないと判定し除外する。あるいは探索方向で座標点候補の前に位置する所定数の画素列と探索始点の画素で、対象物の色成分の輝度に所定のしきい値以上の差があったら、当該座標点は対象物の像の外側であり輪郭ではないと判定し除外する。

　輝度Ｙによる座標点候補の検出処理と対象物の色の輝度による除外処理は、図示するように別のステップとしてもよいし同時に行ってもよい。例えば、探索経路における輝度Ｙのサンプリング列と対象物の色の輝度のサンプリング列とを、同じ位置で演算してなるデータ列に対し、想定曲線をマッチングすることにより信頼度の高い座標点を特定してもよい。このようにして座標点群を確定させたら、輪郭探索部７２は最小二乗法等によりその分布を想定形状の線に近似することにより、対象物の像の輪郭を特定する（Ｓ２０）。

　このとき図７を参照して説明したように、画像上の歪みに基づき座標点の分布を補正したり、近似線からの差が大きい座標点をさらに除外したりしてもよい。位置情報生成部７４は、特定された輪郭線に基づき対象物の像の重心やサイズを取得する（Ｓ２２）。図７で示したように対象物が球体の場合、像の輪郭線は円形状となるため、その中心や半径を取得する。そして位置情報生成部７４は、重心やサイズに基づき対象物の実空間での位置情報を取得する（Ｓ２４）。撮像装置１２をステレオカメラとした場合、左右の視点から撮影された画像のそれぞれに対しＳ１０～Ｓ２２の処理を行うことで、重心位置の視差から対象物の距離を取得できる。

　撮像装置１２を単眼カメラとした場合、対象物の実際のサイズと像のサイズを比較することにより対象物の距離を取得できる。発光色を異ならせるなどして複数の対象物が撮像装置１２の視野内にある場合、Ｓ１０～Ｓ２４の処理を対象物ごとに実施する。また撮像装置１２が所定のレートで撮影した動画像の各フレームに対しＳ１０～Ｓ２４の処理を繰り返すことにより、対象物の位置の時間変化が得られる。情報処理部６６は、そのようにして得られた対象物の位置情報に基づきユーザの位置や動きを特定するなどして、適宜情報処理を行うことができる。

　以上述べた本実施の形態によれば、撮影画像を利用した対象物の位置検出において、対象物の像の輪郭を、内側から輝度を探索することにより検出する。このとき、元の素子による輝度の観測対象がＧ（緑）である画素を始点とし、画素配列において対角関係にある４方向に探索する。これにより、１度の探索で検出される輪郭線上の座標点は縦成分、横成分を同じ分解能とすることができる。また全ての探索経路で輝度が得られている間隔が同じとなるうえ、当該輝度に含まれる誤差が同等となるため、検出される座標点の精度も同等となる。その結果、最小二乗法など統計的な近似手法で、対象物の輪郭線を容易かつ正確に求めることができる。

　またＹＵＶ色空間における輝度Ｙの変化に基づき座標点を検出することにより、輝度の誤差が小さいＧの輝度に重心を置きつつ、Ｒ（赤）やＢ（青）の輝度も加味した評価が可能になる。さらに対象物の色の輝度の変化を用いてフィルタリングし、近似に用いる座標点の確度を高めることにより、周囲の明るさの変化に対する頑健性を保障する。これらの処理により、ＲＧＢそれぞれに対し離散的に輝度を検出する一般的な可視光のカメラを利用して、サブピクセルレベルで高精度に対象物の像の輪郭線を取得できる。このようにして得られた輪郭線や、それから特定される対象物の像の重心やサイズを利用して、対象物の実空間での位置を効率的かつ高精度に求められる。

　以上、本発明を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

６　発光部、　１　情報処理システム、　１０　情報処理装置、　１２　撮像装置、　１６　表示装置、　１８　発光デバイス、　２２　ＣＰＵ、　２４　ＧＰＵ、　２６　メインメモリ、　６０　撮影画像取得部、　６２　データ記憶部、　６４　位置情報取得部、　６６　情報処理部、　６８　出力データ生成部、　７０　対象物検出部、　７２　輪郭探索部、　７４　位置情報生成部。

　以上のように本発明は、ゲーム装置、画像処理装置、パーソナルコンピュータなどの情報処理装置、およびそれを含む情報処理システムなどに利用可能である。

Claims

　対象物を撮影した撮影画像のデータを取得する撮影画像取得部と、
　前記撮影画像における前記対象物の像の領域内部からの輝度の、位置に対する変化が所定の条件を満たす座標点を探索することにより、当該像の輪郭線を求める輪郭探索部と、
　前記輪郭線に基づき前記対象物の実空間における位置情報を生成し出力する位置情報生成部と、
　を備え、
　前記輪郭探索部は、前記像の領域内部の画素を始点とし、画素配列における対角方向に前記座標点を探索することを特徴とする情報処理装置。
　前記撮影画像取得部は、ベイヤ配列で取得された輝度データを画像平面上で色ごとに補間してなるカラー画像のデータを取得し、
　前記輪郭探索部は、元のベイヤ配列において同色である複数の画素を探索の始点とすることを特徴とする請求項１に記載の情報処理装置。
　前記輪郭探索部は、元のベイヤ配列において緑色の画素を探索の始点とすることを特徴とする請求項２に記載の情報処理装置。
　前記輪郭探索部は複数方向に探索を行い、検出した前記座標点の分布を最小二乗法により前記対象物の像として想定される形状に近似することにより、前記輪郭線を求めることを特徴とする請求項１から３のいずれかに記載の情報処理装置。
　前記輪郭探索部は少なくとも、探索経路にある画素の色をＹＵＶ空間で表したときの輝度Ｙの、位置に対する変化に基づき、前記座標点を検出することを特徴とする請求項１から４のいずれかに記載の情報処理装置。
　前記輪郭探索部はさらに、探索経路にある画素の色のうち前記対象物の色成分の輝度の、位置に対する変化に基づき、前記座標点をフィルタリングすることを特徴とする請求項５に記載の情報処理装置。
　前記撮影画像取得部は、前記対象物を左右の視点から撮影したステレオ画像のデータを取得し、
　前記位置情報生成部は、前記輪郭線に基づき前記対象物の像の重心を前記ステレオ画像のそれぞれについて算出し、その視差に基づき前記位置情報を生成することを特徴とする請求項１から６のいずれかに記載の情報処理装置。
　前記位置情報生成部は、前記輪郭線に基づき前記対象物の像のサイズを算出し、当該対象物の実物のサイズと比較することにより、前記位置情報を生成することを特徴とする請求項１から６のいずれかに記載の情報処理装置。
　前記輪郭探索部は、撮像装置から既知の距離にある対象物を撮影した撮影画像において、始点とする画素をずらして探索することにより始点ごとに前記輪郭線を求め、その結果得られた前記位置情報の誤差に基づき、探索の始点とすべき画素を特定することを特徴とする請求項２または３に記載の情報処理装置。
　対象物を撮影した撮影画像のデータを取得しメモリに格納するステップと、
　前記メモリから読み出した前記撮影画像における前記対象物の像の領域内部からの輝度の、位置に対する変化が所定の条件を満たす座標点を探索することにより、当該像の輪郭線を求めるステップと、
　前記輪郭線に基づき前記対象物の実空間における位置情報を生成し出力するステップと、
　を含み、
　前記輪郭線を求めるステップは、前記像の領域内部の画素を始点とし、画素配列における対角方向に前記座標点を探索することを特徴とする、情報処理装置による情報処理方法。
　対象物を撮影した撮影画像のデータを取得する機能と、
　前記撮影画像における前記対象物の像の領域内部からの輝度の、位置に対する変化が所定の条件を満たす座標点を探索することにより、当該像の輪郭線を求める機能と、
　前記輪郭線に基づき前記対象物の実空間における位置情報を生成し出力する機能と、
　をコンピュータに実現させ、
　前記輪郭線を求める機能は、前記像の領域内部の画素を始点とし、画素配列における対角方向に前記座標点を探索することを特徴とするコンピュータプログラム。