JPWO2019016879A1

JPWO2019016879A1 - 物体検出装置、及び、物体検出手法

Info

Publication number: JPWO2019016879A1
Application number: JP2019530278A
Authority: JP
Inventors: 亮祐三木; 聡笹谷; 誠也伊藤
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2017-07-19
Filing date: 2017-07-19
Publication date: 2020-03-26
Anticipated expiration: 2037-07-19
Also published as: JP6802923B2; WO2019016879A1

Abstract

計測範囲内に検出対象が存在するか否かを判定する物体検出装置であって、撮像装置からの入力を基に前記計測範囲内の三次元情報を取得する三次元情報取得部と、前記検出対象が存在し得る識別候補領域を抽出する識別候補領域抽出部と、前記検出対象の検出に用いる識別器と、該識別器の情報を取得する識別器情報取得部と、前記識別候補領域内の三次元情報を仮想的に視点変換処理するパラメータを決定する画像変換方法決定部と、仮想的に視点変換処理した前記識別候補領域内の三次元情報を基に変換画像を生成する画像変換実施部と、該変換画像を基に前記識別器を用いて前記検出対象を検出する識別部と、を備えることを特徴とする物体検出装置。

Description

本発明は、カメラの設置状態が変化した場合や、カメラおよび検出対象の移動により検出対象の映り方が変化した場合であっても、それらの変化に対して頑健な物体検出を実現する物体検出装置、及び、物体検出方法に関する。

監視カメラなどの撮像デバイスが取得した画像情報から検出対象の物体（例えば、人物、貨物、車両等）を検出する物体検出技術へのニーズが高い。一般的な物体検出技術としては、検出対象の物体が存在しない背景画像を予め用意しておき、入力された撮像画像と背景画像を比較することで、物体を検出する背景差分や、映像のフレーム間における特徴点の差分によって動体を検出するオプティカルフローなどがある。しかし、これらの方法では、画像中の動きのあるものを全て検出してしまうため、例えば画像中から特定の対象のみを検出することができない。

そこで、物体の輪郭情報や、外見から読み取れる色や形状などのアピアランス情報などを利用して特定の物体を検出する技術が求められる。

例えば、特許文献１では、段落００３４に「ＨＯＧによるアピアランスに基づく特徴量から得られる輪郭情報から人である判定され、かつ、ピクセル状態分析による時空間特徴に基づく特徴量から前景（動状態または静状態）であると判定された画像を人と判別する」識別部が記載されている。この記載をはじめ、特許文献１には、人物を含む画像と含まない画像から成る学習サンプルから、人物の輪郭情報を抽出し、人物と人物以外に区別する識別器を生成する手段と、識別器を用いて画像上の所定の領域に人物が存在するか否かを判定する手段とを用いて、人物検出を実現する技術が開示されている。

また、特許文献２では、段落００１６に「この監視画像２０００上の変形検知領域２１００は、カメラ装置の各パラメータに関する情報を反映し、図３に示すように、監視画像２０００の歪みを考慮した上で作成される。そして、物体認識装置１（１ａ）は、歪み等で変形した認識対象を含む領域として作成された変形検知領域２１００の画像情報１００について、特徴量を抽出し、認識対象の物体か否かを判定する。」と記載されている。この記載をはじめ、特許文献２には、特許文献１の応用技術として、画像上の検出対象が、カメラ特有のレンズ歪みの影響で変形することを想定し、識別器を用いて人物が存在するか否かを判定する前に、入力する所定の領域を変形させることで検出率を向上させる技術が開示されている。

特開２００９−１８１２２０号公報特開２０１２−２２１４３７号公報

特許文献１では、特定姿勢の人物画像（例えば、直立姿勢を正面から撮影した画像）を学習サンプルとして識別器に学習させ、この識別器を用いて人物検出することで、特定姿勢の人物の検出率を高めている。

しかし、実際に撮影された画像中では、カメラ装置と人物の相対位置関係や、カメラ装置のレンズ歪みによって、人物の姿勢（見え方）が大きく変化するため、学習サンプルと撮影画像中の人物の輪郭情報が相違する場合は、特許文献１の識別器では、人物検出の精度が低下してしまうという課題がある。

また、特許文献２では、同文献の図１３等に示されるように、カメラ装置のパラメータ情報と、検出対象とカメラ装置の位置関係から、識別器に入力する人物の輪郭情報を予め設定した特定の姿勢と同一になるように変形（正規化）することで、人物の姿勢が一定の範囲で変化している場合であっても、識別器による検出率を維持することができる。

しかし、検出対象の見え方が想定と大幅に異なる場合や、検出対象の一部が遮蔽物の陰に隠れている場合には、特許文献２の物体認識方法では、検出率が大幅に低下するという課題がある。例えば、人物の頭部、腕部、胴体、脚部の全てを含む画像からは容易に人物を検出できる場合であっても、人物を真上から撮影した画像や、下半身が遮蔽物に隠された人物を撮影した画像を用いた場合は、画像中から脚部を検出できない等の理由により、特許文献２の識別器では、画像中の人物検出率が大幅に低下してしまう。

このような課題を解決するため、本発明では、識別器に対応しない姿勢の人物を含む撮影画像や、人体の一部が障害物の影に隠れた状態で撮影された画像を用いた場合においても、高精度な人物検出を実現できる物体検出装置を提供することを目的とする。

本発明に係る物体検出装置は、計測範囲内に検出対象が存在するか否かを判定する物体検出装置であって、撮像装置からの入力を基に前記計測範囲内の三次元情報を取得する三次元情報取得部と、前記検出対象が存在し得る識別候補領域を抽出する識別候補領域抽出部と、前記検出対象の検出に用いる識別器と、該識別器の情報を取得する識別器情報取得部と、前記識別候補領域内の三次元情報を仮想的に視点変換処理するパラメータを決定する画像変換方法決定部と、仮想的に視点変換処理した前記識別候補領域内の三次元情報を基に変換画像を生成する画像変換実施部と、該変換画像を基に前記識別器を用いて前記検出対象を検出する識別部と、を備えるものとした。

本発明の物体検出装置によれば、カメラ装置と物体の相対位置が想定と大幅に異なる画像や、物体の一部が遮蔽された画像を用いた場合においても、検出対象の物体を高精度に検出することができる。

実施例１の物体検出装置の構成例を示す図である。実施例１の識別候補領域抽出部の詳細を示す図である。実施例１の識別候補領域情報管理部の詳細を示す図である。二次元画像中の識別候補領域を示す図である。三次元撮影空間中の識別候補領域を示す図である。実施例１の識別器の詳細を示す図である。実施例１の画像変換方法決定部の詳細を示す図である。実施例１の視点変換部の処理内容を説明する図である。画像変換方法決定部の効果を説明する図である。画像変換方法決定部の効果を説明する図である。実施例１の構成例の識別部の詳細を示す図である。実施例１における処理フロー例を示す図である。実施例２の物体検出装置の構成例を示す図である。実施例２の画像変換方法決定部の処理を説明する図である。実施例２の画像変換方法決定部の処理フローを説明する図である。図１２の処理フローの詳細を説明する図である。

以下、本発明の実施例について、適宜図面を参照しながら詳細に説明する。なお、以下では検出対象を人物とした例を説明するが、検出対象は人物に限定されず、貨物や車両等であっても良い。また、カメラ等の撮像装置で撮影した画像情報から検出対象を検出する例を説明するが、検出対象を含む情報は撮像装置で撮影した画像情報に限定されず、サーモセンサで取得したヒートマップであっても良い。

実施例１の物体検出装置２ａについて、図１から図９を用いて説明する。

図１は、ステレオカメラ等の撮像装置１と接続された、本実施例の物体検出装置２ａの概要を示すブロック図である。物体検出装置２ａは、撮像装置１と検出対象の相対位置の変化により、撮像装置１の撮影画像上での検出対象の見え方が変化した場合であっても、検出対象の頑健な検出を実現する物体検出装置である。

図１に示す物体検出装置２ａにおいて、３は撮像装置１からの入力を基に計測範囲内の画像情報を取得する画像取得部、４は撮像装置１からの入力を基に計測範囲内の三次元情報を取得する三次元情報取得部、５は画像情報と三次元情報を利用して検出対象が存在し得る領域である識別候補領域を計測範囲から抽出する識別候補領域抽出部、６は物体検出装置２ａにて使用する識別器６４の情報を取得する識別器情報取得部、７ａは識別器の情報を用いて識別候補領域を、識別器６４の入力として最適な画像へ変換する方法を決定する画像変換方法決定部、８は決定された画像変換方法に基づき識別候補領域から変換画像を取得する画像変換部、９は変換画像中に検出対象が含まれるか否かを判別する識別部である。なお、画像取得部３から識別部９の一部または全部は、必ずしも専用のハードウェアである必要はなく、半導体メモリ等の主記憶装置に記憶されたプログラムやハードディスク等の補助記憶装置に記憶されたデータを、ＣＰＵ等の演算装置で処理することで実現されるものであっても良い。

以下、図１に示した、撮像装置１、識別候補領域抽出部５、識別器情報取得部６、画像変換方法決定部７ａ、画像変換部８、識別部９について、個々に詳細説明する。
＜撮像装置＞
撮像装置１は、計測範囲の画像情報と三次元情報を取得できる装置である。ここで、画像情報とはデジタル画像データにおける輝度情報、三次元情報とは計測範囲（三次元空間）における三次元点群の座標情報である。

撮像装置１としては、２台以上のカメラからなるステレオカメラや、１台のカメラと三次元情報を取得可能な距離センサの組み合わせでもよい。例えば、ステレオカメラは、２台以上のカメラで同一の対象を撮影することにより、三角測量の原理を利用してカメラから対象までの距離を計測するものであり、画像情報と三次元情報の両方を取得することができる。また、距離センサは投射した光が対象で反射し、距離センサに戻るまでの時間を、投射光と反射光の位相差から算出することで、対象までの距離を計測するものであり、予め位置合わせをしたカメラと組み合わせることで、三次元情報と画像情報を関連付けて取得できる。
＜識別候補領域抽出部＞
図２は識別候補領域抽出部５の詳細を示している。識別候補領域抽出部５は、画像取得部３および三次元情報取得部４の取得する画像情報もしくは三次元情報、またはその両方を利用し、検出対象が存在し得る識別候補領域５５を抽出するものであり、画像情報を用いて識別候補領域５５を抽出する画像処理部５１と、三次元情報を用いて識別候補領域５５を抽出する三次元情報処理部５２と、抽出した１つ以上の識別候補領域５５にＩＤを付与する識別候補領域ＩＤ付与部５３と、識別候補領域５５の位置を表す識別候補領域情報を取得し、管理する識別候補領域情報管理部５４を備えている。以下、画像処理部５１、三次元情報処理部５２、識別候補領域ＩＤ付与部５３、識別候補領域情報管理部５４について詳細に説明する。

画像処理部５１は、撮像装置１が取得した画像情報に対して画像処理を実施することで識別候補領域５５を抽出する。ここで実行される画像処理としては、例えば、検出対象が存在しない状態の撮影空間を撮影した背景画像を予め取得しておき、その背景画像と撮影した画像との差分を算出する背景差分があるが、肌色検出などのカラー情報を用いた検出など、画像情報によって検出対象の領域を抽出できる手段であれば、特に限定しない。

三次元情報処理部５２は、撮像装置１が取得した三次元情報に対して三次元処理を実施することで識別候補領域５５を抽出する。ここで実行される三次元処理としては、例えば、検出対象が存在しない状態の撮影空間の背景三次元情報を予め取得しておき、その背景三次元情報と改めて取得した三次元情報との差分を算出する方法があるが、三次元処理を実施することで識別候補領域５５を取得するものであれば、特に限定しない。

次に、図３Ａ〜図３Ｃを用いて、識別候補領域ＩＤ付与部５３と識別候補領域情報管理部５４について説明する。

識別候補領域ＩＤ付与部５３では、画像処理部５１や三次元情報処理部５２で抽出した識別候補領域５５の各々に対しＩＤを付与する。また、識別候補領域情報管理部５４では、ＩＤに当該識別候補領域の位置情報を付加し、識別候補領域情報54_nとして管理する。なお、位置情報は、当該識別候補領域の二次元画像中の始点と終点を示す画像位置、および、当該識別候補領域の三次元撮影空間中の始点と終点を示す三次元位置である。

図３Ａは、識別候補領域情報管理部５４が管理するｎ個の識別候補領域情報54_nを例示したものであり、各々の識別候補領域情報54_nには、ＩＤに加え、対応する識別候補領域５５の位置情報である画像位置と三次元位置が記録されていることを示している。図３Ｂは、識別候補領域情報54_1の画像位置を具体的に示すものであり、５６ａ、５６ｂは、撮像装置１の撮影画像における矩形の識別候補領域５５の始点(x1,y1)と終点(x1’,y1’)を示している。同様に、図３Ｃは、識別候補領域情報54_1の三次元位置を具体的に示すものであり、５７ａ、５７ｂは、直方体状の識別候補領域５５の始点(X1,Y1,Z1)と終点(X1’,Y1’,Z1’)を示している。なお、図３Ｂ、図３Ｃでは、矩形、直方体状の識別候補領域５５を例示したが、識別候補領域５５の位置を特定できる表現であれば、他の形状の識別候補領域を用いても良い。この場合、図３Ａ中の画像位置、三次元位置の情報も当該他の形状の識別候補領域に合わせた表現とすることは言うまでもない。
＜識別器情報取得部＞
次に、図４を用いて、識別器情報取得部６を説明する。識別器情報取得部６は複数用意されている識別器６４から適切なものを選択し、それに対応した識別器情報６５を抽出するものである。なお、67_nは識別器64_nを管理するために付与される識別器ＩＤである。

識別器６４は、撮像装置１の撮影画像中に検出対象が含まれるかを判別する識別処理に用いられ、識別器64_nの夫々は、異なる姿勢の検出対象に対して高い識別能力を有するものである。検出対象を含む画像と含まない画像（学習サンプル）を機械学習方法により多数学習することで、各々の識別器64_nに異なる特性を持たせることができる。なお、機械学習方法としては、Support Vector Machineが一般的であるが、他の機械学習方法を用いても良い。

識別器情報65_nは識別器64_nが特に高い識別能力を発揮する入力画像を示すものである。図４では、識別器情報として、正面視した人物画像の識別に強いテンプレート66_1、上面視した人物画像の識別に強いテンプレート66_2、側面視した人物画像の識別に強いテンプレート66_nを例示しているが、色情報や輪郭を表現する特徴量、或いは、輝度情報、勾配情報など、識別器64_nの入力に適当な画像もしくは画像の生成方法を表現する識別器情報であれば、他の情報を記録しておいても良い。
＜画像変換方法決定部＞
次に、図５を用いて、画像変換方法決定部７ａの処理フローを説明する。画像変換方法決定部７ａは、図３Ｃに例示した直方体状の識別候補領域５５内の三次元情報を基に、識別器６４への入力として最適な画像へ変換するための変換方法（パラメータ等）を決定するものである。画像変換方法決定部７ａの処理フローとしては、まず視点変換のパラメータを決定し（S51）、そのパラメータを用いて視点変換画像を生成する（S52）。そして、複数の識別器６４の各々が保持する識別器情報６５を参照して変換画像との類似度を算出し（S53）、類似度が閾値より高ければ処理を終了し、閾値以下ならステップS51に戻り、パラメータを他の値に変更する（S54）。以下、ステップS51、S52、S53、S54について詳しく説明する。

ステップS51では、視点変換画像の生成に必要なパラメータα、β、γを決定する。なお、各パラメータの詳細については後段にて詳しく説明する。ステップS51における、パラメータα、β、γの決定方法としては網羅的に変動させる方法がある。

ステップS52では、図６に示す処理を行う。図６において、８２は識別候補領域５５を観測する視点、８３、８４、８５は計測範囲に設定した三次元空間の座標系におけるｘ軸、ｙ軸、ｚ軸、86_1、86_2は視点変換によって作成される変換画像の一例を示している。ステップS52では、ステップS51で決定したパラメータα、β、γを用いて、直方体状の識別候補領域５５に含まれる三次元情報を、ｘ軸８３を中心にα、ｙ軸８４を中心にβ、ｚ軸８５を中心にγだけ回転させることで、任意の視点から観測した状態に視点変換し、視点変換後の識別候補領域５５を画像に投影することで変換画像８６を取得する。

視点変換の方法としては、式１〜式３のような変換式を用いることが一般的であるが、他の視点変換方法を用いても良い。

識別候補領域５５を変換画像86_nに投影する方法としては、透視投影が一般的な方法であるが、他の方法を用いても良い。例えば、直立する人物の三次元情報を含む識別候補領域５５を、視点８２の方向に設置した撮像装置１で撮影した場合、視点変換せずに、識別候補領域５５を投影することで、人物を上面視した変換画像86_1を取得できる。これに対し、同じ撮像装置１で撮影した識別候補領域５５を、α＝０°、β＝０°、γ＝９０°だけ回転する視点変換を実施し、視点８２に対して識別候補領域５５を画像に投影すると、人物を側面視した変換画像86_2を取得できる。

さらに、図５のステップS53では、最適化処理を実施することで、識別器６４に対して最も適する画像への画像変換方法を決定する。画像変換方法の決定方法としては、例えば、識別器情報６５を参照してテンプレート６６を取得し、識別候補領域５５に対して視点変換を実施して取得する変換画像86_nとの類似度を算出する方法などがある。類似度の算出方法として、例えば、Normalized Cross-Correlationなどのパターンマッチングを用いることが一般的であるが、他の方法を用いても良い。この際、評価関数を類似度とし、パラメータα、β、γが変数となる評価関数を設計し、この評価関数を最大化する最適化問題を解くことで、識別器64_nに対して類似度が最大となる画像変換方法を取得する。なお、図４に例示したように、識別器６４が２つ以上存在する場合は、識別候補領域５５に対して取得する変換画像86_nとの類似度を各識別器に対して算出し、類似度が最大となった識別器64_nのＩＤを取得しておく。

ステップS54ではステップS53で算出した変換画像86_nと識別器情報６５の類似度を閾値と比較し、類似度が閾値以上の場合は処理を終了し、閾値未満の場合はステップS51に戻り、異なるパラメータに変更したうえで、同様の処理を繰り返す。ステップS54で用いられる閾値は、物体検出装置２ａの設置者が任意に設定してもよいが、所定の閾値により物体検出装置２ａによる物体検出を実行した際の物体検出の精度をフィードバックすることで、閾値を適当な値に変更しても良い。例えば、ある閾値を用いた物体検出装置２ａの精度が不十分であると判断された際に、閾値をより高い値に変更する方法などがある。

なお、ステップS51にてパラメータを決定する際に、画像変換方法決定部７ａは予めパラメータα、β、γによって生成される変換画像の縦横の比率を記録した行列マップを作成し、それを参照して決定しても良い。あるいは、撮影空間を複数の領域に分割し、各領域に対しておおよそ有効であるパラメータα、β、γを保持した行列マップを用意し、それを参照して決定しても良い。その際、行列マップが保持するパラメータα、β、γよりも適したものが判明した場合には更新する方法でも良い。あるいは、カメラパラメータを取得して撮像装置１の設置状態の情報を取得することで、おおよそ有効であるパラメータα、β、γを決定する方法でも良い。

また、画像変換方法決定部７ａにおいて、パラメータα、β、γを変更して類似度を計算する処理を続行するか否かを判断し、続行する場合はステップS51に戻り、続行しない場合は処理を終了することとしても良い。処理を実行するか否かの判断基準は、例えば、パラメータα、β、γを変更した回数が、あらかじめ設定した回数を上回ったかどうかによって決定しても良い。あるいは、ステップS53にて計算した類似度があらかじめ設定した最低値以下の場合に処理を終了するという方式でも良い。類似度が閾値以上にならない場合でも処理を終了することにより、識別候補領域５５に検出対象の物体が含まれていない場合に、物体検出装置２ａの物体検出処理が繰り返し実施される無駄を防ぐことができる。

次に、図７Ａ、図７Ｂを用いて、画像変換方法決定部７ａの効果を説明する。図７Ａにおいて８２ａ、８２ｂ、８２ｃは撮像装置１の視点（設置位置・方向）を示し、８７ａ、８７ｂ、８７ｃはそれぞれの視点の撮影画像から抽出した、人物を含む矩形画像を示す。

直立する人物を撮影した矩形画像８７ａ、８７ｂ、８７ｃを基に、図７Ｂに示す識別器64_1、64_2を用いて人物を検出する場合、視点８２ａから撮影した矩形画像８７ａは識別器64_1のテンプレート66_1と類似度が高く、視点８２ｃから撮影した矩形画像８７ｃは識別器64_2のテンプレート66_2と類似度が高い。そのため、矩形画像８７ａと矩形画像８７ｃについては、識別器64_1または識別器64_2を用いることで容易に人物を検出できる。

一方、視点８２ｂから撮影した矩形画像８７ｂ中の人物には、撮像装置１の視線の傾きを原因とする変形（テンプレートとのずれ）が発生しており、テンプレート66_1、テンプレート66_2の何れとも類似度が低いため、識別器64_1、識別器64_2では人物を識別できない。このため、視点８２ｂの撮像装置１だけが設置された現場では、従来は人物を検出することが困難であった。

このような場合であっても、本実施例の画像変換方法決定部７ａを用いることで、矩形画像８７ｂ中の変形した検出対象も検出が可能となる。以下に視点８２ｂから撮影した変形した人物を検出する手順を説明する。

まず、パラメータα、β、γを決定し、それを入力として矩形画像８７ｂに対し仮想的な視点変換を実施することで変換画像８６ｂを作成する。そして、変換画像８６ｂとテンプレート66_1およびテンプレート66_2との類似度を計算し、閾値以上の類似度を示す識別器64_nがあった場合、その識別器のＩＤ６７を取得する。閾値以上の類似度を示す識別器64_nがない場合は、パラメータα、β、γを再度決定し、同様の処理を実施する。矩形画像８７ｂはカメラの傾きによる変形が発生しているものの、人物の正面の画像情報、三次元情報を取得できている。そのため、視点８２ｂから撮影した矩形画像８７ｂを視点８２ａへ仮想的に視点変換した場合、矩形画像８７ａと類似した変換画像８６ｂを取得でき、識別器64_1への入力に適した画像を得ることが可能となる。

同様に、視点８２ｂから撮影した矩形画像８７ｂを視点８２ｃへ仮想的に視点変換した場合、矩形画像８７ｃと類似した変換画像８６ｂを取得でき、識別器64_2への入力に適した画像を得ることが可能となる。

ここで、視点８２ｂと人物の間に障害物が存在し、人体の一部（例えば脚部）が矩形画像８７ｂに映らない状況下での画像変換方法決定部７ａの利点を説明する。矩形画像８７ｂを視点８２ａへ視点変換した場合、矩形画像８７ｂと同様に変換画像８６ｂも脚部を欠落するため、脚部検出を必要とする識別器64_1では人物を検出できない。これに対し、矩形画像８７ｂを視点８２ｃへ視点変換した場合、矩形画像８７ｂと同様に変換画像８６ｂも脚部を欠落しているが、脚部検出が不要な識別器64_2では人物を検出することができる。すなわち、人体の一部が欠落した矩形画像８７ｂが入力された場合であっても、画像変換方法決定部７ａにて適切な画像変換方法を決定し、それに応じた識別器６４を選択すれば、正確な人物検出を実現することができる。
＜画像変換部＞
画像変換部８は、画像変換方法決定部７ａが決定した画像変換方法に従って識別候補領域５５を変換し、識別器６４への入力に適した変換画像８６を取得するものである。なお、画像変換方法はステップS52と同様に、例えば式１〜式３のような変換式を用いることができるが、他の方法を用いても良い。
＜識別部＞
図８は識別部９の詳細を示している。識別部９は、画像変換部８が取得する変換画像86_n中に検出対象が含まれるか否かを判定するものであり、少なくとも１つ以上の識別器64_nを記録する識別器記録部９１と、識別器64_nを用いて変換画像86_nに対して識別処理を実施する識別処理実施部９２と、識別処理の結果を出力する識別結果出力部を備える。以下、識別処理実施部９２、識別結果出力部９３について、詳細に説明する。

識別処理実施部９２は、識別器記録部９１に記録された識別器64_nを用いて、画像変換部８が出力した変換画像86_nに対し識別処理を実施する。識別器記録部９１に識別器64_nが２つ以上記録されている場合、識別処理実施部９２は、画像変換方法決定部７ａにて選択された識別器64_nのＩＤを取得し、そのＩＤに対応する識別器64_nを選択した後に、画像変換実施部７が出力した変換画像86_nに対し識別処理を実施する。

識別結果出力部９３は、識別処理実施部９２の識別処理結果を外部に出力する。例えば、物体検出装置２ａがモニタなどの表示装置に接続される場合、その表示装置に撮影空間の画像を表示してもよい。そして、識別処理実施部９２が、変換画像86_n中に検出対象を含むと判定した場合、その変換画像86_nの基となった識別候補領域５５の識別候補領域情報54_nを参照し、撮像装置１の撮影画像中における識別候補領域５５の画像位置を取得する。そして、表示装置に表示される撮影画像中の検出対象に対応する位置に矩形の検出窓等を表示したり、検出対象が検出された旨をメッセージとして表示してもよい。
＜処理フロー＞
次に、図９を用いて、本実施例の物体検出装置２ａにおける物体検出の処理フローを説明する。

ステップS91では、先ず、撮像装置１は計測範囲に対応する画像情報及び三次元情報を取得し、物体検出装置２ａに出力する。画像取得部３は撮像装置１からの入力を基に画像情報を取得し、三次元情報取得部４は撮像装置１からの入力を基に三次元情報を取得する。

ステップS92では、識別候補領域抽出部５を用いて識別候補領域５５を抽出する。具体的には、画像処理部５１で抽出した矩形領域と、三次元情報処理部５２で抽出した直方体領域を識別候補領域５５とした後、抽出された識別候補領域５５に対し、識別候補領域ＩＤ付与部５３によってＩＤを付与する。

ステップS93では、抽出された識別候補領域５５から、識別処理の対象とする１つの識別候補領域５５を選択する。

ステップS94では、選択された識別候補領域５５に対し、視点変換を実施し、画像に投影することで変換画像86_nを取得する。最適化処理により、識別器情報６５に対して類似度が最大となる画像変換方法を取得する。識別器64_nが２つ以上存在する場合は、例えば、識別候補領域５５に対して視点変換を実施して取得する変換画像86_nとテンプレート６６の類似度が最大となった識別器64_nのＩＤを取得し、対応する識別器64_nに対して適切な画像変換方法を決定する。

ステップS95では、ステップS94にて決定された変換方法により、選択された識別候補領域５５に対して画像変換を実施し、変換画像86_nを取得する。

ステップS96では、ステップS95にて取得した変換画像86_nに対して、識別器64_nを用いて識別処理を実施する。

ステップS97では、識別処理の結果、変換画像中に検出対象が含まれるか否かを判定する。含まれる場合はステップS98を実施し、含まれない場合はステップS99を実施する。

ステップS98では、識別処理の結果、変換画像中に検出対象が含まれると判定された際に、識別結果を出力する。物体検出装置２ａが、例えばモニタなどの表示装置に接続される場合、表示装置に撮影空間の画像を表示し、画像中において、識別候補領域５５に対応する位置に矩形の検出窓を表示したり、検出対象が検出された旨を示すメッセージを表示してもよい。識別候補領域５５に対応する位置は、識別候補領域情報管理部５４に記録される位置情報を参照して取得する。

ステップS99では、選択された識別候補領域５５に対する識別処理を終了した後に、ステップS92にて抽出されたすべての識別候補領域５５に対して識別処理を実施したかを判定する。そして、識別処理が未実施な識別候補領域５５が存在する場合、ステップS93を実施し、識別処理が未実施な識別候補領域５５が存在しない場合、物体検出処理を終了する。

以上説明したように、実施例１の物体検出装置２ａでは、抽出した識別候補領域５５を仮想的な視点変換により識別器への入力に適した画像に変換してから、検出対象の検出を実施することで、画像中の検出対象の見え方が識別器のテンプレートと相違する場合や、画面中の検出対象の一部が遮蔽物によって隠されている場合においても、検出対象を高精度に検出することができる。

次に、実施例２の物体検出装置２ｂについて、図１０から図１３を用いて説明する。なお、実施例１と共通する点は、重複説明を省略する。

図２は、ステレオカメラ等の撮像装置１と接続された、本実施例の物体検出装置２ｂの概要を示すブロック図である。実施例１の物体検出装置２ａでは三次元情報を回転させるためのパラメータα、β、γを網羅的に変更する画像変換方法決定部７ａを用いたが、本実施例の物体検出装置２ｂではより効率的にパラメータα、β、γを決定できる画像変換方法決定部７ｂを用いる。以下、画像変換方法決定部７ｂについて詳細に説明する。

先ず、直立した人物を視点８２ｄから撮影している様子を示す図１１を用いて、画像変換方法決定部７ｂでの処理の概要を説明する。図１１において、Ｘｃ、Ｙｃ、Ｚｃはカメラ座標系のｘ軸、ｙ軸、ｚ軸であり、２０４は視点８２ｄに設置した撮像装置１の光軸を示す。ここで、カメラ座標系とは、撮影空間を表す三次元座標系として、撮像装置１のカメラの光学中心を原点とし、ｚ軸（Ｚｃ）をカメラの光軸２０４の方向に一致させ、ｘ軸（Ｘｃ）とｙ軸（Ｙｃ）は画像投影面２０５の横方向と縦方向に平行にとったものである。また、２０５は画像投影面、２０６は視点８２ｄから撮影した画像、２０７は視点８２ｄから取得した三次元情報、２０８は検出対象の姿勢方向を示す直線、２０９、２１０は識別候補領域５５と直線２０８のカメラ座標系における交点座標(Xct,Yct,Zct)、(Xcb,Ycb,Zcb)を示し、２１１、２１２は仮想的な視点変換後の識別候補領域５５と直線２０８のカメラ座標系における交点座標(Xct’,Yct’,Zct’)、(Xcb’,Ycb’,Zcb’)を示す。

本実施例の画像変換方法決定部７ｂでは、図１１の下図に示すように、ｙ軸（Ｙｃ）に対して傾いた直線２０８を、ｙ軸（Ｙｃ）と平行な直線２０８’に変換するためのパラメータα、β、γを算出する。そして、変換後の識別候補領域５５’の三面図を生成することで、識別器６７への入力として最適な変換画像８６を取得する。

図１２は、上記のパラメータα、β、γの決定処理を含む、画像変換方法決定部７ｂの処理フローを示している。以下、この処理フローを概説する。

最初に、視点変換のパラメータβを０°に設定（S121）した後、直線２０８を取得する（S122）。そして、この直線２０８を回転させる任意のパラメータα、γを設定（S123）した後に、設定したパラメータα、β、γを利用して検出対象の三面図を生成する（S124）。そして、三面図のうちひとつを変換画像８６として選択した後（S125）、選択した変換画像８６と識別器情報６５の類似度を算出し（S126）、類似度が閾値以上であれば、選択中の変換画像８６を識別器６４への入力画像と決定して処理を終了する。一方、類似度が閾値未満ならステップS128へ遷移する（S127）。ステップS128では、生成した三面図のすべてを変換画像として選択したかを判定し、すべてを選択していない場合はステップS125へ遷移し、β＝０°の場合の三面図すべてについて類似度を算出した場合はステップS129へ遷移する（S128）。ステップS129では、パラメータβを変更して、すなわち、ｙ軸（Ｙｃ）を中心に識別候補領域５５を回転させてから、ステップS124へ戻り（S129）、類似度が閾値以上の変換画像８６が得られるまで、処理を繰り返す。以下、特に重要なステップS122、S123、S124、S129について詳細に説明する。

ステップS122では直線２０８を取得する。直線２０８の求め方の一例しては、識別候補領域５５の三次元情報を参照し、三次元点群の各点同士のユークリッド距離が最大となる２点を結んだ直線をとるものとする。これは、検出対象が直立した人物である場合、その人物を含む識別候補領域５５は鉛直方向に長い直方体であると予測でき、ユークリッド距離が最大となる方向が、人物の姿勢方向を示す直線２０８であると推定できるからである。また、識別候補領域５５の三次元点群に対して主成分分析を実施し、その第一成分の方向にとった直線でも良い。あるいは、一般的な床面推定方法により、撮影する空間に存在する床面を検出可能な場合、その床面と直交する方向と、頭部に対応する１つの点の情報を用いて直線２０８を決定する方法をとっても良い。

ステップS123では、交点座標２１１と交点座標２１２のｘ値、ｚ値が共に等しくなるような、すなわち、Ｘｃｔ’＝Ｘｂｔ’かつＺｃｔ’＝Ｚｂｔ’となるようなパラメータα、γを決定する。Ｘｃｔ’とＸｃｂ’が等しくなるように識別候補領域５５を回転させた際のｚ軸（Ｚｃ）周りの回転角がパラメータγに対応し、Ｚｃｔ’とＺｃｂ’が等しくなるように識別候補領域５５を回転させた際のｘ軸（Ｘｃ）周りの回転角がパラメータαに対応する。ステップS121にてパラメータβは０°に設定されているため、以上の処理によりパラメータα、β、γを決定することができる。

次に、図１３を用いて、ステップS124の処理について説明する。ステップS124では、仮想的な視点変換後に識別候補領域５５の三面図を取得する。図１３において、視点８２ｅ、８２ｆ、８２ｇは三面図を生成するための視点であり、変換画像８６ｅ、８６ｆ、８６ｇは各視点より生成される変換画像８６を示す。直線２０８をｙ軸（Ｙｃ）と平行にするパラメータα、γを決定した後、パラメータβを変化させながら三面図を生成していくと、所定のパラメータβとなったときに、図１３の変換画像８６ｅに示すように、識別候補領域５５中の人物の正面からの視点へ仮想的に視点変換することができ、対応するテンプレートを持つ識別器６４を用いて人物を検出することができる。

しかしながら、実環境では遮蔽などにより検出対象の特定の方向からの見え方が識別に適さない場合がある。そこで、正面からの視点８２ｅからの変換画像８６ｅに加え、側面と上面からの視点８２ｆ、８２ｇからも変換画像８６ｆ、８６ｇを得ておくことで、候補となる識別器６４の数を増やし、物体検出の精度を向上させることができる。なお、視点８２ｅに対して、各パラメータをさらにα＝０°、β＝９０°、γ＝０°だけ回転させることで側面を見る視点８２ｆを設定でき、視点８２ｅに対して、各パラメータをさらにα＝９０°、β＝０°、γ＝０°だけ回転させることで上面を見る視点８２ｇを設定でき、視点８２ｅ、８２ｆ、８２ｇにおいて識別候補領域５５を透視投影することで、変換画像８６ｅ、８６ｆ、８６ｇを効率的に取得でき、これを三面図とすることで効率的な人物検出を実現できる。

以上説明した実施例２の物体検出装置では、実施例１に比べ、効率的にパラメータα、β、γを決定することができ、画像中で人物が変形する場合や、遮蔽が発生する場合においても高精度な人物検出を実施することができる。

１撮像装置、２ａ、２ｂ物体検出装置、３画像取得部、４三次元情報取得部、５識別候補領域抽出部、５１画像処理部、５２三次元情報処理部、５３識別候補領域ＩＤ付与部、５４識別候補領域情報管理部、５４＿ｎ識別候補領域情報５５識別候補領域、６識別器情報取得部、６４識別器、６５識別器情報、６６テンプレート、７ａ、７ｂ画像変換方法決定部、８画像変換部、８２視点、８６変換画像、８７矩形画像、９識別部、９１識別器記録部、９２識別処理実施部、９３識別結果出力部

Claims

計測範囲内に検出対象が存在するか否かを判定する物体検出装置であって、
撮像装置からの入力を基に前記計測範囲内の三次元情報を取得する三次元情報取得部と、
前記検出対象が存在し得る識別候補領域を抽出する識別候補領域抽出部と、
前記検出対象の検出に用いる識別器と、
該識別器の情報を取得する識別器情報取得部と、
前記識別候補領域内の三次元情報を仮想的に視点変換処理するパラメータを決定する画像変換方法決定部と、
仮想的に視点変換処理した前記識別候補領域内の三次元情報を基に変換画像を生成する画像変換実施部と、
該変換画像を基に前記識別器を用いて前記検出対象を検出する識別部と、
を備えることを特徴とする物体検出装置。
請求項１に記載の物体検出装置において、
前記撮像装置からの入力を基に前記計測範囲内の画像情報を取得する画像取得部、
を更に備えることを特徴とする物体検出装置。
請求項２に記載の物体検出装置において、
前記識別候補領域抽出部は、
前記画像情報、前記三次元情報、外部センサの少なくとも一つ以上を利用して、前記識別候補領域を抽出することを特徴とする物体検出装置。
請求項２または３に記載の物体検出装置において、
前記画像変換方法決定部は、
前記画像情報と前記三次元情報と前記識別器の情報を利用して、前記識別器の入力として最適な前記変換画像を生成するパラメータを決定することを特徴とする物体検出装置。
請求項２から４のいずれかに記載の物体検出装置において、
前記識別候補領域抽出部は、
複数の前記識別候補領域にＩＤを付与する識別候補領域ＩＤ付与部と、
前記識別候補領域のＩＤと、前記画像情報における位置と、前記三次元情報における位置を纏めて管理する識別候補領域情報管理部と、
を備えることを特徴とする物体検出装置。
請求項１から５のいずれかに記載の物体検出装置において、
前記識別器情報取得部は、前記識別器のＩＤと、特に高い識別能力を示す入力信号を表現する識別器情報を取得することを特徴とする物体検出装置。
請求項２から６のいずれかに記載の物体検出装置において、
前記画像変換方法決定部は、
前記仮想的な視点変換処理の結果に対して最適化処理を実施し、前記識別候補領域に前記検出対象が含まれるか否かを判定する識別器において最も適する画像への画像変換を実現する前記パラメータを決定することを特徴とする物体検出装置。
請求項６に記載の物体検出装置において、
前記識別器情報は、テンプレート、色情報、輝度情報、輪郭、勾配情報のいずれかであることを特徴とする物体検出装置。
請求項８に記載の物体検出装置において、
前記識別器情報がテンプレートである場合、
前記画像変換方法決定部は、前記視点変換処理を実施して取得する画像と前記テンプレートの類似度を算出し、前記類似度が最大となる前記識別器を選択することを特徴とする物体検出装置。
請求項２から９のいずれかに記載の物体検出装置において、
前記画像変換方法決定部は、前記撮像装置の設置状態を表現するカメラパラメータを利用し前記パラメータを決定する機能を備えることを特徴とする物体検出装置。
請求項２から１０のいずれかに記載の物体検出装置において、
前記識別部は、前記検出対象に対して識別能力を有する識別部を少なくとも１つを記録する識別器記録部と、
前記識別器を用いて前記変換画像に対して前記検出対象が含まれるか否かを識別する識別処理を実施する識別処理実施部と、
前記変換画像に前記検出対象が含まれると判定された場合に結果を出力する識別結果出力部と、
を備えることを特徴とする物体検出装置。
請求項２から１１のいずれかに記載の物体検出装置において、
前記画像変換方法決定部は、前記検出対象の三次元形状に基づいて前記パラメータを決定することを特徴とする物体検出装置。
請求項１２に記載の物体検出装置において、
前記画像変換方法決定部は、前記識別候補領域を通過する、検出対象の一般的な姿勢方向を示す直線を取得し、
前記直線が前記撮像装置のカメラ座標系のＹ軸と平行になるような仮想的な視点変換を実現する前記パラメータを取得する機能、
を備えることを特徴とする物体検出装置。
請求項１３に記載の物体検出装置において、
前記画像変換方法決定部は、前記直線が前記カメラ座標系のＹ軸と平行な状態に変換された後に、正面、側面、上面から前記識別候補領域を観測する視点へ仮想的な視点変換を実施し、それぞれの視点において前記変換画像を取得することを特徴とする物体検出装置。
請求項１３または１４に記載の物体検出装置において、
画像変換方法決定部は、
前記識別候補領域に含まれる三次元点群の各点同士のユークリッド距離が最大となる２点を結ぶことで前記直線を決定することを特徴とする物体検出装置。
請求項１３または１４に記載の物体検出装置において、
前記画像変換方法決定部は、
前記識別候補領域に含まれる三次元点群に対して主成分分析を実施し、
その第一成分の方向にとることで前記直線を決定することを特徴とする物体検出装置。
請求項１３に記載の物体検出装置において、
前記画像変換方法決定部は、
前記計測範囲の床面を推定し、
前記識別候補領域に対して前記検出対象の特定の部位を検出し、
前記部位に対応するひとつの点を通り、前記床面と直交する方向へのびる直線を前記直線に決定することを特徴とする物体検出装置。
計測範囲内に検出対象が存在するか否かを判定する物体検出方法であって、
撮像装置からの入力を基に前記計測範囲内の三次元情報を取得し、
前記検出対象が存在し得る識別候補領域を抽出し、
前記検出対象の検出に用いる識別器の情報を取得し、
前記識別候補領域内の三次元情報を仮想的に視点変換処理するパラメータを決定し、
仮想的に視点変換処理した前記識別候補領域内の三次元情報を基に変換画像を生成し、
該変換画像を基に前記識別器を用いて前記検出対象を検出することを特徴とする物体検出方法。