WO2017098709A1

WO2017098709A1 - 画像認識装置および画像認識方法

Info

Publication number: WO2017098709A1
Application number: PCT/JP2016/005037
Authority: WO
Inventors: 繁齋藤; 村瀬　洋
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2015-12-08
Filing date: 2016-12-01
Publication date: 2017-06-15
Also published as: US20180247148A1; JP6358552B2; CN108351964B; JPWO2017098709A1; CN108351964A; US10339405B2; EP3389008A1; EP3389008A4

Abstract

画像認識装置（１００）は、複数の被写体からの反射光を用いて距離信号と輝度信号とを生成するカメラ部（１０）と、距離信号から距離画像を生成し、輝度信号から輝度画像を生成する画像生成部（２０）と、画像認識をする画像認識処理部（３０）とを備える。画像認識処理部（３０）は、距離画像および輝度画像を、それぞれ複数の領域に分割し、複数の領域のそれぞれが、特定の物体が存在しないことが明白な第１の領域であるか、および、それ以外の第２の領域であるかの判定を行い、複数の領域のうち第１の領域を除外して画像認識を実行する。

Description

画像認識装置および画像認識方法

　本開示は画像認識装置および画像認識方法に関する。

　近年、カメラの撮像画像を用いて物体を認識する技術に関する研究が盛んに行われている。たとえば、人認識に関する技術は自動車用カメラなどに搭載することができれば、衝突防止や自動運転などに応用できる技術として大きな注目を集めている。

　特に、輝度画像だけでなく、距離情報も取得することができるカメラが注目されている。このカメラは画像の距離情報を利用することで３次元的に空間を認識することができるため人と自動車との距離がわかり、更に高精度な人認識が可能となると期待されている。

　例えば特許文献１では、従来の輝度勾配特徴量を用いる人認識手法に対して、距離ヒストグラムの類似度を特徴量として認識する手法が提案されている。これにより、複雑な背景が多い場合や人の重なりが生じている場合でも認識精度の低下を抑制している。

特許第５５００５５９号公報

　しかしながら、従来の距離画像を用いた人認識手法では背景などの人以外の物体を含む画像全体をスキャンして人認識を行うため、計算処理時間が長くなり認識速度が低下するといった課題が生じる。

　そこで本開示が解決しようとする課題は、高解像度の画像を対象としても検出速度の低下が少なく、複雑な背景下においても認識精度の低下が少ない画像認識装置および画像認識方法を提供することにある。

　本開示における画像認識装置の一形態は、複数の被写体からの反射光を用いて距離信号と輝度信号とを生成するカメラ部と、前記距離信号から距離画像を生成し、前記輝度信号から輝度画像を生成する画像生成部と、画像認識をする画像認識処理部とを備え、前記画像認識処理部は、前記距離画像および前記輝度画像を、それぞれ複数の領域に分割し、前記複数の領域のそれぞれについて、特定の物体が存在しないことが明白な第１の領域、および、それ以外の第２の領域のいずれであるかの判定を行い、前記複数の領域のうち前記第１の領域を除外して画像認識処理を実行する。

　また、本開示における画像認識方法の一形態は、カメラの撮像により、距離値を示す画素データを含む距離画像と、輝度値を示す画素データを含む輝度画像とを生成し、前記距離画像および前記輝度画像を、それぞれ複数の領域に分割し、前記複数の領域のそれぞれについて、特定の物体が存在しないことが明白な第１の領域、および、それ以外の第２の領域のいずれであるかの判定を行い、前記複数の領域のうち前記第１の領域を除外して画像認識を実行する。

　本開示によれば、高解像度の画像全領域を物体検出しても検出速度の低下が少なく、複雑な背景画像においても認識精度の低下を少なくすることができる。

図１は、実施の形態における画像認識装置の構成例を示すブロック図である。図２は、車載カメラで撮像した場合に想定される被写体の一例を示す図である。図３Ａは、実施の形態における画像認識装置にて図２に示した被写体を撮像した場合に得られる輝度画像を示す図である。図３Ｂは、図３Ａ中の点線３Ｂにおける輝度値を示す図である。図３Ｃは、図３Ａ中の点線３Ｃにおける輝度値を示す図である。図４は、輝度画像のみを用いて被写体の境界抽出を行った結果を示す図である。図５Ａは、実施の形態における画像認識装置にて図２に示した被写体を撮像した場合に得られる距離画像を示す図である。図５Ｂは、図５Ａ中の点線５Ｂにおける距離値を示す図である。図５Ｃは、図５Ａ中の点線５Ｃにおける距離値を示す図である。図６は、距離画像のみを用いて被写体の境界抽出を行った結果を示す図である。図７は、輝度画像と距離画像を用いて抽出した境界を合成した図である。図８は、距離画像と輝度画像を用いて抽出した被写体の境界により分割された複数の領域のうち第１の領域を示す図である。図９は、実施の形態における画像認識装置が実行する画像認識方法のフローチャートである。

　以下、実施の形態に係る画像認識装置を、図面を参照しながら説明する。

　但し、必要以上に詳細な説明は省略する場合がある。

　例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面および以下の説明は当業者が本開示を十分に理解するためのものであって、これらによって請求の範囲に記載の主題を限定することを意図するものではない。

　（実施の形態）
　図１は実施の形態における画像認識装置の構成例を示すブロック図である。図１に示す画像認識装置１００は、カメラ部１０、画像生成部２０および画像認識処理部３０を備える。カメラ部１０は、光源１１、光源制御部１２、カメラレンズ１３および撮像素子１４を備える。また、画像生成部２０は、距離画像生成部２１および輝度画像生成部２２を備える。そして画像認識処理部３０は、領域判定部３１、画像抽出部３２、特徴量計算部３３および認識処理部３４を備える。

　カメラ部１０は、複数の被写体からの反射光を用いて距離信号と輝度信号とを生成する。

　光源１１は、主に近赤外の波長の光源（ＬＥＤやレーザーダイオード等）であり、光源制御部１２の制御の下で特定の周波数でパルス状に光を照射する。

　光源制御部１２は、光源１１からパルス状の光を被写体に照射させ、被写体からの反射光を、カメラレンズ１３を通して撮像素子１４上に結像させる。

　撮像素子１４は、二次元状に配置された複数の画素部を有し、各画素部で反射光を受光する。この反射光が到達したタイミングと光源１１が光を照射したタイミングとの時間差を計算することで距離信号を取得することができる。距離信号は、例えば、画素部毎に被写体とカメラ部１０との距離を示す。また、撮像素子１４は、通常のカメラのように、光源１１からパルス状の光を照射しない間に輝度信号も取得する。

　画像生成部２０は、カメラ部１０より得られた距離信号と輝度信号から距離画像と輝度画像を生成する。距離画像生成部２１は、上記の反射信号の光が到達したタイミングと光を照射したタイミングとの時間差を計算することで距離画像を生成する。輝度画像生成部２２は、一般的なカメラと同様に輝度画像を生成する。カメラ部１０および画像生成部２０は、一般的なカメラと比較して、ＴＯＦ（Time Of Flight）測距用の発光制御が追加され、距離画像生成部２１が追加された構成である。

　また、画像認識処理部３０は、輝度画像および距離画像のうち第１の領域を、画像認識の対象から除外するように構成されている。ここで、第１の領域は、輝度画像および距離画像の全領域のうち、特定の物体が存在しないことが明白な領域をいう。また、特定の物体とは、典型的には人でよいが、これ以外にも、人が乗っている自転車、二輪車または車等でもよいし、人以外の動物でもよい。

　画像認識処理部３０において、まず、領域判定部３１は、輝度画像と距離画像を用いて被写体を複数の領域に分割する処理を実施する。

　次に、領域判定部３１は、分割された複数の領域毎に第１の領域であるか、それ以外の第２の領域であるかの判定を行う。第１の領域に対しては、特徴量計算部３３による物体の識別に必要な特徴量の計算が行われず、第２の領域に対しては、特徴量の計算が行われる。

　画像抽出部３２は、領域判定部３１の判定結果を反映させて、第２の領域の画像抽出を実施する。

　特徴量計算部３３は、画像抽出部３２にて抽出された画像内でのみ特徴量の計算を行う。

　認識処理部３４は、特徴量計算部３３で計算された特徴量に従って認識処理を行う。

　次に、これらの詳細な内容について図面を用いながら説明する。

　図２に車載カメラで撮像した場合に想定される被写体の一例を示す図である。図２の被写体は歩行者、建物、地面、道路、車、信号機、横断歩道、木、空、雲といった一般的な被写体で構成されている。次に、図２に示した被写体を画像認識装置１００にて撮像した場合に得られる輝度画像と距離画像について説明する。

　図３Ａは、画像認識装置１００にて図２に示した被写体を撮像した場合に得られる輝度画像を示している。輝度画像が、輝度を示す画素データを含む。ここで、図３Ａの被写体のコントラストは輝度信号の量に対応しており、明るい部分は輝度値が大きく、暗い部分は輝度値が小さい。

　次に、領域判定部３１における、輝度画像を用いた領域の分割つまり領域の境界の抽出について説明する。

　図３Ｂは、図３Ａ中の点線３Ｂにおける輝度値を示す図である。図３Ｃは、図３Ａ中の点線３Ｃにおける輝度値を示す図である。図３Ｂと図３Ｃはそれぞれ図３Ａ中の点線３Ｂおよび３Ｃの水平画素行を横軸とし、縦軸に輝度値をプロットした図である。ここで図３Ｂで表された輝度値を例に被写体の領域分割すなわち境界（エッジ）の抽出について説明する。輝度値の変化が大きい箇所を被写体の境界として分割すると、建物と地面との境界、地面と道路との境界、地面と木との境界が抽出できる。具体的には隣接画素間で５－１０％以上の輝度値の差異が見られる場合を境界として抽出するが、カメラのノイズ等によってこの値は任意に定められるためこれに限定されない。

　しかし、図３Ｂでは、地面と信号機の柱との境界および木と人の上半身との境界が抽出できず、輝度画像のみでは境界抽出が困難となってしまう。これは、輝度信号の量が被写体からの反射光の量とカメラの感度とによって決まるため、もし被写体の反射率が同等程度であった場合、異なる被写体であってもそれぞれの輝度値の間に明確な差異が生じず、被写体同士が重なり合ってしまい、被写体の境界（エッジ）が抽出できないためである。同様に、図３Ｃのように建物と人の輝度値の差異が小さい場合、輝度画像のみでは被写体の境界抽出が困難となる。

　図４に輝度画像のみを用いて被写体の境界抽出を行った場合の結果を示す。図４からも明らかなように、輝度値で明確な差異が見られなかった人と木との境界（図３Ｂの丸で囲った３ｂの部分）及び人と建物との境界（図３Ｃの丸で囲った３ｃの部分）は抽出できていないことがわかる。これを用いて後述の識別処理を行ったとしても、正確な判定ができない。

　そこで、本開示では輝度画像のみでは被写体の境界抽出が困難となる場合あっても精度良く被写体の境界抽出するために、距離画像を併用した画像認識装置１００を提案している。

　次に、領域判定部３１における、距離画像を用いた領域の分割つまり領域の境界の抽出について説明する。

　図５Ａは、画像認識装置１００にて図２に示した被写体を撮像した場合に得られる距離画像を示している。距離画像は、距離値を示す画素データを含む。ここで、図５Ａの被写体のコントラストは距離に対応しており、明るい部分は画像認識装置１００から被写体までの距離が遠く、暗い部分は距離が近い。

　図５Ｂは、図５Ａ中の点線５Ｂにおける距離値を示す図である。図５Ｃは、図５Ａ中の点線５Ｃにおける距離値を示す図である。図５Ｂと図５Ｃはそれぞれ図５Ａ中の点線５Ｂおよび５Ｃの水平画素行を横軸とし、縦軸に距離値をプロットした図である。なお、点線５Ｂおよび５Ｃは先述した点線３Ｂおよび３Ｃと空間的に同じ位置であることから、撮像素子の画素値のアドレスも同じであるため双方の値を用いることは容易である。ここで、図５Ｂで表された距離値を例に被写体の境界の抽出について説明する。距離値の変化が大きい箇所を被写体の境界として分割すると、建物と地面との境界、地面と信号機の柱との境界、地面と木との境界、人と木との境界が抽出できる。具体的には隣接画素間で５－１０％以上の距離値の変化、または隣接画素を含む数画素の距離値の勾配（傾き）に５０％程度以上の差異が見られる場合、その勾配が変化する画素を境界として抽出するが、カメラのノイズ等によってこの値は任意に定められるためこれに限定されない。図５Ｂでは木と人との距離値の差異により、輝度画像では明確に抽出できなかった境界が抽出できていることがわかる。同様に図５Ｃでも、建物と人との距離値の差異により、境界が抽出可能である。

　図６に距離画像のみを用いて被写体の境界抽出を行った場合の結果を示す。図６から明らかなように、輝度画像のみでは被写体の境界が得られなかった人と建物との境界および、人と木との境界が抽出可能となる。しかし、距離画像のみでは道路と地面、および道路の横断歩道のような距離値の変化が小さい（凹凸が小さい）ものに関してはその境界を抽出することが困難である。すなわち、地面や道路などの被写体を識別するためには、距離画像のみでは困難となる。

　そこで、画像認識装置１００では、領域判定部３１は、輝度画像による複数の被写体の境界分割処理と距離画像による複数の被写体の境界分割処理の双方を統合している。すなわち図７に示すように、それぞれの輝度画像と距離画像とを用いて抽出した境界を合成することで、被写体の正確な境界抽出を可能としている。

　また、画像認識装置１００に用いられているＴＯＦ測距するカメラ部１０および画像生成部２０は、輝度画像と距離画像とを光学的に同軸で取得することができるため、光軸補正などが不要となる。このため、輝度画像と距離画像とを別々のカメラで取得した場合と比較し、コストだけでなく認識速度の点でも優位であることは明らかである。

　さらに、画像認識装置１００の領域判定部３１は、分割された複数の領域毎に特定の物体が存在しないことが明白な第１の領域、および、それ以外の第２の領域のいずれであるかの判定を行う。言い換えれば、領域判定部３１は、複数の領域毎に物体の識別に必要な特徴量の計算を行わないか行うかの判定処理を実施している。ここでは特定の物体としての人の識別を例として、これらの判定処理について説明する。図８は、距離画像と輝度画像を用いて抽出した被写体の境界により分割された複数の領域のうち第１の領域を示す図である。つまり、図８は、図７に示した距離画像と輝度画像を用いて抽出した被写体の境界により分割された複数領域のうち、距離値が一定値以上（ここではカメラの限界測定可能距離Ｘｍ以上）の領域８Ａと、距離値が水平画素方向または垂直画素方向に一定の傾きを維持して変化している領域８Ｂとを示した図である。すなわち、領域８Ａは、距離画像において所定値（例えば、上記の限界測定可能距離Ｘｍ）よりも小さい距離を示す画素を含まない領域である。領域８Ｂは、ある方向（例えば、距離画像の垂直方向）において隣接画素間の差分が一様である領域である。

　ここで、領域８Ａのように画面上部にてカメラの限界測定距離以上の領域が連続している領域については被写体が空または遠い背景などであることが明白であり、特定の物体としての人の認識処理を省略することができる。また、領域８Ｂのように距離値が一定の傾きを維持して変化している領域は３次元空間における高さが非常に低い物体が連続していることから、地面（ここでは道路も含む）であることが明白であり、同様に人の認識処理を省略することができる。すなわち、これまで被写体の全領域において人の識別処理に必要な特徴量の計算を実施していたのに対して、画像認識装置１００では、輝度画像と距離画像とにより得られた被写体の境界領域を、さらに特徴量の計算を行う領域と行わない領域とに絞り込むことによって、不要な領域の計算を省略し計算速度、すなわち認識速度を向上させることができる。例えば、図８に示した領域８Ａと領域８Ｂを、特徴量算出の対象から除外する領域として計算を省略した場合、約２倍の認識速度が見込める。

　以上説明してきたように、画像認識装置１００は、複数の被写体からの反射光を用いて距離信号と輝度信号とを生成するカメラ部１０と、前記距離信号から距離画像を生成し、前記輝度信号から輝度画像を生成する画像生成部２０と、画像認識をする画像認識処理部３０とを備え、前記画像認識処理部３０は、前記距離画像および前記輝度画像を、それぞれ複数の領域に分割し、前記複数の領域のそれぞれについて、特定の物体が存在しないことが明白な第１の領域、および、それ以外の第２の領域のいずれであるかの判定を行い、前記複数の領域のうち前記第１の領域を除外して画像認識処理を実行する。

　これによれば、高解像度の画像全領域を物体検出しても検出速度の低下を少なくし、複雑な背景画像においても認識精度の低下を少なくすることができる。

　ここで、前記画像認識処理部３０は、前記複数の領域に分割された前記距離画像から得られた距離値に基づいて、前記判定を行ってもよい。

　ここで、前記画像認識処理部３０は、前記複数の領域のうち、前記距離画像において所定値よりも小さい距離を示す画素を含まない領域を前記第１の領域と判定してもよい。

　これによれば、空または遠い背景などを第１の領域に含めることができる。

　ここで、前記画像認識処理部３０は、前記距離画像における前記複数の領域のうち、隣接画素間の差分が一様である領域を前記第１の領域と判定してもよい。

　これによれば、地面や道路などを第１の領域に含めることができる。

　ここで、前記画像認識処理部３０は、前記距離画像において、隣接画素で得られた距離値の差分が閾値以上の場合に、前記隣接画素間を前記複数の領域の境界としてもよい。

　これによれば、距離値により境界を求めるので領域の分割精度を高めることができる。

　ここで、前記カメラ部１０は、前記距離信号と前記輝度信号とを生成する撮像素子１４を有していてもよい。

　これによれば、距離画像と輝度画像とは同じカメラで生成されるので、光軸補正等の処理が不要であり、輝度画像と距離画像とを別々のカメラで取得した場合と比較し、コストだけでなく認識速度の点でも効果的である。

　また、図９に示されるように、画像認識装置１００によって実行される画像認識方法は、カメラの撮像により、距離値を示す画素データを含む距離画像と、輝度値を示す画素データを含む輝度画像とを生成し（Ｓ１１）、前記距離画像および前記輝度画像を、それぞれ複数の領域に分割し（Ｓ１２）、前記複数の領域のそれぞれについて、特定の物体が存在しないことが明白な第１の領域、および、それ以外の第２の領域のいずれであるかの判定を行い（Ｓ１３）、前記複数の領域のうち前記第１の領域を除外して画像認識を実行する（Ｓ１４）。図９は、画像認識装置１００が実行する画像認識方法のフローチャートである。

　（その他の実施の形態）
　以上、一つまたは複数の態様に係る画像認識装置について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。

　例えば、上記各実施の形態において、光源制御部、画像認識処理部、画像認識処理部などの各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

　また、本開示の包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。

　本開示に係る画像認識装置は、例えば、車載用のセンサに好適に利用可能である。

１０　カメラ部
１１　光源
１２　光源制御部
１３　カメラレンズ
１４　撮像素子
２０　画像生成部
２１　距離画像生成部
２２　輝度画像生成部
３０　画像認識処理部
３１　領域判定部
３２　画像抽出部
３３　特徴量計算部
３４　認識処理部
１００　画像認識装置

Claims

　複数の被写体からの反射光を用いて距離信号と輝度信号とを生成するカメラ部と、
　前記距離信号から距離画像を生成し、前記輝度信号から輝度画像を生成する画像生成部と、
　画像認識をする画像認識処理部とを備え、
　前記画像認識処理部は、
　前記距離画像および前記輝度画像を、それぞれ複数の領域に分割し、
　前記複数の領域のそれぞれについて、特定の物体が存在しないことが明白な第１の領域、および、それ以外の第２の領域のいずれであるかの判定を行い、
　前記複数の領域のうち前記第１の領域を除外して画像認識処理を実行する
画像認識装置。
　前記画像認識処理部は、前記複数の領域に分割された前記距離画像から得られた距離値に基づいて、前記判定を行う
請求項１に記載の画像認識装置。
　前記画像認識処理部は、前記複数の領域のうち、前記距離画像において所定値よりも小さい距離を示す画素を含まない領域を前記第１の領域と判定する
請求項２に記載の画像認識装置。
　前記画像認識処理部は、前記距離画像における前記複数の領域のうち、隣接画素間の差分が一様である領域を前記第１の領域と判定する
請求項２または３に記載の画像認識装置。
　前記画像認識処理部は、前記距離画像において、隣接画素で得られた距離値の差分が閾値以上の場合に、前記隣接画素間を前記複数の領域の境界とする
請求項１～４のいずれか１項に記載の画像認識装置。
　前記カメラ部は、前記距離信号と前記輝度信号とを生成する撮像素子を有する
請求項１～３のいずれか１項に記載の画像認識装置。
　カメラの撮像により、距離値を示す画素データを含む距離画像と、輝度値を示す画素データを含む輝度画像とを生成し、
　前記距離画像および前記輝度画像を、それぞれ複数の領域に分割し、
　前記複数の領域のそれぞれについて、特定の物体が存在しないことが明白な第１の領域、および、それ以外の第２の領域のいずれであるかの判定を行い、
　前記複数の領域のうち前記第１の領域を除外して画像認識を実行する
画像認識方法。