JPWO2018147059A1 - 画像処理装置、および画像処理方法、並びにプログラム - Google Patents

画像処理装置、および画像処理方法、並びにプログラム Download PDF

Info

Publication number
JPWO2018147059A1
JPWO2018147059A1 JP2018567346A JP2018567346A JPWO2018147059A1 JP WO2018147059 A1 JPWO2018147059 A1 JP WO2018147059A1 JP 2018567346 A JP2018567346 A JP 2018567346A JP 2018567346 A JP2018567346 A JP 2018567346A JP WO2018147059 A1 JPWO2018147059 A1 JP WO2018147059A1
Authority
JP
Japan
Prior art keywords
parallax
image
unit
pixel
resolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018567346A
Other languages
English (en)
Other versions
JP7024736B2 (ja
Inventor
丈士 上森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2018147059A1 publication Critical patent/JPWO2018147059A1/ja
Application granted granted Critical
Publication of JP7024736B2 publication Critical patent/JP7024736B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration by the use of local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/143Sensing or illuminating at different wavelengths
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/25Image signal generators using stereoscopic image cameras using two or more image sensors with different characteristics other than in their location or field of view, e.g. having different resolutions or colour pickup characteristics; using image signals from one sensor to control the characteristics of another sensor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/254Image signal generators using stereoscopic image cameras in combination with electromagnetic radiation sources for illuminating objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • H04N13/279Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals the virtual viewpoint locations being selected by the viewers or determined by tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform

Abstract

高精度かつ効率的な視差マップ生成、物体検出処理を実行する装置、方法を提供する。異なる視点から撮影された2つの画像を入力して視差を算出し、視差マップを生成する視差算出部と、視差マップを適用して物体検出処理を実行する分類部を有する。視差算出部は、等倍解像度画像を適用したステレオマッチング処理を実行し、処理結果から複数の解像度対応のコストボリュームを生成し、各解像度対応のコストボリュームを利用して複数の異なる解像度対応の視差マップと、物体候補領域マップを生成して分類部に出力する。

Description

本開示は、画像処理装置、および画像処理方法、並びにプログラムに関する。特に、2つの異なる視点からの撮影画像を適用したステレオマッチングの精度を向上させ、高精度な物体検出を可能とした画像処理装置、および画像処理方法、並びにプログラムに関する。
昨今、可視光の画像撮影を行う可視光カメラとともに、可視光による画像撮影が困難な夜間等においても人物等を撮影可能な遠赤外カメラを組み合わせたシステムが多く利用されている。
例えば、車載カメラとして、可視光カメラと、遠赤外カメラを並べて搭載し、2つのカメラの撮影画像に基づくステレオマッチングを行うことで、人の検出と、人までの距離の測定が可能となる。
可視光画像と遠赤外線画像を用いた歩行者検出処理について記載した文献として、非特許文献1[Multispectral Pedestrian Detection: Benchmark Dataset and Baseline(CVPR2015_MutispectalPedestrian.pdf)]がある。
この非特許文献1は、可視光画像(RGB画像)の輝度や色、勾配(強度と方向)等の特徴量と、遠赤外線画像の温度、勾配(強度と方向)に関する特徴量を、機械学習を用いて学習することで、歩行者を検出する構成を開示している。この開示方法の適用により、夜間などの可視光画像が苦手とするようなシーンでも歩行者の検出が可能になる。
このように、通常の可視光画像に、別のセンサー情報を用いた画像処理を行うことで、夜間等、可視光画像のみを用いて検出できない状況においても、人の検出が可能となる。
しかし、このような異なる波長の画像を用いた物体検出において、2つの画像間に位置ずれがある場合、物体検出の精度や性能が低下することがある。
上記の非特許文献1では、ビームスプリッターを用いて、可視光カメラと遠赤外線カメラの光軸を合わせているが、装置が大掛かりになり、コストの増加につながる。
また、2つのカメラの組み合わせや設置位置の制約などから、物理的に光軸を合わせることが不可能な場合もある。
このような物理的な手法以外に、各カメラの撮影画像信号に対して信号処理を行うことにより、2つのカメラの光軸を合わせる方法もある。
例えば、事前にチャートなどを用いてキャリブレーションを行い、実際の撮影時に対象物体とカメラの位置関係によって生じる視差ずれに対してステレオマッチングを用いて画素毎にずれ量を補正する方法である。
しかしながら、ステレオマッチングには、ブロックマッチングに適用するブロックサイズとサーチレンジをどのように設定するかという課題がある。
ブロックサイズに関しては、小さ過ぎるとノイズに対するロバスト性が低下し視差推定結果が不安定になる。一方、大き過ぎると物体境界で前景と背景の視差が混ざることで視差推定精度が低下する。
また、サーチレンジに関しては、小さ過ぎると視差を検出できる範囲が狭くなってしまい、対応できるシーンが限られてしまう。一方、大き過ぎると候補が増えることによって誤推定が増加し、また処理時間が増大する。
ブロックマッチングのブロックサイズとサーチレンジを適切に設定することができれば、性能の改善と計算量の削減が可能となるが、最適化の具体的な処理については、明確な回答がないというのが現状である。
また、物体検出技術そのものの課題として、計算量の多さがある。
一般的に、物体検出では、検出対象となる物体が画像のどこに、どれくらいの大きさで写っているか事前に分からないため、様々な大きさに拡大または縮小した異なる解像度の画像を生成し、これらの複数の画像の各々に対して画像全体に渡って検出処理を行う。このような処理が必要となるため、計算量が多くなってしまうという問題がある。
Multispectral Pedestrian Detection: Benchmark Dataset and Baseline(CVPR2015_MutispectalPedestrian.pdf)
本開示は、例えば、上記の問題点に鑑みてなされたものであり、2つの異なる視点からの画像を用いた視差マップの生成や、物体検出処理を高精度に効率よく実行することを可能とした画像処理装置、および画像処理方法、並びにプログラムを提供することを目的とする。
本開示の一実施例においては、例えば可視光画像と遠赤外線画像を適用した画像処理において、ステレオマッチングや、視差マップの生成、さらに物体検出処理等を高精度かつ効率的に実行することを可能とした画像処理装置、および画像処理方法、並びにプログラムを提供することを目的とする。
本開示の第1の側面は、
異なる視点から撮影された2つの画像を入力して物体検出処理を実行する物体検出部を有し、
前記物体検出部は、
前記2つの画像の各画素の視差を算出し、算出視差情報からなる視差マップを生成する視差算出部と、
前記視差算出部の生成した視差マップを適用して物体検出処理を実行する分類部を有し、
前記視差算出部は、
複数の異なる解像度対応の視差マップを生成して前記分類部に出力する画像処理装置にある。
さらに、本開示の第2の側面は、
画像処理装置において実行する画像処理方法であり、
物体検出部が、異なる視点から撮影された2つの画像を入力して物体検出処理を実行する物体検出処理ステップを実行し、
前記物体検出処理ステップは、
視差算出部において、前記2つの画像の各画素の視差を算出し、算出視差情報からなる視差マップを生成する視差算出ステップと、
分類部において、前記視差算出ステップにおいて生成した視差マップを適用して物体検出処理を実行する分類処理ステップを有し、
前記視差算出ステップは、
複数の異なる解像度対応の視差マップを生成して前記分類部に出力する画像処理方法にある。
さらに、本開示の第3の側面は、
画像処理装置において画像処理を実行させるプログラムであり、
物体検出部に、異なる視点から撮影された2つの画像を入力して物体検出処理を実行する物体検出処理ステップを実行させ、
前記物体検出処理ステップにおいて、
視差算出部において、前記2つの画像の各画素の視差を算出し、算出視差情報からなる視差マップを生成する視差算出ステップと、
分類部において、前記視差算出ステップにおいて生成した視差マップを適用して物体検出処理を実行する分類処理ステップを実行させ、
前記視差算出ステップにおいては、
複数の異なる解像度対応の視差マップを生成して前記分類部に出力させるプログラムにある。
なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本開示の一実施例の構成によれば、高精度かつ効率的な視差マップ生成、物体検出処理を実行する装置、方法が実現される。
具体的には、例えば異なる視点から撮影された2つの画像を入力して視差を算出し、視差マップを生成する視差算出部と、視差マップを適用して物体検出処理を実行する分類部を有する。視差算出部は、等倍解像度画像を適用したステレオマッチング処理を実行し、処理結果から複数の解像度対応のコストボリュームを生成し、各解像度対応のコストボリュームを利用して複数の異なる解像度対応の視差マップと、物体候補領域マップを生成して分類部に出力する。
これらの処理により、高精度かつ効率的な視差マップ生成、物体検出処理を実行する装置、方法が実現される。
なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
撮影画像の種類と光の波長との対応関係について説明する図である。 可視光画像と遠赤外線画像の画素配列の例について説明する図である。 本開示の画像処理装置の構成例について説明する図である。 画像処理部の構成と処理について説明する図である。 物体検出部の構成と処理について説明する図である。 視差算出部の構成と処理について説明する図である。 視差算出部の画素マッチング部の実行する処理について説明するフローチャートを示す図である。 画像撮影構成と、撮影画像の例、および視差等のパラメータについて説明する図である。 物体検出処理の一例について説明する図である。 コストボリュームの一例について説明する図である。 コストボリュームの一例について説明する図である。 コストボリュームの一例について説明する図である。 視差算出部のコストボリュームフィルタリング部の実行する処理について説明するフローチャートを示す図である。 コストボリュームフィルタリング部の実行する処理の一例について説明する図である。 コストボリュームフィルタリング部の実行する処理の一例について説明する図である。 コストボリュームフィルタリング部の実行する処理の一例について説明する図である。 コストボリュームフィルタリング部の実行する処理の一例について説明する図である。 視差算出部の視差決定部の実行する処理について説明するフローチャートを示す図である。 視差算出部の視差決定部の実行する処理について説明する図である。 画像処理装置のハードウェア構成例について説明する図である。
以下、図面を参照しながら本開示の画像処理装置、撮像装置、および画像処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行う。
1.本開示の画像処理装置の構成と処理について
2.画像処理部の構成と処理について
3.視差算出部の構成と処理について
3−1.画素マッチング部の実行する処理について
3−2.コストボリュームフィルタリング部の実行する処理について
3−3.視差決定部の実行する処理について
4.その他の実施例について
4−1.画素マッチング部における一致度(Similarity)算出処理の変更例について
4−2.コストボリュームフィルタリング部におけるコストボリュームフィルタリング処理の変更例について
4−3.視差決定部における視差決定処理の変更例について
4−4.視差決定部における物体候補領域マップの生成処理の変更例について
5.画像処理装置のハードウェア構成例について
6.本開示の構成のまとめ
[1.本開示の画像処理装置の構成と処理について]
図1以下を参照して本開示の画像処理装置の構成と処理について説明する。
まず、図1以下を参照して本開示の画像処理装置が処理対象とする画像について説明する。
本開示の画像処理装置は、2つの異なる視点から撮影した画像を適用した画像処理を実行する。
なお、以下に説明する実施例では、2つの異なる視点からの撮影画像の組み合わせとして、可視光画像と、遠赤外線画像を適用した実施例について説明する。
すなわち、2つの異なる視点からの撮影画像である可視光画像と、遠赤外線画像を入力し、これらの画像を適用した画像処理を実行する例について説明する。
ただし、本開示の処理は、可視光画像と遠赤外線画像の組み合わせに限らず、その他の画像の組み合わせ、例えば可視光画像と赤外光画像の組み合わせ、あるいは可視光画像と可視光画像の組み合わせ等にも適用可能である。すなわち、2つの異なる視点から撮影した画像であれば、その組み合わせは問わない。
図1に示すように、可視光画像10は、波長が約0.4μm〜0.7μmの範囲の画像であり、一般的なカメラで撮影されるRGB画像等のカラー画像である。
赤外光画像は、波長が.0.7μm以上の長波長光からなる画像である。赤外光画像を撮影する赤外光画像撮影カメラは、例えば暗闇等において熱を発生する物体、例えば人物等を撮影することが可能であり、監視カメラ等に利用される。
なお、赤外線は、図1に示すように、
波長が約0.7〜1μmの近赤外線、
波長が約3〜5μmの中赤外線、
波長が約8〜14μmの遠赤外線、
このように区分される。
以下に説明する実施例では、主に波長が約8〜14μmの遠赤外線を撮影する遠赤外線画像20を利用した画像処理例について説明する。
ただし、本開示の処理は、遠赤外線画像に限らず、その他の赤外光画像を利用した処理にも適用可能である。
図2は、可視光画像10、および遠赤外線画像20を撮影する撮像素子上の画素配列の例を示す図である。
図2(1)の可視光画像は、RGB各画素からなるベイヤ配列の例を示している。このベイヤ配列は、多くの可視光撮影カメラの撮像素子に利用されている。
撮像素子の各画素は、RまたはGまたはB各波長光の光量に応じた電気信号を出力する。
一方、図2(2)の遠赤外線画像は、全ての画素位置において遠赤外線(FIR:Far Infra Red)の波長光を撮影する。
具体的には、例えば人の体温等、温度に応じた濃淡画素値からなるモノクロ画像が生成される。
ただし、図2(1),(2)に示すように、一般的に赤外光画像撮像素子は、可視光画像撮像素子に比較して、解像度が低くなる。これは赤外光、特に遠赤外光は波長光が長く、高密度の画素配列を持つ撮像素子が利用しにくい等の理由である。
図3は、本開示の画像処理装置100の一例である撮像装置の構成を示すブロック図である。
なお、本開示の画像処理装置には、撮像装置に限らず、例えば撮像装置の撮影画像を入力して画像処理を実行するPC等の情報処理装置も含まれる。
以下では、本開示の画像処理装置100の一例として、撮像装置の構成と処理について説明する。
以下の実施例において説明する撮影処理以外の画像処理は、撮像装置に限らず、PC等の情報処理装置において実行可能である。
図3に示す撮像装置としての画像処理装置100は、制御部101、記憶部102、コーデック103、入力部104、出力部105、撮像部106、画像処理部120を有する。
撮像部106は、通常の可視光画像の撮影を行う可視光画像撮像部107と、遠赤外線画像を撮影する赤外光画像撮像部108を有する。
なお、前述したように、本開示の処理は、可視光画像と遠赤外線画像の組み合わせに限らず、その他の画像の組み合わせ、例えば可視光画像と赤外光画像の組み合わせ、あるいは可視光画像と可視光画像の組み合わせにも適用可能である。
以下においては、本開示の一つの実施例として、可視光画像と遠赤外線画像を適用した実施例について説明する。
可視光画像撮像部107は、可視光画像の画像撮影を行うための第1撮像素子111を有する。第1撮像素子111は、例えば、先に図2(1)を参照して説明したベイヤ配列からなるRGB画素を有し、各画素単位でRGB各色の入力光対応の信号を出力する撮像素子である。
一方、遠赤外線画像撮像部108は、遠赤外線画像の画像撮影を行うための第2撮像素子112を有する。第2撮像素子112は、例えば先に図2(2)を参照して説明した遠赤外線を入射する画素からなる撮像素子であり、各画素から、遠赤外線の入射量に応じた電気信号を出力する。
可視光画像撮像部107と、赤外光画像撮像部108は、所定間隔、離れた位置に設定される2つの撮像部であり、それぞれの撮影画像は異なる視点からの画像となる。
異なる視点からの2つの画像の対応画素、すなわち同一位置の画素には同一の被写体画像が撮影されず、視差に応じた被写体ずれが発生する。
可視光画像撮像部107と、赤外光画像撮像部108は、撮影画像が静止画である場合は、各々が1枚ずつ、計2枚の静止画を撮影する。動画を撮影する場合は、各撮像部の撮影フレームは、各撮像部が連続した画像フレームを撮影する。
なお、これらの撮影タイミングの制御は制御部101によって行われる。
制御部101は、画像の撮影、撮影画像に対する信号処理、画像の記録処理、表示処理等、撮像装置100において実行する各種の処理を制御する。制御部101は、例えば記憶部102に格納された様々な処理プログラムに従った処理を実行するCPU等を備え、プログラムを実行するデータ処理部として機能する。
記憶部102は、撮影画像の格納部、さらに、制御部101において実行する処理プログラムや、各種パラメータの記憶部、さらにデータ処理時のワークエリアとして機能するRAM、ROM等によって構成される。
コーデック103は、撮影画像の圧縮、伸長処理等の符号化、復号処理を実行する。
入力部104は、例えばユーザ操作部であり、撮影開始、終了、様々なモード設定等の制御情報を入力する。
出力部105は表示部、スピーカ等によって構成され、撮影画像、スルー画等の表示、音声出力等に利用される。
画像処理部120は、撮像部106から入力する2枚の画像を入力し、これら2枚の画像を適用した画像処理を実行する。
この画像処理の具体例については、以下の各実施例において後段で説明する。
[2.画像処理部の構成と処理について]
次に、図3を参照して説明した画像処理装置100の画像処理部120の具体的な構成と処理について説明する。
図4は、図3を参照して説明した画像処理装置100の画像処理部120の具体的な構成を示すブロック図である。
図4に示すように、画像処理部120は、キャリブレーション実行部140、物体検出部200を有する。
キャリブレーション実行部140は、撮像部106の可視光画像撮像部107の第1撮像素子111が撮影した可視光画像である第1画像131と、遠赤外線画像撮像部108の第2撮像素子112が撮影した遠赤外線画像である第2画像132を入力して、キャリブレーション処理を実行して、補正第1画像151、補正第2画像152を生成する。
撮像部106の可視光画像撮像部107と、遠赤外線画像撮像部108は離間した位置にあり、また、撮像部を構成するレンズ等のパラメータにも差異がある。
従って、可視光画像撮像部107が撮影した第1画像131と、遠赤外線画像撮像部108が撮影した第2画像132は、各画像の歪、倍率、解像度などの特性が異なる。
そのため、まずキャリブレーション実行部140において、第1画像131、第2画像132それぞれの画像の歪補正、倍率補正の処理が行う。また、後段で実行するステレオマッチングの処理を容易にするために、画像間の平行化処理も行う。この平行化処理によって、3次元空間上の1点をそれぞれの画像に投影したとき、それぞれの画像の同じライン上にアラインされている状態となっている。ただし、カメラと3次元空間上の1点までの距離に応じて、水平方向の視差ずれは依然発生した状態である。
キャリブレーション実行部140におけるキャリブレーション後の画像である補正第1画像151と、補正第2画像152は、物体検出部200に入力される。
物体検出部200は、キャリブレーション後の補正第1画像151と、補正第2画像152を適用した物体検出処理、例えば人の検出処理を行う。
物体検出部200は、処理結果として、物体検出結果170を出力する。例えば人の検出結果である。
物体検出部200の具体的構成例と処理について、図5を参照して説明する。
物体検出部200は、図5に示す通り、特徴量抽出部210、視差算出部220、分類部230を有する。
物体検出部200の特徴量抽出部210、視差算出部220、分類部230は、いずれもキャリブレーション後の補正第1画像151と、補正第2画像152を入力して処理を実行する。
特徴量抽出部210は、キャリブレーション後の補正第1画像151と、補正第2画像152を入力して、これらの各画像から特徴量を抽出する。
抽出する特徴量は、画像に応じた特徴量である。
例えば、可視光画像である補正第1画像151からは、輝度、色情報、勾配情報などを抽出する。
また、遠赤外線画像である補正第2画像152からは、温度、勾配情報などを抽出する。
前述したように、遠赤外線画像は、例えば人の体温等、温度に応じた濃淡画素値からなるモノクロ画像であり、このモノクロ画像の画素値の示す温度や、その画素値の勾配情報等が特徴量として抽出される。
図5に示すように、特徴量抽出部210は、以下の各特徴量データを出力する。
(a)可視光画像である補正第1画像151から抽出した第1画像特徴量211、
(b)遠赤外線画像である補正第2画像152から抽出した第2画像特徴量212、
これらの特徴量情報は、視差算出部220と、分類部230に入力される。
視差算出部220は、これらの2つの画像の特徴量を用いて、補正第1画像151と補正第2画像152の視差情報を反映した視差マップ225を生成する。
視差マップは、例えば、補正第1画像151の構成画素(x,y)各々について、補正第2画像152の対応画素の位置ずれd(ピクセル)を示したマップである。
補正第1画像151の構成画素(x,y)の画像に対応する画像が撮影されている補正第2画像152の対応画素の画素位置は、(x+d,y)となる。
なお、視差算出部220は、補正第1画像151と補正第2画像152の視差情報を反映した視差マップを生成するが、生成する視差マップは1つではない。
視差算出部220は、複数の異なる解像度対応の複数の視差マップ225を生成する。
この処理の詳細については、後段で説明する。
さらに、視差算出部220は、視差算出に用いる評価値を利用して、検出対象となる物体、例えば人の存在確立を画素単位で示した物体候補領域マップ226を算出する。
視差算出部220は、物体候補領域マップ226についても、視差マップ225と同様、複数の異なる解像度対応の複数の物体候補領域マップ226を生成する。
視差算出部220の具体的な構成と、視差マップ225と、物体候補領域マップ226の算出処理例については後段で詳細に説明する。
視差算出部220の生成した視差マップ225と、物体候補領域マップ226は、分類部230に入力される。
分類部230は、視差算出部220の生成した視差マップ225と、物体候補領域マップ226を入力し、さらに特徴量抽出部210から第1画像特徴量211、第2画像特徴量212を入力する。
分類部230は、これらの入力情報に基づいて、検出対象とした物体の検出処理を行う。例えば、検出対象を人とした場合、補正第1画像151や、補正第2画像の各画像領域に人が存在しているか否かを判定し、人が存在している可能性が高い領域と、低い領域との分類処理を行う。
分類部230は、視差算出部220の生成した視差マップ225や、物体候補領域マップ226を用い、物体候補領域マップ226によって検出対象物、例えば人の存在可能性が高いと判定された領域を選択して、その領域に検出対象物、例えば人が存在するか否かを判定する。
この判定処理には、可視光画像である補正第1画像151と、遠赤外線画像である補正第2画像152の同領域内の特徴量情報211,212が利用される。
分類部230は、特徴量を機械学習済みの分類器に通すことによって、各画像領域に検出対象の物体が存在するか否か、例えば人が存在するか否かの判定結果を生成する。
すなわち、図5に示す物体検出結果170を生成して出力する。
なお、この分類部230における機械学習を適用した物体検出処理は、例えば、前述した非特許文献1[Multispectral Pedestrian Detection: Benchmark Dataset and Baseline(CVPR2015_MutispectalPedestrian.pdf)]に記載された検出アルゴリズムであるACF(Aggregated Channel Features)を適用して実行することが可能である。
[3.視差算出部の構成と処理について]
次に、図6を参照して視差算出部220の具体的構成と処理の詳細を説明する。
図6に示すように、視差算出部220は、画素マッチング部221、コストボリュームフィルタリング部222、および視差決定部223を有する。
以下、これら各構成部の実行する処理の詳細について、順次、説明する。
[3−1.画素マッチング部の実行する処理について]
まず、視差算出部220の画素マッチング部221の実行する処理について説明する。
図7は、画素マッチング部221の実行する処理を説明するフローチャートである。
このフローチャートの各ステップの処理について、順次、説明する。
(ステップS101)
まず、画素マッチング部221は、ステップS101において、
(a)キャリブレーション後の可視光画像である補正第1画像151と、第1画像特徴量211、
(b)キャリブレーション後の遠赤外線画像である補正第2画像152と、第2画像特徴量212、
これらを入力する。
(ステップS102)
次に、画素マッチング部221は、ステップS102において、次のステップS103において実行するサーチレンジ区間決定処理に適用するパラメータを取得する。
具体的には、検出対象物体の大きさ(実物大L)や、基線長B等のパラメータを取得する。
例えば、検出対象を人とした場合、人の身長を検出対象物の大きさLに設定する。
具体的には、例えば、L=170cmの設定とする。
基線長Bは、2つの画像を撮影したカメラの光軸間距離である。図3を参照して説明した可視光画像撮像部107と、遠赤外線画像撮像部108の光軸間の距離を基線長Bとして取得する。
なお、以下のステップS103において、画素マッチング部221は、検出対象物の実物大、および画像上の大きさ、および前記2つの画像を撮影した2つのカメラ間の距離に相当する基線長の少なくともいずれかの値を適用して対応点探索領域であるサーチレンジ区間を決定する。
(ステップS103〜S104)
次に、画素マッチング部221は、ステップS103において、サーチレンジ区間の決定処理を行い、ステップS104において、候補視差の設定を行う、
サーチレンジ区間とは、第1画像の対応点を第2画像から探索する場合に設定する第2画像の探索区間である。
また、候補視差とは、上記探索区間において、実際に対応点か否かを判定する対象となる画素位置対応の視差である。
このステップS103〜S104の処理の詳細について、以下説明する。
サーチレンジ区間が短ければ、対応点探索処理(サーチ処理)の処理時間が短縮され、効率的な処理が可能となる。ただし、サーチレンジ区間を極端に短く設定してしまうと、対応点検出に失敗することになる。
従って、対応点を見つけることができる最適な領域をサーチレンジとして決定することが処理の効率化と精度の向上を実現する要因となる。
このステップS103において実行するサーチレンジ区間の決定処理について、図8を参照して説明する。
図8には、
(A)画像撮影構成例
(B)撮影画像例
これらの図を示している。
一例として、図8(A)に示すように、検出対象物を「人」とする。
この検出対象物(人)を含む画像を、2つのカメラ、すなわち図に示すカメラ1、カメラ2で撮影する。
このカメラ1、カメラ2は、本実施例では、図3を参照して説明した可視光画像撮像部107と、遠赤外線画像撮像部108に相当する。
図8(B)には、このカメラ1、カメラ2によって撮影された画像の例を示している。
第1画像は、カメラ1による撮影画像であり、第2画像は、カメラ2による撮影画像である。
カメラ1と、カメラ2は基線長B[m]に相当する距離、離間した位置から画像撮影を行っており、同一被写体の画素位置(対応点)は、水平方向にずれている。
このずれ量が視差d[pixel(画素)]である。
検出対象物(人)の大きさ(高さ)、すなわち実物大としての身長をL(m)とする。
また、カメラ1による撮影画像である第1画像に撮影された検出対象物(人)の画像上での大きさ(高さ)をh[pixel(画素)]とする。
このように、検出対象物体の実際の大きさ(高さ)L[m]と、その物体の画像上での大きさ(高さ)h[pixel]の各データが取得済みである場合、カメラの焦点距離f[pixel]より、検出対象物体の奥行距離(カメラから検出対象物体までの距離)Z[m]は以下の(式1)に従って、算出することができる。
Z=(f/h)L・・・・(式1)
また、奥行距離Z[m]と視差d[pixel]の関係は、カメラ1とカメラ2との距離(基線長)をB[m]としたとき、三角測量の原理より以下の(式2)に示す関係となる。
d=(fB/Z)・・・(式2)
従って、図8に示すように、高さL[m]の検出対象物が、画像上でh[pixel]の大きさに映っているとき、第1画像と第2画像との間における物体上の視差d[pixel]は、上記の(式1)と(式2)に従って、以下の(式3)に従って算出される。
d=(B/L)h・・・(式3)
上記(式3)において、
基線長Bはカメラキャリブレーションによって得られる値である。検出対象物体の高さL[m]は、例えば検出対象が歩行者の場合、人の平均身長を用いるとよい。
しかし、画像上の人の大きさ(高さ)hは、検出対象物体が画像上でどれくらいの大きさに映っているか事前にはわからないため、一意には定まらない。
同じ身長の人でもカメラから離れた遠くにいる場合は、撮影画像上の人の大きさ(高さ)hは小さくなり、カメラに近い位置にいる場合は、撮影画像上の人の大きさ(高さ)hは大きくなる。
このように、撮影画像上での検出対象物の大きさは、その対象物とカメラ間の距離に応じて異なるものとなる。
検出対象物の大きさが距離に応じて変化する場合に、検出対象物の確実な検出処理を可能とするための一般的な処理として、以下の処理が行われる。
例えば撮影画像から複数の異なる解像度の画像を生成して、生成した複数の解像度画像に対して、順次、物体検出処理を繰り返し実行する。
このような処理が、一般的な物体検出処理として行われる処理である。
例えば、前述した非特許文献[1]などに記載された物体検出アルゴリズムでは、カメラによって撮影された画像(等倍解像度画像)に基づいて、複数の解像度の画像、具体的には複数の異なる拡縮率の拡大画像や縮小画像を生成し、これらの複数の画像に対して、固定サイズの検出ウィンドウをずらしながら物体検出を行っている。
この複数の異なる画像を用いた物体検出処理について、図9を参照して説明する。
図9には、以下の3種類の画像を用いた物体検出処理例を示している。
(ステップ1)等倍解像度画像を用いた物体検出処理
(ステップ2)S1倍解像度画像(S1倍縮小画像)を用いた物体検出処理
(ステップ3)S2倍解像度画像(S2倍縮小画像)を用いた物体検出処理
本例において、S1,S2は1以下であり、例えば、
S1=1/2、
S2=1/4
等である。この場合、
S1倍解像度画像は元の等倍解像度画像の1/2の解像度を持つ縮小画像となる。
また、S2倍解像度画像は元の等倍解像度画像の1/4の解像度を持つ縮小画像となる。
まず、ステップ1において、等倍解像度画像を用いた物体検出処理を実行する。
(ステップ1)に示す等倍解像度画像は、カメラによって撮影された画像であり、拡大や縮小等の解像度変換処理は行っておらず、カメラによる撮影画像自体の解像度を有する画像、すなわち等倍解像度画像である。
図に示すwidth、heightはそれぞれ等倍解像度画像の横サイズ[pixel]と縦サイズ[pixel]を表す。
ステップ1では、この画像に対して、予め規定したサイズを持つ検出ウィンドウを適用した物体検出処理を実行する。
図に示すbox_w、box_hはそれぞれ検出ウィンドウの横サイズ[pixel]と縦サイズ[pixel]を表す。
検出ウィンドウを適用した物体検出処理では、検出ウィンドウ内の画像の特徴量を検出して、検出した特徴量が、予め設定した検出対象物の特徴量に一致または類似するか否かを判定してウィンドウ内に検出対象物があるか否かをほ判定する。
例えば検出対象物が「人」である場合、検出ウィンドウの上部に人の頭や顔、中央に体や手、下部に足に対応する特徴(エッジや輝度等)を持つ画像が検出された場合に、そのウィンドウ内に人が撮影されていると判定する。
図9(ステップ1)に示すように、検出ウィンドウは、等倍解像度画像の左上端から、例えば1画素ずつ、ずらして右方向、さらに下方向に順次移動し、すべての画素領域について、検出対象物に対応する特徴量を有するか否かを判定する。
図に示す(ステップ1)の例では、右下に検出対象物である「人」の画像領域があるが、人の画像サイズが、検出ウィンドウのサイズ(w×h)より大きいため、この検出ウィンドウ内に人の画像があると判定することができず、検出失敗となる。
次に、(ステップ2)では、カメラ撮影画像である等倍解像度画像を縮小して、S1倍解像度画像を生成し、このS1倍解像度画像に対して、同様の物体検出処理を行う。
すなわち、同じサイズ(w×h)を持つ検出ウィンドウを適用して、S1倍解像度画像の左上端から下右端まで、検出ウィンドウを移動し、すべての画素領域について、検出対象物に対応する特徴量を有するか否かを判定する。
図に示す(ステップ2)の例でも、右下に検出対象物である「人」の画像領域があるが、このステップ2でも、まだ人の画像サイズが、検出ウィンドウのサイズ(w×h)より大きいため、この検出ウィンドウ内に人の画像があると判定することができず、検出失敗となる。
次に、(ステップ3)では、さらに、画像を縮小して、S2倍解像度画像を生成し、このS2倍解像度画像に対して、同様の物体検出処理を行う。
すなわち、同じサイズ(w×h)を持つ検出ウィンドウを適用して、S2倍解像度画像の左上端から下右端まで、検出ウィンドウを移動し、すべての画素領域について、検出対象物に対応する特徴量を有するか否かを判定する。
図に示す(ステップ3)の例では、右下の検出対象物である「人」の画像の画像サイズが、検出ウィンドウのサイズ(w×h)に一致し、この検出ウィンドウ内に人の画像があると判定することができ、検出に成功する。
このように、検出対象物体の画像上でのサイズhが事前に分からない場合には、図9を参照して説明したような処理を行うことが必要となる。
すなわち、複数のサイズ(複数の解像度)の画像を生成して、各画像に対して検出ウィンドウを順次、スライドさせて一致度判定を行う物体検出処理を繰り返す必要がある。
検出対象物が検出される場合は、検出対象物の大きさと、検出ウィンドウサイズが一致する場合に限られる。
検出ウィンドウサイズが検出対象物の大きさに一致して、検出対象物が検出された場合、検出対象物体の画像上でのサイズ(h)=検出ウィンドウサイズ(box_h)と仮定して、前述の(式3)のhにbox_hを代入して、(式3)に従って、検出対象物に対する視差d[pixel]を求めることができる。
ただし、前述の(式3)に従って算出される視差d[pixel]は、先に説明した(式1)、(式2)を前提とし、2つの異なる視点からの撮影画像として等倍解像度画像を適用した場合の視差dである。
すなわち、図9(ステップ1)に示すように、等倍解像度画像を適用してサイズ(w×h)の検出ウィンドウを適用して、検出対象物が、検出ウィンドウのサイズに一致した場合、前述の(式3)に従って算出される視差d[pixel]は、2つの異なる視点からの撮影画像である等倍解像度画像上の画素の位置ずれ画素数となる。
この(式3)によって算出した視差dを利用して、前述の(式2)や(式1)を適用すれば、検出対象物までの距離Zを算出することができる。
一方、図9(ステップ2)や、(ステップ3)に示すように、S1倍解像度画像やS2倍解像度画像を適用して同じサイズ(w×h)の検出ウィンドウを適用して、検出対象物と検出ウィンドウサイズに一致した場合に、
その検出対象物体の画像上でのサイズ(h)=検出ウィンドウサイズ(box_h)と仮定して、前述の(式3)のhにbox_hを代入して、(式3)に従って算出される視差d[pixel]は、等倍解像度画像上の画素の位置ずれ画素数には相当しない。
従って、(式3)によって算出した視差dを利用して、前述の(式2)や(式1)を適用しても検出対象物までの距離Zを算出することができない。
(式3)によって算出した視差dを利用して、前述の(式2)や(式1)を適用して検出対象物までの距離Zを算出するためには、検出ウィンドウサイズを等倍解像度におけるサイズに換算する必要がある。
具体的には、S1倍解像度画像の場合はh=box_h/S1、S2倍解像度画像の場合はh=box_h/S2とすればよい。
図6に示す本開示の画像処理装置100における物体検出部200の視差算出部220は、複数の視差マップ225、すなわち、複数の解像度画像対応の視差マップを生成して出力する。具体的には、例えば。
(a)等倍解像度画像対応の視差マップ
(b)S1倍解像度画像対応の視差マップ
(c)S2解像度画像対応の視差マップ
これら3種類の解像度画像対応の視差マップを生成して出力する。
視差算出部220は、
出力視差マップの解像度が等倍解像度の場合は、h=box_h、
出力視差マップの解像度がS1倍解像度画像の場合はh=box_h/S1、
出力視差マップの解像度がS2倍解像度画像の場合はh=box_h/S2、
このように検出ウィンドウサイズを等倍解像度におけるサイズに換算して、上記(式3)に従った視差dを算出して各解像度対応の視差マップ225を生成して出力する。
このように、視差算出部225の出力には、複数の異なる解像度の視差マップ225が含まれる。
なお、本開示の構成では、最終的に出力する視差マップの解像度に応じた最適なサーチレンジ、ブロックサイズを設定する。
また、本開示の構成では、複数の解像度の画像を用意して、それぞれに対してステレオマッチングをするのではなく、あくまでも、等倍解像度画像のみを適用してステレオマッチングを行い、中間データ(コストボリューム)を縮小して、中間データ(コストボリューム)を利用して、最終的に複数解像度の視差マップを得る構成としている。
なお、検出対象物体の実際の高さLとして、事前に正確な値が取得されている場合は、各解像度画像における検出対象物の画像上のサイズ(高さ)hに基づいて、視差dを前述の(式3)に従って正確に算出できるため、画素マッチングにおける探索は必要ない。
しかし、例えば、検出対象物体が人である場合、身長には個人差(例えば、大人と子ども)があり、また姿勢変化によってもその高さが変わる。
このように、検出対象物体の実際の高さLが正確に取得できない場合は、前述の(式3)で概算した視差dを中心に周辺領域も探索する必要がある。
例えば、出力視差マップの解像度が等倍解像度の場合、(式3)によって算出された視差d=dであった場合、±2画素のマージンを考慮し、サーチレンジ区間0を、
サーチレンジ区間0=d−2、d−1、d、d+1、d+2
として設定する。
上記設定は、異なる視点からの撮影された画像である等倍解像度画像、本実施例では、図6に示す視差算出部220に入力する補正第1画像151と補正第2画像間の対応点探索処理における探索範囲(サーチレンジ区間)の設定である。
一方の画像を基準画像として、他方の画像を対応点探索画像としたとき、対応点探索画像において、基準画像と同一位置の画素位置から視差d分ずらした位置を中心として、水平方向に−2画素〜+2画素の領域をサーチレンジ区間とする設定である。
すなわち±2画素のマージンを設定としている。
なお、何画素のマージンを設定するか、および候補視差の選択、すなわち対応点探索を実行する画素間隔の設定は、最終的に出力する視差マップの画像解像度に応じて変えてもよい。
例えば、最終的に出力したい視差マップの解像度がS1倍解像度の場合に、(式3)によって算出された視差値がdであった場合、サーチレンジ区間1を、
サーチレンジ区間1=d−4、d−2、d、d+2、d+4
というよううに、候補視差の画素間隔を2画素おきにするなどしてもよい。
このように、検出対象物体の実際の高さLと、その物体の画像上でのサイズhと、カメラ間の基線長Bとから視差dを算出し、視差dによって決定される探索画素中心位置とその周辺のみを探索領域(サーチレンジ区間)に設定する。
この処理により、計算量の削減、余分な探索によるマッチング誤りを削減することができる。
以上、図7に示すフローのステップS103のサーチレンジ区間の決定処理と、ステップS104の候補視差の設定処理について説明した。
(ステップS105)
次に、画素マッチング部221は、図7に示すフローのステップS105において、等倍解像度画像を適用したステレオマッチング処理を実行する。
具体的には、ステップS103,S104において決定したサーチレンジ区間の候補視差対応画素の一致度を算出して、異なる視点からの撮影画像である可視光画像と遠赤外線画像、すなわち、図5に示す補正第1画像151と、補正第2画像152の対応点探索を行う。
一致度算出処理は、ステップS103〜S104で決定した探索領域(サーチレンジ区間)内の候補視差対応画素、すなわち、探索区間において、実際に対応点か否かを判定する対象となる画素について、2つの画像の画素の一致度を判定する処理である。
すなわち、画素マッチング判定処理である。
画素マッチングにおける一致度の評価方法には、様々な方法を用いることができる。ここでは、可視光画像と遠赤外線画像を用いた歩行者検出における評価方法の1例について述べる。
例えば、可視光画像と遠赤外線画像を用いた歩行者検出の特徴量として、可視光画像の輝度・色情報と勾配情報(強度および方向)と、遠赤外線画像の温度情報と勾配情報(強度および方向)を利用した例について説明する。
図5に示す特徴量抽出部210は、可視光画像と遠赤外線画像、すなわち、図5に示す補正第1画像151と、補正第2画像152から、以下の特徴量を取得しているものとする。
可視光画像(補正第1画像151)の各画素(x,y)対応の勾配強度Magと、勾配方向Ori
遠赤外線画像(補正第2画像152)の各画素(x,y)対応の勾配強度Magと、勾配方向Ori
上記の各画像の特徴量に基づいて、以下の(式4)に示す一致度(Similarity)を定義する。
Similarity(x,y,d)=min(Mag(x,y),Mag(x+d,y))Φ(x,y,d)・・・(式4)
ただし、
(x,y):一致度算出対象となる一方の画像の画素位置を示す座標、
d:一致度算出対象となる2つの画像の位置ずれ画素数(=候補視差)、
Φ(x,y,d)=(cos(2θ(x,y,d)))+1)/2・・・(式5)、
θ(x,y,d)=Ori(x,y)−Ori(x+d,y)・・・(式6)、
である。
上記(式4)において、φは、(式5)と(式6)で定義されるように、可視光画像の画素(x,y)と遠赤外線画像の画素(x+d,y)の勾配方向の差θの2倍角cosに関する評価値である。2倍角cosを用いる理由は、可視光画像と遠赤外線画像の勾配方向の反転を許容するためである。この勾配方向に関する評価値φに、
勾配強度「min(Mag(x,y),Mag(x+d,y))」
で重み付けすることで、一致度を算出する。
双方の画像の勾配強度のうち、小さい方の勾配強度で重み付けしている理由は、双方の画像に共通するエッジ(大きな勾配)が存在する場合にのみ一致度が大きくなるようにするためである。こうすることで、例えば人の輪郭のような双方の画像に共通するエッジがある画素において、信頼性のある一致度を得ることが可能である。
なお、前述したように、一致度の評価方法には、この方法に限らず、入力されるセンサー情報(画像)に応じて、様々な方法を用いることができる。
(ステップS106)
次に、画素マッチング部221は、ステップS106において、すべての画素に関するステップS105のステレオマッチング処理が終了したか否かを判定し、未終了の場合は、未処理画素についてステップS105の処理を継続する。
すべての画素のステレオマッチング処理が終了した場合は、処理を終了する。
以上が、図6に示す視差算出部220の画素マッチング部221の実行する処理である。
この処理の結果、図10に示すような、すべての候補視差に対して、画素単位の一致度を画像の構成画素各々に設定したコストプレーンの束(スタック)からなるコストボリュームが生成される。
すなわち、先に説明した(式4)に従って算出される一致度(Similarity)、すなわち、
Similarity(x,y,d)=min(Mag(x,y),Mag(x+d,y))Φ(x,y,d)
上記一致度の値を画像の構成画素各々に設定した画像(コストプレーン)の束(スタック)からなるコストボリュームが生成される。
図10にコストボリューム300の例を示す。
図10に示すように、コストボリューム300は、複数のコストプレーン301−1〜nによって構成される。
コストプレーン301−nの各々は、視差dの最小値〜最大値、例えばd=0〜∞までの各視差に対応する一致度の値を画像の構成画素各々に設定した画像に相当する。
具体的には、例えば一致度が高いほど黒に近く、一致度が低いほど白に近い画素値が各画素に設定されたモノクロ画像である。
あるいは、一致度が高いほど白に近く、一致度が低いほど黒に近い画素値を各画素に設定したモノクロ画像としてもよい。
あるいは一致度に応じた色を設定した画像でもよいし、一致度を示す数値を画素位置に対応付けたマップとして構成としてもよい。
図10に示すコストボリューム300の最下層のコストプレーン301−1は、例えば、視差d=0に対応する一致度に応じた画素値が設定される。例えば、視差d=0に近い画素ほど黒に近い画素値が設定された画像である。
具体的には、例えば、視差d=0は、カメラからの距離が遠い被写体に対応する視差であり、カメラからの距離が遠い被写体の画素領域が黒、または黒に近いグレー等に設定された画像となる。
最上層のコストプレーン301−nは、例えば、視差d=∞に対応する一致度に応じた画素値が設定される。例えば、視差d=∞に近い画素ほど黒に近い画素値が設定された画像である。
具体的には、例えば、視差d=∞は、カメラからの距離が近い被写体に対応する視差であり、カメラからの距離が近い被写体の画素領域が黒、または黒に近いグレー等に設定された画像となる。
例えば、図10に示すコストボリューム300の上層領域の一部のコストプレーン、中層領域の一部のコストプレーン、下層領域の一部のコストプレーンの各々に検出対象物体としての「人」が存在する場合の例について、図11を参照して説明する。
図11には、以下の3つのコストプレーンの例を示している。
(1)コストプレーンa:視差d=大(=カメラからの距離=近い)
(2)コストプレーンb:視差d=中(=カメラからの距離=中)
(3)コストプレーンc:視差d=小(=カメラからの距離=遠い)
(1)コストプレーンa:視差d=大(=カメラからの距離=近い)は、コストボリューム300の上部にあるコストプレーン、すなわち、視差d=大(=カメラからの距離=近い)の1つのコストプレーンの例を示している。このコストプレーンに相当する視差領域に検出対象物である「人」が存在する場合、このプレーンの視差マップ中に検出対象物である「人」の領域が黒く設定される。この人の大きさは、カメラからの距離が近いため、大きくなる。
(2)コストプレーンb:視差d=中(=カメラからの距離=中)は、コストボリューム300の中ほどにあるコストプレーン、すなわち、視差d=中(=カメラからの距離=中)の1つのコストプレーンの例を示している。このコストプレーンに相当する視差領域に検出対象物である「人」が存在する場合、このプレーンの視差マップ中に検出対象物である「人」の領域が黒く設定される。この人の大きさは、カメラからの距離が中程度であるため、中程度になる。
(3)コストプレーンc:視差d=小(=カメラからの距離=遠い)は、コストボリューム300の下部にあるコストプレーン、すなわち、視差d=小(=カメラからの距離=遠い)の1つのコストプレーンの例を示している。このコストプレーンに相当する視差領域に検出対象物である「人」が存在する場合、このプレーンの視差マップ中に検出対象物である「人」の領域が黒く設定される。この人の大きさは、カメラからの距離が遠いため、小さくなる。
なお、コストボリューム300を構成するコストプレーン301−1〜nは、画素マッチング部221において等倍解像度画像を適用して実行されたステレオマッチング処理の結果に基づいて生成されるプレーンであり、すべて等倍解像度画像相当の解像度を有する。
[3−2.コストボリュームフィルタリング部の実行する処理について]
次に、図6に示す視差算出部220のコストボリュームフィルタリング部222の実行する処理について説明する。
コストボリュームフィルタリング部222は、図10、図11を参照して説明したコストボリュームのフィルタリング処理により、複数の異なる解像度対応のコストボリュームを生成する。
例えば、図12に示すように、以下の3種類のコストボリューム生成用コストプレーンを利用して3種類のコストボリュームを生成する。
(a)等倍解像度コストボリューム生成用コストプレーンを適用した等倍解像度のコストボリュームの生成処理、
(b)S1倍解像度コストボリューム生成用コストプレーンを適用したS1倍解像度のコストボリュームの生成処理、
(c)S2倍解像度コストボリューム生成用コストプレーンを適用したS2倍解像度のコストボリュームの生成処理、
これらの複数の異なる解像度のコストボリュームの生成を行う。
これら(a)〜(c)において生成する複数の解像度のコストボリュームは、先に図11を参照して説明した以下の3種類のコストプレーンがそれぞれ属する3種類のコストボリュームに相当する。
(1)コストプレーンa:視差d=大(=カメラからの距離=近い)
(2)コストプレーンb:視差d=中(=カメラからの距離=中)
(3)コストプレーンc:視差d=小(=カメラからの距離=遠い)
なお、本例において、S1,S2は1以下であり、例えば、
S1=1/2、
S2=1/4
等である。この場合、
S1倍解像度画像は元の等倍解像度画像の1/2の低解像度を持つ縮小画像となる。
また、S2倍解像度画像は元の等倍解像度画像の1/4の低解像度を持つ縮小画像となる。
図13は、コストボリュームのフィルタリング処理を実行するコストボリュームフィルタリング部222の実行する処理を説明するフローチャートである。
このフローチャートの各ステップの処理について、順次、説明する。
(ステップS201)
まず、コストボリュームフィルタリング部222は、ステップS201において、図10を参照して説明したコストボリュームから1つの処理対象のコストプレーンを選択する。
例えばn枚のコストプレーン1〜nがある場合、その中の1つのコストプレーンを順次、選択する。
(ステップS202)
次に、コストボリュームフィルタリング部222は、ステップS202において、ステップ設定処理を実行する。ステップとは、フィルタリングする画素、いわゆる間引き処理を行う画素の間隔である。
コストボリュームフィルタリング部222では、フィルタリングする画素の間隔を変えることで高解像度画像(等倍解像度画像)のコストボリュームから低解像度画像のコストボリュームを生成する。
ステップS202におけるステップ設定は、このフィルタリングする画素の間隔設定処理である。
フィルタリングする画素の間隔は、例えば画像の倍率の逆数を設定する。
すなわち、視差算出部220から分類部230に出力する視差マップの解像度に応じて、ステップ設定(フィルタリング画素間隔)は異なる。例えば、以下の設定とする。
出力視差マップが、等倍解像度の場合は、ステップ設定(フィルタリング画素間隔)=1画素、
出力視差マップが、S1倍解像度の場合は、ステップ設定(フィルタリング画素間隔)=(1/S1)画素、
出力視差マップが、S2倍解像度の場合は、ステップ設定(フィルタリング画素間隔)=(1/S2)画素、
上記設定とする。
具体的には、例えば、
S1=1/2の場合、出力視差マップが1/2倍解像度画像となり、この場合は、ステップ設定(フィルタリング画素間隔)=(1/S1)=2画素となる。
S2=1/4の場合、出力視差マップが1/4倍解像度画像となり、この場合は、ステップ設定(フィルタリング画素間隔)=(1/S2)=4画素となる。
例えば、出力視差マップが、等倍解像度の場合は、ステップ設定(フィルタリング画素間隔)=1画素であり、間引き画素は0であり、画像は縮小されずそのまま出力される。
また、例えばS1=1/2であり、1/2の縮小画像に相当する低解像度画像を生成する場合は、ステップ設定(フィルタリング画素間隔)=(1/S1)画素=2画素であり、2画素を1画素に設定する処理が行われる。
さらに、例えばS2=1/4であり、1/4の縮小画像に相当する低解像度画像を生成する場合は、ステップ設定(フィルタリング画素間隔)=(1/S2)画素=4画素であり、4画素を1画素に設定する処理が行われる。
(ステップS203)
次に、コストボリュームフィルタリング部222は、ステップS203において、フィルタのブロックサイズ(カーネルサイズ)を設定する。
フィルタのブロックサイズ(カーネルサイズ)は、各解像度画像の生成に適用するフィルタサイズに相当し、各解像度(等倍/S1倍/S2倍)画像の構成画素値を算出する際に、参照すべき周囲画素の画素領域を規定するブロックのサイズである。
図14〜図16に示すように、フィルタのブロックサイズ(カーネルサイズ)は、生成するコストボリュームの解像度に応じて設定する。具体的には、以下の設定である。
図14に示すように、出力視差マップが、等倍解像度の場合は、
フィルタブロックサイズ(カーネルサイズ)=(box_w,box_h)、
また、図15に示すように、出力視差マップが、S1倍解像度の場合は、
フィルタブロックサイズ(カーネルサイズ)=(box_w/S1,box_h/S1)、
さらに、図16に示すように、出力視差マップが、S2倍解像度の場合は、
フィルタブロックサイズ(カーネルサイズ)=(box_w/S2,box_h/S2)、
上記設定とする。
なお、このフィルタブロックサイズ(カーネルサイズ)は、例えば、先に図9を参照して説明した検出対象物(例えば人)を検出するために設定される検出ウィンドウのサイズを用いることができる。
この検出ウィンドウは、後段の分類部230において、各検出ウィンドウ内の物体が検出対象物であるか否か、例えば人であるか否かを判定する際に適用される検出ウィンドウのサイズに相当する。
(ステップS204)
次に、コストボリュームフィルタリング部222は、ステップS204において、ステップS202で設定したステップ設定(フィルタリング画素間隔)と、ステップS203で設定したブロックサイズ(カーネルサイズ)の設定に従って、フィルタ処理を実行する。
具体的には、図14〜図16に示すように、出力する視差マップの解像度に応じて選択されるコストプレーンに対してフィルタ処理を行う。
図14は、出力視差マップの解像度が等倍解像度の場合の処理例を示している。
コストボリューム300を構成するコストプレーン中、
図14は、視差d=小(=カメラからの距離=遠い)のグループに属するコストプレーンに対するフィルタ処理を示す図であり、例えばサーチレンジ区間0の各候補視差のコストプレーンに対する平均化フィルタの適用処理として実行される。
画素(x,y)におけるフィルタリング後の値(一致度:Similarity(x,y,d))は、次式(式7)で示される。
Figure 2018147059
なお、上記(式7)に従って算出される一致度:Similarity(x,y,d)によって構成されるフィルタ処理後のコストプレーンのサイズは、等倍解像度(width,height)となる。
図15は、視差d=中(=カメラからの距離=中)のグループに属するコストプレーンに対するフィルタ処理を示す図であり、例えばサーチレンジ区間1の各候補視差のコストプレーンに対する平均化フィルタの適用処理として実行される。
画素(x,y)におけるフィルタリング後の値(一致度:Similarity(x,y,d))は、次式(式8)で示される。
Figure 2018147059
なお、上記(式8)に従って算出される一致度:Similarity(x,y,d)によって構成されるフィルタ処理後のコストプレーンのサイズは、S1倍解像度(S1×width,S1×height)となる。
図16は、視差d=大(=カメラからの距離=近い)のグループに属するコストプレーンに対するフィルタ処理を示す図であり、例えばサーチレンジ区間2の各候補視差のコストプレーンに対する平均化フィルタの適用処理として実行される。
画素(x,y)におけるフィルタリング後の値(一致度:Similarity(x,y,d))は、次式(式9)で示される。
Figure 2018147059
なお、上記(式9)に従って算出される一致度:Similarity(x,y,d)によって構成されるフィルタ処理後のコストプレーンのサイズは、S2倍解像度(S2×width,S2×height)となる。
このように、コストボリュームフィルタリング部222は、出力する視差マップの解像度に応じて選択されるコストプレーンに対してフィルタ処理を行う。
この結果、例えば、図17に示すように、以下の3種類の異なる解像度対応のコストボリュームが生成される。
(1)等解像度コストボリューム
(2)S1倍解像度コストボリューム
(3)S2倍解像度コストボリューム
このように、コストボリュームフィルタリング部222は、視差dの大きさに応じてフィルタリングする画素の間隔を変えることで高解像度のコストボリュームから低解像度のコストボリュームを生成する。また、生成するコストボリュームの解像度に応じて、フィルタのカーネルサイズを設定することで、検出する物体の大きさに適したブロックサイズでのマッチング結果を得ることができる。
なお、ブロックサイズ(カーネルサイズ)は、検出する物体の大きさと近しいほどよいマッチング結果が得られる。もし、ブロックサイズが小さ過ぎるとノイズに対するロバスト性が低下しマッチング結果が不安定になる。一方、ブロックサイズが大き過ぎると物体境界で前景と背景の視差が混ざるため、マッチング精度が低下する。
また、コストボリュームフィルタリング部222ではフィルタリングする画素の間隔を変えることで、高解像度のコストボリュームから低解像度のコストボリュームを生成する。
[3−3.視差決定部の実行する処理について]
次に、図6に示す視差算出部220の視差決定部223の実行する処理について説明する。
視差決定部223は、コストボリュームフィルタリング部222から入力する各解像度のコストボリュームの各画素に対して、もっとも一致度が高くなる視差値を決定し、視差マップを生成する。
図17に示すフローチャートを参照して視差算出部220の視差決定部223の実行する処理について説明する。
(ステップS301)
まず、視差決定部223は、ステップS301において、処理対象とするコストボリュームの解像度を選択する。
視差決定部223は、コストボリュームフィルタリング部222から各解像度のコストボリュームを入力している。具体的には、例えば図14〜図17を参照して説明した以下の3種類のコストボリュームである。
(1)等解像度コストボリューム
(2)S1倍解像度コストボリューム
(3)S2倍解像度コストボリューム
視差決定部223は、ステップS301において、例えば上記(1)〜(3)の各解像度コストボリュームから、処理対象とするコストボリュームの解像度を選択する。
(ステップS302)
次に、視差決定部223は、ステップS302において、処理対象として選択した解像度のコストボリュームに基づいて、視差の決定処理を行い、各解像度対応の視差マップを生成する。
図14〜図17を参照して説明した1つの解像度のコストボリュームには複数のコストプレーンが含まれる。
各コストプレーンには、先に(式7)〜(式9)を参照して説明した一致度(Similarity)に応じた画素値が設定されている。
例えば一致度(Similarity)が高いほど黒(低輝度)、低いほど白(高輝度)となる設定の画素値が設定されている。
視差決定部223は、選択した解像度のコストボリュームに含まれる複数のコストプレーン各々について、同一の画素位置(対応画素位置)の画素値(一致度)を比較して、最も一致度の高いコストプレーンを選択し、そのコストプレーンの視差dをその画素位置の視差Dとして決定する。
この処理を式として示すと、以下の(式10)によって表すことができる。
Figure 2018147059
上記(式10)に従って、画素位置(x,y)の視差D(x,y)を算出する。
上記(式10)の処理を、選択した解像度のコストボリュームの各画素に対して行う。
この処理により、1つの解像度対応の視差マップを生成する。
視差マップは、各画素位置(x,y)に、上記(式10)に従って算出される差D(x,y)の値を設定したマップである。
(ステップS303)
次に、視差決定部223は、ステップS303において、物体候補画素の判定処理を実行し、物体領域候補マップを生成する。
ステップS302の視差決定処理において算出された各画素対応の視差D(x,y)、あるいは視差D(x,y)における一致度に基づいて、
物体、例えば人等の検出対象物の存在確率が高い領域(画素領域)を表す物体候補領域マップを生成する。
前述したように、先に説明した(式4)で定義した一致度(Similarity)の評価式では、異なる視点から撮影された2つの画像の双方の画像に共通するエッジ(大きな勾配)が存在する場合にのみ一致度が大きくなる。
例えば、人の輪郭などでは、双方の画像に共通するエッジがあるため、信頼性の高い一致度が得られる。
具体的には、例えば人の存在する正解の候補視差において、一致度(Similarity)の値は高くなり、それ以外の視差値では、低い値となる。
一方、テクスチャの少ない背景の部分などでは、どの候補視差においても同じような一致度をとり、かつエッジ(大きな勾配強度)がないため、その一致度も低い。
このような状況に鑑み、視差決定部223は、ステップS303において、人等の検出対象物の存在確率が高い領域(画素領域)を判定する。
具体的には、上記の(式10)を用いた視差決定処理において、視差決定時の一致度(Similarity)の値が、予め規定したしきい値以上の場合、その画素を物体候補画素として選択しマーキングする。例えば、物体候補画素を1、それ以外を0とした物体候補領域マップを生成する。
(ステップS304)
次に、視差決定部223は、ステップS304において、ステップS302k視差決定処理と、ステップS303の物体候補画素判定に基づく物体候補領域マップの生成が完了したか否かを判定する。
未処理画像がある場合は、未処理画素に対して、ステップS302〜S303の処理を繰り返す。
すべての画素についての処理が終了し、1つの解像度のコストボリュームに対する処理が終了したと判定した場合は、ステップS305に進む。
(ステップS305)
次に、視差決定部223は、ステップS305において、全ての解像度のコストボリュームに対する処理が完了したか否かを判定する。
未処理の解像度のコストボリュームがある場合は、未処理の解像度のコストボリュームに対して、ステップS301〜S304の処理を繰り返す。
すべての解像度のコストボリュームについての処理が終了したと判定した場合は、処理を終了する。
視差決定部223は、このフローに従った処理により、コストボリュームフィルタリング部222から入力する複数の異なる解像度のコストボリュームに対応する視差マップと、物体候補領域マップを生成して、これらを図5に示す分類部230に出力する。
すなわち、視差決定部223は、図19に示すように、以下の各データを生成して、分類部230に出力する。
(1)等解像度コストボリューム対応の視差マップと、物体候補領域マップ、
(2)S1倍解像度コストボリューム対応の視差マップと、物体候補領域マップ、
(3)S2倍解像度コストボリューム対応の視差マップと、物体候補領域マップ、
分類部230は、上記の複数解像度対応の視差マップと、物体候補領域マップを用いて、検出対象物、例えば人の検出を行う。
この処理において、分類部230は、物体候補領域マップを用い、物体候補画素のみを処理対象とした分類処理を行う。この限定された領域に対する処理を行うことで、計算量を削減することができる。
前述した非特許文献[1]などの一般的な物体検出器では、先に図9を参照して
説明したように、複数の解像度の画像上で検出ウィンドウをスライディングさせながら検出処理を行うため、計算量が膨大となる。これに対して、本開示の処理では、生成した物体候補領域マップを用い、物体候補画素のみ、後段の分類処理を行うことで、計算量を削減することができる。
[4.その他の実施例について]
以上、本開示の画像処理についての実施例について説明したが、上記実施例の構成や、処理は、いくつかの点で変更可能である。
以下、これらの変更例について説明する。
[4−1.画素マッチング部における一致度(Similarity)算出処理の変更例について]
上述した実施例1では、視差算出部220の画素マッチング部221において、複数の異なる視点からの2つの撮影画像に基づく一致度(Similarity)算出処理を行っている。
具体的には、図6に示すように、視差算出部220の画素マッチング部221は、可視光画像に基づくキャリブレーション画像である補正第1画像151と、遠赤外線画像に基づくキャリブレーション画像である補正第2画像152を入力し、これら2つの異なる視点からの撮影画像に基づく一致度(Similarity)算出処理を行っている。
前述の実施例では、一致度(Similarity)算出処理は、先に説明した(式4)に示す一致度(Similarity)を算出していた。すなわち、以下の(式4)である。
Similarity(x,y,d)=min(Mag(x,y),Mag(x+d,y))Φ(x,y,d)・・・(式4)
この(式4)に示す一致度(Similarity)算出処理は、一例であり、入力画像に応じて、別の評価式を用いてもよい。
また、(式4)の評価式で用いられる特徴量は、
可視光画像(補正第1画像151)の各画素(x,y)対応の勾配強度Magと、勾配方向Ori
遠赤外線画像(補正第2画像152)の各画素(x,y)対応の勾配強度Magと、勾配方向Ori
これらの特徴量であり、図5に示す特徴量抽出部210において抽出されるものとして説明したが、
一致度(Similarity)算出処理に適用する特徴量は、これらの例に限らず、その他の特徴量を用いることも可能である。また、あらかじめ計算された特徴量とは別の特徴量を用いてもよい。
[4−2.コストボリュームフィルタリング部におけるコストボリュームフィルタリング処理の変更例について]
上述した実施例1では、視差算出部220のコストボリュームフィルタリング部222において、コストプレーンに対するフィルタ処理において適用するフィルタとして、平均化フィルタを適用した処理として実行することを説明した。
コストボリュームフィルタリング部222におけるコストプレーンに対するフィルタ処理は、平均化フィルタを適用した処理に限らず、他のフィルタを適用した処理として実行してもよい。例えば、ガウシアンフィルタやバイラテラルフィルタなどを用いてもよい。
また、平均化フィルタを適用した処理を行う場合には、積分イメージを用いた高速化手法などを用いる構成としてもよい。
[4−3.視差決定部における視差決定処理の変更例について]
上述した実施例1では、視差算出部220の視差決定部223において、特定の選択解像度のコストボリュームに含まれる複数のコストプレーン各々について、同一の画素位置(対応画素位置)の画素値(一致度)を比較して、最も一致度の高いコストプレーンを選択し、そのコストプレーンの視差dをその画素位置の視差dとして決定する視差決定処理を前述した(式10)によって算出することを説明した。
先に説明した(式10)に従って、画素位置(x,y)の視差D(x,y)を算出する。この処理により、1つの解像度対応の視差マップを生成する。
視差マップは、各画素位置(x,y)に、上記(式10)に従って算出される差D(x,y)の値を設定したマップである。
この視差の算出には、上述した(式10)以外の方法を用いてもよい。例えば、コストボリュームに対して、Belief Propagation法やGraph Cut法などのグローバル最適化処理を行ってから、(式10)の算出式を適用して視差を算出する方法も適用可能である。
[4−4.視差決定部における物体候補領域マップの生成処理の変更例について]
上述した実施例1では、視差算出部220の視差決定部223において、視差決定処理において算出した各画素対応の視差D(x,y)、あるいは視差D(x,y)における一致度に基づいて、物体、例えば人等の検出対象物の存在確率が高い領域(画素領域)を表す物体候補領域マップを生成する処理について説明した。
すなわち、人等の検出対象物の存在確率が高い領域(画素領域)を判定する処理である。
具体的には、上記の(式10)を用いた視差決定処理において、視差決定時の一致度(Similarity)の値が、予め規定したしきい値以上の場合、その画素を物体候補画素として選択しマーキングする。例えば、物体候補画素を1、それ以外を0とした物体候補領域マップを生成する処理例について説明した。
この物体候補領域マップの生成方法としては、他の方法を用いてもよい。例えば、一致度(Similarity)の値が一定値以上の画素に対して1(物体候補画素)、それ以外を0とした物体候補領域マップに対して、ノイズを除去するためにモフォロジー処理(クロージング処理、オープニング処理)などの画像処理を行って、その結果を物体候補領域マップとして分類部230に出力する構成としてもよい。
上述したように、本開示の画像処理装置においては、ステレオマッチングのサーチレンジを、検出対象物体の実際の大きさと、その物体の画像上での大きさと、センサー間の幾何学的情報から決定することで、無駄な探索を避け、ステレオマッチングの性能の向上および計算量の削減を行うことができる。
また、ステレオマッチングのブロックサイズを、物体検出器のパラメータ(検出ウィンドウサイズおよび検出処理時の画像解像度)から決定することで、ブロックサイズを検出対象物体に最適化し、ステレオマッチングの性能を向上させることができる。
さらに、ステレオマッチングにおいて、高解像度のコストボリュームから多重解像度のコストボリュームを生成することで、ステレオマッチングの前処理の特徴量抽出の処理を削減し、効率よく多重解像度の視差マップを生成することができる。
また、ステレオマッチングの結果で得られた一致度に関するスコアをもとに、物体が存在する確率が高い候補領域を決定し、その領域のみに後段の分類処理を行うことで、物体検出器の計算量の削減を行うことができる。
[5.画像処理装置のハードウェア構成例について]
次に、図20を参照して画像処理装置のハードウェア構成例について説明する。
図20は、本開示の処理を実行する画像処理装置のハードウェア構成例を示す図である。
CPU(Central Processing Unit)501は、ROM(Read Only Memory)502、または記憶部508に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。RAM(Random Access Memory)503には、CPU501が実行するプログラムやデータなどが記憶される。これらのCPU501、ROM502、およびRAM503は、バス504により相互に接続されている。
CPU501はバス504を介して入出力インタフェース505に接続され、入出力インタフェース505には、撮像部521の撮影画像の入力を行うとともに、ユーザ入力可能な各種スイッチ、キーボード、マウス、マイクロホンなどよりなる入力部506、表示部522やスピーカなどに対するデータ出力を実行する出力部507が接続されている。CPU501は、入力部506から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部507に出力する。
入出力インタフェース505に接続されている記憶部508は、例えばハードディスク等からなり、CPU501が実行するプログラムや各種のデータを記憶する。通信部509は、Wi−Fi通信、ブルートゥース(登録商標)(BT)通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。
入出力インタフェース505に接続されているドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア511を駆動し、データの記録あるいは読み取りを実行する。
[6.本開示の構成のまとめ]
以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
なお、本明細書において開示した技術は、以下のような構成をとることができる。
(1) 異なる視点から撮影された2つの画像を入力して物体検出処理を実行する物体検出部を有し、
前記物体検出部は、
前記2つの画像の各画素の視差を算出し、算出視差情報からなる視差マップを生成する視差算出部と、
前記視差算出部の生成した視差マップを適用して物体検出処理を実行する分類部を有し、
前記視差算出部は、
複数の異なる解像度対応の視差マップを生成して前記分類部に出力する画像処理装置。
(2) 前記視差算出部は、
前記2つの画像の等倍解像度画像を適用した対応点探索処理であるステレオマッチング処理を実行する画素マッチング部を有する(1)に記載の画像処理装置。
(3) 前記画素マッチング部は、
前記物体検出処理における検出対象物の高さL、および画像上の高さh、および前記2つの画像を撮影した2つのカメラ間の距離に相当する基線長Bの少なくともいずれかの値を適用して、対応点探索領域であるサーチレンジ区間を決定する(2)に記載の画像処理装置。
(4) 前記画素マッチング部は、
前記ステレオマッチング処理の実行結果として、画素単位の一致度を画像の構成画素各々に設定したコストプレーンの束(スタック)からなるコストボリュームを生成する(2)または(3)に記載の画像処理装置。
(5) 前記視差算出部は、
前記画素マッチング部の生成した前記コストボリュームのフィルタリング処理により、複数の異なる解像度対応のコストボリュームを生成するコストボリュームフィルタリング部を有する(4)に記載の画像処理装置。
(6) 前記コストボリュームフィルタリング部は、
フィルタリング対象の画素の間隔であるステップの設定、および、フィルタリング処理に際して参照する参照画素の範囲を規定するカーネルサイズを、出力するコストボリュームの解像度に応じて変更してフィルタリング処理を行う(5)に記載の画像処理装置。
(7) 前記コストボリュームフィルタリング部は、
平均化フィルタを適用してフィルタリング処理を行う(5)または(6)に記載の画像処理装置。
(8) 前記視差算出部は、
前記コストボリュームフィルタリング部の生成した複数の異なる解像度対応のコストボリュームの各々に対応する視差マップと、物体候補領域マップを生成する視差決定部を有する(5)〜(7)いずれかに記載の画像処理装置。
(9) 前記視差決定部は、
処理対象として選択した解像度のコストボリュームに含まれる複数のコストプレーン各々について、同一の画素位置(対応画素位置)の画素値(一致度)を比較して、最も一致度の高いコストプレーンを選択し、そのコストプレーンの視差dをその画素位置の視差Dとして決定する視差決定処理を実行し、該視差決定処理において決定した視差Dを画素に対応付けた視差マップを生成する(8)に記載の画像処理装置。
(10) 前記視差決定部は、
前記視差決定処理において決定した各画素対応の視差D(x,y)、あるいは視差D(x,y)における一致度に基づいて、
検出対象物の存在確率が高い領域(画素領域)を表す物体候補領域マップを生成する(9)に記載の画像処理装置。
(11) 前記分類部は、
前記視差算出部の生成した複数の異なる解像度対応の視差マップと、物体候補領域マップを入力し、
入力したデータを利用した機械学習処理により、物体検出処理を実行する(8)〜(10)いずれかに記載の画像処理装置。
(12) 前記分類部は、
物体検出アルゴリズムであるACF(Aggregated Channel Features)を適用して物体検出処理を実行する(11)に記載の画像処理装置。
(13) 前記異なる視点から撮影された2つの画像は、可視光画像と遠赤外線画像である(1)〜(12)いずれかに記載の画像処理装置。
(14) 画像処理装置において実行する画像処理方法であり、
物体検出部が、異なる視点から撮影された2つの画像を入力して物体検出処理を実行する物体検出処理ステップを実行し、
前記物体検出処理ステップは、
視差算出部において、前記2つの画像の各画素の視差を算出し、算出視差情報からなる視差マップを生成する視差算出ステップと、
分類部において、前記視差算出ステップにおいて生成した視差マップを適用して物体検出処理を実行する分類処理ステップを有し、
前記視差算出ステップは、
複数の異なる解像度対応の視差マップを生成して前記分類部に出力する画像処理方法。
(15) 画像処理装置において画像処理を実行させるプログラムであり、
物体検出部に、異なる視点から撮影された2つの画像を入力して物体検出処理を実行する物体検出処理ステップを実行させ、
前記物体検出処理ステップにおいて、
視差算出部において、前記2つの画像の各画素の視差を算出し、算出視差情報からなる視差マップを生成する視差算出ステップと、
分類部において、前記視差算出ステップにおいて生成した視差マップを適用して物体検出処理を実行する分類処理ステップを実行させ、
前記視差算出ステップにおいては、
複数の異なる解像度対応の視差マップを生成して前記分類部に出力させるプログラム。
また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本開示の一実施例の構成によれば、高精度かつ効率的な視差マップ生成、物体検出処理を実行する装置、方法が実現される。
具体的には、例えば異なる視点から撮影された2つの画像を入力して視差を算出し、視差マップを生成する視差算出部と、視差マップを適用して物体検出処理を実行する分類部を有する。視差算出部は、等倍解像度画像を適用したステレオマッチング処理を実行し、処理結果から複数の解像度対応のコストボリュームを生成し、各解像度対応のコストボリュームを利用して複数の異なる解像度対応の視差マップと、物体候補領域マップを生成して分類部に出力する。
これらの処理により、高精度かつ効率的な視差マップ生成、物体検出処理を実行する装置、方法が実現される。
10 可視光画像
20 遠赤外線画像
100 画像処理装置
101 制御部
102 記憶部
103 コーデック
104 入力部
105 出力部
106 撮像部
107 可視光画像撮像部
108 遠赤外線画像撮像部
111 第1撮像素子
112 第2撮像素子
131 第1画像
132 第2画像
140 キャリブレーション実行部
151 補正第1画像
152 補正第1画像
170 物体検出結果
200 物体検出部
210 特徴量抽出部
211 第1画像特徴量
212 第2画像特徴量
220 視差算出部
221 画素マッチング部
222 コストボリュームフィルタリング部
223 視差決定部
225 視差マップ
226 物体領域候補マップ
230 分類部
300 コストボリューム
301 コストプレーン
501 CPU
502 ROM
503 RAM
504 バス
505 入出力インタフェース
506 入力部
507 出力部
508 記憶部
509 通信部
510 ドライブ
511 リムーバブルメディア
521 撮像部
522 表示部

Claims (15)

  1. 異なる視点から撮影された2つの画像を入力して物体検出処理を実行する物体検出部を有し、
    前記物体検出部は、
    前記2つの画像の各画素の視差を算出し、算出視差情報からなる視差マップを生成する視差算出部と、
    前記視差算出部の生成した視差マップを適用して物体検出処理を実行する分類部を有し、
    前記視差算出部は、
    複数の異なる解像度対応の視差マップを生成して前記分類部に出力する画像処理装置。
  2. 前記視差算出部は、
    前記2つの画像の等倍解像度画像を適用した対応点探索処理であるステレオマッチング処理を実行する画素マッチング部を有する請求項1に記載の画像処理装置。
  3. 前記画素マッチング部は、
    前記物体検出処理における検出対象物の高さL、および画像上の高さh、および前記2つの画像を撮影した2つのカメラ間の距離に相当する基線長Bの少なくともいずれかの値を適用して、対応点探索領域であるサーチレンジ区間を決定する請求項2に記載の画像処理装置。
  4. 前記画素マッチング部は、
    前記ステレオマッチング処理の実行結果として、画素単位の一致度を画像の構成画素各々に設定したコストプレーンの束(スタック)からなるコストボリュームを生成する請求項2に記載の画像処理装置。
  5. 前記視差算出部は、
    前記画素マッチング部の生成した前記コストボリュームのフィルタリング処理により、複数の異なる解像度対応のコストボリュームを生成するコストボリュームフィルタリング部を有する請求項4に記載の画像処理装置。
  6. 前記コストボリュームフィルタリング部は、
    フィルタリング対象の画素の間隔であるステップの設定、および、フィルタリング処理に際して参照する参照画素の範囲を規定するカーネルサイズを、出力するコストボリュームの解像度に応じて変更してフィルタリング処理を行う請求項5に記載の画像処理装置。
  7. 前記コストボリュームフィルタリング部は、
    平均化フィルタを適用してフィルタリング処理を行う請求項5に記載の画像処理装置。
  8. 前記視差算出部は、
    前記コストボリュームフィルタリング部の生成した複数の異なる解像度対応のコストボリュームの各々に対応する視差マップと、物体候補領域マップを生成する視差決定部を有する請求項5に記載の画像処理装置。
  9. 前記視差決定部は、
    処理対象として選択した解像度のコストボリュームに含まれる複数のコストプレーン各々について、同一の画素位置(対応画素位置)の画素値(一致度)を比較して、最も一致度の高いコストプレーンを選択し、そのコストプレーンの視差dをその画素位置の視差Dとして決定する視差決定処理を実行し、該視差決定処理において決定した視差Dを画素に対応付けた視差マップを生成する請求項8に記載の画像処理装置。
  10. 前記視差決定部は、
    前記視差決定処理において決定した各画素対応の視差D(x,y)、あるいは視差D(x,y)における一致度に基づいて、
    検出対象物の存在確率が高い領域(画素領域)を表す物体候補領域マップを生成する請求項9に記載の画像処理装置。
  11. 前記分類部は、
    前記視差算出部の生成した複数の異なる解像度対応の視差マップと、物体候補領域マップを入力し、
    入力したデータを利用した機械学習処理により、物体検出処理を実行する請求項8に記載の画像処理装置。
  12. 前記分類部は、
    物体検出アルゴリズムであるACF(Aggregated Channel Features)を適用して物体検出処理を実行する請求項11に記載の画像処理装置。
  13. 前記異なる視点から撮影された2つの画像は、可視光画像と遠赤外線画像である請求項1に記載の画像処理装置。
  14. 画像処理装置において実行する画像処理方法であり、
    物体検出部が、異なる視点から撮影された2つの画像を入力して物体検出処理を実行する物体検出処理ステップを実行し、
    前記物体検出処理ステップは、
    視差算出部において、前記2つの画像の各画素の視差を算出し、算出視差情報からなる視差マップを生成する視差算出ステップと、
    分類部において、前記視差算出ステップにおいて生成した視差マップを適用して物体検出処理を実行する分類処理ステップを有し、
    前記視差算出ステップは、
    複数の異なる解像度対応の視差マップを生成して前記分類部に出力する画像処理方法。
  15. 画像処理装置において画像処理を実行させるプログラムであり、
    物体検出部に、異なる視点から撮影された2つの画像を入力して物体検出処理を実行する物体検出処理ステップを実行させ、
    前記物体検出処理ステップにおいて、
    視差算出部において、前記2つの画像の各画素の視差を算出し、算出視差情報からなる視差マップを生成する視差算出ステップと、
    分類部において、前記視差算出ステップにおいて生成した視差マップを適用して物体検出処理を実行する分類処理ステップを実行させ、
    前記視差算出ステップにおいては、
    複数の異なる解像度対応の視差マップを生成して前記分類部に出力させるプログラム。
JP2018567346A 2017-02-07 2018-01-22 画像処理装置、および画像処理方法、並びにプログラム Active JP7024736B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017020055 2017-02-07
JP2017020055 2017-02-07
PCT/JP2018/001782 WO2018147059A1 (ja) 2017-02-07 2018-01-22 画像処理装置、および画像処理方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JPWO2018147059A1 true JPWO2018147059A1 (ja) 2019-11-21
JP7024736B2 JP7024736B2 (ja) 2022-02-24

Family

ID=63107360

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018567346A Active JP7024736B2 (ja) 2017-02-07 2018-01-22 画像処理装置、および画像処理方法、並びにプログラム

Country Status (3)

Country Link
US (1) US11272163B2 (ja)
JP (1) JP7024736B2 (ja)
WO (1) WO2018147059A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI637350B (zh) * 2018-01-09 2018-10-01 緯創資通股份有限公司 產生視差圖的方法及其影像處理裝置與系統
US11060864B1 (en) * 2019-01-22 2021-07-13 Tp Lab, Inc. Controller for measuring distance from reference location and real size of object using a plurality of cameras
US20220215579A1 (en) * 2019-04-22 2022-07-07 Nec Corporation Object detection apparatus, object detection system, object detection method, and non-transitory computer readable medium storing program
JP6808111B1 (ja) * 2020-05-07 2021-01-06 三菱電機株式会社 自己位置推定装置、航行制御装置、画像生成装置、人工衛星システム及び自己位置推定方法
JP7450668B2 (ja) 2022-06-30 2024-03-15 維沃移動通信有限公司 顔認識方法、装置、システム、電子機器および読み取り可能記憶媒体

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06176107A (ja) * 1992-12-04 1994-06-24 Canon Inc 距離画像処理方法及び装置
US20080036576A1 (en) * 2006-05-31 2008-02-14 Mobileye Technologies Ltd. Fusion of far infrared and visible images in enhanced obstacle detection in automotive applications
JP2011048416A (ja) * 2009-08-25 2011-03-10 Konica Minolta Holdings Inc 画像処理装置および画像処理方法
JP2013117969A (ja) * 2011-12-01 2013-06-13 Sony Corp 多重解像度手順を利用してロバストな深度マップを生成するためのシステム及び方法
JP2014096062A (ja) * 2012-11-09 2014-05-22 Yamaguchi Univ 画像処理方法及び画像処理装置
JP2014106732A (ja) * 2012-11-27 2014-06-09 Sony Computer Entertainment Inc 情報処理装置および情報処理方法
JP2016038886A (ja) * 2014-08-11 2016-03-22 ソニー株式会社 情報処理装置および情報処理方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69328230T2 (de) 1992-12-01 2000-08-10 Canon Kk Entfernungbildverarbeitungsvorrichtung und -verfahren
KR100902343B1 (ko) * 2007-11-08 2009-06-12 한국전자통신연구원 로봇 영상 시스템 및 검출 방법
US8831335B2 (en) * 2008-11-25 2014-09-09 Nec Solution Innovators, Ltd. Stereo matching processing apparatus, stereo matching processing method and computer-readable recording medium
US9485495B2 (en) * 2010-08-09 2016-11-01 Qualcomm Incorporated Autofocus for stereo images
WO2012172761A1 (ja) * 2011-06-17 2012-12-20 パナソニック株式会社 ステレオ画像処理装置およびステレオ画像処理方法
EP2902960A4 (en) * 2012-09-27 2015-09-23 Panasonic Ip Man Co Ltd STEREOSCOPIC IMAGE PROCESSING DEVICE AND STEREOSCOPIC IMAGE PROCESSING METHOD
EP3036901B1 (en) * 2013-08-19 2019-01-30 Nokia Technologies OY Method, apparatus and computer program product for object detection and segmentation
US9195904B1 (en) * 2014-05-08 2015-11-24 Mitsubishi Electric Research Laboratories, Inc. Method for detecting objects in stereo images
US9704254B2 (en) * 2015-03-27 2017-07-11 Intel Corporation Stereo image matching by shape preserving filtering of a cost volume in a phase domain
US9626590B2 (en) * 2015-09-18 2017-04-18 Qualcomm Incorporated Fast cost aggregation for dense stereo matching
US10321112B2 (en) * 2016-07-18 2019-06-11 Samsung Electronics Co., Ltd. Stereo matching system and method of operating thereof

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06176107A (ja) * 1992-12-04 1994-06-24 Canon Inc 距離画像処理方法及び装置
US20080036576A1 (en) * 2006-05-31 2008-02-14 Mobileye Technologies Ltd. Fusion of far infrared and visible images in enhanced obstacle detection in automotive applications
JP2011048416A (ja) * 2009-08-25 2011-03-10 Konica Minolta Holdings Inc 画像処理装置および画像処理方法
JP2013117969A (ja) * 2011-12-01 2013-06-13 Sony Corp 多重解像度手順を利用してロバストな深度マップを生成するためのシステム及び方法
JP2014096062A (ja) * 2012-11-09 2014-05-22 Yamaguchi Univ 画像処理方法及び画像処理装置
JP2014106732A (ja) * 2012-11-27 2014-06-09 Sony Computer Entertainment Inc 情報処理装置および情報処理方法
JP2016038886A (ja) * 2014-08-11 2016-03-22 ソニー株式会社 情報処理装置および情報処理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宇戸 寿幸、外4名: ""多重解像度解析を用いた距離画像の高速な位置合わせ"", 電子情報通信学会技術研究報告, vol. 105, no. 177, JPN6018012936, 8 July 2005 (2005-07-08), JP, pages 33 - 38, ISSN: 0004639792 *

Also Published As

Publication number Publication date
JP7024736B2 (ja) 2022-02-24
US11272163B2 (en) 2022-03-08
US20190349572A1 (en) 2019-11-14
WO2018147059A1 (ja) 2018-08-16

Similar Documents

Publication Publication Date Title
WO2018147059A1 (ja) 画像処理装置、および画像処理方法、並びにプログラム
WO2019085792A1 (en) Image processing method and device, readable storage medium and electronic device
US8224069B2 (en) Image processing apparatus, image matching method, and computer-readable recording medium
JP6371553B2 (ja) 映像表示装置および映像表示システム
JP6639113B2 (ja) 画像認識装置、画像認識方法及びプログラム
JP4952625B2 (ja) 透視変換歪み発生文書画像補正装置および方法
JP5954668B2 (ja) 画像処理装置、撮像装置および画像処理方法
US11037310B2 (en) Image processing device, image processing method, and image processing program
KR20140000195A (ko) 입체 카메라를 위한 자동초점
JP6577703B2 (ja) 画像処理装置及び画像処理方法、プログラム、記憶媒体
US11227149B2 (en) Method and apparatus with liveness detection and object recognition
JP6020471B2 (ja) 画像処理方法、画像処理装置および画像処理プログラム
JP6025467B2 (ja) 画像処理装置及び画像処理方法
US10404912B2 (en) Image capturing apparatus, image processing apparatus, image capturing system, image processing method, and storage medium
US20230127009A1 (en) Joint objects image signal processing in temporal domain
JP2013185905A (ja) 情報処理装置及び方法、並びにプログラム
CN112802114A (zh) 多视觉传感器融合装置及其方法和电子设备
JP2001266128A (ja) 奥行き情報取得方法,装置および奥行き情報取得プログラムを記録した記録媒体
JP2009236811A (ja) 画像処理装置および画像処理方法並びにプログラム
JP5935118B2 (ja) 物体検出装置および物体検出方法
US10332259B2 (en) Image processing apparatus, image processing method, and program
US20130076868A1 (en) Stereoscopic imaging apparatus, face detection apparatus and methods of controlling operation of same
JP6276504B2 (ja) 画像検出装置及び制御プログラム並びに画像検出方法
JP2011155365A (ja) 画像処理装置および画像処理方法
US20230064963A1 (en) Feature Detection Methods and Systems Using Deconstructed Color Image Data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220111

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220124

R151 Written notification of patent or utility model registration

Ref document number: 7024736

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151