JPWO2018173846A1 - 物体検出装置、物体検出方法および物体検出プログラム - Google Patents

物体検出装置、物体検出方法および物体検出プログラム Download PDF

Info

Publication number
JPWO2018173846A1
JPWO2018173846A1 JP2019507568A JP2019507568A JPWO2018173846A1 JP WO2018173846 A1 JPWO2018173846 A1 JP WO2018173846A1 JP 2019507568 A JP2019507568 A JP 2019507568A JP 2019507568 A JP2019507568 A JP 2019507568A JP WO2018173846 A1 JPWO2018173846 A1 JP WO2018173846A1
Authority
JP
Japan
Prior art keywords
detection
certainty factor
image
area
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019507568A
Other languages
English (en)
Other versions
JP6766950B2 (ja
Inventor
大地 久田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2018173846A1 publication Critical patent/JPWO2018173846A1/ja
Application granted granted Critical
Publication of JP6766950B2 publication Critical patent/JP6766950B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/97Determining parameters from multiple pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20004Adaptive image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

物体検出装置は、検出対象物の座標が既知の第1画像から、所定の予測モデルを利用して、第1画像の複数位置から切り出される検出領域の各々に対する確信度を取得する第1の物体検出手段501と、取得された確信度に基づいて、検出対象物の存否が未知の第2画像から検出対象物を検出する際に用いるパラメータであって、確信度に対する閾値である検出閾値を含むパラメータを決定するパラメータ決定手段502と、決定されたパラメータを基に第2画像全領域から検出領域の切出元とする検出領域候補の絞り込みを行った上で、予測モデルを利用して、絞り込まれた検出領域候補から切り出される検出領域の各々に対して確信度を取得し、取得した確信度を基に検出対象物を検出する第2の物体検出手段503とを備える。

Description

本発明は、画像から所定の対象物を検出する物体検出装置、物体検出方法および物体検出プログラムに関する。
近年、教師あり機械学習による画像分類手法を利用して、任意の画像から対象物を検出する手法が広く用いられている。当該手法では、スライディングウィンドウと呼ばれる領域枠を利用して、検出対象とされる画像(以下、「検出画像」という)から検出画像の画像領域よりも小さな領域を検出領域として切り出し、切り出した検出領域に対して画像分類を行うなどの工夫により、検出精度の向上が図られている。
機械学習は、人工知能の一種であり、コンピュータに「学習」を可能にするアルゴリズムである。機械学習は、人間が作ったお手本データ(正解ラベル付きの学習データ)を分析し、予測モデルを作成する。このようなお手本データを用いて予測モデルを作成する機械学習は一般に「教師あり機械学習」と呼ばれている。予測モデルを用いることにより、正解ラベルが付されていない(正解が未知の)データに対して、どのラベルに分類されるかや各ラベルに対する確率値などを得ることができるため、将来の値に対する予測などを行うことができる。
対象物検出システムでは、検出画像に対して、検出したい対象物と同じくらいの大きさの検出領域を設定し、検出領域を移動させながら検出領域に対象物が存在するか否かを、学習済みの予測モデルを用いて判定する。
例えば、画像内において対象物を二分するような検出領域が設定された場合、当該検出領域に対して対象物があると判定されない可能性がある。このような検出漏れをなくすには、検出領域を画像全体に対して上下左右に少しずつ動かしながら対象物の有無を判定すればよいが、移動する度に判定処理が行われるため、移動する回数が増えると画像1枚に対して検出にかかる処理時間が増加する。一方、検出にかかる処理時間を効率化するには、検出領域を大きく動かすなどして判定回数を減らせばよいが、移動距離が大きくなると対象物を見逃しやすくなり、検出漏れのリスクが高くなる。
さらには、移動距離を小さくしすぎると、検出画像において検出領域が重複する領域の数が増加する。すると、同一の物体に対して位置等がわずかに異なる多くの検出領域で、対象物が存在すると判定されることも多くなる。このとき、該物体が対象物でない場合であっても、検出領域が物体の一部しか含んでいない等の理由から誤判定される場合がある。このように、スライディング幅が小さくなると、対象物でない物体を対象物であると誤判定する機会が増し、その結果、誤検出が増えて検出精度が悪くなることがある。これを防ぐために、機械学習の分類結果に対する閾値(対象物と判定するための閾値)を上げることも考えられるが、閾値を上げると対象物の検出漏れが起きやすくなる。
このように、画像内における検出領域の各方向における移動距離(以下、まとめてスライディング幅と呼ぶ)は、検出の処理速度と検出精度に大きく影響があるパラメータである。しかし、そのようなパラメータに対して、任意の画像において検出精度を高めつつ、検出にかかる処理を効率化できるような値を設定するのは容易ではない。例えば、いくつかの画像に対してスライディング幅を調整しながら検出処理を繰り返して適切な値に設定するなどの試行錯誤が必要であった。
対象物の識別精度と演算量の低減の両立に関して、例えば、特許文献1には、簡易な一次識別処理によって対象物を識別し、その結果を基に演算量が相対的に多い二次識別処理におけるスキャン領域の位置・スケール(大きさ)を決定することが記載されている。より具体的には、特許文献1に記載の方法は、スキャン領域の位置またはスケールを変更しながら指定された領域に対して対象物の存否判定を行う一次識別処理の結果を利用して、対象物の略全体を含むように二次識別処理のスキャン領域の位置・スケールを決定する。これにより、同一の対象物に対して位置等がわずかに異なった複数の領域候補が抽出された場合であっても、2次識別処理で同一対象物に対して実質的に無駄な演算を実行せずに済むため、識別精度と演算量の低減が両立できるとされている。
また、例えば、特許文献2には、認識対象となるカテゴリ(例えば、歩行者等)の画像領域の候補となる領域を背景画像と識別する際に、信頼度の数値に閾値を設定し、閾値以上の信頼度を持つ領域のみを出力させることが記載されている。このとき、特許文献2に記載の方法は、予め定めた最大個数を超える候補が検出された場合には、最大個数に収まるようにより高い信頼度の閾値を再設定することが記載されている。
国際公開第2014/103433号公報 特開2015−049702号公報
特許文献1に記載の方法は、1つの検出画像に対して一次識別処理と二次識別処理の2回の教師なし機械学習を行う必要があり、かつ一次識別処理で、対象物を漏れなく検出する必要がある。教師なし機械学習である一次識別処理で、高精度に対象物の存否判定を行うためには、上述したように、スライディング幅および検出領域の大きさが適切に設定される必要がある。しかし、特許文献1にはその際の対象物の識別精度と演算量の低減の両立については何ら考慮されていない。したがって、一次識別処理のスラインディング幅の設定について、上述したような問題が同様に発生する。
また、特許文献2に記載の方法は、最大個数が適切に設定されていなければならない。しかし、例えば、スライディング幅が都度変更されるようなシステムでは、スライディング幅に応じて検出領域の総数が変動するため、最大個数を適切に設定することは困難である。このように、検出個数を基準にして信頼度の閾値を定める方法では、スライディング幅に応じた適切な閾値を設定することはできない。
本発明は、上述した課題に鑑みてなされたものであり、任意の画像から予測モデルを用いて所定の対象物を検出する際、検出精度を低下させずに、検出にかかる処理を効率化することを目的とする。
本発明による画像検出装置は、検出対象物の座標が既知の第1画像から、所定の予測モデルを利用して、第1画像の複数位置から切り出される検出領域の各々に対する確信度であって、その検出領域内に検出対象物が存在する確からしさを示す確信度を取得する第1の物体検出手段と、第1画像から取得される確信度に基づいて、検出対象物の存否が未知の第2画像から検出対象物を検出する際に用いるパラメータであって、確信度に対する閾値である検出閾値を含むパラメータを決定するパラメータ決定手段と、パラメータを基に第2画像全領域から検出領域の切出元とする検出領域候補の絞り込みを行った上で、予測モデルを利用して、絞り込まれた検出領域候補から切り出される検出領域の各々に対して確信度を取得し、取得した確信度を基に検出対象物を検出する第2の物体検出手段とを備えたことを特徴とする。
また、本発明による画像検出方法は、検出対象物の座標が既知の第1画像から、所定の予測モデルを利用して、第1画像の複数位置から切り出される検出領域の各々に対する確信度であって、その検出領域内に検出対象物が存在する確からしさを示す確信度を取得し、第1画像から取得される確信度に基づいて、検出対象物の存否が未知の第2画像から検出対象物を検出する際に用いるパラメータであって、確信度に対する閾値である検出閾値を含むパラメータを決定し、パラメータを基に第2画像全領域から検出領域の切出元とする検出領域候補の絞り込みを行った上で、予測モデルを利用して、絞り込まれた検出領域候補から切り出される検出領域の各々に対して確信度を取得し、取得した確信度を基に検出対象物を検出することを特徴とする。
また、本発明による画像検出プログラムは、コンピュータに、検出対象物の座標が既知の第1画像から、所定の予測モデルを利用して、第1画像の複数位置から切り出される検出領域の各々に対する確信度であって、その検出領域内に検出対象物が存在する確からしさを示す確信度を取得する第1の物体検出処理、第1画像から取得される確信度に基づいて、検出対象物の存否が未知の第2画像から検出対象物を検出する際に用いるパラメータであって、確信度に対する閾値である検出閾値を含むパラメータを決定するパラメータ決定処理、およびパラメータを基に第2画像全領域から検出領域の切出元とする検出領域候補の絞り込みを行った上で、予測モデルを利用して、絞り込まれた検出領域候補から切り出される検出領域の各々に対して確信度を取得し、取得した確信度を基に検出対象物を検出する第2の物体検出処理を実行させることを特徴とする。
本発明によれば、任意の画像から予測モデルを用いて所定の対象物を検出する際、検出精度を低下させずに、検出にかかる処理を効率化できる。
第1の実施形態の物体検出装置100の例を示すブロック図である。 検出画像の例を示す説明図である。 第1の実施形態の物体検出装置100の動作の概略を示すフローチャートである。 第1の実施形態の検出閾値調整処理の処理フローの一例を示すフローチャートである。 第1の実施形態のウィンドウ設定パラメータ決定処理の処理フローの一例を示すフローチャートである。 検出粒度の平均検出数DCountの算出例を示す説明図である。 検出粒度の平均検出数DCountに基づく粒度tの決定方法の概要を示す説明図である。 第1の実施形態の第2の物体検出処理の処理フローの一例を示すフローチャートである。 スライディングウィンドウ処理(画像全体)の処理フローの一例を示すフローチャートである。 スライディングウィンドウ処理(部分領域)の処理フローの一例を示すフローチャートである。 確信度計算部5における確信度の取得処理の処理フローの一例を示すフローチャートである。 第2の実施形態の検出閾値調整処理の処理フローの一例を示すフローチャートである。 第2の実施形態の第2の物体検出処理の処理フローの一例を示すフローチャートである。 第2の実施形態の第2の物体検出処理の処理フローの一例を示すフローチャート(つづき)である。 本発明の実施形態にかかるコンピュータの構成例を示すブロック図である。 本発明の物体検出装置の概要を示すブロック図である。
[実施形態1]
以下、本発明の実施形態について図面を参照して説明する。図1は、第1の実施形態の物体検出装置100の例を示すブロック図である。図1に示すように、物体検出装置100は、検出モデル記憶部1と、検出画像記憶部2と、パラメータ調整用画像記憶部3と、物体検出部4と、確信度計算部5と、確信度記憶部6と、検出閾値決定部7と、検出閾値記憶部8と、パラメータ設定部9と、検出結果記憶部10とを備える。
検出モデル記憶部1は、物体検出に使用する学習済み機械学習モデル(予測モデル)を記憶する。
検出画像記憶部2は、検出画像を記憶する。検出画像記憶部2に記憶される検出画像は1つであっても複数であってもよい。
パラメータ調整用画像記憶部3は、ウィンドウ設定パラメータを決定するために用いる画像であるパラメータ調整用画像を記憶する。パラメータ調整用画像記憶部3に記憶されるパラメータ調整用画像は1つであっても複数であってもよい。ここで、パラメータ調整用画像は、例えば、対象物を被写体に含む画像である。なお、パラメータ調整用画像は、検出画像から検出したい対象物と同じ程度の大きさの対象物が含まれているとより好ましい。パラメータ調整用画像は、後述する教師あり機械学習における学習データとして用いられる。パラメータ調整用画像記憶部3は、例えば、1つ以上のパラメータ調整用画像と、各パラメータ調整用画像において対象物が存在する領域の座標(以下、「正解座標」という)とを記憶する。
ここで、ウィンドウ設定パラメータは、機械学習に渡す検出領域を決定するためのパラメータであって、用いるスライディング幅とそのときの検出閾値とを示す情報を少なくとも含む。本実施形態では、スライディング幅を識別する識別子として、「粒度」という指標を用いる。
粒度は、後述する物体検出処理の対象とされた画像に対する当該物体検出処理における検出領域の切り出しの細かさの度合いを示す指標である。本実施形態では、粒度は、値が大きい程、スライディング幅が小さくなる、すなわち移動距離が小さくなり、検出領域の切り出しが多く行われることを表す。なお、以下では、粒度のレベル数という表現を用いる場合があるが、該「レベル数」は、1回の物体検出処理に用いる粒度が何通りあるか(粒度の個数)を表す。また、粒度について「次レベル」といった場合には、今設定されている該粒度に対して次に高い粒度を表す。また、例えば、粒度レベル1といった場合には、用いる粒度のうち最も粗い(低い)粒度を表す。
また、検出閾値は、後述する確信度計算部5から出力される検出領域に対象物が存在する確からしさを示す指標である確信度に対して、後段の処理で当該検出領域に対象物が存在すると判定する基準とされる閾値である。後段の処理は、例えば、ある検出領域に対する確信度が検出閾値以上であれば、当該検出領域に対象物が存在すると判定すればよい。
物体検出部4は、入力された画像に対して後述する物体検出処理を行う。本実施形態では、物体検出部4は、入力された画像の種別に応じて次の2つの処理を行う。
(1)パラメータ調整用画像が入力された場合(第1の物体検出処理)
物体検出部4は、入力された画像全体に対して、予め定めておいた2以上の調整用の粒度tに対応するスライディング幅を用いて、スライディングウィンドウを移動させつつ、各検出領域に対して、機械学習からの分類結果を示す出力値に基づく確信度を取得し、その結果を基に検出結果を出力する。物体検出部4は、粒度tごとに、検出結果として各検出領域における確信度を検出閾値決定部7に送る。
第1の物体検出処理で用いる調整用の粒度tには、スライディング幅だけでなく、その幅での領域閾値が対応づけられているものとする。領域閾値は、第1の物体検出処理で各検出領域が物体が存在している領域である物体領域と判定されるための、該検出領域における実際の対象物の面積占有率の閾値である。例えば、領域閾値が0.5であれば、検出領域の全面積(画素数)に対して対象物が実際に存在している領域の面積(画素数)である物体面積が50%以上であれば、当該検出領域は物体領域であると判定される。
なお、第1の物体検出処理において正解座標付きの画像であるパラメータ調整用画像を用いた教師あり機械学習の結果得られる各検出領域の確信度と、正解座標と、領域閾値とを基に、後段の処理で物体検出用のパラメータである検出閾値が調整される。
(2)検出画像が入力された場合(第2の物体検出処理)
物体検出部4は、入力された画像に対して、指定されたウィンドウ設定パラメータにより示されるスライディング幅および検出閾値を用いて、スライディングウィンドウを移動させつつ、機械学習からの分類結果を示す出力値に基づく確信度を取得し、その結果を基に検出結果を出力する。物体検出部4は、検出結果として検出画像において対象物の座標を検出結果記憶部10に格納する。
なお、第1の物体検出処理および第2の物体検出処理では、検出領域に対する確信度を取得する方法として、対象画像の識別子と検出領域の座標とを確信度計算部5に送り、その返信として取得する方法をとる。
確信度計算部5は、物体検出部4から送られてきた検出領域の座標と対象画像の識別子とを基に次の2つの処理を行う。
(1)確信度記憶部6に、同じ画像について、送られてきた座標と移動閾値R以内の距離にある座標の検出領域の確信度が格納されている場合
確信度計算部5は、格納されている確信度を返信する。
(2)確信度記憶部6に、同じ画像について、送られてきた座標と移動閾値R以内の距離にある座標の検出領域の確信度が格納されていない場合
確信度計算部5は、機械学習を用いて、送られてきた座標の検出領域に対する確信度を計算する。確信度計算部5は、例えば、検出モデル記憶部1に格納されている学習済みの機械学習モデル(予測モデル)と、検出領域座標周辺の画像データ(画素値等)とを用いて、該検出領域に対する確信度を計算する。
一般的に、学習済みの機械学習モデルは、入力された画像が学習した画像に似ていれば1に近い値、そうでなければ0に近い値を出力する。確信度計算部5は、この機械学習の出力値を確信度として物体検出部4に送ってもよい。また、確信度計算部5は、ここで計算した確信度を、画像の識別子および検出領域の座標をキーに確信度記憶部6に記憶し、次回以降の当該座標周辺領域に対する確信度の重複演算を防止する。
確信度記憶部6は、画像の識別子と検出領域の座標と確信度とを対応づけて記憶する。
検出閾値決定部7は、物体検出部4から、第1の物体検出処理の結果として全てのパラメータ調整用画像に対する、粒度tごとの各検出領域に対する確信度を受け取ると、該結果と正解座標とに基づいて、各粒度に対する検出閾値Dth(t)を決定する。また、検出閾値決定部7は、決定された検出閾値Dth(t)に基づき、各粒度における物体領域の検出数count(t)を計算する。
検出閾値記憶部8は、検出閾値決定部7が求めた各粒度に対する検出数count(t)および検出閾値Dth(t)を記憶する。
パラメータ設定部9は、検出閾値記憶部8に記憶されている情報を基に、検出画像に対する第2の物体検出処理で用いる粒度である検出粒度jおよび各検出粒度における検出閾値Dth(j)とを決定し、ウィンドウ設定パラメータとして物体検出部4に送信する。
検出結果記憶部10は、第2の物体検出処理の結果を記憶する。検出結果記憶部10は、例えば、検出画像の識別子とその画像から検出された対象物の座標とを記憶する。
次に、本実施形態の動作を説明する。以下では、図2に示すように、衛星画像などの検出画像から船などの所定の対象物を検出する場合を例に説明する。図2に示すように、本実施形態では、検出画像に対してよりサイズの小さい検出領域をスライディングウインドウで細かく切り出す。そして、切り出した検出領域の各々に対して機械学習を適用して、得られた各検出領域における対象物に対する確信度を基に、検出画像から対象物の座標を検出する。
以下では、図2に示すように、検出領域の横幅および縦幅をそれぞれWとHで表し、検出領域の切出元となる検出画像全体の横幅および縦幅をそれぞれPWおよびPHと表す。
まず、図3を参照して本実施形態の物体検出装置100の動作の概略を説明する。図3に示すように、まず、物体検出装置100は、パラメータ調整用画像に対して調整用の粒度tを用いた第1の物体検出処理を実施する(ステップS01)。ここでは、物体検出部4と確信度計算部5とが、調整用の粒度tを用いて第1の物体検出処理を行い、複数種類のスライディング幅に対応した、検出領域ごとの確信度を得る。
次に、物体検出装置100は、ステップS01の結果と、パラメータ調整用画像に付された正解座標とに基づいて、各粒度tにおける検出閾値と物体検出数を求める(ステップS02)。ここでは、検出閾値決定部7が、粒度tごとに、各パラメータ調整用画像について各検出領域に対する確信度と正解座標とを基に物体領域を特定した上で、その特定結果を基に、粒度ごとの検出閾値と物体検出数を求める。
次に、物体検出装置100は、ステップS02の結果を基に、検出画像に用いるウィンドウ設定パラメータを決定する(ステップS03)。ここでは、パラメータ設定部9が、検出閾値決定部7が求めた粒度ごとの検出閾値と物体検出数を基に、検出画像に用いる検出粒度jおよびそれに対応する検出閾値を決定する。
次に、物体検出装置100は、検出画像に対してステップS03で決定されたウィンドウ設定パラメータにより示される検出粒度jおよび検出閾値を用いて、第2の物体検出処理を行い、検出画像から対象物の座標を検出する(ステップS04)。ここでは、物体検出部4が、検出画像に対して、指定されたスライディング幅および検出閾値を用いて検出対象を狭めながら機械学習により対象物を検出する処理を行う。そして、物体検出部4が、検出結果として検出画像における対象物の座標を検出結果記憶部10に格納する。
次に、上記の各ステップの動作をより具体的に説明する。まず、上記のステップS01およびステップS02の動作に相当する検出閾値調整処理について説明する。図4は、検出閾値調整処理の処理フローの一例を示すフローチャートである。
本例では、まず物体検出部4が、第1の物体検出処理を行う。物体検出部4は、例えば、第1の物体検出処理の動作パラメータの各々を初期値に設定する(ステップS101)。物体検出部4は、例えば、第1の物体検出処理に用いる検出領域サイズW,Hや、スライディング幅SWおよびSHの初期値SWおよびSHや、領域閾値aの初期値aが入力されると、それらを動作パラメータに設定する。また、調整用の粒度tを初期値であるレベル1に設定する。
以下に示す例では、Wと、Hと、SW=0.5Wと、SH=0.5Hと、a=0.5とが入力され、動作パラメータとしてSW=0.5W、SH=0.5H、a=0.5、t=1が設定されたものとする。また、物体検出処理における検出範囲(検出領域の切出元とする範囲)を示すscopeには、画像全体を示すallを設定する。
次に、物体検出部4は、パラメータ調整用画像記憶部3から画像を1枚選択する(ステップS102)。そして、物体検出部4は、選択した画像に対して、scopeが示す範囲内でSWおよびSHずつ検出領域を移動させながら、各検出領域に対する対象物の確信度を確信度計算部5から取得する(ステップS103:スライディングウィンドウ処理)。なお、ステップS103におけるスライディングウィンドウ処理の詳細は後述する。
次に、物体検出部4は、全てのパラメータ調整用画像に対して、当該粒度tにおける各検出領域に対する確信度の取得が完了したかを判定する(ステップS104)。完了していなければ(ステップS104のNo)、ステップS102に戻り、次のパラメータ調整用画像を選択して同様の処理を繰り返す。一方、完了していれば(ステップS104のYes)、ステップS105に進む。
ステップS105では、検出閾値決定部7が、ステップS103で取得された各パラメータ調整用画像に対する検出結果と、パラメータ調整用画像記憶部3に記憶されている物体座標(正解座標)とに基づいて、物体領域を特定する。検出閾値決定部7は、例えば、パラメータ調整用画像ごとに、設定された検出領域の座標と、正解座標とを対比させて、各検出領域の面積に対していずれかの対象物が領域閾値a以上含まれる検出領域を物体領域に特定し、その数を数えるとともにその確信度を収集してもよい。
次に、検出閾値決定部7は、収集した各画像における物体領域の数および確信度を基に、当該粒度tに対する検出数count(t)および検出閾値Dth(t)を求める(ステップS106)。ここで、収集した全画像の確信度のうち、最小値を当該粒度tにおける検出閾値Dth(t)とし、収集した全画像の物体領域の総数を当該粒度tにおける検出数count(t)とする。検出閾値決定部7は、このようにして求めた検出数count(t)および検出閾値Dth(t)を検出閾値記憶部8に格納する。
次に、物体検出部4は、次レベルの粒度tがあるか否かを判定する(ステップS107)。次レベルの粒度tがある場合(ステップS107のYes)、すなわちスライディング幅をさらに縮小できる場合には、粒度tを次レベルに設定し、該レベルに対応した値に動作パラメータを更新する(ステップS108)。そして、ステップS102に戻り、次のレベルの粒度(t=t+1)に対して上記と同様の処理を行う。一方、次レベルの粒度tがなければ、すなわちスライディング幅をこれ以上縮小できない場合には(ステップS107のNo)、ステップS109に進む。
ステップS108で、物体検出部4は、次レベルに対応した各動作パラメータの更新として、例えば次のような値を設定してもよい。すなわち、スライディング幅を現在値の半分、すなわちSW=0.5t+1WおよびSH=0.5t+1Hとし、さらに領域閾値aを現在値からその半分量を引き上げた値、すなわちa=1−0.5t+1としてもよい。なお、その後、t=t+1とすればよい。
そして、次レベルのSWまたはSHが1未満になるまで、上記と同様の処理を繰り返す。なお、上記の更新例の場合、物体検出部4は、ステップS107で、SWまたはSHが2以下であるか否かにより、次レベルの調整用粒度の有無を判定してもよい。この場合、現在のSWまたはSHが2以下であれば、ステップS109に進み、そうでなければステップS108に進めばよい。なお、粒度tの次レベルの各パラメータの値は上記の例には限定されない。
ステップS109では、全ての粒度tにおける検出数count(t)および検出閾値Dth(t)が検出閾値記憶部8に格納されて、当該検出閾値調整処理を終了する。
次に、上記のステップS03に相当するウィンドウ設定パラメータ決定処理について説明する。図5は、ウィンドウ設定パラメータ決定処理の処理フローの一例を示すフローチャートである。
図5に示す例では、まず、パラメータ設定部9は、検出閾値記憶部8に格納されている調整用の粒度tごとの検出閾値Dth(t)および検出数count(t)を取得する(ステップS201)。
次に、パラメータ設定部9は、検出数count(t)を基に、検出粒度jにおける平均検出数DCountを決定する(ステップS202)。パラメータ設定部9は、例えば、全ての粒度tに対する検出数count(t)を合計し、その合計Σcountを特定のDtで割った値を検出粒度の平均検出数DCountとしてもよい。ここで、Dtは、検出粒度のレベル数に対応する値であって、本例では、検出粒度のレベル数=Dt−1である。
図6は、検出粒度の平均検出数DCountの算出例を示す説明図である。図6には、Σcountが300であり、Dtが3である場合の検出粒度の平均検出数DCountの算出例が示されている。この場合、DCount=(Σcount)/Dt=100と算出される。
次に、パラメータ設定部9は、検出粒度jにおけるレベル境界となる粒度tを決定する(ステップS203)。パラメータ設定部9は、例えば、粒度tでの検出数の合計Σcountを、Dtに等分するt(j=1,2,・・・,Dt−1)を算出してもよい。
図7は、検出粒度の平均検出数DCountに基づく粒度tの決定方法の概要を示す説明図である。図7に示すように、粒度tでの検出数の合計Σcountを、Dtに等分する位置を理想のレベル境界とみなし、それに最も近づく粒度tを、検出粒度jにおけるレベル境界となる粒度tに決定してもよい。図7に示す例では、検出粒度のレベル1(j=1)に対応する粒度t=1、検出粒度のレベル2(j=2)に対応する粒度t=3と決定される。
次に、パラメータ設定部9は、決定した粒度tに基づいて、各々の検出粒度jのスライディング幅および検出閾値を決定する(ステップS204)。パラメータ設定部9は、例えば、検出粒度j=粒度tとして、対応する粒度tのスライディング幅および検出閾値を、検出粒度のスライディング幅および検出閾値としてもよい。パラメータ設定部9は、例えば、検出粒度jの情報として、検出粒度jとされる粒度tを示す情報や、検出粒度jごとのSW、SHおよび検出閾値を示す情報を含むウィンドウ設定パラメータを生成してもよい。
次に、上記のステップS04に相当する第2の物体検出処理について説明する。図8は、第2の物体検出処理の処理フローの一例を示すフローチャートである。
図8に示す例では、まず、物体検出部4に、検出画像とともに、上述したウィンドウ設定パラメータ決定処理で決定された、検出粒度jごとのSW、SHおよび検出閾値Dthを示す情報を含むウィンドウ設定パラメータが入力されるものとする。なお、検出画像が複数、検出画像記憶部2に記憶されている場合には、少なくとも検出画像の数分、当該第2の物体検出処理が呼ばれるものとする。
物体検出部4は、ウィンドウ設定パラメータが入力されると、第2の物体検出処理の動作パラメータの各々を初期値に設定する(ステップS301)。物体検出部4は、例えば、第2の物体検出処理に用いる検出領域サイズW,Hや、各々の検出粒度jにおけるスライディング幅SWおよびSHや、検出閾値Dth(j)が入力されると、それらを動作パラメータに設定する。このとき、物体検出部4は、検出粒度j=1であるとして、各動作パラメータに、当該検出粒度jに応じた値を設定する。なお、j=1での物体検出処理における検出範囲を示すscopeには、画像全体を示すallを設定する。
次に、物体検出部4は、入力された検出画像に対して、scopeが示す範囲内でSWおよびSHずつ検出領域を移動させながら、各検出領域に対する対象物の確信度を確信度計算部5から取得する(ステップS302:スライディングウィンドウ処理)。
次に、物体検出部4は、ステップS302で取得された検出結果に基づいて、物体領域を特定するとともに、次粒度での検出範囲を決定する(ステップS303〜ステップS305)。
物体検出部4は、検出閾値Dth(j)以上の確信度をもつ検出領域が存在するか否かを判定する(ステップS303)。存在すれば(ステップS303のYes)、該検出領域の全てを、検出粒度jの次レベルでの検出対象領域とする(ステップS304)。存在しなければ(ステップS303のNo)、ステップS306に移動する。
ステップS304では、検出粒度jの次レベルでの検出対象領域を設定するとともに、検出粒度jを次レベルに更新する(j=j+1)。このとき、検出粒度jの更新に合わせて、他の動作パラメータSW,SH,Dthも更新される。また、scopeは、部分領域であることを示すpartが設定される。
そして、全ての検出粒度に対してスライディングウィンドウ処理が完了するまで、上記処理を繰り返す(ステップS305のNo,ステップS302に戻る)。
全ての検出粒度に対してスライディングウィンドウ処理が完了すると(ステップS305のYes)、検出対象領域として最後まで残った検出領域が物体領域であるとして、該物体領域の座標を、検出結果記憶部10に記憶する(ステップS306)。
図9は、物体検出部4によるスライディングウィンドウ処理の処理フローの一例を示すフローチャートである。なお、本例は、上記のステップS103やステップS302で、画像全体に対してスライディングウィンドウ処理を行う場合に呼ばれる処理の例である。
画像全体に対するスライディングウィンドウ処理では、物体検出部4は、図9に示すように、まず、検出領域の座標(x,y)を(0,0)に設定する(ステップS511)。ここで、座標(x,y)は、検出領域の中心座標を表すが、該中心座標には移動閾値R分の誤差が含まれる。
次に、物体検出部4は、確信度計算部5に当該座標(x,y)を渡して、当該検出領域における確信度を取得する(ステップS512)。なお、確信度計算部5における確信度の取得処理の処理フローは後述する。
次に、物体検出部4は、検出領域座標(x,y)を横にSW分ずらす(ステップS513)。ここでは、x=x+SWとすればよい。
次に、物体検出部4は、xがPW+Wを超えたか否かを判定する(ステップS514)。超えていなければ(ステップS514のNo)、ステップS512に戻り更新後の座標(x,y)にて確信度を得る。一方、超えていれば(ステップS514のYes)、縦方向のスライディング方向を行うため、ステップS515に進む。
ステップS515では、物体検出部4は、xを初期値0に戻した上で、検出領域座標(x,y)を縦にSH分ずらす。ここでは、x=0、y=y+SHとすればよい。
そして、物体検出部4は、yがPH+Hを超えたか否かを判定する(ステップS516)。超えていなければ(ステップS516のNo)、ステップS512に戻り更新後の座標(x,y)にて確信度を得る。一方、超えていれば(ステップS516のYes)、全ての対象領域について検出処理を完了したとして、ステップS517に進む。
ステップS517では、物体検出部4は、これまでに得た検出領域の座標(x,y)と確信度の組を検出結果として出力する。
また、図10は、物体検出部4によるスライディングウィンドウ処理の処理フローの一例を示すフローチャートである。なお、本例は、上記のステップS302で、画像の部分領域に対してスライディングウィンドウ処理を行う場合に呼ばれる処理の例である。
画像の部分領域に対するスライディングウィンドウ処理では、物体検出部4は、図10に示すように、まず、検出領域の座標(x,y)を(x,y)に設定する(ステップS521)。ここで、座標(x,y)は、検出領域の中心座標を表すが、該中心座標には移動閾値R分の誤差が含まれる。また、座標(x,y)には、前回のスライディングウィンドウ処理の結果、検出対象領域とされたうちのいずれかの検出領域の中心座標が指定されることを想定している。
次に、物体検出部4は、確信度計算部5に当該座標(x,y)を渡して、当該検出領域における確信度を取得する(ステップS522)。
次に、物体検出部4は、検出領域座標(x,y)を横にSW分ずらす(ステップS523)。ここでは、x=x+SWとすればよい。
次に、物体検出部4は、xがx+Wを超えたか否かを判定する(ステップS524)。超えていなければ(ステップS524のNo)、ステップS522に戻り更新後の座標(x,y)にて確信度を得る。一方、超えていれば(ステップS524のYes)、縦方向のスライディング方向を行うため、ステップS525に進む。
ステップS525では、物体検出部4は、xを初期値xに戻した上で、検出領域座標(x,y)を縦にSH分ずらす。ここでは、x=x、y=y+SHとすればよい。
そして、物体検出部4は、yがy+Hを超えたか否かを判定する(ステップS526)。超えていなければ(ステップS526のNo)、ステップS522に戻り更新後の座標(x,y)にて確信度を得る。一方、超えていれば(ステップS526のYes)、全ての対象領域について検出処理を完了したとして、ステップS527に進む。
ステップS527では、物体検出部4は、これまでに得た検出領域の座標(x,y)と確信度の組を検出結果として出力する。
また、図11は、確信度計算部5における確信度の取得処理の処理フローの一例を示すフローチャートである。図11に示すように、確信度計算部5は、画像識別子とともに検出領域座標(x,y)が渡されると、同じ画像で、検出領域座標が移動閾値R以内の距離にある確信度が確信度記憶部6に格納されているか否かを確認する(ステップS601)。格納されていれば(ステップS601のYes)、格納されている確信度を出力する(ステップS605)。
一方、格納されていなければ(ステップS601のNo)、確信度計算部5は、検出領域座標を基に確信度を計算する。確信度計算部5は、検出画像から検出領域座標(x,y)を中心とする幅W,高さHの矩形領域を切り出す(ステップS602)。具体的には、矩形領域(x−W/2,y−H/2,x+W/2,y+H/2)を切り出す。
そして、確信度計算部5は、切り出した矩形領域画像に対して物体検出モデルを用いて画像を分類し、確信度を計算し(ステップS603)、計算結果を確信度記憶部6に格納する(ステップS604)。そして、ステップS605に進み、計算した確信度を出力する。
以上のように、本実施形態によれば、機械学習を用いて任意の検出画像から所定の対象物を検知する際に、得られた確信度を元にスライディング幅を自動調整して、対象物がありそうな場所を絞り込みながら、効率的な演算で物体検出を行うことができる。また、その際、教師あり機械学習により得た検出結果を基に、適切な各検出粒度すなわちスライディング幅および検出閾値を設定することにより、平均検出数となる検出精度を維持しながら、より少ない判定処理で、物体検出を行うことができる。
したがって、任意の画像から予測モデルを用いて所定の対象物を検出する際に、検出精度と検出にかかる処理の効率化とを両立することができる。
また、本実施形態の、検出画像からスライディングウインドウで検出領域を細かく切り出して、教師あり機械学習を用いて切り出した検出領域を所定のカテゴリに分類する方法を利用すれば、該機械学習に用いる学習データを拡張したり選別することもできる。
[実施形態2]
次に、本発明の第2の実施形態を説明する。第1の実施形態では、パラメータ調整用画像を用いて調整された検出粒度に対応する検出閾値に従って、検出対象領域を狭めながら該検出対象領域内を網羅的にスライドさせながら確信度を算出して最終的な検出結果を得た。本実施形態では、第1の実施形態の方法よりも更に確信度の計算回数を削減する。
より具体的には、本実施形態では、第2の物体検出処理における2回目以降のスライディング処理で、確信度が大きくなる方向に検出領域を移動させる。
なお、この方法を使用するためには、機械学習モデル(予測モデル)を、「対象物有(1)」または「対象物なし(0)」の2値で学習させるのではなく、検出領域に対象物がどの程度含まれるのかに基づく値を出力するように学習させる。
以下、第1の実施形態と異なる部分を中心に説明する。本実施形態では、第2の物体検出処理における検出領域の初期位置計算方法が第1の実施形態と異なる。すなわち、本実施形態では、画像全体に対して検出領域を比較的大きな(例えば、検出領域のサイズと同じ幅)で動かし、そのときの確信度が検出閾値よりも大きかった座標を検出領域の初期位置(2回目の検出処理の検出対象領域)とする。
また、本実施形態では、検出閾値を調整する際、調整用の粒度tを1つに固定し、かつ第2の物体検出処理の初期粒度と同じ設定(例えば、検出領域のサイズと同じ幅で移動する設定)とする。
また、本実施形態では、第2の物体検出処理で、2回目以降の検出処理の際、検出領域の移動方向および移動量を次のように決定する。すなわち、当該検出領域において移動先として考えられる各方向(例えば、上下左右斜め方向の8方向)における地点での確信度を計算し、得られた確信度に基づいて決定する。例えば、常に確信度が最も高い方向に移動させてもよいし、確信度を基に確率的に移動方向を定めてもよい。また、例えば、確信度が大きい場合には対象物が近くにある可能性が高いことから、確信度が大きいほど移動量を小さくし、逆に確信度が小さいほど移動量を大きくしてもよい。なお、確信度に対して1つ以上の閾値を用意しておき、各閾値を超えるか否かによって予め定めておいた移動量が設定されるようにしてもよい。
図12は、第2の実施形態における検出閾値調整処理の処理フローの一例を示すフローチャートである。なお、図4に示す第1の実施形態の検出閾値調整処理と同じ動作については同じ符号を付し、説明を省略する。
本例では、まず物体検出部4が、第1の物体検出処理を行う。物体検出部4は、例えば、第1の物体検出処理の動作パラメータの各々を初期値に設定する(ステップS111)。物体検出部4は、例えば、第1の物体検出処理に用いる検出領域サイズW,Hや、スライディング幅SWおよびSHの初期値SWおよびSHや、領域閾値aの初期値aが入力されると、それらを動作パラメータに設定する。また、調整用の粒度tを初期値であるレベル1に設定する。
以下に示す例では、Wと、Hと、SW=Wと、SH=Hと、a=0.5とが入力され、動作パラメータとしてSW=W、SH=H、a=0.5、t=1に設定されたものとする。また、物体検出処理における検出範囲を示すscopeには、画像全体を示すallを設定する。なお、本例では調整用の粒度tは1つのみ(t=1のみ)である。
ステップS102〜ステップS105までは第1の実施形態と同様である。すなわち、物体検出部4が、全てのパラメータ調整用画像に対して、現在の粒度での各検出領域に対する確信度を取得し、検出閾値決定部7が、その結果と正解座標とに基づいて、物体領域を特定する。
そして、検出閾値決定部7は、特定した物体領域を基に、当該粒度における検出閾値を決定する(ステップS112)。本実施形態でも、検出閾値決定部7は、物体領域の確信度のうち最小値を検出閾値とすればよい。
なお、パラメータ設定部9は、ステップS112で決定された粒度tにおける検出閾値を、そのまま第2の物体検出処理における検出粒度j=t=1における検出閾値とする。パラメータ設定部9は、例えば、検出粒度jの情報として、検出粒度jとされる粒度tを示す情報や、検出粒度jのSW、SHおよび検出閾値を示す情報を含むウィンドウ設定パラメータを生成してもよい。
また、図13および図14は、本実施形態における第2の物体検出処理の処理フローの一例を示すフローチャートである。
本実施形態では、まず、物体検出部4に、検出画像とともに、上述したウィンドウ設定パラメータ決定処理で決定された、検出粒度jのSW、SHおよび検出閾値Dthを示す情報を含むウィンドウ設定パラメータが入力されるものとする。なお、検出画像が複数、検出画像記憶部2に記憶されている場合には、少なくとも検出画像の数分、当該第2の物体検出処理が呼ばれるものとする。
物体検出部4は、ウィンドウ設定パラメータが入力されると、第2の物体検出処理の動作パラメータの各々を初期値に設定する(ステップS311)。なお、検出粒度jが1に固定されるだけで、初期値の設定方法は、第1の実施形態と同様である。なお、本例では、SW=W、SH=Hが設定されたとする。
ステップS302およびステップS303の処理は第1の実施形態と同様である。
なお、ステップS303で、確信度が検出閾値Dth以上の検出領域が存在しなければ、物体検出部4は、検出画像に対象物は存在しないとする検出結果を出力して処理を終了する(ステップS303のNo、ステップS312)。
一方、確信度が検出閾値Dth以上の検出領域が存在した場合、物体検出部4は、当該検出領域を、検出領域初期位置に設定する(ステップS313)。なお、ステップS311〜ステップS313の処理を、検出領域候補の初期位置決定処理と呼ぶ場合がある。
次に、物体検出部4は、検出領域候補の初期位置決定処理で設定された検出領域初期位置の中から1つを選択し(ステップS314)、検出領域を該検出領域初期位置に設定する(ステップS315)。
次に、物体検出部4は、検出領域周辺の確信度を取得する(ステップS316)。物体検出部4は、例えば、現在の検出領域の中心座標に対して、移動可能な方向ごとに当該方向に移動閾値R以上の所定の量を足した座標を指定して確信度を確信度計算部5から取得してもよい。
そして、物体検出部4は、取得した確信度に基づいて、移動方向および移動量を決定する(ステップS317、ステップS318)。
物体検出部4は、初期位置からの移動量が移動閾値Rを上回っている間、上記の処理を繰り返す(ステップS319のNo,ステップS315に戻る)。一方、初期位置からの移動量が移動閾値R以下となった場合には、検出結果記憶部10に当該検出領域の座標を物体座標として保存する(ステップS319のYes,ステップS320)。
また、物体検出部4は、全ての検出領域候補に対してステップS315〜ステップS320の検出処理を行う(ステップS321のNo,ステップS314に戻る)。
最後に、物体検出部4は、全ての検出領域候補に対してステップS315〜ステップS320の検出処理が完了すると、これまでに保存された検出領域の座標を物体座標とする検出結果を出力する(ステップS322)。
以上のように、本実施形態によれば、さらに第1の実施形態の方法よりも更に確信度の計算回数を削減できる。
[その他の実施形態]
なお、上記の実施形態では、検出画像から船などの特定の対象物を検出する例を示したが、例えば、対象物が複数(例えば、船と飛行機と車、第1の船と第2の船、など)ある場合にも上記の方法は適用可能である。その場合、対象物として分類したい物体をカテゴリに分けて、カテゴリごとに予測モデルおよびパラメータ調整用画像を切り替えて上記の方法を実施すればよい。
次に、本発明の実施形態にかかるコンピュータの構成例を示す。図15は、本発明の実施形態にかかるコンピュータの構成例を示す概略ブロック図である。コンピュータ1000は、CPU1001と、主記憶装置1002と、補助記憶装置1003と、インタフェース1004と、ディスプレイ装置1005と、入力デバイス1006とを備える。
上述の物体検出装置は、例えば、コンピュータ1000に実装されてもよい。その場合、各装置の動作は、プログラムの形式で補助記憶装置1003に記憶されていてもよい。CPU1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、そのプログラムに従って上記の実施形態における所定の処理を実施する。
補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例として、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータは1000がそのプログラムを主記憶装置1002に展開し、上記の実施形態における所定の処理を実行してもよい。
また、プログラムは、各実施形態における所定の処理の一部を実現するためのものであってもよい。さらに、プログラムは、補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで上記の実施形態における所定の処理を実現する差分プログラムであってもよい。
インタフェース1004は、他の装置との間で情報の送受信を行う。また、ディスプレイ装置1005は、ユーザに情報を提示する。また、入力デバイス1006は、ユーザからの情報の入力を受け付ける。
また、実施形態における処理内容によっては、コンピュータ1000の一部の要素は省略可能である。例えば、装置がユーザに情報を提示しないのであれば、ディスプレイ装置1005は省略可能である。
また、各装置の各構成要素の一部または全部は、汎用または専用の回路(Circuitry)、プロセッサ等やこれらの組み合わせによって実施される。これらは単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。また、各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。
各装置の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
また、図16は、本発明の物体検出装置の概要を示すブロック図である。図16に示すように、本発明の物体検出装置50は、第1の物体検出手段501と、パラメータ決定手段502と、第2の物体検出手段503とを備えていてもよい。
第1の物体検出手段501(例えば、物体検出部4の第1の物体検出処理部分)は、検出対象物の座標が既知の第1画像に対し、所定の予測モデルを利用して、第1画像の複数位置から切り出される検出領域の各々に対する確信度であってその検出領域内に検出対象物が存在する確からしさを示す確信度を取得する。
パラメータ決定手段502(例えば、検出閾値決定部7およびパラメータ設定部9)は、第1画像から取得される確信度に基づいて、検出対象物の存否が未知の第2画像から検出対象物を検出する際に用いるパラメータであって、確信度に対する閾値である検出閾値を含むパラメータを決定する。
第2の物体検出手段503(例えば、物体検出部4の第2の物体検出処理部分)は、パラメータを基に、第2画像全領域から検出領域を切り出す元とする検出領域候補の絞り込みを行った上で、予測モデルを利用して、検出領域候補から切り出した検出領域に対して確信度を取得し、取得した確信度を基に、検出対象物を検出する。
このような構成により、第2画像に対して検出対象物が存在しそうな位置に検出領域候補を適切に絞り込むことができるので、任意の画像から予測モデルを用いて所定の対象物を検出する際、検出精度を低下させずに、検出にかかる処理を効率化できる。
なお、上記の実施形態は以下の付記のようにも記載できる。
(付記1)検出対象物の座標が既知の第1画像から、所定の予測モデルを利用して、第1画像の複数位置から切り出される検出領域の各々に対する確信度であって、その検出領域内に検出対象物が存在する確からしさを示す確信度を取得する第1の物体検出手段と、第1画像から取得される確信度に基づいて、検出対象物の存否が未知の第2画像から検出対象物を検出する際に用いるパラメータであって、確信度に対する閾値である検出閾値を含むパラメータを決定するパラメータ決定手段と、パラメータを基に第2画像全領域から検出領域の切出元とする検出領域候補の絞り込みを行った上で、予測モデルを利用して、絞り込まれた検出領域候補から切り出される検出領域の各々に対して確信度を取得し、取得した確信度を基に検出対象物を検出する第2の物体検出手段とを備えたことを特徴とする物体検出装置。
(付記2)パラメータ決定手段は、第1画像から取得される確信度と検出対象物の座標とに基づいて、検出閾値を決定する付記1記載の物体検出装置。
(付記3)パラメータ決定手段は、第1画像における検出対象物の座標に基づいて検出対象物が所定面積比率以上存在する検出領域を物体領域とし、物体領域の中で最小の確信度を検出閾値に決定する付記1または付記2記載の物体検出装置。
(付記4)第2の物体検出手段は、同一画像に対し、1回目で、画像全体を検出領域候補にして、確信度を取得し、2回目以降で、前回の確信度が検出閾値以上の検出領域を検出領域候補にして、確信度を取得する付記1から付記3のうちのいずれかに記載の物体検出装置。
(付記5)第1の物体検出手段は、各々が異なるスライディング幅に対応する3以上の調整用粒度を用いて、調整用粒度ごとに、第1画像全体を検出領域候補にして、確信度を取得し、パラメータ決定手段は、第1画像から取得される調整用粒度ごとの各検出領域の確信度と検出対象物の座標とに基づき、2以上の検出粒度および各検出粒度における検出閾値を決定し、第2の物体検出手段は、2以上の検出粒度の中からスライディング幅が大きい順に選択される1の検出粒度に対応するスライディング幅および検出閾値を用いて、検出領域候補から確信度の取得および次回の検出領域候補の決定を行う付記4記載の物体検出装置。
(付記6)パラメータ決定手段は、調整用粒度ごとに、検出閾値および検出対象物が存在する検出領域である物体領域の数を求め、物体領域の数から求まる各検出粒度における平均検出数を基に、調整用粒度の中から2以上の検出粒度を決定する付記5記載の物体検出装置。
(付記7)第1の物体検出手段は、所定のスライディング幅に対応する1つの調整用粒度を用いて、第1画像全体を検出領域候補にして確信度を取得し、パラメータ決定手段は、第1画像から取得される確信度と検出対象物の座標とに基づき、調整用粒度における検出閾値を求め、調整用粒度およびその検出閾値を、検出粒度およびその検出閾値とし、第2の物体検出手段は、同一画像に対し、1回目で、画像全体を検出領域候補にし、該検出領域候補から、検出粒度に対応するスライディング幅および検出閾値を用いて、検出領域の切り出し、各検出領域の確信度の取得および次回の検出領域候補における検出領域の初期位置の決定を行い、2回目で、前回の確信度が検出閾値以上の検出領域を検出領域候補にして、各検出領域候補で初期位置から検出領域の移動を開始し、かつ各検出領域候補内における検出領域の移動方向および移動量を、移動前の検出領域の位置周辺から取得される確信度を基に決定しながら、移動先の検出領域における確信度を取得する付記1または付記2記載の物体検出装置。
(付記8)画像の識別子と、検出領域の座標と、該検出領域から予測モデルを用いて取得された確信度とを対応づけて記憶する確信度記憶手段と、画像の識別子および検出領域の座標が入力されると、確信度記憶手段に、入力された画像の識別子が示す画像の入力された座標と所定の閾値以内の距離にある座標の検出領域から取得された確信度が記憶されている場合、記憶されている確信度を返し、記憶されていない場合、入力された画像の識別子が示す画像の入力された座標の検出領域における確信度を予測モデルを用いて計算する確信度計算手段とを備え、第1の物体検出手段および第2の物体検出手段は、確信度計算手段を用いて確信度を取得する付記1から付記7のうちのいずれかに記載の物体検出装置。
(付記9)検出対象物の座標が既知の第1画像から、所定の予測モデルを利用して、第1画像の複数位置から切り出される検出領域の各々に対する確信度であって、その検出領域内に検出対象物が存在する確からしさを示す確信度を取得し、第1画像から取得される確信度に基づいて、検出対象物の存否が未知の第2画像から検出対象物を検出する際に用いるパラメータであって、確信度に対する閾値である検出閾値を含むパラメータを決定し、パラメータを基に第2画像全領域から検出領域の切出元とする検出領域候補の絞り込みを行った上で、予測モデルを利用して、絞り込まれた検出領域候補から切り出される検出領域の各々に対して確信度を取得し、取得した確信度を基に検出対象物を検出することを特徴とする物体検出方法。
(付記10)コンピュータに、検出対象物の座標が既知の第1画像から、所定の予測モデルを利用して、第1画像の複数位置から切り出される検出領域の各々に対する確信度であって、その検出領域内に検出対象物が存在する確からしさを示す確信度を取得する第1の物体検出処理、第1画像から取得される確信度に基づいて、検出対象物の存否が未知の第2画像から検出対象物を検出する際に用いるパラメータであって、確信度に対する閾値である検出閾値を含むパラメータを決定するパラメータ決定処理、およびパラメータを基に第2画像全領域から検出領域の切出元とする検出領域候補の絞り込みを行った上で、予測モデルを利用して、絞り込まれた検出領域候補から切り出される検出領域の各々に対して確信度を取得し、取得した確信度を基に検出対象物を検出する第2の物体検出処理を実行させるための物体検出プログラム。
以上、本実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2017年3月22日に出願された日本特許出願2017−055679を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、学習済みの機械学習モデル以外の予測モデルを用いて検出対象物を検出する場合にも好適に適用可能である。
100 物体検出装置
1 検出モデル記憶部
2 検出画像記憶部
3 パラメータ調整用画像記憶部
4 物体検出部
5 確信度計算部
6 確信度記憶部
7 検出閾値決定部
8 検出閾値記憶部
9 パラメータ設定部
10 検出結果記憶部
1000 コンピュータ
1001 CPU
1002 主記憶装置
1003 補助記憶装置
1004 インタフェース
1005 ディスプレイ装置
1006 入力デバイス
50 物体検出装置
501 第1の物体検出手段
502 パラメータ決定手段
503 第2の物体検出手段

Claims (10)

  1. 検出対象物の座標が既知の第1画像から、所定の予測モデルを利用して、前記第1画像の複数位置から切り出される検出領域の各々に対する確信度であって、その検出領域内に検出対象物が存在する確からしさを示す確信度を取得する第1の物体検出手段と、
    前記第1画像から取得される前記確信度に基づいて、検出対象物の存否が未知の第2画像から検出対象物を検出する際に用いるパラメータであって、前記確信度に対する閾値である検出閾値を含むパラメータを決定するパラメータ決定手段と、
    前記パラメータを基に前記第2画像全領域から検出領域の切出元とする検出領域候補の絞り込みを行った上で、前記予測モデルを利用して、絞り込まれた前記検出領域候補から切り出される検出領域の各々に対して前記確信度を取得し、取得した前記確信度を基に検出対象物を検出する第2の物体検出手段とを備えた
    ことを特徴とする物体検出装置。
  2. 前記パラメータ決定手段は、前記第1画像から取得される前記確信度と検出対象物の座標とに基づいて、前記検出閾値を決定する
    請求項1記載の物体検出装置。
  3. 前記パラメータ決定手段は、前記第1画像における検出対象物の座標に基づいて検出対象物が所定面積比率以上存在する検出領域を物体領域とし、前記物体領域の中で最小の前記確信度を検出閾値に決定する
    請求項1または請求項2記載の物体検出装置。
  4. 前記第2の物体検出手段は、同一画像に対し、1回目で、画像全体を検出領域候補にして、前記確信度を取得し、2回目以降で、前回の前記確信度が検出閾値以上の検出領域を検出領域候補にして、前記確信度を取得する
    請求項1から請求項3のうちのいずれかに記載の物体検出装置。
  5. 前記第1の物体検出手段は、各々が異なるスライディング幅に対応する3以上の調整用粒度を用いて、前記調整用粒度ごとに、前記第1画像全体を検出領域候補にして、前記確信度を取得し、
    前記パラメータ決定手段は、前記第1画像から取得される前記調整用粒度ごとの各検出領域の前記確信度と検出対象物の座標とに基づき、2以上の検出粒度および各検出粒度における検出閾値を決定し、
    前記第2の物体検出手段は、前記2以上の検出粒度の中からスライディング幅が大きい順に選択される1の検出粒度に対応するスライディング幅および検出閾値を用いて、検出領域候補から前記確信度の取得および次回の検出領域候補の決定を行う
    請求項4記載の物体検出装置。
  6. 前記パラメータ決定手段は、前記調整用粒度ごとに、検出閾値および検出対象物が存在する検出領域である物体領域の数を求め、前記物体領域の数から求まる各検出粒度における平均検出数を基に、前記調整用粒度の中から2以上の検出粒度を決定する
    請求項5記載の物体検出装置。
  7. 前記第1の物体検出手段は、所定のスライディング幅に対応する1つの調整用粒度を用いて、前記第1画像全体を検出領域候補にして前記確信度を取得し、
    前記パラメータ決定手段は、前記第1画像から取得される前記確信度と検出対象物の座標とに基づき、前記調整用粒度における検出閾値を求め、前記調整用粒度およびその検出閾値を、前記検出粒度およびその検出閾値とし、
    前記第2の物体検出手段は、同一画像に対し、1回目で、画像全体を検出領域候補にし、該検出領域候補から、前記検出粒度に対応するスライディング幅および前記検出閾値を用いて、検出領域の切り出し、各検出領域の前記確信度の取得および次回の検出領域候補における検出領域の初期位置の決定を行い、2回目で、前回の前記確信度が検出閾値以上の検出領域を検出領域候補にして、各検出領域候補で前記初期位置から検出領域の移動を開始し、かつ各検出領域候補内における検出領域の移動方向および移動量を、移動前の検出領域の位置周辺から取得される前記確信度を基に決定しながら、移動先の検出領域における前記確信度を取得する
    請求項1または請求項2記載の物体検出装置。
  8. 画像の識別子と、検出領域の座標と、該検出領域から前記予測モデルを用いて取得された前記確信度とを対応づけて記憶する確信度記憶手段と、
    画像の識別子および検出領域の座標が入力されると、前記確信度記憶手段に、入力された画像の識別子が示す画像の前記入力された座標と所定の閾値以内の距離にある座標の検出領域から取得された前記確信度が記憶されている場合、記憶されている前記確信度を返し、記憶されていない場合、入力された画像の識別子が示す画像の前記入力された座標の検出領域における前記確信度を前記予測モデルを用いて計算する確信度計算手段とを備え、
    前記第1の物体検出手段および前記第2の物体検出手段は、前記確信度計算手段を用いて前記確信度を取得する
    請求項1から請求項7のうちのいずれかに記載の物体検出装置。
  9. 検出対象物の座標が既知の第1画像から、所定の予測モデルを利用して、前記第1画像の複数位置から切り出される検出領域の各々に対する確信度であって、その検出領域内に検出対象物が存在する確からしさを示す確信度を取得し、
    前記第1画像から取得される前記確信度に基づいて、検出対象物の存否が未知の第2画像から検出対象物を検出する際に用いるパラメータであって、前記確信度に対する閾値である検出閾値を含むパラメータを決定し、
    前記パラメータを基に前記第2画像全領域から検出領域の切出元とする検出領域候補の絞り込みを行った上で、前記予測モデルを利用して、絞り込まれた前記検出領域候補から切り出される検出領域の各々に対して前記確信度を取得し、取得した前記確信度を基に検出対象物を検出する
    ことを特徴とする物体検出方法。
  10. コンピュータに、
    検出対象物の座標が既知の第1画像から、所定の予測モデルを利用して、前記第1画像の複数位置から切り出される検出領域の各々に対する確信度であって、その検出領域内に検出対象物が存在する確からしさを示す確信度を取得する第1の物体検出処理、
    前記第1画像から取得される前記確信度に基づいて、検出対象物の存否が未知の第2画像から検出対象物を検出する際に用いるパラメータであって、前記確信度に対する閾値である検出閾値を含むパラメータを決定するパラメータ決定処理、および
    前記パラメータを基に前記第2画像全領域から検出領域の切出元とする検出領域候補の絞り込みを行った上で、前記予測モデルを利用して、絞り込まれた前記検出領域候補から切り出される検出領域の各々に対して前記確信度を取得し、取得した前記確信度を基に検出対象物を検出する第2の物体検出処理
    を実行させるための物体検出プログラム。
JP2019507568A 2017-03-22 2018-03-13 物体検出装置、物体検出方法および物体検出プログラム Active JP6766950B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017055679 2017-03-22
JP2017055679 2017-03-22
PCT/JP2018/009643 WO2018173846A1 (ja) 2017-03-22 2018-03-13 物体検出装置、物体検出方法および物体検出プログラム

Publications (2)

Publication Number Publication Date
JPWO2018173846A1 true JPWO2018173846A1 (ja) 2019-11-07
JP6766950B2 JP6766950B2 (ja) 2020-10-14

Family

ID=63585248

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019507568A Active JP6766950B2 (ja) 2017-03-22 2018-03-13 物体検出装置、物体検出方法および物体検出プログラム

Country Status (3)

Country Link
US (1) US11107231B2 (ja)
JP (1) JP6766950B2 (ja)
WO (1) WO2018173846A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11151726B2 (en) * 2018-01-10 2021-10-19 Canon Medical Systems Corporation Medical image processing apparatus, X-ray diagnostic apparatus, and medical image processing method
US10223611B1 (en) * 2018-03-08 2019-03-05 Capital One Services, Llc Object detection using image classification models
CN112862855B (zh) * 2019-11-12 2024-05-24 北京京邦达贸易有限公司 图像标注方法、装置、计算设备及存储介质
US11216867B2 (en) * 2020-05-01 2022-01-04 Meta Platforms, Inc. Arranging information describing items within a page maintained in an online system based on an interaction with a link to the page
CN112115803B (zh) * 2020-08-26 2023-10-13 深圳市优必选科技股份有限公司 口罩状态提醒方法、装置及移动终端
CN113435260A (zh) * 2021-06-07 2021-09-24 上海商汤智能科技有限公司 图像检测方法和相关训练方法及相关装置、设备及介质
CN115294505B (zh) * 2022-10-09 2023-06-20 平安银行股份有限公司 风险物体检测及其模型的训练方法、装置及电子设备
CN117765480B (zh) * 2024-02-20 2024-05-10 天科院环境科技发展(天津)有限公司 一种道路沿线野生动物迁徙预警方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009140369A (ja) * 2007-12-07 2009-06-25 Sony Corp 集団学習装置及び集団学習方法、対象物検出装置及び対象物検出方法、並びにコンピュータ・プログラム
JP2014211854A (ja) * 2012-06-01 2014-11-13 株式会社リコー 対象物認識装置、対象物認識方法及び対象物認識用プログラム
JP2015001966A (ja) * 2013-06-18 2015-01-05 株式会社デンソー 物体検出装置
JP2015177300A (ja) * 2014-03-14 2015-10-05 オリンパス株式会社 画像認識装置および画像認識方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000206029A (ja) * 1998-11-11 2000-07-28 Sekisui Chem Co Ltd 粒状模様測定装置及び粒状模様評価方法、並びに粒状模様測定プログラム若しくは粒状模様評価プログラムを記録したコンピュ―タ読み取り可能な記録媒体、並びに粒状模様評価方法を用いた塗装条件設定方法
US6578017B1 (en) * 1999-02-26 2003-06-10 Information Decision Technologies, Llc Method to aid object detection in images by incorporating contextual information
KR101247147B1 (ko) * 2007-03-05 2013-03-29 디지털옵틱스 코포레이션 유럽 리미티드 디지털 영상 획득 장치에서의 얼굴 탐색 및 검출
US8223831B2 (en) * 2007-06-22 2012-07-17 Samsung Electronics Co., Ltd. System and method for periodic pattern detection for motion compensated interpolation
WO2013136395A1 (ja) * 2012-03-12 2013-09-19 日本電気株式会社 検知装置、検知方法、プログラムが格納された記憶媒体
EP2940656B1 (en) 2012-12-25 2024-01-31 Honda Motor Co., Ltd. Vehicle periphery monitoring device
KR101473991B1 (ko) * 2013-05-30 2014-12-24 주식회사 에스원 얼굴 검출 방법 및 그 장치
JP2015049702A (ja) 2013-09-02 2015-03-16 日本電気株式会社 対象認識装置、対象認識方法、およびプログラム
US9456170B1 (en) * 2013-10-08 2016-09-27 3Play Media, Inc. Automated caption positioning systems and methods
JP2015104016A (ja) * 2013-11-26 2015-06-04 キヤノン株式会社 被写体検出装置、撮像装置、被写体検出装置の制御方法、被写体検出装置の制御プログラムおよび記憶媒体
US9235904B1 (en) * 2014-06-20 2016-01-12 Nec Laboratories America, Inc. Object detection with Regionlets re-localization

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009140369A (ja) * 2007-12-07 2009-06-25 Sony Corp 集団学習装置及び集団学習方法、対象物検出装置及び対象物検出方法、並びにコンピュータ・プログラム
JP2014211854A (ja) * 2012-06-01 2014-11-13 株式会社リコー 対象物認識装置、対象物認識方法及び対象物認識用プログラム
JP2015001966A (ja) * 2013-06-18 2015-01-05 株式会社デンソー 物体検出装置
JP2015177300A (ja) * 2014-03-14 2015-10-05 オリンパス株式会社 画像認識装置および画像認識方法

Also Published As

Publication number Publication date
US20190392606A1 (en) 2019-12-26
US11107231B2 (en) 2021-08-31
WO2018173846A1 (ja) 2018-09-27
JP6766950B2 (ja) 2020-10-14

Similar Documents

Publication Publication Date Title
WO2018173846A1 (ja) 物体検出装置、物体検出方法および物体検出プログラム
Wei et al. Toward automatic building footprint delineation from aerial images using CNN and regularization
CN106886795B (zh) 基于图像中的显著物体的物体识别方法
CN107358149B (zh) 一种人体姿态检测方法和装置
US9754160B2 (en) Method and device for detecting gathering of objects based on stereo vision as well as non-transitory computer-readable medium
US9098775B2 (en) Multi-class identifier, method, and computer-readable recording medium
KR101640998B1 (ko) 화상 처리 장치 및 화상 처리 방법
US9501703B2 (en) Apparatus and method for recognizing traffic sign board
WO2021051601A1 (zh) 利用Mask R-CNN选择检测框的方法及系统、电子装置及存储介质
JP5127392B2 (ja) 分類境界確定方法及び分類境界確定装置
EP3203417B1 (en) Method for detecting texts included in an image and apparatus using the same
CN107622274B (zh) 用于图像处理的神经网络训练方法、装置以及计算机设备
CN109063625A (zh) 一种基于级联深度网络的人脸关键点检测方法
US11900664B2 (en) Reading system, reading device, reading method, and storage medium
CN114937086B (zh) 多图像目标检测的训练方法、检测方法及相关产品
Joo et al. Real‐Time Depth‐Based Hand Detection and Tracking
CN112651274A (zh) 路上障碍物检测装置、路上障碍物检测方法及记录介质
CN111460917B (zh) 基于多模态信息融合的机场异常行为检测系统及方法
CN114902299A (zh) 图像中关联对象的检测方法、装置、设备和存储介质
JP2018142173A (ja) 画像監視装置
CN113762220A (zh) 目标识别方法、电子设备、计算机可读存储介质
KR102285269B1 (ko) 빅데이터 기반 Geo AI를 활용한 이미지 분석 장치 및 방법
CN112560856A (zh) 车牌检测识别方法、装置、设备及存储介质
CN109657577B (zh) 一种基于熵和运动偏移量的动物检测方法
CN115271096B (zh) 点云处理和机器学习模型训练方法、装置及自动驾驶车辆

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190723

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200602

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200731

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200818

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200831

R150 Certificate of patent or registration of utility model

Ref document number: 6766950

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150