WO2021005898A1

WO2021005898A1 - 物体検出装置、物体検出方法およびプログラム

Info

Publication number: WO2021005898A1
Application number: PCT/JP2020/020344
Authority: WO
Inventors: 文彬佐藤
Original assignee: コニカミノルタ株式会社
Priority date: 2019-07-11
Filing date: 2020-05-22
Publication date: 2021-01-14
Also published as: US20220351486A1; US11836960B2; EP3998577A4; EP3998577A1; JPWO2021005898A1

Abstract

物体検出装置（１）は、物体を含む画像からＣＮＮによるニューロ演算によって物体を検出する物体検出部（２）を備える。物体検出部（２）は、画像から物体の特徴量を抽出する特徴量抽出部（２ａ）と、特徴量に基づいて、物体の位置の候補を示す物体矩形を複数求めるとともに、物体矩形ごとに、物体のカテゴリの情報および確信度を求める情報取得部（２ｂ）と、特徴量に基づいて、物体矩形が画像中のどの物体に紐づくかを示す物体タグを物体矩形ごとに算出する物体タグ算出部（２ｃ）とを含む。物体検出装置（２）は、物体のカテゴリが同一である複数の物体矩形を、物体タグに応じて複数の群に分離し、分離した各群において、確信度に基づいて、余分な物体矩形を削除する余分矩形抑制部（４）をさらに備える。

Description

物体検出装置、物体検出方法およびプログラム

　本発明は、物体を撮影した画像から上記物体を検出する物体検出装置と、物体検出方法と、プログラムとに関する。

　近年、セキュリティまたはマーケティング調査のために、カメラで撮影した画像に映っている物体（例えば人物）のカテゴリ（クラス）や位置を特定する技術が求められている。物体の検出を頑健に行うために機械学習が広く用いられ、中でも、ＣＮＮ（Convolutional Neural Network）と呼ばれる畳み込み型ニューラルネットワークを用いる技術が近年多く提案されている。

　ところで、ＣＮＮを用いた物体検出では、ＮＭＳ（Non Maximum Suppression）処理が一般的に利用されている。このＮＭＳ処理は、画像中で物体の位置の候補を示す矩形（以下では、「物体矩形」とも言う）が複数存在するときに、各物体矩形で囲まれる物体のカテゴリの確信度（以下では、単に「物体の確信度」とも言う）の高い順に、複数の物体矩形をソートし（並び替え）、確信度の最も高い物体の矩形に対して、カテゴリが同一で、かつ、閾値以上の重なり度合い（ＩｏＵ；Intersection over Union）を持つ物体矩形で囲まれる物体の確信度をゼロにして上記物体矩形を削除し、確信度の最も高い物体の矩形を残す処理である。

　ところが、従来のＮＭＳ処理では、画像中で検出したい物体同士が近接すると、本来残したい物体の確信度がゼロとなり、上記物体の矩形が削除される場合がある。例えば、図１５に示すように、画像中で、物体矩形１００１ａおよび１００２ａで囲まれた物体１００１および１００２のカテゴリが同一（例えば人物）で、その確信度がそれぞれ０．８および０．９であることがＣＮＮによって検出されたとする。このような物体矩形１００１ａおよび１００２ａに対して、従来のＮＭＳ処理を行うと、物体矩形１００１ａと物体矩形１００２ａとの重なり度合いが大きいため（ＩｏＵが閾値以上であるため）、確信度が０．９と相対的に高い物体１００２の物体矩形１００２ａに対して、確信度が０．８と相対的に低い物体１００１の上記確信度がゼロとなり、本来残したい物体１００１の物体矩形１００１ａが削除される。つまり、この場合、ＣＮＮによって物体１００１を検出できているにもかかわらず、ＮＭＳ処理を行うことによって物体１００１を検出することができなくなる。

　そこで、例えば非特許文献１に開示された技術（Ｓｏｆｔ－ＮＭＳ処理）では、図１６に示すように、画像中で同一カテゴリの物体１００１および１００２が近接している場合に、物体矩形１００１ａと物体矩形１００２ａとのＩｏＵの大きさに応じて、物体１００１のカテゴリの確信度を（例えば同図では０．８から０．４に）低下させるようにしている。この処理では、上記確信度がゼロではなく、物体矩形１００１ａが残るため、物体１００１を検出することが可能となる。

　また、例えば非特許文献２に開示された技術では、物体矩形を絞りこむ際に、ＮＭＳ処理を行わずに、ＤＮＮ（Deep Neural Network）によって確信度自体を更新するようにしている。

Navaneeth Bodla, et al., "Soft-NMS-Improving Object Detection With One Line of Code", 2017 IEEE International Conference on Computer Vision (ICCV), 8 Aug 2017 Jan Hosang, et al., "Learning non-maximum suppression", IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 9 May 2017

　ところが、非特許文献１の技術では、検出したい物体同士が近接し、かつ、物体矩形の確信度が比較的低い場合に、Ｓｏｆｔ－ＮＭＳ処理によって上記物体矩形の確信度が限りなく低くなってしまう。例えば、図１７に示すように、物体１００１および１００２の確信度がそれぞれ０．３および０．９である場合、Ｓｏｆｔ－ＮＭＳ処理により、物体１００１の確信度が０．０５に低下する場合がある。これでは、物体１００１の確信度がゼロである場合とほとんど等価な状態となり、物体１００１を精度よく検出することができなくなる。

　また、非特許文献２のように、ＤＮＮによって確信度自体を更新する処理では、検出したい物体の確信度が全て高くなるとは限らず、確信度が低下する場合も当然考えられる。確信度が低下すると、非特許文献１と同様に、物体を精度よく検出することができなくなる。

　本発明は、上記の問題点を解決するためになされたもので、その目的は、画像中で検出したい物体同士が近接する場合でも、検出したい物体の物体矩形を、確信度を低下させることなく残すことができ、これによって、近接する物体のそれぞれを精度よく検出することができる物体検出装置、物体検出方法およびプログラムを提供することにある。

　本発明の一側面に係る物体検出装置は、物体を含む画像から、畳み込み型ニューラルネットワークによるニューロ演算によって前記物体を検出する物体検出部を備えた物体検出装置であって、前記物体検出部は、前記画像から前記物体の特徴量を抽出する特徴量抽出部と、前記特徴量に基づいて、前記物体の位置の候補を示す物体矩形を複数求めるとともに、前記物体矩形ごとに、前記物体のカテゴリの情報および確信度を求める情報取得部と、前記特徴量に基づいて、前記物体矩形が前記画像中のどの物体に紐づくかを示す物体タグを前記物体矩形ごとに算出する物体タグ算出部とを含み、該物体検出装置は、前記物体のカテゴリが同一である複数の前記物体矩形を、前記物体タグに応じて複数の群に分離し、分離した各群において、前記確信度に基づいて、余分な物体矩形を削除する余分矩形抑制部をさらに備えている。

　本発明の他の側面に係る物体検出方法は、物体を含む画像から、畳み込み型ニューラルネットワークによるニューロ演算によって前記物体を検出する物体検出工程を含む物体検出方法であって、前記物体検出工程は、前記画像から前記物体の特徴量を抽出する特徴量抽出工程と、前記特徴量に基づいて、前記物体の位置の候補を示す物体矩形を複数求めるとともに、前記物体矩形ごとに、前記物体のカテゴリの情報および確信度を求める情報取得工程と、前記特徴量に基づいて、前記物体矩形が前記画像中のどの物体に紐づくかを示す物体タグを前記物体矩形ごとに算出する物体タグ算出工程と、を含み、該物体検出方法は、前記物体のカテゴリが同一である複数の前記物体矩形を、前記物体タグに応じて複数の群に分離し、分離した各群において、前記確信度に基づいて、余分な物体矩形を削除する余分矩形抑制工程をさらに含む。

　本発明のさらに他の側面に係るプログラムは、上記物体検出方法をコンピュータに実行させるためのプログラムである。

　物体のカテゴリが同一である複数の物体矩形は、物体タグに応じて複数の群に分離される。例えば、物体タグが同じである物体矩形は同じ群に属し、物体タグが互いに異なる物体矩形同士は異なる群に属するように、複数の物体矩形が各群に分離される。そして、各群において、余分な物体矩形を削除する処理（ＮＭＳ処理）が行われる。各群に属する物体矩形は、物体タグによって同一の物体と紐づけられているため、たとえ画像中で検出したい物体同士が近接する場合でも、各群ごとにＮＭＳ処理を行うことによって、近接する物体ごとに物体矩形を１つのみ残し、残った物体矩形に対応する物体のカテゴリの情報および確信度を残すことができる。つまり、検出したい物体の物体矩形を、確信度を低下させることなくそのまま残すことができる。これにより、近接する物体のそれぞれを精度よく検出することができる。

本発明の実施の一形態に係る物体検出装置の概略の構成を示すブロック図である。上記物体検出部が備える物体検出部を構成するＣＮＮを模式的に示す説明図である。上記ＣＮＮにおいて、１つのノードに対する入力および出力の関係を模式的に示す説明図である。上記物体検出装置によって実施される物体検出方法による処理の流れを示すフローチャートである。入力画像に含まれる複数の物体に対する物体矩形の例を示す説明図である。タグ値のグループ化および更新手法の一例を示す説明図である。タグ値のグループ化および更新手法の他の例を示す説明図である。ＮＭＳ処理後の物体矩形を示す説明図である。物体の検出結果の表示画面例を示す説明図である。複数の物体についての任意の物体矩形のタグ値の例を示す説明図である。異なる物体についての複数の物体矩形間の距離の算出方法の一例を示す説明図である。上記距離の算出方法の他の例を示す説明図である。上記距離の算出方法のさらに他の例を示す説明図である。複数の物体についての任意の物体矩形のタグ値の他の例を示す説明図である。従来のＮＭＳ処理を模式的に示す説明図である。従来の他のＮＭＳ処理を模式的に示す説明図である。上記他のＮＭＳ処理によって生じる不都合を示す説明図である。

　本発明の各実施の形態について、図面に基づいて説明すれば、以下の通りである。

　〔１．物体検出装置の構成〕
　図１は、本実施形態の物体検出装置１の概略の構成を示すブロック図である。本実施形態の物体検出装置１は、例えばパーソナルコンピュータで構成されており、カメラＣＡと通信回線を介して接続されている。カメラＣＡは、物体を撮影して画像を取得する。上記画像は、ここではカラー画像とし、赤（Ｒ）、緑（Ｇ）、青（Ｂ）の画像データは、例えば８ビット（０～２５５）のデータとする。通信回線は、例えば無線ＬＡＮ（Local Area Network）で構成されるが、有線ＬＡＮやインターネット回線で構成されてもよい。

　物体検出装置１は、物体検出部２と、タグ更新部３と、余分矩形抑制部４と、記憶部５と、入力部６と、表示部７と、通信部８と、読取部９と、制御部１０とを備えている。

　物体検出部２は、例えばＧＰＵ（Graphics Processing Unit）で構成されている。ＧＰＵは、リアルタイムな画像処理に特化した演算装置（プロセッサ）である。ＧＰＵにおいては、物体を含む画像からニューロ演算によって上記物体を検出する畳み込み型ニューラルネットワーク（ＣＮＮ）が構築されている。

　上記の物体検出部２は、特徴量抽出部２ａと、情報取得部２ｂと、物体タグ算出部２ｃとを含む。特徴量抽出部２ａは、入力される画像から物体の特徴量（関節点、形状、色など）を抽出する。情報取得部２ｂは、特徴量抽出部２ａによって抽出された特徴量に基づいて、物体の位置の候補を示す物体矩形を複数求めるとともに、物体矩形ごとに、物体のカテゴリの情報（人物、猫、犬、自動車など）および確信度（尤度、スコア）を求める。なお、上記の確信度には、カテゴリの確信度と、物体矩形で囲まれた物体の物体らしさを示す確信度と、物体がそこに存在するか否かの確信度が含まれる。

　物体タグ算出部２ｃは、特徴量抽出部２ａによって抽出された特徴量に基づいて、物体矩形が画像中のどの物体に紐づくかを示す物体タグを物体矩形ごとに算出する。物体タグは、例えば“１”、“２”、“３”などのタグの値で表され、個々の物体ごとに異なるタグ値が物体矩形に割り当てられる。なお、ＣＮＮの学習の程度によっては、同じ物体でも各物体矩形間で異なるタグ値（例えば“１．２”と“１．５”）が割り当てられる場合もあり得る。

　なお、特徴量抽出部２ａによる特徴量の抽出精度、情報取得部２ｂによるカテゴリの情報および確信度の検出精度、物体タグ算出部２ｃによる物体タグの算出精度は、物体検出部２を予め機械学習させて後述する重みを更新することにより、上げることができる。

　タグ更新部３は、物体タグ情報算出部２ｃによって算出した物体タグのタグ値を更新する。例えば、タグ更新部３は、同じ物体については同一の値となり、異なる物体については異なる値となるように、上記物体タグのタグ値を更新する。タグ値の更新は、例えば閾値やクラスタリング手法を用いたグループ化を利用することによって行うことができるが、その詳細については後述する。

　余分矩形抑制部４は、物体のカテゴリが同一である複数の物体矩形を、物体タグに応じて複数の群に分離し、分離した各群において、上記の確信度に基づいて、余分な物体矩形を削除するＮＭＳ処理を行う。本実施形態のＮＭＳ処理の詳細については、後述する物体検出方法と併せて説明する。

　上記のタグ更新部３および余分矩形抑制部４は、例えばＣＰＵ（Central Processing Unit；中央演算処理装置）で構成されている。

　記憶部５は、各種の情報および制御部１０の動作プログラムを記憶するメモリであり、例えばハードディスク、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）を含んで構成される。入力部６は、例えばキーボード、マウス、タッチパッド、タッチパネルなどで構成され、ユーザによる各種の指示入力を受け付ける。表示部７は、例えば液晶表示装置で構成され、各種の情報を表示する。例えば、表示部７には、物体ごとにＮＭＳ処理後の物体矩形が表示されるとともに、物体のカテゴリの情報および確信度が表示される（図９参照）。

　通信部８は、外部との間で情報を送受信するための通信インターフェースであり、入出力ポート、送信回路、受信回路、アンテナ、変調回路、復調回路などを含んで構成される。例えば、カメラＣＡで取得された画像のデータは、通信部８を介して物体検出装置１に取り込まれる。上記画像のデータは、記憶部５に一時的に記憶されて物体検出部２に転送される。

　読取部９は、記録媒体Ｒに記録された情報を読み取る装置であり、例えばディスクドライブで構成される。なお、記録媒体Ｒが可搬型の不揮発性メモリである場合、上記不揮発性メモリの接続部が指し込まれる接続ポートも読取部９に含まれるとする。記録媒体Ｒには、例えば物体検出装置１の動作プログラムが記録されており、読取部９によって読み取られる。読み取った動作プログラムは、記憶部５に記憶される。なお、記録媒体Ｒには、カメラＣＡで取得された画像のデータが記録されていてもよい。

　制御部１０は、例えばＣＰＵで構成されており、主制御部１０ａと、学習制御部１０ｂとを含む。主制御部１０ａは、記憶部５に記憶された動作プログラムに従って物体検出装置１の各部の動作を制御する。なお、主制御部１０ａは、上記したタグ更新部３および余分矩形抑制部４の機能を兼ねるようにしてもよい。学習制御部１０ｂは、物体検出部２を予め機械学習させる。

　〔２．物体検出部を構成するＣＮＮについて〕
　図２は、物体検出部２を構成するＣＮＮを模式的に示す説明図である。以下、ＣＮＮについて説明を補足しておく。上記のＣＮＮは、入力層２１と、畳み込み層２２と、プーリング層２３と、出力層２４とを有して構成される。なお、畳み込み層２２およびプーリング層２３は、少なくとも１組あればよい。

　ＣＮＮを構成する各層（入力層２１、畳み込み層２２、プーリング層２３、出力層２４）はそれぞれ、複数のノード（またはユニット）を有する。ニューラルネットワークとは、人間の神経ネットワークを模倣した情報処理システムのことであるが、上記のノードは、人間の神経細胞に相当する工学的なニューロンのモデルを表す。

　図３は、１つのノードＵに対する入力および出力の関係を模式的に示している。ノードＵとしては、通常、多入力１出力の素子が用いられる。信号は一方向にだけ伝わり、ある重み（結合荷重：ｗｉ）をつけられて、ノードＵに入力される。この重みによって、階層的に並ぶノードＵ・Ｕ間の結合の強さが表される。上記の重みは、学習によって変化させることができる。ノードＵからは、重みをつけられたそれぞれの入力値（ｗｉｘｉ）の総和から閾値θを引いた値Ｘが応答関数ｆ（Ｘ）による変形を受けて出力される。つまり、ノードＵの出力値ｙは、以下の数式で表される。
　　　ｙ＝ｆ（Ｘ）
　ここで、
　　　Ｘ＝Σ（ｗｉｘｉ－θ）
である。なお、応答関数としては、例えばシグモイド関数を用いることができる。

　入力層２１の各ノードＵには、入力画像の各画素のデータ（画素値）がそれぞれ入力される。畳み込み層２２は、前の層の所定のノードＵから出力される値に対してフィルタ処理を行って特徴マップ（特徴量）を得る。プーリング層２３は、畳み込み層２２から出力された特徴マップをさらに縮小して新たな特徴マップを得る。出力層２４は、ＣＮＮの最終層であり、前の層のノードＵの値と、エッジの重みと、出力層２４が持つ応答関数とから、物体の識別結果（カテゴリの情報）を確信度付きで出力する。このような出力層２４は、例えば１つ前の層の全ノードＵからの出力を結合し、所定の演算を行って識別結果を出力する全結合層で構成される。なお、全結合層は、２層以上であってもよい。

　ＣＮＮの学習アルゴリズムとしては、例えば、正解付きの画像データを用い、上記画像データを入力したときに得られる出力層２４からの出力値と、正解を示す値との２乗誤差が最小となるように、最急降下法を用いて、各層（エッジ）の重みを出力層２４側から入力層２１側に向かって順次変化させていく誤差逆伝播法（バックプロパゲーション）を用いることができる。このようなＣＮＮの機械学習は、学習制御部１０ｂの制御のもとで行われる。

　〔３．推論方法について〕
　次に、上記構成の物体検出装置１によって実施される物体検出方法（物体の推論方法）について説明する。図４は、上記物体検出方法による処理の流れを示すフローチャートである。本実施形態の物体検出方法は、画像取得工程（Ｓ１０）と、物体検出工程（Ｓ２０）と、タグ更新工程（Ｓ３０）と、余分矩形抑制工程（Ｓ４０）と、検出結果出力工程（Ｓ５０）とを含む。以下、各工程について説明する。

　（Ｓ１０；画像取得工程）
　Ｓ１０では、物体検出装置１が、外部から入力される画像（画像データ）を取得する。ここでは、上記画像として、カメラＣＡ（図１参照）で取得された画像を考える。なお、物体検出装置１が取得する画像は、外部の端末装置（例えばパーソナルコンピュータ）やサーバーに予め記憶され、上記端末装置等から物体検出装置１に出力された画像であってもよいし、電子メールに添付されて物体検出装置１に送信された画像であってもよいし、記録媒体Ｒから読み取られた画像であってもよい。

　（Ｓ２０；物体検出工程）
　Ｓ２０の物体検出工程では、物体検出部２が、物体を含む画像から、ＣＮＮによるニューロ演算によって上記物体を検出する。この物体検出工程は、さらに、特徴量抽出工程（Ｓ２１）と、情報取得工程（Ｓ２２）と、物体タグ算出工程（Ｓ２３）とを含む。なお、物体検出部２を構成するＣＮＮは予め機械学習されており、これによって、Ｓ２１～Ｓ２３の各工程を行うことができる。

　Ｓ２１では、特徴量抽出部２ａが、Ｓ１０で取得した画像から、ニューロ演算によって上記画像に含まれる物体の特徴量（形状など）を抽出する。Ｓ２２では、情報取得部２ｂが、上記特徴量に基づいて、ニューロ演算により、物体の位置の候補を示す物体矩形を複数求めるとともに、物体矩形ごとに物体のカテゴリの情報および確信度を求める。

　例えば、図５は、入力画像に含まれる物体１０１および１０２に対して、情報取得部２ｂが取得した物体矩形１０１ａ～１０１ｃおよび１０２ａ～１０２ｃの例を示している。ここでは、情報取得部２ｂが取得した、物体矩形１０１ａ～１０１ｃごとの物体１０１のカテゴリは、ここでは全て「人物（Person）」とし、物体矩形１０１ａ～１０１ｃごとの物体１０１のカテゴリの確信度、つまり、物体１０１が「人物」である確からしさはそれぞれ、例えば０．８、０．９、０．４であるとする。また、情報取得部２ｂが取得した、物体矩形１０２ａ～１０２ｃごとの物体１０２のカテゴリは、ここでは全て「人物（Person）」とし、物体矩形１０２ａ～１０２ｃごとの物体１０２のカテゴリの確信度はそれぞれ、例えば０．９、０．７、０．５であるとする。

　Ｓ２３では、物体タグ算出部２ｃが、Ｓ２１で抽出した特徴量に基づいて、物体矩形が画像中のどの物体に紐づくかを示す物体タグを物体矩形ごとに算出する。例えば、物体矩形１０１ａ～１０１ｃは物体１０１と紐づいていることから、物体タグ算出部２ｃは物体矩形１０１ａ～１０１ｃの物体タグのタグ値として、例えば“２”を算出する。一方、物体矩形１０２ａ～１０２ｃは物体１０２と紐づいていることから、物体タグ算出部２ｃは物体矩形１０２ａ～１０２ｃの物体タグのタグ値として、例えば“１０”を算出する。

　なお、図５では、物体矩形１０１ａ～１０１ｃのタグ値を全て“２”とし、物体矩形１０２ａ～１０２ｃのタグ値を全て“１０”としているが、物体矩形１０１ａ～１０１ｃのタグ値は、例えば“１．９”、“２”、“２．２”のように、タグ値“２”を中心としてばらつく値であってもよく、物体矩形１０２ａ～１０２ｃのタグ値は、例えば“９．５”、“１０”、“１０．３”のように、タグ値“１０”を中心としてばらつく値であってもよい。タグ値のばらつき度合いは、物体検出部２の機械学習の程度によって異なる。

　（Ｓ３０；タグ更新工程）
　Ｓ３０では、タグ更新部３が、Ｓ２３で算出されたタグ値が、同一の物体と紐づいた複数の物体矩形の間でばらつく場合に、各タグ値を同一のタグ値に変更（更新）する。なお、Ｓ２３で算出されたタグ値が、同一の物体と紐づいた複数の物体矩形の間で同じ値である場合には、Ｓ３０の工程を省略することが可能である。ここでは、Ｓ２３で算出された同一物体についてのタグ値がばらついているとして説明する。

　タグ値の更新方法としては、（１）閾値処理によるグループ化を用いた方法と、（２）ｋ－ｍｅａｎｓ法＋エルボー法によるグループ化を用いた方法とがある。

　（１）閾値処理によるグループ化を用いた方法
　図６は、閾値処理によるグループ化を用いたタグ値の更新手法を模式的に示している。物体タグ算出部２ｃによって物体矩形ごとに算出されたタグ値が、第１の閾値ＴＡと第２の閾値ＴＢとの間には存在せず、第１の閾値ＴＡ未満の第１のタグ領域ＭＡと、第２の閾値よりも大きい第２のタグ領域ＭＢとに分散しており、第１のタグ領域ＭＡと第２のタグ領域ＴＢとが所定のマージンＭ以上離れている場合（ＴＢ－ＴＡ≧Ｍ）、タグ更新部３は、各タグ領域のタグ値をそれぞれグループ化するとともに、同じタグ領域では同一で、異なるタグ領域間では異なるタグ値に変換する。図６の例では、タグ更新部３は、第１のタグ領域ＭＡの各タグ値を同一のタグ値“２”に変換するとともに、第２のタグ領域ＭＢの各タグ値を同一のタグ値“１０”に変換している。

　例えば、複数の物体矩形のタグ値が“２”と“２．２”とばらついていると、個々の物体矩形が同じ物体と紐づいているのか、相互に異なる物体と紐づいているのかの疑義が生じる場合がある。しかし、上記のように、複数の物体矩形を各グループに分けて、各グループごとにタグ値を統一することにより、上記のような疑義が生じることがなくなる。つまり、例えばタグ値が“２”で統一された物体矩形については全て同じ物体１０１に紐づける一方、タグ値が“２”とは異なる値（例えば“１０”）で統一された物体矩形については全て、物体１０１とは異なる物体（例えば物体１０２）に紐づけることが可能となり、各物体矩形がどの物体と紐づくのかが明確となる。

　（２）ｋ－ｍｅａｎｓ法＋エルボー法によるグループ化を用いた方法
　図７は、ｋ－ｍｅａｎｓ法＋エルボー法によるグループ化を用いたタグ値の更新手法を模式的に示している。まず、タグ更新部３は、物体矩形ごとに算出されたタグ値に対して、ｋ－ｍｅａｎｓ法により、任意の範囲でクラスタ数（ｋ値）を変化させて複数のクラスタを生成する。図７では、タグ更新部３がｋ－ｍｅａｎｓ法によって２つのクラスタＣＬ－１およびＣＬ－２を生成した場合と、３つのクラスタＣＬ－１～ＣＬ－３を生成した場合とを示している。

　その後、タグ更新部３は、上記で生成した各クラスタに対して、エルボー法によって最適なクラスタ数を算出する。ここで、エルボー法とは、図７に示すように、クラスタごとの誤差平方和（ＳＳＥ）をプロットし、ＳＳＥの変化を示すグラフが「ヒジ」のように曲がった箇所のクラスタ数を最適なクラスタ数とみなす手法である。図７の例では、最適なクラスタ数として、クラスタ数“２”が算出される。

　そして、タグ更新部３は、エルボー法によって算出したクラスタ数の各クラスタのタグ値をそれぞれグループ化するとともに、同じクラスタでは同一で、異なるクラスタ間では異なるタグ値に変換する。つまり、タグ更新部３は、クラスタＣＬ－１の各タグ値を同一のタグ値（例えばタグ値“２”）に変換するとともに、クラスタＣＬ－２の各タグ値を同一のタグ値（例えばタグ値“１０”）に変換する。

　上記のように、ｋ－ｍｅａｎｓ法とエルボー法とを用いて最適なクラスタ数を求め、各クラスタごとにタグ値を統一することにより、上記（１）と同様に、個々の物体矩形が同じ物体と紐づいているのか、相互に異なる物体と紐づいているのかの疑義が生じることがなくなり、統一したタグ値によって各物体矩形がどの物体と紐づくのかが明確となる。

　なお、上記（１）および（２）のいずれの手法においても、グループ数（クラスタ数）に上限を設けておき、上限までの範囲内で最適なグループ数（クラスタ数）を求めるようにしてもよい。

　（Ｓ４０；余分矩形抑制工程）
　Ｓ４０では、余分矩形抑制部４が、物体のカテゴリが同一である複数の物体矩形を、物体タグ（タグ値）に応じて複数の群に分離し、分離した各群において、確信度に基づいて、余分な物体矩形を削除するＮＭＳ処理を行う。例えば、図５で示したように、物体１０１および１０２については、カテゴリが「人物」で同一である。したがって、余分矩形抑制部４は、これらの物体矩形１０１ａ～１０１ｃおよび１０２ａ～１０２ｃを、タグ値が“２”の群（物体矩形１０１ａ～１０１ｃ）と、タグ値が“１０”の群（物体矩形１０２ａ～１０２ｃ）とに分離し、物体矩形１０１ａ～１０１ｃに対してＮＭＳ処理を行うとともに、物体矩形１０２ａ～１０２ｃに対してＮＭＳ処理を行う。

　より詳しくは、物体矩形１０１ａ～１０１ｃの確信度はそれぞれ、上述したように、０．８、０．９、０．４であるため、余分矩形抑制部４は、確信度が最も高い物体矩形１０１ｂのみを残し、物体矩形１０１ｂに対する重なり度合い（ＩｏＵ）が閾値以上である物体矩形１０１ａおよび１０１ｃが示す物体１０１のカテゴリの確信度をゼロにして、物体矩形１０１ａおよび１０１ｃを削除する。また、物体矩形１０２ａ～１０２ｃの確信度はそれぞれ、上述したように、０．９、０．７、０．５であるため、余分矩形抑制部４は、確信度が最も高い物体矩形１０２ａのみを残し、物体矩形１０２ａに対するＩｏＵが閾値以上である物体矩形１０２ｂおよび１０２ｃが示す物体１０２のカテゴリの確信度をゼロにして、物体矩形１０２ｂおよび１０２ｃを削除する。

　図８は、ＮＭＳ処理によって残った物体矩形１０１ｂおよび１０２ａを示している。上記のＮＭＳ処理により、物体１０１に対して１つの物体矩形１０１ｂのみが残り、物体１０２に対して１つの物体矩形１０２ａのみが残る。しかも、物体矩形１０１ｂが示す物体１０１のカテゴリの確信度、および物体矩形１０２ａが示す物体１０２の確信度を変える処理は何ら行われていない。

　（Ｓ５０；検出結果出力工程）
　Ｓ５０では、制御部１０は、表示部７に、ＮＭＳ処理後の結果、つまり、物体矩形１０１ｂおよび１０２ａで示される物体１０１および１０２のカテゴリの情報および確信度を表示させる。図９は、表示部７の表示画面例を示している。例えば図８の物体１０１については、「人物」のカテゴリを示す“PERSON”と、他の人物と区別するための番号“1”と、物体矩形１０１ｂで示す物体１０１のカテゴリの確信度“0.9”とが、物体矩形１０１ｂとともに表示される。また、図８の物体１０２については、「人物」のカテゴリを示す“PERSON”と、他の人物と区別するための番号“2”と、物体矩形１０２ａで示す物体１０２のカテゴリの確信度“0.9”とが、物体矩形１０２ａとともに表示される。なお、制御部１０は、ＮＭＳ処理後の結果を表示部７に表示させる代わりに、通信部８を介して検出結果を外部の端末に出力するようにしてもよい。

　〔４．効果〕
　以上のように、余分矩形抑制部４によって分離された各群に属する物体矩形は、物体タグによって同一の物体と紐づけられている。つまり、上記の例では、一方の群に属する物体矩形１０１ａ～１０１ｃは、タグ値“２”によって同一の物体１０１と紐づけられている。また、他方の群に属する物体矩形１０２ａ～１０２ｃは、タグ値“１０”によって同一の物体１０２と紐づけられている。このため、たとえ画像中で検出したい物体１０１および１０２が近接する場合でも、タグ値に基づいて各群ごとにＮＭＳ処理を行うことにより、近接する物体１０１および１０２ごとに物体矩形を１つのみ残して、上記物体矩形（例えば図８の物体矩形１０１ｂ、１０２ａ）に対応する物体１０１および１０２のカテゴリの情報および確信度を残し、これらを図９のように出力させることができる。つまり、検出したい物体１０１および１０２の物体矩形１０１ｂおよび１０２ａを、確信度を低下させることなくそのまま残すことができる。したがって、近接する物体１０１および１０２を両方とも精度よく（ＮＭＳ処理によって削除することなく）検出することができる。

　また、Ｓ３０において、タグ更新部３は、物体矩形ごとに算出されたタグ値が、所定のマージンＭ以上離れた複数のタグ領域に分散しているときに、各タグ領域のタグ値をそれぞれグループ化するとともに、同じタグ領域では同一で、異なるタグ領域間では異なるタグ値に変換する。これにより、同一の物体と紐づけられた物体タグのタグ値がばらついている場合でも、余分矩形抑制部４は、タグ更新部３によって更新されたタグ値、つまり、各タグ領域ごとに統一されたタグ値に基づいて、複数の物体矩形を複数の群に分離することができ、その分離が容易となる。

　また、Ｓ３０では、タグ更新部３は、物体矩形ごとに算出されたタグ値に対して、ｋ－ｍｅａｎｓ法により、任意の範囲でクラスタ数を変化させて複数のクラスタを生成した後、エルボー法によって最適なクラスタ数を算出し、算出したクラスタ数の各クラスタのタグ値をそれぞれグループ化するとともに、同じクラスタでは同一で、異なるクラスタ間では異なるタグ値に変換してもよい。同一の物体と紐づけられた物体タグのタグ値がばらついている場合でも、余分矩形抑制部４は、タグ更新部３によって更新されたタグ値、つまり、各クラスタごとに統一されたタグ値に基づいて、複数の物体矩形を複数の群に分離することができ、その分離が容易となる。

　また、余分矩形抑制部４は、物体タグが同一である複数の物体矩形（例えば物体矩形１０１ａ～１０１ｃ）のうち、確信度が最も高い物体矩形（例えば物体矩形１０１ｂ）に対するＩｏＵが閾値以上である物体矩形（例えば物体矩形１０１ａおよび１０１ｃ）が示す物体（例えば物体１０１）のカテゴリの確信度をゼロにするため、同一の物体を示す複数の物体矩形から、余分な（不要な）物体矩形を確実に削除することができる。

　〔５．物体タグを算出するための学習について〕
　制御部１０の学習制御部１０ｂは、同一の物体に対する複数の物体矩形の各タグ値を互いに近づけるための第１の損失関数によって算出される第１の誤差Loss#1と、異なる物体に対する複数の物体矩形の各タグ値を互いに遠ざけるための第２の損失関数によって算出される第２の誤差Loss#2とを、逆誤差伝播法を用いて逆伝播することにより、物体検出部２を構成するＣＮＮの各層のノード間の結合の強さを示す重み（結合荷重ｗｉ）を更新してもよい。

　ここで、上記の第１の誤差Loss#1および第２の誤差Loss#2は、以下のように表される。なお、Loss#1を求める式の右辺が第１の損失関数を示し、Loss#2を求める式の右辺が第２の損失関数を示す。
　Loss#1＝｛（対象とする物体矩形のタグ値）－（同一物体の物体矩形のタグ値の平均）｝²
　Loss#2＝ｅｘｐ［－｛（対象とする物体矩形のタグ値の平均）－（他の物体の物体矩形のタグ値の平均）｝²］

　なお、各物体矩形が同一の物体に対する物体矩形であるか、異なる物体に対する物体矩形であるかは、各物体矩形が物体（ground truth、以下“ＧＴ”とも称する）に対して閾値以上のＩｏＵを有するか否かで判断することができる。ただし、１つの物体矩形が複数の物体に対して閾値以上のＩｏＵを有する場合、上記物体矩形はＩｏＵの最も大きい物体に対する物体矩形であると判断する。

　上記のように第１の誤差Loss#1および第２の誤差Loss#2を逆伝播して物体検出部２を機械学習させることにより、機械学習後の推論時（物体検出時）には、同一の物体に対する複数の物体矩形のタグ値は互いに同じ値（例えば“２”）に近づくようになり、異なる物体に対する複数の物体矩形のタグ値は互いに遠ざかるように（例えば“２”と“１２”に離れるように）算出される。これにより、余分矩形抑制部４は、複数の物体矩形のうち、タグ値が同じまたは近い物体矩形は同じ群とし、タグ値が大きく異なる物体矩形同士は互いに異なる群に分けることが可能となる。したがって、複数の物体矩形の各群への分離が容易となる。

　また、学習制御部１０ｂは、物体矩形の位置精度を学習前よりも高めるための第３の損失関数によって算出される第３の誤差Loss#3と、物体が存在するか否かの確信度を学習前よりも高めるための第４の損失関数によって算出される第４の誤差Loss#4と、物体のカテゴリの確信度を学習前よりも高めるための第５の損失関数によって算出される第５の誤差Loss#5とをさらに、逆誤差伝播法を用いて逆伝播することにより、上記の重みを更新してもよい。

　ここで、上記の第３の誤差Loss#3、第４の誤差Loss#4および第５の誤差Loss#5は、以下のように表される。なお、Loss#3を求める式の右辺が第３の損失関数を示し、Loss#4を求める式の右辺が第４の損失関数を示し、Loss#5を求める式の右辺が第５の損失関数を示す。

　物体矩形の位置精度、物体が存在するか否かの確信度、および物体のカテゴリの確信度が高まるように、物体検出部２が予め機械学習されるため、実際の推論時には、物体検出部２（特に情報取得部２ｂ）によって物体矩形および確信度を精度よく求めることが可能となる。これにより、本実施形態の効果、つまり、近接する物体の検出精度を向上させる効果をさらに高めることが可能となる。

　〔６．物体タグを算出するための効率的な学習について（その１）〕
　学習制御部１０ｂは、上記した第２の誤差Loss#2を算出するにあたって、異なる物体についての複数の物体矩形間の距離に応じて、第２の損失関数の係数を変化させることにより、第２の誤差Loss#2を上記距離に応じて変化させてもよい。なお、上記距離の算出方法の詳細については後述する。例えば、第２の損失関数の係数をαとしたとき、上記距離に応じて係数αの値を変化させて第２の誤差Loss#2を算出してもよい。すなわち、この場合の第２の誤差Loss#2は、以下の式によって算出される。
　Loss#2＝α×ｅｘｐ［－｛（対象とする物体矩形のタグ値の平均）－（他の物体の物体矩形のタグ値の平均）｝²］

　図１０は、物体１０１の任意の物体矩形１０１ｂのタグ値と、物体１０２および１０３の任意の物体矩形１０２ａおよび１０３ａのタグ値の例を示している。ただし、物体１０１～１０３のカテゴリは同一（例えば人物）であり、物体１０１と物体１０２とは画像上で近接しており（互いの距離が近く）、物体１０１と物体１０３とは画像上で離れている（互いの距離が遠い）とする。

　物体１０１と物体１０２とが近接している場合、物体矩形１０１ｂと物体矩形１０２ａとを精度よく分別するためには、それぞれのタグ値を離す必要がある。一方、物体１０１と物体１０３とが離れている場合、物体矩形１０１ｂと物体矩形１０３ａとのＩｏＵはゼロであり、閾値以下であるため、物体矩形１０１ｂと物体矩形１０３ａとが同時にＮＭＳ処理の対象となることはなく、それゆえ、タグ値が互いに近い値であっても、それぞれの物体矩形１０１ｂおよび１０３ａに対して別々のＮＭＳ処理を行って、それぞれの物体１０１および１０３を検出することが可能である。

　そこで、学習制御部１０ｂは、学習時に、異なる物体についての複数の物体矩形間の距離が近い場合には、第２の損失関数の係数αを大きくして、第２の誤差Loss#2を大きくする一方、上記距離が遠い場合には、第２の損失関数の係数αを小さくして、第２の誤差Loss#2を小さくする。学習制御部１０ｂは、上記のように調整した第２の誤差Loss#2を逆伝播して物体検出部２を予め機械学習させることにより、推論時において、物体検出部２は、２つの物体が近づくほど、値が互いに離れるタグ値を算出することが可能となる。これにより、上記タグ値に基づく複数の物体矩形の異なる群への分離がしやすくなり、各群ごとにＮＭＳ処理を行って、近接する物体のそれぞれをより精度よく検出することが可能となる。

　ちなみに、図１０では、物体１０１の物体矩形１０１ｂのタグ値“２”に対して、物体１０１と近接する物体１０２の物体矩形１０２ａのタグ値として、“２”とは値が十分に離れた“１２”を算出し、物体１０１と離れた物体１０３の物体矩形１０３ａのタグ値として、“２”に近い“１”を算出した例を示している。物体矩形１０１ｂと物体矩形１０３ａとは、十分に離れた距離にあるため、タグ値が近い値であっても、これらの物体矩形１０１ｂおよび１０３ａを分別することが可能である。一方、物体矩形１０１ｂと物体矩形１０２ａとは、距離が近いが、タグ値が互いに離れているため、タグ値に基づく物体矩形１０１ｂおよび１０２ａの分別を精度よく行って、物体１０１および１０２を精度よく検出することが可能となる。

　次に、異なる物体についての複数の物体矩形間の距離の算出方法について説明する。図１１～図１３は、異なる物体についての複数の物体矩形を１０１ａおよび１０２ａとしたときの、物体矩形１０１ａと物体矩形１０２ａとの間の距離Ｄの算出方法の例をそれぞれ示している。図１１に示すように、距離Ｄは、物体矩形１０１ａの重心Ｇ１と、物体矩形１０２ａの重心Ｇ２との間の距離であってもよい。なお、重心Ｄ１のｘ座標およびｙ座標はそれぞれ、物体矩形１０１ａの４つの頂点のｘ座標およびｙ座標の平均値であり、重心Ｄ２のｘ座標およびｙ座標はそれぞれ、物体矩形１０２ａの４つの頂点のｘ座標およびｙ座標の平均値である。

　また、図１２に示すように、距離Ｄは、物体矩形１０１ａと物体矩形１０２ａとの間で対応する頂点同士の距離の平均であってもよい。つまり、対応する頂点同士の距離をそれぞれ、ｄ１、ｄ２、ｄ３およびｄ４としたとき、Ｄ＝（ｄ１＋ｄ２＋ｄ３＋ｄ４）／４であってもよい。さらに、図１３に示すように、距離Ｄは、物体矩形１０１ａと物体矩形１０２ａとの重なり度合い（全体に対する斜線部分の面積の割合）を示すＩｏＵであってもよい。

　上記したいずれの方法によっても、物体矩形１０１ａと物体矩形１０２ａとの距離Ｄを算出することができるため、学習制御部１０ｂは、異なる物体についての複数の物体矩形間の距離を、上記の手法で算出して第２の損失関数の係数を変化させることにより、第２の誤差Loss#2を上記距離に応じて変化させることができる。

　〔７．物体タグを算出するための効率的な学習について（その２）〕
　学習制御部１０ｂは、上記した第２の誤差Loss#2を算出するにあたって、画像中で隣り合う物体のカテゴリに応じて、第２の損失関数の係数を変化させることにより、第２の誤差Loss#2を上記カテゴリに応じて変化させてもよい。例えば、第２の損失関数の係数をβとしたとき、上記カテゴリに応じて係数βの値を変化させて第２の誤差Loss#2を算出してもよい。すなわち、この場合の第２の誤差Loss#2は、以下の式によって算出される。
　Loss#2＝β×ｅｘｐ［－｛（対象とする物体矩形のタグ値の平均）－（他の物体の物体矩形のタグ値の平均）｝²］

　図１４は、物体１０１～１０４の任意の物体矩形１０１ｂ、１０２ａ、１０３ａ、１０４ａのタグ値の例を示している。ただし、物体１０１、１０２、１０４のカテゴリは同一（例えば人物）であり、物体１０３のカテゴリは「犬」であって、物体１０１、１０２、１０４のカテゴリとは異なっているとする。また、物体１０１と物体１０２とは互いに近接しており、物体１０３と物体１０４とは互いに近接しているとする。

　カテゴリが同一である物体１０１と物体１０２とが近接している場合、物体矩形１０１ｂと物体矩形１０２ａとを精度よく分別するためには、それぞれのタグ値を離す必要がある。一方、物体１０３と物体１０４とが近接していても、これらは異なるカテゴリとして検出されているため、物体矩形１０３ａと物体矩形１０４ａとが同時にＮＭＳ処理の対象となることはない（ＮＭＳ処理はカテゴリが同一の物体矩形に対して行われるため）。したがって、物体矩形１０３ａおよび物体矩形１０４ａのタグ値が互いに近い値であっても、これらは別々にＮＭＳ処理されることになり、これによって物体１０３と物体１０４と別々に検出することができる。

　そこで、学習制御部１０ｂは、学習時に、隣り合う物体のカテゴリが同一である場合には、第２の損失関数の係数βを大きくして、第２の誤差Loss#2を大きくする一方、上記カテゴリが異なる場合には、第２の損失関数の係数βを小さくして、第２の誤差Loss#2を小さくする。学習制御部１０ｂは、上記のように調整した第２の誤差Loss#2を逆伝播して物体検出部２を予め機械学習させることにより、推論時において、物体検出部２は、同じカテゴリの物体が近接している場合には、値が互いに離れたタグ値を算出することが可能となる。ちなみに、図１４では、物体１０１の物体矩形１０１ｂのタグ値“２”に対して、物体１０１と近接する同一カテゴリの物体１０２の物体矩形１０２ａのタグ値として、“２”とは値が十分に離れた“１２”を算出している。これにより、上記のタグ値“２”および“１２”に基づいて、複数の物体矩形を異なる群に分離することが容易となる。したがって、各群ごとにＮＭＳ処理を行って、近接する同一カテゴリの物体のそれぞれを、より精度よく検出することが可能となる。

　一方、物体矩形１０３ａと物体矩形１０４ａとの距離は近いが、物体１０３および１０４のカテゴリは異なるため、物体検出部２は、例えば物体矩形１０３ａのタグ値“２”に対して、物体矩形１０４ａのタグ値として、“２”に近い“１”を算出している。物体１０３および１０４のカテゴリが異なるため、上記のようにタグ値が互いに近い値であっても、物体矩形１０３ａと物体矩形１０４ａとが同時にＮＭＳ処理の対象となることはない。したがって、カテゴリの異なる物体１０３および１０４については、タグ値が互いに近い値であっても、これらを別々に検出することが可能となる。

　〔８．プログラムおよび記録媒体〕
　本実施形態で説明した物体検出装置１（特に物体検出部２）は、例えば、所定のプログラム（アプリケーションソフトウェア）をインストールしたコンピュータ（ＰＣ）で構成することができる。上記プログラムをコンピュータ（例えばＰＣの制御部１０）が読み取って実行することにより、上述した物体検出方法の各処理（各工程）をコンピュータに実行させることができる。つまり、物体検出装置１の物体検出部２を機械学習させて、本実施形態の物体検出方法を実現することができる。このようなプログラムは、例えばネットワークを介して外部からダウンロードすることによって取得されて記憶部５に記憶される。また、上記プログラムは、例えばＣＤ－ＲＯＭ（Compact Disk-Read Only Memory）などのコンピュータ読取可能な記録媒体Ｒ（図１参照）に記録され、この記録媒体Ｒから上記プログラムをコンピュータが読み取って記憶部５に記憶する形態であってもよい。

　〔９．その他〕
　以上で説明した本実施形態の物体検出装置、物体検出方法、プログラムおよび記録媒体は、以下のように表現することができる。

　１．物体を含む画像から、畳み込み型ニューラルネットワークによるニューロ演算によって前記物体を検出する物体検出部を備えた物体検出装置であって、
　前記物体検出部は、
　前記画像から前記物体の特徴量を抽出する特徴量抽出部と、
　前記特徴量に基づいて、前記物体の位置の候補を示す物体矩形を複数求めるとともに、前記物体矩形ごとに、前記物体のカテゴリの情報および確信度を求める情報取得部と、
　前記特徴量に基づいて、前記物体矩形が前記画像中のどの物体に紐づくかを示す物体タグを前記物体矩形ごとに算出する物体タグ算出部とを含み、
　該物体検出装置は、
　前記物体のカテゴリが同一である複数の前記物体矩形を、前記物体タグに応じて複数の群に分離し、分離した各群において、前記確信度に基づいて、余分な物体矩形を削除する余分矩形抑制部をさらに備えていることを特徴とする物体検出装置。

　２．前記物体タグ情報算出部によって算出した前記物体タグのタグ値を更新するタグ更新部をさらに備え、
　前記タグ更新部は、前記物体矩形ごとに算出された前記タグ値が、所定のマージン以上離れた複数のタグ領域に分散しているときに、各タグ領域の前記タグ値をそれぞれグループ化するとともに、同じタグ領域では同一で、異なるタグ領域間では異なるタグ値に変換することを特徴とする前記１に記載の物体検出装置。

　３．前記物体タグ情報算出部によって算出した前記物体タグのタグ値を更新するタグ更新部をさらに備え、
　前記タグ更新部は、前記物体矩形ごとに算出された前記タグ値に対して、ｋ－ｍｅａｎｓ法により、任意の範囲でクラスタ数を変化させて複数のクラスタを生成した後、エルボー法によって最適なクラスタ数を算出し、算出した前記クラスタ数の各クラスタの前記タグ値をそれぞれグループ化するとともに、同じクラスタでは同一で、異なるクラスタ間では異なるタグ値に変換することを特徴とする前記１に記載の物体検出装置。

　４．前記余分矩形抑制部は、前記物体タグが同一である複数の物体矩形のうち、前記確信度が最も高い物体矩形に対する重なり度合いが閾値以上である物体矩形が示す物体のカテゴリの確信度をゼロにすることを特徴とする前記１から３のいずれかに記載の物体検出装置。

　５．前記物体検出部を予め機械学習させる学習制御部をさらに備え、
　前記学習制御部は、同一の物体に対する複数の物体矩形の各タグ値を互いに近づけるための第１の損失関数によって算出される第１の誤差と、異なる物体に対する複数の物体矩形の各タグ値を互いに遠ざけるための第２の損失関数によって算出される第２の誤差とを、逆誤差伝播法を用いて逆伝播することにより、前記物体検出部を構成する前記畳み込み型ニューラルネットワークの各層のノード間の結合の強さを示す重みを更新することを特徴とする前記１から４のいずれかに記載の物体検出装置。

　６．前記学習制御部は、物体矩形の位置精度を学習前よりも高めるための第３の損失関数によって算出される第３の誤差と、物体が存在するか否かの確信度を学習前よりも高めるための第４の損失関数によって算出される第４の誤差と、物体のカテゴリの確信度を学習前よりも高めるための第５の損失関数によって算出される第５の誤差とをさらに、逆誤差伝播法を用いて逆伝播することにより、前記重みを更新することを特徴とする前記５に記載の物体検出装置。

　７．前記学習制御部は、異なる物体についての複数の物体矩形間の距離に応じて、前記第２の損失関数の係数を変化させることにより、前記第２の誤差を前記距離に応じて変化させることを特徴とする前記５または６に記載の物体検出装置。

　８．前記異なる物体についての複数の物体矩形間の前記距離は、各物体矩形の重心間の距離であることを特徴とする前記７に記載の物体検出装置。

　９．前記異なる物体についての複数の物体矩形間の前記距離は、各物体矩形間で対応する頂点同士の距離の平均であることを特徴とする前記７に記載の物体検出装置。

　１０．前記異なる物体についての複数の物体矩形間の前記距離は、各物体矩形同士の重なり度合いであることを特徴とする前記７に記載の物体検出装置。

　１１．前記学習制御部は、隣り合う物体のカテゴリに応じて、前記第２の損失関数の係数を変化させることにより、前記第２の誤差を前記カテゴリに応じて変化させることを特徴とする前記５または６に記載の物体検出装置。

　１２．物体を含む画像から、畳み込み型ニューラルネットワークによるニューロ演算によって前記物体を検出する物体検出工程を含む物体検出方法であって、
　前記物体検出工程は、
　前記画像から前記物体の特徴量を抽出する特徴量抽出工程と、
　前記特徴量に基づいて、前記物体の位置の候補を示す物体矩形を複数求めるとともに、前記物体矩形ごとに、前記物体のカテゴリの情報および確信度を求める情報取得工程と、
　前記特徴量に基づいて、前記物体矩形が前記画像中のどの物体に紐づくかを示す物体タグを前記物体矩形ごとに算出する物体タグ算出工程と、を含み、
　該物体検出方法は、
　前記物体のカテゴリが同一である複数の前記物体矩形を、前記物体タグに応じて複数の群に分離し、分離した各群において、前記確信度に基づいて、余分な物体矩形を削除する余分矩形抑制工程をさらに含むことを特徴とする物体検出方法。

　１３．前記物体タグ情報算出工程によって算出した前記物体タグのタグ値を更新するタグ更新工程をさらに含み、
　前記タグ更新工程では、前記物体矩形ごとに算出された前記タグ値が、所定のマージン以上離れた複数のタグ領域に分散しているときに、各タグ領域の前記タグ値をそれぞれグループ化するとともに、同じタグ領域では同一で、異なるタグ領域間では異なるタグ値に変換することを特徴とする前記１２に記載の物体検出方法。

　１４．前記物体タグ情報算出工程によって算出した前記物体タグのタグ値を更新するタグ更新工程をさらに含み、
　前記タグ更新工程では、前記物体矩形ごとに算出された前記タグ値に対して、ｋ－ｍｅａｎｓ法により、任意の範囲でクラスタ数を変化させて複数のクラスタを生成した後、エルボー法によって最適なクラスタ数を算出し、算出した前記クラスタ数の各クラスタの前記タグ値をそれぞれグループ化するとともに、同じクラスタでは同一で、異なるクラスタ間では異なるタグ値に変換することを特徴とする前記１２に記載の物体検出方法。

　１５．前記余分矩形抑制工程では、前記物体タグが同一である複数の物体矩形のうち、前記確信度が最も高い物体矩形に対する重なり度合いが閾値以上である物体矩形が示す物体のカテゴリの確信度をゼロにすることを特徴とする前記１２から１４のいずれかに記載の物体検出方法。

　１６．前記畳み込み型ニューラルネットワークを予め機械学習させる学習工程をさらに含み、
　前記学習工程では、同一の物体に対する複数の物体矩形の各タグ値を互いに近づけるための第１の損失関数によって算出される第１の誤差と、異なる物体に対する複数の物体矩形の各タグ値を互いに遠ざけるための第２の損失関数によって算出される第２の誤差とを、逆誤差伝播法を用いて逆伝播することにより、前記畳み込み型ニューラルネットワークの各層のノード間の結合の強さを示す重みを更新することを特徴とする前記１２から１５のいずれかに記載の物体検出方法。

　１７．前記学習工程では、物体矩形の位置精度を学習前よりも高めるための第３の損失関数によって算出される第３の誤差と、物体が存在するか否かの確信度を学習前よりも高めるための第４の損失関数によって算出される第４の誤差と、物体のカテゴリの確信度を学習前よりも高めるための第５の損失関数によって算出される第５の誤差とをさらに、逆誤差伝播法を用いて逆伝播することにより、前記重みを更新することを特徴とする前記１６に記載の物体検出方法。

　１８．前記学習工程では、異なる物体についての複数の物体矩形間の距離に応じて、前記第２の損失関数の係数を変化させることにより、前記第２の誤差を前記距離に応じて変化させることを特徴とする前記１６または１７に記載の物体検出方法。

　１９．前記学習工程では、隣り合う物体のカテゴリに応じて、前記第２の損失関数の係数を変化させることにより、前記第２の誤差を前記カテゴリに応じて変化させることを特徴とする前記１６または１７に記載の物体検出方法。

　２０．前記１２から１９のいずれかに記載の物体検出方法をコンピュータに実行させるためのプログラム。

　２１．前記２０に記載のプログラムを記録したコンピュータ読取可能な記録媒体。

　以上、本発明の実施形態について説明したが、本発明の範囲はこれに限定されるものではなく、発明の主旨を逸脱しない範囲で拡張または変更して実施することができる。

　本発明は、ＣＮＮを用いて画像から物体を検出する装置またはシステムに利用可能である。

　　　１　　　物体検出装置
　　　２　　　物体検出部
　　　２ａ　　特徴量抽出部
　　　２ｂ　　情報取得部
　　　２ｃ　　物体タグ算出部
　　　３　　　タグ更新部
　　　４　　　余分矩形抑制部
　　１０ｂ　　学習制御部

Claims

　物体を含む画像から、畳み込み型ニューラルネットワークによるニューロ演算によって前記物体を検出する物体検出部を備えた物体検出装置であって、
　前記物体検出部は、
　前記画像から前記物体の特徴量を抽出する特徴量抽出部と、
　前記特徴量に基づいて、前記物体の位置の候補を示す物体矩形を複数求めるとともに、前記物体矩形ごとに、前記物体のカテゴリの情報および確信度を求める情報取得部と、
　前記特徴量に基づいて、前記物体矩形が前記画像中のどの物体に紐づくかを示す物体タグを前記物体矩形ごとに算出する物体タグ算出部とを含み、
　該物体検出装置は、
　前記物体のカテゴリが同一である複数の前記物体矩形を、前記物体タグに応じて複数の群に分離し、分離した各群において、前記確信度に基づいて、余分な物体矩形を削除する余分矩形抑制部をさらに備えている、物体検出装置。
　前記物体タグ情報算出部によって算出した前記物体タグのタグ値を更新するタグ更新部をさらに備え、
　前記タグ更新部は、前記物体矩形ごとに算出された前記タグ値が、所定のマージン以上離れた複数のタグ領域に分散しているときに、各タグ領域の前記タグ値をそれぞれグループ化するとともに、同じタグ領域では同一で、異なるタグ領域間では異なるタグ値に変換する、請求項１に記載の物体検出装置。
　前記物体タグ情報算出部によって算出した前記物体タグのタグ値を更新するタグ更新部をさらに備え、
　前記タグ更新部は、前記物体矩形ごとに算出された前記タグ値に対して、ｋ－ｍｅａｎｓ法により、任意の範囲でクラスタ数を変化させて複数のクラスタを生成した後、エルボー法によって最適なクラスタ数を算出し、算出した前記クラスタ数の各クラスタの前記タグ値をそれぞれグループ化するとともに、同じクラスタでは同一で、異なるクラスタ間では異なるタグ値に変換する、請求項１に記載の物体検出装置。
　前記余分矩形抑制部は、前記物体タグが同一である複数の物体矩形のうち、前記確信度が最も高い物体矩形に対する重なり度合いが閾値以上である物体矩形が示す物体のカテゴリの確信度をゼロにする、請求項１から３のいずれかに記載の物体検出装置。
　前記物体検出部を予め機械学習させる学習制御部をさらに備え、
　前記学習制御部は、同一の物体に対する複数の物体矩形の各タグ値を互いに近づけるための第１の損失関数によって算出される第１の誤差と、異なる物体に対する複数の物体矩形の各タグ値を互いに遠ざけるための第２の損失関数によって算出される第２の誤差とを、逆誤差伝播法を用いて逆伝播することにより、前記物体検出部を構成する前記畳み込み型ニューラルネットワークの各層のノード間の結合の強さを示す重みを更新する、請求項１から４のいずれかに記載の物体検出装置。
　前記学習制御部は、物体矩形の位置精度を学習前よりも高めるための第３の損失関数によって算出される第３の誤差と、物体が存在するか否かの確信度を学習前よりも高めるための第４の損失関数によって算出される第４の誤差と、物体のカテゴリの確信度を学習前よりも高めるための第５の損失関数によって算出される第５の誤差とをさらに、逆誤差伝播法を用いて逆伝播することにより、前記重みを更新する、請求項５に記載の物体検出装置。
　前記学習制御部は、異なる物体についての複数の物体矩形間の距離に応じて、前記第２の損失関数の係数を変化させることにより、前記第２の誤差を前記距離に応じて変化させる、請求項５または６に記載の物体検出装置。
　前記異なる物体についての複数の物体矩形間の前記距離は、各物体矩形の重心間の距離である、請求項７に記載の物体検出装置。
　前記異なる物体についての複数の物体矩形間の前記距離は、各物体矩形間で対応する頂点同士の距離の平均である、請求項７に記載の物体検出装置。
　前記異なる物体についての複数の物体矩形間の前記距離は、各物体矩形同士の重なり度合いである、請求項７に記載の物体検出装置。
　前記学習制御部は、隣り合う物体のカテゴリに応じて、前記第２の損失関数の係数を変化させることにより、前記第２の誤差を前記カテゴリに応じて変化させる、請求項５または６に記載の物体検出装置。
　物体を含む画像から、畳み込み型ニューラルネットワークによるニューロ演算によって前記物体を検出する物体検出工程を含む物体検出方法であって、
　前記物体検出工程は、
　前記画像から前記物体の特徴量を抽出する特徴量抽出工程と、
　前記特徴量に基づいて、前記物体の位置の候補を示す物体矩形を複数求めるとともに、前記物体矩形ごとに、前記物体のカテゴリの情報および確信度を求める情報取得工程と、
　前記特徴量に基づいて、前記物体矩形が前記画像中のどの物体に紐づくかを示す物体タグを前記物体矩形ごとに算出する物体タグ算出工程と、を含み、
　該物体検出方法は、
　前記物体のカテゴリが同一である複数の前記物体矩形を、前記物体タグに応じて複数の群に分離し、分離した各群において、前記確信度に基づいて、余分な物体矩形を削除する余分矩形抑制工程をさらに含む、物体検出方法。
　前記物体タグ情報算出工程によって算出した前記物体タグのタグ値を更新するタグ更新工程をさらに含み、
　前記タグ更新工程では、前記物体矩形ごとに算出された前記タグ値が、所定のマージン以上離れた複数のタグ領域に分散しているときに、各タグ領域の前記タグ値をそれぞれグループ化するとともに、同じタグ領域では同一で、異なるタグ領域間では異なるタグ値に変換する、請求項１２に記載の物体検出方法。
　前記物体タグ情報算出工程によって算出した前記物体タグのタグ値を更新するタグ更新工程をさらに含み、
　前記タグ更新工程では、前記物体矩形ごとに算出された前記タグ値に対して、ｋ－ｍｅａｎｓ法により、任意の範囲でクラスタ数を変化させて複数のクラスタを生成した後、エルボー法によって最適なクラスタ数を算出し、算出した前記クラスタ数の各クラスタの前記タグ値をそれぞれグループ化するとともに、同じクラスタでは同一で、異なるクラスタ間では異なるタグ値に変換する、請求項１２に記載の物体検出方法。
　前記余分矩形抑制工程では、前記物体タグが同一である複数の物体矩形のうち、前記確信度が最も高い物体矩形に対する重なり度合いが閾値以上である物体矩形が示す物体のカテゴリの確信度をゼロにする、請求項１２から１４のいずれかに記載の物体検出方法。
　前記畳み込み型ニューラルネットワークを予め機械学習させる学習工程をさらに含み、
　前記学習工程では、同一の物体に対する複数の物体矩形の各タグ値を互いに近づけるための第１の損失関数によって算出される第１の誤差と、異なる物体に対する複数の物体矩形の各タグ値を互いに遠ざけるための第２の損失関数によって算出される第２の誤差とを、逆誤差伝播法を用いて逆伝播することにより、前記畳み込み型ニューラルネットワークの各層のノード間の結合の強さを示す重みを更新する、請求項１２から１５のいずれかに記載の物体検出方法。
　前記学習工程では、物体矩形の位置精度を学習前よりも高めるための第３の損失関数によって算出される第３の誤差と、物体が存在するか否かの確信度を学習前よりも高めるための第４の損失関数によって算出される第４の誤差と、物体のカテゴリの確信度を学習前よりも高めるための第５の損失関数によって算出される第５の誤差とをさらに、逆誤差伝播法を用いて逆伝播することにより、前記重みを更新する、請求項１６に記載の物体検出方法。
　前記学習工程では、異なる物体についての複数の物体矩形間の距離に応じて、前記第２の損失関数の係数を変化させることにより、前記第２の誤差を前記距離に応じて変化させる、請求項１６または１７に記載の物体検出方法。
　前記学習工程では、隣り合う物体のカテゴリに応じて、前記第２の損失関数の係数を変化させることにより、前記第２の誤差を前記カテゴリに応じて変化させる、請求項１６または１７に記載の物体検出方法。
　請求項１２から１９のいずれかに記載の物体検出方法をコンピュータに実行させるためのプログラム。