WO2024071347A1

WO2024071347A1 - 物体検出装置、物体検出方法、及びプログラム

Info

Publication number: WO2024071347A1
Application number: PCT/JP2023/035544
Authority: WO
Inventors: 洋一小倉; 晋也松山; 健志緑川; 直大岩橋; 肇片山
Original assignee: ヌヴォトンテクノロジージャパン株式会社
Priority date: 2022-09-30
Filing date: 2023-09-28
Publication date: 2024-04-04

Abstract

物体検出装置は、画像を加工する画像処理手段と、位置シフト量に則って、基準画像に位置シフトを施した第一の位置シフト画像を生成するモデル前処理手段と、フレーム毎に基準画像と第一の位置シフト画像から物体位置とクラス識別と尤度を推論する物体検出モデルと、推論結果である各画像の検出物体毎の検出枠を含む位置情報と尤度情報を比較して最大となる方の推論結果を選択してフレーム毎に出力する画像選択手段を有し、画像選択手段が第一の位置シフト画像の推論結果を選択した場合は、フレーム制御情報の位置シフト量に則って逆方向に位置シフトを施した検出枠を含む位置情報を出力する検出枠補正手段を備える。

Description

物体検出装置、物体検出方法、及びプログラム

　本発明は、画像を用いて物体検出を行うモデルの推論精度と対象物体の追跡能力を向上するための物体検出装置、物体検出方法、及びプログラムに関する。

　近年、ＡＩ機能を搭載したエッジＡＩやクラウドＡＩが急速に普及してきている。ＡＩ（人工知能）は人の脳のニューロンをモデル化したものであり、その中でも画像から物体検出を行うモデルが多岐にわたり開発されている。

　一例として、Ａｕｇｍｅｎｔａｔｉｏｎにより水増しされた画像データ（拡張データ）や学習パラメータを用いて物体検出モデルのモデル学習辞書を初期学習、もしくは、再学習する際に、拡張データの品質が学習用データに求められる品質を満たしていなければ、拡張データはノイズとなり、学習の質及び効率を下げるとともに、推論精度も低下される要因となることがあるため、学習用の元データを編集パラメータにより加工して得られる拡張データの推論結果に基づいて、尤度やクラス識別率が低下するなどのノイズになりえるパラメータを除外した編集パラメータで加工した拡張データを使ってモデル学習辞書を再学習することで学習のための拡張データの品質を向上させ、モデル学習辞書のロバスト性を向上させる方法が提案されている（特許文献１参照）。

　また、一例として、推論精度を向上するために内視鏡などに搭載したカメラから取得された画像から人体の内部の疾患部と考えられる領域を特定した後、特定された領域の拡大と位置をスライドさせた画像に加工して、特定領域の疾患部の推論精度とクラス識別確率が最大化されるように探索しながら疾患部の検出を行う方法が提案されている（特許文献２参照）。

　また、ニューラルネットワークなどにより検出した結果から動きベクトルを算出することにより、手振れなどによって撮影画像にブレが存在する場合、ブレ領域を検出し、学習用画像グループから撮影画像に近い動きベクトルに対応する学習用画像を選択して学習させることで、検出性能を向上させる方法が提案されている（特許文献３参照）。

特開２０２１－１１１２２８号公報特表２０２２－５０５２０５号公報特開２０２１－１９６６４３号公報

You Only Look Once: Unified, Real-Time Object Detection（https://pjreddie.com/darknet/yolo/） mAP(mean Average Precision) for Object Detection（https://jonathan-hui.medium.com/map-mean-average-precision-for-object-detection-45c121a31173）

　しかしながら、従来の物体検出装置、物体検出方法、及びプログラムでは、深層学習などによって物体検出モデルのモデル学習辞書の性能を向上させることや、学習結果を最大化するように探索的に推論することはできても、物体検出モデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下を救済することができない、もしくは、不十分になる場合があった。本発明は、上記課題を鑑みてなされたものであり、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下を救済して、物体検出能力やクラス識別能力や追跡能力を向上することができる物体検出装置、物体検出方法、及びプログラムを提供する。

　本発明の一態様に係る物体検出装置は、画像を取得し、当該画像から物体検出を行うための基準画像を作成する画像処理手段と、フレーム制御情報の位置シフト量に則って、前記基準画像に水平方向にＭピクセル（Ｍは任意の小数）および垂直方向にＮピクセル（Ｎは任意の小数）の位置シフトを施した第一の位置シフト画像を生成し、該基準画像と該第一の位置シフト画像とをフレーム毎に物体検出モデルに入力するモデル前処理手段と、前記モデル前処理手段から出力されたフレーム毎の前記基準画像と前記第一の位置シフト画像とに対して物体位置とクラス識別と尤度を推論するモデル学習辞書を含む物体検出モデルと、前記物体検出モデルの推論結果である検出物体毎の前記基準画像の検出枠を含む位置情報および前記基準画像の尤度情報と、前記第一の位置シフト画像の検出枠を含む位置情報および前記第一の位置シフト画像の尤度情報とを比較して最大となる方の入力画像と該推論結果とを選択してフレーム毎に出力する画像選択手段を有するモデル後処理手段と、前記モデル後処理手段が、前記画像選択手段により前記第一の位置シフト画像の推論結果を選択した場合は、前記フレーム制御情報の位置シフト量に則って前記モデル前処理手段の生成時とは逆方向に位置シフトを施した検出枠を含む位置情報を出力する検出枠補正手段とを備える。

　また、本発明の一態様に係る物体検出方法は、画像を取得し、当該画像から物体検出を行うための基準画像を作成する画像処理ステップと、フレーム制御情報の位置シフト量に則って、前記基準画像に水平方向にＭピクセル（Ｍは任意の小数）および垂直方向にＮピクセル（Ｎは任意の小数）の位置シフトを施した第一の位置シフト画像を生成し、該基準画像と該第一の位置シフト画像とをフレーム毎に前記物体検出モデルに入力するモデル前処理ステップと、前記モデル前処理ステップから出力されたフレーム毎の前記基準画像と前記第一の位置シフト画像とに対して物体位置とクラス識別と尤度を推論するモデル学習辞書を含む物体検出モデルと、前記物体検出モデルの推論結果である検出物体毎の前記基準画像の検出枠を含む位置情報および前記基準画像の尤度情報と、前記第一の位置シフト画像の検出枠を含む位置情報および前記第一の位置シフト画像の尤度情報とを比較して最大となる方の入力画像と該推論結果とを選択してフレーム毎に出力する画像選択ステップを有するモデル後処理ステップと、前記モデル後処理ステップが、前記画像選択ステップにより前記第一の位置シフト画像の推論結果を選択した場合は、前記フレーム制御情報の位置シフト量に則って前記モデル前処理ステップの生成時とは逆方向に位置シフトを施した検出枠を含む位置情報を出力する検出枠補正ステップとを含む。

　また、本発明の一態様に係るプログラムは、上記に記載の物体検出方法をコンピュータに実行させるためのプログラムである。

　なお、これらの包括的または具体的な態様は、システム、装置、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、装置、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

　本発明によれば、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下を救済して、物体検出能力やクラス識別能力や追跡能力を向上することができる物体検出装置、物体検出方法、及びプログラムが提供される。

本発明の実施形態１による物体検出装置の構成を示す図である。人工ニューロンモデルの構成を示す図である。ある実施形態によるＹＯＬＯモデルの構成を示す図である。ある実施形態によるＹＯＬＯモデルの動作原理を示す図である。物体検出におけるＩＯＵ値の算出概念を示す図である。物体検出におけるＩＯＵ値の算出概念を示す図である。本発明の実施形態によるモデル後処理手段の個体識別手段のフローチャートを示す図である。本発明の実施形態によるモデル後処理手段の個体識別手段の動作を示す図である。本発明の実施形態によるモデル後処理手段の個体識別手段のフローチャートを示す図である。本発明の実施形態によるモデル後処理手段の個体識別手段の動作を示す図である。従来の物体検出装置の課題を示す第１図である。従来の物体検出装置の課題を示す第２図である。本発明の実施形態による静止画に対するモデル前処理手段の位置シフト機能の動作を示す図である。本発明の実施形態によるモデル前処理手段のリサイズ機能の動作を示す図である。本発明の実施形態による静止画に対するロバスト性検証手段の確率統計演算手段の動作を示す図である。本発明の実施形態による静止画に対するロバスト性検証手段の確率統計演算手段の動作を示す図である。本発明の実施形態による静止画に対するロバスト性検証手段の確率統計演算手段の動作を示す図である。本発明の実施形態１によるモデル前処理手段とモデル後処理手段を使用した尤度救済方法の尤度分布を示す図である。本発明の実施形態１によるモデル前処理手段とモデル後処理手段を使用した尤度救済方法の動作を示す図である。本発明の実施形態１によるモデル前処理手段とモデル後処理手段を使用した尤度救済方法の時系列の動作を示す図である。本発明の実施形態１によるモデル前処理手段とモデル後処理手段を使用した尤度救済方法の尤度分布を示す図である。本発明の実施形態１によるモデル前処理手段とモデル後処理手段を使用した尤度救済方法の動作を示す図である。本発明の実施形態１によるモデル前処理手段とモデル後処理手段を使用した尤度救済方法の時系列の動作を示す図である。本発明の実施形態１によるモデル前処理手段とモデル後処理手段を使用した尤度救済方法の尤度分布を示す図である。本発明の実施形態１によるモデル前処理手段とモデル後処理手段を使用した尤度救済方法の動作を示す図である。本発明の実施形態１によるモデル前処理手段とモデル後処理手段を使用した尤度救済方法の時系列の動作を示す図である。本発明の実施形態によるモデル前処理手段の階調変換機能の動作を示す図である。本発明の実施形態によるモデル前処理手段のアスペクト比変更機能の動作を示す図である。本発明の実施形態によるモデル前処理手段の回転機能の動作を示す図である。本発明の実施形態によるフレーム情報保持手段とフレーム情報補間手段の構成を示す図である。本発明の実施形態によるフレーム情報補間手段のニュートン後退補間法の動作原理を示す図である。本発明の実施形態による距離係数算出手段と動きベクトル量算出手段と動きベクトル予測算出手段の動作を示す図である。本発明の実施形態による異常検出情報除去手段と検出情報復元手段と異常検出情報予測除去手段と検出情報予測復元手段の動作を示す図である。本発明の実施形態によるステートマシン制御手段の動作を示す図である。本発明の実施形態２による物体検出装置の構成を示す図である。本発明の実施形態２によるモデル前処理手段とモデル後処理手段を使用した尤度救済方法の動作を示す図である。本発明の実施形態２によるモデル前処理手段とモデル後処理手段を使用した尤度救済方法の時系列の動作を示す図である。従来の物体検出装置の構成を示す図である。本発明の物体検出装置の要約を示す図である。

　（開示の基礎となった知見）
　近年、ＡＩ機能を搭載したエッジＡＩやクラウドＡＩが急速に普及してきている。ＡＩ（人工知能）は人の脳のニューロンをモデル化したものであり、その中でも画像から物体検出を行うモデルが多岐にわたり開発されている。人間に例えると、目の情報（画像）から対象物体がどの位置にいるかを検出し、その物体が人か車両か等のどのクラスに当たるかを識別するクラス識別を行うことが一般的である。物体検出モデルは、畳み込み型ニューラルネットワークであるＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）が使われることが多く、近年は、画像データに対してクラス判別と正解枠情報であるｇｒｏｕｎｄｔｒｕｔｈＢｏｕｎｄｉｎｇＢｏｘ（以下、ｇｒｏｕｎｄｔｒｕｔｈＢＢｏｘと称す）を付加した教師データを大量に用意した後、例えば、勾配降下法などを用いて物体か背景かを分類する問題ではバイナリークロスエントロピーを誤差関数とし、ｇｒｏｕｎｄｔｒｕｔｈＢＢｏｘとのズレの回帰問題に対しては、Ｌ１ノルム（絶対値誤差）を誤差関数として、それらすべての誤差関数を最小化してＣＮＮの重み係数情報（モデル学習辞書）を学習するような深層学習によるＥｎｄ―ｔｏ―Ｅｎｄ学習方式が主流になっており、物体の位置検出とクラス識別のためのモデルとして、ＦａｓｔｅｒＲ-ＣＮＮ、ＥｆｆｉｃｉｅｎｔＤｅｔ、ＳＳＤや、ＹＯＬＯ（Ｙｏｕ　Ｏｎｌｙ　Ｌｏｏｋ　Ｏｎｃｅ）（例えば、非特許文献１参照）が使用されるケースが増加している。

　また、物体検出モデルの性能を確認する手段として、対象物体の検出信頼度を示す指標の１つに前述の物体検出モデルの１つであるＹＯＬＯの場合は、以下の（式１）に示す信頼度スコアがある（例えば、非特許文献１参照）。信頼度スコアは、一般的には尤度と称される場合もある。

　信頼度スコア（尤度）　＝Ｐｒ（Ｃｌａｓｓｉ｜Ｏｂｊｅｃｔ）×Ｐｒ（Ｏｂｊｅｃｔ）×ＩＯＵｔｒｕｔｈｐｒｅｄ（式１）

　ここで、Ｐｒ（Ｃｌａｓｓｉ｜Ｏｂｊｅｃｔ）は、Ｏｂｊｅｃｔ（対象物体）がどのクラスに属するかのクラス確率を示し、すべてのクラス確率を合計すると“１”になるものである。Ｐｒ（Ｏｂｊｅｃｔ）は、ＯｂｊｅｃｔがＢｏｕｎｄｉｎｇＢｏｘ（以下ＢＢｏｘと称す）に含まれている確率を示すものである。ＩＯＵｔｒｕｔｈｐｒｅｄは、正解枠情報であるｇｒｏｕｎｄｔｒｕｔｈＢＢｏｘとＹＯＬＯ等のモデルにより予測（推論）したＢＢｏｘの２つの枠領域がどのくらい重なっているかを示す指標であり、以下の（式２）に示すＩＯＵ（Ｉｎｔｅｒｓｅｃｔｉｏｎ　Ｏｖｅｒ　Ｕｎｉｏｎ）値で算出されるものである。

　ＩＯＵ＝ＡｒｅａｏｆＵｎｉｏｎ ÷ ＡｒｅａｏｆＩｎｔｅｒｓｅｃｔｉｏｎ（式２）

　ここで、ＡｒｅａｏｆＵｎｉｏｎは、比較する２つの枠領域の和集合の面積である。ＡｒｅａｏｆＩｎｔｅｒｓｅｃｔｉｏｎは、比較する２つの枠領域の共通部分の面積である。

　例えば、カメラで撮影された画像に対して、深層学習されたモデル学習辞書を含め、例えばＹＯＬＯにより推論する場合は正解枠であるｇｒｏｕｎｄｔｒｕｔｈＢＢｏｘなどの教師データが存在しないため、ＩＯＵｔｒｕｔｈｐｒｅｄを“１”として演算した結果を尤度（信頼度スコア）と称する場合もある。この尤度を用いて、例えばカメラで撮影した画像内の検出対象に対する検出精度および検出性能を指標化することが可能である。また、撮影した画像に対して、正解枠であるｇｒｏｕｎｄｔｒｕｔｈＢＢｏｘを付加した教師データを作成することにより、本来の信頼度スコア（尤度）とＩＯＵ値の算出も可能になるため、画像内の検出対象に対するモデル学習辞書を含めた物体検出モデルの検出精度や検出性能を指標化することが可能である。

　また、物体検出の推論精度や性能を比較するための指標として、ｍＡＰ（ｍｅａｎＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ）とＡＰ（ＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ）が使われる場合が多い。（例えば、非特許文献２参照）。

　物体検出におけるｍＡＰおよびＡＰは、以下のような方法で算出される。

　複数枚の画像データの対象となる検出物体に対して正解枠であるｇｒｏｕｎｄｔｒｕｔｈＢＢｏｘを付加したバリデーションデータを用意し、物体検出モデルにより推論（予測）した結果として算出されるＰｒｅｄｉｃｔｅｄＢＢｏｘ（予測したＢＢｏｘ）と比較してＩＯＵ値を算出する。その際、すべてのバリデーションデータの予測結果の内、正しくＩＯＵが任意の閾値以上で予測できた割合を示すＰｒｅｃｉｓｉｏｎと、実際の正解結果の内、ＩＯＵが任意の閾値以上で正解結果と近い位置のＢＢｏｘを予測できた割合を示すＲｅｃａｌｌを算出する。その際に、バリデーションデータに対して、各識別するクラス毎の前述したＯｂｊｅｃｔがＢＢｏｘに含まれている確率が最小である“０”から最大である“１”に到るまでのＰｒｅｃｉｓｉｏｎとＲｅｃａｌｌの２次元グラフの面積の総和をＡＰとして算出し、さらに全識別クラスについて算出されたＡＰを平均したものをｍＡＰとして算出するものである。画像内の検出対象に対するモデル学習辞書を含めた物体検出モデルの平均的な検出精度や検出性能の指標化と合わせて、バリデーションデータの選定方法には依存するが、各種のロバスト性に対する性能指標としても活用されることが多い。

　図２６は、従来の画像内の物体の位置検出やクラス識別を行い、物体検出モデルのロバスト性や強化方針を分析してモデル学習辞書の強化学習を行う物体検出装置を示すブロック図である。

　画像を取得して適切に加工する画像処理手段１００は、レンズ１０１（例えば、標準ズーム、広角ズーム、魚眼）と、レンズ１０１を通した対象物から発した光を受光し、光の明暗を電気情報に変換するデバイスであるイメージセンサ１０２と、黒レベル調整機能、ＨＤＲ（ハイダイナミックレンジ）、ゲイン、露光調整機能、欠陥画素補正機能、シェーディング補正機能、ホワイトバランス機能、色補正機能、ガンマ補正機能、及び、局所トーンマッピング機能等を備えた画像処理プロセッサ１０３を有し、撮影環境の中で、照度などの時系列上の変動条件を吸収しながら検出すべき物体を見やすく、もしくは、見つけやすくする画像処理を施す。

　画像処理手段１００で生成された画像は、画像出力制御手段１１０に入力されて、表示およびデータ格納手段１２０であるモニタやＰＣ(パーソナルコンピュータ)などの外部メモリ、クラウドサーバー等に送信される。

　一方、物体検出モデル３００による物体検出を行うために、画像処理手段１００により生成された画像データをモデル前処理手段２００に入力して、物体検出モデル３００の入力に適切な画像となるように加工する。物体検出を行うために適切な画像とは、当該画像から物体検出を行うための基準画像であり、ここでの加工とは、基準画像を作成することを意味する。なお、モデル前処理手段２００は、電子回路で構成される場合もあれば、アフィン変換関数２９１や射影変換関数２９２（ライブラリ）とＣＰＵや演算プロセッサで構成される画像処理プロセッサ２９０によって実現する場合もある。

　モデル前処理手段２００で加工されたモデル入力画像２１０は、物体検出モデル３００に入力されて、推論（予測）により、対象物体がどの位置にいるかを検出されるとともに、その物体が人か車両か等のどのクラスに該当するかを識別（クラス識別）される。その結果として物体検出モデル３００から、１つの画像中に存在する検出物体毎に、検出不能と疑似検出を含むゼロないし複数の補正前の検出枠を含む位置情報３０１と補正前の尤度情報３０２が出力される。ここで、補正前の検出枠を含む位置情報３０１は、例えば、検出枠の中心座標、水平方向の幅、垂直方向の高さを含む情報であり、補正前の尤度情報３０２は、例えば、検出精度を示す尤度とクラス識別情報である。

　物体検出モデル３００は、例えば、モデル学習辞書３２０と、畳み込み型ニューラルネットワーク（ＣＮＮ）を使用したディープニューラルネットワーク（ＤＮＮ）モデル３１０で構成される。ＤＮＮモデル３１０は、例えば、検出処理速度に優位性の高いモデルであるＹＯＬＯ（例えば、非特許文献１参照）やＳＳＤなどを使用する場合がある。また、検出精度を優先する際は、例えば、ＦａｓｔｅｒＲ-ＣＮＮやＥｆｆｉｃｉｅｎｔＤｅｔなどを使用する場合もある。また、物体の位置検出は行わずにクラス識別を中心に実施する際は、例えば、ＭｏｂｉｌｅＮｅｔなどを使用する場合もある。モデル学習辞書３２０は、ＤＮＮモデル３１０の重み係数のデータの集合体であり、ＤＮＮモデル３１０の場合は、辞書学習手段６００の深層学習手段６４０により初期学習、もしくは、再学習されるものである。

　物体検出モデル３００から出力された１つの画像中に存在する検出物体毎に、検出不能と疑似検出を含むゼロないし複数の補正前の検出枠を含む位置情報３０１と補正前の尤度情報３０２は、モデル後処理手段４００に入力した後、補正前の検出枠を含む位置情報３０１の相互のＩＯＵ値による選別や補正前の尤度情報３０２の最大判定などにより、各検出物体にする最も適切と考えられる最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２に補正されて、表示およびデータ格納手段１２０であるモニタやＰＣ(パーソナルコンピュータ)などの外部メモリ、クラウドサーバー等に送信される。ここで、最尤の検出枠を含む位置情報４０１は、例えば、検出枠の中心座標、水平方向の幅、垂直方向の高さを含む情報であり、最尤の尤度情報４０２は、例えば、検出精度を示す尤度とクラス識別情報である。

　これら、画像処理手段１００とモデル前処理手段２００と物体検出モデル３００とモデル後処理手段４００により最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２を生成する一連の手段が、画像内の物体の位置検出やクラス識別を行う物体検出装置である。

　次に、モデル学習辞書３２０を作成するための深層学習の一例について説明する。

　最初に、大規模なオープンソースのデータセットなど深層学習のための素材データが保存されている学習用素材データベース格納手段６１０から、使用目的に適切と考えられる学習用素材データを抽出する。なお、学習のための素材データは、使用用途に応じて必要となる画像を、例えば、画像処理手段１００から画像出力制御手段１１０を使って表示およびデータ格納手段１２０に格納した画像データを活用する場合もある。

　次に、学習用素材データベース格納手段６１０から抽出された学習用素材データに対して、アノテーション手段６２０によって、クラス識別情報と正解枠であるｇｒｏｕｎｄｔｒｕｔｈＢＢｏｘを付加して教師ありデータを作成する。

　次に、アノテーション手段６２０によって生成された教師ありデータは、Ａｕｇｍｅｎｔ手段６３０によって、汎用性およびロバスト性を強化するために学習用画像６３１として水増しする。

　次に、学習用画像６３１を深層学習手段６４０に入力して、ＤＮＮモデル３１０の重み係数を算出し、算出された重み係数を、例えば、ＯＮＮＸフォーマットに変換してモデル学習辞書３２０を作成する。モデル学習辞書３２０を物体検出モデル３００に反映することで、画像内の物体の位置検出やクラス識別を行うことが可能となる。

　次に、画像内の物体の位置検出やクラス識別を行うモデルのモデル学習辞書３２０のロバスト性や強化方針を分析するための性能指標化の一例について説明する。

　前述した、学習用素材データベース格納手段６１０から、使用目的に対する必要な検出精度や検出性能や汎用性、および、ロバスト性を検証するためのバリデーション用素材データを抽出する。バリデーション用素材データは、例えば、大規模なオープンソースのデータセットや画像処理手段１００から画像出力制御手段１１０を使って表示およびデータ格納手段１２０に格納した画像データを活用する場合もある。

　次に、学習用素材データベース格納手段６１０から抽出されたバリデーション用素材データに対して、アノテーション手段６２０によって、クラス識別情報と正解枠であるｇｒｏｕｎｄｔｒｕｔｈＢＢｏｘを付加してバリデーション用データ６２３を作成する。

　次に、バリデーション用データ６２３を物体検出モデル３００と同等の推論（予測）が可能な第一のｍＡＰ算出手段６６０に入力して、正解枠であるｇｒｏｕｎｄｔｒｕｔｈＢＢｏｘと推論（予測）した結果として算出されるＰｒｅｄｉｃｔｅｄＢＢｏｘ（予測したＢＢｏｘ）を比較したＩＯＵ値６５３の算出と、すべてのバリデーション用データ６２３に対するすべての予測結果の内、正しくＩＯＵ値６５３が任意の閾値以上で予測できた割合を示すＰｒｅｃｉｓｉｏｎ６５４の算出と、実際の正解結果の内、ＩＯＵ値６５３が任意の閾値以上で正解結果と近い位置のＢＢｏｘを予測できた割合を示すＲｅｃａｌｌ６５５の算出と、前述した物体検出の精度や性能を比較するための指標としての各クラス別のＡＰ（ＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ）値６５１と、全クラスを平均化したｍＡＰ（ｍｅａｎＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ）値６５２を算出するものである（例えば、非特許文献２参照）。ここで、第一のｍＡＰ算出手段６６０は、例えば、ＤＮＮモデル３１０にＹＯＬＯを適用した際は、ｄａｒｋｎｅｔと呼ばれるオープンソースの推論環境と演算プロセッサ（パーソナルコンピュータやスーパーコンピュータを含む）を備えたものであり、物体検出モデル３００と同等の推論（予測）性能を有していることが望ましい。さらに、前述したＩＯＵ値６５３とＰｒｅｃｉｓｉｏｎ６５４とＲｅｃａｌｌ６５５とＡＰ値６５１とｍＡＰ値６５２の算出手段を備えるものである。

　これら、学習用素材データベース格納手段６１０とアノテーション手段６２０と第一のｍＡＰ算出手段６６０によりＩＯＵ値６５３とＰｒｅｃｉｓｉｏｎ６５４とＲｅｃａｌｌ６５５とＡＰ値６５１とｍＡＰ値６５２を生成する一連の手段により、画像内の物体の位置検出やクラス識別を行うモデルのモデル学習辞書のロバスト性や強化方針を分析することが可能となる。

　一方で、Ａｕｇｍｅｎｔ手段６３０によるＡｕｇｍｅｎｔａｔｉｏｎにより水増し（拡張データ）された画像データ６３１や学習パラメータを用いて物体検出モデルのモデル学習辞書を初期学習、もしくは、再学習する際に、拡張データの品質が学習用データに求められる品質を満たしていなければ、拡張データはノイズとなり、学習の質及び効率を下げるとともに推論精度も低下される要因となることがあるため、モデル後処理手段４００により編集パラメータ８６０を設定し、編集パラメータ８６０に従って、モデル前処理手段２００により学習のための画像に対して、任意の範囲を切り出すクロップ処理や、リサイズ処理や、位置シフト処理などを施したモデル入力画像２１０に対して、物体検出モデル３００とモデル後処理手段４００で推論と正確度の向上を行い、編集パラメータ８６０の中で物体検出モデル３００の推論結果に基づいて尤度やクラス識別率が低下するなどのノイズになりえるパラメータをロバスト性検証手段８００により選別して編集パラメータ８６０から除いたＡｕｇｍｅｎｔパラメータ８６１をＡｕｇｍｅｎｔ手段６３０に指示して学習データ６３１を生成し、深層学習手段６４０によりモデル学習辞書３２０を再学習することで学習のための拡張データの品質を向上させ、モデル学習辞書のロバスト性を向上させる方法が提案されている（例えば、特許文献１参照）。

　一方で、物体検出の推論精度を向上するために、内視鏡などに搭載したカメラの取得画像からモデル前処理手段２００を経て物体検出モデル３００の１つの種類である並列して搭載した疾患の領域を特定するＤＮＮモデルで人体の内部の疾患部と考えられる領域を特定した後、モデル前処理手段２００により疾患部と特定された領域に対して、編集パラメータ８６０により拡大処理や切り出し処理を施し、切り出した画像を基準画像として編集パラメータ８６０で位置シフトなどの処理を行いつつ物体検出モデル３００とモデル後処理手段４００の出力結果である最尤の尤度情報４０２が最大化される箇所を探索して疾患の種別を識別する方法が提案されている。（特許文献２参照）。

　一方で、物体検出モデル３００のＤＮＮモデル３１０により検出した結果からモデル後処理手段４００に搭載されている動きベクトル検出手段４８９により動きベクトルを検出することにより、手振れなどによって撮影画像にブレが存在する場合、ブレ領域を検出し、学習用素材データベース格納手段６１０に格納されている学習用画像グループから撮影画像に近い動きベクトルに対応する学習用画像を選択して学習させることで、ブレが発生した画像に対しての推論精度やクラス識別確率を向上させる方法が提案されている（特許文献３参照）。

　なお、カメラなどにより取得した画像中で物体検出を行う学習辞書を含むモデルにおける汎用性やロバスト性の項目や各種変動条件は、例えば、背景(景色)、カメラのレンズ仕様、カメラを取り付ける高さや仰俯角など、画像サイズを含む検出対象領域と視野範囲など、魚眼レンズを使用している場合のデワープ処理方法、日光や照明に依存する照度変化や黒つぶれや白飛び、逆光などの特殊条件、晴れ、曇り、雨、雪、霧などの天候条件、対象検出物体の画像中の位置（左右上下と奥行）やサイズや輝度レベルや色情報を含む形状の特徴やアスペクト比や回転角度、対象検出物体の数や相互重複の状態や付属物の種類や大きさや付属位置、レンズのＩＲカットの有無、対象検出物体の移動速度、および、カメラ自体の移動速度などがあげられる。

　しかしながら、図２６に示すような従来の物体検出装置、物体検出方法、および、プログラムでは、カメラなどにより取得した画像の各種変動条件に対する物体検出モデルのモデル学習辞書のロバスト性を向上させることはできるが、物体検出モデルの中のＤＮＮモデルを含むニューラルネットワークそのものの構造に起因し潜在的に有する検出物体サイズや位置の揺らぎに対する推論精度やクラス識別性能が低下する課題に対しては改善することが困難であった。そのため、物体検出装置と検出対象の物体との位置関係によっては安定した物体検出が行えない場合が生じることがあった。

　また、取得画像に対してサイズや位置を変更しながら探索的に検出性能を最大化させる方法を使用する場合は、最大値を検出するまでのレイテンシーが大きくなるため、物体検出モデルの処理プロセッサなどの性能に制限がある場合は、物体検出の処理速度の低下やリアルタイム性が損なわれるなどの課題やデメリットが生じる場合があった。

　第一の課題として、図２６に示す画像処理手段１００とモデル前処理手段２００と物体検出モデル３００とモデル後処理手段４００により最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２を生成する物体検出装置、物体検出方法（以下、単に方法と称する場合がある）、および、プログラムを使用して物体検出を行う場合は、画像中の検出対象の位置や大きさが時系列で揺らぐ場合に、同一の物体を検出しているにも関わらず、ＤＮＮモデルの構成条件とアルゴリズムに起因する課題により、推論（予測）した検出枠を含む位置情報と尤度情報に特有のパターンでバラつきが生じる場合がある。その現象は、物体検出を行うためのカメラなどを小型化、省電力化、および、低コスト化する際に、搭載するＤＳＰ（デジタルシグナルプロセッサ）などの演算プロセッサの性能の制限等によりＤＮＮモデルに入力する画像サイズを小さくした場合などで、特に顕著に表れると考えられる。例えば、物体の位置の検出とクラス識別を同時に行うため処理速度に優位性が高いとされるＹＯＬＯなどに代表されるｏｎｅ―ｓｔａｇｅ型のＤＮＮモデルを使用する場合は、詳細は後述するが、図１０に示すように、画像中の物体の位置を数ピクセル（画素）単位で水平方向と垂直方向に位置シフトして作成した複数枚の画像に対して、推論して検出物体の位置に対する尤度分布を確認すると、検出物体の位置により特有の格子状のパターンで尤度が低下する場所が存在する場合がある。これは、例えば、ＹＯＬＯの場合は、図３Ｂに示すように、物体の位置の検出とクラス識別を同時に行うために領域を任意のサイズのグリッドセルに分割してクラス確率を演算するために発生する潜在的な課題と考えられる。一方、物体の位置の検出とクラス識別を２段階に分けて処理するＥｆｆｉｃｉｅｎｔＤｅｔなどに代表されるｔｗｏ―ｓｔａｇｅ型のＤＮＮモデルを使用する場合は、前述のｏｎｅ―ｓｔａｇｅ型のＤＮＮモデルほどの課題は発生しにくい場合が多いが、検出速度が低下するため使用用途によっては適用が困難な場合があった。

　このため、画像に対して原画（基準画像）のみ（ピンポイント）で検出枠を含む位置情報と尤度情報を推論（予測）する物体検出装置、方法、および、プログラムでは、検出物体サイズや位置の揺らぎに対して推論精度やクラス識別性能が特有の格子パターンなどに沿って低下することがあるため、物体検出が不安定になる場合や、最悪の条件下では、検出不能に陥ることがあった。

　また、明確な推論性能の改善手法がないまま取得画像に対してサイズや位置を変更しながら探索的に検出性能を最大化させる方法を使用する場合は、最大値を検出するまでのレイテンシーが大きくなるため、物体検出モデルの処理プロセッサなどの性能に制限がある場合は、物体検出の処理速度の低下やリアルタイム性が損なわれるなどの課題やデメリットが生じる場合があった。

　第二の課題として、図２６に示す学習用素材データベース格納手段６１０とアノテーション手段６２０と第一のｍＡＰ算出手段６６０によりＩＯＵ値６５３とＰｒｅｃｉｓｉｏｎ６５４とＲｅｃａｌｌ６５５とＡＰ値６５１とｍＡＰ値６５２を生成する一連の画像内の物体の位置検出やクラス識別を行うモデルのモデル学習辞書のロバスト性や強化方針を分析するために指標化する際は、上述した第一の課題に示したように検出物体サイズや位置の揺らぎに対して推論精度やクラス識別性能が特有の格子パターンなどに沿って低下するため正確な性能指標が算出できない場合があるため、モデル学習辞書の弱点や強化が必要な条件の把握が不十分になる。したがって、深層学習などによってモデル学習辞書を学習した際に、汎用性や各種変動条件に対するロバスト性の改善が不十分になる場合があった。

　本発明は、上記課題に鑑みてなされたものであり、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下を救済して、物体検出能力やクラス識別能力や追跡能力を向上することができる物体検出装置、物体検出方法、及びプログラムを提供することを目的とする。

　さらに、推論精度の低下を救済して物体検出能力やクラス識別能力や追跡能力を向上した結果に基づいて、物体検出モデルの性能とモデル学習辞書の汎用性やロバスト性の弱点や強化方針を正確に分析するための性能指標化を行い、モデル学習辞書の再学習を効果的に行うことが可能な物体検出装置、物体検出方法、及びプログラムを提供することを目的とする。

　さらに、物体検出を行うためのカメラなどを小型化、省電力化、および、低コスト化するために、搭載するＤＳＰ（デジタルシグナルプロセッサ）などの演算プロセッサの性能の制限を設けた場合でも、物体検出の精度や性能を担保しつつ、低レイテンシーでリアルタイム性を損なわない物体検出装置、物体検出方法、及びプログラムを提供することを目的とする。

　（開示の概要）
　本発明の物体検出装置は、画像を取得し、当該画像から物体検出を行うための基準画像を作成する画像処理手段と、フレーム制御情報の位置シフト量に則って、前記基準画像に水平方向にＭピクセル（Ｍは任意の小数）および垂直方向にＮピクセル（Ｎは任意の小数）の位置シフトを施した第一の位置シフト画像を生成し、該基準画像と該第一の位置シフト画像とをフレーム毎に物体検出モデルに入力するモデル前処理手段と、前記モデル前処理手段から出力されたフレーム毎の前記基準画像と前記第一の位置シフト画像とに対して物体位置とクラス識別と尤度を推論するモデル学習辞書を含む物体検出モデルと、前記物体検出モデルの推論結果である検出物体毎の前記基準画像の検出枠を含む位置情報および前記基準画像の尤度情報と、前記第一の位置シフト画像の検出枠を含む位置情報および前記第一の位置シフト画像の尤度情報とを比較して最大となる方の入力画像と該推論結果とを選択してフレーム毎に出力する画像選択手段を有するモデル後処理手段と、前記モデル後処理手段が、前記画像選択手段により前記第一の位置シフト画像の推論結果を選択した場合は、前記フレーム制御情報の位置シフト量に則って前記モデル前処理手段の生成時とは逆方向に位置シフトを施した検出枠を含む位置情報を出力する検出枠補正手段を備えることを特徴とする。

　ある実施形態によれば、前記モデル前処理手段は、前記基準画像と前記第一の位置シフト画像に加えて、フレーム制御情報の位置シフト量に則って、前記基準画像に水平方向にＰピクセル（Ｐは任意の小数）および垂直方向にＱピクセル（Ｑは任意の小数）の位置シフトを施した第二の位置シフト画像を生成し、該基準画像と該第一の位置シフト画像と該第二の位置シフト画像とをフレーム毎に前記物体検出モデルに入力し、前記物体検出モデルにより異なる３種類の画像に対する推論結果を出力し、前記モデル後処理手段は、前記画像選択手段により該異なる３種類の画像に対する推論結果の中から最大となる１つの入力画像と該推論結果を選択してフレーム毎に出力し、前記画像選択手段により前記第一の位置シフト画像の推論結果、もしくは、前記第二の位置シフト画像の推論結果を選択した場合は、前記フレーム制御情報の位置シフト量に則って前記モデル前処理手段の生成時とは逆方向に位置シフトを施した検出枠を含む位置情報を出力する前記検出枠補正手段を備えることを特徴とする。

　ある実施形態によれば、前記物体検出モデルは、深層学習や機械学習により作成されたモデル学習辞書とＤＮＮ（Ｄｅｅｐ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）などを含むニューラルネットワークであることを特徴とする。

　ある実施形態によれば、前記フレーム制御情報の前記位置シフト量は、前記物体検出モデルのニューラルネットワークモデルの入力画像の垂直方向と水平方向のピクセル数を該ニューラルネットワークモデルの１つ以上の検出レイヤ毎の水平方向と垂直方向のグリッドセルサイズで除算した値の１／２ピクセル値か、それに近似するピクセル値で決定されることを特徴とする。

　ある実施形態によれば、前記フレーム制御情報の前記位置シフト量の種類は、前記ニューラルネットワークモデルの１つ以上の検出レイヤ毎の水平方向と垂直方向のグリッドセルサイズで除算した値の１／２ピクセル値か、それに近似するピクセル値で決定された中で、検出対象物のサイズに依存して検出精度、もしくは、検出頻度が高くなる検出レイヤに対応する前記位置シフト量の順番に前記モデル前処理手段と前記モデル後処理手段で適用されることを特徴とする。

　ある実施形態によれば、前記フレーム制御情報の前記位置シフト量の種類が、前記モデル前処理手段の位置シフト画像の種類よりも多い場合は、複数の該位置シフト量の平均値を位置シフト量として使用することを特徴とする。

　ある実施形態によれば、前記フレーム制御情報の前記位置シフト量の種類が３種類以上存在し、かつ、前記モデル前処理手段の前記位置シフト画像の種類が３種類以上存在する場合は、該フレーム制御情報の該位置シフト量に則って、前記モデル前処理手段で前記基準画像から３つ以上の前記位置シフト画像を生成し、基準画像と合わせてフレーム毎に前記物体検出モデルに入力し、前記物体検出モデルにより異なる４種類以上の画像に対する推論結果を出力し、前記モデル後処理手段は、前記画像選択手段により該異なる４種類以上の画像に対する推論結果の中から最大となる１つの入力画像と該推論結果を選択してフレーム毎に出力し、該基準画像の該推論結果以外を選択した場合は、前記フレーム制御情報の前記位置シフト量に則って、前記モデル前処理手段の生成時とは逆方向に位置シフトを施した検出枠を含む位置情報を出力する前記検出枠補正手段を備えることを特徴とする。

　ある実施形態によれば、前記モデル前処理手段は、前記フレーム制御情報の前記位置シフト量に則って、ｎ（ｎは０を含む任意の２の倍数）フレーム目の前記基準画像は、そのまま前記物体検出モデルに入力し、ｎ＋１フレーム目の前記基準画像に対しては、水平方向にＭピクセル（Ｍは任意の小数）および垂直方向にＮピクセル（Ｎは任意の小数）の位置シフトを施した前記第一の位置シフト画像を生成して前記物体検出モデルに入力し、前記物体検出モデルは、前記モデル前処理手段から出力されたｎフレーム目の前記基準画像とｎ＋１フレーム目の前記第一の位置シフト画像に対してフレーム毎に交互に物体位置とクラス識別と尤度とを推論し、前記画像選択手段が、前記物体検出モデルの推論結果である検出物体毎のｎフレーム目の前記基準画像の検出枠を含む位置情報および前記基準画像の尤度情報と、ｎ＋１フレーム目の前記第一の位置シフト画像の検出枠を含む位置情報および前記第一の位置シフト画像の尤度情報とを比較して最大となる方の入力画像と該推論結果とを選択してｎ＋１フレーム目の結果として出力し、ｎ＋１フレーム目の前記第一の位置シフト画像の検出枠を含む位置情報および前記第一の位置シフト画像の尤度情報とｎ＋２フレーム目の前記基準画像の検出枠を含む位置情報および前記基準画像の尤度情報とを比較して最大となる方の入力画像と該推論結果とを選択してｎ＋２フレーム目の結果として出力し、１フレーム分遅延して現在のフレームと１フレーム前の過去フレームの情報から推論結果を最大化する前記モデル後処理手段と、前記モデル後処理手段が、前記画像選択手段によりｎ＋１フレーム目の前記第一の位置シフト画像の推論結果を選択した場合は、前記フレーム制御情報の前記位置シフト量に則って前記モデル前処理手段の生成時とは逆方向に位置シフトを施した検出枠を含む位置情報を出力する検出枠補正手段とを備えることを特徴とする。

　ある実施形態によれば、前記モデル前処理手段は、前記フレーム制御情報の前記位置シフト量に則って、ｍ（ｍは０を含む任意の３の倍数）フレーム目の前記基準画像とｍ＋１フレーム目の基準画像とから生成した前記第一の位置シフト画像に加えて、ｍ＋２フレーム目の前記基準画像に対しては、水平方向にＰピクセル（Ｐは任意の小数）および垂直方向にＱピクセル（Ｑは任意の小数）の位置シフトを施した前記第二の位置シフト画像を生成し、ｍフレーム目に該基準画像を、ｍ＋１フレーム目に該第一の位置シフト画像を、ｍ＋２フレーム目に該第二の位置シフト画像をフレーム毎に順番に前記物体検出モデルに入力し、前記物体検出モデルにより前記モデル前処理手段から出力されたｍフレーム目の前記基準画像とｍ＋１フレーム目の前記第一の位置シフト画像とｍ＋２フレーム目の前記第二の位置シフト画像とに対してフレーム毎に順番に物体位置とクラス識別と尤度とを推論し、前記画像選択手段が、前記物体検出モデルの推論結果である検出物体毎のｍフレーム目の前記基準画像の検出枠を含む位置情報および前記基準画像の尤度情報と、ｍ＋１フレーム目の前記第一の位置シフト画像の検出枠を含む位置情報および前記第一の位置シフト画像の尤度情報と、ｍ＋２フレーム目の前記第二の位置シフト画像の検出枠を含む位置情報および前記第二の位置シフト画像の尤度情報とを比較して最大となる方の入力画像と該推論結果とを選択してｍ＋２フレーム目の結果として出力し、ｍ＋１フレーム目とｍ＋２フレーム目とｍ＋３フレーム目の推論結果とを比較して最大となる方の入力画像と該推論結果とを選択してｍ＋３フレーム目の結果として出力し、ｍ＋２フレーム目とｍ＋３フレーム目とｍ＋４フレーム目の推論結果とを比較して最大となる方の入力画像と該推論結果とを選択してｍ＋４フレーム目の結果として出力し、２フレーム分遅延して現在のフレームと２フレーム前までの過去フレームの情報から推論結果とを最大化する前記モデル後処理手段と、前記モデル後処理手段が、前記画像選択手段によりｍ＋１フレーム目の前記第一の位置シフト画像の推論結果を選択した場合とｍ＋２フレーム目の前記第二の位置シフト画像の推論結果を選択した場合は、前記フレーム制御情報の前記位置シフト量に則って前記モデル前処理手段の生成時とは逆方向に位置シフトを施した検出枠を含む位置情報を出力する検出枠補正手段とを備えることを特徴とする。

　ある実施形態によれば、前記フレーム制御情報の前記位置シフト量の種類が３種類以上存在し、かつ、前記モデル前処理手段の前記位置シフト画像の種類が３種類以上存在する場合は、該フレーム制御情報の該位置シフト量に則って、前記モデル前処理手段でｒ（ｒは０を含む任意のｓ（ｓは４以上の任意の整数）の倍数）フレーム目は前記基準画像を、ｒ＋１フレームからｒ＋ｓ－１フレーム目は各フレームの前記基準画像から加工したｓ－１個の前記位置シフト画像を、フレーム順に前記物体検出モデルに入力し、前記モデル後処理手段は、前記画像選択手段により現在のフレームとｓ－１フレーム前の過去フレームの推論結果の中から最大となる１つの入力画像と該推論結果とを選択して現在のフレームの推論結果として出力し、ｒフレーム目の該基準画像の該推論結果以外を選択した場合は、前記フレーム制御情報の前記位置シフト量に則って、前記モデル前処理手段の生成時とは逆方向に位置シフトを施した検出枠を含む位置情報を出力する前記検出枠補正手段を備えることを特徴とする。

　ある実施形態によれば、前記モデル前処理手段は、前記基準画像に対して、前記フレーム制御情報の画面分割パラメータに則って、画像の一部の範囲である検出範囲を切り出すクロップ機能と前記物体検出モデルの入力画面を２つに分割した領域に該クロップ機能により切り出した画像を垂直方向と水平方向とをリサイズして貼り付ける画面分割機能とを有し、前記画面分割機能により画面分割された一方を第一の分割後基準画像とし、もう一方を第二の分割後基準画像とし、該第一の分割後基準画像を前記フレーム制御情報の前記位置シフト量に則って、該第一の分割後基準画像に水平方向にＧピクセル（Ｇは任意の小数）および垂直方向にＨピクセル（Ｈは任意の小数）の位置シフトを施した第一の分割後位置シフト画像を生成し、該第二の分割後基準画像と該第一の分割後位置シフト画像とをフレーム毎に前記物体検出モデルに入力するモデル前処理手段と、前記モデル前処理手段から出力されたフレーム毎の前記第二の分割後基準画像と前記第一の分割後位置シフト画像とに対して物体位置とクラス識別と尤度を推論するモデル学習辞書を含む前記物体検出モデルと、前記物体検出モデルの推論結果である検出物体毎の前記第二の分割後基準画像の検出枠を含む位置情報および前記第二の分割後基準画像の尤度情報と、前記第一の分割後位置シフト画像の検出枠を含む位置情報および前記第一の分割後位置シフト画像の尤度情報とを比較して最大となる方の入力画像と該推論結果とを選択してフレーム毎に出力する前記画像選択手段を有する前記モデル後処理手段と、前記モデル後処理手段が、前記画像選択手段により前記第二の分割後基準画像の推論結果を選択した場合は、前記フレーム制御情報の前記画面分割パラメータに則って、元の前記基準画像に相当するように位置とサイズの逆補正を施した検出枠を含む位置情報を出力し、前記画像選択手段により前記第一の分割後位置シフト画像の推論結果を選択した場合は、前記フレーム制御情報の前記位置シフト量と前記画面分割パラメータに則って、前記モデル前処理手段の生成時とは逆方向に位置シフトを施した後、元の前記基準画像に相当するように位置とサイズとの逆補正を施した検出枠を含む位置情報を出力する検出枠補正手段を備えることを特徴とする。

　ある実施形態によれば、前記フレーム制御情報の前記位置シフト量は、該フレーム制御情報の前記画面分割パラメータに則って、前記クロップ機能と前記画面分割機能とにより画面分割された一方の前記第一の分割後基準画像の垂直方向と水平方向とのピクセル数を前記ニューラルネットワークモデルの１つ以上の検出レイヤ毎の水平方向と垂直方向のグリッドセルサイズで除算した値の１／２ピクセル値か、それに近似するピクセル値で決定されることを特徴とする。

　ある実施形態によれば、前記フレーム制御情報の前記位置シフト量は、該フレーム制御情報の前記画面分割パラメータに則って、前記クロップ機能と前記画面分割機能とにより画面分割された一方の前記第一の分割後基準画像の垂直方向と水平方向とのピクセル数を前記ニューラルネットワークモデルの１つ以上の検出レイヤ毎の水平方向と垂直方向のグリッドセルサイズで除算した値の１／２ピクセル値か、それに近似するピクセル値で決定された中で、検出対象物のサイズに依存して検出精度、もしくは、検出頻度が高くなる検出レイヤに対応する前記位置シフト量の順番に前記モデル前処理手段と前記モデル後処理手段とで適用されることを特徴とする。

　ある実施形態によれば、前記フレーム制御情報の前記位置シフト量の種類が２つ以上の場合は、複数の該位置シフト量の平均値を位置シフト量として使用することを特徴とする。

　ある実施形態によれば、前記モデル前処理手段は、前記第一の分割後基準画像、および、前記第二の分割後基準画像が、前記ニューラルネットワークモデルの１つ以上の検出レイヤ毎の水平方向と垂直方向のグリッドセルサイズで除算した際に、水平方向も垂直方向も割り切れるように、前記フレーム制御情報の前記画面分割パラメータを設定することを特徴とする。

　ある実施形態によれば、前記モデル前処理手段が、該フレーム制御情報の前記画面分割パラメータに則って、画像を分割する場合は、該画面分割パラメータに則って生成された学習画像にアノテーション手段により正解枠データを付加し、内蔵もしくは外部の辞書学習手段により前記モデル学習辞書を再学習することを特徴とする。

　ある実施形態によれば、前記モデル前処理手段は、前記フレーム制御情報に則って、前記物体検出モデルに入力する画像に対して位置シフトを含め加工するに際して、該加工により発生する有効画像が存在しない余白部分は、該有効画像の平均輝度レベルと等しい単一色で一様に塗りつぶして画像を生成することを特徴とする。

　ある実施形態によれば、前記モデル前処理手段は、前記フレーム制御情報の前記位置シフト量に則って位置シフトを実施する前の画像に対して、任意の場所の画像を切り抜く前記クロップ機能と、画像サイズを変更するリサイズ機能と、コントラスト補正曲線、もしくは、階調変換曲線を使用して輝度レベルを任意の値に変更する階調変換機能と、アスペクト比を変更するアスペクト比変更機能と、回転角度を変更する回転機能を有し、前記フレーム制御情報の加工パラメータに則って画像を加工することを特徴とする。

　ある実施形態によれば、前記モデル後処理手段は、フレーム毎の前記物体検出モデルの推論結果である１つないし複数の前記検出物体毎に対する検出不能と疑似検出を含むゼロないし複数の前記基準画像の検出枠を含む位置情報および前記基準画像の尤度情報と、前記第一の位置シフト画像の検出枠を含む位置情報および前記第一の位置シフト画像の尤度情報と、さらに前記フレーム制御情報の前記位置シフト量が２種類以上存在する場合は、前記第二の位置シフト画像の検出枠を含む位置情報および前記第二の位置シフト画像の尤度情報と、第三以上の位置シフト画像の検出枠を含む位置情報および第三以上の位置シフト画像の尤度情報とに対して、各々の尤度情報に対する任意の閾値Ｔ（Ｔは、任意の小数）と、各々の検出枠を含む位置情報の領域が相互にどれぐらい重なっているかを表す指標であるＩＯＵ（Ｉｎｔｅｒｓｅｃｔｉｏｎ　ｏｖｅｒ　Ｕｎｉｏｎ）値に対する任意の閾値Ｕ（Ｕは、任意の小数）とにより、前記物体検出モデルに入力される各々の入力画像に対する前記検出物体毎に個体識別後の検出枠を含む位置情報と個体識別後の尤度情報とに補正する個体識別手段を有し、前記個体識別手段により選定された出力結果を使用して、前記画像選択手段と前記検出枠補正手段とにより、フレーム毎の該検出物体毎に最尤となる検出枠を含む位置情報と最尤となる尤度情報を出力することを特徴とする。

　ある実施形態によれば、前記モデル後処理手段は、前記フレーム制御情報の前記画面分割パラメータに則って、画面分割の加工を施した際は、フレーム毎の前記物体検出モデルの推論結果である１つないし複数の前記検出物体毎に対する検出不能と疑似検出を含むゼロないし複数の前記第二の分割後基準画像の検出枠を含む位置情報および前記第二の分割後基準画像の尤度情報と、前記第一の分割後位置シフト画像の検出枠を含む位置情報および前記第一の分割後位置シフト画像の尤度情報とに対して、各々の尤度情報に対する任意の閾値Ｔ（Ｔは、任意の小数）と、各々の検出枠を含む位置情報の領域が相互にどれぐらい重なっているかを表す指標であるＩＯＵ（Ｉｎｔｅｒｓｅｃｔｉｏｎ　ｏｖｅｒ　Ｕｎｉｏｎ）値に対する任意の閾値Ｕ（Ｕは、任意の小数）とにより、前記物体検出モデルに入力される該第二の分割後基準画像と該第一の分割後位置シフト画像とに対する前記検出物体毎に前記個体識別後の検出枠を含む位置情報と前記個体識別後の尤度情報とに補正する前記個体識別手段を有し、前記個体識別手段により選定された出力結果を使用して、前記画像選択手段と前記検出枠補正手段とにより、フレーム毎の該検出物体毎に最尤となる検出枠を含む位置情報と最尤となる尤度情報とを出力することを特徴とする。

　ある実施形態によれば、前記個体識別手段は、前記フレーム制御情報の前記画面分割パラメータに則って、画面分割の加工を施した際は、前記第二の分割後基準画像と前記第一の分割後位置シフト画像との境界線上で検出された前記検出枠を含む位置情報は、該第二の分割後基準画像と該第一の分割後位置シフト画像とのいずれの領域に広く分布しているか判定し、広く分布している側の領域内の該検出枠を含む位置情報を該領域内で切り出して結果として残留させ、一方の領域側にはみ出した該検出枠の位置情報は、切り取って削除することを特徴とする。

　ある実施形態によれば、前記モデル後処理手段は、前記画像選択手段と前記検出枠補正手段とにより最尤と判定して出力したフレーム毎の前記検出物体毎に対する推論結果である最尤の検出枠を含む位置情報と最尤の尤度情報とを、最大検出物体数Ｖ（Ｖは任意の整数）の数だけ現在のフレームｆｔとｆｔ―１からｆｔ－ｓ（ｓは任意の整数）までの過去フレーム分の格納メモリに保持するフレーム情報保持手段を有し、該フレーム情報保持手段は、現在のフレームｆｔの該最尤の検出枠を含む位置情報と該最尤の尤度情報が算出された時点で、最も古いフレームｆｔ－ｓの該格納メモリに記録されている該最尤の検出枠を含む位置情報と該最尤の尤度情報とを消去し、ｆｔフレームからｆｔ－（ｓ－１）フレームまでの該格納メモリに記録されている該最尤の検出枠を含む位置情報と該最尤の尤度情報を１フレーム分過去のｆｔ－１フレームからｆｔ－ｓフレームの該格納メモリにスライドして再記録し、現在のフレームｆｔの該最尤の検出枠を含む位置情報と該最尤の尤度情報とを現在のフレームｆｔの該格納メモリに記録することを特徴とする。

　ある実施形態によれば、前記フレーム情報保持手段は、任意のフレームの前記検出物体の前記格納メモリの前記最尤の検出枠を含む位置情報と最尤の尤度情報とに欠落がある場合に、前後のフレームの該格納メモリの該最尤の検出枠を含む位置情報と該最尤の尤度情報とから補間して新たな該最尤の検出枠を含む位置情報と該最尤の尤度情報として当該フレームの該格納メモリに記録するフレーム情報補間手段を有し、前記フレーム情報補間手段の情報の補間方法が、ニュートン後退補間法や移動平均法などであり、前記最尤の検出枠を含む位置情報は、検出枠の中心座標と高さと幅の情報を含み、前記最尤の尤度情報は、検出の信頼性を示す尤度とクラス識別情報を含むことを特徴とする。

　ある実施形態によれば、前記フレーム情報補間手段は、前記フレーム情報保持手段の前記ｆｔ－１からｆｔ－ｓの過去フレームの前記格納メモリの前記最尤の検出枠を含む位置情報の中心座標から動きベクトル量を算出して各フレームの該検出物体毎の該格納メモリに記録する動きベクトル量算出手段を有し、さらに、未来のフレームの前記検出物体毎の動きベクトル量を予測して前記最尤の検出枠を含む位置情報の中心座標を予測する動きベクトル予測算出手段を有することを特徴とする。

　ある実施形態によれば、前記フレーム情報補間手段は、前記フレーム情報保持手段の過去フレームの前記検出物体毎の前記最尤の検出枠を含む位置情報の検出枠の幅と高さと中心座標と、前記動きベクトル量算出手段により算出された前記動きベクトル量とにより、距離係数を算出して該格納メモリに記録する距離係数算出手段を有し、さらに、前記動きベクトル予測算出手段は、予測された未来のフレームの前記動きベクトル量から、前記距離係数算出手段により未来のフレームの前記検出物体毎の前記最尤の検出枠を含む位置情報の中心座標と距離係数を予測し、未来のフレームの該最尤の検出枠を含む位置情報の検出枠の幅と高さの情報を予測することを特徴とする。

　ある実施形態によれば、前記フレーム情報補間手段は、前記フレーム情報保持手段の過去フレームの前記検出物体毎の前記格納メモリに格納されている前記最尤の検出枠を含む位置情報の検出枠の幅と高さと中心座標と、前記動きベクトル量と、前記距離係数と、前記最尤の尤度情報とにより、該最尤の検出枠を含む位置情報および該最尤の尤度情報のフレーム間の時間連続性の異常を検出した場合に該格納メモリから除去する異常検出情報除去手段を有し、該異常検出情報除去手段により除去された各種情報を前後のフレームの前記最尤の検出枠を含む位置情報の検出枠の幅と高さと中心座標と、前記動きベクトル量と、前記距離係数と、前記最尤の尤度情報とから復元して該格納メモリに記録する検出情報復元手段を有し、さらに、新たに物体検出を実施した際の現在のフレームの前記検出物体毎の前記画像選択手段と前記検出枠補正手段により算出された前記最尤の検出枠を含む位置情報と、前記動きベクトル予測算出手段により予測された未来のフレームの該最尤の検出枠を含む位置情報の検出枠の幅と高さと中心座標とを比較して、異常を検出して除去する異常検出情報予測除去手段を有し、該異常検出情報予測除去手段により前記個体識別手段と前記画像選択手段と前記検出枠補正手段により算出された前記最尤の検出枠を含む位置情報が除去された場合は、前記動きベクトル予測算出手段により予測された未来のフレームの該最尤の検出枠を含む位置情報に置き換えて復元し現在のフレームの該格納メモリに記録する検出情報予測復元手段を有することを特徴とする。

　ある実施形態によれば、前記フレーム情報補間手段は、前記フレーム情報保持手段に保持されている前記最尤の検出枠を含む位置情報の検出枠の幅と高さと中心座標とが、前記フレーム情報補間手段により補間された該最尤の検出枠を含む位置情報の検出枠の幅と高さと中心座標とに対して、任意の閾値を超過、もしくは、任意の割合を超過してずれていることを検出した場合、もしくは、前記最尤の尤度情報の尤度が異常だが救済を施すに値する救済閾値未満の場合は、前記異常検出情報除去手段により異常情報と判定して該格納メモリからすべての情報を除去し、その際、前記最尤の尤度情報の尤度が、正常と判定する正常判定閾値以下、かつ、異常だが救済を施すに値する救済閾値以上である場合は、前記最尤の尤度情報を除く他の情報を除去し、それら除去された情報に対して、前記検出情報復元手段により復元された該最尤の検出枠を含む位置情報と該最尤の尤度情報と前記動きベクトル量と前記距離係数とを該格納メモリに記録して復元することを特徴とする。

　ある実施形態によれば、前記フレーム情報補間手段は、前記フレーム情報保持手段の新たに物体検出を実施した際の現在のフレームの前記検出物体毎の前記画像選択手段と前記検出枠補正手段により算出された前記最尤の検出枠を含む位置情報の検出枠の幅と高さと中心座標とが、前記動きベクトル予測算出手段により予測された未来のフレームの該最尤の検出枠を含む位置情報の検出枠の幅と高さと中心座標とに対して、任意の閾値以下、もしくは、任意の割合以下のずれである場合、かつ、前記最尤の尤度情報の尤度が、正常と判定する正常判定閾値以上の場合は、該格納メモリに該最尤の検出枠を含む位置情報と前記最尤の尤度情報と前記動きベクトル量と前記距離係数とを記録し、前記最尤の検出枠を含む位置情報が、任意の閾値を超過、もしくは、任意の割合を超過してずれていることを検出した場合、もしくは、前記最尤の尤度情報の尤度が、異常だが救済を施すに値する救済閾値未満の場合に、前記異常検出情報予測除去手段により異常情報と判定してすべての情報を除去し、前記最尤の尤度情報の尤度が、正常と判定する正常判定閾値未満、かつ、異常だが救済を施すに値する救済閾値以上である場合は前記最尤の尤度情報を除く他の情報を除去し、それら除去された情報に対して、前記動きベクトル予測算出手段の出力結果である該検出枠を含む位置情報と該動きベクトル量と該距離係数と該最尤の尤度情報とを前記検出情報予測復元手段により置き換えて該格納メモリに記録することを特徴とする。

　ある実施形態によれば、前記モデル後処理手段は、現在のフレームの前記検出物体毎の前記フレーム情報保持手段と前記フレーム情報補間手段により算出された前記最尤の検出枠を含む位置情報の検出枠の中心座標のＸ座標と該検出枠の中心座標のＹ座標と該検出枠の幅と該検出枠の高さと該検出枠のアスペクト比とが、前記動きベクトル予測算出手段により予測された未来のフレームの該最尤の検出枠を含む位置情報の検出枠の中心座標のＸ座標と該検出枠の中心座標のＹ座標と該検出枠の幅と該検出枠の高さと該検出枠のアスペクト比とに対して、各々何％偏差があるか算出し、Ｗ（Ｗは任意の整数）フレーム分平均して、中心Ｘ座標平均偏差（％）と中心Ｙ座標平均偏差（％）と前記距離係数で正規化した枠幅変動率（％）と前記距離係数で正規化した枠高さ変動率（％）と枠アスペクト比変動率（％）とを算出するトレーサビリティ安定値指標化手段を有することを特徴とする。

　ある実施形態によれば、前記モデル後処理手段は、前記異常検出情報予測除去手段により、現在のフレームで異常値と判断されて除去された場合に、異常検出と判断して前記フレーム中の該異常検出となった枠数を異常検出枠数として出力する異常検出枠数算出手段を有することを特徴とする。

　ある実施形態によれば、前記モデル後処理手段は、前記異常検出情報予測除去手段により、現在のフレームで前記最尤の尤度情報の尤度が前記救済閾値未満で異常値と判断されて除去された場合、もしくは、推論の結果が未検出だった場合に、検出不能と判断して前記フレーム中の該検出不能となった回数を検出ＮＧ数として出力する検出ＮＧ数算出手段を有することを特徴とする。

　ある実施形態によれば、前記モデル後処理手段は、前記フレーム情報保持手段と前記フレーム情報補間手段により算出された前記最尤の検出枠を含む位置情報と、前記検出物体の前記最尤の尤度情報の中で最も低い最低尤度と、前記トレーサビリティ安定値指標化手段の各種出力情報である安定値指標と、前記異常検出枠数と、前記検出ＮＧ数との、１つ以上、もしくは、すべてを使用して次のフレームの前記フレーム制御情報の前記位置シフト量と該位置シフト量の種類と数の状態をフレーム毎に決定するステートマシン制御手段を有することを特徴とする。

　ある実施形態によれば、前記ステートマシン制御手段は、前記フレーム制御情報の位置シフト量がゼロ、かつ、位置シフト量の種類がゼロの尤度救済ＯＦＦモードの状態から開始し、現在のフレームの前記最低尤度が、任意の第一の尤度閾値未満であるか、もしくは、前記トレーサビリティ安定値指標化手段の出力情報である前記安定値指標が各々の第一の不安定閾値に対して１つでも超過する場合に、次フレームの前記フレーム制御情報の前記位置シフト量を１種類の状態で制御する尤度救済最尤２枚モードとし、前記フレーム情報保持手段の前記検出物体毎の前記最尤の検出枠を含む位置情報と、前記最尤の尤度情報と、前記物体検出モデルの前記ニューラルネットワークモデルの１つ以上の検出レイヤの情報とを加味して該位置シフト量を決定することを特徴とする。

　ある実施形態によれば、前記ステートマシン制御手段は、現在のフレームが前記尤度救済最尤２枚モードの状態の場合、現在のフレームの前記最低尤度が、任意の第二の尤度閾値未満であるか、もしくは、前記トレーサビリティ安定値指標化手段の出力情報である前記安定値指標が各々の第二の不安定閾値に対して１つでも超過する場合か、もしくは、前記異常検出枠数が１以上である場合か、前記検出ＮＧ数が１以上である場合に、次フレームの前記フレーム制御情報の前記位置シフト量を２種類の状態で制御する尤度救済最尤３枚モードとし、前記フレーム情報保持手段の前記検出物体毎の前記最尤の検出枠を含む位置情報と、前記最尤の尤度情報と、前記物体検出モデルの前記ニューラルネットワークモデルの１つ以上の検出レイヤの情報とを加味して２種類の該位置シフト量を決定することを特徴とする。

　ある実施形態によれば、前記ステートマシン制御手段は、現在のフレームが前記尤度救済最尤３枚モードの状態の場合、現在のフレームの前記最低尤度が任意の第二の尤度閾値以上であり、前記トレーサビリティ安定値指標化手段の出力情報である前記安定値指標が各々の第二の不安定閾値のすべてに対して以下であり、前記異常検出枠数がゼロであり、前記検出ＮＧ数がゼロであり、それら１つ以上、もしくは、すべての条件に合致する場合に、次フレームの前記フレーム制御情報の前記位置シフト量を１種類の状態で制御する前記尤度救済最尤２枚モードとし、前記フレーム情報保持手段の前記検出物体毎の前記最尤の検出枠を含む位置情報と、前記最尤の尤度情報と、前記物体検出モデルの前記ニューラルネットワークモデルの１つ以上の検出レイヤの情報とを加味して該位置シフト量を決定することを特徴とする。

　ある実施形態によれば、前記ステートマシン制御手段は、現在のフレームが前記尤度救済最尤２枚モードの状態の場合、現在のフレームの前記最低尤度が任意の第一の尤度閾値以上であり、前記トレーサビリティ安定値指標化手段の出力情報である前記安定値指標が各々の第一の不安定閾値のすべてに対して以下であり、前記異常検出枠数がゼロであり、前記検出ＮＧ数がゼロであり、それら１つ以上、もしくは、すべての条件に合致する場合に、次フレームの前記フレーム制御情報の前記位置シフト量を位置シフト量がゼロ、かつ、位置シフト量の種類がゼロの前記尤度救済ＯＦＦモードの状態とすることを特徴とする。

　ある実施形態によれば、前記モデル後処理手段は、バリデーション画像に対して、アノテーション手段により生成された前記検出物体毎に正解となる検出枠を含む位置情報と正解となるクラス識別情報とが存在する場合は、前記フレーム情報保持手段の現在のフレームの前記検出物体毎の前記最尤の検出枠を含む位置情報と該正解となる検出枠を含む位置情報の領域がどれぐらい重なっているかを表す指標である対正解枠ＩＯＵ値と、前記フレーム情報保持手段の現在のフレームの前記検出物体毎の前記最尤の尤度情報と該正解となるクラス識別情報を比較した結果の真偽の情報と、該最尤の尤度情報の尤度を算出し、第二のｍＡＰ算出手段により、該バリデーション画像に対するＡＰ（ＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ）値、ｍＡＰ（ｍｅａｎＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ）値、Ｒｅｃａｌｌ、Ｐｒｅｃｉｓｉｏｎなどの指標を算出することを特徴とする。

　本発明の物体検出方法は、画像を取得し、当該画像から物体検出を行うための基準画像を作成する画像処理ステップと、フレーム制御情報の位置シフト量に則って、前記基準画像に水平方向にＭピクセル（Ｍは任意の小数）および垂直方向にＮピクセル（Ｎは任意の小数）の位置シフトを施した第一の位置シフト画像を生成し、該基準画像と該第一の位置シフト画像をフレーム毎に物体検出モデルに入力するモデル前処理ステップと、前記モデル前処理ステップから出力されたフレーム毎の前記基準画像と前記第一の位置シフト画像とに対して物体位置とクラス識別と尤度とを推論するモデル学習辞書を含む物体検出モデルと、前記物体検出モデルの推論結果である検出物体毎の前記基準画像の検出枠を含む位置情報および前記基準画像の尤度情報と、前記第一の位置シフト画像の検出枠を含む位置情報および前記第一の位置シフト画像の尤度情報とを比較して最大となる方の入力画像と該推論結果とを選択してフレーム毎に出力する画像選択ステップを有するモデル後処理ステップと、前記モデル後処理ステップが、前記画像選択ステップにより前記第一の位置シフト画像の推論結果を選択した場合は、前記フレーム制御情報の位置シフト量に則って前記モデル前処理ステップの生成時とは逆方向に位置シフトを施した検出枠を含む位置情報を出力する検出枠補正ステップを含むことを特徴とする。

　ある実施形態によれば、前記モデル前処理ステップは、前記基準画像と前記第一の位置シフト画像に加えて、フレーム制御情報の位置シフト量に則って、前記基準画像に水平方向にＰピクセル（Ｐは任意の小数）および垂直方向にＱピクセル（Ｑは任意の小数）の位置シフトを施した第二の位置シフト画像を生成し、該基準画像と該第一の位置シフト画像と該第二の位置シフト画像とをフレーム毎に前記物体検出モデルに入力し、前記物体検出モデルにより異なる３種類の画像に対する推論結果を出力し、前記モデル後処理ステップは、前記画像選択ステップにより該異なる３種類の画像に対する推論結果の中から最大となる１つの入力画像と該推論結果を選択してフレーム毎に出力し、前記画像選択ステップにより前記第一の位置シフト画像の推論結果、もしくは、前記第二の位置シフト画像の推論結果を選択した場合は、前記フレーム制御情報の位置シフト量に則って前記モデル前処理ステップの生成時とは逆方向に位置シフトを施した検出枠を含む位置情報を出力する前記検出枠補正ステップを含むことを特徴とする。

　ある実施形態によれば、前記モデル前処理ステップは、前記基準画像に対して、前記フレーム制御情報の画面分割パラメータに則って、画像の一部の範囲である検出範囲を切り出すクロップステップと前記物体検出モデルの入力画面を２つに分割した領域に該クロップステップにより切り出した画像を垂直方向と水平方向とをリサイズして貼り付ける画面分割ステップを有し、前記画面分割ステップにより画面分割された一方を第一の分割後基準画像とし、もう一方を第二の分割後基準画像とし、該第一の分割後基準画像を前記フレーム制御情報の前記位置シフト量に則って、該第一の分割後基準画像に水平方向にＧピクセル（Ｇは任意の小数）および垂直方向にＨピクセル（Ｈは任意の小数）の位置シフトを施した第一の分割後位置シフト画像を生成し、該第二の分割後基準画像と該第一の分割後位置シフト画像とをフレーム毎に前記物体検出モデルに入力するモデル前処理ステップと、前記モデル前処理ステップから出力されたフレーム毎の前記第二の分割後基準画像と前記第一の分割後位置シフト画像とに対して物体位置とクラス識別と尤度とを推論するモデル学習辞書を含む前記物体検出モデルと、前記物体検出モデルの推論結果である検出物体毎の前記第二の分割後基準画像の検出枠を含む位置情報および前記第二の分割後基準画像の尤度情報と、前記第一の分割後位置シフト画像の検出枠を含む位置情報および前記第一の分割後位置シフト画像の尤度情報とを比較して最大となる方の入力画像と該推論結果とを選択してフレーム毎に出力する前記画像選択ステップを有する前記モデル後処理ステップと、前記モデル後処理ステップが、前記画像選択ステップにより前記第二の分割後基準画像の推論結果を選択した場合は、前記フレーム制御情報の前記画面分割パラメータに則って、元の前記基準画像に相当するように位置とサイズとの逆補正を施した検出枠を含む位置情報を出力し、前記画像選択ステップにより前記第一の分割後位置シフト画像の推論結果を選択した場合は、前記フレーム制御情報の前記位置シフト量と前記画面分割パラメータとに則って、前記モデル前処理ステップの生成時とは逆方向に位置シフトを施した後、元の前記基準画像に相当するように位置とサイズの逆補正を施した検出枠を含む位置情報を出力する検出枠補正ステップを含むことを特徴とする。

　本発明の物体検出のプログラムは、画像を取得し、当該画像から物体検出を行うための基準画像を作成する画像処理ステップと、フレーム制御情報の位置シフト量に則って、前記基準画像に水平方向にＭピクセル（Ｍは任意の小数）および垂直方向にＮピクセル（Ｎは任意の小数）の位置シフトを施した第一の位置シフト画像を生成し、該基準画像と該第一の位置シフト画像とをフレーム毎に前記物体検出モデルに入力するモデル前処理ステップと、前記モデル前処理ステップから出力されたフレーム毎の前記基準画像と前記第一の位置シフト画像とに対して物体位置とクラス識別と尤度とを推論するモデル学習辞書を含む物体検出モデルと、前記物体検出モデルの推論結果である検出物体毎の前記基準画像の検出枠を含む位置情報および前記基準画像の尤度情報と、前記第一の位置シフト画像の検出枠を含む位置情報および前記第一の位置シフト画像の尤度情報とを比較して最大となる方の入力画像と該推論結果とを選択してフレーム毎に出力する画像選択ステップを有するモデル後処理ステップと、前記モデル後処理ステップが、前記画像選択ステップにより前記第一の位置シフト画像の推論結果を選択した場合は、前記フレーム制御情報の位置シフト量に則って前記モデル前処理ステップの生成時とは逆方向に位置シフトを施した検出枠を含む位置情報を出力する検出枠補正ステップを含む、前記各手段と前記各ステップを機能させるためコンピュータに実行させるためのプログラムであることを特徴とする。

　ある実施形態によれば、前記モデル前処理ステップは、前記基準画像と前記第一の位置シフト画像に加えて、フレーム制御情報の位置シフト量に則って、前記基準画像に水平方向にＰピクセル（Ｐは任意の小数）および垂直方向にＱピクセル（Ｑは任意の小数）の位置シフトを施した第二の位置シフト画像を生成し、該基準画像と該第一の位置シフト画像と該第二の位置シフト画像とをフレーム毎に前記物体検出モデルに入力し、前記物体検出モデルにより異なる３種類の画像に対する推論結果を出力し、前記モデル後処理ステップは、前記画像選択ステップにより該異なる３種類の画像に対する推論結果の中から最大となる１つの入力画像と該推論結果を選択してフレーム毎に出力し、前記画像選択ステップにより前記第一の位置シフト画像の推論結果、もしくは、前記第二の位置シフト画像の推論結果を選択した場合は、前記フレーム制御情報の位置シフト量に則って前記モデル前処理ステップの生成時とは逆方向に位置シフトを施した検出枠を含む位置情報を出力する前記検出枠補正ステップを含む、前記各手段と前記各ステップを機能させるためコンピュータに実行させるためのプログラムであることを特徴とする。

　ある実施形態によれば、前記モデル前処理ステップは、前記基準画像に対して、前記フレーム制御情報の画面分割パラメータに則って、画像の一部の範囲である検出範囲を切り出すクロップステップと前記物体検出モデルの入力画面を２つに分割した領域に該クロップステップにより切り出した画像を垂直方向と水平方向とをリサイズして貼り付ける画面分割ステップを有し、前記画面分割ステップにより画面分割された一方を第一の分割後基準画像とし、もう一方を第二の分割後基準画像とし、該第一の分割後基準画像を前記フレーム制御情報の前記位置シフト量に則って、該第一の分割後基準画像に水平方向にＧピクセル（Ｇは任意の小数）および垂直方向にＨピクセル（Ｈは任意の小数）の位置シフトを施した第一の分割後位置シフト画像を生成し、該第二の分割後基準画像と該第一の分割後位置シフト画像とをフレーム毎に前記物体検出モデルに入力するモデル前処理ステップと、前記モデル前処理ステップから出力されたフレーム毎の前記第二の分割後基準画像と前記第一の分割後位置シフト画像とに対して物体位置とクラス識別と尤度とを推論するモデル学習辞書を含む前記物体検出モデルと、前記物体検出モデルの推論結果である検出物体毎の前記第二の分割後基準画像の検出枠を含む位置情報および前記第二の分割後基準画像の尤度情報と、前記第一の分割後位置シフト画像の検出枠を含む位置情報および前記第一の分割後位置シフト画像の尤度情報とを比較して最大となる方の入力画像と該推論結果とを選択してフレーム毎に出力する前記画像選択ステップを有する前記モデル後処理ステップと、前記モデル後処理ステップが、前記画像選択ステップにより前記第二の分割後基準画像の推論結果を選択した場合は、前記フレーム制御情報の前記画面分割パラメータに則って、元の前記基準画像に相当するように位置とサイズとの逆補正を施した検出枠を含む位置情報を出力し、前記画像選択ステップにより前記第一の分割後位置シフト画像の推論結果を選択した場合は、前記フレーム制御情報の前記位置シフト量と前記画面分割パラメータとに則って、前記モデル前処理ステップの生成時とは逆方向に位置シフトを施した後、元の前記基準画像に相当するように位置とサイズの逆補正を施した検出枠を含む位置情報を出力する検出枠補正ステップを含む、前記各手段と前記各ステップを機能させるためコンピュータに実行させるためのプログラムであることを特徴とする。

　本発明によれば、物体検出を行うに際して、画像処理手段からの画像を基本画像として、フレーム制御情報の位置シフト量に則って、モデル前処理手段により水平方向にＭピクセル（Ｍは任意の小数）および垂直方向にＮピクセル（Ｎは任意の小数）の位置シフトを施した第一の位置シフト画像を生成し、基準画像と第一の位置シフト画像とに対してフレーム毎に物体検出モデルにより物体位置とクラス識別と尤度を推論し、検出物体毎の基準画像の検出枠を含む位置情報と度情報と、第一の位置シフト画像の検出枠を含む位置情報と尤度情報とを比較してモデル後処理手段の画像選択手段により尤度情報が最大となる方を選択して出力し、検出枠補正手段により第一の位置シフト画像の推論結果を選択した場合は、フレーム制御情報の位置シフト量に則って逆方向に位置シフトを施した検出枠を含む位置情報を出力することにより、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下を救済して、物体検出能力やクラス識別能力を向上することが可能となる。

　本発明によれば、さらに、フレーム制御情報の位置シフト量に則って、モデル前処理手段により基準画像と第一の位置シフト画像に加えて、基準画像に水平方向にＰピクセル（Ｐは任意の小数）および垂直方向にＱピクセル（Ｑは任意の小数）の位置シフトを施した第二の位置シフト画像を生成し、基準画像と第一の位置シフト画像と第二の位置シフト画像に対してフレーム毎に物体検出モデルにより物体位置とクラス識別と尤度を推論し、画像選択手段により異なる３種類の画像に対する推論結果の中から尤度情報が最大となる推論結果を選択して出力し、検出枠補正手段により第一の位置シフト画像か第二の位置シフト画像の推論結果を選択した場合は、前記フレーム制御情報の位置シフト量に則って前記モデル前処理手段の生成時とは逆方向に位置シフトを施した検出枠を含む位置情報を出力することにより、特に、物体検出モデルの検出レイヤが複数存在している場合に、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下をより良く救済して、物体検出能力やクラス識別能力を向上することが可能となる。

　本発明によれば、さらに、物体検出モデルが深層学習や機械学習により作成されたモデル学習辞書とＤＮＮなどを含むニューラルネットワークであることにより、画像中でＤＮＮを含むニューラルネットワークの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下を救済して、物体検出能力やクラス識別能力を向上することが可能となる。

　本発明によれば、さらに、フレーム制御情報の位置シフト量が、ニューラルネットワークモデルの入力画像の垂直方向と水平方向のピクセル数をニューラルネットワークモデルの１つ以上の検出レイヤ毎の水平方向と垂直方向のグリッドセルサイズで除算した値の１／２ピクセル値か、それに近似するピクセル値で決定されることにより、画像中でＤＮＮを含むニューラルネットワークの検出レイヤの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下を救済する効果が高まり、より確実に物体検出能力やクラス識別能力を向上することが可能となる。

　本発明によれば、さらに、フレーム制御情報の位置シフト量が２種類以上あり、その位置シフト量がニューラルネットワークモデルの１つ以上の検出レイヤ毎の水平方向と垂直方向のグリッドセルサイズで除算した値の１／２ピクセル値か、それに近似するピクセル値で決定された中で、検出対象物のサイズに依存して変化する検出精度、もしくは、検出頻度が高い検出レイヤに対する位置シフト量の順番で適用されることにより、画像中の検出対象物のサイズに対して最適な推論精度が得られるＤＮＮを含むニューラルネットワークの検出レイヤの構造に対する位置シフト量が適用できるため、検出対象物の位置とサイズの揺らぎに対する推論精度の低下に対する救済効果がさらに高まり、より確実に物体検出能力やクラス識別能力を向上することが可能となる。

　本発明によれば、さらに、フレーム制御情報の位置シフト量の種類が、モデル前処理手段の位置シフト画像の種類よりも多い場合は、複数の位置シフト量の平均値を位置シフト量として使用することにより、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下を平均的に救済して、安定して物体検出能力やクラス識別能力を向上することが可能となり、さらに、フレーム毎に同時に処理する位置シフト画像の種類を制限することで物体検出モデルの推論時の処理負荷を軽減ことが可能となる。したがって、搭載する演算プロセッサなどの性能に制限を設けた場合でも、物体検出の精度や性能を担保しつつ、低レイテンシーとリアルタイム性を実現することが可能となる。

　本発明によれば、さらに、フレーム制御情報の位置シフト量の種類が３種類以上存在し、かつ、モデル前処理手段の位置シフト画像の種類が３種類以上存在する場合は、フレーム制御情報の位置シフト量に則って、モデル前処理手段で基準画像から３つ以上の位置シフト画像を生成し、基準画像と合わせてフレーム毎に物体検出モデルとモデル後処理手段の画像選択手段により異なる４種類以上の画像に対する推論結果の中から最大となる推論結果を選択してフレーム毎に出力し、検出枠補正手段により基準画像の推論結果以外を選択した場合は、逆方向に位置シフトを施した検出枠を含む位置情報を出力することにより、ＤＮＮを含むニューラルネットワークが多数の検出レイヤで構成される場合にも、各検出レイヤに対する最適な位置シフト量が適用できるため、検出対象物の位置とサイズの揺らぎに対する推論精度の低下に対する救済効果がさらに高まり、より確実に物体検出能力やクラス識別能力を向上することが可能となる。

　本発明によれば、さらに、フレーム制御情報の位置シフト量に則って、モデル前処理手段によりｎ（ｎは０を含む任意の２の倍数）フレーム目は基準画像を、ｎ＋１フレーム目は第一の位置シフト画像を物体検出モデルに入力し、フレーム毎に基準画像と第一の位置シフト画像から交互に物体位置とクラス識別と尤度を推論し、モデル後処理手段の画像選択手段により現在のフレームと１つ前の過去フレームの推論結果を比較して最大となる推論結果を選択して出力し、検出枠補正手段によりｎ＋１フレーム目の第一の位置シフト画像の推論結果を選択した場合は逆方向に位置シフトを施した検出枠を含む位置情報を出力することにより、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下を救済して、物体検出能力やクラス識別能力を向上することが可能となり、さらに、フレーム毎に推論する画像を１つに限定することができるため、物体検出モデルの推論時の処理負荷を軽減ことが可能となる。したがって、特に検出対象物が静止している状態で物体検出を行う場合や、搭載する演算プロセッサなどの性能に制限を設けた場合でも、物体検出の精度や性能を担保しつつ、低レイテンシーとリアルタイム性を実現することが可能となる。

　本発明によれば、さらに、フレーム制御情報の位置シフト量に則って、モデル前処理手段によりｍ（ｍは０を含む任意の３の倍数）フレーム目は基準画像を、ｍ＋１フレーム目は第一の位置シフト画像を、ｍ＋２フレーム目は第二の位置シフト画像を物体検出モデルに入力し、フレーム毎に基準画像と第一の位置シフト画像と第二の位置シフト画像を順番に物体位置とクラス識別と尤度を推論し、モデル後処理手段の画像選択手段により現在のフレームと１つ前の過去フレームと２つ前の過去フレームの３つの推論結果を比較して最大となる推論結果を選択して出力し、検出枠補正手段によりｍ＋１フレーム目の第一の位置シフト画像かｍ＋２フレーム目の第二の位置シフト画像の推論結果を選択した場合は逆方向に位置シフトを施した検出枠を含む位置情報を出力することにより、特に、物体検出モデルの検出レイヤが複数存在している場合に、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下をより良く救済して、物体検出能力やクラス識別能力を向上することが可能となり、さらに、フレーム毎に推論する画像を１つに限定することができるため、物体検出モデルの推論時の処理負荷を軽減ことが可能となる。したがって、特に静止画に対する物体検出を行う場合や、搭載する演算プロセッサなどの性能に制限を設けた場合でも、物体検出の精度や性能を担保しつつ、低レイテンシーとリアルタイム性を実現することが可能となる。

　本発明によれば、さらに、フレーム制御情報の位置シフト量の種類が３種類以上存在し、かつ、モデル前処理手段の位置シフト画像の種類が３種類以上存在する場合は、フレーム制御情報の位置シフト量に則って、モデル前処理手段によりｒ（ｒは０を含む任意のｓ（ｓは４以上の任意の整数）の倍数）フレーム目は基準画像を、ｒ＋１フレームからｒ＋ｓ－１フレーム目は各フレームの基準画像から加工したｓ－１個の位置シフト画像を、フレーム順に物体検出モデルに入力し、フレーム毎に基準画像とｓ－１個の位置シフト画像を順番に物体位置とクラス識別と尤度を推論し、モデル後処理手段の画像選択手段により現在のフレームとｓ－１フレーム前の過去フレームの推論結果の中から最大となる推論結果を選択して出力し、検出枠補正手段によりｒフレーム目の基準画像の推論結果以外を選択した場合は、逆方向に位置シフトを施した検出枠を含む位置情報を出力することにより、ＤＮＮを含むニューラルネットワークが多数の検出レイヤで構成される場合にも、各検出レイヤに対する最適な位置シフト量が適用できるため、検出対象物の位置とサイズの揺らぎに対する推論精度の低下に対する救済効果がさらに高まり、より確実に物体検出能力やクラス識別能力を向上させることが可能となり、さらに、フレーム毎に推論する画像を１つに限定することができるため、物体検出モデルの推論時の処理負荷を軽減ことが可能となる。したがって、特に静止画に対する物体検出を行う場合や、搭載する演算プロセッサなどの性能に制限を設けた場合でも、物体検出の精度や性能を担保しつつ、低レイテンシーとリアルタイム性を実現することが可能となる。

　本発明によれば、さらに、フレーム制御情報の画面分割パラメータに則って、モデル前処理手段の画面分割機能により、基準画像に対して物体検出モデルの入力画面を２つに分割した領域に貼り付けた後、画面分割された一方を第二の分割後基準画像とし、フレーム制御情報の位置シフト量に則って、もう一方の第一の分割後基準画像に位置シフトを施した第一の分割後位置シフト画像を生成して、フレーム毎に物体検出モデルに入力し、第一の分割後基準画像と第二の分割後位置シフト画像に対して物体位置とクラス識別と尤度を推論し、モデル後処理手段の画像選択手段により第二の分割後基準画像と第一の分割後位置シフト画像の推論結果とを比較して最大となる推論結果を選択して出力し、フレーム制御情報の画面分割パラメータに則って、検出枠補正手段により、基準画像に相当するように位置とサイズの逆補正を施した検出枠を含む位置情報を出力し、さらに、第一の分割後位置シフト画像の推論結果を選択した場合は、フレーム制御情報の位置シフト量に則って、逆補正を施した検出枠を含む位置情報を出力することにより、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下を救済して、物体検出能力やクラス識別能力を向上することが可能となり、さらに、フレーム毎に推論する画像を１つに限定することができるため、物体検出モデルの推論時の処理負荷を軽減ことが可能となる。したがって、検出対象物が動いている状態で物体検出を行う場合や、搭載する演算プロセッサなどの性能に制限を設けた場合でも、物体検出の精度や性能を担保しつつ、低レイテンシーとリアルタイム性を実現することが可能となる。

　本発明によれば、さらに、フレーム制御情報の位置シフト量が、画面分割機能により画面分割された一方の第一の分割後基準画像の垂直方向と水平方向のピクセル数をニューラルネットワークモデルの１つ以上の検出レイヤ毎の水平方向と垂直方向のグリッドセルサイズで除算した値の１／２ピクセル値か、それに近似するピクセル値で決定されることにより、検出対象物が動いている状態で物体検出を行う場合や、搭載する演算プロセッサなどの性能に制限を設けた場合でも、低レイテンシーとリアルタイム性を維持しつつ、画像中でＤＮＮを含むニューラルネットワークの検出レイヤの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下を救済する効果が高まり、より確実に物体検出能力やクラス識別能力を向上することが可能となる。

　本発明によれば、さらに、フレーム制御情報の位置シフト量が、画面分割機能により画面分割された一方の第一の分割後基準画像の垂直方向と水平方向のピクセル数をニューラルネットワークモデルの１つ以上の検出レイヤ毎の水平方向と垂直方向のグリッドセルサイズで除算した値の１／２ピクセル値か、それに近似するピクセル値で決定された中で、検出対象物のサイズに依存して変化する検出精度、もしくは、検出頻度が高い検出レイヤに対する位置シフト量の順番で適用されることにより、検出対象物が動いている状態で物体検出を行う場合や、搭載する演算プロセッサなどの性能に制限を設けた場合でも、低レイテンシーとリアルタイム性を維持しつつ、画像中の検出対象物のサイズに対して最適な推論精度が得られるＤＮＮを含むニューラルネットワークの検出レイヤの構造に対する位置シフト量が適用できるため、検出対象物の位置とサイズの揺らぎに対する推論精度の低下に対する救済効果がさらに高まり、より確実に物体検出能力やクラス識別能力を向上することが可能となる。

　本発明によれば、さらに、画面分割機能により画面分割された際のフレーム制御情報の位置シフト量の種類が２つ以上の場合は、複数の位置シフト量の平均値を位置シフト量として使用することにより、検出対象物が動いている状態で物体検出を行う場合や、搭載する演算プロセッサなどの性能に制限を設けた場合でも、低レイテンシーとリアルタイム性を維持しつつ、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下を平均的に救済して、安定した物体検出能力やクラス識別能力を向上することが可能となる。

　本発明によれば、さらに、画面分割機能により画面分割された際の第一の分割後基準画像、および、第二の分割後基準画像が、ニューラルネットワークモデルの１つ以上の検出レイヤ毎の水平方向と垂直方向のグリッドセルサイズで除算した際に、水平方向も垂直方向も割り切れるように、フレーム制御情報の画面分割パラメータを設定することにより、検出対象物が動いている状態で物体検出を行う場合や、搭載する演算プロセッサなどの性能に制限を設けた場合でも、低レイテンシーとリアルタイム性を維持しつつ、分割された画像のそれぞれに対して、同じ条件で画像中の物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下を救済することが可能となる。

　本発明によれば、さらに、フレーム制御情報の画面分割パラメータに則って、モデル前処理手段により画像を分割する場合は、画面分割パラメータに則って生成された学習画像にアノテーション手段により正解枠データを付加し、内蔵もしくは外部の辞書学習手段によりモデル学習辞書を再学習することにより、検出対象物が動いている状態で物体検出を行う場合や、搭載する演算プロセッサなどの性能に制限を設けた場合でも、低レイテンシーとリアルタイム性を維持しつつ、画面分割された画像に対して、物体検出モデルとモデル学習辞書の汎用性やロバスト性の強化を図ることができるため、画像中の物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下を救済することが可能となる。

　本発明によれば、さらに、フレーム制御情報に則って、モデル前処理手段により物体検出モデルに入力する画像に対して位置シフトを含め加工するに際して、加工により発生する有効画像が存在しない余白部分は、有効画像の平均輝度レベルと等しい単一色で一様に塗りつぶして画像を生成することにより、余白部分の特徴量が、物体検出モデルの推論精度に与える影響を軽減できるため、画像中の物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下をより良く救済することが可能となる。

　本発明によれば、さらに、フレーム制御情報の位置シフト量に則って位置シフトを実施する前の画像に対して、フレーム制御情報の加工パラメータに則って、モデル前処理手段のクロップ機能により任意の場所の画像を切り抜き、リサイズ機能により画像サイズを変更し、階調変換機能により、コントラスト補正曲線、もしくは、階調変換曲線を使用して輝度レベルを任意の値に変更し、アスペクト比変更機能によりアスペクト比を変更し、回転機能により回転角度を変更することにより、画像取得時の各種変動条件を吸収もしくは緩和することが可能となり、さらに、画像取得後の画像から対象検出物を検出に適した状態に加工することが可能となるため、画像中の物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下をより良く救済することが可能となる。

　本発明によれば、さらに、フレーム毎に物体検出モデルに入力される各々の入力画像に対する推論結果である１つないし複数の検出物体毎に対する検出不能と疑似検出を含むゼロないし複数の検出枠を含む位置情報と尤度情報に対して、モデル後処理手段の個体識別手段により、各々の尤度情報に対する任意の閾値Ｔ（Ｔは、任意の小数）と、各々の検出枠を含む位置情報の領域が相互にどれぐらい重なっているかを表す指標であるＩＯＵ値に対する任意の閾値Ｕ（Ｕは、任意の小数）とにより、フレーム毎の検出物体毎に個体識別後の検出枠を含む位置情報と個体識別後の尤度情報とに補正し、個体識別手段により選定された出力結果を使用して、画像選択手段と検出枠補正手段とにより、フレーム毎の検出物体毎に最尤となる検出枠を含む位置情報と最尤となる尤度情報を出力することにより、異常データの排除と検出物体毎に検出枠を含む位置情報と尤度情報を適した情報に個体判別、および、補正することができるため、画像中の物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下をより正確に救済することが可能となる。

　本発明によれば、さらに、フレーム制御情報の画面分割パラメータに則って、モデル前処理手段により画像を分割する場合は、フレーム毎に物体検出モデルに入力される第二の分割後基準画像と第一の分割後位置シフト画像の入力画像に対する推論結果である１つないし複数の検出物体毎に対する検出不能と疑似検出を含むゼロないし複数の検出枠を含む位置情報と尤度情報に対して、モデル後処理手段の個体識別手段により、各々の尤度情報に対する任意の閾値Ｔ（Ｔは、任意の小数）と、各々の検出枠を含む位置情報の領域が相互にどれぐらい重なっているかを表す指標であるＩＯＵ値に対する任意の閾値Ｕ（Ｕは、任意の小数）とにより、フレーム毎の分割された画面毎の検出物体毎に前記個体識別後の検出枠を含む位置情報と前記個体識別後の尤度情報とに補正し、前記個体識別手段により選定された出力結果を使用して、画像選択手段と検出枠補正手段とにより、フレーム毎の検出物体毎に最尤となる検出枠を含む位置情報と最尤となる尤度情報を出力することにより、検出対象物が動いている状態で物体検出を行う場合や、搭載する演算プロセッサなどの性能に制限を設けた場合でも、画面分割により低レイテンシーとリアルタイム性を維持しつつ、異常データの排除と検出物体毎に検出枠を含む位置情報と尤度情報を適した情報に個体判別、および、補正することができるため、画像中の物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下をより正確に救済することが可能となる。

　本発明によれば、さらに、フレーム制御情報の画面分割パラメータに則って、画面分割の加工を施した際は、個体識別手段により第二の分割後基準画像と第一の分割後位置シフト画像の境界線上で検出された検出枠を含む位置情報は、第二の分割後基準画像と第一の分割後位置シフト画像のいずれの領域に広く分布しているか判定し、広く分布している側の領域内の検出枠を含む位置情報を領域内で切り出して結果として残留させ、一方の領域側にはみ出した検出枠の位置情報は、切り取って削除することにより、検出対象物が動いている状態で物体検出を行う場合や、搭載する演算プロセッサなどの性能に制限を設けた場合でも、画面分割により低レイテンシーとリアルタイム性を維持しつつ、分割境界上の異常データの排除と検出物体毎に検出枠を含む位置情報と尤度情報を適した情報に個体判別、および、補正することができるため、画像中の物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下をより正確に救済することが可能となる。

　本発明によれば、さらに、モデル後処理手段のフレーム情報保持手段により、個体識別手段と画像選択手段と検出枠補正手段により最尤と判定して出力したフレーム毎の検出物体毎に対する推論結果である最尤の検出枠を含む位置情報と最尤の尤度情報を、最大検出物体数Ｖ（Ｖは任意の整数）の数だけ現在のフレームｆｔとｆｔ―１からｆｔ－ｓ（ｓは任意の整数）までの過去フレーム分の格納メモリに保持し、以降、最新の現在のフレームの情報が算出される度に、過去１フレーム分の格納メモリに保持している情報をスライドして記録させながら現在と過去ｓフレーム分の検出物体数分の時系列情報を保持することにより、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する現在のフレームの推論精度の低下を救済した結果と、過去フレームの結果を参照することが可能となる。さらに、過去の検出物体別の履歴や軌跡を表示することも可能となる。

　本発明によれば、さらに、フレーム情報保持手段のフレーム情報補間手段により、任意のフレームの各検出物体の格納メモリの最尤の検出枠を含む位置情報である検出枠の中心座標と高さと幅の情報と、最尤の尤度情報である検出の信頼性を示す尤度とクラス識別情報に欠落がある場合に、前後のフレームの格納メモリの情報から補間して新たな情報として当該フレームの格納メモリに記録し、情報の補間方法が、ニュートン後退補間法や移動平均法などであることにより、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する現在のフレームの推論精度の低下を救済した結果と、過去フレームの結果に対して連続性が補償されるため、過去の検出物体別の履歴や軌跡を正確にかつ滑らかに表示することが可能となる。さらに、物体検出能力やクラス識別能力や追跡能力を向上することが可能となる。

　本発明によれば、さらに、フレーム情報補間手段の動きベクトル量算出手段により、フレーム情報保持手段のｆｔ－１からｆｔ－ｓの過去フレームの格納メモリの最尤の検出枠を含む位置情報の中心座標から動きベクトル量を算出して各フレームの検出物体毎の格納メモリに記録することと、フレーム情報補間手段の動きベクトル予測算出手段により、未来のフレームの検出物体毎の動きベクトル量を予測して最尤の検出枠を含む位置情報の中心座標を予測することにより、過去のフレームの検出物体毎の動きベクトル量が算出できるため、その結果を元に未来のフレームの動きベクトル量と検出枠の中心座標を予測することが可能となり、予測結果と現在の物体検出モデルとモデル後処理手段によって推論された結果と比較することで、連続性が確保されているか、異常値であるか否かを判断することが可能となる。したがって、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する現在のフレームの推論精度の低下を救済した結果に対して、連続性と追従性を補償することで、物体検出能力やクラス識別能力や追跡能力を向上することが可能となる。さらに、現在までのフレームの結果より、未来のフレームの予測も可能となるため、危険を知らせる必要がある場合など、事前に、もしくは、素早く情報を発信することが可能となる。

　本発明によれば、さらに、フレーム情報補間手段の距離係数算出手段により、過去フレームの検出物体毎の距離係数を算出して格納メモリに記録し、その情報と動きベクトル予測算出手段により予測された動きベクトル量を利用して未来のフレームの距離係数を予測し、未来のフレームの最尤の検出枠を含む位置情報の検出枠の幅と高さの情報を予測することにより、カメラなどの撮影機器と対象物体との距離情報を把握して動きベクトルと現在、もしくは、未来のフレームの検出枠の中心座標などを予測することが可能となるため、連続的かつ正確な予測が可能となる。したがって、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する現在のフレームの推論精度の低下を救済した結果に対して、連続性と追従性を正確に補償することで、物体検出能力やクラス識別能力や追跡能力を向上することが可能となる。さらに、現在までのフレームの結果より、未来のフレームの予測も可能となるため、危険を知らせる必要がある場合など、事前に、もしくは、素早く正確に情報を発信することが可能となる。

　本発明によれば、さらに、フレーム情報補間手段の異常検出情報除去手段により、最尤の検出枠を含む位置情報と最尤の尤度情報の過去のフレーム間の時間連続性の異常を検出した場合に格納メモリから除去し、検出情報復元手段により連続性を有する情報に復元して格納メモリに記録し、さらに、異常検出情報予測除去手段により、現在のフレームの検出物体毎の最尤の検出枠を含む位置情報と、動きベクトル予測算出手段により予測された最尤の検出枠を含む位置情報を比較して異常を検出した場合に除去し、予測結果に置き換えて現在のフレームの格納メモリに記録することにより、過去と現在のフレームに対して、異常値の除去と補間値もしくは予測値での復元が可能となる。したがって、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する過去と現在のフレームの推論精度の低下を救済した結果に対して、連続性と追従性をより正確に補償することが可能となるため、物体検出能力やクラス識別能力や追跡能力を向上することが可能となる。さらに、検出物体別の履歴や軌跡をより正確にかつ連続的で滑らかに表示することが可能となる。

　本発明によれば、さらに、フレーム情報補間手段が、フレーム情報保持手段に保持されている最尤の検出枠を含む位置情報の検出枠の幅と高さと中心座標が、フレーム情報補間手段により補間された最尤の検出枠を含む位置情報の検出枠の幅と高さと中心座標に対して、任意の閾値を超過、もしくは、任意の割合を超過してずれていることを検出した場合、もしくは、最尤の尤度情報の尤度が異常だが救済を施すに値する救済閾値未満の場合は、異常検出情報除去手段により異常情報と判定して格納メモリからすべての情報を除去し、その際、最尤の尤度情報の尤度が、正常と判定する正常判定閾値以下、かつ、異常だが救済を施すに値する救済閾値以上である場合は、最尤の尤度情報を除く他の情報を除去し、それら除去された情報に対して、検出情報復元手段により復元された最尤の検出枠を含む位置情報と最尤の尤度情報と動きベクトル量と距離係数を格納メモリに記録して復元することにより、過去フレームに対して、より正確に判断して異常値の除去と補間値での復元が可能となる。したがって、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する過去フレームの推論精度の低下を救済した結果に対して、連続性と追従性をより正確に補償することが可能となるため追跡能力を向上することが可能となる。さらに、検出物体別の履歴や軌跡をより正確にかつ連続的で滑らかに表示することが可能となる。

　本発明によれば、さらに、フレーム情報補間手段が、現在のフレームの検出物体毎の個体識別手段と画像選択手段と検出枠補正手段により算出された最尤の検出枠を含む位置情報の検出枠の幅と高さと中心座標が、動きベクトル予測算出手段により予測された未来のフレームの最尤の検出枠を含む位置情報の検出枠の幅と高さと中心座標に対して、任意の閾値以下、もしくは、任意の割合以下のずれである場合、かつ、最尤の尤度情報の尤度が、正常と判定する正常判定閾値以上の場合は、格納メモリに最尤の検出枠を含む位置情報と最尤の尤度情報と動きベクトル量と距離係数を記録し、最尤の検出枠を含む位置情報が、任意の閾値を超過、もしくは、任意の割合を超過してずれていることを検出した場合、もしくは、最尤の尤度情報の尤度が、異常だが救済を施すに値する救済閾値未満の場合に、異常検出情報予測除去手段により異常情報と判定してすべての情報を除去し、最尤の尤度情報の尤度が、正常と判定する正常判定閾値以下、かつ、異常だが救済を施すに値する救済閾値未満である場合は最尤の尤度情報を除く他の情報を除去し、それら除去された情報に対して、検出情報予測復元手段により動きベクトル予測算出手段の出力結果である検出枠を含む位置情報と動きベクトル量と距離係数と最尤の尤度情報を置き換えて格納メモリに記録することにより、現在のフレームに対して、より正確に判断して異常値の除去と補間値での復元が可能となる。したがって、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する現在のフレームの推論精度の低下を救済した結果に対して、連続性と追従性をより正確に補償することが可能となるため物体検出能力やクラス識別能力や追跡能力を向上することが可能となる。さらに、タイムラグが少ない状態で検出物体別の履歴や軌跡をより正確にかつ連続的で滑らかに表示することが可能となる。

　本発明によれば、さらに、モデル後処理手段のトレーサビリティ安定値指標化手段により、現在のフレームの検出物体毎のフレーム情報保持手段とフレーム情報補間手段により算出された最尤の検出枠を含む位置情報の検出枠の中心座標のＸ座標とＹ座標と幅と高さとアスペクト比が、動きベクトル予測算出手段４８４により予測された各種値に対して、各々何％偏差があるか算出し、Ｗ（Ｗは任意の整数）フレーム分平均して、中心Ｘ座標平均偏差（％）と中心Ｙ座標平均偏差（％）と前記距離係数で正規化した枠幅変動率（％）と前記距離係数で正規化した枠高さ変動率（％）と枠アスペクト比変動率（％）を算出することにより、物体検出装置の物体検出能力やクラス識別能力や追跡能力がどの程度正確で安定しているか指標化することが可能となる。したがって、現在のフレーム制御情報の位置シフト量や救済のための各種救済モードや状態が適しているかどうかも判断することが可能となる。

　本発明によれば、さらに、モデル後処理手段の異常検出枠数算出手段により、異常検出と判断してフレーム中の異常検出となった枠数を異常検出枠数として出力することにより、物体検出装置で発生した異常検出の数を把握することが可能となり、安定性の指標化の１つとなるため、フレーム制御情報の位置シフト量や救済のための各種救済モードや状態が適しているかどうかも判断することが可能となる。さらに、物体検出モデルとモデル学習辞書のロバスト性や物体検出能力の改良、もしくは、改善の必要性を判断することも可能となる。

　本発明によれば、さらに、モデル後処理手段の検出ＮＧ数算出手段により、最尤の尤度情報の尤度が救済閾値未満で異常値と判断されて除去された場合、もしくは、推論の結果が未検出だった場合に、復元対象にもならなかった場合に、検出不能と判断してフレーム中の検出不能となった回数を検出ＮＧ数として出力することにより、物体検出装置で検出そのものができなかった数を把握することが可能となり、安定性の指標化の１つとなるため、フレーム制御情報の位置シフト量や救済のための各種救済モードや状態が適しているかどうかも判断することが可能となる。さらに、物体検出モデルとモデル学習辞書のロバスト性や物体検出能力の改良、もしくは、改善の必要性を判断することも可能となる。

　本発明によれば、さらに、モデル後処理手段のステートマシン制御手段により、フレーム情報保持手段とフレーム情報補間手段により算出された最尤の検出枠を含む位置情報と、検出物体の最尤の尤度情報の中で最も低い最低尤度と、トレーサビリティ安定値指標化手段の各種出力情報である安定値指標と、異常検出枠数と、検出ＮＧ数との、１つ以上、もしくは、すべてを使用して次のフレームのフレーム制御情報の位置シフト量とその種類と数の状態をフレーム毎に決定することにより、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下を救済するに際して、物体検出の安定性や検出状態と検出対象物のサイズに対して最適な推論精度が得られるＤＮＮを含むニューラルネットワークの検出レイヤの構造に対する位置シフト量やその種類と数が時系列上で自動的に適用できるため、検出対象物の位置とサイズの揺らぎに対する推論精度の低下に対する救済効果がさらに高まり、より確実に物体検出能力やクラス識別能力や追跡能力を向上することが可能となる。さらに、搭載する演算プロセッサなどの性能に制限を設けた場合でも、低レイテンシーとリアルタイム性を維持しつつ、物体検出能力やクラス識別能力や追跡能力を向上することが可能となる。

　本発明によれば、さらに、ステートマシン制御手段により、尤度救済ＯＦＦモードの状態から開始し、現在のフレームの最低尤度が、任意の第一の尤度閾値未満であるか、もしくは、トレーサビリティ安定値指標化手段の出力情報である前記安定値指標が各々の第一の不安定閾値に対して１つでも超過する場合に、次フレームのフレーム制御情報の位置シフト量を１種類の状態で制御する尤度救済最尤２枚モードとし、フレーム情報保持手段の検出物体毎の最尤の検出枠を含む位置情報と、最尤の尤度情報と、物体検出モデルのニューラルネットワークモデルの１つ以上の検出レイヤの情報とを加味して位置シフト量を決定することにより、物体検出が良好で安定している状況下では、尤度救済ＯＦＦモードを維持して尤度救済を行なわず、物体検出の性能や安定性が低下していると判断した場合のみ、最低限のシステムへの負荷で尤度低下を救済する尤度救済最尤２枚モードに状態遷移させて物体検出の性能や安定性の向上を図ることができるため、搭載する演算プロセッサなどの性能に制限を設けた場合でも、効率的に、低レイテンシーとリアルタイム性を維持しつつ、物体検出能力やクラス識別能力や追跡能力を向上することが可能となる。

　本発明によれば、さらに、ステートマシン制御手段により、現在のフレームが尤度救済最尤２枚モードの状態の場合、現在のフレームの最低尤度が、任意の第二の尤度閾値未満であるか、もしくは、トレーサビリティ安定値指標化手段の出力情報である安定値指標が各々の第二の不安定閾値に対して１つでも超過する場合か、もしくは、異常検出枠数が１以上である場合か、検出ＮＧ数が１以上である場合に、次フレームのフレーム制御情報の位置シフト量を２種類の状態で制御する尤度救済最尤３枚モードとし、フレーム情報保持手段の検出物体毎の最尤の検出枠を含む位置情報と、最尤の尤度情報と、物体検出モデルのニューラルネットワークモデルの１つ以上の検出レイヤの情報とを加味して２種類の位置シフト量を決定することにより、物体検出の性能や安定性が非常に低下していると判断した場合のみ、システムへの負荷を増やしてでも尤度低下を救済する尤度救済最尤３枚モードに状態遷移させて物体検出の性能や安定性の向上を図ることができるため、低レイテンシーとリアルタイム性の維持と、物体検出能力やクラス識別能力や追跡能力の維持とのトレードオフを最適かつ効率的に判断して適用することが可能となる。

　本発明によれば、さらに、ステートマシン制御手段により、現在のフレームが尤度救済最尤３枚モードの状態の場合、現在のフレームの最低尤度が任意の第二の尤度閾値以上であり、前記トレーサビリティ安定値指標化手段の出力情報である安定値指標が各々の第二の不安定閾値のすべてに対して以下であり、異常検出枠数がゼロであり、検出ＮＧ数がゼロであり、それら１つ以上、もしくは、すべての条件に合致する場合に、次フレームのフレーム制御情報の位置シフト量を１種類の状態で制御する尤度救済最尤２枚モードとし、フレーム情報保持手段の検出物体毎の最尤の検出枠を含む位置情報と、最尤の尤度情報と、物体検出モデルのニューラルネットワークモデルの１つ以上の検出レイヤの情報とを加味して位置シフト量を決定することにより、物体検出の性能や安定性が非常に低下している状態から良好な状態に遷移したと判断すれば、システムへの負荷を軽減して尤度低下を救済する尤度救済最尤２枚モードに状態遷移させることで、搭載する演算プロセッサなどの性能に制限を設けた場合でも、物体検出能力やクラス識別能力や追跡能力の維持を図りつつ、低レイテンシーとリアルタイム性を実現することが可能となる。

　本発明によれば、さらに、ステートマシン制御手段により、現在のフレームが尤度救済最尤２枚モードの状態の場合、現在のフレームの最低尤度が任意の第一の尤度閾値以上であり、トレーサビリティ安定値指標化手段の出力情報である安定値指標が各々の第一の不安定閾値のすべてに対して以下であり、異常検出枠数がゼロであり、検出ＮＧ数がゼロであり、それら１つ以上、もしくは、すべての条件に合致する場合に、次フレームは尤度低下の救済を行わない尤度救済ＯＦＦモードの状態とすることにより、物体検出の性能や安定性が低下している状態から良好な状態に遷移したと判断すれば、システムへの負荷を軽減して尤度低下を救済しない尤度救済ＯＦＦモードに状態遷移させることで、搭載する演算プロセッサなどの性能に制限を設けた場合でも、物体検出能力やクラス識別能力や追跡能力の維持を図りつつ、より効率的に低レイテンシーとリアルタイム性も実現することが可能となる。

　本発明によれば、さらに、第二のｍＡＰ算出手段により、アノテーション手段により生成された検出物体毎に正解となる検出枠を含む位置情報と正解となるクラス識別情報とが存在する場合は、フレーム情報保持手段の現在のフレームの検出物体毎の最尤の検出枠を含む位置情報と正解となる検出枠を含む位置情報の領域がどれぐらい重なっているかを表す指標である対正解枠ＩＯＵ値と、フレーム情報保持手段の現在のフレームの検出物体毎の最尤の尤度情報と正解となるクラス識別情報を比較した結果の真偽の情報と、最尤の尤度情報の尤度を算出し、バリデーション画像に対するＡＰ（ＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ）値、ｍＡＰ（ｍｅａｎＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ）値、Ｒｅｃａｌｌ、Ｐｒｅｃｉｓｉｏｎなどの指標を算出することにより、推論精度の低下を救済して物体検出能力やクラス識別能力や追跡能力を向上した結果に基づいて、物体検出モデルの性能とモデル学習辞書の汎用性やロバスト性の弱点や強化方針を正確に分析するための性能指標化することが可能となる。したがって、推論性能の強化のみでは対処できないモデル学習辞書の再学習の必要性を判断して強化することが可能となるため、物体検出装置の物体検出能力やクラス識別能力や追跡能力の最大化を図ることが可能となる。

　本発明によれば、さらに、物体検出装置の各種手段や機能を物体検出方法の各種ステップで実行することにより、装置や手段や機能を方法として実現することが可能となるため、ハードウェアとソフトウェアを最適に融合させながら、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下を救済して、物体検出能力やクラス識別能力を向上することが可能となる。

　本発明によれば、さらに、物体検出装置の各種手段や機能、および、物体検出方法の各種ステップを機能させるためコンピュータに実行させるためのプログラムで実行することにより、よりハードウェアとソフトウェアを最適に融合させながら、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下を救済して、物体検出能力やクラス識別能力を向上することが可能となる。さらに、プログラムの更新や改良により、システムのアップデートや顧客の固有の要望にも適宜対応することが可能となる。

　以下、図面を参照しながら本発明の実施形態を説明する。同様の構成要素には同様の参照符号を付し、同様の説明の繰り返しは省略する。

　（実施形態１）
　図１は、本発明の実施形態１による物体検出装置を示すブロック図である。

　なお、後述する本発明の実施形態１に記載している各手段、各機能、および、各工程は、それぞれをステップに、各装置は、それぞれを方法に置き換えても良い。また、本発明の実施形態１に記載している各手段と各装置は、コンピュータにより実行されるプログラムとして実現されても良い。

　画像を取得して適切に加工（基準画像を作成）する画像処理手段１００は、レンズ１０１と、レンズ１０１を通した対象物から発した光を受光し、光の明暗を電気情報に変換するデバイスであるイメージセンサ１０２と、黒レベル調整機能、ＨＤＲ（ハイダイナミックレンジ）、ゲイン、露光調整機能、欠陥画素補正機能、シェーディング補正機能、ホワイトバランス機能、色補正機能、ガンマ補正機能、局所トーンマッピング機能等を備えた画像処理プロセッサ１０３を主として構成される。また、前述の機能以外のものも備えるものであっても良い。レンズ１０１は、例えば、物体検出の使用用途に応じて、標準ズームレンズ、広角ズームレンズ、魚眼レンズなどを使用するものであっても良い。検出対象を撮影する環境の中で、照度などの時系列上の変動条件を画像処理プロセッサ１０３に搭載されている各種機能により、検出、および、制御して、変動を抑制しながら検出すべき物体を見やすく、もしくは、見つけやすくする画像処理を施す。

　画像処理手段１００で生成された画像は、画像出力制御手段１１０に入力されて、表示およびデータ格納手段１２０であるモニタ機器やＰＣ(パーソナルコンピュータ)などの外部メモリ、および、クラウドサーバー等に送信される。画像出力制御手段１１０は、例えば、表示およびデータ格納手段１２０の水平および垂直同期信号に従って画像データを伝送する機能を有するものであっても良い。また、画像出力制御手段１１０は、モデル後処理手段４００の出力結果である最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２を参照して、検出した物体にマーキングするように枠描写や尤度情報を出力する画像に重畳させる機能を有するものであっても良い。また、シリアル通信機能やパラレル通信機能や双方を変換するＵＡＲＴなどにより、最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２を直接、表示およびデータ格納手段１２０に伝送するものであってもよい。

　一方、物体検出モデル３００による物体検出を行うために、画像処理手段１００により生成された画像データをモデル前処理手段２００に入力して、物体検出モデル３００の入力に適切な画像であるモデル入力画像２１０に加工する。ここで、物体検出モデル３００が、輝度レベルのみの画像データを使用して物体検出を行うモデルである場合は、画像処理手段１００で生成される物体検出のための画像は、輝度レベルのみを有する輝度データに変換されたものでも良く、物体検出モデル３００が、色情報を含むカラー画像データを使用して物体検出を行うモデルである場合は、画像処理手段１００で生成される物体検出のための画像は、ＲＧＢなどの画素を有するカラー画像データであっても良い。本実施形態１は、一例として、物体検出モデル３００が、輝度レベルのみの画像データを使用して物体検出を行うモデルであり、画像処理手段１００で生成される物体検出のための画像は、輝度レベルのみを有する輝度データに変換されたものである場合に関して説明する。

　なお、モデル前処理手段２００は、加算器、減算器、乗算器、除算器、比較器などの電子回路で構成される場合もあれば、アフィン変換関数２９１や射影変換関数２９２などの関数（ライブラリ）や魚眼レンズを使用して撮影した画像を人間の視野相当に変換するための歪補正テーブル２９３と、ＣＰＵや演算プロセッサで構成される画像処理プロセッサ２９０によって実現する場合もある。なお、画像処理プロセッサ２９０は、画像処理手段１００が有する画像処理プロセッサ１０３で代用しても良い。モデル前処理手段２００は、上述したアフィン変換関数２９１や射影変換関数２９２や画像処理プロセッサ２９０、もしくは、電子回路を使用して、特定の領域を切り出す際に画像を水平方向と垂直方向の任意の位置にシフトさせるための位置シフト機能２２０と、任意の倍率に拡大や縮小するためのリサイズ機能２３０と、画像の適切な一部の範囲である検出範囲を切り出すクロップ機能２４０と、画面を２つないし複数に分割した領域にクロップ機能２４０により切り出した画像を垂直方向と水平方向をリサイズ機能２３０によりリサイズして貼り付ける画面分割機能２５０と、画像を任意の角度に回転させるための回転機能２６０と、水平方向と垂直方向の比率を任意に変形するためのアスペクト比変更機能２６５と、輝度レベルを任意の曲線で変更するための階調変換機能２７０と、歪補正や円筒変換などを行うためのデワープ機能２７７と、有効な画素が存在しない領域に任意の輝度レベル信号をパディングする余白パディング機能２８０などの一部もしくはすべてを備えるものであっても良い。なお、モデル前処理手段２００は、画像処理手段１００により生成された画像データ、もしくは、その画像データをカメラなどの撮影時の撮影環境の各種変動条件を補償するように、もしくは、物体検出モデル３００の入力に適した画像になるように加工した画像を基準画像２２１として、物体検出モデル３００の推論結果である尤度情報の低下を救済するために、フレーム制御情報５００の位置シフト量５１０やリサイズパラメータ５１１や画面分割パラメータ５１２に従って、フレーム毎に複数のモデル入力画像２１０に加工して物体検出モデル３００に出力するものであっても良い。フレーム制御情報５００の決定の方法や時系列上の変更条件や変更タイミングに関しては、後述するモデル後処理手段４００の説明の中で、その使用方法や動作を説明する。

　モデル前処理手段２００で加工された基準画像２２１とフレーム制御情報５００に則って基準画像２２１に位置シフトなどを施したゼロないし複数のモデル入力画像２１０は、物体検出モデル３００に入力されて、推論（予測）により、対象物体がどの位置にいるかが検出されるとともに、その物体が人か車両か等のどのクラスに該当するかを識別（クラス識別）される。その結果として物体検出モデル３００から、１つの画像中に存在する検出物体毎に、検出不能と疑似検出を含むゼロないし複数の補正前の検出枠を含む位置情報３０１と補正前の尤度情報３０２が出力される。ここで、補正前の検出枠を含む位置情報３０１は、例えば、検出枠の中心座標、水平方向の幅、垂直方向の高さを含む情報であり、補正前の尤度情報３０２は、例えば、検出精度を示す尤度とクラス識別情報である。

　物体検出モデル３００は、例えば、モデル学習辞書３２０と、ＡＩ（人工知能）は人の脳のニューロンをモデル化したものである畳み込み型ニューラルネットワーク（ＣＮＮ）を使用したディープニューラルネットワーク（ＤＮＮ）モデル３１０で構成される。ＤＮＮモデル３１０は、例えば、検出処理速度に優位性の高いモデルであるＹＯＬＯ（例えば、非特許文献１参照）やＳＳＤなどを使用する。また、検出精度を優先する際は、例えば、ＦａｓｔｅｒＲ-ＣＮＮやＥｆｆｉｃｉｅｎｔＤｅｔなどを使用する場合もある。また、物体の位置検出は行わずにクラス識別を中心に実施する際は、例えば、ＭｏｂｉｌｅＮｅｔなどを使用する場合もある。

　図２に、前述したＣＮＮの基本構成となる人工ニューロンモデル３３０とニューラルネットワーク３４０の構成概略を示す。人工ニューロンモデル３３０は、図２と（式３）に示すように、Ｘ０、Ｘ１、…、Ｘｍなど１つ以上のニューロンの出力信号を受け取り、それぞれの重み係数Ｗ０、Ｗ１、…、Ｗｍとの乗算結果の総和に対して、活性化関数３５０を通して次のニューロンへの出力を生成するものである。ｂは、バイアス（オフセット）である。

　また、それら多数の人工ニューロンモデル３３０の集合体が、ニューラルネットワーク３４０である。ニューラルネットワーク３４０は、入力層、中間層、出力層で構成され、それぞれの人工ニューロンモデル３３０の出力が次段の各人工ニューロンモデル３３０に入力されていくものである。人工ニューロンモデル３３０は、電子回路などのハードウェアや演算プロセッサとプログラムで実現されるものであっても良い。例えば、深層学習によって、各人工ニューロンモデル３３０の重み係数を辞書データとして算出するものである。辞書データ、すなわち、図１に示すモデル学習辞書３２０は、ニューラルネットワーク３４０により構成されるＤＮＮモデル３１０の重み係数のデータの集合体であり、ＤＮＮモデル３１０の場合は、後述する辞書学習手段６００により初期学習、もしくは、再学習されるものである。

　次に、活性化関数３５０に関して説明する。線形を繰り返しても線形のみに変換するだけなので、活性化関数３５０は、非線形変換である必要があることが知られている。活性化関数３５０は、単純に“０”か“１”に識別するステップ関数やシグモイド関数３５１やランプ関数などが使われるが、シグモイド関数３５１は、回路規模の増大や、演算プロセッサの能力に依存して演算速度低下が発生するため近年ではＲｅＬＵ（Ｒｅｃｔｉｆｉｅｄ　Ｌｉｎｅａｒ　Ｕｎｉｔ）３５２などのランプ関数が使われる場合が多い。ＲｅＬＵ３５２は、関数への入力値が０以下の場合には出力値が常に０、入力値が０より上の場合には出力値が入力値と同じ値となる関数であり、シグモイド関数３５１よりもニューラルネットワーク３４０の層が深くなった場合でも勾配の消失が起こりにくく、計算式で簡素なため処理速度に優位性がある。また、ＲｅＬＵ３５２の派生であるＬｅａｋｙＲｅＬＵ（Ｌｅａｋｙ　Ｒｅｃｔｉｆｉｅｄ　Ｌｉｎｅａｒ　Ｕｎｉｔ）３５３なども、ＲｅＬＵ３５２よりも精度が良いため使用される場合が増加している。ＬｅａｋｙＲｅＬＵ３５３は、入力値が０より下なら入力値をα倍した値（α倍は、例えば０．０１倍(基本)）、入力値が０より上の場合には出力値が入力値と同じ値となる関数である。それ以外の活性化関数３５０として、検出物体のクラス識別時に活用されるソフトマックス関数などがあり、使用用途に応じて適する関数を使い分ける。ソフトマックス関数は、複数の出力値の合計が１．０（１００％）になるように変換して出力するものである。

　図３Ａ及び図３Ｂは、ＤＮＮモデル３１０の１つであるＹＯＬＯモデル３６０の構成の一例である。図３Ａに示すＹＯＬＯモデル３６０は、例えば、水平方向の画素Ｘｉ、垂直方向の画素Ｙｉを入力画像サイズとするものであって良い。周辺ピクセルの領域をフィルタリングにより畳み込むことにより領域ベースの特徴量を圧縮して抽出することが可能なＣｏｎｖｏｌｕｔｉｏｎレイヤ３７０、ないし、３８７と、入力画像におけるフィルタ形状の位置ずれを吸収するように機能するＰｏｏｌｉｎｇレイヤ３９０、ないし、３９５と、全結合層と出力層を基本構成としているものであって良い。また、例えば、物体の位置の検出とクラス分類（識別）を行うための第一の検出レイヤ３６１、第二の検出レイヤ３６２、および、第三の検出レイヤ３６３を備え、クラス分類の結果に対して逆畳み込みを使用したアップサンプリングするためのＵｐｓａｍｐｌｉｎｇレイヤ３６４と３６５などで構成されるものであっても良い。これら、モデル入力画像サイズ、Ｃｏｎｖｏｌｕｔｉｏｎレイヤ、Ｐｏｏｌｉｎｇレイヤ、検出レイヤ、Ｕｐｓａｍｐｌｉｎｇレイヤなどの画素（ピクセル）サイズや、各種レイヤの数や組み合わせ構成や、検出レイヤの数や配置などは、使用用途に応じて増減、もしくは、変更されるものであっても良い。

　Ｃｏｎｖｏｌｕｔｉｏｎレイヤ３７０、ないし、３８７は、ある特定の形状や様々な形状に反応する単純型細胞をモデル化したものに相当し、複雑な形状の物体を認識するために活用されるものである。

　一方、Ｐｏｏｌｉｎｇレイヤ３９０、ないし、３９５は、形状の空間的なずれを吸収するような働きをする複雑型細胞をモデル化したものに相当し、ある形状の物体の位置がずれると別の形状とみなすところを同一形状にみなせるように働くものである。これらＣｏｎｖｏｌｕｔｉｏｎレイヤ３７０、ないし、３８７とＰｏｏｌｉｎｇレイヤ３９０、ないし、３９５を複合させることで、様々な複雑な形状の検出物体の移動や変更に頑強になり、物体検出の精度を向上させることが可能となる。

　Ｕｐｓａｍｐｌｉｎｇレイヤ３６４と３６５は、元の画像についてのクラス分類を行うとともに、図３Ａの３６６と３６７に示すスキップ接続を通してＣＮＮの各層における結果を特徴マップとして用いることにより、例えば、第二の検出レイヤ３６２、および、第三の検出レイヤ３６３により細かい領域の特定が可能になる。なお、スキップ接続３６７と３６６は、それぞれ、Ｃｏｎｖｏｌｕｔｉｏｎレイヤ３７３と３７４と同じ構成のネットワークをＣｏｎｖｏｌｕｔｉｏｎレイヤ３８５後と３８１後に結合するものである。

　次に、ある実施形態におけるＹＯＬＯモデル３６０の検出精度や確信度に相当するＣｏｎｆｉｄｅｎｃｅｓｃｏｒｅ（信頼度スコア）３１７（尤度に相当）算出方法を検出物体として人物１名を対象とする図３Ｂにより説明する。処理速度に優位性が高いとされるＹＯＬＯなどに代表されるｏｎｅ―ｓｔａｇｅ型のＤＮＮモデルを使用する場合は、物体の位置の検出とクラス識別を同時に行うために、モデル入力画像３１１に対して前述した検出レイヤ別に画像領域を任意のサイズのグリッドセルに分割する。図３Ｂでは図３Ａのモデル入力画像２５５の水平画素数Ｘｉが１２８ピクセル、垂直画素数Ｙｉが１２８ピクセルで定義された場合の第二の検出レイヤ３６２のグリッドセルが８×８の例を示す。その際、第一の検出レイヤ３６１のグリッドセルは４×４、第三の検出レイヤ３６３のグリッドセルは１６×１６のように各検出レイヤによってグリッドセルのサイズは異なっても良い。複数のＢｏｕｎｄｉｎｇＢｏｘとＣｏｎｆｉｄｅｎｃｅ（信頼度）３１３（Ｐｒ（Ｏｂｊｅｃｔ）×ＩＯＵ）を推測する工程３１２と、グリッドセル単位で条件付きクラス確率（ｃｏｎｄｉｔｉｏｎａｌｃｌａｓｓｐｒｏｂａｂｉｌｉｔｉｅｓ）であるＰｒ（Ｃｌａｓｓｉ｜Ｏｂｊｅｃｔ）３１５を算出する工程３１４を並行して処理するものである。その後、最終検出工程３１６でＣｏｎｆｉｄｅｎｃｅｓｃｏｒｅ（信頼度スコア）３１７を算出する際に双方を乗算するものである。したがって、物体の位置の検出とクラス識別を同時に行うことにより処理速度の向上が可能となる。なお、最終検出工程３１６の点線で示した補正前の検出枠を含む位置情報３１８が、人物に対する検出結果として表示された検出枠である。

　ここで説明したＹＯＬＯモデル３６０を例にとると、第一の検出レイヤ３６１と第二の検出レイヤ３６２と第三の検出レイヤ３６３の３種類の検出レイヤが存在するが、検出対象となる物体のモデル入力画像３１１に比する大きさの違いによって、各検出レイヤによる推論結果（尤度に相当する信頼度スコア３１７）が異なる。つまり、物体サイズに依存して推論結果が優位となる検出レイヤが異なることが知られている。例えば、検出物体サイズが十分大きい場合は、第一の検出レイヤ３６１（グリッドセル４×４）により算出される信頼度スコア３１７の値が高くなり信頼度も高くなる。一方で、検出物体サイズが大サイズから中サイズにかけては、第二の検出レイヤ３６２（グリッドセル８×８）により算出される信頼度スコア３１７の値が高くなり信頼度も高くなる。一方で、検出物体サイズが中サイズから小サイズにかけては、第三の検出レイヤ３６３（グリッドセル１６×１６）により算出される信頼度スコア３１７の値が高くなり信頼度も高くなる。つまり、物体サイズと検出レイヤのグリッドセルのサイズには依存関係があるため、物体サイズに対する推論性能の向上や深層学習の効率化、ロバスト性の向上のためにも複数の異なるクリッドセルのサイズの検出レイヤを有することが重要となる。

　なお、ここでは、図３Ａのモデル入力画像２５５の水平画素数Ｘｉが１２８ピクセル、垂直画素数Ｙｉが１２８ピクセルで定義された場合を例に挙げているが、より精度のよい物体検出を行う際はモデル入力画像２５５の画素数を大きくすることが望ましい。例えば、モデル入力画像２５５の水平画素数Ｘｉを４１６ピクセル、垂直画素数Ｙｉを４１６ピクセルで定義した場合は、第一の検出レイヤ３６１のグリッドセルは７×７、第二の検出レイヤ３６２のグリッドセルは１３×１３、第三の検出レイヤ３６３のグリッドセルは２６×２６のように各検出レイヤのグリッドセルのサイズも大きくなるため、より精度の良い物体検出を行うことが可能となる。ただし、その分プロセッサなどに要求される演算性能もさらに大きくなるためハードウェアやソフトウェアの規模も大きくなり、かつ、各レイヤの情報や重み係数の情報を記憶するためのメモリも膨大に必要となる。

　図１に示す物体検出モデル３００から出力された１つの画像中に存在する検出物体毎の検出不能と疑似検出を含むゼロないし複数の補正前の検出枠を含む位置情報３０１と補正前の尤度情報３０２は、モデル後処理手段４００に入力された後、個体識別手段４１０により、補正前の検出枠を含む位置情報３０１の相互のＩＯＵ値による識別や補正前の尤度情報３０２の最大判定などにより、各検出物体に対する最も適切と考えられる個体識別後の検出枠を含む位置情報４０３と個体識別後の尤度情報４０４に個体別に最適と考えられる１つの結果に識別される。

　図４により、ＩＯＵ値を説明する。図４ＡのＩＯＵ値４２０を表す式の分母４２２は、前述した（式１）におけるＡｒｅａｏｆＵｎｉｏｎであり、比較する２つの枠領域の和集合の面積である。図４ＡのＩＯＵ値４２０を表す式の分子４２３は、前述した（式１）におけるＡｒｅａｏｆＩｎｔｅｒｓｅｃｔｉｏｎであり、比較する２つの枠領域の共通部分の面積である。最大“１．０”であり、完全に２つの枠データが重なっている状態を示す。物体検出モデル３００の出力結果である補正前の検出枠を含む位置情報３０１と後述する正解となる検出枠を含む位置情報６２１のＩＯＵ値４２０が大きいほど物体検出がうまくできていることになる。なお、一例として人物を検出する場合、図４Ｂに示すように人物４２４に対する正解枠であるｇｒｏｕｎｄｔｒｕｔｈＢＢｏｘ４２５と推論（予測）した結果として算出されるＰｒｅｄｉｃｔｅｄＢＢｏｘ４２６が水平方向と垂直方向にそれぞれ１１％程度ずれると、両者のＩＯＵ値４２７が０．６５程度まで低下する。この点からもわかるように物体検出の精度や性能を敏感に検証する指標の１つとして活用されることが多い。

　図１に示すモデル後処理手段４００は、１つの画像中に対する物体検出モデル３００の出力結果の１つないし複数の検出物体毎に、検出不能と疑似検出を含むゼロないし複数の補正前の検出枠を含む位置情報３０１と補正前の尤度情報３０２に対して、補正前の尤度情報３０２に対する任意の閾値Ｔ（任意の小数）と相互の補正前の検出枠を含む位置情報３０１の領域がどれぐらい重なっているかを表す指標であるＩＯＵ（Ｉｎｔｅｒｓｅｃｔｉｏｎ　ｏｖｅｒ　Ｕｎｉｏｎ）値に対する任意の閾値Ｕ（任意の小数）により検出物体毎に個体識別後の検出枠を含む位置情報４０３と個体識別後の尤度情報４０４に補正する個体識別手段４１０を有することを特徴とするものであっても良い。

　例えば、図５Ａのフローチャートと図５Ｂに示すような検出物体として人物が２名前後に近接しているモデル入力画像３２１を使用して、モデル後処理手段４００の個体識別手段４１０の処理の一例を説明する。

　はじめに、図５Ａに示すように、入力ステップＳ４３０により、検出物体毎の検出不能と疑似検出を含むゼロないし複数の補正前の検出枠を含む位置情報３０１と補正前の尤度情報３０２を入力する。その際、図５Ｂに示すように、物体検出モデル３００から出力される４つの補正前の検出枠を含む位置情報３２２、３２３、３２４、および、３２５と、４つの補正前の尤度情報の中の尤度３２６、３２７、３２８、および、３２９が入力されるものとする。

　次に、設定ステップＳ４３１により、ＩＯＵ閾値“Ｕ”と尤度閾値“Ｔ”を設定する。本例では、“Ｕ”＝０．７、“Ｔ”＝０．５を閾値として設定した場合を示す。

　次に、比較ステップＳ４３２により、補正前の尤度情報３０２の中の尤度を閾値“Ｔ”と比較して、尤度が閾値“Ｔ”未満で偽と判定すると、削除ステップＳ４３３により、該当する補正前の検出枠を含む位置情報３０１と補正前の尤度情報３０２を算出対象から削除し、尤度が閾値“Ｔ”以上であれば真と判定して、相互ＩＯＵ値算出ステップＳ４３４により、算出対象のすべての補正前の検出枠を含む位置情報３０１の相互組み合わせのＩＯＵ値を算出する処理を行う。図５Ｂでは、尤度３２７が０．３３であり閾値“Ｔ”＝０．５未満のため２人を包括するように疑似検出された補正前の検出枠を含む位置情報３２３と尤度３２７を含む補正前の尤度情報は算出対象から削除される。残り算出候補は３つとなり、それぞれの補正前の検出枠を含む位置情報３２２、３２４、および、３２５の相互組み合わせのＩＯＵ値を算出する。

　次に、比較ステップＳ４３５により、すべての相互ＩＯＵ値に対して、閾値“Ｕ”と比較して、相互ＩＯＵ値が閾値“Ｕ”未満で偽と判定すると、独立した検出結果であると判定して、出力ステップＳ４３７により、個体識別後の検出枠を含む位置情報４０３と個体識別後の尤度情報４０４として出力し、相互ＩＯＵ値が閾値“Ｕ”以上であれば真と判定して、同一の検出物体を重複して検出しているとみなし、次の最大尤度判定ステップＳ４３６に進む。図５Ｂでは、補正前の検出枠を含む位置情報３２２と他の２つとの相互ＩＯＵ値が閾値“Ｕ”＝０．７未満になるため、独立した検出情報として補正前の検出枠を含む位置情報３２２と尤度３２６（０．８５）を含む補正前の尤度情報を個体識別後の検出枠を含む位置情報４１１と尤度４１３（０．８５）を含む個体識別後の尤度情報として出力ステップＳ４３７により出力する。一方、補正前の検出枠を含む位置情報３２４と３２５は、相互ＩＯＵ値が近接しているため“Ｕ”＝０．７以上と判定されて次の最大尤度判定ステップＳ４３６に進む。

　最後に、最大尤度判定ステップＳ４３６により、該当する中で尤度が最大となるもの以外は偽と判定して、削除ステップＳ４３３により、該当する補正前の検出枠を含む位置情報３０１と補正前の尤度情報３０２を算出対象から削除し、該当する中で尤度が最大になるものは、真と判定して、出力ステップＳ４３７により、個体識別後の検出枠を含む位置情報４０３と個体識別後の尤度情報４０４として出力するものであっても良い。図５Ｂでは、尤度３２８（０．７５）と尤度３２９（０．９２）の２つから最大尤度判定を行った結果、尤度３２８（０．７５）を含む補正前の尤度情報と補正前の検出枠を含む位置情報３２４を算出対象から削除し、最大尤度と判定された尤度３２９（０．９２）を含む補正前の尤度情報と補正前の検出枠を含む位置情報３２５を個体識別後の検出枠を含む位置情報４１２と尤度４１４（０．９２）を含む個体識別後の尤度情報として出力ステップＳ４３７により出力する。

　なお、尤度の閾値“Ｔ”は高いほど検出された情報の信頼性は高くなるが、一方で、検出不能に陥る場合が生じるため、物体検出モデル３００の性能に応じて適切に設定することが望ましい。

　なお、相互ＩＯＵ値の閾値“Ｕ”は、低くすると検出物体が複数あった場合に、特に近接距離にある物体同士は、想定以上に複数の検出物体の検出結果をマージしてしまうため、検出漏れが発生し易くなる。一方で、高くすると同一物体を検出しているにも関わらず、重複した検出結果が残ってしまう場合がある。そのため、物体検出モデル３００の性能に応じて適切に設定することが望ましい。

　なお、個体識別手段４１０は、図５Ａに示すようなフローチャート以外のステップの組み合わせで個体識別を行うものであっても良い。例えば、補正前の尤度情報３０２の中のクラス識別情報を用いて、相互ＩＯＵ値算出ステップＳ４３４で相互ＩＯＵ値を算出する対象を同一クラスに限定する処理や、最大尤度判定ステップＳ４３６で最大尤度判定する際に同一クラスの中で最大尤度を判定する処理を加味したものであっても良い。

　図５Ａと図５Ｂに示すようなモデル後処理手段４００および個体識別手段４１０を有することにより、疑似検出に相当する異常データの排除と検出物体毎に個体識別後の検出枠を含む位置情報４０３と個体識別後の尤度情報４０４を適した情報に補正することができる。

　さらに、後述するモデル後処理手段４００が有する画像選択手段４５０や検出枠補正手段４６０などと合わせて実施することにより、異常データの排除と検出物体毎に検出枠を含む位置情報と尤度情報を適した情報に個体判別、および、補正することができるため、画像中の物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下をより正確に救済することが可能となる。

　さらに、画面分割時などに適用することにより、検出対象物が動いている状態で物体検出を行う場合や、搭載する演算プロセッサなどの性能に制限を設けた場合でも、画面分割により低レイテンシーとリアルタイム性を維持することが可能となる。

　また、図１に示すモデル後処理手段４００は、アノテーション手段６２０、および、すでにアノテーションの処理が施されているＣＯＣＯやＰａｓｃａｌＶＯＣＤａｔａｓｅｔなどのオープンソースのデータセットなどにより、検出物体毎に正解となる検出枠を含む位置情報６２１と正解となるクラス識別情報６２２が存在する場合は、アフィン変換関数や射影変換関数と演算プロセッサなどによりフレーム制御情報５００の内容にしたがって正解となる検出枠を含む位置情報６２１を補正する機能を有し、１つの画像中に存在する物体検出モデル３００の出力結果の１つないし複数の検出物体毎に、検出不能と疑似検出を含むゼロないし複数の補正前の検出枠を含む位置情報３０１と補正前の尤度情報３０２に対して、補正前の尤度情報３０２に対する任意の閾値Ｔ（任意の小数）と正解となる検出枠を含む位置情報６２１と補正前の検出枠を含む位置情報３０１の領域がどれぐらい重なっているかを表す指標であるＩＯＵ値に対する任意の閾値Ｕ（任意の小数）により検出物体毎に個体識別後の検出枠を含む位置情報４０３と個体識別後の尤度情報４０４に補正する個体識別手段４１０を有することを特徴とするものであっても良い。

　アノテーション手段６２０は、例えば、表示およびデータ格納手段１２０もしくは学習用素材データベース格納手段６１０に格納された画像に対して、クラス識別情報と正解枠であるｇｒｏｕｎｄｔｒｕｔｈＢＢｏｘを付加して教師ありデータを作成するものであってもよい。

　例えば、図６Ａのフローチャートと図６Ｂに示すような検出物体として人物が２名前後に近接しているモデル入力画像３３１を使用して、正解となる検出枠を含む位置情報６２１と正解となるクラス識別情報６２２が存在する場合のモデル後処理手段４００の個体識別手段４１０の処理の一例を説明する。

　はじめに、図６Ａに示すように、入力ステップＳ４３０により、１つの画像中に存在する検出物体毎の検出不能と疑似検出を含むゼロないし複数の補正前の検出枠を含む位置情報３０１と補正前の尤度情報３０２を入力する。また、入力ステップＳ４４０により、検出物体毎の正解となる検出枠を含む位置情報６２１と正解となるクラス識別情報６２２を入力する。その際、図６Ｂの点線で示すように、物体検出モデル３００から出力される４つの補正前の検出枠を含む位置情報３３２、３３３、３３４、および、３３５と、４つの補正前の尤度情報の中の尤度３３６、３３７、３３８、および、３３９が入力されるものとする。また、図６Ｂの実線で示すように、アノテーション手段６２０から出力される２つの正解となる検出枠を含む位置情報６２４と６２５と、２つの正解となる“人”を示すクラス識別情報６２６と６２７が入力されるものとする。

　次に、設定ステップＳ４３１により、ＩＯＵ閾値“Ｕ”と尤度閾値“Ｔ”を設定する。本例では、“Ｕ”＝０．５、“Ｔ”＝０．５を閾値として設定した場合を示す。

　次に、比較ステップＳ４３２により、補正前の尤度情報３０２の中の尤度を閾値“Ｔ”と比較して、尤度が閾値“Ｔ”未満で偽と判定すると、削除ステップＳ４３３により、該当する補正前の検出枠を含む位置情報３０１と補正前の尤度情報３０２を算出対象から削除し、尤度が閾値“Ｔ”以上であれば真と判定して、正解枠とのＩＯＵ値算出ステップＳ４４１により、正解となる検出枠を含む位置情報６２１のそれぞれに対して、算出対象のすべての補正前の検出枠を含む位置情報３０１の組み合わせのＩＯＵ値を算出する処理を行う。図６Ｂでは、尤度３３７が０．３３であり閾値“Ｔ”＝０．５未満のため２人を包括するように疑似検出された補正前の検出枠を含む位置情報３３３と尤度３３７を含む補正前の尤度情報は算出対象から削除される。残り算出候補は３つとなり、正解となる検出枠を含む位置情報６２４と６２５のそれぞれに対して、補正前の検出枠を含む位置情報３３２、３３４、および、３３５のＩＯＵ値を算出する。

　次に、比較ステップＳ４４２により、すべてのＩＯＵ値に対して、閾値“Ｕ”と比較して、正解となる検出枠を含む位置情報６２１に対するＩＯＵ値が閾値“Ｕ”未満で偽と判定すると、正解枠から大きく外れていると判定して、削除ステップＳ４３３により、該当する補正前の検出枠を含む位置情報３０１と補正前の尤度情報３０２を算出対象から削除し、ＩＯＵ値が閾値“Ｕ”以上であれば真と判定して、正解枠からの差が小さい検出対象候補とみなし、次のクラス識別判定ステップＳ４４３に進む。図６Ｂでは、偽に判定される候補は該当なしとなり、そのまま３つの算出候補がクラス識別判定ステップＳ４４３の判定対象になる。

　次に、クラス識別判定ステップＳ４４３により、正解となるクラス識別情報６２２と正解となる補正前の尤度情報３０２の中のクラス識別情報を比較して、異なるクラスと識別されている場合は偽と判定して、削除ステップＳ４３３により、該当する補正前の検出枠を含む位置情報３０１と補正前の尤度情報３０２を算出対象から削除し、同一のクラスと識別されている場合は、真と判定して、次の最大尤度判定ステップＳ４３６に進む。図６Ｂでは、すべての候補がクラス識別の結果“人”と判定されているとして、そのまま３つの算出候補が最大尤度判定ステップＳ４３６の判定対象となる。

　最後に、最大尤度判定ステップＳ４３６により、該当する中で尤度が最大となるもの以外は偽と判定して、削除ステップＳ４３３により、該当する補正前の検出枠を含む位置情報３０１と補正前の尤度情報３０２を算出対象から削除し、該当する中で尤度が最大になるものは、真と判定して、出力ステップＳ４４４により、個体識別後の検出枠を含む位置情報４０３と個体識別後の尤度情報４０４と算出したＩＯＵ値を出力するものであっても良い。図６Ｂでは、正解となる検出枠を含む位置情報６２５と正解となるクラス識別情報６２７の検出結果として、尤度３３８（０．７５）と尤度３３９（０．９２）の２つから最大尤度判定を行った結果、尤度３３８（０．７５）を含む補正前の尤度情報と補正前の検出枠を含む位置情報３３４を算出対象から削除し、最大尤度と判定された尤度３３９（０．９２）を含む補正前の尤度情報と補正前の検出枠を含む位置情報３３５を個体識別後の検出枠を含む位置情報４１６と尤度４１８（０．９２）を含む個体識別後の尤度情報として出力ステップＳ４４４により出力する。さらに、ＩＯＵ値４２９（０．８５）を出力ステップＳ４４４により出力する。また、正解となる検出枠を含む位置情報６２４と正解となるクラス識別情報６２６の検出結果として、最大尤度と判定された尤度３３６（０．８５）を含む補正前の尤度情報と補正前の検出枠を含む位置情報３３２を個体識別後の検出枠を含む位置情報４１５と尤度４１７（０．８５）を含む個体識別後の尤度情報として出力ステップＳ４４４により出力する。さらに、ＩＯＵ値４２８（０．７３）を出力ステップＳ４４４により出力する。

　なお、正解枠とのＩＯＵ値の閾値“Ｕ”は、図５Ａと図５Ｂにより説明した個体識別手段４１０に比べると、低めに設定して算出候補をより多く残したとしても、正解となる検出枠を含む位置情報６２１との直接比較ができるため、検出漏れが発生しにくく、検出結果の精度が向上する利点がある。また、閾値“Ｕ”を任意に変更して処理することにより、物体検出モデル３００で算出される補正前の検出枠を含む位置情報３０１の検出枠の正確度を把握および検証することも可能となる。

　よって、後述するモデル後処理手段４００が有する画像選択手段４５０や検出枠補正手段４６０などと合わせて実施することにより、異常データの排除と検出物体毎に検出枠を含む位置情報と尤度情報をより適した情報に個体判別、および、補正することができるため、画像中の物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下をより正確に救済することが可能となる。

　さらに、後述する第二のｍＡＰ算出手段６５０を使用することで、救済した推論結果に基づいて、物体検出の正解枠とのＩＯＵ値、Ｐｒｅｃｉｓｉｏｎ、Ｒｅｃａｌｌ、ＡＰ値、ｍＡＰ値などの物体検出モデルの性能とモデル学習辞書の汎用性やロバスト性の弱点や強化方針を正確に分析するための性能指標化を正確に行うことができるため、実施形態２で後述する辞書学習手段６００により、検出枠を含む位置情報に対する汎用性やロバスト性のより正確な強化が可能となる。

　図６Ａと図６Ｂに示すようなモデル後処理手段４００および個体識別手段４１０を有することにより、１つの画像中に存在する検出物体毎に個体識別後の検出枠を含む位置情報４０３と個体識別後の尤度情報４０４を算出し、適した固有情報に識別することができる。

　これら、画像処理手段１００とモデル前処理手段２００と物体検出モデル３００とモデル後処理手段４００の個体識別手段４１０により個体識別後の検出枠を含む位置情報４０３と個体識別後の尤度情報４０４を生成する一連の手段が、従来の画像内の物体の位置検出やクラス識別を行う物体検出装置であった。

　一例として、従来の画像内の物体の位置検出やクラス識別を行う物体検出装置の課題について、物体の位置の検出とクラス識別を同時に行うため処理速度に優位性が高いとされるｏｎｅ―ｓｔａｇｅ型のＤＮＮモデルに代表されるＹＯＬＯモデル３６０を適用した場合に関して、図７Ａと図７Ｂを使用して説明する。図７Ａに示すように、モデル前処理手段２００により水平方向にＸｉピクセル（画素）と垂直方向にＹｉピクセルに加工されたモデル入力画像２０１の中にいる１名の人物の検出をする場合、カメラなどで画像を取得する際の時系列での手振れや振動などにより、ある基準時間の水平基準位置で取得した画像２０１に対して、時系列変化で、水平方向に２ピクセル分画像がシフトした画像２０２と、水平方向に４ピクセル分画像がシフトした画像２０３を、それぞれＹＯＬＯモデル３６０（物体検出モデル３００）に入力して、モデル後処理手段４００で補正された結果として、個体識別後の検出枠を含む位置情報２０７と２０８と２０９、個体識別後の尤度情報の中の尤度２１４と２１５と２１６が算出された場合、同一の人物を検出しているにも関わらず、画像中における人物の位置が少し揺らいで水平方向にシフトしただけであるが、それぞれの尤度が０．９２、０．３９、０．８９と大きく変動する場合がある。

　一方で、図７Ｂに示すように、カメラと人物の距離が、１ｍの画像２０４と２ｍの画像２０５と３ｍの画像２０６で、人物のサイズと画像中の位置が変わった結果として、個体識別後の検出枠を含む位置情報２１１と２１２と２１３、個体識別後の尤度情報の中の尤度２１７と２１８と２１９が算出された場合、本来のＹＯＬＯモデルの性能を鑑みた場合は、人物サイズが小さくなる、もしくは、人物の距離が遠くなるにつれて検出精度や性能が低下することが課題として知られているが、本例では、検出物体距離１ｍの画像２０４の個体識別後の尤度情報の中の尤度２１７が０．９２、検出物体距離３ｍの画像２０６の個体識別後の尤度情報の中の尤度２１９が０．７１に対して、検出物体距離２ｍの画像２０５の個体識別後の尤度情報の中の尤度２１８が０．４５と大幅に低下しているという不規則な結果が得られる場合がある。

　本発明のある実施形態によれば、モデル前処理手段２００の位置シフト機能２２０とリサイズ機能２３０を使用することにより、静止画に対してこれらの不規則な現象を把握してその要因を分析するとともに、動画に対して推論性能を向上および安定化することが可能となる。

　本発明のある実施の形態によれば、モデル前処理手段２００は、フレーム毎に物体検出モデル３００に入力する１つないし複数のモデル入力画像２１０を加工するに際して、フレーム制御情報５００の位置シフト量５１０に則って、画像処理手段１００とモデル前処理手段２００の各種機能により撮影環境や変動条件などの影響を軽減、もしくは、低下させるように加工された基準画像２２１に対して、水平方向にＭピクセル（画素）（Ｍは任意の小数）および垂直方向にＮピクセル（Ｎは任意の小数）の位置シフトを施した第一の位置シフト画像２２２を生成し、基準画像２２１と第一の位置シフト画像２２２をフレーム毎に物体検出モデル３００に入力する位置シフト機能２２０を備えるものであっても良い。また、任意の領域を切り取る機能を備えるものであっても良い。なお、位置シフト機能２２０は、アフィン変換関数２９１や射影変換関数２９２を画像処理プロセッサ２９０で実行して実現する機能であっても良い。

　また、ある実施形態によれば、位置シフト機能２２０は、基準画像２２１と第一の位置シフト画像２２２に加えて、フレーム制御情報５００の位置シフト量５１０に則って、基準画像２２１に、水平方向にＰピクセル（Ｐは任意の小数）および垂直方向にＱピクセル（Ｑは任意の小数）の位置シフトを施した第二の位置シフト画像２２３を生成し、基準画像２２１と第一の位置シフト画像２２２と第二の位置シフト画像２２３をフレーム毎に物体検出モデル３００に入力するものであっても良い。

　図７Ａに示したような同一の人物を検出しているにも関わらず、画像中における人物の位置が少し揺らいで水平方向にシフトしただけで尤度が大きくバラつくような不規則な現象を把握してその要因を分析するために、例えば、図８に示すように、前述した位置シフト機能２２０を拡張し、同フレームの静止画に対して、フレーム制御情報５００の位置シフト量５１０として、水平方向にＭ（Ｍは任意の小数）ピクセルステップで、Ｊ（Ｊは任意の整数）回分、垂直方向にＮ（Ｎは任意の小数）ピクセルステップで、Ｋ（Ｋは任意の整数）回分を設定して、基準画像２２１を含む合計Ｊ×Ｋ個の位置シフトされたモデル入力画像２２０Ａないし２２０Ｄを生成する。

　さらに、ある実施形態によれば、モデル前処理手段２００は、物体検出モデルに入力する１つないし複数のモデル入力画像２１０を加工するに際して、フレーム制御情報５００のリサイズパラメータ５１１として、さらに、Ｌ（任意の整数）種類の任意の倍率を設定して、拡大もしくは縮小した画像を生成するリサイズ機能２３０を備え、同フレームの静止画に対してリサイズした後、Ｌ種類の各リサイズ画像に対して、上述した位置シフト機能２２０により、図８に示したようにＪ×Ｋ個の位置シフト画像を生成し、合計Ｊ×Ｋ×Ｌ個のリサイズおよび位置シフトされたモデル入力画像２１０を生成するものであっても良い。また、任意の領域を切り取る機能を備えるものであっても良い。なお、位置シフト機能２２０やリサイズ機能２３０は、アフィン変換関数２９１や射影変換関数２９２を画像処理プロセッサ２９０で実行して実現する機能であっても良い。

　一例として、図９に、基準サイズ画像２３２と３０％縮小画像２３１と３０％拡大画像２３３の３種類（Ｌ＝３）のリサイズパラメータ５１１により、検出対象の物体のサイズに依存した分析を行うためのリサイズ画像を生成する場合を示す。それぞれの画像２３１、２３２，２３３に対して、図８に示すように水平方向にＭピクセルステップおよび垂直方向にＮピクセルステップでＪ×Ｋ個の位置シフトした画像２２０Ａないし２２０Ｄを生成し、合計で３×Ｊ×Ｋ個の複数のモデル入力画像２１０を加工する。

　図８および図９に示すようなモデル前処理手段２００の位置シフト機能２２０、および、リサイズ機能２３０により加工された同フレームの静止画に対する複数のモデル入力画像２１０は、図１に示す物体検出モデル３００とモデル後処理手段４００の個体識別手段４１０により、複数のモデル入力画像２１０毎の個体識別後の検出枠を含む位置情報４０３と個体識別後の尤度情報４０４を算出した後、フレーム制御情報５００に則って物体検出モデル３００の汎用性やロバスト性を検証するロバスト性検証手段８００に入力される。

　なお、カメラなどにより取得した画像中で物体検出を行うモデルの場合、ロバスト性検証手段８００で検証する項目や各種変動条件は、例えば、背景(景色)、カメラのレンズ仕様、カメラを取り付ける高さや仰俯角など、画像サイズを含む検出対象領域と視野範囲、魚眼レンズを使用している場合のデワープ処理方法、日光や照明に依存する照度変化や黒つぶれや白飛び、逆光などの特殊条件、晴れ、曇り、雨、雪、霧などの天候条件があげられる。また、対象検出物体の画像中の位置（左右上下と奥行）、サイズ、輝度レベル、色情報を含む形状や特徴、アスペクト比、回転角度、対象検出物体の数、相互重複の状態、付属物の種類や大きさや付属位置、レンズのＩＲカットの有無、対象検出物体の移動速度、および、カメラ自体の移動速度などがあげられる。また、使用用途によっては、前述した項目や条件以外も追加される場合もある。これら各種条件や項目を踏まえて、物体検出に優位な条件を分析して推論性能を向上できるように、また、物体検出モデル３００の特性やモデル学習辞書３２０のロバスト性や汎用性の強化のための学習用素材の選定や加工条件を決定するために、フレーム制御情報５００の各種パラメータやその値を設定することが望ましい。フレーム制御情報５００は、モデル前処理手段２００と、ロバスト性検証手段８００に入力される。モデル前処理手段２００に入力されるフレーム制御情報５００は、物体位置に伴う揺らぎによる影響を静止画に対して検証するため、および、動画に対して物体位置に伴う揺らぎによる推論精度（尤度）の低下を救済するための位置シフト機能２２０に関係するパラメータを含み、カメラのレンズ仕様、カメラを取り付ける高さや仰俯角の条件など、画像サイズを含む検出対象領域と視野範囲の物体サイズに伴う汎用性やロバスト性を静止画に対して検証するため、および、動画に対して推論精度を最大化するためのリサイズ機能２３０に関係するパラメータや、同じく撮影環境による変動条件の影響を最小化して動画に対して推論精度を最大化するための後述する他の複数のパラメータを複合するものであっても良い。

　ある実施形態によれば、モデル後処理手段４００は、モデル前処理手段２００の複数の画像の加工に使用したフレーム制御情報５００と、個体識別手段４１０の出力結果、もしくは、後述する画像選択手段４５０と検出枠補正手段４６０とフレーム情報保持手段４７０とフレーム情報補間手段４８０とステートマシン制御手段５５０などにより動画に対する尤度救済を行った後の最尤判定された検出物体毎に個別に紐づけた検出結果４０５（最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２などを含む）と、尤度に対するＩＯＵ値４２０を、ロバスト性検証手段８００に出力するものであっても良い。

　ある実施形態によれば、ロバスト性検証手段８００は、モデル後処理手段４００の出力結果である個体識別後の検出枠を含む位置情報４０３と個体識別後の尤度情報４０４、もしくは、最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２の中の尤度をもとに、フレーム制御情報５００別に、検出物体毎の位置シフトに伴うバラつきを示す尤度分布８３０を含め、尤度の有効領域の平均値である平均尤度８０１と、尤度の有効領域の標準偏差である尤度の標準偏差８０２と、尤度の有効領域の最大値である最大尤度８０３と、尤度の有効領域の最小値である最小尤度８０４と、尤度に対するＩＯＵ値８０５のいずれかもしくは、すべてを算出する確率統計演算手段８１０を備えることを特徴とするものであっても良い。また、尤度に対するＩＯＵ値８０５は、検出物体毎に正解となる検出枠を含む位置情報６２１が存在する場合は、個体識別後の検出枠を含む位置情報４０３、もしくは、最尤の検出枠を含む位置情報４０１に対する正解となる検出枠を含む位置情報６２１のＩＯＵ値であっても良い。

　これら、ロバスト性検証手段８００を使用して抽出された静止画に対する検出物体と各種統計結果によりモデル学習辞書３２０の強化対象を特定することが可能となる。さらに、物体検出モデル３００の課題抽出をすることも可能となる。さらに、これら各種統計結果を、実施形態２で後述する辞書学習手段６００に入力して学習素材の選定やＡｕｇｍｅｎｔａｔｉｏｎの手法や学習パラメータに反映することによりモデル学習辞書３２０の汎用性やロバスト性を強化することが可能となる。

　一例として、前述したロバスト性検証手段８００を使用して、静止画である図７Ａと図７Ｂを使って説明した検出物体の画像中の人物の位置のゆらぎ、および、検出物体のサイズに対して、物体検出モデル３００による検出結果である尤度などが不規則にバラつく現象を分析した結果を、図１０、および、図１１と合わせて説明する。

　図１０、および、図１１に示す分析結果は、図７Ａ、図７Ｂ、図８、および、図９に示す複数のモデル入力画像の水平方向の画素数であるＸｉを１２８に、垂直方向の画素数であるＹｉを１２８に設定している場合である。また、検出対象は、人物１名である。また、図９に示すように、モデル前処理手段２００のリサイズ機能２３０を使用して、基準サイズ画像２３２と３０％縮小画像２３１と３０％拡大画像２３３の３種類（３種類のＬ）のリサイズ画像に加工し、それぞれの加工された３種のリサイズ画像に対して、モデル前処理手段２００の位置シフト機能２２０を使用して、水平方向と垂直方向に１ピクセルステップ（Ｍ＝１、Ｎ＝１）で、水平方向に３２回分（Ｊ＝３２）、垂直方向に３２回分（Ｋ＝３２）の位置シフトをして、合計３×３２×３２個のモデル入力画像２１０を生成している場合である。また、図１０、および、図１１に示す分析結果は、水平方向の入力画素が１２８ピクセル、垂直方向の入力画素が１２８ピクセルで構成される図３Ａ及び図３Ｂに示すＹＯＬＯモデル３６０（物体検出モデル３００）とモデル後処理手段４００を使用して、生成された３×３２×３２個の複数のモデル入力画像２１０に対して、人物１名に対する個体識別後の検出枠を含む位置情報４０３と個体識別後の尤度情報４０４を算出した後、ロバスト性検証手段８００に入力して、フレーム制御情報５００である３種のリサイズパラメータ５１１に対して、確率統計演算手段８１０により、人物１名の位置シフトに伴うバラつきを示す尤度分布８３０および尤度のヒストグラム８４０と、尤度の有効領域の平均値である平均尤度８０１と、尤度の有効領域の標準偏差である尤度の標準偏差８０２と、尤度の有効領域の最大値である最大尤度８０３と、尤度の有効領域の最小値である最小尤度８０４を算出した結果である。なお、個体識別後の検出枠を含む位置情報４０３と個体識別後の尤度情報４０４の代わりに、後述する最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２をロバスト性検証手段８００に入力して算出しても良い。なお、尤度分布８３０および尤度のヒストグラム８４０と、平均尤度８０１と、尤度分布８３０と、尤度の標準偏差８０２と、最大尤度８０３と、最小尤度８０４は、尤度の最大値“１”を“１００％”とする百分率（％）で表記するものであっても良い。図１０、および、図１１は、尤度を百分率（％）で表記したものである。なお、百分率に変換せず、直接小数で処理しても良い。なお、本例では掲載していないが、個体識別後の尤度情報４０４もしくは最尤の尤度情報４０１の中の尤度に対する分布だけでなく、図１のアノテーション手段６２０から正解となる検出枠を含む位置情報６２１を参照可能な場合は、個体識別後の検出枠を含む位置情報４０３もしくは最尤の検出枠を含む位置情報４０１とのＩＯＵ値８０５に対するＩＯＵ値分布や統計結果を算出するものであっても良い。なお、本例では掲載していないが、人物以外の複数のクラス識別を行うような場合は、個体識別後の尤度情報４０４もしくは最尤の尤度情報４０１の中の尤度に対する分布だけでなく、個体識別後の尤度情報４０４もしくは最尤の尤度情報４０１の中のクラス識別情報に対するクラス識別分布や統計結果を算出するものであっても良い。

　図１０に示す尤度分布８３１は、図９に示すように、モデル入力画像２３２を基準画像として、フレーム制御情報５０１の指示のもと、リサイズ機能２３０により３０％縮小（Ｌ＝１）して図９のモデル入力画像２３１に加工した後、図８に示すように、位置シフト機能２２０により水平方向と垂直方向に１ピクセルステップ（Ｍ＝１、Ｎ＝１）で、水平方向に３２回分（Ｊ＝３２）、垂直方向に３２回分（Ｋ＝３２）の位置シフトされた複数のモデル入力画像を、ＹＯＬＯモデル３６０（物体検出モデル３００）とモデル後処理手段４００の個体識別手段４１０と確率統計演算手段８１０を備えるロバスト性検証手段８００に入力して算出されたものである。その際に、図１０に示すフレーム制御情報５０１ないし５０３は、モデル後処理手段４００から出力される検出物体毎の個体識別手段４１０の出力結果である個体識別後の検出枠を含む位置情報４０３と個体識別後の尤度情報４０４に紐づけられるものであり、確率統計演算手段８１０で分析結果を算出する際に活用されるものであっても良い。

　同様に、尤度分布８３２は、フレーム制御情報５０２を使って、図９に示す基準サイズ（等倍）のモデル入力画像２３２に対して算出されたものであり、尤度分布８３３は、フレーム制御情報５０３を使って、図９に示す３０％拡大したモデル入力画像２３３に対して算出されたものである。図１０に示す尤度分布８３１、８３２、および、８３３は、白色から黒色の濃淡バー８０６にしたがって、画面上の人物が存在する位置（ピクセル単位）の揺らぎに対する尤度（％）のレベルに応じて、白色(尤度０％相当)から黒色（尤度１００％）の濃淡に色付けして表示したものである。ここで、図９に示す基準サイズ（等倍）のモデル入力画像２３２に対する図１０の尤度分布８３２の尤度（Ａ）８２１と尤度（Ｂ）８２２と尤度（Ｃ）８２３と尤度（Ｄ）８２４は、それぞれ、図８に示す位置シフト機能２２０（Ｍ＝１、Ｎ＝１、Ｊ＝３２、Ｋ＝３２の場合）により加工されたモデル入力画像（Ａ）２２０Ａを基準に算出された尤度と、モデル入力画像（Ｂ）２２０Ｂを基準に算出された尤度と、モデル入力画像（Ｃ）２２０Ｃを基準に算出された尤度と、モデル入力画像（Ｄ）２２０Ｄを基準に算出された尤度をマッピングしたものに相当する。尤度分布８３１、８３２、および、８３３は、黒レベルが強いほど尤度が高いことを示しており、反対に、白レベルが強くなるほど尤度が低いことを示すものである。注目すべき点として、それぞれの尤度分布の中で、尤度が高い黒レベルの合間に、特定の格子状のようなパターンで灰色もしくは白レベルが強く尤度が低くなる領域が存在していることが確認できる。この結果は、図７Ａおよび図７Ｂで説明した検出物体（本例では人物１名）の画面中の位置による揺らぎに対して、尤度が不規則にバラつくという現象が現れていると考えて良い。また、本例に示すような特定の格子状のようなパターンがある場合は、物体検出モデル３００のＤＮＮモデル３１０などニューラルネットワークそのものに課題が存在している可能性が高く、任意の領域の尤度が低いような場合は、モデル学習辞書３２０の学習が不十分である可能性が高いと考えて良い。これら検出物体の位置による尤度の揺らぎに関する詳細な要因推定に関しては、図１１の説明と合わせて言及することとする。

　なお、静止画に対して分析する際の位置シフト機能２２０のフレーム制御情報５００である前述したパラメータＭ、Ｎ、Ｊ、Ｋは、用途や目的に応じて変更しても良い。なお、水平方向と垂直方向のピクセルステップの設定であるＭとＮは、水平方向と垂直方向にそれぞれ異なる値を設定しても良い。ＭとＮを小さく設定すれば詳細な検証が可能になるメリットがある反面、演算処理時間が大きくなるデメリットもある。水平方向のＪ回数分と垂直方向のＫ回数分の位置シフト用の加工パラメータは、物体検出モデル３００の構造に応じて、位置揺らぎが検証できる適切な値に設定することが望ましい。

　次に、図１１に示す尤度のヒストグラム８４１は、図１０に示す尤度分布８３１に対して確率統計演算手段８１０により算出された尤度（％）の度数を正規化（度数の合計が１．０）したものである。また、統計結果８１１は、尤度分布８３１に対する平均尤度（％）と尤度の標準偏差（％）と最大尤度（％）と最小尤度（％）を表示したものである。また、従来方法の尤度８５１は、図９に示す位置シフトの基準画像となるモデル入力画像２３１のピンポイントで算出した尤度を表示したものである。同様に、図１１に示す尤度のヒストグラム８４２と８４３、統計結果８１２と８１３、および、従来方法の尤度８５２と８５３は、それぞれ、図１０に示す尤度分布８３２と８３３に対応するものである。

　統計結果８１１、８１２、および、８１３の中の平均尤度（％）は、画面中の位置による揺らぎに対する平均的な検出精度や検出性能を検証する指標であり、高いほどモデル学習辞書３２０を含む物体検出モデル３００の性能が高いと考えて良い。また、尤度の標準偏差（％）は、画面中の位置による揺らぎに対する尤度のバラつきを示す指標であり、小さいほどモデル学習辞書３２０を含む物体検出モデル３００の安定性が高いと考えて良い。一方で、尤度の標準偏差（％）が大きい場合は、物体検出モデル３００そのものに潜在的な課題が存在する場合もあるが、どちらかというと画面中の検出物体位置に対するモデル学習辞書３２０の学習が不十分な場合のいずれかが考えられる。その際は、図１０で説明した尤度分布８３１、８３２、および、８３３を確認することでいずれの要因が強いかを検証することが可能である。また、最大尤度（％）と最小尤度（％）も合わせて検証することにより、尤度のバラつきが正規分布に近いか否かを判別することも可能となる。最大尤度（％）と最小尤度（％）は高いほどモデル学習辞書３２０を含む物体検出モデル３００の性能が高いと考えて良い。反面、極端に低くなるような場合は、物体検出モデル３００そのものに課題が存在するか、もしくは、画面中の検出物体位置に対するモデル学習辞書３２０の学習が不十分な場合のいずれかが考えられる。

　なお、本例では、検出対象が人物１名の場合を示しているが、検出対象が複人数の場合や、人物以外のクラスの物体が複数存在する場合は、それぞれの検出対象毎に、尤度分布とその統計結果、ＩＯＵ値分布とその統計結果、クラス識別分布とその統計結果を算出するものであっても良い。

　本発明の実施形態１による物体検出装置により算出された静止画に対する検証結果を示す図１０および図１１を使用して、検出物体として人物１名が存在する３種類にリサイズされたモデル入力画像２１０における、水平方向の入力画素が１２８ピクセル、垂直方向の入力画素が１２８ピクセルで構成される図３Ａ及び図３Ｂに示すＹＯＬＯモデル３６０（物体検出モデル３００）のより詳細な検出精度および検出性能の検証の一例を示す。

　その結果に基づき、物体検出モデル３００の構造やアルゴリズムに起因する課題に対して推論性能を向上させるための本発明のある実施形態における手段および方法を説明する。さらに、モデル学習辞書３２０の汎用性やロバスト性の分析と再学習などにより強化すべき内容とその手段と方法を説明する。これら両者による改善をもって物体検出装置の性能向上を図るものとする。

　なお、本例で説明する検証方法の一例は、物体検出を行うためのカメラなどを小型化、省電力化、および、低コスト化のために、ＹＯＬＯモデル３６０を動作させる手段として電子回路の実装面積や消費電力に制限が発生する場合や、メモリ容量などの制限や、搭載するＤＳＰ（デジタルシグナルプロセッサ）などの演算プロセッサの性能の制限などにより、ＹＯＬＯモデル３６０に入力する画像サイズを本来の推奨されているＹＯＬＯモデル３６０の入力画像サイズよりも小さくしなければならないような場合を想定した検証結果であり、推奨されている各種バリエーションのＹＯＬＯモデル３６０で必ず発生するものではない。

　前述したように、図１０に示す尤度分布８３１、８３２、および、８３３の中で、尤度が高い黒レベルの合間に、特定の格子状のようなパターンで灰色もしくは白レベルが強く尤度が低くなる領域が存在していることが確認できる。このため、図７Ａで説明したように、同一の物体を検出していても画像内の検出物体の位置が揺らいだ場合に、検出結果の１つである尤度が大きくバラつくという現象が発生すると考えられる。ここで、尤度分布８３１と８３２にみられる特定の格子状のパターンは、約８ピクセル四方のパターンを特徴としており、尤度分布８３３にみられる特定の格子状のパターンは、約１６ピクセル四方のパターンを特徴としている。これらパターンの特徴が異なる要因の１つは、検出物体のサイズに依存して図３Ａに示すＹＯＬＯモデル３６０の第二の検出レイヤ３６２（グリッドセル８×８）で検出されたものか、第三の検出レイヤ３６３（グリッドセル１６×１６）で検出されたものかによる違いと考えられる。検出対象の人物サイズが小さい側の尤度分布８３１と８３２は、第三の検出レイヤ３６３の検出結果が主に出力されたと考えられる。また、人物サイズが大きい側の尤度分布８３０は、第二の検出レイヤ３６２の検出結果が主に出力されたと考えられる。つまり、特定の格子状のパターンで尤度が低下する現象が発生する要因としては、図３Ｂに示す条件付きクラス確率３１５を算出する工程３１４のグリッドセルに依存すると考えられる。なお、図３Ａ及び図３Ｂではモデル入力画像２５５の水平画素数Ｘｉが１２８ピクセル、垂直画素数Ｙｉが１２８ピクセルで定義された場合の第二の検出レイヤ３６２のグリッドセルが８×８の例を示している。処理速度に優位性が高いとされるＹＯＬＯなどに代表されるｏｎｅ―ｓｔａｇｅ型のＤＮＮモデルを使用する場合は、物体の位置の検出とクラス識別（分類）を同時に行うために領域を任意のサイズのグリッドセルに分割して条件付きクラス確率であるＰｒ（Ｃｌａｓｓｉ｜Ｏｂｊｅｃｔ）３１５を演算するため、平行して算出されたＣｏｎｆｉｄｅｎｃｅ（信頼度）３１３と合わせて、最終検出工程３１６でＣｏｎｆｉｄｅｎｃｅｓｃｏｒｅ（信頼度スコア）３１７を算出する際に双方を乗算するため、条件付きクラス確率３１５のグリッドセルの構造に依存して境界上のＣｏｎｆｉｄｅｎｃｅｓｃｏｒｅ（信頼度スコア）３１７（尤度に相当）に画像中の人の位置の揺らぎに応じて特定の格子状のパターンの尤度が低下する現象に結び付いたと考えられる。本例の検証結果に示すような特定の格子状のようなパターンがある場合は、物体検出モデル３００のモデルそのものかアルゴリズムの構造に起因する潜在的な課題が存在している可能性が高いと考えられるため、深層学習などによるモデル学習辞書３２０の再学習のみでは推論性能の改善が困難と考えられる。そのため物体検出モデル３００のＤＮＮモデル３１０などニューラルネットワークの構成そのものの改良か、モデル前処理手段２００とモデル後処理手段４００を改良することによる推論手段および推論方法の改良により推論性能を向上する必要がある。ＤＮＮモデル３１０などニューラルネットワークそのものの構成を再開発するためには、長期の開発期間と工数がかかることが一般的であるため、本発明では、モデル前処理手段２００とモデル後処理手段４００の改良により連続的に画像が変化する動画に対して有効となる推論性能を改善することを提案する。

　詳細な実施の形態については後述するが、考え方の一例としては、前述した本発明のある実施の形態によるモデル前処理手段２００の位置シフト機能２２０により、各フレームの基準画像２２１に対して第二の検出レイヤ３６２のグリッドセル８×８に依存する尤度分布の水平方向に約１６ピクセル、垂直方向に約１６ピクセルの格子パターンの１／２に相当する水平方向に８ピクセル（Ｍ＝８）、垂直方向に８ピクセル（Ｎ＝８）をフレーム制御情報５００の位置シフト量５１０（Ｍ＝８、Ｎ＝８）に設定し、それに則って位置シフトさせた第一の位置シフト画像２２２と、さらに、各フレームの基準画像２２１に対して第三の検出レイヤ３６３のグリッドセル１６×１６に依存する尤度分布の水平方向に約８ピクセル、垂直方向に約８ピクセルの格子パターンの１／２に相当する水平方向に４ピクセル（Ｐ＝４）、垂直方向に４ピクセル（Ｑ＝４）をフレーム制御情報５００の位置シフト量５１０（Ｐ＝４、Ｑ＝４）に設定し、それに則って位置シフトさせた第二の位置シフト画像２２３とを生成して、フレーム毎に基準画像２２１と、第一の位置シフト画像２２２、もしくは、第二の位置シフト画像２２３と、もしくはそれらすべてを物体検出モデル３００に入力した後、モデル後処理手段４００の個体識別手段４１０により画像別の検出物体毎に個体識別後の検出枠を含む位置情報４０３と個体識別後の尤度情報４０４を算出し、画像選択手段４５０により、検出物体毎に、画像別の個体識別後の尤度情報４０４の中から最尤と考えられる最大尤度を選択して最尤の尤度情報４０２を算出し、選択された最尤の尤度情報４０２の画像が第一の位置シフト画像２２２であった場合は、検出枠補正手段４６０により、フレーム制御情報５００の位置シフト量５１０（Ｍ＝８、Ｎ＝８）に則って、個体識別後の検出枠を含む位置情報４０３に対して位置シフト機能２２０とは逆の方向に位置シフトを行って、最尤の尤度情報４０２に対応する最尤の検出枠を含む位置情報４０１を算出し、選択された最尤の尤度情報４０２の画像が第二の位置シフト画像２２３であった場合は、検出枠補正手段４６０により、フレーム制御情報５００の位置シフト量５１０（Ｐ＝４、Ｑ＝４）に則って、個体識別後の検出枠を含む位置情報４０３に対して位置シフト機能２２０とは逆の方向に位置シフトを行って、最尤の尤度情報４０２に対応する最尤の検出枠を含む位置情報４０１を算出するものであっても良い。

　この考え方により、物体検出モデルのＤＮＮを含むニューラルネットワークの検出レイヤが複数存在している場合においても、検出レイヤの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下を救済する効果が高まり、より確実に物体検出能力やクラス識別能力を向上することが可能となる。

　上述した、物体検出モデル３００の構造やアルゴリズムに起因する課題に対して推論性能を向上させるための手段および方法のみでは、モデル学習辞書３２０の各種変動条件に対する汎用性やロバスト性が不十分である場合に関しては解決できない場合が多い。そのため、モデル学習辞書３２０が不完全であるか否かの切り分けの方法や、その強化手法の見極めの方法と合わせて、検出物体のサイズと格子状のパターンで尤度低下がみられる現象について、図１１を使用して詳細に検証する。

　本来のＹＯＬＯの特徴を鑑みた場合は、人物サイズが小さくなる、もしくは、人物の距離が遠くなるにつれて検出精度や性能が低下することが知られている。ただし、新しいバージョンのＹＯＬＯでは改善報告もされている。本例で使用しているＹＯＬＯモデル３６０は、改善前のバージョンを採用しているものとする。まずは、従来の物体検出装置で算出された尤度に相当する従来方法の尤度（％）８５１、８５２、および、８５３の数値を比較すると、人物サイズが大きくなるにつれて、７０．１２％、４９．２７％、９４．４５％と変化する。ここで、基準サイズである従来方法の尤度（％）８５２の４９．２７％が、３０％縮小された場合の従来方法の尤度（％）８５１よりも尤度が大きく低下している。このため、本結果を確認しただけでは、基準サイズの人物に対するモデル学習辞書３２０の学習が不十分ではないかとの誤った結論に達してしまい、不用な追加学習を行ってしまう場合がある。反面、３０％縮小時の従来方法の尤度（％）８５１ある尤度７０．１２％は、合格点として、本来は追加学習すべきところを実施しないことで、モデル学習辞書３２０の汎用性やロバスト性の強化が不十分になることも考えられる。

　一方、本発明の実施形態１である物体検出装置により算出された静止画に対する統計結果を検証する。尤度のヒストグラム８４１、８４２、および、８４３は、図１０の尤度分布８３１、８３２、および、８３３の尤度がどのレベルで存在するかを示すものである。尤度が高い右端に発生頻度が集中している場合が、より良い性能であると考えてよい。また、バラつき、つまり、横軸の尤度の範囲が狭いほど安定していると考えて良い。尤度のヒストグラム８４１、８４２、および、８４３を確認した限りでは、従来方法の尤度（％）８５１、８５２、および、８５３と異なり、人物サイズが大きい順に尤度（％）が分布していることが分かる。図１０に示す尤度分布８３１、８３２、および、８３３と、尤度のヒストグラム８４１、８４２、および、８４３をそれぞれ統計分析した結果である統計結果８１１、８１２、および、８１３を確認すると、従来方法の尤度（％）８５１、８５２、および、８５３で確認した結果と異なり、平均尤度（％）は、人物サイズが大きくなるにつれて、本来のあるべき姿に近い、６０．８５％　＜　７１．８２％　＜　８９．９８％と順に高くなっていることが分かる。したがって、従来方法の尤度（％）８５１、８５２、および、８５３の結果は、物体検出モデルのＤＮＮを含むニューラルネットワークの構造やアルゴリズムに起因して発生すると考えられる特定の格子状のパターンに依存して画像中の人物の位置の揺らぎにより検出結果にブレが生じたことが明確になった。

　一方で、例えば、平均尤度（％）を７０％以上にすることをモデル学習辞書３２０の開発目標としていた場合は、平均尤度（％）の閾値を７０％に設定することで、３０％縮小したサイズの場合は、従来方法の尤度（％）の結果では、たまたま達成できているように見えたが、実際は、閾値以下となり９％以上足りていないため、３０％縮小した人物に対しては、追加学習によるモデル学習辞書３２０強化が必要であるということも洗い出すことができる。また、例えば、尤度の標準偏差（％）に対する閾値を１０％に設定して、１０％以上となる尤度の標準偏差（％）を確認してみると、１０％を超えている基準サイズの人物と３０％縮小した人物が対象として抽出される。この結果、基準サイズの人物と３０％縮小した人物に相当する物体に対して画面上の位置の揺らぎに対するモデル学習辞書３２０の強化が必要であることを確認することができる。さらに、尤度分布８３１と８３２、および、ヒストグラム８１１と８１２などの他の検証結果も参考にすることで、前述したＤＮＮの構成やアルゴリズムに依存する潜在的な尤度低下が発生している可能性があるためモデルやアルゴリズムの改良か、上述したような推論手段や方法の改良による尤度の救済対策などが必要になることを認識することができる。同様に最大尤度（％）と最小尤度（％）も各種判断の材料として活用が可能であり、例えば、最小尤度の閾値を３０％に設定した場合、３０％以下になる基準サイズの人物と３０％縮小した人物に関しては、物体位置がその位置で停止した場合は、検出不能に陥る恐れもあるため、モデル学習辞書の再学習のみでは回避できない可能性が高まるため、物体検出装置の有用性と安全性の面からも、上述したような推論手段や方法の改良による尤度の救済対策などが必要不可欠であると考えられる。

　さらに、一例として、図１２に、人物が遠距離（画面の上の方）に位置する水平方向に１２８ピクセル、垂直方向に１２８ピクセルのモデル入力画像８２６を基準画像として、モデル前処理手段２００の位置シフト機能２２０により水平方向および垂直方向に１ピクセルステップ（Ｍ＝１、Ｎ＝１）で、水平方向に６４回分（Ｊ＝６４）、垂直方向に６４回分（Ｋ＝６４）の位置シフトした合計６４×６４個のモデル入力画像２１０に対して、確率統計演算手段８１０を備えたロバスト性検証手段８００によって、尤度分布８３４を算出した結果を示す。尤度分布８３４は、白色から黒色の濃淡バー８０６にしたがって、画面上の人物が存在する位置（ピクセル単位）の揺らぎに対する尤度（％）のレベルに応じて、白色(尤度０％相当)から黒色（尤度１００％）の濃淡に色付けして表示したものである。人物１名に対する画面上の位置による揺らぎの検証範囲を広げることにより、尤度分布８３４の上側、つまり、点線で囲んだ領域８２７は、他の領域よりも白レベルが強く尤度が低い領域であることが分かる。本例では、点線で囲んだ領域８２７は、モデル入力画像８２６の人物の中心に対する右下側に広がる点線で囲んだ領域８２８に人物が存在した場合を示していると考えて良い。前述した、物体検出モデルのＤＮＮモデルを含むニューラルネットワークのアルゴリズムや構造に起因する特定の格子状のパターンも観測できるが、点線で囲んだ領域８２７は特に尤度が低い領域が広く存在していることが分かる。したがって、モデル入力画像の人物が点線で囲んだ領域８２８に位置する場合は、物体検出の能力が低いことが確認できるため、モデル学習辞書３２０の強化が必須であることに気づくことが可能である。したがって、モデル学習辞書３２０の強化が必要な箇所を抽出することで、後述する実施形態２の辞書学習手段６００により学習による強化を効率よく行うことができるため、モデル学習辞書３２０の検出物体や背景を含めた位置による揺らぎに対する汎用性やロバスト性の強化を図ることができる。

　なお、本例の検証方法では、検出対象が人物１名の場合を示しているが、検出対象が複人数の場合や、人物以外のクラスの物体が複数存在する場合は、それぞれの検出対象毎に、尤度分布とその統計結果、ＩＯＵ値分布とその統計結果、クラス識別分布とその統計結果を利用してモデル学習辞書３２０の強化対象を特定しても良い。さらに、物体検出モデル３００の課題抽出をしても良い。さらに、これらの抽出情報を参考に、後述する辞書学習手段６００によりモデル学習辞書３２０の汎用性やロバスト性を強化しても良い。

　なお、本例では、ＹＯＬＯに特定の制限を加えた場合に関して述べているが、物体検出モデル３００に、同じｏｎｅ―ｓｔａｇｅ型のＳＤＤなどのＤＮＮモデルに適用しても良い。また、物体の位置の検出とクラス識別を２段階に分けて処理するＥｆｆｉｃｉｅｎｔＤｅｔなどに代表されるｔｗｏ―ｓｔａｇｅ型のＤＮＮモデルに適用しても良い。また、ニューラルネットワークを使用しない物体検出モデルや機械学習モデルに適用しても良い。

　ここまでの実施の形態１で説明した画像処理手段１００とモデル前処理手段２００と物体検出モデル３００とモデル後処理手段４００の個体識別手段４１０とロバスト性検証手段８００による、静止画に対する推論性能の分析やロバスト性および汎用性の分析により、第一に、物体検出モデル３００のＤＮＮモデルなどのニューラルネットワークの構造やアルゴリズムに起因する課題の抽出と、フレーム制御情報５００の位置シフト量５１０とモデル前処理手段２００の位置シフト機能２２０と物体検出モデル３００とモデル後処理手段４００の個体識別手段４１０と画像選択手段４５０と検出枠補正手段４６０による、動画に対する推論性能を向上させるための手段と手法の確立とその有用性と必要性を認識することができた。第二に、深層学習などにより学習を施したモデル学習辞書３２０が不完全であるか否かの切り分けることができるため、さらに、モデル学習辞書３２０の汎用性やロバスト性に関して、改善や補強すべき内容を正確に抽出することが可能となったことで、再学習などによりモデル学習辞書３２０の汎用性とロバスト性の改善と向上を図ることも可能となった。これら第一と第二による改善をもって物体検出装置の性能向上を図ることが可能となる。

　次に、本発明のある実施形態による動画に対する推論性能を向上させるための手段と手法に関して、図１３により詳細に説明する。

　図１３Ａは、図１３Ｂの基準画像１ａ７０１中に、人物が存在している場合に、図１０や図１２で説明したのと同様の分析手法により算出した尤度分布を白色から黒色の濃淡バー８０６にしたがって、画面上の人物Ａ７０３が存在する位置（ピクセル単位）の揺らぎに対する尤度（％）のレベルに応じて、白色(尤度０％相当)から黒色（尤度１００％）の濃淡に色付けして表示したものであり、尤度分布７００は、格子状のパターンの一部を拡大して表示している。モデル入力画像である基準画像１ａ７０１の水平方向の画素数であるＸｉを１２８に、垂直方向の画素数であるＹｉを１２８に設定している場合であり、物体検出モデル３００は、図３Ａに示すＹＯＬＯモデル３６０において第一の検出レイヤ３６１のグリッドセルが４×４、第二の検出レイヤ３６２のグリッドセルが８×８、第三の検出レイヤ３６３のグリッドセルが１６×１６で構成されたＤＮＮモデルにより推論を実施するものとする。

　次に、推論性能を向上するに際して、前述したある実施形態によるモデル前処理手段２００の位置シフト機能２２０により図１３Ｂに示す基準画像１ａ７０１から第一の位置シフト画像１ｂ７０２を生成する際に参照するフレーム制御情報５００の位置シフト量５１０を選定する。

　ある実施形態によれば、フレーム制御情報５００の位置シフト量５１０は、物体検出モデル３００のＤＮＮモデルを含むニューラルネットワークモデルの入力画像の垂直方向と水平方向のピクセル数をニューラルネットワークモデルの１つ以上の検出レイヤ毎の水平方向と垂直方向のグリッドセルサイズで除算した値の１／２ピクセル値か、それに近似するピクセル値で決定されることを特徴とするものであってもよい。ここで、人物Ａ７０３は、物体サイズとして中サイズに分類されるため、特定の尤度が部分的に低下する格子状のパターンは、水平および垂直に約１６ピクセルの大きさを強く示しており、グリッドセルが８×８である第二の検出レイヤ３６２によって推論した結果が最も強く反映されていると考えられる。ここで、グリッドセルの１つのセルのサイズは、水平方向に１６ピクセル（＝１２８÷８）であり、垂直方向に１６ピクセル（＝１２８÷８）であることから、それぞれの１／２に相当する値である８ピクセルをフレーム制御情報５００の位置シフト量５１０の水平方向の位置シフト量（Ｍ＝８）と垂直方向の位置シフト量（Ｎ＝８）に設定して、モデル前処理手段２００の位置シフト機能２２０により基準画像１ａ７０１から左方向と上方向に８ピクセルシフトして第一の位置シフト画像１ｂ７０２を生成する。この時、物体検出モデル３００とモデル後処理手段４００の個体識別手段４１０により算出された図１３Ｂの基準画像１ａ７０１の人物Ａ７０３の個体識別後の尤度情報の尤度７０６は、３９％であり、図１３Ａにおいては７０６の尤度３９％に該当する。また、図１３Ｂの第一位置シフト画像１ｂ７０２の人物Ａ７０３の個体識別後の尤度情報の尤度７０７は、９５％であり、図１３Ａにおいては７０７の尤度９５％に該当する。この時、基準画像１ａ７０１の尤度７０６（３９％）は、図１３Ａの尤度分布７００に示すような特定の格子パターン状に尤度が低下する場合の尤度が低下する位置にあり、第一の位置シフト画像１ｂ７０２の尤度７０７（９５％）は、約１６ピクセルの特定の格子パターンの約１／２に相当する水平方向と垂直方向に８ピクセルシフトした場所に位置するため尤度低下の影響を受けていない。したがって、本例では、フレーム制御情報５００の位置シフト量５１０の水平方向の位置シフト量（Ｍ）と垂直方向の位置シフト量（Ｎ）をそれぞれ８に設定することが尤度低下を救済する際に有用となる。

　なお、第一の位置シフト画像１ｂ７０２を生成するに際して、加工により発生する有効画像が存在しない余白部分７９０は、有効画像の平均輝度レベルと等しい単一色で一様に塗りつぶして画像を生成することを特徴とするものであっても良い。

　次に、実際に尤度低下を救済するためのモデル後処理手段４００について、図１３Ｃを使用して説明する。

　ある実施形態によれば、物体検出モデル３００の推論結果である検出物体毎の基準画像２２１の補正前の検出枠を含む位置情報３０１と基準画像２２１の補正前の尤度情報３０２と、第一の位置シフト画像２２２の補正前の検出枠を含む位置情報３０１と第一の位置シフト画像２２２の補正前の尤度情報３０２とをモデル後処理手段４００の個体識別手段４１０に入力して個体識別を行った後の、基準画像２２１の個体識別後の尤度情報４０４と、第一の位置シフト画像２２２の個体識別後の尤度情報４０４とを比較して最大となる方の入力画像と推論結果を選択してフレーム毎に出力する画像選択手段４５０と、画像選択手段４５０により第一の位置シフト画像２２２の推論結果を選択した場合は、フレーム制御情報５００の位置シフト量５１０に則ってモデル前処理手段２００の生成時とは逆方向に位置シフトを施した検出枠を含む位置情報を出力する検出枠補正手段４６０を備えることを特徴とするものであってもよい。

　図１３Ｃでは、一例として、動画に対してフレーム１からフレーム４までを順次推論処理をしていく方法を示す。ここで、各フレーム間のフレームレートは、物体検出モデル３００による基準画像２２１と第一の位置シフト画像２２２の２つの画像の推論処理時間の合計を元に決定されるものであってもよい。画像処理手段１００の出力処理により、最初のフレーム１に対して画像が生成された後、フレーム制御情報５００の水平方向と垂直方向にそれぞれ８ピクセル（Ｍ＝８、Ｎ＝８）の位置シフト量５１０に則って、モデル前処理手段２００の位置シフト機能２２０により図１３Ｂの基準画像１ａ７０１と第一の位置シフト画像１ｂ７０２を生成する。同様にフレーム２に対しては基準画像２ａと第一の位置シフト画像２ｂを、フレーム３に対しては基準画像３ａと第一の位置シフト画像３ｂを、フレーム４に対しては基準画像４ａと第一の位置シフト画像４ｂを生成する。フレーム１に対して生成された基準画像１ａ７０１と第一の位置シフト画像１ｂ７０２は、物体検出モデル３００に入力されて、基準画像１ａ７０１に対する推論結果である１ａ検出結果７０８と第一の位置シフト画像１ｂ７０２に対する推論結果である１ｂ検出結果７０９を出力する。これらの出力結果は、疑似出力を含む補正前の検出枠を含む位置情報３０１と補正前の尤度情報３０２に相当する。同様に、フレーム２に対しては２ａ検出結果と２ｂ検出結果を、フレーム３に対しては３ａ検出結果と３ｂ検出結果を、フレーム４に対しては４ａ検出結果と４ｂ検出結果を算出する。フレーム１に対して算出された１ａ検出結果７０８と１ｂ検出結果７０９は、モデル後処理手段４００の個体識別手段４１０により基準画像１ａ７０１に対する検出物体毎に固有の１ａ識別結果７１０と第一の位置シフト画像１ｂ７０２に対する１ｂ識別結果７１１に識別されて出力される。これらの出力結果は、個体識別後の検出枠を含む位置情報４０３と個体識別後の尤度情報４０４を含むものであり、図１３Ｂの個体識別後の検出枠を含む位置情報７０４と７０５、および、個体識別後の尤度情報の尤度７０６（３９％）と７０７（９５％）に相当する。同様に、フレーム２に対しては２ａ識別結果と２ｂ識別結果を、フレーム３に対しては３ａ識別結果と３ｂ識別結果を、フレーム４に対しては４ａ識別結果と４ｂ識別結果を算出する。フレーム１に対して算出された１ａ識別結果７１０と１ｂ識別７１１は、モデル後処理手段４００の画像選択手段４５０により、基準画像１ａ７０１に対する尤度７０６（３９％）と第一の位置シフト画像１ｂ７０２に対する尤度７０７（９５％）を比較して、最大値となる尤度７０７（９５％）と第一の位置シフト画像１ｂ７０２を選択する。したがって、尤度救済の結果である最尤の出力結果として、最尤の尤度情報４０２は、第一の位置シフト画像１ｂ７０２に対する尤度７０７（９５％）とクラス識別情報を出力する。一方、最尤の検出枠を含む位置情報４０１に関しては、画像選択手段４５０により第一の位置シフト画像１ｂ７０２側が選択されたことで、図１３Ｂに示す個体識別後の検出枠を含む位置情報７０５は、本来の基準画像１ａ７０１に対して位置シフトを施した分だけズレが生じていることになる。したがって、画像選択手段４５０により第一の位置シフト画像１ｂ７０２が選択された場合は、検出枠補正手段４６０により、フレーム制御情報５００の水平方向と垂直方向にそれぞれ８ピクセル（Ｍ＝８、Ｎ＝８）の位置シフト量５１０に則って、モデル前処理手段２００の位置シフト機能２２０で位置シフトした方向とは逆方向に、右方向と下方向にそれぞれ８ピクセル分位置をシフトした結果を尤度救済の結果である最尤の検出枠を含む位置情報４０１として出力する。その際、画像選択手段４５０により選択された画像が基準画像１ａ７０１であった場合は、１ａ識別結果７１０をそれぞれ最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２としてそのまま出力する。同様に、フレーム２からフレーム４に対しても画像選択手段４５０と検出枠補正手段４６０により最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２を算出する。なお、最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２は、画像出力制御手段１１０とロバスト性検証手段８００に入力されるものであっても良い。ここで、最尤の検出枠を含む位置情報４０１は、例えば、検出枠の中心座標、水平方向の幅、垂直方向の高さを含む情報であり、最尤の尤度情報４０２は、例えば、検出精度を示す尤度とクラス識別情報である。

　これら一連のフレーム制御情報５００とモデル前処理手段２００と物体検出モデル３００とモデル後処理手段４００により、基準画像２２１のまま推論を実施する場合に比べて、物体検出モデル３００のＤＮＮモデルなどのニューラルネットワークの構造やアルゴリズムに起因する特定の格子状のパターンで尤度が低下するような場合でも、尤度の救済が可能となり、推論結果のバラつきも抑制することが可能となる。つまり、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下を救済して、物体検出能力やクラス識別能力を向上することが可能となる。

　次に、本発明のある実施形態による動画に対する推論性能を向上させるための手段と手法に関して、図１４により詳細に説明する。図１４Ａは、図１４Ｂの基準画像１ａ７２３中に、人物Ａ７２６と人物Ｂ７２７が存在している場合に、図１０や図１２で説明したのと同様の分析手法により算出した尤度分布を白色から黒色の濃淡バー８０６にしたがって、画面上の人物が存在する位置（ピクセル単位）の揺らぎに対する尤度（％）のレベルに応じて、白色(尤度０％相当)から黒色（尤度１００％）の濃淡に色付けして表示したものであり、尤度分布７２１は、人物Ａ７２６に対する尤度分布の格子状のパターンの一部を拡大して表示している。尤度分布７２２は、人物Ｂ７２７に対する尤度分布の格子状のパターンの一部を拡大して表示している。尤度モデル入力画像である基準画像１ａ７２３の水平方向の画素数であるＸｉを１２８に、垂直方向の画素数であるＹｉを１２８に設定している場合であり、物体検出モデル３００は、図３Ａに示すＹＯＬＯモデル３６０において第一の検出レイヤ３６１のグリッドセルが４×４、第二の検出レイヤ３６２のグリッドセルが８×８、第三の検出レイヤ３６３のグリッドセルが１６×１６で構成されたＤＮＮモデルにより推論を実施するものとする。

　次に、推論性能を向上するに際して、前述したある実施形態によるモデル前処理手段２００の位置シフト機能２２０により図１４Ｂに示す基準画像１ａ７２３から第一の位置シフト画像１ｂ７２４と第二のシフト画像１ｃ７２５を生成する際に参照するフレーム制御情報５００の位置シフト量５１０を選定する。

　ある実施形態によれば、フレーム制御情報５００の位置シフト量５１０の種類は、物体検出モデル３００のＤＮＮモデルを含むニューラルネットワークモデルの１つ以上の検出レイヤ毎の水平方向と垂直方向のグリッドセルサイズで除算した値の１／２ピクセル値か、それに近似するピクセル値で決定された中で、検出対象物のサイズに依存して検出精度、もしくは、検出頻度が高くなる検出レイヤに対応する位置シフト量５１０の順番にモデル前処理手段２００とモデル後処理手段４００で適用されることを特徴とするものであってもよい。ここで、人物Ａ７２６は、物体サイズとして中サイズに分類されるため、特定の尤度が部分的に低下する格子状のパターンは、図１４Ａの尤度分布７２１に示すように水平および垂直に約１６ピクセルの大きさを強く示しており、グリッドセルが８×８である第二の検出レイヤ３６２によって推論した結果が最も強く反映されていると考えられる。人物Ｂ７２７は、物体サイズとして小サイズに分類されるため、特定の尤度が部分的に低下する格子状のパターンは、図１４Ａの尤度分布７２２に示すように水平および垂直に約８ピクセルの大きさを強く示しており、グリッドセルが１６×１６である第三の検出レイヤ３６３によって推論した結果が最も強く反映されていると考えられる。ここで、人物Ｂ７２７に対しては、グリッドセルの１つのセルのサイズは、水平方向に８ピクセル（＝１２８÷１６）であり、垂直方向に８ピクセル（＝１２８÷１６）であることから、それぞれの１／２に相当する値である４ピクセルをフレーム制御情報５００の位置シフト量５１０の水平方向の位置シフト量（Ｍ＝８）と垂直方向の位置シフト量（Ｎ＝８）に設定して、モデル前処理手段２００の位置シフト機能２２０により基準画像１ａ７２３から左方向と上方向に４ピクセルシフトして第一の位置シフト画像１ｂ７２４を生成する。一方、人物Ａ７２６に対しては、グリッドセルの１つのセルのサイズは、水平方向に１６ピクセル（＝１２８÷８）であり、垂直方向に１６ピクセル（＝１２８÷８）であることから、それぞれの１／２に相当する値である８ピクセルをフレーム制御情報５００の位置シフト量５１０の水平方向の位置シフト量（Ｐ＝８）と垂直方向の位置シフト量（Ｑ＝８）に設定して、モデル前処理手段２００の位置シフト機能２２０により基準画像１ａ７２３から左方向と上方向に８ピクセルシフトして第二の位置シフト画像１ｃ７２５を生成する。その際、もう１つの位置シフト量としては、物体サイズが大の際に適用されると考えられるグリッドセルが４×４の第一の検出レイヤ３６１に合わせて、水平方向と垂直方向ともに１６ピクセルを設定する場合も考えられるが、第一の検出レイヤ３６１はグリッドセルが４×４と粗いこともあり基本的な推論精度が低くなる場合が多くあり、検出性能の面でも物体サイズが大きい場合でも第二の検出レイヤ３６２で代替することが可能なため適用を見合わせる。このように、推論に有効な検出レイヤに絞って、位置シフト量５１０の種類を選定しても良い。この時、物体検出モデル３００とモデル後処理手段４００の個体識別手段４１０により算出された図１４Ｂの基準画像１ａ７２３の人物Ａ７２６の個体識別後の尤度情報の尤度７３４は、３９％であり、図１４Ａにおいては７３４の尤度３９％に該当する。図１４Ｂの基準画像１ａ７２３の人物Ｂ７２７の個体識別後の尤度情報の尤度７３７は、９３％であり、図１４Ａにおいては７３７の尤度９３％に該当する。また、図１４Ｂの第一位置シフト画像１ｂ７２４の人物Ａ７２６の個体識別後の尤度情報の尤度７３５は、９６％であり、図１４Ａにおいては７３５の尤度９６％に該当する。図１４Ｂの第一位置シフト画像１ｂ７２４の人物Ｂ７２７の個体識別後の尤度情報の尤度７３８は、５７％であり、図１４Ａにおいては７３８の尤度５７％に該当する。また、図１４Ｂの第二位置シフト画像１ｃ７２５の人物Ａ７２６の個体識別後の尤度情報の尤度７３６は、９５％であり、図１４Ａにおいては７３６の尤度９５％に該当する。図１４Ｂの第二位置シフト画像１ｃ７２５の人物Ｂ７２７の個体識別後の尤度情報の尤度７３９は、９４％であり、図１４Ａにおいては７３９の尤度９４％に該当する。この時、人物Ａ７２６に関しては、基準画像１ａ７２３の尤度７３４（３９％）は、図１４Ａの尤度分布７２１に示すような特定の格子パターン状に尤度が低下する場合の尤度が低下する位置にあり、第一の位置シフト画像１ｂ７２４の尤度７３５（９６％）は、水平方向と垂直方向に４ピクセルシフトした場所に位置するため尤度低下の影響を受けていない。また、第二の位置シフト画像１ｃ７２５の尤度７３６（９５％）は、約１６ピクセルの特定の格子パターンの約１／２に相当する水平方向と垂直方向に８ピクセルシフトした場所に位置するため尤度低下の影響を受けていない。一方、人物Ｂ７２７に関しては、基準画像１ａ７２３の尤度７３７（９３％）は、図１４Ａの尤度分布７２２に示すような約８ピクセルの特定の格子パターン状に尤度が低下する場合の尤度が低下する位置から格子パターンの約１／２に相当する水平方向と垂直方向に４ピクセルシフトした場所に位置するため尤度低下の影響を受けていない。第一の位置シフト画像１ｂ７２４の尤度７３８（５７％）は、約８ピクセルの特定の格子パターン状に尤度が低下する場合の尤度が低下する位置にあるため尤度が低下している。また、第二の位置シフト画像１ｃ７２５の尤度７３９（９４％）は、さらに水平方向と垂直方向に４ピクセルシフトした場所に位置するため尤度低下の影響を受けていない。したがって、本例では、フレーム制御情報５００の位置シフト量５１０の１つ目の水平方向の位置シフト量（Ｍ）と垂直方向の位置シフト量（Ｎ）をそれぞれ４に設定し、２つ目の水平方向の位置シフト量（Ｐ）と垂直方向の位置シフト量（Ｑ）をそれぞれ８に設定することが尤度低下を救済する際に有用となる。

　なお、第一の位置シフト画像１ｂ７２４と第二の位置シフト画像１ｃ７２５を生成するに際して、加工により発生する有効画像が存在しない余白部分７９１と７９２は、有効画像の平均輝度レベルと等しい単一色で一様に塗りつぶして画像を生成することを特徴とするものであっても良い。

　次に、実際に尤度低下を救済するためのモデル後処理手段４００について、図１４Ｃを使用して説明する。

　ある実施形態によれば、物体検出モデル３００の推論結果である検出物体毎の基準画像２２１の補正前の検出枠を含む位置情報３０１と基準画像２２１の補正前の尤度情報３０２と、第一の位置シフト画像２２２の補正前の検出枠を含む位置情報３０１と第一の位置シフト画像２２２の補正前の尤度情報３０２と、第二の位置シフト画像２２３の補正前の検出枠を含む位置情報３０１と第二の位置シフト画像２２３の補正前の尤度情報３０２とをモデル後処理手段４００の個体識別手段４１０に入力して個体識別を行った後の、基準画像２２１の個体識別後の尤度情報４０４と、第一の位置シフト画像２２２の個体識別後の尤度情報４０４と、第二の位置シフト画像２２３の個体識別後の尤度情報４０４とを比較して、その中から最大となる１つの入力画像と推論結果を選択してフレーム毎に出力する画像選択手段４５０と、画像選択手段４５０により第一の位置シフト画像２２２の推論結果、もしくは、第二の位置シフト画像２２３の推論結果を選択した場合は、フレーム制御パラメータ５００の位置シフト量５１０に則ってモデル前処理手段２００の生成時とは逆方向に位置シフトを施した検出枠を含む位置情報を出力する検出枠補正手段４６０を備えることを特徴とするものであっても良い。

　図１４Ｃでは、一例として、動画に対してフレーム１からフレーム３までを順次推論処理をしていく方法を示す。ここで、各フレーム間のフレームレートは、物体検出モデル３００による基準画像２２１と第一の位置シフト画像２２２と第二の位置シフト画像２２３の３つの画像の推論処理時間の合計を元に決定されるものであってもよい。画像処理手段１００の出力処理により、最初のフレーム１に対して画像が生成された後、フレーム制御情報５００の水平方向と垂直方向にそれぞれ４ピクセル（Ｍ＝４、Ｎ＝４）と８ピクセル（Ｐ＝８、Ｑ＝８）の２種類の位置シフト量５１０に則って、モデル前処理手段２００の位置シフト機能２２０により図１４Ｂの基準画像１ａ７２３と第一の位置シフト画像１ｂ７２４と第二の位置シフト画像１ｃ７２５を生成する。同様にフレーム２に対しては基準画像２ａと第一の位置シフト画像２ｂと第二の位置シフト画像２ｃを、フレーム３に対しては基準画像３ａと第一の位置シフト画像３ｂと第二の位置シフト画像３ｃを生成する。フレーム１に対して生成された基準画像１ａ７２３と第一の位置シフト画像１ｂ７２４と第二の位置シフト画像１ｃ７２５は、物体検出モデル３００に入力されて、基準画像１ａ７２３に対する推論結果である１ａ検出結果７４０と第一の位置シフト画像１ｂ７２４に対する推論結果である１ｂ検出結果７４１と第二の位置シフト画像１ｃ７２５に対する推論結果である１ｃ検出結果７４２を出力する。これらの出力結果は、疑似出力を含む補正前の検出枠を含む位置情報３０１と補正前の尤度情報３０２に相当する。同様に、フレーム２に対しては２ａ検出結果と２ｂ検出結果と２ｃ検出結果を、フレーム３に対しては３ａ検出結果と３ｂ検出結果と３ｃ検出結果を算出する。フレーム１に対して算出された１ａ検出結果ｌ７４０と１ｂ検出結果７４１と１ｃ検出結果７４２は、モデル後処理手段４００の個体識別手段４１０により基準画像１ａ７２３に対する検出物体毎に固有の１ａ識別結果７４３と第一の位置シフト画像１ｂ７２４に対する１ｂ識別結果７４４と第二の位置シフト画像１ｃ７２５に対する１ｃ識別結果７４５に識別されて出力される。これらの出力結果は、検出物体毎の個体識別後の検出枠を含む位置情報４０３と個体識別後の尤度情報４０４を含むものであり、図１４Ｂの人物Ａ７２６に対する個体識別後の検出枠を含む位置情報７２８と７２９と７３０、および、人物Ａ７２６に対する個体識別後の尤度情報の尤度７３４（３９％）と７３５（９６％）と７３６（９５％）に相当し、人物Ｂ７２７に対する個体識別後の検出枠を含む位置情報７３１と７３２と７３３、および、人物Ｂ７２７に対する個体識別後の尤度情報の尤度７３７（９３％）と７３８（５７％）と７３９（９４％）に相当する。同様に、フレーム２に対しては２ａ識別結果と２ｂ識別結果と２ｃ識別結果を、フレーム３に対しては３ａ識別結果と３ｂ識別結果と３ｃ識別結果を算出する。フレーム１に対して算出された１ａ識別結果７４３と１ｂ識別７４４と１ｃ識別７４５は、モデル後処理手段４００の画像選択手段４５０により、人物Ａ７２６に対しては、基準画像１ａ７２３に対する尤度７３４（３９％）と第一の位置シフト画像１ｂ７２４に対する尤度７３５（９６％）と第二の位置シフト画像１ｃ７２５に対する尤度７３６（９５％）を比較して、最大値となる尤度７３５（９６％）と第一の位置シフト画像１ｂ７２４を選択する。人物Ｂ７２７に対しては、基準画像１ａ７２３に対する尤度７３７（９３％）と第一の位置シフト画像１ｂ７２４に対する尤度７３８（５７％）と第二の位置シフト画像１ｃ７２５に対する尤度７３９（９４％）を比較して、最大値となる尤度７３９（９４％）と第二の位置シフト画像１ｃ７２５を選択する。したがって、尤度救済の結果である最尤の出力結果として、人物Ａ７２６の最尤の尤度情報４０２は、第一の位置シフト画像１ｂ７２４に対する尤度７３５（９６％）とクラス識別情報を出力する。人物Ｂ７２７の最尤の尤度情報４０２は、第二の位置シフト画像１ｃ７２５に対する尤度７３９（９４％）とクラス識別情報を出力する。一方、人物Ａ７２６の最尤の検出枠を含む位置情報４０１に関しては、画像選択手段４５０により第一の位置シフト画像１ｂ７２４側が選択されたことで、図１４Ｂに示す個体識別後の検出枠を含む位置情報７２９は、本来の基準画像１ａ７２３に対して位置シフトを施した分だけズレが生じていることになる。したがって、画像選択手段４５０により第一の位置シフト画像１ｂ７２４が選択された場合は、検出枠補正手段４６０により、フレーム制御情報５００の水平方向と垂直方向にそれぞれ４ピクセル（Ｍ＝４、Ｎ＝４）の位置シフト量５１０に則って、モデル前処理手段２００の位置シフト機能２２０で位置シフトした方向とは逆方向に、右方向と下方向にそれぞれ４ピクセル分位置をシフトした結果を尤度救済の結果である最尤の検出枠を含む位置情報４０１として出力する。また、人物Ｂ７２７の最尤の検出枠を含む位置情報４０１に関しては、画像選択手段４５０により第二の位置シフト画像１ｃ７２５側が選択されたことで、図１４Ｂに示す個体識別後の検出枠を含む位置情報７３３は、本来の基準画像１ａ７２３に対して位置シフトを施した分だけズレが生じていることになる。したがって、画像選択手段４５０により第二の位置シフト画像１ｃ７２５が選択された場合は、検出枠補正手段４６０により、フレーム制御情報５００の水平方向と垂直方向にそれぞれ８ピクセル（Ｐ＝８、Ｑ＝８）の位置シフト量５１０に則って、モデル前処理手段２００の位置シフト機能２２０で位置シフトした方向とは逆方向に、右方向と下方向にそれぞれ８ピクセル分位置をシフトした結果を尤度救済の結果である最尤の検出枠を含む位置情報４０１として出力する。その際、画像選択手段４５０により選択された画像が基準画像１ａ７２３であった場合は、１ａ識別結果７４３をそれぞれ最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２としてそのまま出力する。同様に、フレーム２からフレーム３に対しても画像選択手段４５０と検出枠補正手段４６０により最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２を算出する。

　これら一連のフレーム制御情報５００とモデル前処理手段２００と物体検出モデル３００とモデル後処理手段４００により、基準画像２２１のまま推論を実施する場合に比べて、物体検出モデル３００のＤＮＮモデルなどのニューラルネットワークの構造やアルゴリズムに起因する特定の格子状のパターンで尤度が低下するような場合でも、検出物体サイズに適した方法で尤度の救済が可能となり、推論結果のバラつきも抑制することが可能となる。したがって、物体検出モデルの検出レイヤが複数存在している場合に、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下を救済して、物体検出能力やクラス識別能力を向上することが可能となる。

　なお、ある実施形態によれば、フレーム制御情報５００の位置シフト量５１０の種類が、モデル前処理手段２００の位置シフト画像の種類よりも多い場合は、複数の位置シフト量５１０の平均値を位置シフト量５１０として使用することを特徴とするものであってもよい。一例として、図１４で説明したように物体サイズが異なる人物Ａ７２６と人物Ｂ７２７に適するように２つの検出レイヤのグリッドセルに依存した２種類の位置シフト量５１０を候補として用意していた場合に、物体検出モデル３００を動作させるためのハードウェア、ソフトウェア、演算プロセッサの能力制限により、図１３で説明したように１フレームに２つの画像までしか推論処理ができない場合など、候補であった２種の位置シフト量を平均化して６＝（（８＋４）÷２）ピクセル分を水平方向と垂直方向にシフトするように１つの位置シフト量として設定して動作させてもよい。また、救済効果が大きく期待できる位置シフト量に絞って設定しても良い。また複数種類の位置シフト量候補の内の最も位置シフト量が小さいものに絞って設定しても良い。

　これらより、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下を平均的に救済して、安定して物体検出能力やクラス識別能力を向上することが可能となり、さらに、フレーム毎に同時に処理する位置シフト画像の種類を制限することで物体検出モデルの推論時の処理負荷を軽減ことが可能となる。したがって、搭載する演算プロセッサなどの性能に制限を設けた場合でも、物体検出の精度や性能を担保しつつ、低レイテンシーとリアルタイム性を実現することが可能となる。

　なお、ある実施形態によれば、フレーム制御情報５００の位置シフト量５１０の種類が３種類以上存在し、かつ、モデル前処理手段２００の位置シフト画像の種類が３種類以上存在する場合は、フレーム制御情報５００の位置シフト量５１０に則って、モデル前処理手段２００で基準画像２２１から３つ以上の位置シフト画像を生成し、基準画像２２１と合わせてフレーム毎に物体検出モデル３００に入力し、モデル後処理手段４００は、画像選択手段４５０により異なる４種類以上の画像に対する推論結果の中から最大となる１つの入力画像と推論結果を選択してフレーム毎に出力し、基準画像２２１の推論結果以外を選択した場合は、フレーム制御情報５００の位置シフト量５１０に則って、モデル前処理手段２００の生成時とは逆方向に位置シフトを施した検出枠を含む位置情報を出力する検出枠補正手段４６０を備えることを特徴とするものであってもよい。図１４の説明に加えて第三の位置シフト画像などを生成して尤度救済を実施する場合などに該当する。

　これにより、ＤＮＮを含むニューラルネットワークが多数の検出レイヤで構成される場合にも、各検出レイヤに対する最適な位置シフト量が適用できるため、検出対象物の位置とサイズの揺らぎに対する推論精度の低下に対する救済効果がさらに高まり、より確実に物体検出能力やクラス識別能力を向上することが可能となる。ただし、１フレーム中に複数の画像に対して物体検出を行う必要があるため、低レイテンシーやリアルタイム性の欠如など影響が発生する場合もあるため、ハードウェア、ソフトウェア、演算プロセッサなどの能力に応じて、適切な救済手法を適用することが望ましい。

　次に、本発明のある実施形態によるハードウェア、ソフトウェア、演算プロセッサなどの性能面での制限により１フレーム当たりに１画像しか推論処理が実施できない場合を想定して、推論性能を向上させるための手段と手法に関して、図１５により詳細に説明する。

　ある実施形態によれば、モデル前処理手段２００は、フレーム制御情報５００の位置シフト量５１０に則って、ｎ（ｎは０を含む任意の２の倍数）フレーム目の基準画像２２１は、そのまま物体検出モデル３００に入力し、ｎ＋１フレーム目の基準画像２２１に対しては、水平方向にＭピクセル（Ｍは任意の小数）および垂直方向にＮピクセル（Ｎは任意の小数）の位置シフトを施した第一の位置シフト画像２２２を生成して物体検出モデル３００に入力し、物体検出モデル３００は、モデル前処理手段２００から出力されたｎフレーム目の基準画像２２１とｎ＋１フレーム目の第一の位置シフト画像２２２に対してフレーム毎に交互に物体位置とクラス識別と尤度を推論し、物体検出モデル３００の推論結果である検出物体毎のｎフレーム目の基準画像２２１の補正前の検出枠を含む位置情報３０１と基準画像２２１の補正前の尤度情報３０２と、ｎ＋１フレーム目の第一の位置シフト画像２２２の補正前の検出枠を含む位置情報３０１と第一の位置シフト画像２２２の補正前の尤度情報３０２とをモデル後処理手段４００の個体識別手段４１０に入力して個体識別を行った後、画像選択手段４５０により、ｎフレーム目の基準画像２２１の個体識別後の尤度情報４０４と、ｎ＋１フレーム目の第一の位置シフト画像２２２の個体識別後の尤度情報４０４とを比較して、最大となる方の入力画像と推論結果を選択してｎ＋１フレーム目の結果として出力し、ｎ＋１フレーム目の第一の位置シフト画像２２２の個体識別後の尤度情報４０４と、ｎ＋２フレーム目の基準画像２２１の個体識別後の尤度情報４０４とを比較して最大となる方の入力画像と推論結果を選択してｎ＋２フレーム目の結果として出力し、１フレーム分遅延して現在のフレームと１フレーム前の過去フレームの情報から推論結果を最大化するものであっても良い。さらに、画像選択手段４５０によりｎ＋１フレーム目の第一の位置シフト画像２２２の推論結果を選択した場合は、フレーム制御パラメータ５００の位置シフト量５１０に則ってモデル前処理手段２００の生成時とは逆方向に位置シフトを施した検出枠を含む位置情報を出力する検出枠補正手段４６０を備えることを特徴とするものであっても良い。

　図１５Ａは、図１５Ｂのｎ（ｎは２の倍数）番目のフレームｆｎの基準画像ｎ７５１中に、人物Ａ７５３が存在している場合に、図１０や図１２で説明したのと同様の分析手法により算出した尤度分布を白色から黒色の濃淡バー８０６にしたがって、画面上の人物Ａ７５３と７５４が存在する位置（ピクセル単位）の揺らぎに対する尤度（％）のレベルに応じて、白色(尤度０％相当)から黒色（尤度１００％）の濃淡に色付けして表示したものであり、尤度分布７５０は、格子状のパターンの一部を拡大して表示している。モデル入力画像である基準画像ｎ７５１の水平方向の画素数であるＸｉを１２８に、垂直方向の画素数であるＹｉを１２８に設定している場合であり、物体検出モデル３００は、図３Ａに示すＹＯＬＯモデル３６０において第一の検出レイヤ３６１のグリッドセルが４×４、第二の検出レイヤ３６２のグリッドセルが８×８、第三の検出レイヤ３６３のグリッドセルが１６×１６で構成されたＤＮＮモデルにより推論を実施するものとする。

　次に、推論性能を向上するに際して、前述したある実施形態によるモデル前処理手段２００の位置シフト機能２２０により図１５Ｂに示すフレームｆｎの次フレームにあたるフレームｆｎ＋１の基準画像ｎ＋１から第一の位置シフト画像ｓｎ＋１７５２を生成する際に参照するフレーム制御情報５００の位置シフト量５１０を選定する。

　本例では、人物Ａ７５３と７５４は、物体サイズとして中サイズに分類されるため、特定の尤度が部分的に低下する格子状のパターンは、水平および垂直に約１６ピクセルの大きさを強く示しており、グリッドセルが８×８である第二の検出レイヤ３６２によって推論した結果が最も強く反映されていると考えられるため８ピクセルをフレーム制御情報５００の位置シフト量５１０の水平方向の位置シフト量（Ｍ＝８）と垂直方向の位置シフト量（Ｎ＝８）に設定して、モデル前処理手段２００の位置シフト機能２２０により奇数フレームの場合のみフレームｆｎ＋１の基準画像ｎ＋１から左方向と上方向に８ピクセルシフトして第一の位置シフト画像ｓｎ＋１７５２を生成する。偶数フレームｆｎは位置シフトを行わず基準画像ｎ７５１のままとする。この時、物体検出モデル３００とモデル後処理手段４００の個体識別手段４１０により算出された図１５Ｂの基準画像ｎ７５１の人物Ａ７５３の個体識別後の尤度情報の尤度７５７は、３９％であり、図１５Ａにおいては７５７の尤度３９％に該当する。また、図１５Ｂの第一の位置シフト画像ｓｎ＋１７５２の人物Ａ７５４の個体識別後の尤度情報の尤度７５８は、９５％であり、図１５Ａにおいては７５８の尤度９５％に該当する。ここでは前提として、人物Ａ７５３と７５４はフレームｆｎとフレームｆｎ＋１の間で静止している状態である場合を示している。人物Ａ７５３と７５４がフレームｆｎとフレームｆｎ＋１の間で動いていた場合は、尤度分布７５０の分布図も変化することになり、その際の図１５Ａの尤度７５０の位置に該当する尤度が適用される。以下、フレームｆｎとフレームｆｎ＋１の間で人物Ａ７５３と７５４が静止している場合について説明する。この時、フレームｆｎの基準画像ｎ７５１の尤度７５７（３９％）は、図１５Ａの尤度分布７５０に示すような特定の格子パターン状に尤度が低下する場合の尤度が低下する位置にあり、フレームｆｎ＋１の第一の位置シフト画像ｓｎ＋１７５２の尤度７５８（９５％）は、約１６ピクセルの特定の格子パターンの約１／２に相当する水平方向と垂直方向に８ピクセルシフトした場所に位置するため尤度低下の影響を受けていない。したがって、本例では、フレーム制御情報５００の位置シフト量５１０の水平方向の位置シフト量（Ｍ）と垂直方向の位置シフト量（Ｎ）をそれぞれ８に設定することが尤度低下を救済する際に有用となる。

　なお、フレームｆｎ＋１の第一の位置シフト画像ｓｎ＋１７５２を生成するに際して、加工により発生する有効画像が存在しない余白部分７９３は、有効画像の平均輝度レベルと等しい単一色で一様に塗りつぶして画像を生成することを特徴とするものであっても良い。

　次に、実際に尤度低下を救済するためのモデル後処理手段４００について、図１５Ｃを使用して説明する。

　図１５Ｃでは、一例として、動画に対してフレームｆｎからフレームｆｎ＋７までを順次推論処理をしていく方法を示す。ここで、各フレーム間のフレームレートは、物体検出モデル３００による１つの画像の推論処理時間を元に決定されるものであってもよい。画像処理手段１００の出力処理により、最初のフレームｆｎ対して画像が生成された後、フレーム制御情報５００の水平方向と垂直方向にそれぞれ８ピクセル（Ｍ＝８、Ｎ＝８）の位置シフト量５１０に則って、モデル前処理手段２００の位置シフト機能２２０により図１５Ｂの奇数フレームであるフレームｆｎ＋１の基準画像ｎ＋１に対して第一の位置シフト画像ｓｎ＋１７５２を生成する。同様に奇数フレームであるｆｎ＋３とｆｎ＋５とｆｎ＋７は、それぞれの基準画像ｎ＋３とｎ＋５とｎ＋７に対する第一の位置シフト画像ｓｎ＋３とｓｎ＋５とｓｎ＋７を生成する。その時、偶数フレームであるフレームｆｎとｆｎ＋２とｆｎ＋４とｆｎ＋６は、位置シフトを行わず基準画像ｎ７５１とｎ＋２とｎ＋４とｎ＋６をそのまま出力する。フレームｆｎの基準画像ｎ７５１とフレームｆｎ＋１の第一の位置シフト画像ｓｎ＋１７５２は、物体検出モデル３００に入力されて、フレームｆｎの基準画像ｎ７５１に対する推論結果であるｎ検出結果７５９とフレームｆｎ＋１の第一の位置シフト画像ｓｎ＋１７５２に対する推論結果であるｓｎ＋１検出結果７６０を出力する。これらの出力結果は、疑似出力を含む補正前の検出枠を含む位置情報３０１と補正前の尤度情報３０２に相当する。同様に、偶数フレームｆｎ＋２とｆｎ＋４とｆｎ＋６に対してはｎ＋２検出結果とｎ＋４検出結果とｎ＋６検出結果を、奇数フレームｆｎ＋３とｆｎ＋５とｆｎ＋７に対してはｓｎ＋３検出結果とｓｎ＋５検出結果とｓｎ＋７検出結果を算出する。フレームｆｎに対して算出されたｎ検出結果７５９とフレームｆｎ＋１に対して算出されたｓｎ＋１検出結果７６０は、モデル後処理手段４００の個体識別手段４１０によりフレームｆｎの基準画像ｎ７５１に対する検出物体毎に固有のｎ識別結果７６１とフレームｆｎ＋１の第一の位置シフト画像ｓｎ＋１７５２に対するｓｎ＋１識別結果７６２に識別されて出力される。これらの出力結果は、個体識別後の検出枠を含む位置情報４０３と個体識別後の尤度情報４０４を含むものであり、図１５Ｂの個体識別後の検出枠を含む位置情報７５５と７５６、および、個体識別後の尤度情報の尤度７５７（３９％）と７５８（９５％）に相当する。同様に、偶数フレームｆｎ＋２とｆｎ＋４とｆｎ＋６に対してはｎ＋２識別結果とｎ＋４識別結果とｎ＋６識別結果を、奇数フレームｆｎ＋３とｆｎ＋５とｆｎ＋７に対してはｓｎ＋３識別結果とｓｎ＋５識別結果とｓｎ＋７識別結果を算出する。フレームｆｎに対して算出されたｎ識別結果７６１とフレームｆｎ＋１に対して算出されたｓｎ＋１識別結果７６２は、モデル後処理手段４００の画像選択手段４５０により、フレームｆｎの基準画像ｎ７５１に対する尤度７５７（３９％）とフレームｆｎ＋１の第一の位置シフト画像ｓｎ＋１７５２に対する尤度７５８（９５％）を比較して、最大値となる尤度７５８（９５％）とフレームｆｎ＋１の第一の位置シフト画像ｓｎ＋１７５２を選択する。したがって、尤度救済の結果である最尤の出力結果として、最尤の尤度情報４０２は、フレームｆｎ＋１の第一の位置シフト画像ｓｎ＋１７５２に対する尤度７５８（９５％）とクラス識別情報を出力する。一方、最尤の検出枠を含む位置情報４０１に関しては、画像選択手段４５０により奇数フレームであるフレームｆｎ＋１の第一の位置シフト画像ｓｎ＋１７５２側が選択されたことで、図１５Ｂに示す個体識別後の検出枠を含む位置情報７５６は、本来のフレームｆｎ＋１の基準画像ｎ＋１およびフレームｆｎの基準画像ｎ７５１に対して位置シフトを施した分だけズレが生じていることになる。したがって、画像選択手段４５０により奇数フレームであるフレームｆｎ＋１の第一の位置シフト画像ｓｎ＋１７５２が選択された場合は、検出枠補正手段４６０により、フレーム制御情報５００の水平方向と垂直方向にそれぞれ８ピクセル（Ｍ＝８、Ｎ＝８）の位置シフト量５１０に則って、モデル前処理手段２００の位置シフト機能２２０で位置シフトした方向とは逆方向に、右方向と下方向にそれぞれ８ピクセル分位置をシフトした結果を尤度救済の結果である最尤の検出枠を含む位置情報４０１として出力する。その際、画像選択手段４５０により選択された画像が偶数フレームであるフレームｆｎの基準画像ｎ７５１であった場合は、ｎ識別結果７６１をそれぞれ最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２としてそのまま出力する。つまり、偶数フレームであるフレームｆｎと奇数フレームであるフレームｆｎ＋１のフレームを跨ぐ結果からフレームｆｎ＋１のタイミングで尤度を救済した最尤の推論結果を出力するものであっても良い。フレームｆｎ＋２のタイミングでは、奇数フレームであるフレームｆｎ＋１のｓｎ＋１識別結果７６２と偶数フレームｆｎ＋２のｎ＋２識別結果を使用して、画像選択手段４５０により最尤の尤度を判定して選択した後、奇数フレームのｆｎ＋１が選択された場合は、検出枠補正手段４６０により検出枠を含む位置情報を補正する。同様に、フレームｆｎ＋３からフレームｆｎ＋７に対しても現フレームと１つ前のフレームの推論結果を元に画像選択手段４５０と検出枠補正手段４６０により最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２を算出する。

　これら一連のフレーム制御情報５００とモデル前処理手段２００と物体検出モデル３００とモデル後処理手段４００により、基準画像２２１のまま推論を実施する場合に比べて、物体検出モデル３００のＤＮＮモデルなどのニューラルネットワークの構造やアルゴリズムに起因する特定の格子状のパターンで尤度が低下するような場合でも、尤度の救済が可能となり、推論結果のバラつきも抑制することが可能となる。つまり、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下を救済して、物体検出能力やクラス識別能力を向上することが可能となり、さらに、フレーム毎に推論する画像を１つに限定することができるため、物体検出モデルの推論時の処理負荷を軽減ことが可能となる。したがって、特に検出対象物が静止している状態で物体検出を行う場合や、搭載する演算プロセッサなどの性能に制限を設けた場合でも、物体検出の精度や性能を担保しつつ、低レイテンシーとリアルタイム性を実現することが可能となる。

　ただし、検出物体が動的な状況においては、図１３および図１４で説明した手法と方法に対して救済効果が低下する場合もあるため、ハードウェア、ソフトウェア、演算プロセッサなどの能力に応じて、適切な救済手法を適用することが望ましい。

　さらに、ある実施形態によれば、モデル前処理手段２００は、フレーム制御情報５００の位置シフト量５１０に則って、ｍ（ｍは０を含む任意の３の倍数）フレーム目の基準画像２２１とｍ＋１フレーム目の基準画像２２１から生成した第一の位置シフト画像２２２に加えて、ｍ＋２フレーム目の基準画像２２１に対しては、水平方向にＰピクセル（Ｐは任意の小数）および垂直方向にＱピクセル（Ｑは任意の小数）の位置シフトを施した第二の位置シフト画像２２３を生成し、ｍフレーム目に基準画像２２１を、ｍ＋１フレーム目に第一の位置シフト画像２２２を、ｍ＋２フレーム目に第二の位置シフト画像２２３をフレーム毎に順番に物体検出モデル３００に入力し、物体検出モデル３００によりモデル前処理手段２００から出力されたｍフレーム目の基準画像２２１とｍ＋１フレーム目の第一の位置シフト画像２２２とｍ＋２フレーム目の第二の位置シフト画像２２３とに対してフレーム毎に順番に物体位置とクラス識別と尤度を推論し、それぞれの結果に対してモデル後処理手段４００の個体識別手段４１０により個体識別処理を施した後、画像選択手段４５０が、検出物体毎のｍフレーム目の基準画像２２１の個体識別後の検出枠を含む位置情報４０３と基準画像２２１の個体識別後の尤度情報４０３と、ｍ＋１フレーム目の第一の位置シフト画像２２２の個体識別後の検出枠を含む位置情報４０３と第一の位置シフト画像２２２の個体識別後の尤度情報４０３とｍ＋２フレーム目の第二の位置シフト画像２２３の個体識別後の検出枠を含む位置情報４０３と第二の位置シフト画像２２３の個体識別後の尤度情報４０３とを比較して最大となる方の入力画像と推論結果を選択してｍ＋２フレーム目の結果として出力し、ｍ＋１フレーム目とｍ＋２フレーム目とｍ＋３フレーム目の推論結果を比較して最大となる方の入力画像と推論結果を選択してｍ＋３フレーム目の結果として出力し、ｍ＋２フレーム目とｍ＋３フレーム目とｍ＋４フレーム目の推論結果を比較して最大となる方の入力画像と推論結果を選択してｍ＋４フレーム目の結果として出力し、２フレーム分遅延して現在のフレームと２フレーム前までの過去フレームの情報から推論結果を最大化するものであっても良い。その際、画像選択手段４５０によりｍ＋１フレーム目の第一の位置シフト画像２２２の推論結果を選択した場合とｍ＋２フレーム目の第二の位置シフト画像２２３の推論結果を選択した場合は、フレーム制御情報５００の位置シフト量５１０に則ってモデル前処理手段２００の生成時とは逆方向に位置シフトを施した検出枠を含む位置情報を出力する検出枠補正手段４６０を備えることを特徴とするものであっても良い。

　これにより、特に、物体検出モデルの検出レイヤが複数存在している場合に、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下をより良く救済して、物体検出能力やクラス識別能力を向上することが可能となり、さらに、フレーム毎に推論する画像を１つに限定することができるため、物体検出モデルの推論時の処理負荷を軽減ことが可能となる。したがって、特に静止画に対する物体検出を行う場合や、搭載する演算プロセッサなどの性能に制限を設けた場合でも、物体検出の精度や性能を担保しつつ、低レイテンシーとリアルタイム性を実現することが可能となる。

　さらに、ある実施形態によれば、フレーム制御情報５００の位置シフト量５１０の種類が３種類以上存在し、かつ、モデル前処理手段２００で生成される位置シフト画像の種類が３種類以上存在する場合は、フレーム制御情報５００の位置シフト量５１０に則って、モデル前処理手段２００でｒ（ｒは０を含む任意のｓ（ｓは４以上の任意の整数）の倍数）フレーム目は基準画像２２１を、ｒ＋１フレームからｒ＋ｓ－１フレーム目は各フレームの基準画像２２１から加工したｓ－１個の位置シフト画像を、フレーム順に物体検出モデル３００に入力し、モデル後処理手段４００の個体識別手段４１０により個体識別処理を施した後、画像選択手段４５０により現在のフレームとｓ－１フレーム前の過去フレームの推論結果の中から最大となる１つの入力画像と推論結果を選択して現在のフレームの推論結果として出力し、ｒフレーム目の基準画像２２１の推論結果以外、つまり、位置シフトを施した画像を選択した場合は、フレーム制御情報５００の位置シフト量５１０に則って、モデル前処理手段２００の生成時とは逆方向に位置シフトを施した検出枠を含む位置情報を出力する検出枠補正手段４６０を備えることを特徴とするものであっても良い。

　これにより、ＤＮＮを含むニューラルネットワークが多数の検出レイヤで構成される場合にも、各検出レイヤに対する最適な位置シフト量が適用できるため、検出対象物の位置とサイズの揺らぎに対する推論精度の低下に対する救済効果がさらに高まり、より確実に物体検出能力やクラス識別能力を向上させることが可能となり、さらに、フレーム毎に推論する画像を１つに限定することができるため、物体検出モデルの推論時の処理負荷を軽減ことが可能となる。したがって、特に静止画に対する物体検出を行う場合や、搭載する演算プロセッサなどの性能に制限を設けた場合でも、物体検出の精度や性能を担保しつつ、低レイテンシーとリアルタイム性を実現することが可能となる。

　次に、モデル前処理手段２００の位置シフト機能２２０により基準画像２２１に位置シフトを施した際に有効な画像データが存在しない余白が発生した際の処理方法について説明する。

　ある実施形態によれば、モデル前処理手段２００は、フレーム制御情報５００に則って、物体検出モデル３００に入力する画像に対して位置シフトを含め加工するに際して、加工により発生する有効画像が存在しない余白部分は、有効画像の平均輝度レベルと等しい単一色で一様に塗りつぶして画像を生成することを特徴とするものであっても良い。

　モデル前処理手段２００は、物体検出モデル３００に入力する複数のモデル入力画像２１０を加工するに際して、図８と図９と後述する図１７と図１８の２８１ないし２８８と、図１３Ｂ、図１４Ｂ、図１５Ｂ、および、図２５Ａの７９０ないし７９４で示す位置シフト処理などにより発生する有効画像が存在しない余白部分は、有効である画像の平均輝度レベルを算出して、その平均輝度レベルと等しい単一色で一様に塗りつぶして画像を生成する余白パディング機能２８０を備えるものであっても良い。また、画像処理手段１００の出力画像に存在する有効画像領域で余白部分を補間するものであっても良い。また、余白部分を学習や推論に影響を与えないような画像で埋めても良い。

　これらモデル前処理手段２００が余白パディング機能２８０を備えることにより、余白部分の特徴量が、物体検出モデルの推論精度に与える影響を軽減できるため、画像中の物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下をより良く救済することが可能となる。

　さらに、ロバスト検証手段８００の確率統計演算手段８１０により、各検出物体の位置に対する尤度分布８３０と尤度の有効領域の平均尤度８０１と尤度のヒストグラム８４０と尤度の標準偏差８０２と最大尤度８０３と最小尤度８０４とＩＯＵ値８０５をより正確に算出することが可能となる。したがって、実施形態２で後述する辞書学習手段６００によるモデル学習辞書の汎用性やロバスト性の強化をより正確に図ることが可能となる。

　次に、モデル前処理手段２００の位置シフト機能２２０とそれ以外の機能の使用方法や用途、および、効果に関して説明する。

　ある実施形態によれば、モデル前処理手段２００は、フレーム制御情報５００の位置シフト量５１０に則って位置シフトを実施する前の画像に対して、任意の場所の画像を切り抜くクロップ機能２４０と、画像サイズを変更するリサイズ機能２３０と、コントラスト補正曲線、もしくは、階調変換曲線を使用して輝度レベルを任意の値に変更する階調変換機能２７０と、アスペクト比を変更するアスペクト比変更機能２６５と、回転角度を変更する回転機能２６０と、歪補正テーブル２９３などを使用してデワープ処理を行うデワープ機能２７７などを有し、フレーム制御情報５００の各種パラメータに則って画像を加工することを特徴とするものであっても良い。

　位置シフト機能２２０とリサイズ機能２３０に関しては、上述しているのでここでの説明は割愛する。クロップ機能２４０は、図８のモデル入力画像２２０Ｂ、２２０Ｃ、２２０Ｄ、図１３Ｂの第一の位置シフト画像１ｂ７０２、図１４Ｂの第一の位置シフト画像１ｂ７２４、第二の位置シフト画像１ｃ７２５、および、図１５Ｂの第一の位置シフト画像ｓｎ＋１７５２のように、位置シフト処理を施したことによりモデル入力画像の画素範囲からはみ出てしまった箇所を切り取るような場合に使用するものであっても良い。それ以外に、モデル前処理手段２００のリサイズ機能２３０により拡張などの各種機能を施した後の有効画素範囲がモデル入力画像の画素範囲からはみ出てしまった箇所を切り取るような場合に使用するものであっても良い。クロップ機能２４０を使用する場合のフレーム制御情報５００は、どの画素範囲を切り取りモデル入力画像のどの位置に貼り付けるかなどの座標と範囲を示すパラメータを使用し、アフィン変換関数２９１や射影変換関数２９２を画像処理プロセッサ２９０で実行して実現する機能であっても良い。

　画面分割機能２５０に関しては、実施形態２で後述する。

　階調変換機能２７０は、フレーム制御情報５００として、図１６に示すようなコントラスト補正曲線、もしくは、階調変換曲線２７４ないし２７６を指定して、輝度レベルを任意の値に変更した画像を生成することを特徴とするものであっても良い。なお、コントラスト補正曲線や階調変換曲線を使用して輝度レベルの変更を行う際は、画像処理プロセッサ２９０で実行して実現する機能であっても良い。

　一例として、図１６に、一般的な晴れの昼間に撮影した基準の輝度レベル画像に対して、その状態を保持するような階調変換曲線２７５を適用した基準輝度レベル画像２７２と、照度が低い雨や曇りの天候条件や、夜明け、夕刻、夜間の時間帯や、黒つぶれなどを模擬するような階調変換曲線２７４を適用した結果として加工される輝度レベルを低くした輝度レベル低画像２７１と、照度が高い快晴の天候条件や逆光、白飛びや、強力なライトを照射した撮影スタジオなどを模擬するような階調変換曲線２７６を適用した結果として加工される輝度レベルを高くした輝度レベル高画像２７３の３種類の階調変換画像を生成する場合を示す。図１６に示すようなモデル前処理手段２００の階調変換機能２７０により加工された基準画像２２１に対して、前述したようなモデル前処理手段２００の位置シフト機能２２０と物体検出モデル３００とモデル後処理手段４００による尤度救済を行うようなものであっても良い。さらに、ロバスト性検証手段８００の確率統計演算手段８１０により尤度分布８３０などの各種分析結果を算出するものであっても良い。

　これらモデル前処理手段２００が階調変換機能２７０を備えることにより、天候条件や撮影時間帯や撮影環境の照度条件により変化する検出物体と背景の輝度レベルに対して、尤度救済時の効果の拡大やモデル学習辞書の汎用性やロバスト性の強化を図ることが可能となる。

　アスペクト比変更機能２６５は、フレーム制御情報５００として、アスペクト比率を使用して、アスペクト比を変更した画像を生成することを特徴とするものであっても良い。アスペクト比の変更を行う際は、アフィン変換関数２９１や射影変換関数２９２を画像処理プロセッサ２９０で実行して実現する機能であっても良い。

　一例として、図１７に、基準となるモデル入力画像２６７の人物１名に対して、ある年齢の子供やふくよかな人物を模擬したアスペクト比になるように垂直方向に３０％縮小したモデル入力画像２６６と、細身の人物を模擬したアスペクト比になるように水平方向に３０％縮小したモデル入力画像２６８の３種類のアスペクト比を変更した画像を生成する場合を示す。図１７に示すようなモデル前処理手段２００のアスペクト比変更機能２６５により加工された基準画像２６７に対して、前述したようなモデル前処理手段２００の位置シフト機能２２０と物体検出モデル３００とモデル後処理手段４００による尤度救済を行うようなものであっても良い。さらに、ロバスト性検証手段８００の確率統計演算手段８１０により尤度分布８３０などの各種分析結果を算出するものであっても良い。

　これらモデル前処理手段２００がアスペクト比変更機能２６５を備えることにより、検出物体の様々なアスペクト比（率）に対して、尤度救済時の効果の拡大やモデル学習辞書の汎用性やロバスト性の強化を図ることが可能となる。

　回転機能２６０は、フレーム制御情報５００として、角度を使用して、回転角度を変更した画像を生成することを特徴とするものであっても良い。角度により回転角度の変更を行う際は、アフィン変換関数２９１や射影変換関数２９２を画像処理プロセッサ２９０で実行して実現する機能であっても良い。

　一例として、図１８に、基準角度となるモデル入力画像２６２の人物１名に対して、カメラなどの取り付け位置の違いや人物のポーズを模擬した左に４５°回転したモデル入力画像２６１と、カメラなどの取り付け位置の違いや人物のポーズを模擬した右に４５°回転したモデル入力画像２６３の３種類の回転角度を変更した画像を生成する場合を示す。

　図１８に示すようなモデル前処理手段２００の回転機能２６０により加工された基準画像２２１に対して、前述したようなモデル前処理手段２００の位置シフト機能２２０と物体検出モデル３００とモデル後処理手段４００による尤度救済を行うようなものであっても良い。さらに、ロバスト性検証手段８００の確率統計演算手段８１０により尤度分布８３０などの各種分析結果を算出するものであっても良い。

　これらモデル前処理手段２００が回転機能２６０を備えることにより、検出物体の様々な回転角度に対して、尤度救済時の効果の拡大やモデル学習辞書の汎用性やロバスト性の強化を図ることが可能となる。

　さらに、魚眼レンズなどを使用している場合、歪補正テーブル２９３を使用した歪補正や円筒変換などを行うためのデワープ機能２７７を用いて加工することで、各種の検出物や背景の歪みに対して、尤度救済時の効果の拡大やモデル学習辞書の汎用性やロバスト性の強化を図ることが可能となる。

　これらモデル前処理手段２００の各種機能により、画像取得時の各種変動条件を吸収もしくは緩和することが可能となり、さらに、画像取得後の画像から対象検出物を検出に適した状態に加工することが可能となるため、画像中の物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下をより良く救済することが可能となる。

　次に、モデル後処理手段４００の個体識別手段４１０と画像選択手段４５０と検出枠補正手段４６０により尤度救済を行った結果に対して、時系列的に検出物体毎の推論結果もしくは尤度の救済結果を保持し、時系列の前後関係を踏まえた情報補間や異常情報の排除や未来予測を行うためのフレーム情報保持手段４７０とフレーム情報補間手段４８０に関して、図１９、図２０、および、図２１により説明する。

　ある実施形態によれば、モデル後処理手段４００は、個体識別手段４１０と画像選択手段４５０と検出枠補正手段４６０により最尤と判定して出力したフレーム毎の検出物体毎に対する推論結果である最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２を、最大検出物体数Ｖ（Ｖは任意の整数）の数だけ現在のフレームｆｔとｆｔ―１からｆｔ－ｓ（ｓは任意の整数）までの過去フレーム分の格納メモリ４７１に保持するフレーム情報保持手段４７０を有し、フレーム情報保持手段４７０は、現在のフレームｆｔの最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２が算出された時点で、最も古いフレームｆｔ－ｓの格納メモリ４７１に記録されている最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２を消去し、ｆｔフレームからｆｔ－（ｓ－１）フレームまでの格納メモリ４７１に記録されている最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２を１フレーム分過去のｆｔ－１フレームからｆｔ－ｓフレームの格納メモリ４７１にスライドして再記録し、現在のフレームｆｔの最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２を現在のフレームｆｔの格納メモリ４７１に記録することを特徴とするものであっても良い。

　さらに、ある実施形態によれば、フレーム情報保持手段４７０は、任意のフレームの検出物体の格納メモリ４７１の最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２に欠落がある場合に、前後のフレームの格納メモリ４７１の最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２から補間して新たな最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２として当該フレームの格納メモリ４７１に記録するフレーム情報補間手段４８０を有し、フレーム情報補間手段４８０の各種情報の補間方法が、ニュートン後退補間法４８１や移動平均法などであり、最尤の検出枠を含む位置情報４０１は、検出枠の中心座標４７２と高さ４７３と幅４７４の情報を含み、最尤の尤度情報４０２は、検出の信頼性を示す尤度とクラス識別情報を含むことを特徴とするものであっても良い。

　さらに、ある実施形態によれば、フレーム情報補間手段４８０は、フレーム情報保持手段４７０のｆｔ－１からｆｔ－ｓの過去フレームの格納メモリ４７１の最尤の検出枠を含む位置情報４０１の中心座標４７２から動きベクトル量４７５を算出して各フレームの検出物体毎の格納メモリ４７１に記録する動きベクトル量算出手段４８３を有し、さらに、未来のフレームの検出物体毎の動きベクトル量４７５を予測して最尤の検出枠を含む位置情報４０１の中心座標４７２を予測する動きベクトル予測算出手段４８４を有することを特徴とするものであっても良い。なお、動きベクトル予測算出手段４８４の予測方法が、過去のフレームの最尤の検出枠を含む位置情報４０１の中心座標４７２のフレーム間の差分情報を元にしたニュートン後退補間法４８１や移動平均法などであっても良い。

　さらに、ある実施形態によれば、フレーム情報補間手段４８０は、フレーム情報保持手段４７０の過去フレームの検出物体毎の最尤の検出枠を含む位置情報４０１の検出枠の幅４７４と高さ４７３と中心座標４７２と、動きベクトル量算出手段４８３により算出された動きベクトル量４７５とにより、距離係数４７６を算出して格納メモリ４７１に記録する距離係数算出手段４８２を有し、さらに、動きベクトル予測算出手段４８４は、予測された未来のフレームの動きベクトル量４７５から、距離係数算出手段４８２により未来のフレームの検出物体毎の最尤の検出枠を含む位置情報４０１の中心座標４７２と距離係数４７６を予測し、未来のフレームの最尤の検出枠を含む位置情報４０１の検出枠の幅４７４と高さ４７３の情報を予測することを特徴とするものであっても良い。

　さらに、ある実施形態によれば、フレーム情報補間手段４８０は、フレーム情報保持手段４７０の過去フレームの検出物体毎の格納メモリ４７１に格納されている最尤の検出枠を含む位置情報４０１の検出枠の幅４７４と高さ４７３と中心座標４７２と、動きベクトル量４７５と、距離係数４７６と、最尤の尤度情報４０２により、最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２のフレーム間の時間連続性の異常を検出した場合に格納メモリ４７１から除去する異常検出情報除去手段４８５を有し、異常検出情報除去手段４８５により除去された各種情報を前後のフレームの最尤の検出枠を含む位置情報４０１の検出枠の幅４７４と高さ４７３と中心座標４７２と、動きベクトル量４７５と、距離係数４７６と、最尤の尤度情報４０２から復元して格納メモリ４７１に記録する検出情報復元手段４８６を有し、さらに、新たに物体検出を実施した際の現在のフレームの検出物体毎の個体識別手段４１０と画像選択手段４５０と検出枠補正手段４６０により算出された最尤の検出枠を含む位置情報４０１と、動きベクトル予測算出手段４８４により予測された未来のフレームの最尤の検出枠を含む位置情報４０１の検出枠の幅４７４と高さ４７３と中心座標４７２とを比較して、異常を検出して除去する異常検出情報予測除去手段４８７を有し、異常検出情報予測除去手段４８７により個体識別手段４１０と画像選択手段４５０と検出枠補正手段４６０により算出された最尤の検出枠を含む位置情報４０１が除去された場合は、動きベクトル予測算出手段４８４により予測された未来のフレームの最尤の検出枠を含む位置情報４０１に置き換えて復元し現在のフレームの格納メモリ４７１に記録する検出情報予測復元手段４８８を有することを特徴とするものであっても良い。

　図１９に示すように、格納メモリ４７１は、Ｎｏ．１からＮｏ．Ｖ（Ｖは任意の整数）の検出物体毎に、現在のフレームｆｔと過去フレームｆｔ－１からｆｔ－ｓ（ｓは任意の整数）分の情報記録メモリを有し、格納メモリ４７１に格納する情報としては、最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２がある。ここで、最尤の検出枠を含む位置情報４０１は、検出枠の中心座標４７２と高さ４７３と幅４７４の情報を含み、最尤の尤度情報４０２は、検出の信頼性を示す尤度とクラス識別情報を含むことを特徴とするものであっても良い。さらに、格納メモリ４７１に格納する情報としては、フレーム情報補間手段４８０の動きベクトル量算出手段４８３と動きベクトル予測算出手段４８４により算出される検出枠の中心座標を基準とした未来予測を含むフレーム毎の動きベクトル量４７５と、距離係数算出手段４８２により算出される検出物体がカメラなどの撮像装置からどの程度の距離があるかを相対的に示す距離係数４７６があっても良い。

　フレーム情報保持手段４７０は、現在のフレームｆｔの最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２と動きベクトル量４７５と距離係数４７６が算出された時点で、最も古いフレームｆｔ－ｓの格納メモリ４７１に記録されている各種情報を消去し、ｆｔフレームからｆｔ－（ｓ－１）フレームまでの格納メモリ４７１に記録されている各種情報を１フレーム分過去のｆｔ－１フレームからｆｔ－ｓフレームの格納メモリ４７１にスライドして再記録し、現在のフレームｆｔの最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２と動きベクトル量４７５と距離係数４７６とを現在のフレームｆｔの格納メモリ４７１に記録することを特徴とするものであっても良い。

　なお、格納メモリ４７１は、新規に検出した検出物体に対して、それらの推論結果や各種算出結果を格納するためにメモリを割り当てる際に、Ｎｏ．１からＮｏ．Ｖまでの間で現在のフレームｆｔから過去フレームｆｔ－ｓまでのすべての格納メモリ４７１が開放（メモリ情報が無い状態）されている中で数値の小さいＮｏ．に優先的に割り当てるものであっても良い。また、検出されていた物体が検出されていない期間が続き、当該Ｎｏ．の現在のフレームｆｔから過去フレームｆｔ－ｓまでのすべての格納メモリ４７１に格納されたメモリ情報がなくなった時点で、その当該Ｎｏ．の格納メモリ４７１を開放するものであっても良い。これにより、同時に最大Ｖ個の検出物体を追跡し続けることが可能となる。

　このようなフレーム情報保持手段４７０と格納メモリ４７１を有することにより、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する現在のフレームの推論精度の低下を救済した結果と、過去フレームの結果を参照することが可能となる。さらに、過去の検出物体別の履歴や軌跡を表示することも可能となる。

　また、フレーム情報保持手段４７０は、任意のフレームの検出物体Ｎｏ．の格納メモリ４７１の最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２と動きベクトル量４７５と距離係数４７６との少なくとも１つでも欠落がある場合に、前後のフレームの格納メモリ４７１のメモリ情報から補間して新たなメモリ情報として当該フレームの格納メモリ４７１に記録するフレーム情報補間手段４８０を有するものであっても良い。

　フレーム情報補間手段４８０で使用する各種メモリ情報の補間方法は、ニュートン後退補間法４８１であっても良い。ニュートン後退補間法４８１を説明するに際して、まずは、差分商を定義する。ｘ＝ｘ１，ｘ２に対する１階の差分商ｆ（ｘ１，ｘ２）は、以下の式４となる。

　ｆ(ｘ１,ｘ２)　＝｛ｆ(ｘ２)　―　ｆ(ｘ１)｝÷　(ｘ２－ｘ１)
　（式４）

差分商を用いると、ニュートン後退補間法４８１の関数ｆ(ｘ)は、以下の式５で表される。

　ｆ(ｘ)＝ｆ(ｘ１)　＋　(ｘ―ｘ１)ｆ(ｘ１，ｘ２)　＋・・・・
　　　　　　＋　(ｘ―ｘ１)・・・(ｘ－ｘｎ－１)ｆ(ｘ１，・・・，ｘｎ)
　　　　　　＋　(ｘ―ｘ１)・・・(ｘ―ｘｎ－１)(ｘ―ｘｎ)ｆ(ｘ１，・・・，ｘｎ)　
（式５）

　無制限に補間点数を増やすことはプロセッサなどによる演算量の増加につながり、演算遅延の発生を招く場合もあるため、補間点数は４点ないし５点などの制限をつけても良い。　　

　次に、補間点を４点用いて補間を行うニュートン後退補間法４８１の情報の補間を行う際の動作原理を図２０に示す。図２０に示すように、ニュートン後退補間法４８１を使ってフレームに相当する時間Ｘｔの予測点４７８であるＹｔを求めるために、Ｙｔ－１からＹｔ－４までの４点の補間点４７７を用いて前述した式５に示す補間関数ｆ(ｘ)を使用して算出するものであっても良い。補間点４７７は、４点に限らず演算プロセッサなどの能力と必要な予測精度を鑑みた上で決定されることが望ましい。フレーム情報補間手段４８０では、検出不能時などに格納メモリ４７１に格納されている情報に欠落がある場合と、動きベクトル予測算出手段４８４により未来のフレームの検出物体毎の動きベクトル量４７５を予測して最尤の検出枠を含む位置情報４０１の中心座標４７２を予測する場合と、異常検出情報除去手段４８５と検出情報復元手段４８６により格納メモリ４７１に格納されているメモリ情報に対してフレーム間の時間連続性の異常を検出して異常がある場合には情報を復元して格納メモリ４７１に再記録する場合とに、ニュートン後退補間法４８１を適用するものであっても良い。なお、高くない予測精度で十分な場合は、ニュートン後退補間法４８１の代わりに移動平均法などの別の補間方法を適用しても良い。

　このようなニュートン後退補間法４８１や移動平均法などを有するフレーム情報補間手段４８０により、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する現在のフレームの推論精度の低下を救済した結果と、過去フレームの結果に対して連続性が補償されるため、過去の検出物体別の履歴や軌跡を正確にかつ滑らかに表示することが可能となる。さらに、物体検出能力やクラス識別能力や追跡能力を向上することが可能となる。

　ここで、異常検出情報除去手段４８５は、フレーム情報保持手段４７０の過去フレームｆｔ－１からｆｔ－ｓの検出物体Ｎｏ．毎の格納メモリ４７１に格納されている最尤の検出枠を含む位置情報４０１の検出枠の幅４７４と高さ４７３と中心座標４７２と、動きベクトル量４７５と、距離係数４７６と、最尤の尤度情報４０２に関して、任意のフレームの格納メモリ４７１を検出情報復元手段４８６により、その前後のフレームの格納メモリ４７１のメモリ情報を補間点４７７として予測することで対象フレームの格納メモリ４７１のメモリ情報のフレーム間の時間連続性を検証して異常を検出し、メモリ情報毎に設けられている任意の数値の範囲外で時間連続性に異常を認めた場合は、格納メモリ４７１から対象となるメモリ情報を除去するとともに、検出情報復元手段４８６により予測した情報を復元情報として新たに格納メモリ４７１に記録ものであっても良い。

　ここで、異常検出情報予測除去手段４８７は、格納メモリ４７１のフレームｆｔからフレームｆｔ－ｓまでのメモリ情報から動きベクトル予測算出手段４８４と距離係数算出手段４８２により予測された未来のフレームの最尤の検出枠を含む位置情報４０１と、新たに物体検出を実施した際の現在のフレームの検出物体毎の個体識別手段４１０と画像選択手段４５０と検出枠補正手段４６０により算出された最尤の検出枠を含む位置情報４０１との検出枠の幅４７４と高さ４７３と中心座標４７２とを比較して、メモリ情報毎に設けられている任意の数値の範囲外で時間連続性に異常を認めた場合は、新たに物体検出された対象となる結果を異常値と判断して除外し、検出情報予測復元手段４８８により動きベクトル予測算出手段４８４と距離係数算出手段４８２により予測された未来のフレームの最尤の検出枠を含む位置情報４０１の対象情報に置き換えて復元し現在のフレームの格納メモリ４７１に記録することを特徴とするものであっても良い。

　次に、距離係数算出手段４８２と動きベクトル量算出手段４８３と動きベクトル予測算出手段４８４の動作について、図２１により説明する。

　ここでは、検出対象が人物１名であり、現在のフレームｆｔと２つの過去フレームｆｔ－１とｆｔ－２と次の新規の物体検出に相当する未来のフレームｆｔ＋１の４つのフレーム間での動きベクトル量４７５と距離係数４７６と最尤の検出枠を含む位置情報４０１の検出枠の中心座標４７２と高さ４７３と幅４７４の関係と未来のフレームｆｔ＋１での算出方法の一例について述べる。最も過去のフレームとなるフレームｆｔ―２で検出された最尤の検出枠を含む位置情報４０１Ａは検出枠の中心座標４７２Ａと高さ４７３Ａと幅４７４Ａを含む情報である。この時、カメラなどの撮像機器からの距離により同じ人物を検出した場合でも検出枠の大きさは異なり、距離が遠いほど検出枠は小さくなり、距離が近いほど検出枠は大きくなる。そこで、距離係数算出手段４８２は、検出枠の下限、つまり、人物であれば足元に当たる座標と画像の下限の距離（画素数もしくは画像の縦方向の長さで正規化したもの）に正規化係数α（αは任意の小数）４７９を除算することで距離係数４７６Ａを算出し、距離係数４７６Ａと検出枠の高さ４７３Ａと幅４７４Ａをそれぞれ掛け合わせることで検出対象の人物の標準の検出枠の高さ４７３Ｚと幅４７４Ｚを算出するものであっても良い。正規化係数α４７９は、カメラやレンズや画像処理手段１００およびフレーム制御情報５００に則って加工されるモデル前処理手段２００のカメラ視野に対する有効画素領域を基準にあらかじめ計算されていることが望ましい。なお、検出枠の下限と画像の下限の距離に応じて線形、もしくは、非線形の特性を持つものであっても良い。また、正規化係数α４７９と標準の検出枠の高さ４７３Ｚと幅４７４Ｚの情報は、他の過去フレームｆｔ―１と現在のフレームｆｔと未来のフレームｆｔ＋１にも引き継がれて適用されつつ、フレームｆｔ－１とフレームｆｔでも検算を行い、標準の検出枠の高さ４７３Ｚと幅４７４Ｚがある一定の範囲内に入るように正規化係数α４７９は、順次補正しても良い。同様に、過去のフレームｆｔ―１で検出された最尤の検出枠を含む位置情報４０１Ｂは検出枠の中心座標４７２Ｂと高さ４７３Ｂと幅４７４Ｂを含む情報であり距離係数は４７６Ｂである。現在のフレームｆｔで検出された最尤の検出枠を含む位置情報４０１Ｃは検出枠の中心座標４７２Ｃと高さ４７３Ｃと幅４７４Ｃを含む情報であり距離係数は４７６Ｃである。ここまでは、実際の物体検出データに基づいて格納メモリ４７１に記録されているメモリ情報となる。前述したように、距離係数算出手段４８２は、フレームｆｔ－２からフレームｆｔまでの各種情報をもとに、正規化係数α４７９と標準の検出枠の高さ４７３Ｚと幅４７４Ｚの情報の検算を行い、未来のフレームｆｔ＋１の最尤の検出枠を含む位置情報４０１Ｄの高さ４７３Ｄと幅４７４Ｄの予測をより正確にするために正規化係数α４７９を補正するものであっても良い。

　ここで、動きベクトル量算出手段４８３は、検出物体が次のフレームでどの方向に動作するかを示す動きベクトル量４７５を算出するものあり、過去のフレームｆｔ－２の動きベクトル量（ＶＥｔ－２）４７５Ａは、検出枠の中心座標４７２Ａが、過去のフレームｆｔ－１の検出枠の中心座標４７２Ｂに移動した際の差分情報を水平方向と垂直方向に算出しベクトル合成したものであっても良い。同様に、過去のフレームｆｔ－１の動きベクトル量（ＶＥｔ－１）４７５Ｂは、検出枠の中心座標４７２Ｂが、現在のフレームｆｔの検出枠の中心座標４７２Ｃに移動した際の差分情報を水平方向と垂直方向に算出しベクトル合成したものであっても良い。このように、動きベクトル量算出手段４８３は、すでに物体検出を行い算出された結果を元に動きベクトル量４７５を算出するものであっても良い。一方、動きベクトル予測算出手段４８４は、ここまでの過去のフレームｆｔ－２とｆｔ－１の２点を補間点４７７として、ニュートン後退補間法４８１や移動平均法により未来のフレームの動きベクトル量４７５を予測するものであっても良い。本例では過去のフレームを２つまでとしているが、より多くの過去フレームを参照して補間点４７７を多くすることで予測精度はより高くなる。現在のフレームｆｔの動きベクトル量（ＶＥｔ）４７５Ｃは、まだ未来のフレームｆｔ＋１の中心座標４７２Ｄが不明なため、動きベクトル量算出手段４８３ではなく動きベクトル予測算出手段４８４により予測される。まずはこの情報のままフレームｆｔの格納メモリ４７１に記録された後、次のフレームｆｔ＋１での物体検出で最尤の検出枠を含む位置情報４０１Ｄが正常と判断された際は、動きベクトル量算出手段４８３により、現在のフレームが新規の検出結果で更新されるタイミングで１つ過去のフレームの動きベクトル量として格納メモリ４７１の情報を置き換えるものであっても良い。動きベクトル予測算出手段４８４と距離係数算出手段４８２により現在のフレームｆｔで予測された動きベクトル量４７５Ｃの結果と距離係数４７６Ｃをもとに、未来のフレームｆｔ＋１の最尤の検出枠を含む位置情報４０１Ｄの検出枠の中心座標４７２Ｄと高さ４７３Ｄと幅４７４Ｄと距離係数４７６Ｄを予測する。つまり、現在のフレームｆｔの検出枠の中心座標４７２Ｃと予測された動きベクトル量４７５Ｃにより、未来のフレームｆｔ＋１の検出枠の中心座標４７２Ｄは算出され、予測された中心座標４７２Ｄを元に、距離係数算出手段４８２の正規化係数α４７９と標準の検出枠の高さ４７３Ｚと幅４７４Ｚにより、距離係数４７６Ｄと検出枠を含む位置情報４０１Ｄの高さ４７３Ｄと幅４７４Ｄを予測するものであっても良い。なお、未来のフレームｆｔ＋１の動きベクトル量（ＶＥｔ＋１）４７５Ｄは、新規に物体検出を行ってフレームｆｔ＋１での検出結果が確定した時点で、過去のフレームの動きベクトル量４７５からニュートン後退補間法４８１や移動平均法により予測されるものであっても良い。

　これら動きベクトル量算出手段４８３と動きベクトル予測算出手段４８４により、過去のフレームの検出物体毎の動きベクトル量が算出できるため、その結果を元に未来のフレームの動きベクトル量と検出枠の中心座標を予測することが可能となり、予測結果と現在の物体検出モデルとモデル後処理手段によって推論された結果と比較することで、連続性が確保されているか、異常値であるか否かを判断することが可能となる。

　さらに、距離係数算出４８２を合わせて活用することにより、カメラなどの撮影機器と対象物体との距離情報を把握して動きベクトル量と現在、もしくは、未来のフレームの検出枠の中心座標などを予測することが可能となるため、連続的かつ正確な予測が可能となる。したがって、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する現在のフレームの推論精度の低下を救済した結果に対して、連続性と追従性を正確に補償することで、物体検出能力やクラス識別能力や追跡能力を向上することが可能となる。さらに、現在までのフレームの結果より、未来のフレームの予測も可能となるため、危険を知らせる必要がある場合など、事前に、もしくは、素早く正確に情報を発信することが可能となる。

　さらに、ある実施形態によれば、フレーム情報補間手段４８０は、フレーム情報保持手段４７０に保持されている最尤の検出枠を含む位置情報４０１の検出枠の幅４７４と高さ４７３と中心座標４７２が、フレーム情報補間手段４８０により補間された最尤の検出枠を含む位置情報４０１の検出枠の幅４７４と高さ４７３と中心座標４７２に対して、任意の閾値を超過、もしくは、任意の割合を超過してずれていることを検出した場合、もしくは、最尤の尤度情報４０２の尤度が異常だが救済を施すに値する救済閾値４９０未満の場合は、異常検出情報除去手段４８５により異常情報と判定して格納メモリ４７１からすべての情報を除去し、その際、最尤の尤度情報４０２の尤度が、正常と判定する正常判定閾値４９１以下、かつ、異常だが救済を施すに値する救済閾値４９０以上である場合は最尤の尤度情報４０２を除く他の情報を除去し、それら除去された情報に対して、検出情報復元手段４８６により復元された最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２と動きベクトル量４７５と距離係数４７６を格納メモリ４７１に記録して復元することを特徴とするものであっても良い。

　さらに、ある実施形態によれば、フレーム情報補間手段４８０は、フレーム情報保持手段４７０の新たに物体検出を実施した際の現在のフレームの検出物体毎の個体識別手段４１０と画像選択手段４５０と出枠補正手段４６０により算出された最尤の検出枠を含む位置情報４０１の検出枠の幅４７４と高さ４７３と中心座標４７２が、動きベクトル予測算出手段４８４により予測された未来のフレームの最尤の検出枠を含む位置情報４０１の検出枠の幅４７４と高さ４７３と中心座標４７２に対して、任意の閾値以下、もしくは、任意の割合以下のずれである場合、かつ、最尤の尤度情報４０２の尤度が、正常と判定する正常判定閾値４９１以上の場合は、格納メモリ４７１に最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２と動きベクトル量４７５と距離係数４７６を記録し、最尤の検出枠を含む位置情報４０１が、任意の閾値を超過、もしくは、任意の割合を超過してずれていることを検出した場合、もしくは、最尤の尤度情報４０２の尤度が、異常だが救済を施すに値する救済閾値４９０未満の場合に、異常検出情報予測除去手段４８７により異常情報と判定してすべての情報を除去し、最尤の尤度情報４０２の尤度が、正常と判定する正常判定閾値４９１未満、かつ、異常だが救済を施すに値する救済閾値４９０以上である場合は最尤の尤度情報４０２を除く他の情報を除去し、それら除去された情報に対して、動きベクトル予測算出手段４８４の出力結果である検出枠を含む位置情報４０１と動きベクトル量４７５と距離係数４７６と最尤の尤度情報４０２を検出情報予測復元手段４８８により置き換えて格納メモリ４７１に記録することを特徴とするものであっても良い。

　次に、異常検出情報除去手段４８５と検出情報復元手段４８６と異常検出情報予測除去手段４８７と検出情報予測復元手段４８８の動作について、図２２により説明する。

　図２２の上側の異常情報の検出および除去前のフレームｆｔ＋１からフレームｆｔ－２までの４つの画像は、物体検出を実施して得られた推論結果をそのまま格納メモリ４７１にメモリ情報として記録している情報である。ここで、過去のフレームｆｔ－１の最尤の検出枠を含む位置情報４０１Ｆと検出枠の幅４７４Ｆと高さ４７３Ｆと中心座標４７２Ｆと距離係数４７６Ｆは、物体検出を実施して得られた推論結果そのままと距離係数算出手段４８２で算出された情報であるが、検出物体対象である人物に対して右下に水平方向と垂直方向ともに約２倍に広がった検出枠となっている。推論結果にズレが生じている影響で最尤の尤度情報４０２Ｆの尤度も３０％と低い値となっており、これらの結果として、動きベクトル量算出手段４８３で算出される過去のフレームｆｔ－２の動きベクトル量４７５Ｅと過去のフレームｆｔ－１の動きベクトル量４７５Ｆにズレが生じることになり、結果として動きベクトル予測算出手段４８４により予測された現在のフレームｆｔの動きベクトル量４７５Ｇにも予測のズレが生じることになる。また、未来のフレームｆｔ＋１の最尤の検出枠を含む位置情報４０１Ｈと検出枠の幅４７４Ｈと高さ４７３Ｈと中心座標４７２Ｈと距離係数４７６Ｈは、未来のフレームｆｔ＋１に対して新規に物体検出を実施して得られた推論結果と距離係数算出手段４８２で算出された結果であり、物体検出対象である人物に対して左上側に大きく広がった領域を検出枠として推論した結果となっている。同じく未来のフレームｆｔ＋１の最尤の検出枠を含む位置情報４０１Ｘと検出枠の幅４７４Ｘと高さ４７３Ｘと中心座標４７２Ｘと距離係数４７６Ｘは、フレームｆｔで算出された動きベクトル量４７５Ｇと距離係数算出手段４８２により予測されたものであり、フレームｆｔ－１の影響が波及した動きベクトル量４７５Ｇズレにより物体検出対象である人物に対して、若干右上にずれた位置が検出枠となっている。なお、フレームｆｔ－２の最尤の尤度情報４０２Ａの尤度は８５％、フレームｆｔの最尤の尤度情報４０２Ｃの尤度は９８％、フレームｆｔ＋１の最尤の尤度情報４０２Ｄの尤度は６０％である。これら図２２の上側の異常情報の検出および除去前のフレームｆｔ＋１からフレームｆｔ－２までの４つの画像の推論結果および各種算出結果に対して、異常検出情報除去手段４８５と検出情報復元手段４８６と異常検出情報予測除去手段４８７と検出情報予測復元手段４８８を適用して、異常情報の検出による除去とニュートン後退補間法４８１などを活用して補間による復元を実施した結果が、図２２の下側の異常情報の検出による除去と補間後のフレームｆｔ＋１からフレームｆｔ－２までの４つの画像となる。これらは、前述した図２１で示した推論結果と各種算出結果と等価であり、最尤の尤度情報４０２の尤度の情報を追加しているものであるため、詳細な説明は割愛する。

　本例では、異常検出情報除去手段４８５と検出情報復元手段４８６と異常検出情報予測除去手段４８７と検出情報予測復元手段４８８を適用して、異常情報の検出による除去と補間および復元を実施するに際して、異常検出情報除去手段４８５により異常情報と判定して格納メモリ４７１からすべての情報を除去して検出情報復元手段４８６により復元された情報を格納メモリ４７１に再記録する判定基準を、格納メモリ４７１に記録されている最尤の検出枠を含む位置情報４０１の検出枠の高さ４７３と幅４７４に対して、検出情報復元手段４８６により前後のフレームの各種メモリ情報から補間した結果の最尤の検出枠を含む位置情報４０１の検出枠の高さ４７３と幅４７４の比率が、例えばプラスマイナス３０％以上の偏差がある場合とする。もう１つの条件として、格納メモリ４７１に記録されている最尤の尤度情報４０２の尤度が異常だが救済を施すに値する救済閾値４９０である５０％未満の場合とする。その際、最尤の尤度情報４０２の尤度が、異常だが救済を施すに値する救済閾値４９０である５０％以上、かつ、正常と判定する正常判定閾値４９１である８０％未満の場合は、最尤の尤度情報４０２のみは格納メモリ４７１に残してそれ以外の情報を除去し、検出情報復元手段４８６により復元された最尤の尤度情報４０２以外の情報を格納メモリ４７１に再記録する。一方、前述した最尤の検出枠を含む位置情報４０１の検出枠の高さ４７３と幅４７４の比率が、プラスマイナス３０％未満の偏差であり、かつ、最尤の尤度情報４０２の尤度が正常と判定する正常判定閾値４９１である８０％以上の場合は、格納メモリ４７１の情報はそのままとする。同様に、異常検出情報予測除去手段４８７により新規に物体検出を実施した結果と各種算出結果を異常情報と判定して、すべての情報を格納メモリ４７１に記録する対象から除去して検出情報予測復元手段４８８により復元された情報を格納メモリ４７１に記録する判定基準を、動作ベクトル予測算出手段４８４と距離係数算出手段４８２により予測された最尤の検出枠を含む位置情報４０１の検出枠の高さ４７３と幅４７４に対して、新規に物体検出を実施した結果の最尤の検出枠を含む位置情報４０１の検出枠の高さ４７３と幅４７４の比率が、例えばプラスマイナス３０％以上の偏差がある場合とする。もう１つの条件として、新規に物体検出を実施した結果の最尤の尤度情報４０２の尤度が異常だが救済を施すに値する救済閾値４９０である５０％未満の場合とする。その際、最尤の尤度情報４０２の尤度が、異常だが救済を施すに値する救済閾値４９０である５０％以上、かつ、正常と判定する正常判定閾値４９１である８０％未満の場合は、最尤の尤度情報４０２のみを格納メモリ４７１に記録してそれ以外の情報は除外し、除外された情報は検出情報予測復元手段４８８により復元された情報に置き換えて格納メモリ４７１に記録する。前述した最尤の検出枠を含む位置情報４０１の検出枠の高さ４７３と幅４７４の比率が、プラスマイナス３０％未満の偏差であり、かつ、最尤の尤度情報４０２の尤度が正常と判定する正常判定閾値４９１である８０％以上の場合は、新規に物体検出した推論結果と各種算出結果のすべての情報を格納メモリ４７１に記録する。異常検出情報除去手段４８５と異常検出情報予測除去手段４８７により異常情報と判定する基準や検出情報復元手段４８６と検出情報予測復元手段４８８により情報の復元方法を判定する基準は、任意の閾値や任意の割合を閾値とするものであっても良く。中心座標のズレ度合いや、相互の検出枠のＩＯＵ値に対して閾値を設けるものであっても良い。

　以上のような方法を使用して、異常情報の検出および除去と情報の補間と復元を行う方法を図２２により具体的に説明する。過去のフレームｆｔ－２の最尤の尤度情報４０２Ａの尤度も８５％で正常判定閾値４９１の７０％以上であり、他の情報も特に異常と判定されなかったため格納メモリ４７１のメモリ情報はそのまま保持する。同様に、現在のフレームｆｔ最尤の尤度情報４０２Ｃの尤度も９８％で正常判定閾値４９１の７０％以上であり、他の情報も特に異常と判定されなかったため格納メモリ４７１のメモリ情報はそのまま保持する。一方で、過去のフレームｆｔ－１の最尤の尤度情報４０２Ｆは３０％で救済閾値４９０の５０％未満であり、かつ、格納メモリ４７１に記録されていた最尤の検出枠を含む位置情報４０１Ｆの検出枠の検出枠の高さ４７３Ｆと幅４７４Ｆは、検出情報復元手段４８６により前後のフレームの情報から補間により復元された最尤の検出枠を含む位置情報４０１Ｂの検出枠の検出枠の高さ４７３Ｂと幅４７４Ｂに対して比率が約２００％以上となり閾値であるプラス側の１３０％以上になるため格納メモリ４７１のすべての情報が除去対象となる。したがって、フレームｆｔ－１は検出情報復元手段４８６により復元された情報である最尤の検出枠を含む位置情報４０１Ｂの検出枠の検出枠の高さ４７３Ｂと幅４７４Ｂと中心座標と最尤の尤度情報４０２Ｂと距離係数４７６Ｂと動きベクトル量４７５Ｂを格納メモリ４７１に再記録する。この時、最尤の検出枠を含む位置情報４０１Ｆが本来の検出枠の情報と大きく乖離していた影響でズレが生じていたフレームｆｔ－２の動きベクトル量４７５Ｅとフレームｆｔ－１の動きベクトル量４７５Ｆとフレームｆｔの動きベクトル量４７５Ｇが動きベクトル量算出手段４８３と動きベクトル予測算出手段４８４により、本来の値に近い値として算出され、それぞれ、フレームｆｔ－２の動きベクトル量４７５Ａとフレームｆｔ－１の動きベクトル量４７５Ｂとフレームｆｔの動きベクトル量４７５Ｃとして格納メモリ４７１の情報を上書きするものであっても良い。

　一方で、新規に物体検出を実施した未来のフレームｔ＋１の最尤の尤度情報４０２Ｄは、正常判定閾値４９１の７０％以下、かつ、救済閾値４９０の５０％以上であるため、最尤の尤度情報４０２Ｄの尤度６０％は、そのまま、格納メモリ４７１に記録される。ところが、新規に物体検出を実施した結果である最尤の検出枠を含む位置情報４０１Ｈの検出枠の高さ４７３Ｈと幅４７４Ｈは、フレームｆｔの移動ベクトル量４７５Ｇと距離係数算出手段４８２により予測された最尤の検出枠を含む位置情報４０１Ｘの検出枠の高さ４７３Ｘと幅４７４Ｘに対して大きくズレが生じており、両者の比率が約１５０％以上となり閾値であるプラス側の１３０％以上になり除去対象となるため、検出情報予測復元手段４８８により復元された情報である最尤の検出枠を含む位置情報４０１Ｘの検出枠の検出枠の高さ４７３Ｘと幅４７４Ｘと中心座標と最尤の尤度情報４０２Ｘと距離係数４７６Ｘが格納メモリ４７１に記録される。そこで、前述したフレームｆｔ－１の異常除去処理と復元処理により、フレームｆｔの動きベクトル量４７５Ｇも本来あるべき情報である動きベクトル量４７５Ｃに補正されるため、動きベクトル量４７５Ｃと距離係数算出手段４８２を考慮した検出情報予測復元手段４８８により復元された情報である最尤の検出枠を含む位置情報４０１Ｄの検出枠の検出枠の高さ４７３Ｄと幅４７４Ｄと中心座標と最尤の尤度情報４０２Ｄと距離係数４７６Ｄが格納メモリ４７１に記録されることが望ましい。ここまでの説明は一例の動作処理であり、どの手段をどの閾値判定でどの範囲で適用するかは本例に限定するものではない。

　これら異常検出情報除去手段４８５と検出情報復元手段４８６と異常検出情報予測除去手段４８７と検出情報予測復元手段４８８により、過去フレームに対して、より正確に異常値を判断して異常値の除去と補間値での復元が可能となる。さらに、新規に物体検出を実施した現在のフレームに対して、より正確に異常値を判断して異常値の除去と補間値での復元が可能となる。したがって、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する過去フレームの推論精度の低下を救済した結果に対して、連続性と追従性をより正確に補償することが可能となるため追跡能力を向上することが可能となる。さらに、タイムラグが少ない状態で検出物体別の履歴や軌跡をより正確にかつ連続的で滑らかに表示することが可能となる。

　次に、前述したフレーム情報保持手段４７０のフレーム毎の時系列情報を使用して、物体検出の結果である検出枠の位置と領域の正確性と各種算出データの変動率を時系列でとらえて推論精度や検出性能がどの程度安定しているかを指標化するためのトレーサビリティ安定値指標化手段５２０と、任意のフレームの間で最尤の検出枠を含む位置情報４０１が異常値と判断され除外対象となった回数を算出する異常検出枠数算出手段５３０と、任意のフレームの間で最尤の尤度情報４０２の尤度が任意の閾値以下、もしくは、未検出になる検出ＮＧとなった回数を算出する検出ＮＧ数算出手段５４０について説明する。

　ある実施形態によれば、モデル後処理手段４００は、現在のフレームの検出物体毎のフレーム情報保持手段４７０とフレーム情報補間手段４８０により算出された最尤の検出枠を含む位置情報４０１の検出枠の中心座標４７２のＸ座標と検出枠の中心座標４７２のＹ座標と検出枠の幅４７４と検出枠の高さ４７３と検出枠のアスペクト比４９２が、動きベクトル予測算出手段４８４により予測された未来のフレームの最尤の検出枠を含む位置情報４０１の検出枠の中心座標４７２のＸ座標と検出枠の中心座標４７２のＹ座標と検出枠の幅４７４と検出枠の高さ４７３と検出枠のアスペクト比４９２に対して、各々何％偏差があるか算出し、Ｗ（Ｗは任意の整数）フレーム分平均して、中心Ｘ座標平均偏差（％）５２１と中心Ｙ座標平均偏差（％）５２２と距離係数算出手段４８２により距離係数４７６と正規化係数α４７９で正規化した枠幅変動率（％）５２３と距離係数４７６と正規化係数α４７９で正規化した枠高さ変動率（％）５２４と枠アスペクト比変動率（％）５２５を算出するトレーサビリティ安定値指標化手段５２０を有することを特徴とするものであっても良い。

　各種偏差を算出する方法や原理と距離係数算出手段４８２の動作については、一例として、図２２に示す異常検出情報除去手段４８５と検出情報復元手段４８６と異常検出情報予測除去手段４８７と検出情報予測復元手段４８８の動作の説明を参照すること。

　これらの演算は、ハードウェアやソフトウェアを含めた演算プロセッサなどにより実現するものであっても良い。

　これらトレーサビリティ安定値指標化手段５２０により、物体検出装置の物体検出能力やクラス識別能力や追跡能力がどの程度正確で安定しているか指標化することが可能となる。したがって、現在のフレーム制御情報の位置シフト量や救済のための各種救済モードや状態が適しているかどうかも判断することが可能となる。

　さらに、ある実施形態によれば、モデル後処理手段４００は、異常検出情報予測除去手段４８７により、現在のフレームで異常値と判断されて除去された場合に、異常検出と判断してフレーム中の異常検出となった枠数を異常検出枠数５３１として出力する異常検出枠数算出手段５３０を有することを特徴とするものであっても良い。検出対象物体が複数存在した場合は、異常検出枠数５３１が複数になる可能性もある。異常検出情報予測除去手段４８７による異常検出の動作については、一例として、図２２に示す異常検出情報除去手段４８５と検出情報復元手段４８６と異常検出情報予測除去手段４８７と検出情報予測復元手段４８８の動作の説明を参照すること。なお、フレームの任意の期間の異常検出枠数５３１の合計を算出するものであっても良い。

　これら異常検出枠数算出手段５３０により、物体検出装置で発生した異常検出の数を把握することが可能となり、安定性の指標化の１つとなるため、フレーム制御情報の位置シフト量や救済のための各種救済モードや状態が適しているかどうかも判断することが可能となる。さらに、物体検出モデルとモデル学習辞書のロバスト性や物体検出能力の改良、もしくは、改善の必要性を判断することも可能となる。

　さらに、ある実施形態によれば、モデル後処理手段４００は、異常検出情報予測除去手段４８７により、現在のフレームで最尤の尤度情報４０２の尤度が救済閾値４９０未満で異常値と判断されて除去された場合、もしくは、推論の結果が未検出だった場合に、検出不能と判断してフレーム中の検出不能となった回数を検出ＮＧ数５４１として出力する検出ＮＧ数算出手段５４０を有することを特徴とするものであっても良い。検出対象物体が複数存在した場合は、検出ＮＧ数５４１が複数になる可能性もある。異常検出情報予測除去手段４８７による異常検出と検出不能時の動作については、一例として、図２２に示す異常検出情報除去手段４８５と検出情報復元手段４８６と異常検出情報予測除去手段４８７と検出情報予測復元手段４８８の動作の説明を参照すること。なお、フレームの任意の期間の検出ＮＧ数５４１の合計を算出するものであっても良い。

　これら検出ＮＧ数算出手段５４０により、物体検出装置で発生した検出不能の数を把握することが可能となり、安定性の指標化の１つとなるため、フレーム制御情報の位置シフト量や救済のための各種救済モードや状態が適しているかどうかも判断することが可能となる。さらに、物体検出モデルとモデル学習辞書のロバスト性や物体検出能力の改良、もしくは、改善の必要性を判断することも可能となる。

　次に、フレーム情報保持手段４７０とフレーム情報補間手段４８０とトレーサビリティ安定値指標化手段５２０と異常検出枠数算出手段５３０と検出ＮＧ数算出手段５４０の各種時系列情報を元に、前述したモデル前処理手段２００と物体検出モデル３００とモデル後処理手段４００の個体識別手段４１０と画像選択手段４５０と検出枠補正手段４６０の一連の動作によるＤＮＮを含むニューラルネットワークの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下を救済して物体検出能力やクラス識別能力を向上する尤度救済時の、位置シフト量５１０を含むフレーム制御情報５００の設定や制御状態をフレーム単位で連続して適正に制御して処理レートの向上と尤度の救済効果を高めるためのステートマシン制御手段５５０について、図２３により説明する。

　ある実施形態によれば、モデル後処理手段４００は、フレーム情報保持手段４７０とフレーム情報補間手段４８０により算出された最尤の検出枠を含む位置情報４０１と、検出物体の最尤の尤度情報４０２の中で最も低い最低尤度４９３と、トレーサビリティ安定値指標化手段５２０の各種出力情報である安定値指標５２６と、異常検出枠数５３１と、検出ＮＧ数５４１との、１つ以上、もしくは、すべてを使用して次のフレームのフレーム制御情報５００の位置シフト量５１０と位置シフト量５１０の種類と数の状態をフレーム毎に決定するステートマシン制御手段５５０を有することを特徴とするものであっても良い。

　さらに、ある実施形態によれば、ステートマシン制御手段５５０は、図２３に示すように、物体検出開始時にフレーム制御情報５００の位置シフト量５１０がゼロ、かつ、位置シフト量の種類がゼロの尤度救済ＯＦＦモード５５１（通常の推論手法）の状態から開始し、現在のフレームの最低尤度４９３が、任意の第一の尤度閾値４９４未満であるか（条件Ａ１）、もしくは、トレーサビリティ安定値指標化手段５２０の出力情報である安定値指標５２６が各々の第一の不安定閾値４９６に対して１つでも超過する場合（条件Ａ２）に状態遷移条件Ａ５５４が成立し、次フレームのフレーム制御情報５００の位置シフト量５１０を１種類の状態で制御する尤度救済最尤２枚モード５５２とする状態遷移を指示し、フレーム情報保持手段４７０の検出物体毎の最尤の検出枠を含む位置情報４０１と、最尤の尤度情報４０２と、物体検出モデル３００のＤＮＮモデル３１０を含むニューラルネットワークモデルの１つ以上の検出レイヤの情報とを加味して位置シフト量５１０を決定することを特徴とするものであっても良い。

　ここで、安定化指標５２６は、Ｗ（Ｗは任意の整数）フレーム分で移動平均された結果としての中心Ｘ座標平均偏差（％）５２１と中心Ｙ座標平均偏差（％）５２２と枠幅変動率（％）５２３と枠高さ変動率（％）５２４と枠アスペクト比変動率（％）５２５であっても良く、それぞれの指標に対して第一の不安定閾値４９６の値が設定されるものであっても良い。

　尤度救済最尤２枚モード５５２は、図１３もしくは図１５で説明したモデル前処理手段２００の位置シフト機能２２０とフレーム制御情報５００と物体検出モデル３００とモデル後処理手段４００の個体識別手段４１０と画像選択手段４５０と検出枠補正手段４６０の一連の動作による尤度救済モードであっても良い。その際、図１３に示す手法を適用する場合は、物体検出モデル３００で１フレームの間に２画像の推論を実施する必要があるため、ハードウェアやソフトウェアを含む演算プロセッサなどの性能制限がある場合は、処理時間に応じてフレーム間の処理レートを可変的に設定するものであっても良い。

　次のフレームの尤度救済最尤２枚モード５５２の１種類で決定される位置シフト量５１０は、最低尤度４９３に対応する最尤の検出枠を含む位置情報４０１の検出枠の高さ４７３と幅４７４の乗算により検出対象である物体のサイズを算出し、そのサイズに準じて発生することが想定されるＤＮＮモデル３１０の検出レイヤのグリッドサイズに依存する特有の格子状に尤度が低下するパターンに有効な位置シフト量５１０を選定して設定するものであっても良い。また、検出物体が複数であり最低尤度４９３以外にも第一の尤度閾値４９４未満になる尤度が複数存在している場合は、各々の物体サイズから類推される有効な位置シフト量５１０の平均値を設定するか、それまでの統計で最低尤度４９３の発生頻度が最も多い物体サイズに合わせて設定するものであっても良い。

　なお、本例では、（条件Ａ１）と（条件Ａ２）の論理和により尤度救済モードＯＦＦモード５５１から次のフレームで尤度救済最尤２枚モード５５２に状態遷移する方法となるが、本条件に限らず他の遷移条件を設定しても良い。

　これらステートマシン制御手段５５０と状態遷移条件Ａ５５４により、画像中で物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下を救済するに際して、物体検出の安定性や検出状態と検出対象物のサイズに対して最適な推論精度が得られるＤＮＮを含むニューラルネットワークの検出レイヤの構造に対する位置シフト量やその種類と数が時系列上で自動的に適用できるため、検出対象物の位置とサイズの揺らぎに対する推論精度の低下に対する救済効果がさらに高まり、より確実に物体検出能力やクラス識別能力や追跡能力を向上することが可能となる。

　さらに、物体検出が良好で安定している状況下では、尤度救済ＯＦＦモード５５１を維持して尤度救済を行なわず、物体検出の性能や安定性が低下していると判断した場合のみ、最低限のシステムへの負荷で尤度低下を救済する尤度救済最尤２枚モード５５２に状態遷移させて物体検出の性能や安定性の向上を図ることができるため、搭載する演算プロセッサなどの性能に制限を設けた場合でも、効率的に、低レイテンシーとリアルタイム性を維持しつつ、物体検出能力やクラス識別能力や追跡能力を向上することが可能となる。

　さらに、ある実施形態によれば、図２３に示すように、ステートマシン制御手段５５０は、現在のフレームが尤度救済最尤２枚モード５５２の状態の場合、現在のフレームの最低尤度４９３が、任意の第二の尤度閾値４９５未満であるか（条件Ｂ１）、もしくは、トレーサビリティ安定値指標化手段５２０の出力情報である安定値指標５２６が各々の第二の不安定閾値４９７に対して１つでも超過する場合か（条件Ｂ２）、もしくは、異常検出枠数５３１が１以上である場合か（条件Ｂ３）、検出ＮＧ数５４１が１以上である場合（条件Ｂ４）に、状態遷移条件Ｂ５５５が成立し、次フレームのフレーム制御情報５００の位置シフト量５１０を２種類の状態で制御する尤度救済最尤３枚モード５５３とする状態遷移を指示し、フレーム情報保持手段４７０の検出物体毎の最尤の検出枠を含む位置情報４０１と、最尤の尤度情報４０２と、物体検出モデル３００のＤＮＮモデル３１０を含むニューラルネットワークモデルの１つ以上の検出レイヤの情報とを加味して２種類の位置シフト量５１０を決定することを特徴とするものであっても良い。

　ここで、尤度の救済の効果と推論性能の改善効率を鑑みると、第二の尤度閾値４９５は第一の尤度閾値４９４よりも小さく、第二の不安定閾値４９７は第一の不安定閾値４９６よりも大きく設定されることが望ましい。

　尤度救済最尤３枚モード５５３は、図１４で説明したモデル前処理手段２００の位置シフト機能２２０とフレーム制御情報５００と物体検出モデル３００とモデル後処理手段４００の個体識別手段４１０と画像選択手段４５０と検出枠補正手段４６０の一連の動作による尤度救済モードであっても良い。もしくは図１５で説明した手法に対して位置シフト量５１０の種類を２種類に拡張したものであっても良い。その際、図１４に示す手法を適用する場合は、物体検出モデル３００で１フレームの間に３画像の推論を実施する必要があるため、ハードウェアやソフトウェアを含む演算プロセッサなどの性能制限がある場合は、処理時間に応じてフレーム間の処理レートを可変的に設定するものであっても良い。

　次のフレームの尤度救済最尤３枚モード５５３の２種類で決定される位置シフト量５１０は、最低尤度４９３に対応する最尤の検出枠を含む位置情報４０１の検出枠の高さ４７３と幅４７４の乗算により検出対象である物体のサイズを算出し、そのサイズに準じて発生することが想定されるＤＮＮモデル３１０の検出レイヤのグリッドサイズに依存する特有の格子状に尤度が低下するパターンに有効な位置シフト量５１０を１種類目として選定して設定するものであっても良い。位置シフト量５１０の２種類目は、検出物体が複数であり最低尤度４９３以外にも第二の尤度閾値４９５未満になる尤度が複数存在している場合は、各々の物体サイズで１種類目を除いて次に有効となる位置シフト量５１０を設定するものであっても良い。また、検出物体が複数であり、かつ、第二の尤度閾値４９５未満になる尤度が複数存在している場合は、各々の物体サイズから類推される有効な位置シフト量５１０の種類が３種類以上存在する場合は、それまでの統計で最低尤度４９３の発生頻度が最も多い物体サイズに有効な位置シフト量５１０の上位２種類を設定するものであっても良い。もしくは、有効な位置シフト量５１０の上位から２番目以降の平均値を２種類目の位置シフト量５１０として設定するものであっても良い。

　なお、本例では、（条件Ｂ１）と（条件Ｂ２）と（条件Ｂ３）と（条件Ｂ４）の論理和により尤度救済最尤２枚モード５５２から次のフレームで尤度救済最尤３枚モード５５３に状態遷移する方法となるが、本条件に限らず他の遷移条件を設定しても良い。

　これらステートマシン制御手段５５０と状態遷移条件Ｂ５５５により、物体検出の性能や安定性が非常に低下していると判断した場合のみ、システムへの負荷を増やしてでも尤度低下を救済する尤度救済最尤３枚モード５５３に状態遷移させて物体検出の性能や安定性の向上を図ることができるため、低レイテンシーとリアルタイム性の維持と、物体検出能力やクラス識別能力や追跡能力の維持とのトレードオフを最適かつ効率的に判断して適用することが可能となる。

　さらに、ある実施形態によれば、図２３に示すように、ステートマシン制御手段５５０は、現在のフレームが尤度救済最尤３枚モード５５３の状態の場合、現在のフレームの最低尤度４９３が任意の第二の尤度閾値４９５以上であり（条件Ｃ１）、トレーサビリティ安定値指標化手段５２０の出力情報である安定値指標５２６が各々の第二の不安定閾値４９７のすべてに対して以下であり（条件Ｃ２）、異常検出枠数５３１がゼロであり（条件Ｃ３）、検出ＮＧ数５４１がゼロであり（条件Ｃ４）、それらすべての条件に合致する場合に、状態遷移条件Ｃ５５６が成立し、次フレームのフレーム制御情報５００の位置シフト量５１０を１種類の状態で制御する尤度救済最尤２枚モード５５２とする状態遷移を指示し、フレーム情報保持手段４７０の検出物体毎の最尤の検出枠を含む位置情報４０１と、最尤の尤度情報４０２と、物体検出モデル３００のＤＮＮモデル３１０を含むニューラルネットワークモデルの１つ以上の検出レイヤの情報とを加味して位置シフト量５１０を決定することを特徴とするものであっても良い。

　次のフレームの尤度救済最尤２枚モード５５２の１種類で決定される位置シフト量５１０は、前述の状態遷移条件Ａ５５４と同じ考え方の下で設定されるものであっても良い。

　なお、本例では、（条件Ｃ１）と（条件Ｃ２）と（条件Ｃ３）と（条件Ｃ４）の論理積により尤度救済最尤３枚モード５５３から次のフレームで尤度救済最尤２枚モード５５２に状態遷移する方法となるが、本条件に限らず他の遷移条件を設定しても良い。

　これらステートマシン制御手段５５０と状態遷移条件Ｃ５５６により、物体検出の性能や安定性が非常に低下している状態から良好な状態に遷移したと判断すれば、システムへの負荷を軽減して尤度低下を救済する尤度救済最尤２枚モード５５２に状態遷移させることで、搭載する演算プロセッサなどの性能に制限を設けた場合でも、物体検出能力やクラス識別能力や追跡能力の維持を図りつつ、低レイテンシーとリアルタイム性を実現することが可能となる。

　さらに、ある実施形態によれば、図２３に示すように、ステートマシン制御手段５５０は、現在のフレームが尤度救済最尤２枚モード５５２の状態の場合、現在のフレームの最低尤度４９３が任意の第一の尤度閾値４９４以上であり（条件Ｄ１）、トレーサビリティ安定値指標化手段５２０の出力情報である安定値指標５２６が各々の第一の不安定閾値４９６のすべてに対して以下であり（条件Ｄ２）、異常検出枠数５３１がゼロであり（条件Ｄ３）、検出ＮＧ数５４１がゼロであり（条件Ｄ４）、それらすべての条件に合致する場合に、状態遷移条件Ｄ５５７が成立し、次フレームのフレーム制御情報５００の位置シフト量５１０を位置シフト量５１０がゼロ、かつ、位置シフト量５１０の種類がゼロの尤度救済ＯＦＦモード５５１の状態とすることを特徴とするものであっても良い。

　なお、本例では、（条件Ｄ１）と（条件Ｄ２）と（条件Ｄ３）と（条件Ｄ４）の論理積により尤度救済最尤２枚モード５５２から次のフレームで尤度救済ＯＦＦモード５５１に状態遷移する方法となるが、本条件に限らず他の遷移条件を設定しても良い。

　これらステートマシン制御手段５５０と状態遷移条件Ｄ５５７により、物体検出の性能や安定性が低下している状態から良好な状態に遷移したと判断すれば、システムへの負荷を軽減して尤度低下を救済しない尤度救済ＯＦＦモード５５１に状態遷移させることで、搭載する演算プロセッサなどの性能に制限を設けた場合でも、物体検出能力やクラス識別能力や追跡能力の維持を図りつつ、より効率的に低レイテンシーとリアルタイム性も実現することが可能となる。

　次に、尤度の救済を実施し、各種異常値の除去や補間による復元を施した推論結果に対して、一般的な物体検出の指標値であるＡＰ（ＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ）値６５１、ｍＡＰ（ｍｅａｎＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ）値６５２、Ｒｅｃａｌｌ６５５、Ｐｒｅｃｉｓｉｏｎ６５４、ＩＯＵ値６５３を算出するための第二のｍＡＰ算出手段６５０について、図１により説明する。

　ある実施形態によれば、モデル後処理手段４００は、図１に示す表示およびデータ格納手段１２０や学習湯素材データベース格納手段６１０に存在するバリデーション画像に対して、アノテーション手段６２０により生成された検出物体毎に正解となる検出枠を含む位置情報６２１と正解となるクラス識別情報６２２とが存在する場合は、フレーム情報保持手段４７０の現在のフレームの検出物体毎の最尤の検出枠を含む位置情報４０１と正解となる検出枠を含む位置情報６２１の領域がどれぐらい重なっているかを表す指標である対正解枠ＩＯＵ値４９８と、フレーム情報保持手段４７０の現在のフレームの検出物体毎の最尤の尤度情報４０２と正解となるクラス識別情報６２２を比較した結果の真偽の情報と、最尤の尤度情報４０２の尤度を算出し、第二のｍＡＰ算出手段６５０により、バリデーション画像に対するＡＰ値６５１、ｍＡＰ値６５２、Ｒｅｃａｌｌ６５５、Ｐｒｅｃｉｓｉｏｎ６５４などの指標を算出することを特徴とするものであっても良い。ＩＯＵ値６５３は対正解枠ＩＯＵ値４９８の値をこのまま出力するものであっても良い。

　この第二のｍＡＰ算出手段６５０により、推論精度の低下を救済して物体検出能力やクラス識別能力や追跡能力を向上した結果に基づいて、物体検出モデルの性能とモデル学習辞書の汎用性やロバスト性の弱点や強化方針を正確に分析するための性能を指標化することが可能となる。したがって、推論性能の強化のみでは対処できないモデル学習辞書の再学習の必要性を判断して強化することが可能となるため、物体検出装置の物体検出能力やクラス識別能力や追跡能力の最大化を図ることが可能となる。

　（実施形態２）
　図２４は、本発明の実施形態２による物体検出装置を示すブロック図である。ここで、画像処理手段１００と画像出力制御手段１１０と表示およびデータ格納手段１２０とモデル前処理手段２００と物体検出モデル３００とモデル後処理手段４００とロバスト性検証手段８００、および、それらに備えられ各手段、各機能、各工程、各ステップ、および、それらを実現するための各装置、各方法、各プログラムなどは、実施形態１と同じものを使用するため、実施形態２の文中での説明は、一部を除いて省略する。なお、実施形態１で述べた他のある実施形態の各手段、各機能、各工程、各ステップ、各装置、各方法、および、各プログラムなども使用して実現しても良い。

　実施形態２は、前述した実施形態１の構成に加えて、物体検出モデル３００の構成要素の１つであるモデル学習辞書３２０の作成や再学習のための辞書学習手段６００を搭載していることが特徴である。また、次に、実施形態１で説明したフレーム制御情報５００とモデル前処理手段２００と物体検出モデル３００とモデル後処理手段４００の一連の尤度の救済と推論性能の改善と安定化の手法に対する別の実施形態である、モデル前処理手段２００の画面分割機能２５０により物体検出を実施する画面を分割して、特に、推論処理のレイテンシーや処理時間の短縮を行う手段に関しても、辞書学習手段６００による深層学習との重要な関連性を含め説明する。

　なお、後述する本発明の実施形態２に記載している各手段、各機能、および、各工程は、それぞれをステップに、各装置は、それぞれを方法に置き換えても良い。また、本発明の実施形態２に記載している各手段と各装置は、コンピュータにより機能させるプログラムで実現しても良い。

　まずは、物体検出モデル３００の構成要素の１つであるモデル学習辞書３２０を作成するための深層学習である辞書学習手段６００の一例について説明する。

　最初に、深層学習のための素材データ（画像データ）が保存されている学習用素材データベース格納手段６１０から、使用目的に適切と考えられる学習用素材データを抽出する。学習用素材データベース格納手段６１０に格納されている学習のための素材データは、例えば、ＣＯＣＯ（Ｃｏｍｍｏｎ　Ｏｂｊｅｃｔ　ｉｎ　Ｃｏｎｔｅｘｔ）やＰａｓｃａｌＶＯＣＤａｔａｓｅｔなどの大規模なオープンソースのデータセットを活用したもの
でも良い。また、使用用途に応じて必要となる画像を、例えば、画像処理手段１００から画像出力制御手段１１０を使って表示およびデータ格納手段１２０に格納した画像データを活用する場合もある。

　次に、学習用素材データベース格納手段６１０から抽出された学習用素材データに対して、アノテーション手段６２０によって、クラス識別情報と正解枠であるｇｒｏｕｎｄｔｒｕｔｈＢＢｏｘを付加して教師ありデータを作成する。ここで、ＣＯＣＯやＰａｓｃａｌＶＯＣＤａｔａｓｅｔなどのオープンソースのデータセットは、すでにアノテーションの処理が施されているデータがあれば、アノテーション手段６２０を使わず直接、教師ありデータとして活用しても良い。

　次に、教師ありデータは、Ａｕｇｍｅｎｔ手段６３０によって、汎用性およびロバスト性を強化するために学習用画像６３１として水増しする。ここで、Ａｕｇｍｅｎｔ手段６３０は、例えば、画像を水平方向と垂直方向の任意の位置にシフトする手段や、任意の倍率に拡大や縮小する手段や、任意の角度に回転させるための手段や、アスペクト比を変更する手段や、歪補正や円筒変換などを行うためのデワープ手段を備えており、使用目的に応じて、各種手段を組み合わせて画像を水増しするものである。

　次に、Ａｕｇｍｅｎｔ手段６３０によって水増しされた学習用画像６３１を深層学習手段６４０に入力して、ＤＮＮモデル３１０の重み係数を算出し、算出された重み係数を、例えば、ＯＮＮＸフォーマットに変換してモデル学習辞書３２０を作成する。なお、ＯＮＮＸフォーマット以外に変換してモデル学習辞書３２０を作成しても良い。ここで、深層学習手段６４０は、例えば、ＤＮＮモデル３１０にＹＯＬＯを適用した際は、ｄａｒｋｎｅｔと呼ばれるオープンソースの学習環境と演算プロセッサ（パーソナルコンピュータやスーパーコンピュータを含む）により実現するものである。ｄａｒｋｎｅｔには、ハイパーパラメータと呼ばれる学習用パラメータが存在しており、使用用途や目的に応じて、適切なハイパーパラメータを設定して、Ａｕｇｍｅｎｔ手段６３０と合わせて、汎用性やロバスト性を強化することも可能である。深層学習手段６４０により作成されたモデル学習辞書３２０を物体検出モデル３００に反映することで、画像内の物体の位置検出やクラス識別を行うことが可能となる。なお、深層学習手段６４０は、電子回路により構成されるものであっても良い。なお、適用するＤＮＮモデル３１０に応じて、プログラム言語により構成された学習環境を使っても良い。

　次に、画像内の物体の位置検出やクラス識別を行うモデルのモデル学習辞書３２０のロバスト性や強化方針を分析するための物体検出における性能の指標化に関する手段の一例について説明する。

　前述した、学習用素材データベース格納手段６１０から、使用目的に対する必要な検出精度や検出性能や汎用性、および、ロバスト性を検証するためのバリデーション用素材データを抽出する。学習用素材データベース格納手段６１０に格納されているバリデーションのための画像データは、例えば、ＣＯＣＯ（Ｃｏｍｍｏｎ　Ｏｂｊｅｃｔ　ｉｎ　Ｃｏｎｔｅｘｔ）やＰａｓｃａｌＶＯＣＤａｔａｓｅｔなどの大規模なオープンソースのバリデーション用の画像データセットを活用したものでも良い。また、使用目的に対する必要な検出精度や検出性能や汎用性、および、ロバスト性を検証するための画像を、例えば、画像処理手段１００から画像出力制御手段１１０を使って表示およびデータ格納手段１２０に格納した画像データを活用する場合もある。

　次に、学習用素材データベース格納手段６１０から抽出されたバリデーション用素材データに対して、アノテーション手段６２０によって、クラス識別情報と正解枠であるｇｒｏｕｎｄｔｒｕｔｈＢＢｏｘを付加してバリデーション用データ６２３を作成する。ここで、ＣＯＣＯやＰａｓｃａｌＶＯＣＤａｔａｓｅｔなどのオープンソースのデータセットは、すでにアノテーションの処理が施されているデータがあれば、アノテーション手段６２０を使わず直接、バリデーション用データ６２３として活用しても良い。

　次に、正解となる検出枠を含む位置情報６２１と正解となるクラス識別情報６２２を含むバリデーション用データ６２３を、実施形態１で述べたフレーム制御情報５００に則ったモデル前処理手段２００と物体検出モデル３００とモデル後処理手段４００の一連の尤度を救済する手段に入力して得られた各種結果を第二のｍＡＰ算出手段６５０に入力して、正解枠であるｇｒｏｕｎｄｔｒｕｔｈＢＢｏｘと推論（予測）した結果として算出されるＰｒｅｄｉｃｔｅｄＢＢｏｘ（予測したＢＢｏｘ）を比較したＩＯＵ値６５３の算出と、すべてのバリデーション用データ６２３に対するすべての予測結果の内、正しくＩＯＵ値６５３が任意の閾値以上で予測できた割合を示すＰｒｅｃｉｓｉｏｎ６５４の算出と、実際の正解結果の内、ＩＯＵ値６５３が任意の閾値以上で正解結果と近い位置のＢＢｏｘを予測できた割合を示すＲｅｃａｌｌ６５５の算出と、前述した物体検出の精度や性能を比較するための指標としての各クラス別のＡＰ（ＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ）値６５１と、全クラスを平均化したｍＡＰ（ｍｅａｎＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ）値６５２を算出するものであっても良い。（例えば、非特許文献２参照）ここで、第二のｍＡＰ算出手段６５０は、例えば、ＤＮＮモデル３１０にＹＯＬＯを適用した際は、ｄａｒｋｎｅｔと呼ばれるオープンソースの推論環境と演算プロセッサ（パーソナルコンピュータやスーパーコンピュータを含む）を備えたものであり、実施形態１で説明した尤度の救済手段と時系列データからの異常値の除去や情報の復元が可能な機能やプログラムや性能を有していることが望ましい。

　これら、実施形態１と実施形態２で述べた画像処理手段１００とモデル前処理手段２００と物体検出モデル３００とモデル後処理手段４００とロバスト性検証手段８００と学習用素材データベース格納手段６１０とアノテーション手段６２０と第二のｍＡＰ算出手段６５０によりＩＯＵ値６５３とＰｒｅｃｉｓｉｏｎ６５４とＲｅｃａｌｌ６５５とＡＰ値６５１とｍＡＰ値６５２を生成する一連の手段が、画像内の物体の位置検出やクラス識別を行うモデルのモデル学習辞書のロバスト性や強化方針を分析するための性能指標となる。

　ある実施形態によれば、実施形態１で述べたロバスト性検証手段８００および確率統計演算手段８１０により、フレーム制御情報５００のパラメータ別に、検出物体毎の尤度分布８３０などの抽出が可能となることにより、深層学習などにより作成されるモデル学習辞書３２０に起因する汎用性や各種変動条件に対するロバスト性の弱点や強化方針を、ＤＮＮモデルを含むニューラルネットワークそのものが潜在的に有する課題と切り分けて、より正確に把握することが可能となる。したがって、深層学習などにより効果的な学習用画像データや教師ありデータを適用できるため、モデル学習辞書３２０の汎用性やロバスト性の強化を図ることが可能となる。

　ある実施形態によれば、確率統計演算手段８１０によって算出された尤度分布８３０、平均尤度８０１、尤度のヒストグラム８４０、尤度の標準偏差８０２、最大尤度８０３、最小尤度８０４、ＩＯＵ値８０５などに基づき分析した結果、モデル学習辞書３２０が性能不十分であると判断した場合は、その結果に基づいて、学習画像を準備して、内蔵もしくは外部の辞書学習手段６００により再学習することを特徴とするものであっても良い。

　これら、ある実施形態の物体検出における性能指標を使用して、物体検出モデル３００とモデル学習辞書３２０の検出性能、検出精度、および、バラつきや不完全性などの汎用性およびロバスト性の課題を検証した結果を踏まえて、物体検出モデル３００の改良、および、解決及び強化する方向に辞書学習手段６００により繰り返し深層学習させることで、より検出能力が高く、各種変動条件に対しても汎用性とロバスト性が高い物体検出を実現することが可能となる。

　次に、実施形態１で説明したフレーム制御情報５００とモデル前処理手段２００と物体検出モデル３００とモデル後処理手段４００の一連の尤度の救済と推論性能の改善と安定化の手法に対する別の実施形態である、モデル前処理手段２００の画面分割機能２５０により物体検出を実施する画面を分割して、特に、推論処理のレイテンシーや処理時間の短縮を行う手段に関して、図２５により説明する。

　図２５Ａは、モデル入力画像である基準画像１Ｄ７７０の水平方向の画素数であるＸｉを１２８に、垂直方向の画素数であるＹｉを１２８に設定している場合であり、物体検出モデル３００は、図３Ａに示すＹＯＬＯモデル３６０において第一の検出レイヤ３６１のグリッドセルが４×４、第二の検出レイヤ３６２のグリッドセルが８×８、第三の検出レイヤ３６３のグリッドセルが１６×１６で構成されたＤＮＮモデルにより推論を実施するものとする。

　ある実施形態によれば、モデル前処理手段２００は、基準画像２２１に対して、フレーム制御情報５００の画面分割パラメータ５１２に則って、適切な検出範囲を切り出すクロップ機能２４０と物体検出モデル３００の入力画面を２つに分割した領域にクロップ機能２４０により切り出した画像を垂直方向と水平方向にリサイズして貼り付ける画面分割機能２５０を有し、画面分割機能２５０により画面分割された一方を第一の分割後基準画像２２４とし、もう一方を第二の分割後基準画像２２５とし、第一の分割後基準画像２２４をフレーム制御情報５００の位置シフト量５１０に則って、第一の分割後基準画像２２４に水平方向にＧピクセル（Ｇは任意の小数）および垂直方向にＨピクセル（Ｈは任意の小数）の位置シフトを施した第一の分割後位置シフト画像２２６を生成し、第二の分割後基準画像２２５と第一の分割後位置シフト画像２２６をフレーム毎に物体検出モデル３００に入力するモデル前処理手段２００と、モデル前処理手段２００から出力されたフレーム毎の第二の分割後基準画像２２５と第一の分割後位置シフト画像２２６に対して物体位置とクラス識別と尤度を推論するモデル学習辞書３２０を含む物体検出モデル３００と、物体検出モデル３００の推論結果である検出物体毎の第二の分割後基準画像２２５の補正前の検出枠を含む位置情報３０１と第二の分割後基準画像２２５の補正前の尤度情報３０２と、第一の分割後位置シフト画像２２６の補正前の検出枠を含む位置情報３０１と第一の分割後位置シフト画像２２６の補正前の尤度情報３０２とをモデル後処理手段４００の個体識別手段４１０に入力して個体識別を行った後の、第二の分割後基準画像２２５の個体識別後の尤度情報４０４と第一の分割後位置シフト画像２２６の個体識別後の尤度情報４０４とを比較して最大となる方の入力画像と推論結果を選択してフレーム毎に出力する画像選択手段４５０と、画像選択手段４５０により第二の分割後基準画像２２５の推論結果を選択した場合は、フレーム制御情報５００の画面分割パラメータ５１２に則って、元の基準画像２２１に相当するように位置とサイズの逆補正を施した検出枠を含む位置情報を出力し、画像選択手段４５０により第一の分割後位置シフト画像２２６の推論結果を選択した場合は、フレーム制御情報５００の位置シフト量５１０と画面分割パラメータ５１２に則って、モデル前処理手段２００の生成時とは逆方向に位置シフトを施した後、元の基準画像２２１に相当するように位置とサイズの逆補正を施した検出枠を含む位置情報を出力する検出枠補正手段４６０を備えることを特徴とするものであっても良い。

　さらに、ある実施形態によれば、フレーム制御情報５００の位置シフト量５１０は、フレーム制御情報５００の画面分割パラメータ５１２に則って、クロップ機能２４０と画面分割機能２５０により画面分割された一方の第一の分割後基準画像２２４の垂直方向と水平方向のピクセル数を、ＤＮＮモデル３１０を含むニューラルネットワークモデルの１つ以上の検出レイヤ毎の水平方向と垂直方向のグリッドセルサイズで除算した値の１／２ピクセル値か、それに近似するピクセル値で決定されることを特徴とするものであっても良い。

　さらに、ある実施形態によれば、モデル前処理手段２００は、第一の分割後基準画像２２４、および、第二の分割後基準画像２２５が、ＤＮＮモデル３１０を含むニューラルネットワークモデルの１つ以上の検出レイヤ毎の水平方向と垂直方向のグリッドセルサイズで除算した際に、水平方向も垂直方向も割り切れるように、フレーム制御情報５００の画面分割パラメータ５１２を設定することを特徴とするものであっても良い。

　図２５Ａに示すように、基準画像１Ｄ７７０は、検出物体として人物７７５が存在する。基準画像１Ｄ７７０の中で物体検出を実施する領域を点線の範囲７８５とする。本例では、尤度を救済する方法として、物体検出モデル３００に入力する画面を上下で２分割する方法を適用する。まずは、モデル前処理手段２００のリサイズ機能２３０とクロップ機能２４０により範囲７８５の画像を水平方向に１２８ピクセル、垂直方向に６４ピクセルになるようにリサイズして切り出しを行う。リサイズおよび切り出し後の画像が加工画像７７１となり、その際のリサイズパラメータとクロップパラメータが画面分割パラメータ５１２となる。次に、画面分割機能２５０により加工画像７７１を上側の第一の分割後基準画像１Ｕ７７２と下側の第二の分割後基準画像１Ｌ７７３として貼り付けて物体検出モデル３００の入力画像を生成する。この時、第一の分割後基準画像１Ｕ７７２と第二の分割後基準画像１Ｌ７７３の水平方向の画素サイズ１２８ピクセルと垂直方向の画素サイズ６４ピクセルは、それぞれ、本例のＹＯＬＯモデル３６０の第一の検出レイヤ３６１のグリッドセル４×４と、第二の検出レイヤ３６２のグリッドセル８×８と、第三の検出レイヤ３６３のグリッドセル１６×１６で除算した際に、水平方向も垂直方向も割り切れる画素数になっている。これにより、分割された画像のそれぞれに対して、同じ条件で画像中の物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下を救済することが可能となる。

　次に、尤度の救済と推論性能を向上するに際して、モデル前処理手段２００の位置シフト機能２２０により第一の分割後基準画像１Ｕ７７２から第一の分割後位置シフト画像１ＵＳ７７４を生成する際に参照するフレーム制御情報５００の位置シフト量５１０を選定する。ここで、加工画像７７１の人物７７６はリサイズされた影響で本来の人物７７５に比べるとサイズも小さくなりアスペクト比も変化する。結果として物体サイズとして中サイズから小サイズに分類されるため、特定の尤度が部分的に低下する格子状のパターンは、水平および垂直に約８ピクセルの大きさを示し、グリッドセルが１６×１６である第三の検出レイヤ３６３によって推論した結果が最も強く反映されているとする。ここで、グリッドセルの１つのセルのサイズは、水平方向に８ピクセル（＝１２８÷１６）であり、垂直方向に８ピクセル（＝１２８÷１６）であることから、それぞれの１／２に相当する値である４ピクセルをフレーム制御情報５００の位置シフト量５１０の水平方向の位置シフト量（Ｇ＝４）と垂直方向の位置シフト量（Ｈ＝４）に設定して、モデル前処理手段２００の位置シフト機能２２０により第一の分割後基準画像１Ｕ７７２から左方向と上方向に４ピクセルシフトして第一の分割後位置シフト画像１ＵＳ７７４を生成する。この時、物体検出モデル３００とモデル後処理手段４００の個体識別手段４１０により算出された図２５Ａの第一の分割後位置シフト画像１ＵＳ７７２の人物７７６の個体識別後の尤度情報の尤度７７９は、９３％であり、第二の分割後基準画像１Ｌ７７３の人物７７６の個体識別後の尤度情報の尤度７８０は、５９％とする。この時、第二の分割後基準画像１Ｌ７７３の尤度７８０（５９％）は、約８ピクセルの特定の格子パターン状に尤度が低下する場合の尤度が低下する位置にあり、第一の分割後位置シフト画像１ＵＳ７７４の尤度７７９（９３％）は、約８ピクセルの特定の格子パターンの尤度が低下する位置から約１／２に相当する水平方向と垂直方向に４ピクセルシフトした場所に位置するため尤度低下の影響を受けていない。したがって、本例では、フレーム制御情報５００の位置シフト量５１０の水平方向の位置シフト量（Ｇ）と垂直方向の位置シフト量（Ｈ）をそれぞれ４に設定することが尤度低下を救済する際に有用となる。

　なお、第一の分割後位置シフト画像１ＵＳ７７４を生成するに際して、加工により発生する有効画像が存在しない余白部分７９４は、有効画像の平均輝度レベルと等しい単一色で一様に塗りつぶして画像を生成することを特徴とするものであっても良い。

　次に、実際に尤度低下を救済するためのモデル後処理手段４００について、図２５Ｂを使用して説明する。

　図２５Ｂでは、一例として、動画に対してフレーム１からフレーム４までを順次推論処理をしていく方法を示す。ここで、各フレーム間のフレームレートは、物体検出モデル３００による１つの基準画像１Ｄ７７０に相当する推論処理時間を元に決定されるものであってもよい。１フレームあたり１画像の推論処理を実施するのみで良いため、ハードウェアやソフトウェアを含め演算プロセッサの性能に制限があった場合でも物体検出処理時間を短縮し、レイテンシーの低減やフレームレートのアップを図ることが可能となる。画像処理手段１００の出力処理により、最初のフレーム１対して画像が生成された後、フレーム制御情報５００の画面分割パラメータ５１２と水平方向と垂直方向にそれぞれ４ピクセル（Ｇ＝４、Ｈ＝４）の位置シフト量５１０に則って、モデル前処理手段２００の位置シフト機能２２０とリサイズ機能２３０とクロップ機能２４０と画面分割機能２５０により図２５Ａの第一の分割後位置シフト画像１ＵＳ４７７４と第二の分割後基準画像１Ｌ７７３を生成する。同様にフレーム２に対しては第一の分割後位置シフト画像２ＵＳと第二の分割後基準画像２Ｌを、フレーム３に対しては第一の分割後位置シフト画像３ＵＳと第二の分割後基準画像３Ｌを、フレーム４に対しては第一の分割後位置シフト画像４ＵＳと第二の分割後基準画像４Ｌを生成する。フレーム１に対して生成された第一の分割後位置シフト画像１ＵＳ７７４と第二の分割後基準画像１Ｌ７７３は、物体検出モデル３００に入力されて、第一の分割後位置シフト画像１ＵＳ７７４に対する推論結果である１ＵＳ検出結果７８１と第二の分割後基準画像１Ｌ７７３に対する推論結果である１Ｌ検出結果７８２を出力する。これらの出力結果は、疑似出力を含む補正前の検出枠を含む位置情報３０１と補正前の尤度情報３０２に相当する。同様に、フレーム２に対しては２ＵＳ検出結果と２Ｌ検出結果を、フレーム３に対しては３ＵＳ検出結果と３Ｌ検出結果を、フレーム４に対しては４ＵＳ検出結果と４Ｌ検出結果を算出する。フレーム１に対して算出された１ＵＳ検出結果７８１と１Ｌ検出結果７８２は、モデル後処理手段４００の個体識別手段４１０により第一の分割後位置シフト画像１ＵＳ７７４に対する検出物体毎に固有の１ＵＳ識別結果７８３と第二の分割後基準画像１Ｌ７７３に対する１Ｌ識別結果７８４に識別されて出力される。これらの出力結果は、個体識別後の検出枠を含む位置情報４０３と個体識別後の尤度情報４０４を含むものであり、図２５Ａの個体識別後の検出枠を含む位置情報７７７と７７８、および、個体識別後の尤度情報の尤度７７９（９３％）と７８０（５９％）に相当する。同様に、フレーム２に対しては２ＵＳ識別結果と２Ｌ識別結果を、フレーム３に対しては３ＵＳ識別結果と３Ｌ識別結果を、フレーム４に対しては４ＵＳ識別結果と４Ｌ識別結果を算出する。フレーム１に対して算出された１ＵＳ識別結果７８３と１Ｌ識別結果７８４は、モデル後処理手段４００の画像選択手段４５０により、第一の分割後位置シフト画像１ＵＳ７７４に対する尤度７７９（９３％）と第二の分割後基準画像１Ｌ７７３に対する尤度７８０（５９％）を比較して、最大値となる尤度７７９（９３％）と第一の分割後位置シフト画像１ＵＳ７７４を選択する。したがって、尤度救済の結果である最尤の出力結果として、最尤の尤度情報４０２は、第一の分割後位置シフト画像１ＵＳ７７４に対する尤度７７９（９３％）とクラス識別情報を出力する。一方、最尤の検出枠を含む位置情報４０１に関しては、画像選択手段４５０により第一の分割後位置シフト画像１ＵＳ７７４側が選択されたことで、図２５Ａに示す個体識別後の検出枠を含む位置情報７７７は、本来の基準画像１Ｄ７７０に対して画面分割によるリサイズと切り出し時と貼り付け時のオフセットと位置シフトを施した分だけズレが生じていることになる。したがって、画像選択手段４５０により第一の分割後位置シフト画像１ＵＳ７７４が選択された場合は、検出枠補正手段４６０により、フレーム制御情報５００の画面分割パラメータ５１２に則ってリサイズと切り出し時と貼り付け時のオフセットの逆方向への処理を施し、かつ、水平方向と垂直方向にそれぞれ４ピクセル（Ｇ＝４、Ｈ＝４）の位置シフト量５１０に則って、モデル前処理手段２００の位置シフト機能２２０で位置シフトした方向とは逆方向に、右方向と下方向にそれぞれ４ピクセル分位置をシフトした結果を尤度救済の結果である最尤の検出枠を含む位置情報４０１として出力する。その際、画像選択手段４５０により選択された画像が第二の分割後基準画像１Ｌ７７３であった場合は、１Ｌ識別結果７８４に対して画面分割パラメータ５１２に則ってリサイズと切り出し時と貼り付け時のオフセットの逆方向への処理を施した結果をそれぞれ最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２として出力する。同様に、フレーム２からフレーム４に対しても画像選択手段４５０と検出枠補正手段４６０により最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２を算出する。なお、最尤の検出枠を含む位置情報４０１と最尤の尤度情報４０２は、画像出力制御手段１１０とロバスト性検証手段８００に入力されるものであっても良い。ここで、最尤の検出枠を含む位置情報４０１は、例えば、検出枠の中心座標、水平方向の幅、垂直方向の高さを含む情報であり、最尤の尤度情報４０２は、例えば、検出精度を示す尤度とクラス識別情報である。また、算出された最尤の検出枠を含む位置情報４０１と尤の尤度情報４０２を元に、前述の実施形態１で説明したフレーム保持手段４７０とフレーム情報補間手段４８０とトレーサビリティ安定値指標化手段５２０と異常検出枠数算出手段５３０と検出ＮＧ数算出手段５４０とステートマシン制御手段５５０を適用して、時系列情報として異常値の除去や各種予測手段と復元による情報の復元や制御の安定値の指標化によるステートマシン制御を適用して、推論性能の向上や安定化と追跡能力の向上を図るものであっても良い。

　また、本例では、画面分割パラメータ５１２と画面分割機能２５０を上下に２面で分割する場合を示したが、上下以外の画面分割の方法を適用するものであっても良い。さらに、３つ以上に画面分割し、位置シフト量５１０を２種類以上適用するように拡張したものであっても良い。

　これら画面分割により尤度を救済する方法により、画像中でＤＮＮを含むニューラルネットワークの検出レイヤの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下を救済する効果が高まり、より確実に物体検出能力やクラス識別能力を向上することが可能となり、さらに、フレーム毎に推論する画像を１つに限定することができるため、物体検出モデルの推論時の処理負荷を軽減ことが可能となる。したがって、検出対象物が動いている状態で物体検出を行う場合や、搭載する演算プロセッサなどの性能に制限を設けた場合でも、物体検出の精度や性能を担保しつつ、低レイテンシーとリアルタイム性を実現することが可能となる。

　さらに、ある実施形態によれば、個体識別手段４１０は、フレーム制御情報５００の画面分割パラメータ５１２に則って、画面分割の加工を施した際は、第二の分割後基準画像２２５と第一の分割後位置シフト画像２２６の境界線上で検出された補正前の検出枠を含む位置情報３０１は、第二の分割後基準画像２２５と第一の分割後位置シフト画像２２６のいずれの領域に広く分布しているか判定し、広く分布している側の領域内の補正前の検出枠を含む位置情報３０１を領域内で切り出して結果として残留させ、一方の領域側にはみ出した補正前の検出枠の位置情報３０１は、切り取って削除することを特徴とするものであっても良い。

　これにより、分割境界上の異常データの排除と検出物体毎に検出枠を含む位置情報と尤度情報を適した情報に個体判別、および、補正することができるため、画像中の物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下をより正確に救済することが可能となる。

　さらに、ある実施形態によれば、フレーム制御情報５００の位置シフト量５１０は、フレーム制御情報５００の画面分割パラメータ５１２に則って、クロップ機能２４０と画面分割機能２５０により画面分割された一方の第一の分割後基準画像２２４の垂直方向と水平方向のピクセル数を、ＤＮＮモデル３１０を含むニューラルネットワークモデルの１つ以上の検出レイヤ毎の水平方向と垂直方向のグリッドセルサイズで除算した値の１／２ピクセル値か、それに近似するピクセル値で決定された中で、検出対象物のサイズに依存して検出精度、もしくは、検出頻度が高くなる検出レイヤに対応する位置シフト量５１０の順番にモデル前処理手段２００とモデル後処理手段４００で適用されることを特徴とするものであっても良い。例えば、図２５においては、ステートマシン制御手段５５０により検出された物体サイズに応じて次のフレームに対して設定するフレーム制御情報５００の位置シフト量５１０を４（Ｇ＝４、Ｈ＝４）と８（Ｇ＝８、Ｈ＝８）を切り替えるようなものであっても良い。

　さらに、ある実施形態によれば、フレーム制御情報５００の位置シフト量５１０の種類が２つ以上の場合は、複数の位置シフト量５１０の平均値を位置シフト量５１０として使用することを特徴とするものであっても良い。例えば、図２５においては、ステートマシン制御手段５５０により検出された物体サイズに応じて次のフレームに対して設定するフレーム制御情報５００の位置シフト量５１０を４ピクセルと８ピクセルの平均値である６ピクセル（Ｇ＝６、Ｈ＝６）に設定するようなものであっても良い。

　これにより、画像中の検出対象物のサイズに対して最適な推論精度が得られるＤＮＮを含むニューラルネットワークの検出レイヤが複数存在した場合でも、より有効な位置シフト量や平均的な位置シフト量が適用できるため、検出対象物の位置とサイズの揺らぎに対する推論精度の低下に対する救済効果がさらに高まり、より確実に物体検出能力やクラス識別能力を向上することが可能となる。

　さらに、ある実施形態によれば、モデル前処理手段２００が、フレーム制御情報５００の画面分割パラメータ５１２に則って、画像を分割する場合は、画面分割パラメータ５１２に則って生成された学習画像にアノテーション手段６２０により正解枠データを付加し、前述した内蔵もしくは外部の辞書学習手段６００によりモデル学習辞書３２０を再学習することを特徴とするものであっても良い。

　さらに、ある実施形態によれば、アノテーション手段６２０により生成された検出物体毎に正解となる検出枠を含む位置情報６２１と正解となるクラス識別情報６２２とが存在する場合は、フレーム情報保持手段４７０の現在のフレームの検出物体毎の最尤の検出枠を含む位置情報４０１と正解となる検出枠を含む位置情報６２１の領域がどれぐらい重なっているかを表す指標である対正解枠ＩＯＵ値４９８と、フレーム情報保持手段４７０の現在のフレームの検出物体毎の最尤の尤度情報４０２と正解となるクラス識別情報６２２を比較した結果の真偽の情報と、最尤の尤度情報４０２の尤度を算出し、第二のｍＡＰ算出手段６５０により、バリデーション画像に対するＡＰ値６５１、ｍＡＰ値６５２、Ｒｅｃａｌｌ６５５、Ｐｒｅｃｉｓｉｏｎ６５４などの指標を算出することを特徴とするものであっても良い。ＩＯＵ値６５３は対正解枠ＩＯＵ値４９８の値をこのまま出力するものであっても良い。

　図２５Ａにおいては、基準画像１Ｄ７７０から加工画像７７１を生成するに際しても、アスペクトの比率が変化し、検出物体のサイズも小さい側に変化し、かつ、上下で画面を分割しているため自然画に近いとは言えない画像に対して推論処理を行う必要があるため、自然画に近いＣＯＣＯやＰａｓｃａｌＶＯＣＤａｔａｓｅｔなどのオープンソースのデータセットによる深層学習を実施したのみでは、十分な推論性能やロバスト性を備えたモデル学習辞書３２０を作成することはできない。そこで、オープンソースのデータセットや、表示およびデータ格納手段１２０や学習用素材データベース格納手段６１０に存在する学習用画像に対して、フレーム制御情報５００の画面分割パラメータ５１２に則って、モデル前処理手段２００のリサイズ機能２３０とクロップ機能２４０と画面分割機能２５０により、それらの学習用画像を再加工して、アノテーション手段６２０で教師ありデータに加工し、Ａｕｇｍｅｎｔ手段６３０による水増しを行った後、深層学習手段６４０で深層学習を実施することにより、画面分割に適した推論性能を有するモデル学習辞書３２０を生成することが可能となり、画面分割に適したモデル学習辞書３２０により推論を実施することで、画面分割時にも、尤度の救済を精度よく、かつ、安定的に行うことができる。

　これらモデル学習辞書３２０の学習手段を備え、学習用素材を画面分割処理に合わせて再加工した上で深層学習や性能指標化を実施することにより、検出対象物が動いている状態で物体検出を行う場合や、搭載する演算プロセッサなどの性能に制限を設けた場合でも、低レイテンシーとリアルタイム性を維持しつつ、画面分割された画像に対して、物体検出モデルとモデル学習辞書の汎用性やロバスト性の強化を図ることができるため、画像中の物体検出を行うモデルの構造そのものに依存した検出対象物の位置とサイズの揺らぎに対する推論精度の低下を救済することが可能となる。

　（まとめ）
　図２７は、本発明の物体検出装置の要約を示す図である。図２７に示すように、本発明の物体検出装置、物体検出方法、及びプログラムは、検出対象を含む画像を取得して適切に加工する画像処理手段により生成された画像データに対して、物体検出モデルが潜在的に有する特定の格子状に尤度が低下する課題に対して、尤度の救済に効果が高い位置シフト量を設定したフレーム制御情報に則って、フレーム毎に２画像ないし複数の画像に加工するモデル前処理手段を有し、複数の加工画像を学習済みのモデル学習辞書を備えた物体検出モデルに入力して得られた推論情報から、モデル後処理手段の尤度を最大化させるための画像選択手段と位置シフトされた画像側が選択された場合に検出枠を正規の位置に補正する検出枠補正手段により検出物体毎の最尤の検出枠の位置情報と最尤の尤度情報を算出する。

　要約すると、図２７に示すように、物体検出モデルの構造に依存する位置ゆらぎに関する推論精度の低下を救済して、物体検出能力を向上することができる物体検出装置、方法、及びプログラムを提供するという課題に対して、本開示では、物体検出装置は、画像を取得して加工する画像処理手段と、フレーム制御情報の位置シフト量に則って、基準画像に位置シフトを施した第一の位置シフト画像を生成するモデル前処理手段と、フレーム毎に基準画像と第一の位置シフト画像から物体位置とクラス識別と尤度を推論する物体検出モデルと、モデル後処理手段は、物体検出モデルの推論結果である各画像の検出物体毎の検出枠を含む位置情報と尤度情報を比較して最大となる方の推論結果を選択してフレーム毎に出力する画像選択手段を有し、画像選択手段が第一の位置シフト画像の推論結果を選択した場合は、フレーム制御情報の位置シフト量に則って逆方向に位置シフトを施した検出枠を含む位置情報を出力する検出枠補正手段を備える。

　以上、一つまたは複数の態様に係る物体検出装置などについて、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。

　例えば、上記実施の形態において、各構成要素は、専用のハードウェアで構成されるが、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記実施の形態の物体検出装置などを実現するソフトウェアは、次のようなプログラムである。

　すなわち、このプログラムは、コンピュータに、物体検出方法を実行させるプログラムである。

　本発明は、物体検出モデルを使用して画像中で物体の位置検出やクラス識別や追跡を行う技術分野で有用である。その中でも、物体検出を行うためのカメラなどを小型化、省電力化、および、低コスト化するための技術分野で特に有用である。

１００　画像処理手段
１０１　レンズ
１０２　イメージセンサ
１０３、２９０　画像処理プロセッサ
１１０　画像出力制御手段
１２０　表示およびデータ格納手段
２００　モデル前処理手段
２０１、２０２、２０３、２０４、２０５、２０６、２１０、２２０Ａ、２２０Ｂ、２２０Ｃ、２２０Ｄ、２３１、２３２、２３３、２６１、２６２、２６３、２６６、２６７、２６８、２７１、２７２、２７３、３１１、３２１、３３１、８２６　モデル入力画像
２２１、７０１、７２３、７５１、７７０　基準画像
２２２、７０２、７２４、７５２　第一の位置シフト画像
２２３、７２５　第二の位置シフト画像
２２４、７７２　第一の分割後基準画像
２２５、７７３　第二の分割後基準画像
２２６、７７４　第一の分割後位置シフト画像
２０７、２０８、２０９、２１１、２１２、２１３、４１１、４１２、４１５、４１６、７０４、７０５、７２８、７２９、７３０、７３１、７３２、７３３、７５５、７５６、７７７、７７８　個体識別後の検出枠を含む位置情報
２１４、２１５、２１６、２１７、２１８、２１９、４１３、４１４、４１７、４１８　個体識別後の尤度情報の中の尤度
２２０　位置シフト機能
２３０　リサイズ機能
２４０　クロップ機能
２５０　画面分割機能
２５５　モデル入力画像
２６０　回転機能
２６５　アスペクト比変更機能
２７０　階調変換機能
２７４、２７５、２７６　階調変換曲線
２７７　デワープ機能
２８０　余白パディング機能
２８１、２８２、２８３、２８４、２８５、２８６、２８７、２８８、７９０，７９１、７９２、７９３、７９４　余白部分
２９１　アフィン変換関数
２９２　射影変換関数
２９３　歪補正テーブル
３００　物体検出モデル
３０１、３２２、３２３、３２４、３２５、３３２、３３３、３３４、３３５　補正前の検出枠を含む位置情報
３０２　補正前の尤度情報
３２６、３２７、３２８、３２９、３３６、３３７、３３８、３３９　補正前の尤度情報の中の尤度
３１０　ＤＮＮモデル
３１２　複数のＢｏｕｎｄｉｎｇＢＢｏｘと信頼度を推測する工程
３１３　Ｃｏｎｆｉｄｅｎｃｅ（信頼度）
３１４　条件付きクラス確率を算出する工程
３１５　条件付きクラス確率
３１６　最終検出工程
３１７　Ｃｏｎｆｉｄｅｎｃｅｓｃｏｒｅ（信頼度スコア）
３１８　補正前の検出枠を含む位置情報
３２０　モデル学習辞書
３３０　人工ニューロンモデル
３４０　ニューラルネットワーク
３５０　活性化関数
３５１　シグモイド関数
３５２　ＲｅＬＵ
３５３　ＬｅａｋｙＲｅＬＵ
３６０　ＹＯＬＯモデル
３６１　第一の検出レイヤ
３６２　第二の検出レイヤ
３６３　第三の検出レイヤ
３６４、３６５　Ｕｐｓａｍｐｌｉｎｇレイヤ
３６６、３６７　スキップ接続
３７０、３７１、３７２、３７３、３７４、３７５、３７６、３７７、３７８、３７９、３８０、３８１、３８２、３８３、３８４、３８５、３８６、３８７　Ｃｏｎｖｏｌｕｔｉｏｎレイヤ
３９０、３９１、３９２、３９３、３９４、３９５　Ｐｏｏｌｉｎｇレイヤ
４００　モデル後処理手段
４０１、４０１Ａ、４０１Ｂ、４０１Ｃ、４０１Ｄ、４０１Ｆ、４０１Ｈ、４０１Ｘ　最尤の検出枠を含む位置情報
４０２、４０２Ａ、４０２Ｂ、４０２Ｃ、４０２Ｄ、４０２Ｆ　最尤の尤度情報
４０３　個体識別後の検出枠を含む位置情報
４０４　個体識別後の尤度情報
４０５　検出結果
４１０　個体識別手段
４２０、４２７、４２８、４２９、６５３、８０５　ＩＯＵ値
４２２　ＡｒｅａｏｆＵｎｉｏｎ
４２３　ＡｒｅａｏｆＩｎｔｅｒｓｅｃｔｉｏｎ
４２４　人物
４２５　ｇｒｏｕｎｄｔｒｕｔｈＢＢｏｘ
４２６　ＰｒｅｄｉｃｔｅｄＢＢｏｘ
４５０　画像選択手段
４６０　検出枠補正手段
４７０　フレーム情報保持手段
４７１　格納メモリ
４７２、４７２Ａ、４７２Ｂ、４７２Ｃ、４７２Ｄ、４７２Ｆ、４７２Ｈ、４７２Ｘ　検出枠の中心座標
４７３、４７３Ａ、４７３Ｂ、４７３Ｃ、４７３Ｄ、４７３Ｆ、４７３Ｈ、４７３Ｘ　検出枠の高さ
４７４、４７４Ａ、４７４Ｂ、４７４Ｃ、４７４Ｄ、４７４Ｆ、４７４Ｈ、４７４Ｘ　検出枠の幅
４７５、４７５Ａ、４７５Ｂ、４７５Ｃ、４７５Ｄ、４７５Ｅ、４７５Ｆ、４７５Ｇ　動きベクトル量
４７６、４７６Ａ、４７６Ｂ、４７６Ｃ、４７６Ｄ、４７６Ｆ、４７６Ｈ、４７６Ｘ　距離係数
４７７　補間点
４７８　予測点
４７９　正規化係数α
４８０　フレーム情報補間手段
４８１　ニュートン後退補間法
４８２　距離係数算出手段
４８３　動きベクトル量算出手段
４８４　動きベクトル予測算出手段
４８５　異常検出情報除去手段
４８６　検出情報復元手段
４８７　異常検出情報予測除去手段
４８８　検出情報予測復元手段
４８９　動きベクトル検出手段
４９０　救済閾値
４９１　正常判定閾値
４９２　検出枠のアスペクト比
４９３　最低尤度
４９４　第一の尤度閾値
４９５　第二の尤度閾値
４９６　第一の不安定閾値
４９７　第二の不安定閾値
４９８　対正解枠ＩＯＵ値
５００、５０１、５０２、５０３　フレーム制御情報
５１０　位置シフト量
５１１　リサイズパラメータ
５１２　画面分割パラメータ
５２０　トレーサビリティ安定値指標化手段
５２１　中心Ｘ座標平均偏差（％）
５２２　中心Ｙ座標平均偏差（％）
５２３　枠幅変動率（％）
５２４　枠高さ変動率（％）
５２５　枠アスペクト比変動率（％）
５２６　安定値指標
５３０　異常検出枠数算出手段
５３１　異常検出枠数
５４０　検出ＮＧ数算出手段
５４１　検出ＮＧ数
５５０　ステートマシン制御手段
５５１　尤度救済ＯＦＦモード
５５２　尤度救済最尤２枚モード
５５３　尤度救済最尤３枚モード
５５４　状態遷移条件Ａ
５５５　状態遷移条件Ｂ
５５６　状態遷移条件Ｃ
５５７　状態遷移条件Ｄ
６００　辞書学習手段
６１０　学習用素材データベース格納手段
６２０　アノテーション手段
６２１、６２４、６２５　正解となる検出枠を含む位置情報
６２２、６２６、６２７　正解となるクラス識別情報
６２３　バリデーション用データ
６３０　Ａｕｇｍｅｎｔ手段
６３１　学習用画像、学習データ
６４０　深層学習手段
６５０　第二のｍＡＰ算出手段
６５１　ＡＰ（ＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ）値
６５２　ｍＡＰ（ｍｅａｎＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ）値
６５４　Ｐｒｅｃｉｓｉｏｎ
６５５　Ｒｅｃａｌｌ
６６０　第一のｍＡＰ算出手段
７００、７２１、７２２、７５０　尤度分布
７０３、７２６，７２７、７５３，７５４、７７５、７７６　人物
７０６、７０７、７３４、７３５、７３６、７３７、７３８、７３９、７５７、７５８、７７９、７８０　個体識別後の尤度情報の尤度
７０８、７０９、７４０、７４１、７４２、７５９、７６０、７８１、７８２　検出結果
７１０、７１１、７４３、７４４、７４５、７６１、７６２、７８３、７８４　識別結果
７７１　加工画像
７８５　範囲
８００　ロバスト性検証手段
８０１　平均尤度
８０２　尤度の標準偏差
８０３　最大尤度
８０４　最小尤度
８０６　白色から黒色の濃淡バー
８１０　確率統計演算手段
８１１、８１２，８１３　統計結果
８２１、８２２、８２３、８２４　尤度
８２７、８２８　領域
８３０、８３１、８３２、８３３、８３４　尤度分布
８４０、８４１、８４２、８４３　尤度のヒストグラム
８５１、８５２，８５３　従来方法の尤度
８６０　編集パラメータ
８６１　Ａｕｇｍｅｎｔパラメータ
Ｓ４３０、Ｓ４４０　入力ステップ
Ｓ４３１　設定ステップ
Ｓ４３２、Ｓ４３５、Ｓ４４２　比較ステップ
Ｓ４３３　削除ステップ
Ｓ４３４　相互ＩＯＵ値算出ステップ
Ｓ４３６　最大尤度判定ステップ
Ｓ４３７、Ｓ４４４　出力ステップ
Ｓ４４１　正解枠とのＩＯＵ値算出ステップ
Ｓ４４３　クラス識別判定ステップ

Claims

　物体検出装置であって、
　画像を取得し、当該画像から物体検出を行うための基準画像を作成する画像処理手段と、
　フレーム制御情報の位置シフト量に則って、前記基準画像に水平方向にＭピクセル（Ｍは任意の小数）および垂直方向にＮピクセル（Ｎは任意の小数）の位置シフトを施した第一の位置シフト画像を生成し、該基準画像と該第一の位置シフト画像とをフレーム毎に物体検出モデルに入力するモデル前処理手段と、
　前記モデル前処理手段から出力されたフレーム毎の前記基準画像と前記第一の位置シフト画像とに対して物体位置とクラス識別と尤度とを推論するモデル学習辞書を含む物体検出モデルと、
　前記物体検出モデルの推論結果である検出物体毎の前記基準画像の検出枠を含む位置情報および前記基準画像の尤度情報と、前記第一の位置シフト画像の検出枠を含む位置情報および前記第一の位置シフト画像の尤度情報とを比較して最大となる方の入力画像と該推論結果とを選択してフレーム毎に出力する画像選択手段を有するモデル後処理手段と、
　前記モデル後処理手段が、前記画像選択手段により前記第一の位置シフト画像の推論結果を選択した場合は、前記フレーム制御情報の位置シフト量に則って前記モデル前処理手段の生成時とは逆方向に位置シフトを施した検出枠を含む位置情報を出力する検出枠補正手段とを備える、
　物体検出装置。
　前記物体検出モデルは、深層学習及び機械学習の少なくとも一方により作成されたモデル学習辞書、および、ＤＮＮ（Ｄｅｅｐ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）を含むニューラルネットワークモデルであることを特徴とする、
　請求項１に記載の物体検出装置。
　前記フレーム制御情報の前記位置シフト量は、前記物体検出モデルのニューラルネットワークモデルの入力画像の垂直方向と水平方向のピクセル数を該ニューラルネットワークモデルの１つ以上の検出レイヤ毎の水平方向と垂直方向のグリッドセルサイズで除算した値の１／２ピクセル値か、それに近似するピクセル値で決定される、
　請求項２に記載の物体検出装置。
　前記モデル前処理手段は、前記基準画像と前記第一の位置シフト画像とに加えて、フレーム制御情報の位置シフト量に則って、前記基準画像に水平方向にＰピクセル（Ｐは任意の小数）および垂直方向にＱピクセル（Ｑは任意の小数）の位置シフトを施した第二の位置シフト画像を生成し、該基準画像と該第一の位置シフト画像と該第二の位置シフト画像とをフレーム毎に前記物体検出モデルに入力し、
　前記物体検出モデルにより異なる３種類の画像に対する推論結果を出力し、
　前記モデル後処理手段は、前記画像選択手段により該異なる３種類の画像に対する推論結果の中から最大となる１つの入力画像と該推論結果とを選択してフレーム毎に出力し、
　前記画像選択手段により前記第一の位置シフト画像の推論結果、もしくは、前記第二の位置シフト画像の推論結果を選択した場合は、前記フレーム制御情報の位置シフト量に則って前記モデル前処理手段の生成時とは逆方向に位置シフトを施した検出枠を含む位置情報を出力する前記検出枠補正手段を備える、
　請求項３に記載の物体検出装置。
　前記フレーム制御情報の前記位置シフト量の種類は、前記ニューラルネットワークモデルの１つ以上の検出レイヤ毎の水平方向と垂直方向とのグリッドセルサイズで除算した値の１／２ピクセル値か、それに近似するピクセル値で決定された中で、検出対象物のサイズに依存して検出精度、もしくは、検出頻度が高くなる検出レイヤに対応する前記位置シフト量の順番に前記モデル前処理手段と前記モデル後処理手段とで適用される、
　請求項３に記載の物体検出装置。
　前記フレーム制御情報の前記位置シフト量の種類が、前記モデル前処理手段の位置シフト画像の種類よりも多い場合は、複数の該位置シフト量の平均値を位置シフト量として使用する、
　請求項３に記載の物体検出装置。
　前記フレーム制御情報の前記位置シフト量の種類が３種類以上存在し、かつ、前記モデル前処理手段の位置シフト画像の種類が３種類以上存在する場合は、該フレーム制御情報の該位置シフト量に則って、前記モデル前処理手段で前記基準画像から３つ以上の前記位置シフト画像を生成し、基準画像と合わせてフレーム毎に前記物体検出モデルに入力し、
　前記物体検出モデルにより異なる４種類以上の画像に対する推論結果を出力し、
　前記モデル後処理手段は、前記画像選択手段により該異なる４種類以上の画像に対する推論結果の中から最大となる１つの入力画像と該推論結果とを選択してフレーム毎に出力し、該基準画像の該推論結果以外を選択した場合は、前記フレーム制御情報の前記位置シフト量に則って、前記モデル前処理手段の生成時とは逆方向に位置シフトを施した検出枠を含む位置情報を出力する前記検出枠補正手段を備える、
　請求項３に記載の物体検出装置。
　前記モデル前処理手段は、前記フレーム制御情報の前記位置シフト量に則って、ｎ（ｎは０を含む任意の２の倍数）フレーム目の前記基準画像は、そのまま前記物体検出モデルに入力し、ｎ＋１フレーム目の前記基準画像に対しては、水平方向にＭピクセル（Ｍは任意の小数）および垂直方向にＮピクセル（Ｎは任意の小数）の位置シフトを施した前記第一の位置シフト画像を生成して前記物体検出モデルに入力し、
　前記物体検出モデルは、前記モデル前処理手段から出力されたｎフレーム目の前記基準画像とｎ＋１フレーム目の前記第一の位置シフト画像とに対してフレーム毎に交互に物体位置とクラス識別と尤度とを推論し、
　前記画像選択手段が、前記物体検出モデルの推論結果である検出物体毎のｎフレーム目の前記基準画像の検出枠を含む位置情報および前記基準画像の尤度情報と、ｎ＋１フレーム目の前記第一の位置シフト画像の検出枠を含む位置情報および前記第一の位置シフト画像の尤度情報とを比較して最大となる方の入力画像と該推論結果とを選択してｎ＋１フレーム目の結果として出力し、ｎ＋１フレーム目の前記第一の位置シフト画像の検出枠を含む位置情報および前記第一の位置シフト画像の尤度情報と、ｎ＋２フレーム目の前記基準画像の検出枠を含む位置情報および前記基準画像の尤度情報とを比較して最大となる方の入力画像と該推論結果とを選択してｎ＋２フレーム目の結果として出力し、１フレーム分遅延して現在のフレームと１フレーム前の過去フレームとの情報から推論結果を最大化する前記モデル後処理手段と、
　前記モデル後処理手段が、前記画像選択手段によりｎ＋１フレーム目の前記第一の位置シフト画像の推論結果を選択した場合は、前記フレーム制御情報の前記位置シフト量に則って前記モデル前処理手段の生成時とは逆方向に位置シフトを施した検出枠を含む位置情報を出力する検出枠補正手段とを備える、
　請求項３に記載の物体検出装置。
　前記モデル前処理手段は、前記フレーム制御情報の前記位置シフト量に則って、ｍ（ｍは０を含む任意の３の倍数）フレーム目の前記基準画像とｍ＋１フレーム目の基準画像とから生成した前記第一の位置シフト画像に加えて、ｍ＋２フレーム目の前記基準画像に対しては、水平方向にＰピクセル（Ｐは任意の小数）および垂直方向にＱピクセル（Ｑは任意の小数）の位置シフトを施した前記第二の位置シフト画像を生成し、ｍフレーム目に該基準画像を、ｍ＋１フレーム目に該第一の位置シフト画像を、ｍ＋２フレーム目に該第二の位置シフト画像をフレーム毎に順番に前記物体検出モデルに入力し、
　前記物体検出モデルにより、前記モデル前処理手段から出力されたｍフレーム目の前記基準画像とｍ＋１フレーム目の前記第一の位置シフト画像とｍ＋２フレーム目の前記第二の位置シフト画像とに対してフレーム毎に順番に物体位置とクラス識別と尤度とを推論し、
　前記画像選択手段が、前記物体検出モデルの推論結果である検出物体毎のｍフレーム目の前記基準画像の検出枠を含む位置情報および前記基準画像の尤度情報と、ｍ＋１フレーム目の前記第一の位置シフト画像の検出枠を含む位置情報および前記第一の位置シフト画像の尤度情報と、ｍ＋２フレーム目の前記第二の位置シフト画像の検出枠を含む位置情報および前記第二の位置シフト画像の尤度情報とを比較して最大となる方の入力画像と該推論結果とを選択してｍ＋２フレーム目の結果として出力し、ｍ＋１フレーム目とｍ＋２フレーム目とｍ＋３フレーム目との推論結果を比較して最大となる方の入力画像と該推論結果とを選択してｍ＋３フレーム目の結果として出力し、ｍ＋２フレーム目とｍ＋３フレーム目とｍ＋４フレーム目との推論結果を比較して最大となる方の入力画像と該推論結果とを選択してｍ＋４フレーム目の結果として出力し、２フレーム分遅延して現在のフレームと２フレーム前までの過去フレームとの情報から推論結果を最大化する前記モデル後処理手段と、
　前記モデル後処理手段が、前記画像選択手段によりｍ＋１フレーム目の前記第一の位置シフト画像の推論結果を選択した場合とｍ＋２フレーム目の前記第二の位置シフト画像の推論結果を選択した場合とには、前記フレーム制御情報の前記位置シフト量に則って前記モデル前処理手段の生成時とは逆方向に位置シフトを施した検出枠を含む位置情報を出力する検出枠補正手段とを備える、
　請求項４に記載の物体検出装置。
　前記フレーム制御情報の前記位置シフト量の種類が３種類以上存在し、かつ、前記モデル前処理手段の前記位置シフト画像の種類が３種類以上存在する場合は、該フレーム制御情報の該位置シフト量に則って、前記モデル前処理手段でｒ（ｒは０を含む任意のｓ（ｓは４以上の任意の整数）の倍数）フレーム目は前記基準画像を、ｒ＋１フレームからｒ＋ｓ－１フレーム目は各フレームの前記基準画像から加工したｓ－１個の前記位置シフト画像を、フレーム順に前記物体検出モデルに入力し、
　前記モデル後処理手段は、前記画像選択手段により現在のフレームとｓ－１フレーム前の過去フレームとの推論結果の中から最大となる１つの入力画像と該推論結果とを選択して現在のフレームの推論結果として出力し、ｒフレーム目の該基準画像の該推論結果以外を選択した場合は、前記フレーム制御情報の前記位置シフト量に則って、前記モデル前処理手段の生成時とは逆方向に位置シフトを施した検出枠を含む位置情報を出力する前記検出枠補正手段を備える、
　請求項７に記載の物体検出装置。
　前記モデル前処理手段は、前記基準画像に対して、前記フレーム制御情報の画面分割パラメータに則って、画像の一部の範囲である検出範囲を切り出すクロップ機能と前記物体検出モデルの入力画面を２つに分割した領域に該クロップ機能により切り出した画像を垂直方向と水平方向とをリサイズして貼り付ける画面分割機能とを有し、前記画面分割機能により画面分割された一方を第一の分割後基準画像とし、もう一方を第二の分割後基準画像とし、該第一の分割後基準画像を前記フレーム制御情報の前記位置シフト量に則って、該第一の分割後基準画像に水平方向にＧピクセル（Ｇは任意の小数）および垂直方向にＨピクセル（Ｈは任意の小数）の位置シフトを施した第一の分割後位置シフト画像を生成し、該第二の分割後基準画像と該第一の分割後位置シフト画像とをフレーム毎に前記物体検出モデルに入力するモデル前処理手段と、
　前記モデル前処理手段から出力されたフレーム毎の前記第二の分割後基準画像と前記第一の分割後位置シフト画像とに対して物体位置とクラス識別と尤度とを推論するモデル学習辞書を含む前記物体検出モデルと、
　前記物体検出モデルの推論結果である検出物体毎の前記第二の分割後基準画像の検出枠を含む位置情報および前記第二の分割後基準画像の尤度情報と、前記第一の分割後位置シフト画像の検出枠を含む位置情報および前記第一の分割後位置シフト画像の尤度情報とを比較して最大となる方の入力画像と該推論結果とを選択してフレーム毎に出力する前記画像選択手段を有する前記モデル後処理手段と、
　前記モデル後処理手段が、前記画像選択手段により前記第二の分割後基準画像の推論結果を選択した場合は、前記フレーム制御情報の前記画面分割パラメータに則って、元の前記基準画像に相当するように位置とサイズとの逆補正を施した検出枠を含む位置情報を出力し、前記画像選択手段により前記第一の分割後位置シフト画像の推論結果を選択した場合は、前記フレーム制御情報の前記位置シフト量と前記画面分割パラメータとに則って、前記モデル前処理手段の生成時とは逆方向に位置シフトを施した後、元の前記基準画像に相当するように位置とサイズとの逆補正を施した検出枠を含む位置情報を出力する検出枠補正手段とを備える、
　請求項３に記載の物体検出装置。
　前記フレーム制御情報の前記位置シフト量は、該フレーム制御情報の前記画面分割パラメータに則って、前記クロップ機能と前記画面分割機能とにより画面分割された一方の前記第一の分割後基準画像の垂直方向と水平方向とのピクセル数を前記ニューラルネットワークモデルの１つ以上の検出レイヤ毎の水平方向と垂直方向とのグリッドセルサイズで除算した値の１／２ピクセル値か、それに近似するピクセル値で決定される、
　請求項１１に記載の物体検出装置。
　前記フレーム制御情報の前記位置シフト量は、該フレーム制御情報の前記画面分割パラメータに則って、前記クロップ機能と前記画面分割機能とにより画面分割された一方の前記第一の分割後基準画像の垂直方向と水平方向とのピクセル数を前記ニューラルネットワークモデルの１つ以上の検出レイヤ毎の水平方向と垂直方向とのグリッドセルサイズで除算した値の１／２ピクセル値か、それに近似するピクセル値で決定された中で、検出対象物のサイズに依存して検出精度、もしくは、検出頻度が高くなる検出レイヤに対応する前記位置シフト量の順番に前記モデル前処理手段と前記モデル後処理手段とで適用される、
　請求項１１に記載の物体検出装置。
　前記フレーム制御情報の前記位置シフト量の種類が２つ以上の場合は、複数の該位置シフト量の平均値を位置シフト量として使用する、
　請求項１１に記載の物体検出装置。
　前記モデル前処理手段は、前記第一の分割後基準画像、および、前記第二の分割後基準画像が、前記ニューラルネットワークモデルの１つ以上の検出レイヤ毎の水平方向と垂直方向とのグリッドセルサイズで除算した際に、水平方向も垂直方向も割り切れるように、前記フレーム制御情報の前記画面分割パラメータを設定する、
　請求項１１に記載の物体検出装置。
　前記モデル前処理手段が、該フレーム制御情報の前記画面分割パラメータに則って、画像を分割する場合は、該画面分割パラメータに則って生成された学習画像にアノテーション手段により正解枠データを付加し、内蔵もしくは外部の辞書学習手段により前記モデル学習辞書を再学習する、
　請求項１１に記載の物体検出装置。
　前記モデル前処理手段は、前記フレーム制御情報に則って、前記物体検出モデルに入力する画像に対して位置シフトを含め加工するに際して、該加工により発生する有効画像が存在しない余白部分は、該有効画像の平均輝度レベルと等しい単一色で一様に塗りつぶして画像を生成する、
　請求項３に記載の物体検出装置。
　前記モデル前処理手段は、前記フレーム制御情報の前記位置シフト量に則って位置シフトを実施する前の画像に対して、任意の場所の画像を切り抜くクロップ機能と、画像サイズを変更するリサイズ機能と、コントラスト補正曲線、もしくは、階調変換曲線を使用して輝度レベルを任意の値に変更する階調変換機能と、アスペクト比を変更するアスペクト比変更機能と、回転角度を変更する回転機能とを有し、前記フレーム制御情報の加工パラメータに則って画像を加工する、
　請求項３に記載の物体検出装置。
　前記モデル後処理手段は、フレーム毎の前記物体検出モデルの推論結果である１つないし複数の前記検出物体毎に対する検出不能と疑似検出とを含むゼロないし複数の前記基準画像の検出枠を含む位置情報および前記基準画像の尤度情報と、前記第一の位置シフト画像の検出枠を含む位置情報および前記第一の位置シフト画像の尤度情報と、さらに前記フレーム制御情報の前記位置シフト量が２種類以上存在する場合は、前記第二の位置シフト画像の検出枠を含む位置情報および前記第二の位置シフト画像の尤度情報と、第三以上の位置シフト画像の検出枠を含む位置情報および第三以上の位置シフト画像の尤度情報とに対して、各々の尤度情報に対する任意の閾値Ｔ（Ｔは、任意の小数）と、各々の検出枠を含む位置情報の領域が相互にどれぐらい重なっているかを表す指標であるＩＯＵ（Ｉｎｔｅｒｓｅｃｔｉｏｎ　ｏｖｅｒ　Ｕｎｉｏｎ）値に対する任意の閾値Ｕ（Ｕは、任意の小数）とにより、前記物体検出モデルに入力される各々の入力画像に対する前記検出物体毎に個体識別後の検出枠を含む位置情報と個体識別後の尤度情報とに補正する個体識別手段を有し、前記個体識別手段により選定された出力結果を使用して、前記画像選択手段と前記検出枠補正手段とにより、フレーム毎の該検出物体毎に最尤となる検出枠を含む位置情報と最尤となる尤度情報とを出力する、
　請求項４に記載の物体検出装置。
　前記モデル後処理手段は、前記フレーム制御情報の画面分割パラメータに則って、画面分割の加工を施した際は、フレーム毎の前記物体検出モデルの推論結果である１つないし複数の前記検出物体毎に対する検出不能と疑似検出とを含むゼロないし複数の前記第二の分割後基準画像の検出枠を含む位置情報および前記第二の分割後基準画像の尤度情報と、前記第一の分割後位置シフト画像の検出枠を含む位置情報および前記第一の分割後位置シフト画像の尤度情報とに対して、各々の尤度情報に対する任意の閾値Ｔ（Ｔは、任意の小数）と、各々の検出枠を含む位置情報の領域が相互にどれぐらい重なっているかを表す指標であるＩＯＵ（Ｉｎｔｅｒｓｅｃｔｉｏｎ　ｏｖｅｒ　Ｕｎｉｏｎ）値に対する任意の閾値Ｕ（Ｕは、任意の小数）とにより、前記物体検出モデルに入力される該第二の分割後基準画像と該第一の分割後位置シフト画像とに対する前記検出物体毎に個体識別後の検出枠を含む位置情報と個体識別後の尤度情報とに補正する個体識別手段を有し、前記個体識別手段により選定された出力結果を使用して、前記画像選択手段と前記検出枠補正手段とにより、フレーム毎の該検出物体毎に最尤となる検出枠を含む位置情報と最尤となる尤度情報とを出力する、
　請求項１１に記載の物体検出装置。
　前記個体識別手段は、前記フレーム制御情報の前記画面分割パラメータに則って、画面分割の加工を施した際は、前記第二の分割後基準画像と前記第一の分割後位置シフト画像との境界線上で検出された前記検出枠を含む位置情報は、該第二の分割後基準画像と該第一の分割後位置シフト画像とのいずれの領域に広く分布しているか判定し、広く分布している側の領域内の該検出枠を含む位置情報を該領域内で切り出して結果として残留させ、一方の領域側にはみ出した該検出枠の位置情報は、切り取って削除する、
　請求項２０に記載の物体検出装置。
　前記モデル後処理手段は、前記画像選択手段と前記検出枠補正手段とにより最尤と判定して出力したフレーム毎の前記検出物体毎に対する推論結果である最尤の検出枠を含む位置情報と最尤の尤度情報とを、最大検出物体数Ｖ（Ｖは任意の整数）の数だけ現在のフレームｆｔとｆｔ－１からｆｔ－ｓ（ｓは任意の整数）までの過去フレームとの分の格納メモリに保持するフレーム情報保持手段を有し、
　該フレーム情報保持手段は、現在のフレームｆｔの該最尤の検出枠を含む位置情報と該最尤の尤度情報とが算出された時点で、最も古いフレームｆｔ－ｓの該格納メモリに記録されている該最尤の検出枠を含む位置情報と該最尤の尤度情報とを消去し、ｆｔフレームからｆｔ－（ｓ－１）フレームまでの該格納メモリに記録されている該最尤の検出枠を含む位置情報と該最尤の尤度情報とを１フレーム分過去のｆｔ－１フレームからｆｔ－ｓフレームの該格納メモリにスライドして再記録し、現在のフレームｆｔの該最尤の検出枠を含む位置情報と該最尤の尤度情報とを現在のフレームｆｔの該格納メモリに記録する、
　請求項３に記載の物体検出装置。
　前記フレーム情報保持手段は、任意のフレームの前記検出物体の前記格納メモリの前記最尤の検出枠を含む位置情報と最尤の尤度情報とに欠落がある場合に、前後のフレームの該格納メモリの該最尤の検出枠を含む位置情報と該最尤の尤度情報とから補間して新たな該最尤の検出枠を含む位置情報と該最尤の尤度情報として当該フレームの該格納メモリに記録するフレーム情報補間手段を有し、
　前記フレーム情報補間手段の情報の補間方法が、ニュートン後退補間法及び移動平均法の少なくとも一方を含み、
　前記最尤の検出枠を含む位置情報は、検出枠の中心座標と高さと幅との情報を含み、
　前記最尤の尤度情報は、検出の信頼性を示す尤度とクラス識別情報とを含む、
　請求項２２に記載の物体検出装置。
　前記フレーム情報補間手段は、前記フレーム情報保持手段の前記ｆｔ－１からｆｔ－ｓの過去フレームの前記格納メモリの前記最尤の検出枠を含む位置情報の中心座標から動きベクトル量を算出して各フレームの該検出物体毎の該格納メモリに記録する動きベクトル量算出手段を有し、
　さらに、未来のフレームの前記検出物体毎の動きベクトル量を予測して前記最尤の検出枠を含む位置情報の中心座標を予測する動きベクトル予測算出手段を有する、
　請求項２３に記載の物体検出装置。
　前記フレーム情報補間手段は、前記フレーム情報保持手段の過去フレームの前記検出物体毎の前記最尤の検出枠を含む位置情報の検出枠の幅と高さと中心座標と、前記動きベクトル量算出手段により算出された前記動きベクトル量とにより、距離係数を算出して該格納メモリに記録する距離係数算出手段を有し、
　さらに、前記動きベクトル予測算出手段は、予測された未来のフレームの前記動きベクトル量から、前記距離係数算出手段により未来のフレームの前記検出物体毎の前記最尤の検出枠を含む位置情報の中心座標と距離係数とを予測し、未来のフレームの該最尤の検出枠を含む位置情報の検出枠の幅と高さとの情報を予測する、
　請求項２４に記載の物体検出装置。
　前記フレーム情報補間手段は、前記フレーム情報保持手段の過去フレームの前記検出物体毎の前記格納メモリに格納されている前記最尤の検出枠を含む位置情報の検出枠の幅と高さと中心座標と、前記動きベクトル量と、前記距離係数と、前記最尤の尤度情報とにより、該最尤の検出枠を含む位置情報および該最尤の尤度情報のフレーム間の時間連続性の異常を検出した場合に該格納メモリから除去する異常検出情報除去手段を有し、
　該異常検出情報除去手段により除去された各種情報を前後のフレームの前記最尤の検出枠を含む位置情報の検出枠の幅と高さと中心座標と、前記動きベクトル量と、前記距離係数と、前記最尤の尤度情報とから復元して該格納メモリに記録する検出情報復元手段を有し、
　さらに、新たに物体検出を実施した際の現在のフレームの前記検出物体毎の前記画像選択手段と前記検出枠補正手段とにより算出された前記最尤の検出枠を含む位置情報と、前記動きベクトル予測算出手段により予測された未来のフレームの該最尤の検出枠を含む位置情報との検出枠の幅と高さと中心座標とを比較して、異常を検出して除去する異常検出情報予測除去手段を有し、
　該異常検出情報予測除去手段により前記画像選択手段と前記検出枠補正手段とにより算出された前記最尤の検出枠を含む位置情報が除去された場合は、前記動きベクトル予測算出手段により予測された未来のフレームの該最尤の検出枠を含む位置情報に置き換えて復元し現在のフレームの該格納メモリに記録する検出情報予測復元手段を有する、
　請求項２５に記載の物体検出装置。
　前記フレーム情報補間手段は、前記フレーム情報保持手段に保持されている前記最尤の検出枠を含む位置情報の検出枠の幅と高さと中心座標とが、前記フレーム情報補間手段により補間された該最尤の検出枠を含む位置情報の検出枠の幅と高さと中心座標とに対して、任意の閾値を超過、もしくは、任意の割合を超過してずれていることを検出した場合、
　もしくは、前記最尤の尤度情報の尤度が異常だが救済を施すに値する救済閾値未満の場合は、前記異常検出情報除去手段により異常情報と判定して該格納メモリからすべての情報を除去し、
　その際、前記最尤の尤度情報の尤度が、正常と判定する正常判定閾値以下、かつ、異常だが救済を施すに値する救済閾値以上である場合は、前記最尤の尤度情報を除く他の情報を除去し、それら除去された情報に対して、前記検出情報復元手段により復元された該最尤の検出枠を含む位置情報と該最尤の尤度情報と前記動きベクトル量と前記距離係数とを該格納メモリに記録して復元する、
　請求項２６に記載の物体検出装置。
　前記フレーム情報補間手段は、前記フレーム情報保持手段の新たに物体検出を実施した際の現在のフレームの前記検出物体毎の前記画像選択手段と前記検出枠補正手段とにより算出された前記最尤の検出枠を含む位置情報の検出枠の幅と高さと中心座標とが、前記動きベクトル予測算出手段により予測された未来のフレームの該最尤の検出枠を含む位置情報の検出枠の幅と高さと中心座標とに対して、
　任意の閾値以下、もしくは、任意の割合以下のずれである場合、かつ、前記最尤の尤度情報の尤度が、正常と判定する正常判定閾値以上の場合は、該格納メモリに該最尤の検出枠を含む位置情報と前記最尤の尤度情報と前記動きベクトル量と前記距離係数とを記録し、
　前記最尤の検出枠を含む位置情報が、任意の閾値を超過、もしくは、任意の割合を超過してずれていることを検出した場合、
　もしくは、前記最尤の尤度情報の尤度が、異常だが救済を施すに値する救済閾値未満の場合に、前記異常検出情報予測除去手段により異常情報と判定してすべての情報を除去し、
　前記最尤の尤度情報の尤度が、正常と判定する正常判定閾値未満、かつ、異常だが救済を施すに値する救済閾値以上である場合は前記最尤の尤度情報を除く他の情報を除去し、それら除去された情報に対して、前記動きベクトル予測算出手段の出力結果である該検出枠を含む位置情報と該動きベクトル量と該距離係数と該最尤の尤度情報とを前記検出情報予測復元手段により置き換えて該格納メモリに記録する、
　請求項２７に記載の物体検出装置。
　前記モデル後処理手段は、現在のフレームの前記検出物体毎の前記フレーム情報保持手段と前記フレーム情報補間手段とにより算出された前記最尤の検出枠を含む位置情報の検出枠の中心座標のＸ座標と該検出枠の中心座標のＹ座標と該検出枠の幅と該検出枠の高さと該検出枠のアスペクト比とが、前記動きベクトル予測算出手段により予測された未来のフレームの該最尤の検出枠を含む位置情報の検出枠の中心座標のＸ座標と該検出枠の中心座標のＹ座標と該検出枠の幅と該検出枠の高さと該検出枠のアスペクト比とに対して、各々何％偏差があるか算出し、Ｗ（Ｗは任意の整数）フレーム分平均して、中心Ｘ座標平均偏差（％）と中心Ｙ座標平均偏差（％）と前記距離係数で正規化した枠幅変動率（％）と前記距離係数で正規化した枠高さ変動率（％）と枠アスペクト比変動率（％）とを算出するトレーサビリティ安定値指標化手段を有する、
　請求項２８に記載の物体検出装置。
　前記モデル後処理手段は、前記異常検出情報予測除去手段により、現在のフレームで異常値と判断されて除去された場合に、異常検出と判断して前記フレーム中の該異常検出となった枠数を異常検出枠数として出力する異常検出枠数算出手段を有する、
　請求項２９に記載の物体検出装置。
　前記モデル後処理手段は、前記異常検出情報予測除去手段により、現在のフレームで前記最尤の尤度情報の尤度が前記救済閾値未満で異常値と判断されて除去された場合、もしくは、推論の結果が未検出だった場合に、検出不能と判断して前記フレーム中の該検出不能となった回数を検出ＮＧ数として出力する検出ＮＧ数算出手段を有する、
　請求項３０に記載の物体検出装置。
　前記モデル後処理手段は、前記フレーム情報保持手段と前記フレーム情報補間手段とにより算出された前記最尤の検出枠を含む位置情報と、前記検出物体の前記最尤の尤度情報の中で最も低い最低尤度と、前記トレーサビリティ安定値指標化手段の各種出力情報である安定値指標と、前記異常検出枠数と、前記検出ＮＧ数との、１つ以上、もしくは、すべてを使用して次のフレームの前記フレーム制御情報の前記位置シフト量と該位置シフト量の種類と数との状態をフレーム毎に決定するステートマシン制御手段を有する、
　請求項３１に記載の物体検出装置。
　前記ステートマシン制御手段は、前記フレーム制御情報の位置シフト量がゼロ、かつ、位置シフト量の種類がゼロの尤度救済ＯＦＦモードの状態から開始し、現在のフレームの前記最低尤度が、任意の第一の尤度閾値未満であるか、もしくは、前記トレーサビリティ安定値指標化手段の出力情報である前記安定値指標が各々の第一の不安定閾値に対して１つでも超過する場合に、次フレームの前記フレーム制御情報の前記位置シフト量を１種類の状態で制御する尤度救済最尤２枚モードとし、前記フレーム情報保持手段の前記検出物体毎の前記最尤の検出枠を含む位置情報と、前記最尤の尤度情報と、前記物体検出モデルの前記ニューラルネットワークモデルの１つ以上の検出レイヤの情報とを加味して該位置シフト量を決定する、
　請求項３２に記載の物体検出装置。
　前記ステートマシン制御手段は、現在のフレームが前記尤度救済最尤２枚モードの状態の場合、現在のフレームの前記最低尤度が、任意の第二の尤度閾値未満であるか、もしくは、前記トレーサビリティ安定値指標化手段の出力情報である前記安定値指標が各々の第二の不安定閾値に対して１つでも超過する場合か、もしくは、前記異常検出枠数が１以上である場合か、前記検出ＮＧ数が１以上である場合に、次フレームの前記フレーム制御情報の前記位置シフト量を２種類の状態で制御する尤度救済最尤３枚モードとし、前記フレーム情報保持手段の前記検出物体毎の前記最尤の検出枠を含む位置情報と、前記最尤の尤度情報と、前記物体検出モデルの前記ニューラルネットワークモデルの１つ以上の検出レイヤの情報とを加味して２種類の該位置シフト量を決定する、
　請求項３３に記載の物体検出装置。
　前記ステートマシン制御手段は、現在のフレームが前記尤度救済最尤３枚モードの状態の場合、現在のフレームの前記最低尤度が任意の第二の尤度閾値以上であり、前記トレーサビリティ安定値指標化手段の出力情報である前記安定値指標が各々の第二の不安定閾値のすべてに対して以下であり、前記異常検出枠数がゼロであり、前記検出ＮＧ数がゼロであり、それら１つ以上、もしくは、すべての条件に合致する場合に、次フレームの前記フレーム制御情報の前記位置シフト量を１種類の状態で制御する前記尤度救済最尤２枚モードとし、前記フレーム情報保持手段の前記検出物体毎の前記最尤の検出枠を含む位置情報と、前記最尤の尤度情報と、前記物体検出モデルの前記ニューラルネットワークモデルの１つ以上の検出レイヤの情報とを加味して該位置シフト量を決定する、
　請求項３４に記載の物体検出装置。
　前記ステートマシン制御手段は、現在のフレームが前記尤度救済最尤２枚モードの状態の場合、現在のフレームの前記最低尤度が任意の第一の尤度閾値以上であり、前記トレーサビリティ安定値指標化手段の出力情報である前記安定値指標が各々の第一の不安定閾値のすべてに対して以下であり、前記異常検出枠数がゼロであり、前記検出ＮＧ数がゼロであり、それら１つ以上、もしくは、すべての条件に合致する場合に、次フレームの前記フレーム制御情報の前記位置シフト量を位置シフト量がゼロ、かつ、位置シフト量の種類がゼロの前記尤度救済ＯＦＦモードの状態とする、
　請求項３３又は請求項３５に記載の物体検出装置。
　前記モデル後処理手段は、
　バリデーション画像に対して、アノテーション手段により生成された前記検出物体毎に正解となる検出枠を含む位置情報と正解となるクラス識別情報とが存在する場合は、
　前記フレーム情報保持手段の現在のフレームの前記検出物体毎の前記最尤の検出枠を含む位置情報と該正解となる検出枠を含む位置情報との領域がどれぐらい重なっているかを表す指標である対正解枠ＩＯＵ値と、
　前記フレーム情報保持手段の現在のフレームの前記検出物体毎の前記最尤の尤度情報と該正解となるクラス識別情報を比較した結果の真偽の情報と、該最尤の尤度情報の尤度とを算出し、
　第二のｍＡＰ算出手段により、該バリデーション画像に対するＡＰ（ＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ）値、ｍＡＰ（ｍｅａｎＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ）値、Ｒｅｃａｌｌ、Ｐｒｅｃｉｓｉｏｎの少なくとも１つを含む指標を算出する、
　請求項２２に記載の物体検出装置。
　画像を取得し、当該画像から物体検出を行うための基準画像を作成する画像処理ステップと、
　フレーム制御情報の位置シフト量に則って、前記基準画像に水平方向にＭピクセル（Ｍは任意の小数）および垂直方向にＮピクセル（Ｎは任意の小数）の位置シフトを施した第一の位置シフト画像を生成し、該基準画像と該第一の位置シフト画像とをフレーム毎に物体検出モデルに入力するモデル前処理ステップと、
　前記モデル前処理ステップから出力されたフレーム毎の前記基準画像と前記第一の位置シフト画像とに対して物体位置とクラス識別と尤度とを推論するモデル学習辞書を含む物体検出モデルと、
　前記物体検出モデルの推論結果である検出物体毎の前記基準画像の検出枠を含む位置情報および前記基準画像の尤度情報と、前記第一の位置シフト画像の検出枠を含む位置情報および前記第一の位置シフト画像の尤度情報とを比較して最大となる方の入力画像と該推論結果とを選択してフレーム毎に出力する画像選択ステップを有するモデル後処理ステップと、
　前記モデル後処理ステップが、前記画像選択ステップにより前記第一の位置シフト画像の推論結果を選択した場合は、前記フレーム制御情報の位置シフト量に則って前記モデル前処理ステップの生成時とは逆方向に位置シフトを施した検出枠を含む位置情報を出力する検出枠補正ステップとを含む、
　物体検出方法。
　前記モデル前処理ステップは、前記基準画像と前記第一の位置シフト画像とに加えて、フレーム制御情報の位置シフト量に則って、前記基準画像に水平方向にＰピクセル（Ｐは任意の小数）および垂直方向にＱピクセル（Ｑは任意の小数）の位置シフトを施した第二の位置シフト画像を生成し、該基準画像と該第一の位置シフト画像と該第二の位置シフト画像とをフレーム毎に前記物体検出モデルに入力し、
　前記物体検出モデルにより異なる３種類の画像に対する推論結果を出力し、
　前記モデル後処理ステップは、前記画像選択ステップにより該異なる３種類の画像に対する推論結果の中から最大となる１つの入力画像と該推論結果とを選択してフレーム毎に出力し、
　前記画像選択ステップにより前記第一の位置シフト画像の推論結果、もしくは、前記第二の位置シフト画像の推論結果を選択した場合は、前記フレーム制御情報の位置シフト量に則って前記モデル前処理ステップの生成時とは逆方向に位置シフトを施した検出枠を含む位置情報を出力する前記検出枠補正ステップを含む、
　請求項３８に記載の物体検出方法。
　前記モデル前処理ステップは、前記基準画像に対して、前記フレーム制御情報の画面分割パラメータに則って、画像の一部の範囲である検出範囲を切り出すクロップステップと前記物体検出モデルの入力画面を２つに分割した領域に該クロップステップにより切り出した画像を垂直方向と水平方向とをリサイズして貼り付ける画面分割ステップとを有し、前記画面分割ステップにより画面分割された一方を第一の分割後基準画像とし、もう一方を第二の分割後基準画像とし、該第一の分割後基準画像を前記フレーム制御情報の前記位置シフト量に則って、該第一の分割後基準画像に水平方向にＧピクセル（Ｇは任意の小数）および垂直方向にＨピクセル（Ｈは任意の小数）の位置シフトを施した第一の分割後位置シフト画像を生成し、該第二の分割後基準画像と該第一の分割後位置シフト画像とをフレーム毎に前記物体検出モデルに入力するモデル前処理ステップと、
　前記モデル前処理ステップから出力されたフレーム毎の前記第二の分割後基準画像と前記第一の分割後位置シフト画像とに対して物体位置とクラス識別と尤度とを推論するモデル学習辞書を含む前記物体検出モデルと、
　前記物体検出モデルの推論結果である検出物体毎の前記第二の分割後基準画像の検出枠を含む位置情報および前記第二の分割後基準画像の尤度情報と、前記第一の分割後位置シフト画像の検出枠を含む位置情報および前記第一の分割後位置シフト画像の尤度情報とを比較して最大となる方の入力画像と該推論結果とを選択してフレーム毎に出力する前記画像選択ステップを有する前記モデル後処理ステップと、
　前記モデル後処理ステップが、前記画像選択ステップにより前記第二の分割後基準画像の推論結果を選択した場合は、前記フレーム制御情報の前記画面分割パラメータに則って、元の前記基準画像に相当するように位置とサイズとの逆補正を施した検出枠を含む位置情報を出力し、前記画像選択ステップにより前記第一の分割後位置シフト画像の推論結果を選択した場合は、前記フレーム制御情報の前記位置シフト量と前記画面分割パラメータとに則って、前記モデル前処理ステップの生成時とは逆方向に位置シフトを施した後、元の前記基準画像に相当するように位置とサイズとの逆補正を施した検出枠を含む位置情報を出力する検出枠補正ステップとを含む、
　請求項３８に記載の物体検出方法。
　請求項３８ないし請求項４０のいずれか１項に記載の物体検出方法をコンピュータに実行させるための
　プログラム。