WO2022249316A1

WO2022249316A1 - 物体検出装置、物体検出方法、及び物体検出プログラム

Info

Publication number: WO2022249316A1
Application number: PCT/JP2021/019953
Authority: WO
Inventors: 彩希八田; 寛之鵜澤; 周平吉田; 大祐小林; 優也大森; 健中村; 高庸新田
Original assignee: 日本電信電話株式会社
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2022-12-01
Also published as: JPWO2022249316A1; EP4318388A1

Abstract

物体検出装置は、入力画像が入力される多層ニューラルネットワークの処理アルゴリズムに従って、多層ニューラルネットワークを構成する複数の層の各々に対応する演算処理を、小数点位置が設定された固定長データに対して行い、演算処理において、小数点位置によって定まる値域の上限値を上回った回数である上限飽和回数及び値域の下限値を下回った回数である下限飽和回数をカウントし、上限飽和回数が１回以上となった層の数である上限飽和層数及び下限飽和回数が１回以上となった層の数である下限飽和層数をカウントし、カウントした上限飽和層数の変化量及び下限飽和層数の変化量に基づいて、上限飽和回数の閾値である上限飽和閾値及び下限飽和回数の閾値である下限飽和閾値の少なくとも一方が最適でないと判定した場合に、上限飽和閾値及び下限飽和閾値の少なくとも一方を変更し、判定結果に基づいて、複数の層の各々に対して小数点位置を設定する。

Description

物体検出装置、物体検出方法、及び物体検出プログラム

　開示の技術は、物体検出装置、物体検出方法、及び物体検出プログラムに関する。

　多層ニューラルネットワークと深層学習を用いた様々なデータ処理技術が開発されている。その応用範囲は認識および検出など様々な分野に広がっている。例えば、物体検出は、入力画像の中から、その画像に含まれる物体の位置（物体を囲む四角い枠）と属性（人、車などの物体の種別）、および各物体の検出精度とから成るメタデータを検出する技術である。物体検出については、近年、深層学習の結果に基づいてメタデータを検出するＹＯＬＯ（Ｙｏｕ　Ｏｎｌｙ　Ｌｏｏｋ　Ｏｎｃｅ）（非特許文献１参照）やＳＳＤ（Ｓｉｎｇｌｅ　Ｓｈｏｔ　Ｍｕｌｔｉｂｏｘ　Ｄｅｔｅｃｔｏｒ）（非特許文献２参照）などが開示され、自動運転や監視カメラなどリアルタイム性を必要とする物体検出システムへの適用が検討されている。

　自動運転及び監視カメラなどの物体検出装置は、ネットワークトラフィック負荷分散及びセキュリティ保護の観点から、ネットワークのエッジ、すなわち端末側に搭載されることも検討されている。物体検出装置をネットワークのエッジに搭載するには、装置の小型化及び低電力化が必要不可欠である。

　小型化及び低電力化を実現するために、深層学習に基づく物体検出処理をハードウェアで実装し、かつ、演算器が扱う各データのデータビット幅を削減する構成が提案されている（非特許文献３参照）。各データとしては、入力、出力（特徴マップ）、重み（カーネル）、及びバイアスが挙げられる。一般的にソフトウェアで深層学習の推論処理を実行する場合、積和演算に用いられる各データは３２ビット浮動小数点データとして扱われる。なぜなら、各データの値のとりうる範囲が広く、画像ごと、又は畳み込みニューラルネットワークを構成するＣｏｎｖｏｌｕｔｉｏｎ層などの層ごとに、その範囲が異なるからである。非特許文献３においては、統計情報を用いて畳み込みニューラルネットワークの各層におけるデータビット幅をあらかじめ決定し、８～１６ビットまで削減することにより、回路規模と電力を削減する効果が得られることが報告されている。

　また、これらのアプローチに対して、各データ幅を一律に固定小数点数ｎビット（ｎ＜３２）とし、入力される画像ごと及び層ごとに小数点位置を動的に制御する手法が開示されている（非特許文献４参照）。非特許文献４の物体検出装置では、入力される画像毎、層毎に小数点位置を動的に変更することで、当該値域を層毎の演算結果の傾向にあわせて変更し、認識精度の劣化を抑制する。従来構成では、推論処理を行う物体検出演算部に加えて、各層の小数点位置を決定する小数点位置制御部、上限値／下限値カウンタを備える。上限値／下限値カウンタは、物体検出における演算過程において、検出結果が値域の上限値（全ビットオール１）を上回った（上限飽和）回数／下限値（最下位ビットのみ１）を下回った回数をそれぞれ層毎に計測するカウンタである。層毎に全入力画像共通で上限値／下限値カウンタの閾値（ＵＰ_ｔｈ／ＵＮ_ｔｈ）を設定し、閾値を超えた層を小数点位置変更対象の層として、カウンタ値が閾値内に収まるように小数点位置を調整する。

＜非特許文献１＞
　Ｊｏｓｅｐｈ　Ｒｅｄｍｏｎ　ｅｔ．ａｌ，“ＹＯＬＯｖ３：Ａｎ　Ｉｎｃｒｅｍｅｎｔａｌ　Ｉｍｐｒｏｖｅｍｅｎｔ”，ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１８０４．０２７６７
＜非特許文献２＞
　Ｗｅｉ　Ｌｉｕ　ｅｔ．ａｌ，“ＳＳＤ：Ｓｉｎｇｌｅ　Ｓｈｏｔ　ＭｕｌｔｉＢｏｘ　Ｄｅｔｅｃｔｏｒ”，ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１５１２．０２３２５．ｐｄｆ
＜非特許文献３＞
　Ｚｈｉｓｈｅｎｇ　Ｌｉ　ｅｔ．ａｌ，“Ｌａｉｕｓ：　Ａｎ　８－Ｂｉｔ　Ｆｉｘｅｄ－Ｐｏｉｎｔ　ＣＮＮ　Ｈａｒｄｗａｒｅ　Ｉｎｆｅｒｅｎｃｅ　Ｅｎｇｉｎｅ”２０１７　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｓｙｍｐｏｓｉｕｍ　ｏｎ　Ｐａｒａｌｌｅｌ　ａｎｄ　Ｄｉｓｔｒｉｂｕｔｅｄ　Ｐｒｏｃｅｓｓｉｎｇ　ｗｉｔｈ　Ａｐｐｌｉｃａｔｉｏｎｓ　ａｎｄ　２０１７　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｕｂｉｑｕｉｔｏｕｓ　Ｃｏｍｐｕｔｉｎｇ　ａｎｄ　Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ　（ＩＳＰＡ／ＩＵＣＣ），Ｇｕａｎｇｚｈｏｕ，　２０１７，ｐｐ．　１４３－１５０，ｄｏｉ：　１０．１１０９／ＩＳＰＡ／ＩＵＣＣ．２０１７．０００３０．
＜非特許文献４＞
　八田彩希、鵜澤寛之、吉田周平、新田高庸、“物体検出ＡＩ推論用ハードウェア向け動的小数点位置制御手法の提案”、電子情報通信学会、２０２０年９月．

　しかしながら、検出精度をはじめとする物体検出結果の優劣は、上限飽和が発生した層の数である飽和層数と平均飽和回数のバランスで決まる。平均飽和回数を小さくしても、小数点位置の変更により飽和層数が多くなる場合は検出結果が劣化する。従来手法ではいずれの入力画像においても閾値が共通のため、画像によっては飽和層数が多くなるケースも生じ、検出結果の劣化を抑制できない、という問題があった。

　開示の技術は、上記の点に鑑みてなされたものであり、入力画像の物体検出の検出結果の精度が劣化するのを抑制することができる物体検出装置、物体検出方法、及び物体検出プログラムを提供することを目的とする。

　上記目的を達成するために、本開示の一態様に係る物体検出装置は、入力画像が入力される多層ニューラルネットワークの処理アルゴリズムに従って、前記多層ニューラルネットワークを構成する複数の層の各々に対応する演算処理を、小数点位置が設定された固定長データに対して行う物体検出演算部と、前記演算処理において、前記小数点位置によって定まる値域の上限値を上回った回数である上限飽和回数及び前記値域の下限値を下回った回数である下限飽和回数を各々カウントする飽和回数カウンタと、前記上限飽和回数が１回以上となった層の数である上限飽和層数及び前記下限飽和回数が１回以上となった層の数である下限飽和層数を各々カウントする飽和層数カウンタと、前記飽和層数カウンタでカウントした前記上限飽和層数の変化量及び前記下限飽和層数の変化量に基づいて、前記上限飽和回数の閾値である上限飽和閾値及び前記下限飽和回数の閾値である下限飽和閾値の少なくとも一方が最適か否かを判定し、最適でないと判定した場合に、前記上限飽和閾値及び前記下限飽和閾値の少なくとも一方を変更する閾値判定部と、前記閾値判定部の判定結果に基づいて、前記複数の層の各々に対して前記小数点位置を設定する小数点位置制御部と、を備える。

　更に、上記目的を達成するために、本開示の一態様に係る物体検出方法は、コンピュータが、入力画像が入力される多層ニューラルネットワークの処理アルゴリズムに従って、前記多層ニューラルネットワークを構成する複数の層の各々に対応する演算処理を、小数点位置が設定された固定長データに対して行い、前記演算処理において、前記小数点位置によって定まる値域の上限値を上回った回数である上限飽和回数及び前記値域の下限値を下回った回数である下限飽和回数を各々カウントし、前記上限飽和回数が１回以上となった層の数である上限飽和層数及び前記下限飽和回数が１回以上となった層の数である下限飽和層数を各々カウントし、カウントした前記上限飽和層数の変化量及び前記下限飽和層数の変化量に基づいて、前記上限飽和回数の閾値である上限飽和閾値及び前記下限飽和回数の閾値である下限飽和閾値の少なくとも一方が最適でない場合に、前記上限飽和閾値及び前記下限飽和閾値の少なくとも一方を変更し、前記上限飽和閾値及び前記下限飽和閾値の少なくとも一方が最適か否かの判定結果に基づいて、前記複数の層の各々に対して前記小数点位置を設定する処理を実行する。

　更に、上記目的を達成するために、本開示の一態様に係る物体検出プログラムは、コンピュータに、入力画像が入力される多層ニューラルネットワークの処理アルゴリズムに従って、前記多層ニューラルネットワークを構成する複数の層の各々に対応する演算処理を、小数点位置が設定された固定長データに対して行い、前記演算処理において、前記小数点位置によって定まる値域の上限値を上回った回数である上限飽和回数及び前記値域の下限値を下回った回数である下限飽和回数を各々カウントし、前記上限飽和回数が１回以上となった層の数である上限飽和層数及び前記下限飽和回数が１回以上となった層の数である下限飽和層数を各々カウントし、カウントした前記上限飽和層数の変化量及び前記下限飽和層数の変化量に基づいて、前記上限飽和回数の閾値である上限飽和閾値及び前記下限飽和回数の閾値である下限飽和閾値の少なくとも一方が最適でない場合に、前記上限飽和閾値及び前記下限飽和閾値の少なくとも一方を変更し、前記上限飽和閾値及び前記下限飽和閾値の少なくとも一方が最適か否かの判定結果に基づいて、前記複数の層の各々に対して前記小数点位置を設定する処理を実行させる。

　開示の技術によれば、入力画像の物体検出の検出結果の精度が劣化するのを抑制することができる。

第１実施形態に係る物体検出装置の機能ブロック図である。物体検出装置のハードウェア構成を示す図である。第１実施形態に係る物体検出処理のフローチャートである。従来における小数点位置の変更前後の上限飽和層数について説明するための図である。開示の技術における小数点位置の変更前後の上限飽和層数について説明するための図である。第２実施形態に係る物体検出装置の機能ブロック図である。第２実施形態に係る物体検出処理のフローチャートである。

　以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において、同一又は等価な構成要素及び部分には同一の参照符号を付与している。

＜第１実施形態＞

　第１実施形態に係る物体検出装置は、入力画像に含まれる物体の物体毎の位置、属性、及び検出精度を含むメタデータを検出する装置である。ここで、物体の位置は、例えば入力画像における物体の中心の座標及び物体を囲む四角い枠（バウンディングボックス）の少なくとも１つによって表される。また、物体の属性は、人及び車等の物体の種別であり、カテゴリーと呼ばれることもある。また、物体の検出精度は、例えば、検出された物体が特定の属性を有する確率である。

　図１に示すように、第１実施形態に係る物体検出装置１０は、物体検出演算部１２、小数点位置制御部１４、飽和回数カウンタ１６、閾値判定部１８、及び飽和層数カウンタ２０を備える。

　物体検出演算部１２は、入力された入力画像に対して深層学習の推論処理に基づく演算処理を行う。

　具体的には、物体検出演算部１２は、多層ニューラルネットワークの処理アルゴリズムに従って、多層ニューラルネットワークを構成する複数の層の各々に対応する演算処理を行うように構成された演算処理回路である。物体検出演算部１２における多層ニューラルネットワークによる処理は、典型的には、畳み込みニューラルネットワーク（ＣＮＮ：　Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）が用いられる。

　ＣＮＮの概要について説明すると、ＣＮＮは、入力画像に対して所定のフィルタを畳み込む畳み込み処理を行う畳み込み層と、畳み込み処理の結果をダウンサイジングするプーリング処理を行うプーリング層とが交互に配置されて、特徴マップを作成する特徴抽出パートと、複数の全結合層からなり、特徴マップから入力画像に含まれる物体を特定する識別パートと、を含む。

　特徴抽出パートでは、画像に対してフィルタを畳み込む演算が行われる。また、識別パートでは、特徴マップの各画素の値に重みを乗じて和をとる積和演算と、その積和演算の結果にバイアスを加えて活性化関数に入力し、その出力を得る演算と、が繰り返される。なお、活性化関数としては、ＲｅＬＵ（Ｒｅｃｔｉｆｉｅｄ　Ｌｉｎｅａｒ　Ｕｎｉｔ）等が用いられる。重み及び活性化関数のパラメータの値は、学習によって決定することができる。

　物体検出演算部１２は、入力画像が入力される多層ニューラルネットワークの処理アルゴリズムに従って、多層ニューラルネットワークを構成する複数の層の各々に対応する演算処理を、小数点位置が設定された固定長データに対して行う。具体的には、物体検出演算部１２は、深層学習に基づく物体検出アルゴリズム、例えばＹＯＬＯ（非特許文献１）又はＳＳＤ（非特許文献２）等を用いて、推論処理の畳み込み演算及び結合処理を行って、入力画像に含まれる物体の位置、属性、及び検出精度等のメタデータを検出結果として出力する。このような物体検出演算部１２は、多くの積和演算を実行することから、しばしばマルチコアＣＰＵ又はＧＰＵ（グラフィックス処理装置）を用いて実現される。なお、物体検出演算部１２を、例えば、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）によって実現してもよい。

　本実施形態において、物体検出演算部１２が多層ニューラルネットワークの各層で扱うデータ、例えば、入力、出力（特徴マップ）、バイアス、及び重み等は、３２ビットよりも小さなビット幅を有する固定長データであり、かつ層毎に異なる小数点位置を有することが可能なデータ構造となっている。

　より具体的には、本実施形態において、物体検出演算部１２は、例えば、８ビットのビット幅を有する固定長データに対して、多層ニューラルネットワークを構成する複数の層の各々に対応する演算処理を行う。なお、物体検出演算部１２が扱うデータの小数点位置は、後述する小数点位置制御部１４によって層毎に設定される。

　物体検出演算部１２における畳み込み演算において、例えば、入力を８ビット、重みを８ビットとした場合、その積和演算で得られる結果は最大１６ビットとなる。物体検出演算部１２は、１６ビットの計算結果に対してバイアスを加算し、活性化関数を掛け、１６ビットの途中入力マップとする。特徴マップは次の層における入力になるため、１６ビットの途中入力マップを８ビット幅まで小さくし、次層入力用の特徴マップとする。なお、層の数、活性化関数、及びバイアス加算の方法は、使用する物体検出アルゴリズム毎に適宜選択されるものであり、開示の技術を限定するものではない。

　小数点位置制御部１４は、物体検出演算部１２における演算対象となる、固定長データの小数点の位置（以下、単に「小数点位置」という。）を設定する。

　具体的には、小数点位置制御部１４は、物体検出演算部１２の出力、すなわち多層ニューラルネットワークによる物体の検出結果に基づいて、多層ニューラルネットワークを構成する複数の層の各々に対応して、物体検出演算部１２における演算対象となる固定長データの小数点位置を設定する。小数点位置制御部１４によって設定された小数点位置は物体検出演算部１２へ通知される。物体検出演算部１２は、小数点位置制御部１４からの通知に基づいて、多層ニューラルネットワークを構成する複数の層の各々に対応する固定長データの小数点位置を変更する。

　小数点位置制御部１４では、物体検出演算部１２から出力された検出結果を用いて、各層の小数点位置を決定する。例えば映像としての入力画像に含まれる物体を検出する場合、連続して入力される入力画像に含まれる物体は少しずつ変化し、短時間で全て変化することは稀である。このため、小数点位置制御部１４は、入力画像１つのみの検出結果から各層の小数点位置を設定するのではなく、複数の入力画像に対する物体の検出結果を用いて各層の小数点位置を算出する処理を繰り返すことによって、少しずつ各層の小数点位置を最適化する。

　飽和回数カウンタ１６は、物体検出演算部１２の演算処理において、小数点位置制御部１４によって設定された小数点位置によって定まる値域の上限値（全ビットオール１）を上回った回数である上限飽和回数を層毎にカウントする。

　また、飽和回数カウンタ１６は、物体検出演算部１２の演算において、小数点位置制御部１４によって設定された小数点位置によって定まる値域の下限値（最下位ビットのみ１）を下回った回数である下限飽和回数を層毎にカウントする。なお、以下では、上限飽和回数及び下限飽和回数を区別しない場合に単に飽和回数と称する場合がある。

　閾値判定部１８は、飽和回数カウンタ１６の上限飽和閾値及び下限飽和閾値を最適化する。小数点位置制御部１４は、詳細は後述するが、閾値判定部１８の判定結果に基づいて、多層ニューラルネットワークの複数の層の各々に対して小数点位置を設定する。なお、以下では、上限飽和閾値及び下限飽和閾値を区別しない場合に単に閾値と称する場合がある。

　飽和層数カウンタ２０は、飽和回数カウンタ１６でカウントされた上限飽和回数が１回以上となった層の数である上限飽和層数をカウントする。また、飽和層数カウンタ２０は、飽和回数カウンタ１６でカウントされた下限飽和回数が１回以上となった層の数である下限飽和層数をカウントする。なお、以下では、上限飽和層数及び下限飽和層数を区別しない場合に単に飽和層数と称する場合がある。

　図２は、物体検出装置１０のハードウェア構成を示すブロック図である。図２に示すように、物体検出装置１０は、コンピュータ３０を備える。コンピュータ３０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）３０Ａ、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）３０Ｂ、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）３０Ｃ、及び入出力インターフェース（Ｉ／Ｏ）３０Ｄを備える。そして、ＣＰＵ３０Ａ、ＲＯＭ３０Ｂ、ＲＡＭ３０Ｃ、及びＩ／Ｏ３０Ｄがシステムバス３０Ｅを介して各々接続されている。システムバス３０Ｅは、コントロールバス、アドレスバス、及びデータバスを含む。

　また、Ｉ／Ｏ３０Ｄには、通信部３２、及び記憶部３４が接続されている。

　通信部３２は、外部装置とデータ通信を行うためのインターフェースである。

　記憶部３４は、ハードディスク等の不揮発性の記憶装置で構成され、後述する物体検出プログラム３４Ａ等を記憶する。ＣＰＵ３０Ａは、記憶部３４に記憶された物体検出プログラム３４ＡをＲＡＭ３０Ｃに読み込んで実行する。なお、記憶部３４は、例えばコンピュータ３０に着脱可能な可搬型の記憶装置としてもよい。

　次に、物体検出装置１０で実行される物体検出処理について図３に示すフローチャートを参照して説明する。

　ステップＳ１００では、閾値判定部１８が、各層の小数点位置を初期化すると共に、小数点位置変更の前後における上限飽和層数の変化量及び下限飽和層数の変化量を取得するために、上限飽和回数の閾値である上限飽和閾値を予め定めた初期上限飽和閾値に初期化し、下限飽和回数の閾値である下限飽和閾値を予め定めた初期下限飽和閾値に初期化し、物体検出を２回実行する。具体的には、１回目の物体検出においては、物体検出演算部１２が、入力画像に含まれる前述したメタデータを演算し、飽和回数カウンタ１６及び小数点位置制御部１４に出力する。また、飽和回数カウンタ１６が、上限飽和回数及び下限飽和回数を層毎にカウントし、飽和層数カウンタ２０に出力する。なお、上限飽和閾値及び下限飽和閾値は、０以上の整数である。また、上限飽和閾値及び下限飽和閾値は、同じ値でもよいし、異なる値でもよい。

　飽和層数カウンタ２０は、上限飽和回数が１回以上の層の数である上限飽和層数及び下限飽和回数が１回以上の層の数である下限飽和層数を算出する。

　２回目の物体検出においては、小数点位置制御部１４が、１回目の物体検出の検出結果に基づいて、上限飽和回数が上限飽和閾値を上回る層の数が少なくなるように、かつ、下限飽和回数が上限飽和閾値を上回る層の数が少なくなるように、小数点位置を層毎に設定する。すなわち、上限飽和回数が上限飽和閾値を上回った層については、その層の値域の上限値が大きくなるように小数点位置を設定し、下限飽和回数が下限飽和閾値を上回った層については、その層の値域の下限値が小さくなるように小数点位置を設定する。すなわち、値域が広くなるように小数点位置を設定する。

　ステップＳ１０２では、飽和層数カウンタ２０が、１回目の物体検出結果と２回目の物体検出結果に基づいて、上限飽和層数の変化量及び下限飽和層数の変化量を算出する。ここで、上限飽和層数の変化量とは、１回目の物体検出における上限飽和層数に対する２回目の物体検出における上限飽和層数の増加量である。また、下限飽和層数の変化量とは、１回目の物体検出における下限飽和層数に対する２回目の物体検出における下限飽和層数の増加量である。

　ステップＳ１０４では、閾値判定部１８が、ステップＳ１０２で得られた上限飽和層数の変化量が許容範囲内であるか否か、すなわち上限飽和閾値が最適な上限飽和閾値であるか否かを判定する。具体的には、上限飽和層数の変化量が、予め定めた上限変化量閾値以下の場合は、上限飽和閾値が最適であると判定する。ここで、上限変化量閾値は１以上の整数である。一方、上限飽和層数の変化量が、上限変化量閾値より大きい場合は、上限飽和閾値が最適ではないと判定する。

　また、閾値判定部１８は、ステップＳ１０２で得られた下限飽和層数の変化量が許容範囲内であるか否か、すなわち下限飽和閾値が最適な下限飽和閾値であるか否かを判定する。具体的には、下限飽和層数の変化量が、予め定めた下限変化量閾値以下の場合は、下限飽和閾値が最適であると判定する。ここで、下限変化量閾値は１以上の整数である。一方、下限飽和層数の変化量が、下限変化量閾値より大きい場合は、下限飽和閾値が最適ではないと判定する。なお、上限変化量閾値及び下限変化量閾値は、物体検出装置１０が適用されるネットワークモデル又はアプリケーション等によって適宜設定される。このように、閾値判定部１８は、物体検出演算部１２による２回の物体検出における上限飽和層数の変化量及び下限飽和層数の変化量を用いて上限飽和閾値及び下限飽和閾値が最適であるか否かを判定する。

　そして、上限飽和閾値及び下限飽和閾の少なくとも一方が最適ではないと判定された場合はステップＳ１０５へ移行し、上限飽和閾値及び下限飽和閾値の両方が最適であると判定された場合はステップＳ１１４へ移行する。

　ステップＳ１０５では、閾値判定部１８が、最適ではないと判定された上限飽和閾値及び下限飽和閾値の少なくとも一方を予め定めた増加値だけ増加させることにより変更し、飽和回数カウンタ１６に出力する。ここで、増加値は１以上の整数である。このように、閾値判定部１８は、上限飽和閾値及び前記下限飽和閾値の少なくとも一方が最適でないと判定された場合に、最適でないと判定された上限飽和閾値及び下限飽和閾値の少なくとも一方を増加させる。なお、最適でないと判定された上限飽和閾値及び下限飽和閾値の少なくとも一方を増加させる増加値を複数の層の全てにおいて同じ値にするのではなく、複数の層の各々について設定してもよい。

　ステップＳ１０８及びステップＳ１１０は、ステップＳ１００及びステップＳ１０２と同様の処理であるが、ステップＳ１０５で変更された上限飽和閾値及び下限飽和閾値の少なくとも一方を用いる点が異なる。

　ステップＳ１１２では、飽和層数カウンタ２０が、入力画像の変化度合いを判定する。本実施形態では、入力画像の種別によっては、同じ小数点位置でも上限飽和層数及び下限飽和層数の少なくとも一方が異なる場合もあることを利用し、上限飽和層数の変化量及び下限飽和層数を用いて入力画像の変化度合いを判定する。

　具体的には、ステップＳ１１０で求めた上限飽和層数の変化量が、予め定めた上限変化量閾値より大きいか否かを判定すると共に、ステップＳ１１０で求めた下限飽和層数の変化量が、予め定めた下限変化量閾値より大きいか否かを判定する。なお、上限変化量閾値及び下限変化量閾値は１以上の整数である。そして、ステップＳ１１０で求めた上限飽和層数の変化量が上限変化量閾値より大きい場合及びステップＳ１１０で求めた下限飽和層数の変化量が下限変化量閾値より大きい場合の少なくとも一方の場合は、入力画像の変化度合いが大きいと判定し、ステップＳ１００へ移行する。一方、ステップＳ１０２で求めた上限飽和層数の変化量が上限変化量閾値以下で、かつ、ステップＳ１０２で求めた下限飽和層数の変化量が下限変化量閾値以下の場合は、入力画像の変化度合いが大きくない、すなわち、入力画像の変化度合いが０又は小さいと判定し、ステップＳ１０４へ移行する。このように、飽和層数カウンタ２０は、前回の物体検出及び今回の物体検出における上限飽和層数の変化量が上限変化量閾値より大きい場合及び前回の物体検出及び今回の物体検出における下限飽和層数の変化量が下限変化量閾値より大きい場合の少なくとも一方の場合に、入力画像の変化度合いが大きいと判定する。

　このように、上限飽和閾値及び下限飽和閾値の少なくとも一方が最適ではなく、入力画像の変化度合いが大きくない場合は、上限飽和閾値及び下限飽和閾値が最適となるまで上限飽和閾値及び下限飽和閾値の少なくとも一方を変更して物体検出する処理を繰り返す。

　一方、ステップＳ１０４で上限飽和閾値及び下限飽和閾値が最適と判定された場合は、ステップＳ１１４において、物体検出演算部１２が物体検出をｎ回実行する。このとき、小数点位置制御部１４が１回の物体検出を行う毎に小数点位置を変更する。なお、ｎは２以上の整数である。

　具体的には、各層の上限飽和回数の平均値及び下限飽和回数の平均値が少なくなるように、各層の小数点位置を変更して物体検出を行う。すなわち、演算結果がその層の値域の上限値を上回った層については、演算結果が上限値以下となる方向に小数点位置を移動させ、演算結果が下限値を下回った層については、演算結果が下限値以上となる方向に小数点位置を移動させる。物体検出をｎ回行って得られた小数点位置はそれぞれ記憶しておく。

　ステップＳ１１６では、小数点位置制御部１４が、最も検出結果が良いときの小数点位置、すなわち、上限飽和回数及び下限飽和回数が最も少ないときの物体検出を行ったときの小数点位置を最適な小数点位置として決定する。このように、小数点位置制御部１４は、上限飽和閾値及び下限飽和閾値が最適であると判定された場合に、物体検出演算部１２による複数回の物体検出における上限飽和回数及び下限飽和回数に基づいて、小数点位置を設定する。

　ステップＳ１１８では、ステップＳ１１６で決定した小数点位置を用いて、物体検出演算部１２が物体検出を実行する。

　ステップＳ１２０では、前回入力した入力画像と今回入力した入力画像とで入力画像の変化度合いが大きいか否かを判定する。この判定は、ステップＳ１１２の判定と同様に行う。

　そして、入力画像の変化度合いが大きい場合はステップＳ１００へ移行する。一方、入力画像の変化度合いが大きくない場合は、ステップＳ１１８へ移行して物体検出を繰り返す。すなわち、入力画像の変化度合いが大きくなるまでは、ステップＳ１１６で決定した小数点位置で物体検出を繰り返す。

　このように、ステップＳ１０４～Ｓ１１２の処理において上限飽和閾値及び下限飽和閾値の最適化を行ってから、ステップＳ１１４、Ｓ１１６の処理で最適な小数点位置を決定する。これにより、入力画像に応じた上限飽和回数及び下限飽和回数と、上限飽和層数及び下限飽和層数とのバランスを調整することが可能となる。これにより、様々な入力画像毎に最適な小数点位置を決定することが可能となり、物体検出の検出結果劣の精度が劣化するのを抑制することができる。

　ここで、例えば図４の上のグラフに示すように、多層ニューラルネットワークの層数が６層の場合において、上限飽和層数が３層であった場合に、非特許文献４記載の技術のように上限飽和回数が上限飽和閾値を上回った層番号１、３、５の３層について小数点位置を変更した場合、図４の下のグラフに示すように、６層全てにおいて上限飽和回数が上限飽和閾値以下となるものの、上限飽和層数は６層に増加する。このため、入力画像の物体検出の検出結果の精度が劣化するのを抑制することができない。

　これに対し、開示の技術によれば、図５に示すように、上限飽和閾値を固定にするのではなく、上限飽和閾値が最適でない場合には、上限飽和閾値を増加させる。このため、図５の上のグラフに示すように、層番号が３の１層のみ上限飽和回数が上限飽和閾値を上回り、この層のみ小数点位置が変更される。これにより、図５の下のグラフに示すように、上限飽和層数は４層となり、図４の場合と比較して、入力画像の物体検出の検出結果の精度が劣化するのを抑制することができる。

＜第２の実施の形態＞

　次に、開示の技術の第２実施形態について説明する。なお、第１実施形態と同一部分については同一符号を付し、詳細な説明を省略する。

　第１実施形態においては、多層ニューラルネットワークの複数の層の各々について設定される上限飽和閾値及び下限飽和閾値を上回らないように小数点位置を変更する前に、上限閾値の最適値を決定する構成及び手法によって、いかなる入力画像においても検出結果の劣化を抑制する例について示した。

　しかしながら、第１実施形態では、図３のステップＳ１０５において上限飽和閾値及び下限飽和閾値の少なくとも一方を増加するだけである。このため、増加した閾値が最適な閾値とはならない、すなわち最適な閾値を決定できない入力画像の場合、入力画像の種別が変わらない限り最適な小数点位置が定まらなくなる。このように、閾値が増加し続けると最適な小数点位置が定まらない状態が継続されることになる。

　そこで、本実施形態では、最適な閾値が定まらない場合に閾値を減少させる処理を加えることによって、閾値を増加させるだけでは最適な閾値が定まらない入力画像においても最適な小数点位置を決定することが可能な手法について説明する。

　図６に本実施形態に係る物体検出装置１１の構成を示す。物体検出装置１１は、第１実施形態で説明した物体検出装置１０に変更パラメータ記憶部２２を加えた構成である。

　変更パラメータ記憶部２２は、変更パラメータを記憶する。ここで、変更パラメータとは、最適でないと判定された上限飽和閾値及び下限飽和閾値の少なくとも一方の変更回数と、最適でないと判定した際の上限飽和層数の変化量及び下限飽和層数の変化量の少なくとも一方である。

　図７に本実施形態に係る物体検出処理のフローチャートを示す。

　図７の物体検出処理は、図３の物体検出処理にステップＳ１０６、Ｓ１０７、Ｓ１１３の処理が追加された処理となっている。

　ステップＳ１０６では、ステップＳ１０５で変更した上限飽和閾値及び下限飽和閾値の少なくとも一方の変更回数と、ステップＳ１０４で判定した際の上限飽和層数の変化量及び下限飽和層数の変化量の少なくとも一方を変更パラメータ記憶部２２に記憶する。

　ステップＳ１０７では、ステップＳ１０６で記憶した上限飽和閾値及び下限飽和閾値の少なくとも一方の変更回数が最大変更回数Ｎｍａｘに達したか否かを判定する。なお、Ｎｍａｘは１以上の整数である。そして、上限飽和閾値及び下限飽和閾値の少なくとも一方の変更回数が最大変更回数Ｎｍａｘに達した場合はステップＳ１１３へ移行し、上限飽和閾値及び下限飽和閾値の変更回数が何れも最大変更回数Ｎｍａｘに達していない場合はステップＳ１０８へ移行する。

　ステップＳ１１３では、閾値を変更する毎に変更パラメータ記憶部２２に記憶した上限飽和層数の変化量及び下限飽和層数の変化量の少なくとも一方のうち、最も変化量が小さい上限飽和層数の変化量及び下限飽和層数の変化量の少なくとも一方に対応する上限飽和閾値及び下限飽和閾値の少なくとも一方を設定する。

　このように、変更回数が最大変更回数Ｎｍａｘに達しても閾値が最適とならない場合には、閾値を増加させる毎に記憶した上限飽和層数の変化量及び下限飽和層数の変化量の少なくとも一方のうち最も変化量が小さい上限飽和層数の変化量及び下限飽和層数の変化量の少なくとも一方に対応する上限飽和閾値及び下限飽和閾値の少なくとも一方を設定する。これにより、閾値を増加させるだけでは最適な閾値が定まらない入力画像においても最適な小数点位置を決定することができる。

　なお、上記実施形態では、物体検出プログラムがストレージに予め記憶（インストール）されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＤＶＤ－ＲＯＭ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、及びＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）メモリ等の非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

　また、本明細書に記載された全ての文献、特許出願、及び技術規格は、個々の文献、特許出願、及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

　以上の実施形態に関し、更に以下の付記を開示する。

（付記項１）
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　コンピュータが、
　入力画像が入力される多層ニューラルネットワークの処理アルゴリズムに従って、前記多層ニューラルネットワークを構成する複数の層の各々に対応する演算処理を、小数点位置が設定された固定長データに対して行い、
　前記演算処理において、前記小数点位置によって定まる値域の上限値を上回った回数である上限飽和回数及び前記値域の下限値を下回った回数である下限飽和回数を各々カウントし、
　前記上限飽和回数が１回以上となった層の数である上限飽和層数及び前記下限飽和回数が１回以上となった層の数である下限飽和層数をカウントし、
　前記上限飽和層数の変化量及び前記下限飽和層数の変化量に基づいて、前記上限飽和回数の閾値である上限飽和閾値及び前記下限飽和回数の閾値である下限飽和閾値の少なくとも一方が最適でない場合に、前記上限飽和閾値及び前記下限飽和閾値の少なくとも一方を変更し、
　前記上限飽和閾値及び前記下限飽和閾値の少なくとも一方が最適か否かの判定結果に基づいて、前記複数の層の各々に対して前記小数点位置を設定する
　ように構成されている渋滞判定装置。

（付記項２）
　物体検出処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
　前記物体検出処理は、
　コンピュータが、
　入力画像が入力される多層ニューラルネットワークの処理アルゴリズムに従って、前記多層ニューラルネットワークを構成する複数の層の各々に対応する演算処理を、小数点位置が設定された固定長データに対して行い、
　前記演算処理において、前記小数点位置によって定まる値域の上限値を上回った回数である上限飽和回数及び前記値域の下限値を下回った回数である下限飽和回数を各々カウントし、
　前記上限飽和回数が１回以上となった層の数である上限飽和層数及び前記下限飽和回数が１回以上となった層の数である下限飽和層数をカウントし、
　前記上限飽和層数の変化量及び前記下限飽和層数の変化量に基づいて、前記上限飽和回数の閾値である上限飽和閾値及び前記下限飽和回数の閾値である下限飽和閾値の少なくとも一方が最適でない場合に、前記上限飽和閾値及び前記下限飽和閾値の少なくとも一方を変更し、
　前記上限飽和閾値及び前記下限飽和閾値の少なくとも一方が最適か否かの判定結果に基づいて、前記複数の層の各々に対して前記小数点位置を設定する
　非一時的記憶媒体。

１０、１１    物体検出装置
１２   物体検出演算部
１４   小数点位置制御部
１６   飽和回数カウンタ
１８   閾値判定部
２０   飽和層数カウンタ
２２   変更パラメータ記憶部
３０   コンピュータ
３４Ａ物体検出プログラム

Claims

　入力画像が入力される多層ニューラルネットワークの処理アルゴリズムに従って、前記多層ニューラルネットワークを構成する複数の層の各々に対応する演算処理を、小数点位置が設定された固定長データに対して行う物体検出演算部と、
　前記演算処理において、前記小数点位置によって定まる値域の上限値を上回った回数である上限飽和回数及び前記値域の下限値を下回った回数である下限飽和回数を各々カウントする飽和回数カウンタと、
　前記上限飽和回数が１回以上となった層の数である上限飽和層数及び前記下限飽和回数が１回以上となった層の数である下限飽和層数を各々カウントする飽和層数カウンタと、
　前記飽和層数カウンタでカウントした前記上限飽和層数の変化量及び前記下限飽和層数の変化量に基づいて、前記上限飽和回数の閾値である上限飽和閾値及び前記下限飽和回数の閾値である下限飽和閾値の少なくとも一方が最適か否かを判定し、最適でないと判定した場合に、前記上限飽和閾値及び前記下限飽和閾値の少なくとも一方を変更する閾値判定部と、
　前記閾値判定部の判定結果に基づいて、前記複数の層の各々に対して前記小数点位置を設定する小数点位置制御部と、
　を備えた物体検出装置。
　前記閾値判定部は、前記物体検出演算部による２回の物体検出における前記上限飽和層数の変化量及び前記下限飽和層数の変化量を用いて前記上限飽和閾値及び前記下限飽和閾値が最適であるか否かを判定する
　請求項１記載の物体検出装置。
　前記閾値判定部は、前記上限飽和閾値及び前記下限飽和閾値の少なくとも一方が最適でないと判定された場合に、最適でないと判定された前記上限飽和閾値及び前記下限飽和閾値の少なくとも一方を増加させ、
　前記小数点位置制御部は、前記上限飽和閾値及び前記下限飽和閾値が最適であると判定された場合に、前記物体検出演算部による複数回の物体検出における前記上限飽和回数及び前記下限飽和回数に基づいて、前記小数点位置を設定する
　請求項１又は請求項２記載の物体検出装置。
　前記閾値判定部は、最適でないと判定された前記上限飽和閾値及び前記下限飽和閾値の少なくとも一方を増加させる増加値を前記複数の層の各々について設定する
　請求項３記載の物体検出装置。
　前記飽和層数カウンタは、前回の物体検出及び今回の物体検出における前記上限飽和層数の変化量が上限変化量閾値より大きい場合及び前回の物体検出及び今回の物体検出における前記下限飽和層数の変化量が下限変化量閾値より大きい場合の少なくとも一方の場合に、入力画像の変化度合いが大きいと判定し、
　前記閾値判定部は、前記入力画像の変化度合いが大きいと判定された場合に、前記小数点位置、前記上限飽和閾値、及び前記下限飽和閾値を初期化する
　請求項１～４の何れか１項に記載の物体検出装置。
　前記上限飽和閾値及び前記下限飽和閾値の変更回数を記憶する変更パラメータ記憶部を備え、
　前記閾値判定部は、前記変更回数が予め定めた最大回数に達した場合に、前記上限飽和閾値及び前記下限飽和閾値を、前記上限飽和層数の変化量及び前記下限飽和層数の変化量が最も小さい前記上限飽和閾値及び前記下限飽和閾値に変更する
　請求項１～５の何れか１項に記載の物体検出装置。
　コンピュータが、
　入力画像が入力される多層ニューラルネットワークの処理アルゴリズムに従って、前記多層ニューラルネットワークを構成する複数の層の各々に対応する演算処理を、小数点位置が設定された固定長データに対して行い、
　前記演算処理において、前記小数点位置によって定まる値域の上限値を上回った回数である上限飽和回数及び前記値域の下限値を下回った回数である下限飽和回数を各々カウントし、
　前記上限飽和回数が１回以上となった層の数である上限飽和層数及び前記下限飽和回数が１回以上となった層の数である下限飽和層数を各々カウントし、
　カウントした前記上限飽和層数の変化量及び前記下限飽和層数の変化量に基づいて、前記上限飽和回数の閾値である上限飽和閾値及び前記下限飽和回数の閾値である下限飽和閾値の少なくとも一方が最適でない場合に、前記上限飽和閾値及び前記下限飽和閾値の少なくとも一方を変更し、
　前記上限飽和閾値及び前記下限飽和閾値の少なくとも一方が最適か否かの判定結果に基づいて、前記複数の層の各々に対して前記小数点位置を設定する
　処理を実行する物体検出方法。
　コンピュータに、
　入力画像が入力される多層ニューラルネットワークの処理アルゴリズムに従って、前記多層ニューラルネットワークを構成する複数の層の各々に対応する演算処理を、小数点位置が設定された固定長データに対して行い、
　前記演算処理において、前記小数点位置によって定まる値域の上限値を上回った回数である上限飽和回数及び前記値域の下限値を下回った回数である下限飽和回数を各々カウントし、
　前記上限飽和回数が１回以上となった層の数である上限飽和層数及び前記下限飽和回数が１回以上となった層の数である下限飽和層数を各々カウントし、
　カウントした前記上限飽和層数の変化量及び前記下限飽和層数の変化量に基づいて、前記上限飽和回数の閾値である上限飽和閾値及び前記下限飽和回数の閾値である下限飽和閾値の少なくとも一方が最適でない場合に、前記上限飽和閾値及び前記下限飽和閾値の少なくとも一方を変更し、
　前記上限飽和閾値及び前記下限飽和閾値の少なくとも一方が最適か否かの判定結果に基づいて、前記複数の層の各々に対して前記小数点位置を設定する
　処理を実行させる物体検出プログラム。