WO2020079933A1

WO2020079933A1 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: WO2020079933A1
Application number: PCT/JP2019/031587
Authority: WO
Inventors: 洋平中田
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2018-10-18
Filing date: 2019-08-09
Publication date: 2020-04-23

Abstract

情報処理装置（１００）は、プロセッサ（１０）を備える情報処理装置であって、プロセッサ（１０）は、入力画像を取得し、分類尤度算出処理を実行する機械学習モデルに入力画像を入力して入力画像における各物体候補の複数のクラスそれぞれに対する尤度を取得し、各物体候補について、複数のクラスにおける第１クラスに対する尤度であって、他のクラスに対する尤度と負の相関関係を有する尤度を用いて、第１クラスに分類されるか否かの第１判定を実行し、第１判定において第１クラスに分類されないと判定された物体候補それぞれについて、他のクラスに分類されるか否かの第２判定を実行し、第２判定の結果を用いて入力画像に映る物体の分類結果を出力する。

Description

情報処理装置、情報処理方法及びプログラム

　本開示は、情報処理装置、情報処理方法及びプログラムに関する。

　近年、画像内の物体を効率的に検出する装置及び方法が求められている。

　例えば、特許文献１には、対象画像から物体の有無を識別する複数のシングルクラス分類部と、シングルクラス分類部により物体が識別された場合に、画像を他のシングルクラス分類部へ分類するマルチクラス分類部と、を備える検出装置及び検出方法が開示されている。

　また、例えば、非特許文献１には、対象画像を入力して畳み込みフィルタ処理にて全ての物体候補について候補枠の探索とクラス分類を実行する方法が開示されている。

特開２０１６－１５１８０５号公報

Ｗｅｉ　Ｌｉｕ　ｅｔ．ａｌ．，　"ＳＳＤ：Ｓｉｎｇｌｅ　Ｓｈｏｔ　ＭｕｌｔｉＢｏｘ　Ｄｅｔｅｃｔｏｒ"，　ａｒＸｉｖ：１５１２．０２３２４ｖ５　［ｃｓ．ＣＶ］，　２９　Ｄｅｃ．，２０１６

　しかしながら、従来技術では、物体のクラス分類のための処理量が増大する場合がある。例えば、特許文献１に記載の従来技術では、分類処理を複数回実行するため、処理量が多く、時間がかかる。また、非特許文献１に記載の従来技術では、検出された全ての候補枠に対してＮｏｎ－Ｍａｘｉｍｕｍ　ｓｕｐｐｒｅｓｓｉｏｎ（ＮＭＳ）処理を行うため、候補枠が多くなると処理量も増大してしまう。

　そこで、本開示は、物体のクラス分類のための処理量を低減できる情報処理装置、情報処理方法及びプログラムを提供する。

　上記課題を解決するため、本開示の一態様に係る情報処理装置は、プロセッサを備える情報処理装置であって、前記プロセッサは、入力画像を取得し、分類尤度算出処理を実行する機械学習モデルに前記入力画像を入力して前記入力画像における各物体候補の複数のクラスそれぞれに対する尤度を取得し、前記各物体候補について、前記複数のクラスにおける第１クラスに対する尤度であって、他のクラスに対する尤度と負の相関関係を有する尤度を用いて、前記第１クラスに分類されるか否かの第１判定を実行し、前記第１判定において前記第１クラスに分類されないと判定された物体候補それぞれについて、前記他のクラスに分類されるか否かの第２判定を実行し、前記第２判定の結果を用いて前記入力画像に映る物体の分類結果を出力する。

　また、本開示の一態様に係る情報処理方法は、プロセッサに実行させる方法であって、入力画像を取得し、分類尤度算出処理を実行する機械学習モデルに前記入力画像を入力して前記画像における各物体候補の複数のクラスそれぞれに対する尤度を取得し、前記各物体候補について、前記複数のクラスにおける第１クラスに対する尤度であって、他のクラスに対する尤度と負の相関関係を有する尤度を用いて、前記第１クラスに分類されるか否かの第１判定を実行し、前記第１判定において前記第１クラスに分類されないと判定された物体候補それぞれについて、前記他のクラスに分類されるか否かの第２判定を実行し、前記第２判定の結果を用いて前記入力画像に映る物体の分類結果を出力する。

　また、本開示の一態様は、上記情報処理方法をコンピュータに実行させるためのプログラムとして実現することができる。あるいは、当該プログラムを格納したコンピュータ読み取り可能な非一時的な記録媒体として実現することもできる。

　本開示によれば、物体のクラス分類のための処理量を低減することができる。

図１は、物体検出アルゴリズムの一例を説明するための図である。図２は、各候補枠の各クラスに対する尤度の算出結果の一例を示す図である。図３は、従来技術の物体検出方法を説明するためのフローチャートである。図４は、実施の形態に係る情報処理装置の機能構成の一例を示すブロック図である。図５は、実施の形態に係る情報処理装置の実装例を示すブロック図である。図６は、実施の形態に係る情報処理装置の動作の一例を示すフローチャートである。図７は、機械学習モデルのオフライン処理の一例を示すフローチャートである。図８は、機械学習モデルのオフライン処理の他の例を示すフローチャートである。図９は、実施の形態の変形例に係る情報処理装置の動作の一例を示す第１フローチャートである。図１０は、実施の形態の変形例に係る情報処理装置の動作の一例を示す第２フローチャートである。

　（本開示に至った知見）
　以下、従来の物体検出方法について説明する。図１は、物体検出方法の一例を説明するための図である。物体検出方法に用いられる畳み込みネットワーク（ＣＮＮ：Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）は、例えば、ＳＳＤ（Ｔｈｅ　Ｓｉｎｇｌｅ　Ｓｈｏｔ　Ｄｅｔｅｃｔｏｒ）である（非特許文献１を参照）。図１の（ａ）は、ＣＮＮへの入力画像の一例を示す図である。図１の（ａ）に示される破線で囲まれた領域は、物体領域を示す。物体領域は、物体が撮像された領域である。また、図１の（ｂ）は、入力画像をＣＮＮに入力して得られた８×８特徴マップを示す図である。図１の（ｃ）は、４×４特徴マップを示す図である。図１の（ｂ）及び（ｃ）に示される一点破線で囲まれた領域は、候補枠を示す。また、図１の（ｄ）は、ＣＮＮの一例を示す図である。

　図１に示される物体検出方法では、図１の（ａ）に示される入力画像をＣＮＮに入力する。入力画像は、異なる種類の畳み込みフィルタからなるＣＮＮによって畳み込まれ、様々なサイズの特徴マップに変換される。そして、図１の（ｂ）及び（ｃ）に示されるように、各特徴マップ上の各マス目に対して複数の候補枠（ここでは、４つの候補枠）が割り当てられる。全ての特徴マップ上の候補枠（以下、全候補枠）を検出し、最後に、最大値検索（例えば、ＮＭＳ処理）を実行して、入力画像における物体の検出結果を出力する。なお、図１の（ｄ）に示されるように、ＳＳＤでは、畳み込みフィルタ処理で得られた特徴マップをさらに別の畳み込みフィルタに入力して畳み込むことを繰り返す。このように、複数の異なる畳み込みフィルタを用いて特徴マップを少しずつ小さく畳み込むことにより、特徴の大小に関わらず、様々なスケールの候補枠を検出することができる。なお、図中の出力値は、物体領域とデフォルトボックスとの位置のオフセット（例えば、中心のＸ座標、中心のＹ座標、幅、及び高さの４次元のパラメータ）と、カテゴリスコア（例えば、各分類クラスに対する尤度）とを紐づけたデータである。

　図２は、図１で説明した各特徴マップからの出力値の一例を示す図である。ここでは、図１の（ａ）に示される入力画像の２つの物体領域を例に説明する。入力画像における２つの物体領域は、それぞれ、図１の（ｂ）に示される８×８特徴マップ上の２つの候補枠の集合に対応する。さらに、図１の（ｃ）に示される４×４特徴マップ上の１組の図２に示される１組の候補枠の集合は、図１の（ａ）に示される自動車の物体領域に対応する。図２では、候補枠毎に算出された、歩行者、自動車、自転車、バイク、及び、背景の５つのクラスそれぞれに対する尤度を示している。図２に示されるように、全候補枠の検出処理では、全候補枠について各クラスの尤度が算出され、各候補枠の形状オフセットとカテゴリスコアとが紐づけられたデータが得られる。なお、図２に示される例では、正規化された尤度を用いているが、正規化されていない尤度を用いてもよい。

　続いて、ＮＭＳ処理について説明する。ＮＭＳ処理は、上記の処理フローで検出された全候補枠を各クラスに分類する分類処理である第１処理と、分類された全候補枠のうち重なり合う候補枠を１つの候補枠に統合する第２処理と、を含む。図３は、従来技術における分類処理の一例を示すフローチャートである。図３に示されるステップＳ３０１の処理は、上記の全候補枠の検出処理を示す。ステップＳ３０１の処理では、入力画像における各候補枠の複数のクラスそれぞれに対する尤度が算出される。図３に示されるように、従来技術では、ステップＳ３０１の処理の後、全候補枠について分類ループの処理が実行される。全候補は、図２に示されるように、検出対象の物体が映っていない背景の候補枠も含まれる。従来技術では、背景の候補枠についても、複数のクラスに対する分類処理が実行される。例えば、ある候補枠の自動車クラスに対する尤度（尤度［候補枠］）が、自動車クラスの閾値（閾値［自動車］）以上であるか否かを判定する（ステップＳ３０２）。当該ある候補枠の自動車に対する尤度が、自動車の閾値以上である場合（ステップＳ３０２でＹｅｓ）、当該ある候補枠は、自動車クラスのリスト（リスト［自動車］）に追加される（ステップＳ３０３）。一方、当該ある候補枠の自動車に対する尤度が、自動車の閾値よりも小さい場合（ステップＳ３０２でＮｏ）、当該ある候補枠は、自動車クラスのリストに追加されない。

　次いで、他の１つの候補枠の自動車クラスに対する尤度が、自動車クラスの閾値以上であるか否かを判定する（ステップＳ３０２）。当該ある候補枠の自動車に対する尤度が、自動車の閾値以上である場合（ステップＳ３０２でＹｅｓ）、当該ある候補枠は、自動車クラスのリストに追加される（ステップＳ３０３）。一方、当該ある候補枠の自動車に対する尤度が、自動車の閾値よりも小さい場合（ステップＳ３０２でＮｏ）、当該ある候補枠は、自動車クラスのリストに追加されない。

　このように、全候補枠について、自動車クラスに対する分類処理が終了すると、全候補枠について、自動車クラス以外の他のクラス（例えば、歩行者クラス）に対する分類処理が実行される。全候補枠について、複数のクラスそれぞれに対する分類処理（第１処理）が終了すると、全候補枠について、第２処理が実行される。

　第２処理では、検出された全候補枠について、ある候補枠が当該ある候補枠よりも検出尤度の高い候補枠と重なっている場合、これらの候補枠の重なり度合いが所定の閾値を超えるとき、当該ある候補枠を削除する。つまり、重なり合う候補枠のうち、最大尤度を有する候補枠以外の候補枠を削除することにより、候補枠を１つに統合する。

　以上のように、従来の物体検出方法では、全候補枠についてＮＭＳ処理を実行するため、最終段階の判定処理の処理量が多い。さらに、ＮＭＳ処理は、畳み込み演算処理と異なり、専用のプロセッサでの高速化が難しく、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）で実行されることが多い。また、物体検出装置は、車載ネットワークなどに実装されることが多い。車載ネットワークに実装されるＣＰＵは、コンピュータに実装されるＣＰＵよりも処理能力が低いため、ＮＭＳ処理に時間がかかる。

　本願発明者は、上記課題を鑑み鋭意検討した結果、検出された全候補枠について、他のクラスに対する尤度と負の相関関係を有するクラス（例えば、背景）に対する尤度に基づいて、検出対象の物体が映っている可能性の高い候補枠を抽出することにより、処理量を低減できることを見出した。例えば、背景クラスと、背景以外のクラスとに分類し、背景以外のクラスの候補枠、つまり、検出対象の物体が映っている可能性の高い候補枠についてのみ、他のクラスに分類されるか否かの判定処理を実行することで、第２処理における処理量を低減できることを見出した。これにより、最終段階の判定処理の処理量を低減できる情報処理装置及び情報処理方法に想到した。

　本開示の一態様の概要は、以下の通りである。

　本開示の一態様に係る情報処理装置は、プロセッサを備える情報処理装置であって、前記プロセッサは、入力画像を取得し、分類尤度算出処理を実行する機械学習モデルに前記入力画像を入力して前記入力画像における各物体候補の複数のクラスそれぞれに対する尤度を取得し、前記各物体候補について、前記複数のクラスにおける第１クラスに対する尤度であって、他のクラスに対する尤度と負の相関関係を有する尤度を用いて、前記第１クラスに分類されるか否かの第１判定を実行し、前記第１判定において前記第１クラスに分類されないと判定された物体候補それぞれについて、前記他のクラスに分類されるか否かの第２判定を実行し、前記第２判定の結果を用いて前記入力画像に映る物体の分類結果を出力する。

　このように、各物体候補について、他のクラスに対する尤度と負の相関関係を有する、第１クラスに対する尤度を用いて第１判定が実行されるため、各候補枠は、第１クラス、及び、第１クラスではないクラスのいずれかに精度良く分類される。第１クラスではないと判定された物体候補についてのみ、第１クラス以外の他のクラスに分類されるか否かの第２判定を実施する。そのため、本開示の一態様に係る情報処理装置によれば、物体のクラス分類のための処理量を低減することができる。

　また、例えば、前記プロセッサは、前記第１判定では、前記各物体候補の前記第１クラスに対する尤度が第１閾値以上か否かを判定するとしてもよい。このとき、例えば、前記プロセッサは、さらに前記各物体候補について、前記他のクラスに分類されるか否かの第３判定を実行し、前記第３判定により前記他のクラスに分類されると判定された物体候補の前記第１クラスに対する尤度より大きい値を前記第１閾値として決定するとしてもよい。例えば、前記プロセッサは、複数の前記入力画像の前記各物体候補について前記第３判定を実行し、複数の前記入力画像の前記各物体候補についての前記第３判定により前記他のクラスに分類されると判定された物体候補の前記第１クラスに対する尤度の全てより大きい値を前記第１閾値として決定するとしてもよい。

　これにより、第１閾値に基づいて第１判定が実施されるため、第１判定において第１クラスに分類されないと判定された物体候補は、第１クラス以外の他のクラスに分類される物体候補を全て含む。そのため、本開示の一態様に係る情報処理装置によれば、第１判定を実行することにより、入力画像における全物体候補を、第１クラスと、第１クラス以外の他のクラスとに精度良く分類することができる。

　また、例えば、前記第１クラスは、背景クラスであるとしてもよい。

　これにより、本開示の一態様に係る情報処理装置によれば、検出対象の物体が映っている可能性の高い物体候補について、第１クラス以外の他のクラスのいずれに分類されるか否かの判定処理を実行することができる。

　また、例えば、前記プロセッサは、前記機械学習モデルから、さらに、前記各物体候補について候補枠を取得し、前記第２判定では、前記第１クラスに分類されないと判定された物体候補それぞれについて、前記他のクラスに対する尤度が前記候補枠のサイズに応じた前記他のクラスに対応する閾値以上か否かを判定するとしてもよい。

　このように、各物体候補について出力された候補枠のサイズに応じて第１クラス以外の他のクラスに対応する閾値を用いることにより、候補枠のサイズが大きい物体候補の検出精度を向上させるとともに、候補枠のサイズが小さい物体候補について誤検出を低減することができる。

　このように、各物体候補について、他のクラスに対する尤度と負の相関関係を有する、第１クラスに対する尤度を用いて第１判定が実行されるため、各候補枠は、第１クラス、及び、第１クラスではないクラスのいずれかに精度良く分類される。第１クラスではないと判定された物体候補についてのみ、第１クラス以外の他のクラスに分類されるか否かの第２判定を実施する。そのため、本開示の一態様に係る情報処理方法によれば、判定処理の処理量を低減することができる。

　以下では、実施の形態について、図面を参照しながら具体的に説明する。

　なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する趣旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

　また、各図は、模式図であり、必ずしも厳密に図示されたものではない。したがって、例えば、各図において縮尺などは必ずしも一致しない。また、各図において、実質的に同一の構成については同一の符号を付しており、重複する説明は省略又は簡略化する。

　また、本明細書において、水平又は垂直などの要素間の関係性を示す用語、並びに、数値範囲は、厳密な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数％程度の差異をも含むことを意味する表現である。

　（実施の形態）
　［１．概要］
　まず、実施の形態に係る情報処理装置の概要について説明する。情報処理装置は、画像内の物体を検出するための装置である。例えば、情報処理装置は、自動車、バイク、自転車、及び、電車などの車両、ドローンなどの飛行体、又は、飛行機など移動体に搭載されるカメラシステムの一構成であってもよく、防犯カメラシステムの一構成であってもよい。

　情報処理装置は、訓練済みの機械学習モデルを用いて画像に映る物体の分類結果を出力する。機械学習モデルは、例えば、畳み込みフィルタネットワーク（ＣＮＮ）であり、教師データを用いて訓練される。情報処理装置の動作及び機械学習モデルの訓練については、後述する。

　［２．機能構成］
　続いて、情報処理装置の機能構成の一例について、図４を用いて説明する。図４は、実施の形態に係る情報処理装置１００の機能構成の一例を示すブロック図である。

　図４に示されるように、情報処理装置１００は、入力画像を取得し、入力画像を入力部１１に入力する。入力部１１は、入力画像を分類尤度算出部１２に出力する。分類尤度算出部１２は、例えば、分類尤度の算出処理を実行する機械学習モデルである。分類尤度算出部１２は、入力画像における各物体候補の複数のクラスそれぞれに対する尤度を算出する。より具体的には、図１の（ｄ）で説明したように、分類尤度算出部１２は、入力画像を畳み込みフィルタ処理により畳み込み、様々なサイズの特徴マップを抽出する。次いで、分類尤度算出部１２は、各特徴マップ上の各特徴点に割り当てられた複数の候補枠それぞれについて、複数のクラスそれぞれに対する尤度を算出する。すなわち、分類尤度算出部１２は、図１の（ｄ）に示される全候補枠の検出処理を行う。

　第１抽出部１３は、複数のクラスのうち第１クラスに分類される物体候補（以下、候補枠）を抽出し、第１クラス以外の他のクラス（以下、他のクラス）に分類される候補枠を第２抽出部１４に出力する。第２抽出部１４は、他のクラスに分類される候補枠のそれぞれを各クラスに分類し、統合部１５に出力する。すなわち、第１抽出部１３及び第２抽出部１４における処理は、図１の（ｄ）で説明したＮｏｎ－Ｍａｘｉｍｕｍ　ｓｕｐｐｒｅｓｓｉｏｎ（ＮＭＳ）処理の第１処理である。続いて、統合部１５は、第２抽出部１４から出力された他のクラスに分類される複数の候補枠を取得し、取得した複数の候補枠に対してＮＭＳ処理の第２処理を実行する。統合部１５は、重なり合う候補枠のうち最大尤度を有する候補枠以外の候補枠を削除し、候補枠を１つに統合する。出力部１６は、統合された候補枠を最終的な検出結果として出力する。

　［３．実装例］
　続いて、情報処理装置１００の実装例について説明する。図５は、実施の形態に係る情報処理装置１００の実装例を示すブロック図である。情報処理装置１００は、プロセッサ１０と、メモリ２０と、を備える。例えば、図４に示される情報処理装置１００の複数の構成要素は、図５に示されるプロセッサ１０及びメモリ２０によって実現される。

　プロセッサ１０は、メモリ２０にアクセス可能な電子回路であって、情報処理を行う。例えば、プロセッサ１０は、メモリ２０を用いて画像中の物体を検出する専用又は汎用のプロセッサである。プロセッサ１０は、例えば、ＣＰＵであってもよい。

　また、例えば、専用のハードウェアで構成されてもよく、メモリ２０に記録されたソフトウェアプログラムを読み出して実行してもよい。また、ソフトウェアプログラムは、ダウンロードなどにより配布されてもよいし、半導体メモリなどの記録媒体に記録して配布されてもよい。

　また、プロセッサ１０は、複数の電子回路で構成されていてもよいし、複数のサブプロセッサで構成されていてもよい。また、プロセッサ１０は、図４及び図５に示される情報処理装置１００の複数の構成要素のうち、情報を記憶するための構成要素を除く、複数の構成要素の役割を果たしてもよい。

　メモリ２０は、プロセッサ１０が画像中の物体を検出するための情報が記憶される専用又は汎用のメモリである。メモリ２０は、電子回路であってもよく、プロセッサ１０に接続されていてもよいし、プロセッサ１０に含まれていてもよい。

　また、メモリ２０は、複数の電子回路で構成されていてもよいし、複数のサブメモリで構成されていてもよい。また、メモリ２０は、磁気ディスク又は光ディスク等であってもよいし、ストレージ又は記録媒体等と表現されてもよい。また、メモリ２０は、不揮発性メモリでもよいし、揮発性メモリでもよい。

　例えば、メモリ２０は、図４及び図５に示される情報処理装置１００の複数の構成要素のうち、情報を記憶するための構成要素の役割を果たしてもよい。

　また、メモリ２０には、物体検出処理に供される動画像が記憶されてもよいし、物体検出処理に供される動画像に対応するビット列が記憶されてもよい。また、メモリ２０には、プロセッサ１０が画像中の物体を検出するためのプログラムが記憶されていてもよい。

　また、情報処理装置１００において、図４及び図５に示される複数の構成要素の全てが実装されなくてもよいし、上述された複数の処理の全てが行われなくてもよい。図４及び図５に示される複数の構成要素の一部は、他の装置に含まれていてもよいし、上述された複数の処理の一部は、他の装置によって実行されてもよい。そして、情報処理装置１００において、図４及び図５に示される複数の構成要素のうちの一部が実装され、上述された複数の処理の一部が行われることによって、最終段階の判定処理の処理量を低減することができる。

　上述した通り、図５に示される情報処理装置１００のプロセッサ１０は、情報処理装置１００のメモリ２０を用いて画像中の物体を検出する。

　例えば、プロセッサ１０は、入力画像を取得し、分類尤度算出処理を実行する機械学習モデルに入力画像を入力して入力画像における各物体候補（以下、候補枠）の複数のクラスそれぞれに対する尤度を取得する。次いで、プロセッサ１０は、各候補枠について、複数のクラスにおける第１クラスに対する尤度であって、他のクラスに対する尤度と負の相関関係を有する尤度を用いて、第１クラスに分類されるか否かの第１判定を実行する。より具体的には、プロセッサ１０は、第１判定では、各候補枠の第１クラスに対する尤度が第１閾値以上か否かを判定する。

　なお、上記の負の相関関係とは、第１クラスに対する尤度と、他のクラスに対する尤度とが同時に高くならない関係である。尤度が高くならないとは、尤度が閾値以上にならないことをいう。そのため、各候補枠について、第１クラスに対する尤度と、第１クラス以外の他のクラスに対する尤度とは、同時に高くならない。より具体的には、各候補枠について、第１クラスに対する尤度が閾値以上である場合、第１クラス以外の他のクラスに対する尤度は、閾値よりも小さくなる。したがって、プロセッサ１０は、各候補枠について、他のクラスに対する尤度と負の相関関係を有する、第１クラスに対する尤度を用いて分類処理を行うことにより、各候補枠は、第１クラス、及び、第１クラスではないクラスのいずれかに精度良く分類される。

　なお、第１クラスは、第１クラス以外の他のクラスよりも画像における出現頻度が高いクラスであってよい。画像における出現頻度が高いとは、例えば、画像において検出される回数が多いこと、又は、画像における全候補枠のうち尤度が閾値よりも大きくなる候補枠の数が多いことである。

　例えば、プロセッサ１０は、さらに、各候補枠について、他のクラスに分類されるか否かの第３判定を実行し、第３判定により他のクラスに分類されると判定された候補枠の第１クラスに対する尤度より大きい値を第１閾値として決定する。例えば、プロセッサ１０は、複数の入力画像の各物体候補について第３判定を実行し、複数の入力画像の各物体候補についての第３判定により他のクラスに分類されると判定された物体候補の第１クラスに対する尤度の全てより大きい値を第１閾値として決定する。これにより、第１判定において、各候補枠の第１クラスに対する尤度が第１閾値以上か否かを判定した場合に、第３判定により他のクラスに分類されると判定された候補枠の全てが第１クラスではないクラスに分類される。そのため、第１クラス以外の他のクラスに分類されるべき候補枠が誤って第１クラスに分類されることを低減することができる。

　例えば、第１クラスは、背景クラスである。この場合、プロセッサ１０は、各候補枠を、背景クラスと、背景ではないクラスとに分類する。これにより、全候補枠のうち、検出対象の物体が映っている可能性の高い候補枠が抽出される。これにより、検出対象の物体が映っていない候補枠について、さらなる分類処理が実行される必要がなくなるため、分類処理における処理量が低減される。また、全候補枠のうち、物体が映っている可能性の高い候補枠についてのみ、背景以外の他のクラスに分類する処理を実行するため、分類処理の効率が向上される。

　例えば、プロセッサ１０は、第１判定において第１クラスに分類されないと判定された候補枠それぞれについて、他のクラスに分類されるか否かの第２判定を実行する。ここで、複数のクラスにおける第１クラスが画像において出現頻度が高いクラスである場合、第１クラスに分類されないと判定された候補枠の数よりも、第１クラスに分類されると判定された候補枠の数の方が多くなる。そのため、第１クラスに分類されないと判定された候補枠それぞれについてのみ第２の判定を実行すると、全候補枠について第２の判定を実行する場合に比べて、処理量が大幅に低減される。

　次いで、プロセッサ１０は、第１判定及び第２判定の結果を用いて、入力画像に映る物体の分類結果を出力する。これにより、入力画像に映る物体の分類結果を簡便にかつ迅速に出力することができる。

　ここで、本実施の形態の情報処理装置１００を実現するソフトウェアは、次のようなプログラムである。

　すなわち、このプログラムは、コンピュータに、入力画像を取得し、分類尤度算出処理を実行する機械学習モデルに入力画像を入力して画像における各物体候補の複数のクラスそれぞれに対する尤度を取得し、各物体候補について、複数のクラスにおける第１クラスに対する尤度であって、他のクラスに対する尤度と負の相関関係を有する尤度を用いて、第１クラスに分類されるか否かの第１判定を実行し、第１判定において第１クラスに分類されないと判定された物体候補それぞれについて、他のクラスに分類されるか否かの第２判定を実行し、第２判定の結果を用いて入力画像に映る物体の分類結果を出力する情報処理方法を実行させてもよい。

　［４．動作］
　［４－１．各候補枠の分類処理］
　続いて、情報処理装置１００の動作について説明する。図６は、実施の形態に係る情報処理装置１００の動作の一例を示すフローチャートである。

　まず、情報処理装置１００は、入力画像を取得する（不図示）。次いで、図６に示されるように、情報処理装置１００は、入力画像における候補枠毎に尤度を算出する（ステップＳ６０１）。より具体的には、情報処理装置１００は、分類尤度算出処理を実行する機械学習モデルに入力画像を入力して、入力画像における各候補枠の複数のクラスそれぞれに対する尤度を算出させる。

　次いで、情報処理装置１００は、全候補枠について、複数のクラスにおける第１クラスに対する尤度であって、他のクラスに対する尤度と負の相関関係を有する尤度を用いて、第１クラスに分類されるか否かの第１判定を実行する。第１クラスに関する定義については、上記の実装例にて説明したため、ここでの説明を省略する。以下、第１クラスは、背景（ＢＧ：Ｂａｃｋｇｒｏｕｎｄ）クラスである例について説明する。

　情報処理装置１００は、各候補枠の背景クラスに対する尤度が背景の閾値以上であるか否かを判定する（ステップＳ６０２）。ある候補枠の背景クラスに対する尤度が背景の閾値以上である場合（ステップＳ６０２でＹｅｓ）、当該ある候補枠は、背景（ＢＧ）クラスのリストに追加される。一方、ある候補枠の背景クラスに対する尤度が背景の閾値より小さい場合（ステップＳ６０２でＮｏ）、当該ある候補枠は、背景ではない（ｎｏｔ　ＢＧ）クラスのリストに追加される（ステップＳ６０３）。情報処理装置１００は、全候補枠について、上記の処理ループを実行することにより、全候補枠を上記の２つのクラス、つまり、背景（ＢＧ）クラス及び背景ではない（ｎｏｔ　ＢＧ）クラスのいずれかに分類する。

　次いで、情報処理装置１００は、第１判定（ステップＳ６０２）において背景クラスに分類されないと判定された候補枠（つまり、背景ではないクラスのリストに追加された候補枠）それぞれについて、他のクラスに分類されるか否かの第２判定（ステップＳ６０４）を実行する。具体的には、各候補枠について、他のクラスのそれぞれに対する尤度が各クラスの閾値以上であるか否かを判定する（ステップＳ６０４）。ある候補枠のあるクラスに対する尤度（例えば、自動車クラスに対する尤度）が自動車の閾値以上である場合（ステップＳ６０４でＹｅｓ）、当該ある候補枠は、自動車クラスのリストに追加される（ステップＳ６０５）。一方、当該ある候補枠の自動車クラスに対する尤度が自動車の閾値よりも小さい場合（ステップＳ６０４でＮｏ）、当該ある候補枠は、自動車クラスのリストに追加されない。

　次いで、情報処理装置１００は、例えば、他の１つの候補枠の自動車クラスに対する尤度が自動車の閾値以上である場合（ステップＳ６０４でＹｅｓ）、当該他の１つの候補枠は、自動車クラスのリストに追加される（ステップＳ６０５）。一方、当該他の１つの候補枠の自動車クラスに対する尤度が自動車の閾値よりも小さい場合（ステップＳ６０４でＮｏ）、当該他の１つの候補枠は、自動車クラスのリストに追加されない。

　このように、背景ではないクラスのリスト中の全候補枠について、１つのクラス（ここでは、自動車クラス）に対する分類処理を実行した後、別のクラス（例えば、歩行者クラス）に対する分類処理を実行する。同様の処理を繰り替えし、背景ではないクラスのリスト中の全候補枠に対する分類ループが終了する。

　以上のように、本実施の形態に係る情報処理装置１００によれば、まず、入力画像における全候補枠のそれぞれについて、例えば、画像において最も出現頻度の高いクラス（つまり、他のクラスの尤度と負の相関関係を有する尤度のクラス）に分類されるか否かを判定する。これにより、例えば、検出された全候補枠を、背景クラスと背景ではないクラスとの２つの分類することができる。背景クラスは、例えば、画像における出現頻度が高いクラスである。情報処理装置１００は、背景ではないクラスに分類された各候補枠について、背景クラス以外の他のクラスに対する分類処理を行うため、処理量が低減される。

　［４－２．第１クラスの第１閾値の決定処理］
　続いて、情報処理装置１００が実行する第１クラス（ここでは、背景クラス）の尤度閾値である第１閾値の決定処理フローの一例について説明する。図７は、実施の形態における機械学習モデルのオフライン処理の一例を示すフローチャートである。

　図６で説明したように、情報処理装置１００は、分類尤度算出処理を実行する機械学習モデルに入力画像を入力し、入力画像における各候補枠の複数のクラスそれぞれに対する尤度を算出する。機械学習モデルは、教師データを用いて、入力画像における候補枠の検出、及び、各候補枠の複数のクラスそれぞれに対する尤度の算出を訓練される。

　情報処理装置１００は、例えば、オフラインで、所定の入力画像を機械学習モデルに入力し、機械学習モデルは検出した全候補枠のそれぞれについて複数のクラスに対する尤度を算出する（不図示）。

　次いで、情報処理装置１００は、機械学習モデルによって、分類ループを開始する。まず、情報処理装置１００は、機械学習モデルによって、全候補枠について、複数のクラスのうちの１つのクラスについて分類処理を実行する。例えば、ある候補枠の背景クラスに対する尤度が背景の閾値以上であるか否かを判定する（ステップＳ７０１）。当該ある候補枠の背景クラスに対する尤度が背景の閾値以上である場合（ステップＳ７０１でＹｅｓ）、当該ある候補枠は、背景クラスのリストに追加される（ステップＳ７０２）。一方、当該ある候補枠の背景クラスに対する尤度が背景の閾値よりも小さい場合（ステップＳ７０１でＮｏ）、当該ある候補枠は、背景クラスのリストに追加されない。

　次いで、他の１つの候補枠について、ステップＳ７０１の処理を実行し、当該他の１つの候補枠の背景クラスに対する尤度が背景の閾値以上である場合（ステップＳ７０１でＹｅｓ）、当該他の１つの候補枠は、背景クラスのリストに追加される（ステップＳ７０２）。一方、当該他の１つの候補枠の背景クラスに対する尤度が背景の閾値よりも小さい場合（ステップＳ７０１でＮｏ）、当該他の１つの候補枠は、背景クラスのリストに追加されない。

　以上のように、全候補枠について、背景クラスに対する分類処理を実行した後、全候補枠について、背景クラス以外の他のクラス（例えば自動車クラス）に対する分類処理（第３判定の処理）を実行する。同様に、自動車クラスに対する分類処理が終了した後、全候補枠について、背景クラス及び自動車クラス以外の他のクラス（例えば、歩行者クラス）に対する分類処理を実行する。このようにして、全候補枠について、全クラスに対する分類処理を実行する。

　図示していないが、情報処理装置１００は、上記の一連の処理により背景クラス以外の他のクラスのリストに追加された各候補枠の背景クラスに対する尤度より大きい値を第１閾値として決定する。例えば、第１閾値は、他のクラスのリストに追加された各候補枠の背景クラスに対する尤度の平均値よりも大きい値であってもよく、最大値よりも大きい値であってもよい。これにより、情報処理装置１００は、第１判定において、物体が映っている可能性のある候補枠を取りこぼすことなく、背景ではないクラスに分類することができる。

　［４－３．決定された第１閾値の調整］
　続いて、情報処理装置１００は、図７に示される処理によって決定された第１閾値を用いて、入力画像における全候補枠に対して第１判定を実行し、第１閾値が適切であるか否かを判定し、判定結果に基づいて、第１閾値の値を調整する。

　図８は、機械学習モデルのオフライン処理の他の例を示すフローチャートである。図８に示される処理フローでは、情報処理装置１００は、入力画像における全候補枠について、第１クラスに（ここでは、背景クラス）に対する尤度が第１閾値以上か否かを判定する第１判定を実行し、全候補枠を背景クラス及び背景ではないクラスのいずれかに分類する。第１閾値は、第１クラス（ここでは、背景クラス）の閾値である。なお、図７及び図８に示される処理フローでは、情報処理装置１００は、同じ入力画像を機械学習モデルに入力している。

　図８に示されるように、情報処理装置１００は、機械学習モデルによって、全候補枠について、背景クラスに分類されるか否かを判定する。例えば、ある候補枠の背景クラスに対する尤度が背景の閾値以上であるか否かを判定する（ステップＳ８０１）。当該ある候補枠の背景クラスに対する尤度が背景の閾値以上である場合（ステップＳ８０１でＹｅｓ）、当該ある候補枠は、背景クラスに追加される。一方、当該ある候補枠の背景クラスに対する尤度が背景の閾値よりも小さい場合（ステップＳ８０１でＮｏ）、当該ある候補枠は、背景ではない（ｎｏｔ　ＢＧ）クラスに追加される（ステップＳ８０２）。

　次いで、情報処理装置１００は、他の候補枠のそれぞれについて、同様の処理を実行し、背景リスト及び背景ではないリストのいずれかに分類する。全候補枠について第１判定を実行し終えると、全候補枠のループが終了する。

　情報処理装置１００は、図７に示される処理フローにおいて背景クラス以外の他のクラスに分類された候補枠の全てが、図８に示される処理により背景ではないクラスのリストに追加されているか否かを判定する。他のクラスに分類された候補枠の全てが背景ではないクラスのリストに追加されている場合、情報処理装置１００は、背景ではないクラスのリストに追加された候補枠の数と他のクラスに分類された候補枠の数との差分に応じて、第１閾値に所定のマージを加えてもよい。一方、他のクラスに分類された候補枠のうち、背景ではないクラスのリストに追加されていない候補枠がある場合、情報処理装置１００は、第１閾値を調整する。このとき、情報処理装置１００は、他のクラスに分類されると判定された候補枠のうち背景ではないクラスのリストに追加されていない候補枠のデータに基づいて第１閾値を調整してもよい。

　情報処理装置１００は、第１閾値を調整した場合、調整した第１閾値を用いて、図８に示される処理フローを実行する。そして、再び、情報処理装置１００は、図７に示される処理フローにおいて他のクラスに分類された候補枠の全てが、背景ではないクラスのリストに含まれるか否かを判定する。このように、情報処理装置１００は、オフラインで、所定の訓練用データを用いて機械学習モデルの訓練を実行し、適切な第１閾値を決定する。

　（変形例）
　続いて、変形例に係る情報処理装置について説明する。ここでは、実施の形態に係る情報処理装置１００と異なる点を中心に説明する。

　変形例に係る情報処理装置は、第１判定において第１クラス（例えば、背景クラス）に分類されないと判定された候補枠それぞれについて、各候補枠のサイズに応じて他のクラスに対応する閾値を決定し、各候補枠の他のクラスに対する尤度が当該閾値以上か否かを判定する点で、実施の形態に係る情報処理装置１００と異なる。

　図９は、変形例に係る情報処理装置の動作の一例を示す第１フローチャートである。図１０は、変形例に係る情報処理装置の動作の一例を示す第２フローチャートである。

　図９に示されるように、変形例に係る情報処理装置は、入力画像における各候補枠の複数のクラスそれぞれに対する尤度を算出する（ステップＳ９０１）。次いで、情報処理装置は、全候補枠について第１判定を実行する。例えば、情報処理装置は、ある候補枠の背景に対する尤度が背景の閾値以上であるか否かの第１判定を実行する（ステップＳ９０２）。当該ある候補枠の背景に対する尤度が背景の閾値以上である場合（ステップＳ９０２でＹｅｓ）、当該ある候補枠は、背景クラスのリストに追加される。一方、当該ある候補枠の背景に対する尤度が背景の閾値よりも小さい場合（ステップＳ９０２でＮｏ）、当該ある候補枠は、背景ではない（ｎｏｔ　ＢＧ）リストに追加される（ステップＳ９０３）。

　次いで、他の１つの候補枠の背景に対する尤度が背景の閾値以上であるか否かの第１判定を実行する（ステップＳ９０２）。当該他の１つの候補枠の背景に対する尤度が背景の閾値以上である場合（ステップＳ９０２でＹｅｓ）、当該他の１つの候補枠は、背景クラスのリストに追加される。一方、当該他の１つの候補枠の背景に対する尤度が背景の閾値よりも小さい場合（ステップＳ９０２でＮｏ）、当該他の１つの候補枠は、背景ではない（ｎｏｔ　ＢＧ）クラスのリストに追加される（ステップＳ９０３）。

　全候補枠について、上記の処理ループを終了すると、背景ではないクラスのリスト中の候補枠の分類ループ処理を開始する（図１０参照）。

　図示していないが、変形例に係る情報処理装置は、候補枠のサイズに応じて他のクラスに対応する閾値を決定する。例えば、候補枠のサイズが小さくなるほど小さい値の閾値を設定する。これにより、情報処理装置が映像において小さく映る物体を誤検出することを低減することができる。

　図１０に示されるように、まず、情報処理装置は、各候補枠のサイズを判定する。例えば、情報処理装置は、図９に示される処理により背景ではないクラスのリストに追加された各候補枠のサイズがｈ１（高さ１）より大きく、ｈ２（高さ２）以下であるか否かを判定する（ステップＳ１００１）。このとき、１つめの候補枠のサイズがｈ１より大きくｈ２以下である場合（ステップＳ１００１でＹｅｓ）、当該１つめの候補枠の自動車クラスに対する尤度が自動車の閾値１以上であるか否かを判定する（ステップＳ１００２）。当該１つめの候補枠の自動車クラスに対する尤度が自動車の閾値以上である場合、当該ある候補枠は自動車クラスのリストに追加される（ステップＳ１００３）。一方、当該１つめ候補枠の自動車クラスに対する尤度が自動車の閾値よりも小さい場合（ステップＳ１００２でＮｏ）、当該１つめの候補枠は、自動車クラスのリストに追加されない。

　次いで、２つめの候補枠のサイズがｈ１より大きく、ｈ２以下であるか否かを判定する（ステップＳ１００１）。当該２つめの候補枠のサイズがｈ１より大きく、ｈ２以下でない場合（ステップＳ１００１でＮｏ）、当該２つめの候補枠のサイズがｈ２（高さ２）より大きく、ｈ３（高さ３）以下であるか否かを判定する（ステップＳ１００４）。このとき、当該２つめの候補枠のサイズがｈ２より大きく、ｈ３以下である場合（ステップＳ１００４でＹｅｓ）、当該２つめの候補枠の自動車クラスに対する尤度が自動車の閾値２以上であるか否かを判定する（ステップＳ１００５）。当該２つめの候補枠の自動車クラスに対する尤度が自動車の閾値２以上である場合（ステップＳ１００５でＹｅｓ）、当該２つめの候補枠は、自動車クラスのリストに追加される（ステップＳ１００６）。一方、当該２つめの候補枠の自動車クラスに対する尤度が自動車の閾値２より小さい場合（ステップＳ１００５でＮｏ）、当該２つめの候補枠は、自動車クラスのリストに追加されない。

　次いで、３つめの候補枠のサイズがｈ１より大きく、ｈ２以下であるか否かを判定する（ステップＳ１００１）。当該３つめの候補枠のサイズがｈ１より大きく、ｈ２以下でない場合（ステップＳ１００１でＮｏ）、当該３つめの候補枠のサイズがｈ２（高さ２）より大きく、ｈ３（高さ３）以下であるか否かを判定する（ステップＳ１００４）。このとき、当該３つめの候補枠のサイズがｈ２より大きく、ｈ３以下でない場合（ステップＳ１００４でＮｏ）、当該３つめの候補枠のサイズがｈ３（高さ３）より大きく、ｈ４（高さ４）以下であるか否かを判定する（ステップＳ１００７）。このとき、当該３つめの候補枠のサイズがｈ３より大きく、ｈ４以下である場合（ステップＳ１００７でＹｅｓ）、当該３つめの候補枠の自動車クラスに対する尤度が自動車の閾値３以上であるか否かを判定する（ステップＳ１００８）。当該３つめの候補枠の自動車クラスに対する尤度が自動車の閾値３以上である場合（ステップＳ１００８でＹｅｓ）、当該３つめの候補枠は、自動車クラスのリストに追加される（ステップＳ１００９）。一方、当該３つめの候補枠の自動車クラスに対する尤度が自動車の閾値３より小さい場合（ステップＳ１００８でＮｏ）、当該３つめの候補枠は、自動車クラスのリストに追加されない。

　このように、背景ではないクラスに分類された全候補枠について、自動車に対する尤度閾値の判定処理が終わると、背景クラス及び自動車クラス以外の他のクラスについて、上記の分類処理が実行される。

　（他の実施の形態）
　以上、１つ又は複数の態様に係る情報処理装置及び情報処理方法について、実施の形態に基づいて説明したが、本開示は、これらの実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したもの、及び、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の範囲に含まれる。

　例えば、上記の実施の形態において説明した処理は、単一の装置（システム）を用いて集中処理することによって実現してもよく、又は、複数の装置を用いて分散処理することによって実現してもよい。また、上記プログラムを実行するプロセッサは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、又は、分散処理を行ってもよい。

　また、本開示の全般的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

　また、上記の各実施の形態は、請求の範囲又はその均等の範囲において種々の変更、書き換え、付加、及び、省略などを行うことができる。

　本開示は、分類処理における処理量を低減できる情報処理装置などとして利用でき、例えば、自動運転の制御、又は、防犯カメラシステムにおける人検知などに利用することができる。

　１０　プロセッサ
　１１　入力部
　１２　分類尤度算出部
　１３　第１抽出部
　１４　第２抽出部
　１５　統合部
　１６　出力部
　２０　メモリ
　１００　情報処理装置

Claims

　プロセッサを備える情報処理装置であって、
　前記プロセッサは、
　入力画像を取得し、
　分類尤度算出処理を実行する機械学習モデルに前記入力画像を入力して前記入力画像における各物体候補の複数のクラスそれぞれに対する尤度を取得し、
　前記各物体候補について、前記複数のクラスにおける第１クラスに対する尤度であって、他のクラスに対する尤度と負の相関関係を有する尤度を用いて、前記第１クラスに分類されるか否かの第１判定を実行し、
　前記第１判定において前記第１クラスに分類されないと判定された物体候補それぞれについて、前記他のクラスに分類されるか否かの第２判定を実行し、
　前記第２判定の結果を用いて前記入力画像に映る物体の分類結果を出力する、
　情報処理装置。
　前記プロセッサは、前記第１判定では、前記各物体候補の前記第１クラスに対する尤度が第１閾値以上か否かを判定する、
　請求項１に記載の情報処理装置。
　前記プロセッサは、さらに前記各物体候補について、前記他のクラスに分類されるか否かの第３判定を実行し、
　前記第３判定により前記他のクラスに分類されると判定された物体候補の前記第１クラスに対する尤度より大きい値を前記第１閾値として決定する、
　請求項２に記載の情報処理装置。
　前記プロセッサは、
　複数の前記入力画像の前記各物体候補について前記第３判定を実行し、
　複数の前記入力画像の前記各物体候補についての前記第３判定により前記他のクラスに分類されると判定された物体候補の前記第１クラスに対する尤度の全てより大きい値を前記第１閾値として決定する
　請求項３に記載の情報処理装置。
　前記第１クラスは、背景クラスである、
　請求項１～４のいずれか一項に記載の情報処理装置。
　前記プロセッサは、
　前記機械学習モデルから、さらに、前記各物体候補について候補枠を取得し、
　前記第２判定では、前記第１クラスに分類されないと判定された物体候補それぞれについて、前記他のクラスに対する尤度が前記候補枠のサイズに応じた前記他のクラスに対応する閾値以上か否かを判定する、
　請求項５に記載の情報処理装置。
　プロセッサに実行させる情報処理方法であって、
　入力画像を取得し、
　分類尤度算出処理を実行する機械学習モデルに前記入力画像を入力して前記画像における各物体候補の複数のクラスそれぞれに対する尤度を取得し、
　前記各物体候補について、前記複数のクラスにおける第１クラスに対する尤度であって、他のクラスに対する尤度と負の相関関係を有する尤度を用いて、前記第１クラスに分類されるか否かの第１判定を実行し、
　前記第１判定において前記第１クラスに分類されないと判定された物体候補それぞれについて、前記他のクラスに分類されるか否かの第２判定を実行し、
　前記第２判定の結果を用いて前記入力画像に映る物体の分類結果を出力する、
　情報処理方法。
　請求項７に記載の情報処理方法をコンピュータに実行させるための、
　プログラム。