WO2020101036A1

WO2020101036A1 - 教師信号生成装置、モデル生成装置、物体検出装置、教師信号生成方法、モデル生成方法、およびプログラム

Info

Publication number: WO2020101036A1
Application number: PCT/JP2019/045036
Authority: WO
Inventors: 勇佑二井谷; 小川　徹
Original assignee: 株式会社ＰｒｅｆｅｒｒｅｄＮｅｔｗｏｒｋｓ
Priority date: 2018-11-16
Filing date: 2019-11-18
Publication date: 2020-05-22
Also published as: JP2022043364A

Abstract

本発明の一実施形態は、アノテーションの一貫性に欠けるデータセットを用いて物体検出の学習を行った場合でも、物体検出精度の低下を抑えることを目的とする。［解決手段］　本発明の一実施形態は、物体検出部と、正負判定部と、教師信号決定部と、を備える。前記物体検出部は、物体検出ネットワークを用いて、画像の一部である提案領域から、検出対象の検出を試みる。前記正負判定部は、前記画像に関するデータに基づき、前記提案領域を前記検出対象に対する正例とすべきか負例とすべきかを判定する正負判定を行う。前記教師信号決定部は、前記正負判定が適格か不適格かを判定する適格性判定を行い、前記適格性判定の結果に基づき、教師信号として用いる正負判定の結果を決定する。

Description

教師信号生成装置、モデル生成装置、物体検出装置、教師信号生成方法、モデル生成方法、およびプログラム

　本発明は、学習装置、物体検出装置、学習方法、およびプログラムに関する。

　機械学習を行うには大量のデータが必要とされる。また、教師あり学習のためには、正解を示す教師データ付きのデータセットが必要である。例えば、物体検出のための教師データ付きのデータセットとしては、プリンストン大学のｉｍａｇｅＮｅｔ、ＧＯＯＧＬＥ（登録商標）のＯｐｅｎ　Ｉｍａｇｅｓ　Ｄａｔａｓｅｔ（ＯＩＤ）などがある。

　従来の物体認識の機械学習においては、データセットの全ての画像に対し、等しくアノテーションがされていることが前提であった。しかし、当該前提は崩れつつある。例えば、ＯＩＤでは、認証済みラベル（ｖｅｒｉｆｉｅｄ　ｌａｂｅｌｓ）という概念が導入され、認証済みラベルで規定された物体だけにアノテーションが行われている。この認証済みラベルは画像に応じて異なるため、各画像で検出対象（クラス）の物体が必ずアノテーションされているとは限らない。例えば、１番目の画像では人の顔にアノテーションが付与されているが、２番目の画像では、表示されているにも関わらず、人の顔にアノテーションが付与されていない、といったことがあり得る。このようなアノテーションの一貫性に欠けるデータセットを用いることによって、従来のデータセットを用いた場合よりも、検出精度などが低下してしまうといった問題が生じている。

　本発明の一実施形態は、アノテーションの一貫性に欠けるデータセットを用いて物体検出の学習を行った場合でも、物体検出精度の低下を抑えることを目的とする。

［課題を解決するための手段］
　本発明の一実施形態は、物体検出部と、正負判定部と、教師信号決定部と、を備える。前記物体検出部は、物体検出ネットワークを用いて、画像の一部である提案領域から、検出対象の検出を試みる。前記正負判定部は、前記画像に関するデータに基づき、前記提案領域を前記検出対象に対する正例とすべきか負例とすべきかを判定する正負判定を行う。前記教師信号決定部は、前記正負判定が適格か不適格かを判定する適格性判定を行い、前記適格性判定の結果に基づき、教師信号として用いる正負判定の結果を決定する。

第１の実施形態に係る学習装置（物体検出装置）の一例を示すブロック図。データセットの画像データの例を示す図。アノテーションに基づく誤認識について説明する図。検出対象の組み合わせの例を示すグラフ。第１の実施形態の学習装置の学習処理の概略フローチャート。第１の実施形態の学習装置の物体検出処理の概略フローチャート。第１の実施形態の学習装置の物体検出の性能に対する評価結果評価を示す図。第２の実施形態に係る学習装置（物体検出装置）の一例を示すブロック図。第２の実施形態の学習装置の学習処理の概略フローチャート。本発明の一実施形態におけるハードウェア構成の一例を示すブロック図。

　以下、図面を参照しながら、本発明の実施形態について説明する。

（第１の実施形態）
　図１は、第１の実施形態に係る学習装置（物体検出装置）の一例を示すブロック図である。本実施形態に係る学習装置（物体検出装置）１は、領域提案部１１と、物体検出部１２と、正負判定部１３と、教師信号決定部（適格性判定部）１４と、評価部１５と、学習部１６と、出力部１７と、記憶部１８と、を備える。

　本実施形態の学習装置１は、物体検出のためのデータセットを用いて、物体検出に関する学習を行う。そして、学習後の学習装置１は、与えられた画像から所定の物体（検出対象）を検出する。ゆえに、学習装置１は、物体検出装置とも言える。なお、本明細書においては、「学習」を「訓練」または「モデルの生成」、「学習装置」を「訓練装置」と言い換えてもよく、ネットワークはモデル、学習されて得られる学習済みモデルは訓練済みモデルと呼ぶことができる。

　物体検出のためのデータセットは、大量の画像データの集合である。各画像データには、画像そのものだけでなく、その画像に関連する関連情報が付与されている。関連情報として、例えば、画像内に示された物体およびその位置などの情報が、画像データに含まれる。画像に付与された関連情報は、アノテーション（あるいはメタデータ）と称される。このアノテーションに基づいて学習を行うことにより、学習装置１は、与えられた画像から、検出対象の物体を検出することができるようになる。

　なお、図１では、学習装置１は、データセットの提供源からデータセットを取り込むことを想定しているが、データセットが記憶部１８に予め記憶されていてもよい。

　図２は、データセットの画像データの例を示す図である。図２（Ａ）の画像上に、画像内に示された各検出対象を囲む枠（バウンディングボックス）が表示されている。ここでは、「人」、「人の顔」、「人の腕」をそれぞれ囲むバウンディングボックスが表示されている。また、データセットには検出対象（クラス）が規定されており、各バウンディングボックスの傍に、囲まれている検出対象が表示されている。ここでは、“ｐｅｒｓｏｎ”、“Ｈｕｍａｎ　Ｆａｃｅ”、“Ｈｕｍａｎ　ａｒｍ”と表示されている。このように、画像データは、アノテーションとして、バウンディングボックスの位置および大きさ、そのバウンディングボックス内の検出対象などの情報を含んでいる。

　しかしながら、データセットの画像ごとに、アノテーションが異なる（つまり、一貫性に欠ける）場合もあり得る。例えば、図２（Ｂ）では、図２（Ａ）同様、「人」、「人の顔」、「人の腕」が表示されている。しかし、図２（Ｂ）には、“ｐｅｒｓｏｎ”に関するバウンディングボックスはあるが、“Ｈｕｍａｎ　Ｆａｃｅ”、“Ｈｕｍａｎ　ａｒｍ”に関するバウンディングボックスが存在しない。つまり、図２（Ａ）の画像データに含まれていたアノテーションの一部が、図２（Ｂ）の画像データには含まれていない。

　図２のようなデータセットを用いて学習を行った場合、検出精度が低下する恐れがある。例えば、一般の学習装置が図２（Ｂ）を読み込んで「人の顔」および「人の腕」を検出した場合では、図２（Ｂ）の画像データには「人の顔」および「人の腕」についてのアノテーションがないため、一般の学習装置は検出が不正解であったと誤認識することになる。

　図３は、アノテーションに基づく誤認識について説明する図である。図３には、図２（Ｂ）の画像に対して一般の学習装置が生成した提案領域（実線および点線の枠）が示されている。提案領域は、バウンディングボックスの候補を意味する。図３に示された各提案領域は、全ての検出対象に対してアノテーションが付与されている場合、正例（ｐｏｓｉｔｖｉｅ　ｓａｍｐｌｅ）として扱われるべき領域である。しかし、上述の通り、図３の画像データには、「人」に対するアノテーションはあるが、「人の顔」と「人の腕」に対するアノテーションがない。そのため、実線の提案領域は正例と判断されるが、点線の提案領域は誤って負例（ｎｅｇａｔｉｖｅ　ｓａｍｐｌｅ）と判断される。こうして、誤った負例が教師信号として用いられるため、検出の精度が低下する。

　データセットの画像数は今後も増加すると思われるが、画像数が増加するにつれ、アノテーションなどに掛かるコストも増加してしまう。ゆえに、データセットの提供源は、画像内の全ての検出対象についてアノテーションをする必要がない認証済みラベルのような概念を採用し、アノテーションに掛かるコストを抑えるようになると思われる。つまり、アノテーションの一貫性に欠けるデータセットが今後増加すると思われる。そこで、本実施形態の学習装置１は、アノテーションに基づく判定結果が教師信号として適格であるかを判定する。これにより、アノテーションの一貫性に欠けるデータセットを用いて物体検出の学習を行った場合でも、物体検出の精度の低下が抑えられる。

　学習装置１の処理の内容を、学習装置１の各構成要素とともに説明する。

　領域提案部１１は、与えられた画像の一部を提案領域として提案する。提案領域は、画像内の検出対象を取り囲むバウンディングボックスの候補を意味する。なお、提案領域は、実際に検出対象を取り囲んでいない場合もある。領域提案部１１は、例えば、画像を入力すると提案領域を出力する公知のニューラルネットワーク（領域提案ネットワーク）を用いて、提案領域を算出する。なお、効率の観点からは、領域提案ネットワークを用いることが想定されるが、領域提案ネットワーク以外の方法で、提案領域を提案してもよい。

　物体検出部１２は、提案領域から、検出対象の検出を試みる。検出には、画像を入力すると所定の物体を検出する物体検出ネットワークが用いられる。具体的には、物体検出ネットワークは、提案領域が入力されると、提案領域内の物体が検出対象である確率を少なくとも出力する。この出力結果の精度が向上するように、学習が行われる。なお、物体検出部１２は、当該確率をそのまま検出結果としてもよい。また、当該確率が所定値以下の場合は、検出不可という検出結果にしてもよい。また、検出対象が複数ある場合、一つの提案領域に対して、各検出対象の確率が出力されてもよいし、最も高い確率が出力されてもよい。

　物体検出ネットワークは、Ｆａｓｔｅｒ　Ｒ－ＣＮＮ（Ｒｅｇｉｏｎｓ　ｗｉｔｈ　Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋｓ）、Ｆｅａｔｕｒｅ　Ｐｙｒａｍｉｄ　Ｎｅｔｗｏｒｋｓなどといった公知のニューラルネットワークを用いればよい。

　正負判定部１３は、画像のアノテーションに基づき、提案領域を検出対象に対する正例とすべきか、それとも負例とすべきか、を判定する。当該判定を、正負判定と記載する。

　なお、前述の通り、各画像において、検出対象に必ずアノテーションが付与されているとは限らない。ゆえに、正負判定部１３は、アノテーションが付与されていないために画像内に検出対象が存在していないと誤認識して、「負例とすべき」という判定を行うことがあり得る。つまり、正負判定部１３による判定結果は、実際には誤りであることがあり得る。ゆえに、正負判定の結果の全てをそのまま教師信号とは用いない。

　なお、ここでは教師信号である「正例」および「負例」と区別可能なように、正負判定の結果については、「正例とすべき」または「負例とすべき」と記載している。

　具体的には、正負判定部１３は、画像データのアノテーションに示された、検出対象の真の領域を認識する。そして、提案領域と、検出対象の真の領域と、に基づき、正負判定を行う。例えば、提案領域が当該真の領域を完全に内包している場合は、「正例とすべき」と判定されることが考えられる。また、提案領域が当該真の領域を完全に内包していても、提案領域の面積が当該真の領域の面積よりも所定値を越えて大きい場合は、「負例とすべき」と判定されることが考えられる。このように、正負判定の判定条件は、適宜に定めてよい。なお、図３に示したように、一つの提案領域に複数の検出対象が含まれる場合もある。そのような場合、正負判定が各検出対象ごとに行われてもよい。あるいは、最も適した検出対象だけを「正例とすべき」と判定し、その他の検出対象については「負例とすべき」と判定してもよい。

　教師信号決定部１４は、正負判定部１３による正負判定が適格か不適格かを判定する適格性判定を行う。そして、適格性判定の結果に基づき、正負判定の結果を教師信号として用いるか否かについて決定する。言い換えると、適格性判定の結果に基づき、正負判定の結果を、教師信号として用いるものと、教師信号として用いないものと、に分類する。この際、適格と判定された正負判定の結果のみを教師信号と決定すれば、言い換えると、不適格とした正負判定の結果を利用せずに学習を行えば、実際には誤りである正負判定の結果が教師信号となるのを防ぐことができる。なお、不適格と判定された正負判定の結果の一部を教師信号として利用した場合、不適格と判定された正負判定の結果全てを教師信号として利用した場合よりも、物体検出精度の低下は抑えられる。ゆえに、教師信号決定部１４は、不適格と判定された正負判定の結果が教師信号として利用される数を減らすようにしてもよい。

　適格性判定の判定方法の一例について説明する。教師信号決定部１４は、予め対応付けられた検出対象の組み合わせを認識しておく。そして、教師信号決定部１４は、今回の適格性判定が、当該組み合わせに含まれる検出対象（以下、組み合わせ内の検出対象という）であるかを確認する。組み合わせ内の検出対象に関する適格性判定であった場合は、組み合わせ内の別の検出対象の以前の適格性判定の結果を確認する。そして、別の検出対象の以前の適格性判定結果を考慮して、今回の適格性判定を行う。このように、教師信号決定部１４は、ある検出対象に関する適格性判定の結果を考慮して、当該検出対象に対応付けられた別の検出対象に関する適格性判定を行う。

　組み合わせ内の検出対象は、一つの画像内に一緒に表示されている可能性が高いものとすることができる。言い換えると、一つの画像内に一緒に表示されている可能性が高い検出対象を予め対応付けておく。例えば、全体部分関係にある検出対象同士を対応付けることが想定される。本明細書において、全体部分関係とは、「人」と「顔」、「車」と「タイヤ」など、物体の全体とその一部分、または、物体の部分とそれより小さいその一部分の関係を意味する。なお、全体部分関係にある検出対象の大きいほうを「全体物」、小さいほうを「部分物」とも記載する。さらに、言い換えると、ある検出対象が検出された場合において、当該検出対象を、検出される可能性が高い別の検出対象に対応付けておく。例えば、ある検出対象のバウンディングボックス内に含まれている可能性が高い別の検出対象がある場合、ある検出対象と別の検出対象とが全体部分関係にあるとみなして、これらを対応付けてもよい。

　この検出対象の対応付け（検出対象の組み合わせ）は、例えばルールベースで設定されてもよい。また例えば、機械学習で得られたモデルによって行われてもよい。また例えば、検出対象の組み合わせについて、複数の検出対象が存在する画像を集め、部分物のうち、部分物が全体物に含まれるものの割合を計算して、その割合が大きいものについて対応付けることで行うことができる。

　図４は、検出対象の組み合わせの例を示すグラフである。図４では、三つの全体部分関係のグラフが示されている。グラフの「１」のノードが「全体」の検出対象を意味し、グラフの「２」のノードが「部分」の検出対象を意味している。最も左側のグラフでは、「全体」の検出対象として「人」が示されており、「部分」の検出対象として「帽子」、「腕」、「顔」が示されている。「帽子」は人の一部ではないように思えるが、人が帽子を着用しているときは、「帽子」は人の一部となる。ゆえに、「帽子」のような着用物も、「人」と全体部分関係にあるとしてよい。その他にも、人が使用する道具なども「部分」として扱うことも考えられる。

　全体部分関係のように、一つの画像内に一緒に表示されている可能性が高い検出対象同士の一方が既に画像内に表示されていることが確定したにも関わらず、もう一方の検出対象に関する提案領域が「負例とすべき」と判定された場合、アノテーションが付与されていない可能性がある。ゆえに、教師信号決定部１４は、このような場合に、正負判定の結果を不適格とすることが考えられる。

　例えば、（１）「全体」が「人」であって「部分」が「顔」であるという全体部分関係が予め定められており、（２）正負判定部１３が、第１の提案領域を「人」に対する正例とすべきと判定し、教師信号決定部１４が、当該判定を適格と確定させており、（３）正負判定部１３が、第２の提案領域を「顔」に対する負例とすべきと判定した、という場合を想定する。このような想定の場合、教師信号決定部１４は、第２の提案領域を「顔」に対する負例とすべきという判定結果を、第１の提案領域と第２の提案領域の位置関係に基づき、不適格と判定してもよい。位置関係は、検出対象の組み合わせごとに、適宜に定めてよい。例えば、第１の提案領域（「人」の領域）が、第２の提案領域（「顔」の領域）を内包するというものでもよいし、第１の提案領域（「人」の領域）が、第２の提案領域（「顔」の領域）の少なくとも一部を含むというものでもよい。第１の提案領域または第２の提案領域に対する、第１の提案領域および第２の提案領域の共通部分（第１の提案領域∩第２の提案領域）の割合に基づき、判定を行ってもよい。当該判定を行うための、当該割合に対する閾値は、適宜に定めてよい。なお、教師信号に用いられる負例が少な過ぎると、学習に支障が出る恐れがある。ゆえに、閾値は９０％程度が好ましいと考えられる。つまり、当該共通部分が第１の提案領域または第２の提案領域の９０％以上である場合、第２の提案領域に関する判定結果を不適格と判定することが好ましい。また、「人」と「靴」という検出対象の組み合わせであれば、第２の提案領域（「靴」の領域）が、第１の提案領域（「人」の領域）の下半分にあるなどとしてもよい。なお、第１の提案領域と第２の提案領域は同一画像上にあるため、位置関係は問わずに、不適格と判定してもよい。つまり、上記の（１）から（３）の条件を満たし場合に、不適格と判定してもよいし、さらに位置関係に関する条件を満たした場合に、不適格と判定してもよい。

　また、ＯＩＤの認証済みラベルのように、ある画像においてアノテーションが付与された物体が、当該画像に対応する画像データにより示されている場合もあり得る。つまり、画像データから、アノテーションが付与された物体が分かる場合もあり得る。画像データが、アノテーションが付与された物体を示している場合に、教師信号決定部１４は、画像データ（詳細にはそのリスト）に基づき、検出対象がアノテーションの対象であるかを確認し、アノテーションが付与されていないと判明した検出対象に関する正負判定の結果を不適格と判定してもよい。

　このようにして、教師信号決定部１４は、適格と判定された正負判定の結果のみを教師信号と決定する。当然ながら、「正例とすべき」という判定結果は、教師信号の「正例」として用いられ、「負例とすべき」という判定結果は、教師信号の「負例」として用いられる。

　なお、ここでは、アノテーションが付与されていないことを想定しているが、この想定の場合、教師信号決定部１４は、「正例とすべき」という判定に対して、適格性を判定しなくともよい。つまり、「正例とすべき」という判定は、適格性判定の対象としなくともよい。しかし、画像に間違ったアノテーションが付与されている場合もあり得る。ゆえに、アノテーションの真偽を判定することも考えられる。その場合、「正例とすべき」という判定も、適格性判定の対象となる。

　なお、教師信号として用いられる正例と負例の割合が大きく異なると、検出精度に関する学習速度が低下する。また、物体検知では、一般的に正例に比べて負例の数が膨大になる。ゆえに、教師信号決定部１４は、適格と判定された「負例とすべき」という判定結果の全てを教師信号とはしないことにより、教師信号として用いられる正例と負例の割合を調節してもよい。調節方法および調節する数は、適宜に定めてよい。例えば、適格と判定された「負例とすべき」という判定結果を、ランダムに絞り込んでもよいし、所定の条件に基づいて絞り込んでもよい。

　評価部１５は、少なくとも教師信号に基づき、検出の結果に対し評価を行う。当該評価は、物体検出部１２により算出された、各検出対象の確率に対する損失で表される。損失の計算方法は、予め定められた、教師信号に関する損失関数に従えばよい。例えば、各検出対象の確率を教師信号に応じて変換し、各変換結果に基づき損失を求めることが考えられる。変換は、例えば、正例なら＋１、負例なら-１、教師信号がないなら０、などとすればよい。各検出対象の変換結果は、損失関数の要素と言える。

　また、提案領域が、検出対象を真に取り囲んでいるかについても、損失に含めてもよい。つまり、提案領域と、検出対象の真の領域とを比較して得られた、位置、大きさなどに対する合致度を損失関数の要素としてもよい。

　学習部１６は、評価部１５の評価結果に基づき、物体検出ネットワークのパラメータを更新する。具体的には、学習部１６は、当該パラメータの値を変えて、評価部による評価が高まるように（つまり、損失が小さくなるように）試みる。このようにして、検出対象の検出精度が向上する。

　出力部１７は、各構成要素の処理に関する情報を出力する。例えば、物体検出部１２による検出結果に関する情報を出力する。例えば、出力部１７は、確率が所定閾値を超えている提案領域を、検出対象が検出された領域として、検出対象とともに、出力してもよい。

　記憶部１８は、各構成要素の処理に必要なデータを記憶する。例えば、領域提案ネットワーク、物体検出ネットワーク、検出対象の組み合わせ、各構成要素の処理結果などが、記憶部１８に格納される。なお、記憶部１８に記憶されたデータは、複製されてもよい。なお、記憶部１８により記憶されるデータは、特に限られるものではない。なお、記憶装置が学習装置１の外部にあり、学習装置１が処理を行う際にこれらのデータを記憶装置から取得してもよい。

　次に、各構成要素の処理の流れを説明する。図５は、第１の実施形態の学習装置１の学習処理の概略フローチャートである。本フローは、データセット内の学習用データの各画像に対して行われる。

　領域提案部１１は、与えられた画像データに基づき、画像の一部分を提案領域として提案する（Ｓ１０１）。物体検出部１２は、各提案領域に対し、各検出対象の検出を試みる（Ｓ１０２）。これにより、各提案対象における各検出対象の確率が算出される。

　一方、正負判定部１３は、画像データのアノテーションに基づき、提案領域ごとに各検出対象に対する正負判定を実行する（Ｓ１０３）。正負判定の結果を受けて、教師信号決定部１４は、正負判定の適格性について適格性判定を実行し（Ｓ１０４）、適格性判定の結果に基づいて教師信号を決定する（Ｓ１０５）。

　評価部１５は、少なくとも教師信号に基づき、物体検出部１２の検出結果を評価する（Ｓ１０６）。具体的には、評価部１５は、教師信号と、検出対象ごとの確率と、に基づき、損失を算出する。そして、学習部が当該評価に基づき、物体検出ネットワークのパラメータを更新する（Ｓ１０７）。こうして、一つの画像に対する学習が終了し、次の画像に対して、同様にフローが開始される。なお、Ｓ１０７の処理は、複数の画像に対する評価結果を得た後に、複数の評価を用いて行われてもよい。

　図６は、第１の実施形態の学習装置１の物体検出処理の概略フローチャートである。本フローは、データセット内の評価用データの画像に対して行われてもよいし、学習に用いたデータセットとは別の画像に対して行われてもよい。

　領域提案部１１は、与えられた画像データに基づき、画像内の提案領域を算出する（Ｓ２０１）。物体検出部が、各提案領域に対し、各検出対象の検出を試みる（Ｓ１０２）。これにより、各提案対象における各検出対象の確率、当該確率に基づいた検出可否などの情報が算出される。出力部１７は、検出対象、検出された領域などの検出結果に関する情報を出力する（Ｓ２０３）。こうして、学習装置１は、与えられた画像から検出対象を検出する物体検出装置として、稼働することができる。

　なお、本説明におけるフローチャートは一例であり、上記の例に限られるものではない。実施形態の求められる仕様、変更などに応じて、手順の並び替え、追加、および省略が行われてもよい。以降のフローチャートも同様である。

　図７は、第１の実施形態の学習装置１の物体検出の性能に対する評価結果を示す図である。適格性判定を行わなかった場合と、適格性判定を行った場合での結果が示されている。本評価結果を示した学習装置１は、Ｆｅａｔｕｒｅ　Ｐｙｒａｍｉｄ　Ｎｅｔｗｏｒｋｓを物体検出ネットワークとして用いている。また、この物体検出ネットワークは、ＯＩＤの学習用データを用いて学習されている。本評価結果の表の各項目の検出対象は「人」と対応付けられており、「人」に対する適格性判定の結果を考慮して、各項目の検出対象の適格性判定が行われている。表の数値は、ＯＩＤの評価用データに対する学習装置１の物体検出の結果を、Ａｖｅｒａｇｅ　Ｐｒｅｃｉｓｉｏｎ（ＡＰ）で評価したものである。

　これらの検出対象に関しては、適格性判定を行った場合のほうが平均して９．２（Ａ）Ｐほどの優れた結果を得ている。特に、「顔」、「腕」などといった人のパーツを表す検出対象（図７の表では、腕から手までの１２個の検出対象）に関しては、適格性判定を行った場合のほうが２２．７ＡＰほどの優れた結果を得ている。検出精度の向上させる方法としては、物体検出ネットワークのレイヤ数を増やすことが考えられるが、１０１層のネットワークから１５４層のネットワークに変更したときに得られる精度向上は、ＯＩＤの５００個の検出対象の平均で１．５ＡＰほどであった。したがって、本学習装置１の精度向上が極めて大きな向上であることを理解することができる。

　以上のように、本実施形態によれば、アノテーションに基づく正負判定の結果に対して、その適格性を判定し、適格と判定された正負判定結果のみを教師信号として用いる。これにより、アノテーションが抜けている画像データがデータセットに含まれている場合でも、検出精度の低下を抑えることができる。

（第２の実施形態）
　図８は、第２の実施形態に係る学習装置（物体検出装置）の一例を示すブロック図である。第２の実施形態に係る学習装置は、擬似アノテーション付与部１９をさらに備える。

　正負判定の結果が誤るのは、主に、アノテーションが付与されていない画像データがあることに起因すると考えられる。そこで、第２の実施形態では、アノテーションを補完することにより、正負判定の結果の精度を上げる。つまり、学習装置１がアノテーションを新たに付与する。学習装置１が付与したアノテーションを擬似アノテーションと記載する。また、画像データに含まれるアノテーション（データセットに設定済みのアノテーション）を、標準アノテーションと記載する。

　しかし、擬似アノテーションが必ずしも正しいとは限らず、誤った擬似アノテーションにより、正負判定の結果が誤ることもあり得る。そこで、本実施形態でも、適格性判定を行うことにより、誤った正負判定の結果が教師信号となることを防ぐ。なお、第１の実施形態と同様な点は、説明を省略する。

　擬似アノテーション付与部１９は、与えられた画像から、検出対象と思われる物体を検出し、擬似アノテーションを付与する。擬似アノテーションを付与するために、学習中の物体検出ネットワークを用いてもよいし、別の物体検出ネットワークを用いてもよい。ゆえに、物体検出部１２が、擬似アノテーション付与部として、上記の処理を行ってもよい。

　正負判定部１３は、標準アノテーションだけでなく、擬似アノテーションにも基づき、正負判定を行う。つまり、正負判定に用いられるアノテーションが増えたことになる。それ以外は、第１の実施形態と同様に処理される。なお、擬似アノテーションに対する適格性判定を先に行い、不適格と判定された擬似アノテーションは正負判定に用いないとしてもよい。

　教師信号決定部１４は、第１の実施形態と同様、正負判定結果に対して適格性判定を行うが、第２の実施形態では、適格性判定の判定条件に、擬似アノテーションに対する条件が新たに追加されている。擬似アノテーションに対する条件は、擬似アノテーションが正しいかを判定することができるように、適宜に定められる。例えば、擬似アノテーションのバウンディングボックスと、標準アノテーションのバウンディングボックスとの位置関係に関する条件が考えられる。例えば、擬似アノテーションのバウンディングボックスと、標準アノテーションのバウンディングボックスとの合致度が上限値よりも高い場合、不適格と判定するとしてもよい。逆に、当該合致度が下限値よりも低い場合も、不適格と判定するとしてもよい。上限値および下限値も適宜に定めてよい。また、認証済みラベルのように、画像データが、標準アノテーションが付与された物体を示している場合に、標準アノテーションが付与された物体に関する擬似アノテーションは不適格と判定してもよい。このように、教師信号決定部１４は、新たに付与されたアノテーションに対する条件をさらに用いて、適格性判定を行えばよい。

　図９は、第２の実施形態の学習装置の学習処理の概略フローチャートである。領域提案部１１の処理（Ｓ１０１）と並行して、擬似アノテーション付与部１９が与えられた画像に対し、擬似アノテーションを付与する（Ｓ２０１）。正負判定部１３は、擬似アノテーションと標準アノテーションを区別せずに、これらのアノテーションに基づき、提案領域ごとに各検索対象に対する正負判定を実行する。ゆえに、正負判定部１３の処理は第１の実施形態と同様である（Ｓ１０３）。また、教師信号決定部１４が適格性判定を実行するが、判定条件が第１の実施形態と異なる以外は、第１の実施形態と同じである（Ｓ１０４）。以降の処理も、第１の実施形態と同様である。

　以上のように、本実施形態によれば、擬似アノテーションを付与することにより、アノテーションが付与されていないことに起因する正負判定の誤りを減少させることができる。また、擬似アノテーションが誤りである可能性もあるため、適格性判定を擬似アノテーションに対して行うことにより、擬似アノテーションの誤りに起因する誤った正負判定の結果を教師信号に用いるおそれを低減することができる。これらにより、第１の実施形態同様、アノテーションが抜けている画像データがデータセットに含まれている場合でも、検出精度の低下を抑えることができる。

　なお、上述の実施形態では、一つの学習装置１にて学習と物体検出の両方を行うとしたが、学習のための第１装置と、物体検出のための第２装置と、に分けてもよい。その場合、第１装置により学習された物体検出ネットワークが第２装置に送信され、第２装置は、この学習済みの物体検出ネットワークを用いて、物体検出を行う。なお、学習のための構成要素、例えば、正負判定部１３、教師信号決定部１４、評価部１５、学習部１６、擬似アノテーション付与部１９は、第２装置になくてもよい。

　あるいは、上述の実施形態の構成要素を複数の装置に分散して、学習装置１を学習システムまたは物体検出システムとして構成してもよい。例えば、学習部を単独の装置（モデル生成装置）にし、教師信号決定部などを含み当該装置が用いる教師信号を生成する装置（教師信号生成装置）と、に分けてもよい。

　なお、上記の実施形態の少なくとも一部は、プロセッサ、メモリなどを実装しているＩＣ（Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ：集積回路）などの専用の電子回路（すなわちハードウェア）により実現されてもよい。複数の構成要素が一つの電子回路で実現されてもよいし、一つの構成要素が複数の電子回路で実現されてもよいし、構成要素と電子回路が一対一で実現されていてもよい。また、上記の実施形態の少なくとも一部は、ソフトウェア（プログラム）を実行することにより、実現されてもよい。例えば、汎用のコンピュータ装置を基本ハードウェアとして用い、コンピュータ装置に搭載された中央処理装置（ＣＰＵ：Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、画像処理装置（ＧＰＵ：Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などのプロセッサ（処理回路、Ｐｒｏｃｅｓｓｉｎｇ　ｃｉｒｃｕｉｔ、Ｐｒｏｃｅｓｓｉｎｇ　ｃｉｒｃｕｉｔｒｙ）にプログラムを実行させることにより、上記の実施形態の処理を実現することが可能である。言い換えると、当該プログラムの実行により、プロセッサ（処理回路）が、各装置の各処理を実行できるように構成される。

　例えば、コンピュータが読み取り可能な記憶媒体に記憶された専用のソフトウェアをコンピュータが読み出すことにより、コンピュータを上記の実施形態の装置とすることができる。記憶媒体の種類は特に限定されるものではない。また、通信ネットワークを介してダウンロードされた専用のソフトウェアをコンピュータがインストールすることにより、コンピュータを上記の実施形態の装置とすることができる。こうして、ソフトウェアによる情報処理が、ハードウェア資源を用いて、具体的に実装される。

　図１０は、本発明の一実施形態におけるハードウェア構成の一例を示すブロック図である。学習装置１は、プロセッサ２１と、主記憶装置２２と、補助記憶装置２３と、ネットワークインタフェース２４と、デバイスインタフェース２５と、を備え、これらがバス２６を介して接続されたコンピュータ装置２として実現できる。

　なお、図１０のコンピュータ装置２は、各構成要素を一つ備えているが、同じ構成要素を複数備えていてもよい。また、図１０では、１台のコンピュータ装置２が示されているが、ソフトウェアが複数のコンピュータ装置にインストールされて、当該複数のコンピュータ装置それぞれがソフトウェアの異なる一部の処理を実行してもよい。

　プロセッサ２１は、コンピュータの制御装置および演算装置を含む電子回路（処理回路）である。プロセッサ２１は、コンピュータ装置２の内部構成の各装置などから入力されたデータやプログラムに基づいて演算処理を行い、演算結果や制御信号を各装置などに出力する。具体的には、プロセッサ２１は、コンピュータ装置２のＯＳ（オペレーティングシステム）や、アプリケーションなどを実行することにより、コンピュータ装置２を構成する各構成要素を制御する。プロセッサ２１は、上記の処理を行うことができれば特に限られるものではない。学習装置１の記憶部１８以外の構成要素は、プロセッサ２１により実現されることが想定される。プロセッサ２１は１つ以上が備えられ、後述するメモリに接続される。

　主記憶装置２２は、プロセッサ２１が実行する指示および各種データなどを記憶する記憶装置であり、主記憶装置２２に記憶された情報がプロセッサ２１により直接読み出される。補助記憶装置２３は、主記憶装置２２以外の記憶装置である。なお、これらの記憶装置は、電子情報を格納可能な任意の電子部品を意味するものとし、メモリでもストレージでもよい。また、メモリには、揮発性メモリと、不揮発性メモリがあるが、いずれでもよい。記憶部１８は、主記憶装置２２または補助記憶装置２３により実現されてもよい。すなわち、記憶部１８は、メモリでもよいし、ストレージでもよい。

　ネットワークインタフェース２４は、無線または有線により、通信ネットワーク３に接続するためのインタフェースである。ネットワークインタフェース２４は、既存の通信規格に適合したものを用いればよい。ネットワークインタフェース２４より、通信ネットワーク３を介して、コンピュータ装置２と外部装置４Ａとを接続することができる。

　デバイスインタフェース２５は、外部装置４Ｂと直接接続するＵＳＢなどのインタフェースである。すなわち、コンピュータ装置２と外部装置４（４Ａおよび４Ｂ）との接続は、ネットワークを介してでもよいし、直接でもよい。

　なお、外部装置４（４Ａおよび４Ｂ）は、学習装置１の外部の装置、学習装置１の内部の装置、外部記憶媒体、およびストレージ装置のいずれでもよい。

　上記に、本発明の一実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

　なお、本説明において「画像」という用語は、静止画を意味してもよいし、動画を意味してもよい。動画の場合は、例えばフレーム毎に静止画に変換されて学習に用いられてもよい。また、本発明の実施形態は、画像の他、検出対象が上述の全体部分関係を有する場合の学習または検出にも適用可能である。また、上記の実施形態では、検出対象の組み合わせが「全体物」と「部分物」の２階層である場合を説明したが、３階層以上であってもよい。例えば、１層目が「人」、２層目が「人」の一部である「人の顔」と「人の手」、３層目がさらに「人の顔」の一部である「人の目」と「人の鼻」の３階層の組み合わせが定められてもよい。

１：学習装置（物体検出装置）、１１：領域提案部、１２：物体検出部、１３：正負判定部、１４：教師信号決定部（適格性判定部）、１５：評価部、１６：学習部、１７：出力部、１８：記憶部、１９：擬似アノテーション付与部、２：コンピュータ装置、２１：プロセッサ、２２：主記憶装置、２３：補助記憶装置、２４：ネットワークインタフェース、２５：デバイスインタフェース、２６：バス、３：通信ネットワーク、４（４Ａ、４Ｂ）：外部装置

Claims

　物体検出ネットワークを用いて、画像の一部である提案領域から、検出対象の検出を試みる物体検出部と、
　前記画像に関するデータに基づき、前記提案領域を前記検出対象に対する正例とすべきか負例とすべきかを判定する正負判定を行う正負判定部と、
　前記正負判定が適格か不適格かを判定する適格性判定を行い、前記適格性判定の結果に基づき、教師信号として用いる正負判定の結果を決定する教師信号決定部と、
　を備える教師信号生成装置。
　前記教師信号決定部が、適格と判定された正負判定の結果のみを教師信号に選出する
　請求項１に記載の教師信号生成装置。
　前記教師信号決定部は、第１検出対象に対する適格性判定の結果を考慮して、前記第１検出対象に対応付けられた第２検出対象に対する適格性判定を行う
　請求項１または２に記載の教師信号生成装置。
　第１提案領域を前記第１検出対象の正例とすべきという正負判定が適格と判定されている場合において、前記正負判定部が、第２提案領域を前記第２検出対象の負例とすべきと判定したときは、
　前記教師信号決定部は、前記第２提案領域を前記第２検出対象の負例とすべきという正負判定に対し、前記第１提案領域と前記第２提案領域の位置関係に基づき、適格性判定を行う
　請求項３に記載の教師信号生成装置。
　前記第１検出対象と前記第２検出対象は、前記第１検出対象が全体を意味し、前記第２検出対象が部分を意味する、全体部分関係にある
　請求項３または４に記載の教師信号生成装置。
　前記データが、アノテーションが付与された物体を示している場合に、
　前記教師信号決定部が、前記データによりアノテーションが付与されていないと判明した検出対象に関する正負判定の結果を不適格と判定する
　請求項１ないし５のいずれか一項に記載の教師信号生成装置。
　前記画像に対し、アノテーションを新たに付与する擬似アノテーション付与部
　をさらに備え、
　前記正負判定部が、新たに付与されたアノテーションにさらに基づき、前記正負判定を行い、
　前記教師信号決定部が、新たに付与されたアノテーションに対する条件をさらに用いて、前記適格性判定を行う
　請求項１ないし６のいずれか一項に記載の教師信号生成装置。
　与えられた画像の一部を前記提案領域として提案する領域提案部
　をさらに備える請求項１ないし７のいずれか一項に記載の教師信号生成装置。
　少なくとも請求項１ないし８のいずれか一項により得られた前記教師信号に基づき、物体検出ネットワークのパラメータを更新する学習部を備える、モデル生成装置。
　少なくとも前記教師信号に基づき、前記検出の結果に対し評価を行う評価部
　をさらに備え、
　前記学習部が、前記評価に基づき、前記物体検出ネットワークのパラメータを更新する
　請求項９に記載のモデル生成装置。
　与えられた画像の一部を提案領域として提案する領域提案部と、
　請求項１ないし１０のいずれか一項に記載の教師信号に基づいて学習された物体検出ネットワークを用いて、前記提案領域から、検出対象の検出を試みる物体検出部と、
　前記検出の結果に基づき、前記提案領域および前記検出対象の少なくともいずれかに関する情報を出力する出力部と、
　を備える物体検出装置。
　物体検出ネットワークを用いて、画像の一部である提案領域から、検出対象の検出を試みるステップと、
　前記画像に関するデータに基づき、前記提案領域を前記検出対象に対する正例とすべきか負例とすべきかを判定する正負判定を行うステップと、
　前記正負判定が適格か不適格かを判定する適格性判定を行い、前記適格性判定の結果に基づき、教師信号として用いる正負判定の結果を決定するステップと、
　を含む、教師信号生成方法。
　少なくとも請求項１２の教師信号決定方法で得られた教師信号に基づき、前記物体検出ネットワークのパラメータを更新するステップ
　を備えるモデル生成方法。
　物体検出ネットワークを用いて、画像の一部である提案領域から、検出対象の検出を試みるステップと、
　前記画像に関するデータに基づき、前記提案領域を前記検出対象に対する正例とすべきか負例とすべきかを判定する正負判定を行うステップと、
　前記正負判定が適格か不適格かを判定する適格性判定を行い、前記適格性判定の結果に基づき、教師信号として用いる正負判定の結果を決定するステップと、
　をコンピュータに実行させるためのプログラム。