WO2023017723A1

WO2023017723A1 - 情報処理装置、情報処理システム、情報処理方法、及びプログラム

Info

Publication number: WO2023017723A1
Application number: PCT/JP2022/028516
Authority: WO
Inventors: 智也本條
Original assignee: キヤノン株式会社
Priority date: 2021-08-13
Filing date: 2022-07-22
Publication date: 2023-02-16

Abstract

画像から複数の属性に係る物体検出を行う物体検出部と、物体検出部の検出結果について異なる属性の検出結果の重なりを判定する重なり判定部と、物体検出部による物体検出の検出結果を修正する結果修正部とを有し、結果修正部は、第１の画像から抽出した第２の画像に対する物体検出の検出結果に基づいて、第１の画像に対する物体検出の検出結果を修正する。

Description

情報処理装置、情報処理システム、情報処理方法、及びプログラム

　本発明は、画像から物体を検出する技術に関する。

　近年、監視カメラ等の撮像装置により撮像された画像を用いて物体の検出や追尾、属性の推定等を行う画像解析や、そのような画像解析の結果を用いた物体数の推定が様々なシーンで行われている。物体の検出では、例えば、検出対象の物体の位置及び大きさ、物体の属性、物体の信頼度等を出力する。物体の検出において、一つの物体に対して複数の検出結果が生じる場合がある。それにより、検出結果の信頼性低下や統計データの信頼性低下などにつながるという課題がある。そのような課題に対し、特開２０１８－１８０９４５号公報には、検出処理枠ごとに出力された検出枠の位置及び大きさに基づいて、他の検出枠と重複する重複度合いが閾値以上となる検出枠を、検出枠の性質に応じて統合し最終的な物体検出枠として出力する技術が開示されている。

特開２０１８－１８０９４５号公報

　特開２０１８－１８０９４５号公報に開示された技術では、検出結果の信頼性が低い場合でもその検出結果を使用して検出枠の統合を行い最終的な物体検出枠として出力するため、最終的な物体検出枠の信頼性が低くなってしまうことがある。本発明は、このような事情に鑑みてなされたものであり、画像を用いた物体の検出において、最終的により適切な検出結果を出力できるようにすることを目的とする。

　本発明に係る情報処理装置は、画像から複数の属性に係る物体検出を行う検出手段と、前記検出手段の検出結果について異なる属性の検出結果の重なりを判定する判定手段と、前記検出手段による物体検出の検出結果を修正する修正手段と、を有し、前記修正手段は、第１の画像から抽出した第２の画像に対する物体検出の検出結果に基づいて、前記第１の画像に対する物体検出の検出結果を修正することを特徴とする。

　本発明によれば、画像を用いた物体の検出において、最終的により適切な検出結果を出力することが可能となる。

第１の実施形態による情報処理装置の構成例を示す図である。第１の実施形態による情報処理装置の機能構成例を示す図である。第１の実施形態による物体検出処理を説明するフローチャートである。第１の実施形態による物体検出処理を説明する図である。第１の実施形態による物体検出処理を説明する図である。第１の実施形態による物体検出処理を説明する図である。第１の実施形態による物体検出処理を説明する図である。第１の実施形態による物体検出処理を説明する図である。第１の実施形態による物体検出処理を説明する図である。第１の実施形態による物体検出処理を説明する図である。第１の実施形態による物体検出処理を説明する図である。第２の実施形態による情報処理装置の構成例を示す図である。第２の実施形態による情報処理装置の機能構成例を示す図である。第２の実施形態による物体検出処理を説明するフローチャートである。第２の実施形態による物体検出処理を説明する図である。第２の実施形態による物体検出処理を説明する図である。第２の実施形態による物体検出処理を説明する図である。第２の実施形態による物体検出処理を説明する図である。第２の実施形態による物体検出処理を説明する図である。第３の実施形態による情報処理装置の機能構成例を示す図である。第３の実施形態による物体検出処理を説明するフローチャートである。第３の実施形態による物体検出処理を説明する図である。第３の実施形態による物体検出処理を説明する図である。第３の実施形態による物体検出処理を説明する図である。第４の実施形態による情報処理装置の機能構成例を示す図である。第４の実施形態による物体検出処理を説明するフローチャートである。第４の実施形態による物体検出処理を説明する図である。第４の実施形態による物体検出処理を説明する図である。第４の実施形態による物体検出処理を説明する図である。第４の実施形態による物体検出処理を説明する図である。第４の実施形態による物体検出処理を説明する図である。第４の実施形態による物体検出処理を説明する図である。第４の実施形態による物体検出処理を説明する図である。第４の実施形態による物体検出処理を説明する図である。第４の実施形態による物体検出処理を説明する図である。

　以下、本発明の実施形態を図面に基づいて説明する。

　［第１の実施形態］
　図１は、本実施形態による情報処理装置１００の構成例を示すブロック図である。本実施形態における情報処理装置１００は、監視カメラ等の撮像装置によって撮像された画像から、検出対象の物体の検出を行う物体検出機能を有する。以下では、一例として人物の顔を検出する場合について説明するが、これに限定されるものではなく、画像を解析して所定の物体を検出する任意のシステムに適用することができる。

　本実施形態による情報処理装置１００は、ＣＰＵ１０１、メモリ１０２、通信インターフェース（Ｉ／Ｆ）部１０３、表示部１０４、入力部１０５、及び記憶部１０６を有する。ＣＰＵ１０１、メモリ１０２、通信Ｉ／Ｆ部１０３、表示部１０４、入力部１０５、及び記憶部１０６は、システムバスを介して通信可能に接続されている。なお、本実施形態による情報処理装置１００は、これ以外の構成をさらに有していてもよい。

　ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１０１は、情報処理装置１００の全体の制御を司る。ＣＰＵ１０１は、例えばシステムバスを介して接続される各機能部の動作を制御する。メモリ１０２は、ＣＰＵ１０１が処理に利用するデータ、プログラム等を記憶する。また、メモリ１０２は、ＣＰＵ１０１の主メモリ、ワークエリア等としての機能を有する。ＣＰＵ１０１がメモリ１０２に記憶されたプログラムに基づき処理を実行することにより、後述する図２に示す情報処理装置１００の機能構成及び後述する図３に示すフローチャートの処理が実現される。

　通信Ｉ／Ｆ部１０３は、情報処理装置１００をネットワークに接続するインターフェースである。表示部１０４は、液晶ディスプレイ等の表示部材を有し、ＣＰＵ１０１による処理の結果等を表示する。入力部１０５は、マウス又はボタン等の操作部材を有し、ユーザの操作を情報処理装置１００に入力する。記憶部１０６は、例えば、ＣＰＵ１０１がプログラムに係る処理を行う際に必要な各種データ等を記憶する。また、記憶部１０６は、例えば、ＣＰＵ１０１がプログラムに係る処理を行うことにより得られた各種データ等を記憶する。なお、ＣＰＵ１０１が処理に利用するデータ、プログラム等を記憶部１０６に記憶するようにしてもよい。

　図２は、情報処理装置１００の機能構成例を示すブロック図である。情報処理装置１００は、画像取得部２０１、物体検出部２０２、重なり判定部２０３、画像抽出部２０４、結果修正部２０５、結果出力部２０６、及び記憶部２０７を有する。

　画像取得部２０１は、物体検出を行う対象となる画像を取得する。本実施形態では、物体検出を行う対象となる画像は、通信Ｉ／Ｆ部１０３を通じて外部から取得する。以下では、この画像取得部２０１が取得した、物体検出を行う対象となる画像のデータを単に「入力画像」とも呼ぶ。以下の説明では、入力画像は、一例として水平方向（横方向）の幅が１０８０ピクセルであり、垂直方向（縦方向）の高さが７２０ピクセルである、１０８０×７２０ピクセルのＲＧＢ画像とする。なお、入力画像は、１０８０×７２０ピクセルのＲＧＢ画像に限定されるものではなく、任意の画像を入力画像とすることができ、例えば水平方向の幅や垂直方向の高さが異なっていてもよい。

　物体検出部２０２は、画像から複数の属性（クラス）に係る物体検出を行う。本実施形態では、物体検出部２０２は、画像取得部２０１によって取得された画像から人物の顔を検出する。また、物体検出部２０２は、画像に含まれる「メガネ着用の顔」と「メガネ非着用の顔」とを検出できるように学習が行われた機械学習モデルを用いて、検出結果を出力する。「メガネ着用の顔」と「メガネ非着用の顔」との検出は、例えば下記文献１に記載の技術を適用することで実現できる。
（文献１）Ｊ．Ｒｅｄｍｏｎ，Ａ．Ｆａｒｈａｄｉ，”ＹＯＬＯ９０００：Ｂｅｔｔｅｒ　Ｆａｓｔｅｒ　Ｓｔｒｏｎｇｅｒ”，Ｃｏｍｐｕｔｅｒ　Ｖｉｓｉｏｎ　ａｎｄ　Ｐａｔｔｅｒｎ　Ｒｅｃｏｇｎｉｔｉｏｎ　（ＣＶＰＲ）　２０１６．

　ここで、物体検出部２０２が出力する検出結果は、検出した顔の位置及び大きさ、顔の属性（クラス）、及び検出の信頼度であるとする。顔の位置及び大きさは、例えば顔を囲む矩形枠を規定する座標（例えば、矩形の左上座標（ｘ１，ｙ１）及び右下座標（ｘ２，ｙ２））により出力される。また、顔の属性は、メガネ着用の顔であるか又はメガネ非着用の顔であるかを示す。また、検出の信頼度は、例えば、信頼度が最も低い場合を０とし、信頼度が最も高い場合を１として、０～１の実数で出力される。以下では、顔を囲む矩形枠、顔の属性、及び検出の信頼度のそれぞれを、単に、「検出枠」、「属性」、「信頼度」とも呼ぶ。なお、検出結果の出力方法は、前述した例に限定されるものではなく、検出した顔の位置及び大きさ、顔の属性、及び検出の信頼度がそれぞれ認識できればよい。

　重なり判定部２０３は、物体検出部２０２によって得られた検出結果について異なる属性の検出結果の重なりを判定する。重なり判定部２０３は、物体検出部２０２によって得られた全検出結果のうち、任意の２つの検出枠を組として、組毎に検出枠の重なり率を算出する。重なり判定部２０３は、算出した重なり率が閾値以上である、すなわち検出枠の領域が所定の割合以上重なった検出枠の組があれば重なりありと判定し、その検出結果の組を出力する。本実施形態では、重なり率は、ＩｏＵ（Ｉｎｔｅｒｓｅｃｔｉｏｎ　ｏｖｅｒ　Ｕｎｉｏｎ）で計算するものとし、閾値は一例として０．５とする。つまり、２つの検出枠の領域の共通部分を領域の和集合で割ったときの商が０．５以上であれば重なり判定部２０３は重なりありと判定する。閾値以上重なった検出枠の組がない場合には、重なり判定部２０３は、重なりなしと判定する。

　画像抽出部２０４は、重なり判定部２０３による判定結果に基づき、入力画像と重なり判定部２０３により重なりありと判定された検出結果の組とを用いて、入力画像から指定された領域を抽出する。画像抽出部２０４は、抽出した領域の画像（以下、「抽出画像」とも呼ぶ）と、入力画像に対する抽出する領域の左上の座標を出力する。本実施形態では、抽出する領域の左上座標を（ｘ１－（（ｘ２－ｘ１）／１０），ｙ１－（（ｙ２－ｙ１）／１０））、右下座標を（ｘ２＋（（ｘ２－ｘ１）／１０），ｙ２＋（（ｙ２－ｙ１）／１０））とし、検出枠の和集合に対してマージンを取って抽出する。画像抽出部２０４は、抽出画像と、抽出する領域の左上座標（ｘ１－（（ｘ２－ｘ１）／１０），ｙ１－（（ｙ２－ｙ１）／１０））とを出力する。ここで、（ｘ１，ｙ１）は２つの検出枠の和集合を包含する矩形領域の左上座標であり、（ｘ２，ｙ２）は２つの検出枠の和集合を包含する矩形領域の右下座標である。なお、抽出する領域が入力画像の範囲を超えた領域については、例えば白色で塗りつぶすものとする。

　結果修正部２０５は、物体検出部２０２による抽出画像に対する検出結果を、抽出画像に対する検出結果の数に応じて入力画像の検出結果に反映する。結果修正部２０５は、まず入力画像の検出結果のうち、抽出した領域を算出した際に使用された検出結果を削除する。次に、結果修正部２０５は、抽出画像に対する検出結果の数が１つである場合、抽出画像で得られた検出結果に置き換える。また、結果修正部２０５は、抽出画像に対する検出結果の数が２つ以上である場合、検出枠が２つの検出枠の和集合を包含する矩形領域であって、顔の属性が「メガネ着用不明」、検出の信頼度が１である検出結果を生成して置き換える。

　結果出力部２０６は、入力画像に検出結果を重畳した画像を出力する。本実施形態では、結果出力部２０６は、例えば、検出結果に基づいて属性に応じた検出枠を入力画像に重畳した画像を出力する。記憶部２０７は、情報処理装置１００の各機能部２０１～２０６での処理に用いるデータや処理結果として得られるデータ等を記憶する。

　次に、図３及び図４Ａ～図４Ｈを参照して、情報処理装置１００が行う処理について説明する。図３は、第１の実施形態による物体検出処理を説明するフローチャートである。図４Ａ～図４Ｈは、第１の実施形態による物体検出処理を説明する図である。

　ステップＳ３０１において、画像取得部２０１は、入力画像（物体検出を行う対象となる画像）を取得する。入力画像４１０の一例を図４Ａに示す。本実施形態では、入力画像４１０は、前述したように１０８０×７２０ピクセルの画像であるとする。

　ステップＳ３０２において、物体検出部２０２は、入力画像を用いて検出対象である人物の顔を検出する顔検出処理を行い、入力画像から「メガネ着用の顔」と「メガネ非着用の顔」とを検出する。入力画像に対する顔検出処理の検出結果の例を図４Ｂに示し、検出結果を入力画像に重畳した画像の例を図４Ｃに示す。図４Ｂに示した例では、検出結果として４つの検出結果Ａ～Ｄが得られ、それぞれ検出枠の左上座標（ｘ１，ｙ１）及び右下座標（ｘ２，ｙ２）と、属性（「メガネ着用」又は「メガネ非着用」）と、信頼度とが出力される。また、図４Ｃに示した例では、入力画像４１０に対して検出結果Ａ～Ｄに対応する検出枠４１１～４１４が重畳して表示されている。この例では、メガネ着用の顔として検出された検出結果Ａ、Ｄに対応する検出枠４１１、４１４が破線の矩形枠で表示され、メガネ非着用の顔として検出された検出結果Ｂ、Ｃに対応する検出枠４１２、４１３が実線の矩形枠で表示されている。

　ステップＳ３０３において、重なり判定部２０３は、入力画像に対する検出結果の内の任意の２つの検出結果を組として、入力画像に対する検出結果の各組合せについて検出枠の重なり率を計算する。本例では、検出結果Ａの検出枠の左上座標が（２０，２００）であり、右下座標が（３２０，５００）である。また、検出結果Ｂの検出枠の左上座標が（４０，２１０）であり、右下座標が（３４０，５１０）である。したがって、検出結果Ａと検出結果Ｂの検出枠の重なり率は、
　　ＩｏＵ（Ａ，Ｂ）＝（（３２０－４０）×（５００－２１０））÷（３００×３００＋３００×３００－（（３２０－４０）×（５００－２１０）））≒０．８２
　となる。その他の組み合わせにおいて、検出枠の重なり率は０となる。

　ステップＳ３０４において、重なり判定部２０３は、ステップＳ３０３で算出した重なり率が閾値以上となった検出結果の組み合わせがあるか否かを判定する。重なり判定部２０３は、検出枠の重なり率が閾値以上となった検出結果の組み合わせがあると判定した場合（ステップＳ３０４でＹＥＳ）、重なり率が閾値以上となった検出結果の組み合わせを出力し、ステップＳ３０５に移行する。一方、重なり判定部２０３は、検出枠の重なり率が閾値以上となった検出結果の組み合わせがないと判定した場合（ステップＳ３０４でＮＯ）、ステップＳ３０９に移行する。本実施形態の例では、重なり率の閾値は０．５であるとする。重なり判定部２０３は、ステップＳ３０３において算出した重なり率が０．５以上となった検出結果の組が存在する場合にはステップＳ３０５に移行し、存在しない場合にはステップＳ３０９に移行する。本例では、検出結果Ａと検出結果Ｂの検出枠の重なり率が０．５以上であるので、重なり判定部２０３は、重なり率が０．５以上となった組み合わせ（Ａ，Ｂ）を出力し、ステップＳ３０５に移行する。

　ステップＳ３０５において、画像抽出部２０４は、入力画像とステップＳ３０４で出力された検出結果の組を用いて、入力画像から指定された領域を抽出し、抽出画像と、入力画像に対する抽出する領域の左上の座標を出力する。詳細には、まず、画像抽出部２０４は、検出結果の組から２つの検出枠の和集合に対する外接矩形を算出する。本例では、組み合わせ（Ａ，Ｂ）について外接矩形を算出する。図４Ｂに示したように、検出結果Ａの検出枠の左上座標が（２０，２００）、右下座標が（３２０，５００）であり、検出結果Ｂの検出枠の左上座標が（４０，２１０）、右下座標が（３４０，５１０）である。したがって、組み合わせ（Ａ，Ｂ）の外接矩形は、左上座標が（２０，２００）となり、右下座標が（３４０，５１０）となる。次に、画像抽出部２０４は、算出した外接矩形に基づいて、抽出する領域の左上座標及び右下座標を算出する。本例では、組み合わせ（Ａ，Ｂ）の外接矩形は、左上座標が（２０，２００）、右下座標が（３４０，５１０）である。したがって、抽出する領域の左上座標は、（２０－（（３４０－２０）／１０），（２００－（（５１０－２００）／１０）＝（－１２，１６９）となる。また、抽出する領域の右下座標は、（３４０＋（（３４０－２０）／１０），５１０＋（（５１０－２００）／１０））＝（３７２，５４１）となる。抽出する領域の左上座標が（－１２，１６９）となり、右下座標が（３７２，５４１）となるので、抽出画像は、水平方向の幅が３８４ピクセルとなり、垂直方向の高さが３７２ピクセルとなる。これをもとに抽出した抽出画像４２０の例を図４Ｄに示す。

　ステップＳ３０６において、物体検出部２０２は、ステップＳ３０５で抽出した抽出画像を用いて顔検出処理を行い、抽出画像から「メガネ着用の顔」と「メガネ非着用の顔」とを検出する。抽出画像に対する顔検出処理の検出結果の例を図４Ｅに示し、検出結果を抽出画像に重畳した画像の例を図４Ｆに示す。図４Ｅに示した例では、検出結果Ｅが得られ、検出枠の左上座標（ｘ１，ｙ１）及び右下座標（ｘ２，ｙ２）と、属性と、信頼度とが出力される。また、図４Ｆに示した例では、メガネ着用の顔として検出された検出結果Ｅに対応する検出枠４２１が破線の矩形枠で抽出画像４２０に重畳して表示されている。

　ステップＳ３０７において、結果修正部２０５は、ステップＳ３０６で得られた抽出画像に対する検出結果を、入力画像の検出結果に反映する。本例では、抽出画像の検出結果（ここでは検出結果Ｅ）が１つであるため、結果修正部２０５は、抽出画像に対応づいた検出結果Ａ及び検出結果Ｂを削除し、抽出画像の検出結果Ｅで置き換える。このとき、検出結果Ｅの検出枠の座標を、入力画像に対する抽出する領域の左上座標（－１２，１６９）を基準として、入力画像における座標に変換する。抽出画像における検出結果Ｅの検出枠の左上座標が（４２，３６）であり、右下座標が（３４２，３３６）であるので、入力画像における検出結果Ｅの検出枠の左上座標は（３０，２０５）であり、右下座標は（３３０，５０５）である。変換した結果を含む入力画像の最終結果の例を図４Ｇに示す。

　ステップＳ３０８において、結果出力部２０６は、検出枠の重なり率が閾値以上となった検出結果のすべての組み合わせについて処理を完了したか否かを判定する。結果出力部２０６は、重なり率が閾値以上となった検出結果のすべての組み合わせについて処理が完了したと判定した場合（ステップＳ３０８でＹＥＳ）、ステップＳ３０９に移行する。一方、結果出力部２０６は、重なり率が閾値以上となった検出結果の組み合わせにおいて未処理の組み合わせがあると判定した場合（ステップＳ３０８でＮＯ）、ステップＳ３０５に移行し、未処理の組み合わせについてステップＳ３０５以降の処理を実行する。

　ステップＳ３０９において、結果出力部２０６は、図４Ｇに示したような入力画像に対する最終の検出結果を入力画像に重畳した画像を出力して、処理を終了し次の入力画像の処理に移行する。入力画像に対する最終の検出結果を入力画像に重畳した画像の例を図４Ｈに示す。図４Ｈに示した例では、入力画像４１０に対して検出結果Ｃ、Ｄ、Ｅに対応する検出枠４１３、４１４、４２１が重畳して表示されている。この例では、メガネ着用の顔として検出された検出結果Ｄ、Ｅに対応する検出枠４１４、４２１が破線の矩形枠で表示され、メガネ非着用の顔として検出された検出結果Ｃに対応する検出枠４１３が実線の矩形枠で表示されている。

　第１の実施形態によれば、入力画像に対する物体検出において、異なる属性の検出結果の重なりが生じた場合に、重なりが生じた領域を抽出した抽出画像に対して物体検出を行い、抽出画像に対する検出結果を用いて入力画像の検出結果を修正する。これにより、入力画像に対する物体検出の検出結果として、最終的により適切な検出結果を出力することができる。

　（変形例）
　なお、物体検出部２０２において、検出対象とする物体の種類や物体検出を行う画像のサイズは任意でよい。また、検出したい物体を検出することができる技術であれば、物体検出部２０２は、文献１に開示されている技術に限らず、様々な技術を適用可能である。また、重なり判定部２０３において、検出対象の種類が３種類以上であった場合には、任意の２種類の検出結果の組み合わせに対して、前述した重なりの判定手法を適用可能である。

　結果修正部２０５は、抽出画像に対する検出結果の数が２つ以上の場合、前述した処理に限らず、以下のような他の処理を行うようにしても良い。例えば、顔の属性に対しては検出の信頼度が最も高い検出結果の顔の属性を用いても良いし、また、検出結果そのもの（検出枠、属性、及び信頼度）を検出の信頼度が最も高い検出結果そのもので置き換えても良い。このとき、入力画像に対する検出結果と抽出画像に対する検出結果との中で最も信頼度が高いものを選択しても良い。

　さらに、画像抽出部２０４において抽出する領域は、検出枠の和集合が含まれる矩形領域であれば任意で良い。例えば、検出枠の和集合に対する外接矩形に対するマージンを０としてもよいし、物体検出部２０２の仕様に基づいて所定のマージンを設定しても良い。例えば、入力画像の横幅に対して物体検出部２０２での検出精度が最も向上する物体の横幅の割合が５０％であった場合、検出枠の和集合が含まれる矩形領域の幅が入力画像の幅の５０％となるようにマージンを設定しても良い。また、画像抽出部２０４は、入力画像から指定された領域を抽出するだけでなく、抽出画像に対して画像を左右反転させたり、画像をｘ方向又はｙ方向にシフトさせたり、輝度や色相等の画素値を変更させたりするようにしても良い。

　また、入力画像の検出結果で重なりが生じた場合に２回目の検出を行わず（すなわちステップＳ３０５及びステップＳ３０６の処理をスキップする）、結果修正部２０５が直接検出結果を生成し、重なりが生じた検出結果と置き換えてもよい。例えば、新しい検出枠は、重なった検出枠の和集合を包含する矩形領域とし、顔の属性は結果不明を示す「メガネ着用不明」とし、検出の信頼度は１とするような検出結果を生成して、重なりが生じた検出結果と置き換えてもよい。さらに、抽出画像に対する検出結果が空の場合には、同様に結果修正部２０５により直接検出結果を生成し、重なりが生じた検出結果と置き換えてもよい。

　［第２の実施形態］
　前述した第１の実施形態では１つの情報処理装置によって物体検出処理を行っていたが、第２の実施形態では複数の情報処理装置によって物体検出処理を行う場合について説明する。以下の第２の実施形態に係る説明において、第１の実施形態と同様の点については説明を省略する。

　図５は、本実施形態による情報処理装置１００及び情報処理装置５００を有する情報処理システムの構成例を示すブロック図である。図５において、図１に示した構成要素と同一の機能を有する構成要素には同一の符号を付し、重複する説明は省略する。本実施形態における情報処理装置１００及び情報処理装置５００は、監視カメラ等の撮像装置によって撮像された画像から、検出対象の物体の検出を行う物体検出機能を有する。以下では、一例として人物の顔を検出する場合について説明するが、これに限定されるものではなく、画像を解析して所定の物体を検出する任意のシステムに適用することができる。

　情報処理装置１００と情報処理装置５００とは、ネットワーク５１０を通じて接続されている。情報処理装置５００は、ＣＰＵ５０１、メモリ５０２、通信Ｉ／Ｆ部５０３、及び記憶部５０４を有する。ＣＰＵ５０１、メモリ５０２、通信Ｉ／Ｆ部５０３、及び記憶部５０４は、システムバスを介して通信可能に接続されている。なお、本実施形態による情報処理装置５００は、これ以外の構成をさらに有していてもよい。情報処理装置１００は第１の情報処理装置の一例であり、情報処理装置５００は第２の情報処理装置の一例である。また、通信Ｉ／Ｆ部１０３は第１の通信手段の一例であり、通信Ｉ／Ｆ部５０３は第２の通信手段の一例である。

　ＣＰＵ５０１は、情報処理装置５００の全体の制御を司る。ＣＰＵ５０１は、例えばシステムバスを介して接続される各機能部の動作を制御する。メモリ５０２は、ＣＰＵ５０１が処理に利用するデータ、プログラム等を記憶する。また、メモリ５０２は、ＣＰＵ５０１の主メモリ、ワークエリア等としての機能を有する。ＣＰＵ５０１がメモリ５０２に記憶されたプログラムに基づき処理を実行することにより、後述する図６に示す情報処理装置５００の機能構成及び後述する図７に示すフローチャートの処理の一部が実現される。

　通信Ｉ／Ｆ部５０３は、情報処理装置５００をネットワーク５１０に接続するインターフェースである。記憶部５０４は、例えば、ＣＰＵ５０１がプログラムに係る処理を行う際に必要な各種データ等を記憶する。また、記憶部５０４は、例えば、ＣＰＵ５０１がプログラムに係る処理を行うことにより得られた各種データ等を記憶する。なお、ＣＰＵ５０１が処理に利用するデータ、プログラム等を記憶部５０４に記憶するようにしてもよい。

　図６は、情報処理装置５００の機能構成例を示すブロック図である。情報処理装置５００は、画像取得部６０１、物体検出部６０２、画像加工部６０３、結果出力部６０４、及び記憶部６０５を有する。

　画像取得部６０１は、物体検出を行う対象となる画像を取得する。本実施形態では、情報処理装置５００において物体検出を行う対象となる画像は抽出画像であり、画像取得部６０１は、ネットワーク５１０経由で通信Ｉ／Ｆ部６０３を通じて情報処理装置１００から抽出画像を取得する。

　物体検出部６０２は、画像から複数の属性（クラス）に係る物体検出を行う。物体検出部６０２は、物体検出部２０２と同様にして、抽出画像に含まれる「メガネ着用の顔」と「メガネ非着用の顔」とを検出する。本実施形態では、物体検出部６０２は、一例として水平方向（横方向）の幅及び垂直方向（縦方向）の高さがともに４４８ピクセルである４４８×４４８ピクセルのＲＧＢ画像から検出を行うものとする。その他は物体検出部２０２と同様である。

　画像加工部６０３は、抽出画像を指定サイズに変形し、変形後の画像と、縦及び横それぞれの変形倍率を出力する。なお、画像を変形させる際のアルゴリズムは一般的に知られているバイキュービック法等の任意の手法を用いることができる。また、画像を拡大する際には超解像技術を用いてもよい。本実施形態の例では、画像加工部６０３は、抽出画像を４４８×４４８ピクセルの画像に変形する。この場合、抽出画像の幅がｗピクセル、高さがｈピクセルであれば、縦の変形倍率は（４４８／ｗ）となり、横の変形倍率は（４４８／ｈ）となる。

　結果出力部６０４は、画像加工部６０３から出力される変形倍率を用いて、物体検出部６０２から出力される検出結果の検出枠を変形前の抽出画像における座標に補正して出力する。本実施形態の例では、左上座標（ｘ１，ｙ１）と右下座標（ｘ２，ｙ２）の検出枠に対し、縦及び横の変形倍率がそれぞれｗｍ、ｈｍである場合、補正された左上座標は（ｘ１／ｗｍ，ｙ１／ｈｍ）となり、右下座標は（ｘ２／ｗｍ，ｙ２／ｈｍ）となる。記憶部６０５は、情報処理装置５００の各機能部６０１～６０４での処理に用いるデータや処理結果として得られるデータ等を記憶する。

　次に、図３、図７及び図８Ａ～図８Ｅを参照して、情報処理装置１００、５００が行う処理について説明する。図７は、第２の実施形態による物体検出処理を説明するフローチャートである。図８Ａ～図８Ｅは、図７に示すフローチャートの処理を説明する図である。

　第２の実施形態による物体検出処理において、図３に示したステップＳ３０１～ステップＳ３０６の処理、及びステップＳ３０８～Ｓ３０９の処理は、第１の実施形態による物体検出処理と同様である。第２の実施形態による物体検出処理は、図３に示したステップＳ３０７での処理が第１の実施形態による物体検出処理と異なる。図３に示したステップＳ３０７の処理に対応する処理の、第２の実施形態における詳細な処理の流れを、図７を参照して説明する。

　ステップＳ７０１において、情報処理装置１００の結果修正部２０５は、ステップＳ３０６で得られた抽出画像に対する検出結果の数が２つ以上であるか否かを判定する。結果修正部２０５は、抽出画像に対する検出結果の数が２つ以上であると判定した場合（ステップＳ７０１でＹＥＳ）にはステップＳ７０２に移行し、２つ以上でないと判定した場合（ステップＳ７０１でＮＯ）にはステップＳ７０６に移行する。

　ステップＳ７０２において、情報処理装置５００の画像取得部６０１は、情報処装置１００から抽出画像を受信する。受信した抽出画像７１０の一例を図８Ａに示す。ここで、本例において抽出画像７１０は、図４Ｄに示した第１の実施形態における抽出画像４２０と同様とし、水平方向の幅が３８４ピクセルであり、垂直方向の高さが３７２ピクセルの画像であるとする。

　ステップＳ７０３において、情報処理装置５００の画像加工部６０３は、ステップＳ７０２で受信した抽出画像を所定のサイズに変形し、変形後の画像と、縦及び横それぞれの変形倍率を出力する。本例では、画像加工部６０３は、ステップＳ７０２で受信した３８４×３７２ピクセルの抽出画像を４４８×４４８ピクセルの画像に変形する。したがって、縦方向の変形倍率は（４４８／３８４）となり、横方向の変形倍率は（４４８／３７２）となる。

　ステップＳ７０４において、情報処理装置５００の物体検出部６０２は、変形後の抽出画像を用いて顔検出処理を行い、変形後の抽出画像から「メガネ着用の顔」と「メガネ非着用の顔」とを検出する。変形後の抽出画像に対する顔検出処理の検出結果の例を図８Ｂに示し、変形後の抽出画像に検出結果を重畳した画像の例を図８Ｃに示す。図８Ｂに示した例では、１つの検出結果Ｆが得られ、検出枠の左上座標（ｘ１，ｙ１）及び右下座標（ｘ２，ｙ２）と、属性と、信頼度とが出力される。なお、図８Ｂにおける検出枠の座標は、変形後の抽出画像における座標である。また、図８Ｃに示した例では、メガネ着用の顔として検出された検出結果Ｆに対応する検出枠７２１が破線の矩形枠で変形後の抽出画像７２０に重畳して表示されている。

　ステップＳ７０５において、情報処理装置５００の結果出力部６０６は、縦横の変形倍率を用いて、ステップＳ７０４で出力された検出結果の検出枠の座標を変形前の抽出画像における座標を補正して出力する。すなわち、結果出力部６０６は、４４８×４４８ピクセルの変形後の画像における検出枠の座標を、縦横の変形倍率４４８／３８４及び４４８／３７２を用いて、３８４×３７２ピクセルの変形前の画像における座標に変換し、情報処理装置１００に出力する。変換した検出結果の例を図８Ｄに示し、検出結果を３８４×３７２ピクセルの抽出画像に重畳した画像の例を図８Ｅに示す。図８Ｄに示した例では、検出結果Ｆの検出枠の左上座標（ｘ１，ｙ１）及び右下座標（ｘ２，ｙ２）がそれぞれ変形倍率に応じて変換されている。また、図８Ｅに示した例では、メガネ着用の顔として検出された検出結果Ｆに対応する検出枠７１１が破線の矩形枠で変形前の抽出画像７１０に重畳して表示されている。

　ステップＳ７０６において、情報処理装置１００の結果修正部２０５は、ステップＳ７０５で情報処理装置５００の結果出力部６０４から出力された抽出画像に対する検出結果を、入力画像の検出結果に反映する。本例では、抽出画像の検出結果（ここでは検出結果Ｆ）が１つであるため、結果修正部２０５は、抽出画像に対応づいた検出結果Ａ及び検出結果Ｂを削除し、抽出画像の検出結果Ｆで置き換える。

　第２の実施形態によれば、物体検出において異なる属性の検出結果の重なりが生じた場合に、重なりが生じた領域の画像に対して物体検出を行い、その検出結果を用いて入力画像の検出結果を修正する。これにより、入力画像に対する物体検出の検出結果として、最終的により適切な検出結果を出力することができる。

　（変形例）
　なお、本実施形態では２つの情報処理装置１００、５００がネットワーク５１０を通じて接続されている構成としている。しかし、これに限定されるものではなく、例えば情報処理装置１００がカメラなどのエッジデバイスで、情報処理装置５００がエッジデバイスの外部端子（ＵＳＢ等）に接続されたデバイスであっても良い。また、情報処理装置１００がＰＣ（パーソナル・コンピュータ）で情報処理装置５００がクラウド上に存在していても良い。

　また、物体検出部６０２は、物体検出部２０２と同様に「メガネ着用の顔」と「メガネ非着用の顔」とを検出するようにしているが、例えば「メガネ着用の顔」と「メガネ非着用の顔」の内の一方だけを検出する検出器であってもよい。例えば「メガネ着用の顔」だけを検出する検出器とした場合、「メガネ着用の顔」が検出されれば検出結果を「メガネ着用の顔」とし、「メガネ着用の顔」が検出されなければ検出結果を「メガネ非着用の顔」とすることができる。また他にも、顔を検出する検出器と、メガネの着用の有無を判別する判別器の２種類に分かれていても良い。

　［第３の実施形態］
　前述した実施形態では単一の入力画像を用いて処理を行っていたが、第３の実施形態では撮影タイミングの異なる２つの入力画像を用いて処理を行う場合について説明する。以下の第３の実施形態に係る説明において、第１の実施形態と同様の点については説明を省略する。本実施形態による情報処理装置１００の構成は、図１に示した第１の実施形態における構成例と同様である。

　図９は、情報処理装置１００の機能構成例を示すブロック図である。図９において、図２に示した構成要素と同一の機能を有する構成要素には同一の符号を付し、重複する説明は省略する。情報処理装置１００は、画像取得部２０１、物体検出部２０２、重なり判定部２０３、画像抽出部９０４、結果修正部９０５、結果出力部２０６、記憶部２０７、及び対応付け部９０８を有する。

　画像抽出部９０４は、画像抽出部２０４と同様に、重なり判定部２０３による判定結果に基づき、入力画像と重なり判定部２０３により重なりありと判定された検出結果の組とを用いて、入力画像から指定された領域を抽出する。画像抽出部９０４は、抽出画像と、入力画像に対する抽出する領域の左上の座標を出力する。画像抽出部９０４は、さらに、抽出画像に対する検出結果の数が２つ以上である場合、検出枠の和集合を新たに検出枠とした検出結果を出力する。このとき、顔の属性が「メガネ着用不明」、検出の信頼度が１とする。なお、検出枠の座標は、第１の実施形態と同様の方法で、入力画像における座標に変換する。

　対応付け部９０８は、過去の検出結果と現在の検出結果との対応付けを行う。対応付け部９０８は、検出結果（以下、「今回の検出結果」あるいは「今回の検出枠」とも呼ぶ）を、保持している追尾情報と対応付けて追尾情報を更新し、検出結果の属性を追尾情報に基づいて更新する。追尾情報として、追尾ＩＤと追尾ＩＤに対応する検出枠の座標（左上座標及び右下座標）、属性、及び属性の統計情報が記憶される。ここで、属性の統計情報とは、過去における既定回数分の属性の履歴（登場回数）を指す。本実施形態の例では、既定回数を２回とし、例えば前回の属性がメガネ着用であり、今回の属性がメガネ非着用であった場合、属性の統計情報として、メガネ着用が１、メガネ非着用が１となる。属性がメガネ着用不明である場合、属性の統計情報には追加しない。

　また、対応付け部９０８は、過去の検出結果の属性に係る情報に基づいて、今回（現在）の検出結果の属性を更新する。具体的には、対応付け部９０８は、属性の統計情報に基づいて、その時点で最も出現頻度の高い（出現回数の多い）属性をその検出結果の属性として更新する。出現頻度が等しい場合には、今回の検出結果での属性が優先される。今回の検出結果と保持している追尾情報と対応付けについては、例えば、各追尾ＩＤに対応する検出枠の座標と、今回の検出結果の検出枠の座標とに基づいて行う。本実施形態では、各追尾ＩＤに対応する検出枠の中心座標と、今回の任意の検出枠の中心座標との距離を全組み合わせについて計算し、距離が閾値（本実施形態では１００とする）以下かつ最も距離が短い追尾ＩＤと今回の検出結果の組み合わせを対応付ける。また、追尾ＩＤに対応する座標を今回の検出枠の中心座標に更新する。今回の検出結果と対応づかなかった追尾ＩＤは削除される。追尾ＩＤと対応づかなかった今回の検出結果が存在する場合、新たに追尾ＩＤが生成されて追尾情報に追加される。

　結果修正部９０５は、抽出画像に対する検出結果を入力画像の検出結果に反映する。結果修正部９０５は、入力画像の検出結果のうち、抽出した領域を算出した際に使用された検出結果を削除し、抽出画像で得られた検出結果に置き換える。

　次に、図３、図１０及び図１１Ａ～図１１Ｃを参照して、情報処理装置１００が行う物体検出処理について説明する。図１０は、第３の実施形態による物体検出処理を説明するフローチャートである。図１１Ａ～図１１Ｃは、図１０に示すフローチャートの処理を説明する図である。

　第３の実施形態による物体検出処理において、図３に示したステップＳ３０１～ステップＳ３０６の処理、及びステップＳ３０８～Ｓ３０９の処理は、第１の実施形態による物体検出処理と同様である。第３の実施形態による物体検出処理は、図３に示したステップＳ３０７での処理が第１の実施形態による物体検出処理と異なる。図３に示したステップＳ３０７の処理に対応する処理の、第３の実施形態における詳細な処理の流れを、図１０を参照して説明する。

　ステップＳ１００１において、結果修正部９０５は、ステップＳ３０６で得られた抽出画像に対する検出結果の数が２つ以上であるか否かを判定する。結果修正部９０５は、抽出画像に対する検出結果の数が２つ以上であると判定した場合（ステップＳ１００１でＹＥＳ）にはステップＳ１００２に移行し、２つ以上でないと判定した場合（ステップＳ１００１でＮＯ）にはステップＳ１００５に移行する。この例では、入力画像に対する検出結果が図４Ｂに示したようになっており、抽出画像に対する検出結果として図１１Ａに示すように２つの検出結果（検出結果Ｇ及び検出結果Ｈ）が存在する場合を想定する。なお、図１１Ａにおいて、検出枠の座標は、抽出画像の座標系での座標である。

　ステップＳ１００２において、画像抽出部９０４は、ステップＳ３０５の処理と同様にして、ステップＳ３０４で出力された検出結果の組から２つの検出枠の和集合に対する外接矩形を算出し、算出した外接矩形を検出枠とした検出結果を出力する。本実施形態の例では、画像抽出部９０４は、検出結果Ｇ、Ｈの組から２つの検出枠の和集合に対する外接矩形を算出し、算出した外接矩形を検出枠とした検出結果Ｉを出力する。図１１Ａに示した検出結果より、抽出画像の座標系において２つの検出結果の検出枠の和集合に対する外接矩形は、左上座標が（３２，３１）となり、右下座標が（３５２，３４１）となる。抽出画像の座標系から入力画像の座標系へ変換することにより、入力画像の座標系において２つの検出結果の検出枠の和集合に対する外接矩形は、図１１Ｂに示すように左上座標が（２０，２００）となり、右下座標が（３４０，５１０）となる。

　ステップＳ１００３において、対応付け部９０８は、ステップＳ１００２で画像抽出部９０４から出力された検出結果と、保持している追尾情報とを対応付ける。本実施形態の例では、対応付け部９０８は、ステップＳ１００２で出力された検出結果Ｉと、保持している追尾情報とを対応付ける。図１１Ｃに示すような追尾情報を保持しているものとして、検出結果Ｉとの対応付けを一例として説明する。検出結果Ｉの検出枠の中心座標は（１８０，３５５）であり、追尾ＩＤ１の検出枠の中心座標は（１７０，３５０）である。したがって、検出結果Ｉと追尾ＩＤ１との検出枠の中心座標間の距離Ｌは、
　　Ｌ＝（（１８０－１７０）＾２＋（３５５－３５０）＾２）＾（１／２）≒１１．２となり、閾値である１００よりも小さいため、対応付けの候補となる。また、検出結果Ｉと追尾ＩＤ２及び追尾ＩＤ３とについても同様に計算を行うと中心座標間の距離は１００よりも大きくなるため、対応付けの候補とならない。この結果、検出結果Ｉと追尾ＩＤ１とが対応付けられる。

　ステップＳ１００４において、対応付け部９０７は、追尾情報に基づいて検出結果の属性を更新する。検出結果Ｉは追尾ＩＤ１と対応づいており、追尾ＩＤの属性の統計情報（図１１Ｃ）よりメガネ着用の回数がメガネ非着用の回数より大きいことから、検出結果Ｉの属性はメガネ着用となる。

　ステップＳ１００５において、結果修正部９０５は、第１の実施形態と同様に、抽出画像に対する検出結果を、入力画像の検出結果に反映する。ここでは、結果修正部２０５は、検出結果Ａ及び検出結果Ｂを削除し、検出結果Ｉに置き換える。

　第３の実施形態によれば、画像を用いた物体検出において異なる属性の検出結果の重なりが生じても、最終的により適切な検出結果を出力することができる。

　（変形例）
　なお、対応付け部９０８における過去の入力画像の検出結果と現在の入力画像の検出結果との対応付け方法は、物体追尾処理で一般的に用いられる手法が適用できる。また、本実施形態では２回分の属性を統計情報として保持するようにしているが、それ以上の回数分の属性を統計情報として保持するようにしても本実施形態と同様にして処理が可能である。また、本実施形態では属性の統計情報を既定回数分の属性の履歴（登場回数）としているが、登場回数ではなく信頼度の累積としてもよい。

　［第４の実施形態］
　前述した第１の実施形態では、１回目の顔検出に使用した画像から抽出画像を生成したが、第４の実施形態では１回目の顔検出に使用した画像の元となる画像から抽出画像を生成する場合について説明する。以下の第４の実施形態に係る説明において、第１の実施形態と同様の点については説明を省略する。本実施形態による情報処理装置１００の構成は、図１に示した第１の実施形態における構成例と同様である。

　図１２は、情報処理装置１００の機能構成例を示すブロック図である。図１２において、図２に示した構成要素と同一の機能を有する構成要素には同一の符号を付し、重複する説明は省略する。情報処理装置１００は、画像取得部１２０１、物体検出部１２０２、重なり判定部２０３、画像抽出部２０４、結果修正部２０５、結果出力部２０６、記憶部２０７、及び画像加工部１２０８を有する。

　画像取得部１２０１は、物体検出を行う対象となる画像（入力画像）を取得する。また、画像取得部１２０１は、取得した画像から所定の範囲を抽出する。本実施形態では、物体検出を行う対象となる画像（入力画像）は、通信Ｉ／Ｆ部１０３を通じて外部から取得するものとし、一例として１０８０×７２０ピクセルのＲＧＢ画像とする。また、画像取得部１２０１は、その入力画像から一例として左上座標（３０，０）、右下座標（７５０，７２０）の範囲を抽出するものとする。

　物体検出部１２０２は、第１の実施形態における物体検出部２０２と同様に、画像から複数の属性（クラス）に係る物体検出を行う。本実施形態では、物体検出部１２０２は、一例として水平方向（横方向）の幅及び垂直方向（縦方向）の高さがともに２２４ピクセルである、２２４×２２４ピクセルのＲＧＢ画像から検出を行うものとする。その他は第１の実施形態における物体検出部２０２と同様である。

　画像加工部１２０８は、画像を指定サイズに変形し、変形後の画像と、縦及び横それぞれの変形倍率を出力する。なお、画像を変形させる際のアルゴリズムは一般的に知られているバイキュービック法等の任意の手法を用いることができる。また、画像を拡大する際には超解像技術を用いてもよい。本実施形態の例では、画像加工部１２０８は、画像を２２４×２２４ピクセルの画像に変形する。この場合、変形前の画像の幅がｗピクセル、高さがｈピクセルであれば、縦の変形倍率は（２２４／ｗ）となり、横の変形倍率は（２２４／ｈ）となる。

　結果修正部２０５は、物体検出部１２０２による抽出画像に対する検出結果を、抽出画像に対する検出結果の数に応じて入力画像の検出結果に反映する。その他は第１の実施形態における結果修正部２０５と同様である。

　次に、図１３及び図１４Ａ～図１４Ｉを参照して、情報処理装置１００が行う処理について説明する。図１３は、第４の実施形態による物体検出処理を説明するフローチャートである。図１４Ａ～図１４Ｉは、第４の実施形態による物体検出処理を説明する図である。

　ステップＳ１３０１において、画像取得部１２０１は、入力画像（物体検出を行う対象となる画像）を取得し、取得した入力画像から左上座標（３０，０）、右下座標（７５０，７２０）の範囲を抽出して７２０×７２０ピクセルの画像を取得する。入力画像１４０１の一例を図１４Ａに示し、入力画像１４０１から抽出した７２０×７２０ピクセルの画像１４０２の一例を図１４Ｂに示す。

　ステップＳ１３０２において、画像加工部１２０８は、ステップＳ１３０１で取得した７２０×７２０ピクセルの画像を２２４×２２４ピクセルの画像（以下、第１の処理対象画像）に変形する。このとき、縦方向の変形倍率と横方向の変形倍率はともに（２２４／７２０）となる。第１の処理対象画像１４０３の一例を図１４Ｃに示す。

　ステップＳ１３０３において、物体検出部１２０２は、図３に示したステップＳ３０２と同様にして、第１の処理対象画像を用いて人物の顔を検出する顔検出処理を行い、第１の処理対象画像から「メガネ着用の顔」と「メガネ非着用の顔」とを検出する。第１の処理対象画像に対する顔検出処理の検出結果の例を図１４Ｄに示す。図１４Ｄに示した例では、３つの検出結果Ａ～Ｃが得られ、それぞれ検出枠の左上座標（ｘ１，ｙ１）及び右下座標（ｘ２，ｙ２）と、属性と、信頼度とが出力される。なお、図１４Ｄにおける検出枠の座標は、第１の処理対象画像における座標である。

　ステップＳ１３０４において、重なり判定部２０３は、第１の処理対象画像に対する検出結果の内の任意の２つの検出結果を組として、第１の処理対象画像に対する検出結果の各組合せについて検出枠の重なり率を計算する。本例では、検出結果Ａの検出枠の左上座標が（０，６２）であり、右下座標が（８５，１５６）である。また、検出結果Ｂの検出枠の左上座標が（０，６５）であり、右下座標が（９１，１５９）である。したがって、検出結果Ａと検出結果Ｂの検出枠の重なり率は、
　　ＩｏＵ（Ａ，Ｂ）＝（（８５－０）×（１５６－６５））÷（（８５－０）×（１５６－６２）＋（９１－０）×（１５９－６５）－（（８５－０）×（１５６－６５）））≒０．８８
　となる。その他の組み合わせにおいて、検出枠の重なり率は０となる。

　ステップＳ１３０５において、重なり判定部２０３は、ステップＳ１３０４で算出した重なり率が閾値以上となった検出結果の組み合わせがあるか否かを判定する。重なり判定部２０３は、検出枠の重なり率が閾値以上となった検出結果の組み合わせがあると判定した場合（ステップＳ１３０５でＹＥＳ）、重なり率が閾値以上となった検出結果の組み合わせを出力し、ステップＳ１３０６に移行する。一方、重なり判定部２０３は、検出枠の重なり率が閾値以上となった検出結果の組み合わせがないと判定した場合（ステップＳ１３０５でＮＯ）、ステップＳ１３１１に移行する。本実施形態の例では、重なり率の閾値は０．５であるとする。重なり判定部２０３は、ステップＳ１３０４において算出した重なり率が０．５以上となった検出結果の組が存在する場合にはステップＳ１３０６に移行し、存在しない場合にはステップＳ１３１１に移行する。本例では、検出結果Ａと検出結果Ｂの検出枠の重なり率が０．５以上であるので、重なり判定部２０３は、重なり率が０．５以上となった組み合わせ（Ａ，Ｂ）を出力し、ステップＳ１３０６に移行する。

　ステップＳ１３０６において、画像抽出部２０４は、入力画像とステップＳ１３０５で出力された検出結果の組を用いて、入力画像から指定された領域を抽出し、抽出画像と、入力画像に対する抽出する領域の左上の座標を出力する。詳細には、まず、画像抽出部２０４は、検出結果の組から２つの検出枠の座標を、入力画像から抽出した範囲と変形倍率の情報を使用して入力画像の座標に変換する。本例では、検出結果Ａの検出枠の左上座標が（０，６２）であるので、変形倍率（２２４／７２０）を使用して、入力画像における検出結果Ａの左上座標は、（３０＋０÷（２２４／７２０），０＋６２÷（２２４／７２０））＝（３０，１９９）となる。他の座標も同様に計算した結果を図１４Ｅに示す。

　次に、画像抽出部２０４は、検出結果の組から２つの検出枠の和集合に対する外接矩形を算出し、算出した外接矩形に基づいて、抽出する領域の左上座標及び右下座標を算出する。詳細については、図３に示したステップＳ３０５での処理と同様である。本例では、抽出する領域の左上座標は（１，１６８）、右下座標は（３５２，５４２）となる。このようにして算出した、抽出する領域の左上座標及び右下座標をもとに入力画像から抽出した抽出画像１４０４の例を図１４Ｆに示す。抽出する領域の左上座標が（１，１６８）、右下座標が（３５２，５４２）であるので、抽出画像１４０４は３５１×３７４ピクセルの画像である。

　ステップＳ１３０７において、画像加工部１２０８は、ステップＳ１３０６で抽出した３５１×３７４ピクセルの画像を２２４×２２４ピクセルの画像（以下、第２の処理対象画像）に変形する。このとき、横方向の変形倍率は（２２４／３５１）となり、縦方向の変形倍率は（２２４／３７４）となる。第２の処理対象画像の一例を図１４Ｇに示す。

　ステップＳ１３０８において、物体検出部１２０２は、図３に示したステップＳ３０６と同様にして、第２の処理対象画像を用いて人物の顔を検出する顔検出処理を行い、第２の処理対象画像から「メガネ着用の顔」と「メガネ非着用の顔」とを検出する。第２の処理対象画像に対する顔検出処理の検出結果の例を図１４Ｈに示す。図１４Ｈに示した例では、１つの検出結果Ｅが得られ、検出枠の左上座標（ｘ１，ｙ１）及び右下座標（ｘ２，ｙ２）と、属性と、信頼度とが出力される。なお、図１４Ｈにおける検出枠の座標は、第２の処理対象画像における座標である。

　ステップＳ１３０９において、結果修正部２０５は、ステップＳ１３０８で得られた第２の処理対象画像に対する検出結果に基づいて、抽出画像に対する検出結果を、入力画像の検出結果に反映する。詳細には、図３に示したステップＳ３０７と同様にして、結果修正部２０５は、第２の処理対象画像に対する検出結果の座標を、入力画像の座標に変換する。このとき、結果修正部２０５は、ステップＳ１３０６で得られた入力画像に対する抽出する領域の左上座標とステップＳ１３０７で得られた変形倍率の情報を使用して、第２の処理対象画像に対する検出結果の座標を入力画像の座標に変換する。入力画像における検出結果Ｅの例を図１４Ｉに示す。

　ステップＳ１３１０において、結果出力部２０６は、検出枠の重なり率が閾値以上となった検出結果のすべての組み合わせについて処理を完了したか否かを判定する。結果出力部２０６は、重なり率が閾値以上となった検出結果のすべての組み合わせについて処理が完了したと判定した場合（ステップＳ１３１０でＹＥＳ）、ステップＳ１３１１に移行する。結果出力部２０６は、重なり率が閾値以上となった検出結果の組み合わせにおいて未処理の組み合わせがあると判定した場合（ステップＳ１３１０でＮＯ）、ステップＳ１３０６に移行し、未処理の組み合わせについてステップＳ１３０６以降の処理を実行する。

　ステップＳ１３１１において、結果出力部２０６は、入力画像に対する最終の検出結果を入力画像に重畳した画像を出力して、処理を終了し次の入力画像の処理に移行する。

　第４の実施形態によれば、２回目の検出処理で使用される抽出画像を、１回目の検出処理で使用した画像ではなく、入力画像から抽出する。これにより、画像変形処理等により１回目の検出処理で使用した画像が入力画像よりも解像度が低くなってしまった場合等において、入力画像に対する物体検出の検出結果として、最終的により適切な検出結果を出力することができる。また、入力画像から１回目の検出処理で使用する画像を切り出した際に検出対象物の一部が見切れてしまった場合等においても、入力画像に対する物体検出の検出結果として、最終的により適切な検出結果を出力することができる。

　（変形例）
　なお、画像取得部１２０１は、入力画像から１つの領域を抽出するとしたが、複数の領域を抽出するようにして、ステップＳ１３０２～ステップＳ１３１１の処理を領域ごとに繰り返すようにしてもよい。また、前述した第２の実施形態及び第３の実施形態に、本実施形態の処理を組み込むことも可能である。

　［その他の実施形態］
　本発明は、前述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

　本発明は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、本発明の範囲を公にするために以下の請求項を添付する。

　本願は、２０２１年８月１３日提出の日本国特許出願特願２０２１－１３２０８９及び２０２２年２月９日提出の日本国特許出願特願２０２２－０１８９６０を基礎として優先権を主張するものであり、その記載内容の全てをここに援用する。

Claims

　画像から複数の属性に係る物体検出を行う検出手段と、
　前記検出手段の検出結果について異なる属性の検出結果の重なりを判定する判定手段と、
　前記検出手段による物体検出の検出結果を修正する修正手段と、を有し、
　前記修正手段は、第１の画像から抽出した第２の画像に対する物体検出の検出結果に基づいて、前記第１の画像に対する物体検出の検出結果を修正することを特徴とする情報処理装置。
　前記第１の画像に対する物体検出の検出結果に係る前記判定手段による判定結果に基づいて、前記第１の画像から前記第２の画像を抽出する抽出手段を有することを特徴とする請求項１に記載の情報処理装置。
　前記第２の画像は、前記第１の画像において、異なる属性の検出結果の領域が所定の割合以上重なっている領域を抽出した画像であることを特徴とする請求項１又は２に記載の情報処理装置。
　前記第２の画像は、前記第１の画像から検出された物体の領域に対して、左右反転、位置のシフト、及び画素値の変更の内の少なくとも一つを施した画像であることを特徴とする請求項１～３の何れか１項に記載の情報処理装置。
　入力画像から前記第１の画像を取得する取得手段を、更に有し、
　前記第２の画像は、前記入力画像又は前記第１の画像から抽出された画像であることを特徴とする請求項１に記載の情報処理装置。
　前記第１の画像に対する物体検出の検出結果に係る前記判定手段による判定結果に基づいて、前記入力画像から前記第２の画像を抽出する抽出手段を有することを特徴とする請求項５に記載の情報処理装置。
　前記第２の画像は、前記第１の画像において異なる属性の検出結果の領域が所定の割合以上重なっている領域を、前記入力画像から抽出した画像であることを特徴とする請求項５又は６に記載の情報処理装置。
　前記第２の画像は、前記第１の画像から検出された物体の領域に対して、左右反転、位置のシフト、及び画素値の変更の内の少なくとも一つを施した画像であることを特徴とする請求項５～７の何れか１項に記載の情報処理装置。
　異なる属性の検出結果の領域が所定の割合以上重なっている場合に、前記検出手段が前記第２の画像に対して物体検出を行うことを特徴とする請求項１～８の何れか１項に記載の情報処理装置。
　前記判定手段は、異なる属性の検出結果の重なり率を算出し、
　算出した前記重なり率が閾値以上である場合に、前記検出手段が前記第２の画像に対して物体検出を行うことを特徴とする請求項１～９の何れか１項に記載の情報処理装置。
　前記第２の画像は、前記判定手段により重なっていると判定された異なる属性の検出結果を包含し、かつ前記第２の画像に占める包含した領域の割合が前記検出手段の仕様に基づく割合になるように設定された領域の画像であることを特徴とする請求項１～１０の何れか１項に記載の情報処理装置。
　前記判定手段は、さらに前記第２の画像に対する物体検出の検出結果について異なる属性の検出結果の重なりを判定し、
　前記修正手段は、前記第２の画像に対する物体検出の検出結果における異なる属性の検出結果の重なりが、第１の属性の検出結果と第２の属性の検出結果の重なりと判定された場合に、前記第１の属性及び前記第２の属性とは異なる第３の属性として前記第１の画像に対する物体検出の検出結果を修正することを特徴とする請求項１～１１の何れか１項に記載の情報処理装置。
　第１の画像から複数の属性に係る物体検出を行う検出手段と、
　前記検出手段の検出結果について異なる属性の検出結果の重なりを判定する判定手段と、
　前記判定手段が第１の属性の検出結果と第２の属性の検出結果の重なりと判定した場合に、前記第１の属性及び前記第２の属性とは異なる第３の属性に係る物体を検出したものとして、前記第１の画像に対する物体検出の検出結果を修正する修正手段とを有することを特徴とする情報処理装置。
　前記第３の属性は結果不明を示す属性であることを特徴とする請求項１２又は１３に記載の情報処理装置。
　過去の検出結果と現在の検出結果との対応付けを行い、過去の検出結果の属性に係る情報に基づいて、現在の検出結果の属性を更新する対応付け手段を有することを特徴とする請求項１～１４の何れか１項に記載の情報処理装置。
　前記対応付け手段は、所定の過去の画像の検出結果における属性の統計情報を取得し、
　前記統計情報において最も出現頻度の高い属性を現在の検出結果の属性とすることを特徴とする請求項１５に記載の情報処理装置。
　第１の情報処理装置と第２の情報処理装置とを有する情報処理システムであって、
　前記第１の情報処理装置は、
　第１の画像から複数の属性に係る物体検出を行う第１の検出手段と、
　前記第１の検出手段の検出結果について異なる属性の検出結果の重なりを判定する判定手段と、
　前記判定手段による判定結果に基づいて、前記第１の画像から第２の画像を抽出する抽出手段と、
　前記第２の画像に対する物体検出の検出結果に基づいて、前記第１の画像に対する物体検出の検出結果を修正する修正手段と、
　前記抽出手段が抽出した前記第２の画像を前記第２の情報処理装置に出力する第１の通信手段と、を有し、
　前記第２の情報処理装置は、
　前記第２の画像から複数の属性に係る物体検出を行う第２の検出手段と、
　前記第２の検出手段による前記第２の画像に対する物体検出の検出結果を前記第１の情報処理装置に出力する第２の通信手段と、を有することを特徴とする情報処理システム。
　第１の情報処理装置と第２の情報処理装置とを有する情報処理システムであって、
　前記第１の情報処理装置は、
　入力画像から第１の画像を取得する取得手段と、
　前記第１の画像から複数の属性に係る物体検出を行う第１の検出手段と、
　前記第１の検出手段の検出結果について異なる属性の検出結果の重なりを判定する判定手段と、
　前記判定手段による判定結果に基づいて、前記入力画像から第２の画像を抽出する抽出手段と、
　前記第２の画像に対する物体検出の検出結果に基づいて、前記第１の画像に対する物体検出の検出結果を修正する修正手段と、
　前記抽出手段が抽出した前記第２の画像を前記第２の情報処理装置に出力する第１の通信手段と、を有し、
　前記第２の情報処理装置は、
　前記第２の画像から複数の属性に係る物体検出を行う第２の検出手段と、
　前記第２の検出手段による前記第２の画像に対する物体検出の検出結果を前記第１の情報処理装置に出力する第２の通信手段と、を有することを特徴とする情報処理システム。
　前記第１の検出手段は、さらに前記抽出手段が抽出した前記第２の画像から複数の属性に係る物体検出を行い、
　前記第１の通信手段は、前記第２の画像に対する物体検出の検出結果に係る前記判定手段による判定結果に応じて、前記第２の画像を前記第２の情報処理装置に出力することを特徴とする請求項１７又は１８に記載の情報処理システム。
　第１の画像から複数の属性に係る物体検出を行う検出工程と、
　前記検出工程での検出結果について異なる属性の検出結果の重なりを判定する判定工程と、
　前記第１の画像から抽出した第２の画像に対する物体検出の検出結果に基づいて、前記第１の画像に対する物体検出の検出結果を修正する修正工程と、を有することを特徴とする情報処理方法。
　第１の画像から複数の属性に係る物体検出を行う検出ステップと、
　前記検出ステップでの検出結果について異なる属性の検出結果の重なりを判定する判定ステップと、
　前記第１の画像から抽出した第２の画像に対する物体検出の検出結果に基づいて、前記第１の画像に対する物体検出の検出結果を修正する修正ステップと、をコンピュータに実行させるためのプログラム。