WO2019207721A1

WO2019207721A1 - 情報処理装置、制御方法、及びプログラム

Info

Publication number: WO2019207721A1
Application number: PCT/JP2018/017031
Authority: WO
Inventors: 君朴
Original assignee: 日本電気株式会社
Priority date: 2018-04-26
Filing date: 2018-04-26
Publication date: 2019-10-31
Also published as: JP6992881B2; US11610385B2; US11887331B2; US20210073564A1; US20230018589A1; JPWO2019207721A1; US20240104769A1

Abstract

情報処理装置（２０００）は、対象オブジェクトの画像特徴に基づいて、撮像画像（２０）から、候補領域（２２）を１つ以上検出する。候補領域（２２）は、対象オブジェクトを表すと推定される画像領域である。また、情報処理装置（２０００）は、撮像画像（２０）から人物領域（２６）を検出し、検出した人物領域（２６）に基づいて、推定位置（２４）を検出する。人物領域（２６）は、人物を表すと推定される領域である。推定位置（２４）は、撮像画像（２０）において対象オブジェクトが存在すると推定される位置である。そして情報処理装置（２０００）は、候補領域（２２）と推定位置（２４）とに基づいて、対象オブジェクトを表す画像領域であるオブジェクト領域（３０）を特定する。

Description

情報処理装置、制御方法、及びプログラム

　本発明は物体認識に関する。

　カメラによって生成された撮像画像から物体を検出する技術が開発されている。例えば特許文献１は、撮像画像から複数の物体を検出し、検出した物体の関連づけを行う装置を開示している。具体的には、特許文献１の装置は、撮像画像に物（例えばカバン）と複数の人物とが含まれている場合に、その物と持ち主の人物とを関連づける。

　そのために、特許文献１の装置は、予め規定されている接続関係を利用して、人物のパーツを順に認識しながら接続していく。例えば、顔->首->胴体->腕という順番で認識及び接続が行われる。さらに、特許文献１の装置は、認識されたパーツの周辺に頻繁に存在する物として予め規定されている物の認識を行う。例えば、腕の周辺に頻繁に存在する物として、カバンが規定されている。そのため、前述した様に人物の腕が認識されたことに応じて、カバンの認識が行われる。その結果、「顔->首->胴体->腕->カバン」のように接続されていることが分かる。そこで特許文献１の装置は、接続されている顔とカバンの関連づけ（すなわち、人物とカバンの関連づけ）を行う。

　ここで特許文献１では、人物のパーツの周辺に頻繁に存在する物について、そのパーツに対しておよそどの辺りの位置にあるのかを推定するための情報が規定されている。そして、特許文献１には、この情報を用いて、物を認識する画像領域を限定してもよいことが記載されている。例えば特許文献１の装置は、前述した流れで人物の腕を検出したら、人物の腕に対しておよそどの辺りにカバンが存在するかを示す情報を利用して、カバンの認識を行う画像領域を限定する。そして、限定した画像領域についてカバンの認識が行われる。

特開２０１０－０８６４８２号公報

Zhe Cao、外３名、「Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields」、CoRR、２０１６年１１月２４日

　特許文献１の技術では、人物のパーツを認識したことを前提として、そのパーツの周辺に頻繁に存在する物の認識が行われる。そのため、人物の或るパーツが認識されなかったら、そのパーツの周辺に頻繁に存在する物の認識が行われない。例えば前述の例では、人物の腕が認識されなければ、カバンの認識が行われない。

　この点、人物の全てのパーツが必ずしも撮像画像に含まれるとは限らない。例えば、人物の腕の前に障害物が立っていたり、人物の腕がカメラの撮像範囲の外にあったりすると、撮像画像から人物の腕が認識されないため、カバンを認識することもできなくなる。

　本願発明は上記の課題に鑑みてなされたものであり、人の持ち物を撮像画像から高い精度で検出する技術を提供することである。

　本発明の情報処理装置は、１）検出対象である対象オブジェクトの画像特徴に基づいて、撮像画像から、対象オブジェクトを表すと推定される画像領域である候補領域を１つ以上検出する候補領域検出部と、２）撮像画像から人物を表す人物領域を検出し、人物領域に基づいて、撮像画像における対象オブジェクトの推定位置を検出する推定位置検出部と、３）１つ以上の候補領域と推定位置に基づいて、１つ以上の候補領域の中から、対象オブジェクトを表す画像領域であるオブジェクト領域を特定する特定部と、を有する。

　本発明の制御方法は、コンピュータによって実行される制御方法である。当該制御方法は、１）検出対象である対象オブジェクトの画像特徴に基づいて、撮像画像から、対象オブジェクトを表すと推定される画像領域である候補領域を１つ以上検出する候補領域検出ステップと、２）撮像画像から人物を表す人物領域を検出し、人物領域に基づいて、撮像画像における対象オブジェクトの推定位置を検出する推定位置検出ステップと、３）１つ以上の候補領域と推定位置に基づいて、１つ以上の候補領域の中から、対象オブジェクトを表す画像領域であるオブジェクト領域を特定する特定ステップと、を有する。

　本発明のプログラムは、コンピュータに、本発明の制御方法が有する各ステップを実行させる。

　本発明によれば、人の持ち物を撮像画像から高い精度で検出する技術が提供される。

　上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

本実施形態の情報処理装置が行う処理を概念的に示す図である。実施形態１の情報処理装置の機能構成を例示する図である。情報処理装置を実現するための計算機を例示する図である。実施形態１の情報処理装置によって実行される処理の流れを例示するフローチャートである。推定位置を含む候補領域を例示する図である。候補領域に含まれる推定位置の数に基づいて算出される第１スコアを例示する図である。推定位置について算出された対象オブジェクトの存在確率を考慮して算出される第１スコアを例示する図である。実施形態２の情報処理装置の機能構成を例示するブロック図である。実施形態２の情報処理装置によって実行される処理の流れを例示するフローチャートである。

　以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。また、特に説明する場合を除き、各ブロック図において、各ブロックは、ハードウエア単位の構成ではなく、機能単位の構成を表している。

［実施形態１］
＜概要＞
　図１は、本実施形態の情報処理装置２０００が行う処理を概念的に示す図である。情報処理装置２０００は、カメラ１０によって生成された撮像画像２０から、対象オブジェクトを表す画像領域であるオブジェクト領域３０を検出する。対象オブジェクトは、人の持ち物である。なお、ここでいう「人の持ち物」とは、人が手に持っている物（手提げカバンや杖など）には限定されず、何らかの形で人が所持している物を全般的に含む。例えば、人の持ち物には、人が肩に掛けている物（肩掛けカバンなど）、人が首から提げている物（身分証明書など）、人が背中に背負っている物（リュックサックなど）、人が頭に装着している物（帽子やヘルメットなど）、人が顔に装着している物（眼鏡やサングラスなど）、及び人が手に装着している物（時計など）などが含まれる。

　情報処理装置２０００は、対象オブジェクトの画像特徴に基づいて、撮像画像２０から、候補領域２２を１つ以上検出する。候補領域２２は、対象オブジェクトを表すと推定される画像領域である。例えば対象オブジェクトが帽子であれば、情報処理装置２０００は、帽子の画像特徴に基づいて、帽子を表すと推定される画像領域を検出し、検出した画像領域を候補領域２２とする。候補領域２２は、例えば、対象オブジェクトを表す確率が所定値以上であると推測される画像領域である。

　また、情報処理装置２０００は、撮像画像２０から人物領域２６を検出し、検出した人物領域２６に基づいて、推定位置２４を検出する。人物領域２６は、人物を表すと推定される領域である。推定位置２４は、撮像画像２０において対象オブジェクトが存在すると推定される位置である。

　ここで、人の持ち物は、その物の種類に応じて、人との相対的な位置関係を予測することができる。例えば、帽子の位置は、人の頭部である蓋然性が高い。その他にも例えば、サングラスの位置は、人の顔部分である蓋然性が高い。その他にも例えば、リュックサックの位置は、人の背中部分である蓋然性が高い。

　そこで情報処理装置２０００は、このように予測可能な対象オブジェクトと人との相対的な位置関係に基づいて、推定位置２４を検出する。例えば対象オブジェクトが帽子であれば、情報処理装置２０００は、人物領域２６が表す人物と帽子との相対的な位置関係に基づいて、帽子が存在すると推定される位置を検出し、検出した位置を推定位置２４とする。

　そして情報処理装置２０００は、候補領域２２と推定位置２４とに基づいて、オブジェクト領域３０を特定する。例えば、情報処理装置２０００は、複数検出された候補領域２２のうち、推定位置２４を含む候補領域２２を、オブジェクト領域３０として特定する。ただし、後述するように、候補領域２２と推定位置２４とに基づいて特定されるオブジェクト領域３０は、推定位置２４を含む候補領域２２には限定されない。

＜作用・効果＞
　本実施形態の情報処理装置２０００によれば、対象オブジェクトの画像特徴に基づいて検出される候補領域２２と、人物領域２６に基づいて検出される推定位置２４とを用いて、対象オブジェクトを表すオブジェクト領域３０が特定される。こうすることで、対象オブジェクトの画像特徴に基づいて検出される候補領域２２の全てがオブジェクト領域３０（対象オブジェクトを表す画像領域）として特定されるわけではなく、人物領域２６に基づいて検出される推定位置２４によって、オブジェクト領域３０として特定される候補領域２２が限定される。例えば、対象オブジェクトが存在する蓋然性が低い位置の候補領域２２は、オブジェクト領域３０として特定されなくなる。このように、対象オブジェクトを表す画像領域を、対象オブジェクトの画像特徴という基準と人物を表す画像領域という基準の２つを利用して特定することにより、対象オブジェクトの画像特徴という１つの基準で特定する場合と比較し、対象オブジェクトを表す画像領域を高い精度で特定することができる。

　ここで、対象オブジェクトの推定位置２４は、人物を表す画像領域を利用して検出される。そのため、人物の一部のパーツ（例えば腕など）が撮像画像２０から検出されなくても、推定位置２４を検出することができる。よって、情報処理装置２０００によれば、人物の一部のパーツが撮像画像２０に含まれなかったとしても、オブジェクト領域３０を特定することができる。

　なお、図１を参照した上述の説明は、情報処理装置２０００の理解を容易にするための例示であり、情報処理装置２０００の機能を限定するものではない。以下、本実施形態の情報処理装置２０００についてさらに詳細に説明する。

＜情報処理装置２０００の機能構成の例＞
　図２は、実施形態１の情報処理装置２０００の機能構成を例示する図である。情報処理装置２０００は、候補領域検出部２０２０、推定位置検出部２０４０、及び特定部２０６０を有する。候補領域検出部２０２０は、検出対象である対象オブジェクトの画像特徴に基づいて、撮像画像２０から候補領域２２を１つ以上検出する。推定位置検出部２０４０は、撮像画像２０から人物領域２６を検出する。さらに推定位置検出部２０４０は、検出した人物領域２６に基づいて、推定位置２４を検出する。特定部２０６０は、候補領域２２と推定位置２４とに基づいて、オブジェクト領域３０を特定する。

＜情報処理装置２０００のハードウエア構成＞
　情報処理装置２０００の各機能構成部は、各機能構成部を実現するハードウエア（例：ハードワイヤードされた電子回路など）で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ（例：電子回路とそれを制御するプログラムの組み合わせなど）で実現されてもよい。以下、情報処理装置２０００の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。

　図３は、情報処理装置２０００を実現するための計算機１０００を例示する図である。計算機１０００は任意の計算機である。例えば計算機１０００は、Personal Computer（PC）やサーバマシンなどの据え置き型の計算機である。その他にも例えば、計算機１０００は、スマートフォンやタブレット端末などの可搬型の計算機である。その他にも例えば、計算機１０００は、撮像画像２０を生成するカメラ１０であってもよい。計算機１０００は、情報処理装置２０００を実現するために設計された専用の計算機であってもよいし、汎用の計算機であってもよい。

　計算機１０００は、バス１０２０、プロセッサ１０４０、メモリ１０６０、ストレージデバイス１０８０、入出力インタフェース１１００、及びネットワークインタフェース１１２０を有する。バス１０２０は、プロセッサ１０４０、メモリ１０６０、ストレージデバイス１０８０、入出力インタフェース１１００、及びネットワークインタフェース１１２０が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ１０４０などを互いに接続する方法は、バス接続に限定されない。

　プロセッサ１０４０は、CPU（Central Processing Unit）、GPU（Graphics Processing Unit）、FPGA（Field－Programmable Gate Array）などの種々のプロセッサである。メモリ１０６０は、RAM（Random Access Memory）などを用いて実現される主記憶装置である。ストレージデバイス１０８０は、ハードディスク、SSD（Solid State Drive）、メモリカード、又は ROM（Read Only Memory）などを用いて実現される補助記憶装置である。

　入出力インタフェース１１００は、計算機１０００と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース１１００には、キーボードなどの入力装置や、ディスプレイ装置などの出力装置が接続される。ネットワークインタフェース１１２０は、計算機１０００を通信網に接続するためのインタフェースである。この通信網は、例えば LAN（Local Area Network）や WAN（Wide Area Network）である。ネットワークインタフェース１１２０が通信網に接続する方法は、無線接続であってもよいし、有線接続であってもよい。

　ストレージデバイス１０８０は、情報処理装置２０００の各機能構成部を実現するプログラムモジュールを記憶している。プロセッサ１０４０は、これら各プログラムモジュールをメモリ１０６０に読み出して実行することで、各プログラムモジュールに対応する機能を実現する。

＜カメラ１０について＞
　カメラ１０は、撮像を行い、その結果として画像データを生成する任意の撮像装置である。例えばカメラ１０は、監視場所に設置された監視カメラである。

　前述した様に、情報処理装置２０００を実現する計算機１０００は、カメラ１０であってもよい。この場合、カメラ１０は、自身で生成した撮像画像２０を解析することで、オブジェクト領域３０の特定を行う。このような機能を持たせるカメラ１０としては、例えば、インテリジェントカメラ、ネットワークカメラ、又は IP（Internet Protocol）カメラなどと呼ばれるカメラを用いることができる。

＜情報処理装置２０００の利用例＞
　情報処理装置２０００は、「カメラによって生成された画像データから所定のオブジェクトを検出する」という処理が有用な任意の場面で利用することができる。例えば情報処理装置２０００は、監視カメラによって生成された監視映像の解析に利用される。この場合、カメラ１０は監視映像を生成する監視カメラである。また、撮像画像２０は監視映像を構成するビデオフレームである。

　情報処理装置２０００は、監視映像を構成するビデオフレームから、所定のオブジェクトを表す画像領域（すなわち、対象オブジェクトを表すオブジェクト領域３０）を特定する。こうすることで、監視場所における対象オブジェクトの存在を把握することができる。また、対象オブジェクトを持っている人物を検出することもできる。

　より具体的には、情報処理装置２０００によれば、監視映像を利用して、危険物の存在を把握したり、要注意人物（危険物を持っている人物やサングラスやヘルメットなどで顔を隠している人物など）の存在を把握したりすることができる。また、監視対象の施設で置き去り物体が発見された場合に、その施設の様々な場所に設置された監視カメラによって生成された過去の監視映像を情報処理装置２０００で解析することにより、その置き去り物体が運ばれたルートの特定や、その置き去り物体を運んだ人物の検出などを行うこともできる。

＜処理の流れ＞
　図４は、実施形態１の情報処理装置２０００によって実行される処理の流れを例示するフローチャートである。情報処理装置２０００は、撮像画像２０を取得する（Ｓ１０２）。候補領域検出部２０２０は、対象オブジェクトの画像特徴に基づいて、撮像画像２０から候補領域２２を１つ以上検出する（Ｓ１０４）。推定位置検出部２０４０は、撮像画像２０から人物領域２６を検出する（Ｓ１０６）。推定位置検出部２０４０は、検出した人物領域２６に基づいて、推定位置２４を検出する（Ｓ１０８）。特定部２０６０は、候補領域２２と推定位置２４とに基づいて、オブジェクト領域３０を特定する（Ｓ１１０）。

　なお、必ずしも図４に示すように全ての処理がシーケンシャルに実行される必要はない。例えば、候補領域検出部２０２０が実行する処理（Ｓ１０４）と推定位置検出部２０４０が実行する処理（Ｓ１０６及びＳ１０８）とは、並行して実行されてもよい。

　情報処理装置２０００が図４に示す一連の処理を実行するタイミングは様々である。例えば情報処理装置２０００は、カメラ１０によって撮像画像２０が生成される度に、その撮像画像２０を取得して、図４に示す一連の処理を実行する。その他にも例えば、情報処理装置２０００は、所定のタイミングで、カメラ１０によって生成された撮像画像２０を複数まとめて取得し、各撮像画像２０について図４に示す一連の処理を実行する（いわゆるバッチ処理）。その他にも例えば、情報処理装置２０００は、撮像画像２０を指定する入力操作を受け付け、指定された撮像画像２０について一連の処理を実行する。

＜撮像画像２０の取得：Ｓ１０２＞
　情報処理装置２０００は撮像画像２０を取得する（Ｓ１０２）。撮像画像２０は、カメラ１０によって生成された画像データそのものであってもよいし、カメラ１０によって生成された画像データに対して何らかの処理（例えば色調補正やトリミングなど）が加えられたものであってもよい。

　情報処理装置２０００が撮像画像２０を取得する方法は任意である。例えば情報処理装置２０００は、撮像画像２０が記憶されている記憶装置にアクセスすることで、撮像画像２０を取得する。撮像画像２０が記憶されている記憶装置は、カメラ１０の内部に設けられていてもよいし、そのカメラの外部に設けられていてもよい。その他にも例えば、情報処理装置２０００は、カメラ１０から送信される撮像画像２０を受信することで、撮像画像２０を取得してもよい。なお、前述したように、情報処理装置２０００がカメラ１０として実現される場合、情報処理装置２０００は、自身で生成した撮像画像２０を取得する。

＜候補領域２２の検出：Ｓ１０４＞
　候補領域検出部２０２０は、対象オブジェクトの画像特徴に基づいて、撮像画像２０から候補領域２２を検出する（Ｓ１０４）。ここで、検出対象のオブジェクトの画像特徴に基づいて、画像データからそのオブジェクトを表すと推測される画像領域（すなわち、候補領域２２）を検出する技術には、既存の技術を利用することができる。例えば、候補領域２２の検出には、対象オブジェクトを表すと推定される画像領域を画像データから検出するように予め学習させた検出器を利用することができる。検出器のモデルには、ニューラルネットワーク（例えば、畳み込みニューラルネットワーク）や SVM（サポートベクトルマシン）などの任意のモデルを採用できる。

　ここで、候補領域検出部２０２０は、対象オブジェクトを表すと推測される確率が閾値以上である画像領域を、候補領域２２として検出する。ここで、この閾値を大きくすると、フォールスネガティブ（検出漏れ）が発生しやすくなる。一方、この閾値を小さくすると、フォールスポジティブ（誤検出）が発生しやすくなる。

　この点、情報処理装置２０００では、候補領域検出部２０２０のみによってオブジェクト領域３０が特定されるわけではなく、推定位置検出部２０４０によって検出される推定位置２４も用いて、オブジェクト領域３０が特定される。そのため、閾値を大きめに設定して検出漏れが発生してしまうよりも、閾値を小さめに設定して誤検出が発生してしまう方が好ましいと言える。なぜなら、閾値を小さめに設定して候補領域２２を多めに検出しておき、推定位置検出部２０４０によって検出される推定位置２４を利用して候補領域２２の絞り込みを行うという方法により、対象オブジェクトを表すオブジェクト領域３０を高い精度で特定できるためである。

　そこで、候補領域検出部２０２０が利用する上記閾値は、対象オブジェクトの画像特徴のみに基づいてオブジェクト領域３０の特定を行う場合（すなわち、推定位置検出部２０４０を利用しない場合）に設定される閾値以下の値にすることが好適である。

　候補領域検出部２０２０は、候補領域２２の検出結果を表すデータを生成する。このデータは、検出された候補領域２２を特定するデータであり、例えば候補領域２２の特定の位置（例えば左上端の座標）及びサイズ（例えば幅と高さ）を示す。

＜人物領域２６の検出：Ｓ１０６＞
　推定位置検出部２０４０は、撮像画像２０から人物領域２６を検出する（Ｓ１０６）。ここで、画像データから人物を表す画像領域を検出する技術には、既存の技術を利用することができる。例えば、画像データから人物を表す画像領域を検出するように予め学習させた検出器を利用することができる。この検出器のモデルにも、例えば、ニューラルネットワークなどの任意のモデルを利用できる。

　ここで、推定位置２４を検出するためには、人物領域２６から人の身体の部位（頭部、顔、胴体、手、及び足など）を検出することが好適である。人の身体の部位も、前述した検出器などを利用した検出、テンプレート画像や局所特徴量などを利用して検出によって検出することができる。

　その他にも例えば、推定位置検出部２０４０は、人物領域２６として、人の関節の位置など、人の特徴的な点の集合を検出してもよい。関節などといった人の特徴的な点の位置を検出する技術には、例えば、非特許文献１に示す技術を利用することができる。

＜推定位置２４の検出：Ｓ１０６＞
　推定位置検出部２０４０は、人物領域２６に基づいて推定位置２４を検出する。前述した様に、推定位置２４は、撮像画像２０において対象オブジェクトが存在すると推定される位置である。推定位置２４は、撮像画像２０上の一点で表されてもよいし、画像領域で表されてもよい。

　例えば推定位置２４の検出には、人物を表す画像領域の位置が指定された画像データが入力されたことに応じて、その画像データにおいて対象オブジェクトが存在すると推定される位置を検出するように予め学習させた検出器を利用することができる。検出器のモデルにも、ニューラルネットワークなどの任意のモデルを採用できる。

　この検出器の学習は、例えば、「画像データ、その画像データにおける人物領域、その画像データにおける対象オブジェクトの位置」という組み合わせで構成される教師データを用いて行う。このような教師データを用いることにより、検出器に、対象オブジェクトと人との相対的な位置関係を学習させることができる。さらに、上記教師データには、人物領域における人の各部位の位置を示す情報が含まれることが好適である。

　推定位置検出部２０４０は、対象オブジェクトが存在する確率が所定値以上の位置を、推定位置２４として検出する。この際、推定位置検出部２０４０は、推定位置２４と併せて、その推定位置２４に対象オブジェクトが存在する確率を出力するようにしてもよい。

　例えば推定位置検出部２０４０は、推定位置２４の検出結果を表すデータとして、撮像画像２０と同じサイズの行列データを生成する。この行列データは、例えば、推定位置２４の位置に１を示し、他の位置に０を示す。また、推定位置２４に対象オブジェクトが存在する確率を出力する場合、この行列データは、各位置に対象オブジェクトが存在する確率を示す。ただし、推定位置２４の検出結果を表すデータは任意の形式でよく、行列データに限定されない。

＜＜検出範囲の限定＞＞
　推定位置検出部２０４０は、推定位置２４の検出を行う画像領域を、候補領域２２を利用いて限定してもよい。すなわち、撮像画像２０全体からではなく、候補領域２２に基づいて限定される一部の画像領域から推定位置２４の検出を行う。こうすることで、推定位置２４の検出に要する時間や計算機資源を削減することができる。

　例えば推定位置検出部２０４０は、候補領域２２の内部のみを、推定位置２４の検出範囲とする。その他にも例えば、推定位置検出部２０４０は、候補領域２２を含む所定の範囲から推定位置２４を検出する。例えばこの所定の範囲は、候補領域２２を１より大きい所定の倍率で拡大することで得られる範囲である。

　なお、推定位置検出部２０４０は、人物領域２６を検出する画像領域についても、候補領域２２を利用して限定してもよい。例えば、推定位置検出部２０４０は、候補領域２２を含む所定の範囲（例えば、候補領域２２を拡大することで得られる範囲）から人物領域２６を検出する。

＜オブジェクト領域３０の特定＞
　特定部２０６０は、候補領域２２と推定位置２４とに基づいて、オブジェクト領域３０を特定する。概念的には、特定部２０６０は、推定位置２４を用いて、対象オブジェクトを含むと推測される画像領域である候補領域２２の中から、対象オブジェクトを含む蓋然性が特に高いものを特定し、特定した候補領域２２をオブジェクト領域３０として特定する。ただし後述するように、オブジェクト領域３０は、いずれか１つの候補領域２２と完全に一致する必要はなく、候補領域２２の一部の画像領域であってもよい。

　特定部２０６０は、候補領域２２と推定位置２４との重なりに着目してオブジェクト領域３０を特定する。その具体的な方法には、様々な方法を採用することができる。以下、その具体的な方法を例示する。

＜＜具体的な方法１＞＞
　特定部２０６０は、推定位置２４を含む候補領域２２を、オブジェクト領域３０として特定する。図５は、推定位置２４を含む候補領域２２を例示する図である。図５では、撮像画像２０から、候補領域２２が複数検出されている。また、推定位置２４が１つ検出されている。ここで、推定位置２４は候補領域２２－１に含まれている。そこで特定部２０６０は、候補領域２２－１をオブジェクト領域３０として特定する。

＜＜具体的な方法２＞＞
　ここでは、推定位置２４が複数算出されることを前提とする。そして特定部２０６０は、各候補領域２２について、推定位置２４を含む度合いを表すスコア（以下、第１スコア）を算出する。特定部２０６０は、第１スコアに基づいてオブジェクト領域３０を特定する。

　第１スコアに基づいてオブジェクト領域３０を特定する方法は様々である。例えば特定部２０６０は、第１スコアが最大である候補領域２２を、オブジェクト領域３０として特定する。その他にも例えば、特定部２０６０は、第１スコアが所定値以上である候補領域２２をオブジェクト領域３０として特定する。後者の場合、オブジェクト領域３０が複数特定されうる。

　第１スコアの定め方は様々である。例えば特定部２０６０は、候補領域２２に含まれる推定位置２４の数を、その候補領域２２についての第１スコアとして算出する。その他にも例えば、特定部２０６０は、候補領域２２に含まれる推定位置２４の数を候補領域２２の大きさで正規化した値（例えば、推定位置２４の数を候補領域２２の面積で割った値）を、その候補領域２２についての第１スコアとして算出する。

　図６は、候補領域２２に含まれる推定位置２４の数に基づいて算出される第１スコアを例示する図である。候補領域２２には推定位置２４が３つ含まれている。そこで例えば、特定部２０６０は、候補領域２２の第１スコアを３とする。ここで、候補領域２２の面積が S であるとする。この場合、特定部２０６０は、候補領域２２の第１スコアを候補領域２２の面積で正規化した 3/S を第１スコアとしてもよい。

　第１スコアの算出方法は前述の例に限定されない。例えば、各推定位置２４について、対象オブジェクトが存在する確率が算出されているとする。この場合、特定部２０６０は、候補領域２２に含まれる各推定位置２４について算出された存在確率の総和を、その候補領域２２についての第１スコアとして算出してもよい。

　図７は、推定位置２４について算出された対象オブジェクトの存在確率を考慮して算出される第１スコアを例示する図である。候補領域２２には推定位置２４が３つ含まれており、それぞれについて算出された存在確率は p1, p2, 及び p3 である。そのため、候補領域２２の第１スコアは p1+p2+p3 である。

　このように、推定位置２４に対象オブジェクトが存在する確率を考慮して第１スコアを算出することにより、対象オブジェクトを表すオブジェクト領域３０をより高い精度で特定することができる。例えば、対象オブジェクトの存在確率が 0.1 である推定位置２４を３つ含む候補領域２２よりも、対象オブジェクトの存在確率が 0.6 である推定位置２４を１つ含む候補領域２２の方が、対象オブジェクトを表す画像領域である蓋然性が高いといえる。存在確率の総和を第１スコアとする算出方法によれば、後者の候補領域２２の第１スコアが、前者の候補領域２２の第１スコアよりも大きくなる。そのため、後者の候補領域２２の方が、オブジェクト領域３０として特定されやすくなる。

＜＜具体的な方法３＞＞
　ここでは、候補領域検出部２０２０が、各候補領域２２について、その候補領域２２が対象オブジェクトを表す確率を算出するとする。また、特定部２０６０は、各候補領域２２について、前述した第１スコアを算出するとする。特定部２０６０は、候補領域２２が対象オブジェクトを表す確率と、第１スコアとの積として、第２スコアを算出する。そして特定部２０６０は、第２スコアに基づいてオブジェクト領域３０を特定する。

　第２スコアに基づいてオブジェクト領域３０を特定する方法は様々である。例えば特定部２０６０は、第２スコアが最大である候補領域２２を、オブジェクト領域３０として特定する。その他にも例えば、特定部２０６０は、第２スコアが所定値以上である候補領域２２をオブジェクト領域３０として特定する。

＜＜具体的な方法４＞＞
　特定部２０６０は、候補領域２２の代表点と推定位置２４との間の距離に基づく第３スコアを算出し、算出した第３スコアに基づいてオブジェクト領域３０を特定する。第３スコアに基づいてオブジェクト領域３０を特定する方法は様々である。例えば特定部２０６０は、最も小さい第３スコアが算出された候補領域２２を、オブジェクト領域３０として特定する。その他にも例えば、特定部２０６０は、所定値以下の第３スコアが算出された候補領域２２を、オブジェクト領域３０として特定する。

　候補領域２２の代表点は、候補領域２２に含まれる任意の点とすることができる。例えば候補領域２２の代表点は、候補領域２２の中心である。

　推定位置２４が複数ある場合、特定部２０６０は、複数の推定位置２４それぞれについて候補領域２２の代表点との間の距離を算出してもよいし、いずれか１つの推定位置２４について候補領域２２の代表点との間の距離を算出してもよい。前者の場合、例えば特定部２０６０は、算出した複数の距離の統計値（最小値、最頻値、又は平均値など）に基づいて第３スコアを算出する。後者の場合、特定部２０６０は、１つの推定位置２４と候補領域２２の代表点との間の距離を算出し、その距離に基づいて第３スコアを算出する。

　ここで、１つの推定位置２４のみについて、候補領域２２の代表点との間の距離を算出する場合において、その推定位置２４を特定する方法は様々である。例えば特定部２０６０は、複数の推定位置２４で構成される画像領域の中心を算出し、その中心に最も近い推定位置２４を特定し、特定した推定位置２４と候補領域２２の代表点との間の距離を算出する。その他にも例えば、各推定位置２４について対象オブジェクトの存在確率が算出されている場合、特定部２０６０は、対象オブジェクトの存在確率が最も高い推定位置２４と候補領域２２の代表点との間の距離を算出する。

　また、推定位置２４が画像領域として表されている場合、特定部２０６０は、その画像領域の代表点と候補領域２２の代表点との間の距離に基づいて、第３スコアを算出する。画像領域として表されている推定位置２４の代表点は、例えば、その画像領域の中心位置である。

　推定位置２４と候補領域２２の代表点との間の距離に基づいて第３スコアを算出する方法は様々である。例えば特定部２０６０は、候補領域２２の代表点と推定位置２４との間の距離そのものを第３スコアとする。

　その他にも例えば、特定部２０６０は、候補領域２２の代表点と推定位置２４との間の距離に、その推定位置２４に対象オブジェクトが存在する確率に基づく補正係数を乗算した値を、第３スコアとする。補正係数は、推定位置２４に対象オブジェクトが存在する確率が高いほど小さくなるようにする。例えば補正係数は、推定位置２４に対象オブジェクトが存在する確率の逆数である。

　このように推定位置２４に対象オブジェクトが存在する確率を考慮することで、対象オブジェクトを表すオブジェクト領域３０をより高い精度で特定することができる。例えば、対象オブジェクトが存在する確率が 0.1 である推定位置２４との間の距離が１である候補領域２２よりも、対象オブジェクトが存在する確率が 0.6 である推定位置２４との間の距離が２である候補領域２２の方が、対象オブジェクトを表す画像領域である蓋然性が高いと考えられる。上述した補正係数を利用する方法によれば、後者の候補領域２２の方が、前者の候補領域２２よりも、第３スコアが大きくなる。よって、後者の候補領域２２の方が、オブジェクト領域３０として特定されやすくなる。

＜結果の出力＞
　情報処理装置２０００は、オブジェクト領域３０を特定する情報（以下、出力情報）を出力する。出力情報を出力する方法は様々である。例えば情報処理装置２０００は、出力情報を任意の記憶装置に記憶させる。その他にも例えば、情報処理装置２０００は、出力情報をディスプレイ装置に記憶させる。

　例えば出力情報は、撮像画像２０の識別子、オブジェクト領域３０の特定の位置（例えば、オブジェクト領域３０の左上端の座標）、及びオブジェクト領域３０のサイズ（例えば、幅と高さ）を示す。撮像画像２０からオブジェクト領域３０が特定された場合、出力情報は、複数のオブジェクト領域３０それぞれについて、位置及びサイズを示す。その他にも例えば、出力情報は、オブジェクト領域３０を示す情報（例えば枠）を重畳させた撮像画像２０であってもよい。

［実施形態２］
　図８は、実施形態２の情報処理装置２０００の機能構成を例示するブロック図である。以下で説明する点を除き、実施形態２の情報処理装置２０００は、実施形態１の情報処理装置２０００と同様の機能を有する。

　実施形態２の情報処理装置２０００は、複数の種類の対象オブジェクトを扱う。具体的には、情報処理装置２０００は、検出すべきオブジェクトの種類を示す種類情報を取得し、種類情報に示されている種類のオブジェクトを対象オブジェクトとする。そのために、実施形態２の情報処理装置２０００は、種類情報を取得する種類情報取得部２０８０を有する。

　種類情報が示すオブジェクトの種類は、１つであってもよいし、複数であってもよい。種類情報がオブジェクトの種類を複数示す場合、情報処理装置２０００は、各種類のオブジェクトをそれぞれ対象オブジェクトとして、各対象オブジェクトについてオブジェクト領域３０を特定する。例えば、種類情報が「帽子、サングラス、白杖」という３つの種類を示している場合、情報処理装置２０００は、撮像画像２０の中から、帽子を表すオブジェクト領域３０、サングラスを表すオブジェクト領域３０、及び白杖を表すオブジェクト領域３０をそれぞれ特定する。

　種類情報取得部２０８０が種類情報を取得する方法は様々である。例えば種類情報取得部２０８０は、種類情報が記憶されている記憶装置から種類情報を取得する。その他にも例えば、種類情報取得部２０８０は、他の装置から送信される種類情報を受信することで、種類情報を取得する。その他にも例えば、種類情報取得部２０８０は、ユーザから種類情報の入力を受け付けることで、種類情報を取得する。

　実施形態２の候補領域検出部２０２０は、種類情報に示されている種類のオブジェクトについて候補領域２２を検出する。ここで、特定の種類のオブジェクトを画像データから検出する技術には、既存の技術を利用できる。例えば、オブジェクトの種類ごとに、その種類のオブジェクトを画像データから検出するように学習させた検出器を用意しておく。候補領域検出部２０２０は、撮像画像２０を、種類情報が示す種類のオブジェクトについて候補領域２２を検出するように学習させた検出器に対して入力することで、その種類のオブジェクトについて候補領域２２を検出する。

　実施形態２の推定位置検出部２０４０は、人物領域２６に基づき、種類情報に示されている種類のオブジェクトについて推定位置２４を検出する。例えば、推定位置検出部２０４０においても、オブジェクトの種類ごとに、推定位置２４を検出する検出器を用意しておく。すなわち、オブジェクトの種類ごとに、オブジェクトと人との位置関係を学習させておく。推定位置検出部２０４０は、撮像画像２０及び人物領域２６を特定する情報を、種類情報が示す種類のオブジェクトについて推定位置２４を検出するように学習させた検出器に対して入力することで、その種類のオブジェクトについて推定位置２４を検出する。

　実施形態２の特定部２０６０は、上述のように種類情報が示す種類の対象オブジェクトについて検出された候補領域２２及び推定位置２４に基づいてオブジェクト領域３０を特定する。出力情報は、オブジェクトの種類ごとに生成される。

＜作用効果＞
　実施形態の情報処理装置２０００によれば、種類情報によって示されている種類のオブジェクトについて、オブジェクト領域３０が特定される。こうすることで、複数の種類のオブジェクトのうち、指定されたオブジェクトを撮像画像２０から検出するように、情報処理装置２０００を設定できる。そのため、複数の種類のオブジェクトそれぞれを撮像画像２０から検出したり、その時々で検出するオブジェクトの種類を変更したりすることができる。そのため、情報処理装置２０００の利便性が向上する。

　例えば、要注意人物の持ち物に関する情報が得られたことに応じ、要注意人物の持ち物を検出するように撮像画像２０を設定することができる。また、置き去り物体が発見された場合、その置き去り物体を検出するように情報処理装置２０００を設定することができる。

＜ハードウエア構成の例＞
　実施形態２の情報処理装置２０００を実現する計算機のハードウエア構成は、実施形態１と同様に、例えば図３によって表される。ただし、本実施形態の情報処理装置２０００を実現する計算機１０００のストレージデバイス１０８０には、本実施形態の情報処理装置２０００の機能を実現するプログラムモジュールがさらに記憶される。

＜処理の流れ＞
　図９は、実施形態２の情報処理装置２０００によって実行される処理の流れを例示するフローチャートである。種類情報取得部２０８０は、種類情報を取得する（Ｓ２０２）。情報処理装置２０００は撮像画像２０を取得する（Ｓ２０４）。候補領域検出部２０２０は、種類情報に示される種類のオブジェクトについて、候補領域２２を検出する（Ｓ２０６）。推定位置検出部２０４０は人物領域２６を検出する（Ｓ２０８）。推定位置検出部２０４０は、人物領域２６に基づき、種類情報に示される種類のオブジェクトについて、推定位置２４を検出する（Ｓ２１０）。特定部２０６０は、検出された候補領域２２及び推定位置２４に基づいて、オブジェクト領域３０を特定する。

　以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。

Claims

　検出対象である対象オブジェクトの画像特徴に基づいて、撮像画像から、前記対象オブジェクトを表すと推定される画像領域である候補領域を１つ以上検出する候補領域検出部と、
　前記撮像画像から人物を表す人物領域を検出し、前記人物領域に基づいて、前記撮像画像における前記対象オブジェクトの推定位置を検出する推定位置検出部と、
　前記１つ以上の候補領域と前記推定位置に基づいて、前記１つ以上の候補領域の中から、前記対象オブジェクトを表す画像領域であるオブジェクト領域を特定する特定部と、を有する情報処理装置。
　前記推定位置検出部は、人物領域が入力されたことに応じて前記対象オブジェクトの推定位置を出力するように学習された検出器を用いて、前記撮像画像から前記対象オブジェクトの推定位置を検出する、請求項１に記載の情報処理装置。
　前記特定部は、前記１つ以上の候補領域のうち、前記推定位置を含む前記候補領域を、前記オブジェクト領域として特定する、請求項１又は２に記載の情報処理装置。
　前記推定位置検出部は、前記対象オブジェクトの推定位置を複数検出し、
　前記特定部は、各前記候補領域について、その候補領域が前記推定位置を含む度合いを表す第１スコアを算出し、前記第１スコアが最も大きい前記候補領域、又は前記第１スコアが所定値以上である候補領域を、前記オブジェクト領域として特定する、請求項１又は２に記載の情報処理装置。
　前記候補領域検出部は、各候補領域について、その候補領域が前記対象オブジェクトを表す確率を算出し、
　前記特定部は、各候補領域について、その候補領域が前記推定位置を含む度合いと、その候補領域が前記対象オブジェクトを表す確率との積に基づく第２スコアを算出し、前記第２スコアが最も大きい前記候補領域、又は前記第２スコアが所定値以上である候補領域を、前記オブジェクト領域として特定する、請求項１又は２に記載の情報処理装置。
　前記特定部は、前記候補領域の代表点と前記推定位置との間の距離を算出し、前記算出した距離が所定値以下である前記候補領域を前記オブジェクト領域として特定する、請求項１又は２に記載の情報処理装置。
　前記推定位置検出部は、前記対象オブジェクトが所定値以上の確率で存在する前記撮像画像上の位置を前記推定位置として算出する、請求項１乃至６いずれか一項に記載の情報処理装置。
　前記推定位置検出部は、前記撮像画像のうち、前記候補領域を含む一部の画像領域から前記推定位置を検出する、請求項１乃至７いずれか一項に記載の情報処理装置。
　オブジェクトの種類を示す種類情報を取得する種類情報取得部を有し、
　前記種類情報に示されている種類のオブジェクトを前記対象オブジェクトとする、請求項１乃至８いずれか一項に記載の情報処理装置。
　コンピュータによって実行される制御方法であって、
　検出対象である対象オブジェクトの画像特徴に基づいて、撮像画像から、前記対象オブジェクトを表すと推定される画像領域である候補領域を１つ以上検出する候補領域検出ステップと、
　前記撮像画像から人物を表す人物領域を検出し、前記人物領域に基づいて、前記撮像画像における前記対象オブジェクトの推定位置を検出する推定位置検出ステップと、
　前記１つ以上の候補領域と前記推定位置に基づいて、前記１つ以上の候補領域の中から、前記対象オブジェクトを表す画像領域であるオブジェクト領域を特定する特定ステップと、を有する制御方法。
　前記推定位置検出ステップにおいて、人物領域が入力されたことに応じて前記対象オブジェクトの推定位置を出力するように学習された検出器を用いて、前記撮像画像から前記対象オブジェクトの推定位置を検出する、請求項１０に記載の制御方法。
　前記特定ステップにおいて、前記１つ以上の候補領域のうち、前記推定位置を含む前記候補領域を、前記オブジェクト領域として特定する、請求項１０又は１１に記載の制御方法。
　前記推定位置検出ステップにおいて、前記対象オブジェクトの推定位置を複数検出し、
　前記特定ステップにおいて、各前記候補領域について、その候補領域が前記推定位置を含む度合いを表す第１スコアを算出し、前記第１スコアが最も大きい前記候補領域、又は前記第１スコアが所定値以上である候補領域を、前記オブジェクト領域として特定する、請求項１０又は１１に記載の制御方法。
　前記候補領域検出ステップにおいて、各候補領域について、その候補領域が前記対象オブジェクトを表す確率を算出し、
　前記特定ステップにおいて、各候補領域について、その候補領域が前記推定位置を含む度合いと、その候補領域が前記対象オブジェクトを表す確率との積に基づく第２スコアを算出し、前記第２スコアが最も大きい前記候補領域、又は前記第２スコアが所定値以上である候補領域を、前記オブジェクト領域として特定する、請求項１０又は１１に記載の制御方法。
　前記特定ステップにおいて、前記候補領域の代表点と前記推定位置との間の距離を算出し、前記算出した距離が所定値以下である前記候補領域を前記オブジェクト領域として特定する、請求項１０又は１１に記載の制御方法。
　前記推定位置検出ステップにおいて、前記対象オブジェクトが所定値以上の確率で存在する前記撮像画像上の位置を前記推定位置として算出する、請求項１０乃至１５いずれか一項に記載の制御方法。
　前記推定位置検出ステップにおいて、前記撮像画像のうち、前記候補領域を含む一部の画像領域から前記推定位置を検出する、請求項１０乃至１６いずれか一項に記載の制御方法。
　オブジェクトの種類を示す種類情報を取得する種類情報取得ステップを有し、
　前記種類情報に示されている種類のオブジェクトを前記対象オブジェクトとする、請求項１０乃至１７いずれか一項に記載の制御方法。
　請求項１０乃至１８いずれか一項に記載の制御方法の各ステップをコンピュータに実行させるプログラム。