WO2021054217A1

WO2021054217A1 - 画像処理装置、画像処理方法及びプログラム

Info

Publication number: WO2021054217A1
Application number: PCT/JP2020/034093
Authority: WO
Inventors: 内山　寛之; 東條　洋; 山本　真司
Original assignee: キヤノン株式会社
Priority date: 2019-09-20
Filing date: 2020-09-09
Publication date: 2021-03-25
Also published as: US20220207904A1

Abstract

画像処理装置において、複数の部位を有する物体を撮像した画像から、該物体の部位に対応させて第１の特徴点群を検出する第１の検出手段（１０２）と、前記第１の検出手段によって検出された前記第１の特徴点毎に、該特徴点が示す位置が該特徴点に対応する前記部位である確からしさを示す信頼度を取得する取得手段（１０２）と、前記信頼度が小さい前記第１の特徴点に対応する前記部位について、前記第１の特徴点の一部に基づいて第２の特徴点を検出する第２の検出手段（１０４）と、前記第１の特徴点の一部と前記第２の特徴点とに基づいて、前記物体が存在する領域を決定する決定手段（１０６）と、を設けることにより、物体の一部が遮蔽された状況においても、物体の領域を決定できるようにする。

Description

画像処理装置、画像処理方法及びプログラム

　本発明は、画像における人物の検出に関する。

　監視カメラシステムにおいて、カメラ画像から人物などの物体を検出して、他のカメラで検出された物体と同一であるか否かを判定する技術がある。同定対象の物体が人物である場合、まず、カメラ画像中から物体を検出する。次に、その物体の領域から物体固有の特徴を表す照合特徴を抽出する。そして、異なるカメラで検出された物体の照合特徴を比較することで、これらの物体が同一であるか否かを識別する。特許文献１では、物体の特徴点を抽出し、特徴点群の外接矩形から物体領域を決定する。

特開２０１４－１９７３８６号公報

　物体領域の決定、画像処理、画像認識の精度低下の原因として、被写体の一部が他の物体に遮蔽される「オクルージョン」が知られている。特徴点の検出であれば、遮蔽された周辺領域は被写体の画像特徴を正しく抽出することができないため、特徴点を正しく推定することができない。また、人物照合のための照合特徴の抽出であれば、人物を特定するための情報を遮蔽された周辺領域から正しく抽出することができない。このような場合、特許文献１の方法では、物体の領域を決定できない。本発明は上記課題に鑑みてなされたものであり、物体の一部が遮蔽された状況においても、物体の領域を決定することを目的とする。

　本発明の目的を達成するために、複数の部位を有する物体を撮像した画像から、該物体の部位に対応させて第１の特徴点群を検出する第１の検出手段と、前記第１の検出手段によって検出された前記第１の特徴点毎に、該特徴点が示す位置が該特徴点に対応する前記部位である確からしさを示す信頼度を取得する取得手段と、前記信頼度が小さい前記第１の特徴点に対応する前記部位について、前記第１の特徴点の一部に基づいて第２の特徴点を検出する第２の検出手段と、前記第１の特徴点の一部と前記第２の特徴点とに基づいて、前記物体が存在する領域を決定する決定手段と、を有することを特徴とする。

　添付図面は明細書に含まれ、その一部を構成し、本発明の実施の形態を示し、その記述と共に本発明の原理を説明するために用いられる。

実施形態画像表示装置の機能構成例を示すブロック図画像特徴決定部の機能構成例を示すブロック図ハードウェア構成例を示すブロック図実施形態画像処理装置が実行する処理の流れを示すフローチャート画像処理装置が実行する処理の流れを示すフローチャート画像処理装置が実行する処理の流れを示すフローチャート腰の特徴点の補正の一例を説明する図腰の特徴点の補正の一例を説明する図腰の特徴点の補正の一例を説明する図足の特徴点の補正の一例を説明する図足の特徴点の補正の一例を説明する図足の特徴点の補正の一例を説明する図物体の領域を決定する処理を説明する図物体の領域を決定する処理を説明する図画像処理装置が実行する処理の流れを示すフローチャート部分画像領域外の特徴点を補正する処理を説明する図ニューラルネットワークの構成例を説明する図ニューラルネットワークに学習させる処理の流れを示すフローチャート画面表示例を説明する図顔における部位の例を説明する図サブネットワークの構成例を説明する図サブネットワークの構成例を説明する図サブネットワークの構成例を説明する図サブネットワークの構成例を説明する図サブネットワークの構成例を説明する図画像統合サブネットワークの構成例を説明する図人物の遮蔽部分の一例を説明する図

　以下、本発明の実施形態について説明する。

　＜実施形態１＞
　図３に、本実施形態のハードウェア構成例を示す。図３で、３０１はＣＣＤ、ＣＭＯＳ、等で構成され、被写体像を光から電気信号に変換するための撮像素子（撮像手段）である。３０２は撮像素子３０１から得られた被写体像に関する時系列信号を処理し、デジタル信号に変換する信号処理回路である。３０１と３０２はカメラとしてバスに接続されている。３０３はＣＰＵであり、ＲＯＭ３０４に格納されている制御プログラムを実行することにより、本装置全体の制御を行う。３０４はＲＯＭであり、ＣＰＵ３０３が実行する制御プログラムや各種パラメータデータを格納する。制御プログラムは、ＣＰＵ３０３で実行されることにより、後述するフローチャートに示す各処理を実行するための各種手段として、当該装置を機能させる。３０５はＲＡＭであり、画像や各種情報を記憶する。また、ＲＡＭ３０５は、ＣＰＵ３０３のワークエリアやデータの一時待避領域として機能する。３０６はディスプレイである。３０７はマウス等のポインティングデバイスや、キーボード等の入力装置であり、ユーザからの入力を受け付ける。３０８はネットワークやバス等の通信装置であり、他の通信装置とデータや制御信号を通信する。なお、本実施形態では、後述するフローチャートの各ステップに対応する処理を、ＣＰＵ３０３を用いてソフトウェアで実現することとするが、その処理の一部または全部を電子回路などのハードウェアで実現するようにしても構わない。また、本発明の画像表示装置は、撮像素子３０１や信号処理回路３０２を省いて汎用ＰＣを用いて実現してもよいし、専用装置として実現するようにしても構わない。また、ネットワークまたは各種記憶媒体を介して取得したソフトウェア（プログラム）をパーソナルコンピュータ等の処理装置（ＣＰＵ，プロセッサ）にて実行してもよい。

　実施形態の説明に先立って用語について説明する。特徴点とは、複数の部位から構成される物体の構成単位と対応づけられた点である。以下の説明において、特徴点は、具体的には画像における人物の関節の位置（２次元座標）とする。信頼度は、検出された前記特徴点毎に算出され、その特徴点に対応する部位が画像上の存在する尤度を示す０から１の実数である。例えば、特徴点として人物の頭の位置を検出するとき、画像においてある人物の頭部がはっきりと映っていれば信頼度は大きくなる。逆に、頭部が霞んで映っている場合や、何か他の物体に頭部が遮蔽されている場合は、頭部に対応する特徴点の信頼度は小さくなる。つまり、該特徴点が示す位置が該特徴点に対応する前記部位である確からしさを示す。本実施形態は監視対象の物体として人物を例に説明するが、これに限定せず、動物や車など他の物体でも構わない。すなわち、複数の部位からなる構造物であれば適用可能である。本実施形態では、人物の全身の特徴量を用いて人物を同定する。一方、顔を用いて人物の同定を行ってもよく、この場合、特に「顔認証」、「顔照合」、「顔検索」などの名称で知られている。

　本実施形態の構成を図１に示す。本実施形態は、画像取得部１０１、第１の検出部１０２、特徴群部１０３、第２の検出部１０４、特徴点記憶部１０５、領域決定部１０６、画像抽出部１０７、画像特徴抽出部１０８、認識部１０９、表示部１１０、学習部１１１、物体記憶部１１２で構成される。

　画像取得部１０１はカメラから複数の部位を有する物体を撮像した画像フレームを取得する。第１の検出部１０２は画像フレームから物体の特徴点の位置とその信頼度を検出する。画像における人物の関節の位置とその信頼度を検出する方法の詳細は後述する。特徴群決定部１０３は、第１の検出部１０２で検出された特徴点の位置と信頼度に基づいて、信頼度が所定の値より小さい特徴点を検出するための特徴群を決定する。この特徴点群の組み合わせは事前に用意されており、この中から特徴点の信頼度の条件に応じて決定する。この具体的な方法は後述する。第２の検出部１０４は、第１の検出部によって検出された特徴点のうち所定の特徴点の信頼度が所定の値より小さい場合は、第１の検出手段とは異なる方法で、画像から前記所定の特徴点を検出する。特徴点の検出は、特徴点間の相対位置関係を用いて行う。具体的な方法は後述する。特徴点記憶部１０５は検出された特徴点を記憶する。領域決定部１０６は特徴点から物体が存在する領域を決定する。検出された特徴点のうち、事前に決められた特定の特徴点の組み合わせを用いて、画像特徴抽出の対象の物体が存在する領域を決定する。画像抽出部１０７は画像フレームから、領域決定部で決定された領域を切り出す。画像特徴抽出部１０８は切り出された部分画像からニューラルネットワークなどを用いて人物を識別するための画像特徴を抽出する。認識部１０９は抽出された画像特徴を用いて画像認識を行う。本実施形態では画像認識として人物の同定を行う。具体的には、抽出した画像特徴同士を比較することで、この特徴量が同一人物のものか否かを判別する。詳細は後述する。表示部１１０は画像認識の結果を画面に表示する。学習部１１１は画像特徴抽出部１０８で画像特徴抽出に用いるニューラルネットワークなどを学習する。物体記憶手段１１２は認識部１０９で使用する物体の情報が記憶されている。

　図１の画像特徴抽出部１０８の構成例を図２に示す。画像特徴抽出部１０８は領域外特徴点補正部２０２、物体部位抽出部２０３、中間画像特徴抽出部２０４、信頼度変換部２０５、特徴統合部２０６、画像特徴出力部２０７で構成される。

　領域外特徴点補正部２０２は図１の特徴点抽出部１０２で抽出した特徴点のうち、部分画像領域外の特徴点を補正する。物体部位抽出部２０３は画像から物体の部位（パーツ）を抽出する。中間画像特徴抽出部２０４は画像と物体の部位から中間画像特徴を抽出する。信頼度変換部２０５は特徴点抽出部１０２で抽出した特徴点の信頼度に変換処理を適用する。特徴統合部２０６は中間画像特徴抽出部２０４の出力と信頼度変換部２０５の出力を統合する。画像特徴出力部２０７は特徴統合部２０６の出力から画像特徴を生成する。

　本画像処理装置の動作を図４のフローチャートで説明する。図４のフローチャートに示した処理は、コンピュータである図３のＣＰＵ３０３によりＲＯＭ３０４に格納されているコンピュータプログラムに従って実行される。

　ステップ４０１では、画像取得部１０１が、カメラから画像フレームを取得する。本ステップは図１の画像取得部１０１の動作に該当する。

ステップ４０２は、ステップ４０１で取得した複数の部位を有する物体を撮像した画像から、該物体の部位に対応づけられた複数の特徴点を検出する（第１の検出方法）。本ステップは図１の第１の検出部１０２の動作に該当する。また、ステップ４０２では画像フレームを入力とし、画像中に存在する人物の複数の特徴点とそれらの信頼度を抽出する。検出された前記特徴点毎に、該特徴点が前記画像に映っている確からしさを示す信頼度を取得する。画像処理対象が人物であれば、特徴点として人体の関節位置を用いることができる。本ステップで検出する特徴点は、頭頂、首、腰、右足首、左足首の５点である。特徴点の検出には、Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｐｏｓｅ　Ｍａｃｈｉｎｅｓを使用する。（Ｓｈｉｈ－Ｅｎ　Ｗｅｉ　ｅｔ　ａｌ．，“Ｃｏｎｖｏｌｕｔｉｏｎａｌ　ＰｏｓｅＭａｃｈｉｎｅｓ，”ＩＥＥＥ，２０１６．）。この方法では、学習済みモデル（ニューラルネットワーク）を用いて、それぞれの関節位置が画像上のどこに存在しているかを示す信頼度マップを算出する。信頼度マップは２次元のマップであり、関節点の数をＰとすると、Ｐ＋１枚存在する（１枚は背景に対応するマップ）。ある関節点の信頼度マップにおいて、信頼度の大きい位置をその関節点が存在する位置とみなす。信頼度は、その特徴点の存在する尤度を示す０から１の実数である。１に近いほど関節点が存在する確度が高い。他の物体に遮蔽されている関節点は、人物でない物体上から抽出されるため、人物関節としての尤もらしさが低下する。したがって、他の物体に遮蔽されていない関節に比べ、関節の位置の信頼度が低くなる。一方、他の物体に隠されていない関節は、人物上から良好に抽出されるため、関節の信頼度が高くなる。

なお、物体の特徴点とその信頼度の検出方法は、Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｐｏｓｅ　Ｍａｃｈｉｎｅｓ以外の方法を用いても構わない。例えば、ルールベースの方法を用いて、人体の各関節点について抽出した画像特徴を用いて各関節点を特定しても良い。他、画像から頭部の画像特徴を抽出し、頭部が抽出された位置から胴体の位置を推定しても良い。また、本実施形態では特徴点として人体の関節点を用いるが、画像処理対象が顔ならば、顔特徴点を用いることができる。顔特徴点として、目、眉毛、鼻、口、耳などのパーツの中心や端点、輪郭線上の点、顔全体形状の輪郭線上の点などを用いることができる。

ステップ４０３では、特徴群決定部１０３が、第２の検出方法に用いる特徴点群を決定する。ステップ４０３は図１の特徴群決定部１０３の動作に該当する。ステップ４０３で決定された特徴点群は、第２の検出方法に用いる。特徴点群は組み合わせのパターンが複数用意されており、この中から特徴点の信頼度の条件に応じて組み合わせのパターンを選択し、特徴点群を決定する。特徴点群は後のステップ４０４での第２の検出方法で使用される。特徴点群には、補正後の位置を決定するために用いる特徴点（ここでは、頭、首または腰）が含まれる。本実施形態において、所定の特徴点として補正の対象となる特徴点は、腰、右足首、左足首である。右足首と左足首の補正は同じ手順で行うため、右足首の補正のみを取り上げて説明する。以下、処理対象の片側の足首を単に「足首」と表記する。

ステップ４０３の特徴群決定部１０３が実行する処理を図５のフローチャートで説明する。後述するように、補正に用いる特徴点群の候補として、特徴点群Ａ１、Ａ２、Ａ３、Ｂ１、Ｂ２、Ｂ３の６種類が事前に用意されている。腰の補正に関する特徴点群Ａ１、Ａ２、Ａ３から１つと、第２の検出方法における足首の検出に関する特徴点群Ｂ１、Ｂ２、Ｂ３から１つを条件に応じて決定する。

詳細は後述するが、特徴点群Ａ１は空集合であり、第１の検出部の検出結果をそのまま採用する。特徴点群Ａ２を用いて、現在フレームでの頭と首の位置から、腰の位置を検出する。特徴点群Ａ３を用いて、過去フレームでの頭と腰の位置から現在の腰の位置を検出する。特徴点群Ｂ１は空集合であり、第１の検出部の検出結果をそのまま採用する。特徴点群Ｂ２を用いて、現在フレームでの首と腰の位置から、足首の位置を検出する。特徴点群Ｂ３を用いて、過去フレームでの首と足首の位置から現在のフレームでの足首の位置を検出する。

図５のステップ５０１では、特徴群決定部１０３がステップ４０２で決定した現在のフレームでの腰の信頼度が事前に定められたしきい値以上か否かを評価する。しきい値以上だったらステップ５０３に進み、そうでなかったらステップ５０２に進む。。

ステップ５０２では、特徴群決定部１０３が、特徴点記憶部１０５で記憶された過去のフレームにおける腰の信頼度がしきい値以上か否かを評価する。しきい値以上だったらステップ５０５に進み、そうでなかったら５０４に進む。過去のフレームとは、図４のフローチャートの繰り返しループにおいて、１つ前の繰り返しループのステップ４０１で取得された画像フレームである。ただし、特徴点記憶部１０５に過去のフレームにおける特徴点が記憶されていない場合、すなわち初めて図４のステップ４０３を実行する場合は、ステップ５０４に進む。

ステップ５０３では、特徴群決定部１０３が、第２の検出方法に用いる特徴点群として特徴点群Ａ１を決定し、ステップ５０６に進む。特徴点群Ａ１が決定される場合は、現在フレームの腰の特徴点が信頼できる場合であり、腰の特徴点を以降の処理で検出し直す必要がない。

ステップ５０４では、特徴群決定部１０３が、第２の検出方法に用いる特徴点群として特徴点群Ａ２を決定し、ステップ５０６に進む。特徴点群Ａ２が決定される場合は、現在のフレームと過去のフレームの両方の腰の関節点が信頼できず、現在のフレームの頭と首の位置から現在のフレームの腰の位置を以降の処理で検出する。

ステップ５０５では、特徴群決定部１０３が、補正に用いる特徴点群として特徴点群Ａ３を選択し、ステップ５０６に進む。特徴点群Ａ３が選択される場合は現在のフレームの腰の特徴点が信頼できないが、過去のフレームの腰の特徴点は信頼できる場合であり、過去のフレームの頭と腰の位置から現在の腰の位置を以降の処理で補正する。

ステップ５０６は、特徴群決定部１０３が、ステップ４０２で決定した現在のフレームでの足首の信頼度が事前に定められたしきい値以上か否かを評価する。しきい値以上だったらステップ５０８に進み、そうでなかったらステップ５０７に進む。

ステップ５０７では、特徴群決定部１０３が、特徴点記憶部１０５で記憶された過去のフレームにおける足首の信頼度が事前に定められたしきい値以上か否かを評価する。しきい値以上だったらステップ５１０に進み、そうでなかったら５０９に進む。ただし、特徴点記憶部１０５に過去のフレームにおける特徴点が記憶されていない場合、すなわち初めて図４のステップ４０３を実行する場合は、ステップ５０９に進む。

ここで、Ｓ５０１、Ｓ５０２、Ｓ５０６、Ｓ５０７で用いるしきい値は、本実施例ではそれぞれ異なる値とするが、同じ値としても構わない。

ステップ５０８では、特徴群決定部１０３が、補正に用いる特徴点群として特徴点群Ｂ１を選択し、図５のフローチャートの処理を終了する。特徴点群Ｂ１が選択された場合は、現在フレームでの足の特徴点が信頼できる場合であり、足の位置を後の処理で検出する必要がない。

ステップ５０９では、特徴群決定部１０３が、補正に用いる特徴点群として特徴点群Ｂ２を選択し、図５のフローチャートの処理を終了する。特徴点群Ｂ２が選択された場合は、現在フレームと過去フレームの両方で足の位置が信頼できない場合であり、現在フレームの足と腰の位置から現在フレームの足の位置を以降の処理で検出する。

ステップ５１０では、特徴群決定部１０３が、補正に用いる特徴点群として特徴点群Ｂ３を選択し、図５のフローチャートの処理を終了する。特徴点群Ｂ３が選択された場合は現在フレームで足の特徴点が信頼できないが、過去フレームで足の特徴点が信頼できる場合であり、過去フレームの首と足の位置から現在フレームの位置を以降の処理で検出する。

以上のステップ５０６、５０７、５０８、５０９、５１０の説明では片側の足首（右足首）のみを対象としたが、特徴群決定部１０３は、もう片側の足首（左足首）についても同様に第２の検出方法に用いる特徴点群を決定する。なお、足首の位置を検出するには、なるべく足首の位置に近い特徴点から足首の位置を推定できると良い。そのため、腰の位置が採用できる（腰の位置の信頼度が高い）場合は、腰の位置を用いて足首の位置を検出する。腰の位置が分からない（腰の位置の信頼度が低い）場合は、腰の次に足首に近い首の位置を用いて足首の位置を検出する。以下の処理順序は上記の意図を踏まえた順序になっているが、順序は変えても構わない。また、腰の位置を検出せずに、足首の位置だけを検出するように特徴群を決定してもよい。

図４のステップ４０４では、第２の検出部１０４が、ステップ４０３で決定した特徴点群を用いて、第２の検出方法により所定の特徴点を検出する。ステップ４０４の処理は、図１の第２の検出部１０４に該当する。ステップ４０４の動作を図６のフローチャートを用いて説明する。図６の処理では、第２の検出部１０４は、図５のフローチャートの処理で決定した特徴点群Ａ１、Ａ２、Ａ３、Ｂ１、Ｂ２、Ｂ３に基づいて所定の特徴点（足首の位置）を検出する。

図４のステップ４０３と同様に、右足首と左足首の補正は同じ手順で行うため、右足首の検出のみを取り上げて説明する。以下、処理対象の片側の足首を単に「足首」と表記する。

図６のステップ６０１では第２の検出部１０４が、腰に関する特徴点群Ａ１、Ａ２、Ａ３のいずれが選択されているか判定する。特徴点群Ａ１が選択されていたらステップ６０２に進み、特徴点群Ａ２が選択されていたらステップ６０３に進み、特徴点群Ａ３が選択されていたらステップ６０４に進む。ステップ６０２、ステップ６０３、ステップ６０４では、第２の検出部１０４が、第２の検出方法で腰の特徴点の位置を検出する。

ステップ６０２では、第２の検出部１０４が、現在検出されている腰の特徴点の位置を補正しない。なぜなら、以前の処理で腰の特徴点の信頼度があるしきい値より大きく、信頼できると考えられるためである。

ステップ６０３は、現在の画像フレームで検出された頭と首の位置から、腰の位置を検出する。図７を用いて処理を説明する。図７Ａのように、図４のステップ４０２によって、頭頂７０１、首７０２、腰７０３、右足首７０４、左足首７０５の特徴点が検出されている。まず、図７Ｂのように、頭と首を結ぶ直線７０６を計算する。また、頭と首の間の距離をそれぞれの位置座標から計算する。ここで、人体の頭と首の距離と頭と腰の距離の比は、個人差はあるものの、およそ同じであると仮定できる。このため、腰の位置が、頭と首を結ぶ直線上となり、頭と首の距離と頭と腰の距離の比が所定のものとなるように検出する。図７Ｃに補正後の腰の特徴点７０７の例を示す。この所定の比は、例えば平均的な成人の人体部位の比から定めることができる。

ステップ６０４では、第２の検出部１０４が、過去フレームでの頭と腰の位置から現在の腰の位置を検出する。まず、特徴点記憶部１０５で記憶された過去のフレームの特徴点から、頭と腰の距離を計算する。次に、現在のフレームにおいて、図７Ｂと同様に、頭と首を結ぶ直線を計算する。ここで、過去のフレームにおける頭と腰の距離と現在のフレームにおける頭と腰の距離はおよそ同じであると仮定する。そして、腰の位置が頭と首を結ぶ直線上となり、現在のフレームにおける頭と腰の距離が過去のフレームにおける頭と腰の距離と等しくなるように、現在のフレームにおける腰の位置を検出する。

　図６のステップ６０５では第２の検出部１０４が、足首に関する特徴点群Ｂ１、Ｂ２、Ｂ３のいずれが選択されているか判定する。特徴点群Ｂ１が選択されていたらステップ６０６に進み、特徴点群Ｂ２が選択されていたらステップ６０７に進み、特徴点群Ｂ３が選択されていたらステップ６０８に進む。ステップ６０７、ステップ６０８では、足首の特徴点の位置を検出する。ステップ６０６では、第２の検出部１０４が、現在検出されている足首の特徴点の位置を補正しない。

　ステップ６０７では、第２の検出部１０４が、現在フレームでの首と腰の位置から、足首の位置を検出する。図８Ａから図８Ｃを用いて処理を説明する。図８Ａのように、図４のステップ４０２によって、頭頂８０１、首８０２、腰８０３、右足首８０４、左足首８０５の特徴点が検出されている。まず、図８Ｂのように、首と腰を結ぶ直線８０６（体軸）を計算する。また、首と腰の間の距離をそれぞれの位置座標から計算する。ここで、人体の首と腰の距離と首と右足首の距離の比は、個人差はあるものの、およそ同じであると仮定できる。このため、足首の位置が、首と腰を結ぶ直線上となり、首と腰の距離と首と足首の距離の比が所定のものとなるように検出する。図８Ｃに足首８０７の特徴点の検出後の例を示す。

　ステップ６０４は、第２の検出部１０４が、過去フレームでの首と足首の位置から現在のフレームでの足首の位置を検出する。まず、特徴点記憶部１０５で記憶された過去のフレームの特徴点から、首と腰の距離を計算する。次に、現在のフレームにおいて、図８Ｂと同様に、首と腰を結ぶ直線（体軸）を計算する。ここで、過去のフレームにおける首と足首の距離と現在のフレームにおける首と足首の距離はおよそ同じであると仮定する。そして、足首の位置が体軸上となり、現在のフレームにおける首と足首の距離が過去のフレームにおける首と足首の距離と等しくなるように、現在のフレームにおける足首の位置を検出する。

　以上のステップ６０５、６０６、６０７、６０８の説明では右足首のみを対象としたが、左足首についても同様に検出を行う。この処理によって、足首部分がオクルージョンやノイズによって第１の検出部で上手く検出されない場合でも、より確からしい足首の位置を検出することができる。

　図４のステップ４０５では、領域決定部１０６が、検出された前記特徴点に基づいて、前記物体が存在する領域を決定する。この部分画像領域は、撮像画像における人物が存在する領域を示し、後の処理で人物画像を画像フレームから抽出する領域の指定に用いる。ステップ４０５の動作は図１の領域決定部１０６に該当する。ステップ４０５の処理を図９Ａを用いて説明する。図９Ａのように、画像フレーム９０３中に頭頂、首、腰、右足首、左足首の特徴点が存在する。まず、領域決定部１０６が、右足首と左足首の中点を計算する。そして、領域決定部１０６が、頭とその中点を結ぶ直線９０１（体軸）を計算する。本実施形態では、部分画像領域は矩形であり、アスペクト比が事前に定められたものとする。領域決定部１０６は、矩形の縦方向が体軸に平行であり、矩形の中心軸が体軸と等しく、矩形の上辺が頭と接し、矩形の下辺が足首と接するように、矩形９０２を決定する。このとき、矩形の上辺と頭の間と、矩形の下辺と足首の間に余白を設けても構わない。例えば、頭と足首の距離（身長）に一定の係数を乗算した大きさの余白を設けても構わない。すなわち、部分画像領域は特徴点の外接矩形を基に決定する。本実施形態では、矩形のアスペクト比は後のニューラルネットワークへの入力を容易にするために固定としたが、後の処理の構成によっては固定でなくても構わない。なお、補正した関節位置を用いる場合、ここで決定した領域には人物の部位が遮蔽されていることや、ノイズが多く出ていることがあり得る。例えば、図１８のように、足首の部位が遮蔽物１８０３によって隠されている場合でも人物の部位を含む領域として決定する。このように領域を決定することで、矩形の中における人体の部位の配置が整合的な部分画像領域を決定できる。部位の配置を整合的にすることで、後段で行う特徴量の抽出処理において、各部位の特徴がより反映された各部位の特徴量を抽出できる効果がある。

　図４のステップ４０６では、画像抽出部１０７が、ステップ４０５で決定した部分画像領域を人物画像として画像フレームから切り出す。ステップ４０５で決定した部分画像領域の矩形が傾斜している場合は、矩形が直立するように画像を回転する。図９Ａから切り出した例を図９Ｂに図示する。ステップ４０６の動作は図１の画像抽出部１０７に該当する。

ステップ４０７では、特徴点記憶部１０５が、現在フレームにおける補正後の部位を記憶する。ステップ４０７の動作は図１の特徴点記憶部１０５に該当する。

ステップ４０８では、画像特徴抽出部１０８が部分画像領域（人物画像）から特徴量を抽出する。ステップ４０８の動作は図１および図２の画像特徴抽出部１０８に該当する。ステップ４０８の動作を図１０のフローチャートを用いて説明する。

図１０のステップ１００１は領域外特徴点補正部２０２が、部分画像領域と特徴点の座標に基づいて、部分画像領域外の特徴点の信頼度を補正する。ステップ１００１は図２の領域外特徴点補正部２０２が実行する処理である。部分画像領域の矩形のアスペクト比が固定である場合、手足を広げているときなど、特徴点が部分画像領域に含まれない場合がある。部分画像領域外にある人体部位は特徴抽出の範囲外であり、この部分における特徴抽出の精度が低下する問題がある。このため、後のステップでその影響を軽減するために、部分領域外の特徴点の信頼度を減少させる調整を施す。例えば、図１１において、右足首１１０４が矩形１１０６の範囲外であり、この右足首の特徴点の信頼度を減少させる。本実施形態では、元の信頼度に１より小さいあらかじめ定めた実数値を乗じた値を補正後の信頼度とする。このように、部分領域外の特徴点の信頼度を減少させることで、部分領域外に人体パーツが配置されたことによる特徴抽出の精度の低下の問題と、遮蔽による特徴抽出の精度の低下の問題を、以降で共通の処理で対処することができる。

　ステップ１００２では画像特徴出力部２０７が部分画像領域と特徴点の信頼度から特徴量を抽出する。特徴量の抽出は次に説明するようなニューラルネットワークが使用できる。図１２にニューラルネットワークの構成例を示す。図１２のニューラルネットワークは画像１２０１と特徴点信頼度１２０６を入力とし、画像特徴１２１０を出力する。ニューラルネットワークは、画像変換サブネットワーク１２０２、信頼度変換サブネットワーク１２０７、統合サブネットワーク１２０８、特徴出力サブネットワーク１２０９で構成される。画像変換サブネットワーク１２０２は図２の中間画像特徴抽出部２０４に該当する。信頼度変換サブネットワーク１２０７は図２の信頼度変換部２０５に該当する。統合サブネットワーク１２０８は図２の特徴統合部２０６に該当する。特徴出力サブネットワーク１２０９は図２の画像特徴出力部２０７に該当する。

　ニューラルネットワークで扱う入力データ、中間データ、出力データはテンソルとして扱われる。テンソルは多次元の配列として表現されるデータで、その次元数は階数とよばれる。階数が０のテンソルはスカラー、階数が１のテンソルはベクトル、階数が２のテンソルは行列と呼ばれる。例えば、チャネル数が１の画像（グレースケール画像など）はサイズＨ×Ｗの階数２のテンソル、またはサイズＨ×Ｗ×１の階数３のテンソルとして扱える。また、ＲＧＢ成分を持つ画像はサイズＨ×Ｗ×３の階数３のテンソルとして扱える。

　テンソルをある次元のある位置で切断した面を取り出したデータおよびその操作をスライスと呼ぶ。例えば、サイズＨ×Ｗ×Ｃの階数３のテンソルを３番目の次元のｃ番目の位置でスライスすることで、Ｈ×Ｗの階数２のテンソルまたはＨ×Ｗ×１の階数３のテンソルが得られる。

　あるテンソルに畳み込み演算を行う層をコンボリューション層（Ｃｏｎｖと略記）と呼ぶ。畳み込み演算に用いるフィルタの係数を「重み」と呼ぶ。一例として、コンボリューション層によって、Ｈ×Ｗ×Ｃの入力テンソルからＨ×Ｗ×Ｄの出力テンソルを生成する。

　あるベクトルに重み行列を乗算し、バイアスベクトルを加算する操作を行う層を全結合層（ＦＣと略記）と呼ぶ。一例として、長さＣのベクトルから、全結合層を適用することで長さＤのベクトルを生成する。

　あるテンソルを区間に区切り、その区間の最大値を取ることで、テンソルのサイズを縮小する操作を最大プーリングと呼ぶ。最大値ではなく、区間の平均値をとる場合には平均プーリングと呼ぶ。本実施形態では、最大プーリングを用い、これを行うニューラルネットワークの層を単にプーリング層（Ｐｏｏｌｉｎｇと略記）と呼ぶ。本実施形態では、プーリング層によって、１次元目と２次元目の大きさが入力の半分となるようなテンソルを出力する。具体的には、Ｈ×Ｗ×Ｃの入力テンソルからＨ／２×Ｗ／２×Ｃの出力テンソルを生成する。

　ニューラルネットワークにおいて、通常コンボリューション層の後に適用する非線形関数を活性化関数と呼ぶ。活性化関数として正規化線形関数（ＲｅＬＵと略記）、シグモイド関数などがある。特に、シグモイド関数は出力値の範囲が０から１となる性質がある。本実施形態では、断りがなければ活性化関数としてＲｅＬＵを用いる。

　ニューラルネットワークにおいて、テンソル同士をある次元方向に並べて連結する操作を「連結」と呼ぶ。

　Ｇｌｏｂａｌ　ａｖｅｒａｇｅ　ｐｏｏｌｉｎｇについて説明する。階数３のサイズＨ×Ｗ×Ｃのテンソルにおいて、３番目の次元の全ての位置でのスライスに対し、それぞれスライスに含まれる全要素の平均値をとる。そして、このＣ個の平均値を並べることで、長さＣのベクトルを生成する。この操作をＧｌｏｂａｌ　ａｖｅｒａｇｅ　ｐｏｏｌｉｎｇと呼ぶ。

　図１２において、ニューラルネットワークの入力となる画像１２０１のサイズは幅Ｗ１、高さＨ１、チャネル数３とする。すなわち、画像はＨ１×Ｗ１×３のテンソルとみなせる。

　画像変換サブネットワーク１２０２は画像１２０１を特徴マップに変換する。画像変換サブネットワーク１２０２はさらに前処理サブネットワーク１２０３、パーツ推定サブネットワーク１２０４、画像統合サブネットワーク１２０５で構成される。

　画像変換サブネットワーク１２０２は、検出された特徴点に対応する部位毎に物体を識別するための特徴量を抽出する。具体的にはＬ．　Ｚｈａｏらの論文のように、パーツを推定し、パーツの特徴を抽出するモジュールを含む。画像変換サブネットワーク１２０２は図２の物体部位抽出部２０３に該当する。（Ｌ．　Ｚｈａｏ　ｅｔ　ａｌ．“Ｄｅｅｐｌｙ－Ｌｅａｒｎｅｄ　Ｐａｒｔ－Ａｌｉｇｎｅｄ　Ｒｅｐｒｅｓｅｎｔａｔｉｏｎｓ　ｆｏｒ　Ｐｅｒｓｏｎ　Ｒｅ－Ｉｄｅｎｔｉｆｉｃａｔｉｏｎ，”　　ＩＥＥＥ，２０１７。）本実施形態では特徴抽出を行うニューラルネットワーク内で物体部位抽出部２０３を動作させるが、このニューラルネットの外で物体部位抽出部２０３を動作させ、外からパーツの位置や大きさに関する情報を与えてもいい。また、物体部位抽出部２０３と図１の第１の検出部１０２は互いに用途を兼ねてもよく、第１の検出部１０２の出力に由来する情報を物体部位抽出部２０３の出力として用いてもよく、その逆を行ってもよい。なお、ここで抽出される部位毎の特徴量は、後の処理で全体特徴量として統合される。その際、特徴点毎の信頼度に応じて各部位の特徴量を全体特徴量に反映する重みづけをする。つまり、信頼度が小さい特徴点に対応する部位から抽出された特徴量が最終的な認識結果に寄与することを抑制する。信頼度が小さい特徴点は物体が遮蔽されていることや、ノイズが多くなっている可能性があり、その部位から抽出された特徴量は必ずしもその物体の部位の特徴を示しているとは限らないためである。このような処理を行うことで、物体の特徴をより反映した特徴量を生成でき、物体の認識精度が向上する効果が期待できる。

　画像変換サブネットワーク１２０２は１つ以上のコンボリューション層（Ｃｏｎｖ）、最大プーリング層（Ｐｏｏｌｉｎｇ）のシーケンスで構成できる。本実施形態では、「Ｃｏｎｖ、Ｃｏｎｖ、Ｐｏｏｌｉｎｇ、Ｃｏｎｖ、Ｐｏｏｌｉｎｇ、Ｃｏｎｖ、Ｐｏｏｌｉｎｇ、Ｃｏｎｖ」といったシーケンスで構成する。構成の概略を図１６Ａに示す。画像に画像変換サブネットワークを適用した結果、Ｈ２×Ｗ２×Ｃ２のテンソルを得る。

　パーツ推定サブネットワーク１２０４は画像変換サブネットワーク１２０２の出力を入力とし、特徴マップであるＨ２×Ｗ２×Ｐ１のテンソルを出力する。ここで、Ｐ１は推定するパーツの数であり、事前に定められた任意の数でよい。このテンソルの３番目の次元の位置ｐでのスライス（サイズがＨ２×Ｗ２×１のテンソル）はｐ番目のパーツの存在位置を示すマスク画像である。それぞれの画素は０から１の値を取り、１に近いほどその位置にそのパーツが存在する確度が高い。パーツ推定サブネットワーク１２０４は１つのコンボリューション層とシグモイド関数で構成される。構成の概略を図１６Ｂに示す。パーツ推定ネットワークの構成はこれに限らず、複数のコンボリューション層で構成しても構わない。

　画像統合サブネットワーク１２０５は画像変換サブネットワーク１２０２とパーツ推定サブネットワーク１２０４の出力を統合する。図１７に処理の流れを示す。まず、パーツ推定サブネットワークの出力テンソル１７０１の３番目の次元での位置ｐでのスライス１７０２（サイズがＨ２×Ｗ２×１のテンソル）をＣ２個コピーして３番目の次元方向に連結し、サイズＨ２×Ｗ２×Ｃ２のテンソル１７０３に拡張する。そして、このテンソルの各要素について、画像変換サブネットワーク１２０２の出力テンソル１７０４の各要素と乗算することで、新たなテンソル１７０５（サイズＨ２×Ｗ２×Ｃ２）を生成する。そして、このテンソルに対し、ｇｌｏｂａｌ　ａｖｅｒａｇｅ　ｐｏｏｌｉｎｇを適用することで、長さＣ２のベクトル１７０６を生成し、さらに全結合層を適用することで長さＣ３のベクトル１７０７を生成する。この処理をすべてのパーツのチャネルｐに対して適用し、それぞれの生成されたベクトルを連結したベクトル１７０８を生成する。すなわち、画像統合サブネットワークで生成されるベクトル１７０８の長さは（Ｃ３）Ｐ１である。本実施形態では統合対象のデータがベクトルであるが、ベクトルはテンソルの一種であり、統合対象のデータが２階以上のテンソルである場合にも同様に結合によって統合しても構わない。

　特徴点信頼度１２０６は長さＣ４のベクトルとする。本実施形態では、図４のステップ４０２で検出される特徴点の数が５なのでＣ４＝５である。

　信頼度変換サブネットワーク１２０７は、特徴点信頼度１２０６を長さＣ５のベクトルに変換する。信頼度変換サブネットワーク１２０７は０個以上の全結合層で構成できる。本実施形態では１個の全結合層とする。構成の概略を図１６Ｃに示す。

　統合サブネットワーク１２０８は画像統合サブネットワーク１２０５の出力ベクトルと信頼度変換サブネットワーク１２０７の出力ベクトルを統合する。統合サブネットワーク１２０８は長さＣ６のベクトルを出力する。本実施形態では、この２つのベクトルを連結する。構成の概略を図１６Ｄに示す。そのため、Ｃ６＝（Ｃ３）Ｐ１＋Ｃ５となる。

　特徴出力サブネットワーク１２０９は統合サブネットワーク１２０８の出力ベクトルを入力とし、長さＣ７のベクトルである画像特徴１２１０を出力する。特徴出力サブネットワーク１２０９は１つ以上の全結合層で構成できる。本実施形態では２つの全結合層で構成する。構成の概略を図１６Ｅに示す。この画像特徴は、「照合特徴」、「人物特徴」、「ディスクリプタ」、「ｅｍｂｅｄｄｉｎｇ」とも呼ばれる。

　図４のステップ４０９では、認識部１０９が、ステップ４０８で抽出した人物画像の特徴量を人物データベースに保存してある特徴量と比較する。人物データベースとは、人物同定の対象のＮ人の人物の切り出し画像と特徴量（特徴ベクトル）があらかじめ登録されている記憶手段である。事前に人物同定対象の人物の画像を撮影しておき、ステップ４０２からステップ４０８と同様の方法で画像切り出しと特徴量抽出を行い保存してある。人物データベースは図１の物体記憶部１１２に記憶される。ステップ４０９では、認識部１０９が、人物データベース内の人物の特徴量とステップ４０８で抽出した人物画像の特徴量の距離を計算する。そして、距離順に人物データベース内の人物の並び替えを行い、最も距離の小さい人物を並びの先頭に配置する。ステップ４０９は図１の認識部１０９の処理に該当する。本実施形態では、特徴量の比較にユークリッド距離を用いる。特徴量の比較は他の方法でもよく、Ｌ１距離やコサイン距離などの他の距離指標でもよく、メトリクスラーニングやニューラルネットワークなどの機械学習を利用して比較しても構わない。

　図４のステップ４１０では、表示部１１０が、ステップ４０９で該当する人物を画面に表示する。ステップ４１０は図１の画像表示部１１０の処理に該当する。表示画面例を図１４に示す。表示画面１４０１にはクエリ１４０２とギャラリ１４０３で構成される。クエリ１４０２は検索したい人物の画像であり、ステップ４０６で切り出した人物画像を表示する。ギャラリ１４０３は検索結果の一覧であり、ステップ４０９で距離順に並び替えた人物データベース内の画像を順番に上位５人を表示する。この際、上位５人を表示してもいいし、５人の中から距離が事前に定めたしきい値以下の人物だけを表示しても構わない。ギャラリに表示される画像は、図４のステップ４０１からステップ４０７と同様の方法で切り出されてもいいし、他の方法で切り出されたものでよい。クエリとギャラリの人物の画像には、図１４のように、検出した特徴点の位置を示すマーカを重畳表示しても構わない。

　図４のステップ４１１では、情報処理装置１０が、フローチャートの処理を終了するか否かを判定する。本実施形態では、ステップ４１１の実行回数が規定回数以上になった場合、終了すると判定する。そうでなかった場合、ステップ４０１に進み、フローチャートの処理を続行する。

　＜ニューラルネットワークの学習＞
　図１の画像特徴抽出部１０８で使用するニューラルネットワークの学習の方法を図１３のフローチャートを用いて説明する。図１３のフローチャートの処理は図１の学習部１１１に該当する。

　ニューラルネットワークの構造は上述のように図１２で示される。ニューラルネットワークは画像１２０１と特徴点信頼度１２０６を入力とし、画像特徴１２１０を出力する。

　ニューラルネットワークはｔｒｉｐｌｅｔ　ｌｏｓｓで学習する。（Ｆ．　Ｓｈｒｏｆｆ　ｅｔ　ａｌ．“Ｆａｃｅ　Ｎｅｔ：　Ａ　Ｕｎｉｆｉｅｄ　Ｅｍｂｅｄｄｉｎｇ　ｆｏｒ　Ｆａｃｅ　Ｒｅｃｏｇｎｉｔｉｏｎ　ａｎｄ　Ｃｌｕｓｔｅｒｉｎｇ，”ａｒＸｉｖ：１５０３．０３８３２）。ｔｒｉｐｌｅｔ　ｌｏｓｓでは、アンカーサンプルと呼ばれるサンプル、ポジティブサンプルと呼ばれるアンカーと同じ人物のサンプル、ネガティブサンプルと呼ばれるアンカーと異なる人物のサンプルで構成される三つ組（ｔｒｉｐｌｅｔ）を使用する。アンカーサンプル、ポジティブサンプル、ネガティブサンプルから得られるそれぞれの特徴量を比較してロス関数を計算することで、ネットワークを更新する。

　図１３のステップ１３０１では、学習部１１１が、ネットワークを構成するコンボリューション層と全結合層の重みを初期化する。本実施形態では、重みの初期値として乱数を使用する。

　ステップ１３０２では、学習部１１１が、学習データ群から学習データをランダムに取得する。１つの学習データは三つ組（ｔｒｉｐｌｅｔ）であり、アンカーサンプル、ポジティブサンプル、ネガティブサンプルを１つずつ含む。アンカーサンプル、ポジティブサンプル、ネガティブサンプルは、それぞれ画像と特徴点信頼度で構成される。画像と特徴点信頼度は図４のフローチャートで使用するニューラルネットワークに入力するものと同様の手順で生成が行われている。

　ステップ１３０３では、学習部１１１が、学習データでネットワークを更新する。まず、アンカーサンプル、ポジティブサンプル、ネガティブサンプルに対し、現在の状態のネットワークを適用して、それぞれ特徴量を計算する。これらの３つの特徴量に対し、ｔｒｉｐｌｅｔ　ｌｏｓｓによってロスを計算する。そして、バックプロパゲーション法によって、ネットワーク内の重みを更新する。

　ステップ１３０４では、学習部１１１が学習を終了するか判定する。ステップ１３０４を規定回数実行した場合、終了すると判定し、図１３のフローチャートの一連の処理を終了する。終了しないと判定した場合、ステップ１３０２に進む。

　本実施形態によれば、特徴群決定部１０３および第２の検出部１０４において、良好な特徴点から良好でない特徴点をもう一度検出することができる。そのため、物体の一部が他の物体に遮蔽された状況や外乱を受けている状況においても、領域決定部１０６による物体領域決定の誤りを低減する効果が見込める。

　物体の一部が他の物体に遮蔽された領域や外乱を受けている領域において、第１の検出部１０２で取得される特徴点の信頼度は正常時よりも低下して出力されると仮定できる。このとき、これらの局所領域から抽出される画像認識のための画像特徴の品質も同時に低下すると考えられる。そのため、画像特徴抽出部１０８において、ある局所領域の信頼性を表す指標として特徴点の信頼度の情報を用いることで、画像特徴の品質の低下を軽減する効果が見込める。したがって、画像認識の精度が向上する効果が見込める。

　図１０のステップ１００１は部分画像領域外の特徴点の信頼度を減少させる。部分画像領域外にある人体部位は特徴抽出の範囲外であり、この部分における特徴抽出の精度が低下する問題がある。このため、後のステップでその影響を軽減するために、部分領域外の特徴点の信頼度を減少させることで、画像特徴の品質の低下を軽減する効果が見込める。

　ステップ４０３とステップ４０４において、現在のフレームだけでなく過去のフレームの特徴点も用いて補正に用いる特徴点群の選択と特徴点の補正を行っている。過去のフレームの特徴点を用いることで、現在のフレームで特徴点の信頼度が低い場合においても、特徴点の補正精度を向上させる効果が見込める。

　ステップ４０３において、特徴点の選択を予め定められた順序で行っている。ステップ４０４の特徴点の位置の補正において精度がよりよいと見込まれる特徴点を優先的に選択することで、より正しく特徴点位置を修正できる効果が見込める。

　ステップ４０４において、所定の順序で特徴点を補正している。ここでは、腰、足という順番で特徴点を補正している。これは、人物は首、腰、足という順番で体の部位がつながっているためである。まず、腰の位置を修正した後、そのより正しい腰の位置を用いて足を修正することができる。このように、所定の順序で特徴点を比較することで、より正しく特徴点位置を修正できる効果が見込める。

　ステップ４０４において、特徴点間の相対位置関係から特徴点の位置を補正している。実施形態では、特徴点間の距離の比や、特徴点から求められる直線（体軸）を基に特徴点を補正している。このように、物体の構造に関する事前知識を用いることで、より正しく特徴点の位置を修正できる効果が見込める。

　＜実施形態１の変形例＞
　ステップ４０２で抽出する特徴点は、頭頂、首、腰、右足首、左足首に限らず、手首、肘、膝など、他の部位でも構わない。また、必ずしも体の部位上でなくてもよく、右足首と左足首の中間点や体軸と左足首・右足首を結ぶ線の交点など、体の部位の位置関係から決まる他の点でも構わない。

　ステップ６０４で、過去フレームでの頭と腰の距離から現在のフレームにおける腰の位置を補正したが、他の方法でも構わない。過去のフレームでの頭と腰の位置座標の差異から、現在フレームの腰の位置を補正しても構わない。例えば、過去フレームでの頭と腰の位置座標の差異として、腰のｘ座標・ｙ座標は、頭のｘ座標・ｙ座標よりそれぞれＸピクセル、Ｙピクセル大きいとする。この過去フレームでの頭と腰との位置座標の差異と等しくなるように、現在のフレームにおいて腰の位置を補正しても構わない。また、頭と腰の位置座標の差異の代わりに、首と腰の位置座標の差異を用いても構わない。

　ステップ６０７では、人体の首と腰の距離と首と右足首（または左足首）の距離の比を用いたが、これに限らず、他の特徴点間の比を用いても構わない。一例として、頭と腰の距離と頭と右足首（または左足首）の距離の比のように、首の代わりに頭を用いてもよい。他の例として、頭と首の距離と腰と右足首（または左足首）の距離の比を用いてもよい。ステップ６０８も同様である。

　ステップ６０７では、右足首と左足首が体軸の上になるように補正した。これに限らず、特徴点間の比があらかじめ定めたものとなるように、右足首（または左足首）を体軸方向に移動させることで補正しても構わない。ステップ６０８も同様である。

　領域決定部１０６では、部分画像領域を矩形としたが、他の形状でも構わない。例えば、多角形でもいいし、曲線に囲まれていてもよい。図形ではなく、物体領域とその他の領域を区別するマスク画像でもよい。

　実施形態１のニューラルネットワークの構造はこれに限定されない。例えば、サブネットワークの間に別のサブネットワークが挿入されてもいい。また、ネットワークの分岐構造が異なっていても構わない。サブネットワークの構成について、コンボリューション層やプーリング層、全結合層などの構成要素の種類や数が異なっていても構わない。

　図１２の統合サブネットワーク１２０８では２つのベクトルを結合することで２つのベクトルを統合したが、他の演算方法を用いても構わない。例えば、２つのベクトルのサイズが同じであれば、ベクトルの要素同士の乗算や加算を代わりに用いても構わない。

　図２の信頼度変換部２０５を図１２のように信頼度変換サブネットワーク１２０７として実施しているが、信頼度変換部２０５はニューラルネットワークの外部に設けても構わない。例えば、特徴点の信頼度に正規化処理や変換処理などの処理をニューラルネットワークの外部で行い、その処理結果をニューラルネットワークの入力の１つとしても構わない。

　図４のステップ４０３およびステップ特徴点を補正において、現在のフレームと１つ前のフレームから補正に用いる特徴点群の選択や特徴点の補正を行った。１つ前のフレームだけでなく、それ以前のフレームを用いて特徴点群の選択や特徴点の補正を行っても構わない。さらに、現在のフレームと合わせ、３フレーム以上のフレームを用いても構わない。

　画像特徴抽出部１０８をニューラルネットで構成したが、ニューラルネット以外の方法を用いても構わない。例えば、ＨＯＧ（Ｈｉｓｔｏｇｒａｍ　ｏｆ　Ｏｒｉｅｎｔｅｄ　Ｇｒａｄｉｅｎｔｓ）特徴やＬＢＰ（Ｌｏｃａｌ　Ｂｉｎａｒｙ　Ｐａｔｔｅｒｎ）特徴を抽出して、これを基に画像特徴を決定してもいい。他には、ＨＯＧ特徴やＬＢＰ特徴からパーツ推定を行ってもいい。

　図６のステップ６０３で頭と首から図７Ｂの直線７０６を計算したが、頭または首のみから直線を計算しても構わない。例えば、人物の体軸が画像フレームのｙ軸と平行であると仮定できる場合には、直線は画像フレームのｙ軸に平行であると仮定することができ、首または頭のどちらか１点から直線を計算できる。同様に、図４のステップ４０５でも複数点から図９Ａの直線９０１を計算しているが、１点から計算しても構わない。

　図１０のＳ１００１では、元の信頼度に１より小さいあらかじめ定めた実数値を乗じた値を補正後の信頼度としたが、他の方法でも構わない。信頼度の更新方法はこれに限らず、信頼度を０としてもいいし、信頼度からあらかじめ定めた実数値を減じてもいいし、他の方法を用いても構わない。

　以上のように、実施形態１で説明した処理によって、画像において物体の一部が遮蔽されている場合やノイズが多い場合であっても、見えにくくなっている部位の特徴点を検出できる。

　＜実施形態２＞
　実施形態１では人物の全身を画像処理の対象としたが、代わりに顔を画像処理の対象にしても構わない。実施形態２では実施形態１との差分のみ説明する。

　顔を対象とする場合、図４のステップ４０２では顔特徴点を検出する。図１５に図示する。ここでは、右目１５０１、左目１５０２、鼻１５０３、口の右端１５０４、口の左端１５０５を特徴点として検出するとする。

　実施形態２においては、ステップ４０３、４０４において、右目の特徴点を鼻と口から補正するケースを考える。左目については、右目と同様の処理である。

　ステップ４０３の処理を説明する。まず右目の特徴点の信頼度を評価する。信頼度がしきい値以上の場合は特徴点群Ｃ１を選択する。信頼度がしきい値より小さい場合は、過去のフレームでの右目の信頼度がしきい値以上でなかったら特徴点群Ｃ２を選択し、しきい値以上だったら特徴点群Ｃ３を選択する。

　ステップ４０４の処理を説明する。補正に用いる特徴点群が特徴点群Ｃ１であったら、右目の位置を補正しない。特徴点群Ｃ２であったら、現在フレームの鼻と口の右端と口の左端の位置関係から、平均的な人物の顔のパーツの配置に近くなるように、現在フレームの右目の位置を補正する。特徴点群Ｃ３であったら、過去のフレームの右目、鼻、口の右端、口の左端の配置に近くなるように、現在フレームの右目の位置を補正する。

　他のステップの処理も全身から抽出する特徴点を顔の特徴点に置き換えれば、実施形態１の処理と同様である。

　実施形態２では顔特徴点を右目、左目、鼻、口の右端、口の左端としたが、目じり、目頭、瞳、鼻の右端、鼻の下端、眉毛、顔の輪郭など、他の部分を特徴点としても構わない。そして、ステップ４０３やステップ４０４の処理をそれに合わせて変更しても構わない。

　実施形態２によれば、画像フレームからの顔画像の切り出しや顔認識の性能を向上させる効果が見込める。例えば、顔がサングラスやマスクなどのアクセサリで一部分が覆われているケースや、手などで一時的に顔の一部が隠れるケースにおいて有効である。

　本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、データ通信用のネットワーク又は各種記憶媒体を介してシステム或いは装置に供給する。そして、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。また、そのプログラムをコンピュータが読み取り可能な記録媒体に記録して提供してもよい。

　本発明は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、本発明の範囲を公にするために、以下の請求項を添付する。

　本願は、２０１９年９月２０日提出の日本国特許出願特願２０１９－１７２１９１と日本国特許出願特願２０１９－１７２１９２を基礎として優先権を主張するものであり、その記載内容の全てをここに援用する。

Claims

　複数の部位を有する物体を撮像した画像から、該物体の部位に対応させて第１の特徴点群を検出する第１の検出手段と、
　前記第１の検出手段によって検出された前記第１の特徴点毎に、該特徴点が示す位置が該特徴点に対応する前記部位である確からしさを示す信頼度を取得する取得手段と、
　前記信頼度が小さい前記第１の特徴点に対応する前記部位について、前記第１の特徴点の一部に基づいて第２の特徴点を検出する第２の検出手段と、
　前記第１の特徴点の一部と前記第２の特徴点とに基づいて、前記物体が存在する領域を決定する決定手段と、を有することを特徴とする画像処理装置。
　前記第２の検出手段は、前記第１の特徴点のうち前記信頼度が所定の値より小さい特徴点が示す部位の位置を、前記第１の特徴点のうち前記信頼度が所定の値より小さい特徴点が示す部位に近接する部位の位置を示す前記第１の特徴点に基づいて補正した第２の特徴点を検出することを特徴とする請求項１に記載の画像処理装置。
　前記第２の検出手段は、前記第１の特徴点のうち前記信頼度が所定の値より小さい特徴点が示す部位の位置を、前記第１の特徴点のうち前記信頼度が所定の値より大きい特徴点に基づいて補正した第２の特徴点を検出することを特徴とする請求項１に記載の画像処理装置。
　前記第２の検出手段は、前記物体が有する複数の部位の位置関係に基づいて、前記第１の特徴点のうち前記信頼度が小さい特徴点が示す部位の位置を補正した前記第２の特徴点を検出することを特徴とする請求項１に記載の画像処理装置。
　前記第１の検出手段は、前記第１の特徴点として人物の頭、首、腰、足首の位置を検出し、
　前記第２の検出手段は、前記足首の位置の前記信頼度が小さい場合、前記人物の頭または腰と、足首との位置関係に基づいて、前記第２の特徴点として前記足首の位置を検出することを特徴とする請求項４に記載の画像処理装置。
　前記第２の検出手段は、前記第１の検出手段によって検出された前記第１の特徴点のうち、前記信頼度が所定の値より小さい前記第１の特徴点が示す部位について、過去の画像において前記信頼度が所定の値より大きい前記部位を示す第１の特徴点に基づいて、前記第２の特徴点を検出することを特徴とする請求項１に記載の画像処理装置。
　前記第１の検出手段は、前記画像から前記第１の特徴点群として人物の頭、首、腰、足首の位置を検出し、
　前記取得手段は、前記画像より前に撮像された過去の画像における人物の足首の位置について前記信頼度を取得し、
　前記第２の検出手段は、前記過去の画像における人物の足首の位置について前記信頼度が前記所定の値より大きい場合は、前記過去の画像における人物の足首の位置を、前記画像における前記第２の特徴点として検出することを特徴とする請求項６に記載の画像処理装置。
　前記物体は人物であって、
　前記第１の検出手段は、人物の前記第１の特徴点として該人物の部位に対応した特徴点を学習させた学習済みモデルに前記画像を入力することで前記第１の特徴点を検出することを特徴とする請求項１に記載の画像処理装置。
　前記決定手段によって決定された前記領域を前記画像から切り出した部分画像に基づいて、前記物体を認識するための特徴量を抽出する抽出手段と、
　前記抽出された特徴量と、予め登録された特定の物体の特徴量と、を比較することによって、前記画像で撮像された物体が前記特定の物体であるか否かを認識する認識手段と、をさらに有することを特徴とする請求項１に記載の画像処理装置。
　前記物体は人体であって、
　前記認識手段は、予め登録された人物の特徴量と、抽出された特徴量とを比較することによって、前記予め登録された人物から前記画像で撮像された人物を同定することを特徴とする請求項９に記載の画像処理装置。
　前記抽出手段は、入力画像から前記物体の部位毎を示す特徴量を出力する学習済みモデルに基づいて、前記決定手段によって決定された前記領域を前記画像から切り出した部分画像の前記特徴量を抽出することを特徴とする請求項１０に記載の画像処理装置。
　前記抽出手段は、前記決定手段によって決定された前記領域を前記画像から切り出した部分画像のうち、前記第１の特徴点の前記信頼度がより大きい部位に対応する部分領域から特徴量を抽出することを特徴とする請求項１０に記載の画像処理装置。
　前記信頼度に基づいて前記部位毎に前記画像から抽出された前記特徴量を統合する統合手段を更に有することを特徴とする請求項１に記載の画像処理装置。
　前記取得手段は、前記特徴点が所定の領域の範囲外に位置する場合、該特徴点の信頼度をより小さくなるように前記信頼度を取得することを特徴とする請求項１に記載の画像処理装置。
　前記決定手段は、前記検出された前記第１の特徴点から推定された前記物体の中心軸に基づいて、前記物体が存在する領域を決定することを特徴とする請求項１に記載の画像処理装置。
　前記決定手段は、前記第１の特徴点の一部を含む矩形を前記物体の存在する領域として決定することを特徴とする請求項１に記載の画像処理装置。
　前記出力手段は、前記第１の検出手段で検出された前記第１の特徴点と、前記第２の検出手段で検出された前記第２の特徴点とを区別して出力する出力手段をさらに有することを特徴とする請求項１に記載の画像処理装置。
　複数の部位を有する物体を撮像した画像から、該物体の部位に対応させて特徴点を検出する検出手段と、
　前記検出された特徴点毎に、該特徴点に対応する前記部位である確からしさを示す信頼度を取得する取得手段と、
　前記画像から前記特徴点が対応する部位毎に物体を識別するための前記特徴量を抽出する抽出手段と、
　前記特徴点毎に前記取得された信頼度に応じて、抽出された前記特徴量を、予め登録された前記物体の特徴量と比較することで、前記物体を認識する認識手段と、を有することを特徴とする画像処理装置。
　画像から検出された物体について、該物体を構成する複数の部位の前記画像における位置を示す特徴点と、該特徴点に対応する前記部位である確からしさを示す信頼度と、を取得する取得手段と、
　前記特徴点が示す部位毎に第１の画像特徴を前記画像から抽出する抽出手段と、
　前記信頼度と、前記第１の画像特徴と、に基づいて、前記物体に固有の特徴量を示す第２の画像特徴を出力する出力手段と、
　予め登録された所定の物体を示す特徴量と、前記第２の特徴量とに基づいて、前記画像から検出された前記物体と予め登録された所定の物体とを同定する認識手段と、を有する画像処理装置。
　複数の部位を有する物体を撮像した画像から、該物体の部位に対応させて第１の特徴点群を検出する第１の検出工程と、
　前記第１の検出工程によって検出された前記第１の特徴点毎に、該特徴点が示す位置が該特徴点に対応する前記部位である確からしさを示す信頼度を取得する取得工程と、
　前記信頼度が小さい前記第１の特徴点に対応する前記部位について、前記第１の特徴点の一部に基づいて第２の特徴点を検出する第２の検出工程と、
　前記第１の特徴点の一部と前記第２の特徴点とに基づいて、前記物体が存在する領域を決定する決定工程と、を有することを特徴とする画像処理方法。
　複数の部位を有する物体を撮像した画像から、該物体の部位に対応させて特徴点を検出する検出工程と、
　前記検出された特徴点毎に、該特徴点に対応する前記部位である確からしさを示す信頼度を取得する取得工程と、
　前記画像から前記特徴点が対応する部位毎に物体を識別するための前記特徴量を抽出する抽出工程と、
　前記特徴点毎に前記取得された信頼度に応じて、抽出された前記特徴量を、予め登録された前記物体の特徴量と比較することで、前記物体を認識する認識工程と、を有することを特徴とする画像処理方法。
　画像処理方法をコンピュータに実行させるためのプログラムが記憶された記憶媒体であって、
　複数の部位を有する物体を撮像した画像から、該物体の部位に対応させて第１の特徴点群を検出する第１の検出工程と、
　前記第１の検出工程によって検出された前記第１の特徴点毎に、該特徴点が示す位置が該特徴点に対応する前記部位である確からしさを示す信頼度を取得する取得工程と、
　前記信頼度が小さい前記第１の特徴点に対応する前記部位について、前記第１の特徴点の一部に基づいて第２の特徴点を検出する第２の検出工程と、
　前記第１の特徴点の一部と前記第２の特徴点とに基づいて、前記物体が存在する領域を決定する決定工程と、を有することを特徴とする。
　画像処理方法をコンピュータに実行させるためのプログラムが記憶された記憶媒体であって、
　複数の部位を有する物体を撮像した画像から、該物体の部位に対応させて特徴点を検出する検出工程と、
　前記検出された特徴点毎に、該特徴点に対応する前記部位である確からしさを示す信頼度を取得する取得工程と、
　前記画像から前記特徴点が対応する部位毎に物体を識別するための前記特徴量を抽出する抽出工程と、
　前記特徴点毎に前記取得された信頼度に応じて、抽出された前記特徴量を、予め登録された前記物体の特徴量と比較することで、前記物体を認識する認識工程と、を有することを特徴とする。