WO2021166174A1

WO2021166174A1 - 被写体別特徴点分離装置、被写体別特徴点分離方法及びコンピュータプログラム

Info

Publication number: WO2021166174A1
Application number: PCT/JP2020/006844
Authority: WO
Inventors: 誠明松村; 能登　肇; 草地　良規
Original assignee: 日本電信電話株式会社
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2021-08-26
Also published as: US20230101653A1; JP7364959B2; JPWO2021166174A1

Abstract

被写体が撮影された撮影画像を入力として、入力した撮影画像から、被写体の各特徴点の接続関係を記述するベクトルが特徴点周辺のみ格納された複数の第１のマップと、被写体の特徴点の現れる座標にピークが立つように構成されたヒートマップを表す複数の第２のマップとを出力するように学習された学習済みモデルを用いて、複数の第１のマップと、複数の第２のマップとを出力する推論実行部と複数の第１のマップ及び複数の第２のマップを用いて、複数の第２のマップを補正するマップ補正部と、複数の第１のマップをアップサンプリングするアップサンプリング部と、アップサンプリング後の複数の第１のマップと、補正後の複数の第２のマップとに基づいて、被写体別に特徴点の分離を行う被写体別特徴点分離部と、を備える被写体別特徴点分離装置。

Description

被写体別特徴点分離装置、被写体別特徴点分離方法及びコンピュータプログラム

　本発明は、被写体別特徴点分離装置、被写体別特徴点分離方法及びコンピュータプログラムに関する。

　デジタルカメラやビデオカメラ等の撮影装置で撮影された画像内に写された被写体毎に、画像内における被写体の関節、目、耳及び鼻等の特徴点の二次元座標を推定し、被写体別に特徴点を分離する手法が提案されている。このような技術分野には、広くDeep learningを用いた機械学習が使用されている。例えば、画像内にて各特徴点の現れる座標にピークが立つように構成されたヒートマップと、各特徴点の接続関係を記述するベクトル場等を学習させた学習済みモデルを用いて、特徴点を被写体毎に分離する手法が使用されている。以下、特徴点を被写体毎に分離することを被写体別特徴点分離と呼ぶ。

　被写体の特徴点は図７のようなツリー状の階層構造で記述される。図７は、ＭＳ　ＣＯＣＯ（Microsoft Common Object in Context）データセットにおいて定義された各特徴点の例を示す図である。各特徴点の接続関係を記述するベクトル場には階層構造における子の特徴点から親の特徴点方向へのベクトルを生成するように学習がなされる。特徴点１１０は、鼻の位置を表す特徴点である。特徴点１１１は、左目の位置を表す特徴点である。特徴点１１２は、右目の位置を表す特徴点である。特徴点１１３－１２６は、被写体に定められた他の部位の位置をそれぞれ表す特徴点である。

　階層構造における親とは階層構造におけるｒｏｏｔに該当する特徴点に近い側の特徴点を表し、階層構造における子とは階層構造におけるｒｏｏｔに該当する特徴点から遠い側の特徴点を表す。図７に示す例では、階層構造におけるｒｏｏｔに該当する特徴点は特徴点１１０である。この場合、第１の特徴点と、第２の特徴点とが接続された階層構造の場合、特徴点１１０に近い第１の特徴点が親であり、特徴点１１０から遠い第２の特徴点が子となる。例えば、図７に示す特徴点１１７と、特徴点１１９とを例にすると、特徴点１１７のほうが特徴点１１９よりも特徴点１１０に近い。そのため、特徴点１１７が親の特徴点であり、特徴点１１９が子の特徴点となる。

　非特許文献１では、Part Affinity Fieldと呼ぶ特徴点の接続関係を記述するベクトル場を学習させ、ベクトル場の線積分により特徴点同士の接続関係の確からしさを計算し、被写体別特徴点分離を高速に行う手法が提案されている。
　非特許文献２では、３つのベクトル場と、マスクとを用いて、被写体別特徴点分離精度を高める手法が提案されている。具体的には、非特許文献２では、まずShort-range offsets、Mid-range offsets及びLong-range offsetsの３つのベクトル場に加え、画像内の被写体領域をシルエット状にマスクしたPerson segmentation maskを生成する。次に、非特許文献２では、Short-range offsets及びMid-range offsetsの２つのベクトル場を用いて特徴点同士の接続関係を生成する。そして、非特許文献２では、Short-range offsets、Long-range offsets及びPerson segmentation maskを用いて被写体の人数で画像内を領域分割する。これにより、非特許文献２では、被写体別特徴点分離精度を高めている。なお、非特許文献２では、親と子の接続関係を記述するベクトル場はMid-range offsetsのみである。Short-range offsetsは、各特徴点を中心に向くよう記述された補正用のベクトル場である。Long-range offsetsは、Person segmentation maskに囲まれた領域が、被写体の鼻の座標を向くよう記述されたベクトル場である。

Cao, Z., Hidalgo, G., Simon, T., Wei, S.E., Sheikh, Y.: OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields. In: arXiv preprint arXiv:1812.08008, 2018. G. Papandreou, T. Zhu, L.-C. Chen, S. Gidaris, J. Tompson, and K. Murphy. PersonLab: Person pose estimation and instance segmentation with a bottom-up, part-based, geometric embedding model. arXiv:1803.08225, 2018.

　従来手法では、ヒートマップ内のピーク値を示す座標を特徴点の座標とするが、近年の高解像カメラで撮影された画像を入力として等倍解像度のヒートマップとベクトル場を生成すると演算負荷が高くなる。等倍解像度のヒートマップとベクトル場を生成するためにはDeep Learningにて膨大なメモリが必要になる。そのため、複雑なネットワークを実装することが困難になる。入力した画像の解像度はそのままに、ヒートマップとベクトル場の出力解像度を下げると演算負荷を軽減することができる。しかしながら、解像度を下げると特徴点の座標推定精度が低下してしまうという問題があった。

　上記事情に鑑み、本発明は、演算負荷を抑えつつ、被写体別特徴点分離における特徴点の推定精度の低下を抑制することができる技術の提供を目的としている。

　本発明の一態様は、被写体が撮影された撮影画像を入力として、入力した前記撮影画像から、前記被写体の各特徴点の接続関係を記述するベクトルが特徴点周辺のみ格納された複数の第１のマップと、前記被写体の特徴点の現れる座標にピークが立つように構成されたヒートマップを表す複数の第２のマップとを出力するように学習された学習済みモデルを用いて、前記複数の第１のマップと、前記複数の第２のマップとを出力する推論実行部と、前記推論実行部から出力された前記複数の第１のマップ及び前記複数の第２のマップを用いて、前記複数の第２のマップを補正するマップ補正部と、前記推論実行部から出力された前記複数の第１のマップをアップサンプリングするアップサンプリング部と、アップサンプリング後の前記複数の第１のマップと、補正後の複数の第２のマップとに基づいて、被写体別に特徴点の分離を行う被写体別特徴点分離部と、を備える被写体別特徴点分離装置である。

　本発明の一態様は、被写体が撮影された撮影画像を入力として、入力した前記撮影画像から、前記被写体の各特徴点の接続関係を記述するベクトルが特徴点周辺のみ格納された複数の第１のマップと、前記被写体の特徴点の現れる座標にピークが立つように構成されたヒートマップを表す複数の第２のマップとを出力するように学習された学習済みモデルを用いて、前記複数の第１のマップと、前記複数の第２のマップとを出力する推論実行ステップと、前記推論実行ステップにおいて出力された前記複数の第１のマップ及び前記複数の第２のマップを用いて、前記複数の第２のマップを補正するマップ補正ステップと、前記推論実行ステップにおいて出力された前記複数の第１のマップをアップサンプリングするアップサンプリングステップと、アップサンプリング後の前記複数の第１のマップと、補正後の複数の第２のマップとに基づいて、被写体別に特徴点の分離を行う被写体別特徴点分離ステップと、を有する被写体別特徴点分離方法である。

　本発明の一態様は、コンピュータを、上記の被写体別特徴点分離装置として機能させるためのコンピュータプログラムである。

　本発明により、演算負荷を抑えつつ、被写体別特徴点分離における特徴点の推定精度の低下を抑制することが可能となる。

本発明における被写体別特徴点分離装置の機能構成の具体例を示すブロック図である。本発明における学習装置の機能構成の具体例を示すブロック図である。実施形態における被写体別特徴点分離装置の処理の具体例を示す図である。実施形態における被写体別特徴点分離装置の処理の流れを示すフローチャートである。実施形態におけるベクトル密度マップの生成例を示す図である。ベクトル密度マップの他の生成例を示す図である。ＭＳ　ＣＯＣＯデータセットにおいて定義された各特徴点の例を示す図である。

　以下、本発明の一実施形態を、図面を参照しながら説明する。
　図１は、本発明における被写体別特徴点分離装置１０の機能構成の具体例を示すブロック図である。被写体別特徴点分離装置１０は、被写体となる人物が撮影された画像（以下「撮影画像」という。）内における被写体の特徴点を被写体別に分離する装置である。より具体的には、被写体別特徴点分離装置１０は、撮影画像と、機械学習により生成された学習済みモデルとを用いて、被写体別に特徴点の分離を行う。本実施形態における被写体の特徴点は、被写体の関節、目、耳及び鼻等の被写体に定められた部位である。

　本実施形態において学習済みモデルとは、撮影画像を入力として、低解像度のベクトル場マップ群と低解像度のヒートマップ群とを出力するように学習されたモデルデータである。低解像度のベクトル場マップ群とは、撮影画像により生成される低解像のベクトル場マップ（第１のマップ）それぞれを全ての特徴点についてまとめた集合である。低解像度のヒートマップ群とは、撮影画像により生成される低解像のヒートマップ（第２のマップ）それぞれを全ての特徴点についてまとめた集合である。ここで学習済みモデルによる動作について説明する。具体的には、まず学習済みモデルでは、入力した撮影画像から、被写体の各特徴点の接続関係を記述する低解像のベクトル場マップ及び各特徴点に関する低解像のヒートマップを生成する。その後、学習済みモデルでは、生成した低解像のベクトル場マップから得られる低解像度のベクトル場マップ群と、生成した低解像のヒートマップから得られる低解像のヒートマップ群とを出力する。ここで、低解像とは、入力された画像の解像度よりも低い解像度を意味する。低解像のベクトル場マップとは、入力された画像の解像度よりも解像度を下げたベクトル場マップを表す。低解像のヒートマップとは、入力された画像の解像度よりも解像度を下げたヒートマップを表す。以下の説明では、低解像度のベクトル場マップ群を低解像ベクトル場マップ群と記載し、低解像度のヒートマップ群を低解像ヒートマップ群と記載する。

　ベクトル場マップには、子の特徴点から親の特徴点方向へのベクトルが示される。例えば、ベクトル場マップには、被写体の各特徴点の接続関係を記述するベクトルが特徴点周辺のみ格納されている。ヒートマップは、被写体の特徴点の現れる座標にピークが立つように構成されたマップである。ヒートマップは、従来の被写体別特徴点分離で使用されているヒートマップと同様である。本発明では、低解像ヒートマップを等倍解像度までアップサンプリングしたヒートマップを低解像ベクトル場が指し示す座標値によって補正することを特徴としている。ここでいう等倍解像度とは、入力した画像と同じ解像度を意味する。被写体別特徴点分離装置１０は、例えばパーソナルコンピュータ等の情報処理装置を用いて構成される。

　被写体別特徴点分離装置１０は、バスで接続されたＣＰＵ（Central Processing Unit）やメモリや補助記憶装置などを備え、プログラムを実行する。プログラムの実行によって、被写体別特徴点分離装置１０は、推論実行部１０１、ヒートマップ補正部１０２、アップサンプル部１０３、被写体別分離部１０４を備える装置として機能する。なお、被写体別特徴点分離装置１０の各機能の全て又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されてもよい。また、プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、プログラムは、電気通信回線を介して送受信されてもよい。

　推論実行部１０１は、撮影画像と、学習済みモデルとを入力とする。推論実行部１０１は、入力した撮影画像と、学習済みモデルとを用いて、低解像ヒートマップ群及び低解像ベクトル場マップ群を出力する。推論実行部１０１は、低解像ヒートマップ群をヒートマップ補正部１０２に出力し、低解像ベクトル場マップ群をヒートマップ補正部１０２及びアップサンプル部１０３に出力する。

　ヒートマップ補正部１０２は、低解像ヒートマップ群及び低解像ベクトル場マップ群を入力とする。ヒートマップ補正部１０２は、入力した低解像ヒートマップ群及び低解像ベクトル場マップ群を用いて、等倍解像度のヒートマップ群を生成する。このように、ヒートマップ補正部１０２は、入力した低解像ヒートマップ群及び低解像ベクトル場マップ群を用いて、低解像ヒートマップ群を補正する。ヒートマップ補正部１０２は、生成したヒートマップ群を被写体別分離部１０４に出力する。ヒートマップ補正部１０２は、マップ補正部の一態様である。

　アップサンプル部１０３は、低解像ベクトル場マップ群を入力とする。アップサンプル部１０３は、入力した低解像ベクトル場マップ群をアップサンプリングする。例えば、アップサンプル部１０３は、入力した低解像ベクトル場マップ群が等倍解像度になるようにアップサンプリングする。アップサンプリングには、Bicubicの技術が用いられてもよい。アップサンプリングされた低解像ベクトル場マップをベクトル場マップと記載する。アップサンプル部１０３は、ベクトル場マップ群を被写体別分離部１０４に出力する。

　被写体別分離部１０４は、ヒートマップ群及びベクトル場マップ群を入力とする。被写体別分離部１０４は、入力したヒートマップ群及びベクトル場マップ群を用いて、被写体別に特徴点の分離を行う。被写体別分離部１０４は、特徴点をツリー状の階層構造として被写体別に分離し、その結果を示す座標群（被写体別に分離された特徴点の座標群）を外部に出力する。

　図２は、本発明における学習装置２０の機能構成の具体例を示すブロック図である。
　学習装置２０は、被写体別特徴点分離装置１０で利用する学習済みモデルを生成する装置である。学習装置２０は、被写体別特徴点分離装置１０と通信可能に接続される。
　学習装置２０は、バスで接続されたＣＰＵやメモリや補助記憶装置などを備え、プログラムを実行する。プログラムの実行によって、学習装置２０は、学習モデル記憶部２０１、教師データ入力部２０２、学習部２０３を備える装置として機能する。なお、学習装置２０の各機能の全て又は一部は、ＡＳＩＣやＰＬＤやＦＰＧＡ等のハードウェアを用いて実現されてもよい。また、プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、プログラムは、電気通信回線を介して送受信されてもよい。

　学習モデル記憶部２０１は、磁気記憶装置や半導体記憶装置などの記憶装置を用いて構成される。学習モデル記憶部２０１は、機械学習の学習モデルを予め記憶している。ここで、学習モデルとは、入力データと出力データとの関係性を学習する際に使用する機械学習アルゴリズムを示す情報である。教師有り学習の学習アルゴリズムには、種々の回帰分析法や、決定木、ｋ近傍法、ニューラルネットワーク、サポートベクターマシン、ディープラーニングなどをはじめとする様々なアルゴリズムがあるが、本実施形態では、ディープラーニングを用いる場合について説明する。なお、学習アルゴリズムは、上記のその他の学習モデルが用いられてもよい。

　教師データ入力部２０２は、入力される複数の教師データからランダムにサンプルを選出し、選出したサンプルを学習部２０３に出力する機能を有する。教師データは、教師有り学習に用いられる学習用のデータであり、入力データと、その入力データに対して相関性を有すると想定される出力データとの組み合わせによって表されるデータである。ここでは、入力データは撮影画像であり、出力データは当該撮影画像と対になる特徴点に関する低解像ヒートマップ群及び低解像ベクトル場マップ群となる。

　教師データ入力部２０２は、教師データ群を記憶している外部装置（図示せず）と通信可能に接続され、その通信インタフェースを介して外部装置から教師データ群を入力する。また例えば、教師データ入力部２０２は、予め教師データ群を記憶している記録媒体（例えば、ＵＳＢ（Universal Serial Bus）メモリやハードディスク等）から教師データ群を読み出すことによって教師データ群を入力するように構成されてもよい。

　学習部２０３は、教師データ入力部２０２から出力される教師データにおける撮影画像に対し、学習モデルに基づいて変換することで得られる特徴点に関する低解像ヒートマップ群及び特徴点に関する低解像ベクトル場マップ群と、教師データにおける特徴点に関する低解像ヒートマップ群及び特徴点に関する低解像ベクトル場マップ群の誤差を最小化するよう学習することにより学習済みモデルを生成する。生成された学習済みモデルは被写体別特徴点分離装置１０に入力される。なお、被写体別特徴点分離装置１０に対する学習済みモデルの入力は、被写体別特徴点分離装置１０と学習装置２０との通信を介して行われてもよいし、学習済みモデルを記録した記録媒体を介して行われてもよい。

　図３は、実施形態における被写体別特徴点分離装置１０の処理の具体例を示す図である。図３に示す画像２１は、推論実行部１０１から出力される低解像ヒートマップ群のうち右ひじの低解像ヒートマップである。画像２１における領域２１１は右手首の領域であり、領域２１２は右ひじの領域である。ここで、右手首が子の特徴点であり、右ひじが親の特徴点であるとする。この場合、子の特徴点（右手首）から見た親の特徴点（右ひじ）方向のベクトル場マップは画像２２のようになる。画像２２は、推論実行部１０１から出力される低解像ヒートマップ群のうち右手首から見た右ひじ方向の低解像ベクトル場マップである。

　図３における画像２３は、右ひじの領域２１２の解像度を、入力画像と同じ解像度にアップサンプリングしたヒートマップを表す。画像２３において特徴点の正解座標が領域２３１で示される座標であり、アップサンプリング後のヒートマップのピーク座標が領域２３２で示される座標であるとする。低解像ヒートマップをＢｉｃｕｂｉｃ補間によりアップサンプリングした時のピーク値を示す座標が正解座標から所定の範囲以上乖離している場合、特徴点の座標推定精度が低下する。そこで、本発明では、特徴点に対する子の特徴点との接続関係を記述するベクトルからベクトルの密集度合いを示すベクトル密度マップを生成し、アップサンプリングした低解像ヒートマップとの合成値を用いて最終的な特徴点を決定する。これにより、正解座標に近付けることができるため特徴点の座標推定精度の低下を抑制することができる。

　特徴点に対する子の特徴点との接続関係を記述するベクトルからベクトルの密集度合いを示すベクトル密度マップ２４は、低解像ベクトル場マップ（画像２２）から生成される。ベクトル密度マップ２４の具体的な生成方法については後述する。ベクトル密度マップ２４における点２４１は、低解像ベクトル場マップにおける各ベクトルが指し示す親の特徴点の座標を表す。そして、被写体別特徴点分離装置１０は、画像２３（ヒートマップ）の各画素に対して（１．０－α）の値を乗算し、ベクトル密度マップ２４の各画素に対してαの値を乗算する。なお、ベクトル密度マップ２４とアップサンプリングした低解像ヒートマップ（画像２３）の合成比率αはベクトルの密集度に応じて可変の値をとるものとする。例えば、収束密度が著しく高い場合（閾値以上の場合）にはαの値を高く（１により近い値）設定し、収束密度が低い場合（閾値未満の場合）にはαの値を低く（０により近い値）設定する。そして、被写体別特徴点分離装置１０は、乗算結果を加算することによって最終的なヒートマップ２５を取得する。そして、ヒートマップ２５におけるピーク位置２５１が特徴点の位置となる。被写体別特徴点分離装置１０では、推論実行部１０１から出力される低解像ヒートマップ群において上記の処理を行うことによって、ヒートマップ群を生成する。

　図４は、実施形態における被写体別特徴点分離装置１０の処理の流れを示すフローチャートである。
　推論実行部１０１は、外部から撮影画像と、学習済みモデルとを入力する（ステップＳ１０１）。撮影画像と、学習済みモデルとは、同じタイミングで入力される必要はない。推論実行部１０１は、図４の処理を開始する前に、学習装置２０から事前に学習済みモデルを取得している場合には、ステップＳ１０１の処理で撮影画像のみを入力する。

　推論実行部１０１は、入力した学習済みモデルに撮影画像を入力することによって、撮影画像に撮影されている被写体の低解像ヒートマップ群及び低解像ベクトル場マップ群を出力する（ステップＳ１０２）。推論実行部１０１は、低解像ヒートマップ群をヒートマップ補正部１０２に出力する。推論実行部１０１は、低解像ベクトル場マップ群をヒートマップ補正部１０２及びアップサンプル部１０３に出力する。

　ヒートマップ補正部１０２は、推論実行部１０１から出力された低解像ヒートマップ群を等倍解像度の画像となるようにアップサンプリングする（ステップＳ１０３）。例えば、ヒートマップ補正部１０２は、Ｂｉｃｕｂｉｃ補間により、低解像ヒートマップ群を等倍解像度の画像となるようにアップサンプリングする。ヒートマップ補正部１０２は、ベクトル密度マップを初期化する（ステップＳ１０４）。すなわち、ヒートマップ補正部１０２は、低解像ベクトル場マップ群に基づくベクトル密度マップ群を生成するために、ベクトル密度マップの各画素の値を０で初期化する。

　ヒートマップ補正部１０２は、入力した複数の低解像ヒートマップ群のうち、まず１つの低解像ヒートマップを選択する。次に、ヒートマップ補正部１０２は、選択した低解像ヒートマップと、選択した低解像ヒートマップに対応する低解像ベクトル場マップとを用いて、ベクトル密度マップを生成する。具体的には、ヒートマップ補正部１０２は、低解像ヒートマップが指し示す特徴点の方向を示す低解像ベクトル場マップの各ベクトルが指し示す座標周辺に所定の分散値を設定した正規分布に基づいて、ベクトル密度マップに加算合成を行う（ステップＳ１０５）。

　図５は、実施形態におけるベクトル密度マップの生成例を示す図である。図５に示す画像２１及び画像２２は、図３に示す画像と同じ画像である。ヒートマップ補正部１０２は、画像２２として示す低解像ベクトル場マップを用いて画像２６を生成する。画像２６における点２６１は、低解像ベクトル場マップにおける各ベクトルが指し示す親の特徴点の座標を表す。画像２６における領域２６２は、マップ内の座標を表す。そして、ヒートマップ補正部１０２は、以下の式（１）に基づいて、ベクトル密度マップの各座標に割り当てる座標値Ｖを算出する。

　式（１）において、Ｎは低解像ベクトル場マップにおける各ベクトルが指し示す親の特徴点の座標の数を表し、Ｃはベクトル密度マップの各座標を表し、σ^２は既知の分散値を表す。ヒートマップ補正部１０２は、算出した各座標の座標値Ｖを、初期化したベクトル密度マップの各座標に割り当てることによって、ベクトル密度マップを生成する。この処理によって生成されたベクトル密度マップが図５における画像２４である。

　ヒートマップ補正部１０２は、生成したベクトル密度マップ内の最大値でベクトル密度マップの値を除算して最大値が１．０になるよう正規化する（ステップＳ１０６）。その後、ヒートマップ補正部１０２は、正規化後のベクトル密度マップと、アップサンプリング後のヒートマップのそれぞれに対して所定の合成比率を乗算する。

　ヒートマップ補正部１０２は、アップサンプリング後のヒートマップの各画素に対しては（１．０－α）の値を乗算し、ベクトル密度マップの各画素に対してαの値を乗算する。例えば、ヒートマップ補正部１０２は、ベクトル密度マップとアップサンプリングしたヒートマップの各ピークを示す座標から一定距離内のサンプルにおける平均値とピーク値の差分をそれぞれ比較し、ベクトル密度マップの示す差分値が閾値以上である場合にはαの値を０．５以上に設定する。

　そして、ヒートマップ補正部１０２は、乗算後の１つのベクトル密度マップと乗算後の１つのヒートマップとを加算合成することによって最終的な１つのヒートマップを生成する（ステップＳ１０７）。ヒートマップ補正部１０２は、生成したヒートマップを被写体別分離部１０４に出力する。ヒートマップ補正部１０２は、ステップＳ１０３からステップＳ１０７の処理を、推論実行部１０１から出力された全ての低解像ヒートマップ群及び低解像ベクトル場マップ群に対して行う。これにより、ヒートマップ補正部１０２から複数のヒートマップ群が被写体別分離部１０４に出力される。ヒートマップ補正部１０２は、ステップＳ１０３からステップＳ１０７の処理を、推論実行部１０１から出力された全ての低解像ヒートマップ群及び低解像ベクトル場マップ群に対して行ったか否かを判定する（ステップＳ１０８）。

　推論実行部１０１から出力された全ての低解像ヒートマップ群及び低解像ベクトル場マップ群に対してステップＳ１０３からステップＳ１０７の処理を行った場合（ステップＳ１０８－ＹＥＳ）、被写体別特徴点分離装置１０はステップＳ１０９の処理を行う。
　一方、推論実行部１０１から出力された全ての低解像ヒートマップ群及び低解像ベクトル場マップ群に対してステップＳ１０３からステップＳ１０７の処理を行っていない場合（ステップＳ１０８－ＮＯ）、被写体別特徴点分離装置１０は処理を行っていない低解像ヒートマップ及び低解像ベクトル場マップに対してステップＳ１０３からステップＳ１０７の処理を行う。

　アップサンプル部１０３は、推論実行部１０１から出力された全ての低解像ベクトル場マップ群を等倍解像度の画像となるようにアップサンプリングする（ステップＳ１０９）。例えば、アップサンプル部１０３は、Ｂｉｃｕｂｉｃ補間により、低解像ベクトル場マップ群を等倍解像度の画像となるようにアップサンプリングする。アップサンプル部１０３は、アップサンプリング後のベクトル場マップ群を被写体別分離部１０４に出力する。

　被写体別分離部１０４は、ヒートマップ補正部１０２から出力されたヒートマップ群と、アップサンプル部１０３から出力されたベクトル場マップ群とを用いて、被写体別に特徴点の分離を行う（ステップＳ１１０）。被写体別分離部１０４は、被写体別に分離された特徴点の座標群を出力する。

　以上のように構成された被写体別特徴点分離装置１０によれば、演算負荷を抑えつつ、被写体別特徴点分離における特徴点の推定精度の低下を抑制することができる。具体的には、被写体別特徴点分離装置１０は、入力画像から低解像ヒートマップ群及び低解像ベクトル場マップ群を出力する。そして、被写体別特徴点分離装置１０は、低解像ヒートマップ群を等倍解像度までアップサンプリングしたヒートマップ群を、低解像ベクトル場マップが指し示す座標値によって補正する。これにより、高解像カメラで撮影された画像を入力とした場合であっても、等倍解像度のヒートマップとベクトル場マップを生成しない。したがって、演算負荷を軽減することができる。さらに、被写体別特徴点分離装置１０では、特徴点に対する子の特徴点との接続関係を記述するベクトルからベクトルの密集度合いを示すベクトル密度マップを生成し、アップサンプリングした低解像ヒートマップとの合成値を用いて最終的な特徴点を決定することで正解座標に近付けることができる。そのため、特徴点の座標推定精度の低下を抑制することが可能になる。

　（変形例）
　被写体別特徴点分離装置１０と、学習装置２０とは一体化されて構成されてもよい。具体的には、被写体別特徴点分離装置１０が、学習装置２０の学習機能を備えるように構成されてもよい。このように構成される場合、被写体別特徴点分離装置１０は、学習モードと推論モードを有し、各モードに応じた動作を実行する。具体的には、学習モードでは、被写体別特徴点分離装置１０は、学習装置２０が行う処理と同じ処理を行うことによって学習済みモデルを生成する。推論モードでは、被写体別特徴点分離装置１０は、生成した学習済みモデルを用いて図４に示す処理を実行する。

　上記の図４におけるステップS１０５の処理は、他の手法で実行されてもよい。例えば、ベクトル密度マップにおける各座標に対して、低解像ベクトル場マップの各ベクトルが指し示す座標と特徴点の正解座標との距離Ｌの総和ΣＬの逆数である１．０／ΣＬなどを用いても良い。
　図６は、ベクトル密度マップの他の生成例を示す図である。図６に示す画像２１及び画像２２は、図３に示す画像と同じ画像である。ヒートマップ補正部１０２は、画像２２として示す低解像ベクトル場マップを用いて画像２６を生成する。そして、ヒートマップ補正部１０２は、以下の式（２）に基づいて、ベクトル密度マップの各座標に割り当てる座標値Ｖを算出する。

　このように、図４におけるステップS１０５の処理は、ベクトルの密度を測る尺度となる手法であれば代用可能である。

　上記の実施形態では、低解像ヒートマップと低解像ベクトル場マップを使用する状況下であっても、特徴点の座標推定精度の低下を抑制する例を示したが、等倍解像度のヒートマップと等倍解像度のベクトル場を使用して、等倍解像度のヒートマップの推定精度を向上させる目的としてベクトル密度マップを利用してもよい。

　本発明は、被写体が撮影された画像から検出される被写体の特徴点を被写体毎に分離する技術に適用できる。

１０…被写体別特徴点分離装置，　２０…学習装置，　１０１…推論実行部，　１０２…ヒートマップ補正部，　１０３…アップサンプル部，　１０４…被写体別分離部，　２０１…学習モデル記憶部，　２０２…教師データ入力部，　２０３…学習部

Claims

　被写体が撮影された撮影画像を入力として、入力した前記撮影画像から、前記被写体の各特徴点の接続関係を記述するベクトルが特徴点周辺のみ格納された複数の第１のマップと、前記被写体の特徴点の現れる座標にピークが立つように構成されたヒートマップを表す複数の第２のマップとを出力するように学習された学習済みモデルを用いて、前記複数の第１のマップと、前記複数の第２のマップとを出力する推論実行部と、
　前記推論実行部から出力された前記複数の第１のマップ及び前記複数の第２のマップを用いて、前記複数の第２のマップを補正するマップ補正部と、
　前記推論実行部から出力された前記複数の第１のマップをアップサンプリングするアップサンプリング部と、
　アップサンプリング後の前記複数の第１のマップと、補正後の複数の第２のマップとに基づいて、被写体別に特徴点の分離を行う被写体別特徴点分離部と、
　を備える被写体別特徴点分離装置。
　前記推論実行部から出力された前記複数の第１のマップ及び前記複数の第２のマップが低解像度であり、
　前記マップ補正部は、前記複数の第２のマップの解像度が等倍解像度になるようにアップサンプリングする、
　請求項１に記載の被写体別特徴点分離装置。
　前記マップ補正部は、第１のマップの各ベクトルが指し示す特徴点の座標を用いて、ベクトルの密集度合いを示すベクトル密度マップを生成し、生成した前記ベクトル密度マップ内の最大値でベクトル密度マップの値を除算することによって前記ベクトル密度マップの正規化を行う、
　請求項２に記載の被写体別特徴点分離装置。
　前記マップ補正部は、正規化後のベクトル密度マップと、アップサンプリング後の複数の第２のマップそれぞれに対して、所定の割合の値を乗算し、乗算結果を加算することによって前記補正後の複数の第２のマップを生成する、
　請求項３に記載の被写体別特徴点分離装置。
　被写体が撮影された撮影画像を入力として、入力した前記撮影画像から、前記被写体の各特徴点の接続関係を記述するベクトルが特徴点周辺のみ格納された複数の第１のマップと、前記被写体の特徴点の現れる座標にピークが立つように構成されたヒートマップを表す複数の第２のマップとを出力するように学習された学習済みモデルを用いて、前記複数の第１のマップと、前記複数の第２のマップとを出力する推論実行ステップと、
　前記推論実行ステップにおいて出力された前記複数の第１のマップ及び前記複数の第２のマップを用いて、前記複数の第２のマップを補正するマップ補正ステップと、
　前記推論実行ステップにおいて出力された前記複数の第１のマップをアップサンプリングするアップサンプリングステップと、
　アップサンプリング後の前記複数の第１のマップと、補正後の複数の第２のマップとに基づいて、被写体別に特徴点の分離を行う被写体別特徴点分離ステップと、
　を有する被写体別特徴点分離方法。
　コンピュータを、請求項１から４のいずれか一項に記載の被写体別特徴点分離装置として機能させるためのコンピュータプログラム。