WO2023062760A1

WO2023062760A1 - 領域検出プログラム、装置、及び方法

Info

Publication number: WO2023062760A1
Application number: PCT/JP2021/037958
Authority: WO
Inventors: 帆楊; 成幸小田嶋
Original assignee: 富士通株式会社
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2023-04-20
Also published as: CN118043856A; JPWO2023062760A1

Abstract

領域検出装置は、検出された二次元バウンディングボックスを、カメラの内部及び外部パラメータを使用して二次元から三次元へ投影することにより、三次元空間における垂直方向の人物中心線を特定し、様々な姿勢の体操選手の三次元モデルから事前に算出しておいた、三次元バウンディングボックスの高さ及び幅の平均を示す統計情報と、人物中心線の長さである三次元バウンディングボックスの高さとに基づいて、三次元バウンディングボックスの幅を推定し、人物中心線、３Ｄ－ＢＢの高さ及び幅から特定される三次元バウンディングボックスを、カメラの内部及び外部パラメータを使用して三次元から二次元へ投影することにより、画像内の２Ｄ－ＢＢを補間する。

Description

領域検出プログラム、装置、及び方法

　開示の技術は、領域検出プログラム、領域検出装置、及び領域検出方法に関する。

　従来、人物を撮影した画像から、予め機械学習により生成された認識モデルを用いて、人物の骨格情報等、人物の三次元情報を認識する技術が存在する。このような技術において、認識処理の対象となる人物の領域を囲むバウンディングボックスを検出することが行われている。

　例えば、複数台のカメラの映像から被写体の３Ｄモデルを生成する３Ｄモデル生成装置が提案されている。この装置は、多視点映像から視点毎にシルエット画像を取得し、複数のシルエット画像から視体積交差法によりボクセルサイズが第１サイズの低解像ボクセルモデルを生成する。また、この装置は、低解像ボクセルモデルをその特徴に基づいて分類し、低解像ボクセルモデル毎に、その分類結果に基づいて第１サイズよりも小さい第２サイズを決定する。そして、この装置は、低解像ボクセルモデルの３Ｄバウンディングボックス毎にボクセルサイズが第２サイズの高解像ボクセルモデルを生成し、高解像ボクセルモデルに基づいて被写体の３ＤＣＧモデルを出力する。

　また、複数の視点から撮影した多視点画像から、透視投影を利用して、他の視点における対応する点を推測し、中間視点の画像を生成する技術が存在する。

特開２０２１－０７１７４９号公報

Hideo Saito, Makoto Kimura, Satoshi Yaguchi, Naho Inamoto, "View Interpolation of Multiple Cameras Based on Projective Geometry", 2002.

　機械学習モデルを用いて、画像から対象の人物を示す領域としてバウンディングボックスを検出する場合に、バウンディングボックスの未検出や誤検出が生じる場合がある。人物の三次元情報を取得するための多視点画像において、いずれかの画像にこのようなバウンディングボックスの未検出や誤検出が生じると、後段の処理において、精度良く三次元情報を取得することができない。

　また、例えば体操選手等のように、様々な姿勢を取り得る人物を対象とした場合、透視投影を単純に適用しただけでは、未検出又は誤検出のバウンディングボックスを適切に補間することができない場合がある。

　一つの側面として、開示の技術は、多視点画像における未検出又は誤検出のバウンディングボックスを適切に補間することを目的とする。

　一つの態様として、開示の技術は、人物を各々異なる方向から撮影する複数の撮影装置の各々が撮影した画像を取得する。また、開示の技術は、取得した画像を、画像に含まれる人物の領域を検出するように予め機械学習により生成された機械学習モデルに入力して、前記取得した画像の各々から人物を示す領域を検出する。そして、開示の技術は、前記取得した画像のうち第一の画像から検出された前記人物の領域と、前記複数の撮影装置の各々のパラメータとに基づいて、前記取得した画像のうちの第二の画像における前記人物を示す領域を補間する。

　一つの側面として、多視点画像における未検出又は誤検出のバウンディングボックスを適切に補間することができる、という効果を有する。

領域検出装置とカメラとの接続を示す概略図である。領域検出装置の機能ブロック図である。二次元バウンディングボックスを説明するための図である。視点による二次元バウンディングボックスの幅の相違を説明するための図である。三次元の人物中心線の特定を説明するための図である。二次元バウンディングボックスの補間を説明するための図である。三次元バウンディングボックスの幅及び高さを説明するための図である。三次元バウンディングボックスに関する統計情報を説明するための図である。領域検出装置として機能するコンピュータの概略構成を示すブロック図である。領域検出処理の一例を示すフローチャートである。二次元バウンディングボックスの補間の一例を示す図である。二次元バウンディングボックスが検出された多視点画像の適用技術の例を説明するための図である。

　以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。以下の実施形態では、対象の人物が体操選手である場合について説明するが、開示の技術は、他の競技の選手や、一般の歩行者等、様々な人物を対象として適用可能である。

　図１に示すように、本実施形態に係る領域検出装置１０は、各々異なる方向からの視点ｎにおいて体操選手９０を撮影する複数のカメラ３０ｎの各々と接続される。図１の例では、ｎ＝１，２，３であり、視点１から撮影するカメラ３０１、視点２から撮影するカメラ３０２、及び視点３から撮影するカメラ３０３が領域検出装置１０と接続されている。なお、領域検出装置１０に接続されるカメラ３０ｎの数は図１の例に限定されない。

　カメラ３０ｎは、略同一水平面内の異なる位置に、体操選手９０が撮影範囲に収まる角度で設置される。すなわち、カメラ３０ｎは、体操選手９０を取り囲むように水平方向に並んで配置されている。なお、ここでは、略同一水平面内とは、カメラ３０ｎの床面からの高さが略同一とみなせる場合であり、カメラ３０ｎの床面からの高さの差が所定値以下になる場合をいう。カメラ３０ｎで撮影された映像は順次領域検出装置１０へ入力される。なお、各カメラ３０ｎで撮影される映像に含まれる各フレームには時間情報が対応付けられており、この時間情報に基づいて、各カメラ３０ｎで撮影された映像は同期をとることができる。

　図２に示すように、領域検出装置１０は、機能的には、取得部１２と、検出部１４と、補間部１６とを含む。また、領域検出装置１０の所定の記憶領域には、検出モデル２０が記憶される。

　取得部１２は、カメラ３０ｎから領域検出装置１０に入力された映像において、時間情報が対応するフレームが示す画像のセットを多視点画像として取得する。以下では、多視点画像に含まれる画像のうち、カメラ３０ｎで撮影された画像を画像４０ｎとする。

　検出部１４は、取得部１２で取得された多視点画像に含まれる画像４０ｎを検出モデル２０に入力して、画像４０ｎの各々から人物を示す領域として、二次元バウンディングボックス（以下、「２Ｄ－ＢＢ」とも表記する）を検出する。検出モデル２０は、様々な姿勢の体操選手が写った画像に対して、正解の２Ｄ－ＢＢが与えられた画像を訓練データとして用いて予め生成されている。なお、検出モデル２０は、開示の技術の「機械学習モデル」の一例である。検出部１４は、例えば図３に示すように、画像４０ｎ内における体操選手９０を示す領域の外接矩形を２Ｄ－ＢＢ４２ｎとして検出する。

　補間部１６は、多視点画像のうち第一の画像から検出された２Ｄ－ＢＢ４２ｎと、カメラ３０ｎの各々のパラメータとに基づいて、多視点画像のうちの第二の画像における２Ｄ－ＢＢ４２ｎを補間する。本実施形態では、視点ｋのカメラ３０ｋで撮影された画像４０ｋからは、２Ｄ－ＢＢ４２ｋが検出され、視点＿ｍｉｓｓのカメラ３０＿ｍｉｓｓで撮影された画像４０＿ｍｉｓｓからは、２Ｄ－ＢＢ４２＿ｍｉｓｓが検出されていないものとする。この場合、画像４０ｋは第一の画像の一例であり、画像４０＿ｍｉｓｓは第二の画像の一例である。

　ここで、上記のように機械学習モデルである検出モデル２０を用いる場合、画像４０ｎから２Ｄ－ＢＢ４２ｎが未検出又は誤検出となる場合がある。これは、画像４０ｎ内の体操選手９０の一部が障害物で遮蔽されている場合や、対象の体操選手９０の姿勢が、検出モデル２０の訓練に用いられた画像における体操選手のいずれにも類似しない場合等に生じ得る。多視点画像に含まれる各画像４０ｎから検出された２Ｄ－ＢＢ４２ｎ内の画像と、予め機械学習により生成された骨格情報等の三次元情報を認識する認識モデルと基づいて、体操選手９０の三次元情報を取得することを考える。この場合、２Ｄ－ＢＢ４２ｎが未検出又は誤検出の画像が多視点画像に含まれると、三次元情報の認識精度が低下してしまう。そのため、未検出又は誤検出のＢＢ４２ｎを補間することが望ましい。

　しかし、体操選手等のように、様々な姿勢を取り得る人物を対象とした場合、透視投影を単純に適用しただけでは、未検出又は誤検出の２Ｄ－ＢＢ４２ｎを適切に補間することができない場合がある。図４を参照してより具体的に説明する。図４に示すように、水平面及び垂直面からなる直方体であって、三次元空間における体操選手９０を完全に囲む最小の直方体を三次元バウンディングボックス（以下、「３Ｄ－ＢＢ」とも表記する）４４として想定する。各カメラ３０ｎの視点ｎで、３Ｄ－ＢＢ４４を各画像４０ｎに投影したものが２Ｄ－ＢＢ４２ｎとなる。

　各カメラ３０ｎが体操選手９０を取り囲むように水平方向に並んで配置されている場合、各カメラ３０ｎの視点によらず、各画像４０ｎにおける２Ｄ－ＢＢ４２ｎの高さ（垂直方向の長さ）は共通する。なお、図４において、２Ｄ－ＢＢ４２ｎ及び３Ｄ－ＢＢ４４の高さを、星印を結ぶ線で表している。一方、各画像４０ｎにおける２Ｄ－ＢＢ４２ｎの幅（水平方向の長さ）は、各カメラ３０ｎの視点によって異なる。図４の例では、画像４０１から検出された２Ｄ－ＢＢ４２１の幅と、画像４０２から検出された２Ｄ－ＢＢ４２２の幅とは、その視点の相違に起因して異なっている。したがって、例えば、画像４０３において２Ｄ－ＢＢ４２３が未検出であったため、従来技術のような透視投影を単純に適用して、検出済みの２Ｄ－ＢＢ４２１、４２２から補間しようとしても、２Ｄ－ＢＢ４２３の幅を適切に定めることができない。そのため、画像４０３における２Ｄ－ＢＢ４２３を補間することができない。

　そこで、補間部１６は、２Ｄ－ＢＢが検出されている画像４０ｋにおける２Ｄ－ＢＢ４２ｋの高さと、カメラ３０ｋの各々のパラメータとに基づいて、２Ｄ－ＢＢが検出されていない画像４０＿ｍｉｓｓにおける２Ｄ－ＢＢ４２＿ｍｉｓｓの高さを特定する。そして、補間部１６は、体操選手９０の姿勢に関する統計情報と、カメラ３０＿ｍｉｓｓのパラメータとに基づいて、２Ｄ－ＢＢが検出されていない画像４０＿ｍｉｓｓにおける２Ｄ－ＢＢ４２＿ｍｉｓｓの幅を推定する。

　図５及び図６を参照して具体的に説明する。補間部１６は、画像４０ｋから検出された２Ｄ－ＢＢ４２ｋを、Ｂ^ｋ＝［ｘ^ｋ，ｙ^ｋ，ｗ^ｋ，ｈ^ｋ］とする。ｘ^ｋ及びｙ^ｋは、２Ｄ－ＢＢ４２ｋの左上角の点の画像４０ｋ内での座標、ｗ及びｈは、それぞれ２Ｄ－ＢＢ４２ｋの幅及び高さである。また、補間部１６は、画像４０＿ｍｉｓｓにおける２Ｄ－ＢＢ４２＿ｍｉｓｓを、Ｂ^ｍｉｓｓ＝［ｘ^ｍｉｓｓ，ｙ^ｍｉｓｓ，ｗ^ｍｉｓｓ，ｈ^ｍｉｓｓ］とする。すなわち、Ｂ^ｍｉｓｓを特定することが、２Ｄ－ＢＢ４２＿ｍｉｓｓを補間することに相当する。なお、図５及び図６の例では、ｋ＝１，２であり、＿ｍｉｓｓ＝３である。

　補間部１６は、２Ｄ－ＢＢ４２ｋの垂直方向の中心線の上部端点の座標［ｘ^ｋ＋ｗ^ｋ／２，ｙ^ｋ］、及下部端点の座標［ｘ^ｋ＋ｗ^ｋ／２，ｙ^ｋ＋ｈ^ｋ］を特定する。そして、補間部１６は、三次元座標を、カメラ３０ｋで撮影された画像平面上の座標へ変換するためのカメラ３０ｋのパラメータを用いて、上部端点及び下部端点の座標を三次元座標に変換する。例えば、補間部１６は、ＯｐｅｎＣＶ（https://docs.opencv.org/3.4/d0/dbd/group__triangulation.html）で定義されたｃｖ：：ｓｆｍ：：ｔｒｉａｎｇｌｅＰｏｉｎｔｓを利用して座標を変換してよい。この場合、補間部１６は、上部端点及び下部端点の各々に対応する三次元空間での点Ｐ３ｄ_ｔｏｐ及びＰ３ｄ_ｂｏｔの三次元座標を、カメラ３０ｋのパラメータ行列ＰｒｏｊＭａｔ_{ｃａｍ＿ｋ}を用いて、下記（１）式及び（２）式に示すように算出する。なお、三次元空間において、Ｐ３ｄ_ｔｏｐとＰ３ｄ_ｂｏｔとを結ぶ線を、人物中心線という。

Ｐ３ｄ_ｔｏｐ＝［Ｘ_ｔｏｐ，Ｙ_ｔｏｐ，Ｚ_ｔｏｐ］
＝ｃｖ：：ｓｆｍ：：ｔｒｉａｎｇｌｅＰｏｉｎｔｓ（｛［ｘ^１＋ｗ^１／２，ｙ^１］，［ｘ^２＋ｗ^２／２，ｙ^２］，・・・，［ｘ^ｋ＋ｗ^ｋ／２，ｙ^ｋ］｝，｛ＰｒｏｊＭａｔ_{ｃａｍ＿１}，ＰｒｏｊＭａｔ_{ｃａｍ＿２}，・・・，ＰｒｏｊＭａｔ_{ｃａｍ＿ｋ}｝）　　　（１）
Ｐ３ｄ_ｂｏｔ＝［Ｘ_ｂｏｔ，Ｙ_ｂｏｔ，Ｚ_ｂｏｔ］
＝ｃｖ：：ｓｆｍ：：ｔｒｉａｎｇｌｅＰｏｉｎｔｓ（｛［ｘ^１＋ｗ^１／２，ｙ^１＋ｈ^１］，［ｘ^２＋ｗ^２／２，ｙ^２＋ｈ^２］，・・・，［ｘ^ｋ＋ｗ^ｋ／２，ｙ^ｋ＋ｈ^ｋ］｝，｛ＰｒｏｊＭａｔ_{ｃａｍ＿１}，ＰｒｏｊＭａｔ_{ｃａｍ＿２}，・・・，ＰｒｏｊＭａｔ_{ｃａｍ＿ｋ}｝）　　　（２）

　また、補間部１６は、図６に示すように、Ｐ３ｄ_ｔｏｐ及びＰ３ｄ_ｂｏｔの三次元座標を、カメラ３０＿ｍｉｓｓのパラメータに基づいて、画像４０＿ｍｉｓｓ上の座標に変換する。これにより、補間部１６は、２Ｄ－ＢＢ４２＿ｍｉｓｓの垂直方向の中心線の上部端点及び下部端点の座標を算出する。例えば、補間部１６は、カメラ３０＿ｍｉｓｓのパラメータ行列ＰｒｏｊＭａｔ_{ｃａｍ＿ｍｉｓｓ}、及び三次元座標と画像４０のサイズとのスケール比を表すパラメータｓを用いて、下記（３）式及び（４）式に示すように座標変換を行う。

［ｓ×（ｘ^ｍｉｓｓ＋ｗ^ｍｉｓｓ／２），ｓ×ｙ^ｍｉｓｓ，ｓ］
＝ＰｒｏｊＭａｔ_{ｃａｍ＿ｍｉｓｓ}×［Ｘ_ｔｏｐ，Ｙ_ｔｏｐ，Ｚ_ｔｏｐ，１］　　　（３）
［ｓ×（ｘ^ｍｉｓｓ＋ｗ^ｍｉｓｓ／２），ｓ×（ｙ^ｍｉｓｓ＋ｈ^ｍｉｓｓ），ｓ］
＝ＰｒｏｊＭａｔ_{ｃａｍ＿ｍｉｓｓ}×［Ｘ_ｂｏｔ，Ｙ_ｂｏｔ，Ｚ_ｂｏｔ，１］　　　（４）

　補間部１６は、上記の座標変換に基づいて、２Ｄ－ＢＢ４２＿ｍｉｓｓの垂直方向の中心線の上部端点及び下部端点の座標を特定するためのｙ^ｍｉｓｓ、ｈ^ｍｉｓｓ、及びｘ^ｍｉｓｓ＋ｗ^ｍｉｓｓ／２を下記（５）式～（７）式に示すように算出する。

ｙ^ｍｉｓｓ＝ｓ×ｙ^ｍｉｓｓ／ｓ　　　　　　　　　　　　　　　　　（５）
ｈ^ｍｉｓｓ＝ｓ×（ｙ^ｍｉｓｓ＋ｈ^ｍｉｓｓ）／ｓ－ｙ^ｍｉｓｓ　　　　　　　（６）
ｘ^ｍｉｓｓ＋ｗ^ｍｉｓｓ／２＝ｓ×（ｘ^ｍｉｓｓ＋ｗ^ｍｉｓｓ／２）／ｓ　　　（７）

　補間部１６は、特定した上部端点と下部端点とを結ぶ線を２Ｄ－ＢＢ４２＿ｍｉｓｓの垂直方向の中心線として特定し、その中心線の長さを２Ｄ－ＢＢ４２＿ｍｉｓｓの高さとして特定する。

　また、補間部１６は、特定した２Ｄ－ＢＢ４２＿ｍｉｓｓの高さと、体操選手９０の姿勢に関する統計情報とに基づいて、２Ｄ－ＢＢ４２＿ｍｉｓｓの幅を推定する。統計情報は、例えば、体操選手が異なる複数の姿勢をとった場合の各々における、体操選手を囲む３Ｄ－ＢＢ４４の高さ及び幅の和の平均としてよい。以下では、図７に示すように、３Ｄ－ＢＢ４４の高さをＨｅｉｇｈｔ＿３Ｄ、幅のうち大きい方をＷｉｄｔｈ＿ｍａｘ＿３Ｄ、小さい方をＷｉｄｔｈ＿ｍｉｎ＿３Ｄとする。

　統計情報についてより具体的に説明する。まず、図８に示すように、モーションキャプチャ、人手によるアノテーション、公開されているデータ等から取得される、実物大の体操選手の三次元モデルを複数の姿勢（ポーズ）について用意する。図８の例では、Ｍポーズ分の三次元モデルが用意されている。そして、各三次元モデルについて、３Ｄ－ＢＢ４４を特定し、それぞれＨｅｉｇｈｔ＿３Ｄ、Ｗｉｄｔｈ＿ｍａｘ＿３Ｄ、及びＷｉｄｔｈ＿ｍｉｎ＿３Ｄを算出し、下記（８）式に示す平均Ｍｅａｎ＿３Ｄを統計情報として算出しておく。

Ｍｅａｎ＿３Ｄ＝（１／Ｍ）Σ_Ｍ（（Ｗｉｄｔｈ＿ｍａｘ＿３Ｄ＋Ｗｉｄｔｈ＿ｍｉｎ＿３Ｄ）／２＋Ｈｅｉｇｈｔ＿３Ｄ）　　　（８）

　補間部１６は、上記統計情報Ｍｅａｎ＿３Ｄと、既に算出しているＺ_ｔｏｐ及びＺ_ｂｏｔとを用いて、下記（９）式に示すように、対象の体操選手９０の３Ｄ－ＢＢ４４の幅Ｗｉｄｔｈ＿３Ｄを算出する。
Ｗｉｄｔｈ＿３Ｄ＝Ｍｅａｎ＿３Ｄ－｜｜Ｚ_ｔｏｐ－Ｚ_ｂｏｔ｜｜　　　（９）

　３Ｄ－ＢＢを画像上に透視投影する場合、投影された２Ｄ－ＢＢの高さと幅との比は、投影前の３Ｄ－ＢＢの高さと幅との比と同様である。そこで、補間部１６は、算出したＷｉｄｔｈ＿３Ｄと、既に算出しているＺ_ｔｏｐ、Ｚ_ｂｏｔ、及びｈ^ｍｉｓｓとを用いて、下記（１０）式に示すように、２Ｄ－ＢＢ４２＿ｍｉｓｓの幅ｗ^ｍｉｓｓを算出する。さらに、補間部１６は、下記（１１）式に示すように、算出したｗ^ｍｉｓｓ及び（７）式により、ｘ^ｍｉｓｓを算出する。
ｗ^ｍｉｓｓ＝（Ｗｉｄｔｈ＿３Ｄ／｜｜Ｚ_ｔｏｐ－Ｚ_ｂｏｔ｜｜）×ｈ^ｍｉｓｓ　　　（１０）
ｘ^ｍｉｓｓ＝ｘ^ｍｉｓｓ＋ｗ^ｍｉｓｓ／２－ｗ^ｍｉｓｓ／２　　　　　　　　　　　　　（１１）

　補間部１６は、（５）式、（６）式、（１０）式、及び（１１）式により算出される［ｘ^ｍｉｓｓ，ｙ^ｍｉｓｓ，ｗ^ｍｉｓｓ，ｈ^ｍｉｓｓ］で特定される２Ｄ－ＢＢ４２＿ｍｉｓｓを、画像４０＿ｍｉｓｓにおいて補間する。そして、補間部１６は、補間した２Ｄ－ＢＢ４２＿ｍｉｓｓと、２ＤＢＢ４２ｋとをまとめて、２Ｄ－ＢＢ検出済みの多視点画像として出力する。

　領域検出装置１０は、例えば図９に示すコンピュータ５０で実現されてよい。コンピュータ５０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）５１と、一時記憶領域としてのメモリ５２と、不揮発性の記憶部５３とを備える。また、コンピュータ５０は、カメラ３０ｎ、入力装置、表示装置等の外部装置が接続される入出力Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）５４と、記憶媒体５９に対するデータの読み込み及び書き込みを制御するＲ／Ｗ（Ｒｅａｄ／Ｗｒｉｔｅ）部５５とを備える。また、コンピュータ５０は、インターネット等のネットワークに接続される通信Ｉ／Ｆ５６を備える。ＣＰＵ５１、メモリ５２、記憶部５３、入出力Ｉ／Ｆ５４、Ｒ／Ｗ部５５、及び通信Ｉ／Ｆ５６は、バス５７を介して互いに接続される。

　記憶部５３は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）、フラッシュメモリ等によって実現されてよい。記憶媒体としての記憶部５３には、コンピュータ５０を、領域検出装置１０として機能させるための領域検出プログラム６０が記憶される。領域検出プログラム６０は、取得プロセス６２と、検出プロセス６４と、補間プロセス６６とを有する。また、記憶部５３は、検出モデル２０を構成する情報が記憶される情報記憶領域７０を有する。

　ＣＰＵ５１は、領域検出プログラム６０を記憶部５３から読み出してメモリ５２に展開し、領域検出プログラム６０が有するプロセスを順次実行する。ＣＰＵ５１は、取得プロセス６２を実行することで、図２に示す取得部１２として動作する。また、ＣＰＵ５１は、検出プロセス６４を実行することで、図２に示す検出部１４として動作する。また、ＣＰＵ５１は、補間プロセス６６を実行することで、図２に示す補間部１６として動作する。また、ＣＰＵ５１は、情報記憶領域７０から情報を読み出して、検出モデル２０をメモリ５２に展開する。これにより、領域検出プログラム６０を実行したコンピュータ５０が、領域検出装置１０として機能することになる。なお、プログラムを実行するＣＰＵ５１はハードウェアである。

　なお、領域検出プログラム６０により実現される機能は、例えば半導体集積回路、より詳しくはＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）やＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）等で実現することも可能である。

　次に、本実施形態に係る領域検出装置１０の作用について説明する。領域検出装置１０にカメラ３０ｎから多視点画像が入力されると、領域検出装置１０において、図１０に示す領域検出処理が実行される。なお、領域検出処理は、開示の技術の領域検出方法の一例である。

　ステップＳ１０で、取得部１２が、領域検出装置１０に入力された多視点画像を取得する。次に、ステップＳ１２で、検出部１４が、取得された多視点画像に含まれる各画像４０ｎを検出モデル２０に入力して、画像４０ｎの各々から２Ｄ－ＢＢ４２ｎを検出する。次に、ステップＳ１４で、検出部１４が、多視点画像に含まれる画像４０ｎのうち、２Ｄ－ＢＢ４２ｎが検出されていない画像４０ｎが存在する否かを判定する。２Ｄ－ＢＢ４２ｎが検出されていない画像４０ｎが存在する場合には、ステップＳ１６へ移行し、存在しない場合には、ステップＳ２４へ移行する。

　ステップＳ１６では、補間部１６が、検出された２Ｄ－ＢＢ４２ｋの垂直方向の中心線の上部端点の座標［ｘ^ｋ＋ｗ^ｋ／２，ｙ^ｋ］、及下部端点の座標［ｘ^ｋ＋ｗ^ｋ／２，ｙ^ｋ＋ｈ^ｋ］を特定する。次に、ステップＳ１８で、補間部１６が、カメラ３０ｋ（図１０では「ＯＫカメラ」と表記）のパラメータ行列を用いて、上部端点及び下部端点の座標を三次元座標に変換した点Ｐ３ｄ_ｔｏｐ及びＰ３ｄ_ｂｏｔを特定する。そして、補間部１６が、Ｐ３ｄ_ｔｏｐとＰ３ｄ_ｂｏｔとを結ぶ線を人物中心線として特定する。

　次に、ステップＳ２０で、補間部１６が、Ｐ３ｄ_ｔｏｐ及びＰ３ｄ_ｂｏｔの三次元座標を、カメラ３０＿ｍｉｓｓ（図１０では「ｍｉｓｓカメラ」と表記）のパラメータ行列に基づいて、画像４０＿ｍｉｓｓ（図１０では「ｍｉｓｓ画像」と表記）に投影する。これにより、２Ｄ－ＢＢ４２＿ｍｉｓｓの垂直方向の中心線が特定され、その中心線の長さが２Ｄ－ＢＢ４２＿ｍｉｓｓの高さとして特定される。

　次に、ステップＳ２２で、補間部１６が、特定した２Ｄ－ＢＢ４２＿ｍｉｓｓの高さと、体操選手９０の姿勢に関する統計情報とに基づいて、２Ｄ－ＢＢ４２＿ｍｉｓｓの幅を推定する。これにより、上記ステップＳ２０で特定された２Ｄ－ＢＢ４２＿ｍｉｓｓの垂直方向の中心線及び高さと、本ステップで推定された２Ｄ－ＢＢ４２＿ｍｉｓｓの幅とで特定される２Ｄ－ＢＢ４２＿ｍｉｓｓが画像４０＿ｍｉｓｓにおいて補間される。

　次に、ステップＳ２４で、補間部１６が、各画像４０ｎから２Ｄ－ＢＢ４２ｎが検出された多視点画像を出力する。検出された２Ｄ－ＢＢ４２ｎには、上記ステップＳ２２で補間された２Ｄ－ＢＢが含まれる。次に、ステップＳ２６で、取得部１２が、次の多視点画像が領域検出装置１０に入力されたか否かを判定する。次の多視点画像が領域検出装置１０に入力された場合には、ステップＳ１０に戻り、入力されていない場合には、領域検出処理は終了する。

　図１１に、４つの画像を含む多視点画像において、検出されなかった２Ｄ－ＢＢを補間した一例を示す。なお、図１１において、ｃａｍ＿ｉｄ：ｎ（ｎ＝１，２，３，４）は、ｉｄがｎのカメラで撮影された画像を表す。また、ｆｒａｍｅ：８５２は、各画像に対応付けられたフレーム番号であり、上記実施形態の時間情報に相当する。図１１左図に示すように、フレーム番号８５２の多視点画像に含まれるｃａｍ＿ｉｄ：３において欠落していた２Ｄ－ＢＢが、本実施形態を適用することにより、図１１右図に示すように補間される。

　以上説明したように、本実施形態に係る領域検出装置は、人物を各々異なる方向から撮影する複数のカメラの各々が撮影した画像のセットである多視点画像を取得する。また、領域検出装置は、取得した多視点画像に含まれる画像の各々を、画像に含まれる人物の領域を示すバウンディングボックスを検出するように予め機械学習により生成された検出モデルに入力して、画像の各々からバウンディングボックスを検出する。そして、領域検出装置は、取得した画像のうち第一の画像から検出されたバウンディングボックスと、複数のカメラの各々のパラメータとに基づいて、取得した画像のうちの第二の画像におけるバウンディングボックスを補間する。

　より具体的には、領域検出装置は、検出された２Ｄ－ＢＢをカメラの内部及び外部パラメータを使用して二次元から三次元へ投影し、三次元空間における垂直方向の人物中心線を特定する。そして、領域検出装置は、様々な姿勢の体操選手の三次元モデルから事前に算出しておいた、３Ｄ－ＢＢの高さ及び幅の平均を示す統計情報と、人物中心線の長さである３Ｄ－ＢＢの高さとに基づいて、３Ｄ－ＢＢの幅を推定する。さらに、領域検出装置は、人物中心線、３Ｄ－ＢＢの高さ及び幅から特定される３Ｄ－ＢＢを、カメラの内部及び外部パラメータを使用して三次元から二次元へ投影することにより、画像内の２Ｄ－ＢＢを補間する。これにより、多視点画像における未検出のバウンディングボックスを適切に補間することができる。

　本実施形態に係る領域検出装置から出力される２Ｄ－ＢＢ検出済みの多視点画像は、例えば図１２に示すように、体操選手の学習型骨格認識等に利用される。図１２の例では、２Ｄ－ＢＢが既知である多視点画像と、その多視点画像が表す体操選手の各関節の三次元座標（以下、「３Ｄ関節座標」という）の正解とのペアを訓練データとして、骨格認識モデルを事前に機械学習により生成しておく。骨格認識モデルは、例えばニューラルネットワーク等である。そして、認識対象の体操選手の多視点画像として、本実施形態に係る領域検出装置から出力された２Ｄ－ＢＢ検出済みの多視点画像が取得されると、機械学習済みの骨格認識モデルに多視点画像が入力され、３Ｄ関節座標が出力される。そして、骨格認識モデルから出力された３Ｄ関節座標を一次骨格認識結果とし、各関節間の長さや位置関係等の制約に基づいて、各関節位置の位置探索を行った３Ｄ関節座標がフィッティング結果として出力される。

　また、上記実施形態では、複数のカメラが略同一水平面に配置されている場合について説明したが、これに限定されない。例えば、選手が行う競技によっては、略同一垂直面内に配置された複数のカメラで撮影される多視点画像の方が、骨格認識等で精度の高い認識結果を得られる場合もある。この場合、第一の画像から検出された２Ｄ－ＢＢの幅と、第一の画像を撮影したカメラのパラメータとに基づいて３Ｄ－ＢＢの幅を特定し、３Ｄ－ＢＢの幅と、体操選手の三次元モデルに関する統計情報とに基づいて３Ｄ－ＢＢの高さを推定するようにすればよい。

　また、上記実施形態では、第一の画像を２Ｄ－ＢＢが検出された画像とし、第二の画像を２Ｄ－ＢＢが検出されなかった画像とする場合、すなわち、２Ｄ－ＢＢが欠落している画像において２Ｄ－ＢＢを補間する場合について説明したが、これに限定されない。例えば、多視点画像に含まれる各画像をそれぞれ第一の画像とし、他の画像を第二の画像とし、第一の画像において検出された２Ｄ－ＢＢを、上記実施形態と同様に補間される２Ｄ－ＢＢに基づいて補正するようにしてもよい。また、検出モデルがバウンディングボックスの検出と共に、その検出の信頼度を出力する場合、検出の信頼度が所定値以下の場合に、上記実施形態における２Ｄ－ＢＢが検出されなかった場合と同様に扱うようにしてもよい。

　また、上記実施形態では、領域検出プログラムが記憶部に予め記憶（インストール）されている態様を説明したが、これに限定されない。開示の技術に係るプログラムは、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリ等の記憶媒体に記憶された形態で提供することも可能である。

１０   領域検出装置
１２   取得部
１４   検出部
１６   補間部
２０   検出モデル
３０１、３０２、３０３　カメラ
４０１、４０２、４０３      画像
４２１、４２２       ２Ｄ－ＢＢ
５０   コンピュータ
５１   ＣＰＵ
５２   メモリ
５３   記憶部
５９   記憶媒体
６０   領域検出プログラム

Claims

　人物を各々異なる方向から撮影する複数の撮影装置の各々が撮影した画像を取得し、
　取得した画像を、画像に含まれる人物の領域を検出するように予め機械学習により生成された機械学習モデルに入力して、前記取得した画像の各々から人物を示す領域を検出し、
　前記取得した画像のうち第一の画像から検出された前記人物の領域と、前記複数の撮影装置の各々のパラメータとに基づいて、前記取得した画像のうちの第二の画像における前記人物を示す領域を補間する
　ことを含む処理をコンピュータに実行させるための領域検出プログラム。
　前記第一の画像は、前記取得した画像のうち、前記機械学習モデルにより前記人物を示す領域が検出された画像であり、
　前記第二の画像は、前記取得した画像のうち、前記機械学習モデルにより前記人物を示す領域が検出されていない画像である
　請求項１に記載の領域検出プログラム。
　前記複数の撮影装置は、同一水平面内に配置されており、
　前記第一の画像から検出された前記人物を示す領域の高さと、前記複数の撮影装置の各々のパラメータとに基づいて特定される前記第二の画像における前記人物を示す領域の高さと、前記人物の姿勢に関する統計情報とに基づいて、前記第二の画像における前記人物を示す領域の幅を推定する
　請求項２に記載の領域検出プログラム。
　前記第一の画像から検出された前記人物を示す領域の垂直方向の中心線の端点を、前記第一の画像を撮影した撮影装置の各々のパラメータに基づいて、三次元空間における人物の垂直方向の中心線の端点の座標に変換し、変換された三次元空間における座標を、前記第二の画像を撮影した撮影装置のパラメータに基づいて、第二の画像上の座標に変換して、前記第二の画像における前記人物を示す領域の高さを特定する請求項３に記載の領域検出プログラム。
　前記人物の姿勢に関する統計情報は、人物が異なる複数の姿勢をとった場合の各々における、前記人物を囲む直方体の高さと幅との和の平均である請求項４に記載の領域検出プログラム。
　前記三次元空間における人物の垂直方向の中心線の長さを、前記三次元空間における人物の高さとし、前記統計情報が示す平均と、前記三次元空間における人物の高さとの差を、前記三次元空間における人物の幅として推定し、前記三次元空間における人物の高さと幅との比、及び前記第二の画像における前記人物を示す領域の高さに基づいて、前記第二の画像における前記人物を示す領域の幅を推定する請求項５に記載の領域検出プログラム。
　前記複数の撮影装置は、同一垂直面内に配置されており、
　前記第一の画像から検出された前記人物を示す領域の幅と、前記複数の撮影装置の各々のパラメータとに基づいて特定される前記第二の画像における前記人物を示す領域の幅と、前記人物の姿勢に関する統計情報とに基づいて、前記第二の画像における前記人物を示す領域の高さを推定する
　請求項２に記載の領域検出プログラム。
　人物を各々異なる方向から撮影する複数の撮影装置の各々が撮影した画像を取得する取得部と、
　取得した画像を、画像に含まれる人物の領域を検出するように予め機械学習により生成された機械学習モデルに入力して、前記取得した画像の各々から人物を示す領域を検出する検出部と、
　前記取得した画像のうち第一の画像から検出された前記人物の領域と、前記複数の撮影装置の各々のパラメータとに基づいて、前記取得した画像のうちの第二の画像における前記人物を示す領域を補間する補間部と、
　を含む領域検出装置。
　前記第一の画像は、前記取得した画像のうち、前記機械学習モデルにより前記人物を示す領域が検出された画像であり、
　前記第二の画像は、前記取得した画像のうち、前記機械学習モデルにより前記人物を示す領域が検出されていない画像である
　請求項８に記載の領域検出装置。
　前記複数の撮影装置は、同一水平面内に配置されており、
　前記補間部は、前記第一の画像から検出された前記人物を示す領域の高さと、前記複数の撮影装置の各々のパラメータとに基づいて特定される前記第二の画像における前記人物を示す領域の高さと、前記人物の姿勢に関する統計情報とに基づいて、前記第二の画像における前記人物を示す領域の幅を推定する
　請求項９に記載の領域検出装置。
　前記補間部は、前記第一の画像から検出された前記人物を示す領域の垂直方向の中心線の端点を、前記第一の画像を撮影した撮影装置の各々のパラメータに基づいて、三次元空間における人物の垂直方向の中心線の端点の座標に変換し、変換された三次元空間における座標を、前記第二の画像を撮影した撮影装置のパラメータに基づいて、第二の画像上の座標に変換して、前記第二の画像における前記人物を示す領域の高さを特定する請求項１０に記載の領域検出装置。
　前記人物の姿勢に関する統計情報は、人物が異なる複数の姿勢をとった場合の各々における、前記人物を囲む直方体の高さと幅との和の平均である請求項１１に記載の領域検出装置。
　前記補間部は、前記三次元空間における人物の垂直方向の中心線の長さを、前記三次元空間における人物の高さとし、前記統計情報が示す平均と、前記三次元空間における人物の高さとの差を、前記三次元空間における人物の幅として推定し、前記三次元空間における人物の高さと幅との比、及び前記第二の画像における前記人物を示す領域の高さに基づいて、前記第二の画像における前記人物を示す領域の幅を推定する請求項１２に記載の領域検出装置。
　前記複数の撮影装置は、同一垂直面内に配置されており、
　前記補間部は、前記第一の画像から検出された前記人物を示す領域の幅と、前記複数の撮影装置の各々のパラメータとに基づいて特定される前記第二の画像における前記人物を示す領域の幅と、前記人物の姿勢に関する統計情報とに基づいて、前記第二の画像における前記人物を示す領域の高さを推定する
　請求項９に記載の領域検出装置。
　人物を各々異なる方向から撮影する複数の撮影装置の各々が撮影した画像を取得し、
　取得した画像を、画像に含まれる人物の領域を検出するように予め機械学習により生成された機械学習モデルに入力して、前記取得した画像の各々から人物を示す領域を検出し、
　前記取得した画像のうち第一の画像から検出された前記人物の領域と、前記複数の撮影装置の各々のパラメータとに基づいて、前記取得した画像のうちの第二の画像における前記人物を示す領域を補間する
　ことを含む処理をコンピュータが実行する領域検出方法。
　前記第一の画像は、前記取得した画像のうち、前記機械学習モデルにより前記人物を示す領域が検出された画像であり、
　前記第二の画像は、前記取得した画像のうち、前記機械学習モデルにより前記人物を示す領域が検出されていない画像である
　請求項１５に記載の領域検出方法。
　前記複数の撮影装置は、同一水平面内に配置されており、
　前記第一の画像から検出された前記人物を示す領域の高さと、前記複数の撮影装置の各々のパラメータとに基づいて特定される前記第二の画像における前記人物を示す領域の高さと、前記人物の姿勢に関する統計情報とに基づいて、前記第二の画像における前記人物を示す領域の幅を推定する
　請求項１６に記載の領域検出方法。
　前記第一の画像から検出された前記人物を示す領域の垂直方向の中心線の端点を、前記第一の画像を撮影した撮影装置の各々のパラメータに基づいて、三次元空間における人物の垂直方向の中心線の端点の座標に変換し、変換された三次元空間における座標を、前記第二の画像を撮影した撮影装置のパラメータに基づいて、第二の画像上の座標に変換して、前記第二の画像における前記人物を示す領域の高さを特定する請求項１７に記載の領域検出方法。
　前記人物の姿勢に関する統計情報は、人物が異なる複数の姿勢をとった場合の各々における、前記人物を囲む直方体の高さと幅との和の平均である請求項１８に記載の領域検出方法。
　人物を各々異なる方向から撮影する複数の撮影装置の各々が撮影した画像を取得し、
　取得した画像を、画像に含まれる人物の領域を検出するように予め機械学習により生成された機械学習モデルに入力して、前記取得した画像の各々から人物を示す領域を検出し、
　前記取得した画像のうち第一の画像から検出された前記人物の領域と、前記複数の撮影装置の各々のパラメータとに基づいて、前記取得した画像のうちの第二の画像における前記人物を示す領域を補間する
　ことを含む処理をコンピュータに実行させるための領域検出プログラムを記憶した非一時的記憶媒体。