WO2024004190A1

WO2024004190A1 - ３次元位置算出方法、装置、及びプログラム

Info

Publication number: WO2024004190A1
Application number: PCT/JP2022/026426
Authority: WO
Inventors: 帆楊
Original assignee: 富士通株式会社
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2024-01-04

Abstract

３次元位置算出装置は、多視点画像に含まれる時刻ｔに撮影された画像４０ｎ（ｔ）（ｎ＝０，１）において、１時刻前の画像４０ｎ（ｔ－１）及び１時刻後の画像４０ｎ（ｔ＋１）検出された対象物の２次元位置ｐ_{２ｄ，ｏｂｓ} ^{ｔ－１，ｃｎ}及びｐ_{２ｄ，ｏｂｓ} ^{ｔ＋１，ｃｎ}に基づいて、２次元位置ｐ_{２ｄ，ｐｒｅｄ} ^ｔ，ｃｎを補間し、画像４０ｎ（ｔ）から検出された２次元位置ｐ_{２ｄ，ｏｂｓ} ^ｔ，ｃｎと、補間された２次元位置ｐ_{２ｄ，ｐｒｅｄ} ^ｔ，ｃｎとの画像間での組み合わせ毎に、カメラパラメータを用いて、３次元位置の候補ｐ_{３ｄ，ｃａｎｄ} ^ｔを算出し、算出した候補ｐ_{３ｄ，ｃａｎｄ} ^ｔに基づいて、時刻ｔにおける対象物の３次元位置ｐ＾_３ｄ ^ｔを算出する。

Description

３次元位置算出方法、装置、及びプログラム

　開示の技術は、３次元位置算出方法、３次元位置算出装置、及び３次元位置算出プログラムに関する。

　従来、複数の異なる視点から対象物を撮影した多視点画像における対象物の２次元位置から、三角測量を使用して、対象物のワールド座標系における３次元位置を算出することが行われている。例えば、運動選手によりスイングされた携帯型スポーツ器具の一部の経路及び向きを２台以上のカメラを使用して追跡するシステムが提案されている。このシステムでは、異なる位置を有する少なくとも２つの異なるカメラを使用してスイングしている携帯型スポーツ器具の少なくとも２組のビデオ画像が取得される。そして、ビデオ画像内の動き領域が識別され、携帯型スポーツ器具の識別可能な部分（例えば、頭部）の２次元空間の候補位置が、動き領域内で識別される。それに基づき、携帯型スポーツ器具がスイングされた複数の瞬間のそれぞれに対し、識別可能な部分の３次元空間内の可能性のある位置が識別される。

米国特許出願公開第２０１７／０２７０３５４号

　しかしながら、多視点画像の中に、対象物が未検出の画像や、対象物を誤検知している画像が含まれる場合には、対象物の３次元位置を精度よく算出することができない場合があるという問題がある。

　一つの側面として、開示の技術は、多視点画像を用いた対象物の３次元位置の算出精度を向上させることを目的とする。

　一つの態様として、開示の技術は、対象物を異なる複数の視点から撮影する複数のカメラの各々で、対象時刻より前の１以上の時刻に撮影された第１画像、及び前記対象時刻に撮影された第２画像を取得する。また、開示の技術は、前記対象時刻より後の１以上の時刻に撮影された第３画像を取得する。そして、開示の技術は、前記第１画像及び前記第３画像の各々から検出された前記対象物の２次元位置に基づいて、前記第２画像における前記対象物の２次元位置を補間する。さらに、開示の技術は、前記第２画像から検出された前記対象物の２次元位置と、補間された前記第２画像における前記対象物の２次元位置と、前記複数のカメラの各々のカメラパラメータとに基づいて、前記対象時刻における前記対象物の３次元位置を算出する。

　一つの側面として、多視点画像を用いた対象物の３次元位置の算出精度を向上させることができる、という効果を有する。

本実施形態に係る３次元位置算出装置とカメラとの接続を示す概略図である。多視点画像から３次元位置を算出する一般的な方法を説明するための図である。多視点画像から３次元位置を算出する一般的な方法を説明するための図である。外れ値の除外について説明するための図である。多視点画像から３次元位置を算出する一般的な方法の問題点を説明するための図である。本実施形態に係る３次元位置算出装置の機能ブロック図である。対象物の２次元位置の一例を説明するための図である。対象物の２次元位置の一例を説明するための図である。時間空間情報を用いた２次元位置の補間を説明するための図である。３次元位置の候補のクラスタリングに基づく３次元位置の算出を説明するための図である。３次元位置算出装置として機能するコンピュータの概略構成を示すブロック図である。本実施形態に係る３次元位置算出処理の一例を示すフローチャートである。本実施形態による３次元位置の算出結果の一例を示すイメージ図である。本実施形態による３次元位置の算出結果の一例を示すイメージ図である。本実施形態に係る３次元位置算出装置の、体操競技の採点システムへの適用を説明するための図である。

　以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。

　図１に示すように、本実施形態に係る３次元位置算出装置１０は、各々異なる方向からの視点ｎにおいて対象物（図１の例では、対象物は人物）９０を撮影する複数のカメラ３０ｎの各々と接続される。図１の例では、ｎ＝０，１，２であり、視点０から撮影するカメラ３００、視点１から撮影するカメラ３０１、及び視点２から撮影するカメラ３０２が３次元位置算出装置１０と接続されている。なお、３次元位置算出装置１０に接続されるカメラ３０ｎの数は図１の例に限定されず、２台でもよいし、４台以上でもよい。

　カメラ３０ｎは、対象物９０が撮影範囲に収まる角度及び位置に設置される。カメラ３０ｎで撮影された映像は順次、３次元位置算出装置１０へ入力される。なお、各カメラ３０ｎには同期信号が送られ、各カメラ３０ｎで撮影された映像の同期がとられる。

　ここで、三角測量を使用して、複数の異なる視点から撮影された複数の画像（以下、「多視点画像」という）から対象物９０の３次元位置を算出する一般的な方法及び問題点について説明する。

　図２に示すように、視点ｎから撮影された画像４０ｎにおいて検出された対象物の２次元位置をｐ_{２ｄ，ｏｂｓ} ^ｃｎ（図２中の白丸）、真の２次元位置をｐ_{２ｄ，ｇｔ} ^ｃｎ（図２中の白い星印）とする。図２の例では、ｎ＝０，１，２である。また、算出される３次元位置をｐ＾_３ｄ（図２中の黒丸）、真の３次元位置をｐ_{３ｄ，ｇｔ}（図２中の黒い星印）とする。なお、「ｐ＾」は、図２中では、「ｐ」の上に「＾（ハット）」で表記されている。以下の各図においても同様である。なお、ｐ_２ｄ＝［ｘ，ｙ］∈実数Ｒ^２、ｐ_３ｄ＝［Ｘ，Ｙ，Ｚ］∈実数Ｒ^３である。対象物の３次元位置ｐ＾_３ｄは、各画像４０ｎを撮影したカメラ３０ｎのカメラパラメータ（内部パラメータ及び外部パラメータ）と、２次元位置ｐ_{２ｄ，ｏｂｓ} ^ｃｎとを用いて、三角測量により算出される。

　ここで、例えば、画像４００から検出された対象物９０の２次元位置ｐ_{２ｄ，ｏｂｓ} ^ｃ０の検出誤差が大きい場合、すなわち、ｐ_{２ｄ，ｏｂｓ} ^ｃ０とｐ_{２ｄ，ｇｔ} ^ｃ０との差が大きい場合、算出される３次元位置ｐ＾_３ｄの誤差も大きくなる。図２では、ｐ＾_３ｄ ^{ｎｏｉｓｅ}が、検出誤差の大きいｐ_{２ｄ，ｏｂｓ} ^ｃ０も用いて算出された３次元位置である。このような場合、２次元位置ｐ_{２ｄ，ｏｂｓ} ^ｃ０を外れ値として除外し、ｐ_{２ｄ，ｏｂｓ} ^ｃ１及びｐ_{２ｄ，ｏｂｓ} ^ｃ２を用いて３次元位置ｐ＾_３ｄ ^{ｒｅｆｉｎｅ}を算出することで、真の３次元位置ｐ_{３ｄ，ｇｔ}に近づけるように３次元位置を算出することが望ましい。

　図３に示す他の例を用いて具体的に説明する。図３の例では、ｎ＝０，１，２，３である。また、各記号の上付きの添え字ｔは、画像４０ｎが撮影された時刻、すなわち、画像（フレーム）４０ｎに対応付けられた時刻情報である。また、図３の例では、画像４０２からは、対象物の２次元位置ｐ_{２ｄ，ｏｂｓ} ^ｔ，ｃ２が未検出となっている。

　対象物の３次元位置ｐ＾_３ｄ ^ｔは、ＯｐｅｎＣＶ（参考：https://docs.opencv.org/3.4/d0/dbd/group__triangulation.html）に実装されている関数ｃｖ：：ｓｆｍ：：ｔｒｉａｎｇｕｌａｔｅＰｏｉｎｔｓを使用して、下記に示すように算出される。なお、Ｐ^ｃｎは、カメラ３０ｎのカメラパラメータを表す透視投影行列である。

　検出されている対象物の２次元位置ｐ_{２ｄ，ｏｂｓ} ^ｔ，ｃｎに外れ値が存在する場合、その影響により、算出される３次元位置ｐ＾_３ｄ ^ｔと、真の３次元位置ｐ_{３ｄ，ｇｔ} ^ｔとの誤差は大きくなる。ｐ_{２ｄ，ｏｂｓ} ^ｔ，ｃｎから外れ値を除外するために、例えば、ＲＡＮＳＡＣ（Random Sample Consensus）を適用する。まず、図４に示すように、外れ値を除外することなく算出した３次元位置ｐ＾_３ｄ ^ｔを各画像４０ｎに投影する。そして、投影された２次元位置と、ｐ_{２ｄ，ｏｂｓ} ^ｔ，ｃｎとの誤差（図４中の両矢印）を算出し、誤差が予め定めた閾値以上の場合に、そのｐ_{２ｄ，ｏｂｓ} ^ｔ，ｃｎを外れ値とする。図４の例では、ｐ_{２ｄ，ｏｂｓ} ^ｔ，ｃ０が外れ値である。この外れ値ｐ_{２ｄ，ｏｂｓ} ^ｔ，ｃ０を除外して、再度３次元位置を算出する。

　ここで問題となるのが、多くのｐ_{２ｄ，ｏｂｓ} ^ｔ，ｃｎが外れ値として除外されてしまう場合、画像４０２のようにｐ_{２ｄ，ｏｂｓ} ^ｔ，ｃｎが未検出となっている画像が多い場合等である。このような場合、図５に示すように、３次元位置を算出するための２次元位置の情報が不足し、精度良く３次元位置を算出できない場合がある。

　そこで、本実施形態に係る３次元位置算出装置１０は、時空間情報、具体的には、対象時刻の画像の前後の時刻の画像の情報も用いて、対象物の３次元位置を算出する。以下、本実施形態に係る３次元位置算出装置１０について、詳細に説明する。

　図６に示すように、３次元位置算出装置１０は、機能的には、取得部１２と、補間部１４と、算出部１６とを含む。また、３次元位置算出装置１０の所定の記憶領域には、カメラパラメータＤＢ（Database）２０が記憶される。カメラパラメータＤＢ２０には、各カメラ３０ｎの内部パラメータ及び外部パラメータが記憶されている。

　取得部１２は、複数のカメラ３０ｎで撮影された時系列の多視点画像を取得する。ここでは、時系列の多視点画像において、対象物９０の３次元位置を算出する処理対象の時刻ｔ（ｔ＝０，１，・・・，Ｔ、Ｔは最終フレームの時刻情報）に撮影された画像を画像４０ｎ（ｔ）とする。また、時刻ｔより１時刻前の時刻ｔ－１に撮影された画像を画像４０ｎ（ｔ－１）、及び時刻ｔより１時刻後の時刻ｔ＋１に撮影された画像を４０ｎ（ｔ＋１）とする。画像４０ｎ（ｔ－１）は、開示の技術の「第１画像」の一例であり、画像４０ｎ（ｔ）は、開示の技術の「第２画像」の一例であり、画像４０ｎ（ｔ＋１）は、開示の技術の「第３画像」の一例である。

　また、多視点画像に含まれる各画像４０ｎには、対象物９０の２次元位置の情報が付与されている。対象物９０の２次元位置の情報は、画像４０ｎから対象物９０の領域を検出するために予め機械学習により生成された検出モデルを用いて、多視点画像に含まれる各画像４０ｎから検出される対象物９０を囲む領域内の所定点の座標値としてよい。例えば、図７に示すように、対象物９０の領域が２次元のバウンディングボックス（以下、「２Ｄ－ＢＢＯＸ」という）４２ｎで検出される場合、２Ｄ－ＢＢＯＸ４２ｎの所定の位置の座標を、対象物９０の２次元位置の情報としてよい。所定の位置は、例えば、２Ｄ－ＢＢＯＸ４２ｎの中心、底辺の中点、いずれかの角（例えば、左上角）の点としてよい。図７の例では、２Ｄ－ＢＢＯＸ４２ｎの底辺の中点（図７中の黒丸）を対象物９０の２次元位置とする例を示している。これは、対象物９０である人物の足元の位置を表す情報として扱われる。

　また、対象物９０の２次元位置の情報は、画像４０ｎから対象物９０である人物の１以上の部位を認識するために予め機械学習により生成された認識モデルを用いて、多視点画像に含まれる各画像４０ｎから認識される対象物９０の各部位の座標値としてもよい。例えば、図８に示すように、認識モデルにより、対象物９０である人物の各関節等の位置（図８中の黒丸）が認識される場合、その各関節等の位置の座標値を、対象物９０の２次元位置の情報としてよい。

　なお、取得部１２は、対象物９０の２次元位置の情報が付与されていない多視点画像を取得する場合、上記の検出モデルや認識モデルを用いて、対象物９０の２次元位置の情報を取得するようにしてもよい。

　補間部１４は、画像４０ｎ（ｔ－１）及び画像４０ｎ（ｔ＋１）の各々から検出された対象物９０の２次元位置に基づいて、画像４０ｎ（ｔ）における対象物９０の２次元位置を補間する。具体的には、補間部１４は、画像４０ｎ（ｔ－１）及び画像４０ｎ（ｔ＋１）の各々から検出された対象物９０の２次元位置の線形補間により、画像４０ｎ（ｔ）における対象物９０の２次元位置を予測して補間する。

　図９の例を用いて具体的に説明する。図９の例では、ｎ＝０，１であり、画像４０ｎ（ｔ－１）、画像４０ｎ（ｔ）、及び画像４０ｎ（ｔ＋１）の各々から、以下に示すように、対象物９０の２次元位置が検出されている。

　この場合、補間部１４は、以下に示すように、各画像４０ｎ（ｔ）における対象物９０の補間された２次元位置ｐ_{２ｄ，ｐｒｅｄ} ^ｔ，ｃｎ（図９中の網点の丸）を算出する。

　なお、補間に用いる画像の時刻は、ｔ－１及びｔ＋１の例に限定されない。例えば、補間部１４は、時刻ｔ－５、ｔ－４、ｔ－３、ｔ－２、ｔ－１、ｔ＋１、ｔ＋２、ｔ＋３、ｔ＋４、及びｔ＋５の画像４０ｎを用いて、画像４０ｎ（ｔ）の２次元位置を補間してもよい。この場合、画像４０ｎ（ｔ－５）、画像４０ｎ（ｔ－４）、画像４０ｎ（ｔ－３）、画像４０ｎ（ｔ－２）、及び画像４０ｎ（ｔ－１）は、開示の技術の「第１画像」の一例である。また、画像４０ｎ（ｔ＋１）、画像４０ｎ（ｔ＋２）、画像４０ｎ（ｔ＋３）、画像４０ｎ（ｔ＋４）、及び画像４０ｎ（ｔ＋５）は、開示の技術の「第３画像」の一例である。

　算出部１６は、画像４０ｎ（ｔ）から検出された対象物９０の２次元位置と、補間部１４により補間された２次元位置と、各カメラ３０ｎのカメラパラメータとに基づいて、時刻ｔにおける対象物９０の３次元位置を算出する。具体的には、算出部１６は、検出及び補間された対象物９０の２次元位置の、画像４０ｎ（ｔ）間での組み合わせ毎に、対象物９０の３次元位置の候補を算出する。

　より具体的には、算出部１６は、カメラ３０ｉで撮影された画像４０ｉから検出及び補間された２次元位置から１つを選択してｐ_２ｄ ^ｉとし、カメラ３０ｊで撮影された画像４０ｊから検出及び補間された２次元位置から１つを選択してｐ_２ｄ ^ｊとする。算出部１６は、ｐ_２ｄ ^ｉ＝（ｘ^ｉ，ｙ^ｉ，１）とｐ_２ｄ ^ｊ＝（ｘ^ｊ，ｙ^ｊ，１）とのペアについて、カメラ３０ｉ及びカメラ３０ｊの各々のカメラパラメータを表す透視投影行列Ｐ^ｃｉ及びＰ^ｃｊを用いて、下記式を解くことにより、３次元位置の候補ｐ_{３ｄ，ｃａｎｄ} ^ｔを算出する。Ｐ_ｎはＰのｎ番目の行である。

　図９の例の場合、算出部１６は、画像４００（ｔ）のｐ_{２ｄ，ｏｂｓ} ^ｔ，ｃ０及びｐ_{２ｄ，ｐｒｅｄ} ^ｔ，ｃ０と、画像４０１のｐ_{２ｄ，ｏｂｓ} ^ｔ，ｃ１及びｐ_{２ｄ，ｐｒｅｄ} ^ｔ，ｃ１との組み合わせから、４つの３次元位置の候補ｐ_{３ｄ，ｃａｎｄ} ^ｔ（図９中の斜線の丸）を算出する。

　算出部１６は、算出した複数の３次元位置の候補ｐ_{３ｄ，ｃａｎｄ} ^ｔに基づいて、対象物９０の３次元位置ｐ＾_３ｄ ^ｔを算出する。例えば、算出部１６は、複数の候補ｐ_{３ｄ，ｃａｎｄ} ^ｔの重心の位置を３次元位置ｐ＾_３ｄ ^ｔとして算出する。ただし、この場合、画像４０ｎ（ｔ）から検出された２次元位置ｐ_{２ｄ，ｏｂｓ} ^ｔ，ｃｎ、及び補間された２次元位置ｐ_{２ｄ，ｐｒｅｄ} ^ｔ，ｃｎに含まれる外れ値を除外できない。そこで、算出部１６は、算出した候補ｐ_{３ｄ，ｃａｎｄ} ^ｔ間の距離に基づいて、候補ｐ_{３ｄ，ｃａｎｄ} ^ｔをクラスタリングし、クラスタに含まれる候補ｐ_{３ｄ，ｃａｎｄ} ^ｔの数が最大のクラスタの重心を、時刻ｔにおける対象物９０の３次元位置ｐ＾_３ｄ ^ｔとして算出してもよい。これは、最大のクラスタの重心の位置が、真の３次元位置に近似する最大の確率を持っていると仮定するものである。なお、クラスタリングの手法としては、完全連結法等の階層的クラスタリングの手法を適用してよい。

　図１０の例を用いて具体的に説明する。図１０の例では、ｎ＝０，１，２，３であり、画像４０ｎ（ｔ－１）、画像４０ｎ（ｔ）、及び画像４０ｎ（ｔ＋１）の各々から、以下に示すように、対象物９０の２次元位置が検出されている。

　また、図１０の例では、補間部１４により、以下に示すように、各画像４０ｎ（ｔ）における対象物９０の補間された２次元位置ｐ_{２ｄ，ｐｒｅｄ} ^ｔ，ｃｎ（図１０中の網点の丸）が算出されている。

　算出部１６は、２つの候補ｐ_{３ｄ，ｃａｎｄ} ^ｔ間の距離が閾値Ｋより小さい場合に、その２つの候補ｐ_{３ｄ，ｃａｎｄ} ^ｔを同じクラスタに割り当てる。また、算出部１６は、クラスタの重心位置と、そのクラスタに含まれない他の候補ｐ_{３ｄ，ｃａｎｄ} ^ｔとの距離が閾値Ｋより小さい場合、その候補ｐ_{３ｄ，ｃａｎｄ} ^ｔを該当のクラスタに割り当てる。算出部１６は、この処理を、距離が閾値Ｋより小さい候補ｐ_{３ｄ，ｃａｎｄ}間、又はクラスタと候補ｐ_{３ｄ，ｃａｎｄ}間が存在しなくなるまで繰り返す。図１０の例では、クラスタリングにより、６個のクラスタ（図１０中の実線の楕円及び破線の楕円）が生成された例を示している。

　算出部１６は、生成されたクラスタのうち、クラスタに含まれる候補ｐ_{３ｄ，ｃａｎｄ} ^ｔの数が最大のクラスタを選択し、選択したクラスタの重心の位置を、時刻ｔにおける対象物９０の３次元位置ｐ＾_３ｄ ^ｔとして算出する。図１０の例では、実線の楕円で示すクラスタが選択される。これにより、他のクラスタに属する候補ｐ_{３ｄ，ｃａｎｄ} ^ｔが外れ値として除外され、真の３次元位置ｐ_{３ｄ，ｇｔ} ^ｔに近い３次元位置ｐ＾_３ｄ ^ｔが算出される。

　算出部１６は、各時刻ｔにおいて、対象物９０の３次元位置ｐ＾_３ｄ ^ｔを算出し、ｔ＝０，１，・・・，Ｔの３次元位置ｐ＾_３ｄ ^ｔの系列（時系列の３次元位置ｐ＾_３ｄ）を出力する。

　３次元位置算出装置１０は、例えば図１１に示すコンピュータ５０で実現されてよい。コンピュータ５０は、ＣＰＵ（Central Processing Unit）５１と、一時記憶領域としてのメモリ５２と、不揮発性の記憶装置５３とを備える。また、コンピュータ５０は、入力装置、表示装置等の入出力装置５４と、記憶媒体５９に対するデータの読み込み及び書き込みを制御するＲ／Ｗ（Read/Write）装置５５とを備える。また、コンピュータ５０は、インターネット等のネットワークに接続される通信Ｉ／Ｆ（Interface）５６を備える。ＣＰＵ５１、メモリ５２、記憶装置５３、入出力装置５４、Ｒ／Ｗ装置５５、及び通信Ｉ／Ｆ５６は、バス５７を介して互いに接続される。

　記憶装置５３は、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等である。記憶媒体としての記憶装置５３には、コンピュータ５０を、３次元位置算出装置１０として機能させるための３次元位置算出プログラム６０が記憶される。３次元位置算出プログラム６０は、取得プロセス制御命令６２と、補間プロセス制御命令６４と、算出プロセス制御命令６６とを有する。また、記憶装置５３は、カメラパラメータＤＢ２０を構成する情報が記憶される情報記憶領域７０を有する。

　ＣＰＵ５１は、３次元位置算出プログラム６０を記憶装置５３から読み出してメモリ５２に展開し、３次元位置算出プログラム６０が有する制御命令を順次実行する。ＣＰＵ５１は、取得プロセス制御命令６２を実行することで、図６に示す取得部１２として動作する。また、ＣＰＵ５１は、補間プロセス制御命令６４を実行することで、図６に示す補間部１４として動作する。また、ＣＰＵ５１は、算出プロセス制御命令６６を実行することで、図６に示す算出部１６として動作する。また、ＣＰＵ５１は、情報記憶領域７０から情報を読み出して、カメラパラメータＤＢ２０をメモリ５２に展開する。これにより、３次元位置算出プログラム６０を実行したコンピュータ５０が、３次元位置算出装置１０として機能することになる。なお、プログラムを実行するＣＰＵ５１はハードウェアである。

　なお、３次元位置算出プログラム６０により実現される機能は、例えば半導体集積回路、より詳しくはＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）等で実現されてもよい。

　次に、本実施形態に係る３次元位置算出装置１０の動作について説明する。３次元位置算出装置１０に時系列の多視点画像が入力され、対象物９０の３次元位置の算出が指示されると、３次元位置算出装置１０において、図１２に示す３次元位置算出処理が実行される。なお、３次元位置算出処理は、開示の技術の３次元位置算出方法の一例である。

　ステップＳ１０で、取得部１２が、対象物９０の２次元位置の情報が付与された、時系列の多視点画像を取得する。次に、ステップＳ１２で、取得部１２が、処理対象の時刻を表す変数ｔに１を設定する。次に、ステップＳ１４で、補間部１４が、多視点画像に含まれる画像４０ｎ（ｔ－１）及び画像４０ｎ（ｔ＋１）の各々から検出された対象物９０の２次元位置に基づいて、画像４０ｎ（ｔ）における対象物９０の２次元位置を補間する。

　次に、ステップＳ１６で、算出部１６が、検出及び補間された対象物９０の２次元位置の、画像４０ｎ（ｔ）間での組み合わせ毎に、該当の画像４０ｎ（ｔ）を撮影したカメラ３０ｎのカメラパラメータを用いて、対象物９０の３次元位置の候補を算出する。次に、ステップＳ１８で、算出部１６が、算出した３次元位置の候補間の距離に基づいて、候補をクラスタリングし、クラスタに含まれる候補の数が最大のクラスタの重心を、時刻ｔにおける対象物９０の３次元位置として算出する。

　次に、取得部１２が、ｔが、多視点画像の最終フレームの時刻情報Ｔより小さいか否かを判定する。ｔ＜Ｔの場合には、ステップＳ２２へ移行し、取得部１２が、ｔを１インクリメントして、ステップＳ１４に戻る。一方、ｔ≧Ｔの場合には、ステップＳ２４へ移行し、算出部１６が、算出した３次元位置を出力し、３次元位置算出処理は終了する。

　以上説明したように、本実施形態に係る３次元位置算出装置は、対象物を多視点で撮影する複数のカメラの各々で、対象時刻より前の時刻に撮影された第１画像、対象時刻に撮影された第２画像、及び対象時刻より後の時刻に撮影された第３画像を取得する。また、３次元位置算出装置は、第１画像及び第３画像の各々から検出された対象物の２次元位置に基づいて、第２画像における対象物の２次元位置を補間する。そして、３次元位置算出装置は、第２画像から検出された対象物の２次元位置と、補間された２次元位置と、複数のカメラの各々のカメラパラメータとに基づいて、対象時刻における対象物の３次元位置を算出する。これにより、画像上の２次元位置に外れ値や未検出が多い場合でも、３次元位置を算出するための２次元位置の情報が補充され、多視点画像を用いた対象物の３次元位置の算出精度を向上させることができる。

　また、本実施形態に係る３次元位置算出装置は、検出及び補間された２次元位置の、画像間での組み合わせ毎に、対象物の３次元位置の候補を算出する。そして、３次元位置算出装置は、候補間の距離に基づいて候補をクラスタリングし、クラスタに含まれる候補の数が最大のクラスタの重心を、対象時刻における対象物の３次元位置として算出する。これにより、候補から外れ値を適切に除外して、多視点画像を用いた対象物の３次元位置の算出精度を向上させることができる。

　なお、上記実施形態では、３次元位置の候補をクラスタリングして、最大のクラスタを選択することで外れ値を除外する場合について説明したが、これに限定されない。例えば、上述したＲＡＮＳＡＣ等の手法を適用してもよい。具体的には、３次元位置算出装置は、複数の候補の重心の位置等を３次元位置として算出し、算出した３次元位置を、複数のカメラの各々のカメラパラメータに基づいて、第２画像の各々に投影する。そして、３次元位置算出装置は、投影した位置との距離が予め定めた閾値以内の、第２画像において検出及び補間された２次元位置を用いて、対象物の３次元位置を再度算出するようにしてもよい。ただし、上記実施形態のように、クラスタリングを利用する手法では、外れ値以外の候補の割合が５０％を下回った場合でも適切に機能するが、ＲＡＮＳＡＣ等の他の外れ値の除外方法では、適切に外れ値を除外することが困難な場合もある。

　ここで、上記実施形態に係る３次元位置算出装置による３次元位置の算出結果の一例について説明する。図１３は、画像から認識された人物の骨格情報に基づいて、ワールド座標系での人物の位置を算出した例を示すイメージ図である。上段（Ｓｈｅｌｆ）及び下段（Ｃａｍｐｕｓ）のいずれの例においても、人物の密集や画像上での重なりが生じているにもかかわらず、精度良く各人物の３次元位置を算出できていることが分かる。

　図１４は、画像から検出された２Ｄ－ＢＢＯＸの底辺の中点、すなわち人物の足元位置の３次元位置を算出し、撮影対象エリアを表すマップに、その３次元位置が表す足元位置をマッピングした例を示すイメージ図である。図１４の例においても、画像上での人物の重なりや、棚等の障害物による遮蔽が生じているにもかかわらず、精度良く各人物の足元の３次元位置が算出されている。本実施形態に係る３次元位置算出装置は、図１４の例に示すように、店舗内での客の移動軌跡を取得するシステムへの適用が可能である。

　また、上記実施形態に係る３次元位置算出装置は、例えば、体操競技の採点システムへの適用が可能である。ここで、図１５を参照して、体操競技の採点システムの処理の概略について説明する。

　採点システムは、多視点画像が入力されると、多視点画像に含まれる各画像から人物の領域を検出する。次に、採点システムは、人物が存在する位置が競技エリアか否か等に基づいて、検出した領域が示す人物が選手か選手以外かを判定し、選手を示す領域を特定する。採点システムは、時系列の多視点画像において、同一の選手を示す領域を対応付けることにより、選手をトラッキングする。採点システムは、トラッキングされた一連の画像の各々から、認識モデル等を用いて選手の２次元の骨格情報を認識する。採点システムは、２次元の骨格情報から、カメラパラメータを用いて３次元の骨格情報を推定する。そして、採点システムは、時系列の３次元の骨格情報に対する平滑化等の後処理を行い、演技のフェーズ（切れ目）を推定した後、技を認識する。

　上記の採点システムの処理において、２次元の骨格情報から３次元の骨格情報を推定する処理において、上記実施形態に係る３次元位置算出装置を適用可能である。

　なお、開示の技術は、対象物を体操選手とする場合に限定されるものではなく、他の競技の選手や、一般の歩行者等、様々な人物を対象物として適用可能である。さらに、人物以外でも、動物や車両等を対象物として適用することも可能である。

　また、上記実施形態では、３次元位置算出プログラムが記憶装置に予め記憶（インストール）されているが、これに限定されない。開示の技術に係るプログラムは、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリ等の記憶媒体に記憶された形態で提供されてもよい。

１０   ３次元位置算出装置
１２   取得部
１４   補間部
１６   算出部
２０   カメラパラメータＤＢ
３０ｎカメラ
４０ｎ画像
５０   コンピュータ
５１   ＣＰＵ
５２   メモリ
５３   記憶装置
５４   入出力装置
５５   Ｒ／Ｗ装置
５６   通信Ｉ／Ｆ
５７   バス
５９   記憶媒体
６０   次元位置算出プログラム
６２   取得プロセス制御命令
６４   補間プロセス制御命令
６６   算出プロセス制御命令
７０   情報記憶領域
９０   対象物

Claims

　対象物を異なる複数の視点から撮影する複数のカメラの各々で、対象時刻より前の１以上の時刻に撮影された第１画像、前記対象時刻に撮影された第２画像、及び前記対象時刻より後の１以上の時刻に撮影された第３画像を取得し、
　前記第１画像及び前記第３画像の各々から検出された前記対象物の２次元位置に基づいて、前記第２画像における前記対象物の２次元位置を補間し、
　前記第２画像から検出された前記対象物の２次元位置と、補間された前記第２画像における前記対象物の２次元位置と、前記複数のカメラの各々のカメラパラメータとに基づいて、前記対象時刻における前記対象物の３次元位置を算出する
　ことを含む処理をコンピュータが実行する３次元位置算出方法。
　前記対象物の３次元位置を算出する処理は、前記複数のカメラに含まれる第１カメラで撮影された前記第２画像から検出及び補間された前記対象物の２次元位置と、前記複数のカメラに含まれる第２カメラで撮影された前記第２画像から検出及び補間された前記対象物の２次元位置との組み合わせ毎に算出される前記対象物の３次元位置の候補に基づいて、前記対象時刻における前記対象物の３次元位置を算出することを含む請求項１に記載の３次元位置算出方法。
　前記対象物の３次元位置を算出する処理は、前記候補間の距離に基づいて前記候補をクラスタリングし、クラスタに含まれる前記候補の数が最大のクラスタの重心を、前記対象時刻における前記対象物の３次元位置として算出することを含む請求項２に記載の３次元位置算出方法。
　算出した前記対象物の３次元位置を、前記複数のカメラの各々のカメラパラメータに基づいて前記第２画像の各々に投影した位置との距離が予め定めた閾値以内の、前記第２画像から検出された前記対象物の２次元位置、及び補間された前記第２画像における前記対象物の２次元位置を用いて、前記対象時刻における前記対象物の３次元位置を再度算出する請求項１～請求項３のいずれか１項に記載の３次元位置算出方法。
　前記第２画像における前記対象物の２次元位置を補間する処理は、前記第１画像及び前記第３画像の各々から検出された前記対象物の２次元位置の線形補間により、前記第２画像における前記対象物の２次元位置を予測することを含む請求項１～請求項３のいずれか１項に記載の３次元位置算出方法。
　前記対象物の２次元位置は、画像から前記対象物の領域を検出するために予め機械学習により生成された検出モデルを用いて、前記第１画像、前記第２画像、及び前記第３画像の各々から検出される前記対象物を囲む領域内の所定点の座標値、又は、画像から前記対象物の１以上の部位を認識するために予め機械学習により生成された認識モデルを用いて、前記第１画像、前記第２画像、及び前記第３画像の各々から認識される前記対象物の部位の座標値である請求項１～請求項３のいずれか１項に記載の３次元位置算出方法。
　対象物を異なる複数の視点から撮影する複数のカメラの各々で、対象時刻より前の１以上の時刻に撮影された第１画像、前記対象時刻に撮影された第２画像、及び前記対象時刻より後の１以上の時刻に撮影された第３画像を取得する取得部と、
　前記第１画像及び前記第３画像の各々から検出された前記対象物の２次元位置に基づいて、前記第２画像における前記対象物の２次元位置を補間する補間部と、
　前記第２画像から検出された前記対象物の２次元位置と、補間された前記第２画像における前記対象物の２次元位置と、前記複数のカメラの各々のカメラパラメータとに基づいて、前記対象時刻における前記対象物の３次元位置を算出する算出部と、
　を含む３次元位置算出装置。
　前記算出部は、前記複数のカメラに含まれる第１カメラで撮影された前記第２画像から検出及び補間された前記対象物の２次元位置と、前記複数のカメラに含まれる第２カメラで撮影された前記第２画像から検出及び補間された前記対象物の２次元位置との組み合わせ毎に算出される前記対象物の３次元位置の候補に基づいて、前記対象時刻における前記対象物の３次元位置を算出する請求項７に記載の３次元位置算出装置。
　前記算出部は、前記候補間の距離に基づいて前記候補をクラスタリングし、クラスタに含まれる前記候補の数が最大のクラスタの重心を、前記対象時刻における前記対象物の３次元位置として算出する請求項８に記載の３次元位置算出装置。
　前記算出部は、算出した前記対象物の３次元位置を、前記複数のカメラの各々のカメラパラメータに基づいて前記第２画像の各々に投影した位置との距離が予め定めた閾値以内の、前記第２画像から検出された前記対象物の２次元位置、及び補間された前記第２画像における前記対象物の２次元位置を用いて、前記対象時刻における前記対象物の３次元位置を再度算出する請求項７～請求項９のいずれか１項に記載の３次元位置算出装置。
　前記補間部は、前記第１画像及び前記第３画像の各々から検出された前記対象物の２次元位置の線形補間により、前記第２画像における前記対象物の２次元位置を予測することを含む請求項７～請求項９のいずれか１項に記載の３次元位置算出装置。
　前記対象物の２次元位置は、画像から前記対象物の領域を検出するために予め機械学習により生成された検出モデルを用いて、前記第１画像、前記第２画像、及び前記第３画像の各々から検出される前記対象物を囲む領域内の所定点の座標値、又は、画像から前記対象物の１以上の部位を認識するために予め機械学習により生成された認識モデルを用いて、前記第１画像、前記第２画像、及び前記第３画像の各々から認識される前記対象物の部位の座標値である請求項７～請求項９のいずれか１項に記載の３次元位置算出装置。
　対象物を異なる複数の視点から撮影する複数のカメラの各々で、対象時刻より前の１以上の時刻に撮影された第１画像、前記対象時刻に撮影された第２画像、及び前記対象時刻より後の１以上の時刻に撮影された第３画像を取得し、
　前記第１画像及び前記第３画像の各々から検出された前記対象物の２次元位置に基づいて、前記第２画像における前記対象物の２次元位置を補間し、
　前記第２画像から検出された前記対象物の２次元位置と、補間された前記第２画像における前記対象物の２次元位置と、前記複数のカメラの各々のカメラパラメータとに基づいて、前記対象時刻における前記対象物の３次元位置を算出する
　ことを含む処理をコンピュータに実行させるための３次元位置算出プログラム。
　前記対象物の３次元位置を算出する処理は、前記複数のカメラに含まれる第１カメラで撮影された前記第２画像から検出及び補間された前記対象物の２次元位置と、前記複数のカメラに含まれる第２カメラで撮影された前記第２画像から検出及び補間された前記対象物の２次元位置との組み合わせ毎に算出される前記対象物の３次元位置の候補に基づいて、前記対象時刻における前記対象物の３次元位置を算出することを含む請求項１３に記載の３次元位置算出プログラム。
　前記対象物の３次元位置を算出する処理は、前記候補間の距離に基づいて前記候補をクラスタリングし、クラスタに含まれる前記候補の数が最大のクラスタの重心を、前記対象時刻における前記対象物の３次元位置として算出することを含む請求項１４に記載の３次元位置算出プログラム。
　算出した前記対象物の３次元位置を、前記複数のカメラの各々のカメラパラメータに基づいて前記第２画像の各々に投影した位置との距離が予め定めた閾値以内の、前記第２画像から検出された前記対象物の２次元位置、及び補間された前記第２画像における前記対象物の２次元位置を用いて、前記対象時刻における前記対象物の３次元位置を再度算出する請求項１３～請求項１５のいずれか１項に記載の３次元位置算出プログラム。
　前記第２画像における前記対象物の２次元位置を補間する処理は、前記第１画像及び前記第３画像の各々から検出された前記対象物の２次元位置の線形補間により、前記第２画像における前記対象物の２次元位置を予測することを含む請求項１３～請求項１５のいずれか１項に記載の３次元位置算出プログラム。
　前記対象物の２次元位置は、画像から前記対象物の領域を検出するために予め機械学習により生成された検出モデルを用いて、前記第１画像、前記第２画像、及び前記第３画像の各々から検出される前記対象物を囲む領域内の所定点の座標値、又は、画像から前記対象物の１以上の部位を認識するために予め機械学習により生成された認識モデルを用いて、前記第１画像、前記第２画像、及び前記第３画像の各々から認識される前記対象物の部位の座標値である請求項１３～請求項１５のいずれか１項に記載の３次元位置算出プログラム。
　対象物を異なる複数の視点から撮影する複数のカメラの各々で、対象時刻より前の１以上の時刻に撮影された第１画像、前記対象時刻に撮影された第２画像、及び前記対象時刻より後の１以上の時刻に撮影された第３画像を取得し、
　前記第１画像及び前記第３画像の各々から検出された前記対象物の２次元位置に基づいて、前記第２画像における前記対象物の２次元位置を補間し、
　前記第２画像から検出された前記対象物の２次元位置と、補間された前記第２画像における前記対象物の２次元位置と、前記複数のカメラの各々のカメラパラメータとに基づいて、前記対象時刻における前記対象物の３次元位置を算出する
　ことを含む処理をコンピュータに実行させるための３次元位置算出プログラムを記憶した非一時的記憶媒体。