WO2023119968A1

WO2023119968A1 - ３次元座標算出方法及び３次元座標算出装置

Info

Publication number: WO2023119968A1
Application number: PCT/JP2022/042680
Authority: WO
Inventors: 大気関井
Original assignee: コニカミノルタ株式会社
Priority date: 2021-12-20
Filing date: 2022-11-17
Publication date: 2023-06-29

Abstract

高精度な３次元座標の計算を行うことが可能な３次元座標算出方法を提供する。単眼カメラで撮影した映像に映っている物体の３次元座標を計算する３次元座標算出方法は、映像のフレームから一の物体の特徴点に係る第１特徴点情報と、他の物体の特徴点に係る第２特徴点情報とを、計算する特徴点検出ステップと、第１特徴点情報に対して、深度を含む３次元座標の推定値を計算する３次元座標推定ステップと、を有し、３次元座標推定ステップは、推定値の計算を、第１特徴点情報と第２特徴点情報とを用いた深度計算処理により行う。

Description

３次元座標算出方法及び３次元座標算出装置

　本開示は、撮影画像から物体の３次元座標を算出する技術に関する。

　カメラで撮影された映像から人物や車両などの物体を検出する物体検出技術は、監視カメラシステムや車載カメラシステムなどのアプリケーションの基礎技術として利用されている。また、検出した物体の骨格の関節点を検出する技術も様々なアプリケーションの基礎技術として利用されている。

　近年、物体の骨格検出技術として、ディープラーニングが使用されている。ディープラーニングを用いた物体検出方法としては、例えば、非特許文献１や非特許文献２が挙げられる。非特許文献１では、学習済みのニューラルネットワークを用いて、物体の２次元の骨格情報（物体の関節点の画像上での座標）を検出する技術が開示されている。非特許文献２では、各フレームで検出された２次元の骨格情報をニューラルネットワークの入力として、各関節点の３次元座標を検出する技術が開示されている。

Zhe Cao, Gines Hidalgo, Tomas Simon, Shih-En Wei, Yaser Sheikh, "OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", インターネット<https://arxiv.org/abs/1812.08008> Kyoungoh Lee, Inwoong Lee, Sanghoon Lee, " Propagating LSTM: 3D Pose Estimation based on Joint Interdependency", インターネット< https://openaccess.thecvf.com/content_ECCV_2018/html/Kyoungoh_Lee_Propagating_LSTM_3D_ECCV_2018_paper.html> Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, " You Only Look Once: Unified, Real-Time Object Detection", インターネット< https://arxiv.org/abs/1506.02640> Charles R. Qi, Hao Su, Kaichun Mo, Leonidas J. Guibas, " PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation", インターネット <https://openaccess.thecvf.com/content_cvpr_2017/papers/Qi_PointNet_Deep_Learning_CVPR_2017_paper.pdf>

　非特許文献２では、対象人物の２次元の骨格情報のみを用いて、対象人物の３次元の骨格情報（各関節点の３次元座標）の計算を行っている。これに対し、対象人物の近くに存在する物体の情報を用いることで、対象人物の３次元の骨格情報（各関節点の３次元座標）の計算の精度を向上させることができる可能性がある。

　本開示は、上記課題に鑑みてなされたもので、従来よりも高精度な３次元座標の計算を行うことが可能な３次元座標算出方法および３次元座標算出装置を提供することを目的とする。

　本開示の一態様の３次元座標算出方法は、単眼カメラで撮影した映像に映っている物体の３次元座標を計算する３次元座標算出方法であって、前記映像のフレームから一の物体の特徴点に係る第１特徴点情報と、他の物体の特徴点に係る第２特徴点情報と、を検出する特徴点検出ステップと、前記第１特徴点情報に対して、深度を含む３次元座標の推定値を計算する３次元座標推定ステップと、を有し、前記３次元座標推定ステップは、前記推定値の計算を、前記第１特徴点情報と前記第２特徴点情報とを入力とするニューロ演算により行うことを特徴とする。

　本開示によると、一の物体の特徴点の情報と、他の物体の特徴点の情報を用いて、一の物体の特徴点の３次元座標の計算を行うので、一の物体の特徴点の情報のみで計算を行うよりも高精度の３次元座標を計算することができる。

実施の形態１に係る３次元座標算出システム１の概略構成を示すブロック図である。カメラ１５の撮影映像１１１の一例を示す図である。図３（ａ）（ｂ）は、特徴検出結果データ１１３について説明するための図である。図４（ａ）（ｂ）は、特徴検出結果データ１１３について説明するための図である。図５（ａ）（ｂ）は、３次元（３Ｄ）座標データについて説明するための図である。ＤＮＮの構成を示すブロック図である。オブジェクトモデル及びオブジェクトモデルに対して設定される座標軸を示す模式図である。オブジェクトモデルにおける点の座標軸への射影を示す図である。

　１．実施の形態１
　以下、実施の形態１に係る３次元座標算出システム１について説明する。

　１．１　構成
　（１）３次元座標算出システム１
　図１は、３次元座標算出システム１の構成を示すブロック図である。図に示すように、３次元座標算出システム１は、カメラ１５と、３次元座標算出装置１０とを備える。

　（２）カメラ１５
　カメラ１５は、ＣＭＯＳ（Ｃｏｍｐｌｅｍｅｎｔａｒｙ　Ｍｅｔａｌ－Ｏｘｉｄｅ－Ｓｅｍｉｃｏｎｄｕｃｔｏｒ　ｆｉｅｌｄ－ｅｆｆｅｃｔ　ｔｒａｎｓｉｓｔｏｒ）イメージセンサーやＣＣＤ（Ｃｈａｒｇｅ－Ｃｏｕｐｌｅｄ　Ｄｅｖｉｃｅ）イメージセンサー等の撮像素子を備え、撮像素子上に結像した光を光電変換で電気信号に変換することにより所定サイズの画像を出力する単眼のカメラである。

　（３）３次元座標算出装置１０
　３次元座標算出装置１０は、制御部１１と、カメラ１５に接続するための入出力インターフェース１２とを備える。制御部１１は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１１ａ、主記憶装置１１ｂ、補助記憶装置１１ｃなどから構成される。主記憶装置１１ｂには、補助記憶装置１１ｃに格納されたコンピュータプログラムやデータがロードされ、ＣＰＵ１１ａが、主記憶装置１１ｂにロードされたコンピュータプログラムやデータにしたがって動作することにより、各処理部（物体検出器１１２、３次元座標算出器１１４）を実現する。補助記憶装置１１ｃは、一例として、ハードディスクおよび／または不揮発性の半導体メモリから構成されている。

　補助記憶装置１３は、カメラ１５の撮影映像１１１、特徴検出結果データ１１３、３次元座標データ１１５などを記憶する。

　（４）撮影映像１１１
　撮影映像１１１は、カメラ１５で撮影された複数フレームの画像データである。図２は、物体検出器１１２の入力となる撮影映像１１１の一フレームの画像データ２０１の一例である。

　（５）物体検出器１１２
　物体検出器１１２は、撮影映像１１１を入力とし、物体検出処理を行い、物体の特徴の検出結果として特徴検出結果データ１１３を出力する。

　物体検出器１１２は、検出対象の物体の特徴を検出するための機械学習を行ったニューラルネットワークである。物体検出部１１２は、既存のニューラルネットワークを用いることができる。本実施の形態では、物体検出部１１２は、ＯｐｅｎＰｏｓｅ（非特許文献１参照）およびＹＯＬＯ（非特許文献３参照）を用いる。ＯｐｅｎＰｏｓｅは、画像データから物体の関節点（顔・首・肩などの特徴点）を検出するニューラルネットワークである。ＹＯＬＯは、物体の外接矩形を検出するニューラルネットワークである。

　図３（ａ）は、ＯｐｅｎＰｏｓｅにより検出された物体の特徴点を模式的に示す図である。図３（ａ）は、図に示す人物が写っている画像データ２０１を入力とした場合の各特徴点の検出結果である。図に示すように、検出された人物毎に所定数個の特徴点３０１が検出される。

　図４（ａ）は、ＹＯＬＯにより検出された物体の外接矩形を模式的に示す図である。図４（ａ）は、図に示す人物および人物が所持している物体が写っている画像データ２０１を入力とした場合の各外接矩形の検出結果である。図に示すように、検出された物体毎に外接矩形４０１Ａ、４０１Ｂの各頂点４０１が検出される。

　（６）特徴検出結果データ１１３
　物体検出器１１２は、図３（ａ）、図４（ａ）における複数の特徴点３０１、４０１それぞれの、特徴検出結果データ１１３を出力する。図３（ｂ）は、1つの特徴点３０１に対する特徴検出結果データ１１３のデータ構造の一例を示す。図４（ｂ）は、1つの特徴点４０１に対する特徴検出結果データ１１３のデータ構造の一例を示す。
図３（ｂ）、図４（ｂ）に示すように、特徴検出結果データ１１３は、特徴点ＩＤ、位置情報（Ｘ）、位置情報（Ｙ）、時間情報、尤度情報、物体カテゴリ情報、特徴点カテゴリ情報を含んでいる。

　特徴点ＩＤは、物体検出器１１２で検出された複数の特徴点を一意に識別するために付される識別子である。

　位置情報（Ｘ）は、検出した特徴点の検出画像におけるＸ座標を示す情報である。

　位置情報（Ｙ）は、検出した特徴点の検出画像におけるＹ座標を示す情報である。

　時間情報は、検出画像のフレーム番号である。

　尤度情報は、検出した特徴点が尤もらしく検出されていることを示す情報である。

　物体カテゴリ情報は、検出した特徴点が属する物体のカテゴリ（種別）を示す情報である。物体カテゴリ情報は、例えば、人間、犬、猫、車、などを識別する値である。

　特徴点カテゴリ情報は、検出した特徴点のカテゴリ（種別）を示す情報である。特徴点カテゴリ情報は、例えば、頭の関節点、首の関節点、肩の関節点、外接矩形の左上の頂点、外接矩形の右上の頂点などを識別する値である。

　（７）３次元座標計算器１１４
　３次元座標計算器１１４は、複数フレームから検出された複数の特徴検出結果データ１１３を入力として、入力された特徴検出結果データ１１３それぞれの３次元座標の推定値を一括して算出するための機械学習を行ったニューラルネットワークである。

　３次元座標計算器１１４は、既存のニューラルネットワークを用いることができる。本実施の形態では、３次元座標計算器１１４は、ＰｏｉｎｔＮｅｔ（非特許文献４参照）を用いる。ＰｏｉｎｔＮｅｔは点群データを入力として、特定のタスクを実行するためのニューラルネットワークである。３次元座標計算器１１４としては、点群データを入力として用い、Ｐｅｒｍｕｔａｔｉｏｎ－Ｅｑｕｉｖａｒｉａｎｔなニューラルネットワークであることが望ましい。

　３次元座標計算器１１４は、複数の特徴検出結果データ１１３を点群データとして入力し、人物の関節点に対応する特徴検出結果データ１１３の３次元座標を計算するように学習されている。

　３次元座標計算器１１４は、学習時、訓練データとして、訓練用画像データから検出された特徴検出結果データ１１３を入力として３次元座標の推定値を出力する。そして、教師データとして距離センサーで計測するなどして取得した特徴点の３次元の正解座標との誤差を、所定の誤差関数により計算する。この誤差が小さくなるように、最急降下法などを用いてニューラルネットワークの各パラメータが学習される。

　３次元座標計算器１１４の入力には、３次元座標の算出対象となる人物の関節点の情報などに加えて、人物の周囲の物体（人物が所持している物体や人物の周囲にいる別の人物など）の特徴点の情報も含まれる。これらの情報を用いて算出対象となる人物の関節点の３次元座標を計算するように学習することにより、算出対象となる人物の関節点の情報だけで３次元座標を計算するよりも、高精度に３次元座標を計算することができる。

　（８）３次元座標データ１１５
　３次元座標計算器１１４により、物体検出器１１２で検出された特徴点（特徴検出結果データ１１３）それぞれに対して、３次元座標データ１１５が算出される。

　図５（ａ）は、検出された複数の特徴点５０１を模式的に示す図である。図５（ｂ）は、検出された特徴点５０１に対して算出される３次元座標データ１１５のデータ構造を示す。図５（ｂ）に示すように、３次元座標データ１１５は、特徴点ＩＤと位置情報（Ｘ）と位置情報（Ｙ）と深度情報とを含む。特徴点ＩＤは、物体検出器１１２で検出された特徴点を一意に識別するために付される識別子である。位置情報（Ｘ）は、検出した特徴点の検出画像におけるＸ座標を示す情報である。位置情報（Ｙ）は、検出した特徴点の検出画像におけるＹ座標を示す情報である。深度情報は、検出した特徴点のカメラ１５からの距離を示す情報である。

　１．２　ＤＮＮ
　上述のように、物体検出器１１２および３次元座標計算器１１４は、機械学習を行ったディープニューラルネットワーク（ＤＮＮ）である。物体検出器１１２は、入力画像から特徴点を検出し、点群データを出力するものであれば、任意のＤＮＮを用いてもよい。３次元座標計算器１１４は、点群データを入力とし、Ｐｅｒｍｕｔａｔｉｏｎ－Ｅｑｕｉｖａｒｉａｎｔであれば、任意のＤＮＮを用いてもよい。

　ＤＮＮニューラルネットワークの一例として、図６に示すニューラルネットワーク６００について、説明する。

　（１）ニューラルネットワーク６００の構造
　ニューラルネットワークとは、人間の神経ネットワークを模倣した情報処理システムのことである。ニューラルネットワーク６００において、神経細胞に相当する工学的なニューロンのモデルを、ここではニューロンＵと呼ぶ。ニューラルネットワーク６００は、ニューロンＵが多数結合された構造をしている。また、ニューラルネットワーク６００は、それぞれが複数のニューロンが集まった複数の層６０１から構成される。隣り合う層のニューロン間には、ニューロン同士のつながりの強さを示す重みが設定されている。

　ニューロンＵとして、多入力１出力の素子が用いられる。信号は一方向に伝わり、入力された値に、上記の重みが乗じられて、ニューロンＵに入力される。この重みは、学習によって変化させることができる。ニューロンＵからは、重みが乗じられたそれぞれの入力値の総和が活性化関数による変形を受けた後、次の層の各ニューロンＵに出力される。なお、活性化関数としては、例えば、ＲｅＬＵやシグモイド関数を用いることができる。

　最初の層は、入力層と呼ばれ、データが入力される。例えば、１枚の画像を構成する各画素の画素値がそれぞれ入力層の各ニューロンＵに入力される。また、点群データに含まれる位置情報、時間情報、尤度情報、物体カテゴリ情報、特徴点情報がそれぞれ入力層の各ニューロンＵに入力される。最後の層は、出力層と呼ばれ、結果を出力する層になる。

　ニューラルネットワーク６００の学習方法としては、例えば、正解を示す値（教師データ）と訓練データに対するニューラルネットワーク６００の出力値とから所定の誤差関数（損失関数）を用いて誤差（損失値）を算出し、この誤差が最小となるように、最急降下法等を用いてニューロン間の重みを順次変化させていく誤差逆伝播法（バックプロパゲーション）が用いられる。

　２．補足
　以上、本発明を実施の形態に基づいて説明してきたが本発明は上述の実施の形態に限定されないのは勿論であり、以下の変形例が本発明の技術範囲に含まれることは勿論である。

　（１）上述の実施の形態において、物体検出器１１２は、物体の関節点を検出するＯｐｅｎＰｏｓｅおよび物体の外接矩形を検出するＹＯＬＯを用いるとしたが、他の特徴点を検出するニューラルネットワークを用いてもよい。

　例えば、以下の説明で定義される特定キーポイントを特徴点として検出するニューラルネットワークを用いてもよい。

　検出対象の物体を立体的にモデル化したオブジェクトモデルを考える。ここでは、検出対象の物体が車である場合について説明する。

　図７は、検出対象の物体である車のオブジェクトモデル７００と、当該オブジェクトモデル７００に対して設定された座標軸７０１、７０２を示す図である。ここで、座標軸７０１、７０２の原点は、オブジェクトモデル７００の中心である。また、座標軸７０１、７０２は、それぞれ、オブジェクトモデル７００の中心を原点として設定された極座標系において所定の偏角方向をなしている。

　オブジェクトモデル７００上の点集合７０３～７０７を、座標軸７０１、７０２に射影した点について考える。

　図８は、オブジェクトモデル７００上の点を座標軸７０１、７０２に射影させた点を示す図である。

　図８に示すように、オブジェクトモデル７００上の点集合７０３～７０７は、座標軸７０１の点集合８０１～８０５に射影される。同様に、オブジェクトモデル７００上の点集合７０３～７０７は、座標軸７０２の点集合８１１～８１５に射影される。

　オブジェクトモデル７００の表面上の各点において、特徴的な部分を示す点、例えば、他の部分よりも突出している点や他の部分よりも凹んでいる点は、座標軸７０１や７０２がなす極座標系の偏角方向を適切に選べば、座標軸７０１、７０２に射影された点集合において、極大値又は極小値となる点である。逆にいうと、座標軸７０１、７０２に射影された点集合うち、極大値又は極小値となる点は、オブジェクトモデル７００の表面上の各点において、特徴的な部分を示す点といえる。このように座標軸上にオブジェクトモデル７００の表面上の各点を射影した点集合のうち、極大値となる点及び極小値となる点をそれぞれ求め、それらの中から正の範囲で最大値となる点と最小値となる点を特定キーポイントと定義する。このようにして、オブジェクトモデル７００の表面上の各点において、他の部分よりも突出している点や他の部分よりも凹んでいる点を特定キーポイントとして定義する。

　物体検出器１１２は、上記特定キーポイントを特徴検出結果として検出してもよい。

　（２）上述の実施の形態において、特徴検出結果データ１１３は、尤度情報、物体カテゴリ情報、特徴点カテゴリ情報を含むとしているが、他の情報を含んでいてもよい。例えば、物体の外観の情報（例えば、色の情報など）が含まれていてもよい。

　（３）上述の実施の形態において、物体検出器１１２は、一のフレームの単一画像を入力として当該一のフレームの物体の特徴を検出するものでもよく、一のフレームを含む複数フレームからなる複数画像を入力として当該一のフレームの物体の特徴を検出するものであってもよい。

　３．その他
　本開示の一態様の３次元座標算出方法は、単眼カメラで撮影した映像に映っている物体の３次元座標を計算する３次元座標算出方法であって、前記映像のフレームから一の物体の特徴点に係る第１特徴点情報と、他の物体の特徴点に係る第２特徴点情報と、を検出する特徴点検出ステップと、前記第１特徴点情報に対して、深度を含む３次元座標の推定値を計算する３次元座標推定ステップと、を有し、前記３次元座標推定ステップは、前記推定値の計算を、前記第１特徴点情報と前記第２特徴点情報とを入力とするニューロ演算により行うことを特徴とする。

　上記３次元座標算出方法において、前記一の物体の特徴点は、当該一の物体の骨格の関節点であるとしてもよい。

　上記３次元座標算出方法において、前記他の物体の特徴点は、当該他の物体の骨格の関節点または外接矩形の頂点であるとしてもよい。

　上記３次元座標算出方法において、前記他の物体の特徴点は、当該物体の形状をモデル化したオブジェクトモデルを考えたとき、前記オブジェクトモデルの境界を示す点集合を所定の座標軸に射影した点集合の中で、所定の基準を満たす点であり、前記所定の座標軸は、前記オブジェクトモデルの中心を原点とし、前記オブジェクトモデルに対して設定される極座標系において所定の偏角方向をなすとしてもよい。

　上記３次元座標算出方法において、前記所定の条件は、前記射影した点集合の中で、前記座標軸上で極大値となる点及び極小値となる点のうち、正の範囲で最大値又は最小値となることであるとしてもよい。

　上記３次元座標算出方法において、特徴点検出ステップは、一のフレームの単一画像を入力として前記一のフレームの前記第１特徴点情報および前記第２特徴点情報を算出する、または、前記一のフレームを含む複数フレームからなる複数画像を入力として前記一のフレームの前記第１特徴点情報および前記第２特徴点情報を算出するとしてもよい。

　上記３次元座標算出方法において、特徴点検出ステップは、前記単一画像または前記複数画像を入力としたニューロ演算を行う物体検出器を用いるとしてもよい。

　上記３次元座標算出方法において、前記第１特徴点情報および前記第２特徴点情報は、特徴点の２次元座標と時刻情報とを含むとしてもよい。

　上記３次元座標算出方法において、前記第１特徴点情報および前記第２特徴点情報は、特徴点が尤もらしく検出されていることを示す尤度情報、物体の種類を示す物体カテゴリ情報、特徴点の種類を示す特徴点カテゴリ情報、物体の外観の特徴を示す物体外観情報、のいずれかを含むとしてもよい。

　上記３次元座標算出方法において、前記ニューロ演算は、点群データ形式の前記第１特徴点情報および前記第２特徴点情報を入力とするＤＮＮ（Ｄｅｅｐ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）を用いて、複数フレームに渡る複数の前記第１特徴点情報に対する前記推定値を一括して算出するとしてもよい。

　上記３次元座標算出方法において、前記ＤＮＮは、Ｐｅｒｍｕｔａｔｉｏｎ－Ｅｑｕｉｖａｒｉａｎｔであるとしてもよい。

　本開示の一態様の３次元座標算出装置は、カメラで撮影した映像に映っている物体の３次元座標を計算する３次元座標算出装置であって、前記映像のフレームから一の物体の特徴点に係る第１特徴点情報と、他の物体の特徴点に係る第２特徴点情報とを、検出する特徴点検出器と、前記第１特徴点情報に対して、深度を含む３次元座標の推定値を計算する３次元座標推定器と、を有し、前記３次元座標推定器は、前記推定値の計算を、前記第１特徴点情報と前記第２特徴点情報とを入力とするニューロ演算により行うことを特徴とする。

　本開示は、監視カメラシステムなどに搭載される物体追跡装置として有用である。

　　１　３次元座標算出システム
　１０　３次元座標算出装置
１１２　物体検出器
１１４　３次元座標算出器
　１５　カメラ

Claims

　単眼カメラで撮影した映像に映っている物体の３次元座標を計算する３次元座標算出方法であって、
　前記映像のフレームから一の物体の特徴点に係る第１特徴点情報と、他の物体の特徴点に係る第２特徴点情報と、を検出する特徴点検出ステップと、
　前記第１特徴点情報に対して、深度を含む３次元座標の推定値を計算する３次元座標推定ステップと、を有し、
　前記３次元座標推定ステップは、前記推定値の計算を、前記第１特徴点情報と前記第２特徴点情報とを入力とするニューロ演算により行う
　三次元座標算出方法。
　前記一の物体の特徴点は、当該一の物体の骨格の関節点である
　請求項１に記載の三次元座標算出方法。
　前記他の物体の特徴点は、当該他の物体の骨格の関節点または外接矩形の頂点である
　請求項１に記載の三次元座標算出方法。
　前記他の物体の特徴点は、当該物体の形状をモデル化したオブジェクトモデルを考えたとき、前記オブジェクトモデルの境界を示す点集合を所定の座標軸に射影した点集合の中で、所定の基準を満たす点であり、
　前記所定の座標軸は、前記オブジェクトモデルの中心を原点とし、前記オブジェクトモデルに対して設定される極座標系において所定の偏角方向をなす
　請求項１に記載の三次元座標算出方法。
　前記所定の条件は、前記射影した点集合の中で、前記座標軸上で極大値となる点及び極小値となる点のうち、正の範囲で最大値又は最小値となることである
　請求項４に記載の三次元座標算出方法。
　特徴点検出ステップは、一のフレームの単一画像を入力として前記一のフレームの前記第１特徴点情報および前記第２特徴点情報を算出する、または、前記一のフレームを含む複数フレームからなる複数画像を入力として前記一のフレームの前記第１特徴点情報および前記第２特徴点情報を算出する
　請求項１に記載の三次元座標算出方法。
　特徴点検出ステップは、前記単一画像または前記複数画像を入力としたニューロ演算を行う物体検出器を用いる
　請求項６に記載の三次元座標算出方法。
　前記第１特徴点情報および前記第２特徴点情報は、特徴点の２次元座標と時刻情報とを含む
　請求項１に記載の三次元座標算出方法。
　前記第１特徴点情報および前記第２特徴点情報は、特徴点が尤もらしく検出されていることを示す尤度情報、物体の種類を示す物体カテゴリ情報、特徴点の種類を示す特徴点カテゴリ情報、物体の外観の特徴を示す物体外観情報、のいずれかを含む
　請求項８に記載の三次元座標算出方法。
　前記ニューロ演算は、点群データ形式の前記第１特徴点情報および前記第２特徴点情報を入力とするＤＮＮ（Ｄｅｅｐ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）を用いて、複数フレームに渡る複数の前記第１特徴点情報に対する前記推定値を一括して算出する
　請求項１に記載の三次元座標算出方法。
　前記ＤＮＮは、Ｐｅｒｍｕｔａｔｉｏｎ－Ｅｑｕｉｖａｒｉａｎｔである
　請求項１０に記載の物体追跡方法。
　カメラで撮影した映像に映っている物体の３次元座標を計算する３次元座標算出装置であって、
　前記映像のフレームから一の物体の特徴点に係る第１特徴点情報と、他の物体の特徴点に係る第２特徴点情報とを、検出する特徴点検出器と、
　前記第１特徴点情報に対して、深度を含む３次元座標の推定値を計算する３次元座標推定器と、を有し、
　前記３次元座標推定器は、前記推定値の計算を、前記第１特徴点情報と前記第２特徴点情報とを入力とするニューロ演算により行う
　三次元座標算出装置。