WO2023286217A1

WO2023286217A1 - 位置検出装置、位置検出方法、及び位置検出プログラム

Info

Publication number: WO2023286217A1
Application number: PCT/JP2021/026510
Authority: WO
Inventors: 大我吉田; 直己伊藤; 潤島村
Original assignee: 日本電信電話株式会社
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2023-01-19
Also published as: JPWO2023286217A1

Abstract

三次元の空間内における対象物体の存在位置を認識する位置検出装置において、空間の三次元の点群情報、及び空間の物体の周囲を含めて撮影された画像であって、異なる撮影地点から撮影された複数の画像を取得する。領域検出部は、取得された複数の画像を入力とし、複数の画像内に対象物体が写っているかを判定し、複数の画像の各々に対象物体が写っている場合に、各画像における物体の領域を検出する。特定部は、点群情報と、各画像において検出された物体の領域とに基づいて、対象物体に対応する点群の領域を特定する。位置検出部は、特定部により特定された領域内の点群情報から、対象物体に対応する点を認識し、空間における対象物体の位置を特定する。

Description

位置検出装置、位置検出方法、及び位置検出プログラム

　開示の技術は、位置検出装置、位置検出方法、及び位置検出プログラムに関する。特に、点群及び画像内に写っている対象物体を認識し、三次元空間内での位置を検出する技術に関する。

　　ＭＭＳ（Ｍｏｂｉｌｅ　Ｍａｐｐｉｎｇ　Ｓｙｓｔｅｍ）と呼ばれる車両にさまざまな計測装置を搭載することにより、三次元空間の形状データを取得する装置がある。計測装置としてライダー（ＬｉＤＡＲ、Ｌｉｇｈｔ　Ｄｅｔｅｃｔｉｏｎ　Ａｎｄ　Ｒａｎｇｉｎｇ）を利用することで点群データを取得できる。点群データと、ＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）等により取得した位置情報とを組み合わせることにより、空間の三次元点群情報を取得できる。

　取得した三次元点群情報を解析することにより、地上の構造物の正確な位置を取得し、高精度な三次元地図を構築するといった活用が可能である。構造物の位置を取得するためには、非特許文献１に示されているような三次元点群データから対象物体を認識する認識技術が必要となる。

特開２０１５－０９５１５６号公報特開２０１６－０１８４４４号公報

QI, Charles R., et al. Pointnet: Deep learning on point sets for 3d classification and segmentation. In CVPR 2017. QI, Charles R., et al. Frustum pointnets for 3d object detection from rgb-d data. In CVPR 2018. J. Redmon and A. Farhadi. YOLO9000: better, faster, stronger. In CVPR 2017. HE, Kaiming, et al. Deep residual learning for image recognition. In: CVPR 2016.

　しかし、大規模な点群データの処理には非常に大きな計算コストがかかるため、非特許文献２に示すような二次元の画像認識の結果に基づいて処理する点群の範囲を限定し、対象物体の位置を高速に認識する技術がある。

　非特許文献２に示した技術では、対象物体が存在する点群の範囲を、二次元の画像認識結果の矩形に対応する三次元空間上の四角錐体の範囲に絞り込む。しかし、対象物体までの距離が分からないため、点群を計測可能な最短距離から最長距離までを対象とする必要があり、絞り込むことのできる四角錐体の高さ及び点群の範囲は非常に大きくなる。

　また、絞り込んだ四角錐体の範囲内の点群には対象物体より手前にある遮蔽物や、対象物体より奥にある物体や建造物から抽出された点も含まれる。そのため、これらの不要な点群を除去する処理が必要となり、精度低下の要因にもなる。

　開示の技術は、上記の点に鑑みてなされたものであり、対象物体の前後に他の物体が含まれる場合でも、画像から対象物体を認識した結果を用いて三次元空間における対象物体の位置を絞り込む。これにより三次元点群情報から高速かつ高精度に対象物体の位置を検出できる位置検出装置、位置検出方法、及び位置検出プログラムを提供することを目的とする。

　本開示の第１態様は、三次元の空間内における対象物体の存在位置を認識する位置検出装置であって、前記空間の三次元の点群情報を取得する点群取得部と、前記空間の物体の周囲を含めて撮影された画像であって、異なる撮影地点から撮影された複数の画像を取得する画像取得部と、前記画像取得部で取得された前記複数の画像を入力とし、前記複数の画像内に対象物体が写っているかを判定し、前記複数の画像の各々に前記対象物体が写っている場合に、各画像における物体の領域を検出する領域検出部と、前記点群情報と、各画像において検出された物体の領域とに基づいて、前記対象物体に対応する点群の領域を特定する特定部と、前記特定部により特定された領域内の前記点群情報から、対象物体に対応する点を認識し、前記空間における対象物体の位置を特定する位置検出部と、を含む。

　本開示の第２態様は、三次元の空間内における対象物体の存在位置を認識する位置検出方法であって、前記空間の三次元の点群情報を取得し、前記空間の物体の周囲を含めて撮影された画像であって、異なる撮影地点から撮影された複数の画像を取得し、取得された前記複数の画像を入力とし、前記複数の画像内に対象物体が写っているかを判定し、前記複数の画像の各々に前記対象物体が写っている場合に、各画像における物体の領域を検出し、前記点群情報と、各画像において検出された物体の領域とに基づいて、前記対象物体に対応する点群の領域を特定し、特定された領域内の前記点群情報から、対象物体に対応する点を認識し、前記空間における対象物体の位置を特定する、処理をコンピュータに実行させる。

　本開示の第３態様は、位置検出プログラムであって、三次元の空間内における対象物体の存在位置を認識する位置検出プログラムであって、前記空間の三次元の点群情報を取得し、前記空間の物体の周囲を含めて撮影された画像であって、異なる撮影地点から撮影された複数の画像を取得し、取得された前記複数の画像を入力とし、前記複数の画像内に対象物体が写っているかを判定し、前記複数の画像の各々に前記対象物体が写っている場合に、各画像における物体の領域を検出し、前記点群情報と、各画像において検出された物体の領域とに基づいて、前記対象物体に対応する点群の領域を特定し、特定された領域内の前記点群情報から、対象物体に対応する点を認識し、前記空間における対象物体の位置を特定する、処理をコンピュータに実行させる。

　開示の技術によれば、対象物体の前後に他の物体が含まれる場合でも、画像から対象物体を認識した結果を用いて三次元空間における対象物体の位置を絞り込み、三次元点群情報から高速かつ高精度に対象物体の位置を検出できる。

位置検出装置のハードウェア構成を示すブロック図である。位置検出装置の機能的な構成を示すブロック図である。画像の物体領域についての説明図である。点群の物体領域についての説明図である。点群の物体領域の統合についての説明図である。位置検出装置による位置検出の流れを示すフローチャートである。

　以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

　以下、本実施形態の構成について説明する。

　図１は、位置検出装置１００のハードウェア構成を示すブロック図である。

　図１に示すように、位置検出装置１００は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１２、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１３、ストレージ１４、入力部１５、表示部１６及び通信インタフェース（Ｉ／Ｆ）１７を有する。各構成は、バス１９を介して相互に通信可能に接続されている。

　ＣＰＵ１１は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、ＣＰＵ１１は、ＲＯＭ１２又はストレージ１４からプログラムを読み出し、ＲＡＭ１３を作業領域としてプログラムを実行する。ＣＰＵ１１は、ＲＯＭ１２又はストレージ１４に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。本実施形態では、ＲＯＭ１２又はストレージ１４には、位置検出プログラムが格納されている。

　ＲＯＭ１２は、各種プログラム及び各種データを格納する。ＲＡＭ１３は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ１４は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の記憶装置により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。

　入力部１５は、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。

　表示部１６は、例えば、液晶ディスプレイであり、各種の情報を表示する。表示部１６は、タッチパネル方式を採用して、入力部１５として機能してもよい。

　通信インタフェース１７は、端末等の他の機器と通信するためのインタフェースである。当該通信には、例えば、イーサネット（登録商標）若しくはＦＤＤＩ等の有線通信の規格、又は、４Ｇ、５Ｇ、若しくはＷｉ－Ｆｉ（登録商標）等の無線通信の規格が用いられる。

　次に、位置検出装置１００の各機能構成について説明する。図２は、本実施形態の位置検出装置１００の機能的な構成を示すブロック図である。各機能構成は、ＣＰＵ１１がＲＯＭ１２又はストレージ１４に記憶された位置検出プログラムを読み出し、ＲＡＭ１３に展開して実行することにより実現される。

　図２に示すように、位置検出装置１００は、点群取得部１０２と、画像取得部１０４と、領域検出部１０６と、特定部１０８と、位置検出部１１０とを含んで構成されている。

　点群取得部１０２は、ライダーなどにより三次元の空間（以下、単に空間と記載する）における三次元の点群情報を取得する。事前に取得された点群情報を入力として受け付けても良い。

　画像取得部１０４は、異なる位置からカメラで撮影することにより複数の画像、及び撮影情報を取得する。複数の画像は移動する１台のカメラから撮影しても良く、複数のカメラで異なる位置から空間を撮影しても良い。画像は、空間において物体の周囲を含めて撮影しているとする。事前に取得された画像を入力として受け付けても良い。撮影情報としては、画像の撮影装置に関する特性情報、及び画像と三次元点群との位置関係を特定するための情報を併せて取得する。画像の撮影装置に関する特性情報は、例えば、撮影に用いたカメラの撮影画角、及びレンズのゆがみ補正のための情報等を用いることができる。位置関係を特定するための情報は、例えば、三次元点群の座標系における画像の撮影位置と撮影方向の情報を用いることができる。

　領域検出部１０６は、画像取得部１０４で取得された複数の画像を入力とし、画像認識技術を適用して、複数の画像の各々に対象物体が写っている場合に、各画像における物体の領域を検出する。画像認識技術には任意の技術を利用することができ、例えば、非特許文献３の技術を利用することができる。画像認識技術は事前に対象物体を認識できるように学習しておく。対象物体は車や人のような物体のカテゴリであってもよく、特定の車種や人物のようなインスタンスであってもよい。また、複数の対象物体の中から、認識する対象物体を選択できるようにしてもよい。

　また、領域検出部１０６では、複数の画像内に対象物体が写っているか否かを判定する。領域検出部１０６の判定は、地図情報を含む対象物体のおおよその位置を特定可能な特定情報と、特性情報と、位置関係を特定するための情報とに基づいて、画像ごとに、対象物体が写っている可能性の高低を判定する。判定により、対象物体が写っている可能性が低いと判定された画像を、処理対象から除外する。これにり、計算処理のコストを削減することができる。なお、高低の判定は、画像の撮影地点から位置候補範囲までの距離、及び撮影装置の画角に収まっている位置候補範囲の割合に基づいて、対象物体が写っている可能性の高低を判定する。対象物体の位置候補範囲は、地図情報から取得した前記対象物体の位置から一定の距離内の範囲とする。

　画像認識において対象物体が認識された場合、領域検出部１０６は認識された対象物体の画像内における領域を出力する。領域の形状は任意であり、図３に示す通り、領域は矩形の検出枠であっても良く、対象物体に対応する画素の集合であっても良い。

　対象物体が車のような物体であった場合、空間内に複数存在する可能性がある。そこで各画像で認識された対象物体が同一の物体であるかを判定し、物体ごとに以降の処理を別々に実施しても良い。同一の物体であるかの判定には、例えば画像の撮影位置に基づき、撮影位置が一定範囲内にある場合は同一の物体であるとみなすことができる。２つ以上の対象物体がある場合は、対象物体ごとに以降の処理を行う。なお、空間内の対象物体が一つであることが既知の場合は、対象物体が同一の物体であるかの判定を省略してよい。

　また、領域検出部１０６は、各画像で認識された対象物体が同一の物体であるかの判定に、例えば特許文献１のような画像認識技術を利用することができる。例えば、検出された物体領域の範囲内にある画像を切り出し、切り出した画像のペアに対して特許文献１に示す画像認識技術などを用いて、物体が同じ特徴を持つかを判定する。切り出した画像のペアに対して局所特徴量に基づく幾何検証を適用することにより物体が同一であるか判定を行い、判定結果のスコアが閾値以上となる場合に同一の物体であるとみなしても良い。これにより、対象物体が複数存在する場合に物体領域が誤って判定されることを回避できる。

　特定部１０８は、点群情報と、領域検出部１０６で各画像において検出された物体の領域とに基づいて、同一の物体であると判定された対象物体について、撮影地点の認識結果ごとに物体領域を算出し、統合することにより、点群の領域を特定する。

　図４に示す通り、点群における物体領域は、一般的には画像の物体領域の相似形を底面とする錐体となる。このとき、点群の計測範囲や一定の範囲外にある点は、点群の物体領域の対象外としても良い。また、画像が奥行情報を持つ場合、物体領域の画素単位で奥行情報に対応する空間を統合したものを点群の物体領域としても良い。

　特定部１０８は、同一の対象物体の認識結果ごとに、複数の物体領域を算出した後、それらの複数の物体領域を統合し、点群における物体の領域を絞り込む。例えば、図５に示す通り、点群の物体領域が２つあった場合、２つの領域が重なりあう部分を統合後の領域としても良い。また、各物体領域に画像認識の信頼度に基づくスコアを与え、複数の物体領域に含まれる場合は各領域のスコアを合計し、閾値以上のスコアとなる物体領域を統合後の領域としても良い。このとき、領域検出部１０６で検出された領域に対してさらに複数の画像認識技術を適用し、それぞれの画像認識結果の信頼度を重み付きで足し合わせた値を各物体領域に加算するスコアとしても良い。また、画像認識技術として、例えば、非特許文献４に示す畳み込みニューラルネットワークに基づく画像認識技術と特許文献２に示す局所特徴量に基づく画像認識を適用してもよい。それぞれの画像認識結果の信頼度を重み付きで足し合わせた値を各物体領域に加算するスコアとして、閾値以上のスコアとなる領域を求めて統合をする。

　位置検出部１１０は、特定部１０８により特定された統合後の領域内の点群情報から、対象物体に対応する点を認識することにより、空間における対象物体の正確な位置を検出し、結果を出力する。また、対象物体の姿勢、物体に対応する点の一覧等の付加情報を算出し、付加情報として出力しても良い。対象物体の点群認識に利用する手法は任意であり、例えば非特許文献１の技術を利用することができる。

　次に、位置検出装置１００の作用について説明する。

　図６は、位置検出装置１００による位置検出処理の流れを示すフローチャートである。ＣＰＵ１１がＲＯＭ１２又はストレージ１４から位置検出プログラムを読み出して、ＲＡＭ１３に展開して実行することにより、位置検出処理が行なわれる。ＣＰＵ１１が位置検出装置１００の各部として処理を実行する。

　ステップＳ１００において、ＣＰＵ１１は、点群取得部１０２として三次元の点群情報を取得し、画像取得部１０４として複数の画像、及び撮影情報を取得する。

　次に、ＣＰＵ１１は領域検出部１０６としての処理を行う。ステップＳ１０２～Ｓ１０８の処理は複数の画像の各々（各画像）に対して処理する。ステップＳ１１０は認識結果について処理する。

　ステップＳ１０２において、ＣＰＵ１１は、複数の画像の各々について、当該画像内に対象物体が存在している可能性が高いか又は低いかを判定する。高い場合にはステップＳ１０４へ移行し、低い場合には画像認識の対象とせずに以降の処理対象から除外する。

　ステップＳ１０４において、ＣＰＵ１１は、画像認識技術を適用して、各画像における物体の領域を検出する。

　ステップＳ１０６において、ＣＰＵ１１は、対象物体が認識されたか否かを判定する。認識された場合にはステップＳ１０８へ移行し、認識されなかった場合には以降の処理対象から除外する。

　ステップＳ１０８において、ＣＰＵ１１は、認識された対象物体の領域を検出する。

　ステップＳ１１０において、ＣＰＵ１１は、認識結果について、２枚以上の画像に写っている対象物体に対して同一の物体であるかを判定する。判定手法は上述した手法を用いる。同一の物体でない場合は以降の処理を別々に実施する。

　次に、ＣＰＵ１１は特定部１０８としての処理を行う。ステップＳ１１０以降の処理は同一の対象物体であると判定された各物体について対象物体ごとに行う。ステップＳ１１０の処理は物体に応じた認識結果ごとに行う。

　ステップＳ１１２において、ＣＰＵ１１は、認識結果ごとに、物体領域を算出する。

　ステップＳ１１４において、ＣＰＵ１１は、対象物体について、複数の物体領域を統合する。統合手法は上述した手法を用いる。これにより、対象物体の点群の領域を特定する。

　ステップＳ１１６において、ＣＰＵ１１は、位置検出部１１０として、対象物体について、統合後の領域内の点群情報から、対象物体に対応する点を認識することにより、空間における対象物体の正確な位置を検出し、結果を出力する。

　以上説明したように本実施形態の位置検出装置１００によれば、三次元点群情報から高速かつ高精度に対象物体の位置を検出できる。

　なお、上記実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行した位置検出処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）、及びＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、位置検出処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

　また、上記実施形態では、位置検出プログラムがストレージ１４に予め記憶（インストール）されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＤＶＤ－ＲＯＭ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、及びＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）メモリ等の非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

　以上の実施形態に関し、更に以下の付記を開示する。

　（付記項１）
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　三次元の空間内における対象物体の存在位置を認識する位置検出において、
　前記空間の三次元の点群情報を取得し、
　前記空間の物体の周囲を含めて撮影された画像であって、異なる撮影地点から撮影された複数の画像を取得し、
　取得された前記複数の画像を入力とし、前記複数の画像内に対象物体が写っているかを判定し、前記複数の画像の各々に前記対象物体が写っている場合に、各画像における物体の領域を検出し、
　前記点群情報と、各画像において検出された物体の領域とに基づいて、前記対象物体に対応する点群の領域を特定し、
　特定された領域内の前記点群情報から、対象物体に対応する点を認識し、前記空間における対象物体の位置を特定する、
　ように構成されている位置検出装置。

　（付記項２）
　位置検出処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
　三次元の空間内における対象物体の存在位置を認識する位置検出において、
　前記空間の三次元の点群情報を取得し、
　前記空間の物体の周囲を含めて撮影された画像であって、異なる撮影地点から撮影された複数の画像を取得し、
　取得された前記複数の画像を入力とし、前記複数の画像内に対象物体が写っているかを判定し、前記複数の画像の各々に前記対象物体が写っている場合に、各画像における物体の領域を検出し、
　前記点群情報と、各画像において検出された物体の領域とに基づいて、前記対象物体に対応する点群の領域を特定し、
　特定された領域内の前記点群情報から、対象物体に対応する点を認識し、前記空間における対象物体の位置を特定する、
　非一時的記憶媒体。

１００位置検出装置
１０２点群取得部
１０４画像取得部
１０６領域検出部
１０８特定部
１１０位置検出部

Claims

　三次元の空間内における対象物体の存在位置を認識する位置検出装置であって、
　前記空間の三次元の点群情報を取得する点群取得部と、
　前記空間の物体の周囲を含めて撮影された画像であって、異なる撮影地点から撮影された複数の画像を取得する画像取得部と、
　前記画像取得部で取得された前記複数の画像を入力とし、前記複数の画像内に対象物体が写っているかを判定し、前記複数の画像の各々に前記対象物体が写っている場合に、各画像における物体の領域を検出する領域検出部と、
　前記点群情報と、各画像において検出された物体の領域とに基づいて、前記対象物体に対応する点群の領域を特定する特定部と、
　前記特定部により特定された領域内の前記点群情報から、対象物体に対応する点を認識し、前記空間における対象物体の位置を特定する位置検出部と、
　を含む位置検出装置。
　前記領域検出部は、地図情報を含む対象物体のおおよその位置を特定可能な特定情報と、前記画像の撮影装置に関する特性情報と、位置情報及び撮影方向を含む点群との位置関係を特定するための情報とに基づいて、前記画像ごとに、前記対象物体が写っている可能性の高低を判定し、前記対象物体が写っている可能性が低いと判定された前記画像を、処理対象から除外する、請求項１に記載の位置検出装置。
　前記領域検出部は、前記地図情報から取得した前記対象物体の位置から一定の距離内の範囲を前記対象物体の位置候補範囲とし、
　前記画像の撮影地点から前記位置候補範囲までの距離、及び撮影装置の画角に収まっている位置候補範囲の割合に基づいて、前記対象物体が写っている可能性の高低を判定する、請求項２に記載の位置検出装置。
　前記領域検出部は、画像の撮影位置、又は、検出された物体領域に対する画像認識に基づき、対象物体が同一の物体であるか否かを判定し、
　前記特定部は、前記対象物体について、同一の物体であると判定された対象物体ごとに、各判定対象の物体領域を算出し、統合することにより、前記点群の領域を特定する、請求項１～請求項３の何れか１項に記載の位置検出装置。
　前記特定部は、前記領域検出部により検出された同一の対象物体の領域に対応する複数の物体領域について、各物体領域に画像認識結果に基づくスコアを加算し、スコアが閾値以上となる前記物体領域について前記統合をする、請求項４に記載の位置検出装置。
　前記特定部は、前記領域検出部で検出された領域に対して畳み込みニューラルネットワークに基づく画像認識と局所特徴量に基づく画像認識を適用し、それぞれの画像認識結果の信頼度を重み付きで足し合わせた値を各物体領域に加算するスコアとして、前記統合をする、請求項４又は請求項５に記載の位置検出装置。
　三次元の空間内における対象物体の存在位置を認識する位置検出方法であって、
　前記空間の三次元の点群情報を取得し、
　前記空間の物体の周囲を含めて撮影された画像であって、異なる撮影地点から撮影された複数の画像を取得し、
　取得された前記複数の画像を入力とし、前記複数の画像内に対象物体が写っているかを判定し、前記複数の画像の各々に前記対象物体が写っている場合に、各画像における物体の領域を検出し、
　前記点群情報と、各画像において検出された物体の領域とに基づいて、前記対象物体に対応する点群の領域を特定し、
　特定された領域内の前記点群情報から、対象物体に対応する点を認識し、前記空間における対象物体の位置を特定する、
　処理をコンピュータに実行させる位置検出方法。
　三次元の空間内における対象物体の存在位置を認識する位置検出プログラムであって、
　前記空間の三次元の点群情報を取得し、
　前記空間の物体の周囲を含めて撮影された画像であって、異なる撮影地点から撮影された複数の画像を取得し、
　取得された前記複数の画像を入力とし、前記複数の画像内に対象物体が写っているかを判定し、前記複数の画像の各々に前記対象物体が写っている場合に、各画像における物体の領域を検出し、
　前記点群情報と、各画像において検出された物体の領域とに基づいて、前記対象物体に対応する点群の領域を特定し、
　特定された領域内の前記点群情報から、対象物体に対応する点を認識し、前記空間における対象物体の位置を特定する、
　処理をコンピュータに実行させる位置検出プログラム。