WO2023286217A1 - 位置検出装置、位置検出方法、及び位置検出プログラム - Google Patents

位置検出装置、位置検出方法、及び位置検出プログラム Download PDF

Info

Publication number
WO2023286217A1
WO2023286217A1 PCT/JP2021/026510 JP2021026510W WO2023286217A1 WO 2023286217 A1 WO2023286217 A1 WO 2023286217A1 JP 2021026510 W JP2021026510 W JP 2021026510W WO 2023286217 A1 WO2023286217 A1 WO 2023286217A1
Authority
WO
WIPO (PCT)
Prior art keywords
target object
images
image
point cloud
position detection
Prior art date
Application number
PCT/JP2021/026510
Other languages
English (en)
French (fr)
Inventor
大我 吉田
直己 伊藤
潤 島村
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2023534525A priority Critical patent/JPWO2023286217A1/ja
Priority to PCT/JP2021/026510 priority patent/WO2023286217A1/ja
Publication of WO2023286217A1 publication Critical patent/WO2023286217A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C15/00Surveying instruments or accessories not provided for in groups G01C1/00 - G01C13/00
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the technology disclosed relates to a position detection device, a position detection method, and a position detection program.
  • the present invention relates to technology for recognizing target objects in point clouds and images and detecting their positions in a three-dimensional space.
  • MMS Mobile Mapping System
  • Point cloud data can be acquired by using a lidar (LiDAR, Light Detection And Ranging) as a measurement device.
  • lidar LiDAR, Light Detection And Ranging
  • position information obtained by GPS (Global Positioning System) or the like, spatial three-dimensional point cloud information can be obtained.
  • Non-Patent Document 1 a recognition technique for recognizing a target object from three-dimensional point cloud data as shown in Non-Patent Document 1 is required.
  • Non-Patent Document 2 the range of the point group in which the target object exists is narrowed down to the range of the quadrangular pyramid in the three-dimensional space corresponding to the rectangle of the two-dimensional image recognition result.
  • the distance to the target object is unknown, it is necessary to target the point cloud from the shortest distance to the longest distance that can be measured. growing.
  • the point cloud within the range of the narrowed quadrangular pyramid includes points extracted from obstructing objects in front of the target object and objects and buildings behind the target object. Therefore, a process for removing these unnecessary point groups is required, which causes a decrease in accuracy.
  • the disclosed technology has been made in view of the above points, and even if other objects are included in front of and behind the target object, the position of the target object in three-dimensional space can be determined using the result of recognizing the target object from the image. Narrow down. Accordingly, it is an object of the present invention to provide a position detection device, a position detection method, and a position detection program capable of detecting the position of a target object from three-dimensional point group information at high speed and with high accuracy.
  • a first aspect of the present disclosure is a position detection device that recognizes the existing position of a target object in a three-dimensional space, comprising: a point cloud acquisition unit that acquires three-dimensional point cloud information of the space; an image acquisition unit that acquires a plurality of images taken from different shooting locations, which are images taken including the surroundings of an object; an area detection unit for determining whether a target object is captured in each of the plurality of images, and detecting the area of the object in each image when the target object is captured in each of the plurality of images; and the point cloud information; , and the area of the object detected in each image, a specifying unit for specifying a point cloud area corresponding to the target object, and from the point cloud information in the area specified by the specifying unit, a target object and a position detector that identifies the position of the target object in the space by recognizing points corresponding to .
  • a second aspect of the present disclosure is a position detection method for recognizing the existing position of a target object in a three-dimensional space, which acquires three-dimensional point cloud information in the space, and includes the surroundings of the object in the space. acquiring a plurality of images taken from different shooting locations, using the acquired images as input, and determining whether the target object is captured in the plurality of images; detecting a region of the object in each of the plurality of images when the target object is captured in each of the plurality of images, and detecting the target object based on the point cloud information and the region of the object detected in each image; specifying a point cloud region corresponding to , recognizing points corresponding to the target object from the point cloud information in the specified region, and specifying the position of the target object in the space, causing a computer to execute processing .
  • a third aspect of the present disclosure is a position detection program for recognizing the existing position of a target object in a three-dimensional space, obtaining three-dimensional point group information of the space, acquiring a plurality of images, which are images taken including the surroundings of an object in space and taken from different shooting points, using the acquired images as input, and a target object in the plurality of images; determining whether or not the target object is captured, and if the target object is captured in each of the plurality of images, detecting the area of the object in each image; identifying a point cloud region corresponding to the target object based on, recognizing points corresponding to the target object from the point cloud information in the identified region, and identifying the position of the target object in the space , causes the computer to execute the process.
  • the target object position in the three-dimensional space is narrowed down using the result of recognizing the target object from the image, and high-speed image recognition is performed from the three-dimensional point cloud information. Moreover, the position of the target object can be detected with high accuracy.
  • FIG. 3 is a block diagram showing the functional configuration of the position detection device;
  • FIG. FIG. 4 is an explanatory diagram of an object region of an image;
  • FIG. 4 is an explanatory diagram of an object region of a point group;
  • FIG. 4 is an explanatory diagram of integration of object regions of point clouds;
  • 4 is a flowchart showing the flow of position detection by the position detection device;
  • FIG. 1 is a block diagram showing the hardware configuration of the position detection device 100.
  • FIG. 1 is a block diagram showing the hardware configuration of the position detection device 100.
  • the position detection device 100 includes a CPU (Central Processing Unit) 11, a ROM (Read Only Memory) 12, a RAM (Random Access Memory) 13, a storage 14, an input section 15, a display section 16, and a communication interface. (I/F) 17.
  • CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • storage 14 an input section 15, a display section 16, and a communication interface. (I/F) 17.
  • I/F communication interface.
  • the CPU 11 is a central processing unit that executes various programs and controls each section. That is, the CPU 11 reads a program from the ROM 12 or the storage 14 and executes the program using the RAM 13 as a work area. The CPU 11 performs control of each configuration and various arithmetic processing according to programs stored in the ROM 12 or the storage 14 . In this embodiment, the ROM 12 or storage 14 stores a position detection program.
  • the ROM 12 stores various programs and various data.
  • the RAM 13 temporarily stores programs or data as a work area.
  • the storage 14 is configured by a storage device such as a HDD (Hard Disk Drive) or SSD (Solid State Drive), and stores various programs including an operating system and various data.
  • HDD Hard Disk Drive
  • SSD Solid State Drive
  • the input unit 15 includes a pointing device such as a mouse and a keyboard, and is used for various inputs.
  • the display unit 16 is, for example, a liquid crystal display, and displays various information.
  • the display unit 16 may employ a touch panel system and function as the input unit 15 .
  • the communication interface 17 is an interface for communicating with other devices such as terminals.
  • the communication uses, for example, a wired communication standard such as Ethernet (registered trademark) or FDDI, or a wireless communication standard such as 4G, 5G, or Wi-Fi (registered trademark).
  • FIG. 2 is a block diagram showing the functional configuration of the position detection device 100 of this embodiment.
  • Each functional configuration is realized by the CPU 11 reading out a position detection program stored in the ROM 12 or the storage 14, developing it in the RAM 13, and executing it.
  • the position detection device 100 includes a point cloud acquisition unit 102, an image acquisition unit 104, an area detection unit 106, a specification unit 108, and a position detection unit 110.
  • the point cloud acquisition unit 102 acquires three-dimensional point cloud information in a three-dimensional space (hereinafter simply referred to as space) using a lidar or the like. Point cloud information acquired in advance may be accepted as an input.
  • the image acquisition unit 104 acquires a plurality of images and shooting information by shooting with a camera from different positions.
  • a plurality of images may be taken from one moving camera, or the space may be taken from different positions with a plurality of cameras. Assume that the image is taken in space including the surroundings of the object. Pre-acquired images may be accepted as input.
  • the photographing information characteristic information about the photographing device of the image and information for specifying the positional relationship between the image and the three-dimensional point group are acquired together.
  • the characteristic information about the imaging device of the image for example, the imaging angle of view of the camera used for imaging, the information for correcting the distortion of the lens, and the like can be used.
  • Information for specifying the positional relationship can be, for example, information about the shooting position and shooting direction of the image in the coordinate system of the three-dimensional point group.
  • the region detection unit 106 receives the plurality of images acquired by the image acquisition unit 104 as input, and applies image recognition technology to determine the region of the object in each image when the target object is shown in each of the plurality of images.
  • Any technique can be used as the image recognition technique, for example, the technique of Non-Patent Document 3 can be used.
  • Image recognition technology is trained in advance so that it can recognize target objects.
  • a target object may be a category of objects such as cars or people, or an instance such as a particular car model or person.
  • a target object to be recognized may be selected from among a plurality of target objects.
  • the area detection unit 106 determines whether or not the target object appears in the plurality of images. The determination by the area detection unit 106 is based on the identification information that can identify the approximate position of the target object including map information, the characteristic information, and the information for identifying the positional relationship, and the target object is determined for each image. Determine the degree of possibility of being captured. An image determined as having a low possibility of including the target object is excluded from the processing target. As a result, the cost of calculation processing can be reduced.
  • the high/low determination is based on the distance from the shooting point of the image to the position candidate range, and the ratio of the position candidate range that is within the angle of view of the imaging device. do.
  • the position candidate range of the target object is a range within a certain distance from the position of the target object acquired from the map information.
  • the area detection unit 106 When the target object is recognized in image recognition, the area detection unit 106 outputs the area within the image of the recognized target object.
  • the shape of the area is arbitrary, and as shown in FIG. 3, the area may be a rectangular detection frame or a set of pixels corresponding to the target object.
  • the target object is an object like a car, there may be multiple objects in space. Therefore, it may be determined whether or not the target objects recognized in each image are the same object, and the subsequent processing may be performed separately for each object. Whether or not the objects are the same can be determined based on, for example, the photographing positions of the images. If there are two or more target objects, the subsequent processing is performed for each target object. Note that if it is known that there is only one target object in the space, the determination of whether the target objects are the same object may be omitted.
  • the area detection unit 106 can use an image recognition technique such as that disclosed in Patent Document 1, for example, to determine whether the target objects recognized in each image are the same object. For example, an image within the range of the detected object area is clipped, and an image recognition technique disclosed in Patent Document 1 is used for a pair of clipped images to determine whether the object has the same feature. By applying geometric verification based on the local feature amount to the pair of extracted images, it is determined whether the objects are the same. good. This makes it possible to avoid erroneous determination of the object region when there are a plurality of target objects.
  • an image recognition technique such as that disclosed in Patent Document 1
  • an image recognition technique disclosed in Patent Document 1 is used for a pair of clipped images to determine whether the object has the same feature.
  • the identification unit 108 Based on the point cloud information and the area of the object detected in each image by the area detection unit 106, the identification unit 108 identifies the target object determined to be the same object for each recognition result of the shooting location.
  • the area of the point cloud is identified by calculating and integrating the area.
  • the object region in the point cloud is generally a cone whose base is similar to the object region of the image. At this time, points outside the measurement range of the point cloud or a certain range may be excluded from the object region of the point cloud. Further, when an image has depth information, the object region of the point group may be obtained by integrating the space corresponding to the depth information for each pixel of the object region.
  • the specifying unit 108 integrates the plurality of object regions to narrow down the object regions in the point cloud. For example, as shown in FIG. 5, when there are two object regions of the point cloud, a portion where the two regions overlap may be set as the post-integration region. Alternatively, a score based on the reliability of image recognition may be given to each object region, and if the object region is included in a plurality of object regions, the scores of each region may be totaled, and the object region having a score equal to or higher than the threshold value may be regarded as the integrated region. .
  • a plurality of image recognition techniques are applied to the regions detected by the region detection unit 106, and the weighted sum of the reliability of each image recognition result is added as a score to each object region. Also good.
  • the image recognition technology for example, the image recognition technology based on the convolutional neural network described in Non-Patent Document 4 and the image recognition based on the local feature quantity described in Patent Document 2 may be applied.
  • a score for adding a value obtained by weighting and adding the reliability of each image recognition result to each object area an area having a score equal to or higher than a threshold is obtained and integrated.
  • the position detection unit 110 detects the exact position of the target object in space by recognizing points corresponding to the target object from the point cloud information in the integrated area specified by the specifying unit 108, and outputs the result. Output. Also, additional information such as the orientation of the target object and a list of points corresponding to the object may be calculated and output as additional information. Any method can be used for point group recognition of the target object, and for example, the technique of Non-Patent Document 1 can be used.
  • FIG. 6 is a flowchart showing the flow of position detection processing by the position detection device 100.
  • the CPU 11 reads the position detection program from the ROM 12 or the storage 14, develops it in the RAM 13, and executes it, thereby performing position detection processing.
  • the CPU 11 executes processing as each part of the position detection device 100 .
  • step S100 the CPU 11 acquires three-dimensional point cloud information as the point cloud acquisition unit 102, and acquires a plurality of images and shooting information as the image acquisition unit 104.
  • Step S110 processes the recognition result.
  • step S102 the CPU 11 determines, for each of the plurality of images, whether the possibility that the target object exists in the image is high or low. If the value is higher, the process proceeds to step S104, and if the value is lower, the image is not subject to image recognition and is excluded from subsequent processing.
  • step S104 the CPU 11 applies image recognition technology to detect the area of the object in each image.
  • step S106 the CPU 11 determines whether or not the target object has been recognized. If it is recognized, the process proceeds to step S108, and if it is not recognized, it is excluded from subsequent processing.
  • step S108 the CPU 11 detects the area of the recognized target object.
  • step S110 the CPU 11 determines whether or not the target objects appearing in two or more images are the same object in the recognition results.
  • the determination method uses the method described above. If they are not the same object, the subsequent processes are performed separately.
  • step S110 the CPU 11 performs processing as the specifying unit 108.
  • the processing after step S110 is performed for each target object determined to be the same target object.
  • the process of step S110 is performed for each recognition result corresponding to the object.
  • step S112 the CPU 11 calculates an object area for each recognition result.
  • the CPU 11 integrates a plurality of object regions for the target object.
  • the integration method uses the method described above. Thereby, the area of the point cloud of the target object is specified.
  • step S116 the CPU 11, as the position detection unit 110, detects the accurate position of the target object in space by recognizing points corresponding to the target object from the point cloud information in the integrated area. and output the result.
  • the position of the target object can be detected at high speed and with high accuracy from the three-dimensional point group information.
  • the position detection processing executed by the CPU by reading the software (program) in the above embodiment may be executed by various processors other than the CPU.
  • the processor is a PLD (Programmable Logic Device) whose circuit configuration can be changed after manufacturing, such as an FPGA (Field-Programmable Gate Array), and an ASIC (Application Specific Integrated Circuit) to execute specific processing.
  • a dedicated electric circuit or the like which is a processor having a specially designed circuit configuration, is exemplified.
  • the position detection processing may be performed by one of these various processors, or a combination of two or more processors of the same or different type (e.g., multiple FPGAs and a combination of CPU and FPGA). etc.).
  • the hardware structure of these various processors is an electric circuit in which circuit elements such as semiconductor elements are combined.
  • the position detection program has been pre-stored (installed) in the storage 14, but the present invention is not limited to this.
  • Programs are stored in non-transitory storage media such as CD-ROM (Compact Disk Read Only Memory), DVD-ROM (Digital Versatile Disk Read Only Memory), and USB (Universal Serial Bus) memory.
  • CD-ROM Compact Disk Read Only Memory
  • DVD-ROM Digital Versatile Disk Read Only Memory
  • USB Universal Serial Bus
  • a position detection device configured as follows.
  • a non-transitory storage medium storing a program executable by a computer to perform a position detection process, In position detection that recognizes the existing position of a target object in a three-dimensional space, Acquiring three-dimensional point cloud information of the space; Acquiring a plurality of images taken from different shooting points, including images taken around the object in the space; Using the plurality of acquired images as input, determining whether or not a target object is captured in the plurality of images, and determining a region of the object in each image if the target object is captured in each of the plurality of images to detect Identifying a point cloud region corresponding to the target object based on the point cloud information and the region of the object detected in each image; recognizing a point corresponding to the target object from the point cloud information in the identified area, and specifying the position of the target object in the space; Non-transitory storage media.
  • position detection device 100 position detection device 102 point cloud acquisition unit 104 image acquisition unit 106 area detection unit 108 identification unit 110 position detection unit

Abstract

三次元の空間内における対象物体の存在位置を認識する位置検出装置において、空間の三次元の点群情報、及び空間の物体の周囲を含めて撮影された画像であって、異なる撮影地点から撮影された複数の画像を取得する。領域検出部は、取得された複数の画像を入力とし、複数の画像内に対象物体が写っているかを判定し、複数の画像の各々に対象物体が写っている場合に、各画像における物体の領域を検出する。特定部は、点群情報と、各画像において検出された物体の領域とに基づいて、対象物体に対応する点群の領域を特定する。位置検出部は、特定部により特定された領域内の点群情報から、対象物体に対応する点を認識し、空間における対象物体の位置を特定する。

Description

位置検出装置、位置検出方法、及び位置検出プログラム
 開示の技術は、位置検出装置、位置検出方法、及び位置検出プログラムに関する。特に、点群及び画像内に写っている対象物体を認識し、三次元空間内での位置を検出する技術に関する。
  MMS(Mobile Mapping System)と呼ばれる車両にさまざまな計測装置を搭載することにより、三次元空間の形状データを取得する装置がある。計測装置としてライダー(LiDAR、Light Detection And Ranging)を利用することで点群データを取得できる。点群データと、GPS(Global Positioning System)等により取得した位置情報とを組み合わせることにより、空間の三次元点群情報を取得できる。
 取得した三次元点群情報を解析することにより、地上の構造物の正確な位置を取得し、高精度な三次元地図を構築するといった活用が可能である。構造物の位置を取得するためには、非特許文献1に示されているような三次元点群データから対象物体を認識する認識技術が必要となる。
特開2015-095156号公報 特開2016-018444号公報
QI, Charles R., et al. Pointnet: Deep learning on point sets for 3d classification and segmentation. In CVPR 2017. QI, Charles R., et al. Frustum pointnets for 3d object detection from rgb-d data. In CVPR 2018. J. Redmon and A. Farhadi. YOLO9000: better, faster, stronger. In CVPR 2017. HE, Kaiming, et al. Deep residual learning for image recognition. In: CVPR 2016.
 しかし、大規模な点群データの処理には非常に大きな計算コストがかかるため、非特許文献2に示すような二次元の画像認識の結果に基づいて処理する点群の範囲を限定し、対象物体の位置を高速に認識する技術がある。
 非特許文献2に示した技術では、対象物体が存在する点群の範囲を、二次元の画像認識結果の矩形に対応する三次元空間上の四角錐体の範囲に絞り込む。しかし、対象物体までの距離が分からないため、点群を計測可能な最短距離から最長距離までを対象とする必要があり、絞り込むことのできる四角錐体の高さ及び点群の範囲は非常に大きくなる。
 また、絞り込んだ四角錐体の範囲内の点群には対象物体より手前にある遮蔽物や、対象物体より奥にある物体や建造物から抽出された点も含まれる。そのため、これらの不要な点群を除去する処理が必要となり、精度低下の要因にもなる。
 開示の技術は、上記の点に鑑みてなされたものであり、対象物体の前後に他の物体が含まれる場合でも、画像から対象物体を認識した結果を用いて三次元空間における対象物体の位置を絞り込む。これにより三次元点群情報から高速かつ高精度に対象物体の位置を検出できる位置検出装置、位置検出方法、及び位置検出プログラムを提供することを目的とする。
 本開示の第1態様は、三次元の空間内における対象物体の存在位置を認識する位置検出装置であって、前記空間の三次元の点群情報を取得する点群取得部と、前記空間の物体の周囲を含めて撮影された画像であって、異なる撮影地点から撮影された複数の画像を取得する画像取得部と、前記画像取得部で取得された前記複数の画像を入力とし、前記複数の画像内に対象物体が写っているかを判定し、前記複数の画像の各々に前記対象物体が写っている場合に、各画像における物体の領域を検出する領域検出部と、前記点群情報と、各画像において検出された物体の領域とに基づいて、前記対象物体に対応する点群の領域を特定する特定部と、前記特定部により特定された領域内の前記点群情報から、対象物体に対応する点を認識し、前記空間における対象物体の位置を特定する位置検出部と、を含む。
 本開示の第2態様は、三次元の空間内における対象物体の存在位置を認識する位置検出方法であって、前記空間の三次元の点群情報を取得し、前記空間の物体の周囲を含めて撮影された画像であって、異なる撮影地点から撮影された複数の画像を取得し、取得された前記複数の画像を入力とし、前記複数の画像内に対象物体が写っているかを判定し、前記複数の画像の各々に前記対象物体が写っている場合に、各画像における物体の領域を検出し、前記点群情報と、各画像において検出された物体の領域とに基づいて、前記対象物体に対応する点群の領域を特定し、特定された領域内の前記点群情報から、対象物体に対応する点を認識し、前記空間における対象物体の位置を特定する、処理をコンピュータに実行させる。
 本開示の第3態様は、位置検出プログラムであって、三次元の空間内における対象物体の存在位置を認識する位置検出プログラムであって、前記空間の三次元の点群情報を取得し、前記空間の物体の周囲を含めて撮影された画像であって、異なる撮影地点から撮影された複数の画像を取得し、取得された前記複数の画像を入力とし、前記複数の画像内に対象物体が写っているかを判定し、前記複数の画像の各々に前記対象物体が写っている場合に、各画像における物体の領域を検出し、前記点群情報と、各画像において検出された物体の領域とに基づいて、前記対象物体に対応する点群の領域を特定し、特定された領域内の前記点群情報から、対象物体に対応する点を認識し、前記空間における対象物体の位置を特定する、処理をコンピュータに実行させる。
 開示の技術によれば、対象物体の前後に他の物体が含まれる場合でも、画像から対象物体を認識した結果を用いて三次元空間における対象物体の位置を絞り込み、三次元点群情報から高速かつ高精度に対象物体の位置を検出できる。
位置検出装置のハードウェア構成を示すブロック図である。 位置検出装置の機能的な構成を示すブロック図である。 画像の物体領域についての説明図である。 点群の物体領域についての説明図である。 点群の物体領域の統合についての説明図である。 位置検出装置による位置検出の流れを示すフローチャートである。
 以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
 以下、本実施形態の構成について説明する。
 図1は、位置検出装置100のハードウェア構成を示すブロック図である。
 図1に示すように、位置検出装置100は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、ストレージ14、入力部15、表示部16及び通信インタフェース(I/F)17を有する。各構成は、バス19を介して相互に通信可能に接続されている。
 CPU11は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、CPU11は、ROM12又はストレージ14からプログラムを読み出し、RAM13を作業領域としてプログラムを実行する。CPU11は、ROM12又はストレージ14に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。本実施形態では、ROM12又はストレージ14には、位置検出プログラムが格納されている。
 ROM12は、各種プログラム及び各種データを格納する。RAM13は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ14は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)等の記憶装置により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。
 入力部15は、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。
 表示部16は、例えば、液晶ディスプレイであり、各種の情報を表示する。表示部16は、タッチパネル方式を採用して、入力部15として機能してもよい。
 通信インタフェース17は、端末等の他の機器と通信するためのインタフェースである。当該通信には、例えば、イーサネット(登録商標)若しくはFDDI等の有線通信の規格、又は、4G、5G、若しくはWi-Fi(登録商標)等の無線通信の規格が用いられる。
 次に、位置検出装置100の各機能構成について説明する。図2は、本実施形態の位置検出装置100の機能的な構成を示すブロック図である。各機能構成は、CPU11がROM12又はストレージ14に記憶された位置検出プログラムを読み出し、RAM13に展開して実行することにより実現される。
 図2に示すように、位置検出装置100は、点群取得部102と、画像取得部104と、領域検出部106と、特定部108と、位置検出部110とを含んで構成されている。
 点群取得部102は、ライダーなどにより三次元の空間(以下、単に空間と記載する)における三次元の点群情報を取得する。事前に取得された点群情報を入力として受け付けても良い。
 画像取得部104は、異なる位置からカメラで撮影することにより複数の画像、及び撮影情報を取得する。複数の画像は移動する1台のカメラから撮影しても良く、複数のカメラで異なる位置から空間を撮影しても良い。画像は、空間において物体の周囲を含めて撮影しているとする。事前に取得された画像を入力として受け付けても良い。撮影情報としては、画像の撮影装置に関する特性情報、及び画像と三次元点群との位置関係を特定するための情報を併せて取得する。画像の撮影装置に関する特性情報は、例えば、撮影に用いたカメラの撮影画角、及びレンズのゆがみ補正のための情報等を用いることができる。位置関係を特定するための情報は、例えば、三次元点群の座標系における画像の撮影位置と撮影方向の情報を用いることができる。
 領域検出部106は、画像取得部104で取得された複数の画像を入力とし、画像認識技術を適用して、複数の画像の各々に対象物体が写っている場合に、各画像における物体の領域を検出する。画像認識技術には任意の技術を利用することができ、例えば、非特許文献3の技術を利用することができる。画像認識技術は事前に対象物体を認識できるように学習しておく。対象物体は車や人のような物体のカテゴリであってもよく、特定の車種や人物のようなインスタンスであってもよい。また、複数の対象物体の中から、認識する対象物体を選択できるようにしてもよい。
 また、領域検出部106では、複数の画像内に対象物体が写っているか否かを判定する。領域検出部106の判定は、地図情報を含む対象物体のおおよその位置を特定可能な特定情報と、特性情報と、位置関係を特定するための情報とに基づいて、画像ごとに、対象物体が写っている可能性の高低を判定する。判定により、対象物体が写っている可能性が低いと判定された画像を、処理対象から除外する。これにり、計算処理のコストを削減することができる。なお、高低の判定は、画像の撮影地点から位置候補範囲までの距離、及び撮影装置の画角に収まっている位置候補範囲の割合に基づいて、対象物体が写っている可能性の高低を判定する。対象物体の位置候補範囲は、地図情報から取得した前記対象物体の位置から一定の距離内の範囲とする。
 画像認識において対象物体が認識された場合、領域検出部106は認識された対象物体の画像内における領域を出力する。領域の形状は任意であり、図3に示す通り、領域は矩形の検出枠であっても良く、対象物体に対応する画素の集合であっても良い。
 対象物体が車のような物体であった場合、空間内に複数存在する可能性がある。そこで各画像で認識された対象物体が同一の物体であるかを判定し、物体ごとに以降の処理を別々に実施しても良い。同一の物体であるかの判定には、例えば画像の撮影位置に基づき、撮影位置が一定範囲内にある場合は同一の物体であるとみなすことができる。2つ以上の対象物体がある場合は、対象物体ごとに以降の処理を行う。なお、空間内の対象物体が一つであることが既知の場合は、対象物体が同一の物体であるかの判定を省略してよい。
 また、領域検出部106は、各画像で認識された対象物体が同一の物体であるかの判定に、例えば特許文献1のような画像認識技術を利用することができる。例えば、検出された物体領域の範囲内にある画像を切り出し、切り出した画像のペアに対して特許文献1に示す画像認識技術などを用いて、物体が同じ特徴を持つかを判定する。切り出した画像のペアに対して局所特徴量に基づく幾何検証を適用することにより物体が同一であるか判定を行い、判定結果のスコアが閾値以上となる場合に同一の物体であるとみなしても良い。これにより、対象物体が複数存在する場合に物体領域が誤って判定されることを回避できる。
 特定部108は、点群情報と、領域検出部106で各画像において検出された物体の領域とに基づいて、同一の物体であると判定された対象物体について、撮影地点の認識結果ごとに物体領域を算出し、統合することにより、点群の領域を特定する。
 図4に示す通り、点群における物体領域は、一般的には画像の物体領域の相似形を底面とする錐体となる。このとき、点群の計測範囲や一定の範囲外にある点は、点群の物体領域の対象外としても良い。また、画像が奥行情報を持つ場合、物体領域の画素単位で奥行情報に対応する空間を統合したものを点群の物体領域としても良い。
 特定部108は、同一の対象物体の認識結果ごとに、複数の物体領域を算出した後、それらの複数の物体領域を統合し、点群における物体の領域を絞り込む。例えば、図5に示す通り、点群の物体領域が2つあった場合、2つの領域が重なりあう部分を統合後の領域としても良い。また、各物体領域に画像認識の信頼度に基づくスコアを与え、複数の物体領域に含まれる場合は各領域のスコアを合計し、閾値以上のスコアとなる物体領域を統合後の領域としても良い。このとき、領域検出部106で検出された領域に対してさらに複数の画像認識技術を適用し、それぞれの画像認識結果の信頼度を重み付きで足し合わせた値を各物体領域に加算するスコアとしても良い。また、画像認識技術として、例えば、非特許文献4に示す畳み込みニューラルネットワークに基づく画像認識技術と特許文献2に示す局所特徴量に基づく画像認識を適用してもよい。それぞれの画像認識結果の信頼度を重み付きで足し合わせた値を各物体領域に加算するスコアとして、閾値以上のスコアとなる領域を求めて統合をする。
 位置検出部110は、特定部108により特定された統合後の領域内の点群情報から、対象物体に対応する点を認識することにより、空間における対象物体の正確な位置を検出し、結果を出力する。また、対象物体の姿勢、物体に対応する点の一覧等の付加情報を算出し、付加情報として出力しても良い。対象物体の点群認識に利用する手法は任意であり、例えば非特許文献1の技術を利用することができる。
 次に、位置検出装置100の作用について説明する。
 図6は、位置検出装置100による位置検出処理の流れを示すフローチャートである。CPU11がROM12又はストレージ14から位置検出プログラムを読み出して、RAM13に展開して実行することにより、位置検出処理が行なわれる。CPU11が位置検出装置100の各部として処理を実行する。
 ステップS100において、CPU11は、点群取得部102として三次元の点群情報を取得し、画像取得部104として複数の画像、及び撮影情報を取得する。
 次に、CPU11は領域検出部106としての処理を行う。ステップS102~S108の処理は複数の画像の各々(各画像)に対して処理する。ステップS110は認識結果について処理する。
 ステップS102において、CPU11は、複数の画像の各々について、当該画像内に対象物体が存在している可能性が高いか又は低いかを判定する。高い場合にはステップS104へ移行し、低い場合には画像認識の対象とせずに以降の処理対象から除外する。
 ステップS104において、CPU11は、画像認識技術を適用して、各画像における物体の領域を検出する。
 ステップS106において、CPU11は、対象物体が認識されたか否かを判定する。認識された場合にはステップS108へ移行し、認識されなかった場合には以降の処理対象から除外する。
 ステップS108において、CPU11は、認識された対象物体の領域を検出する。
 ステップS110において、CPU11は、認識結果について、2枚以上の画像に写っている対象物体に対して同一の物体であるかを判定する。判定手法は上述した手法を用いる。同一の物体でない場合は以降の処理を別々に実施する。
 次に、CPU11は特定部108としての処理を行う。ステップS110以降の処理は同一の対象物体であると判定された各物体について対象物体ごとに行う。ステップS110の処理は物体に応じた認識結果ごとに行う。
 ステップS112において、CPU11は、認識結果ごとに、物体領域を算出する。
 ステップS114において、CPU11は、対象物体について、複数の物体領域を統合する。統合手法は上述した手法を用いる。これにより、対象物体の点群の領域を特定する。
 ステップS116において、CPU11は、位置検出部110として、対象物体について、統合後の領域内の点群情報から、対象物体に対応する点を認識することにより、空間における対象物体の正確な位置を検出し、結果を出力する。
 以上説明したように本実施形態の位置検出装置100によれば、三次元点群情報から高速かつ高精度に対象物体の位置を検出できる。
 なお、上記実施形態でCPUがソフトウェア(プログラム)を読み込んで実行した位置検出処理を、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、位置検出処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
 また、上記実施形態では、位置検出プログラムがストレージ14に予め記憶(インストール)されている態様を説明したが、これに限定されない。プログラムは、CD-ROM(Compact Disk Read Only Memory)、DVD-ROM(Digital Versatile Disk Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の非一時的(non-transitory)記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
 以上の実施形態に関し、更に以下の付記を開示する。
 (付記項1)
 メモリと、
 前記メモリに接続された少なくとも1つのプロセッサと、
 を含み、
 前記プロセッサは、
 三次元の空間内における対象物体の存在位置を認識する位置検出において、
 前記空間の三次元の点群情報を取得し、
 前記空間の物体の周囲を含めて撮影された画像であって、異なる撮影地点から撮影された複数の画像を取得し、
 取得された前記複数の画像を入力とし、前記複数の画像内に対象物体が写っているかを判定し、前記複数の画像の各々に前記対象物体が写っている場合に、各画像における物体の領域を検出し、
 前記点群情報と、各画像において検出された物体の領域とに基づいて、前記対象物体に対応する点群の領域を特定し、
 特定された領域内の前記点群情報から、対象物体に対応する点を認識し、前記空間における対象物体の位置を特定する、
 ように構成されている位置検出装置。
 (付記項2)
 位置検出処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
 三次元の空間内における対象物体の存在位置を認識する位置検出において、
 前記空間の三次元の点群情報を取得し、
 前記空間の物体の周囲を含めて撮影された画像であって、異なる撮影地点から撮影された複数の画像を取得し、
 取得された前記複数の画像を入力とし、前記複数の画像内に対象物体が写っているかを判定し、前記複数の画像の各々に前記対象物体が写っている場合に、各画像における物体の領域を検出し、
 前記点群情報と、各画像において検出された物体の領域とに基づいて、前記対象物体に対応する点群の領域を特定し、
 特定された領域内の前記点群情報から、対象物体に対応する点を認識し、前記空間における対象物体の位置を特定する、
 非一時的記憶媒体。
100 位置検出装置
102 点群取得部
104 画像取得部
106 領域検出部
108 特定部
110 位置検出部

Claims (8)

  1.  三次元の空間内における対象物体の存在位置を認識する位置検出装置であって、
     前記空間の三次元の点群情報を取得する点群取得部と、
     前記空間の物体の周囲を含めて撮影された画像であって、異なる撮影地点から撮影された複数の画像を取得する画像取得部と、
     前記画像取得部で取得された前記複数の画像を入力とし、前記複数の画像内に対象物体が写っているかを判定し、前記複数の画像の各々に前記対象物体が写っている場合に、各画像における物体の領域を検出する領域検出部と、
     前記点群情報と、各画像において検出された物体の領域とに基づいて、前記対象物体に対応する点群の領域を特定する特定部と、
     前記特定部により特定された領域内の前記点群情報から、対象物体に対応する点を認識し、前記空間における対象物体の位置を特定する位置検出部と、
     を含む位置検出装置。
  2.  前記領域検出部は、地図情報を含む対象物体のおおよその位置を特定可能な特定情報と、前記画像の撮影装置に関する特性情報と、位置情報及び撮影方向を含む点群との位置関係を特定するための情報とに基づいて、前記画像ごとに、前記対象物体が写っている可能性の高低を判定し、前記対象物体が写っている可能性が低いと判定された前記画像を、処理対象から除外する、請求項1に記載の位置検出装置。
  3.  前記領域検出部は、前記地図情報から取得した前記対象物体の位置から一定の距離内の範囲を前記対象物体の位置候補範囲とし、
     前記画像の撮影地点から前記位置候補範囲までの距離、及び撮影装置の画角に収まっている位置候補範囲の割合に基づいて、前記対象物体が写っている可能性の高低を判定する、請求項2に記載の位置検出装置。
  4.  前記領域検出部は、画像の撮影位置、又は、検出された物体領域に対する画像認識に基づき、対象物体が同一の物体であるか否かを判定し、
     前記特定部は、前記対象物体について、同一の物体であると判定された対象物体ごとに、各判定対象の物体領域を算出し、統合することにより、前記点群の領域を特定する、請求項1~請求項3の何れか1項に記載の位置検出装置。
  5.  前記特定部は、前記領域検出部により検出された同一の対象物体の領域に対応する複数の物体領域について、各物体領域に画像認識結果に基づくスコアを加算し、スコアが閾値以上となる前記物体領域について前記統合をする、請求項4に記載の位置検出装置。
  6.  前記特定部は、前記領域検出部で検出された領域に対して畳み込みニューラルネットワークに基づく画像認識と局所特徴量に基づく画像認識を適用し、それぞれの画像認識結果の信頼度を重み付きで足し合わせた値を各物体領域に加算するスコアとして、前記統合をする、請求項4又は請求項5に記載の位置検出装置。
  7.  三次元の空間内における対象物体の存在位置を認識する位置検出方法であって、
     前記空間の三次元の点群情報を取得し、
     前記空間の物体の周囲を含めて撮影された画像であって、異なる撮影地点から撮影された複数の画像を取得し、
     取得された前記複数の画像を入力とし、前記複数の画像内に対象物体が写っているかを判定し、前記複数の画像の各々に前記対象物体が写っている場合に、各画像における物体の領域を検出し、
     前記点群情報と、各画像において検出された物体の領域とに基づいて、前記対象物体に対応する点群の領域を特定し、
     特定された領域内の前記点群情報から、対象物体に対応する点を認識し、前記空間における対象物体の位置を特定する、
     処理をコンピュータに実行させる位置検出方法。
  8.  三次元の空間内における対象物体の存在位置を認識する位置検出プログラムであって、
     前記空間の三次元の点群情報を取得し、
     前記空間の物体の周囲を含めて撮影された画像であって、異なる撮影地点から撮影された複数の画像を取得し、
     取得された前記複数の画像を入力とし、前記複数の画像内に対象物体が写っているかを判定し、前記複数の画像の各々に前記対象物体が写っている場合に、各画像における物体の領域を検出し、
     前記点群情報と、各画像において検出された物体の領域とに基づいて、前記対象物体に対応する点群の領域を特定し、
     特定された領域内の前記点群情報から、対象物体に対応する点を認識し、前記空間における対象物体の位置を特定する、
     処理をコンピュータに実行させる位置検出プログラム。
PCT/JP2021/026510 2021-07-14 2021-07-14 位置検出装置、位置検出方法、及び位置検出プログラム WO2023286217A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023534525A JPWO2023286217A1 (ja) 2021-07-14 2021-07-14
PCT/JP2021/026510 WO2023286217A1 (ja) 2021-07-14 2021-07-14 位置検出装置、位置検出方法、及び位置検出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/026510 WO2023286217A1 (ja) 2021-07-14 2021-07-14 位置検出装置、位置検出方法、及び位置検出プログラム

Publications (1)

Publication Number Publication Date
WO2023286217A1 true WO2023286217A1 (ja) 2023-01-19

Family

ID=84919752

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/026510 WO2023286217A1 (ja) 2021-07-14 2021-07-14 位置検出装置、位置検出方法、及び位置検出プログラム

Country Status (2)

Country Link
JP (1) JPWO2023286217A1 (ja)
WO (1) WO2023286217A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009053059A (ja) * 2007-08-27 2009-03-12 Mitsubishi Electric Corp 対象特定装置、対象特定方法および対象特定プログラム
JP2013101592A (ja) * 2011-10-12 2013-05-23 Nippon Telegr & Teleph Corp <Ntt> 3次元座標算出装置、3次元座標算出方法、及びプログラム
JP2017026430A (ja) * 2015-07-21 2017-02-02 日本電信電話株式会社 標識検出装置、方法、及びプログラム
JP2018523865A (ja) * 2016-01-18 2018-08-23 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 情報処理方法、デバイス、および端末
WO2020090428A1 (ja) * 2018-10-30 2020-05-07 三菱電機株式会社 地物検出装置、地物検出方法および地物検出プログラム
JP2020184134A (ja) * 2019-05-07 2020-11-12 アルパイン株式会社 画像分析システムおよび画像分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009053059A (ja) * 2007-08-27 2009-03-12 Mitsubishi Electric Corp 対象特定装置、対象特定方法および対象特定プログラム
JP2013101592A (ja) * 2011-10-12 2013-05-23 Nippon Telegr & Teleph Corp <Ntt> 3次元座標算出装置、3次元座標算出方法、及びプログラム
JP2017026430A (ja) * 2015-07-21 2017-02-02 日本電信電話株式会社 標識検出装置、方法、及びプログラム
JP2018523865A (ja) * 2016-01-18 2018-08-23 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 情報処理方法、デバイス、および端末
WO2020090428A1 (ja) * 2018-10-30 2020-05-07 三菱電機株式会社 地物検出装置、地物検出方法および地物検出プログラム
JP2020184134A (ja) * 2019-05-07 2020-11-12 アルパイン株式会社 画像分析システムおよび画像分析方法

Also Published As

Publication number Publication date
JPWO2023286217A1 (ja) 2023-01-19

Similar Documents

Publication Publication Date Title
CN107272021B (zh) 使用雷达和视觉定义的图像检测区域的对象检测
US10197413B2 (en) Image processing apparatus, image processing method, computer program and computer readable recording medium
US11250288B2 (en) Information processing apparatus and information processing method using correlation between attributes
JP6144656B2 (ja) 歩行者の視覚的認識が困難であり得ることを運転者に警告するシステム及び方法
CN109801333B (zh) 体积测量方法、装置、系统及计算设备
US11204610B2 (en) Information processing apparatus, vehicle, and information processing method using correlation between attributes
US20180128620A1 (en) Method, apparatus, and system for determining a movement of a mobile platform
JP7343054B2 (ja) 位置推定方法、位置推定装置、および位置推定プログラム
JP6666245B2 (ja) モバイルプラットフォームの動作モードを選択する方法、システム、コンピュータプログラム製品及び装置
KR20180059723A (ko) 이미지 처리 장치, 이미지 처리 방법, 컴퓨터 프로그램 및 컴퓨터 판독 가능한 기록 매체
EP3324359B1 (en) Image processing device and image processing method
WO2022217988A1 (zh) 传感器配置方案确定方法、装置、计算机设备、存储介质及程序
Yuan et al. Combining maps and street level images for building height and facade estimation
JP2016200557A (ja) 校正装置、距離計測装置及び校正方法
KR20180098945A (ko) 고정형 단일 카메라를 이용한 차량 속도 감지 방법 및 장치
JP2006090957A (ja) 移動体の周囲物体検出装置及び移動体の周囲物体検出方法
WO2022062853A1 (zh) 遥感图像的配准方法、装置、设备、存储介质及系统
JP2017167974A (ja) 推定装置、方法及びプログラム
WO2023286217A1 (ja) 位置検出装置、位置検出方法、及び位置検出プログラム
JP6393409B2 (ja) 画像認識システム、カメラ状態推定装置及びプログラム
CN110689556A (zh) 跟踪方法、装置及智能设备
CN113508395B (zh) 用于检测由像素构成的图像中的对象的方法和设备
KR101463906B1 (ko) 영상 부가정보를 이용한 위치보정 방법
Othman et al. Comparison between edge detection methods on UTeM unmanned arial vehicles images
JP6546898B2 (ja) 3次元空間特定装置、方法、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21950158

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023534525

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE