WO2021241166A1 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
WO2021241166A1
WO2021241166A1 PCT/JP2021/017497 JP2021017497W WO2021241166A1 WO 2021241166 A1 WO2021241166 A1 WO 2021241166A1 JP 2021017497 W JP2021017497 W JP 2021017497W WO 2021241166 A1 WO2021241166 A1 WO 2021241166A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
information
weight
feature point
feature
Prior art date
Application number
PCT/JP2021/017497
Other languages
English (en)
French (fr)
Inventor
学 川島
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to CN202180031830.9A priority Critical patent/CN115516512A/zh
Priority to US17/999,217 priority patent/US20230222686A1/en
Publication of WO2021241166A1 publication Critical patent/WO2021241166A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Definitions

  • the present invention relates to an information processing device, an information processing method and a program.
  • SLAM Simultaneus Localization and Mapping
  • the position and orientation are estimated by collating the captured image taken by the device with the environmental map.
  • the captured image includes a moving subject, the captured image cannot be accurately collated with the environmental map, and the estimation accuracy of the position and orientation may decrease.
  • weights are calculated for each feature point according to the probability that the feature points are points on a still subject forming the background of the captured image. Based on the background weight calculation unit and the calculation result that reflects the weight of each feature point, the captured image is compared with the information of the key frame image registered in the environment map, and the position and orientation of the device that captured the captured image is determined.
  • An information processing apparatus having a position / orientation estimation unit for estimation is provided. Further, according to the present disclosure, there is provided an information processing method in which the information processing of the information processing apparatus is executed by a computer, and a program for realizing the information processing of the information processing apparatus in the computer.
  • FIG. 1 is a schematic diagram of the information processing system 1 of the first embodiment.
  • FIG. 2 is a diagram illustrating an image search function and a position / orientation estimation function of the information processing system 1.
  • the information processing system 1 includes, for example, a processing unit 10, an IMU (Inertial Measurement Unit) 20, a camera 30, and a storage unit 40.
  • the processing unit 10 is an information processing device that estimates the position and orientation (position on the environment map MP and shooting posture) of the device on which the IMU 20 and the camera 30 are mounted using SLAM.
  • SLAM performs VIO (Visual odometry) processing for obtaining the amount of change in position and attitude (posture change amount) from the measurement information of the camera 30 and IMU 20, and the current image IMA (current frame) from the key frame image group captured and stored while moving. Includes a Localize process of searching for a keyframe image 41 similar to the captured image IM) to obtain a position and orientation.
  • VIO Visual odometry
  • the current position and posture are calculated by integrating the amount of posture change from the past to the present. With this method, errors are also accumulated, and the deviation from the correct trajectory increases with time.
  • the position and orientation of the device are calculated using the environment map MP stored in the storage unit 40.
  • the environment map MP is generated using a plurality of keyframe images 41 taken in the past.
  • the image information (key frame information) of the key frame image 41 is registered in the environment map MP in association with the shooting position and shooting posture of the key frame image 41.
  • the keyframe information includes, for example, the positions of a plurality of feature points (registered feature points) RFP included in the keyframe image 41, the local feature amount of each feature point RFP (registered local feature amount), and each feature point RFP. Information on the image feature amount (registered image feature amount) calculated based on the local feature amount is included.
  • the feature point RFP and the local feature amount are extracted by using a known method such as SIFT (Scale-Invariant Feature Transfer Transfer).
  • SIFT Scale-Invariant Feature Transfer Transfer
  • the image feature amount is calculated by using a known method such as BoVW (Bag of Visual Words) and VLAD (Vector of Locally Aggregated Descriptors) which is an advanced form of BoVW.
  • BoVW Bog of Visual Words
  • VLAD Vector of Locally Aggregated Descriptors
  • the current image IMA and the keyframe image 41 are compared, and the shooting position / orientation of the keyframe image 41 (the position / orientation of the device when shooting is performed) and the shooting position / orientation of the current image IMA are relative to each other.
  • the relationship (relative position / posture) is calculated.
  • the calculated relative position / orientation is added to the position / orientation associated with the keyframe image 41, so that the shooting position / orientation of the current image IMA is calculated. This cancels the error accumulated by the VIO processing.
  • the processing unit 10 determines whether the feature point FP has a high probability of belonging to the foreground (moving subject) or the background (still subject) for each of the plurality of feature point FPs currently included in the image IMA. do.
  • the processing unit 10 gives high priority to the information of the feature point FP having a high probability of belonging to the background so that the background information is strongly reflected in the calculation result of the position and orientation.
  • the processing unit 10 includes a local feature amount extraction unit 11, an integration processing unit 12, a background weight calculation unit 13, an image search unit 14, a feature amount matching unit 15, and a position / orientation estimation unit 16.
  • the local feature amount extraction unit 11 acquires time-series image data taken by the camera 30.
  • the time-series image data includes captured image IMs of a plurality of times captured in time series.
  • the local feature amount extraction unit 11 extracts a plurality of feature point FPs from the current image IMA.
  • the local feature amount extraction unit 11 extracts the local feature amount of each feature point FP.
  • the feature point FP is, for example, a corner point where image edges intersect in the current image IMA.
  • the local feature amount is, for example, a feature amount of an image (image patch) in a small area centered on the feature point FP.
  • a known method such as SIFT is adopted.
  • the local feature amount extraction unit 11 calculates the depth of each feature point FP currently included in the image IMA. For example, when the camera 30 is a stereo camera, the local feature amount extraction unit 11 calculates the parallax from the captured image IMs of a plurality of viewpoints taken by the stereo camera, and the feature point FP is based on the calculated parallax. Find the depth of. When the camera 30 is a monocular camera, the local feature amount extraction unit 11 calculates the moving parallax from a plurality of captured image IMs taken from different times (positions), and the feature points are based on the calculated moving parallax. Calculate the depth of FP.
  • the integration processing unit 12 acquires information on acceleration and angular velocity measured by the IMU 20.
  • the integration processing unit 12 calculates the amount of change in the position and orientation of the device based on the information on the acceleration and the angular velocity.
  • the integration processing unit 12 integrates the amount of change in the position / posture from the time of shooting the past image IMB to the time of shooting the current image IMA, and the relative position between the shooting position / posture of the past image IMB and the shooting position / posture of the current image IMA. Calculate the posture.
  • the background weight calculation unit 13 corresponds to the probability that the feature point FP is a point on the still subject forming the background of the current image IMA for each feature point FP for a plurality of feature point FPs included in the current image IMA. Calculate the weight. For example, the background weight calculation unit 13 extracts the current image IMA and the past image IMB (photographed image IM taken one frame or more before the current image IMA) from the time-series image data captured by the camera 30. The background weight calculation unit 13 is based on the comparison result between the difference information between the current image IMA and the past image IMB taken in time series and the difference information predicted based on the measurement information of the IMU. Calculate the weight of the point FP. The background weight calculation unit 13 is included in the current image IMA by using the image information of the past image IMB that is close in time to the current image IMA, in addition to the current image IMA used as a query for searching the keyframe image 41. Estimate background information.
  • FIG. 3 is a diagram showing an example of a weight calculation method.
  • the current image IMA is a photographed image IM taken at time t 0
  • the past image IMB is a photographed image IM taken at time t -1.
  • the background weight calculation unit 13 block-matches the current image IMA and the past image IMB based on the information acquired from the local feature amount extraction unit 11, and the past corresponding to the plurality of feature point FPs included in the current image IMA. A plurality of corresponding point CPs of the image IMB are detected. The background weight calculation unit 13 predicts the past (time t -1 ) positions of the plurality of feature point FPs of the current image IMA based on the measurement information of the IMU 20. The background weight calculation unit 13 is based on the result of comparison between the predicted positions of the plurality of feature points FP of the current image IMA and the positions of the plurality of corresponding points CP of the past image IMB, and the plurality of features of the current image IMA. Calculate the weight of each point FP.
  • the background weight calculation unit 13 predicts a point at a position where the feature point FP is predicted to exist in the past image IMB for each feature point FP based on the relative position / orientation information acquired from the integration processing unit 12. Extract as PP. If the position of the corresponding point CP is close to the position of the predicted point PP, the background weight calculation unit 13 determines that the probability that the feature point FP is a point on the stationary object is high. The background weight calculation unit 13 assigns a larger value weight to the feature point FP having a higher probability of belonging to the background.
  • the background weight calculation unit 13 sets the weight w of each feature point FP based on the following equations (1) to (6).
  • w indicates the weight of the feature point FP.
  • C is a constant.
  • u t represents the current position on image IMA feature point FP.
  • ut -1 indicates the position of the corresponding point CP on the past image IMB.
  • v t-1 indicates the position of the feature point FP on the past image IMB.
  • indicates the deviation of the corresponding point CP from the predicted point PP (distance between the predicted point PP and the corresponding point CP).
  • z t indicates the depth of the feature point of the current image IMA.
  • z t-1 indicates the z coordinate of L.
  • ⁇ R indicates the change in the shooting posture from the time t -1 to the time t 0 , which is calculated based on the measurement information of the IMU 20.
  • K indicates an internal parameter of the camera.
  • ⁇ R' indicates the change in the shooting posture from time t 0 to time t -1 obtained by inversely transforming ⁇ R.
  • ⁇ p indicates the change in the shooting position from the time t -1 to the time t 0 , which is calculated based on the measurement information of the IMU 20.
  • ⁇ p' indicates the change in the shooting position from time t 0 to time t -1 obtained by inversely transforming ⁇ p.
  • the constant C is appropriately set according to the specifications of the device for which the position and orientation are to be estimated.
  • the image search unit 14 searches for a keyframe image 41 similar to the current image IMA using the image feature amount of the current image IMA corrected based on the weight w of each feature point FP.
  • the image search unit 14 has, for example, an image feature amount calculation unit 141 and an image feature amount collation unit 142.
  • the image feature amount calculation unit 141 calculates the image feature amount by weighting the local feature amount of each feature point FP with the weight w.
  • the image feature amount is calculated using known methods such as BoVW and VLAD, but the weight w for each feature point FP is added to the calculation.
  • the image feature amount calculation unit 141 calculates the image feature amount of the current image IMA based on the following formula (7).
  • the image feature amount calculation unit 141 increases the contribution rate of points on a stationary object by weighting the distance calculation between each local feature amount and the nearest centroid.
  • V ⁇ i w i a ( v i -c) ... (7)
  • V represents an image feature amount.
  • w i indicates the weight of the i-th feature point FP.
  • a indicates a cluster indicator.
  • v i indicates the local feature amount of the i-th feature point FP.
  • c indicates a centroid.
  • the image feature amount collation unit 142 collates the image feature amount with the information of the plurality of keyframe images 41 registered in the environment map MP, and the keyframe image 41 having the image feature amount closest to the image feature amount of the current image IMA. Information is extracted.
  • the feature amount matching unit 15 is based on the image information of the extracted key frame image 41 (information on the local feature amount of the feature point RFP) and the image information of the current image IMA (information on the local feature amount of the feature point FP). , A plurality of corresponding point pairs are extracted from the current image IMA and the key frame image 41. The corresponding point pair is a pair of feature points corresponding to each other of the current image IMA and the keyframe image 41.
  • the position / orientation estimation unit 16 compares the current image IMA with the information of the keyframe image 41 based on the calculation result reflecting the weight w of each feature point FP of the current image IMA, and based on the comparison result, the current image Estimate the position and orientation of the device that captured the IMA.
  • the position / attitude estimation unit 16 includes, for example, an outlier removing unit 161 and a posture calculation unit 162.
  • the outlier removing unit 161 selects a plurality of inlier pairs by robust estimation from the plurality of corresponding point pairs to which the priority is given according to the weight w among the plurality of corresponding point pairs extracted by the feature amount matching unit 15. Extract.
  • the outlier removal unit 161 performs hypothesis verification based on robust estimation using the information acquired from the local feature amount extraction unit 11.
  • the outlier removing unit 161 finds the most consistent positional relationship between each feature point FP of the current image IMA and each feature point RFP of the keyframe image 41.
  • the outlier removing unit 161 is a pair of corresponding points that do not make sense with respect to the positional relationship obtained by hypothesis testing (for example, when one of the feature points of the corresponding point pair is a point on a moving subject, or one of the features. Remove (for example, if the dots are hidden). As a result, a plurality of inliar pairs with high reliability as corresponding points are extracted. From the positional relationship obtained by the hypothesis verification, a tentative relative position and orientation between the shooting position and orientation of the current image IMA and the shooting position and orientation of the keyframe image 41 can be obtained.
  • the P3P algorithm is used.
  • a tentative relative position / orientation is obtained by three corresponding point pairs selected from all corresponding point pairs.
  • the three corresponding point pairs are not randomly selected as performed by RANSAC, but by using PROSAC (Progressive Simple Consensus), the priority is given to sampling by the weight w as in the equation (8). Granted.
  • PROSAC Processive Simple Consensus
  • u j and t indicate the position of the j-th feature point FP of the current image IMA.
  • u j and tx indicate the position of the j-th feature point RFP of the keyframe image 41.
  • w j indicates the weight of the j-th feature point FP.
  • sampling the corresponding point pairs for the number of all combinations is strict in terms of processing delay. Therefore, real-time performance may be maintained by stopping the number of samplings at a fixed number of times. At this time, by giving the above-mentioned priority to the sampling, even if the number of samplings is cut off at a fixed number of times, the point on the stationary object can be easily selected as the inlier pair.
  • the posture calculation unit 162 calculates the position and orientation of the device using a regression analysis model in which the contribution of each inlier pair is corrected based on the weight w of each feature point FP of the current image IMA. For example, the posture calculation unit 162 calculates the relative position / orientation between the shooting position / orientation of the current image IMA and the shooting position / orientation of the keyframe image 41 from the positional relationship of the plurality of corresponding point pairs extracted as the inlier pair. At this time, the posture calculation unit 162 adds the weight w for each feature point FP to the relative position so that the reprojection error between the corresponding point pairs having a high probability of being a point on a stationary object among the inlier pairs is reduced. Ask for posture. The posture calculation unit 162 adds the calculated relative position / posture to the shooting position / posture associated with the keyframe image 41, and calculates the current position / posture of the device (shooting position / posture of the current image IMA).
  • the PnP algorithm is used to calculate the relative position and orientation.
  • the posture calculation unit 162 obtains the relative position and posture based on all the align pairs. For example, the posture calculation unit 162 calculates the distance between the feature points for each inlier pair according to the following equation (9). The posture calculation unit 162 calculates the weighted sum of squares of the distance using the weight w calculated for each feature point FP. The posture calculation unit 162 calculates the position and posture of the device that minimizes the weighted sum of squares.
  • ⁇ T argmin ⁇ j w j
  • ⁇ T indicates a relative position and posture.
  • x j indicates a three-dimensional coordinate with respect to the feature u j.
  • proj shows a function that projects a 3D coordinate point onto the 2D coordinates of the camera screen. The function proj satisfies the following equation (10).
  • x indicates a three-dimensional coordinate point.
  • K indicates the internal parameters of the camera (3 ⁇ 3 matrix).
  • z indicates the depth (z coordinate) of Kx.
  • FIG. 4 is a flowchart showing the information processing method of the present embodiment.
  • step S1 the processing unit 10 acquires information on the acceleration and the angular velocity measured by the IMU 20. Further, the processing unit 10 acquires time-series image data including the current image IMA and the past image IMB.
  • step S2 the local feature amount extraction unit 11 extracts a plurality of feature point FPs from the current image IMA, and extracts the local feature amount for each feature point FP. Further, the local feature amount extraction unit 11 calculates the depth of each feature point FP.
  • step S3 the integration processing unit 12 integrates the amount of change in the position and orientation of the device from the time when the past image IMB is photographed to the time when the current image IMA is photographed, based on the acceleration and angular velocity information measured by the IMU 20.
  • the background weight calculation unit 13 blocks-matches the current image IMA and the past image IMB, and detects a plurality of corresponding point CPs of the past image IMB corresponding to the plurality of feature point FPs included in the current image IMA. ..
  • the background weight calculation unit 13 compares the feature point FP with the corresponding point CP based on the amount of change in position and posture calculated by the integration processing unit 12.
  • the background weight calculation unit 13 obtains the probability that the feature point FP is a point on the still subject forming the background of the current image IMA based on the comparison result between the feature point FP and the corresponding point CP, and the weight according to the probability. Allocate w to the feature point FP.
  • step S5 the image search unit 14 uses the image feature amount of the current image IMA corrected based on the weight w of each feature point FP from the plurality of key frame images 41 to the key frame image similar to the current image IMA. Search for 41.
  • the image search unit 14 extracts the position / orientation information associated with the key frame image 41 obtained by the search from the environment map MP.
  • step S6 the feature amount matching unit 15 is based on the image information of the key frame image 41 (information on the local feature amount of the feature point RFP) and the image information of the current image IMA (information on the local feature amount of the feature point FP). Then, a plurality of corresponding point pairs are extracted from the current image IMA and the key frame image 41.
  • step S7 the position / orientation estimation unit 16 provides information on the positional relationship between the plurality of feature point FPs of the current image IMA and the corresponding plurality of feature point RFPs of the keyframe image 41, and the key registered in the environment map MP. Based on the information regarding the shooting position / orientation of the frame image 41, the position / orientation of the current device (shooting position / orientation of the current image IMA) is estimated.
  • step S8 the processing unit 10 determines whether or not the processing is completed. Whether or not the process is completed is detected by operating the shooting button of the camera 30 or the like. If it is determined in step S8 that the process is completed (step S8: Yes), the process is terminated. If it is not determined in step S8 that the process is completed (step S8: No), the process returns to step S1 and the above steps are repeated until the process is completed.
  • the processing unit 10 has a background weight calculation unit 13 and a position / orientation estimation unit 16.
  • the background weight calculation unit 13 corresponds to the probability that the feature point FP is a point on the still subject forming the background of the current image IMA for each feature point FP for a plurality of feature point FPs included in the current image IMA. Calculate the weight w.
  • the position / orientation estimation unit 16 compares the current image IMA with the information of the key frame image 41 registered in the environment map MP based on the calculation result reflecting the weight w of each feature point FP, and captures the current image IMA. Estimate the position and orientation of the device.
  • the information processing of the processing unit 10 described above is executed by the computer.
  • the program of this embodiment makes the computer realize the information processing of the processing unit 10 described above.
  • the processing unit 10 has an image search unit 14.
  • the image search unit 14 searches for a keyframe image 41 similar to the current image IMA using the image feature amount of the current image IMA corrected based on the weight w of each feature point FP.
  • the image feature amount that strongly reflects the information of the still subject is calculated. Therefore, the position and orientation of the device can be estimated accurately.
  • the image search unit 14 has an image feature amount calculation unit 141 and an image feature amount collation unit 142.
  • the image feature amount calculation unit 141 calculates the image feature amount by weighting the local feature amount of each feature point FP with the weight w.
  • the image feature amount collation unit 142 collates the image feature amount with the information of the plurality of keyframe images 41 registered in the environment map MP, and the keyframe image 41 having the image feature amount closest to the image feature amount of the current image IMA. Information is extracted.
  • the position / orientation estimation unit 16 has an outlier removal unit 161.
  • the outlier removal unit 161 is robustly estimated from a pair of feature points given priority according to the weight w among a pair of feature points corresponding to each other in the current image IMA and the keyframe image 41. , Extract multiple inlier pairs.
  • the feature point FP on the still subject can be easily extracted as an inlier pair. Therefore, the estimation accuracy of the posture of the device is improved.
  • the position / attitude estimation unit 16 has a posture calculation unit 162.
  • the posture calculation unit 162 calculates the position and posture of the device by using the regression analysis model in which the contribution of each inlier pair is corrected based on the weight w of each feature point FP. For example, the posture calculation unit calculates the distance between feature points for each inlier pair, calculates the weighted sum of squares of the distance using the weight w calculated for each feature point FP, and the weighted sum of squares is the minimum. Calculate the position and orientation of the device.
  • the background weight calculation unit 13 is based on the comparison result between the difference information of the captured images IM taken at a plurality of times taken in time series and the difference information predicted based on the measurement information of the IMU 20.
  • the weight w of the point FP is calculated.
  • the weight w of each feature point FP is appropriately set based on the measurement information of the IMU 20.
  • FIG. 5 is a schematic diagram of the information processing system 2 of the second embodiment.
  • the difference from the first embodiment in this embodiment is that the weight w of each feature point FP is calculated based only on the image information of the current image IMA and the past image IMB by using a machine learning method.
  • the differences from the first embodiment will be mainly described.
  • the weight w of each feature point FP is calculated based only on the image information of the current image IMA and the past image IMB.
  • the processing unit 50 has a foreground background separation unit 51 that separates the foreground and the background using an analysis model using a DNN (Deep Neural Network).
  • the foreground background separation unit 51 extracts the probability that a pixel is a point on a still subject for each pixel for a plurality of pixels included in the current image IMA.
  • the foreground background separation unit 51 outputs information regarding the probability of each pixel as a point on a still subject as separation information.
  • the background weight calculation unit 52 calculates the weight w of each feature point FP included in the current image IMA based on the foreground and background separation information obtained by using DNN.
  • the foreground background separation unit 51 machine learning is performed so that separation information is output from the current image IMA and the past image IMB using supervised data. From the foreground background separation unit 51, information on a number of weights according to the image resolution (or down-converted image resolution) of the current image IMA is output as separation information. Therefore, the background weight calculation unit 52 extracts the weight information of each feature point FP of the current image IMA from the weight information of each pixel included in the separation information.
  • the weight w of each feature point FP is calculated based only on the image information of the current image IMA and the past image IMB by using the machine learning method. Therefore, the IMU 20 becomes unnecessary, and the device configuration is simplified.
  • the separation information is extracted based on the image information of the current image IMA and the past image IMB, but the extraction method of the separation information is not limited to this.
  • the separation information may be extracted based only on the image information of the current image IMA by using a technique such as semantic segmentation.
  • FIG. 6 is a schematic diagram of the information processing system 3 of the third embodiment.
  • the processing unit 60 uses a method in which the method shown in the first embodiment (first method) and the method shown in the second embodiment (second method) are mixed as a method for estimating the position and posture. Use.
  • the background weight calculation unit 61 uses the difference information of the captured image IMs (current image IMA and past image IMB) of a plurality of times captured in time series and the measurement information of the IMU 20.
  • the weight (first weight w1) of each feature point FP is calculated based on the information of the difference predicted based on and the comparison result.
  • the background weight calculation unit 61 calculates the weight (second weight w2) of each feature point FP based on the separation information of the foreground and the background obtained by using DNN, as in the second embodiment.
  • the background weight calculation unit 61 blends the first weight w1 and the second weight w2 at the blend ratio ⁇ based on the following equation (11), and calculates the weight w of each feature point FP.
  • the blend ratio ⁇ is determined according to the measurement information of the IMU 20. That is, in the first method, background information is estimated using the measured value of IMU20. Therefore, the accuracy of background estimation by the first method is higher than that of the second method using machine learning.
  • the IMU 20 has a range that can be expressed. Therefore, the measured value may be saturated when a large translational or rotational motion exceeding the range occurs. Therefore, the background weight calculation unit 61 defines the reliability of the measurement information of the IMU 20 as the blend rate ⁇ .
  • the background weight calculation unit 61 reduces the blend ratio ⁇ when a steep motion change is detected by the IMU 20, and increases the contribution ratio of the second weight w2 calculated using DNN. This improves robustness.
  • FIG. 7 is a diagram showing an example of a method for determining the blend ratio ⁇ .
  • the horizontal axis is time and the vertical axis is the measured value (acceleration or angular velocity) of IMU20.
  • data i indicates the measured value at time t i (the measured value).
  • the background weight calculator 61 based on the measurement values data i and the gradient of the time t i, determines a reliability r of the measurement value data i.
  • the background weight calculation unit 61 calculates the blend ratio ⁇ by the following equation (12) using the constant D.
  • the predicted value data i ' is the threshold value (e.g., IMU20 maximum range measurable) is greater than the background weight calculator 61, the difference between the reliability r the data i and the data i-1 (data It is calculated as i-data i-1).
  • the blend ratio alpha is calculated as D / (D + data i -data i-1).
  • the background weight calculation unit 61 calculates the reliability r as zero.
  • the blend ratio ⁇ is calculated as 1.
  • the reliability r and the blend ratio ⁇ continuously change according to the measured value data i.
  • the reliability r can be set to infinity and the blend ratio ⁇ can be fixed to zero.
  • the method for setting the weight w is switched between the first method and the second method according to the measurement information of the IMU 20.
  • the blend ratio ⁇ is adjusted according to the measurement information of the IMU 20. Therefore, the weight w is appropriately set according to the reliability of the measurement information of the IMU 20.
  • the series of processes described above can be executed by hardware or software.
  • the programs constituting the software are installed on the computer.
  • the computer includes a computer embedded in dedicated hardware and, for example, a general-purpose personal computer capable of executing various functions by installing various programs.
  • FIG. 8 is a block diagram showing a configuration example of computer IPS hardware that executes the above-mentioned series of processes by a program.
  • the computer IPS corresponds to the information processing system of each of the above-described embodiments.
  • the CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the input / output interface IF is further connected to the bus BU.
  • An input unit ID, an output unit DP, a storage unit ST, a communication unit CU, and a drive DU are connected to the input / output interface IF.
  • the storage unit 40 of the above-described embodiment is included in the storage unit ST.
  • the input unit ID consists of an input switch, a button, a microphone, an image sensor, and the like.
  • the IMU 20 and the camera 30 of the above-described embodiment are included in the input unit ID.
  • the output unit DP includes a display, a speaker, and the like.
  • the storage unit ST includes a hard disk, a non-volatile memory, and the like.
  • the communication unit CU includes a network interface and the like.
  • the drive DU drives a removable recording medium RM such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU PR loads the program stored in the storage unit ST into the RAM M2 via the input / output interface IF and the bus BU and executes the program as described above. A series of processes are performed.
  • the program executed by the computer IPS can be recorded and provided on a removable recording medium RM as a package medium or the like, for example.
  • the program can also be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage unit ST via the input / output interface IF by mounting the removable recording medium RM in the drive DU. Further, the program can be received by the communication unit CU via a wired or wireless transmission medium and installed in the storage unit ST. In addition, the program can be pre-installed in the ROM M1 or the storage unit ST.
  • the program executed by the computer may be a program in which processing is performed in chronological order according to the order described in the present specification, in parallel, or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a device in which a plurality of modules are housed in one housing are both systems. ..
  • the embodiment of the present technology is not limited to the above-described embodiment, and various changes can be made without departing from the gist of the present technology.
  • this technology can take a cloud computing configuration in which one function is shared by multiple devices via a network and processed jointly.
  • each step described in the above flowchart can be executed by one device or shared by a plurality of devices.
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • a background weight calculation unit that calculates weights for a plurality of feature points included in a captured image according to the probability that the feature points are points on a still subject forming the background of the captured image for each feature point.
  • a position / orientation estimation unit that estimates the position / orientation of the device that captured the captured image by comparing the captured image with the information of the key frame image registered in the environment map based on the calculation result that reflects the weight of each feature point.
  • the image search unit includes an image feature amount calculation unit that calculates the image feature amount by weighting the local feature amount of each feature point by the weight, and a plurality of keyframe images in which the image feature amount is registered in the environment map.
  • the information processing apparatus according to (2) above which has an image feature amount collating unit that collates with the information of the above and extracts the information of the keyframe image having the image feature amount closest to the image feature amount.
  • the position / orientation estimation unit is robustly estimated from a pair of feature points given priority according to the weight among a plurality of pairs of feature points corresponding to each other of the captured image and the key frame image.
  • the information processing apparatus according to (2) or (3) above which has an outlier removing unit for extracting a plurality of inlier pairs.
  • the position / orientation estimation unit has a posture calculation unit for calculating the position / orientation of the device by using a regression analysis model in which the contribution of each inlier pair is corrected based on the weight of each feature point in the above (4).
  • the posture calculation unit calculates the distance between the feature points for each inlier pair, calculates the weighted sum of squares of the distance using the weight calculated for each feature point, and the weighted sum of squares is the minimum.
  • the information processing apparatus according to (5) above, which calculates the position and orientation of the device.
  • the background weight calculation unit is based on a comparison result between information on differences between images taken at a plurality of times taken in time series and information on differences predicted based on measurement information of IMU (Inertial Measurement Unit).
  • the information processing device according to any one of (1) to (6) above, which calculates the weight of each feature point.
  • the background weight calculation unit calculates the weight of each feature point based on the separation information of the foreground and the background obtained by using DNN (Deep Neural Network).
  • DNN Deep Neural Network
  • the information processing device described in one. For a plurality of feature points included in the captured image, weights are calculated for each feature point according to the probability that the feature points are points on a still subject forming the background of the captured image. Based on the calculation result reflecting the weight of each feature point, the captured image is compared with the information of the key frame image registered in the environment map, and the position and orientation of the device that captured the captured image is estimated.
  • a method of information processing performed by a computer that has.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

情報処理装置(10)は、背景重み算出部(13)と位置姿勢推定部(16)とを有する。背景重み算出部(13)は、撮影画像(IM)に含まれる複数の特徴点(FP)に対して、特徴点(FP)ごとに、特徴点(FP)が撮影画像(IM)の背景をなす静止被写体上の点である確率に応じた重みを算出する。位置姿勢推定部(16)は、各特徴点(FP)の重みを反映した演算結果に基づいて、撮影画像(IM)を環境地図(MP)に登録されたキーフレーム画像(41)の情報と比較し、撮影画像(IM)を撮影した機器の位置姿勢を推定する。

Description

情報処理装置、情報処理方法およびプログラム
 本発明は、情報処理装置、情報処理方法およびプログラムに関する。
 SLAM(Simultaneous Localization and Mapping)を用いて機器の位置姿勢を推定する技術が知られている。
特開2016-177388号公報
 位置姿勢の推定は、機器が撮影した撮影画像を環境地図と照合することにより行われる。しかし、撮影画像に動く被写体が含まれると、撮影画像を環境地図と精度よく照合することができず、位置姿勢の推定精度が低下する可能性がある。
 そこで、本開示では、位置姿勢の推定精度を高めることができる情報処理装置、情報処理方法およびプログラムを提案する。
 本開示によれば、撮影画像に含まれる複数の特徴点に対して、特徴点ごとに、前記特徴点が前記撮影画像の背景をなす静止被写体上の点である確率に応じた重みを算出する背景重み算出部と、各特徴点の重みを反映した演算結果に基づいて、前記撮影画像を環境地図に登録されたキーフレーム画像の情報と比較し、前記撮影画像を撮影した機器の位置姿勢を推定する位置姿勢推定部と、を有する情報処理装置が提供される。また、本開示によれば、前記情報処理装置の情報処理がコンピュータにより実行される情報処理方法、ならびに、前記情報処理装置の情報処理をコンピュータに実現させるプログラムが提供される。
第1実施形態の情報処理システムの概略図である。 情報処理システムの画像検索機能および位置姿勢推定機能を説明する図である。 重みの算出方法の一例を示す図である。 情報処理方法を示すフローチャートである。 第2実施形態の情報処理システムの概略図である。 第3実施形態の情報処理システムの概略図である。 ブレンド率の決定方法の一例を示す図である。 コンピュータのハードウェアの構成例を示すブロック図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
 なお、説明は以下の順序で行われる。
[1.第1実施形態]
 [1-1.情報処理システムの構成]
 [1-2.情報処理方法]
 [1-3.効果]
[2.第2実施形態]
[3.第3実施形態]
[4.コンピュータの構成例]
[1.第1実施形態]
[1-1.情報処理システムの構成]
 図1は、第1実施形態の情報処理システム1の概略図である。図2は、情報処理システム1の画像検索機能および位置姿勢推定機能を説明する図である。
 図1に示すように、情報処理システム1は、例えば、処理部10と、IMU(Inertial Measurement Unit)20と、カメラ30と、記憶部40と、を有する。
 処理部10は、SLAMを用いて、IMU20およびカメラ30が搭載された機器の位置姿勢(環境地図MP上の位置および撮影姿勢)を推定する情報処理装置である。SLAMは、カメラ30とIMU20の計測情報から位置姿勢の変化量(姿勢変化量)を求めるVIO(Visual Inertial Odometry)処理と、移動中に撮り貯められたキーフレーム画像群から現在画IMA(現在フレームの撮影画像IM)と似たキーフレーム画像41を検索して位置姿勢を求めるLocalize処理と、を含む。
 VIO処理では、過去から現在までの姿勢変化量を積算することによって現在の位置姿勢が算出される。この方法では誤差も積算されてしまい、時間とともに正解軌跡からのずれが大きくなる。
 Localize処理では、記憶部40に記憶された環境地図MPを用いて機器の位置姿勢が算出される。環境地図MPは、過去に撮影された複数のキーフレーム画像41を用いて生成されている。環境地図MPには、キーフレーム画像41の画像情報(キーフレーム情報)がキーフレーム画像41の撮影された位置および撮影姿勢に関連付けて登録されている。キーフレーム情報には、例えば、キーフレーム画像41に含まれる複数の特徴点(登録特徴点)RFPの位置、各特徴点RFPの局所特徴量(登録局所特徴量)、および、各特徴点RFPの局所特徴量に基づいて算出された画像特徴量(登録画像特徴量)に関する情報が含まれる。
 特徴点RFPおよび局所特徴量は、SIFT(Scale-Invariant Feature Transform)などの公知の手法を用いて抽出される。画像特徴量は、BoVW(Bag of Visual Words)、および、BoVWの発展形であるVLAD(Vector of Locally Aggregated Descriptors)などの公知の手法を用いて算出される。
 Localize処理では、現在画IMAとキーフレーム画像41とを比較して、キーフレーム画像41の撮影位置姿勢(撮影が行われたときの機器の位置姿勢)と現在画IMAの撮影位置姿勢との相対関係(相対位置姿勢)が算出される。Localize処理では、算出された相対位置姿勢が、キーフレーム画像41に紐付けられた位置姿勢に付加されることにより、現在画IMAの撮影位置姿勢が算出される。これにより、VIO処理によって蓄積された誤差がキャンセルされる。
 ただし、現在画IMAとキーフレーム画像41の撮影時期は大きく離れているため、2つの画像から位置姿勢の推定に悪影響を及ぼす外乱(たとえば移動物体)の検出を行うことは難しい。従来、この外乱の影響を少なくするためにRANSAC(Random Sample Consensus)による仮説検証が行われる。しかし、画像内に外乱が多く存在すると検証試行回数を膨大に増やす必要がある。そのため、検証試行回数を固定回数で打ち切るなどの必要があり、外乱の影響が十分に排除されない。
 そのため、処理部10は、現在画IMAに含まれる複数の特徴点FPのそれぞれについて、特徴点FPが前景(動く被写体)に属する確率が高いか背景(静止被写体)に属する確率が高いかを判定する。処理部10は、背景に属する確率が高い特徴点FPの情報に対して高い優先度を与え、背景の情報が位置姿勢の演算結果に強く反映されるようにする。
 処理部10は、局所特徴量抽出部11と、積分処理部12と、背景重み算出部13と、画像検索部14と、特徴量マッチング部15と、位置姿勢推定部16と、を有する。
 局所特徴量抽出部11は、カメラ30によって撮影された時系列画像データを取得する。時系列画像データには、時系列で撮影された複数の時刻の撮影画像IMが含まれる。局所特徴量抽出部11は、現在画IMAから複数の特徴点FPを抽出する。局所特徴量抽出部11は、各特徴点FPの局所特徴量を抽出する。特徴点FPは、例えば、現在画IMAにおいて画像エッジが交差するコーナー点である。局所特徴量は、例えば、特徴点FPを中心とした小領域の画像(画像パッチ)の特徴量である。特徴点FPおよび局所特徴量の抽出方法としては、SIFTなどの公知の手法が採用される。
 局所特徴量抽出部11は、現在画IMAに含まれる各特徴点FPの深度を算出する。例えば、カメラ30がステレオカメラである場合には、局所特徴量抽出部11は、ステレオカメラで撮影された複数の視点の撮影画像IMから視差を算出し、算出された視差に基づいて特徴点FPの深度を求める。カメラ30が単眼カメラである場合には、局所特徴量抽出部11は、異なる時刻(位置)から撮影された複数の撮影画像IMから移動視差を算出し、算出された移動視差に基づいて特徴点FPの深度を算出する。
 積分処理部12は、IMU20によって計測された加速度および角速度の情報を取得する。積分処理部12は、加速度および角速度の情報に基づいて、機器の位置姿勢の変化量を算出する。積分処理部12は、過去画IMBの撮影時から現在画IMAの撮影時までの位置姿勢の変化量を積分して、過去画IMBの撮影位置姿勢と現在画IMAの撮影位置姿勢との相対位置姿勢を算出する。
 背景重み算出部13は、現在画IMAに含まれる複数の特徴点FPに対して、特徴点FPごとに、特徴点FPが現在画IMAの背景をなす静止被写体上の点である確率に応じた重みを算出する。例えば、背景重み算出部13は、カメラ30で撮影された時系列画像データから現在画IMAと過去画IMB(現在画IMAよりも1フレーム以上前に撮影された撮影画像IM)とを抽出する。背景重み算出部13は、時系列で撮影された現在画IMAと過去画IMBの差分の情報と、IMUの計測情報に基づいて予測された差分の情報と、の比較結果に基づいて、各特徴点FPの重みを算出する。背景重み算出部13は、キーフレーム画像41の検索にクエリとして使用される現在画IMA以外に、現在画IMAから時間的に近い過去画IMBの画像情報を使用して、現在画IMAに含まれる背景の情報を推定する。
 図3は、重みの算出方法の一例を示す図である。現在画IMAは時刻tに撮影された撮影画像IMであり、過去画IMBは時刻t-1に撮影された撮影画像IMである。
 背景重み算出部13は、局所特徴量抽出部11から取得された情報に基づいて、現在画IMAと過去画IMBとをブロックマッチングし、現在画IMAに含まれる複数の特徴点FPに対応する過去画IMBの複数の対応点CPを検出する。背景重み算出部13は、現在画IMAの複数の特徴点FPの過去(時刻t-1)の位置をIMU20の計測情報に基づいて予測する。背景重み算出部13は、予測された現在画IMAの複数の特徴点FPの過去の位置と過去画IMBの複数の対応点CPの位置との比較結果に基づいて、現在画IMAの複数の特徴点FPのそれぞれの重みを算出する。
 例えば、背景重み算出部13は、積分処理部12から取得した相対位置姿勢の情報に基づいて、特徴点FPごとに、特徴点FPが過去画IMBにおいて存在すると予測される位置の点を予測点PPとして抽出する。背景重み算出部13は、対応点CPの位置が予測点PPの位置から近ければ、特徴点FPが静止物体上の点である確率が高いと判定する。背景重み算出部13は、背景に属する確率が高い特徴点FPほど、大きな値の重みを割り当てる。
 例えば、背景重み算出部13は、以下の式(1)ないし式(6)に基づいて各特徴点FPの重みwを設定する。
w=C/(C-ε) …(1)
ε=|ut-1-vt-1| …(2)
t-1=(1/zt-1)L …(3)
L=K(ΔR′z-1+Δp′) …(4)
ΔR′=ΔR …(5)
Δp′=Δp …(6)
 式(1)ないし式(6)において、wは特徴点FPの重みを示す。Cは定数である。uは特徴点FPの現在画IMA上の位置を示す。ut-1は対応点CPの過去画IMB上の位置を示す。vt-1は特徴点FPの過去画IMB上の位置を示す。εは、予測点PPからの対応点CPのずれ(予測点PPと対応点CPとの間の距離)を示す。zは、現在画IMAの特徴点の深度を示す。zt-1は、Lのz座標を示す。ΔRは、IMU20の計測情報に基づいて算出される、時刻t-1から時刻tへの撮影姿勢の変化を示す。Kは、カメラの内部パラメータを示す。ΔR′は、ΔRを逆変換して得られる、時刻tから時刻t-1への撮影姿勢の変化を示す。Δpは、IMU20の計測情報に基づいて算出される、時刻t-1から時刻tへの撮影位置の変化を示す。Δp′は、Δpを逆変換して得られる、時刻tから時刻t-1への撮影位置の変化を示す。定数Cは、位置姿勢の推定対象となる機器の仕様に応じて適切に設定される。
 図2に戻って、画像検索部14は、各特徴点FPの重みwに基づいて補正された現在画IMAの画像特徴量を用いて現在画IMAに類似するキーフレーム画像41を検索する。画像検索部14は、例えば、画像特徴量算出部141と、画像特徴量照合部142と、を有する。
 画像特徴量算出部141は、各特徴点FPの局所特徴量を重みwによって重み付けして画像特徴量を算出する。画像特徴量は、BoVWおよびVLADなどの公知の手法を用いて算出されるが、演算に際しては、特徴点FPごとの重みwが加味される。例えば、画像特徴量算出部141は、以下の式(7)に基づいて現在画IMAの画像特徴量を算出する。画像特徴量算出部141は、各局所特徴量と最近傍のセントロイドとの距離計算に重み付けをすることで静止物体上の点の寄与率を上げる。
V=Σa(v-c) …(7)
 式(7)において、Vは画像特徴量を示す。wはi番目の特徴点FPの重みを示す。aはクラスタ指示子を示す。vはi番目の特徴点FPの局所特徴量を示す。cはセントロイドを示す。
 画像特徴量照合部142は、画像特徴量を環境地図MPに登録された複数のキーフレーム画像41の情報と照合し、現在画IMAの画像特徴量に最も近い画像特徴量を有するキーフレーム画像41の情報を抽出する。
 特徴量マッチング部15は、抽出されたキーフレーム画像41の画像情報(特徴点RFPの局所特徴量の情報)と現在画IMAの画像情報(特徴点FPの局所特徴量の情報)とに基づいて、現在画IMAとキーフレーム画像41から複数の対応点ペアを抽出する。対応点ペアは現在画IMAとキーフレーム画像41の互いに対応する特徴点のペアである。
 位置姿勢推定部16は、現在画IMAの各特徴点FPの重みwを反映した演算結果に基づいて、現在画IMAをキーフレーム画像41の情報と比較し、その比較結果に基づいて、現在画IMAを撮影した機器の位置姿勢を推定する。位置姿勢推定部16は、例えば、アウトライア除去部161と、姿勢算出部162と、を含む。
 アウトライア除去部161は、特徴量マッチング部15で抽出された複数の対応点ペアのうち、重みwに応じて優先度が付与された複数の対応点ペアから、ロバスト推定により、複数のインライアペアを抽出する。
 例えば、アウトライア除去部161は、局所特徴量抽出部11から取得した情報を用いて、ロバスト推定に基づく仮説検証を行う。アウトライア除去部161は、仮説検証により、現在画IMAの各特徴点FPとキーフレーム画像41の各特徴点RFPとの位置関係として最もつじつまの合うものを求める。アウトライア除去部161は、仮説検証によって求められた位置関係に対してつじつまの合わない対応点ペア(例えば、対応点ペアの一方の特徴点が動く被写体上の点である場合や、一方の特徴点が隠れてしまった場合など)を取り除く。これにより、対応点としての信頼度が高い複数のインライアペアが抽出される。仮説検証によって得られた位置関係からは、現在画IMAの撮影位置姿勢とキーフレーム画像41の撮影位置姿勢との間の仮の相対位置姿勢が求められる。
 仮説検証には、例えば、P3Pアルゴリズムが用いられる。P3Pアルゴリズムでは、全対応点ペアから選択された3つの対応点ペアによって仮の相対位置姿勢が求められる。この際、3つの対応点ペアは、RANSACで行われるようにランダムに選択されるのではなく、PROSAC(Progressive Sample Consensus)を用いて、式(8)のように重みwによってサンプリングに優先度が付与される。これにより、静止物体上の点のみから仮の相対位置姿勢が求められる確率が高くなる。
{uj,t,uj,t-x}=PROSAC({uj,t,uj,t-x},{w}) …(8)
 式(8)において、uj,tは現在画IMAのj番目の特徴点FPの位置を示す。uj,t-xはキーフレーム画像41のj番目の特徴点RFPの位置を示す。wはj番目の特徴点FPの重みを示す。
 リアルタイムシステムでは、全ての組み合わせの数だけ対応点ペアをサンプリングすることは処理遅延的に厳しい。そのため、サンプリング数を固定回数で打ち切ることでリアルタイム性の維持を図る場合がある。この際、サンプリングに上述のような優先度を付与することで、サンプリング数を固定回数で打ち切った場合でも、静止物体上の点がインライアペアとして選ばれやすくなる。
 姿勢算出部162は、現在画IMAの各特徴点FPの重みwに基づいて各インライアペアの寄与度が補正された回帰分析モデルを用いて、機器の位置姿勢を算出する。例えば、姿勢算出部162は、インライアペアとして抽出された複数の対応点ペアの位置関係から、現在画IMAの撮影位置姿勢とキーフレーム画像41の撮影位置姿勢との相対位置姿勢を算出する。この際、姿勢算出部162は、特徴点FPごとの重みwを加味することで、インライアペアの中でも静止物体上の点である確率の高い対応点ペア間のリプロジェクションエラーが小さくなるように相対位置姿勢を求める。姿勢算出部162は、算出された相対位置姿勢を、キーフレーム画像41に紐付けられた撮影位置姿勢に付加して、現在の機器の位置姿勢(現在画IMAの撮影位置姿勢)を算出する。
 相対位置姿勢の演算には、例えば、PnPアルゴリズムが用いられる。姿勢算出部162は、全てのインライアペアに基づいて相対位置姿勢を求める。例えば、姿勢算出部162は、下記式(9)にしたがって、インライアペアごとに特徴点間の距離を算出する。姿勢算出部162は、各特徴点FPについて算出された重みwを用いて距離の重み付き2乗和を算出する。姿勢算出部162は、重み付き2乗和が最小となる機器の位置姿勢を算出する。
ΔT=argminΣ|uj,t-proj(ΔTxj,t-x)| …(9)
 式(9)において、ΔTは相対位置姿勢を示す。xは特徴uに対する3次元座標を示す。projは、3次元座標点をカメラ画面の2次元座標上に投影する関数を示す。関数projは、次の式(10)を満たす。
proj(x)=(1/z)Kx …(10)
 式(10)において、xは3次元座標点を示す。Kはカメラの内部パラメータ(3×3行列)を示す。zはKxの深度(z座標)を示す。
[1-2.情報処理方法]
 図4は、本実施形態の情報処理方法を示すフローチャートである。
 ステップS1において、処理部10は、IMU20によって計測された加速度および角速度の情報を取得する。また、処理部10は、現在画IMAおよび過去画IMBを含む時系列画像データを取得する。
 ステップS2において、局所特徴量抽出部11は、現在画IMAから複数の特徴点FPを抽出し、特徴点FPごとに局所特徴量を抽出する。また、局所特徴量抽出部11は、各特徴点FPの深度を算出する。
 ステップS3において、積分処理部12は、IMU20によって計測された加速度および角速度の情報に基づいて、過去画IMBの撮影時から現在画IMAの撮影時までの機器の位置姿勢の変化量を積分する。
 ステップS4において、背景重み算出部13は、現在画IMAと過去画IMBとをブロックマッチングし、現在画IMAに含まれる複数の特徴点FPに対応する過去画IMBの複数の対応点CPを検出する。背景重み算出部13は、積分処理部12によって算出された位置姿勢の変化量に基づいて、特徴点FPと対応点CPとの比較を行う。背景重み算出部13は、特徴点FPと対応点CPとの比較結果に基づいて、特徴点FPが現在画IMAの背景をなす静止被写体上の点である確率を求め、その確率に応じた重みwを特徴点FPに割り当てる。
 ステップS5において、画像検索部14は、各特徴点FPの重みwに基づいて補正された現在画IMAの画像特徴量を用いて、複数のキーフレーム画像41から現在画IMAに類似するキーフレーム画像41を検索する。画像検索部14は、検索によって得られたキーフレーム画像41に紐づけられた位置姿勢の情報を環境地図MPから抽出する。
 ステップS6において、特徴量マッチング部15は、キーフレーム画像41の画像情報(特徴点RFPの局所特徴量の情報)と現在画IMAの画像情報(特徴点FPの局所特徴量の情報)とに基づいて、現在画IMAとキーフレーム画像41から複数の対応点ペアを抽出する。
 ステップS7において、位置姿勢推定部16は、現在画IMAの複数の特徴点FPとキーフレーム画像41の対応する複数の特徴点RFPとの位置関係に関する情報、ならびに、環境地図MPに登録されたキーフレーム画像41の撮影位置姿勢に関する情報に基づいて、現在の機器の位置姿勢(現在画IMAの撮影位置姿勢)を推定する。
 ステップS8において、処理部10は、処理が終了したか否かを判定する。処理が終了したか否かは、カメラ30の撮影ボタンの操作などによって検出される。ステップS8において、処理が終了したと判定された場合には(ステップS8:Yes)、処理が終了される。ステップS8において、処理が終了したと判定されない場合には(ステップS8:No)、ステップS1に戻り、処理が終了されるまで上述のステップが繰り返される。
[1-3.効果]
 処理部10は、背景重み算出部13と位置姿勢推定部16とを有する。背景重み算出部13は、現在画IMAに含まれる複数の特徴点FPに対して、特徴点FPごとに、特徴点FPが現在画IMAの背景をなす静止被写体上の点である確率に応じた重みwを算出する。位置姿勢推定部16は、各特徴点FPの重みwを反映した演算結果に基づいて、現在画IMAを環境地図MPに登録されたキーフレーム画像41の情報と比較し、現在画IMAを撮影した機器の位置姿勢を推定する。本実施形態の情報処理方法は、上述した処理部10の情報処理がコンピュータにより実行される。本実施形態のプログラムは、上述した処理部10の情報処理をコンピュータに実現させる。
 この構成によれば、現在画IMAに含まれる特徴点FPが背景(静止被写体)に属するのか前景(動く被写体)に属するのかに応じて、特徴点FPの情報に異なる重みが付与される。そのため、移動物体などの外乱が現在画IMAに含まれていても、位置姿勢の推定精度が損なわれにくい。
 処理部10は、画像検索部14を有する。画像検索部14は、各特徴点FPの重みwに基づいて補正された現在画IMAの画像特徴量を用いて現在画IMAに類似するキーフレーム画像41を検索する。
 この構成によれば、静止被写体の情報を強く反映した画像特徴量が算出される。そのため、機器の位置姿勢が精度よく推定される。
 画像検索部14は、画像特徴量算出部141と画像特徴量照合部142とを有する。画像特徴量算出部141は、各特徴点FPの局所特徴量を重みwによって重み付けして画像特徴量を算出する。画像特徴量照合部142は、画像特徴量を環境地図MPに登録された複数のキーフレーム画像41の情報と照合し、現在画IMAの画像特徴量に最も近い画像特徴量を有するキーフレーム画像41の情報を抽出する。
 この構成によれば、現在画IMAに対する類似度が高い適切なキーフレーム画像41の情報が抽出される。
 位置姿勢推定部16は、アウトライア除去部161を有する。アウトライア除去部161は、現在画IMAとキーフレーム画像41の互いに対応する複数の特徴点のペアのうち、重みwに応じて優先度が付与された複数の特徴点のペアから、ロバスト推定により、複数のインライアペアを抽出する。
 この構成によれば、静止被写体上の特徴点FPがインライアペアとして抽出されやすくなる。そのため、機器の姿勢の推定精度が高まる。
 位置姿勢推定部16は、姿勢算出部162を有する。姿勢算出部162は、各特徴点FPの重みwに基づいて各インライアペアの寄与度が補正された回帰分析モデルを用いて、機器の位置姿勢を算出する。例えば、姿勢算出部は、インライアペアごとに特徴点間の距離を算出し、各特徴点FPについて算出された重みwを用いて距離の重み付き2乗和を算出し、重み付き2乗和が最小となる機器の位置姿勢を算出する。
 この構成によれば、静止被写体の情報を反映した位置姿勢の推定が可能となる。
 背景重み算出部13は、時系列で撮影された複数の時刻の撮影画像IMの差分の情報と、IMU20の計測情報に基づいて予測された差分の情報と、の比較結果に基づいて、各特徴点FPの重みwを算出する。
 この構成によれば、IMU20の計測情報に基づいて各特徴点FPの重みwが適切に設定される。
[2.第2実施形態]
 図5は、第2実施形態の情報処理システム2の概略図である。
 本実施形態において第1実施形態と異なる点は、各特徴点FPの重みwが機械学習の手法を用いて現在画IMAおよび過去画IMBの画像情報のみに基づいて算出される点である。以下、第1実施形態との相違点を中心に説明を行う。
 本実施形態では、各特徴点FPの重みwが現在画IMAおよび過去画IMBの画像情報のみに基づいて算出される。例えば、処理部50は、DNN(Deep Neural Network)を用いた分析モデルを用いて前景と背景とを分離する前景背景分離部51を有する。前景背景分離部51は、現在画IMAに含まれる複数の画素に対して、画素ごとに、画素が静止被写体上の点である確率を抽出する。前景背景分離部51は、各画素の静止被写体上の点としての確率に関する情報を分離情報として出力する。背景重み算出部52は、DNNを用いて得られた前景と背景の分離情報に基づいて、現在画IMAに含まれる各特徴点FPの重みwを算出する。
 前景背景分離部51では、教師ありデータを用いて、現在画IMAと過去画IMBとから分離情報が出力されるように機械学習が行われる。前景背景分離部51からは、現在画IMAの画像解像度(またはダウンコンバート画像解像度)に応じた数の重みの情報が分離情報として出力される。そのため、背景重み算出部52は、分離情報に含まれる各画素の重みの情報から、現在画IMAの各特徴点FPの重みの情報を抽出する。
 本実施形態では、各特徴点FPの重みwが機械学習の手法を用いて現在画IMAおよび過去画IMBの画像情報のみに基づいて算出される。そのため、IMU20が不要になり、装置構成が簡略化される。
 なお、本実施形態では、現在画IMAと過去画IMBの画像情報に基づいて分離情報が抽出されるが、分離情報の抽出方法がこれに限られない。例えば、セマンティックセグメンテーションなどの手法を用いて現在画IMAの画像情報のみに基づいて分離情報が抽出されてもよい。
[3.第3実施形態]
 図6は、第3実施形態の情報処理システム3の概略図である。
 本実施形態では、処理部60は、位置姿勢の推定手法として、第1実施形態に示した手法(第1手法)と第2実施形態に示した手法(第2手法)とを混合した手法を用いる。
 背景重み算出部61は、まず、第1実施形態と同様に、時系列で撮影された複数の時刻の撮影画像IM(現在画IMAおよび過去画IMB)の差分の情報と、IMU20の計測情報に基づいて予測された差分の情報と、の比較結果に基づいて、各特徴点FPの重み(第1重みw1)を算出する。次に、背景重み算出部61は、第2実施形態と同様に、DNNを用いて得られた前景と背景の分離情報に基づいて各特徴点FPの重み(第2重みw2)を算出する。背景重み算出部61は、下記式(11)に基づいて、第1重みw1と第2重みw2とをブレンド率αでブレンドして、各特徴点FPの重みwを算出する。
w=α×w1+(1-α)×w2 …(11)
 ブレンド率αは、IMU20の計測情報に応じて決定される。すなわち、第1手法では、IMU20の実測値を用いて背景の情報が推定される。そのため、第1手法による背景の推定精度は、機械学習を用いる第2手法よりも高い。しかし、IMU20には表現できるレンジが存在する。そのため、レンジを超える大きな並進や回転運動が生じた場合に、計測値が飽和する可能性がある。そのため、背景重み算出部61は、IMU20の計測情報の信頼度をブレンド率αとして定義する。背景重み算出部61は、IMU20によって急峻な運動変化が検出された場合にブレンド率αを小さくし、DNNを用いて算出された第2重みw2の寄与率を大きくする。これにより、ロバスト性の向上が図られる。
 図7は、ブレンド率αの決定方法の一例を示す図である。図7のグラフにおいて、横軸は時刻であり、縦軸はIMU20の計測値(加速度または角速度)である。data(iは整数)は、時刻tの計測値(実測値)を示す。data′は、時刻tの計測値の勾配に基づいて予測される時刻ti+1の計測値の予測値を示す。
 例えば、背景重み算出部61は、時刻tの計測値dataおよび勾配に基づいて、計測値dataの信頼度rを決定する。背景重み算出部61は、ブレンド率αを、定数Dを用いて下記式(12)により算出する。
α=D/(D+r) …(12)
 例えば、予測値data′が閾値(例えば、IMU20が計測可能な最大レンジ)よりも大きい場合には、背景重み算出部61は、信頼度rをdataとdatai-1との差分(data-datai-1)として算出する。この場合、ブレンド率αは、D/(D+data-datai-1)として算出される。予測値data′が閾値以下である場合には、背景重み算出部61は、信頼度rをゼロとして算出する。この場合、ブレンド率αは、1として算出される。
 上述の例では、予測値data′が閾値を超える場合に信頼度r及びブレンド率αが、計測値dataに応じて連続的に変化する。しかし、予測値data′が閾値を超える場合に信頼度rを無限大に設定し、ブレンド率αをゼロに固定することもできる。この場合、IMU20の計測情報に応じて、重みwの設定手法が第1手法と第2手法との間で切り替えられる。
 以上のように、本実施形態では、IMU20の計測情報に応じてブレンド率αが調整される。そのため、IMU20の計測情報の信頼度に応じて重みwが適切に設定される。
[4.コンピュータの構成例]
 上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図8は、上述した一連の処理をプログラムにより実行するコンピュータIPSのハードウェアの構成例を示すブロック図である。コンピュータIPSは、上述した各実施形態の情報処理システムに相当する。
 コンピュータIPSにおいて、CPU(Central Processing Unit)PR,ROM(Read Only Memory)M1,RAM(Random Access Memory)M2は、バスBUにより相互に接続されている。
 バスBUには、さらに、入出力インターフェースIFが接続されている。入出力インターフェースIFには、入力部ID、出力部DP、記憶部ST、通信部CU、およびドライブDUが接続されている。上述した実施形態の記憶部40は、記憶部STに含まれる。
 入力部IDは、入力スイッチ、ボタン、マイクロフォン、撮像素子などよりなる。上述した実施形態のIMU20およびカメラ30は、入力部IDに含まれる。出力部DPは、ディスプレイ、スピーカなどよりなる。記憶部STは、ハードディスクや不揮発性のメモリなどよりなる。通信部CUは、ネットワークインターフェースなどよりなる。ドライブDUは、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体RMを駆動する。
 以上のように構成されるコンピュータIPSでは、CPUPRが、例えば、記憶部STに記憶されているプログラムを、入出力インターフェースIFおよびバスBUを介して、RAMM2にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータIPS(CPUPR)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体RMに記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータIPSでは、プログラムは、リムーバブル記録媒体RMをドライブDUに装着することにより、入出力インターフェースIFを介して、記憶部STにインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部CUで受信し、記憶部STにインストールすることができる。その他、プログラムは、ROMM1や記憶部STに、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、および、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
 なお、本技術は以下のような構成も取ることができる。
(1)
 撮影画像に含まれる複数の特徴点に対して、特徴点ごとに、前記特徴点が前記撮影画像の背景をなす静止被写体上の点である確率に応じた重みを算出する背景重み算出部と、
 各特徴点の重みを反映した演算結果に基づいて、前記撮影画像を環境地図に登録されたキーフレーム画像の情報と比較し、前記撮影画像を撮影した機器の位置姿勢を推定する位置姿勢推定部と、
 を有する情報処理装置。
(2)
 各特徴点の前記重みに基づいて補正された前記撮影画像の画像特徴量を用いて前記撮影画像に類似する前記キーフレーム画像を検索する画像検索部を有する
 上記(1)に記載の情報処理装置。
(3)
 前記画像検索部は、各特徴点の局所特徴量を前記重みによって重み付けして前記画像特徴量を算出する画像特徴量算出部と、前記画像特徴量を環境地図に登録された複数のキーフレーム画像の情報と照合し、前記画像特徴量に最も近い画像特徴量を有する前記キーフレーム画像の情報を抽出する画像特徴量照合部と、を有する
 上記(2)に記載の情報処理装置。
(4)
 前記位置姿勢推定部は、前記撮影画像と前記キーフレーム画像の互いに対応する複数の特徴点のペアのうち、前記重みに応じて優先度が付与された複数の特徴点のペアから、ロバスト推定により、複数のインライアペアを抽出するアウトライア除去部を有する
 上記(2)または(3)に記載の情報処理装置。
(5)
 前記位置姿勢推定部は、各特徴点の前記重みに基づいて各インライアペアの寄与度が補正された回帰分析モデルを用いて、前記機器の位置姿勢を算出する姿勢算出部を有する
 上記(4)に記載の情報処理装置。
(6)
 前記姿勢算出部は、インライアペアごとに特徴点間の距離を算出し、各特徴点について算出された前記重みを用いて前記距離の重み付き2乗和を算出し、前記重み付き2乗和が最小となる前記機器の位置姿勢を算出する
 上記(5)に記載の情報処理装置。
(7)
 前記背景重み算出部は、時系列で撮影された複数の時刻の撮影画像の差分の情報と、IMU(Inertial Measurement Unit)の計測情報に基づいて予測された差分の情報と、の比較結果に基づいて、各特徴点の前記重みを算出する
 上記(1)ないし(6)のいずれか1つに記載の情報処理装置。
(8)
 前記背景重み算出部は、DNN(Deep Neural Network)を用いて得られた前景と背景の分離情報に基づいて、各特徴点の前記重みを算出する
 上記(1)ないし(6)のいずれか1つに記載の情報処理装置。
(9)
 前記背景重み算出部は、時系列で撮影された複数の時刻の撮影画像の差分の情報と、IMUの計測情報に基づいて予測された差分の情報と、の比較結果に基づいて算出される前記重みと、DNNを用いて得られた前景と背景の分離情報に基づいて算出される前記重みと、を前記IMUの計測情報に応じたブレンド率でブレンドする
 上記(1)ないし(6)のいずれか1つに記載の情報処理装置。
(10)
 撮影画像に含まれる複数の特徴点に対して、特徴点ごとに、前記特徴点が前記撮影画像の背景をなす静止被写体上の点である確率に応じた重みを算出し、
 各特徴点の重みを反映した演算結果に基づいて、前記撮影画像を環境地図に登録されたキーフレーム画像の情報と比較し、前記撮影画像を撮影した機器の位置姿勢を推定する、
 ことを有する、コンピュータにより実行される情報処理方法。
(11)
 撮影画像に含まれる複数の特徴点に対して、特徴点ごとに、前記特徴点が前記撮影画像の背景をなす静止被写体上の点である確率に応じた重みを算出し、
 各特徴点の重みを反映した演算結果に基づいて、前記撮影画像を環境地図に登録されたキーフレーム画像の情報と比較し、前記撮影画像を撮影した機器の位置姿勢を推定する、
 ことをコンピュータに実現させるプログラム。
1,2,3 情報処理システム
10,50,60 処理部(情報処理装置)
13,52,61 背景重み算出部
14 画像検索部
16 位置姿勢推定部
20 IMU
41 キーフレーム画像
141 画像特徴量算出部
142 画像特徴量照合部
161 アウトライア除去部
162 姿勢算出部
CP 対応点
FP 特徴点
IM 撮影画像
MP 環境地図
w 重み
α ブレンド率

Claims (11)

  1.  撮影画像に含まれる複数の特徴点に対して、特徴点ごとに、前記特徴点が前記撮影画像の背景をなす静止被写体上の点である確率に応じた重みを算出する背景重み算出部と、
     各特徴点の重みを反映した演算結果に基づいて、前記撮影画像を環境地図に登録されたキーフレーム画像の情報と比較し、前記撮影画像を撮影した機器の位置姿勢を推定する位置姿勢推定部と、
     を有する情報処理装置。
  2.  各特徴点の前記重みに基づいて補正された前記撮影画像の画像特徴量を用いて前記撮影画像に類似する前記キーフレーム画像を検索する画像検索部を有する
     請求項1に記載の情報処理装置。
  3.  前記画像検索部は、各特徴点の局所特徴量を前記重みによって重み付けして前記画像特徴量を算出する画像特徴量算出部と、前記画像特徴量を環境地図に登録された複数のキーフレーム画像の情報と照合し、前記画像特徴量に最も近い画像特徴量を有する前記キーフレーム画像の情報を抽出する画像特徴量照合部と、を有する
     請求項2に記載の情報処理装置。
  4.  前記位置姿勢推定部は、前記撮影画像と前記キーフレーム画像の互いに対応する複数の特徴点のペアのうち、前記重みに応じて優先度が付与された複数の特徴点のペアから、ロバスト推定により、複数のインライアペアを抽出するアウトライア除去部を有する
     請求項2に記載の情報処理装置。
  5.  前記位置姿勢推定部は、各特徴点の前記重みに基づいて各インライアペアの寄与度が補正された回帰分析モデルを用いて、前記機器の位置姿勢を算出する姿勢算出部を有する
     請求項4に記載の情報処理装置。
  6.  前記姿勢算出部は、インライアペアごとに特徴点間の距離を算出し、各特徴点について算出された前記重みを用いて前記距離の重み付き2乗和を算出し、前記重み付き2乗和が最小となる前記機器の位置姿勢を算出する
     請求項5に記載の情報処理装置。
  7.  前記背景重み算出部は、時系列で撮影された複数の時刻の撮影画像の差分の情報と、IMU(Inertial Measurement Unit)の計測情報に基づいて予測された差分の情報と、の比較結果に基づいて、各特徴点の前記重みを算出する
     請求項1に記載の情報処理装置。
  8.  前記背景重み算出部は、DNN(Deep Neural Network)を用いて得られた前景と背景の分離情報に基づいて、各特徴点の前記重みを算出する
     請求項1に記載の情報処理装置。
  9.  前記背景重み算出部は、時系列で撮影された複数の時刻の撮影画像の差分の情報と、IMUの計測情報に基づいて予測された差分の情報と、の比較結果に基づいて算出される前記重みと、DNNを用いて得られた前景と背景の分離情報に基づいて算出される前記重みと、を前記IMUの計測情報に応じたブレンド率でブレンドする
     請求項1に記載の情報処理装置。
  10.  撮影画像に含まれる複数の特徴点に対して、特徴点ごとに、前記特徴点が前記撮影画像の背景をなす静止被写体上の点である確率に応じた重みを算出し、
     各特徴点の重みを反映した演算結果に基づいて、前記撮影画像を環境地図に登録されたキーフレーム画像の情報と比較し、前記撮影画像を撮影した機器の位置姿勢を推定する、
     ことを有する、コンピュータにより実行される情報処理方法。
  11.  撮影画像に含まれる複数の特徴点に対して、特徴点ごとに、前記特徴点が前記撮影画像の背景をなす静止被写体上の点である確率に応じた重みを算出し、
     各特徴点の重みを反映した演算結果に基づいて、前記撮影画像を環境地図に登録されたキーフレーム画像の情報と比較し、前記撮影画像を撮影した機器の位置姿勢を推定する、
     ことをコンピュータに実現させるプログラム。
PCT/JP2021/017497 2020-05-29 2021-05-07 情報処理装置、情報処理方法およびプログラム WO2021241166A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202180031830.9A CN115516512A (zh) 2020-05-29 2021-05-07 信息处理装置、信息处理方法和程序
US17/999,217 US20230222686A1 (en) 2020-05-29 2021-05-07 Information processing apparatus, information processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020093887 2020-05-29
JP2020-093887 2020-05-29

Publications (1)

Publication Number Publication Date
WO2021241166A1 true WO2021241166A1 (ja) 2021-12-02

Family

ID=78745329

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/017497 WO2021241166A1 (ja) 2020-05-29 2021-05-07 情報処理装置、情報処理方法およびプログラム

Country Status (3)

Country Link
US (1) US20230222686A1 (ja)
CN (1) CN115516512A (ja)
WO (1) WO2021241166A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018022247A (ja) * 2016-08-01 2018-02-08 キヤノン株式会社 情報処理装置およびその制御方法
JP2019011971A (ja) * 2017-06-29 2019-01-24 株式会社東芝 推定システムおよび自動車
JP2019204163A (ja) * 2018-05-21 2019-11-28 株式会社Gauss 画像処理装置、画像処理方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018022247A (ja) * 2016-08-01 2018-02-08 キヤノン株式会社 情報処理装置およびその制御方法
JP2019011971A (ja) * 2017-06-29 2019-01-24 株式会社東芝 推定システムおよび自動車
JP2019204163A (ja) * 2018-05-21 2019-11-28 株式会社Gauss 画像処理装置、画像処理方法およびプログラム

Also Published As

Publication number Publication date
US20230222686A1 (en) 2023-07-13
CN115516512A (zh) 2022-12-23

Similar Documents

Publication Publication Date Title
CN107833236B (zh) 一种动态环境下结合语义的视觉定位系统和方法
US9183444B2 (en) Information processing apparatus, information processing method, and computer program
CN105590091B (zh) 一种面部识别方法及其系统
WO2018063608A1 (en) Place recognition algorithm
WO2019057197A1 (zh) 运动目标的视觉跟踪方法、装置、电子设备及存储介质
CN106650965B (zh) 一种远程视频处理方法及装置
US10636190B2 (en) Methods and systems for exploiting per-pixel motion conflicts to extract primary and secondary motions in augmented reality systems
Michot et al. Bi-objective bundle adjustment with application to multi-sensor slam
JP2012083855A (ja) 物体認識装置及び物体認識方法
Wang et al. A framework for moving target detection, recognition and tracking in UAV videos
CN106780567B (zh) 一种融合颜色和梯度直方图的免疫粒子滤波扩展目标跟踪方法
Saif et al. Motion analysis for moving object detection from UAV aerial images: A review
Saif et al. Adaptive motion pattern analysis for machine vision based moving detection from UAV aerial images
JP5848665B2 (ja) 移動物体上動きベクトル検出装置、移動物体上動きベクトル検出方法、およびプログラム
JP6558831B2 (ja) オブジェクト追跡装置、方法およびプログラム
WO2021241166A1 (ja) 情報処理装置、情報処理方法およびプログラム
CN106406507B (zh) 图像处理方法以及电子设备
Chung et al. Low-complexity and reliable moving objects detection and tracking for aerial video surveillance with small uavs
JP2023065296A (ja) 平面検出装置及び方法
Saif et al. Adaptive long term motion pattern analysis for moving object detection using UAV aerial images
CN115761558A (zh) 一种视觉定位中关键帧确定方法及装置
WO2020054058A1 (ja) 識別システム、パラメータ値更新方法およびプログラム
CN108346158B (zh) 基于主块数据关联的多目标跟踪方法及系统
Shen et al. Enhanced visual odometry algorithm based on elite selection method and voting system
He et al. Dynamic Objects Detection Based on Stereo Visual Inertial System in Highly Dynamic Environment

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21812074

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21812074

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP