WO2022049690A1 - 移動量推定装置、移動量推定方法およびプログラム - Google Patents

移動量推定装置、移動量推定方法およびプログラム Download PDF

Info

Publication number
WO2022049690A1
WO2022049690A1 PCT/JP2020/033405 JP2020033405W WO2022049690A1 WO 2022049690 A1 WO2022049690 A1 WO 2022049690A1 JP 2020033405 W JP2020033405 W JP 2020033405W WO 2022049690 A1 WO2022049690 A1 WO 2022049690A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
movement amount
feature points
amount estimation
past
Prior art date
Application number
PCT/JP2020/033405
Other languages
English (en)
French (fr)
Inventor
彦俊 中里
健二 阿部
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2020/033405 priority Critical patent/WO2022049690A1/ja
Priority to JP2022546791A priority patent/JP7464135B2/ja
Publication of WO2022049690A1 publication Critical patent/WO2022049690A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion

Definitions

  • the present invention relates to a movement amount estimation device, a movement amount estimation method, and a program for estimating the movement amount between two images.
  • the optimum control value of the device varies depending on the arrangement position.
  • a technique has been developed in which a variable unique to the scene is inferred using two sensor information of an image and a viewpoint coordinate, and a corresponding observation image is predicted from an unknown viewpoint coordinate using a deep generative model. (See, for example, Non-Patent Document 1). By using this technology, it is possible to estimate the arrangement position of fluctuating devices.
  • the present invention has been made in view of such a point, and the present invention simplifies the amount of movement of the camera device from the captured image without using the three-dimensional space model even when the arrangement position of the camera device changes.
  • the task is to calculate.
  • the fluctuation amount estimation device is a movement amount estimation device that estimates the movement amount between images due to a change in the arrangement position of the camera device, and is a comparison target taken at each of the past arrangement positions of the camera device.
  • the storage unit that stores the past image showing the image to be used and the image taken by the camera device at the new arrangement position are taken in as the current image showing the image to be compared, and the past image is taken in from the storage unit.
  • a feature amount extraction unit that extracts each feature point from the current image and the past image using a predetermined feature amount extraction algorithm and performs matching between the feature points, and a plurality of the matched feature points.
  • a predetermined number of feature points are selected from the above, a homography matrix is calculated from the change in the position of the selected predetermined number of feature points, and the calculated homography matrix is used to select features other than the predetermined number of feature points.
  • the error distance indicating the deviation of the coordinates between the feature points for each point was calculated to calculate the sum of the error distances, and the sum of the error distances was calculated by the combination of selection of all the feature points.
  • the homography matrix when the minimum value among the sum of the plurality of error distances is calculated is adopted as the homography matrix showing the change in the coordinates of the current image and the past image, and the adopted homography matrix is used. It is characterized by including a movement amount estimation unit that estimates the movement amount of the camera device at the new arrangement position using the eigenvalue.
  • the movement amount of the camera device can be easily calculated from the captured image without using the three-dimensional space model.
  • the present embodiment an embodiment for carrying out the present invention (hereinafter, referred to as "the present embodiment") will be described. First, the outline of the present invention will be described.
  • SIFT Scale Invariant Feature Transform
  • SURF Speeded-Up Robust Features
  • ORB Oriented FAST and Rotated BRIEF
  • AKAZE Accelerated KAZE
  • edges boundaries in which pixel values change
  • corners set of edges
  • AKAZE extracts edges and corners from the image and then performs filter processing to change the neighborhood range by changing the filter size while considering the vicinity of the pixel of interest. Can be made to. Therefore, AKAZE is known as a robust feature extraction algorithm that is resistant to changes in image enlargement / reduction, image slide (translation), image rotation, and the like.
  • this feature amount extraction method such as AKAZE, a process of extracting a feature point group constituting a specific object in an image is performed, and as shown in FIG. 11, the current image (comparison source image: reference numeral 5a) is used.
  • the current image compare source image: reference numeral 5a
  • Feature point matching reference numeral 5 m
  • the amount of change in the position of the matched feature points is defined as the "distance between data", and the smaller the distance between data, the smaller the amount of change between the two images, and it can be determined that the image has a high degree of similarity.
  • each feature depends on the change content (tilt, enlargement / reduction) of the image.
  • the dispersion of the amount of change in points becomes large, the amount of change between images cannot be uniquely obtained, and there is a possibility that a large amount of error is included.
  • the movement amount estimation device 1 (see FIG. 2) according to the present embodiment combines a conventional feature amount extraction method such as AKAZE with a homography matrix (details will be described later) capable of expressing the amount of change between images. It is characterized in that the amount of change between images is uniquely obtained and the amount of movement of the camera device that captured the image is estimated.
  • FIG. 1 is a diagram illustrating an outline of processing executed by the movement amount estimation device 1 according to the present embodiment.
  • the movement amount estimation device 1 includes a current image 5a (an image taken by a camera device placed at a new position) which is a comparison source image and a past image 5b (another image in the past) which is a comparison target.
  • the image taken at the position of (step S1) is taken in, and the feature amount is extracted from each image by using the feature amount extraction algorithm (step S1).
  • the movement amount estimation device 1 matches the feature points between the current image 5a and the past image 5b (step S2), and calculates a homography matrix from the change in the position of each matched feature point of the two images. (Step S3).
  • the movement amount estimation device 1 estimates the similarity of the images from the calculated homography matrix (step S4), and the similarity is higher than a predetermined level (“L2 norm” described later is equal to or less than a predetermined threshold value. ) Estimate the amount of movement of the camera position between the images (step S5). The details of each process will be described later. Hereinafter, the details of the movement amount estimation device 1 will be described.
  • FIG. 2 is a block diagram showing a configuration of the movement amount estimation device 1 according to the present embodiment.
  • the movement amount estimation device 1 is connected to a plurality of devices (camera devices 50) via a communication network or the like, and uses images taken by the devices to be newly arranged with the camera device 50 (comparison source device). It is a device that estimates the amount of movement of the device to and from the placed camera device 50 (device to be compared).
  • the movement amount estimation device 1 includes a control unit 10, an input / output unit 11, and a storage unit 12.
  • the input / output unit 11 inputs / outputs information to / from another device (a plurality of camera devices 50, etc.).
  • the input / output unit 11 is composed of a communication interface for transmitting and receiving information via a communication line and an input / output interface for inputting and outputting information between an input device such as a keyboard (not shown) and an output device such as a monitor. It is composed.
  • the storage unit 12 is composed of a hard disk, a flash memory, a RAM (Random Access Memory), and the like. Image data 200 for each device is stored in the storage unit 12 (details will be described later). Further, the storage unit 12 temporarily stores a program for executing each functional unit of the control unit 10 and information necessary for processing of the control unit 10.
  • the control unit 10 controls the overall processing executed by the movement amount estimation device 1, and includes an image recognition unit 110 and a similar device extraction unit 120.
  • the image recognition unit 110 takes in the current image 5a which is the comparison source image and the past image 5b which is the comparison target, and extracts the feature amount from each image by using the feature amount extraction algorithm. Then, the image recognition unit 110 matches the feature points between the current image 5a and the past image 5b. The image recognition unit 110 calculates a homography matrix from the change in the position of each matched feature point of the two images, and estimates the amount of change in the image from the calculated homography matrix.
  • the image recognition unit 110 includes a feature amount extraction unit 111 and a movement amount estimation unit 112.
  • the feature amount extraction unit 111 acquires the current image 5a, which is the comparison source image, from the camera device 50. Further, the feature amount extraction unit 111 acquires the past image 5b taken by the plurality of camera devices 50 from the image data 200 in the storage unit 12.
  • the image data 200 stores an image (past image 5b) taken by the camera device 50 in association with each camera device 50. Further, the camera device 50 that has transmitted the current image 5a as the comparison source image is not an image taken at the existing (past) camera device 50 placement position, but an image taken at the newly placed position. It shall be the device to transmit.
  • the feature amount extraction unit 111 extracts each feature amount from the current image 5a and one or more past images 5b by using a predetermined feature amount extraction algorithm such as AKAZE, and compares the vectors of the feature points. Matches feature points with high vector similarity. That is, the feature amount extraction unit 111 calculates the combination of feature points between the images.
  • the feature amount extraction method by the feature amount extraction unit 111 is not limited to AKAZE, and any other method can be applied as long as it can estimate the variation amount of the feature points between the two images.
  • the movement amount estimation unit 112 calculates a homography matrix (reference numeral 100 in FIG. 3) from changes in the positions of the feature points matched between the pre-conversion image 55a and the post-conversion image 55b shown by reference numeral 31 in FIG. do.
  • Homography refers to projecting one plane onto another using a projective transformation.
  • the homography matrix 100 changes from the image coordinates of the original image (coordinates before conversion: x, y) to the image coordinates after conversion (coordinates before conversion: x, y) when a projective transformation (enlargement / reduction, rotation, translation, etc.) is performed on a certain image.
  • Converted coordinates represented by a 3 ⁇ 3 matrix that can be projected onto x', y').
  • the post-transformation coordinates (x', y') can be expressed as in the equation (1) of FIG. 3 using the pre-transformation coordinates (x, y) and the homography matrix.
  • each element of the homography matrix 100 is represented by nine parameters (h 11 , h 12 , ..., H 33 ).
  • the amount of movement in the X-axis and Y-axis directions can be estimated by paying attention to the parameters “h 13 and h 23 ” that indicate the influence that does not depend on the coordinates x and y.
  • the parameters “h 31 and h 32 ” indicating the degree of influence on the scale, the amount of change in the scale (enlargement / reduction) can be estimated. Therefore, by using each element (parameter) of the homography matrix, it is possible to estimate the amount of change in the actual camera position.
  • the movement amount estimation unit 112 In order to determine the eigenvalue H in the homography matrix, four or more sets of feature quantities (predetermined number of feature points) are required. When there are four or more feature quantity pairs, the movement amount estimation unit 112 according to the present embodiment calculates the total error distance S described later for all the feature quantity pairs. Then, the movement amount estimation unit 112 adopts the eigenvalue H of the homography matrix consisting of the four pairs having the smallest total error distance S calculated.
  • the movement amount estimation unit 112 performs the determination process of the eigenvalue H in the homography matrix according to the procedure shown below.
  • the coordinates before conversion are referred to as the coordinates before conversion a
  • the coordinates after conversion are referred to as the coordinates after conversion a ′.
  • the movement amount estimation unit 112 uses the error distance information (the sum of the smallest error distances S) in the adopted homography matrix to calculate the number of hops for the camera device 50 having a new arrangement pattern described later. It is stored in the storage unit 12.
  • the eigenvector shown by the homography matrix is used as the distance between data, which is the amount of change in the position of the feature point, and the L2 norm using the eigenvalues in the homography matrix as an index showing the degree of similarity between the two images. Is adopted.
  • the L2 norm is an index showing the similarity (Sim) between images, and is represented by the following equation (2).
  • x i indicates an eigenvalue of the homography matrix.
  • the movement amount estimation unit 112 calculates this L2 norm from the eigenvalue H of the determined homography matrix. The smaller the value of this L2 norm, the higher the similarity.
  • the graph (reference numeral 41) of FIG. 4 shows the value of the similarity (Sim) (vertical axis) between the images having the L2 norm for each past image 5b compared with the current image 5a.
  • the past image “05.jpg” has a lower L2 norm value than the other past images 5b. This shows that the current image 5a and the past image "05.jpg” have a high degree of similarity.
  • the L2 norms are as small as “0.0226” and “0.0245” in the past images “05.jpg” and “04.jpg”, respectively. It is a value. Therefore, it is shown that the two past images 5b have a high degree of similarity to the current image 5a.
  • the eigenvalues of the homography matrices of " 05.jpg " and " 04.jpg " are indicated by reference numerals H5 and reference numeral H4 in FIG.
  • a value indicating the amount of movement in the X-axis direction (h 13 component) and a value indicating the amount of movement in the Y-axis direction (h 23 component) are shown. It can be seen that the amount of movement in the X-axis direction ( h13 component: the value indicated by the symbol a) is larger than the amount of movement in the Y-axis direction ( h23 component: the value indicated by the reference numeral b). Further, it can be seen that the values indicating the amount of change in scale (enlargement / reduction) (h 31 component, h 32 component: the value indicated by the symbol c) are small values as a whole.
  • FIG. 6 is a diagram showing the movement amount in the X-axis direction, the movement amount in the Y-axis direction, and the value of the L2 norm (similarity: Sim) in each past image 5b compared with the current image 5a.
  • the movement amount estimation unit 112 assumes that the similarity between the images is high, and the X-axis direction and Y estimated between the images. It is assumed that the amount of movement in the axial direction is proportional to the actual amount of fluctuation and is reliable data.
  • the value of the L2 norm exceeds a predetermined threshold value, the similarity between the images is low, and the appearances of the two images, the current image 5a and the past image 5b, are significantly changed as a whole, and the matching feature quantities (feature points). ) Is small, or the mapping of the feature amount itself is misaligned, so that the misalignment between the estimated fluctuation amount and the actual image is likely to occur. That is, the reliability of the amount of movement in the X-axis direction and the Y-axis direction is low.
  • the movement amount estimation unit 112 has past images 5b (5b 12 , 5b 13 , 5b 14 , 5b 15 , 5b 16 ) in which the value of the L2 norm is “5.000e-01” or less (each data is enclosed in diagonal lines in FIG. 6). However, the past image) is extracted as an image with a high degree of similarity. In the example shown in FIG. 6, the past image 5b showing both the station building and the train is extracted as an image having a high degree of similarity, similarly to the current image 5a which is the comparison source. Then, the movement amount estimation unit 112 estimates the movement amount in the X-axis direction and the Y-axis direction extracted as an image having a high degree of similarity as the movement amount of the camera device 50.
  • the movement amount estimation device 1 does not directly calculate the movement amount of AE, but rather AB, B. -It is more effective to individually calculate and combine the movement amounts of only neighboring devices such as C, CD, and DE because the movement amounts of the devices can be estimated between images having high similarity.
  • the feature amount extraction unit 111 and the movement amount estimation unit 112 of the image recognition unit 110 described above are images from a plurality of camera devices 50 (current image 5a) as a new arrangement pattern composed of the plurality of camera devices 50. Is obtained, for each image acquired from each camera device 50, the above-mentioned feature amount extraction process and the calculation of the inter-data distance (unique value H) and the L2 norm by calculating the homography matrix are executed. ..
  • the similar device extraction unit 120 recognizes an image (each current image 5a) of a camera device group of a newly arranged pattern (hereinafter referred to as “new arrangement pattern”) when the movement amount estimation device 1 acquires an image (each current image 5a).
  • the L2 norm is equal to or less than a predetermined threshold using the inter-data distance (proprietary value H) and the L2 norm calculated by the unit 110 performing the processing described above and comparing with the past image 5b stored in the image data 200.
  • the past image 5b of the above is extracted.
  • the similar device extraction unit 120 extracts devices having a high degree of similarity between images, that is, devices having a new arrangement pattern close to the camera device 50 and the arrangement position.
  • the similar device extraction unit 120 selects the camera device 50 having the smallest L2 norm value among the extracted devices for each camera device 50 of the new arrangement pattern. Then, the similar device extraction unit 120 sets the total error distance S calculated by the movement amount estimation unit 112 for each of the selected camera devices 50 as a predetermined distance N (N is a distance defining two points as one pop). The decimal point is rounded up for the value divided by) and held as the number of hops (estimated distance).
  • FIG. 7 is a diagram illustrating a process of calculating the number of hops by the similar device extraction unit 120 according to the present embodiment.
  • the similar device extraction unit 120 estimates the distance of the device close to the arrangement position of the devices “A”, “B”, and “C” of the new arrangement pattern.
  • the devices "A” and “B” are indicated by the same symbol “ ⁇ ” as the same model in FIG. 7, and the device C is indicated by the symbol “ ⁇ ” as a different model.
  • Sim similarity
  • a predetermined threshold value Sim ⁇ Th
  • the device “P1” selected as the minimum value is extracted.
  • the device "P3” whose Sim is equal to or less than a predetermined threshold value (Th) (Sim ⁇ Th) and is selected as the minimum value thereof is extracted.
  • the device “P2” is not extracted because Sim exceeds a predetermined threshold value (Th).
  • the device “P4” whose Sim is equal to or less than a predetermined threshold value (Th) (Sim ⁇ Th) and is selected as the minimum value thereof is extracted.
  • the device "P5" is not extracted because Sim exceeds a predetermined threshold value (Th).
  • the similar device extraction unit 120 has the L2 norm (Sim) equal to or less than a predetermined threshold value from the current image 5a of each camera device 50 in the new arrangement pattern, and the camera device 50 having the smallest L2 norm value. To extract. Then, the similar device extraction unit 120 can calculate the number of hops (estimated distance) by using the total error distance S between the camera device 50 and the extracted camera device 50 in the new arrangement pattern. From the above, the movement amount estimation device 1 converts the distance difference between the two images determined to be similar into the hop unit defined under the environment, and thereby the physical distance difference between the actual camera devices 50. It is possible to calculate an accurate deviation proportional to.
  • FIG. 8 is a flowchart showing the flow of the movement amount estimation process executed by the movement amount estimation device 1 according to the present embodiment.
  • the image recognition unit 110 feature amount extraction unit 111 of the movement amount estimation device 1 captures the current image 5a, which is a comparison source image, from the camera device 50, and extracts the feature amount using a predetermined feature amount extraction algorithm. (Step S10).
  • the feature amount extraction unit 111 takes in the past image 5b to be compared from the image data 200 stored in the storage unit 12, and extracts the feature amount using a predetermined feature amount extraction algorithm (step S11).
  • the feature amount extraction unit 111 matches the feature amount (feature point) of the current image 5a with the feature amount (feature point) of the past image 5b, and calculates the combination of the feature points between the images (step S12). ).
  • the movement amount estimation unit 112 of the image recognition unit 110 calculates a homography matrix from the change in the position of the matched feature points (step S13). Specifically, the movement amount estimation unit 112 calculates a homography matrix after randomly selecting four feature amount pairs (predetermined number of feature points) as described above, and for the remaining feature amount pairs, The total S is calculated by using the distance between the coordinates calculated by the homography matrix and the actual coordinates as a distance error. The movement amount estimation unit 112 calculates the total S of the distance errors for all the feature amount pairs, and obtains an image of the homography matrix calculated by the feature amount pairs (four feature amount pairs) having the smallest total S. Calculated as a homography matrix between.
  • the movement amount estimation unit 112 calculates the L2 norm indicating the similarity (Sim) between the images by the above equation (2) using the homography matrix calculated in step S13 (step S14).
  • the value of this L2 norm is equal to or less than a predetermined threshold value, the degree of similarity between the images is high.
  • the value of the L2 norm exceeds a predetermined threshold value, the similarity of the images is assumed to be low, and the amount of movement from the image cannot be estimated.
  • the movement amount estimation unit 112 estimates the movement amount with reference to the eigenvalues of the homography matrix calculated in step S13 (step S15). For example, the movement amount estimation unit 112 estimates the movement amount in the X-axis direction by the parameter ( h13 component) of the homography matrix. The amount of movement in the Y-axis direction is estimated from the parameters of the homography matrix ( h23 component). In addition, the amount of change in scale (enlargement / reduction) is estimated from the parameters of the homography matrix (h 31 component, h 32 component).
  • the similar device extraction unit 120 extracts the past image 5b whose L2 norm value calculated in step S14 is equal to or less than a predetermined value, and the image having the smallest L2 norm value among the extracted past images 5b and the image.
  • the camera device 50 is selected (step S16).
  • the similar device extraction unit 120 hops based on the value of the total error distance S calculated when deriving the homography matrix in step S13 between the current image 5a and the image having the minimum L2 norm. Calculate the number (step S17).
  • the movement amount estimation device 1 is based on the image of the newly arranged camera device 50 (current image 5a) and the image taken by the past camera device 50 (past image 5b). The amount of movement of the device 50 can be estimated. Further, the movement amount estimation device 1 converts the distance difference between two images determined to be similar into a hop unit defined under the environment, thereby converting the distance difference between the actual camera devices 50 into a physical distance difference. A proportional and accurate deviation can be calculated.
  • the movement amount estimation device 1 according to the present embodiment is realized by, for example, a computer 900 as shown in FIG.
  • FIG. 9 is a hardware configuration diagram showing an example of a computer 900 that realizes the function of the movement amount estimation device 1 according to the present embodiment.
  • the computer 900 includes a CPU (Central Processing Unit) 901, a ROM (Read Only Memory) 902, a RAM 903, an HDD (Hard Disk Drive) 904, an input / output I / F (Interface) 905, a communication I / F 906, and a media I / F 907. Have.
  • the CPU 901 operates based on the program stored in the ROM 902 or the HDD 904, and is controlled by the control unit 10 of the movement amount estimation device 1 shown in FIG.
  • the ROM 902 stores a boot program executed by the CPU 901 when the computer 900 is started, a program related to the hardware of the computer 900, and the like.
  • the CPU 901 controls an input device 910 such as a mouse and a keyboard and an output device 911 such as a display via the input / output I / F 905.
  • the CPU 901 acquires data from the input device 910 via the input / output I / F 905 and outputs the generated data to the output device 911.
  • a GPU Graphics Processing Unit
  • a GPU may be used together with the CPU 901 as the processor.
  • the HDD 904 stores a program executed by the CPU 901, data used by the program, and the like.
  • the communication I / F906 receives data from another device via a communication network (for example, NW (Network) 920) and outputs the data to the CPU 901, and the communication I / F 906 transfers the data generated by the CPU 901 to another device via the communication network. Send to the device.
  • NW Network
  • the media I / F907 reads the program or data stored in the recording medium 912 and outputs the program or data to the CPU 901 via the RAM 903.
  • the CPU 901 loads the program related to the target processing from the recording medium 912 onto the RAM 903 via the media I / F 907, and executes the loaded program.
  • the recording medium 912 is an optical recording medium such as a DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk), a magneto-optical recording medium such as MO (Magneto Optical disk), a magnetic recording medium, a conductor memory tape medium, a semiconductor memory, or the like. Is.
  • the CPU 901 of the computer 900 realizes the function of the movement amount estimation device 1 by executing the program loaded on the RAM 903. Further, the data in the RAM 903 is stored in the HDD 904. The CPU 901 reads the program related to the target processing from the recording medium 912 and executes it. In addition, the CPU 901 may read a program related to the target processing from another device via the communication network (NW920).
  • NW920 communication network
  • the movement amount estimation device is a movement amount estimation device 1 that estimates the movement amount between images due to a change in the arrangement position of the camera device 50, and was photographed at each of the past arrangement positions of the camera device 50.
  • the storage unit 12 that stores the past image 5b showing the image to be compared and the image taken by the camera device 50 at the new arrangement position are taken in as the current image 5a showing the image to be compared, and are taken from the storage unit 12 from the storage unit 12.
  • a predetermined number of feature points are selected from the selected feature points, a homography matrix is calculated from the change in the position of the selected predetermined number of feature points, and the calculated homography matrix is used to calculate the selected predetermined number of features.
  • the error distance indicating the deviation of the coordinates between the feature points for each feature point other than the point is calculated to calculate the sum of the error distances, and the sum of the error distances is calculated by the combination of selection of all the feature points.
  • the homography matrix when the minimum value of the calculated sum of the plurality of error distances is calculated is adopted as the homography matrix showing the change in the coordinates of the current image 5a and the past image 5b, and the adopted homography matrix is used. It is characterized by including a movement amount estimation unit that estimates the movement amount of the camera device 50 at a new arrangement position using an eigenvalue.
  • the movement amount estimation device 1 calculates a homography matrix showing the amount of change between the images from the changes in the positions of the feature points of the current image 5a and the past image 5b extracted by the predetermined feature amount extraction algorithm. Can be done. As a result, even if the arrangement position of the camera device 50 changes, the movement amount of the camera device 50 can be easily calculated based on the eigenvalues of the homography matrix calculated from the captured image without using the three-dimensional space model. can.
  • the movement amount estimation unit 112 uses the eigenvalues of the homography matrix adopted, and the L2 norm as an index that the smaller the value, the higher the similarity between the current image 5a and the past image 5b. Is characterized by calculating.
  • the movement amount estimation device 1 can, for example, extract a past image in which the calculated L2 norm is equal to or less than a predetermined threshold value as an image similar to the current image.
  • the feature amount extraction unit 111 captures a plurality of current images 5a of each camera device 50 in the camera device group of the new arrangement pattern, and the movement amount estimation unit 112 captures a plurality of current images 5a, respectively.
  • the process of selecting the minimum past image 5b of the L2 norms calculated for the past image 5b to be compared is executed, and the movement amount estimation unit 112 calculates the plurality of error distances for the selected past image 5b. Using the value obtained by dividing the minimum value of the total by a predetermined distance, the estimated distance between each camera device 50 of the new arrangement pattern and the camera device 50 that captured the past image 5b similar to the current image 5a is obtained. It is characterized by further including a similar device extraction unit 120 calculated as the number of hops.
  • the movement amount estimation device 1 selects the past image 5b similar to the current image 5a of each camera device 50 of the new arrangement pattern. Then, the movement amount estimation device 1 can calculate the estimated distance between the camera device 50 that captured the selected past image 5b and the camera device 50 of the new arrangement pattern as the number of hops. Therefore, the movement amount estimation device 1 can calculate an accurate deviation proportional to the physical distance difference between the actual camera devices 50.
  • Movement amount estimation device 10
  • Control unit 11 Input / output unit 12
  • Storage unit 50 Camera device 100
  • Homography matrix 110
  • Image recognition unit 111
  • Feature quantity extraction unit 112
  • Movement amount estimation unit 120
  • Similar device extraction unit 200 Image data

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

移動量推定装置(1)は、過去画像を記憶する記憶部(12)と、新たな配置位置のカメラデバイス(50)により撮影された現在画像と過去画像とから所定の特徴量抽出アルゴリズムを用いてマッチングを行う特徴量抽出部(111)と、複数のマッチングされた特徴点のうちから所定数の特徴点を選択してホモグラフィ行列を算出し、所定数の特徴点以外の特徴点それぞれについての特徴点間の誤差距離を計算して当該誤差距離の総和を算出し、算出された総和のうちの最小値のホモグラフィ行列を採用して、新たな配置位置のカメラデバイス(50)の移動量を推定する移動量推定部(112)とを備える。

Description

移動量推定装置、移動量推定方法およびプログラム
 本発明は、2映像間の移動量を推定する、移動量推定装置、移動量推定方法およびプログラムに関する。
 例えば、自動車等の移動対象を複数のカメラ等のデバイスで捕捉して撮影する場合において、そのデバイス(カメラデバイス)の最適な制御値は、その配置位置によって変動する。従来、画像と視点座標という2つのセンサ情報を用いて、そのシーンに固有の変数を推論し、未知の視点座標から対応する観測画像を、深層生成モデルを用いて予測する技術が開発されている(例えば、非特許文献1参照)。この技術を利用することで、変動するデバイスの配置位置を推定することが可能である。
谷口尚平、他2名、「メタ学習としてのGenerative Query Network」、一般社団法人人工知能学会、2019年度人工知能学会全国大会(第33回)、人工知能学会全国大会論文集 2Q5-J-2-03、 2019年6月
 従来の深層生成モデルを用いた3次元モデリング手法では、3次元空間上の視点座標から観測画像を予測するために3次元空間モデルを予め用意しておく必要があった。この場合において、デバイスの配置位置が変動(状況が変化)するときには、各状況において最適なデバイス制御値の割り出しを実行していた。
 しかしながら、デバイスの位置が頻繁に移動するような場合では、膨大な状況数を必要とし、新しい状況が発生するごとに、3次元空間モデルを再定義し、デバイス制御値を学習し直す必要があった。このため、最適値へ収束するまでの準備時間の増大を招き、サービス品質維持時間の低下に結びつくものであった。
 このような点に鑑みて本発明がなされたのであり、本発明は、カメラデバイスの配置位置が変化した場合でも、そのカメラデバイスの移動量を、3次元空間モデルを用いずに撮影画像から簡易に算出すること、を課題とする。
 本発明に係る変動量推定装置は、カメラデバイスの配置位置の変化に伴う画像間の移動量を推定する移動量推定装置であって、前記カメラデバイスの過去の配置位置それぞれで撮影された比較対象となる画像を示す過去画像を記憶する記憶部と、新たな配置位置のカメラデバイスにより撮影された画像を、比較元となる画像を示す現在画像として取り込み、前記記憶部から前記過去画像を取り込み、前記現在画像および前記過去画像から所定の特徴量抽出アルゴリズムを用いてそれぞれの特徴点を抽出して、当該特徴点間のマッチングを行う特徴量抽出部と、複数の前記マッチングされた特徴点のうちから所定数の特徴点を選択し、選択した前記所定数の特徴点の位置の変化からホモグラフィ行列を算出し、算出したホモグラフィ行列を用いて、選択した前記所定数の特徴点以外の特徴点それぞれについての特徴点間の座標のずれを示す誤差距離を計算して当該誤差距離の総和を算出し、前記誤差距離の総和の算出をすべての特徴点の選択の組み合わせで行い、算出された複数の前記誤差距離の総和のうちの最小値を算出した際の前記ホモグラフィ行列を、前記現在画像と前記過去画像の座標の変化を示すホモグラフィ行列として採用し、採用した前記ホモグラフィ行列の固有値を用いて、前記新たな配置位置のカメラデバイスの移動量を推定する移動量推定部と、を備えることを特徴とする。
 本発明によれば、カメラデバイスの配置位置が変化した場合でも、そのカメラデバイスの移動量を、3次元空間モデルを用いずに撮影画像から簡易に算出することができる。
本実施形態に係る移動量推定装置が実行する処理の概要を説明する図である。 本実施形態に係る移動量推定装置の構成を示すブロック図である。 ホモグラフィ行列の内容を説明する図である。 現在画像と比較した各過去画像における、L2ノルム(類似度:Sim)の値を示す図である。 本実施形態に係るL2ノルムとホモグラフィ行列における固有値の例を示す図である。 現在画像と比較した各過去画像における、X軸方向の移動量と、Y軸方向の移動量と、L2ノルム(類似度:Sim)の値を示す図である。 本実施形態に係る類似デバイス抽出部による、ホップ数の算出処理を説明する図である。 本実施形態に係る移動量推定装置が実行する移動量推定処理の流れを示すフローチャートである。 本実施形態に係る移動量推定装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。 特徴量抽出手法による画像の特徴量の抽出処理を説明する図である。 特徴量抽出手法による画像間の特徴量のマッチングを説明する図である。 従来の特徴量抽出手法において移動量を推定する際の課題を説明する図である。
 次に、本発明を実施するための形態(以下、「本実施形態」と称する。)について説明する。まず、本発明の概要を説明する。
<概要>
 これまで、画像内の物体から局所的な特徴量を抽出する手法として、SIFT(Scale Invariant Feature Transform)、SURF(Speeded-Up Robust Features)、ORB(Oriented FAST and Rotated BRIEF)、AKAZE(Accelerated KAZE)等の様々な特徴量抽出手法が開発されている。この特徴量抽出技術では、図10に示すように、エッジ(画素値が変化する境界)やコーナー(エッジの集合)を特徴点として算出する。
 この特徴量抽出手法の中でも、AKAZEは、画像内からエッジやコーナーを抽出した上で、フィルタ処理を行うことにより、注目画素の近傍を考慮しつつ、フィルタサイズを変更することで近傍範囲を変化させることができる。よって、AKAZEは、画像の拡大・縮小の変化や、画像のスライド(平行移動)、画像の回転等に強いロバスト的な特徴量抽出アルゴリズムとして知られている。
 このAKAZE等の特徴量抽出手法を用いて、画像内での特定の物体を構成する特徴点グループを抽出する処理を行い、図11に示すように、現在画像(比較元画像:符号5a)と過去画像(比較対象画像:符号5b)の異なる2つの画像に共通する特徴点のベクトルを比較することにより、ベクトルの類似度が高い特徴点のマッチングを行うことができる(現在画像と過去画像の特徴点のマッチング:符号5m)。
 そして、マッチングされた特徴点の位置の変化量を「データ間距離」とし、データ間距離が小さいほど2つの画像間の変化量も少なく、類似度が高い画像であると判定することができる。
 これにより、従来の特徴量抽出手法のみからデータ間距離を算出する場合、カメラデバイスの配置位置が平行移動している場合には特徴量の変化から画像の変化量を算出することが可能である。しかしながら、例えば、図12で示すように、現在画像5aと、過去画像5b,5b、やズーム画像5bとの比較において、画像の変化内容(傾きや拡大・縮小)によっては、各特徴点の変化量の分散が大きくなり、画像間の変化量が一意に求められず、誤差を多く内包する可能性がある。
 そこで、本実施形態に係る移動量推定装置1(図2参照)は、AKAZE等の従来の特徴量抽出手法に、画像間の変化量を表現できるホモグラフィ行列(詳細は後記)を組み合わせることにより、画像間の変化量を一意に求め、画像を撮影したカメラデバイスの移動量を推定することを特徴とする。
 図1は、本実施形態に係る移動量推定装置1が実行する処理の概要を説明する図である。
 図1に示すように、移動量推定装置1は、比較元画像である現在画像5a(新たな位置に配置されたカメラデバイスが撮影した画像)と、比較対象である過去画像5b(過去に他の位置で撮影された画像)とを取り込み、特徴量抽出アルゴリズムを用いて、それぞれの画像から特徴量を抽出する(ステップS1)。
 移動量推定装置1は、現在画像5aと過去画像5bとの間で特徴点のマッチングを行い(ステップS2)、2つの画像のマッチングされた各特徴点の位置の変化からホモグラフィ行列を算出する(ステップS3)。そして、移動量推定装置1は、算出したホモグラフィ行列から画像の類似度を推定し(ステップS4)、類似度が所定のレベルよりも高い(後記する「L2ノルム」が所定の閾値以下である)画像同士で、カメラ位置の移動量の推定を行う(ステップS5)。なお、各処理の詳細は後記する。
 以下、移動量推定装置1の詳細について説明する。
<本実施形態>
 図2は、本実施形態に係る移動量推定装置1の構成を示すブロック図である。
 移動量推定装置1は、通信ネットワーク等を介して複数のデバイス(カメラデバイス50)に接続され、当該デバイスが撮影した画像を用いて、新たに配置されるカメラデバイス50(比較元のデバイス)と配置済みのカメラデバイス50(比較対象のデバイス)との間のデバイスの移動量を推定する装置である。
 この移動量推定装置1は、制御部10と、入出力部11と、記憶部12とを備える。
 入出力部11は、他の装置(複数のカメラデバイス50等)との間の情報について入出力を行う。この入出力部11は、通信回線を介して情報の送受信を行う通信インタフェースと、不図示のキーボード等の入力装置やモニタ等の出力装置との間で情報の入出力を行う入出力インタフェースとから構成される。
 記憶部12は、ハードディスクやフラッシュメモリ、RAM(Random Access Memory)等により構成される。
 この記憶部12には、デバイス毎の画像データ200が記憶される(詳細は後記)。
 また、記憶部12には、さらに、制御部10の各機能部を実行させるためのプログラムや、制御部10の処理に必要な情報が一時的に記憶される。
 制御部10は、移動量推定装置1が実行する処理の全般を司り、画像認識部110と、類似デバイス抽出部120とを含んで構成される。
 画像認識部110は、比較元画像である現在画像5aと、比較対象である過去画像5bとを取り込み、特徴量抽出アルゴリズムを用いて、それぞれの画像から特徴量を抽出する。そして、画像認識部110は、現在画像5aと過去画像5bとの間で特徴点のマッチングを行う。画像認識部110は、2つの画像のマッチングされた各特徴点の位置の変化からホモグラフィ行列を算出し、算出したホモグラフィ行列から画像の変化量を推定する。
 この画像認識部110は、特徴量抽出部111と移動量推定部112とを含んで構成される。
 特徴量抽出部111は、カメラデバイス50から比較元画像である現在画像5aを取得する。また、特徴量抽出部111は、記憶部12内の画像データ200から、複数のカメラデバイス50により撮影された過去画像5bを取得する。なお、画像データ200には、各カメラデバイス50に対応付けて、そのカメラデバイス50が撮影した画像(過去画像5b)が記憶される。
 また、比較元画像となる現在画像5aを送信してきたカメラデバイス50は、既存の(過去の)カメラデバイス50の配置位置において撮影された画像ではなく、新たに配置された位置で撮影した画像を送信するデバイスであるものとする。
 特徴量抽出部111は、例えばAKAZE等の所定の特徴量抽出アルゴリズムを用いて、現在画像5aおよび1つ以上の過去画像5bからそれぞれの特徴量を抽出し、各特徴点のベクトルを比較することにより、ベクトルの類似度が高い特徴点をマッチングする。つまり、特徴量抽出部111は、画像間の特徴点の組合せを算出する。
 なお、特徴量抽出部111による特徴量の抽出手法は、AKAZEに限定されず、2つの画像間での特徴点の変動量を推定できる手法であれば、他の手法でも適用可能である。
 移動量推定部112は、図3の符号31に示す、変換前画像55aと、変換後画像55bとにおいてマッチングされた各特徴点の位置の変化からホモグラフィ行列(図3の符号100)を算出する。ホモグラフィとは、ある平面を、射影変換を用いて別の平面に射影することをいう。
 ホモグラフィ行列100は、ある画像において、射影変換(拡大・縮小、回転、平行移動など)が行われた場合、元画像の画像座標(変換前座標:x,y)から変換後の画像座標(変換後座標:x′,y′)に射影することができる3×3の行列で表される。
 変換後座標(x′,y′)は、変換前座標(x,y)とホモグラフィ行列とを用いて図3の式(1)のように表すことができる。
 ホモグラフィ変換では、図3の符号32に示すように、ホモグラフィ行列100の各要素を、9つのパラメータ(h11,h12,…,h33)で表現する。
 ここで、例えば、座標x,yに依存しない影響を示すパラメータ「h13,h23」に着目すればX軸・Y軸方向の移動量を推定することができる。また、スケールに対する影響度を示すパラメータ「h31,h32」に着目すれば、スケール(拡大・縮小)の変化量を推定することができる。よって、ホモグラフィ行列の各要素(パラメータ)を利用することにより、実際のカメラ位置の変化量を推定することが可能になる。
 ホモグラフィ行列における固有値Hを確定するためには、4組以上の特徴量のペア(所定数の特徴点)が必要となる。本実施形態に係る移動量推定部112は、4組以上の特徴量のペアが存在する場合には、そのすべての特徴量のペアに関して、後記する誤差距離の総和Sを算出する。そして、移動量推定部112は、算出した誤差距離の総和Sが最も小さい4組のペアによるホモグラフィ行列の固有値Hを採用する。
≪ホモグラフィ行列における固有値Hの確定処理≫
 移動量推定部112は、ホモグラフィ行列における固有値Hの確定処理を以下に示す手順で行う。
 ここで、変換前の座標を変換前座標aとし、変換後の座標を変換後座標a′とする。また、n組(ここでは、例として10組)の特徴量のペア(以下、「特徴量ペア」と称する。)があるとする。
(手順1)n組(10組)の特徴量ペアのうち、ランダムの4組の特徴量ペア(所定数の特徴点)を選び、ホモグラフィ行列を算出する。
(手順2)残り6組の特徴量ペアのそれぞれについて、(手順1)で算出されたホモグラフィ行列と座標(Ha)とを使って算出した値と実際の座標(Ha′)との差√(x+y)(誤差距離:変換後座標を(0,0)としたときの座標平面上の2点間の距離であり、特徴点間の座標のずれを示す。)を残り6組の特徴量ペアそれぞれについて求め、その誤差距離の総和Sを算出する。
(手順3)(手順2)で算出された誤差距離の総和Sを、全通りの特徴量ペア(ここでは、10通り)計算する。
(手順4)誤差距離の総和Sが最も小さい特徴量ペア(4組の特徴量ペア)で算出されたホモグラフィ行列を採用し、固有値Hとして確定する。
 なお、移動量推定部112は、採用したホモグラフィ行列における誤差距離の情報(最も小さい誤差距離の総和S)を、後記する新たな配置パターンのカメラデバイス50に関するホップ数の算出に利用するため、記憶部12に記憶しておく。
 本実施形態では、特徴点の位置の変化量であるデータ間距離としてホモグラフィ行列で示される固有ベクトルを利用し、2画像間の類似度を示す指標として、ホモグラフィ行列における固有値を用いたL2ノルムを採用する。
 L2ノルムは、画像間の類似度(Sim)を示す指標であり、以下の式(2)で示される。
Figure JPOXMLDOC01-appb-M000001
 
 ここで、xは、ホモグラフィ行列の固有値を示す。
 移動量推定部112は、確定したホモグラフィ行列の固有値HからこのL2ノルムを計算する。このL2ノルムは、値が小さいほど類似度が高いものとなる。
 図4のグラフ(符号41)は、現在画像5aと比較した各過去画像5bについての、L2ノルムである画像間の類似度(Sim)(縦軸)の値を示している。
 図4では、過去画像「05.jpg」は、他の過去画像5bに比べL2ノルムの値が低くなっている。これにより、現在画像5aと過去画像「05.jpg」の類似度が高いことが示される。
 また、図5に示す各過去画像5bについてのL2ノルムを示すグラフ(符号41)では、過去画像「05.jpg」および「04.jpg」において、L2ノルムがそれぞれ「0.0226」「0.0245」と小さい値となっている。
 よって、この2つの過去画像5bは、現在画像5aとの類似度が高いことが示される。このとき、「05.jpg」および「04.jpg」のホモグラフィ行列の固有値は、図5の符号Hと符号Hで示される。
 そして、このホモグラフィ行列の固有値H,H4から、例えば、X軸方向の移動量を示す値(h13成分)、Y軸方向の移動量を示す値(h23成分)が示される。なお、X軸方向の移動量(h13成分:符号aで示す値)は、Y軸方向の移動量(h23成分:符号bで示す値)よりも大きな値であることがわかる。また、スケール(拡大・縮小)の変化量を示す値(h31成分,h32成分:符号cで示す値)が全体として小さな値であることがわかる。
 図6は、現在画像5aと比較した各過去画像5bにおける、X軸方向の移動量と、Y軸方向の移動量と、L2ノルム(類似度:Sim)の値を示す図である。移動量推定部112は、画像間の類似度(Sim)を示すL2ノルムの値が所定の閾値以下の場合に、画像間の類似度が高いとして、画像同士で推定されたX軸方向とY軸方向の移動量が、実際の変動量に比例し信頼できるデータであるとする。
 一方、L2ノルムの値が所定の閾値を超える場合、画像間の類似度が低く、現在画像5aと過去画像5bの2つの画像が全体として様相が大きく変わっており、一致する特徴量(特徴点)が少なかったり、特徴量自身のマッピングがずれていることが起因して、推定される変動量と実際の画像との間にずれが発生しやすいものとなる。つまり、X軸方向、Y軸方向の移動量の信頼度は低いものとなる。
 図6に示す例では、例えば、L2ノルムの所定の閾値が「5.000e-01」であるとする。移動量推定部112は、L2ノルムの値が「5.000e-01」以下である過去画像5b(5b12,5b13,5b14,5b15,5b16)(図6において各データを斜線で囲んだ過去画像)を類似度の高い画像として抽出する。図6に示す例では、比較元となる現在画像5aと同様に、駅舎と列車の両方が映っている過去画像5bが類似度の高い画像として抽出される。
 そして、移動量推定部112は、類似度の高い画像として抽出した、X軸方向、Y軸方向の移動量を、カメラデバイス50の移動量として推定する。
 なお、例えば、A-B-C-D-Eの位置順にカメラデバイスが配置されているとき、移動量推定装置1は、A-Eの移動量を直接計算するよりも、A-B、B-C、C-D、D-Eのような近傍デバイスのみの移動量を個別に計算し組み合わせる方が、類似度の高い画像同士でデバイスの移動量を推定できるため有効である。
 以上説明した、画像認識部110の特徴量抽出部111および移動量推定部112は、複数のカメラデバイス50で構成される新規の配置パターンとして、複数のカメラデバイス50からの画像(現在画像5a)を取得した場合には、各カメラデバイス50から取得したそれぞれの画像に対して、上記した特徴量抽出処理と、ホモグラフィ行列の算出によるデータ間距離(固有値H)およびL2ノルムの算出を実行する。
 図2に戻り、類似デバイス抽出部120の処理について説明する。
 類似デバイス抽出部120は、新規に配置されたパターン(以下、「新規配置パターン」と称する。)のカメラデバイス群の画像(各現在画像5a)を移動量推定装置1が取得した場合、画像認識部110が、上記において説明した処理を行い、画像データ200に記憶された過去画像5bと比較することにより算出したデータ間距離(固有値H)およびL2ノルムを用いて、L2ノルムが所定の閾値以下の過去画像5bを抽出する。これにより、類似デバイス抽出部120は、画像間の類似度が高い、つまり、新規配置パターンのカメラデバイス50と配置位置の近いデバイスを抽出する。
 ここで、類似デバイス抽出部120は、新規配置パターンのカメラデバイス50毎に、抽出したデバイスの中で、L2ノルムの値が最小のカメラデバイス50を選択する。そして、類似デバイス抽出部120は、選択したカメラデバイス50それぞれについて、移動量推定部112が算出した誤差距離の総和Sを、所定の距離N(Nは、2点間を1ポップとして規定する距離)で割った値について小数点を繰り上げ(Roundup)し、ホップ数(推定距離)として保持する。
 なお、新規配置パターンに類似するカメラデバイス50を選択する前提として、各カメラデバイス50におけるカメラズーム倍率は常に一定であり不変であるとする。また、各カメラデバイス50の絶対的な位置情報は、他の手段からは得られないものとする。
 図7は、本実施形態に係る類似デバイス抽出部120による、ホップ数の算出処理を説明する図である。ここでは、類似デバイス抽出部120が、新規配置パターンのデバイス「A」「B」「C」の配置位置に近いデバイスの距離を推定する場合で説明する。なお、デバイス「A」「B」は、図7において同一機種として同じ記号「〇」で示し、デバイスCは、それとは異なる機種として記号「△」で示している。
 デバイス「A」の近傍では、L2ノルムの値であるSim(類似度)が所定の閾値(Th)以下(Sim<Th)であり、そのうちの最小値として選択されたデバイス「P1」が抽出される。そして、デバイス「A」は、デバイス「P1」の近傍の1ホップ以内の距離にあると推定される(H(A,P1)=1)。
 同様に、デバイス「B」の近傍には、Simが所定の閾値(Th)以下(Sim<Th)であり、そのうちの最小値として選択されたデバイス「P3」が抽出される。なお、デバイス「P2」は、Simが所定の閾値(Th)を超えているので抽出されない。そして、デバイス「B」は、デバイスP3の近傍の3ホップ以内の距離にあると推定される(H(A,P1)=3)。
 同様に、デバイスCの近傍には、Simが所定の閾値(Th)以下(Sim<Th)であり、そのうちの最小値として選択されたデバイス「P4」が抽出される。なお、デバイス「P5」は、Simが所定の閾値(Th)を超えているので抽出されない。そして、デバイス「C」は、デバイス「P4」の近傍の2ホップ以内の距離にあると推定される(H(A,P1)=2)。
 このようにして、類似デバイス抽出部120は、新規配置パターンにおける各カメラデバイス50の現在画像5aから、L2ノルム(Sim)が所定の閾値以下であり、そのL2ノルムの値が最小のカメラデバイス50を抽出する。そして、類似デバイス抽出部120は、新規配置パターンおけるカメラデバイス50と抽出したカメラデバイス50との間の誤差距離の総和Sを用いて、ホップ数(推定距離)を算出することができる。
 以上より、移動量推定装置1は、類似すると判定された2映像間の距離差を、その環境下で定義されたホップ単位に変換することにより、実際のカメラデバイス50間の物理的な距離差に比例した正確なずれを算出することができる。
<処理の流れ>
 次に、本実施形態に係る移動量推定装置1が、現在画像5aと過去画像5bとを用いてカメラデバイス50の移動量を推定する処理(移動量推定処理)について図8を参照して説明する。
≪移動量推定処理≫
 図8は、本実施形態に係る移動量推定装置1が実行する移動量推定処理の流れを示すフローチャートである。
 まず、移動量推定装置1の画像認識部110(特徴量抽出部111)は、比較元画像である現在画像5aを、カメラデバイス50から取り込み、所定の特徴量抽出アルゴリズムを用いて特徴量を抽出する(ステップS10)。
 続いて、特徴量抽出部111は、記憶部12に記憶された画像データ200から比較対象となる過去画像5bを取り込み、所定の特徴量抽出アルゴリズムを用いて特徴量を抽出する(ステップS11)。
 次に、特徴量抽出部111は、現在画像5aの特徴量(特徴点)と過去画像5bの特徴量(特徴点)とのマッチングを行い、画像間の特徴点の組み合わせを算出する(ステップS12)。
 そして、画像認識部110の移動量推定部112は、マッチングされた特徴点の位置の変化からホモグラフィ行列を算出する(ステップS13)。
 具体的には、移動量推定部112は、上記のように、ランダムに4つの特徴量ペア(所定数の特徴点)を選んだ上でホモグラフィ行列を算出し、残りの特徴量ペアについて、当該ホモグラフィ行列で算出した座標と実際の座標との距離を距離誤差としてその総和Sを算出する。移動量推定部112は、全通りの特徴量ペアについての距離誤差の総和Sを算出し、総和Sが最も小さい特徴量ペア(4つの特徴量ペア)で算出されたホモグラフィ行列を、その画像間のホモグラフィ行列として算出する。
 続いて、移動量推定部112は、ステップS13において算出したホモグラフィ行列を用いて、画像間の類似度(Sim)を示すL2ノルムを、上記した式(2)により算出する(ステップS14)。
 このL2ノルムの値が、所定の閾値以下の場合に、画像間の類似度が高いものとなる。なお、L2ノルムの値が、所定の閾値を超える場合には、その画像の類似度は低いものとし、画像からの移動量の推定はできない。
 また、移動量推定部112は、L2ノルムが所定の閾値以下の場合には、ステップS13において算出したホモグラフィ行列の固有値を参照して、移動量を推定する(ステップS15)。例えば、移動量推定部112は、ホモグラフィ行列のパラメータ(h13成分)により、X軸方向の移動量を推定する。ホモグラフィ行列のパラメータ(h23成分)により、Y軸方向の移動量を推定する。また、ホモグラフィ行列のパラメータ(h31成分,h32成分)により、スケール(拡大・縮小)の変化量を推定する。
 次に、類似デバイス抽出部120は、ステップS14において算出されたL2ノルムの値が所定値以下の過去画像5bを抽出し、抽出した過去画像5bの中でL2ノルムの値が最小となる画像およびそのカメラデバイス50を選択する(ステップS16)。
 そして、類似デバイス抽出部120は、現在画像5aと、L2ノルムが最小となる画像との間において、ステップS13でホモグラフィ行列を導出する際に算出した誤差距離の総和Sの値に基づき、ホップ数を算出する(ステップS17)。
 このようにすることで、移動量推定装置1は、新たに配置されたカメラデバイス50の画像(現在画像5a)と、過去のカメラデバイス50で撮影された画像(過去画像5b)とから、カメラデバイス50の移動量を推定することができる。
 また、移動量推定装置1は、類似すると判定された2映像間の距離差を、その環境下で定義されたホップ単位に変換することにより、実際のカメラデバイス50間の物理的な距離差に比例した正確なずれを算出することができる。
<ハードウェア構成>
 本実施形態に係る移動量推定装置1は、例えば図9に示すようなコンピュータ900によって実現される。
 図9は、本実施形態に係る移動量推定装置1の機能を実現するコンピュータ900の一例を示すハードウェア構成図である。コンピュータ900は、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、RAM903、HDD(Hard Disk Drive)904、入出力I/F(Interface)905、通信I/F906およびメディアI/F907を有する。
 CPU901は、ROM902またはHDD904に記憶されたプログラムに基づき作動し、図2に示す移動量推定装置1の制御部10による制御を行う。ROM902は、コンピュータ900の起動時にCPU901により実行されるブートプログラムや、コンピュータ900のハードウェアに係るプログラム等を記憶する。
 CPU901は、入出力I/F905を介して、マウスやキーボード等の入力装置910、および、ディスプレイ等の出力装置911を制御する。CPU901は、入出力I/F905を介して、入力装置910からデータを取得するともに、生成したデータを出力装置911へ出力する。なお、プロセッサとしてCPU901とともに、GPU(Graphics Processing Unit)等を用いても良い。
 HDD904は、CPU901により実行されるプログラムおよび当該プログラムによって使用されるデータ等を記憶する。通信I/F906は、通信網(例えば、NW(Network)920)を介して他の装置からデータを受信してCPU901へ出力し、また、CPU901が生成したデータを、通信網を介して他の装置へ送信する。
 メディアI/F907は、記録媒体912に格納されたプログラムまたはデータを読み取り、RAM903を介してCPU901へ出力する。CPU901は、目的の処理に係るプログラムを、メディアI/F907を介して記録媒体912からRAM903上にロードし、ロードしたプログラムを実行する。記録媒体912は、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto Optical disk)等の光磁気記録媒体、磁気記録媒体、導体メモリテープ媒体又は半導体メモリ等である。
 例えば、コンピュータ900が本実施形態に係る移動量推定装置1として機能する場合、コンピュータ900のCPU901は、RAM903上にロードされたプログラムを実行することにより移動量推定装置1の機能を実現する。また、HDD904には、RAM903内のデータが記憶される。CPU901は、目的の処理に係るプログラムを記録媒体912から読み取って実行する。この他、CPU901は、他の装置から通信網(NW920)を介して目的の処理に係るプログラムを読み込んでもよい。
<効果>
 以下、本発明に係る移動量推定装置1等の効果について説明する。
 本発明に係る移動量推定装置は、カメラデバイス50の配置位置の変化に伴う画像間の移動量を推定する移動量推定装置1であって、カメラデバイス50の過去の配置位置それぞれで撮影された比較対象となる画像を示す過去画像5bを記憶する記憶部12と、新たな配置位置のカメラデバイス50により撮影された画像を、比較元となる画像を示す現在画像5aとして取り込み、記憶部12から過去画像5bを取り込み、現在画像5aおよび過去画像5bから所定の特徴量抽出アルゴリズムを用いてそれぞれの特徴点を抽出して、当該特徴点間のマッチングを行う特徴量抽出部111と、複数のマッチングされた特徴点のうちから所定数の特徴点を選択し、選択した所定数の特徴点の位置の変化からホモグラフィ行列を算出し、算出したホモグラフィ行列を用いて、選択した所定数の特徴点以外の特徴点それぞれについての特徴点間の座標のずれを示す誤差距離を計算して当該誤差距離の総和を算出し、誤差距離の総和の算出をすべての特徴点の選択の組み合わせで行い、算出された複数の誤差距離の総和のうちの最小値を算出した際のホモグラフィ行列を、現在画像5aと過去画像5bの座標の変化を示すホモグラフィ行列として採用し、採用したホモグラフィ行列の固有値を用いて、新たな配置位置のカメラデバイス50の移動量を推定する移動量推定部と、を備えることを特徴とする。
 このように、移動量推定装置1は、所定の特徴量抽出アルゴリズムにより抽出した現在画像5aと過去画像5bの特徴点の位置の変化から、画像間の変化量を示すホモグラフィ行列を算出することができる。これにより、カメラデバイス50の配置位置が変化した場合でも、そのカメラデバイス50の移動量を、3次元空間モデルを用いずに撮影画像から算出したホモグラフィ行列の固有値に基づき簡易に算出することができる。
 また、移動量推定装置1において、移動量推定部112が、採用したホモグラフィ行列の固有値を用いて、値が小さい程現在画像5aと過去画像5bとの類似度が高くなる指標としてのL2ノルムを算出することを特徴とする。
 このようにすることにより、移動量推定装置1は、例えば、算出したL2ノルムが所定の閾値以下の過去画像を、現在画像に類似する画像として抽出することができる。
 また、移動量推定装置1において、特徴量抽出部111が、新規の配置パターンのカメラデバイス群における各カメラデバイス50の複数の現在画像5aを取り込み、移動量推定部112が複数の現在画像5aそれぞれの比較対象となる過去画像5bについて算出したL2ノルムのうちの最小値の過去画像5bを選択する処理を実行し、当該選択した過去画像5bについて移動量推定部112が算出した複数の誤差距離の総和のうちの最小値を所定の距離で割った値を用いて、新規の配置パターンの各カメラデバイス50と、その現在画像5aに類似する過去画像5bを撮影したカメラデバイス50との推定距離をホップ数として算出する類似デバイス抽出部120をさらに備えることを特徴とする。
 このように、移動量推定装置1は、新規の配置パターンの各カメラデバイス50の現在画像5aに類似する過去画像5bを選択する。そして、移動量推定装置1は、その選択した過去画像5bを撮影したカメラデバイス50と新規の配置パターンのカメラデバイス50との推定距離をホップ数として算出することができる。よって、移動量推定装置1は、実際のカメラデバイス50間の物理的な距離差に比例した正確なずれを算出することができる。
 なお、本発明は、以上説明した実施形態に限定されるものではなく、多くの変形が本発明の技術的思想内で当分野において通常の知識を有する者により可能である。
 1   移動量推定装置
 10  制御部
 11  入出力部
 12  記憶部
 50  カメラデバイス
 100 ホモグラフィ行列
 110 画像認識部
 111 特徴量抽出部
 112 移動量推定部
 120 類似デバイス抽出部
 200 画像データ

Claims (5)

  1.  カメラデバイスの配置位置の変化に伴う画像間の移動量を推定する移動量推定装置であって、
     前記カメラデバイスの過去の配置位置それぞれで撮影された比較対象となる画像を示す過去画像を記憶する記憶部と、
     新たな配置位置のカメラデバイスにより撮影された画像を、比較元となる画像を示す現在画像として取り込み、前記記憶部から前記過去画像を取り込み、前記現在画像および前記過去画像から所定の特徴量抽出アルゴリズムを用いてそれぞれの特徴点を抽出して、当該特徴点間のマッチングを行う特徴量抽出部と、
     複数の前記マッチングされた特徴点のうちから所定数の特徴点を選択し、選択した前記所定数の特徴点の位置の変化からホモグラフィ行列を算出し、算出したホモグラフィ行列を用いて、選択した前記所定数の特徴点以外の特徴点それぞれについての特徴点間の座標のずれを示す誤差距離を計算して当該誤差距離の総和を算出し、前記誤差距離の総和の算出をすべての特徴点の選択の組み合わせで行い、算出された複数の前記誤差距離の総和のうちの最小値を算出した際の前記ホモグラフィ行列を、前記現在画像と前記過去画像の座標の変化を示すホモグラフィ行列として採用し、採用した前記ホモグラフィ行列の固有値を用いて、前記新たな配置位置のカメラデバイスの移動量を推定する移動量推定部と、
     を備えることを特徴とする移動量推定装置。
  2.  前記移動量推定部は、採用した前記ホモグラフィ行列の固有値を用いて、値が小さい程前記現在画像と前記過去画像との類似度が高くなる指標としてのL2ノルムを算出すること
     を特徴とする請求項1に記載の移動量推定装置。
  3.  前記特徴量抽出部が、新規の配置パターンのカメラデバイス群における各カメラデバイスの複数の前記現在画像を取り込み、前記移動量推定部が複数の前記現在画像それぞれの比較対象となる過去画像について算出した前記L2ノルムのうちの最小値の前記過去画像を選択する処理を実行し、
     当該選択した過去画像について前記移動量推定部が算出した複数の前記誤差距離の総和のうちの最小値を所定の距離で割った値を用いて、前記新規の配置パターンの各カメラデバイスと、その現在画像に類似する過去画像を撮影したカメラデバイスとの推定距離をホップ数として算出する類似デバイス抽出部
     をさらに備えることを特徴とする請求項2に記載の移動量推定装置。
  4.  カメラデバイスの配置位置の変化に伴う画像間の移動量を推定する移動量推定装置の移動量推定方法であって、
     前記移動量推定装置は、
     前記カメラデバイスの過去の配置位置それぞれで撮影された比較対象となる画像を示す過去画像を記憶する記憶部を備えており、
     新たな配置位置のカメラデバイスにより撮影された画像を、比較元となる画像を示す現在画像として取り込み、前記記憶部から前記過去画像を取り込み、前記現在画像および前記過去画像から所定の特徴量抽出アルゴリズムを用いてそれぞれの特徴点を抽出して、当該特徴点間のマッチングを行うステップと、
     複数の前記マッチングされた特徴点のうちから所定数の特徴点を選択し、選択した前記所定数の特徴点の位置の変化からホモグラフィ行列を算出し、算出したホモグラフィ行列を用いて、選択した前記所定数の特徴点以外の特徴点それぞれについての特徴点間の座標のずれを示す誤差距離を計算して当該誤差距離の総和を算出し、前記誤差距離の総和の算出をすべての特徴点の選択の組み合わせで行い、算出された複数の前記誤差距離の総和のうちの最小値を算出した際の前記ホモグラフィ行列を、前記現在画像と前記過去画像の座標の変化を示すホモグラフィ行列として採用し、採用した前記ホモグラフィ行列の固有値を用いて、前記新たな配置位置のカメラデバイスの移動量を推定するステップと、
     を実行することを特徴とする移動量推定方法。
  5.  コンピュータを、請求項1乃至請求項3のいずれか一項に記載の移動量推定装置として機能させるためのプログラム。
     
PCT/JP2020/033405 2020-09-03 2020-09-03 移動量推定装置、移動量推定方法およびプログラム WO2022049690A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2020/033405 WO2022049690A1 (ja) 2020-09-03 2020-09-03 移動量推定装置、移動量推定方法およびプログラム
JP2022546791A JP7464135B2 (ja) 2020-09-03 2020-09-03 移動量推定装置、移動量推定方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/033405 WO2022049690A1 (ja) 2020-09-03 2020-09-03 移動量推定装置、移動量推定方法およびプログラム

Publications (1)

Publication Number Publication Date
WO2022049690A1 true WO2022049690A1 (ja) 2022-03-10

Family

ID=80491888

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/033405 WO2022049690A1 (ja) 2020-09-03 2020-09-03 移動量推定装置、移動量推定方法およびプログラム

Country Status (2)

Country Link
JP (1) JP7464135B2 (ja)
WO (1) WO2022049690A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007043679A1 (ja) * 2005-10-14 2007-04-19 Sharp Kabushiki Kaisha 情報処理装置およびプログラム
WO2010050206A1 (ja) * 2008-10-28 2010-05-06 日本電気株式会社 なりすまし検知システム、なりすまし検知方法及びなりすまし検知プログラム
JP2014192613A (ja) * 2013-03-26 2014-10-06 Canon Inc 画像処理装置及び方法、及び撮像装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007043679A1 (ja) * 2005-10-14 2007-04-19 Sharp Kabushiki Kaisha 情報処理装置およびプログラム
WO2010050206A1 (ja) * 2008-10-28 2010-05-06 日本電気株式会社 なりすまし検知システム、なりすまし検知方法及びなりすまし検知プログラム
JP2014192613A (ja) * 2013-03-26 2014-10-06 Canon Inc 画像処理装置及び方法、及び撮像装置

Also Published As

Publication number Publication date
JP7464135B2 (ja) 2024-04-09
JPWO2022049690A1 (ja) 2022-03-10

Similar Documents

Publication Publication Date Title
US10573018B2 (en) Three dimensional scene reconstruction based on contextual analysis
US9600744B2 (en) Adaptive interest rate control for visual search
JP6902122B2 (ja) ダブル視野角画像較正および画像処理方法、装置、記憶媒体ならびに電子機器
US20100250588A1 (en) Image searching system and image searching method
US8531505B2 (en) Imaging parameter acquisition apparatus, imaging parameter acquisition method and storage medium
JP7046567B2 (ja) 情報処理装置、情報処理方法及びプログラム
US9865061B2 (en) Constructing a 3D structure
EP3633606A1 (en) Information processing device, information processing method, and program
KR20190027445A (ko) 곡면 모델링을 통한 깊이 영상 부호화에서 움직임 추정 방법 및 장치와 비일시적 컴퓨터 판독가능 기록매체
JP2023512272A (ja) 画像処理方法及び装置
KR101478709B1 (ko) Rgb-d 영상 특징점 추출 및 특징 기술자 생성 방법 및 장치
WO2016208404A1 (ja) 情報処理装置および方法、並びにプログラム
JP2024508024A (ja) 画像データの処理方法及び装置
KR102074929B1 (ko) 깊이 영상을 통한 평면 검출 방법 및 장치 그리고 비일시적 컴퓨터 판독가능 기록매체
EP4292059A1 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
CN117372604B (zh) 一种3d人脸模型生成方法、装置、设备及可读存储介质
JP7003617B2 (ja) 推定装置、推定方法、及び推定プログラム
WO2022049690A1 (ja) 移動量推定装置、移動量推定方法およびプログラム
JP2006113832A (ja) ステレオ画像処理装置およびプログラム
CN114596475A (zh) 单应性流估计模型的训练方法、单应性流估计方法和装置
JP2023056466A (ja) グローバル測位装置及び方法
JP7380895B2 (ja) 転移学習装置、転移学習方法およびプログラム
KR102224272B1 (ko) 깊이 영상을 통한 평면 검출 방법 및 장치 그리고 비일시적 컴퓨터 판독가능 기록매체
KR102548013B1 (ko) 모델 정합 방법 및 상기 방법을 수행하는 컴퓨팅 장치
KR102231759B1 (ko) 표면 모델링을 통한 깊이 영상의 처리 방법 및 장치 그리고 비일시적 컴퓨터 판독가능 기록매체

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20952429

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022546791

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20952429

Country of ref document: EP

Kind code of ref document: A1