WO2019104571A1 - 图像处理方法和设备 - Google Patents

图像处理方法和设备 Download PDF

Info

Publication number
WO2019104571A1
WO2019104571A1 PCT/CN2017/113771 CN2017113771W WO2019104571A1 WO 2019104571 A1 WO2019104571 A1 WO 2019104571A1 CN 2017113771 W CN2017113771 W CN 2017113771W WO 2019104571 A1 WO2019104571 A1 WO 2019104571A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
frame image
depth information
key frame
pose
Prior art date
Application number
PCT/CN2017/113771
Other languages
English (en)
French (fr)
Inventor
周游
杨振飞
刘洁
Original Assignee
深圳市大疆创新科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳市大疆创新科技有限公司 filed Critical 深圳市大疆创新科技有限公司
Priority to PCT/CN2017/113771 priority Critical patent/WO2019104571A1/zh
Priority to CN201780014507.4A priority patent/CN108780577A/zh
Publication of WO2019104571A1 publication Critical patent/WO2019104571A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Definitions

  • the present application relates to the field of image processing and, more particularly, to an image processing method and apparatus.
  • drones are being used in more and more scenes.
  • drones need to have certain positioning capabilities and environmental awareness.
  • drones can use structured light cameras for positioning and environmental sensing. Such cameras can directly acquire depth information, but such cameras perform poorly in high light environments, are susceptible to interference, and are relatively expensive.
  • the dual/multi-view vision module for positioning and environment sensing. It consists of two or more cameras separated by a certain distance. The three-dimensional depth information is calculated by the difference between the photos taken by the two cameras at the same time, but the double The rotation and position between the multi-view camera directly affects the range and accuracy of the measurement, so the dual/multi-view vision module has higher structural requirements.
  • the outdoor glare environment of structured light cameras is susceptible to interference, while the dual/multi-view vision modules have higher structural requirements and require a certain interval. Also need to be unobstructed, not all drones can be applied.
  • the embodiment of the present invention provides an image processing method and device, which can reduce resource consumption, cost, and the like while improving positioning and environment sensing accuracy.
  • an image processing method including: acquiring a multi-frame image captured by a monocular camera; extracting a plurality of key frame images from the multi-frame image according to a pose relationship when the multi-frame image is captured by the camera; Calculating the multiple positions of the plurality of key frame images by using the camera Depth information of feature points in the frame image.
  • an image processing method including:
  • Determining depth information of each pixel of each frame image in the multi-frame image is determined according to depth information of feature points in the multi-frame image.
  • an image processing method including:
  • the depth information of at least part of the pixel positions in the at least one frame image is verified by using a camera to capture a pose relationship of at least one frame image of the multi-frame image and other frame images.
  • an image processing apparatus including an acquiring unit, an extracting unit, and a determining unit, wherein the acquiring unit is configured to: acquire a multi-frame image captured by a monocular camera; and the extracting unit is configured to: capture the image according to a camera a pose relationship of the multi-frame image, from which a plurality of key frame images are extracted; the determining unit is configured to: calculate a pose of the plurality of key frame images by using a camera, and calculate the plurality of key frame images Depth information of feature points in .
  • an image processing apparatus including an acquiring unit and a calculating unit, wherein the acquiring unit is configured to: acquire a multi-frame image captured by a monocular camera; and the determining unit is configured to: capture the multi-frame image by using a camera The pose of the time, the depth information of the feature points in the multi-frame image is calculated; and the depth information of each pixel of each frame image in the multi-frame image is determined according to the depth information of the feature points in the multi-frame image.
  • an image processing apparatus includes: an obtaining unit, a determining unit, and a verifying unit; wherein the acquiring unit is configured to: acquire a multi-frame image captured by a monocular camera; and the determining unit is configured to: capture the image by using a camera a pose of the multi-frame image, determining depth information of each pixel of each frame image in the multi-frame image; the verification unit is configured to: capture a bit of the at least one frame image and the other frame image of the multi-frame image by using a camera A pose relationship that verifies depth information of at least a portion of pixel locations in at least one frame of image.
  • an image processing apparatus including a processor and a memory.
  • the processor and the memory communicate with each other through an internal connection path, the memory stores instructions, and the processor is used for tuning Execute any of the above methods using the instructions stored in the memory.
  • a computer readable medium for storing a computer program, the computer program comprising instructions for performing any of the methods described above.
  • a computer program product comprising instructions which, when run on a computer, cause the computer to perform any of the methods described above.
  • the embodiment of the present application provides an image processing method and device, which can determine the depth information of pixel points in a captured image of a monocular camera by using a camera pose or an image pose relationship between images, thereby avoiding immediate Positioning and map construction (SLAM) is a problem that requires a lot of resources due to positioning and environment awareness, and can avoid the use of more expensive structured optical cameras or dual/multiple structures with higher structural requirements.
  • the camera therefore, the method of the embodiment of the present application can reduce resource consumption, cost, and the like while improving positioning and environment sensing accuracy.
  • FIG. 1 is a schematic flowchart of an image processing method according to an embodiment of the present application.
  • FIG. 2 is a schematic diagram of key frame extraction in accordance with an embodiment of the present application.
  • FIG. 3 is a schematic diagram of calculating depth information of a pixel point according to an embodiment of the present application.
  • FIG. 4 is a schematic diagram of a method of verifying depth information according to an embodiment of the present application.
  • FIG. 5 is a schematic diagram of a method of calculating color luminance information according to an embodiment of the present application.
  • FIG. 6 is a schematic diagram of an image processing method according to an embodiment of the present application.
  • FIG. 7 is a schematic diagram of an image processing method according to an embodiment of the present application.
  • FIG. 8 is a schematic block diagram of an image processing apparatus according to an embodiment of the present application.
  • FIG. 9 is a schematic block diagram of an image processing apparatus according to an embodiment of the present application.
  • FIG. 10 is a schematic block diagram of an image processing apparatus according to an embodiment of the present application.
  • FIG. 11 is a schematic block diagram of an image processing apparatus according to an embodiment of the present application.
  • FIG. 12 is a schematic block diagram of an image processing apparatus according to an embodiment of the present application.
  • a component when a component is “fixedly connected” or “connected” to another component in the embodiment of the present application, or when one component is “fixed” to another component, it may be directly on another component, or There can be a centered component.
  • Embodiments of the present invention can be applied to various types of mobile devices.
  • the mobile device in embodiments of the present invention can be moved in any suitable environment, such as in the air (eg, a fixed-wing aircraft, a rotorcraft, or an aircraft with neither a fixed wing nor a rotor), in water (eg, a ship or Submarine), on land (for example, a car or train), space (for example, a space plane, satellite or detector), and any combination of the above.
  • the mobile device can be an aircraft, such as an Unmanned Aerial Vehicle (UAV).
  • UAV Unmanned Aerial Vehicle
  • the mobile device can carry a living being, such as a person or an animal.
  • the embodiments of the present invention can be applied to other vehicles having a monocular camera, such as Virtual Reality (VR)/Augmented Reality (AR) glasses.
  • VR Virtual Reality
  • AR Augmented Reality
  • Unstructured light monocular (single camera) cameras combine the advantages of light weight, small size, low price and low power consumption, but images obtained with monocular cameras require more complicated calculations to achieve better positioning. And environmental perception results.
  • the image taken by the monocular camera can be used for simultaneous localization and mapping (SLAM), but the SLAM computing resource is relatively expensive and difficult to implement on the drone.
  • SLAM simultaneous localization and mapping
  • the camera model can be characterized as Equation 1:
  • [u, v, 1] T represents a 2D point in pixel coordinates
  • [x w , y w , z w ] T represents a 3D point in the world coordinate system
  • matrix K represents a camera calibration matrix, That is, identify the internal parameters of each camera (Intrinsic Parameters).
  • Equation 2 Equation 2
  • ⁇ x fm x
  • ⁇ y fm y
  • f is the focal length
  • m x and m y are the x, y directions, the scale factors per unit distance
  • is x, y
  • the skew parameters between the axes, ⁇ 0 , v 0 are the principal points.
  • the embodiment of the present application provides an image processing method and device, which can determine the depth information of a pixel point in a captured image of a monocular camera by using a pose when the camera captures an image or a pose relationship when the camera captures a plurality of frames of images.
  • the problem that the resource consumption caused by the positioning and the environment sensing by using the SLAM can be avoided is large, and the structural optical camera with relatively expensive price or the dual/multi-head camera with high structure requirements can be avoided, so the embodiment of the present application
  • the method can reduce resource consumption and save cost while improving positioning and environment sensing accuracy.
  • FIG. 1 is a schematic flowchart of an image processing method 100 according to an embodiment of the present application.
  • the method 100 includes at least a portion of the following.
  • the image processing device acquires a multi-frame image taken by the monocular camera.
  • the multi-frame image may be a multi-frame continuous image taken by a monocular camera.
  • the image processing apparatus may randomly select a plurality of consecutive images, or may select a multi-frame continuous image that satisfies a specific condition.
  • the multi-frame image is an image in which the continuous multi-frame motion posture change amount is less than or equal to a third threshold.
  • the amount of change in the motion posture of the monocular camera (specifically, the monocular camera can be rigidly coupled to the movable object, and the amount of motion change of the movable object mentioned herein) is large.
  • the result of matching the feature points between the images taken by the monocular camera is poor, and the feature point matching result will directly affect the quality of the motion estimation. If it is found that the current motion posture change amount is relatively large, these continuous multi-frame images are not used for subsequent processing.
  • the posture change amount of consecutive multi-frame images is relatively small, this means that the inter-frame motion is relatively small and stable. In this case, these consecutive multi-frame images are selected for subsequent processing.
  • the amount of change in motion pose may be characterized by
  • 2 of successive multi-frame images is smaller than a specific value, these consecutive multi-frame images can be selected for subsequent processing.
  • the amount of change mentioned in the embodiment of the present application is less than or equal to a specific value, or the absolute value of a value is less than or equal to a specific value, which may mean that the norm of the change amount or a value of 2 is less than or equal to a specific value.
  • the number of consecutive images that need to be acquired may be a specific number N, and if a motion posture change amount of consecutive N frames of images is less than or equal to a specific value, it may be selected. These successive multi-frame images are processed for subsequent processing.
  • a multi-frame image for performing the calculation of the depth information may be acquired according to the motion posture change amount of the image, but it should be understood that the embodiment of the present application is not limited thereto, and the embodiment of the present application may further combine the position change. The amount, or only the position change amount, is used to acquire a multi-frame image for subsequent calculation of depth information.
  • IMU Inertial Measurement Unit
  • a mobile device for example, a drone
  • IMU pre-integration can be used as motion estimation between image frames, and its discrete form is given here.
  • the mathematical description specifically, can be as shown in the following Equation 3-8:
  • p k+1 represents the position of the current image time
  • v k+1 represents the velocity of the current image time
  • (b a ) k+1 represents the zero-axis deviation of the accelerometer at the current image time
  • (b ⁇ ) k+1 represents The zero-axis deviation of the gyroscope at the current image time.
  • p k represents the position of the image time of the previous frame
  • v k represents the velocity of the image time of the previous frame
  • (b a ) k represents the zero-axis deviation of the accelerometer of the image time of the previous frame
  • (b ⁇ ) k represents the image of the previous frame.
  • ⁇ t represents the inter-frame time difference between the two images. For example, if the shooting frequency is 20Hz, the rough calculation is 50ms. Of course, the accurate calculation will count the exposure time difference between the two frames.
  • R wi represents the aircraft coordinate system and world coordinates. The rotation relationship of the system is obtained by the attitude quaternion q conversion, a m represents the current accelerometer reading, g is the gravitational acceleration, ⁇ represents the current gyroscope reading, and ⁇ q represents the rotation estimation between the two frames before and after.
  • the visual mileage calculation method is to obtain the position and velocity information of the current moment according to the image information, and the attitude and the zero-axis deviation of the accelerometer and the gyroscope, but whether the current image can be smoothly matched with the previous image and solved correctly.
  • the result is unknown before the calculation.
  • Combine the IMU data to roughly estimate the current image time. This information, that is, using the old map + new sensor data, predicts the position and orientation information corresponding to the new map.
  • the image processing apparatus extracts a plurality of key frame images from the multi-frame image according to a pose relationship when the camera captures the multi-frame image.
  • the image processing device needs to filter the image and extract the key frame image as a single. The sequence of images that are calculated.
  • the pose relationship when the camera captures the multi-frame image it can be understood as a pose transformation when the multi-frame image (which may also be referred to as an image sequence) is captured according to a camera.
  • the Camera Pose mentioned in the embodiment of the present application may include Rotation and/or Translation.
  • the posture mentioned in the embodiment of the present application may be embodied by a rotation relationship.
  • the pose mentioned in the embodiment of the present application may be a pose in a geodetic coordinate system.
  • the image processing device may extract the first key frame image from the multi-frame image acquired in 110; and acquire a pose relationship when the camera captures the next frame image in the multi-frame image and the previous key frame image.
  • the preset relationship may be that the rotation angle is less than or equal to the first threshold; and/or the position change is less than or equal to the second threshold.
  • the image after the first key frame image may be determined.
  • the camera pose relationship between the first frame image and the first key frame image includes whether the rotation angle is less than or equal to the first threshold, and whether the position change is less than or equal to the second Threshold; if yes, the image is determined as a key frame image, and based on the key frame, determining whether the next frame image of the key frame is a key frame image, and so on; if the first key frame image is Determining whether the next frame image of the first key frame is the first one, and the rotation angle between the next frame image and the first key frame image is greater than the first threshold, and/or the position change is greater than the second threshold.
  • the key frame image satisfies the rotation angle less than or equal to the first threshold, and the position change is less than or equal to the second threshold, thereby determining whether the image is a key
  • the camera pose relationship between the next frame image and the previous key frame image is obtained by accumulating the pose relationship.
  • the sensor is fixed at a frequency of 20 Hz and is fixed in time, so that an image is taken every 50 ms, which may be called a sequence of original images, in which a visual odometer can be used ( Visual Odometry, VO) algorithm, calculates the pose relationship between two frames. Extracting the first key frame image from the multi-frame image acquired in 110, and then calculating the relationship between the new image and the previous key frame image according to the positional relationship of the image calculated by the visual VO, wherein VO is utilized Calculated is the pose relationship between the two, the cumulative position can get the pose relationship of the two pictures that are different by several frames.
  • VO Visual Odometry
  • the camera pose may include a rotation R (Rotation) and a position t (Translation), where R and t can be expressed by Euler angles by the following Equations 9 and 10:
  • Equation 11 If it is necessary to be selected as a key frame, the pose relationship needs to satisfy the relationship of Equation 11 and Equation 12 below:
  • ⁇ th is the angle threshold and d th is the distance threshold.
  • Equations 11 and 12 It can be seen from Equations 11 and 12 that the displacement between the new image and the previous key frame image is large, and in the case of a small rotation, it can be added to the queue as a new key frame image.
  • the camera captures the next frame image and the previous key frame image.
  • the positional relationship of the time is
  • the camera captures the next frame image and the previous key frame according to the position and/or posture recorded in real time. Positional relationship like time.
  • the depth information of the feature points in the plurality of key frame images is calculated by using a pose of the plurality of key frame images by the camera.
  • the initial feature point is determined as the feature point to be processed.
  • a sparse method may be used to extract feature points of an image first, and specifically, Corner detection may be used as a feature point.
  • the optional Corner Detection Algorithm includes: features from accelerated segment test (FAST) algorithm, minimum univalue segment assimilating nucleus (SUSAN), and Harris. Operator operator (Harris Corner Detection Algorithms). The following uses the Harris corner detection algorithm as an example to illustrate how to obtain feature points.
  • FAST accelerated segment test
  • SUSAN minimum univalue segment assimilating nucleus
  • Harris Operator operator
  • the matrix A is defined as a structure tensor, wherein
  • det(A) is the determinant of matrix A
  • trace(A) is the trace of matrix A
  • is the tunable sensitivity parameter
  • the threshold M th is set .
  • Kanade Lucas Tomasi KLT
  • the feature point tracking algorithm selects feature points to be processed from the initial feature points.
  • the displacement h of the feature point before and after the image can be obtained by iterating by the formula 15:
  • the first image is F(x)
  • the previous image is G(x)
  • the offset of the next image relative to the previous one is calculated for a certain feature point.
  • a point is a feature that is subsequently available, otherwise the feature point is discarded.
  • the Bundle Adjustment may be used to calculate the relative position of the feature points to be processed between the plurality of key frame images, and the pose of the camera when each key frame image is captured.
  • the BA algorithm can be used for the feature points to be processed, and the 3D relative position of each feature, that is, b i , and the pose when the camera captures each frame of image, that is, a j , can be calculated.
  • the initially calculated pose relationship or pose is used as an initial value, and the relative position of each of the to-be-processed feature points between the plurality of key frame images is calculated by using the bundle adjustment algorithm, and the camera captures the a pose of each key frame image; wherein the initially calculated pose relationship is a pose relationship when the camera captures the plurality of key frame images, and utilizes a visual odometer, an inertial measurement unit, and a global positioning system Obtained by at least one of them, or the initially calculated pose is a pose when the camera takes the key frame image, and is using a visual odometer, an inertial measurement unit, and a full At least one of the ball positioning systems is obtained.
  • a rough pose relationship between two key frame images may be given by at least one of a VO algorithm, an IMU, and a GPS, and the rough result may be taken as an initial value of the BA algorithm, and the iteration is reduced.
  • the number of times accelerates the convergence time of the algorithm while reducing the probability of errors. This is because it is an optimized process that is likely to become a local optimum, so casually giving the initial value may result in an erroneous result.
  • the initial calculated pose relationship is a pose relationship when the camera captures the plurality of key frame images, and is obtained by using at least one of a visual odometer, an inertial measurement unit, and a global positioning system, or the initial calculation
  • the pose is the pose of the camera when the key frame image is taken, and is obtained by using at least one of a visual odometer, an inertial measurement unit, and a global positioning system.
  • the BA algorithm solves the pose, in which the pose is relatively accurate, but the displacement information is scaled.
  • the two key frame images by at least one of VO algorithm, IMU and GPS. Rough pose observation, restore this scale according to Equation 17:
  • determining each of the pending positions according to a relative position of each of the to-be-processed feature points between the plurality of key frame images, and a pose of the camera when each of the key frame images is captured by the camera The depth information of the feature points.
  • depth information of each pixel position of each of the plurality of key frame images is determined according to depth information of the feature points in the plurality of key frame images.
  • an average absolute difference algorithm an error square sum algorithm, an absolute error and an algorithm, a normalized product correlation algorithm, a sequential similarity detection algorithm, or an absolute transformation are used.
  • An error and algorithm that determines depth information for each pixel location in the key frame image.
  • each feature point is calculated by the BA algorithm, where the distance d max and the minimum d min are taken , and the interval is n, and the plane z 0 is obtained.
  • the BA algorithm calculates the distance d max and the minimum d min for each feature point.
  • the interval is n
  • the plane z 0 is obtained.
  • H i can be expressed by Equation 19:
  • H i A[r 1 r 2 z i r 3 +t]
  • Each image is backprojected back to the key frame (z 0 ) by different H i , and the difference between the pixel points corresponding to different H i on the back projection image and the key frame is calculated.
  • the average absolute difference algorithm (Mean Absolute Differences) can be used. , MAD), Sum of Squared Differences (SSD), Sum of Absolute Difference (SAD), Normalized Cross Correlation (NCC), Sequential Similarity Detection Algorithm (Sequential Similiarity Detection Algorithm, SSDA) or Sum of Absolute Transformed Difference (SATD), select one to calculate the corresponding Match Score Values, find the best match for each point. H i , then the corresponding z i is its depth information.
  • Equation 20 For example, for the SSD algorithm, it can be implemented by Equation 20:
  • a cost function can be constructed by using a semi-global block matching (SGBM) algorithm in combination with the intermediate result of the above-mentioned Plane Sweeping, for example, as shown in the following Equation 21 and Equation 22:
  • SGBM semi-global block matching
  • the embodiment of the present application may be based on the special frame point of the key frame.
  • the above has introduced how to obtain the depth information of the pixels in the key frame.
  • the following describes how to verify the acquired depth information.
  • the depth information of at least part of the pixel locations in the at least one of the plurality of key frame images is verified.
  • depth information of at least a part of the key frame images may be verified, where the number of verified images and the number of pixel positions may be determined according to specific conditions, for example, according to the system. Processing power or accuracy requirements for environmental awareness or positioning.
  • the depth information of at least part of the pixel locations in the at least one key frame image is verified by using a camera to capture a pose relationship of the at least one key frame image and other key frame images.
  • the depth information of the first pixel position of the third key frame image obtaining a 3D position of the first pixel position; and according to the 3D position of the first pixel position, and the camera capturing the third key frame image and the fourth a pose relationship of the key frame image, obtaining a second pixel position corresponding to the first pixel position in the fourth key frame image; comparing a color brightness value of the first pixel position, and a color brightness value of the second pixel position The relationship between the two; according to the comparison result, the accuracy of the depth information of the first pixel position is determined.
  • the color luminance value of the second pixel location is obtained by a bilinear interpolation operation.
  • the calculated depth information of the third key frame image is discarded.
  • the calculated depth information of the fourth key frame image may be discarded, or the depth information of all the key frame images obtained this time may be discarded.
  • K is the camera's internal parameter matrix (Intrinsic Matrix), which can be calibrated at the factory.
  • K can be characterized as the following formula 24
  • p is the point on the original image, here represents a point on the camera pixel coordinate system of the first frame image
  • p' is the point after the projection transformation
  • the camera pixel coordinate system of the second frame image corresponds to p Point.
  • d is the depth information corresponding to the p point
  • R is the rotation relationship matrix of the second image with respect to the first image
  • t is the displacement relationship matrix of the second image with respect to the first image.
  • [x, y, z] T is a three-dimensional point on the physical coordinate system of the camera plane, and the point p' of the camera plane pixel coordinate system is obtained after projection.
  • Equation 23 is characterized by the fact that, in the ideal case, that is, the depth information and the pose relationship when the camera takes two frames of images are correct, Equation 23 holds, that is, each pixel on the first frame image can pass this formula. Corresponds to the position of the image in the second frame.
  • the first frame image can be reversed by the second frame image.
  • the image of the first frame can be traced back to the original image, and the position of the point in the range of the small image corresponding to the large image can be reversely searched to calculate the value.
  • Step 1 take any point p on the pixel coordinate system of Figure 1 (optionally any key frame in the embodiment of the present application), and obtain the depth d corresponding to p on the depth map.
  • Step 2 according to the camera internal reference K and the corresponding depth d, the p is obtained in the camera coordinate system of Fig. 1, and the corresponding 3D point is d ⁇ K -1 p.
  • Step 3 by the pose relationship between FIG. 1 and FIG. 2, the 3D point corresponding to p is transferred to the camera coordinate system of FIG. 2 to obtain R(d ⁇ K -1 p)+t.
  • step 5 the point p' of the p-point projection transformation to the camera plane pixel coordinate system of Fig. 2 is calculated.
  • the T coordinate is likely to be a decimal, but there is no decimal or corresponding integer in the corresponding pixel coordinate system, so when obtaining the color information of the point, the bilinear difference can be used. Bilinear Interpolation).
  • color information for a pixel point (x, y) can be obtained by pairing pixel points (x1, y1), (x1, y2), (x2, y1), and (x2, y2).
  • the bi-linear bilinear interpolation is used to calculate the luminance color information I' p of the p-point, which is compared with the luminance color information I p of the original p-point. If the difference is too large, for example,
  • Step 7 for each pixel in FIG. 1 is detected by the above method 20, if the difference If there are too many points (such as 1% of the total pixels), it is considered that the depth map calculation result is not good and will not be discarded.
  • the obtained depth information is verified, and the problem that the positioning and the environment perception are inaccurate due to the inaccuracy of the depth information can be avoided.
  • FIG. 6 is a schematic flowchart of an image processing method 200 according to an embodiment of the present application. As shown in FIG. 6, the method 200 includes at least some of the following.
  • a multi-frame image taken by a monocular camera is acquired.
  • the multi-frame image may be a multi-frame image that is continuously captured.
  • the multi-frame image may be a multi-frame image extracted through a key frame.
  • the depth information of the feature points in the multi-frame image is calculated by using the pose of the multi-frame image by the camera.
  • selecting a plurality of initial feature points from the multi-frame image calculating a first optical flow of each of the plurality of initial feature points from the first image to the second image; calculating each initial feature Pointing a second optical flow from the second image to the first image; determining an initial feature point corresponding to an absolute value of a sum of the first optical flow and the second optical flow that is less than or equal to a first threshold, determining that the to-be-processed Feature point.
  • calculating a relative position of each of the to-be-processed feature points between the multi-frame images, and a pose of the camera when the image is captured is calculated.
  • the pose calculated when the initially calculated camera captures the multi-frame image is used as an initial value, and the relative position of the feature point to be processed between the multi-frame images is calculated by using the bundling adjustment algorithm, and the camera The pose of the image of each frame is taken; wherein the initially calculated pose relationship is obtained by using at least one of a visual odometer, an inertial measurement unit, and a global positioning system.
  • the initial calculated camera uses the initial calculated camera to capture the pose relationship of the multi-frame image, and scaling the displacement in the pose corresponding to each frame image calculated by the bundle adjustment algorithm; wherein the initial calculated camera pose relationship It is obtained by using at least one of a visual odometer, an inertial measurement unit, and a global positioning system.
  • depth information of each pixel of each frame image in the multi-frame image is determined according to depth information of feature points in the multi-frame image.
  • an average absolute difference algorithm an error square sum algorithm, an absolute error sum algorithm, a normalized product correlation algorithm, a sequential similarity detection algorithm, or an absolute transform error.
  • an algorithm that determines depth information for each pixel location in each frame of the image using an average absolute difference algorithm, an error square sum algorithm, an absolute error sum algorithm, a normalized product correlation algorithm, a sequential similarity detection algorithm, or an absolute transform error.
  • the depth information of at least part of the pixel locations in the at least one frame image of the multi-frame image is verified.
  • the depth information of at least part of the pixel locations in the at least one frame image is verified by using a camera to capture a pose relationship of the at least one frame image and the other frame images.
  • the color brightness of the second pixel location is obtained by a bilinear interpolation operation. value.
  • the ratio of the inaccuracy of the pixel position depth information in the first image is greater than or equal to the third threshold, and the calculated depth information of the first image is discarded. Further, the calculated depth information of the second image may be discarded, or the depth information of all the images obtained this time may be discarded.
  • the depth information of the feature points in the multi-frame image is calculated by using the pose of the multi-frame image captured by the monocular camera, and the depth information of the feature points in the multi-frame image is determined according to the depth information of the feature points in the multi-frame image.
  • the depth information of each pixel of each frame image in the multi-frame image can avoid the problem of large resource consumption caused by SLAM positioning and environment sensing, and can avoid using a more expensive structured optical camera or structure.
  • a high dual/multi-view camera is required, so the method of the embodiment of the present application can reduce the resources while improving the positioning and environment sensing accuracy. Cost, and cost savings.
  • FIG. 7 is a schematic block diagram of an image processing method 300 in accordance with an embodiment of the present application. As shown in FIG. 7, the method 300 includes at least some of the following.
  • a multi-frame image taken by a monocular camera is acquired.
  • depth information of each pixel of each frame image in the multi-frame image is determined by using a pose when the multi-frame image is captured by a camera.
  • the camera captures the pose relationship of at least one frame image of the multi-frame image and the other frame images, and verifies the depth information of at least part of the pixel positions in the at least one frame image.
  • obtaining a 3D position of the first pixel position using the depth information of the first pixel position of the first image, obtaining a 3D position of the first pixel position; according to the 3D position of the first pixel position, and when the camera captures the first image and the second image Position relationship, obtaining a second pixel position corresponding to the first pixel position in the second image; comparing a color brightness value of the first pixel position, and a relationship between color brightness values of the second pixel position; As a result, the accuracy of the depth information of the first pixel position is determined.
  • the color of the second pixel position is obtained by a bilinear interpolation operation. Brightness value.
  • the ratio of the inaccuracy of the pixel position depth information in the first frame image is greater than or equal to the third threshold, and the calculated depth information of the first image is discarded.
  • the pose of the multi-frame image is captured by the monocular camera, and the depth information of each pixel of each frame of the multi-frame image is calculated, thereby avoiding the SLAM for positioning and environment sensing.
  • the problem of the resource consumption is relatively large, and the structure optical camera with relatively expensive price or the dual/multi-head camera with high structure requirement can be avoided. Therefore, the method of the embodiment of the present application can improve the positioning and the environment sensing accuracy. , can reduce resource consumption, as well as cost savings.
  • FIG. 8 is a schematic block diagram of an image processing apparatus 400 in accordance with an embodiment of the present application.
  • the device 400 includes an obtaining unit 410, a determining unit 420, and a calculating unit 430;
  • the acquiring unit 410 is configured to: acquire a multi-frame image captured by the monocular camera;
  • the extracting unit 420 is configured to: extract a plurality of key frame images from the multi-frame image according to a pose relationship when the multi-frame image is captured by the camera;
  • the determining unit 430 is configured to calculate depth information of the feature points in the plurality of key frame images by using a pose of the plurality of key frame images by the camera.
  • the extracting unit 420 is further configured to:
  • the next frame image is determined as the key frame image.
  • the preset relationship is:
  • the angle of rotation is less than or equal to the first threshold; and/or,
  • the position change is less than or equal to the second threshold.
  • the extracting unit 420 is further configured to:
  • the pose relationship between the next frame image and the previous key frame image is obtained by the camera.
  • the extracting unit 420 is further configured to:
  • a pose relationship when the camera captures the next frame image and the previous key frame image is obtained.
  • the multi-frame image is an image in which the continuous multi-frame motion posture change amount is less than or equal to a third threshold.
  • the determining unit 430 is further configured to:
  • the determining unit 430 is further configured to:
  • the initial feature point corresponding to the absolute value of the sum of the first optical flow and the second optical flow is less than or equal to the fourth threshold, and is determined as the feature point to be processed.
  • the determining unit 430 is further configured to:
  • a relative position of each of the to-be-processed feature points between the plurality of key frame images is calculated, and a pose of the camera when the camera captures each of the key frame images.
  • the determining unit 430 is further configured to:
  • the initially calculated pose relationship is a pose relationship when the camera captures the plurality of key frame images, and is obtained by using at least one of a visual odometer, an inertial measurement unit, and a global positioning system.
  • the determining unit 430 is further configured to:
  • the displacement in the pose calculated by the bundle adjustment algorithm is scaled
  • the initially calculated pose relationship is a pose relationship when the camera captures the plurality of key frame images, and is obtained by using at least one of a visual odometer, an inertial measurement unit, and a global positioning system.
  • the determining unit 430 is further configured to:
  • Determining depth information of each pixel position of each of the plurality of key frame images is determined according to depth information of the feature points in the plurality of key frame images.
  • the determining unit 430 is further configured to:
  • an average absolute difference algorithm an error square sum algorithm, an absolute error and an algorithm, a normalized product correlation algorithm, and a sequential similarity detection algorithm are used.
  • a method or absolute transformation error and algorithm determines the depth information for each pixel location in each key frame image.
  • the device 400 further includes a verification unit 440, configured to:
  • the depth information of at least part of the pixel positions in the at least one key frame image is verified by using a camera to capture a pose relationship of at least one key frame image and other key frame images.
  • the verification unit 440 is further configured to:
  • the accuracy of the depth information of the first pixel location is determined.
  • the verification unit 440 is further configured to:
  • the color luminance value of the second pixel position is obtained by a bilinear interpolation operation.
  • the verification unit 440 is further configured to:
  • the verification unit 440 is further configured to:
  • the calculated depth information of the third key frame image is discarded.
  • the device 400 can implement corresponding operations in the method 100, 200 or 300, and for brevity, no further details are provided herein.
  • FIG. 9 is a schematic block diagram of an image processing apparatus 500 in accordance with an embodiment of the present application.
  • the device 500 includes an obtaining unit 510 and a determining unit 520;
  • the acquiring unit 510 is configured to: acquire a multi-frame image captured by a monocular camera;
  • the determining unit 520 is configured to: calculate a depth information of the feature point in the multi-frame image by using a pose of the multi-frame image by the camera; and determine the multi-frame image according to the depth information of the feature point in the multi-frame image Depth information for each pixel of each frame of image.
  • the determining unit 520 is further configured to:
  • Determining depth information of each feature point to be processed is determined according to a relative position of the feature points to be processed between the multi-frame images and a pose of the camera when the image is captured.
  • the determining unit 520 is further configured to:
  • the initial feature point corresponding to the absolute value of the sum of the first optical flow and the second optical flow is less than or equal to the first threshold, and is determined as the feature point to be processed.
  • the determining unit 520 is further configured to:
  • a relative position of each of the to-be-processed feature points between the multi-frame images is calculated, and a pose of the camera when the image is captured.
  • the determining unit 520 is further configured to:
  • the cluster adjustment algorithm is used to calculate the relative position of each of the to-be-processed feature points between the plurality of key frame images, and the pose of the camera when the image is captured. ;
  • the initially calculated pose relationship is a pose relationship when the camera captures the plurality of key frame images, and is obtained by using at least one of a visual odometer, an inertial measurement unit, and a global positioning system.
  • the determining unit 520 is further configured to:
  • the displacement in the pose calculated by the bundle adjustment algorithm is scaled
  • the initially calculated pose relationship is a pose relationship when the camera captures the multi-frame image, and is obtained by using at least one of a visual odometer, an inertial measurement unit, and a global positioning system.
  • the determining unit 520 is further configured to:
  • the depth information of the feature points in the multi-frame image using an average absolute difference algorithm, an error square sum algorithm, an absolute error sum algorithm, a normalized product correlation algorithm, a sequential similarity detection algorithm, or The absolute transform error and algorithm determine the depth information for each pixel location in each frame of the image.
  • the device 500 further includes a verification unit 530, configured to:
  • the depth information of at least part of the pixel positions in the at least one frame image is verified by using a camera to capture a pose relationship of at least one frame image of the multi-frame image and other frame images.
  • the verification unit 530 is further configured to:
  • the accuracy of the depth information of the first pixel location is determined.
  • the verification unit 530 is further configured to:
  • the color luminance value of the second pixel position is obtained by a bilinear interpolation operation.
  • the verification unit 530 is further configured to:
  • the verification unit 530 is further configured to:
  • the ratio of the inaccuracy of the pixel position depth information in the first image is greater than or equal to the third threshold, and the calculated depth information of the first image is discarded.
  • the device 500 can implement corresponding operations in the method 100, 200 or 300, and for brevity, no further details are provided herein.
  • FIG. 10 is a schematic block diagram of an image processing apparatus 600 in accordance with an embodiment of the present application.
  • the image processing apparatus 600 includes an obtaining unit 610, a determining unit 620, and a verifying unit 630;
  • the acquiring unit 610 is configured to: acquire a multi-frame image captured by a monocular camera;
  • the determining unit 620 is configured to: determine a depth information of each pixel of each frame image in the multi-frame image by using a pose when the multi-frame image is captured by a camera;
  • the verification unit 630 is configured to: use a camera to capture a pose relationship of at least one frame image of the multi-frame image and other frame images, and verify depth information of at least part of the pixel locations in the at least one frame image.
  • the verification unit 630 is further configured to:
  • the accuracy of the depth information of the first pixel location is determined.
  • the verification unit 630 is further configured to:
  • the color luminance value of the second pixel position is obtained by a bilinear interpolation operation.
  • the verification unit 630 is further configured to:
  • the verification unit 630 is further configured to:
  • the ratio of the inaccuracy of the pixel position depth information in the first image is greater than or equal to the third threshold, and the calculated depth information of the first image is discarded.
  • the device 600 can implement corresponding operations in the method 100, 200 or 300, and for brevity, no further details are provided herein.
  • FIG. 11 is a schematic block diagram of an image processing apparatus 700 according to an embodiment of the present application.
  • the image processing device 700 may comprise a plurality of different components, which may be integrated circuits (ICs), or part of an integrated circuit, discrete electronic devices, or other suitable for a circuit board (such as a motherboard) Modules, or additional boards, may also be incorporated as part of a computer system.
  • ICs integrated circuits
  • circuit board such as a motherboard
  • Modules or additional boards, may also be incorporated as part of a computer system.
  • the image processing device can include a processor 710 and a storage medium 720 coupled to the processor 710.
  • Processor 710 can include one or more general purpose processors, such as a central processing unit (CPU), or a processing device or the like.
  • the processor 710 may be a complex instruction set computing (CISC) microprocessor, a very long instruction word (VLIW) microprocessor, and implements micro-processing of multiple instruction set combinations.
  • the processor can also be one or more dedicated processors, such as application-specific integrated power Application specific integrated circuit (ASIC), field programmable gate array (FPGA), digital signal processor (DSP).
  • ASIC application-specific integrated power Application specific integrated circuit
  • FPGA field programmable gate array
  • DSP digital signal processor
  • Processor 710 can be in communication with storage medium 720.
  • the storage medium 720 can be a magnetic disk, an optical disk, a read only memory (ROM), a flash memory, or a phase change memory.
  • the storage medium 620 can store instructions stored by the processor, and/or can cache some information stored from an external storage device, such as image layered pixel information of a pyramid read from an external storage device.
  • the image processing apparatus may include a display controller and/or display device unit 730, a transceiver 740, a video input output unit 750, an audio input output unit 760, and other input and output units 770.
  • These components included in image processing device 700 may be interconnected by a bus or internal connection.
  • the transceiver 740 can be a wired transceiver or a wireless transceiver, such as a WIFI transceiver, a satellite transceiver, a Bluetooth transceiver, a wireless cellular telephone transceiver, or combinations thereof.
  • a wireless transceiver such as a WIFI transceiver, a satellite transceiver, a Bluetooth transceiver, a wireless cellular telephone transceiver, or combinations thereof.
  • the video input and output unit 750 may include an image processing subsystem such as a video camera including a photo sensor, a charge coupled device (CCD) or a complementary metal-oxide semiconductor (CMOS) light. Sensor for use in shooting functions.
  • a video camera including a photo sensor, a charge coupled device (CCD) or a complementary metal-oxide semiconductor (CMOS) light. Sensor for use in shooting functions.
  • CCD charge coupled device
  • CMOS complementary metal-oxide semiconductor
  • the audio input and output unit 760 may include a speaker, a microphone, an earpiece, and the like.
  • other input and output devices 770 may include a storage device, a universal serial bus (USB) port, a serial port, a parallel port, a printer, a network interface, and the like.
  • USB universal serial bus
  • the image processing device 700 can perform the operations shown in the methods 100 to 300.
  • the image processing device 700 can perform the operations shown in the methods 100 to 300.
  • details are not described herein again.
  • image processing devices 400-700 may be located in the mobile device.
  • the mobile device can be moved in any suitable environment, for example, in the air (eg, a fixed-wing aircraft, a rotorcraft, or an aircraft with neither a fixed wing nor a rotor), in water (eg, a ship or submarine), on land. (for example, a car or train), space (for example, a space plane, satellite or detector), and any combination of the above.
  • the mobile device can be an aircraft, such as an Unmanned Aerial Vehicle (UAV).
  • UAV Unmanned Aerial Vehicle
  • the mobile device can carry a living being, such as a person or an animal.
  • FIG. 12 is a schematic block diagram of a removable device 800 in accordance with an embodiment of the present application.
  • the removable device 800 includes a carrier 810 and a load 820.
  • the removable device is depicted in Figure 12 as The drone is just for the sake of description.
  • the load 820 may not be connected to the mobile device via the carrier 810.
  • the removable device 800 can also include a power system 830, a sensing system 840, and a communication system 850 and image processing device 860.
  • Power system 830 may include an electronic governor (referred to as an ESC), one or more propellers, and one or more electric machines corresponding to one or more propellers.
  • the motor and the propeller are disposed on the corresponding arm; the electronic governor is configured to receive a driving signal generated by the flight controller, and provide a driving current to the motor according to the driving signal to control the rotation speed and/or steering of the motor.
  • the motor is used to drive the propeller to rotate to power the UAV's flight, which enables the UAV to achieve one or more degrees of freedom of motion.
  • the UAV can be rotated about one or more axes of rotation.
  • the above-described rotating shaft may include a roll axis, a pan axis, and a pitch axis.
  • the motor can be a DC motor or an AC motor.
  • the motor can be a brushless motor or a brush motor.
  • the sensing system 840 is used to measure the attitude information of the UAV, that is, the position information and state information of the UAV in space, for example, three-dimensional position, three-dimensional angle, three-dimensional speed, three-dimensional acceleration, and three-dimensional angular velocity.
  • the sensing system may include, for example, a gyroscope, an electronic compass, an Inertial Measurement Unit ("IMU"), a vision sensor, a Global Positioning System (GPS), and a barometer. At least one of them.
  • the flight controller is used to control the flight of the UAV, for example, the UAV flight can be controlled based on the attitude information measured by the sensing system. It should be understood that the flight controller may control the UAV in accordance with pre-programmed program instructions, or may control the UAV in response to one or more control commands from the operating device.
  • Communication system 850 is capable of communicating with wireless terminal 890 via a terminal device 880 having communication system 870.
  • Communication system 850 and communication system 870 can include a plurality of transmitters, receivers, and/or transceivers for wireless communication.
  • the wireless communication herein may be one-way communication, for example, only the mobile device 800 can transmit data to the terminal device 880.
  • the wireless communication may be two-way communication, and the data may be transmitted from the mobile device 800 to the terminal device 880 or may be transmitted by the terminal device 880 to the mobile device 800.
  • terminal device 780 can provide control data for one or more of removable device 800, carrier 810, and load 820, and can receive information transmitted by mobile device 800, carrier 810, and load 820.
  • the control data provided by terminal device 880 can be used to control the status of one or more of mobile device 800, carrier 810, and load 820.
  • a carrier 810 and a load 820 include a communication module for communicating with the terminal device 880.
  • the image processing device 860 included in the mobile device shown in FIG. 12 can perform the methods 100 to 300, which are not described herein for brevity.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供一种图像处理方法和设备,可以在提高定位和环境感知精度的同时,可以降低资源耗费,以及节约成本等。该方法包括:获取单目摄像头拍摄的多帧图像;根据相机拍摄该多帧图像时的位姿关系,从该多帧图像中,提取多个关键帧图像;利用相机拍摄该多个关键帧图像时的位姿,计算该多个关键帧图像中的特征点的深度信息。

Description

图像处理方法和设备
版权申明
本专利文件披露的内容包含受版权保护的材料。该版权为版权所有人所有。版权所有人不反对任何人复制专利与商标局的官方记录和档案中所存在的该专利文件或者该专利披露。
技术领域
本申请涉及图像处理领域,并且更具体地,涉及一种图像处理方法和设备。
背景技术
随着现代科技的发展,无人机被应用在越来越多的场景中。要达到自动化操作,无人机需要具备一定的定位能力和环境感知能力。
目前,无人机可以使用结构光摄像头进行定位和环境感知,这种摄像头能够直接获取到深度信息,但是这种摄像头在强光环境下表现很差,容易受到干扰,价格也较为昂贵。
另一种常用的就是双/多目视觉模块进行定位和环境感知,由间隔一定距离的两个以上摄像头组成,靠着两个摄像头同一时刻拍摄的照片的差异,来计算三维深度信息,但是双/多目摄像头之间的旋转和位置,直接影响了其测量有效的范围和精度,故双/多目视觉模块对于结构要求比较高。
综上所述,在无人机越来越小型化和便携化的今天,结构光摄像头户外强光环境易受到干扰,而双/多目视觉模块对结构要求较高,且需要一定的间隔,还需要无遮挡,并不是所有无人机都能够适用。
发明内容
本申请实施例提供一种图像处理方法和设备,可以在提高定位和环境感知精度的同时,可以降低资源耗费,以及节约成本等。
第一方面,提供了一种图像处理方法,包括:获取单目摄像头拍摄的多帧图像;根据相机拍摄该多帧图像时的位姿关系,从该多帧图像中,提取多个关键帧图像;利用相机拍摄该多个关键帧图像时的位姿,计算该多个关键 帧图像中的特征点的深度信息。
第二方面,提供了一种图像处理方法,包括:
获取单目摄像头拍摄的多帧图像;
利用相机拍摄该多帧图像时的位姿,计算该多帧图像中的特征点的深度信息;
根据该多帧图像中的特征点的深度信息,确定该多帧图像中每帧图像的每个像素的深度信息。
第三方面,提供了一种图像处理方法,包括:
获取单目摄像头拍摄的多帧图像;
利用相机拍摄该多帧图像时的位姿,确定该多帧图像中每帧图像的每个像素的深度信息;
利用相机拍摄该多帧图像中至少一帧图像与其他帧图像时的位姿关系,对至少一帧图像中的至少部分像素位置的深度信息进行验证。
第四方面,提供了一种图像处理设备,包括获取单元、提取单元和确定单元;其中,该获取单元用于:获取单目摄像头拍摄的多帧图像;该提取单元用于:根据相机拍摄该多帧图像时的位姿关系,从该多帧图像中,提取多个关键帧图像;该确定单元用于:利用相机拍摄该多个关键帧图像时的位姿,计算该多个关键帧图像中的特征点的深度信息。
第五方面,提供了一种图像处理设备,包括获取单元和计算单元;其中,该获取单元用于:获取单目摄像头拍摄的多帧图像;该确定单元用于:利用相机拍摄该多帧图像时的位姿,计算该多帧图像中的特征点的深度信息;根据该多帧图像中的特征点的深度信息,确定该多帧图像中每帧图像的每个像素的深度信息。
第六方面,提供了一种图像处理设备,包括获取单元,确定单元和验证单元;其中,该获取单元用于:获取单目摄像头拍摄的多帧图像;该确定单元用于:利用相机拍摄该多帧图像时的位姿,确定该多帧图像中每帧图像的每个像素的深度信息;该验证单元用于:利用相机拍摄该多帧图像中至少一帧图像与其他帧图像时的位姿关系,对至少一帧图像中的至少部分像素位置的深度信息进行验证。
第七方面,提供了一种图像处理设备,包括处理器和存储器。处理器和存储器之间通过内部连接通路互相通信,存储器存储有指令,处理器用于调 用存储器中存储的指令,执行上述任意一种方法。
第八方面,提供了一种计算机可读介质,用于存储计算机程序,计算机程序包括用于执行上述任意一种方法中的指令。
第九方面,提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任意一种方法。
本申请实施例提出了一种图像处理方法和设备,可以利用图像的相机位姿或图像之间的相机位姿关系来来确定单目相机拍摄图像中的像素点的深度信息,可以避免进行即时定位与地图构建(simultaneous localization and mapping,SLAM)进行定位和环境感知所带来的资源耗费较大的问题,并且可以避免采用价格较为昂贵的结构光摄像头或者对结构要求较高的双/多目摄像头,因此本申请实施例的方法可以在提高定位和环境感知精度的同时,可以降低资源耗费,以及节约成本等。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例的图像处理方法的示意性流程图。
图2是根据本申请实施例的关键帧提取的示意性图。
图3是根据本申请实施例的计算像素点的深度信息的示意性图。
图4是根据本申请实施例的深度信息的验证方法的示意性图。
图5是根据本申请实施例的颜色亮度信息的计算方法的示意性图。
图6是根据本申请实施例的图像处理方法的示意性图。
图7是根据本申请实施例的图像处理方法的示意性图。
图8是根据本申请实施例的图像处理设备的示意性框图。
图9是根据本申请实施例的图像处理设备的示意性框图。
图10是根据本申请实施例的图像处理设备的示意性框图。
图11是根据本申请实施例的图像处理设备的示意性框图。
图12是根据本申请实施例的图像处理设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中当一组件与另一组件“固定连接”或“连接”,或者,一组件“固定于”另一组件时,它可以直接在另一组件上,或者也可以存在居中的组件。
应理解,本文中的具体的例子只是为了帮助本领域技术人员更好地理解本公开实施例,而非限制本公开实施例的范围。
本发明实施例可以应用于各种类型的可移动设备。本发明实施例中的可移动设备可以在任何合适的环境下移动,例如,空气中(例如,定翼飞机、旋翼飞机,或既没有定翼也没有旋翼的飞机)、水中(例如,轮船或潜水艇)、陆地上(例如,汽车或火车)、太空(例如,太空飞机、卫星或探测器),以及以上各种环境的任何组合。可移动设备可以是飞机,例如无人机(Unmanned Aerial Vehicle,简称为“UAV”)。在一些实施例中,可移动设备可以承载生命体,例如,人或动物。
除了上述提到的可移动设备,本发明实施例可以应用于其它具有单目摄像头的载具,例如虚拟现实(Virtual Reality,VR)/增强现实(Augmented Reality,AR)眼镜等设备。
非结构光的单目(单个摄像头)相机同时兼有重量轻、体积小、价格低廉和功耗低的特点,但是利用单目相机得到的图像需要较为复杂的计算过程,才能得到较好的定位和环境感知结果。具体地,可以使用单目相机拍摄的图像做即时定位与地图构建(simultaneous localization and mapping,SLAM),但是SLAM计算资源耗费比较大,在无人机上难以实现。
可选地,对于相机而言,相机模型可以表征为以下式1:
Figure PCTCN2017113771-appb-000001
其中,[u,v,1]T表示像素坐标中的2D点;[xw,yw,zw]T表示世界坐标系中的3D点;矩阵K表示相机校正矩阵(Camera calibration matrix),即标识每 个相机的内参(Intrinsic Parameters)。
可选地,对于有限投影相机(Finite projective camera)而言,矩阵K可以表示5个内参,即K可以如下式2所示:
Figure PCTCN2017113771-appb-000002
其中,αx=fmx,αy=fmy,f为焦距(focal length),mx和my分别为x,y方向上,单位距离的像素数(scale factors),γ为x,y轴之间的畸变参数(skew parameters),μ0,v0为光心位置(principal point)。
本申请实施例提出了一种图像处理方法和设备,可以利用相机拍摄图像时的位姿或相机拍摄多帧图像时的位姿关系来来确定单目相机拍摄图像中的像素点的深度信息,可以避免利用SLAM进行定位和环境感知所带来的资源耗费较大的问题,并且可以避免采用价格较为昂贵的结构光摄像头或者对结构要求较高的双/多目摄像头,因此本申请实施例的方法可以在提高定位和环境感知精度的同时,可以降低资源耗费,以及节约成本等。
图1是根据本申请实施例的图像处理方法100的示意性流程图。该方法100包括以下内容中的至少部分内容。
在110中,图像处理设备获取单目摄像头拍摄的多帧图像。
可选地,该多帧图像可以是单目摄像头拍摄的多帧连续的图像。
可选地,图像处理设备可以随机选择多帧连续的图像,也可以选择满足特定条件的多帧连续的图像。
可选地,该多帧图像是连续的多帧运动姿态变化量小于或等于第三阈值的图像。
具体而言,在单目摄像头的运动姿态变化量(具体地,单目摄像头可以与可移动物体刚性连接,此处提到的可以是可移动物体的运动姿态变化量)较大时,则会使得单目摄像头拍摄的图像之间的特征点的匹配的结果较差,而特征点匹配结果将直接影响到运动估计的好坏。若发现当前运动姿态变化量比较大,则不使用这些连续的多帧图像进行后续处理,在连续的多帧图像的姿态变化量比较小的时候,这意味着帧间运动比较小且平稳,在该种情况下,则选择这些连续的多帧图像进行后续处理。
可选地,运动姿态变化量可以通过||ω-bω||2表征,其中,ω是当前陀螺仪的读数,bω可以是陀螺仪零轴偏差。当连续的多帧图像的||ω-bω||2小于特定值时,则可以选择这些连续的多帧图像进行后续处理。
应理解,本申请实施例提到的变化量小于或等于特定值,或某值的绝对值小于或等于特定值,可以是指该变化量或某值的2的范数小于或等于特定值。
可选地,在本申请实施例中,在120中,需要获取的连续图像的数量可以是特定的数量N,假设存在连续的N帧图像的运动姿态变化量小于或等于特定值,则可以选择这些连续的多帧图像进行后续处理。
应理解,以上介绍了可以根据图像的运动姿态变化量获取用于后续进行计算深度信息的多帧图像,但应理解,本申请实施例并不限于此,本申请实施例还可以进一步结合位置变化量,或仅用位置变化量获取用于后续进行计算深度信息的多帧图像。
为了更加清楚地理解本申请,以下将对如何获取位置或姿态变化量进行说明。其中,以下介绍的方式仅是一种可选的方式,并且以下介绍的方式也可以适用于除了选择连续的多帧图像之外的其他操作中。
具体地,当在可移动设备(例如,无人机上)可以设置有惯性测量单元(Inertial Measurement Unit,IMU),可以使用IMU预积分来作为图像阵间的运动估计,这里给出其离散形式的数学描述,具体地,可以如下式3-8所示:
Figure PCTCN2017113771-appb-000003
vk+1=vk+(Rwi(am-ba)+g)Δt    式4
Figure PCTCN2017113771-appb-000004
Δq=q{(ω-bw)}Δt     式6
(ba)k+1=(ba)k   式7
(bω)k+1=(bω)k    式8
其中,pk+1表示当前图像时刻的位置,vk+1表示当前图像时刻的速度,(ba)k+1表示当前图像时刻的加速度计零轴偏差,(bω)k+1表示当前图像时刻的陀螺仪零轴偏差。
pk表示上一帧图像时刻的位置,vk表示上一帧图像时刻的速度,(ba)k表示上一帧图像时刻的加速度计零轴偏差,(bω)k表示上一帧图像时刻的陀螺仪零轴偏差。
Δt表示前后两个图像的帧间时差,举例说明,如果拍摄的频率是20Hz,那粗略计算就是50ms,当然精确计算的话还要算上两帧的曝光时间差,Rwi表示飞行器坐标系与世界坐标系的旋转关系,由姿态四元数q转换得到,am表 示当前加速度计的读数,g为重力加速度,ω表示当前陀螺仪的读数,Δq表示前后两帧之间的旋转估计。
其中,视觉里程计算法就是根据图像信息得出当前时刻的位置速度信息,以及有姿态以及加速度计和陀螺仪的零轴偏差,但当前图像是否能和前一张图像顺利匹配上并解出正确的结果,在计算前是未知的,可以先使用上一次视觉里程计VO的(即前一张图像与前前一张图像解算结果)解算结果,结合IMU数据,粗略预估当前图像时刻的这些信息,即用旧图+新的传感器数据,预测新图对应的位置姿态信息。
在120中,图像处理设备根据相机拍摄该多帧图像时的位姿关系,从该多帧图像中,提取多个关键帧图像。
具体地,如果在110中获取的所有图像都用来计算深度信息,则计算量较大,并且错误的可能性很高,反而会把正确的结果带偏。因为,对于单目深度计算来说,需要两帧图像之间的运动关系满足一定条件,才能计算出比较好的结果,因此,图像处理设备需要对图像进行筛选,提取出关键帧图像,作为单目计算的图像序列。
可选地,在本申请实施例中,根据相机拍摄该多帧图像时的位姿关系,可以理解为根据相机拍摄该多帧图像(也可以称为图像序列)时的位姿变换。
可选地,本申请实施例提到的位姿(Camera Pose)可以包括旋转(Rotation)和/或位移(Translation)。
可选地,本申请实施例提到的姿态可以通过旋转关系体现。
可选地,本申请实施例提到的位姿可以是在大地坐标系下的位姿。
可选地,图像处理设备可以从110中获取的多帧图像中,提取第一个关键帧图像;获取相机拍摄该多帧图像中的下一帧图像与上一个关键帧图像时的位姿关系;在相机拍摄该下一帧图像与该上一个关键帧图像时的位姿关系满足预设关系时,将该下一帧图像确定为该关键帧图像。可选地,该预设关系可以是旋转角度小于或等于第一阈值;和/或,位置变化小于或等于第二阈值。
具体地,图像处理设备在多帧图像中提取出第一个关键帧图像(例如,可以将多帧图像中的第一帧图像作为关键帧图像)之后,可以确定第一个关键帧图像之后的第一帧图像与该第一个关键帧图像之间的相机位姿关系包括的旋转角度是否小于或等于第一阈值,以及位置变化是否小于或等于第二 阈值;如果是,将该图像确定为关键帧图像,并依此关键帧为基准,确定该关键帧的下一帧图像是否是关键帧图像,并以此类推;如果第一个关键帧图像的下一帧图像与该第一个关键帧图像之间的旋转角度大于第一阈值,和/或位置变化大于第二阈值,则确定第一个关键帧帧的下下帧图像是否与第一个关键帧图像之间满足旋转角度小于或等于第一阈值,以及位置变化小于或等于第二阈值,以此判断该图像是否是关键帧图像,并以此类推。
可选地,通过位姿关系累计的方式得到该下一帧图像与该上一个关键帧图像之间的相机位姿关系。
例如,如图2所示,假设传感器设定的是按照频率20Hz固定曝光,时间上是固定的,所以每50ms拍摄出一张图像,可以称为原始图像序列,其中,可以利用视觉里程计(Visual Odometry,VO)算法,计算两帧之间的位姿关系。从在110中获取的多帧图像中,提取第一个关键帧图像,然后根据视觉VO计算出来的图片位姿关系,计算新图像与前一张关键帧图像之间的关系,其中,利用VO计算出来的是两两之间的位姿关系,累计即可得到相差几帧的两张图片的位姿关系。
其中,相机拍摄图像时的位姿(Camera Pose)可以包括旋转R(Rotation)和位置t(Translation),这里R和t通过以下式9和式10可以用欧拉角表示:
Figure PCTCN2017113771-appb-000005
t=[tx,ty,tz]T    式10
如果需要被选择为关键帧,则位姿关系需要满足以下式11和式12的关系:
Figure PCTCN2017113771-appb-000006
Figure PCTCN2017113771-appb-000007
其中,αth是角度阈值,dth是距离阈值。
从式11和式12可以看出,在新的图像和前一个关键帧图像之间位移较大,而旋转较小的情况下,就能作为新的关键帧图像,加入队列。
可选地,在本申请实施例中,根据所述下一帧图像和所述上一个关键帧图像的位置和/或姿态,得到相机拍摄所述下一帧图像与所述上一个关键帧图像时的位姿关系。
具体地,在拍摄可以实时记录每帧图像的位置和/或姿态,则根据实时记录的位置和/或姿态,得到相机拍摄所述下一帧图像与所述上一个关键帧图 像时的位姿关系。
在130中,利用相机拍摄该多个关键帧图像时的位姿,计算该多个关键帧图像中的特征点的深度信息。
可选地,从该多个关键帧图像中选择多个待处理的特征点;计算该多个待处理的特征点中每个待处理的特征点在该多个关键帧图像之间的相对位置,以及计算相机拍摄该多个关键帧图像中每个关键帧图像时的位姿;根据该每个待处理的特征点在该多个关键帧图像之间的相对位置,以及相机拍摄该每个关键帧图像时的位姿(或者,也可以是相机拍摄该多个关键帧图像时的位姿关系),确定该每个待处理的特征点的深度信息。
可选地,从该多个关键帧图像中选择多个初始特征点;计算该多个初始特征点中每个初始特征点从第一关键帧图像到第二关键帧图像的第一光流;计算该每个初始特征点从该第二关键帧图像到该第一关键帧图像的第二光流;将该第一光流与该第二光流之和的绝对值小于等于第四阈值对应的初始特征点,确定为该待处理的特征点。
具体地,这里为了减少计算量,可以采用稀疏(sparse)的方法,先提取图像的特征点,具体地可以选用角点(Corner detection)作为特征点。
可选的角点检测算法(Corner Detection Algorithm)包括:加速分段测试提取特征(features from accelerated segment test,FAST)算法、最小同值分段吸收核(Small univalue segment assimilating nucleus,SUSAN)、以及Harris operator算子(Harris operator),Harris角点检测算法(Harris Corner Detection Algorithms)。以下以Harris角点检测算法为例说明如何获取特征点。
首先,按照式13,定义矩阵A为构造张量(structure tensor),其中,
Figure PCTCN2017113771-appb-000008
其中Ix和Iy分别为图像上某一点,在x和y方向上的梯度信息可以按照式14定义函数Mc
Mc=λ1λ2-κ(λ12)2=det(A)-κ trace2(A)   式14
其中det(A)为矩阵A的行列式,trace(A)为矩阵A的迹,κ为调节灵敏度的参数(tunable sensitivity parameter),设定阈值Mth,当Mc>Mth时我们认为此点为初始特征点。
其次可以使用卡纳迪-卢卡斯-托马斯(Kanade Lucas Tomasi,KLT) 特征点跟踪算法从初始特征点选择待处理的特征点。
具体地,可以选取h作为前后两帧图像的偏移量(displacement between two images)其中,G(x)=F(x+h)。
进一步地,针对每个特征点,通过公式15迭代可以得到特征点在前后图像的位移h:
Figure PCTCN2017113771-appb-000009
其中,可以进行双向验证,先令后一张图像为F(x),前一张图像为G(x),计算针对某一特征点,在后一张图像相对于前一张的偏移h,再反过来,针对该特征点,在前一张图像相对于后一张的偏移h’,如过h=-h’,或者两者绝对值之差小于一定的值,则认为该特征点是后续可用的特征,否则丢弃该特征点。
可选地,可以利用集束调整算法(Bundle Adjustment,BA),计算待处理的特征点在多个关键帧图像之间的相对位置,以及相机拍摄每个关键帧图像时的位姿。
具体地,对于BA算法而言,
Figure PCTCN2017113771-appb-000010
其中,假设n个3D点在m个view(可选地,m张连拍或间隔时间较短图片上,能够连续track的n个三维点);对于vij而言,如果i在j图像上有映射,则vij=1,否则vij=0;aj为每个图像的j的参数,包括旋转关系R(Rotation)、位置关系t(Translation)以及相机内参K(可选地,这里是同一个相机连拍的多张图像或间隔时间较短的多种图像,K可以不变);每个3D点用bi表示,第i个点bi在第j张图片上的投影即为xij;Q(aj,bi)表示点i在图像j上,通过aj计算的预投影(predicted projection);向量xij表示图像j上的第i个点的真实投影(projection);d(x,y)表示向量x,y的欧式距离。
这里可以针对待处理的特征点使用BA算法,计算出每个特点的3D相对位置,即bi,以及相机拍摄每帧图像时的位姿,即aj
可选地,将初始计算的位姿关系或位姿作为初始值,利用该集束调整算法,计算该每个待处理的特征点在该多个关键帧图像之间的相对位置,以及相机拍摄该每个关键帧图像时的位姿;其中,所述初始计算的位姿关系是相机拍摄所述多个关键帧图像时的位姿关系,且是利用视觉里程计、惯性测量单元和全球定位系统中的至少一种得到的,或者,所述初始计算的位姿是相机拍摄所述关键帧图像时的位姿,且是利用视觉里程计、惯性测量单元和全 球定位系统中的至少一种得到的。
具体地,可以通过VO算法、IMU和GPS中的至少一种,给出两个关键帧图像之间的粗略位姿关系,可以把这个粗略结果作为BA算法的初始值,带入计算,减少迭代次数,加快算法收敛时间,同时减少出错的概率。这是因为是一个最优化的过程,很可能变成局部最优,所以随便给初始值可能会出现错误的结果。
可选地,利用初始计算的位姿关系或位姿关系,对利用该集束调整算法计算的该多个关键帧图像中每个关键帧图像的相机位姿中的位移进行缩放;其中,所述初始计算的位姿关系是相机拍摄所述多个关键帧图像时的位姿关系,且是利用视觉里程计、惯性测量单元和全球定位系统中的至少一种得到的,或者,所述初始计算的位姿是相机拍摄所述关键帧图像时的位姿,且是利用视觉里程计、惯性测量单元和全球定位系统中的至少一种得到的。
具体地,BA算法解算出来的位姿,其中姿态比较准确,但是位移信息会有缩放,这里我们再利用两个关键帧图像之间通过VO算法、IMU和GPS中的至少一种得出的粗略位姿观测,按照式17恢复这个缩放比例:
Figure PCTCN2017113771-appb-000011
这样,可以得到比例尺度s,按照式18再把s乘回去,得到尺度对准后的位移,如下:
t'BA=stBA=[stBAx,stBAy,stBAz]T    式18
可选地,根据所述每个待处理的特征点在所述多个关键帧图像之间的相对位置,以及相机拍摄所述每个关键帧图像时的位姿,确定所述每个待处理的特征点的深度信息。
可选地,根据该多个关键帧图像中的特征点的深度信息,确定该多个关键帧图像中每个关键帧图像的每个像素位置的深度信息。
具体地,根据该多个关键帧图像中的特征点的深度信息,使用平均绝对差算法、误差平方和算法、绝对误差和算法、归一化积相关算法、序贯相似性检测算法或者绝对变换误差和算法,确定该关键帧图像中每个像素位置的深度信息。
具体地,如图3所示,通过BA算法计算出各个特征点的三维相对位置 bi,这里取距离最大dmax与最小dmin,并以此为区间,做n等分,得到平面z0到zn。每个平面zi对应着一个Hi,其中,Hi可以通过式19表示:
Hi=A[r1 r2 zir3+t]     式19
每幅图像通过不同Hi反向投影回关键帧(z0),计算像素点对应不同Hi在反投影的图像上和关键帧上的差别,其中,可以使用平均绝对差算法(Mean Absolute Differences,MAD)、误差平方和算法(Sum of Squared Differences,SSD)、绝对误差和算法(Sum of Absolute Difference,SAD)、归一化积相关算法(Normalized Cross Correlation,NCC)、序贯相似性检测算法(Sequential Similiarity Detection Algorithm,SSDA)或者绝对变换误差和算法(Sum of Absolute Transformed Difference,SATD),选取一种来计算对应的匹配分值(Match Score Values),找出每个点最匹配所对应的Hi,则相应的zi即为其深度信息。
例如,对于采用SSD算法而言,可以通过式20实现:
Figure PCTCN2017113771-appb-000012
进一步地,可以结合上述平面扫描(Plane Sweeping)的中间结果,利用半全局匹配(semi-global block matching,SGBM)算法构造代价函数(Cost Function),例如,如下式21和式22所示:
Figure PCTCN2017113771-appb-000013
Figure PCTCN2017113771-appb-000014
应理解,在本申请实施例中,虽然以上介绍了如何根据关键帧的特征点的深度信息,获取关键帧的每个像素点的深度信息,但是本申请实施例可以根据关键帧的特帧点的深度信息,获取关键帧的部分像素点的深度信息。
以上已经介绍了如何获取关键帧中的像素点的深度信息,以下将介绍如何对获取的深度信息进行验证。
可选地,对该多个关键帧图像中的至少一个关键帧图像中的至少部分像素位置的深度信息进行验证。
具体地,本申请实施例中可以对至少部分关键帧图像中的至少像素位置的深度信息进行验证,其中,验证的图像的数量和像素位置的数量可以根据具体情况而定,例如,可以根据系统的处理能力或者对环境感知或定位的精度要求等。
可选地,利用相机拍摄该至少一个关键帧图像与其他关键帧图像时的位姿关系,对该至少一个关键帧图像中的至少部分像素位置的深度信息进行验证。
具体地,利用第三关键帧图像的第一像素位置的深度信息,得到该第一像素位置的3D位置;根据该第一像素位置的3D位置,以及相机拍摄该第三关键帧图像与第四关键帧图像时的位姿关系,得到该第一像素位置在该第四关键帧图像对应的第二像素位置;比较该第一像素位置的颜色亮度值,以及该第二像素位置的颜色亮度值之间的关系;根据比较结果,确定该第一像素位置的深度信息的准确性。
可选地,通过双线性插值运算的方式,得到该第二像素位置的颜色亮度值。
可选地,在该第一像素位置的颜色亮度值与该第二像素位置的颜色亮度值的差值的绝对值大于或等于第五阈值时,确定该第一像素位置的深度信息不准确。
可选地,在该第三关键帧图像中的像素位置深度信息不准确的比例大于或等于第六阈值时,放弃计算得到的该第三关键帧图像的深度信息。进一步地,可以放弃计算得到的第四关键帧图像的深度信息,或者,放弃本次得到的所有关键帧图像的深度信息。
具体地,在利用单目摄像头拍摄的图像计算深度信息之后,不一定是准确的,可以进行交叉验算一下。可选地,可以通过关键帧之间的投影变换关系来进行验证。
以下将利用式23示出投影变换的数学关系:
Figure PCTCN2017113771-appb-000015
其中,K为相机内部参数矩阵(Intrinsic Matrix),可以在出厂的时候进行标定,K可以表征为以下式24
Figure PCTCN2017113771-appb-000016
p是原图上的点,这里表示第一帧图像的相机像素坐标系上的一个点,p'是投影变换后的点,这里表示,第二帧图像的相机像素坐标系上,与p对应的点。d为p点对应的深度信息,R为第二个图像相对于第一个图像的旋转关系矩阵,t为第二个图像相对于第一个图像的位移关系矩阵。[x,y,z]T为相机平面物理坐标系上的三维点,投影后得到相机平面像素坐标系的点p'。
式23表征的为,在理想情况下,即深度信息和相机拍摄两帧图像时的位姿关系均正确的情况下,式23成立,即第一帧图像上每个像素点,可以通过这个公式,对应在第二帧图像的位置。
换句话说,可以通过反证法,假设深度信息和位姿关系均正确,根据该数学关系,可以通过第二帧图像来反求第一帧图像。
因此,可以根据上述的数学关系,针对第一帧图像回溯到原图中,反向寻找小图范围内的点所对应在大图上的位置,计算出其值。
以下将结合图4所示的方法描述其具体的流程。
步骤1,取图1(可选地为本申请实施例中的任一关键帧)像素坐标系上任意一点p,在深度图上获取p对应的深度d。
步骤2,根据相机内参K以及对应的深度d,得到p在图1所在的相机坐标系下,对应的3D点在d·K-1p。
步骤3,通过图1与图2之间的位姿关系,将p对应的3D点转到图2所在的相机坐标系下,得到R(d·K-1p)+t。
步骤4,通过相机内参,计算得到3D点对应到图2相机平面物理坐标系的点[x y z]T=K(R(d·K-1p)+t)。
步骤5,计算出p点投影变换到图2相机平面像素坐标系的点p'。
步骤6,p'=[u,v]T坐标很可能是小数,但是对应的像素坐标系上并无小数,只有整数,因此在获取点的色彩信息的时候,可以采用双线性差值(Bilinear Interpolation)。
例如,如图5所示,对于像素点(x,y)的色彩信息可以通过对像素点(x1,y1),(x1,y2),(x2,y1)和(x2,y2)得到。
通过双线性双线性插值,计算出p点的亮度颜色信息I'p,与原图p点的亮度颜色信息Ip相比较,如果差异过大例如,||Ip-I'p||2>Ith,则认为此点不相符。
步骤7,针对图1中每个像素点都通过上述方法20进行检测,如果差异 过大的点数比较多(比如总像素的1%),就认为此次深度图计算结果不好,废弃不用。
因此,在本申请实施例中,对获取的深度信息进行验证,可以避免由于深度信息不准确,所造成的定位和环境感知不精确地的问题。
图6是根据本申请实施例的图像处理方法200的示意性流程图。如图6所示,该方法200包括以下内容中的至少部分内容。
在210中,获取单目摄像头拍摄的多帧图像。
可选地,该多帧图像可以是连续拍摄的多帧图像。
可选地,该多帧图像可以是经过关键帧提取的多帧图像。
在220中,利用相机拍摄该多帧图像时的位姿,计算该多帧图像中的特征点的深度信息。
可选地,从该多帧图像中选择多个待处理的特征点;计算该多个待处理的特征点中每个待处理的特征点在该多帧图像之间的相对位置,以及计算相机拍摄该多帧图像中每帧图像时的位姿;根据该每个待处理的特征点在该多帧图像之间的相对位置,以及相机拍摄该每帧图像时的位姿(或者,也可以是相机拍摄该多个关键帧图像时的位姿关系),确定该每个待处理的特征点的深度信息。
可选地,从该多帧图像中选择多个初始特征点;计算该多个初始特征点中每个初始特征点从第一图像到第二图像的第一光流;计算该每个初始特征点从该第二图像到该第一图像的第二光流;将该第一光流与该第二光流之和的绝对值小于等于第一阈值对应的初始特征点,确定为该待处理的特征点。
可选地,利用集束调整算法,计算该每个待处理的特征点在该多帧图像之间的相对位置,以及相机拍摄该每帧图像时的位姿。
可选地,将初始计算的相机拍摄该多帧图像时的位姿作为初始值,利用该集束调整算法,计算该每个待处理的特征点在该多帧图像之间的相对位置,以及相机拍摄该每帧图像时的位姿;其中,该初始计算的位姿关系是利用视觉里程计、惯性测量单元和全球定位系统中的至少一种得到的。
可选地,利用初始计算的相机拍摄该多帧图像时的位姿关系,对利用集束调整算法计算的每帧图像对应的位姿中的位移进行缩放;其中,该初始计算的相机位姿关系是利用视觉里程计、惯性测量单元和全球定位系统中的至少一种得到的。
在230中,根据该多帧图像中的特征点的深度信息,确定该多帧图像中每帧图像的每个像素的深度信息。
可选地,根据该多帧图像中的特征点的深度信息,使用平均绝对差算法、误差平方和算法、绝对误差和算法、归一化积相关算法、序贯相似性检测算法或者绝对变换误差和算法,确定该每帧图像中每个像素位置的深度信息。
可选地,对该多帧图像中的至少一帧图像中的至少部分像素位置的深度信息进行验证。
可选地,利用相机拍摄该至少一帧图像与其他帧图像时的位姿关系,对至少一帧图像中的至少部分像素位置的深度信息进行验证。
具体地,利用第一图像的第一像素位置的深度信息,得到该第一像素位置的3D位置;根据该第一像素位置的3D位置,以及相机拍摄该第一图像与第二图像时的位姿关系,得到该第一像素位置在该第二图像对应的第二像素位置;比较该第一像素位置的颜色亮度值,以及该第二像素位置的颜色亮度值之间的关系;根据比较结果,确定该第一像素位置的深度信息的准确性。
可选地,在比较该第一像素位置的颜色亮度值,以及该第二像素位置的颜色亮度值之间的关系之前,通过双线性插值运算的方式,得到该第二像素位置的颜色亮度值。
可选地,在该第一像素位置的颜色亮度值与该第二像素位置的颜色亮度值的差值的绝对值大于或等于第二阈值时,确定该第一像素位置的深度信息不准确。
可选地,在该第一图像中的像素位置深度信息不准确的比例大于或等于第三阈值,放弃计算得到的该第一图像的深度信息。进一步地,可以放弃计算得到的第二图像的深度信息,或者,放弃本次得到的所有图像的深度信息。
应理解,方法200中各个操作的具体实现可以参考方法100的描述,为了简洁,在此不再赘述。
因此,在本申请实施例中,利用单目摄像头拍摄的多帧图像时的位姿,计算该多帧图像中的特征点的深度信息,根据该多帧图像中的特征点的深度信息,确定该多帧图像中每帧图像的每个像素的深度信息,可以避免进行SLAM进行定位和环境感知所带来的资源耗费较大的问题,并且可以避免采用价格较为昂贵的结构光摄像头或者对结构要求较高的双/多目摄像头,因此本申请实施例的方法可以在提高定位和环境感知精度的同时,可以降低资源 耗费,以及节约成本等。
图7是根据本申请实施例的图像处理方法300的示意性框图。如图7所示,该方法300包括以下内容中的至少部分内容。
在310中,获取单目摄像头拍摄的多帧图像。
在320中,利用相机拍摄该多帧图像时的位姿,确定该多帧图像中每帧图像的每个像素的深度信息。
在330中,利用相机拍摄多帧图像中至少一帧图像与其他帧图像的位姿关系,对至少一帧图像中的至少部分像素位置的深度信息进行验证。
可选地,利用第一图像的第一像素位置的深度信息,得到该第一像素位置的3D位置;根据该第一像素位置的3D位置,以及相机拍摄该第一图像与第二图像时的位姿关系,得到该第一像素位置在该第二图像对应的第二像素位置;比较该第一像素位置的颜色亮度值,以及该第二像素位置的颜色亮度值之间的关系;根据比较结果,确定该第一像素位置的深度信息的准确性。
可选地,在该比较该第一像素位置的颜色亮度值,以及该第二像素位置的颜色亮度值之间的关系之前,通过双线性插值运算的方式,得到该第二像素位置的颜色亮度值。
可选地,在该第一像素位置的颜色亮度值与该第二像素位置的颜色亮度值的差值的绝对值大于或等于第二阈值时,确定该第一像素位置的深度信息不准确。
可选地,在该第一帧图像中的像素位置深度信息不准确的比例大于或等于第三阈值,放弃计算得到的该第一图像的深度信息。
应理解,方法300中各个操作的具体实现可以参考方法100的描述,为了简洁,在此不再赘述。
因此,在本申请实施例中,利用单目摄像头拍摄多帧图像时的位姿,计算该多帧图像中每帧图像的每个像素的深度信息,可以避免进行SLAM进行定位和环境感知所带来的资源耗费较大的问题,并且可以避免采用价格较为昂贵的结构光摄像头或者对结构要求较高的双/多目摄像头,因此本申请实施例的方法可以在提高定位和环境感知精度的同时,可以降低资源耗费,以及节约成本等。并且进一步地,利用相机拍摄多帧图像中至少一帧图像与其他帧图像时的位姿关系,对至少一帧图像中的至少部分像素位置的深度信息进行验证,可以避免由于计算的深度信息不准确,所造成的环境感知或定位不 精确的问题。
图8是根据本申请实施例的图像处理设备400的示意性框图。如图8所示,该设备400包括获取单元410、确定单元420和计算单元430;其中,
该获取单元410用于:获取单目摄像头拍摄的多帧图像;
该提取单元420用于:根据相机拍摄该多帧图像时的位姿关系,从该多帧图像中,提取多个关键帧图像;
该确定单元430用于:利用相机拍摄该多个关键帧图像时的位姿,计算该多个关键帧图像中的特征点的深度信息。
可选地,该提取单元420进一步用于:
从该多帧图像中,提取第一个关键帧图像;
获取相机拍摄该多帧图像中的下一帧图像与上一个关键帧图像时的位姿关系;
在相机拍摄该下一帧图像与该上一个关键帧图像时的位姿关系满足预设关系时,将该下一帧图像确定为该关键帧图像。
可选地,该预设关系为:
旋转角度小于或等于第一阈值;和/或,
位置变化小于或等于第二阈值。
可选地,该提取单元420进一步用于:
通过位姿关系累计的方式,得到相机拍摄该下一帧图像与该上一个关键帧图像时的位姿关系。
可选地,该提取单元420进一步用于:
根据该下一帧图像和该上一个关键帧图像的位置和/或姿态,得到相机拍摄该下一帧图像与该上一个关键帧图像时的位姿关系。
可选地,该多帧图像是连续的多帧运动姿态变化量小于或等于第三阈值的图像。
可选地,该确定单元430进一步用于:
从该多个关键帧图像中选择多个待处理的特征点;
计算该多个待处理的特征点中每个待处理的特征点在该多个关键帧图像之间的相对位置,以及计算相机拍摄每个关键帧图像时的位姿;
根据该每个待处理的特征点在该多个关键帧图像之间的相对位置,以及相机拍摄该每个关键帧图像时的位姿,确定该每个待处理的特征点的深度信 息。
可选地,该确定单元430进一步用于:
从该多个关键帧图像中选择多个初始特征点;
计算该多个初始特征点中每个初始特征点从第一关键帧图像到第二关键帧图像的第一光流;
计算该每个初始特征点从该第二关键帧图像到该第一关键帧图像的第二光流;
将该第一光流与该第二光流之和的绝对值小于等于第四阈值对应的初始特征点,确定为该待处理的特征点。
可选地,该确定单元430进一步用于:
利用集束调整算法,计算该每个待处理的特征点在该多个关键帧图像之间的相对位置,以及相机拍摄该每个关键帧图像时的位姿。
可选地,该确定单元430进一步用于:
将初始计算的位姿关系作为初始值,利用该集束调整算法,计算该每个待处理的特征点在该多个关键帧图像之间的相对位置,以及相机拍摄该每个关键帧图像时的位姿;
其中,该初始计算的位姿关系是相机拍摄该多个关键帧图像时的位姿关系,且是利用视觉里程计、惯性测量单元和全球定位系统中的至少一种得到的。
可选地,该确定单元430进一步用于:
利用初始计算的位姿关系,对利用该集束调整算法计算的位姿中的位移进行缩放;
其中,该初始计算的位姿关系是相机拍摄该多个关键帧图像时的位姿关系,且是利用视觉里程计、惯性测量单元和全球定位系统中的至少一种得到的。
可选地,该确定单元430进一步用于:
根据该多个关键帧图像中的特征点的深度信息,确定该多个关键帧图像中每个关键帧图像的每个像素位置的深度信息。
可选地,该确定单元430进一步用于:
根据该多个关键帧图像中的特征点的深度信息,使用平均绝对差算法、误差平方和算法、绝对误差和算法、归一化积相关算法、序贯相似性检测算 法或者绝对变换误差和算法,确定该每个关键帧图像中每个像素位置的深度信息。
可选地,如图8所示,该设备400还包括验证单元440,用于:
利用相机拍摄至少一个关键帧图像与其他关键帧图像时的位姿关系,对该至少一个关键帧图像中的至少部分像素位置的深度信息进行验证。
可选地,该验证单元440进一步用于:
利用第三关键帧图像的第一像素位置的深度信息,得到该第一像素位置的3D位置;
根据该第一像素位置的3D位置,以及相机拍摄该第三关键帧图像与第四关键帧图像时的位姿关系,得到该第一像素位置在该第四关键帧图像对应的第二像素位置;
比较该第一像素位置的颜色亮度值,以及该第二像素位置的颜色亮度值之间的关系;
根据比较结果,确定该第一像素位置的深度信息的准确性。
可选地,该验证单元440进一步用于:
通过双线性插值运算的方式,得到该第二像素位置的颜色亮度值。
可选地,该验证单元440进一步用于:
在该第一像素位置的颜色亮度值与该第二像素位置的颜色亮度值的差值的绝对值大于或等于第五阈值时,确定该第一像素位置的深度信息不准确。
可选地,该验证单元440进一步用于:
在该第三关键帧图像中的像素位置深度信息不准确的比例大于或等于第六阈值时,放弃计算得到的该第三关键帧图像的深度信息。
应理解,该设备400可以实现方法100、200或300中的相应操作,为了简洁,在此不再赘述。
图9是根据本申请实施例的图像处理设备500的示意性框图。如图9所示,该设备500包括获取单元510和确定单元520;其中,
该获取单元510用于:获取单目摄像头拍摄的多帧图像;
该确定单元520用于:利用相机拍摄该多帧图像时的位姿,计算该多帧图像中的特征点的深度信息;根据该多帧图像中的特征点的深度信息,确定该多帧图像中每帧图像的每个像素的深度信息。
可选地,该确定单元520进一步用于:
从该多帧图像中选择多个待处理的特征点;
计算该多个待处理的特征点中每个待处理的特征点在该多帧图像之间的相对位置,以及计算相机在拍摄该每帧图像时的位姿;
根据该每个待处理的特征点在该多帧图像之间的相对位置,以及相机在拍摄该每帧图像时的位姿,确定该每个待处理的特征点的深度信息。
可选地,该确定单元520进一步用于:
从该多帧图像中选择多个初始特征点;
计算该多个初始特征点中每个初始特征点从第一图像到第二图像的第一光流;
计算该每个初始特征点从该第二图像到该第一图像的第二光流;
将该第一光流与该第二光流之和的绝对值小于等于第一阈值对应的初始特征点,确定为该待处理的特征点。
可选地,该确定单元520进一步用于:
利用集束调整算法,计算该每个待处理的特征点在该多帧图像之间的相对位置,以及相机拍摄该每帧图像时的位姿。
可选地,该确定单元520进一步用于:
将初始计算的位姿关系作为初始值,利用该集束调整算法,计算该每个待处理的特征点在该多个关键帧图像之间的相对位置,以及相机拍摄该每帧图像时的位姿;
其中,该初始计算的位姿关系是相机拍摄该多个关键帧图像时的位姿关系,且是利用视觉里程计、惯性测量单元和全球定位系统中的至少一种得到的。
可选地,该确定单元520进一步用于:
利用初始计算的位姿关系,对利用该集束调整算法计算的位姿中的位移进行缩放;
其中,该初始计算的位姿关系是相机拍摄该多帧图像时的位姿关系,且是利用视觉里程计、惯性测量单元和全球定位系统中的至少一种得到的。
可选地,该确定单元520进一步用于:
根据该多帧图像中的特征点的深度信息,使用平均绝对差算法、误差平方和算法、绝对误差和算法、归一化积相关算法、序贯相似性检测算法或者 绝对变换误差和算法,确定该每帧图像中每个像素位置的深度信息。
可选地,如图9所示,该设备500还包括验证单元530,用于:
利用相机拍摄该多帧图像中至少一帧图像与其他帧图像时的位姿关系,对该至少一帧图像中的至少部分像素位置的深度信息进行验证。
可选地,该验证单元530进一步用于:
利用第一图像的第一像素位置的深度信息,得到该第一像素位置的3D位置;
根据该第一像素位置的3D位置,以及相机拍摄该第一图像与第二图像时的位姿关系,得到该第一像素位置在该第二图像对应的第二像素位置;
比较该第一像素位置的颜色亮度值,以及该第二像素位置的颜色亮度值之间的关系;
根据比较结果,确定该第一像素位置的深度信息的准确性。
可选地,该验证单元530进一步用于:
通过双线性插值运算的方式,得到该第二像素位置的颜色亮度值。
可选地,该验证单元530进一步用于:
在该第一像素位置的颜色亮度值与该第二像素位置的颜色亮度值的差值的绝对值大于或等于第二阈值时,确定该第一像素位置的深度信息不准确。
可选地,该验证单元530进一步用于:
在该第一图像中的像素位置深度信息不准确的比例大于或等于第三阈值,放弃计算得到的该第一图像的深度信息。
应理解,该设备500可以实现方法100、200或300中的相应操作,为了简洁,在此不再赘述。
图10是根据本申请实施例的图像处理设备600的示意性框图。如图10所示,该图像处理设备600包括获取单元610,确定单元620和验证单元630;
其中,该获取单元610用于:获取单目摄像头拍摄的多帧图像;
该确定单元620用于:利用相机拍摄该多帧图像时的位姿,确定该多帧图像中每帧图像的每个像素的深度信息;
该验证单元630用于:利用相机拍摄该多帧图像中至少一帧图像与其他帧图像时的位姿关系,对至少一帧图像中的至少部分像素位置的深度信息进行验证。
可选地,该验证单元630进一步用于:
利用第一图像的第一像素位置的深度信息,得到该第一像素位置的3D位置;
根据该第一像素位置的3D位置,以及相机拍摄该第一图像与第二图像时的位姿关系,得到该第一像素位置在该第二图像对应的第二像素位置;
比较该第一像素位置的颜色亮度值,以及该第二像素位置的颜色亮度值之间的关系;
根据比较结果,确定该第一像素位置的深度信息的准确性。
可选地,该验证单元630进一步用于:
通过双线性插值运算的方式,得到该第二像素位置的颜色亮度值。
可选地,该验证单元630进一步用于:
在该第一像素位置的颜色亮度值与该第二像素位置的颜色亮度值的差值的绝对值大于或等于第二阈值时,确定该第一像素位置的深度信息不准确。
可选地,该验证单元630进一步用于:
在该第一图像中的像素位置深度信息不准确的比例大于或等于第三阈值,放弃计算得到的该第一图像的深度信息。
应理解,该设备600可以实现方法100、200或300中的相应操作,为了简洁,在此不再赘述。
图11是根据本申请实施例的图像处理设备700的示意性框图
可选地,该图像处理设备700可以包括多个不同的部件,这些部件可以作为集成电路(integrated circuits,ICs),或集成电路的部分,离散的电子设备,或其它适用于电路板(诸如主板,或附加板)的模块,也可以作为并入计算机系统的部件。
可选地,该图像处理设备可以包括处理器710和与处理器710耦合的存储介质720。
处理器710可以包括一个或多个通用处理器,诸如中央处理单元(central processing unit,CPU),或处理设备等。具体地,该处理器710可以是复杂指令集处理(complex instruction set computing,CISC)微处理器,超长指令字(very long instruction word,VLIW)微处理器,实现多个指令集组合的微处理器。该处理器也可以是一个或多个专用处理器,诸如应用专用集成电 路(application specific integrated circuit,ASIC),现场可编程门阵列(field programmable gate array,FPGA),数字信号处理器(digital signal processor,DSP)。
处理器710可以与存储介质720通信。该存储介质720可以为磁盘、光盘、只读存储器(read only memory,ROM),闪存,相变存储器。该存储介质620可以存储有处理器存储的指令,和/或,可以缓存一些从外部存储设备存储的信息,例如,从外部存储设备读取的金字塔的图像分层的像素信息。
可选地,除了处理器720和存储介质720,图像处理设备可以包括显示控制器和/或显示设备单元730,收发器740,视频输入输出单元750,音频输入输出单元760,其他输入输出单元770。图像处理设备700包括的这些部件可以通过总线或内部连接互联。
可选地,该收发器740可以是有线收发器或无线收发器,诸如,WIFI收发器,卫星收发器,蓝牙收发器,无线蜂窝电话收发器或其组合等。
可选地,视频输入输出单元750可以包括诸如摄像机的图像处理子系统,其包括光传感器,电荷耦合器件(charged coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide semiconductor,CMOS)光传感器,以用于实现拍摄功能。
可选地,该音频输入输出单元760可以包括扬声器,话筒,听筒等。
可选地,其他输入输出设备770可以包括存储设备,universal serial bus(USB)端口,串行端口,并行端口,打印机,网络接口等。
可选地,该图像处理设备700可以执行方法100至300所示的操作,为了简洁,在此不再赘述。
可选地,图像处理设备400-700可以位于可移动设备中。可移动设备可以在任何合适的环境下移动,例如,空气中(例如,定翼飞机、旋翼飞机,或既没有定翼也没有旋翼的飞机)、水中(例如,轮船或潜水艇)、陆地上(例如,汽车或火车)、太空(例如,太空飞机、卫星或探测器),以及以上各种环境的任何组合。可移动设备可以是飞机,例如无人机(Unmanned Aerial Vehicle,简称为“UAV”)。在一些实施例中,可移动设备可以承载生命体,例如,人或动物。
图12是根据本申请实施例的可移动设备800的示意性框图。如图12所示,可移动设备800包括载体810和负载820。图12中将可移动设备描述为 无人机仅仅是为了描述方面。负载820可以不通过载体810连接到可移动设备上。可移动设备800还可以包括动力系统830、传感系统840和通信系统850和图像处理设备860。
动力系统830可以包括电子调速器(简称为电调)、一个或多个螺旋桨以及与一个或多个螺旋桨相对应的一个或多个电机。电机和螺旋桨设置在对应的机臂上;电子调速器用于接收飞行控制器产生的驱动信号,并根据驱动信号提供驱动电流给电机,以控制电机的转速和/或转向。电机用于驱动螺旋桨旋转,从而为UAV的飞行提供动力,该动力使得UAV能够实现一个或多个自由度的运动。在某些实施例中,UAV可以围绕一个或多个旋转轴旋转。例如,上述旋转轴可以包括横滚轴、平移轴和俯仰轴。应理解,电机可以是直流电机,也可以交流电机。另外,电机可以是无刷电机,也可以有刷电机。
传感系统840用于测量UAV的姿态信息,即UAV在空间的位置信息和状态信息,例如,三维位置、三维角度、三维速度、三维加速度和三维角速度等。传感系统例如可以包括陀螺仪、电子罗盘、惯性测量单元(Inertial Measurement Unit,简称为“IMU”)、视觉传感器、全球定位系统(Global Positioning System,简称为“GPS”)和气压计等传感器中的至少一种。飞行控制器用于控制UAV的飞行,例如,可以根据传感系统测量的姿态信息控制UAV的飞行。应理解,飞行控制器可以按照预先编好的程序指令对UAV进行控制,也可以通过响应来自操纵设备的一个或多个控制指令对UAV进行控制。
通信系统850能够与一个具有通信系统870的终端设备880通过无线信号890进行通信。通信系统850和通信系统870可以包括多个用于无线通信的发射机、接收机和/或收发机。这里的无线通信可以是单向通信,例如,只能是可移动设备800向终端设备880发送数据。或者无线通信可以是双向通信,数据即可以从可移动设备800发送给终端设备880,也可以由终端设备880发送给可移动设备800。
可选地,终端设备780能够提供针对于一个或多个可移动设备800、载体810和负载820的控制数据,并能接收可移动设备800、载体810和负载820发送的信息。终端设备880提供的控制数据能够用于控制一个或多个可移动设备800、载体810和负载820的状态。可选地,载体810和负载820中包括用于与终端设备880进行通信的通信模块。
可以理解的是,图12所示出的可移动设备包括的图像处理设备860能够执行方法100至300,为了简洁,在此不再赘述。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (70)

  1. 一种图像处理方法,其特征在于,包括:
    获取单目摄像头拍摄的多帧图像;
    根据相机拍摄所述多帧图像时的位姿关系,从所述多帧图像中,提取多个关键帧图像;
    利用相机拍摄所述多个关键帧图像时的位姿,计算所述多个关键帧图像中的特征点的深度信息。
  2. 根据权利要求1所述的方法,其特征在于,所述根据相机拍摄所述多帧图像时的位姿关系,从所述多帧图像中,提取多个关键帧图像,包括:
    从所述多帧图像中,提取第一个关键帧图像;
    获取相机拍摄所述多帧图像中的下一帧图像与上一个关键帧图像时的位姿关系;
    在相机拍摄所述下一帧图像与所述上一个关键帧图像时的位姿关系满足预设关系时,将所述下一帧图像确定为所述关键帧图像。
  3. 根据权利要求2所述的方法,其特征在于,所述预设关系为:
    旋转角度小于或等于第一阈值;和/或,
    位置变化小于或等于第二阈值。
  4. 根据权利要求2或3所述的方法,其特征在于,所述获取相机拍摄所述多帧图像中的下一帧图像与上一个关键帧图像时的位姿关系,包括:
    通过位姿关系累计的方式,得到相机拍摄所述下一帧图像与所述上一个关键帧图像时的位姿关系。
  5. 根据权利要求2或3所述的方法,其特征在于,所述获取相机拍摄所述多帧图像中的下一帧图像与上一个关键帧图像时的位姿关系,包括:
    根据所述下一帧图像和所述上一个关键帧图像的位置和/或姿态,得到相机拍摄所述下一帧图像与所述上一个关键帧图像时的位姿关系。
  6. 根据权利要求1至5中任一项所述的方法,其特征在于,所述多帧图像是连续的多帧运动姿态变化量小于或等于第三阈值的图像。
  7. 根据权利要求1至6中任一项所述的方法,其特征在于,所述利用相机拍摄所述多个关键帧图像时的位姿,计算所述多个关键帧图像中的特征点的深度信息,包括:
    从所述多个关键帧图像中选择多个待处理的特征点;
    计算所述多个待处理的特征点中每个待处理的特征点在所述多个关键帧图像之间的相对位置,以及计算相机拍摄每个关键帧图像时的位姿;
    根据所述每个待处理的特征点在所述多个关键帧图像之间的相对位置,以及相机拍摄所述每个关键帧图像时的位姿,确定所述每个待处理的特征点的深度信息。
  8. 根据权利要求7所述的方法,其特征在于,所述从所述多个关键帧图像中选择多个待处理的特征点,包括:
    从所述多个关键帧图像中选择多个初始特征点;
    计算所述多个初始特征点中每个初始特征点从第一关键帧图像到第二关键帧图像的第一光流;
    计算所述每个初始特征点从所述第二关键帧图像到所述第一关键帧图像的第二光流;
    将所述第一光流与所述第二光流之和的绝对值小于等于第四阈值对应的初始特征点,确定为所述待处理的特征点。
  9. 根据权利要求7或8所述的方法,其特征在于,所述计算所述多个待处理的特征点中每个待处理的特征点在所述多个关键帧图像之间的相对位置,以及计算相机拍摄每个关键帧图像时的位姿,包括:
    利用集束调整算法,计算所述每个待处理的特征点在所述多个关键帧图像之间的相对位置,以及相机拍摄所述每个关键帧图像时的位姿。
  10. 根据权利要求9所述的方法,其特征在于,所述利用集束调整算法,计算所述每个待处理的特征点在所述多个关键帧图像之间的相对位置,以及相机拍摄所述每个关键帧图像时的位姿,包括:
    将初始计算的位姿关系作为初始值,利用所述集束调整算法,计算所述每个待处理的特征点在所述多个关键帧图像之间的相对位置,以及相机拍摄所述每个关键帧图像时的位姿;
    其中,所述初始计算的位姿关系是相机拍摄所述多个关键帧图像时的位姿关系,且是利用视觉里程计、惯性测量单元和全球定位系统中的至少一种得到的。
  11. 根据权利要求9或10所述的方法,其特征在于,所述计算所述多个待处理的特征点中每个待处理的特征点在所述多个关键帧图像之间的相对位置,以及计算相机拍摄每个关键帧图像时的位姿,还包括:
    利用初始计算的位姿关系,对利用所述集束调整算法计算的位姿中的位移进行缩放;
    其中,所述初始计算的位姿关系是相机拍摄所述多个关键帧图像时的位姿关系,且是利用视觉里程计、惯性测量单元和全球定位系统中的至少一种得到的。
  12. 根据权利要求1至11中任一项所述的方法,其特征在于,所述方法还包括:
    根据所述多个关键帧图像中的特征点的深度信息,确定所述多个关键帧图像中每个关键帧图像的每个像素位置的深度信息。
  13. 根据权利要求12所述的方法,其特征在于,所述根据所述多个关键帧图像中的特征点的深度信息,确定所述多个关键帧图像中每个关键帧图像的每个像素位置的深度信息,包括:
    根据所述多个关键帧图像中的特征点的深度信息,使用平均绝对差算法、误差平方和算法、绝对误差和算法、归一化积相关算法、序贯相似性检测算法或者绝对变换误差和算法,确定所述每个关键帧图像中每个像素位置的深度信息。
  14. 根据权利要求12或13所述的方法,其特征在于,所述方法还包括:
    利用相机拍摄至少一个关键帧图像与其他关键帧图像时的位姿关系,对所述至少一个关键帧图像中的至少部分像素位置的深度信息进行验证。
  15. 根据权利要求14所述的方法,其特征在于,所述对所述至少一个关键帧图像中的至少部分像素位置的深度信息进行验证,包括:
    利用第三关键帧图像的第一像素位置的深度信息,得到所述第一像素位置的3D位置;
    根据所述第一像素位置的3D位置,以及相机拍摄所述第三关键帧图像与第四关键帧图像时的位姿关系,得到所述第一像素位置在所述第四关键帧图像对应的第二像素位置;
    比较所述第一像素位置的颜色亮度值,以及所述第二像素位置的颜色亮度值之间的关系;
    根据比较结果,确定所述第一像素位置的深度信息的准确性。
  16. 根据权利要求15所述的方法,其特征在于,在所述比较所述第一像素位置的颜色亮度值,以及所述第二像素位置的颜色亮度值之间的关系之 前,所述对所述关键帧图像中的至少部分像素的深度信息进行验证,还包括:
    通过双线性插值运算的方式,得到所述第二像素位置的颜色亮度值。
  17. 根据权利要求15或16的方法,其特征在于,所述根据比较结果,确定所述第一像素位置的深度信息的准确性,包括:
    在所述第一像素位置的颜色亮度值与所述第二像素位置的颜色亮度值的差值的绝对值大于或等于第五阈值时,确定所述第一像素位置的深度信息不准确。
  18. 根据15至17中任一项所述的方法,其特征在于,所述方法还包括:
    在所述第三关键帧图像中的像素位置深度信息不准确的比例大于或等于第六阈值时,放弃计算得到的所述第三关键帧图像的深度信息。
  19. 一种图像处理方法,其特征在于,包括:
    获取单目摄像头拍摄的多帧图像;
    利用相机拍摄所述多帧图像时的位姿,计算所述多帧图像中的特征点的深度信息;
    根据所述多帧图像中的特征点的深度信息,确定所述多帧图像中每帧图像的每个像素的深度信息。
  20. 根据权利要求19所述的方法,其特征在于,所述利用相机拍摄所述多帧图像时的位姿,计算所述多帧图像中的特征点的深度信息,包括:
    从所述多帧图像中选择多个待处理的特征点;
    计算所述多个待处理的特征点中每个待处理的特征点在所述多帧图像之间的相对位置,以及计算相机在拍摄所述每帧图像时的位姿;
    根据所述每个待处理的特征点在所述多帧图像之间的相对位置,以及相机在拍摄所述每帧图像时的位姿,确定所述每个待处理的特征点的深度信息。
  21. 根据权利要求20所述的方法,其特征在于,所述从所述多帧图像中选择多个待处理的特征点,包括:
    从所述多帧图像中选择多个初始特征点;
    计算所述多个初始特征点中每个初始特征点从第一图像到第二图像的第一光流;
    计算所述每个初始特征点从所述第二图像到所述第一图像的第二光流;
    将所述第一光流与所述第二光流之和的绝对值小于等于第一阈值对应 的初始特征点,确定为所述待处理的特征点。
  22. 根据权利要求19至21中任一项所述的方法,其特征在于,所述计算所述多个待处理的特征点中每个待处理的特征点在所述多帧图像之间的相对位置,以及计算相机拍摄所述每帧图像时的位姿,包括:
    利用集束调整算法,计算所述每个待处理的特征点在所述多帧图像之间的相对位置,以及相机拍摄所述每帧图像时的位姿。
  23. 根据权利要求22所述的方法,其特征在于,所述利用集束调整算法,计算所述每个待处理的特征点在所述多帧图像之间的相对位置,以及相机拍摄所述每帧图像时的位姿,包括:
    将初始计算的位姿关系作为初始值,利用所述集束调整算法,计算所述每个待处理的特征点在所述多个关键帧图像之间的相对位置,以及相机拍摄所述每帧图像时的位姿;
    其中,所述初始计算的位姿关系是相机拍摄所述多个关键帧图像时的位姿关系,且是利用视觉里程计、惯性测量单元和全球定位系统中的至少一种得到的。
  24. 根据权利要求22或23所述的方法,其特征在于,所述利用集束调整算法,计算所述每个待处理的特征点在所述多帧图像之间的相对位置,以及相机拍摄所述每帧图像时的位姿,还包括:
    利用初始计算的位姿关系,对利用所述集束调整算法计算的位姿中的位移进行缩放;
    其中,所述初始计算的位姿关系是相机拍摄所述多帧图像时的位姿关系,且是利用视觉里程计、惯性测量单元和全球定位系统中的至少一种得到的。
  25. 根据权利要求19至24中任一项所述的方法,其特征在于,所述根据所述多帧图像中的特征点的深度信息,确定所述多帧图像中每帧图像的每个像素的深度信息,包括:
    根据所述多帧图像中的特征点的深度信息,使用平均绝对差算法、误差平方和算法、绝对误差和算法、归一化积相关算法、序贯相似性检测算法或者绝对变换误差和算法,确定所述每帧图像中每个像素位置的深度信息。
  26. 根据权利要求19至25中任一项所述的方法,其特征在于,所述方法还包括:
    利用相机拍摄所述多帧图像中至少一帧图像与其他帧图像时的位姿关系,对所述至少一帧图像中的至少部分像素位置的深度信息进行验证。
  27. 根据权利要求26所述的方法,其特征在于,所述对所述多帧图像中的至少一帧图像中的至少部分像素位置的深度信息进行验证,包括:
    利用第一图像的第一像素位置的深度信息,得到所述第一像素位置的3D位置;
    根据所述第一像素位置的3D位置,以及相机拍摄所述第一图像与第二图像时的位姿关系,得到所述第一像素位置在所述第二图像对应的第二像素位置;
    比较所述第一像素位置的颜色亮度值,以及所述第二像素位置的颜色亮度值之间的关系;
    根据比较结果,确定所述第一像素位置的深度信息的准确性。
  28. 根据权利要求27所述的方法,其特征在于,在所述比较所述第一像素位置的颜色亮度值,以及所述第二像素位置的颜色亮度值之间的关系之前,所述对所述关键帧图像中的至少部分像素的深度信息进行验证,还包括:
    通过双线性插值运算的方式,得到所述第二像素位置的颜色亮度值。
  29. 根据权利要求27或28的方法,其特征在于,所述根据比较结果,确定所述第一像素位置的深度信息的准确性,包括:
    在所述第一像素位置的颜色亮度值与所述第二像素位置的颜色亮度值的差值的绝对值大于或等于第二阈值时,确定所述第一像素位置的深度信息不准确。
  30. 根据27至29中任一项所述的方法,其特征在于,所述方法还包括:
    在所述第一图像中的像素位置深度信息不准确的比例大于或等于第三阈值,放弃计算得到的所述第一图像的深度信息。
  31. 一种图像处理方法,其特征在于,包括:
    获取单目摄像头拍摄的多帧图像;
    利用相机拍摄所述多帧图像时的位姿,确定所述多帧图像中每帧图像的每个像素的深度信息;
    利用相机拍摄所述多帧图像中至少一帧图像与其他帧图像时的位姿关系,对至少一帧图像中的至少部分像素位置的深度信息进行验证。
  32. 根据权利要求31所述的方法,其特征在于,所述对所述多帧图像 中的至少一帧图像中的至少部分像素位置的深度信息进行验证,包括:
    利用第一图像的第一像素位置的深度信息,得到所述第一像素位置的3D位置;
    根据所述第一像素位置的3D位置,以及相机拍摄所述第一图像与第二图像时的位姿关系,得到所述第一像素位置在所述第二图像对应的第二像素位置;
    比较所述第一像素位置的颜色亮度值,以及所述第二像素位置的颜色亮度值之间的关系;
    根据比较结果,确定所述第一像素位置的深度信息的准确性。
  33. 根据权利要求32所述的方法,其特征在于,在所述比较所述第一像素位置的颜色亮度值,以及所述第二像素位置的颜色亮度值之间的关系之前,所述对所述关键帧图像中的至少部分像素的深度信息进行验证,还包括:
    通过双线性插值运算的方式,得到所述第二像素位置的颜色亮度值。
  34. 根据权利要求32或33的方法,其特征在于,所述根据比较结果,确定所述第一像素位置的深度信息的准确性,包括:
    在所述第一像素位置的颜色亮度值与所述第二像素位置的颜色亮度值的差值的绝对值大于或等于第二阈值时,确定所述第一像素位置的深度信息不准确。
  35. 根据权利要求32至34中任一项所述的方法,其特征在于,所述方法还包括:
    在所述第一图像中的像素位置深度信息不准确的比例大于或等于第三阈值,放弃计算得到的所述第一图像的深度信息。
  36. 一种图像处理设备,其特征在于,包括获取单元、提取单元和确定单元;其中,
    所述获取单元用于:获取单目摄像头拍摄的多帧图像;
    所述提取单元用于:根据相机拍摄所述多帧图像时的位姿关系,从所述多帧图像中,提取多个关键帧图像;
    所述确定单元用于:利用相机拍摄所述多个关键帧图像时的位姿,计算所述多个关键帧图像中的特征点的深度信息。
  37. 根据权利要求36所述的设备,其特征在于,所述提取单元进一步用于:
    从所述多帧图像中,提取第一个关键帧图像;
    获取相机拍摄所述多帧图像中的下一帧图像与上一个关键帧图像时的位姿关系;
    在相机拍摄所述下一帧图像与所述上一个关键帧图像时的位姿关系满足预设关系时,将所述下一帧图像确定为所述关键帧图像。
  38. 根据权利要求37所述的设备,其特征在于,所述预设关系为:
    旋转角度小于或等于第一阈值;和/或,
    位置变化小于或等于第二阈值。
  39. 根据权利要求37或38所述的设备,其特征在于,所述提取单元进一步用于:
    通过位姿关系累计的方式,得到相机拍摄所述下一帧图像与所述上一个关键帧图像时的位姿关系。
  40. 根据权利要求37或38所述的设备,其特征在于,所述提取单元进一步用于:
    根据所述下一帧图像和所述上一个关键帧图像的位置和/或姿态,得到相机拍摄所述下一帧图像与所述上一个关键帧图像时的位姿关系。
  41. 根据权利要求36至40中任一项所述的设备,其特征在于,所述多帧图像是连续的多帧运动姿态变化量小于或等于第三阈值的图像。
  42. 根据权利要求36至41中任一项所述的设备,其特征在于,所述确定单元进一步用于:
    从所述多个关键帧图像中选择多个待处理的特征点;
    计算所述多个待处理的特征点中每个待处理的特征点在所述多个关键帧图像之间的相对位置,以及计算相机拍摄每个关键帧图像时的位姿;
    根据所述每个待处理的特征点在所述多个关键帧图像之间的相对位置,以及相机拍摄所述每个关键帧图像时的位姿,确定所述每个待处理的特征点的深度信息。
  43. 根据权利要求42所述的设备,其特征在于,所述确定单元进一步用于:
    从所述多个关键帧图像中选择多个初始特征点;
    计算所述多个初始特征点中每个初始特征点从第一关键帧图像到第二关键帧图像的第一光流;
    计算所述每个初始特征点从所述第二关键帧图像到所述第一关键帧图像的第二光流;
    将所述第一光流与所述第二光流之和的绝对值小于等于第四阈值对应的初始特征点,确定为所述待处理的特征点。
  44. 根据权利要求42或43所述的设备,其特征在于,所述确定单元进一步用于:
    利用集束调整算法,计算所述每个待处理的特征点在所述多个关键帧图像之间的相对位置,以及相机拍摄所述每个关键帧图像时的位姿。
  45. 根据权利要求44所述的设备,其特征在于,所述确定单元进一步用于:
    将初始计算的位姿关系作为初始值,利用所述集束调整算法,计算所述每个待处理的特征点在所述多个关键帧图像之间的相对位置,以及相机拍摄所述每个关键帧图像时的位姿;
    其中,所述初始计算的位姿关系是相机拍摄所述多个关键帧图像时的位姿关系,且是利用视觉里程计、惯性测量单元和全球定位系统中的至少一种得到的。
  46. 根据权利要求44或45所述的设备,其特征在于,所述确定单元进一步用于:
    利用初始计算的位姿关系,对利用所述集束调整算法计算的位姿中的位移进行缩放;
    其中,所述初始计算的位姿关系是相机拍摄所述多个关键帧图像时的位姿关系,且是利用视觉里程计、惯性测量单元和全球定位系统中的至少一种得到的。
  47. 根据权利要求36至46中任一项所述的设备,其特征在于,所述确定单元进一步用于:
    根据所述多个关键帧图像中的特征点的深度信息,确定所述多个关键帧图像中每个关键帧图像的每个像素位置的深度信息。
  48. 根据权利要求47所述的设备,其特征在于,所述确定单元进一步用于:
    根据所述多个关键帧图像中的特征点的深度信息,使用平均绝对差算法、误差平方和算法、绝对误差和算法、归一化积相关算法、序贯相似性检 测算法或者绝对变换误差和算法,确定所述每个关键帧图像中每个像素位置的深度信息。
  49. 根据权利要求47或48所述的设备,其特征在于,所述设备还包括验证单元,用于:
    利用相机拍摄至少一个关键帧图像与其他关键帧图像时的位姿关系,对所述至少一个关键帧图像中的至少部分像素位置的深度信息进行验证。
  50. 根据权利要求49所述的设备,其特征在于,所述验证单元进一步用于:
    利用第三关键帧图像的第一像素位置的深度信息,得到所述第一像素位置的3D位置;
    根据所述第一像素位置的3D位置,以及相机拍摄所述第三关键帧图像与第四关键帧图像时的位姿关系,得到所述第一像素位置在所述第四关键帧图像对应的第二像素位置;
    比较所述第一像素位置的颜色亮度值,以及所述第二像素位置的颜色亮度值之间的关系;
    根据比较结果,确定所述第一像素位置的深度信息的准确性。
  51. 根据权利要求50所述的设备,其特征在于,所述验证单元进一步用于:
    通过双线性插值运算的方式,得到所述第二像素位置的颜色亮度值。
  52. 根据权利要求50或51的设备,其特征在于,所述验证单元进一步用于:
    在所述第一像素位置的颜色亮度值与所述第二像素位置的颜色亮度值的差值的绝对值大于或等于第五阈值时,确定所述第一像素位置的深度信息不准确。
  53. 根据50至52中任一项所述的设备,其特征在于,所述验证单元进一步用于:
    在所述第三关键帧图像中的像素位置深度信息不准确的比例大于或等于第六阈值时,放弃计算得到的所述第三关键帧图像的深度信息。
  54. 一种图像处理设备,其特征在于,包括获取单元和确定单元;其中,
    所述获取单元用于:获取单目摄像头拍摄的多帧图像;
    所述确定单元用于:利用相机拍摄所述多帧图像时的位姿,计算所述多 帧图像中的特征点的深度信息;根据所述多帧图像中的特征点的深度信息,确定所述多帧图像中每帧图像的每个像素的深度信息。
  55. 根据权利要求54所述的设备,其特征在于,所述确定单元进一步用于:
    从所述多帧图像中选择多个待处理的特征点;
    计算所述多个待处理的特征点中每个待处理的特征点在所述多帧图像之间的相对位置,以及计算相机在拍摄所述每帧图像时的位姿;
    根据所述每个待处理的特征点在所述多帧图像之间的相对位置,以及相机在拍摄所述每帧图像时的位姿,确定所述每个待处理的特征点的深度信息。
  56. 根据权利要求55所述的设备,其特征在于,所述确定单元进一步用于:
    从所述多帧图像中选择多个初始特征点;
    计算所述多个初始特征点中每个初始特征点从第一图像到第二图像的第一光流;
    计算所述每个初始特征点从所述第二图像到所述第一图像的第二光流;
    将所述第一光流与所述第二光流之和的绝对值小于等于第一阈值对应的初始特征点,确定为所述待处理的特征点。
  57. 根据权利要求54至56中任一项所述的设备,其特征在于,所述确定单元进一步用于:
    利用集束调整算法,计算所述每个待处理的特征点在所述多帧图像之间的相对位置,以及相机拍摄所述每帧图像时的位姿。
  58. 根据权利要求57所述的设备,其特征在于,所述确定单元进一步用于:
    将初始计算的位姿关系作为初始值,利用所述集束调整算法,计算所述每个待处理的特征点在所述多个关键帧图像之间的相对位置,以及相机拍摄所述每帧图像时的位姿;
    其中,所述初始计算的位姿关系是相机拍摄所述多个关键帧图像时的位姿关系,且是利用视觉里程计、惯性测量单元和全球定位系统中的至少一种得到的。
  59. 根据权利要求57或58所述的设备,其特征在于,所述确定单元进 一步用于:
    利用初始计算的位姿关系,对利用所述集束调整算法计算的位姿中的位移进行缩放;
    其中,所述初始计算的位姿关系是相机拍摄所述多帧图像时的位姿关系,且是利用视觉里程计、惯性测量单元和全球定位系统中的至少一种得到的。
  60. 根据权利要求54至59中任一项所述的设备,其特征在于,所述确定单元进一步用于:
    根据所述多帧图像中的特征点的深度信息,使用平均绝对差算法、误差平方和算法、绝对误差和算法、归一化积相关算法、序贯相似性检测算法或者绝对变换误差和算法,确定所述每帧图像中每个像素位置的深度信息。
  61. 根据权利要求54至60中任一项所述的设备,其特征在于,所述设备还包括验证单元,用于:
    利用相机拍摄所述多帧图像中至少一帧图像与其他帧图像时的位姿关系,对所述至少一帧图像中的至少部分像素位置的深度信息进行验证。
  62. 根据权利要求61所述的设备,其特征在于,所述验证单元进一步用于:
    利用第一图像的第一像素位置的深度信息,得到所述第一像素位置的3D位置;
    根据所述第一像素位置的3D位置,以及相机拍摄所述第一图像与第二图像时的位姿关系,得到所述第一像素位置在所述第二图像对应的第二像素位置;
    比较所述第一像素位置的颜色亮度值,以及所述第二像素位置的颜色亮度值之间的关系;
    根据比较结果,确定所述第一像素位置的深度信息的准确性。
  63. 根据权利要求62所述的设备,其特征在于,所述验证单元进一步用于:
    通过双线性插值运算的方式,得到所述第二像素位置的颜色亮度值。
  64. 根据权利要求62或63的设备,其特征在于,所述验证单元进一步用于:
    在所述第一像素位置的颜色亮度值与所述第二像素位置的颜色亮度值 的差值的绝对值大于或等于第二阈值时,确定所述第一像素位置的深度信息不准确。
  65. 根据62至64中任一项所述的设备,其特征在于,所述验证单元进一步用于:
    在所述第一图像中的像素位置深度信息不准确的比例大于或等于第三阈值,放弃计算得到的所述第一图像的深度信息。
  66. 一种图像处理设备,其特征在于,包括获取单元,确定单元和验证单元;其中,
    所述获取单元用于:获取单目摄像头拍摄的多帧图像;
    所述确定单元用于:利用相机拍摄所述多帧图像时的位姿,确定所述多帧图像中每帧图像的每个像素的深度信息;
    所述验证单元用于:利用相机拍摄所述多帧图像中至少一帧图像与其他帧图像时的位姿关系,对至少一帧图像中的至少部分像素位置的深度信息进行验证。
  67. 根据权利要求66所述的设备,其特征在于,所述验证单元进一步用于:
    利用第一图像的第一像素位置的深度信息,得到所述第一像素位置的3D位置;
    根据所述第一像素位置的3D位置,以及相机拍摄所述第一图像与第二图像时的位姿关系,得到所述第一像素位置在所述第二图像对应的第二像素位置;
    比较所述第一像素位置的颜色亮度值,以及所述第二像素位置的颜色亮度值之间的关系;
    根据比较结果,确定所述第一像素位置的深度信息的准确性。
  68. 根据权利要求67所述的设备,其特征在于,所述验证单元进一步用于:
    通过双线性插值运算的方式,得到所述第二像素位置的颜色亮度值。
  69. 根据权利要求67或68的设备,其特征在于,所述验证单元进一步用于:
    在所述第一像素位置的颜色亮度值与所述第二像素位置的颜色亮度值的差值的绝对值大于或等于第二阈值时,确定所述第一像素位置的深度信息 不准确。
  70. 根据权利要求67至69中任一项所述的设备,其特征在于,所述验证单元进一步用于:
    在所述第一图像中的像素位置深度信息不准确的比例大于或等于第三阈值,放弃计算得到的所述第一图像的深度信息。
PCT/CN2017/113771 2017-11-30 2017-11-30 图像处理方法和设备 WO2019104571A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/CN2017/113771 WO2019104571A1 (zh) 2017-11-30 2017-11-30 图像处理方法和设备
CN201780014507.4A CN108780577A (zh) 2017-11-30 2017-11-30 图像处理方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2017/113771 WO2019104571A1 (zh) 2017-11-30 2017-11-30 图像处理方法和设备

Publications (1)

Publication Number Publication Date
WO2019104571A1 true WO2019104571A1 (zh) 2019-06-06

Family

ID=64034076

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2017/113771 WO2019104571A1 (zh) 2017-11-30 2017-11-30 图像处理方法和设备

Country Status (2)

Country Link
CN (1) CN108780577A (zh)
WO (1) WO2019104571A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111665826A (zh) * 2019-03-06 2020-09-15 北京奇虎科技有限公司 基于激光雷达与单目相机的深度图获取方法及扫地机器人
CN109947886B (zh) * 2019-03-19 2023-01-10 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及存储介质
CN111754543B (zh) * 2019-03-29 2024-03-29 杭州海康威视数字技术股份有限公司 图像处理方法、装置及系统
CN110070577B (zh) * 2019-04-30 2023-04-28 电子科技大学 基于特征点分布的视觉slam关键帧与特征点选取方法
WO2020257999A1 (zh) * 2019-06-25 2020-12-30 深圳市大疆创新科技有限公司 图像处理方法、装置、云台和存储介质
CN110428452B (zh) * 2019-07-11 2022-03-25 北京达佳互联信息技术有限公司 非静态场景点的检测方法、装置、电子设备及存储介质
CN112204946A (zh) * 2019-10-28 2021-01-08 深圳市大疆创新科技有限公司 数据处理方法、装置、可移动平台及计算机可读存储介质
CN113643342B (zh) * 2020-04-27 2023-11-14 北京达佳互联信息技术有限公司 一种图像处理方法、装置、电子设备及存储介质
CN111860224A (zh) * 2020-06-30 2020-10-30 北京百度网讯科技有限公司 图像处理的方法、装置、电子设备和计算机可读存储介质
WO2023272524A1 (zh) * 2021-06-29 2023-01-05 深圳市大疆创新科技有限公司 双目拍摄装置及确定其观测深度的方法、装置、可移动平台

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537709A (zh) * 2014-12-15 2015-04-22 西北工业大学 一种基于位姿变化的实时三维重建关键帧确定方法
CN105069804A (zh) * 2015-08-21 2015-11-18 清华大学 基于智能手机的三维模型扫描重建方法
CN105654492A (zh) * 2015-12-30 2016-06-08 哈尔滨工业大学 基于消费级摄像头的鲁棒实时三维重建方法
CN105678754A (zh) * 2015-12-31 2016-06-15 西北工业大学 一种无人机实时地图重建方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101256673A (zh) * 2008-03-18 2008-09-03 中国计量学院 用于在实时视频跟踪系统中跟踪手臂运动的方法
EP2424422B1 (en) * 2009-04-29 2019-08-14 Koninklijke Philips N.V. Real-time depth estimation from monocular endoscope images
CN102841733B (zh) * 2011-06-24 2015-02-18 株式会社理光 虚拟触摸屏系统以及自动切换交互模式的方法
CN102708569B (zh) * 2012-05-15 2015-10-28 东华大学 基于svm模型的单目红外图像深度估计方法
CN102903096B (zh) * 2012-07-04 2015-06-17 北京航空航天大学 一种基于单目视频的对象深度提取方法
US9713982B2 (en) * 2014-05-22 2017-07-25 Brain Corporation Apparatus and methods for robotic operation using video imagery
CN104318569B (zh) * 2014-10-27 2017-02-22 北京工业大学 基于深度变分模型的空间显著性区域提取方法
CN104732518B (zh) * 2015-01-19 2017-09-01 北京工业大学 一种基于智能机器人地面特征的ptam改进方法
US20170171525A1 (en) * 2015-12-14 2017-06-15 Sony Corporation Electronic system including image processing unit for reconstructing 3d surfaces and iterative triangulation method
CN105809687B (zh) * 2016-03-08 2019-09-27 清华大学 一种基于图像中边沿点信息的单目视觉测程方法
CN106780569A (zh) * 2016-11-18 2017-05-31 深圳市唯特视科技有限公司 一种人体姿态估计行为分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537709A (zh) * 2014-12-15 2015-04-22 西北工业大学 一种基于位姿变化的实时三维重建关键帧确定方法
CN105069804A (zh) * 2015-08-21 2015-11-18 清华大学 基于智能手机的三维模型扫描重建方法
CN105654492A (zh) * 2015-12-30 2016-06-08 哈尔滨工业大学 基于消费级摄像头的鲁棒实时三维重建方法
CN105678754A (zh) * 2015-12-31 2016-06-15 西北工业大学 一种无人机实时地图重建方法

Also Published As

Publication number Publication date
CN108780577A (zh) 2018-11-09

Similar Documents

Publication Publication Date Title
WO2019104571A1 (zh) 图像处理方法和设备
CN107747941B (zh) 一种双目视觉定位方法、装置及系统
Tanskanen et al. Live metric 3D reconstruction on mobile phones
WO2020014909A1 (zh) 拍摄方法、装置和无人机
WO2021043213A1 (zh) 标定方法、装置、航拍设备和存储介质
WO2020113423A1 (zh) 目标场景三维重建方法、系统及无人机
US11057604B2 (en) Image processing method and device
CN110022444B (zh) 无人飞行机的全景拍照方法与使用其的无人飞行机
CN110717861B (zh) 图像拼接方法、装置、电子设备和计算机可读存储介质
US20180276863A1 (en) System and method for merging maps
CN111127524A (zh) 一种轨迹跟踪与三维重建方法、系统及装置
WO2022021027A1 (zh) 目标跟踪方法、装置、无人机、系统及可读存储介质
TW201904643A (zh) 控制裝置、飛行體以及記錄媒體
WO2023005457A1 (zh) 位姿计算方法和装置、电子设备、可读存储介质
CN111623773B (zh) 一种基于鱼眼视觉和惯性测量的目标定位方法及装置
WO2019127306A1 (en) Template-based image acquisition using a robot
WO2021081774A1 (zh) 一种参数优化方法、装置及控制设备、飞行器
WO2021043214A1 (zh) 一种标定方法、装置及飞行器
WO2020024182A1 (zh) 一种参数处理方法、装置及摄像设备、飞行器
CN112204946A (zh) 数据处理方法、装置、可移动平台及计算机可读存储介质
CN107749069B (zh) 图像处理方法、电子设备和图像处理系统
WO2020019175A1 (zh) 图像处理方法和设备、摄像装置以及无人机
CN116007609A (zh) 一种多光谱图像和惯导融合的定位方法和计算系统
Wang et al. LF-VIO: A visual-inertial-odometry framework for large field-of-view cameras with negative plane
WO2021217450A1 (zh) 目标跟踪方法、设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17933471

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17933471

Country of ref document: EP

Kind code of ref document: A1