WO2020019175A1 - 图像处理方法和设备、摄像装置以及无人机 - Google Patents

图像处理方法和设备、摄像装置以及无人机 Download PDF

Info

Publication number
WO2020019175A1
WO2020019175A1 PCT/CN2018/096905 CN2018096905W WO2020019175A1 WO 2020019175 A1 WO2020019175 A1 WO 2020019175A1 CN 2018096905 W CN2018096905 W CN 2018096905W WO 2020019175 A1 WO2020019175 A1 WO 2020019175A1
Authority
WO
WIPO (PCT)
Prior art keywords
image frame
depth information
pixel point
camera
pixel
Prior art date
Application number
PCT/CN2018/096905
Other languages
English (en)
French (fr)
Inventor
林毅
周游
朱振宇
Original Assignee
深圳市大疆创新科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳市大疆创新科技有限公司 filed Critical 深圳市大疆创新科技有限公司
Priority to PCT/CN2018/096905 priority Critical patent/WO2020019175A1/zh
Priority to CN201880039085.0A priority patent/CN110800023A/zh
Publication of WO2020019175A1 publication Critical patent/WO2020019175A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C11/00Photogrammetry or videogrammetry, e.g. stereogrammetry; Photographic surveying
    • G01C11/04Interpretation of pictures
    • G01C11/06Interpretation of pictures by comparison of two or more pictures of the same area
    • G01C11/08Interpretation of pictures by comparison of two or more pictures of the same area the pictures not being supported in the same relative position as when they were taken

Definitions

  • the present application relates to the field of image processing, and more particularly, to an image processing method, an image processing device, a computer-readable storage medium, an imaging device, and a drone.
  • drones are being used in more and more scenarios.
  • drones need to have certain positioning capabilities and environmental awareness capabilities.
  • drones can use a camera to locate and sense the environment. For example, they can analyze the pictures taken by the camera to locate and sense.
  • the drone's computing platform has limited capabilities, and how to reduce the amount of calculation in terms of positioning and environmental awareness using a camera is an urgent issue.
  • the embodiments of the present application provide an image processing method, an image processing device, a computer-readable storage medium, a camera device, and a drone, which can reduce the amount of calculation in terms of positioning and environmental perception by using a camera.
  • an image processing method including: acquiring a relative distance of a camera when shooting a first image frame and a second image frame; determining a plurality of candidate depth information based on the relative distance; The posture relationship of the camera during the image frame and the second image frame, from the plurality of candidate depth information, depth information is selected for pixels in the first image frame.
  • an image processing device including: an acquisition unit configured to acquire a relative distance of a camera when a first image frame and a second image frame are captured; and a determination unit configured to determine a plurality of distances based on the relative distance.
  • Candidate depth information a selecting unit, configured to be the first image frame from the plurality of candidate depth information based on a posture relationship of the camera when the first image frame and the second image frame are captured The pixels in the selection depth information.
  • an image processing device including a memory and a processor; the memory is configured to store a computer program, the processor is configured to call an instruction stored in the memory, and execute the method described in claim 1 method.
  • a computer-readable storage medium for storing a computer program, the computer program causing a computer to execute the method described in the first aspect.
  • an imaging device including a camera and a processor; the camera is configured to acquire an image frame, and the processor is configured to perform the following operations based on the image frame acquired by the camera: acquiring and photographing a first image frame The relative distance between the camera and the second image frame; determining a plurality of candidate depth information based on the relative distance; based on the posture relationship of the camera when the first image frame and the second image frame are taken, From the plurality of candidate depth information, depth information is selected for pixels in the first image frame.
  • a drone including a power system, a sensing system, and a processor; wherein the power system is used to provide power to the drone; and the sensing system includes a camera for Taking an image frame; the processor is configured to calculate depth information based on the image frame captured by the camera to control the flight of the drone, wherein the processor is specifically configured to: obtain a first image frame and a second image; The relative distance of the camera during the image frame; determining a plurality of candidate depth information based on the relative distance; and based on the posture relationship of the camera when shooting the first image frame and the second image frame, from the camera Among the plurality of candidate depth information, depth information is selected for pixels in the first image frame.
  • multiple candidate depth information is determined based on the relative distance of the camera when the first image frame and the second image frame are captured, and based on when the first image frame and the second image frame are captured.
  • the positional relationship of the camera selects depth information for the pixels in the first image frame from the plurality of candidate depth information, because the positional relationship between the first image frame and the second image frame is used
  • Calculating depth information can simplify the calculation of depth information and avoid the use of bundle adjustment (BA) algorithm or time localization and map construction (simultaneous localization and mapping) (SLAM) for positioning or environmental awareness.
  • BA bundle adjustment
  • SLAM time localization and map construction
  • FIG. 1 is a schematic diagram of an unmanned flight system according to an embodiment of the present application.
  • FIG. 2 is a schematic flowchart of an image processing method according to an embodiment of the present application.
  • FIG. 3 is a schematic diagram of a virtual plane corresponding to candidate depth information according to an embodiment of the present application.
  • FIG. 4 is a schematic diagram of an interpolation operation according to an embodiment of the present application.
  • FIG. 5 is a schematic diagram of a depth information verification method according to an embodiment of the present application.
  • FIG. 6 is a schematic block diagram of an image processing apparatus according to an embodiment of the present application.
  • FIG. 7 is a schematic block diagram of an image processing apparatus according to an embodiment of the present application.
  • FIG. 8 is a schematic block diagram of an imaging apparatus according to an embodiment of the present application.
  • FIG. 9 is a schematic block diagram of a drone according to an embodiment of the present application.
  • a component when a component is “fixedly connected” or “connected” to another component, or a component is “fixed” to another component, it may be directly on the other component, or There can be centered components.
  • the embodiments of the present invention can be applied to various types of mobile devices.
  • the movable device in the embodiment of the present invention can be moved in any suitable environment, for example, in the air (for example, a fixed-wing aircraft, a rotorcraft, or an aircraft without both fixed-wing and rotorcraft), underwater (for example, a ship or Submarines), on land (e.g., a car or train), space (e.g., a space plane, satellite, or probe), and any combination of the above.
  • the mobile device may be an airplane, such as an unmanned aerial vehicle ("UAV").
  • UAV unmanned aerial vehicle
  • the mobile device may carry a living body, such as a human or animal.
  • the following describes an unmanned aerial system including an unmanned aerial vehicle in conjunction with FIG. 1. This embodiment is described by taking a rotorcraft as an example.
  • the unmanned aerial system 100 may include a UAV 110, a carrier 120, a display device 130, and a remote control device 140.
  • the UAV 110 may include a power system 150, a flight control system 160, and a chassis 170. UAV 110 can perform wireless communication with remote control device 140 and display device 130.
  • the chassis 170 may include a fuselage and a tripod (also referred to as a landing gear).
  • the fuselage may include a center frame and one or more arms connected to the center frame, and one or more arms extend radially from the center frame.
  • the tripod is connected to the fuselage and is used to support the UAV 110 when landing.
  • the power system 150 may include an electronic governor (referred to as an ESC) 151, one or more propellers 153, and one or more electric motors 152 corresponding to the one or more propellers 153, where the electric motor 152 is connected to the electronic governor Between 151 and the propeller 153, the motor 152 and the propeller 153 are arranged on the corresponding arms; the electronic governor 151 is used to receive the driving signal generated by the flight controller 160, and provides a driving current to the motor 152 according to the driving signal to control The speed of the motor 152.
  • the motor 152 is used to drive the propeller to rotate, so as to provide power for UAV 110's flight, and this power enables UAV 110 to achieve one or more degrees of freedom.
  • the motor 152 may be a DC motor or an AC motor.
  • the motor 152 may be a brushless motor or a brushed motor.
  • the flight control system 160 may include a flight controller 161 and a sensing system 162.
  • the sensing system 162 is used to measure the attitude information of the UAV.
  • the sensing system 162 may include, for example, a gyroscope, an electronic compass, an IMU (Inertial Measurement Unit), a vision sensor (for example, a monocular camera or a dual / multiple camera, etc.), a GPS (Global Positioning System, Global Positioning System) ), Barometer, and visual inertial odometry sensor.
  • the flight controller 161 is used to control the flight of the UAV 110. For example, the flight controller 161 may control the flight of the UAV 110 according to the attitude information measured by the sensing system 162.
  • the carrier 120 may be used to carry a load 180.
  • the load 180 may be a photographing device (for example, a camera, a video camera, etc.), and the embodiments of the present application are not limited thereto.
  • the carrier may also be used to carry a weapon or other load. Bearer equipment.
  • the display device 130 is located on the ground side of the unmanned flight system 100, and can communicate with the UAV 110 wirelessly, and can be used to display the attitude information of the UAV 110.
  • the load 123 is a shooting device
  • an image captured by the shooting device may also be displayed on the display device 130.
  • the display device 130 may be an independent device or may be provided in the remote control device 140.
  • the remote control device 140 is located on the ground side of the unmanned flight system 100, and can communicate with the UAV 110 wirelessly for remote control of the UAV 110.
  • the remote control device may be, for example, a remote controller or a remote control device installed with an APP (Application, Application) for controlling UAV, for example, a smart phone, a tablet computer, or the like.
  • APP Application, Application
  • receiving a user's input through a remote control device may refer to controlling a UAV through an input device such as a wheel, a button, a button, a joystick on the remote control or a user interface (UI) on the remote control device.
  • UI user interface
  • the embodiments of the present invention can be applied to other vehicles with cameras, such as virtual reality (VR) / augmented reality (AR) glasses and other devices.
  • VR virtual reality
  • AR augmented reality
  • FIG. 2 is a schematic flowchart of an image processing method 200 according to an embodiment of the present application.
  • the first image frame and the second image frame in the method 200 may be taken by a monocular camera at different positions.
  • the calculation of the depth map of the image frame by using the positional relationship such as the relative distance between the monocular cameras when capturing the image frame can improve the accuracy of positioning and environmental perception, while reducing resource consumption and saving costs.
  • the binocular / multi-eye vision module is used for positioning and environmental perception, it consists of two or more cameras spaced a certain distance apart, and the three-dimensional depth information is calculated based on the difference between the photos taken by the two cameras at the same time. The rotation and position between the eye cameras directly affect the effective range and accuracy of their measurement, so the dual / multi-eye vision module has higher structural requirements.
  • a monocular camera that is not structured light also has the characteristics of light weight, small size, low price and low power consumption. If the images taken by the monocular camera are used for instant localization and mapping (SLAM), then causes relatively large resource consumption, which is difficult to achieve on drones.
  • SLAM instant localization and mapping
  • the positional relationship between the image frames captured by the monocular camera can be used to calculate the depth map of the image frames, which can improve the accuracy of positioning and environmental perception while reducing resource consumption and saving costs. .
  • first image frame and the second image frame in the method 200 may also be taken by a binocular or multi-eye camera at the same time or at different times, which is not specifically limited in this embodiment of the present application.
  • the pose relationship mentioned in the embodiments of the present application may be determined by a position relationship (which may be referred to as translation transformation and position transformation, etc.) and / or a rotation relationship (which may also be referred to as rotation transformation, etc.) when the camera captures an image frame. Characterization.
  • t (t x , t y , t z ) T
  • t x , t y, and t z may respectively represent the moving distances in three directions in three dimensions.
  • the rotation relationship mentioned above can be characterized by the rotation angle, and the rotation angle ⁇ can be calculated by the following formula 1 in combination with the quaternion:
  • the posture relationship represented by Equations 1 and 2 is only an optional implementation manner. There may be other implementation manners for the posture relationship in the embodiments of the present application.
  • the rotation angle may be obtained by Euler angles. Calculation, this embodiment of the present application does not specifically limit this.
  • the posture relationship mentioned in the embodiment of the present application may be obtained from output data of a visual inertial odometry (VIO) on a camera bearing device.
  • VIO visual inertial odometry
  • the VIO algorithm uses a multi-eye fusion solution to solve the pose relationship when shooting different image frames, and the result is calculated relative to the bundle adjustment algorithm (Bundle Adjustment) (BA) calculation of the image frames taken by the camera (for example, a monocular camera)
  • BA bundle Adjustment
  • the posture relationship is more stable and reliable, and the robustness is better.
  • the image processing device acquires the relative distance of the camera when the first image frame and the second image frame are captured.
  • a second image frame may be obtained from the captured image frame, and is used to subsequently combine the second image frame to obtain the first image frame.
  • the depth information of the pixels is used to generate the depth information of the first image frame.
  • a second image frame needs to be selected, and at this time, filtering can be performed from the captured image frames as an image for calculating depth information.
  • Sequence if all the captured image frames are used to calculate the depth information of the first image frame, one will lead to a large amount of calculations, and the other is a high probability of errors, but will bias the correct results, which It is because the motion between the first image frame and the selected second image frame is appropriate, so that a better result can be calculated.
  • the image processing device may select the second image frame from the captured image frames based on the posture relationship of the camera when the first image frame and other captured image frames are captured.
  • the pose relationship of the camera satisfies the following conditions:
  • the rotation angle change is less than or equal to the first threshold; and / or,
  • the position change is greater than or equal to a second threshold.
  • the pose relationship of the camera when shooting the first image frame and the second image frame can satisfy the conditions expressed by the following Equations 3 and 4:
  • t th is a distance threshold and ⁇ th is an angle threshold. What is expressed here is that when the first image frame and the second image frame are captured, the displacement between the cameras is greater than a certain value and the rotation angle is less than a certain value.
  • the amount of change mentioned in the embodiments of the present application is less than or equal to a specific value, or the absolute value of a value is less than or equal to a specific value, which may mean that the change or the second norm of a value is less than or equal to a specific value.
  • a second image frame may be selected based on the reference image frame, where , The second image frame and the reference image frame satisfy the following conditions: when the second image frame and the reference image frame are captured, the displacement between the cameras is greater than a certain value, and the rotation angle is less than a certain value.
  • the plurality of captured image frames mentioned herein may be captured at different times by using the same monocular camera as the first image frame.
  • the sensor is set to 20Hz fixed exposure, so an image frame will be obtained every 50ms.
  • This image frame can be called the original image sequence, and VIO will calculate the image frame and other images.
  • the pose relationship of the monocular camera when a frame (for example, a previous image frame or a specific image frame) is used, so that an image frame for calculating depth information of the current image frame can be selected based on the calculated pose relationship.
  • the image processing device may obtain the pose of the image frame according to the data output by the VIO (where the pose is The pose of the image frame relative to a certain image frame), the image frame that has been taken before is searched for the image frame that meets the conditions (for example, the conditions expressed by Equations 3 and 4 above), that is, the second image mentioned above A frame, where an image frame that meets a condition closest to the new image frame in time can be selected as the second image frame, or one image frame can be randomly selected as a second image frame from a plurality of eligible image frames .
  • the conditions for example, the conditions expressed by Equations 3 and 4 above
  • the exposure parameters when the camera captures the first image frame and the second image frame may be the same, for example, the exposure time and the exposure gain may be the same.
  • the image processing device determines a plurality of candidate depth information based on the relative distance of the cameras when the first image frame and the second image frame are captured.
  • the i-th candidate depth information z i among the plurality of (n) candidate depth information is obtained by the following formula 5:
  • i 0,1,2, ..., n-1
  • f the focal length of the camera
  • l the relative distance
  • the focal length of the camera is the same.
  • Equation 5 can be understood as follows. That is, as shown in FIG. 3, there can be n virtual planes, and each virtual plane can correspond to one depth information.
  • the number of candidate depth information (which can also be understood as the number of virtual planes shown in FIG. 3) may be adjustable, and may specifically be related to the required accuracy of the depth map. If a higher-precision depth map is required, the number can be set larger, that is, the value of n is larger. If a lower-precision depth map is required, the number can be set smaller, that is, the above. The value of n is small.
  • the relative distance between the monocular cameras when capturing the first and second image frames can be referred to as the virtual baseline of the monocular camera. ).
  • the image processing device selects depth information for pixels in the first image frame. .
  • the image processing device may generate and / or output a depth map of the first image frame for use in a drone. Obstacle avoidance and / or environmental awareness.
  • the image processing device may, based on the pose relationship of the camera when shooting the first image frame and the second image frame, and respectively combine the plurality of candidate depth information, the pixel points in the first image frame are oriented to The second image frame is projected; based on the pixel information of the first pixel point (which may be any pixel point in the first image frame) in the first image frame, and the corresponding position when projecting different depth information in combination with the candidate The pixel information of the pixel point is selected from the plurality of candidate depth information for the first pixel point.
  • H ik may be constructed as shown in the following formula 6:
  • R [r i.1 , r i.2 , r i.3 ] represents the rotation vector of the camera in three directions in three-dimensional space when the first image frame and the second image frame are captured
  • t [T i, 1 , t i, 2 , t i, 3 ] represents the translation vector of the camera in three directions in three-dimensional space when shooting the first image frame and the second image frame
  • w k 1 / z i
  • K Represents the camera's internal parameter matrix.
  • the image processing device may use H ik to project pixels of the first image frame to the second image frame, and each pixel point in the first image frame may correspond to a pixel position in the second image frame.
  • the difference between the pixel information of the pixel and the pixel information of the pixel at the corresponding position when projecting using the candidate depth information z i can be used to calculate the correspondence of multiple candidate depth information. After the difference, the depth information is selected for the first pixel point from the plurality of candidate depth information.
  • the aforementioned pixel information may be pixel values, grayscale information (in this case, the image frame may be a grayscale image, where the grayscale information may specifically be a brightness value), or color information (in this case, the image frame may be (Color map) and so on.
  • the image processing device may use Mean Absolute Differences (MAD), Sum of Squared Differences (SSD), and Sum of Absolute Difference (SAD), Normalized Cross Correlation (NCC), Sequential Similiarity Detection Algorithm (SSDA), or Sum of Absolute Transformed Difference (SATD)
  • MAD Mean Absolute Differences
  • SSD Sum of Squared Differences
  • SAD Sum of Absolute Difference
  • NCC Normalized Cross Correlation
  • SSDA Sequential Similiarity Detection Algorithm
  • SATD Sum of Absolute Transformed Difference
  • the image processing device may be the first pixel based on the difference between the pixel information of the first pixel point and the pixel information of the pixel point at the corresponding position when projecting with different candidate depth information.
  • Point to construct a first cost function and based on the first cost function corresponding to the plurality of candidate depth information, the depth information is selected for the first pixel point from the plurality of candidate depth information.
  • the first cost function can be calculated using the following Equation 7:
  • k 0,1,2, ..., n-1
  • p u and p v represent the abscissa u and ordinate v of a point p on the image frame
  • f (i, j) represents the first A value corresponding to pixel information of one pixel point
  • g (i, j) represents a value corresponding to pixel information of a pixel point at a corresponding position in the second image frame.
  • the first pixel function is selected from the plurality of candidate depth information for the first pixel based on the first cost function corresponding to the plurality of candidate depth information and based on the second cost function.
  • Depth information wherein the second cost function is a cost function constructed for the second pixel point in the first image frame; and when the second pixel point is a pixel point corresponding to a fixed occlusion region of the camera, the The value of the second cost function is greater than or equal to a preset value.
  • the image processing device can know in advance the area where it is located (the area where the arms and blades will appear. Because the aircraft structure is fixed, it will appear in the image
  • SGBM semi-global block matching
  • p-r refers to the adjacent pixel points of the pixel point p in a certain direction pointing to the current pixel point p.
  • L r (p, d) represents the minimum cost value when the parallax (inversely proportional to the depth information) of the current pixel point p is set to d along the current direction.
  • this minimum value can be selected from the four possible candidate values:
  • the first type may be the smallest cost value when the parallax value of the current pixel is equal to the previous pixel.
  • the second and third types may be the smallest substitution value + penalty coefficient P 1 when the disparity value between the current pixel and the previous pixel is 1 (more 1 or less 1).
  • the fourth possibility is that when the difference between the disparity value of the current pixel and the previous pixel is greater than 1, its smallest cost value + penalty coefficient P 2 .
  • the multiple directions such as the cumulative value of the value of 8 directions, can be selected as the depth information of the pixel with the smallest accumulated cost value.
  • the following formula can be used: 9 for accumulation:
  • the image processing device may set the depth information of the pixels corresponding to the sky in the first image frame to infinity, or set the pixels corresponding to the sky as invalid points.
  • the depth information of at least some pixels in the first image frame may be verified.
  • the image processing device may obtain depth information of pixels of the second image frame; and use depth information of pixels of the second image frame to verify depth information of pixels of the first image frame.
  • the second image frame is used as the reference frame to calculate the depth information of each pixel of the first image frame.
  • the first image frame may be used as the reference frame to calculate the respective pixel points of the second image frame.
  • the depth information please refer to the description above. For brevity, we will not repeat them here.
  • the first image frame and the second image frame can be used to calculate the depth information, and avoiding the use of more image frames to calculate the depth information. This is because for a monocular camera, the longer the interval between image frames, the greater the uncertainty, but in order to further improve the accuracy of the depth calculation using two image frames, the depth information can be verified.
  • the image processing device uses the posture relationship of the camera when shooting the first image frame and the second image frame, and the depth information of the pixels of the second image frame to the The depth information of the pixels of the first image frame is verified.
  • the verification of the depth information in the embodiments of the present application may exclude pixel points corresponding to the dynamic objects in the first image frame.
  • Equations 10 and 11 show the mathematical relationship of the projection transformation:
  • p is a pixel point on the pixel coordinate system of the first image frame
  • p ′ is a point after the projection transformation, that is, a point corresponding to p on the pixel coordinate system of the second image frame
  • P c is the camera coordinate system A three-dimensional (3D) point (also referred to as a 3D position) corresponding to p.
  • d is the depth information corresponding to point p
  • R is the rotation relationship matrix of the second image frame relative to the first image frame
  • t is the displacement relationship matrix of the second image frame relative to the first image frame.
  • [x, y, z] T is the 3D point corresponding to p on the camera plane physical coordinate system, and the point p 'of the pixel coordinate system can be obtained after the dimension reduction.
  • the camera model can be characterized as the following formula 12:
  • [u, v, 1] T represents a 2D point in pixel coordinates
  • [x w , y w , z w ] T represents a 3D point in the world coordinate system
  • matrix K represents a camera calibration matrix, That is, the internal parameters (Intrinsic Parameters) of each camera are identified
  • R is the rotation matrix
  • T is the displacement matrix
  • R and T are the camera ’s external parameters, the Extrinsic Matrix, which expresses the rotation and displacement of the world coordinate system to the camera coordinate system in three dimensions Transform.
  • K may represent 5 internal parameters, that is, K may be represented by the following formula 13:
  • ⁇ x fm x
  • ⁇ y fm y
  • f focal length
  • m x and m y are respectively x, y directions, and number of pixels per unit distance (scale factors)
  • is x
  • y Skew parameters between the axes, ⁇ 0 , and v 0 are the principal points.
  • Equations 10 and 11 consider the relative position and rotation of the camera when shooting two image frames. If the object itself moves, then equations 10 and 11 will not hold. Features on dynamic objects will result in incorrect depth calculations due to mismatching. However, since the probability of the first image frame and the second image frame being the same as the depth image is very low, you can use the contradiction method, assuming the first image frame and the second image frame. The depth information and pose relationship of the image frame are correct, and based on Equations 10 and 11, the depth information of the first image frame can be verified.
  • the image processing device may determine the first pixel point according to pixel coordinates of a third pixel point (which may be a pixel point in the first image frame) in the first image frame and depth information of the third pixel point. Based on the 3D position of the third pixel point and the pose relationship of the camera when shooting the first image frame and the second image frame, to obtain the third pixel point corresponding to the second image frame.
  • a third pixel point which may be a pixel point in the first image frame
  • the depth information of the fourth pixel point may be obtained by performing interpolation operations on the surrounding pixels.
  • the depth information of the pixel point (x1, y1), (x1, y2), (x2, y1), and (x2, y2) can be obtained. Obtained by interpolation.
  • the grayscale information of the third pixel point and the fifth pixel point are compared, and specifically, it may be a brightness value at the third pixel point.
  • the absolute value of the difference between the brightness value and the brightness value of the fifth pixel point is greater than or equal to the third threshold value, it is determined that the depth information of the third pixel point is inaccurate.
  • the obtained depth information of the third pixel point is discarded, and the third pixel point may also be set as an invalid point.
  • the depth information of the first image frame may also be discarded.
  • the depth information of K1 may be obtained by using K2 as a reference, and the depth information of K2 may also be obtained by using image frame K1 as a reference. For acquisition.
  • the specific verification process can be shown as follows.
  • the pixel coordinates of p 1 are likely to be decimals, but there are no decimals in the corresponding pixel coordinate system, only integers.
  • Equation 14 the determination method shown in Equation 14 may be adopted.
  • E th is a threshold.
  • the brightness values of the pixels used here may be compared using color information when the image frame is a color map in other embodiments.
  • the depth map to be used (generally the depth map calculated from the latest image, in the present invention, it is the depth map of the image frame k1, although the depth of the image frame k2 is also calculated Map, which can only be used to verify the depth information of the image frame K1)
  • each pixel in it can be verified by the method in method 300. If a pixel meets the conditions of Expression 17, the pixel is considered to be The depth information is calculated incorrectly.
  • the pixels may be dynamic objects, which can be excluded. Then set the depth to infinity on the depth map (usually a large value, such as 10000m) or set it as an invalid point. Therefore, verifying the acquired depth information can avoid the problem of inaccurate positioning and environment perception due to inaccurate depth information.
  • multiple candidate depth information is determined based on the relative distance of the camera when the first image frame and the second image frame are captured, and based on when the first image frame and the second image frame are captured.
  • the positional relationship of the camera selects depth information for the pixels in the first image frame from the plurality of candidate depth information, because the positional relationship between the first image frame and the second image frame is used
  • Calculating depth information can simplify the calculation of depth information and avoid the problem of large resource consumption caused by using BA algorithm or SLAM for positioning or environmental awareness.
  • FIG. 6 is a schematic block diagram of an image processing apparatus 400 according to an embodiment of the present application. As shown in FIG. 6, the image processing device 400 includes:
  • An obtaining unit 410 configured to obtain a relative distance of a camera when shooting a first image frame and a second image frame;
  • a determining unit 420 configured to determine a plurality of candidate depth information based on the relative distance
  • a selecting unit 430 is configured to select depth information for pixels in the first image frame from the plurality of candidate depth information based on a posture relationship of the camera when the first image frame and the second image frame are captured.
  • the posture relationship and the relative distance of the camera are obtained based on the following data: visual inertia on the camera ’s bearing device Odometer output data.
  • the obtaining unit 410 is further configured to:
  • the second image frame is selected from a plurality of image frames that have been captured before the first image frame is captured.
  • the pose relationship of the camera satisfies the following conditions:
  • the rotation angle change is less than or equal to the first threshold; and / or,
  • the position change is greater than or equal to a second threshold.
  • the i-th candidate depth information z i of the plurality of candidate depth information is obtained by the following formula:
  • i 0,1,2, ..., n-1
  • f the focal length of the camera
  • l the relative distance
  • the selecting unit 430 is further configured to:
  • the first pixel point is selected from the plurality of candidate depth information. Select the depth information.
  • the selecting unit 430 is further configured to:
  • the depth information is selected for the first pixel point from the plurality of candidate depth information.
  • the selecting unit 430 is further configured to:
  • the depth information is selected for the first pixel point from the plurality of candidate depth information, where the second cost function is A cost function constructed for the second pixel point in the first image frame;
  • the value of the second cost function is greater than or equal to a preset value.
  • the device 400 further includes a verification unit 440, configured to:
  • the depth information of the pixels of the first image frame is verified using the depth information of the pixels of the second image frame.
  • the verification unit 440 is further configured to:
  • the depth information of the pixels of the first image frame is verified by using the posture relationship of the camera when the first image frame and the second image frame are captured, and the depth information of the pixels of the second image frame.
  • the verification unit 440 is further configured to:
  • the accuracy of the depth information of the third pixel point is determined.
  • the first image frame is a grayscale image
  • the verification unit 440 is further configured to:
  • the device 400 further includes a discarding unit 450, configured to:
  • the obtained depth information of the third pixel point is discarded.
  • the device 400 further includes a setting unit 460, configured to:
  • the depth information of the pixels corresponding to the sky in the first image frame is set to infinity, or the pixels corresponding to the sky are set to invalid points.
  • the camera is a monocular camera.
  • the device 400 can implement the corresponding operations in the method 200, and for the sake of brevity, details are not described herein again.
  • FIG. 7 is a schematic block diagram of an image processing apparatus 500 according to an embodiment of the present application.
  • the image processing apparatus 500 may include a plurality of different components, which may be integrated circuits (ICs), or parts of integrated circuits, discrete electronic devices, or other suitable circuit boards (such as a motherboard). , Or add-on board) modules can also be incorporated as part of a computer system.
  • ICs integrated circuits
  • discrete electronic devices such as a PCB
  • suitable circuit boards such as a motherboard
  • add-on board modules can also be incorporated as part of a computer system.
  • the image processing apparatus may include a processor 510 and a memory 520 coupled to the processor 510.
  • the processor 510 may include one or more general-purpose processors, such as a central processing unit (CPU), or a processing device.
  • the processor 510 may be a complex instruction set processing (complex instruction) (CISC) microprocessor, a very long instruction word (VLIW) microprocessor, and microprocessors that implement multiple instruction set combinations.
  • the processor may also be one or more special-purpose processors, such as application-specific integrated circuits (ASICs), field programmable gate arrays (FPGAs), and digital signal processors (digital signal processors). , DSP).
  • ASICs application-specific integrated circuits
  • FPGAs field programmable gate arrays
  • DSP digital signal processors
  • the processor 510 may be in communication with the memory 520.
  • the memory 520 may be a magnetic disk, an optical disk, a read-only memory (ROM), a flash memory, or a phase change memory.
  • the memory 520 may store instructions stored by the processor, and / or may cache some information stored from an external storage device.
  • the memory 520 may be independent of the processor 510, or may be a part of the processor 510.
  • the image processing device may include a display controller and / or a display device unit 530, a transceiver 540, a video input / output unit 550, an audio input / output unit 560, and other input / output units 570.
  • These components included in the image processing apparatus 500 may be interconnected through a bus or an internal connection.
  • the transceiver 540 may be a wired transceiver or a wireless transceiver, such as a WIFI transceiver, a satellite transceiver, a Bluetooth transceiver, a wireless cellular phone transceiver, or a combination thereof.
  • a WIFI transceiver such as a WiFI transceiver, a satellite transceiver, a Bluetooth transceiver, a wireless cellular phone transceiver, or a combination thereof.
  • the video input-output unit 550 may include an image processing subsystem such as a camera, which includes a light sensor, a charged coupled device (CCD) or a complementary metal-oxide semiconductor (CMOS) light. Sensor for shooting functions.
  • an image processing subsystem such as a camera, which includes a light sensor, a charged coupled device (CCD) or a complementary metal-oxide semiconductor (CMOS) light. Sensor for shooting functions.
  • CCD charged coupled device
  • CMOS complementary metal-oxide semiconductor
  • the audio input / output unit 560 may include a speaker, a microphone, a receiver, and the like.
  • the other input / output devices 570 may include a storage device, a universal serial bus (USB) port, a serial port, a parallel port, a printer, a network interface, and the like.
  • USB universal serial bus
  • the image processing device 500 may perform the operations shown in method 200.
  • the image processing device 500 may perform the operations shown in method 200. For brevity, details are not described herein again.
  • the image processing devices 400-500 may be located in a mobile device.
  • the mobile device can be moved in any suitable environment, for example, in the air (e.g., a fixed-wing aircraft, a rotorcraft, or an aircraft with neither a fixed-wing nor a rotor), underwater (for example, a ship or submarine), on land (E.g., a car or train), space (e.g., a space plane, satellite, or probe), and any combination of the above.
  • the mobile device may be an airplane, such as an Unmanned Aerial Vehicle ("UAV" for short) (at this time, the image processing devices 400-500 may be flight controllers in the drone).
  • UAV Unmanned Aerial Vehicle
  • the mobile device may carry a living body, such as a human or animal.
  • FIG. 8 is a schematic block diagram of an imaging apparatus 600 according to an embodiment of the present application.
  • the camera device 600 includes a camera 610 and a processor 620.
  • the camera 610 is configured to acquire an image frame
  • the processor 620 is configured to perform the following operations based on the image frame acquired by the camera: The relative distance of the camera during two image frames; determining multiple candidate depth information based on the relative distance; based on the pose relationship of the camera when shooting the first image frame and the second image frame, Among the plurality of candidate depth information, depth information is selected for pixels in the first image frame.
  • the camera 610 may also be referred to as a camera component, or the camera 610 may be a part of a camera component included in the camera device 600 for acquiring image frames.
  • the processor 620 may be configured to implement the image processing method in the foregoing method embodiments. For brevity, details are not described herein again.
  • the camera device 600 may further include a memory, and the processor 620 may call a program in the memory to execute the image processing method in the foregoing method embodiment.
  • the processor 620 may call a program in the memory to execute the image processing method in the foregoing method embodiment.
  • the memory may be independent of the processor 620, or may be a part of the processor 620.
  • FIG. 9 is a schematic block diagram of a drone 700 according to an embodiment of the present application.
  • the drone 700 may include a power system 710, a sensing system 720, and a processor 730.
  • the power system 710 provides power to the drone 700 under the control of the processor 730;
  • the sensing system 720 includes a camera 722 for capturing image frames; and the processor 730 is used for images based on the camera 722 Frame depth information is calculated to control the flight of the drone 700, wherein the processor 730 is specifically configured to: obtain the relative distance of the camera when shooting the first image frame and the second image frame; based on the relative distance, determine multiple Candidate depth information; based on the posture relationship of the camera when the first image frame and the second image frame are captured, from the plurality of candidate depth information, depth information is selected for pixels in the first image frame.
  • the sensing system 720 further includes a visual inertial odometry 724, wherein the posture relationship and relative distance of the camera 722 when the first image frame and the second image frame are taken are based on the visual inertial odometry 724 output data obtained.
  • the camera 722 may also be referred to as a camera component, or the camera may be a part of a camera component included in the drone for acquiring image frames.
  • the processor 730 may be used to implement the image processing method in the foregoing method embodiments. For brevity, details are not described herein again.
  • the processor 730 may be placed in a flight controller, or may be a flight controller, or may be placed in a camera.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

一种图像处理方法,包括:图像处理设备获取拍摄第一图像帧和第二图像帧时摄像头的相对距离(210);基于拍摄第一图像帧和第二图像帧时摄像头的相对距离,图像处理设备确定多个候选深度信息(220);基于拍摄第一图像帧和第二图像帧时摄像头的位姿关系,从多个候选深度信息中,图像处理设备为第一图像帧中的像素点选择深度信息(230)。还涉及一种计算机可读介质、图像处理设备、摄像装置和无人机。

Description

图像处理方法和设备、摄像装置以及无人机
版权申明
本专利文件披露的内容包含受版权保护的材料。该版权为版权所有人所有。版权所有人不反对任何人复制专利与商标局的官方记录和档案中所存在的该专利文件或者该专利披露。
技术领域
本申请涉及图像处理领域,并且更具体地,涉及一种图像处理方法、图像处理设备、计算机可读存储介质、摄像装置和无人机。
背景技术
随着现代科技的发展,无人机被应用在越来越多的场景中。要达到自动化操作,无人机需要具备一定的定位能力和环境感知能力。
目前无人机可以采用摄像头进行定位和环境感知,例如,可以对摄像头拍摄的图片进行分析来进行定位和感知。
无人机的计算平台能力有限,如何在利用摄像头进行定位和环境感知方面,减少计算量是一项亟待解决的问题。
发明内容
本申请实施例提供一种图像处理方法、图像处理设备、计算机可读存储介质、摄像装置和无人机,可以在利用摄像头进行定位和环境感知方面,减少计算量。
第一方面,提供了一种图像处理方法,包括:获取拍摄第一图像帧和第二图像帧时摄像头的相对距离;基于所述相对距离,确定多个候选深度信息;基于拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,从所述多个候选深度信息中,为所述第一图像帧中的像素点选择深度信息。
第二方面,提供了一种图像处理设备,包括:获取单元,用于获取拍摄第一图像帧和第二图像帧时摄像头的相对距离;确定单元,用于基于所述相对距离,确定多个候选深度信息;选择单元,用于基于拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,从所述多个候选深度信息中, 为所述第一图像帧中的像素点选择深度信息。
第三方面,提供了一种图像处理设备,包括存储器和处理器;所述存储器用于存储计算机程序,所述处理器用于调用所述存储器中存储的指令,执行权利要求第一方面所述的方法。
第四方面,提供了一种计算机可读存储介质,用于存储计算机程序,所述计算机程序使得计算机执行第一方面所述的方法。
第五方面,提供了一种摄像装置,包括摄像头和处理器;所述摄像头用于获取图像帧,所述处理器用于基于所述摄像头获取的图像帧,执行以下操作:获取拍摄第一图像帧和第二图像帧时所述摄像头的相对距离;基于所述相对距离,确定多个候选深度信息;基于拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,从所述多个候选深度信息中,为所述第一图像帧中的像素点选择深度信息。
第六方面,提供了一种无人机,包括动力系统、传感系统和处理器;其中,所述动力系统用于为所述无人机提供动力;所述传感系统包括摄像头,用于拍摄图像帧;所述处理器用于基于所述摄像头拍摄的图像帧计算深度信息,以控制所述无人机的飞行,其中,所述处理器具体用于:获取拍摄第一图像帧和第二图像帧时所述摄像头的相对距离;基于所述相对距离,确定多个候选深度信息;基于拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,从所述多个候选深度信息中,为所述第一图像帧中的像素点选择深度信息。
因此,在本申请实施例中,基于拍摄第一图像帧和第二图像帧时摄像头的相对距离,确定多个候选深度信息,并基于拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,从所述多个候选深度信息中,为所述第一图像帧中的像素点选择深度信息,由于采用的是第一图像帧和第二图像帧的位姿关系来计算深度信息,可以简化深度信息的计算,避免采用集束调整(Bundle Adjustment,BA)算法或时定位与地图构建(simultaneous localization and mapping,SLAM)进行定位或环境感知所带来的资源耗费较大的问题。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技 术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例的无人飞行系统的示意性图。
图2是根据本申请实施例的图像处理方法的示意性流程图。
图3是根据本申请实施例的候选深度信息对应的虚拟平面的示意性图。
图4是根据本申请实施例的插值运算的示意性图。
图5是根据本申请实施例的深度信息验证方法的示意性图。
图6是根据本申请实施例的图像处理设备的示意性框图。
图7是根据本申请实施例的图像处理设备的示意性框图。
图8是根据本申请实施例的摄像装置的示意性框图。
图9是根据本申请实施例的无人机的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中当一组件与另一组件“固定连接”或“连接”,或者,一组件“固定于”另一组件时,它可以直接在另一组件上,或者也可以存在居中的组件。
应理解,本文中的具体的例子只是为了帮助本领域技术人员更好地理解本公开实施例,而非限制本公开实施例的范围。
本发明实施例可以应用于各种类型的可移动设备。本发明实施例中的可移动设备可以在任何合适的环境下移动,例如,空气中(例如,定翼飞机、旋翼飞机,或既没有定翼也没有旋翼的飞机)、水中(例如,轮船或潜水艇)、陆地上(例如,汽车或火车)、太空(例如,太空飞机、卫星或探测器),以及以上各种环境的任何组合。可移动设备可以是飞机,例如无人机(Unmanned Aerial Vehicle,简称为“UAV”)。在一些实施例中,可移动设备可以承载生命体,例如,人或动物。
以下将结合图1对包含无人机的无人飞行系统进行说明。本实施例以旋翼飞行器为例进行说明。
无人飞行系统100可以包括UAV 110、载体120、显示设备130和遥控装置140。其中,UAV 110可以包括动力系统150、飞行控制系统160和机架170。UAV 110可以与遥控装置140和显示设备130进行无线通信。
机架170可以包括机身和脚架(也称为起落架)。机身可以包括中心架以及与中心架连接的一个或多个机臂,一个或多个机臂呈辐射状从中心架延伸出。脚架与机身连接,用于在UAV 110着陆时起支撑作用。
动力系统150可以包括电子调速器(简称为电调)151、一个或多个螺旋桨153以及与一个或多个螺旋桨153相对应的一个或多个电机152,其中电机152连接在电子调速器151与螺旋桨153之间,电机152和螺旋桨153设置在对应的机臂上;电子调速器151用于接收飞行控制器160产生的驱动信号,并根据驱动信号提供驱动电流给电机152,以控制电机152的转速。电机152用于驱动螺旋桨旋转,从而为UAV 110的飞行提供动力,该动力使得UAV 110能够实现一个或多个自由度的运动。应理解,电机152可以是直流电机,也可以交流电机。另外,电机152可以是无刷电机,也可以有刷电机。
飞行控制系统160可以包括飞行控制器161和传感系统162。传感系统162用于测量UAV的姿态信息。传感系统162例如可以包括陀螺仪、电子罗盘、IMU(惯性测量单元,Inertial Measurement Unit)、视觉传感器(例如,单目摄像头或双/多目摄像头等)、GPS(全球定位系统,Global Positioning System)、气压计和视觉惯导里程计等传感器中的至少一种。飞行控制器161用于控制UAV 110的飞行,例如,可以根据传感系统162测量的姿态信息控制UAV 110的飞行。
载体120可以用来承载负载180。例如,当载体120为云台设备时,负载180可以为拍摄设备(例如,相机、摄像机等),本申请的实施例并不限于此,例如,载体也可以是用于承载武器或其它负载的承载设备。
显示设备130位于无人飞行系统100的地面端,可以通过无线方式与UAV 110进行通信,并且可以用于显示UAV 110的姿态信息。另外,当负载123为拍摄设备时,还可以在显示设备130上显示拍摄设备拍摄的图像。 应理解,显示设备130可以是独立的设备,也可以设置在遥控装置140中。
遥控装置140位于无人飞行系统100的地面端,可以通过无线方式与UAV 110进行通信,用于对UAV 110进行远程操纵。遥控装置例如可以是遥控器或者安装有控制UAV的APP(应用程序,Application)的遥控装置,例如,智能手机、平板电脑等。本申请的实施例中,通过遥控装置接收用户的输入,可以指通过遥控器上的拔轮、按钮、按键、摇杆等输入装置或者遥控装置上的用户界面(UI)对UAV进行操控。
除了上述提到的可移动设备,本发明实施例可以应用于其它具有摄像头的载具,例如虚拟现实(Virtual Reality,VR)/增强现实(Augmented Reality,AR)眼镜等设备。
图2是根据本申请实施例的图像处理方法200的示意性流程图。
可选地,方法200中的第一图像帧和第二图像帧可以是由单目摄像头在不同位置拍摄的。
其中,利用拍摄图像帧时单目摄像头之间的相对距离等位姿关系来进行图像帧的深度图的计算,能够在提高定位和环境感知的精度的同时,可以降低资源耗费以及节约成本。
这是由于如果无人机使用结构光摄像头进行定位和环境感知,这种摄像头能够直接获取到图像帧的像素点的深度信息,但是这种摄像头在强光环境下表现很差,容易受到干扰,价格也较为昂贵。另外,如果使用双/多目视觉模块进行定位和环境感知,由间隔一定距离的两个以上摄像头组成,靠着两个摄像头同一时刻拍摄的照片的差异,来计算三维深度信息,但是双/多目摄像头之间的旋转和位置,直接影响了其测量有效的范围和精度,故双/多目视觉模块对于结构要求比较高。因此,在无人机越来越小型化和便携化的今天,结构光摄像头在户外强光环境下易受到干扰,而双/多目视觉模块对结构要求较高,且需要一定的间隔,还需要无遮挡,并不是所有无人机都能够适用。
而非结构光的单目摄像头同时兼有重量轻、体积小、价格低廉和功耗低的特点,如果使用单目摄像头拍摄的图像做即时定位与地图构建(simultaneous localization and mapping,SLAM),则造成资源耗费比较大,在无人机上难以实现。
因此,在方法200中,可以利用单目摄像头拍摄的图像帧之间的位姿关系来进行图像帧的深度图的计算,可以在提高定位和环境感知的精度的同 时,降低资源耗费以及节约成本。
当然,方法200中的该第一图像帧和该第二图像帧也可以是双目或多目摄像头在相同时刻或不同时刻拍摄的,本申请实施例对此不作具体限定。
可选地,本申请实施例提到的位姿关系可以由摄像头拍摄图像帧时的位置关系(可以称为平移变换和位置变换等)和/或旋转关系(也可以称为旋转变换等)来表征。
其中,上述提到的位置关系可以通过相对距离来表征,其中可以通过以下公式1来计算相对距离||t|| 2
Figure PCTCN2018096905-appb-000001
其中,t=(t x,t y,t z) T,t x、t y和t z可以分别表示三维的三个方向的移动距离。
以及,上述提到的旋转关系可以通过旋转角度来表征,可以结合四元数通过以下公式1来计算旋转角度θ:
Figure PCTCN2018096905-appb-000002
其中,q=(q 0,q 1,q 2,q 3),其中,q 0是四元数中实部对应的数值,q 1、q 2和q 3分别表示四元数中虚部对应的数值。
应理解,式1和式2所表现的位姿关系仅仅是一种可选的实现方式,本申请实施例的位姿关系还可以存在其他的实现方式,例如,旋转角度可以通过欧拉角来计算,本申请实施例对此不作具体限定。
可选地,在本申请实施例中,本申请实施例提到的位姿关系可以是由摄像头的承载设备上的视觉惯性里程计(Visual–Inertial Odometry,VIO)的输出数据得到的。其中,VIO算法采用了多目融合方案解算拍摄不同图像帧时的位姿关系,其结果相对于对摄像头(例如,单目摄像头)拍摄的图像帧进行集束调整算法(Bundle Adjustment,BA)计算位姿关系更加稳定可靠,鲁棒性更好。
在110中,图像处理设备获取拍摄第一图像帧和第二图像帧时摄像头的相对距离。
可选地,在本申请实施例中,在摄像头拍摄到第一图像帧之后,可以从已拍摄的图像帧中获取第二图像帧,用于后续结合第二图像帧,来得到第一图像帧中的像素的深度信息,以生成第一图像帧的深度信息。
具体地,在对摄像头(例如,单目摄像头)拍摄的第一图像帧进行深度 计算时,需要选择第二图像帧,此时可以从已拍摄的图像帧中进行筛选,作为计算深度信息的图像序列,如果将所有已拍摄的图像帧都用来计算第一图像帧的深度信息则一是会导致计算量很大,二是错误的可能性很高,反而会把正确的结果带偏,这是由于第一图像帧与选择的第二图像帧之间的运动合适,才能计算出比较好的结果。
从而,图像处理设备可以基于拍摄第一图像帧和其他已拍摄的图像帧时摄像头的位姿关系,从已拍摄的图像帧中选择第二图像帧。
可选地,在本申请实施例中,拍摄该第一图像帧和该第二图像帧时该摄像头的位姿关系满足以下条件:
旋转角度变化小于或等于第一阈值;和/或,
位置变化大于或等于第二阈值。
具体地,针对拍摄第一图像帧和第二图像帧时摄像头的位姿关系可以满足以下式3和式4表达的条件:
Figure PCTCN2018096905-appb-000003
Figure PCTCN2018096905-appb-000004
其中,t th为距离阈值以及θ th为角度阈值,这里表达的是,拍摄第一图像帧和第二图像帧时摄像头之间的位移大于一定值以及旋转角度小于一定值。
应理解,本申请实施例提到的变化量小于或等于特定值,或某值的绝对值小于或等于特定值,可以是指该变化量或某值的二范数小于或等于特定值。
应理解,除了按照式3和式4表征的条件来选择第二图像帧之外,还可以利用其他的实现方式来选择图像帧。
例如,存在一个参考图像帧,在拍摄第一图像帧和该参考图像帧时摄像头之间的位移大于一定值,以及旋转角度小于一定值,则可以基于该参考图像帧选择第二图像帧,其中,该第二图像帧与参考图像帧之间满足以下条件:在拍摄第二图像帧和该参考图像帧时摄像头之间的位移大于一定值,以及旋转角度小于一定值。
其中,此处提到的已拍摄的多个图像帧可以是与第一图像帧采用同一单目摄像头在不同的时间拍摄的。
例如,对于单目摄像头的传感器(sensor)设定为20Hz固定曝光,所以每50ms将会得到一个图像帧,可以将该图像帧称为原始图像序列,VIO将 会计算拍摄该图像帧与其他图像帧(例如,前一图像帧或某一特定的图像帧)时单目摄像头的位姿关系,从而可以基于计算的位姿关系,来选择用于计算当前图像帧的深度信息的图像帧。
具体地,图像处理设备在获取到单目摄像头拍摄的一个新的图像帧(也即上述第一图像帧)之后,可以根据VIO输出的数据获取该图像帧的位姿(其中,该位姿是该图像帧相对于某一图像帧的位姿),向之前已经拍摄的图像帧查找符合条件(例如,满足以上式3和式4表现的条件)的图像帧,即上述提到的第二图像帧,其中,可以将距离该新的图像帧时间上最近的满足条件的图像帧选择作为第二图像帧,或者,可以从多个符合条件的图像帧中随机选择一个图像帧作为第二图像帧。
可选地,在本申请实施例中,摄像头拍摄该第一图像帧和第二图像帧时的曝光参数可以是相同的,例如,曝光时间和曝光增益可以是相同的。
在120中,基于拍摄第一图像帧和第二图像帧时摄像头的相对距离,图像处理设备确定多个候选深度信息。
可选地,在本申请实施例中,该多个(n个)候选深度信息中第i个候选深度信息z i通过以下式5得到:
Figure PCTCN2018096905-appb-000005
其中,i=0,1,2,...,n-1,f为该摄像头的焦距,l为该相对距离。
可选地,拍摄第一图像帧和第二图像帧时,摄像头的焦距是一致的。
应理解,在以上式5中,在i=0时,分母为0,对应的是z 0=∞,这里不是表示可以除0。
其中,式5可以做以下理解,也即假设如图3所示,可以存在n个虚拟平面,每个虚拟平面可以对应一个深度信息。
可选地,在本申请实施例中,候选深度信息的数量(也可以理解为图3所示的虚拟平面的数量)可以是可调的,具体可以与所需的深度图的精度有关,如果需要较高精度的深度图,则可以将该数量设的大些,也即上述n的取值较大,如果需要较低精度的深度图,则可以将该数量设的小些,也即上述n的取值较小。
其中,在拍摄第一图像帧和第二图像帧的摄像头为单目摄像头时,可以将拍摄第一图像帧和第二图像帧时单目摄像头的相对距离称为单目摄像头的虚拟基线(baseline)。
在130中,基于拍摄该第一图像帧和该第二图像帧时该摄像头的位姿关系,从该多个候选深度信息中,图像处理设备为该第一图像帧中的像素点选 择深度信息。
可选地,在本申请实施例中,图像处理设备在为第一图像帧的各个像素点选择深度信息之后,可以生成和/或输出该第一图像帧的深度图,以用于无人机的避障和/或环境感知等。
可选地,图像处理设备可以基于拍摄该第一图像帧和该第二图像帧时该摄像头的位姿关系,以及分别结合该多个候选深度信息,将该第一图像帧中的像素点向该第二图像帧进行投影;基于该第一图像帧中的第一像素点(可以为第一图像帧中的任一像素点)的像素信息,以及分别结合不同候选深度信息进行投影时相应位置的像素点的像素信息,从该多个候选深度信息中,为该第一像素点选择该深度信息。
具体地,可以采用用于表征拍摄第一图像帧和第二图像帧时摄像头的位姿关系构建H ik,构建H ik的方式可以如下式6所示:
Figure PCTCN2018096905-appb-000006
其中,在式6中,R=[r i.1,r i.2,r i.3]表示拍摄第一图像帧和第二图像帧时摄像头在三维空间的三个方向的旋转向量,t=[t i,1,t i,2,t i,3]表示拍摄第一图像帧和第二图像帧时摄像头在三维空间的三个方向的平移向量,w k=1/z i;K表示相机内部参数矩阵。
此时,图像处理设备可以利用H ik将第一图像帧的像素向第二图像帧进行投影,第一图像帧中的每个像素点可以在第二图像帧中对应一个像素位置,在计算第一图像帧的一个像素点的深度信息时,可以利用该像素点的像素信息与利用候选深度信息z i进行投影时相应位置的像素点的像素信息的差异,在计算了多个候选深度信息对应的差异之后,并从该多个候选深度信息中,为该第一像素点选择深度信息。
可选地,上述提到的像素信息可以是像素值、灰度信息(此时图像帧可以为灰度图,其中,该灰度信息具体可以为亮度值)或色彩信息(此时图像帧可以为彩色图)等。
可选地,在本申请实施例中,图像处理设备可以使用平均绝对差算法(Mean Absolute Differences,MAD)、误差平方和算法(Sum of Squared Differences,SSD)、绝对误差和算法(Sum of Absolute Difference,SAD)、 归一化积相关算法(Normalized Cross Correlation,NCC)、序贯相似性检测算法(Sequential Similiarity Detection Algorithm,SSDA)或者绝对变换误差和算法(Sum of Absolute Transformed Difference,SATD),来计算各个候选深度信息对应的匹配分数值,找出每个像素点最匹配的H i,则用于计算该H i的Z i即为该像素点的深度信息。
可选地,在本申请实施例中,图像处理设备可以基于该第一像素点的像素信息分别与利用不同候选深度信息进行投影时相应位置的像素点的像素信息的差异,为该第一像素点构建第一代价函数;基于该多个候选深度信息分别对应的该第一代价函数,从该多个候选深度信息中,为该第一像素点选择该深度信息。
例如,对于SSD而语言,可以利用以下式7计算第一代价函数:
Figure PCTCN2018096905-appb-000007
其中,k=0,1,2,…,n-1,p u、p v表示图像帧上某一点p的横坐标u和纵坐标v,f(i,j)表示第一图像帧中第一像素点的像素信息对应的值,以及g(i,j)表示第二图像帧中相应位置的像素点的像素信息对应的值。
可选地,在本申请实施例中,基于该多个候选深度信息分别对应的该第一代价函数以及基于第二代价函数,从该多个候选深度信息中,为该第一像素点选择该深度信息,其中,该第二代价函数是为该第一图像帧中的第二像素点构建的代价函数;其中,在该第二像素点为该摄像头的固定遮挡区域对应的像素点时,该第二代价函数的取值大于或等于预设值。
具体地,在无人机的应用场景中,对于机臂等固定遮挡区域,图像处理设备可以预先获知其所在区域(机臂,浆叶会出现的区域,由于飞行器结构固定,所以会出现在图像帧的固定区域)在图像帧中对应像素点,可以将该像素点对应的代价置为一个较大的值(例如,cost[p u][p v][k]=C max,k=0,1,2,...,n-1),让其无法影响周围的区域的像素点的深度信息的计算。
可选地,在本申请实施例中,可以采用半全局块匹配(semi-global block matching,SGBM)算法计算像素点的深度信息。
例如,可以利用以下式8进行计算:
Figure PCTCN2018096905-appb-000008
其中,p-r指在指向当前像素点p的某个方向上,像素点p在该方向的相邻像素点。
L r(p,d)表示沿着当前方向,当当前像素点p的视差(与深度信息呈反比)取值为d时,其最小代价值。
其中,这个最小值可以从4种可能的候选值中选取的最小值:
第1种可能是当前像素点与前一个像素点视差值相等时,其最小的代价值。
第2和3种可能是当前像素点与前一个像素视差值差1(多1或少1)时,其最小的代价值+惩罚系数P 1
第4种可能是当前像素点与前一个像素视差值的差大于1时,其最小的代价值+惩罚系数P 2
在分别计算了每个方向的代价值时,可以将该多个方向,例如8个方向的代价值累计值,选取累加代价值最小的深度信息作为该像素的深度信息,例如,可以通过以下公式9进行累加:
Figure PCTCN2018096905-appb-000009
可选地,在本申请实施例中,图像处理设备可以将该第一图像帧中天空对应的像素点的深度信息设置为无穷远,或者将该天空对应的像素点设置为无效点。
可选地,在本申请实施例中,为了保证第一图像帧的深度信息的准确,可以对第一图像帧中至少部分像素点的深度信息进行验证。
具体地,图像处理设备可以获取该第二图像帧的像素点的深度信息;利用该第二图像帧的像素点的深度信息,对该第一图像帧的像素点的深度信息进行验证。
其中,以上介绍了以第二图像帧为参照帧,来计算第一图像帧的各个像素点的深度信息,此处可以以第一图像帧为参照帧,来计算第二图像帧的各个像素点的深度信息,具体的实现方式可以参照上文的描述,为了简洁,在 此不再赘述。
因此,利用第二图像帧的深度信息,对第一图像帧的深度信息进行验证,可以保证深度信息的准确性。
在本申请实施例中,受限制于机载计算资源有限,可以采用第一图像帧和第二图像帧两个图像帧进行深度信息的计算,避免采用较多的图像帧进行深度信息的计算,这是由于特别对于单目摄像头来说,图像帧之间间隔的时间越长不确定性越大,但是为了进一步提升采用两个图像帧进行深度计算的准确性,可以对深度信息进行验证。
可选地,在本申请实施例中,图像处理设备利用拍摄该第一图像帧和该第二图像帧时该摄像头的位姿关系,以及该第二图像帧的像素点的深度信息,对该第一图像帧的像素点的深度信息进行验证。
可选地,本申请实施例的深度信息的验证可以排除第一图像帧中的动态物体对应的像素点。
具体地,可以将第一图像帧上某一像素点投影变换到第二图像帧上,其中,式10和11示出了投影变换的数学关系:
Figure PCTCN2018096905-appb-000010
Figure PCTCN2018096905-appb-000011
其中,p是第一图像帧的像素坐标系上的一个像素点,p'是投影变换后的点,也即第二图像帧的像素坐标系上与p对应的点,P c为相机坐标系的与p对应的三维(3D)点(也可以称为3D位置)。
d为p点对应的深度信息,R为第二图像帧相对于第一图像帧的旋转关系矩阵,t为第二图像帧相对于第一图像帧的位移关系矩阵。[x,y,z] T为相机平面物理坐标系上的与p对应的3D点,降维后可以得到像素坐标系的点p'。
其中,相机模型可以表征为以下式12:
Figure PCTCN2018096905-appb-000012
其中,[u,v,1] T表示像素坐标中的2D点;[x w,y w,z w] T表示世界坐标系中 的3D点;矩阵K表示相机校正矩阵(Camera calibration matrix),即标识每个相机的内参(Intrinsic Parameters);R表示旋转矩阵,T表示位移矩阵R和T为相机的外参Extrinsic Matrix,表达的是三维空间中,世界坐标系到相机坐标系的旋转与位移变换。
可选地,对于有限投影相机(Finite projective camera)而言,矩阵K可以表示5个内参,即K可以如下式13所示:
Figure PCTCN2018096905-appb-000013
其中,α x=fm x,α y=fm y,f为焦距(focal length),m x和m y分别为x,y方向上,单位距离的像素数(scale factors),γ为x,y轴之间的畸变参数(skew parameters),μ 0,v 0为光心位置(principal point)。
在理想情况下,即图像帧的深度信息以及两个图像帧间的位姿关系均正确,且物体静止的情况下,式10和11才会成立,即第一图像帧上的像素点,才能通过公式10和11,对应在第二图像帧上的位置。
式10和11考虑了两个图像帧拍摄时,摄像头的相对位置和旋转关系,如果物体自身发生了移动,那式10和11就不成立。动态物体上的特征由于匹配错误,会导致计算的深度错误,但由于第一图像帧和第二图像帧深度图错的一样的概率很低,所以可以通过反证法,假设第一图像帧和第二图像帧的深度信息和位姿关系均正确,并基于式10和11,则可以对第一图像帧的深度信息进行验证。
具体地,图像处理设备可以根据该第一图像帧中的第三像素点(可以为第一图像帧中的像素点)的像素坐标以及该第三像素点的深度信息,确定该第一像素点的3D位置;根据该第三像素点的3D位置,以及拍摄该第一图像帧和该第二图像帧时该摄像头的位姿关系,得到该第三像素点在该第二图像帧对应的第四像素点;根据该第四像素位置的深度信息,以及该第四像素点的像素坐标,确定该第四像素位置的3D位置;根据该第四像素点的3D位置,以及拍摄该第一图像帧和该第二图像帧时该摄像头的位姿关系,得到该第四像素点在该第一图像帧对应的第五像素点;比较该第三像素点和该第五像素点的差异;根据比较结果,确定该第三像素点的深度信息的准确性。
其中,第四像素点的像素坐标不是整像素坐标时,可以利用周围像素进行插值运算的方式得到该第四像素点的深度信息。
例如,如图4所示,对于像素点(x,y)的深度信息可以通过对像素点 (x1,y1),(x1,y2),(x2,y1)和(x2,y2)的深度信息进行插值运算得到。
可选地,在本申请实施例中,如果图像帧为灰度图,则比较第三像素点和第五像素点的灰度信息,具体地,可以为亮度值,在该第三像素点的亮度值(intensity)与该第五像素点的亮度值对应的差值的绝对值大于或等于第三阈值时,确定该第三像素点的深度信息不准确。
其中,在该第三像素点的深度信息不准确时,放弃得到的该第三像素点的深度信息,也可以将该第三像素点置为无效点。
可选地,在本申请实施例中,在第一图像帧的深度信息不准确的像素点的数量超过一定数量时,也可以放弃该第一图像帧的深度信息。
为了更加清楚地理解本申请提到的验证方法。以下将结合图5进行详细说明。
在图5中的方法300中,假设需要对图像帧K1的深度信息进行验证,其中,K1的深度信息可以是以K2为参照进行获取的,K2的深度信息也可以是以图像帧K1为参照进行获取的。具体的验证的流程可以如下所示。
301、取图像帧K1的像素坐标系上任意一像素点p,在深度图上获取p对应的深度d。
302、根据相机内参K以及该p的深度d,得到像素点p在K1所在的相机坐标系下对应的3D位置为d·K -1·p。
303、通过拍摄图像帧K1和K2时相机的位姿关系,将p对应的3D位置转到图像帧K2所在的相机坐标系下,得到R(d·K -1p)+t。
304,结合相机内参,计算得到上述3D点对应到图像帧K2的相机平面物理坐标系的点[x,y,z] T=K(R(d·K -1·p)+t)。
305、计算出p点投影变换到图像帧K2的像素坐标系的点p 1
306、获取像素点p 1的深度信息。
此时,p 1的像素坐标很有可能是小数,但是对应的像素坐标系上并无小数,只有整数,这里获取点的深度信息的时候,可以采用双线性差值(Bilinear Interpolation),取亚像素。通过双线性插值,计算出p 1点在图像帧K2上的深度信息d 1
307,再通过类似上述301-305的操作,求出图像帧K2上p 1在K1对应的像素点p 2
308、根据p 2与p的亮度值,判断p的深度信息是否准确。
理论上,采用p推导出p 1,再用p 1推导出p 2,p和p 2应当是一个像素点,但如果二者差异过大,则认为此点不相符。例如,可以采用式14所示的判断方式。
||p-p 2||>E th     式14
其中,E th为阈值。
此处采用的像素点的亮度值,在其它实施方式中,图像帧为彩色图时,也可以使用色彩信息进行比较。
可选地,在本申请实施例中,针对要使用的深度图(一般是最新的图像算出来的深度图,在本发明中是图像帧k1帧的深度图,虽然图像帧k2也算了深度图,可以仅用于对图像帧K1的深度信息进行验证),其中的每个像素点可用方法300中的方法进行验证,如果某一像素点满足式17表现的条件,就认为此像素点的深度信息计算有误,此处像素点可能是动态物体,可以排除在外,再深度图上将其深度置为无穷远(一般给一个很大的值,比如10000m)或是置为无效点。由此,对获取的深度信息进行验证,可以避免由于深度信息不准确,所造成的定位和环境感知不精确地的问题。
因此,在本申请实施例中,基于拍摄第一图像帧和第二图像帧时摄像头的相对距离,确定多个候选深度信息,并基于拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,从所述多个候选深度信息中,为所述第一图像帧中的像素点选择深度信息,由于采用的是第一图像帧和第二图像帧的位姿关系来计算深度信息,可以简化深度信息的计算,避免采用BA算法或SLAM进行定位或环境感知所带来的资源耗费较大的问题。
图6是根据本申请实施例的图像处理设备400的示意性框图。如图6所示,该图像处理设备400包括:
获取单元410,用于获取拍摄第一图像帧和第二图像帧时摄像头的相对距离;
确定单元420,用于基于该相对距离,确定多个候选深度信息;
选择单元430,用于基于拍摄该第一图像帧和该第二图像帧时该摄像头的位姿关系,从该多个候选深度信息中,为该第一图像帧中的像素点选择深度信息。
可选地,在本申请实施例中,拍摄该第一图像帧和该第二图像帧时该摄 像头的位姿关系和相对距离是基于以下数据得到的:该摄像头的承载设备上的视觉惯导里程计的输出数据。
可选地,在本申请实施例中,该获取单元410进一步用于:
从拍摄该第一图像帧之前已拍摄的多个图像帧中,选择该第二图像帧。
可选地,在本申请实施例中,拍摄该第一图像帧和该第二图像帧时该摄像头的位姿关系满足以下条件:
旋转角度变化小于或等于第一阈值;和/或,
位置变化大于或等于第二阈值。
可选地,在本申请实施例中,该多个候选深度信息中第i个候选深度信息z i通过以下公式得到:
Figure PCTCN2018096905-appb-000014
其中,i=0,1,2,...,n-1,f为该摄像头的焦距,l为该相对距离。
可选地,在本申请实施例中,该选择单元430进一步用于:
基于拍摄该第一图像帧和该第二图像帧时该摄像头的位姿关系,以及分别结合该多个候选深度信息,将该第一图像帧中的像素点向该第二图像帧进行投影;
基于该第一图像帧中的第一像素点的像素信息,以及分别结合不同候选深度信息进行投影时相应位置的像素点的像素信息,从该多个候选深度信息中,为该第一像素点选择该深度信息。
可选地,在本申请实施例中,该选择单元430进一步用于:
基于该第一的像素点的像素信息分别与不同候选深度信息进行投影时相应位置的像素点的像素信息的差异,为该第一像素点构建第一代价函数;
基于该多个候选深度信息分别对应的该第一代价函数,从该多个候选深度信息中,为该第一像素点选择该深度信息。
可选地,在本申请实施例中,该选择单元430进一步用于:
基于该多个候选深度信息分别对应的该第一代价函数以及基于第二代价函数,从该多个候选深度信息中,为该第一像素点选择该深度信息,其中,该第二代价函数是为该第一图像帧中的第二像素点构建的代价函数;
在该第二像素点为该摄像头的固定遮挡区域对应的像素点时,该第二代价函数的取值大于或等于预设值。
可选地,在本申请实施例中,设备400还包括验证单元440,用于:
获取该第二图像帧的像素点的深度信息;
利用该第二图像帧的像素点的深度信息,对该第一图像帧的像素点的深度信息进行验证。
可选地,在本申请实施例中,该验证单元440进一步用于:
利用拍摄该第一图像帧和该第二图像帧时该摄像头的位姿关系,以及该第二图像帧的像素点的深度信息,对该第一图像帧的像素点的深度信息进行验证。
可选地,在本申请实施例中,该验证单元440进一步用于:
根据该第一图像帧中的第三像素点的像素坐标以及该第三像素点的深度信息,确定该第一像素点的3D位置;
根据该第三像素点的3D位置,以及拍摄该第一图像帧和该第二图像帧时该摄像头的位姿关系,得到该第三像素点在该第二图像帧对应的第四像素点;
根据该第四像素点的深度信息,以及该第四像素点的像素坐标,确定该第四像素点的3D位置;
根据该第四像素点的3D位置,以及拍摄该第一图像帧和该第二图像帧时该摄像头的位姿关系,得到该第四像素点在该第一图像帧对应的第五像素点;
比较该第三像素点和该第五像素点的差异;
根据比较结果,确定该第三像素点的深度信息的准确性。
可选地,在本申请实施例中,第一图像帧为灰度图,该验证单元440进一步用于:
在该第三像素点的表征灰度信息的值与该第五像素点的表征灰度信息的值之间的差值的绝对值大于或等于第三阈值时,确定该第三像素点的深度信息不准确。
可选地,在本申请实施例中,设备400还包括放弃单元450,用于:
在该第三像素点的深度信息不准确时,放弃得到的该第三像素点的深度信息。
可选地,在本申请实施例中,设备400还包括设置单元460,用于:
将该第一图像帧中天空对应的像素点的深度信息设置为无穷远,或者将该天空对应的像素点设置为无效点。
可选地,在本申请实施例中,该摄像头为单目摄像头。
应理解,该设备400可以实现方法200中的相应操作,为了简洁,在此不再赘述。
图7是根据本申请实施例的图像处理设备500的示意性框图
可选地,该图像处理设备500可以包括多个不同的部件,这些部件可以作为集成电路(integrated circuits,ICs),或集成电路的部分,离散的电子设备,或其它适用于电路板(诸如主板,或附加板)的模块,也可以作为并入计算机系统的部件。
可选地,该图像处理设备可以包括处理器510和与处理器510耦合的存储器520。
处理器510可以包括一个或多个通用处理器,诸如中央处理单元(central processing unit,CPU),或处理设备等。具体地,该处理器510可以是复杂指令集处理(complex instruction set computing,CISC)微处理器,超长指令字(very long instruction word,VLIW)微处理器,实现多个指令集组合的微处理器。该处理器也可以是一个或多个专用处理器,诸如应用专用集成电路(application specific integrated circuit,ASIC),现场可编程门阵列(field programmable gate array,FPGA),数字信号处理器(digital signal processor,DSP)。
处理器510可以与存储器520通信。该存储器520可以为磁盘、光盘、只读存储器(read only memory,ROM),闪存,相变存储器。该存储器520可以存储有处理器存储的指令,和/或,可以缓存一些从外部存储设备存储的信息。可选地,存储器520可以独立于处理器510,也可以为处理器510中的一部分。
可选地,除了处理器520和存储器520,图像处理设备可以包括显示控制器和/或显示设备单元530,收发器540,视频输入输出单元550,音频输入输出单元560,其他输入输出单元570。图像处理设备500包括的这些部件可以通过总线或内部连接互联。
可选地,该收发器540可以是有线收发器或无线收发器,诸如,WIFI收发器,卫星收发器,蓝牙收发器,无线蜂窝电话收发器或其组合等。
可选地,视频输入输出单元550可以包括诸如摄像机的图像处理子系统,其包括光传感器,电荷耦合器件(charged coupled device,CCD)或互补金 属氧化物半导体(complementary metal-oxide semiconductor,CMOS)光传感器,以用于实现拍摄功能。
可选地,该音频输入输出单元560可以包括扬声器,话筒,听筒等。
可选地,其他输入输出设备570可以包括存储设备,universal serial bus(USB)端口,串行端口,并行端口,打印机,网络接口等。
可选地,该图像处理设备500可以执行方法200所示的操作,为了简洁,在此不再赘述。
可选地,图像处理设备400-500可以位于可移动设备中。可移动设备可以在任何合适的环境下移动,例如,空气中(例如,定翼飞机、旋翼飞机,或既没有定翼也没有旋翼的飞机)、水中(例如,轮船或潜水艇)、陆地上(例如,汽车或火车)、太空(例如,太空飞机、卫星或探测器),以及以上各种环境的任何组合。可移动设备可以是飞机,例如无人机(Unmanned Aerial Vehicle,简称为“UAV”)(此时,图像处理设备400-500可以是无人机中的飞行控制器)。在一些实施例中,可移动设备可以承载生命体,例如,人或动物。
图8是根据本申请实施例的摄像装置600的示意性框图。该摄像装置600包括摄像头610和处理器620;所述摄像头610用于获取图像帧,所述处理器620用于基于所述摄像头获取的图像帧,执行以下操作:获取拍摄第一图像帧和第二图像帧时所述摄像头的相对距离;基于所述相对距离,确定多个候选深度信息;基于拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,从所述多个候选深度信息中,为所述第一图像帧中的像素点选择深度信息。
其中,该摄像头610还可以称为摄像组件,或者摄像头610可以为摄像装置600包括的用于获取图像帧的摄像组件的一部分。
该处理器620可以用于实现上述方法实施例中的图像处理方法,为了简洁,在此不再赘述。
进一步地,该摄像装置600还可以包括存储器,处理器620可以调用存储器中的程序,执行上述方法实施例中的图像处理方法,为了简洁,在此不再赘述。
其中,该存储器可以独立于处理器620,也可以是处理器620中的一部分。
图9是根据本申请实施例的无人机700的示意性框图。该无人机700可以包括动力系统710、传感系统720和处理器730。
其中,该动力系统710在处理器730的控制下为该无人机700提供动力;该传感系统720包括摄像头722,用于拍摄图像帧;该处理器730用于基于该摄像头722拍摄的图像帧计算深度信息,以控制该无人机700的飞行,其中,该处理器730具体用于:获取拍摄第一图像帧和第二图像帧时该摄像头的相对距离;基于该相对距离,确定多个候选深度信息;基于拍摄该第一图像帧和该第二图像帧时该摄像头的位姿关系,从该多个候选深度信息中,为该第一图像帧中的像素点选择深度信息。
进一步地,该传感系统720还包括视觉惯导里程计724,其中,拍摄该第一图像帧和该第二图像帧时该摄像头722的位姿关系和相对距离是基于该视觉惯导里程计724的输出数据得到的。
其中,该摄像头722还可以称为摄像组件,或者摄像头可以为无人机包括的用于获取图像帧的摄像组件的一部分。
其中,该处理器730可以用于实现上述方法实施例中的图像处理方法,为了简洁,在此不再赘述。
可选地,该处理器730可以置于飞行控制器中,或者也可以为飞行控制器,或者也可以置于摄像头中。
可选地,该无人机700的具体描述可以参考飞行控制系统100中的描述,为了简洁,在此不再赘述。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (61)

  1. 一种图像处理方法,其特征在于,包括:
    获取拍摄第一图像帧和第二图像帧时摄像头的相对距离;
    基于所述相对距离,确定多个候选深度信息;
    基于拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,从所述多个候选深度信息中,为所述第一图像帧中的像素点选择深度信息。
  2. 根据权利要求1所述的方法,其特征在于,拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系和相对距离是基于以下数据得到的:所述摄像头的承载设备上的视觉惯导里程计的输出数据。
  3. 根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
    从拍摄所述第一图像帧之前已拍摄的多个图像帧中,选择所述第二图像帧。
  4. 根据权利要求3所述的方法,其特征在于,拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系满足以下条件:
    旋转角度变化小于或等于第一阈值;和/或,
    位置变化大于或等于第二阈值。
  5. 根据权利要求1至4中任一项所述的方法,其特征在于,所述多个候选深度信息中第i个候选深度信息z i通过以下公式得到:
    Figure PCTCN2018096905-appb-100001
    其中,i=0,1,2,...,n-1,f为所述摄像头的焦距,l为所述相对距离。
  6. 根据权利要求1至5中任一项所述的方法,其特征在于,所述从所述多个候选深度信息中,为所述第一图像帧中的像素点选择深度信息,包括:
    基于拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,以及分别结合所述多个候选深度信息,将所述第一图像帧中的像素点向所述第二图像帧进行投影;
    基于所述第一图像帧中的第一像素点的像素信息,以及分别结合不同候选深度信息进行投影时相应位置的像素点的像素信息,从所述多个候选深度信息中,为所述第一像素点选择所述深度信息。
  7. 根据权利要求6所述的方法,其特征在于,所述从所述多个候选深度信息中,为所述第一像素点选择所述深度信息,包括:
    基于所述第一的像素点的像素信息分别与不同候选深度信息进行投影 时相应位置的像素点的像素信息的差异,为所述第一像素点构建第一代价函数;
    基于所述多个候选深度信息分别对应的所述第一代价函数,从所述多个候选深度信息中,为所述第一像素点选择所述深度信息。
  8. 根据权利要求7所述的方法,其特征在于,所述从所述多个候选深度信息中,为所述第一像素点选择所述深度信息,包括:
    基于所述多个候选深度信息分别对应的所述第一代价函数以及基于第二代价函数,从所述多个候选深度信息中,为所述第一像素点选择所述深度信息,其中,所述第二代价函数是为所述第一图像帧中的第二像素点构建的代价函数;
    在所述第二像素点为所述摄像头的固定遮挡区域对应的像素点时,所述第二代价函数的取值大于或等于预设值。
  9. 根据权利要求1至8中任一项所述的方法,其特征在于,所述方法还包括:
    获取所述第二图像帧的像素点的深度信息;
    利用所述第二图像帧的像素点的深度信息,对所述第一图像帧的像素点的深度信息进行验证。
  10. 根据权利要求9所述的方法,其特征在于,所述利用所述第二图像帧的像素点的深度信息,对所述第一图像帧的像素点的深度信息进行验证,包括:
    利用拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,以及所述第二图像帧的像素点的深度信息,对所述第一图像帧的像素点的深度信息进行验证。
  11. 根据权利要求10所述的方法,其特征在于,所述利用拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,以及所述第二图像帧的像素点的深度信息,对所述第一图像帧的像素点的深度信息进行验证,包括:
    根据所述第一图像帧中的第三像素点的像素坐标以及所述第三像素点的深度信息,确定所述第一像素点的3D位置;
    根据所述第三像素点的3D位置,以及拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,得到所述第三像素点在所述第二图像帧对 应的第四像素点;
    根据所述第四像素点的深度信息,以及所述第四像素点的像素坐标,确定所述第四像素点的3D位置;
    根据所述第四像素点的3D位置,以及拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,得到所述第四像素点在所述第一图像帧对应的第五像素点;
    比较所述第三像素点和所述第五像素点的差异;
    根据比较结果,确定所述第三像素点的深度信息的准确性。
  12. 根据权利要求11所述的方法,其特征在于,所述第一图像帧为灰度图,所述根据所述比较结果,确定所述第三像素点的深度信息的准确性,包括:在所述第三像素点的表征灰度信息的值与所述第五像素点的表征灰度信息的值之间的差值的绝对值大于或等于第三阈值时,确定所述第三像素点的深度信息不准确。
  13. 根据权利要求11或12所述的方法,其特征在于,所述方法还包括:
    在所述第三像素点的深度信息不准确时,放弃得到的所述第三像素点的深度信息。
  14. 根据权利要求1至13中任一项所述的方法,其特征在于,所述方法还包括:
    将所述第一图像帧中天空对应的像素点的深度信息设置为无穷远,或者将所述天空对应的像素点设置为无效点。
  15. 根据权利要求1至14中任一项所述的方法,其特征在于,所述摄像头为单目摄像头。
  16. 一种图像处理设备,其特征在于,包括:
    获取单元,用于获取拍摄第一图像帧和第二图像帧时摄像头的相对距离;
    确定单元,用于基于所述相对距离,确定多个候选深度信息;
    选择单元,用于基于拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,从所述多个候选深度信息中,为所述第一图像帧中的像素点选择深度信息。
  17. 根据权利要求16所述的设备,其特征在于,拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系和相对距离是基于以下数据得 到的:所述摄像头的承载设备上的视觉惯导里程计的输出数据。
  18. 根据权利要求16或17所述的设备,其特征在于,所述获取单元进一步用于:
    从拍摄所述第一图像帧之前已拍摄的多个图像帧中,选择所述第二图像帧。
  19. 根据权利要求18所述的设备,其特征在于,拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系满足以下条件:
    旋转角度变化小于或等于第一阈值;和/或,
    位置变化大于或等于第二阈值。
  20. 根据权利要求16至19中任一项所述的设备,其特征在于,所述多个候选深度信息中第i个候选深度信息z i通过以下公式得到:
    Figure PCTCN2018096905-appb-100002
    其中,i=0,1,2,...,n-1,f为所述摄像头的焦距,l为所述相对距离。
  21. 根据权利要求16至20中任一项所述的设备,其特征在于,所述选择单元进一步用于:
    基于拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,以及分别结合所述多个候选深度信息,将所述第一图像帧中的像素点向所述第二图像帧进行投影;
    基于所述第一图像帧中的第一像素点的像素信息,以及分别结合不同候选深度信息进行投影时相应位置的像素点的像素信息,从所述多个候选深度信息中,为所述第一像素点选择所述深度信息。
  22. 根据权利要求21所述的设备,其特征在于,所述选择单元进一步用于:
    基于所述第一的像素点的像素信息分别与不同候选深度信息进行投影时相应位置的像素点的像素信息的差值,为所述第一像素点构建第一代价函数;
    基于所述多个候选深度信息分别对应的所述第一代价函数,从所述多个候选深度信息中,为所述第一像素点选择所述深度信息。
  23. 根据权利要求22所述的设备,其特征在于,所述选择单元进一步用于:
    基于所述多个候选深度信息分别对应的所述第一代价函数以及基于第 二代价函数,从所述多个候选深度信息中,为所述第一像素点选择所述深度信息,其中,所述第二代价函数是为所述第一图像帧中的第二像素点构建的代价函数;
    在所述第二像素点为所述摄像头的固定遮挡区域对应的像素点时,所述第二代价函数的取值大于或等于预设值。
  24. 根据权利要求16至23中任一项所述的设备,其特征在于,还包括验证单元,用于:
    获取所述第二图像帧的像素点的深度信息;
    利用所述第二图像帧的像素点的深度信息,对所述第一图像帧的像素点的深度信息进行验证。
  25. 根据权利要求24所述的设备,其特征在于,所述验证单元进一步用于:
    利用拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,以及所述第二图像帧的像素点的深度信息,对所述第一图像帧的像素点的深度信息进行验证。
  26. 根据权利要求25所述的设备,其特征在于,所述验证单元进一步用于:
    根据所述第一图像帧中的第三像素点的像素坐标以及所述第三像素点的深度信息,确定所述第一像素点的3D位置;
    根据所述第三像素点的3D位置,以及拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,得到所述第三像素点在所述第二图像帧对应的第四像素点;
    根据所述第四像素点的深度信息,以及所述第四像素点的像素坐标,确定所述第四像素点的3D位置;
    根据所述第四像素点的3D位置,以及拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,得到所述第四像素点在所述第一图像帧对应的第五像素点;
    比较所述第三像素点和所述第五像素点的差异;
    根据比较结果,确定所述第三像素点的深度信息的准确性。
  27. 根据权利要求26所述的设备,其特征在于,所述第一图像帧为灰度图,所述验证单元进一步用于:
    在所述第三像素点的表征灰度信息的值与所述第五像素点的表征灰度信息的值之间的差值的绝对值大于或等于第三阈值时,确定所述第三像素点的深度信息不准确。
  28. 根据权利要求26或27所述的设备,其特征在于,还包括放弃单元,用于:
    在所述第三像素点的深度信息不准确时,放弃得到的所述第三像素点的深度信息。
  29. 根据权利要求16至28中任一项所述的设备,其特征在于,还包括设置单元,用于:
    将所述第一图像帧中天空对应的像素点的深度信息设置为无穷远,或者将所述天空对应的像素点设置为无效点。
  30. 根据权利要求16至29中任一项所述的设备,其特征在于,所述摄像头为单目摄像头。
  31. 一种计算机可读存储介质,其特征在于,用于存储计算机程序,所述计算机程序使得计算机执行如权利要求1至15中任一项所述的方法。
  32. 一种摄像装置,其特征在于,包括摄像头和处理器;所述摄像头用于获取图像帧,所述处理器用于基于所述摄像头获取的图像帧,执行以下操作:
    获取拍摄第一图像帧和第二图像帧时所述摄像头的相对距离;
    基于所述相对距离,确定多个候选深度信息;
    基于拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,从所述多个候选深度信息中,为所述第一图像帧中的像素点选择深度信息。
  33. 根据权利要求32所述的装置,其特征在于,拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系和相对距离是基于以下数据得到的:所述摄像头的承载设备上的视觉惯导里程计的输出数据。
  34. 根据权利要求32或33所述的装置,其特征在于,所述处理器进一步用于:
    从拍摄所述第一图像帧之前已拍摄的多个图像帧中,选择所述第二图像帧。
  35. 根据权利要求34所述的装置,其特征在于,拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系满足以下条件:
    旋转角度变化小于或等于第一阈值;和/或,
    位置变化大于或等于第二阈值。
  36. 根据权利要求32至35中任一项所述的装置,其特征在于,所述多个候选深度信息中第i个候选深度信息z i通过以下公式得到:
    Figure PCTCN2018096905-appb-100003
    其中,i=0,1,2,...,n-1,f为所述摄像头的焦距,l为所述相对距离。
  37. 根据权利要求32至36中任一项所述的装置,其特征在于,所述处理器进一步用于:
    基于拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,以及分别结合所述多个候选深度信息,将所述第一图像帧中的像素点向所述第二图像帧进行投影;
    基于所述第一图像帧中的第一像素点的像素信息,以及分别结合不同候选深度信息进行投影时相应位置的像素点的像素信息,从所述多个候选深度信息中,为所述第一像素点选择所述深度信息。
  38. 根据权利要求37所述的装置,其特征在于,所述处理器进一步用于:
    基于所述第一的像素点的像素信息分别与不同候选深度信息进行投影时相应位置的像素点的像素信息的差异,为所述第一像素点构建第一代价函数;
    基于所述多个候选深度信息分别对应的所述第一代价函数,从所述多个候选深度信息中,为所述第一像素点选择所述深度信息。
  39. 根据权利要求38所述的装置,其特征在于,所述处理器进一步用于:
    基于所述多个候选深度信息分别对应的所述第一代价函数以及基于第二代价函数,从所述多个候选深度信息中,为所述第一像素点选择所述深度信息,其中,所述第二代价函数是为所述第一图像帧中的第二像素点构建的代价函数;
    在所述第二像素点为所述摄像头的固定遮挡区域对应的像素点时,所述第二代价函数的取值大于或等于预设值。
  40. 根据权利要求32至39中任一项所述的装置,其特征在于,所述处理器进一步用于:
    获取所述第二图像帧的像素点的深度信息;
    利用所述第二图像帧的像素点的深度信息,对所述第一图像帧的像素点的深度信息进行验证。
  41. 根据权利要求40所述的装置,其特征在于,所述处理器进一步用于:
    利用拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,以及所述第二图像帧的像素点的深度信息,对所述第一图像帧的像素点的深度信息进行验证。
  42. 根据权利要求41所述的装置,其特征在于,所述处理器进一步用于:
    根据所述第一图像帧中的第三像素点的像素坐标以及所述第三像素点的深度信息,确定所述第一像素点的3D位置;
    根据所述第三像素点的3D位置,以及拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,得到所述第三像素点在所述第二图像帧对应的第四像素点;
    根据所述第四像素点的深度信息,以及所述第四像素点的像素坐标,确定所述第四像素点的3D位置;
    根据所述第四像素点的3D位置,以及拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,得到所述第四像素点在所述第一图像帧对应的第五像素点;
    比较所述第三像素点和所述第五像素点的差异;
    根据比较结果,确定所述第三像素点的深度信息的准确性。
  43. 根据权利要求42所述的装置,其特征在于,所述第一图像帧为灰度图,所述处理器进一步用于:
    在所述第三像素点的表征灰度信息的值与所述第五像素点的表征灰度信息的值之间的差值的绝对值大于或等于第三阈值时,确定所述第三像素点的深度信息不准确。
  44. 根据权利要求42或43所述的装置,其特征在于,所述处理器进一步用于:
    在所述第三像素点的深度信息不准确时,放弃得到的所述第三像素点的深度信息。
  45. 根据权利要求32至44中任一项所述的装置,其特征在于,所述处理器进一步用于:
    将所述第一图像帧中天空对应的像素点的深度信息设置为无穷远,或者将所述天空对应的像素点设置为无效点。
  46. 根据权利要求32至45中任一项所述的装置,其特征在于,所述摄像头为单目摄像头。
  47. 一种无人机,其特征在于,包括动力系统、传感系统和处理器;
    其中,所述动力系统用于为所述无人机提供动力;
    所述传感系统包括摄像头,用于拍摄图像帧;
    所述处理器用于基于所述摄像头拍摄的图像帧计算深度信息,以控制所述无人机的飞行,其中,所述处理器具体用于:
    获取拍摄第一图像帧和第二图像帧时所述摄像头的相对距离;
    基于所述相对距离,确定多个候选深度信息;
    基于拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,从所述多个候选深度信息中,为所述第一图像帧中的像素点选择深度信息。
  48. 根据权利要求47所述的无人机,其特征在于,所述传感系统还包括视觉惯导里程计,其中,拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系和相对距离是基于所述视觉惯导里程计的输出数据得到的。
  49. 根据权利要求47或48所述的无人机,其特征在于,所述处理器进一步用于:
    从拍摄所述第一图像帧之前已拍摄的多个图像帧中,选择所述第二图像帧。
  50. 根据权利要求49所述的无人机,其特征在于,拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系满足以下条件:
    旋转角度变化小于或等于第一阈值;和/或,
    位置变化大于或等于第二阈值。
  51. 根据权利要求47至50中任一项所述的无人机,其特征在于,所述多个候选深度信息中第i个候选深度信息z i通过以下公式得到:
    Figure PCTCN2018096905-appb-100004
    其中,i=0,1,2,...,n-1,f为所述摄像头的焦距,l为所述相对距离。
  52. 根据权利要求47至51中任一项所述的无人机,其特征在于,所述 处理器进一步用于:
    基于拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,以及分别结合所述多个候选深度信息,将所述第一图像帧中的像素点向所述第二图像帧进行投影;
    基于所述第一图像帧中的第一像素点的像素信息,以及分别结合不同候选深度信息进行投影时相应位置的像素点的像素信息,从所述多个候选深度信息中,为所述第一像素点选择所述深度信息。
  53. 根据权利要求52所述的无人机,其特征在于,所述处理器进一步用于:
    基于所述第一的像素点的像素信息分别与不同候选深度信息进行投影时相应位置的像素点的像素信息的差异,为所述第一像素点构建第一代价函数;
    基于所述多个候选深度信息分别对应的所述第一代价函数,从所述多个候选深度信息中,为所述第一像素点选择所述深度信息。
  54. 根据权利要求53所述的无人机,其特征在于,所述处理器进一步用于:
    基于所述多个候选深度信息分别对应的所述第一代价函数以及基于第二代价函数,从所述多个候选深度信息中,为所述第一像素点选择所述深度信息,其中,所述第二代价函数是为所述第一图像帧中的第二像素点构建的代价函数;
    在所述第二像素点为所述摄像头的固定遮挡区域对应的像素点时,所述第二代价函数的取值大于或等于预设值。
  55. 根据权利要求47至54中任一项所述的无人机,其特征在于,所述处理器进一步用于:
    获取所述第二图像帧的像素点的深度信息;
    利用所述第二图像帧的像素点的深度信息,对所述第一图像帧的像素点的深度信息进行验证。
  56. 根据权利要求55所述的无人机,其特征在于,所述处理器进一步用于:
    利用拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,以及所述第二图像帧的像素点的深度信息,对所述第一图像帧的像素点的深 度信息进行验证。
  57. 根据权利要求56所述的无人机,其特征在于,所述处理器进一步用于:
    根据所述第一图像帧中的第三像素点的像素坐标以及所述第三像素点的深度信息,确定所述第一像素点的3D位置;
    根据所述第三像素点的3D位置,以及拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,得到所述第三像素点在所述第二图像帧对应的第四像素点;
    根据所述第四像素点的深度信息,以及所述第四像素点的像素坐标,确定所述第四像素点的3D位置;
    根据所述第四像素点的3D位置,以及拍摄所述第一图像帧和所述第二图像帧时所述摄像头的位姿关系,得到所述第四像素点在所述第一图像帧对应的第五像素点;
    比较所述第三像素点和所述第五像素点的差异;
    根据比较结果,确定所述第三像素点的深度信息的准确性。
  58. 根据权利要求57所述的无人机,其特征在于,所述第一图像帧为灰度图,所述处理器进一步用于:
    在所述第三像素点的表征灰度信息的值与所述第五像素点的表征灰度信息的值之间的差值的绝对值大于或等于第三阈值时,确定所述第三像素点的深度信息不准确。
  59. 根据权利要求57或58所述的无人机,其特征在于,所述处理器进一步用于:
    在所述第三像素点的深度信息不准确时,放弃得到的所述第三像素点的深度信息。
  60. 根据权利要求47至59中任一项所述的无人机,其特征在于,所述处理器进一步用于:
    将所述第一图像帧中天空对应的像素点的深度信息设置为无穷远,或者将所述天空对应的像素点设置为无效点。
  61. 根据权利要求47至60中任一项所述的无人机,其特征在于,所述摄像头为单目摄像头。
PCT/CN2018/096905 2018-07-24 2018-07-24 图像处理方法和设备、摄像装置以及无人机 WO2020019175A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/CN2018/096905 WO2020019175A1 (zh) 2018-07-24 2018-07-24 图像处理方法和设备、摄像装置以及无人机
CN201880039085.0A CN110800023A (zh) 2018-07-24 2018-07-24 图像处理方法和设备、摄像装置以及无人机

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/096905 WO2020019175A1 (zh) 2018-07-24 2018-07-24 图像处理方法和设备、摄像装置以及无人机

Publications (1)

Publication Number Publication Date
WO2020019175A1 true WO2020019175A1 (zh) 2020-01-30

Family

ID=69181113

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/096905 WO2020019175A1 (zh) 2018-07-24 2018-07-24 图像处理方法和设备、摄像装置以及无人机

Country Status (2)

Country Link
CN (1) CN110800023A (zh)
WO (1) WO2020019175A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563934A (zh) * 2020-06-10 2020-08-21 浙江欣奕华智能科技有限公司 单目视觉里程计尺度确定方法和装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113496503B (zh) * 2020-03-18 2022-11-08 广州极飞科技股份有限公司 点云数据的生成及实时显示方法、装置、设备及介质
CN111753961B (zh) 2020-06-26 2023-07-28 北京百度网讯科技有限公司 模型训练方法和装置、预测方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102903096A (zh) * 2012-07-04 2013-01-30 北京航空航天大学 一种基于单目视频的对象深度提取方法
CN103345301A (zh) * 2013-06-18 2013-10-09 华为技术有限公司 一种深度信息获取方法和装置
CN105809681A (zh) * 2016-03-04 2016-07-27 清华大学 基于单相机的人体rgb-d数据恢复与三维重建方法
CN105989590A (zh) * 2015-02-09 2016-10-05 北京三星通信技术研究有限公司 立体匹配方法和装置
CN107123142A (zh) * 2017-05-09 2017-09-01 北京京东尚科信息技术有限公司 位姿估计方法和装置
CN107749069A (zh) * 2017-09-28 2018-03-02 联想(北京)有限公司 图像处理方法、电子设备和图像处理系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017100062A1 (de) * 2017-01-03 2018-07-05 Connaught Electronics Ltd. Visuelle Odometrie
CN107025666A (zh) * 2017-03-09 2017-08-08 广东欧珀移动通信有限公司 基于单摄像头的深度检测方法及装置和电子装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102903096A (zh) * 2012-07-04 2013-01-30 北京航空航天大学 一种基于单目视频的对象深度提取方法
CN103345301A (zh) * 2013-06-18 2013-10-09 华为技术有限公司 一种深度信息获取方法和装置
CN105989590A (zh) * 2015-02-09 2016-10-05 北京三星通信技术研究有限公司 立体匹配方法和装置
CN105809681A (zh) * 2016-03-04 2016-07-27 清华大学 基于单相机的人体rgb-d数据恢复与三维重建方法
CN107123142A (zh) * 2017-05-09 2017-09-01 北京京东尚科信息技术有限公司 位姿估计方法和装置
CN107749069A (zh) * 2017-09-28 2018-03-02 联想(北京)有限公司 图像处理方法、电子设备和图像处理系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563934A (zh) * 2020-06-10 2020-08-21 浙江欣奕华智能科技有限公司 单目视觉里程计尺度确定方法和装置
CN111563934B (zh) * 2020-06-10 2020-12-22 浙江欣奕华智能科技有限公司 单目视觉里程计尺度确定方法和装置

Also Published As

Publication number Publication date
CN110800023A (zh) 2020-02-14

Similar Documents

Publication Publication Date Title
US11649052B2 (en) System and method for providing autonomous photography and videography
CN106529495B (zh) 一种飞行器的障碍物检测方法和装置
WO2019161813A1 (zh) 动态场景的三维重建方法以及装置和系统、服务器、介质
CN111344644B (zh) 用于基于运动的自动图像捕获的技术
WO2019104571A1 (zh) 图像处理方法和设备
WO2017020150A1 (zh) 一种图像处理方法、装置及摄像机
JP2020030204A (ja) 距離測定方法、プログラム、距離測定システム、および可動物体
US11057604B2 (en) Image processing method and device
WO2019113966A1 (zh) 一种避障方法、装置和无人机
TWI649721B (zh) 無人飛行機之全景拍照方法與使用其之無人飛行機
WO2018120350A1 (zh) 对无人机进行定位的方法及装置
CN108235815B (zh) 摄像控制装置、摄像装置、摄像系统、移动体、摄像控制方法及介质
US20220086362A1 (en) Focusing method and apparatus, aerial camera and unmanned aerial vehicle
WO2019155335A1 (en) Unmanned aerial vehicle including an omnidirectional depth sensing and obstacle avoidance aerial system and method of operating same
WO2020133172A1 (zh) 图像处理方法、设备及计算机可读存储介质
WO2021217371A1 (zh) 可移动平台的控制方法和装置
WO2020019175A1 (zh) 图像处理方法和设备、摄像装置以及无人机
WO2021081774A1 (zh) 一种参数优化方法、装置及控制设备、飞行器
WO2020024182A1 (zh) 一种参数处理方法、装置及摄像设备、飞行器
WO2020198963A1 (zh) 关于拍摄设备的数据处理方法、装置及图像处理设备
WO2021043214A1 (zh) 一种标定方法、装置及飞行器
US20210185235A1 (en) Information processing device, imaging control method, program and recording medium
JP2018009918A (ja) 自己位置検出装置、移動体装置及び自己位置検出方法
WO2020019130A1 (zh) 运动估计方法及可移动设备
WO2021217450A1 (zh) 目标跟踪方法、设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18927458

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18927458

Country of ref document: EP

Kind code of ref document: A1