WO2020020146A1 - 激光雷达稀疏深度图的处理方法、装置、设备及介质 - Google Patents

激光雷达稀疏深度图的处理方法、装置、设备及介质 Download PDF

Info

Publication number
WO2020020146A1
WO2020020146A1 PCT/CN2019/097270 CN2019097270W WO2020020146A1 WO 2020020146 A1 WO2020020146 A1 WO 2020020146A1 CN 2019097270 W CN2019097270 W CN 2019097270W WO 2020020146 A1 WO2020020146 A1 WO 2020020146A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
sparse
processing
feature map
map
Prior art date
Application number
PCT/CN2019/097270
Other languages
English (en)
French (fr)
Inventor
范峻铭
黄子煊
周泊谷
伊帅
李鸿升
Original Assignee
深圳市商汤科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳市商汤科技有限公司 filed Critical 深圳市商汤科技有限公司
Priority to SG11202012998WA priority Critical patent/SG11202012998WA/en
Priority to JP2020573306A priority patent/JP7016434B2/ja
Publication of WO2020020146A1 publication Critical patent/WO2020020146A1/zh
Priority to US17/126,837 priority patent/US20210103763A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/89Lidar systems specially adapted for specific applications for mapping or imaging
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/89Lidar systems specially adapted for specific applications for mapping or imaging
    • G01S17/8943D imaging with simultaneous measurement of time-of-flight at a 2D array of receiver pixels, e.g. time-of-flight cameras or flash lidar
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/93Lidar systems specially adapted for specific applications for anti-collision purposes
    • G01S17/931Lidar systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/521Depth or shape recovery from laser ranging, e.g. using interferometry; from the projection of structured light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • G06T2207/10044Radar image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/12Acquisition of 3D measurements of objects

Definitions

  • the embodiments of the present disclosure provide a technical solution for processing a lidar sparse depth map, vehicle intelligent control, obstacle avoidance navigation, and training a neural network.
  • a method for training a neural network includes: inputting a lidar sparse depth map sample to a neural network to be trained; and acquiring the laser from the neural network to be trained
  • the deep labeling value of is supervised learning for the neural network to be trained.
  • an obstacle avoidance navigation device includes: a depth map input module for inputting a lidar sparse depth map to a neural network; and a neural network for obtaining the depth map.
  • Feature maps of at least two different scales, effective point feature fusion processing is performed for the feature maps of at least two different scales respectively, and a processed depth map is obtained according to a result of the effective point feature fusion processing.
  • the number of valid points in the depth map is greater than the number of valid points in the sparse depth map of the lidar; the obstacle avoidance navigation module is configured to generate obstacle avoidance navigation for the robot where the lidar is located according to the processed depth map Control instructions or warning messages.
  • a computer program including computer instructions, and when the computer instructions are run in a processor of a device, any method embodiment of the present disclosure is implemented.
  • FIG. 4 is a schematic diagram of an implementation process of a sparse merged convolution process according to an embodiment of the present disclosure
  • FIG. 7 is a schematic diagram of an implementation manner of a three-scale fusion module according to an embodiment of the present disclosure.
  • FIG. 8 is a schematic diagram of another implementation manner of a three-scale fusion module according to an embodiment of the present disclosure.
  • FIG. 13 is a flowchart of an embodiment of an obstacle avoidance navigation method according to an embodiment of the present disclosure
  • a plurality may refer to two or more, and “at least one” may refer to one, two, or more.
  • the lidar projection usually can only provide a depth value for a part of the images captured by the camera device. Therefore, the lidar projection map is also called a lidar Sparse depth map.
  • a point with a depth value in a lidar sparse depth map may be called a valid point, and a point without a depth value may be called an invalid point.
  • the neural network in the embodiment of the present disclosure performs an input processing operation, a fusion processing operation, and an output processing operation.
  • the part that performs input processing operations in the neural network is called the input processing unit
  • the part that performs fusion processing operations in the neural network is called the fusion module
  • the part that performs output processing in the neural network is called Is the output processing unit.
  • the neural network of the embodiment of the present disclosure may include: an input processing unit, at least one fusion module having multiple inputs and multiple outputs, and an output processing unit.
  • each fusion module is serially connected between the input processing unit and the output processing unit, that is, the output of the previous-level fusion module is used to provide input for the subsequent-level fusion module.
  • the sparse upsampling process may include: multiplying the feature map with a mask of the feature map, and upsampling the multiplied result; and upsampling the mask of the feature map. And form a weight matrix for the mask after the upsampling process; multiply the feature map after the upsampling process with the inverse of the weight matrix to form a sparse addition feature map; The binarization process forms a mask of the feature map after the sparse addition process.
  • the embodiment of the present disclosure may refer to a part of the neural network that performs a valid point feature fusion processing operation on a feature map of at least two outputs of the previous level fusion module, which is referred to as a second transformation Module.
  • the second transformation module may also be used to perform fusion processing on the masks of the at least two output feature maps of the previous-stage fusion module.
  • the neural network of the disclosed embodiment may include at least one second transformation module, and the second transformation module may implement operations such as sparse upsampling and sparse addition to implement the effective point feature fusion processing of the feature map and the mask fusion processing.
  • the sparse addition processing is performed on the mask and the mask, and the feature map and the mask after the sparse addition processing on the second path and the sparse upsampling processing feature of the second path and the mask are performed on the sparse addition process.
  • the feature map and its mask after the sub-sparse addition process are used as the third output of the fusion module.
  • the fusion module can perform convolution processing and sparse upsampling processing on the feature map and mask of the first output respectively, and for the second output Feature maps and masks are processed for convolution and sparse upsampling, respectively.
  • the implementation process of the sparse upsampling process is shown in FIG. 2.
  • the feature map x and the mask m x are multiplied by elements.
  • the result of the multiplication is shown as the second upper 2 ⁇ 2 matrix in FIG. 2, that is, the 2 ⁇ 2 matrix located above m x ⁇ x.
  • the multiplication result m x ⁇ x is up-sampled to form the first upper left 4 ⁇ 4 matrix, that is, the 4 ⁇ 4 matrix located above F (m x , x).
  • the mask m x of the feature map x is up-sampled to form the first 4 ⁇ 4 matrix at the bottom left, that is, the 4 ⁇ 4 matrix located above F (m x ).
  • the mask F (m x ) after the upsampling process is formed into a weight matrix.
  • An example of the inverse of the weight matrix can be: 1 / (F (m x ) + ⁇ ), where ⁇ is a constant much smaller than 1, for example, the range of ⁇ can be 0.00005-0.0001.
  • is mainly used to avoid the denominator being 0.
  • the following formula (3) can be used to represent the sparse addition processing for the feature map
  • the following formula (4) can be used to represent the sparse addition processing for the mask of the feature map:
  • the implementation process of the sparse merged convolution processing is shown in FIG. 4.
  • k x represents the size of the convolution kernel of the current convolution operation.
  • the fusion module performs downsampling processing for the upper input (the leftmost box in the middle area of FIG. 5 is filled with a vertical line.
  • the middle area in the embodiment of the present disclosure refers to the area between the top and bottom of the graph. The same applies hereinafter, so that the results after the downsampling process have the same scale as the down input (that is, the results after the downsampling process have the same size as the down input). The size does not represent the size of the scale).
  • the fusion module performs the sparse merged convolution processing with the down-sampled results (the box filled with dots at the lower left corner of Figure 5) together with the lower input; the fusion module sparses the results after the sparse merged convolution processing.
  • the fusion module takes into account the feature maps of the RGB image and performs effective point feature fusion processing separately for the two inputs.
  • the two feature maps with different scales and their masks become the upper output and the lower output.
  • the fusion module performs downsampling processing for the upper input (the box on the far left of the middle area in FIG. 6 is filled with a vertical line), so that the result after the downsampling processing has the same scale as the lower input.
  • the fusion module performs sparse merged convolution processing with the results of the downsampling process together with the lower input (the box filled with dots at the lower left corner of Figure 6); the fusion module sparses the results after the sparse merged convolution processing.
  • Convolution processing (the box filled with the left oblique line at the lower right corner of Figure 6, the left oblique line refers to the line inclined from the upper right to the lower left of the box); the result of this sparse convolution processing is the fusion module Lower output.
  • the fusion module can perform the above-mentioned processing operations on the input feature map and its mask, respectively, and the obtained feature map and its mask are all output as the next path.
  • FIG. 7 an example of a three-input and three-output fusion module (ie, a three-scale fusion module) is shown in FIG. 7.
  • the fusion module performs down-sampling processing for the upper input (a box filled with a vertical line at the upper left of the middle area in FIG. 7), so that the result after the down-sampling processing has the same scale as the middle input.
  • the fusion module performs the sparse merged convolution processing together with the results of the downsampling process (the left-most box filled with dots in the middle area of Figure 7); the fusion module performs the sparse merged convolution processing on the result Perform sparse convolution processing (the box on the far right side of the middle region in FIG. 7 is filled with a left slash); the result of this sparse convolution processing is the middle output of the fusion module.
  • the fusion module can perform the above-mentioned processing operations on the input feature map and its mask, respectively, and the obtained feature map and its mask are all output as a midway.
  • the fusion module performs convolution processing for the lower output (the bottom of the middle area on the right side of Fig. 7 is filled with a right-slashed box, and the right-slashed line refers to the line inclined from the upper left to the lower right of the box).
  • the convolution processing may include a convolution processing with a convolution kernel of 1 ⁇ 1.
  • the fusion module performs sparse upsampling on the results after the convolution processing (the bottom of the middle area on the right side of Figure 7 is filled with horizontal lines), so that the results after the sparse upsampling processing and the first sparse addition processing result Have the same dimensions.
  • the fusion module performs convolution processing for the lower output (the bottom of the middle area on the right side of Figure 8 is filled with a right-slashed box, and the right-slashed line refers to the line inclined from the upper left to the lower right of the box).
  • the convolution processing may include a convolution processing with a convolution kernel of 1 ⁇ 1.
  • the fusion module performs sparse upsampling on the results after the convolution processing (the bottom of the middle area on the right side of Figure 8 is filled with horizontal lines), so that the results after the sparse upsampling processing and the first sparse addition processing result Have the same dimensions.
  • the fusion module performs sparse addition processing on the first sparse addition processing result and the result after this sparse upsampling processing (the box filled with a diamond block at the upper right corner of FIG. 8) to obtain the second sparse addition processing result. .
  • the second sparse addition processing result is used as the upper output of the fusion module.
  • the fusion module can perform the above-mentioned processing operations on the input feature map and its mask respectively, and the obtained feature map and its mask are all output as the road.
  • S1120 Use the processed depth map and the depth labeling value of the filled sparse depth map sample of the lidar sparse depth map sample as guide information to perform supervised learning on the neural network to be trained.
  • S1220 According to the processed depth map, generate an instruction or a warning message for controlling the vehicle where the lidar is located.
  • the generated instructions are, for example, an instruction to increase the speed, an instruction to decrease the speed, or an emergency braking instruction.
  • the generated warning prompt information such as the prompt information for pedestrians who pay attention to a certain direction.
  • the embodiments of the present disclosure do not limit the implementation of generating instructions or warning prompt information according to the processed depth map.
  • the operation S1320 may be executed by the processor calling a corresponding instruction stored in the memory, or may be executed by an obstacle avoidance navigation module 1430 executed by the processor.
  • the neural network 1410 is further configured to determine a mask of at least two feature maps of different scales according to a mask of a lidar sparse depth map.
  • the operations performed by the neural network 1410 on the effective point feature fusion processing for the feature maps of at least two different scales respectively may include: according to the masks of the feature maps of at least two different scales, for at least two different The feature maps of scales are processed by effective point feature fusion.
  • the neural network further includes: at least one first transformation module. After being set in the fusion module, an output of the fusion module is provided to a first transformation module.
  • the first transformation module is used to perform scale transformation processing on the feature maps of at least one output of the previous-stage fusion module, and the feature maps after the scale transformation processing are provided to the subsequent-stage fusion module, that is, the output of the first transformation module is Provided to the next-level fusion module.
  • the number of output channels of the previous-stage fusion module is less than the number of input channels of the subsequent-stage fusion module, one output of the previous-stage fusion module and the scale-transformed features of the output of the channel The graphs are all used as inputs to the next-level fusion module.
  • the control module 1420 is configured to generate an instruction or warning information for controlling the vehicle where the lidar is located according to the processed depth map output by the neural network 1410.
  • the neural network 1410 is used to obtain feature maps of at least two different scales of the depth map, and perform effective point feature fusion processing for the feature maps of at least two different scales respectively, and then obtain the processed Depth map.
  • the number of valid points in the processed depth map in the embodiments of the present disclosure is greater than the number of valid points in the lidar sparse depth map.
  • the depth map sample input module 1700 is configured to input a lidar sparse depth map sample to the neural network 1710 to be trained.
  • the depth map sample input module 1700 For operations performed by the depth map sample input module 1700, the neural network to be trained 1710, and the supervision module 1720 in the embodiment of the present disclosure, reference may be made to related descriptions in the foregoing method embodiments. The description will not be repeated here.
  • FIG. 18 illustrates an exemplary device 1800 suitable for implementing the embodiments of the present disclosure.
  • the device 1800 may be a control system / electronic system configured in a car, a mobile terminal (for example, a smart mobile phone, etc.), a personal computer (PC, for example, Desktop computers or laptops, etc.), tablet computers, and servers.
  • a mobile terminal for example, a smart mobile phone, etc.
  • PC personal computer
  • Desktop computers or laptops, etc. tablet computers, and servers.
  • ROM 1802 is an optional module.
  • the RAM 1803 stores executable instructions or writes executable instructions to the ROM 1802 at runtime, and the executable instructions cause the central processing unit 1801 to execute the steps included in the above-mentioned object segmentation method.
  • An input / output (I / O) interface 1805 is also connected to the bus 1804.
  • the communication unit 1812 may be provided in an integrated manner, or may be provided with a plurality of sub-modules (for example, a plurality of IB network cards), and are respectively connected to the bus.
  • FIG. 18 is only an optional implementation manner. In practice, the number and types of the components in FIG. 18 may be selected, deleted, added, or replaced according to actual needs. In the setting of different functional components, it is also possible to use separate settings or integrated settings. For example, the GPU and CPU can be set separately. In the same way, the GPU can be integrated on the CPU. The communications department can be set separately or integrated. Wait on the CPU or GPU. These alternative implementations all fall into the protection scope of the embodiments of the present disclosure.
  • the processing instruction of the lidar sparse depth map, the training neural network instruction, the vehicle intelligent control instruction, or the obstacle avoidance navigation instruction may be a calling instruction, and the first device may instruct the second device to execute the lidar by calling.
  • the second device may execute the above-mentioned processing method of the lidar sparse depth map or train the neural network.
  • inventions of embodiments of the present disclosure may be implemented in many ways.
  • the methods and devices, electronic devices, and computer-readable storage media of the embodiments of the present disclosure may be implemented by software, hardware, firmware, or any combination of software, hardware, and firmware.
  • the above order of the steps of the method is for illustration only, and the steps of the method of the embodiment of the present disclosure are not limited to the order described above, unless otherwise specifically stated.
  • embodiments of the present disclosure may also be implemented as programs recorded in a recording medium, and the programs include machine-readable instructions for implementing a method according to an embodiment of the present disclosure.
  • the embodiments of the present disclosure also cover a recording medium storing a program for executing a method according to an embodiment of the present disclosure.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Remote Sensing (AREA)
  • Electromagnetism (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Optics & Photonics (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)
  • Navigation (AREA)
  • Optical Radar Systems And Details Thereof (AREA)

Abstract

一种激光雷达稀疏深度图的处理方法、装置、设备(1800)及介质,处理方法包括:向神经网络(1410,1710)输入激光雷达稀疏深度图(S100);由神经网络(1410,1710)获取深度图的至少两个不同尺度的特征图、针对至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据有效点特征融合处理的结果获得处理后的深度图(S110),处理后的深度图中有效点的数量大于激光雷达稀疏深度图中有效点的数量。

Description

激光雷达稀疏深度图的处理方法、装置、设备及介质
本公开要求在2018年07月25日提交中国专利局、申请号为CN201810829623.8、发明名称为“激光雷达稀疏深度图的处理方法、装置、设备及介质”的中国专利申请的优先权,其全部内容通过引用结合在本公开中。
技术领域
本公开涉及计算机视觉技术,尤其是涉及一种激光雷达稀疏深度图的处理方法、激光雷达稀疏深度图的处理装置、车辆智能控制方法、车辆智能控制装置、避障导航方法、避障导航装置、神经网络的训练方法、神经网络的训练装置、电子设备、计算机可读存储介质以及计算机程序。
背景技术
激光雷达通过扫描可以获取到周围场景中的物体的深度信息,这些深度信息可以形成激光雷达投射图。该激光雷达投射图中的点的取值通常表示该点的深度值。激光雷达投射图也可以称为激光雷达深度图。
激光雷达投射图可以用于辅助完成语义分割以及目标检测等任务,也可以用于智能驾驶中对车辆周围的场景分析以及辅助完成车辆控制决策等任务。
然而,由于激光雷达的硬件条件限制等因素,激光雷达投射图通常包含有部分无效点,即深度值无效的点。如何填补激光雷达投射图中的无效点的深度值,获得较为精确的激光雷达深度图,是一个值得关注的技术问题。
发明内容
本公开实施例提供一种激光雷达稀疏深度图的处理、车辆智能控制、避障导航以及训练神经网络的技术方案。
根据本公开实施例其中一方面,提供一种激光雷达稀疏深度图的处理方法,所述方法包括:向神经网络输入激光雷达稀疏深度图;由所述神经网络获取所述激光雷达稀疏深度图的至少两个不同尺度的特征图、针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据所述有效点特征融合处理的结果获得处理后的深度图,所述处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图中有效点的数量。
根据本公开实施例再一方面,提供一种车辆智能控制方法,所述方法包括:采用如上述任一实施例所述的激光雷达稀疏深度图的处理方法,获得处理后的深度图;根据所述处理后的深度图,生成对所述激光雷达所在车辆进行控制的指令或者预警提示信息。
根据本公开实施例再一方面,提供一种避障导航方法,所述方法包括:采用如上述任一实施例所述的激光雷达稀疏深度图的处理方法,获得处理后的深度图;根据所述处理后的深度图,生成对所述激光雷达所在机器人进行避障导航控制的指令或者预警提示信息。
根据本公开实施例再一方面,提供一种神经网络的训练方法,所述训练方法包括:向待训练的神经网络输入激光雷达稀疏深度图样本;由所述待训练的神经网络获取所述激光雷达稀疏深度图样本的至少两个不同尺度的特征图、针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据所述有效点特征融合处理的结果,形成处理后的深度图,所述处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图样本中有效点的数量;以所述处理后的深度图以及激光雷达稀疏深度图样本的填补深度图样本的深度标注值为指导信息,对所述待训练的神经网络进行监督学习。
根据本公开实施例再一方面,提供一种激光雷达稀疏深度图的处理装置,包括:深度图输入模块,用于向神经网络输入激光雷达稀疏深度图;神经网络,用于获取所述激光雷达稀疏深度图的至少两个不同尺度的特征图、针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据所述有效点特征融合处理的结果获得处理后的深度图,所述处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图中有效点的数量。
根据本公开实施例再一方面,提供一种车辆智能控制装置,所述装置包括:深度图输入模块,用于向神经网络输入激光雷达稀疏深度图;神经网络,用于获取所述深度图的至少两个不同尺度的特征图、针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据所述有效点特征融合处理的结果获得处理后的深度图,所述处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图中有效点的数量;控制模块,用于根据所述处理后的深度图,生成对所述激光雷达所在车辆进行控制的指令或者预警提示信息。
根据本公开实施例再一方面,提供一种避障导航装置,所述装置包括:深度图输入模块,用于向神经网络输入激光雷达稀疏深度图;神经网络,用于获取所述深度图的至少两个不同尺度的特征图、针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据所述有效点特征融合处理的结果获得处理后的深度图,所述处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图中有效点的数量;避障导航模块,用于根据所述处理后的深度图,生成对所述激光雷达所在机器人进行避障导航控制的指令或者预警提示信息。
根据本公开实施例再一方面,提供一种神经网络的训练装置,所述训练装置包括:深度图样本输入模块,用于向待训练的神经网络输入激光雷达稀疏深度图样本;待训练的神经网络,用于获取所述激光雷达稀疏深度图样本的至少两个不同尺度的特征图、针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据所述有效点特征融合处理的结果,形成处理后的深度图,所述处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图样本中有效点的数量;监督模块,用于以所述处理后的深度图以及激光雷达稀疏深度图样本的填补深度图样本的深度标注值为指导信息,对所述待训练的神经网络进行监督学习。
根据本公开实施例再一方面,提供一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现本公开任一方法实施例。
根据本公开实施例再一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现本公开任一方法实施例。
根据本公开实施例的再一个方面,提供一种计算机程序,包括计算机指令,当所述计算机指令在设备的处理器中运行时,实现本公开任一方法实施例。
基于本公开实施例提供的激光雷达稀疏深度图的处理方法、激光雷达稀疏深度图的处理装置、神经网络训练方法、神经网络训练装置、车辆智能控制方法、车辆智能控制装置、避障导航方法、避障导航装置、电子设备、计算机可读存储介质及计算机程序,本公开实施例通过利用神经网络来对激光雷达稀疏深度图的至少两个不同尺度的特征图,分别进行有效点特征融合处理,使神经网络可以实现多分支的特征融合处理,且不同分支可以在考虑多种感受野的特征图的基础上,形成处理稀疏深度图过程中的特征图,由于多种感受野的特征图更易于获得全局特征信息,因此,本公开实施例中的融合模块可以获得更为准确的物体边缘信息,从而有利于提高融合处理后的特征图的准确性,有利于避免出现图像中的物体内部的深度断裂现象;另外,通过进行有效点特征融合处理,有利于避免特征图中的无效点对特征融合的影响,从而有利于提高融合处理后的特征图的准确性。本公开实施例通过利用较为准确的特征图来形成处理后的深度图,因此,有利于使处理后的激光雷达深度图更为精准。由上述描述可知,本公开实施例提供的技术方案有利于使处理后的激光雷达深度图更为精准,进而在使本公开实施例的激光雷达稀疏深度图的处理技术应用于自动驾驶、辅助驾驶等智能驾驶以及机器人避障导航的实时环境中的情况下,有利于提高智能驾驶以及机器人避障导航的决策准确性或预警准确性。
下面通过附图和实施方式,对本公开实施例的技术方案做的详细描述。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同描述一起用于解释本公开实施例的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开实施例,其中:
图1为本公开实施例的激光雷达稀疏深度图的处理方法一个实施方式的流程图;
图2为本公开实施例的稀疏上采样处理的实现过程的示意图;
图3为本公开实施例的稀疏相加处理的实现过程的示意图;
图4为本公开实施例的稀疏合并卷积处理的实现过程的示意图;
图5为本公开实施例的两尺度融合模块的一个实施方式的示意图;
图6为本公开实施例的两尺度融合模块的另一个实施方式的示意图;
图7为本公开实施例的三尺度融合模块的一个实施方式的示意图;
图8为本公开实施例的三尺度融合模块的另一个实施方式的示意图;
图9为本公开实施例的神经网络的一个实施方式的示意图;
图10为本公开实施例的神经网络的另一个实施方式的示意图;
图11为本公开实施例的神经网络的训练方法的一个实施方式的流程图;
图12为本公开实施例的车辆智能控制方法的一个实施方式的流程图;
图13为本公开实施例的避障导航方法的一个实施方式的流程图;
图14为本公开实施例的激光雷达稀疏深度图的处理装置一个实施方式的结构示意图;
图15为本公开实施例的神经网络的训练装置一个实施方式的结构示意图;
图16为本公开实施例的车辆智能控制装置的一个实施方式的结构示意图;
图17为本公开实施例的避障导航装置的一个实施方式的结构示意图;
图18为实现本公开实施例的一示例性设备的框图。
具体实施方式
现在将参照附图来详细描述本公开实施例的各种示例性实施例。应注意到:除非另外说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开实施例的范围。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序,不应理解成对本公开实施例的限定。还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。还应理解,本公开实施例对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开实施例及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法以及设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应当注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
另外,公开实施例中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开实施例中字符“/”,一般表示前后关联对象是一种“或”的关系。
本公开实施例可以应用于终端设备、计算机系统及服务器等电子设备,其可与众多其它通用或者专用的计算系统环境或者配置一起操作。适于与终端设备、计算机系统以及服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子,包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统以及服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑以及数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
图1为本公开实施例激光雷达稀疏深度图的处理方法一个实施例的流程图。如图1所示,该实施例方法包括:
S100、向神经网络输入激光雷达稀疏深度图。
本公开实施例中,基于激光雷达的硬件设备而获得的深度图,是一种激光雷达深度图。由于基于激光雷达的硬件设备而获得的深度图中的部分点通常需要进行深度值填补处理,因此,基于激光雷达硬件设备而获得的深度图可以称为激光雷达稀疏深度图。本公开实施例中的神经网络为预先训练好的神经网络。在其中一个可选示例中,神经网络可以基于激光雷达稀疏深度图样本以及激光雷达稀疏深度图样本的填补深度图样本的深度标注值训练得到。
在一个可选示例中,该操作S100可以由处理器调用存储器存储的相应指令执行,也可以由被处理器运行的深度图输入模块1400执行。
S110、由神经网络获取激光雷达稀疏深度图的至少两个不同尺度的特征图,针对至少两个不同尺度的特征图分别进行有效点特征融合处理,并根据有效点特征融合处理的结果,获得处理后的深度图。
在一个可选示例中,该操作S110可以由处理器调用存储器存储的相应指令执行,也可以由被处理器运行的神经网络1410执行。
本公开实施例中,基于激光雷达硬件设备而获得的深度图在其部分点进行了深度值填补处理后,所得到的深度图,同样是一种激光雷达深度图,且可以称为激光雷达稠密深度图或者补全的激光雷达深度图或者填补后的激光雷达深度图等。本公开实施例处理后的激光雷达深度图中的具有深度值的点的数量,超过激光雷达稀疏深度图中的具有深度值的点的数量。也就是说,本公开实施例中的“稠密”是相对于上述“稀疏”而言的。
本公开实施例通过利用神经网络来对激光雷达稀疏深度图的至少两个不同尺度的特征图,分别进行有效点特征融合处理,使神经网络可以实现多分支的特征融合处理,且不同分支可以在考虑多种感受野的特征图的基础上,形成处理稀疏深度图过程中的特征图,由于多种感受野的特征图更易于获得全局特征信息(例如,用于表征物体与物体之间的关系的特征信息),因此,本公开实施例中的有效点特征融合处理可以获得更为准确的物体边缘信息,从而有利于提高融合处理后的特征图的准确性,有利于避免出现图像中的物体内部的深度断裂现象;另外,通过进行有效点特征融合处理,有利于避免特征图中的无效点对特征融合的影响,从而有利于提高融合处理后的特征图的准确性。由于本公开实施例利用较为准确的特征图来形成处理后的深度图,因此,有利于使处理后的激光雷达深度图更为精准。
本公开实施例中的不同尺度的特征图通常是指不同大小的特征图。神经网络的一个分支对应一种尺度。本公开实施例中的不同尺度的特征图可以体现出不同的感受野。
在一个可选示例中,本公开实施例中的激光雷达深度图可以是车辆或者监控装置等设备中安装的激光雷达通过扫描及投影,而形成的深度图,例如,激光雷达通过扫描生成深度点云数据,深度点云数据在被投射到摄像装置所摄取的图像(如RGB(Red Green Blue,红绿蓝)图像、IR(Infrared Radiation,红外线)图像等)的二维平面时,形成激光雷达投射图(也可以称为二维激光雷达投射图)。激光雷达投射可以为摄像装置所摄取的图像中的点提供深度值。激光雷达投射图与摄像装置所摄取的图像可具有相同或基本相同(相近)的视角和大小。在下述描述中,有时是以RGB图像为摄像装置所摄取的图像为例,对本公开实施例进行说明,然而,应当知道,使用IR等其他类型的图像替换下述描述中的RGB图像也是可行的。
在一个可选示例中,由于激光雷达硬件条件等因素的限制,激光雷达投射通常只能够为摄像装置所摄取的图像中的一部分点提供深度值,因此,激光雷达投射图也被称为激光雷达稀疏深度图。激光雷达稀疏深度图中的具有深度值的点可以称为有效点,而不具有深度值的点可以称为无效点。
在一个可选示例中,由于本公开实施例中的神经网络所执行的特征融合处理操作,是针对有效点的特征融合处理操作,因此,神经网络需要在特征融合处理过程中,需要区分特征图中的各点是否为有效点。本公开实施例中的神经网络可以利用特征图的Mask(蒙板)来实现有效点和无效点的区分。神经网络也可以采用其他方式来区分特征图中的有效点和无效点。本公开实施例不限制区分特征图中的有效点和无效点的实现方式。
在一些实施方式中,操作S100中,可以向神经网络输入激光雷达稀疏深度图及激光雷达稀疏深度图的蒙板;其中,激光雷达稀疏深度图的蒙板用于指示激光雷达稀疏深度图中的有效点。相应地,该实施方式还可以包括:根据激光雷达稀疏深度图的蒙板确定至少两个不同尺度的特征图的蒙板;操作S110中,针对至少两个不同尺度的特征图分别进行有效点特征融合处理时,可以根据至少两个不同尺度的特征图的蒙板,针对至少两个不同尺度的特征图分别进行有效点特征融合处理。
在一个可选示例中,本公开实施例在将激光雷达稀疏深度图,提供给神经网络的同时,还可以将激光雷达稀疏深度图的蒙板提供给神经网络,激光雷达稀疏深度图的蒙板可以指示出激光雷达稀疏深度图中的有效点,例如,如果蒙板中的一点的取值为0,则表示激光雷达稀疏深度图中的该点为无效点,而如果蒙板中的一点的取值为1,则表示激光雷达稀疏深度图中的该点为有效点。本公开实施例通过利用激光雷达稀疏深度图的蒙板,可以便捷的区分出激光雷达稀疏深度图中的有效点和无效点。
在一个可选示例中,本公开实施例的神经网络会执行输入处理操作、融合处理操作以及输出处理操作。在下述描述中,为了便于描述,将神经网络中执行输入处理操作的部分称为输入处理单元,将神经网络中执行融合处理操作的部分称为融合模块,将神经网络中执行输出处理的部分称为输出处理单元。本公开实施例的神经网络可以包括:输入处理单元、至少一个具有多路输入和多路输出的融合模块、以及输出处理单元。在神经网络包括多个融合模块的情况下,各融合模块顺序串接在输入处理单元和输出处理单元之间,即前一级融合模块的输出用于为后一级融合模块提供输入。
在一些实施方式中,操作S110中,由神经网络获取激光雷达稀疏深度图的至少两个不同尺度的特征图,可以包括:由神经网络对激光雷达稀疏深度图进行稀疏卷积处理,以获得激光雷达稀疏深度图的特征图;对深度图的特征图进行尺 度变换处理,以获得至少两个不同尺度的特征图;至少两个不同尺度的特征图包括:尺度变换处理前的特征图和至少一个尺度变换处理后的特征图。
另外,在另一些实施方式中,根据激光雷达稀疏深度图的蒙板确定至少两个不同尺度的特征图的蒙板时,可以由神经网络对激光雷达稀疏深度图的蒙板进行稀疏卷积处理,以获得激光雷达稀疏深度图的特征图的蒙板,对蒙板进行尺度变换处理,以获得各特征图的蒙板。
在一个可选示例中,输入处理单元主要用于对激光雷达稀疏深度图进行稀疏卷积处理,以获得激光雷达稀疏深度图的特征图,并对该深度图的特征图进行尺度变换处理,从而获得包含该深度图的特征图在内的,多个(包括两个)不同尺度的特征图,例如,输入处理单元通过对深度图的特征图进行处理(如下采样处理等),使输入处理单元可以为与输入处理单元邻接的第一级融合模块,提供两个或者三个或者更多数据的不同尺度的特征图。在将激光雷达稀疏深度图的蒙板也输入至神经网络中的情况下,本公开实施例中的输入处理单元还可以用于对激光雷达稀疏深度图的蒙板进行稀疏卷积处理,以获得激光雷达稀疏深度图的特征图的蒙板。输入处理单元还可以对稀疏卷积处理后的蒙板进行相应的尺度变换处理,从而获得提供给第一级融合模块的各特征图的蒙板,例如,输入处理单元通过对稀疏卷积处理后的深度图的特征图的蒙板进行相应的下采样处理,使输入处理单元可以为第一级融合模块提供两个或者三个或者更多数量的不同尺度的特征图的蒙板。特征图的蒙板用于指示其所对应的特征图中的有效点。例如,蒙板中的一点的取值为0,则表示相应特征图中的该点为无效点,而蒙板中的一点的取值为1,则表示相应特征图中的该点为有效点。
本公开实施例中的稀疏卷积处理通常是指:针对包含有效点和无效点的图(如激光雷达稀疏深度图或者激光雷达稀疏深度图的蒙板),根据图(如激光雷达稀疏深度图或者激光雷达稀疏深度图的蒙板)中的有效点的位置和无效点的位置进行加权的卷积运算。本公开实施例通过利用稀疏卷积处理,可以便捷的获得激光雷达稀疏深度图的特征图以及特征图的蒙板。
在一个可选示例中,本公开实施例的神经网络所包含的各融合模块均具有多路(至少两路)输入和多路(至少两路)输出,一个融合模块所具有的输入路数和输出路数通常相同。融合模块主要用于针对多路输入的不同尺度的特征图分别进行有效点特征融合处理。在进行特征融合处理过程中,融合模块可以在考虑特征图的蒙板的基础上,便捷的区分出特征图中的有效点和无效点,从而方便的实现有效点特征融合处理。
在一些实施方式中,操作S110中,针对至少两个不同尺度的特征图分别进行有效点特征融合处理,可以包括:神经网络执行至少一级有效点特征融合处理;在至少一级有效点融合处理中,神经网络对多路不同尺度的特征图分别进行有效点特征融合处理;在神经网络执行多级有效点特征融合处理的情况下,前一级融合处理的输出为后一级融合处理提供输入。
在一个可选示例中,在本公开实施例的神经网络包括多个融合模块的情况下,神经网络可以对前一级融合模块的至少一路输出,进行特征图尺度变换处理,以便于为后一级融合模块的各路输入分别提供相应尺度的特征图。
其中,神经网络对前一级融合处理后输出的特征图进行尺度变换处理,尺度变换处理后的特征图用于提供给后一级的融合处理。例如,前一级融合模块的一路输出,在进行了特征图尺度变换处理后,所形成的特征图,被作为后一级融合模块的输入特征图。
在前一级融合处理的输出路数小于后一级融合处理的输入路数的情况下,前一级融合处理的一路输出以及该路输出的尺度变换处理后的特征图均被作为后一级融合处理的输入。例如,在前一级融合模块的输出路数小于后一级融合模块的输入路数的情况下,前一级融合模块的一路输出,在被作为后一级融合模块的一路输入的同时,该路输出在进行了特征图尺度变换处理后,所形成的特征图,被作为后一级融合模块的另一路输入的特征图。
需要特别说明的是,本公开实施例在对特征图进行尺度变换处理的同时,还可以对特征图的蒙板进行相应的尺度变换处理,从而使尺度变换处理后的特征图对应有相应的蒙板。
在一个可选示例中,为了便于描述,本公开实施例可以将神经网络中执行对融合模块所输出的特征图进行尺度变换处理操作的部分,可以称为第一变换模块。本公开实施例也可以利用第一变换模块对融合模块所输出的特征图的蒙板进行尺度变换处理。本公开实施例的神经网络可以包括至少一个第一变换模块,第一变换模块可以通过执行下采样或者稀疏上采样操作,来实现对特征图以及特征图的蒙板的尺度变换处理。本公开实施例中的稀疏上采样通常是指:针对包含有效点和无效点的图(如特征图或者特征图的蒙板),根据图(如特征图或者特征图的蒙板)中的有效点的位置和无效点的位置进行加权的上采样操作。本公开实施例通过利用稀疏上采样,可以便捷实现特征图以及特征图的蒙板的尺度变换处理。
在其中一个可选示例中,稀疏上采样处理,可以包括:将特征图与特征图的蒙板进行元素相乘,将相乘的结果进行上采样处理;将特征图的蒙板进行上采样处理,并对上采样处理后的蒙板形成权值矩阵;将上采样处理后的特征图,与权值矩阵的倒数进行元素相乘,形成稀疏相加处理后的特征图;对权值矩阵进行二值化处理,形成稀疏相加处理后的特征图的蒙板。
本公开实施例中的下采样操作可以通过最大池化层(Max Pooling)来实现。当然,本公开实施例也可以采用其他方式实现下采样操作,本公开实施例不限制下采样操作的实现过程。本公开实施例在针对特征图执行稀疏上采样操作的过程中,可以参考特征图的蒙板,从而可以使稀疏上采样处理后的特征图中的有效点的位置,由稀疏上采样处理前的特征图中的有效点位置决定。稀疏上采样处理的实现过程可以参见下述针对图2的描述。
在另一些实施方式中,操作S110中,针对至少两个不同尺度的特征图分别进行有效点特征融合处理,还可以包括:对融合处理后的至少两路输出的特征图进行有效点特征融合处理,以形成一路特征图,所述形成的一路特征图作为后一级的融合处理的输入;或者,神经网络对所述形成的一路特征图进行输出处理。
另外,在本公开实施例激光雷达稀疏深度图的处理方法另一个实施例中,还可以包括:将与激光雷达稀疏深度图具有相同视角和大小的图像提供给神经网络,其中的图像包括:摄像装置摄取到的图像;神经网络获取所述图像的至少一个尺度的特征图,所述图像的相应尺度的特征图被作为相应的融合处理的输入;其中,所述图像的特征图用于与激光雷达稀疏深度图的特征图进行融合处理。
在一个可选示例中,在本公开实施例的神经网络包括多个融合模块的情况下,神经网络可以对前一级融合模块的至 少两路输出的特征图进行有效点特征融合处理,从而形成一路特征图,该路特征图可以作为后一级融合模块的输入。例如,在前一级融合模块的输出路数大于后一级融合模块的输入路数的情况下,前一级融合模块的两路输出在进行有效点特征融合处理后,所形成的特征图,被作为后一级融合模块的一路输入的特征图。
需要特别说明的是,本公开实施例在对前一级融合模块输出的特征图进行有效点特征融合处理的同时,还可以对特征图的蒙板进行相应的融合处理,从而使融合处理后的特征图对应有相应的蒙板。
在其中一些实施方式中,神经网络对所述形成的一路特征图进行输出处理,可以包括:对最后一级融合处理所输出的多路有效点特征融合处理后的特征图及特征图的蒙板进行稀疏相加处理,并对稀疏相加结果进行卷积处理,形成处理后的深度图。
在其中一个可选示例中,稀疏相加处理,可以包括:将第一特征图与第一特征图的蒙板进行元素相乘,将第二特征图与第二特征图的蒙板进行元素相乘,将两个相乘结果进行相加,并将相加结果与权值矩阵的倒数进行元素相乘,形成稀疏相加处理后的特征图;将第一特征图的蒙板与第二特征图的蒙板进行或运算,形成稀疏相加处理后的特征图的蒙板。
在一个可选示例中,为了便于描述,本公开实施例可以将神经网络中执行对前一级融合模块的至少两路输出的特征图进行有效点特征融合处理操作的部分,称为第二变换模块。本公开实施例也可以利用第二变换模块,对前一级融合模块的至少两路输出的特征图的蒙板进行融合处理。公开实施例的神经网络可以包括至少一个第二变换模块,第二变换模块可以通过稀疏上采样以及稀疏相加等操作,来实现上述特征图的有效点特征融合处理以及蒙板的融合处理。本公开实施例中的稀疏相加通常是指:针对包含有效点和无效点的图(如特征图或者特征图的蒙板),根据图(如特征图或者特征图的蒙板)中的有效点的位置和无效点的位置进行加权的相加操作。本公开实施例通过利用稀疏上采样以及稀疏相加,可以便捷的实现特征图的有效点特征融合处理以及特征图的蒙板的融合处理。
本公开实施例在针对特征图进行稀疏上采样处理以及稀疏相加处理的过程中,可以参考特征图的蒙板,以实现基于有效点的稀疏上采样处理以及稀疏相加处理,从而可以使稀疏上采样处理以及稀疏相加处理后的特征图中的有效点的位置,由稀疏上采样处理前的特征图中的有效点位置决定。稀疏相加处理的实现过程的一个示例可以参见下述针对图3的描述。
需要特别说明的是,在一应用场景中,前后相邻的两个融合模块之间可以设置一个第一变换模块;在另一应用场景中,前后相邻的两个融合模块之间可以设置一个第二变换模块;在再一应用场景中,前后相邻的两个融合模块之间可以设置一个第一变换模块和一个第二变换模块。
在一个可选示例中,神经网络中的融合模块针对其各路输入,所执行的有效点特征融合处理操作,并不完全相同。例如,在融合模块具有两路输入的情况下,融合模块针对两路输入执行不同的有效点特征融合处理操作。再例如,在融合模块具有三路输入的情况下,融合模块可以针对其中两路输入执行相同的有效点特征融合处理操作,而针对剩余的一路输入所执行的有效点特征融合处理操作,与其针对另两路输入所执行的有效点特征融合处理操作不相同。当然,本公开实施例也不排除融合模块针对三路输入执行三种不同的有效点特征融合处理操作的可能性。
在其中一些实施方式中,在融合处理具有N路输入和N路输出的情况下,神经网络针对第M路输入所执行的有效点特征融合处理,可以包括:对第N路输入的特征图和特征图的蒙板分别进行下采样处理;根据下采样处理后的特征图和特征图的蒙板,以及第M路输入的特征图以及特征图的蒙板,进行稀疏合并卷积处理;对稀疏合并卷积处理后获得的特征图及特征图的蒙板分别进行稀疏卷积处理,形成第M路输出的有效点特征融合处理后的特征图及特征图的蒙板。其中,第N路输入的特征图的尺度大于第M路输入的特征图的尺度,M为大于0的整数、且N为大于M的整数。
在一个可选示例中,在融合模块具有N(N>1,且N为整数)路输入和N路输出的情况下,融合模块针对第M(M>0,且M为小于N的整数)路输入所执行的有效点特征融合处理的过程可以为:
首先,融合模块对其第N路输入的特征图和特征图的蒙板分别进行处理(如下采样处理),例如,利用最大池化层实现对第N路输入的特征图的下采样处理。且融合模块可以利用该最大池化层实现对第N路输入的特征图的蒙板的下采样处理。该示例中的第N路输入的特征图的尺度大于第M路输入的特征图的尺度。
其次,融合模块根据上述下采样处理后的特征图和蒙板,以及第M路输入的特征图以及蒙板,进行稀疏合并卷积处理,从而获得稀疏合并卷积处理后的特征图以及特征图的蒙板。本公开实施例中的稀疏合并卷积通常是指:针对包含有效点和无效点的两路图(如特征图或者蒙板),进行合并操作,并根据合并后的图(如合并后的特征图或者合并后的蒙板)中的有效点的位置和无效点的位置进行加权的卷积运算操作。本公开实施例通过利用稀疏合并卷积,有利于便捷的形成第M路的有效点特征融合处理后的特征图及其蒙板。稀疏合并卷积处理的实现过程的一个示例可以参见下述针对图4的描述。
最后,融合模块对稀疏合并卷积处理后获得的特征图及特征图的蒙板,分别进行稀疏卷积处理,从而形成其第M路输出的有效点特征融合处理后的特征图及其蒙板。本公开实施例可以采用现有的稀疏卷积处理方式,本公开实施例不限制稀疏卷积处理的实现过程。
在另一些实施方式中,神经网络针对第N路输入所执行的有效点特征融合处理,可以包括:对第N路输入的特征图及特征图的蒙板分别进行稀疏卷积处理;对至少一第M路输出的有效点特征融合处理后的特征图及特征图的蒙板进行卷积处理,并将所述卷积处理后的特征图及特征图的蒙板分别进行稀疏上采样处理;对第N路稀疏卷积处理后的特征图及特征图的蒙板与至少一第M路的稀疏上采样处理后的特征图及特征图的蒙板进行稀疏相加处理,形成第N路输出的有效点特征融合处理后的特征图及特征图的蒙板。
在另一些实施方式中,在融合处理具有N路输入和N路输出的情况下,神经网络针对第N路输入所执行的有效点特征融合处理,可以包括:对第N路输入的特征图及特征图的蒙板以及图像的特征图进行稀疏合并卷积处理;对至少一第M路输出的有效点特征融合处理后的特征图及特征图的蒙板进行卷积处理,并将卷积处理后的特征图及特征图的蒙板分别进行稀疏上采样处理;对第N路稀疏合并卷积处理后的特征图及特征图的蒙板与至少一第M路的稀疏上采样处理后的特征图及特征图的蒙板分别进行稀疏相加处理,形成第N路输出的有效点特征融合处理后的特征图及特征图的蒙板。其中,M为大于0的整数、N为大于M的整数。
相应地,在其中一些实施方式中,神经网络对所述形成的一路特征图进行输出处理,可以包括:对最后一级融合处 理所输出的多路有效点特征融合处理后的特征图及特征图的蒙板分别进行稀疏相加处理,对稀疏相加结果与所述图像的特征图进行稀疏合并卷积处理,并对稀疏合并卷积处理的结果进行卷积处理,形成处理后的深度图。
在一个可选示例中,在融合模块具有N(N>1,且N为整数)路输入和N路输出的情况下,融合模块针对第N路输入所执行的有效点特征融合处理的过程可以为:
首先,融合模块对其第N路输入的特征图及其蒙板,分别进行稀疏卷积处理。同样的,本公开实施例可以采用现有的稀疏卷积处理方式,本公开实施例不限制稀疏卷积处理的具体实现过程。
其次,融合模块对至少一第M(M>0,且M为小于N的整数)路所输出的有效点特征融合处理后的特征图及其蒙板分别进行卷积处理,并将卷积处理后的特征图及其蒙板分别进行稀疏上采样处理。例如,在融合模块具有三路输入以及三路输出的情况下,融合模块可以仅针对第一路输出的特征图和蒙板分别进行卷积处理以及稀疏上采样处理。再例如,在融合模块具有三路输入以及三路输出的情况下,融合模块可以仅针对第二路输出的特征图和蒙板分别进行卷积处理以及稀疏上采样处理。再例如,在融合模块具有三路输入以及三路输出的情况下,融合模块可以针对第一路输出的特征图和蒙板分别进行卷积处理以及稀疏上采样处理,并针对第二路输出的特征图和蒙板分别进行卷积处理以及稀疏上采样处理。
最后,对第N路稀疏卷积处理后的特征图及其蒙板与至少一第M路的稀疏上采样处理后的特征图及其蒙板分别进行稀疏相加处理,从而形成第N路输出的有效点特征融合处理后的特征图及其蒙板。例如,在融合模块具有三路输入以及三路输出的情况下,融合模块可以将第三路稀疏卷积处理后的特征图及其蒙板与第一路的稀疏上采样处理后的特征图及其蒙板进行稀疏相加处理,该稀疏相加处理后的特征图及其蒙板被作为融合模块的第三路输出。再例如,在融合模块具有三路输入以及三路输出的情况下,融合模块可以将第三路稀疏卷积处理后的特征图及其蒙板与第二路的稀疏上采样处理后的特征图及其蒙板进行稀疏相加处理,该稀疏相加处理后的特征图及其蒙板被作为融合模块的第三路输出。再例如,在融合模块具有三路输入以及三路输出的情况下,融合模块可以将第三路稀疏卷积处理后的特征图及其蒙板与第一路的稀疏上采样处理后的特征图及其蒙板分别进行稀疏相加处理,并将稀疏相加处理后的特征图及其蒙板与第二路的稀疏上采样处理后的特征图及其蒙板分别进行稀疏相加处理,本次稀疏相加处理后的特征图及其蒙板被作为融合模块的第三路输出。
在一个可选示例中,本公开实施例在将激光雷达稀疏深度图及其蒙板提供给神经网络的同时,还可以将该稀疏深度图所对应的RGB(红绿蓝)图像提供给该神经网络。该RGB图像通常与激光雷达稀疏深度图具有相同或者基本相同视角和大小。例如,激光雷达通过扫描生成深度点云数据,该深度点云数据会被投射到摄像装置所摄取的RGB图像中,从而形成激光雷达稀疏投射图。
在一个可选示例中,神经网络的输入处理单元还可以用于获取RGB图像的至少一个尺度的特征图。输入处理单元所获取的RGB图像的特征图的数量,通常小于神经网络所包含的融合模块的数量。本公开实施例通过将RGB图像的相应尺度的特征图,提供给神经网络中相应的融合模块,使融合模块可以在参考其接收到的RGB图像的特征图的基础上,执行有效点特征融合处理操作。
由于RGB图像的特征图可以为融合模块提供全局特征信息(例如,用于表征物体与物体之间的关系的特征信息),因此,本公开实施例可以使融合模块获得更为准确的物体边缘信息,从而有利于避免出现图像中的物体内部的深度断裂现象,进而有利于使处理后的激光雷达深度图更为精准。
在一个可选示例中,在融合模块具有N(N>0,且N为整数)路输入和N路输出,且将RGB图像的特征图提供给融合模块的情况下,融合模块针对第M(M>0,且M为小于N的整数)路输入所执行的有效点特征融合处理的过程可以参见上述实施方式中的描述。在此不再重复说明。
在一个可选示例中,在融合模块具有N(N>0,且N为整数)路输入和N路输出,且将RGB图像的特征图提供给融合模块的情况下,融合模块针对第N路输入所执行的有效点特征融合处理的过程可以为:
首先,融合模块对其第N路输入的特征图及其蒙板,分别进行稀疏合并卷积处理。
其次,融合模块对至少一第M路所输出的有效点特征融合处理后的特征图及其蒙板分别进行卷积处理,并将卷积处理后的特征图及其蒙板分别进行稀疏上采样处理。例如,在融合模块具有三路输入以及三路输出的情况下,融合模块可以仅针对第一路输出的特征图和蒙板分别进行卷积处理以及稀疏上采样处理。再例如,在融合模块具有三路输入以及三路输出的情况下,融合模块可以仅针对第二路输出的特征图和蒙板分别进行卷积处理以及稀疏上采样处理。再例如,在融合模块具有三路输入以及三路输出的情况下,融合模块可以针对第一路输出的特征图和蒙板分别进行卷积处理以及稀疏上采样处理,并针对第二路输出的特征图和蒙板分别进行卷积处理以及稀疏上采样处理。
最后,对第N路稀疏合并卷积处理后的特征图及其蒙板与至少一第M路的稀疏上采样处理后的特征图及其蒙板分别进行稀疏相加处理,从而形成第N路输出的有效点特征融合处理后的特征图及其蒙板。例如,在融合模块具有三路输入以及三路输出的情况下,融合模块可以将第三路稀疏合并卷积处理后的特征图及其蒙板与第一路的稀疏上采样处理后的特征图及其蒙板进行稀疏相加处理,该稀疏相加处理后的特征图及其蒙板被作为融合模块的第三路输出。再例如,在融合模块具有三路输入以及三路输出的情况下,融合模块可以将第三路稀疏合并卷积处理后的特征图及其蒙板与第二路的稀疏上采样处理后的特征图及其蒙板进行稀疏相加处理,该稀疏相加处理后的特征图及其蒙板被作为融合模块的第三路输出。再例如,在融合模块具有三路输入以及三路输出的情况下,融合模块可以将第三路稀疏合并卷积处理后的特征图及其蒙板与第一路的稀疏上采样处理后的特征图及其蒙板分别进行稀疏相加处理,并将本次稀疏相加处理后的特征图及其蒙板与第二路的稀疏上采样处理后的特征图及其蒙板分别进行稀疏相加处理,本次稀疏相加处理后的特征图及其蒙板被作为融合模块的第三路输出。
在一个可选示例中,本公开实施例中的输出处理单元主要用于根据最后一级融合模块的输出,形成处理后(即填补处理后)的深度图。
在未将RGB图像作为输入,提供给神经网络的情况下,输出处理单元可以为第一输出处理单元,第一输出处理单元主要用于对最后一级融合模块所输出的多路有效点特征融合处理后的特征图及其蒙板,进行稀疏相加处理,并对稀疏相加结果进行卷积处理,从而形成处理后的深度图。
在将RGB图像作为输入,提供给神经网络的情况下,输出处理单元可以为第二输出处理单元,第二输出处理单元主要用于对最后一级融合模块所输出的多路有效点特征融合处理后的特征图及其蒙板进行稀疏相加处理,对稀疏相加结果与RGB图像的特征图进行稀疏合并卷积处理,并对稀疏合并卷积处理的结果进行的卷积处理,从而形成处理后的深度图。
本公开实施例一可选示例中,稀疏上采样处理的实现过程如图2所示。
图2中,位于左上角的2×2的矩阵表示特征图x,位于左下角的2×2的矩阵表示特征图x的蒙板m x,⊙表示元素相乘(即element wise multiplication),
Figure PCTCN2019097270-appb-000001
表示元素相加(即element wise addition),/表示元素相除(即element wise division),F表示上采样处理。
首先,将特征图x与蒙板m x进行元素相乘,相乘的结果如图2中左上第2个2×2的矩阵,即位于m x⊙x上面的2×2的矩阵。将相乘的结果m x⊙x进行上采样处理,从而形成左上第一个4×4的矩阵,即位于F(m x,x)上面的4×4的矩阵。
其次,将特征图x的蒙板m x进行上采样处理,从而形成左下第一个4×4的矩阵,即位于F(m x)上面的4×4的矩阵。对上采样处理后的蒙板F(m x)形成权值矩阵。权值矩阵的倒数的一个例子可以为:1/(F(m x)+ε),其中的ε为远小于1的常数,例如,ε的取值范围可以为0.00005-0.0001。ε主要用于避免分母为0。
再次,将上采样处理后的特征图F(m x,x),与权值矩阵的倒数1/(F(m x)+ε)进行元素相乘,形成稀疏相加处理后的特征图z(如图2右上角所示)。
与此同时,可以对权值矩阵F(m x)进行二值化处理,从而形成稀疏相加处理后的特征图的蒙板m z(如图2右下角所示)。本公开实施例的针对权值矩阵的二值化处理的一个例子可以表示为:F(m x)/(F(m x)+ε)。
本公开实施例可以采用下述公式(1)来表示针对特征图的稀疏上采样处理,并采用下述公式(2)来表示针对特征图的蒙板的稀疏上采样处理:
z=F(m x⊙x)/(F(m x)+ε)   公式(1)
m z=F(m x)/(F(m x)+ε)   公式(2)
本公开实施例一可选示例中,稀疏相加处理的实现过程如图3所示。
图3中,位于左上角的3×3的矩阵表示特征图x,位于特征图x下方的3×3的矩阵表示特征图y,位于特征图y下方的3×3的矩阵表示特征图x的蒙板m x,位于特征图x的蒙板m x下方的3×3的矩阵表示特征图y的蒙板m y,⊙表示元素相乘,
Figure PCTCN2019097270-appb-000002
表示元素相加,/表示元素相除,∪表示或运算。
首先,将特征图x(即第一特征图)与其蒙板m x进行元素相乘,相乘的结果如图3中左上第2个3×3的矩阵,即位于m x⊙x上面的3×3的矩阵。
与此同时,将特征图y(即第二特征图)与其蒙板m y进行元素相乘,相乘的结果如图3中第2行左侧第2个3×3的矩阵,即位于m y⊙y上面的3×3的矩阵。
其次,将这两个相乘结果进行相加,相加的结果如图3中左上第3个3×3的矩阵,即位于m x⊙x+m y⊙y上面的3×3的矩阵。
再次,将相加结果m x⊙x+m y⊙y与权值矩阵的倒数进行元素相乘,形成稀疏相加处理后的特征图z,即位于右上角的3×3的矩阵。其中的权值矩阵的倒数的一个例子可以为:1/(m x+m y+ε),其中的ε为远小于1的常数,例如,ε的取值范围可以为0.00005-0.0001。ε主要用于避免分母为0。其中的m x+m y的结果如图3中第3行右侧的3×3的矩阵。
在针对特征图x和特征图y进行稀疏相加处理的同时,还可以对特征图x的蒙板m x和特征图y的蒙板m y进行 稀疏相加处理,例如,将特征图x的蒙板m x与特征图y的蒙板m y进行或运算,从而形成稀疏相加处理后的特征图z的蒙板m z,即位于右下角的3×3的矩阵。
本公开实施例可以采用下述公式(3)来表示针对特征图的稀疏相加处理,并采用下述公式(4)来表示针对特征图的蒙板的稀疏相加处理:
z=(m x⊙x+m y⊙y)/(m x+m y+ε)   公式(3)
m z=m x∪m y   公式(4)
本公开实施例一可选示例中,稀疏合并卷积处理的实现过程如图4所示。
图4中,位于左上角的长方体表示特征图x,位于特征图x下方的长方体表示特征图y,位于特征图y下方的3×3的矩阵表示特征图x的蒙板m x,位于特征图x的蒙板m x下方的3×3的矩阵表示特征图y的蒙板m y,⊙表示元素相乘,
Figure PCTCN2019097270-appb-000003
表示元素相加,
Figure PCTCN2019097270-appb-000004
表示相乘,/表示元素相除,c x表示特征图x的通道数,c y表示特征图y的通道数,*表示卷积处理。
首先,将特征图x(即第一特征图)和特征图y(即第二特征图)在通道数维度上合并,合并的结果如图4中的位于[xy]上方的长方体,合并后的结果可以表示为[xy],[xy]的通道数为c x+c y
其次,将合并后的结果[xy]进行卷积运算,k x表示本次卷积运算的卷积核的大小。
再次,将卷积运算后的特征图与权值矩阵的倒数进行元素相乘,形成稀疏合并卷积处理后的特征图z。
在针对特征图x和特征图y进行稀疏合并卷积处理的同时,还可以对特征图x的蒙板m x和特征图y的蒙板m y进行稀疏合并卷积处理,例如,将特征图x的蒙板m x与特征图x的通道数c x相乘,将特征图y的蒙板m y与特征图y的通道数c y相乘,并对两个相乘结果进行相加处理,相加处理后的结果如图4下侧最右边的3×3的矩阵,即位于图4中的u=c xm x+c ym y上方的3×3的矩阵。将相加处理后的结果u=c xm x+c ym y进行卷积运算,k m表示本次卷积运算的卷积核的大小;根据卷积运算结果形成权值矩阵,权值矩阵的倒数的一个例子可以为:1/(u*k m+ε),其中的ε为远小于1的常数,例如,ε的取值范围可以为0.00005-0.0001。ε主要用于避免分母为0。对权值矩阵进行二值化处理,形成稀疏合并卷积处理后的特征图z的蒙板m z。本公开实施例的针对权值矩阵u*k m的二值化处理的一个例子可以表示为:(u*k m)/(u*k m+ε)。
本公开实施例可以采用下述公式(5)来表示针对特征图的稀疏合并卷积处理,并采用下述公式(6)来表示针对特征图的蒙板的稀疏合并卷积处理:
z=([xy]*k x)/((c xm x+c ym y)*k m+ε)   公式(5)
m z=((c xm x+c ym y)*k m)/((c xm x+c ym y)*k m+ε)   公式(6)
本公开实施例一可选示例中,具有两输入和两输出的融合模块(即两尺度融合模块)的一个例子如图5所示。
图5最左侧为两路输入,这两路输入可以称为上路输入和下路输入。两种具有不同尺度的特征图通过这两路输入被提供给融合模块,相应的,两种具有不同尺度的特征图的蒙板也通过两路输入被提供给融合模块。图5最右侧为两路输出,可以称为上路输出和下路输出。融合模块针对两路输入分别进行有效点特征融合处理后,所形成的两种具有不同尺度的特征图及其蒙板成为上路输出和下路输出。
融合模块针对上路输入进行下采样处理(图5中间区域最左侧的填充有竖直线的方框,本公开实施例中的中间区域是指,图的最上面和最下面之间的区域,下同,不再一一说明),使下采样处理后的结果与下路输入具有相同的尺度(即下采样处理后的结果与下路输入具有相同的大小,说明:图5中的方框的大小并不代表尺度大小)。融合模块将下采样处理后的结果与下路输入一起进行稀疏合并卷积处理(图5左下角位置处的填充有圆点的方框);融合模块对稀疏合并卷积处理后的结果进行稀疏卷积处理(图5右下角位置处的填充有左斜线的方框,左斜线是指由方框的右上向左下倾斜的线);本次稀疏卷积处理后的结果为融合模块的下路输出。融合模块可以针对输入的特征图及其蒙板分别进行上述处理操作,获得的特征图及其蒙板均被作为下路输出。
融合模块针对上路输入进行稀疏卷积处理(图5上侧中间区域的填充有左斜线的方框)。融合模块还会针对下路输出进行卷积处理(图5右侧中间区域的填充有右斜线的方框,右斜线是指由方框的左上向右下倾斜的线),该卷积处理 可以包括:卷积核为1×1的卷积处理。融合模块对卷积处理后的结果进行稀疏上采样处理(图5右侧中间区域的填充有水平线的方框),使稀疏上采样处理处理后的结果与上路输入的稀疏卷积处理后的结果具有相同的尺度。融合模块对上路输入的稀疏卷积处理后的结果与稀疏上采样处理后的结果进行稀疏相加处理(图5右上角位置处的填充有菱形块的方框),本次稀疏相加处理后的结果为融合模块的上路输出。融合模块可以针对输入的特征图及其蒙板分别进行上述处理操作,获得的特征图及其蒙板均被作为上路输出。
本公开实施例一可选示例中,具有两输入和两输出的融合模块(即两尺度融合模块)的另一个例子如图6所示。
图6最左侧为两路输入,这两路输入可以称为上路输入和下路输入。两种具有不同尺度的特征图通过这两路输入被提供给融合模块,相应的,两种具有不同尺度的特征图的蒙板也通过两路输入被提供给融合模块。图6最上侧为输入的RGB图像的特征图。图6最右侧为两路输出,可以称为上路输出和下路输出。融合模块在考虑RGB图像的特征图的基础上,针对两路输入分别进行有效点特征融合处理后,所形成的两种具有不同尺度的特征图及其蒙板成为上路输出和下路输出。
融合模块针对上路输入进行下采样处理(图6中间区域最左侧的填充有竖直线的方框),使下采样处理后的结果与下路输入具有相同的尺度。融合模块将下采样处理后的结果与下路输入一起进行稀疏合并卷积处理(图6左下角位置处的填充有圆点的方框);融合模块对稀疏合并卷积处理后的结果进行稀疏卷积处理(图6右下角位置处的填充有左斜线的方框,左斜线是指由方框的右上向左下倾斜的线);本次稀疏卷积处理后的结果为融合模块的下路输出。融合模块可以针对输入的特征图及其蒙板分别进行上述处理操作,获得的特征图及其蒙板均被作为下路输出。
融合模块针对上路输入和RGB图像的特征图进行稀疏合并卷积处理(图6最上侧位置处的填充有圆点的方框)。融合模块还会针对下路输出进行卷积处理(图6右侧中间区域的填充有右斜线的方框,右斜线是指由方框的左上向右下倾斜的线),该卷积处理可以包括:卷积核为1×1的卷积处理。融合模块对卷积处理后的结果进行稀疏上采样处理(图6右侧中间区域的填充有水平线的方框),使稀疏上采样处理处理后的结果与上路输入的稀疏合并卷积处理后的结果具有相同的尺度。融合模块对上路输入的稀疏合并卷积处理后的结果与稀疏上采样处理后的结果进行稀疏相加处理(图6右上角位置处的填充有菱形块的方框),本次稀疏相加处理后的结果为融合模块的上路输出。融合模块可以针对输入的特征图及其蒙板分别进行上述处理操作,获得的特征图及其蒙板均被作为上路输出。
本公开实施例一可选示例中,具有三输入和三输出的融合模块(即三尺度融合模块)的一个例子如图7所示。
图7最左侧为三路输入,这三路输入可以称为上路输入、中路输入和下路输入。三种具有不同尺度的特征图通过这三路输入被提供给融合模块,相应的,三种具有不同尺度的特征图的蒙板也通过三路输入被提供给融合模块。图7最右侧为三路输出,可以称为上路输出、中路输出和下路输出。融合模块针对三路输入分别进行有效点特征融合处理后,所形成的三种具有不同尺度的特征图及其蒙板成为上路输出、中路输出和下路输出。
融合模块针对上路输入进行下采样处理(图7中间区域最左侧上层的填充有竖直线的方框),使下采样处理后的结果与中路输入具有相同的尺度。融合模块将下采样处理后的结果与中路输入一起进行稀疏合并卷积处理(图7中间区域最左侧的填充有圆点的方框);融合模块对本次稀疏合并卷积处理后的结果进行稀疏卷积处理(图7中间区域最右侧的填充有左斜线的方框);本次稀疏卷积处理后的结果为融合模块的中路输出。融合模块可以针对输入的特征图及其蒙板分别进行上述处理操作,获得的特征图及其蒙板均被作为中路输出。
融合模块针对上路输入进行下采样处理(图7中间区域最左侧下层的填充有竖直线的方框),使下采样处理后的结果与下路输入具有相同的尺度。融合模块将下采样处理后的结果与下路输入一起进行稀疏合并卷积处理(图7左下角位置处的填充有圆点的方框);融合模块对本次稀疏合并卷积处理后的结果进行稀疏卷积处理(图7右下角位置处的填充有左斜线的方框);本次稀疏卷积处理后的结果为融合模块的下路输出。融合模块可以针对输入的特征图及其蒙板分别进行上述处理操作,获得的特征图及其蒙板均被作为下路输出。
融合模块针对上路输入进行稀疏卷积处理(图7上侧最左边位置处的填充有左斜线的方框)。融合模块还会针对中路输出进行卷积处理(图7右侧中间区域的最上面的一个填充有右斜线的方框,右斜线是指由方框的左上向右下倾斜的线),该卷积处理可以包括:卷积核为1×1的卷积处理。融合模块对卷积处理后的结果进行稀疏上采样处理(图7右侧中间区域的最上面的一个填充有水平线的方框),使稀疏上采样处理处理后的结果与上路输入的稀疏卷积处理后的结果具有相同的尺度。融合模块对上路输入的稀疏卷积处理后的结果与本次稀疏上采样处理后的结果进行稀疏相加处理(图7最上侧左边位置处的填充有菱形块的方框),获得第一稀疏相加处理结果。
融合模块针对下路输出进行卷积处理(图7右侧中间区域的最下面的填充有右斜线的方框,右斜线是指由方框的左上向右下倾斜的线),该卷积处理可以包括:卷积核为1×1的卷积处理。融合模块对卷积处理后的结果进行稀疏上采样处理(图7右侧中间区域的最下面的填充有水平线的方框),使稀疏上采样处理处理后的结果与第一稀疏相加处理结果具有相同的尺度。融合模块对第一稀疏相加处理结果与本次稀疏上采样处理后的结果进行稀疏相加处理(图7右上角位置处的填充有菱形块的方框),获得第二稀疏相加处理结果。第二稀疏相加处理结果被作为融合模块的上路输出。融合模块可以针对输入的特征图及其蒙板分别进行上述处理操作,获得的特征图及其蒙板均被作为上路输出。
本公开实施例一可选示例中,具有三输入和三输出的融合模块(即三尺度融合模块)的另一个例子如图8所示。
图8最左侧为三路输入,这三路输入可以称为上路输入、中路输入和下路输入。三种具有不同尺度的特征图通过这三路输入被提供给融合模块,相应的,三种具有不同尺度的特征图的蒙板也通过三路输入被提供给融合模块。图8最右侧为三路输出,可以称为上路输出、中路输出和下路输出。融合模块针对三路输入分别进行有效点特征融合处理后,所形成的三种具有不同尺度的特征图及其蒙板成为上路输出、中路输出和下路输出。
融合模块针对上路输入进行下采样处理(图8中间区域最左侧上层的填充有竖直线的方框),使下采样处理后的结果与中路输入具有相同的尺度。融合模块将下采样处理后的结果与中路输入一起进行稀疏合并卷积处理(图8中间区域最左侧的填充有圆点的方框);融合模块对本次稀疏合并卷积处理后的结果进行稀疏卷积处理(图8中间区域最右侧的填充有左斜线的方框);本次稀疏卷积处理后的结果为融合模块的中路输出。融合模块可以针对输入的特征图及其蒙板分别进行上述处理操作,获得的特征图及其蒙板均被作为中路输出。
融合模块针对上路输入进行下采样处理(图8中间区域最左侧下层的填充有竖直线的方框),使下采样处理后的结 果与下路输入具有相同的尺度。融合模块将下采样处理后的结果与下路输入一起进行稀疏合并卷积处理(图8左下角位置处的填充有圆点的方框);融合模块对本次稀疏合并卷积处理后的结果进行稀疏卷积处理(图8右下角位置处的填充有左斜线的方框);本次稀疏卷积处理后的结果为融合模块的下路输出。融合模块可以针对输入的特征图及其蒙板分别进行上述处理操作,获得的特征图及其蒙板均被作为下路输出。
融合模块针对上路输入进行稀疏合并卷积处理(图8上侧最左边位置处的填充有圆点的方框)。融合模块还会针对中路输出进行卷积处理(图8右侧中间区域的最上面的一个填充有右斜线的方框,右斜线是指由方框的左上向右下倾斜的线),该卷积处理可以包括:卷积核为1×1的卷积处理。融合模块对卷积处理后的结果进行稀疏上采样处理(图8右侧中间区域的最上面的一个填充有水平线的方框),使稀疏上采样处理处理后的结果与上路输入的稀疏合并卷积处理后的结果具有相同的尺度。融合模块对上路输入的稀疏合并卷积处理后的结果与本次稀疏上采样处理后的结果进行稀疏相加处理(图8最上侧左边位置处的填充有菱形块的方框),获得第一稀疏相加处理结果。
融合模块针对下路输出进行卷积处理(图8右侧中间区域的最下面的填充有右斜线的方框,右斜线是指由方框的左上向右下倾斜的线),该卷积处理可以包括:卷积核为1×1的卷积处理。融合模块对卷积处理后的结果进行稀疏上采样处理(图8右侧中间区域的最下面的填充有水平线的方框),使稀疏上采样处理处理后的结果与第一稀疏相加处理结果具有相同的尺度。融合模块对第一稀疏相加处理结果与本次稀疏上采样处理后的结果进行稀疏相加处理(图8右上角位置处的填充有菱形块的方框),获得第二稀疏相加处理结果。第二稀疏相加处理结果被作为融合模块的上路输出。融合模块可以针对输入的特征图及其蒙板分别进行上述处理操作,获得的特征图及其蒙板均被作为上路输出。
本公开实施例一可选示例中,包含有多个融合模块的神经网络的一个例子如图9所示。
图9中,神经网络包括:第一输入处理单元、两个两尺度融合模块(即图9中两尺度融合模块900和940)、三个三尺度融合模块(即图9中三尺度的融合模块910、920和930)、五个第一变换模块、两个第二变换模块以及第一输出处理单元。
第一输入处理单元包括位于图9最左侧的填充有左斜线的方框以及最左侧的填充有竖直线的方框。
第一个第一变换模块设置于图9中两尺度融合模块900和三尺度融合模块910之间,且该第一个第一变换模块包括:两个填充有竖直线的方框。第一个第一变换模块主要用于对两尺度融合模块900的上路和下路输出的特征图分别进行尺度变换处理(如下采样处理),尺度变换处理后的特征图分别被作为三尺度融合模块910的中路输入和下路输入。两尺度融合模块900的上路输出被直接提供给三尺度融合模块910的上路输入。第一个第一变换模块还可以对两尺度融合模块900的上路输出的蒙板分别进行尺度变换处理(如下采样处理),尺度变换处理后的蒙板同样被作为三尺度融合模块910的中路输入和下路输入。
第二个第一变换模块设置于图9中三尺度融合模块910和三尺度融合模块920之间,且第二个第一变换模块包括:两个填充有竖直线的方框。第二个第一变换模块主要用于对三尺度融合模块910的中路和下路输出的特征图分别进行尺度变换处理(如下采样处理),尺度变换处理后的特征图分别被作为三尺度融合模块920的中路输入和下路输入。三尺度融合模块910的上路输出被直接提供给三尺度融合模块920的上路输入。第二个第一变换模块还可以对三尺度融合模块910的中路和下路输出的蒙板分别进行尺度变换处理(如下采样处理),尺度变换处理后的蒙板同样被作为三尺度融合模块920的中路输入和下路输入。
第三个第一变换模块设置于图9中三尺度融合模块920和三尺度融合模块930之间,且第三个第一变换模块包括:两个填充有水平线的方框。第三个第一变换模块主要用于对三尺度融合模块920的中路和下路输出的特征图分别进行尺度变换处理(如稀疏上采样处理),尺度变换处理后的特征图分别被作为三尺度融合模块930的中路输入和下路输入。三尺度融合模块920的上路输出被直接提供给三尺度融合模块930的上路输入。第三个第一变换模块还可以对三尺度融合模块920的中路和下路输出的蒙板分别进行尺度变换处理(如稀疏上采样处理),尺度变换处理后的蒙板同样被作为三尺度融合模块930的中路输入和下路输入。
第四个第一变换模块设置于图9中三尺度融合模块930和两尺度融合模块940之间,且第四个第一变换模块包括:两个填充有水平线的方框。第四个第一变换模块主要用于对两尺度融合模块930的中路和下路输出的特征图分别进行尺度变换处理(如稀疏上采样处理),下路的尺度变换处理后的特征图被作为两尺度融合模块940的下路输入。第四个第一变换模块还可以对三尺度融合模块930的中路和下路输出的蒙板分别进行尺度变换处理(如稀疏上采样处理),尺度变换处理后的下路蒙板同样被作为两尺度融合模块940的下路输入。
第五个第一变换模块设置于图9中两尺度融合模块940之后,且第五个第一变换模块包括:一个填充有水平线的方框。第五个第一变换模块主要用于对两尺度融合模块940的下路输出的特征图进行尺度变换处理(如稀疏上采样处理)。
第一个第二变换模块设置于图9中三尺度融合模块930和两尺度融合模块940之间,且第一个第二变换模块包括:一个填充有菱形格的方框。第一个第二变换模块主要用于对三尺度融合模块930的上路输出和第四个第一变换模块针对中路输出进行尺度变换处理后的结果进行稀疏相加处理,稀疏相加处理后的结果被作为两尺度融合模块940的上路输入。
第二个第二变换模块设置于图9中两尺度融合模块94之后,且第二个第二变换模块包括:一个填充有菱形格的方框。第二个第二变换模块主要用于对两尺度融合模块940的上路输出和第五个第一变换模块的输出,进行稀疏相加处理,稀疏相加处理后的结果被提供给第一输出处理单元。
第一输出处理单元设置于图9的最右侧,包括:两个填充有右斜线的方框。第一输出处理单元主要用于对输入的特征图和蒙板进行两次卷积处理,第一次卷积处理所采用的卷积核的大小可以为3×3,第二次卷积处理所采用的卷积核的大小可以为1×1,最终输出处理后的深度图。
本公开实施例一可选示例中,包含有多个融合模块的神经网络的另一个例子如图10所示。
图10中,神经网络包括:第二输入处理单元、两个两尺度融合模块(即图10中两尺度融合模块900和940)、三个三尺度融合模块(即图10中三尺度的融合模块910、920和930)、五个第一变换模块、两个第二变换模块以及第二输出处理单元。
第二输入处理单元除了包括位于图10最左侧的填充有左斜线的方框以及最左侧的填充有竖直线的方框之外,还包括图10最上侧的五个填充有右斜线的方框,用于对RGB图像进行卷积处理,从而形成相应尺度的特征图。两个两尺度 融合模块、三个三尺度融合模块、五个第一变换模块和两个第二变换模块分别参见上述针对图9的描述。在此不再详细说明。
第二输出处理单元设置于图10的最右侧,包括:一个填充有原点的方框以及一个填充有右斜线的方框。第二输出处理单元主要用于先对两路输入的特征图和蒙板分别执行稀疏合并卷积处理,然后,再执行卷积处理,最终输出处理后的深度图。
本公开实施例的神经网络是利用激光雷达稀疏深度图样本以及该激光雷达稀疏深度图样本的填补深度图样本的深度标注值,训练而成的。本公开实施例一可选示例中,神经网络的训练方法的一个实施例的流程图如图11所示。如图11所示,该实施例方法包括:
S1100、向待训练的神经网络输入激光雷达稀疏深度图样本。
在一个可选示例中,本公开实施例可以从训练数据集中获取激光雷达稀疏深度图样本。本公开实施例中的训练数据集中包括多条用于训练神经网络激光雷达稀疏深度图样本,通常情况下,每一个激光雷达稀疏深度图样本均设置有多个点的深度标注值。本公开实施例可以按照随机读取方式或者按照图像样本排列次序顺序读取方式,一次从训练数据集中读取一个或者多个激光雷达稀疏深度图样本。
在一个可选示例中,该操作S1100可以由处理器调用存储器存储的相应指令执行,也可以由被处理器运行的深度图样本输入模块1700执行。
S1110、由待训练的神经网络获取激光雷达稀疏深度图样本的至少两个不同尺度的特征图,针对至少两个不同尺度的特征图分别进行有效点特征融合处理,并根据有效点特征融合处理的结果,形成处理后的深度图。该处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图样本中有效点的数量。本步骤的具体实现过程可以参见上述实施方式中的相关描述,在此不再重复说明。
在一个可选示例中,该操作S1110可以由处理器调用存储器存储的相应指令执行,也可以由被处理器运行的待训练的神经网络1710执行。
S1120、以上述处理后的深度图以及激光雷达稀疏深度图样本的填补深度图样本的深度标注值为指导信息,对待训练的神经网络进行监督学习。
在一个可选示例中,该操作S1120可以由处理器调用存储器存储的相应指令执行,也可以由被处理器运行的监督模块1720执行。
在一个可选示例中,本公开实施例的指导信息通常包括:待训练的神经网络输出的深度图中的各点的深度值,与激光雷达稀疏深度图样本的填补深度图样本的深度标注值之间的差异。本公开实施例可以以减小两者之间的差异为目的,利用相应的损失函数,对待训练的神经网络进行监督学习。
本公开实施例一可选示例中,可以采用如下述公式(7)所示的损失函数:
Figure PCTCN2019097270-appb-000005
在上述公式(7)中,V表示处理后的有效点深度标注值在深度图中的坐标集合,也可以认为V为真实值深度图(ground truth depth map)中的有效点坐标集合,真实值深度图可以认为是激光雷达稠密深度图样本,即激光雷达稀疏深度图样本的填补深度图样本;|V|表示激光雷达稠密深度图样本中的有效点的数量,x ij表示待训练的神经网络输出的处理后的深度图中的(i,j)位置处的预测深度值,y ij表示激光雷达稠密深度图样本中的(i,j)位置处的深度标注值。
在一个可选示例中,在针对待训练的神经网络的训练达到预定迭代条件时,本次训练过程结束。本公开实施例中的预定迭代条件可以包括:待训练的神经网络输出的深度图中的深度值与激光雷达稀疏深度图样本的填补深度图样本的深度标注值之间的差异,满足预定差异要求。在差异满足该预定差异要求的情况下,本次对神经网络成功训练完成。本公开实施例中的预定迭代条件也可以包括:对待训练的神经网络进行训练,所使用的样本的数量达到预定数量要求等。在使用的样本数量达到预定数量要求,然而,差异未满足预定差异要求的情况下,本次对神经网络并未训练成功。成功训练完成的神经网络可以用于形成深度图处理。
图12为本公开实施例的车辆智能控制方法的一个实施例的流程图。如图12所示,该实施例方法包括:
S1200、向神经网络输入激光雷达稀疏深度图。可选的,还可以将摄像装置拍摄的具有相同或者基本相同视角和大小的RGB图像也提供给神经网络。
在一个可选示例中,该操作S1200可以由处理器调用存储器存储的相应指令执行,也可以由被处理器运行的深度图输入模块1400执行。
S1210、由神经网络获取激光雷达稀疏深度图的至少两个不同尺度的特征图,针对至少两个不同尺度的特征图分别进行有效点特征融合处理,并根据有效点特征融合处理的结果,获得处理后的深度图。
在一个可选示例中,该操作S1210可以由处理器调用存储器存储的相应指令执行,也可以由被处理器运行的神经网络1410执行。
上述S1200和S1210的实现过程可以参见上述实施方式中的相关描述,在此不再重复说明。
S1220、根据处理后的深度图,生成对激光雷达所在车辆进行控制的指令或者预警提示信息。生成的指令如提高时速的指令、降低时速的指令或者急刹车指令等。生成的预警提示信息如注意某个方位的行人的提示信息等。本公开实施例不限制根据处理后的深度图产生指令或者预警提示信息的实现方式。
在一个可选示例中,该操作S1220可以由处理器调用存储器存储的相应指令执行,也可以由被处理器运行的控制模块1420执行。
图13为本公开实施例的避障导航方法的一个实施例的流程图。如图13所示,该实施例方法包括:
S1300、向神经网络输入激光雷达稀疏深度图。可选的,还可以将摄像装置拍摄的具有相同或者基本相同视角和大小的RGB图像也提供给神经网络。
在一个可选示例中,该操作S1300可以由处理器调用存储器存储的相应指令执行,也可以由被处理器运行的深度图输入模块1400执行。
S1310、由上述神经网络获取激光雷达稀疏深度图的至少两个不同尺度的特征图、针对至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据有效点特征融合处理的结果获得处理后的深度图。处理后的深度图中有效点的数量大于激光雷达稀疏深度图中有效点的数量。
在一个可选示例中,该操作S1310可以由处理器调用存储器存储的相应指令执行,也可以由被处理器运行的神经网络1410执行。
上述S1300和S1310的实现过程可以参见上述实施方式中的相关描述,在此不再重复说明。
S1320、根据上述处理后的深度图,生成对激光雷达所在机器人进行避障导航控制的指令或者预警提示信息。生成的指令如降低行动速度的指令或者暂停行动的指令或者转弯指令等。生成的预警提示信息如注意某个方位的障碍物的提示信息等。本公开实施例不限制根据处理后的深度图产生指令或者预警提示信息的实现方式。
在一个可选示例中,该操作S1320可以由处理器调用存储器存储的相应指令执行,也可以由被处理器运行的避障导航模块1430执行。
本公开实施例提供的任一方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一方法。下文不再赘述。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图14为本公开实施例的激光雷达稀疏深度图的装置一个实施例的结构示意图。如图14所示,该实施例的装置主要包括:深度图输入模块1400以及神经网络1410。
深度图输入模块1400用于向神经网络1410输入激光雷达稀疏深度图。
在一个可选示例中,深度图输入模块1400用于:向神经网络1410输入激光雷达稀疏深度图及激光雷达稀疏深度图的蒙板。其中,激光雷达稀疏深度图的蒙板用于指示激光雷达稀疏深度图中的有效点。
神经网络1410用于获取激光雷达稀疏深度图的至少两个不同尺度的特征图、针对至少两个不同尺度的特征图分别进行有效点特征融合处理,并根据有效点特征融合处理的结果获得处理后的深度图。其中,处理后的深度图中有效点的数量大于激光雷达稀疏深度图中有效点的数量。
在一个可选示例中,神经网络1410还用于根据激光雷达稀疏深度图的蒙板确定至少两个不同尺度的特征图的蒙板。在该情况下,神经网络1410所执行的针对至少两个不同尺度的特征图分别进行有效点特征融合处理的操作可以包括:根据至少两个不同尺度的特征图的蒙板,针对至少两个不同尺度的特征图分别进行有效点特征融合处理。
在一个可选示例中,神经网络1410可以包括:输入处理单元。输入处理单元用于对激光雷达稀疏深度图进行稀疏卷积处理,以获得激光雷达稀疏深度图的特征图,对深度图的特征图进行尺度变换处理,以获得至少两个不同尺度的特征图。其中的至少两个不同尺度的特征图包括:尺度变换处理前的特征图和至少一个尺度变换处理后的特征图。
在一个可选示例中,输入处理单元还用于对激光雷达稀疏深度图的蒙板进行稀疏卷积处理,以获得激光雷达稀疏深度图的特征图的蒙板,对蒙板进行尺度变换处理,以获得各特征图的蒙板。
在一个可选示例中,神经网络1410可以包括:至少一个融合模块。每一个融合模块分别具有多路输入和多路输出。融合模块用于对多路输入的不同尺度的特征图分别进行有效点特征融合处理。在神经网络1410包括多个融合模块的情况下,前一级融合模块的输出用于为后一级融合模块提供输入。
在一个可选示例中,神经网络还包括:至少一个第一变换模块。设置于融合模块之后,即融合模块的一输出被提供给一第一变换模块。第一变换模块用于对前一级融合模块的至少一路输出的特征图进行尺度变换处理,尺度变换处理后的特征图用于提供给后一级的融合模块,即第一变换模块的输出被提供给后一级的融合模块。
在一个可选示例中,在前一级融合模块的输出路数小于后一级融合模块的输入路数的情况下,前一级融合模块的一路输出以及该路输出的尺度变换处理后的特征图均被作为后一级融合模块的输入。
在一个可选示例中,神经网络1410还包括:至少一个第二变换模块。第二变换模块设置于融合模块之后。第二变换模块用于对融合模块的至少两路输出的特征图进行有效点特征融合处理,以形成一路特征图,第二变换模块形成的一路特征图可以作为后一级的融合模块的输入,第二变换模块形成的一路特征图也可以作为神经网络的输出处理单元的输入。
在一个可选示例中,深度图输入模块1400还可以用于将与激光雷达稀疏深度图具有相同视角和大小的图像提供给神经网络1410。该图像包括:摄像装置摄取到的图像。在该应用场景下,输入处理单元还可以用于获取该图像的至少一个尺度的特征图,图像的相应尺度的特征图被作为相应的融合处理的输入。该图像的特征图用于与激光雷达稀疏深度图的特征图进行融合处理。
在一个可选示例中,在融合模块具有N路输入和N路输出的情况下,融合模块针对第M路输入所执行的有效点特征融合处理可以包括:对第N路输入的特征图和特征图的蒙板分别进行下采样处理,并根据下采样处理后的特征图和特征图的蒙板,以及第M路输入的特征图以及特征图的蒙板,进行稀疏合并卷积处理;然后,对稀疏合并卷积处理后获得的特征图及特征图的蒙板分别进行稀疏卷积处理,以形成第M路输出的有效点特征融合处理后的特征图及特征图的蒙板。其中,第N路输入的特征图的尺度大于第M路输入的特征图的尺度,M为大于0的整数、且N为大于M的整数。
在一个可选示例中,在融合模块具有N路输入和N路输出的情况下,融合模块针对第N路输入所执行的有效点特征融合处理可以包括:对第N路输入的特征图及特征图的蒙板分别进行稀疏卷积处理,并对至少一第M路输出的有效 点特征融合处理后的特征图及特征图的蒙板进行卷积处理,之后,将卷积处理后的特征图及特征图的蒙板分别进行稀疏上采样处理;然后,对第N路稀疏卷积处理后的特征图及特征图的蒙板与至少一第M路的稀疏上采样处理后的特征图及特征图的蒙板进行稀疏相加处理,形成第N路输出的有效点特征融合处理后的特征图及特征图的蒙板。
在一个可选示例中,输出处理单元可以包括:第一输出处理单元。第一输出处理单元用于对最后一级融合处理所输出的多路有效点特征融合处理后的特征图及特征图的蒙板进行稀疏相加处理,并对稀疏相加结果进行卷积处理,形成处理后的深度图。
在一个可选示例中,在融合模块具有N路输入和N路输出的情况下,融合模块针对第N路输入所执行的有效点特征融合处理可以包括:对第N路输入的特征图及特征图的蒙板以及所述图像的特征图进行稀疏合并卷积处理,并对至少一第M路输出的有效点特征融合处理后的特征图及特征图的蒙板进行卷积处理,之后,将卷积处理后的特征图及特征图的蒙板分别进行稀疏上采样处理;然后,对第N路稀疏合并卷积处理后的特征图及特征图的蒙板与至少一第M路的稀疏上采样处理后的特征图及特征图的蒙板分别进行稀疏相加处理,以形成第N路输出的有效点特征融合处理后的特征图及特征图的蒙板。其中,M为大于0的整数、N为大于M的整数。
在一个可选示例中,输出处理单元可以包括:第二输出处理单元。第二输出处理单元用于对最后一级融合处理所输出的多路有效点特征融合处理后的特征图及特征图的蒙板分别进行稀疏相加处理,对稀疏相加结果与所述图像的特征图进行稀疏合并卷积处理,并对稀疏合并卷积处理的结果进行卷积处理,以形成处理后的深度图。
在一个可选示例中,本公开实施例中的稀疏合并卷积处理可以包括:将第一特征图和第二特征图在通道数维度上合并后,进行卷积处理,并将卷积处理后的特征图与权值矩阵的倒数进行元素相乘,形成稀疏合并卷积处理后的特征图;然后,将第一特征图的蒙板与第一特征图的通道数相乘,将第二特征图的蒙板与第二特征图的通道数相乘,并对两个相乘结果的相加结果进行卷积运算,根据卷积运算结果形成权值矩阵,对权值矩阵进行二值化处理,形成所述稀疏合并卷积处理后的特征图的蒙板。
在一个可选示例中,本公开实施例中的稀疏相加处理可以包括:将第一特征图与第一特征图的蒙板进行元素相乘,将第二特征图与第二特征图的蒙板进行元素相乘,将两个相乘结果进行相加,并将相加结果与权值矩阵的倒数进行元素相乘,形成稀疏相加处理后的特征图;然后,将第一特征图的蒙板与第二特征图的蒙板进行或运算,以形成稀疏相加处理后的特征图的蒙板。
在一个可选示例中,本公开实施例中的稀疏上采样处理可以包括:将特征图与特征图的蒙板进行元素相乘,将相乘的结果进行上采样处理;之后,将特征图的蒙板进行上采样处理,并对上采样处理后的蒙板形成权值矩阵;然后,将上采样处理后的特征图,与权值矩阵的倒数进行元素相乘,形成稀疏相加处理后的特征图;另外,对权值矩阵进行二值化处理,以形成稀疏相加处理后的特征图的蒙板。
在一个可选示例中,本公开实施例中的神经网络是利用激光雷达稀疏深度图样本以及激光雷达稀疏深度图样本的填补深度图样本的深度标注值,训练而成的。
本公开实施例中的深度图输入模块1400以及神经网络1410所执行的操作,可以参见上述方法实施方式中相关描述。在此不再重复说明。
图15为本公开实施例的车辆智能控制装置一个实施例的结构示意图。如图15所示,该实施例的装置主要包括:深度图输入模块1400、神经网络1410以及控制模块1420。
深度图输入模块1400用于向神经网络输入激光雷达稀疏深度图。
神经网络1410用于获取激光雷达稀疏深度图的至少两个不同尺度的特征图、针对至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据有效点特征融合处理的结果获得处理后的深度图,本公开实施例中的处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图中有效点的数量。
控制模块1420用于根据神经网络1410输出的处理后的深度图,生成对激光雷达所在车辆进行控制的指令或者预警提示信息。
本公开实施例中的深度图输入模块1400、神经网络1410以及控制模块1420所执行的操作,可以参见上述方法实施方式中相关描述。在此不再重复说明。
图16为本公开实施例的避障导航装置一个实施例的结构示意图。如图16所示,该实施例的装置主要包括:深度图输入模块1400、神经网络1410以及避障导航模块1430。
深度图输入模块1400用于向神经网络输入激光雷达稀疏深度图。
神经网络1410用于获取深度图的至少两个不同尺度的特征图,并针对至少两个不同尺度的特征图分别进行有效点特征融合处理,然后,根据有效点特征融合处理的结果获得处理后的深度图。本公开实施例中的处理后的深度图中有效点的数量大于激光雷达稀疏深度图中有效点的数量。
避障导航模块1430用于根据神经网络1410输出的处理后的深度图,生成对激光雷达所在机器人进行避障导航控制的指令或者预警提示信息。
本公开实施例中的深度图输入模块1400、神经网络1410以及避障导航模块1430所执行的操作,可以参见上述方法实施方式中相关描述。在此不再重复说明。
图17为本公开实施例的神经网络的训练装置一个实施例的结构示意图。如图17所示,该实施例的装置主要包括:深度图样本输入模块1700、待训练的神经网络1710以及监督模块1720。
深度图样本输入模块1700用于向待训练的神经网络1710输入激光雷达稀疏深度图样本。
待训练的神经网络1710用于获取激光雷达稀疏深度图样本的至少两个不同尺度的特征图,并针对至少两个不同尺度的特征图分别进行有效点特征融合处理,之后,根据有效点特征融合处理的结果,形成处理后的深度图。本公开实施例中的处理后的深度图中有效点的数量大于激光雷达稀疏深度图样本中有效点的数量。
监督模块1720用于以处理后的深度图以及激光雷达稀疏深度图样本的填补深度图样本的深度标注值为指导信息,对待训练的神经网络进行监督学习。
本公开实施例中的深度图样本输入模块1700、待训练的神经网络1710以及监督模块1720所执行的操作,可以参见 上述方法实施方式中相关描述。在此不再重复说明。
示例性设备
图18示出了适于实现本公开实施例的示例性设备1800,设备1800可以是汽车中配置的控制系统/电子系统、移动终端(例如,智能移动电话等)、个人计算机(PC,例如,台式计算机或者笔记型计算机等)、平板电脑以及服务器等。
图18中,设备1800包括一个或者多个处理器、通信部等,所述一个或者多个处理器可以为:一个或者多个中央处理单元(CPU)1801,和/或,一个或者多个利用神经网络进行激光雷达稀疏深度图处理的图形处理器(GPU)1813等,处理器可以根据存储在只读存储器(ROM)1802中的可执行指令或者从存储部分1808加载到随机访问存储器(RAM)1803中的可执行指令而执行各种适当的动作和处理。通信部1812可以包括但不限于网卡,所述网卡可以包括但不限于IB(Infiniband)网卡。处理器可与只读存储器1802和/或随机访问存储器1803中通信以执行可执行指令,通过总线1804与通信部1812相连、并经通信部1812与其他目标设备通信,从而完成公开实施例本公开任一实施例提供的方法对应的操作。
上述各指令所执行的操作可以参见上述方法实施例中的相关描述,在此不再详细说明。此外,在RAM 1803中,还可以存储有装置操作所需的各种程序以及数据。CPU1801、ROM1802以及RAM1803通过总线1804彼此相连。
在有RAM1803的情况下,ROM1802为可选模块。RAM1803存储可执行指令,或在运行时向ROM1802中写入可执行指令,可执行指令使中央处理单元1801执行上述物体分割方法所包括的步骤。输入/输出(I/O)接口1805也连接至总线1804。通信部1812可以集成设置,也可以设置为具有多个子模块(例如,多个IB网卡),并分别与总线连接。
以下部件连接至I/O接口1805:包括键盘、鼠标等的输入部分1806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1807;包括硬盘等的存储部分1808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1809。通信部分1809经由诸如因特网的网络执行通信处理。驱动器1810也根据需要连接至I/O接口1805。可拆卸介质1811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1810上,以便于从其上读出的计算机程序根据需要被安装在存储部分1808中。
需要特别说明的是,如图18所示的架构仅为一种可选实现方式,在实践过程中,可根据实际需要对上述图18的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如,GPU和CPU可分离设置,再如理,可将GPU集成在CPU上,通信部可分离设置,也可集成设置在CPU或GPU上等。这些可替换的实施方式均落入本公开实施例的保护范围。
特别地,根据本公开实施例的实施方式,下文参考流程图描述的过程可以被实现为计算机软件程序,例如,本公开实施例包括一种计算机程序产品,其包含有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的步骤的程序代码,程序代码可包括对应执行本公开任一实施例提供的方法中的操作对应的指令。
在这样的实施方式中,该计算机程序可以通过通信部分1809从网络上被下载及安装,和/或从可拆卸介质1811被安装。在该计算机程序被中央处理单元(CPU)1801执行时,执行本公开任一实施例中记载的实现上述相应操作的指令。
在一个或多个可选实施方式中,本公开实施例还提供了一种计算机程序程序产品,用于存储计算机可读指令,所述指令被执行时使得计算机执行上述任意实施例中所述的激光雷达稀疏深度图的处理或者神经网络的训练方法或者车辆智能控制方法、避障导航方法。
该计算机程序产品可以通过硬件、软件或其结合的方式实现。在一个可选例子中,所述计算机程序产品体现为计算机存储介质,在另一个可选例子中,所述计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
在一个或多个可选实施方式中,本公开实施例还提供了另一种激光雷达稀疏深度图的处理方法、神经网络的训练方法、车辆智能控制方法、避障导航方法及其对应的装置和电子设备、计算机存储介质、计算机程序以及计算机程序产品,其中的方法包括:第一装置向第二装置发送激光雷达稀疏深度图的处理指示或者训练神经网络指示或者车辆智能控制指示、避障导航指示,该指示使得第二装置执行上述任一可能的实施例中的激光雷达稀疏深度图的处理方法或者训练神经网络方法或者车辆智能控制方法或者避障导航方法;第一装置接收第二装置发送的激光雷达稀疏深度图的处理结果或者神经网络训练结果或者车辆智能控制结果、避障导航结果。
在一些实施例中,该激光雷达稀疏深度图的处理指示或者训练神经网络指示或者车辆智能控制指示或者避障导航指示可以为调用指令,第一装置可以通过调用的方式指示第二装置执行激光雷达稀疏深度图的处理操作或者训练神经网络操作或者车辆智能控制操作或者避障导航操作,相应地,响应于接收到调用指令,第二装置可以执行上述激光雷达稀疏深度图的处理方法或者训练神经网络的方法或者车辆智能控制方法或者避障导航方法中的任意实施例中的步骤和/或流程。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
可能以许多方式来实现本公开实施例的方法和装置、电子设备以及计算机可读存储介质。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开实施例的方法和装置、电子设备以及计算机可读存储介质。用于方法的步骤的上述顺序仅是为了进行说明,本公开实施例的方法的步骤不限于以上描述的顺序,除非以其它方式特别说明。此外,在一些实施方式中,还可将本公开实施例实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开实施例的方法的机器可读指令。因而,本公开实施例还覆盖存储用于执行根据本公开实施例的方法的程序的记录介质。
本公开实施例的描述,是为了示例和描述起见而给出的,而并不是无遗漏的或者将本公开实施例限于所公开实施例的形式。很多修改和变化对于本领域的普通技术人员而言,是显然的。选择和描述实施方式是为了更好说明本公开实施例的原理以及实际应用,并且使本领域的普通技术人员能够理解本公开实施例可以从而设计适于特定用途的带有各种修改的各种实施方式。

Claims (45)

  1. 一种激光雷达稀疏深度图的处理方法,其特征在于,包括:
    向神经网络输入激光雷达稀疏深度图;
    由所述神经网络获取所述激光雷达稀疏深度图的至少两个不同尺度的特征图、针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据所述有效点特征融合处理的结果获得处理后的深度图,所述处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图中有效点的数量。
  2. 根据权利要求1所述的方法,其特征在于,所述向神经网络输入激光雷达稀疏深度图包括:
    向所述神经网络输入所述激光雷达稀疏深度图及所述激光雷达稀疏深度图的蒙板;其中,所述激光雷达稀疏深度图的蒙板用于指示所述激光雷达稀疏深度图中的有效点;
    所述方法还包括:根据所述激光雷达稀疏深度图的蒙板确定所述至少两个不同尺度的特征图的蒙板;
    所述针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理,包括:根据所述至少两个不同尺度的特征图的蒙板,针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理。
  3. 根据权利要求2所述的方法,其特征在于,所述由所述神经网络获取所述深度图的至少两个不同尺度的特征图,包括:
    由所述神经网络对所述激光雷达稀疏深度图进行稀疏卷积处理,以获得所述激光雷达稀疏深度图的特征图;
    对所述深度图的特征图进行尺度变换处理,以获得至少两个不同尺度的特征图;所述至少两个不同尺度的特征图包括:尺度变换处理前的特征图和至少一个尺度变换处理后的特征图。
  4. 根据权利要求2或3所述的方法,其特征在于,所述根据所述激光雷达稀疏深度图的蒙板确定所述至少两个不同尺度的特征图的蒙板,包括:
    由所述神经网络对所述激光雷达稀疏深度图的蒙板进行稀疏卷积处理,以获得所述激光雷达稀疏深度图的特征图的蒙板,对所述蒙板进行尺度变换处理,以获得各特征图的蒙板。
  5. 根据权利要求1至4中任一项所述的方法,其特征在于,所述针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理,包括:
    所述神经网络执行至少一级有效点特征融合处理;
    在至少一级有效点融合处理中,所述神经网络对多路不同尺度的特征图分别进行有效点特征融合处理;
    在所述神经网络执行多级有效点特征融合处理的情况下,前一级融合处理的输出为后一级融合处理提供输入。
  6. 根据权利要求5所述的方法,其特征在于,所述神经网络对前一级融合处理后输出的特征图进行尺度变换处理,尺度变换处理后的特征图用于提供给后一级的融合处理。
  7. 根据权利要求5或6所述的方法,其特征在于,在前一级融合处理的输出路数小于后一级融合处理的输入路数的情况下,前一级融合处理的一路输出以及该路输出的尺度变换处理后的特征图均被作为后一级融合处理的输入。
  8. 根据权利要求5至7中任一项所述的方法,其特征在于,所述针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理,还包括:
    对融合处理后的至少两路输出的特征图进行有效点特征融合处理,以形成一路特征图,所述形成的一路特征图作为后一级的融合处理的输入;或者,
    所述神经网络对所述形成的一路特征图进行输出处理。
  9. 根据权利要求5至8中任一项所述的方法,其特征在于,所述方法还包括:
    将与所述激光雷达稀疏深度图具有相同视角和大小的图像提供给所述神经网络,所述图像包括:摄像装置摄取到的图像;
    所述神经网络获取所述图像的至少一个尺度的特征图,所述图像的相应尺度的特征图被作为相应的融合处理的输入;
    其中,所述图像的特征图用于与所述激光雷达稀疏深度图的特征图进行融合处理。
  10. 根据权利要求5至9中任一项所述的方法,其特征在于,在所述融合处理具有N路输入和N路输出的情况下,所述神经网络针对第M路输入所执行的有效点特征融合处理,包括:
    对第N路输入的特征图和特征图的蒙板分别进行下采样处理;
    根据下采样处理后的特征图和特征图的蒙板,以及第M路输入的特征图以及特征图的蒙板,进行稀疏合并卷积处理;
    对稀疏合并卷积处理后获得的特征图及特征图的蒙板分别进行稀疏卷积处理,形成第M路输出的有效点特征融合处理后的特征图及特征图的蒙板;
    其中,第N路输入的特征图的尺度大于第M路输入的特征图的尺度,M为大于0的整数、且N为大于M的整数。
  11. 根据权利要求10所述的方法,其特征在于,所述神经网络针对第N路输入所执行的有效点特征融合处理,包括:
    对第N路输入的特征图及特征图的蒙板分别进行稀疏卷积处理;
    对至少一第M路输出的有效点特征融合处理后的特征图及特征图的蒙板进行卷积处理,并将所述卷积处理后的特征图及特征图的蒙板分别进行稀疏上采样处理;
    对第N路稀疏卷积处理后的特征图及特征图的蒙板与至少一第M路的稀疏上采样处理后的特征图及特征图的蒙板进行稀疏相加处理,形成第N路输出的有效点特征融合处理后的特征图及特征图的蒙板。
  12. 根据权利要求8至11中任一项所述的方法,其特征在于,所述神经网络对所述形成的一路特征图进行输出处理,包括:
    对最后一级融合处理所输出的多路有效点特征融合处理后的特征图及特征图的蒙板进行稀疏相加处理,并对稀疏相加结果进行卷积处理,形成处理后的深度图。
  13. 根据权利要求9所述的方法,其特征在于,在所述融合处理具有N路输入和N路输出的情况下,所述神经网络针对第N路输入所执行的有效点特征融合处理,包括:
    对第N路输入的特征图及特征图的蒙板以及所述图像的特征图进行稀疏合并卷积处理;
    对至少一第M路输出的有效点特征融合处理后的特征图及特征图的蒙板进行卷积处理,并将所述卷积处理后的特征图及特征图的蒙板分别进行稀疏上采样处理;
    对第N路稀疏合并卷积处理后的特征图及特征图的蒙板与至少一第M路的稀疏上采样处理后的特征图及特征图的蒙板分别进行稀疏相加处理,形成第N路输出的有效点特征融合处理后的特征图及特征图的蒙板;其中,M为大于0的整数、N为大于M的整数。
  14. 根据权利要求13所述的方法,其特征在于,所述神经网络对所述形成的一路特征图进行输出处理,包括:
    对最后一级融合处理所输出的多路有效点特征融合处理后的特征图及特征图的蒙板分别进行稀疏相加处理,对稀疏相加结果与所述图像的特征图进行稀疏合并卷积处理,并对稀疏合并卷积处理的结果进行卷积处理,形成处理后的深度图。
  15. 根据权利要求9至14中任一项所述的方法,其特征在于,所述稀疏合并卷积处理,包括:
    将第一特征图和第二特征图在通道数维度上合并后,进行卷积处理,并将卷积处理后的特征图与权值矩阵的倒数进行元素相乘,形成稀疏合并卷积处理后的特征图;
    将第一特征图的蒙板与第一特征图的通道数相乘,将第二特征图的蒙板与第二特征图的通道数相乘,并对两个相乘结果的相加结果进行卷积运算,根据卷积运算结果形成权值矩阵,对权值矩阵进行二值化处理,形成所述稀疏合并卷积处理后的特征图的蒙板。
  16. 根据权利要求10至15中任一项所述的方法,其特征在于,所述稀疏相加处理,包括:
    将第一特征图与第一特征图的蒙板进行元素相乘,将第二特征图与第二特征图的蒙板进行元素相乘,将两个相乘结果进行相加,并将相加结果与权值矩阵的倒数进行元素相乘,形成稀疏相加处理后的特征图;
    将第一特征图的蒙板与第二特征图的蒙板进行或运算,形成所述稀疏相加处理后的特征图的蒙板。
  17. 根据权利要求10至16中任一项所述的方法,其特征在于,所述稀疏上采样处理,包括:
    将特征图与特征图的蒙板进行元素相乘,将相乘的结果进行上采样处理;
    将特征图的蒙板进行上采样处理,并对上采样处理后的蒙板形成权值矩阵;
    将上采样处理后的特征图,与权值矩阵的倒数进行元素相乘,形成稀疏相加处理后的特征图;
    对权值矩阵进行二值化处理,形成所述稀疏相加处理后的特征图的蒙板。
  18. 根据权利要求1至17中任一项所述的方法,其特征在于,所述神经网络基于激光雷达稀疏深度图样本以及激光雷达稀疏深度图样本的填补深度图样本的深度标注值训练得到。
  19. 一种车辆智能控制方法,其特征在于,所述方法包括:
    采用如权利要求1至18中任一项所述的激光雷达稀疏深度图的处理方法,获得处理后的深度图;
    根据所述处理后的深度图,生成对所述激光雷达所在车辆进行控制的指令或者预警提示信息。
  20. 一种避障导航方法,其特征在于,所述方法包括:
    采用如权利要求1至18中任一项所述的激光雷达稀疏深度图的处理方法,获得处理后的深度图;
    根据所述处理后的深度图,生成对所述激光雷达所在机器人进行避障导航控制的指令或者预警提示信息。
  21. 一种神经网络的训练方法,其特征在于,所述训练方法包括:
    向待训练的神经网络输入激光雷达稀疏深度图样本;
    由所述待训练的神经网络获取所述激光雷达稀疏深度图样本的至少两个不同尺度的特征图、针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据所述有效点特征融合处理的结果形成处理后的深度图,所述处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图样本中有效点的数量;
    以所述处理后的深度图以及激光雷达稀疏深度图样本的填补深度图样本的深度标注值为指导信息,对所述待训练的神经网络进行监督学习。
  22. 一种激光雷达稀疏深度图的处理装置,其特征在于,包括:
    深度图输入模块,用于向神经网络输入激光雷达稀疏深度图;
    神经网络,用于获取所述激光雷达稀疏深度图的至少两个不同尺度的特征图、针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据所述有效点特征融合处理的结果获得处理后的深度图,所述处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图中有效点的数量。
  23. 根据权利要求22所述的装置,其特征在于,所述深度图输入模块用于:
    向所述神经网络输入所述激光雷达稀疏深度图及所述激光雷达稀疏深度图的蒙板;
    其中,所述激光雷达稀疏深度图的蒙板用于指示所述激光雷达稀疏深度图中的有效点,所述神经网络还用于:
    根据所述激光雷达稀疏深度图的蒙板确定所述至少两个不同尺度的特征图的蒙板;
    所述神经网络针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理时,用于:根据所述至少两个不同尺度的特征图的蒙板,针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理。
  24. 根据权利要求23所述的装置,其特征在于,所述神经网络包括:
    输入处理单元,用于对所述激光雷达稀疏深度图进行稀疏卷积处理,以获得所述激光雷达稀疏深度图的特征图,对所述深度图的特征图进行尺度变换处理,以获得至少两个不同尺度的特征图;
    所述至少两个不同尺度的特征图包括:尺度变换处理前的特征图和至少一个尺度变换处理后的特征图。
  25. 根据权利要求24所述的装置,其特征在于,所述输入处理单元,还用于对所述激光雷达稀疏深度图的蒙板进行稀疏卷积处理,以获得所述激光雷达稀疏深度图的特征图的蒙板,对所述蒙板进行尺度变换处理,以获得各特征图的蒙板。
  26. 根据权利要求22至25中任一项所述的装置,其特征在于,所述神经网络包括:
    至少一个融合模块,所述融合模块具有多路输入和多路输出,所述融合模块用于对多路输入的不同尺度的特征图分别进行有效点特征融合处理;
    在所述神经网络包括多个融合模块的情况下,前一级融合模块的输出用于为后一级融合模块提供输入。
  27. 根据权利要求26所述的装置,其特征在于,所述神经网络还包括:
    至少一个第一变换模块,设置于所述融合模块之后;
    所述第一变换模块,用于对前一级融合模块的至少一路输出的特征图进行尺度变换处理,尺度变换处理后的特征图用于提供给后一级的融合模块。
  28. 根据权利要求26或27所述的装置,其特征在于,在前一级融合模块的输出路数小于后一级融合模块的输入路数的情况下,前一级融合模块的一路输出以及该路输出的尺度变换处理后的特征图均被作为后一级融合模块的输入。
  29. 根据权利要求26至28中任一项所述的装置,其特征在于,所述神经网络还包括:
    至少一个第二变换模块,设置于所述融合模块之后;
    所述第二变换模块,用于对融合模块的至少两路输出的特征图进行有效点特征融合处理,以形成一路特征图,所述形成的一路特征图作为后一级的融合模块的输入,或者作为神经网络的输出处理单元的输入。
  30. 根据权利要求26至29中任一项所述的装置,其特征在于,所述深度图输入模块,还用于将与所述激光雷达稀疏深度图具有相同视角和大小的图像提供给所述神经网络,所述图像包括:摄像装置摄取到的图像;
    所述输入处理单元,还用于获取所述图像的至少一个尺度的特征图,所述图像的相应尺度的特征图被作为相应的融合处理的输入;
    其中,所述图像的特征图用于与所述激光雷达稀疏深度图的特征图进行融合处理。
  31. 根据权利要求26至30中任一项所述的装置,其特征在于,在所述融合模块具有N路输入和N路输出的情况下,所述融合模块针对第M路输入所执行的有效点特征融合处理时,用于:
    对第N路输入的特征图和特征图的蒙板分别进行下采样处理;
    根据下采样处理后的特征图和特征图的蒙板,以及第M路输入的特征图以及特征图的蒙板,进行稀疏合并卷积处理;
    对稀疏合并卷积处理后获得的特征图及特征图的蒙板分别进行稀疏卷积处理,形成第M路输出的有效点特征融合处理后的特征图及特征图的蒙板;
    其中,第N路输入的特征图的尺度大于第M路输入的特征图的尺度,M为大于0的整数、且N为大于M的整数。
  32. 根据权利要求31所述的装置,其特征在于,所述融合模块针对第N路输入所执行的有效点特征融合处理时,用于:
    对第N路输入的特征图及特征图的蒙板分别进行稀疏卷积处理;
    对至少一第M路输出的有效点特征融合处理后的特征图及特征图的蒙板进行卷积处理,并将所述卷积处理后的特征图及特征图的蒙板分别进行稀疏上采样处理;
    对第N路稀疏卷积处理后的特征图及特征图的蒙板与至少一第M路的稀疏上采样处理后的特征图及特征图的蒙板进行稀疏相加处理,形成第N路输出的有效点特征融合处理后的特征图及特征图的蒙板。
  33. 根据权利要求29至32中任一项所述的装置,其特征在于,所述输出处理单元包括:
    第一输出处理单元,用于对最后一级融合处理所输出的多路有效点特征融合处理后的特征图及特征图的蒙板进行稀疏相加处理,并对稀疏相加结果进行卷积处理,形成处理后的深度图。
  34. 根据权利要求30所述的装置,其特征在于,在所述融合模块具有N路输入和N路输出的情况下,所述融合模块针对第N路输入所执行的有效点特征融合处理时,用于:
    对第N路输入的特征图及特征图的蒙板以及所述图像的特征图进行稀疏合并卷积处理;
    对至少一第M路输出的有效点特征融合处理后的特征图及特征图的蒙板进行卷积处理,并将所述卷积处理后的特征图及特征图的蒙板分别进行稀疏上采样处理;
    对第N路稀疏合并卷积处理后的特征图及特征图的蒙板与至少一第M路的稀疏上采样处理后的特征图及特征图的蒙板分别进行稀疏相加处理,形成第N路输出的有效点特征融合处理后的特征图及特征图的蒙板;
    其中,M为大于0的整数、N为大于M的整数。
  35. 根据权利要求34所述的装置,其特征在于,所述输出处理单元包括:
    第二输出处理单元,用于对最后一级融合处理所输出的多路有效点特征融合处理后的特征图及特征图的蒙板分别进行稀疏相加处理,对稀疏相加结果与所述图像的特征图进行稀疏合并卷积处理,并对稀疏合并卷积处理的结果进行卷积处理,形成处理后的深度图。
  36. 根据权利要求30至35中任一项所述的装置,其特征在于,所述稀疏合并卷积处理包括:
    将第一特征图和第二特征图在通道数维度上合并后,进行卷积处理,并将卷积处理后的特征图与权值矩阵的倒数进行元素相乘,形成稀疏合并卷积处理后的特征图;
    将第一特征图的蒙板与第一特征图的通道数相乘,将第二特征图的蒙板与第二特征图的通道数相乘,并对两个相乘结果的相加结果进行卷积运算,根据卷积运算结果形成权值矩阵,对权值矩阵进行二值化处理,形成所述稀疏合并卷积处理后的特征图的蒙板。
  37. 根据权利要求31至36中任一项所述的装置,其特征在于,所述稀疏相加处理包括:
    将第一特征图与第一特征图的蒙板进行元素相乘,将第二特征图与第二特征图的蒙板进行元素相乘,将两个相乘结果进行相加,并将相加结果与权值矩阵的倒数进行元素相乘,形成稀疏相加处理后的特征图;
    将第一特征图的蒙板与第二特征图的蒙板进行或运算,形成所述稀疏相加处理后的特征图的蒙板。
  38. 根据权利要求31至37中任一项所述的装置,其特征在于,所述稀疏上采样处理包括:
    将特征图与特征图的蒙板进行元素相乘,将相乘的结果进行上采样处理;
    将特征图的蒙板进行上采样处理,并对上采样处理后的蒙板形成权值矩阵;
    将上采样处理后的特征图,与权值矩阵的倒数进行元素相乘,形成稀疏相加处理后的特征图;
    对权值矩阵进行二值化处理,形成所述稀疏相加处理后的特征图的蒙板。
  39. 根据权利要求22至38中任一项所述的装置,其特征在于,所述神经网络基于激光雷达稀疏深度图样本以及激 光雷达稀疏深度图样本的填补深度图样本的深度标注值训练得到。
  40. 一种车辆智能控制装置,其特征在于,所述装置包括:
    深度图输入模块,用于向神经网络输入激光雷达稀疏深度图;
    神经网络,用于获取所述激光雷达稀疏深度图的至少两个不同尺度的特征图、针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据所述有效点特征融合处理的结果获得处理后的深度图,所述处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图中有效点的数量;
    控制模块,用于根据所述处理后的深度图,生成对所述激光雷达所在车辆进行控制的指令或者预警提示信息。
  41. 一种避障导航装置,其特征在于,所述装置包括:
    深度图输入模块,用于向神经网络输入激光雷达稀疏深度图;
    神经网络,用于获取所述激光雷达稀疏深度图的至少两个不同尺度的特征图、针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据所述有效点特征融合处理的结果获得处理后的深度图,所述处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图中有效点的数量;
    避障导航模块,用于根据所述处理后的深度图,生成对所述激光雷达所在机器人进行避障导航控制的指令或者预警提示信息。
  42. 一种神经网络的训练装置,其特征在于,所述训练装置包括:
    深度图样本输入模块,用于向待训练的神经网络输入激光雷达稀疏深度图样本;
    待训练的神经网络,用于获取所述激光雷达稀疏深度图样本的至少两个不同尺度的特征图、针对所述至少两个不同尺度的特征图分别进行有效点特征融合处理、并根据所述有效点特征融合处理的结果,形成处理后的深度图,所述处理后的深度图中有效点的数量大于所述激光雷达稀疏深度图样本中有效点的数量;
    监督模块,用于以所述处理后的深度图以及所述激光雷达稀疏深度图样本的填补深度图样本的深度标注值为指导信息,对所述待训练的神经网络进行监督学习。
  43. 一种电子设备,包括:
    存储器,用于存储计算机程序;
    处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现上述权利要求1-21中任一项所述的方法。
  44. 一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现上述权利要求1-21中任一项所述的方法。
  45. 一种计算机程序,包括计算机指令,当所述计算机指令在设备的处理器中运行时,实现上述权利要求1-21中任一项所述的方法。
PCT/CN2019/097270 2018-07-25 2019-07-23 激光雷达稀疏深度图的处理方法、装置、设备及介质 WO2020020146A1 (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
SG11202012998WA SG11202012998WA (en) 2018-07-25 2019-07-23 Method and apparatus for processing laser radar based sparse depth map, device and medium
JP2020573306A JP7016434B2 (ja) 2018-07-25 2019-07-23 レーザレーダスパース深度マップの処理方法、装置、機器および媒体
US17/126,837 US20210103763A1 (en) 2018-07-25 2020-12-18 Method and apparatus for processing laser radar based sparse depth map, device and medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810829623.8A CN109325972B (zh) 2018-07-25 2018-07-25 激光雷达稀疏深度图的处理方法、装置、设备及介质
CN201810829623.8 2018-07-25

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/126,837 Continuation US20210103763A1 (en) 2018-07-25 2020-12-18 Method and apparatus for processing laser radar based sparse depth map, device and medium

Publications (1)

Publication Number Publication Date
WO2020020146A1 true WO2020020146A1 (zh) 2020-01-30

Family

ID=65263998

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/097270 WO2020020146A1 (zh) 2018-07-25 2019-07-23 激光雷达稀疏深度图的处理方法、装置、设备及介质

Country Status (5)

Country Link
US (1) US20210103763A1 (zh)
JP (1) JP7016434B2 (zh)
CN (1) CN109325972B (zh)
SG (1) SG11202012998WA (zh)
WO (1) WO2020020146A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580585A (zh) * 2020-12-28 2021-03-30 深圳职业技术学院 一种基于堆叠稠密网络的挖掘机目标检测方法及装置
CN113496491A (zh) * 2020-03-19 2021-10-12 广州汽车集团股份有限公司 一种基于多线激光雷达的路面分割方法及装置
CN117237506A (zh) * 2023-11-15 2023-12-15 中国科学院长春光学精密机械与物理研究所 航拍图像生成模拟激光点云图像的方法
GB2620002A (en) * 2020-03-09 2023-12-27 Nvidia Corp Techniques to use a neural network to expand an image

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325972B (zh) * 2018-07-25 2020-10-27 深圳市商汤科技有限公司 激光雷达稀疏深度图的处理方法、装置、设备及介质
US20200137380A1 (en) * 2018-10-31 2020-04-30 Intel Corporation Multi-plane display image synthesis mechanism
CN112446909B (zh) * 2019-08-30 2022-02-01 上海商汤临港智能科技有限公司 一种深度图像补全方法及装置、计算机可读存储介质
CN112749594B (zh) * 2019-10-31 2022-04-22 浙江商汤科技开发有限公司 信息补全方法、车道线识别方法、智能行驶方法及相关产品
CN111062981B (zh) * 2019-12-13 2023-05-05 腾讯科技(深圳)有限公司 图像处理方法、装置及存储介质
CN110992271B (zh) * 2020-03-04 2020-07-07 腾讯科技(深圳)有限公司 图像处理方法、路径规划方法、装置、设备及存储介质
US11698437B2 (en) 2020-09-01 2023-07-11 Ford Global Technologies, Llc Segmentation and classification of point cloud data
CN112305554B (zh) * 2020-11-23 2021-05-28 中国科学院自动化研究所 基于有向几何点和稀疏帧的激光里程计方法、系统、装置
CN112861729B (zh) * 2021-02-08 2022-07-08 浙江大学 一种基于伪深度图引导的实时深度补全方法
US11741671B2 (en) * 2021-06-16 2023-08-29 Samsung Electronics Co., Ltd. Three-dimensional scene recreation using depth fusion
CN113436258B (zh) * 2021-06-17 2023-09-12 中国船舶重工集团公司第七0七研究所九江分部 基于视觉与激光雷达融合的海上浮码头检测方法及系统
CN113780349B (zh) * 2021-08-09 2023-07-11 深圳奥锐达科技有限公司 训练样本集的获取方法、模型训练方法及相关装置
EP4369045A1 (en) * 2022-11-14 2024-05-15 Hexagon Technology Center GmbH Filtering reflected points in a 3d lidar scan by joint evaluation of lidar data and image data with a reflection point classifier
CN116109645B (zh) * 2023-04-14 2023-07-07 锋睿领创(珠海)科技有限公司 基于先验知识的智能处理方法、装置、设备和介质
CN116665003B (zh) * 2023-07-31 2023-10-20 安徽大学 一种基于特征交互与融合的点云三维目标检测方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150023607A1 (en) * 2013-07-22 2015-01-22 Lsi Corporation Gesture recognition method and apparatus based on analysis of multiple candidate boundaries
CN105096354A (zh) * 2014-05-05 2015-11-25 腾讯科技(深圳)有限公司 一种图像处理的方法和装置
CN106251355A (zh) * 2016-08-03 2016-12-21 江苏大学 一种融合可见光图像与对应夜视红外图像的检测方法
CN106547356A (zh) * 2016-11-17 2017-03-29 科大讯飞股份有限公司 智能交互方法和装置
CN107576960A (zh) * 2017-09-04 2018-01-12 苏州驾驶宝智能科技有限公司 视觉雷达时空信息融合的目标检测方法及系统
CN107800966A (zh) * 2017-10-31 2018-03-13 广东欧珀移动通信有限公司 图像处理的方法、装置、计算机可读存储介质和电子设备
CN108229497A (zh) * 2017-07-28 2018-06-29 北京市商汤科技开发有限公司 图像处理方法、装置、存储介质、计算机程序和电子设备
CN109325972A (zh) * 2018-07-25 2019-02-12 深圳市商汤科技有限公司 激光雷达稀疏深度图的处理方法、装置、设备及介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050015201A1 (en) * 2003-07-16 2005-01-20 Sarnoff Corporation Method and apparatus for detecting obstacles
CN104112263B (zh) * 2014-06-28 2018-05-01 南京理工大学 基于深度神经网络的全色图像与多光谱图像融合的方法
JP6360802B2 (ja) 2015-02-20 2018-07-18 株式会社デンソーアイティーラボラトリ ニューラルネットワーク処理装置、ニューラルネットワーク処理方法、検出装置、検出方法、および、車両
CN107025642B (zh) 2016-01-27 2018-06-22 百度在线网络技术(北京)有限公司 基于点云数据的车辆轮廓检测方法和装置
CN105913025B (zh) * 2016-04-12 2019-02-26 湖北工业大学 一种基于多特征融合的深度学习人脸识别方法
JP7057959B2 (ja) 2016-08-09 2022-04-21 住友ゴム工業株式会社 動作解析装置
EP3293705B1 (en) 2016-09-12 2022-11-16 Dassault Systèmes 3d reconstruction of a real object from a depth map
CN106780588A (zh) * 2016-12-09 2017-05-31 浙江大学 一种基于稀疏激光观测的图像深度估计方法
CN107274437A (zh) * 2017-06-23 2017-10-20 燕山大学 一种基于卷积神经网络的视觉跟踪方法
CN108229470B (zh) * 2017-12-22 2022-04-01 北京市商汤科技开发有限公司 文字图像处理方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150023607A1 (en) * 2013-07-22 2015-01-22 Lsi Corporation Gesture recognition method and apparatus based on analysis of multiple candidate boundaries
CN105096354A (zh) * 2014-05-05 2015-11-25 腾讯科技(深圳)有限公司 一种图像处理的方法和装置
CN106251355A (zh) * 2016-08-03 2016-12-21 江苏大学 一种融合可见光图像与对应夜视红外图像的检测方法
CN106547356A (zh) * 2016-11-17 2017-03-29 科大讯飞股份有限公司 智能交互方法和装置
CN108229497A (zh) * 2017-07-28 2018-06-29 北京市商汤科技开发有限公司 图像处理方法、装置、存储介质、计算机程序和电子设备
CN107576960A (zh) * 2017-09-04 2018-01-12 苏州驾驶宝智能科技有限公司 视觉雷达时空信息融合的目标检测方法及系统
CN107800966A (zh) * 2017-10-31 2018-03-13 广东欧珀移动通信有限公司 图像处理的方法、装置、计算机可读存储介质和电子设备
CN109325972A (zh) * 2018-07-25 2019-02-12 深圳市商汤科技有限公司 激光雷达稀疏深度图的处理方法、装置、设备及介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2620002A (en) * 2020-03-09 2023-12-27 Nvidia Corp Techniques to use a neural network to expand an image
CN113496491A (zh) * 2020-03-19 2021-10-12 广州汽车集团股份有限公司 一种基于多线激光雷达的路面分割方法及装置
CN113496491B (zh) * 2020-03-19 2023-12-15 广州汽车集团股份有限公司 一种基于多线激光雷达的路面分割方法及装置
CN112580585A (zh) * 2020-12-28 2021-03-30 深圳职业技术学院 一种基于堆叠稠密网络的挖掘机目标检测方法及装置
CN117237506A (zh) * 2023-11-15 2023-12-15 中国科学院长春光学精密机械与物理研究所 航拍图像生成模拟激光点云图像的方法
CN117237506B (zh) * 2023-11-15 2024-02-02 中国科学院长春光学精密机械与物理研究所 航拍图像生成模拟激光点云图像的方法

Also Published As

Publication number Publication date
US20210103763A1 (en) 2021-04-08
CN109325972A (zh) 2019-02-12
JP7016434B2 (ja) 2022-02-04
SG11202012998WA (en) 2021-02-25
JP2021530771A (ja) 2021-11-11
CN109325972B (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
WO2020020146A1 (zh) 激光雷达稀疏深度图的处理方法、装置、设备及介质
US10943145B2 (en) Image processing methods and apparatus, and electronic devices
US10210418B2 (en) Object detection system and object detection method
US11361196B2 (en) Object height estimation from monocular images
US11657602B2 (en) Font identification from imagery
US11734851B2 (en) Face key point detection method and apparatus, storage medium, and electronic device
US11823443B2 (en) Segmenting objects by refining shape priors
CN108304775B (zh) 遥感图像识别方法、装置、存储介质以及电子设备
KR102292559B1 (ko) 단안 이미지 깊이 추정 방법 및 장치, 기기, 프로그램 및 저장 매체
KR102438095B1 (ko) 인스턴스 분할 방법 및 장치, 전자 기기, 프로그램 및 매체
WO2020108311A1 (zh) 目标对象3d检测方法、装置、介质及设备
CN115735227A (zh) 反转用于姿态估计的神经辐射场
CN112927234A (zh) 点云语义分割方法、装置、电子设备和可读存储介质
EP4307219A1 (en) Three-dimensional target detection method and apparatus
CN112508005B (zh) 用于处理图像的方法、装置、设备以及存储介质
CN111932530A (zh) 三维对象检测方法、装置、设备和可读存储介质
CN116311298A (zh) 信息生成方法、信息处理方法、装置、电子设备以及介质
US20230325981A1 (en) Systems for Single Image Reflection Removal
Hensel et al. Facade Layout Completion with Long Short-Term Memory Networks
CN115829898A (zh) 数据处理方法、装置、电子设备、介质以及自动驾驶车辆
CN117152242A (zh) 机械臂姿态定位信息的生成方法及装置
CN113902703A (zh) 对象统计模型的训练方法、对象统计方法及装置
CN116188598A (zh) 结合相机参数的目标检测模型训练方法和目标检测方法
CN115063824A (zh) 基于残差网络的银行卡号识别方法、装置、电子设备
CN114399730A (zh) 交通目标检测模型训练和目标检测方法及边缘计算设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19840758

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020573306

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 12.05.2021)

122 Ep: pct application non-entry in european phase

Ref document number: 19840758

Country of ref document: EP

Kind code of ref document: A1