WO2023241097A1 - 一种语义实例重建方法、装置、设备及介质 - Google Patents

一种语义实例重建方法、装置、设备及介质 Download PDF

Info

Publication number
WO2023241097A1
WO2023241097A1 PCT/CN2023/078805 CN2023078805W WO2023241097A1 WO 2023241097 A1 WO2023241097 A1 WO 2023241097A1 CN 2023078805 W CN2023078805 W CN 2023078805W WO 2023241097 A1 WO2023241097 A1 WO 2023241097A1
Authority
WO
WIPO (PCT)
Prior art keywords
point cloud
target object
network
dimensional
feature information
Prior art date
Application number
PCT/CN2023/078805
Other languages
English (en)
French (fr)
Inventor
卢丽华
魏辉
李茹杨
赵雅倩
李仁刚
Original Assignee
山东海量信息技术研究院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 山东海量信息技术研究院 filed Critical 山东海量信息技术研究院
Publication of WO2023241097A1 publication Critical patent/WO2023241097A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • first target detection network to process the original image of the target scene to obtain the first feature information of the target object
  • second target detection network to process the three-dimensional point cloud of the target scene to obtain the second feature information of the target object
  • the first target detection network is used to process the original image of the target scene to obtain the first feature information of the target object, including:
  • predicting the first rough point cloud of the target object based on the first feature information includes:
  • a semantic instance reconstruction network including a first target detection network, a second target detection network, a point generation network and a preset shape generation network is constructed.
  • the semantic instance reconstruction method further includes:
  • the second target detection network is used to process the three-dimensional point cloud of the target scene to obtain the second feature information of the target object, including:
  • the VoteNet network is used to process the three-dimensional point cloud of the target scene to obtain the three-dimensional feature information of the target object.
  • the VoteNet network is used to process the three-dimensional point cloud of the target scene to obtain the three-dimensional feature information of the target object, including:
  • the PointNet network of the VoteNet network is used to extract features from the 3D point cloud of the target scene to obtain the 3D point cloud features;
  • the center point coordinates of the target object are obtained through the multi-layer perceptron network
  • a second preset number of three-dimensional feature information including object category information of the target object is output through the multi-layer perceptron network.
  • a preset shape generation network is used to process the initial point cloud to obtain a semantic instance of the target object.
  • Reconstruction results include:
  • the moving cube algorithm is used to process the target occupancy grid to obtain the semantic instance reconstruction result of the target object.
  • using the occupancy grid prediction algorithm to predict the target occupancy grid of the target object based on the fourth feature information includes:
  • the initial occupancy network and the initial point cloud Based on the fourth feature information, the initial occupancy network and the initial point cloud, and using the implicit encoder in the occupancy network prediction algorithm to predict the probability distribution of the target object;
  • the probability distribution is sampled to obtain implicit variables, and the target occupied grid of the target object is predicted based on the implicit variables and the initial point cloud.
  • constructing a total loss function includes:
  • the total loss function is constructed based on the shape loss function and the detection loss function; among them, the detection loss function includes the center point regression loss function, the heading angle loss regression function, the detection frame size cross-entropy loss function, and the object semantic category cross-entropy loss function.
  • predicting the three-dimensional detection result of the target object based on the first feature information and the second feature information to obtain the second rough point cloud of the target object based on the three-dimensional detection result includes:
  • This application also provides a semantic instance reconstruction device, including:
  • the prediction module is used to predict the first rough point cloud of the target object based on the first feature information, and predict the three-dimensional detection result of the target object based on the first feature information and the second feature information, so as to obtain the second rough point cloud of the target object based on the three-dimensional detection result.
  • Rough point cloud
  • the reconstruction result acquisition module is used to obtain the initial point cloud of the target object based on the first rough point cloud and the second rough point cloud, and use the preset shape generation network to process the initial point cloud to obtain the semantic instance reconstruction result of the target object.
  • This application also provides an electronic device, including:
  • This application also provides a non-volatile computer-readable storage medium for storing a computer program; wherein when the computer program is executed by a processor, the steps of the semantic instance reconstruction method provided above are implemented.
  • this application uses the first target detection network to process the original image of the target scene to obtain the first feature information of the target object, and uses the second target detection network to process the three-dimensional point cloud of the target scene to obtain the third characteristic information of the target object.
  • Two feature information predicting the first rough point cloud of the target object based on the first feature information, and predicting the three-dimensional detection result of the target object based on the first feature information and the second feature information, to obtain the second roughness of the target object based on the three-dimensional detection result
  • Point cloud Obtain the initial point cloud of the target object based on the first rough point cloud and the second rough point cloud, and use the preset shape generation network to process the initial point cloud to obtain the semantic instance reconstruction result of the target object.
  • the generation network processes the initial point cloud to obtain the semantic instance reconstruction result. In this way, by combining the first feature information of the original image and the second feature information of the three-dimensional point cloud, the object position can be accurately located and the semantic instance reconstruction result can be improved. the quality of.
  • Figure 1 is a flow chart of a semantic instance reconstruction method provided by an embodiment of the present application
  • Figure 3 is an implementation process diagram of a semantic instance reconstruction method provided by an embodiment of the present application.
  • Figure 5 is a flow chart of a semantic instance reconstruction method provided by an embodiment of the present application.
  • Figure 6 is a flow chart of a semantic instance reconstruction method provided by an embodiment of the present application.
  • Figure 7 is a schematic diagram of a semantic instance reconstruction result provided by an embodiment of the present application.
  • Figure 9 is a structural diagram of an electronic device provided by an embodiment of the present application.
  • semantic instance reconstruction methods are based on single modality, which can be mainly divided into two categories: based on RGB images and based on three-dimensional point clouds. If only RGB images are used, depth ambiguity will occur, leading to target positioning errors, etc. However, only using 3D point clouds for processing will limit the resolution of instance reconstruction. To this end, embodiments of the present application provide a semantic instance reconstruction method, device, equipment and medium, which can accurately locate the object position in the semantic instance reconstruction task and improve the quality of the semantic instance reconstruction results.
  • this embodiment of the present application provides a semantic instance reconstruction method, which may include:
  • Step S11 Use the first target detection network to process the original image of the target scene to obtain the first feature information of the target object, and use the second target detection network to process the three-dimensional point cloud of the target scene to obtain the second feature information of the target object. Feature information.
  • the original image can be an RGB image, and use the first target detection network and the second target detection network to process the original image and the three-dimensional point cloud respectively. , to obtain the first feature information and the second feature information corresponding to the target object in the target scene.
  • the original images and 3D point clouds of the target scene are derived from the ScanNet data set.
  • the ScanNet data set contains a total of 1513 actual scenes and also provides scene 3D point clouds with instance-level annotations.
  • Scan2CAD Management Software Computer Aided Design
  • RGB image and three-dimensional point cloud are used as multi-modal inputs.
  • the three-dimensional point cloud can be directly provided by the data set, or it can be generated using multi-view RGB images and depth maps.
  • the first rough point cloud of the target object is predicted based on the first feature information
  • the three-dimensional detection result of the target object is predicted based on the first feature information and the second feature information, so as to obtain the third rough point cloud of the target object based on the three-dimensional detection result.
  • the second rough point cloud may be: locating and extracting the point cloud of the target object from the three-dimensional point cloud of the target scene based on the three-dimensional detection result to obtain the second rough point cloud.
  • the first rough point cloud and the second rough point cloud are fused to obtain an initial point cloud of the target object, and then the The shape generation network is used to complete and optimize the initial point cloud to obtain the semantic instance reconstruction result of the target object, that is, the complete shape of the target object.
  • the final semantic instance reconstruction result is represented in the form of a reconstructed grid.
  • this application uses the first target detection network to process the original image of the target scene to obtain the first feature information of the target object, and uses the second target detection network to process the three-dimensional point cloud of the target scene to obtain the third characteristic information of the target object.
  • Two feature information predicting the first rough point cloud of the target object based on the first feature information, and predicting the three-dimensional detection result of the target object based on the first feature information and the second feature information, to obtain the second roughness of the target object based on the three-dimensional detection result
  • Point cloud Obtain the initial point cloud of the target object based on the first rough point cloud and the second rough point cloud, and use the preset shape generation network to process the initial point cloud to obtain the semantic instance reconstruction result of the target object.
  • this application obtains the original image and the three-dimensional point cloud of the target scene, and uses the first target detection network and the second target detection network to process the original image and the three-dimensional point cloud respectively to obtain the corresponding first feature information. and second feature information, and then predict the first rough point cloud of the target object based on the first feature information. Secondly, predict the three-dimensional detection result of the target object by combining the first feature information and the second feature information, which can make the three-dimensional detection result more accurate.
  • a semantic instance reconstruction method which may include:
  • Step S21 Use the Faster R-CNN network to process the original image of the target scene to obtain the two-dimensional feature information of the target object, and use the VoteNet network to process the three-dimensional point cloud of the target scene to obtain the three-dimensional feature information of the target object.
  • the first target detection network and the second target detection network may be the Faster R-CNN network and the VoteNet network respectively, or may be other target detection networks, without limitation here.
  • the original image of the target scene that is, the RGB image
  • the Faster R-CNN network as a two-dimensional target detection network
  • the obtained feature information is two-dimensional feature information
  • the three-dimensional point cloud is a three-dimensional image
  • the VoteNet network is used as a three-dimensional target detection network
  • the obtained feature information is three-dimensional feature information.
  • Feature representation of the RGB image candidate generation module, used to output a first preset number of two-dimensional feature information including the position information and semantic category information of the target object through the activation function, that is, using the Softmax layer to generate object candidates. Then, given the RGB image of the target scene, the two-dimensional target detection network will output K object candidates, expressed as K ⁇ F 2D , where F 2D is the two-dimensional feature information of the object, including the position information and semantic category information of the target object. .
  • the above-mentioned use of the VoteNet network to process the three-dimensional point cloud of the target scene to obtain the three-dimensional feature information of the target object includes: using the PointNet network of the VoteNet network to extract features from the three-dimensional point cloud of the target scene to obtain the three-dimensional point cloud features; based on the three-dimensional point cloud Features and three-dimensional point cloud coordinates, and obtain the center of the target object through a multi-layer perceptron network Point coordinates; based on the center point coordinates and three-dimensional point cloud features, and outputting a second preset number of three-dimensional feature information including object category information of the target object through the multi-layer perceptron network.
  • the VoteNet network can include a point cloud feature extraction module, a vote generation module and a candidate generation module.
  • the feature extraction module is used to use the PointNet network to extract features from the three-dimensional point cloud of the target scene to obtain three-dimensional point cloud features, that is, to extract the point cloud feature representation of the scene from the input three-dimensional point cloud;
  • the voting generation module is used for fusion Three-dimensional point cloud features and three-dimensional point cloud coordinates are generated through a multi-layer perceptron network to represent the center point coordinates of the object.
  • the candidate generation module is used to fuse the center point coordinates and nearby three-dimensional point cloud features, use multi-layer perceptrons to generate object candidates, and predict object category information. Then, given the three-dimensional point cloud of the target scene, the three-dimensional target detection network will output K object candidates, expressed as K ⁇ M ⁇ 3, where F 3D is the three-dimensional feature information of the object.
  • Step S22 Based on the position information and semantic category information, use the point generation network to predict the first rough point cloud of the target object, and use the bounding box regression network to predict the three-dimensional detection border of the target object based on the first feature information and the second feature information. .
  • a point generation network and a multi-layer perceptron are used to predict the first rough point cloud of the target object, denoted as K ⁇ M r ⁇ 3. Then based on the first feature information and the second feature information of the target object, that is, fusing the two-dimensional feature information and the three-dimensional feature information to obtain the feature representation of the object K ⁇ (F 2D +F 3D ); based on this feature, the three-dimensional bounding box regression network Use multi-layer perceptrons to predict the three-dimensional detection bounding box of objects.
  • the first target detection network and the second target detection network can be the Faster R-CNN network and the VoteNet network respectively.
  • the Faster R-CNN network to process the original image of the target scene to obtain the two-dimensional feature information of the target object
  • the VoteNet network to process the three-dimensional point cloud of the target scene to obtain the three-dimensional feature information of the target object.
  • Step S31 Use the first target detection network to process the original image of the target scene to obtain the first image of the target object. First feature information, and use the second target detection network to process the three-dimensional point cloud of the target scene to obtain the second feature information of the target object.
  • Step S32 Predict the first rough point cloud of the target object based on the first feature information, and predict the three-dimensional detection result of the target object based on the first feature information and the second feature information, so as to obtain the second rough point cloud of the target object based on the three-dimensional detection result. cloud.
  • Step S33 Obtain the initial point cloud of the target object based on the first rough point cloud and the second rough point cloud, and obtain the third feature information of the target object based on the second feature information and the initial point cloud.
  • the second feature information of the object after obtaining the initial point cloud K ⁇ M ⁇ 3 of the target object, it is necessary to fuse the second feature information of the object again, that is, the three-dimensional feature information K ⁇ M ⁇ 3 to obtain the third feature information of the object, denoted by is K ⁇ M ⁇ (F 3D +3).
  • Step S34 Use the PointNet network to perform feature extraction on the third feature information to obtain the fourth feature information, and use the occupancy grid prediction algorithm to predict the target occupancy grid of the target object based on the fourth feature information.
  • the shape generation network is constructed as a probabilistic generation model, and based on the fourth feature information, the initial occupancy network and the initial point cloud, the implicit encoder in the occupancy network prediction algorithm is used to predict the probability distribution of the target object, including the mean and the standard deviation, that is, ( ⁇ , ⁇ ), so that its value approximates the standard normal distribution.
  • the implicit variable Z is sampled from the obtained distribution ( ⁇ , ⁇ ), and the initial point cloud of the object is fused to predict the target occupancy of the object. grid.
  • Step S35 Use the moving cube algorithm to process the target occupation grid to obtain the semantic instance reconstruction result of the target object.
  • the preset shape generation network when used to process the initial point cloud to obtain the semantic instance reconstruction result of the target object, the third feature information of the target object is obtained based on the three-dimensional feature information and the initial point cloud; the PointNet network is used to obtain the third feature information of the target object. Feature extraction is performed on the information to obtain the fourth feature information, and based on the fourth feature information, the occupancy grid prediction algorithm is used to predict the target occupancy grid of the target object; the moving cube algorithm is used to process the target occupancy grid to obtain the semantic instance reconstruction of the target object. result. That is, by using the shape generation network to further complete and optimize the obtained initial point cloud, the complete shape of the object can be reconstructed, represented by the reconstructed mesh surface.
  • the semantic instance reconstruction method in this embodiment of the present application also includes:
  • Step S42 Construct a total loss function, and use the total loss function to train the semantic instance reconstruction network until the preset number of iterations is met to obtain the trained semantic instance reconstruction network.
  • the above-mentioned construction of the total loss function includes: constructing a shape loss function based on probability distribution and target occupation grid; constructing a total loss function based on the shape loss function and detection loss function; among which, the detection loss function includes the center point regression loss function, heading Corner loss regression function, detection box size cross-entropy loss function, object semantic category cross-entropy loss function.
  • the shape loss function is constructed based on the probability distribution and the target occupancy grid, that is, for each object instance, the calculation formula of the shape loss function is:
  • L shape represents the shape loss function
  • L ce and KL represent cross entropy and KL divergence respectively
  • o i,j respectively represent the predicted occupancy grid and the true value occupancy grid of the jth point of the i-th object.
  • the predicted occupancy grid is also the predicted target occupancy grid mentioned above, and the true value occupancy grid refers to the data set.
  • the total loss function is used to train the semantic instance reconstruction network until the preset number of iterations is met to obtain the trained semantic instance reconstruction network.
  • the training process is: first, pre-train the two-dimensional target detection network and the three-dimensional target detection network on the original image and three-dimensional point cloud of the given target scene respectively; fix the network parameters, and train the semantic instance reconstruction network.
  • the network and the 3D object detection network are no longer trained.
  • the object reconstruction grid provided by Scan2CAD is used as supervised information to train the network, and the total loss function L pred minimized by gradient descent is used to train the semantic instance reconstruction network to predict the complete three-dimensional object shape.
  • the training error of the network reaches a specified smaller value or meets the preset number of iterations, the training ends, and the post-training semantic instance reconstruction network is obtained.
  • test set is input into the trained semantic instance reconstruction network to test the network.
  • the RGB image and 3D point cloud of a scene in the ScanNet test set are input into the trained semantic instance reconstruction network, and the semantic instance reconstruction results are output, expressed in the form of a reconstruction grid.
  • Figure 7 is a schematic diagram of the semantic instance reconstruction results provided by the embodiment of the present application. The first column in Figure 7 is the semantic instance reconstruction result, and the second column is the corresponding true value.
  • the semantic instance reconstruction network includes two parts: a three-dimensional target detection network and a three-dimensional object reconstruction network. Therefore, a multi-modal two-stage semantic instance reconstruction method is provided, and the three-dimensional target detection network includes a first target detection network, a third target detection network, and a first target detection network.
  • Secondary target detection network, etc., 3D object reconstruction network includes point generation network, preset shape generation network, etc., which can improve the accuracy of semantic instance reconstruction by utilizing the 2D semantic information and 3D geometric information provided by the RGB image and 3D point cloud of the scene. quality.
  • the total loss function it is based on the detection loss function and the shape loss function, so as to use the constructed total loss function to train the semantic instance reconstruction network to obtain the trained semantic instance reconstruction network.
  • this embodiment of the present application provides a semantic instance reconstruction device, which includes:
  • the feature extraction module 11 is configured to use the first target detection network to process the original image of the target scene to obtain the first feature information of the target object, and use the second target detection network to process the three-dimensional point cloud of the target scene to obtain the target. Second characteristic information of the object;
  • the prediction module 12 is configured to predict the first rough point cloud of the target object based on the first feature information, and predict the three-dimensional detection result of the target object based on the first feature information and the second feature information, so as to obtain the third rough point cloud of the target object based on the three-dimensional detection result.
  • the reconstruction result acquisition module 13 is configured to obtain an initial point cloud of the target object based on the first rough point cloud and the second rough point cloud, and use a preset shape generation network to process the initial point cloud to obtain a semantic instance reconstruction result of the target object.
  • this application uses the first target detection network to process the original image of the target scene to obtain the first feature information of the target object, and uses the second target detection network to process the three-dimensional point cloud of the target scene to obtain the third characteristic information of the target object.
  • Two feature information predicting the first rough point cloud of the target object based on the first feature information, and predicting the three-dimensional detection result of the target object based on the first feature information and the second feature information, to obtain the second roughness of the target object based on the three-dimensional detection result
  • Point cloud Obtain the initial point cloud of the target object based on the first rough point cloud and the second rough point cloud, and use the preset shape generation network to process the initial point cloud to obtain the semantic instance reconstruction result of the target object.
  • this application obtains the original image and the three-dimensional point cloud of the target scene, and uses the first target detection network and the second target detection network to process the original image and the three-dimensional point cloud respectively to obtain the corresponding first feature information. and second feature information, and then predict the first rough point cloud of the target object based on the first feature information. Secondly, predict the three-dimensional detection result of the target object by combining the first feature information and the second feature information, which can make the three-dimensional detection result more accurate.
  • the generation network processes the initial point cloud to obtain the semantic instance reconstruction result. In this way, by combining the first feature information of the original image and the second feature information of the three-dimensional point cloud, the object position can be accurately located and the semantic instance reconstruction result can be improved. the quality of.
  • the feature extraction module 11 may include:
  • the first feature extraction submodule is used to use the Faster R-CNN network to process the original image of the target scene to obtain the two-dimensional feature information of the target object.
  • the first feature extraction sub-module may include:
  • the two-dimensional feature extraction unit is used to extract features from the original image of the target scene using the convolutional layer of the Faster R-CNN network, and output a first preset number of position information and semantic category information of the target object through the activation function. Two-dimensional feature information.
  • prediction module 12 may include:
  • the first rough point cloud prediction unit is used to predict the first rough point cloud of the target object based on the position information and semantic category information using the point generation network.
  • the semantic instance reconstruction device may also include:
  • a network building module is used to construct a semantic instance reconstruction network including a first target detection network, a second target detection network, a point generation network and a preset shape generation network based on the three-dimensional target detection network and the three-dimensional object reconstruction network.
  • the semantic instance reconstruction device may also include:
  • the network training module is used to construct a total loss function and use the total loss function to train the semantic instance reconstruction network until the preset number of iterations is met to obtain the trained semantic instance reconstruction network.
  • the feature extraction module 11 may include:
  • the second feature extraction submodule is used to use the VoteNet network to process the three-dimensional point cloud of the target scene to obtain the three-dimensional feature information of the target object.
  • the second feature extraction sub-module may include:
  • the three-dimensional point cloud feature extraction unit is used to extract features from the three-dimensional point cloud of the target scene using the PointNet network of the VoteNet network to obtain the three-dimensional point cloud features;
  • the three-dimensional feature extraction unit is used to output a second preset number of three-dimensional feature information including object category information of the target object based on the center point coordinates and three-dimensional point cloud features through the multi-layer perceptron network.
  • the third feature information acquisition unit is used to obtain the third feature information of the target object based on the three-dimensional feature information and the initial point cloud;
  • the occupancy grid processing unit is used to process the target occupancy grid using the moving cube algorithm to obtain the semantic instance reconstruction result of the target object.
  • the prediction unit is used to sample the probability distribution to obtain implicit variables, and predict the target occupation grid of the target object based on the implicit variables and the initial point cloud.
  • the total loss function construction unit is used to construct the total loss function based on the shape loss function and the detection loss function; among them, the detection loss function includes the center point regression loss function, the heading angle loss regression function, the detection frame size cross-entropy loss function, and the object semantic category. Cross entropy loss function.
  • the three-dimensional detection frame prediction unit is used to predict the three-dimensional detection frame of the target object based on the first feature information and the second feature information and using the bounding box regression network;
  • the processor 21 may include one or more processing cores, such as a 4-core processor, an 8-core processor, etc.
  • the processor 21 can adopt at least one hardware form among DSP (Digital Signal Processing, digital signal processing), FPGA (Field-Programmable Gate Array, field programmable gate array), and PLA (Programmable Logic Array, programmable logic array).
  • the processor 21 may also include a main processor and a co-processor.
  • the main processor is a processor used to process data in the wake-up state, also called CPU (Central Processing Unit, central processing unit); the co-processor is A low-power processor used to process data in standby mode.
  • the processor 21 may be integrated with a GPU (Graphics Processing Unit, image processor), and the GPU is responsible for rendering and drawing the content that needs to be displayed on the display screen.
  • the processor 21 may also include an AI (Artificial Intelligence, artificial intelligence) processor, which is used to process computing operations related to machine learning.
  • AI Artificial Intelligence, artificial intelligence
  • the memory 22 as a carrier for resource storage, can be a read-only memory, a random access memory, a magnetic disk or an optical disk, etc.
  • the resources stored thereon include an operating system 221, a computer program 222, and data 223.
  • the storage method can be short-term storage or Permanent storage.
  • the operating system 221 is used to manage and control each hardware device and the computer program 222 on the electronic device 20 to realize the operation and processing of the massive data 223 in the memory 22 by the processor 21.
  • It can be Windows, Unix, Linux, etc.
  • the computer program 222 includes, in addition to semantics capable of being executed by the electronic device 20 provided by any of the foregoing embodiments.
  • it may further include computer programs that can be used to complete other specific tasks.
  • the data 223 may also include data collected by its own input and output interface 25, etc.
  • Figure 10 is a schematic structural diagram of a non-volatile computer-readable storage medium provided by an embodiment of the present application.
  • the non-volatile computer-readable storage medium 10 stores a computer program 101.
  • the computer program 101 is loaded and executed by the processor. When, the method steps performed in the semantic instance reconstruction process provided by any of the foregoing embodiments are implemented.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

一种语义实例重建方法、装置、设备及介质,涉及三维视觉领域,包括:利用第一目标检测网络对目标场景的原始图像进行处理以得到目标物体的第一特征信息,并利用第二目标检测网络对目标场景的三维点云进行处理以得到目标物体的第二特征信息(S11);基于第一特征信息预测目标物体的第一粗糙点云,并基于第一特征信息和第二特征信息预测目标物体的三维检测结果,以基于三维检测结果得到目标物体的第二粗糙点云(S12);基于第一粗糙点云和第二粗糙点云得到目标物体的初始点云,并利用预设形状生成网络对初始点云进行处理得到目标物体的语义实例重建结果(S13)。通过结合原始图像的第一特征信息和三维点云的第二特征信息,能够提高语义实例重建结果的质量。

Description

一种语义实例重建方法、装置、设备及介质
相关申请的交叉引用
本申请要求于2022年06月16日提交中国专利局,申请号为202210677281.9,申请名称为“一种语义实例重建方法、装置、设备及介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及三维视觉领域,特别涉及一种语义实例重建方法、装置、设备及介质。
背景技术
深度相机等设备扫描三维真实场景时,由于遮挡、视角限制、光线不好等原因,扫描结果存在缺失。语义实例重建任务将三维语义理解与三维重建进行耦合,目的在于修复不完整的场景扫描结果,重建得到物体的完整几何形状、姿态以及类别信息,为三维场景理解提供基础,广泛应用于智能驾驶、机器人、虚拟现实、增强现实等领域。当前的语义实例重建方法大多是基于单模态的,主要可以分为两类:基于RGB(Red Green Blue,红绿蓝)图和基于三维点云。在基于RGB图的语义实例重建方法中,利用RGB图进行目标检测和实例重建,例如Mesh R-CNN(Mesh Region-Convolutional Neural Network,网格区域卷积神经网络)框架通过改进实例分割框架Mask R-CNN(Mask Region-Convolutional Neural Network,掩模区域卷积神经网络),以增加网格预测分支来生成物体的重建网格,可以用RGB图实现目标检测、实例分割和物体网格预测,但是仅利用RGB图,会产生深度歧义,导致目标定位错误等情况。在基于三维点云的语义实例重建方法中,通过利用点云提供的几何信息可以提高物体检测以及重建的质量。如Najibi等人提出的DOPS(Distributional Optimization from Samples,基于样本的分布优化)模型,首次在点云上实现了语义实例重建,但是将点云进行网格化处理,限制了实例重建的分辨率。此后,Nie等人提出RfD-Net(Reconstruction From Detection-Net,先检测再重建网络)框架,可以直接从原始点云中学习物体的语义信息,并重建物体的几何形状。尽管上述方法取得了不错的效果,但是上述方法依然存在物体位置定位的准确率较低以及语义实例重建结果较低的问题。
综上,在语义实例重建任务中,如何准确定位物体位置并提高语义实例重建结果的质量是目前有待解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种语义实例重建方法、装置、设备及介质,能够在语义实例重建任务中准确定位物体位置并提高语义实例重建结果的质量。其方案如下:
本申请提供了一种语义实例重建方法,包括:
利用第一目标检测网络对目标场景的原始图像进行处理以得到目标物体的第一特征信息,并利用第二目标检测网络对目标场景的三维点云进行处理以得到目标物体的第二特征信息;
基于第一特征信息预测目标物体的第一粗糙点云,并基于第一特征信息和第二特征信息预测目标物体的三维检测结果,以基于三维检测结果得到目标物体的第二粗糙点云;
基于第一粗糙点云和第二粗糙点云得到目标物体的初始点云,并利用预设形状生成网络对初始点云进行处理得到目标物体的语义实例重建结果。
在一些实施例中,利用第一目标检测网络对目标场景的原始图像进行处理以得到目标物体的第一特征信息,包括:
利用Faster R-CNN网络对目标场景的原始图像进行处理以得到目标物体的二维特征信息。
在一些实施例中,利用Faster R-CNN网络对目标场景的原始图像进行处理以得到目标物体的二维特征信息,包括:
利用Faster R-CNN网络的卷积层对目标场景的原始图像进行特征提取,并通过激活函数输出第一预设数量个包括目标物体的位置信息和语义类别信息的二维特征信息。
在一些实施例中,基于第一特征信息预测目标物体的第一粗糙点云,包括:
基于位置信息和语义类别信息,利用点生成网络预测目标物体的第一粗糙点云。
在一些实施例中,语义实例重建方法,还包括:
基于三维目标检测网络和三维物体重建网络构建包括第一目标检测网络、第二目标检测网络、点生成网络和预设形状生成网络的语义实例重建网络。
在一些实施例中,语义实例重建方法,还包括:
构建总损失函数,并利用总损失函数对语义实例重建网络进行训练,直到满足预设迭代次数,以得到训练后语义实例重建网络。
在一些实施例中,利用第二目标检测网络对目标场景的三维点云进行处理以得到目标物体的第二特征信息,包括:
利用VoteNet网络对目标场景的三维点云进行处理以得到目标物体的三维特征信息。
在一些实施例中,利用VoteNet网络对目标场景的三维点云进行处理以得到目标物体的三维特征信息,包括:
利用VoteNet网络的PointNet网络对目标场景的三维点云进行特征提取得到三维点云特征;
基于三维点云特征和三维点云坐标,并通过多层感知机网络得到目标物体的中心点坐标;
基于中心点坐标和三维点云特征,并通过多层感知机网络输出第二预设数量个包括目标物体的物体类别信息的三维特征信息。
在一些实施例中,利用预设形状生成网络对初始点云进行处理得到目标物体的语义实例 重建结果,包括:
基于三维特征信息和初始点云得到目标物体的第三特征信息;
利用PointNet网络对第三特征信息进行特征提取得到第四特征信息,并基于第四特征信息利用占有网格预测算法预测目标物体的目标占有网格;
利用移动立方体算法对目标占有网格进行处理以得到目标物体的语义实例重建结果。
在一些实施例中,基于第四特征信息利用占有网格预测算法预测目标物体的目标占有网格,包括:
基于第四特征信息、初始占有网络和初始点云,并利用占有网络预测算法中的隐式编码器预测目标物体的概率分布;
对概率分布进行采样得到隐式变量,基于隐式变量和初始点云预测目标物体的目标占有网格。
在一些实施例中,构建总损失函数,包括:
基于概率分布和目标占有网格构建形状损失函数;
基于形状损失函数和检测损失函数构建总损失函数;其中,检测损失函数包括中心点回归损失函数、航向角损失回归函数、检测框大小交叉熵损失函数、物体语义类别交叉熵损失函数。
在一些实施例中,基于第一特征信息和第二特征信息预测目标物体的三维检测结果,以基于三维检测结果得到目标物体的第二粗糙点云,包括:
基于第一特征信息和第二特征信息,并利用边界框回归网络预测目标物体的三维检测边框;
基于三维检测边框从三维点云中提取目标物体的点云信息,以得到第二粗糙点云。
本申请还提供了一种语义实例重建装置,包括:
特征提取模块,用于利用第一目标检测网络对目标场景的原始图像进行处理以得到目标物体的第一特征信息,并利用第二目标检测网络对目标场景的三维点云进行处理以得到目标物体的第二特征信息;
预测模块,用于基于第一特征信息预测目标物体的第一粗糙点云,并基于第一特征信息和第二特征信息预测目标物体的三维检测结果,以基于三维检测结果得到目标物体的第二粗糙点云;
重建结果获取模块,用于基于第一粗糙点云和第二粗糙点云得到目标物体的初始点云,并利用预设形状生成网络对初始点云进行处理得到目标物体的语义实例重建结果。
本申请还提供了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行计算机程序,以实现前述提供的语义实例重建方法的步骤。
本申请还提供了一种非易失性计算机可读存储介质,用于存储计算机程序;其中,计算机程序被处理器执行时实现前述提供的语义实例重建方法的步骤。
可见,本申请利用第一目标检测网络对目标场景的原始图像进行处理以得到目标物体的第一特征信息,并利用第二目标检测网络对目标场景的三维点云进行处理以得到目标物体的第二特征信息;基于第一特征信息预测目标物体的第一粗糙点云,并基于第一特征信息和第二特征信息预测目标物体的三维检测结果,以基于三维检测结果得到目标物体的第二粗糙点云;基于第一粗糙点云和第二粗糙点云得到目标物体的初始点云,并利用预设形状生成网络对初始点云进行处理得到目标物体的语义实例重建结果。由此可见,本申请获取目标场景的原始图像和三维点云,并利用第一目标检测网络和第二目标检测网络对分别对原始图像和三维点云进行处理,以获取对应的第一特征信息和第二特征信息,然后根据第一特征信息预测目标物体的第一粗糙点云,其次,通过结合第一特征信息和第二特征信息预测目标物体的三维检测结果,能够使得三维检测结果更加准确,也即物体定位更加准确,从而基于三维检测结果得到第二粗糙点云的质量更高,再融合第一粗糙点云和第二粗糙点云得到目标物体的初始点云,以利用预设形状生成网络对该初始点云进行处理以得到语义实例重建结果,如此一来,通过结合原始图像的第一特征信息和三维点云的第二特征信息,能够准确定位物体位置并提高语义实例重建结果的质量。
附图说明
为了更清楚地说明本申请一些实施例实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种语义实例重建方法的流程图;
图2为本申请实施例提供的一种语义实例重建方法的流程图;
图3为本申请实施例提供的一种语义实例重建方法的实现过程图;
图4为本申请实施例提供的一种语义实例重建方法的流程图;
图5为本申请实施例提供的一种语义实例重建方法的流程图;
图6为本申请实施例提供的一种语义实例重建方法的流程图;
图7为本申请实施例提供的一种语义实例重建结果的示意图;
图8为本申请实施例提供的一种语义实例重建装置的结构示意图;
图9为本申请实施例提供的一种电子设备的结构图;
图10为本申请实施例提供的一种非易失性计算机可读存储介质的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
当前的语义实例重建方法大多是基于单模态的,主要可以分为两类:基于RGB图和基于三维点云。如果仅利用RGB图,会产生深度歧义,导致目标定位错误等情况,而仅利用三维点云进行处理,会限制实例重建的分辨率。为此,本申请实施例提供了一种语义实例重建方法、装置、设备及介质,能够在语义实例重建任务中准确定位物体位置并提高语义实例重建结果的质量。
参见图1所示,本申请实施例提供了一种语义实例重建方法,该方法可以包括:
步骤S11:利用第一目标检测网络对目标场景的原始图像进行处理以得到目标物体的第一特征信息,并利用第二目标检测网络对目标场景的三维点云进行处理以得到目标物体的第二特征信息。
在一些实施例中,首先需要获取目标场景的原始图像和三维点云,该原始图像可以为RGB图像,并分别利用第一目标检测网络和第二目标检测网络对原始图像和三维点云进行处理,以得到与目标场景中目标物体对应的第一特征信息和第二特征信息。
需要指出的是,在一些实施例中目标场景的原始图像和三维点云来源于ScanNet数据集,ScanNet数据集一共包含1513个实际场景,同时提供具有实例级标注的场景三维点云。Scan2CAD(Management Software Computer Aided Design,管理软件计算机辅助设计)软件将ShapeNet数据集中物体的三维模型与ScanNet数据集中的物体实例对齐,并提供了物体的重建网格。在一些实施中,对于ScanNet中的每个场景,以其RGB图以及三维点云作为多模态输入,其中三维点云可由数据集直接提供,也可以利用多视角的RGB图和深度图生成。
步骤S12:基于第一特征信息预测目标物体的第一粗糙点云,并基于第一特征信息和第二特征信息预测目标物体的三维检测结果,以基于三维检测结果得到目标物体的第二粗糙点云。
在一些实施例中,基于第一特征信息预测目标物体的第一粗糙点云,并结合第一特征信息和第二特征信息预测目标物体的三维检测结果,以基于三维检测结果得到目标物体的第二粗糙点云,可以为,基于三维检测结果从目标场景的三维点云中定位并提取目标物体的点云,以得到第二粗糙点云。通过结合第一特征信息和第二特征信息预测目标物体的三维检测结果,能够使得三维检测结果更加准确,也即物体定位更加准确,从而基于三维检测结果得到第二粗糙点云的质量更高。
步骤S13:基于第一粗糙点云和第二粗糙点云得到目标物体的初始点云,并利用预设形状生成网络对初始点云进行处理得到目标物体的语义实例重建结果。
在一些实施例中,融合第一粗糙点云和第二粗糙点云以得到目标物体的初始点云,再利 用形状生成网络对初始点云进行补全优化,以得到目标物体的语义实例重建结果,也即目标物体的完整形状,最终的语义实例重建结果以重建网格形式表示。
可见,本申请利用第一目标检测网络对目标场景的原始图像进行处理以得到目标物体的第一特征信息,并利用第二目标检测网络对目标场景的三维点云进行处理以得到目标物体的第二特征信息;基于第一特征信息预测目标物体的第一粗糙点云,并基于第一特征信息和第二特征信息预测目标物体的三维检测结果,以基于三维检测结果得到目标物体的第二粗糙点云;基于第一粗糙点云和第二粗糙点云得到目标物体的初始点云,并利用预设形状生成网络对初始点云进行处理得到目标物体的语义实例重建结果。由此可见,本申请获取目标场景的原始图像和三维点云,并利用第一目标检测网络和第二目标检测网络对分别对原始图像和三维点云进行处理,以获取对应的第一特征信息和第二特征信息,然后根据第一特征信息预测目标物体的第一粗糙点云,其次,通过结合第一特征信息和第二特征信息预测目标物体的三维检测结果,能够使得三维检测结果更加准确,也即物体定位更加准确,从而基于三维检测结果得到第二粗糙点云的质量更高,再融合第一粗糙点云和第二粗糙点云得到目标物体的初始点云,以利用预设形状生成网络对该初始点云进行处理以得到语义实例重建结果,如此一来,通过结合原始图像的第一特征信息和三维点云的第二特征信息,能够准确定位物体位置并提高语义实例重建结果的质量。
参见图2和图3所示,本申请实施例提供了一种语义实例重建方法,可以包括:
步骤S21:利用Faster R-CNN网络对目标场景的原始图像进行处理以得到目标物体的二维特征信息,并利用VoteNet网络对目标场景的三维点云进行处理以得到目标物体的三维特征信息。
在一些实施例中,第一目标检测网络和第二目标检测网络可以分别为Faster R-CNN网络和VoteNet网络,也可以为其他的目标检测网络,此处不做限制。其中,因为目标场景的原始图像也即RGB图像为二维图像,那么将Faster R-CNN网络作为二维目标检测网络,得到的特征信息则为二维特征信息;而三维点云是三维图像,那么将VoteNet网络作为三维目标检测网络,得到的特征信息则为三维特征信息。
进一步的,上述利用Faster R-CNN网络对目标场景的原始图像进行处理以得到目标物体的二维特征信息,包括:利用Faster R-CNN网络的卷积层对目标场景的原始图像进行特征提取,并通过激活函数输出第一预设数量个包括目标物体的位置信息和语义类别信息的二维特征信息。可以理解的是,Faster R-CNN网络可以包括图片特征提取模块和候选生成模块,其中,图片特征提取模块,用于利用多个卷积层对目标场景的原始图像进行特征提取,也即提取场景RGB图像的特征表示;候选生成模块,用于通过激活函数输出第一预设数量个包括目标物体的位置信息和语义类别信息的二维特征信息,也即利用Softmax层生成物体候选。那么,给定目标场景的RGB图像,二维目标检测网络会输出K个物体候选,表示为K×F2D,其中F2D为物体的二维特征信息,包含目标物体的位置信息和语义类别信息。
上述利用VoteNet网络对目标场景的三维点云进行处理以得到目标物体的三维特征信息,包括:利用VoteNet网络的PointNet网络对目标场景的三维点云进行特征提取得到三维点云特征;基于三维点云特征和三维点云坐标,并通过多层感知机网络得到目标物体的中心 点坐标;基于中心点坐标和三维点云特征,并通过多层感知机网络输出第二预设数量个包括目标物体的物体类别信息的三维特征信息。可以理解的是,VoteNet网络可以包括点云特征提取模块、投票生成模块和候选生成模块。其中,特征提取模块用于利用PointNet网络对目标场景的三维点云进行特征提取得到三维点云特征,也即从输入的三维点云中提取场景的点云特征表示;投票生成模块,用于融合三维点云特征和三维点云坐标,并通过多层感知机网络生成投票,表示物体的中心点坐标。候选生成模块,用于融合中心点坐标和附近的三维点云特征,利用多层感知机生成物体候选,并预测物体类别信息。那么,给定目标场景的三维点云,三维目标检测网络会输出K个物体候选,表示为K×M×3,其中F3D为物体的三维特征信息。
步骤S22:基于位置信息和语义类别信息,利用点生成网络预测目标物体的第一粗糙点云,并基于第一特征信息和第二特征信息,并利用边界框回归网络预测目标物体的三维检测边框。
在一些实施例中,根据目标物体的位置信息和语义类别信息,利用点生成网络和多层感知机,预测目标物体的第一粗糙点云,记为K×Mr×3。再基于目标物体的第一特征信息和第二特征信息,也即融合二维特征信息和三维特征信息得到物体的特征表示K×(F2D+F3D);基于此特征,三维边界框回归网络利用多层感知机,预测物体的三维检测边框。
步骤S23:基于三维检测边框从三维点云中提取目标物体的点云信息,以得到第二粗糙点云。
在一些实施例中,基于目标物体的三维检测边框,实例提取网络从目标场景的三维点云中提取物体的点云信息,并利用多层感知机预测点云信息是否真实属于当前物体,得到目标物体的第二粗糙点云,记为K×Mp×3。
步骤S24:基于第一粗糙点云和第二粗糙点云得到目标物体的初始点云,并利用预设形状生成网络对初始点云进行处理得到目标物体的语义实例重建结果。
在一些实施例中,基于第一粗糙点云和第二粗糙点云得到目标物体的初始点云K×M×3。利用预设形状生成网络对初始点云进行处理得到目标物体的语义实例重建结果,也即得到完整的物体形状。
可见,第一目标检测网络和第二目标检测网络可以分别为Faster R-CNN网络和VoteNet网络,通过利用Faster R-CNN网络对目标场景的原始图像进行处理以得到目标物体的二维特征信息,并利用VoteNet网络对目标场景的三维点云进行处理以得到目标物体的三维特征信息。在基于第一特征信息和第二特征信息预测目标物体的第二粗糙点云时,需要基于第一特征信息和第二特征信息,并利用边界框回归网络预测目标物体的三维检测边框;基于三维检测边框从三维点云中提取目标物体的点云信息,以得到第二粗糙点云。通过利用基于RGB图像的二维目标检测来优化基于三维点云的三维目标检测,能够准确定位并提取场景中的目标物体。
参见图4所示,本申请实施例提供了一种语义实例重建方法,可以包括:
步骤S31:利用第一目标检测网络对目标场景的原始图像进行处理以得到目标物体的第 一特征信息,并利用第二目标检测网络对目标场景的三维点云进行处理以得到目标物体的第二特征信息。
步骤S32:基于第一特征信息预测目标物体的第一粗糙点云,并基于第一特征信息和第二特征信息预测目标物体的三维检测结果,以基于三维检测结果得到目标物体的第二粗糙点云。
步骤S33:基于第一粗糙点云和第二粗糙点云得到目标物体的初始点云,并基于第二特征信息和初始点云得到目标物体的第三特征信息。
在一些实施例中,在得到目标物体的初始点云K×M×3后,需要再次融合物体的第二特征信息,也即三维特征信息K×M×3得到物体的第三特征信息,记为K×M×(F3D+3)。
步骤S34:利用PointNet网络对第三特征信息进行特征提取得到第四特征信息,并基于第四特征信息利用占有网格预测算法预测目标物体的目标占有网格。
在一些实施例中,利用PointNet网络对第三特征信息进一步进行特征提取得到第四特征信息,记为K×M×D3D。其次,基于第四特征信息利用已有的占有网格预测算法预测目标物体的目标占有网格。其中,上述基于第四特征信息利用占有网格预测算法预测目标物体的目标占有网格,包括:基于第四特征信息、初始占有网络和初始点云,并利用占有网络预测算法中的隐式编码器预测目标物体的概率分布;对概率分布进行采样得到隐式变量,基于隐式变量和初始点云预测目标物体的目标占有网格。可以理解的是,将形状生成网络构建为概率生成模型,基于第四特征信息、初始占有网络和初始点云,利用占有网络预测算法中的隐式编码器,预测目标物体的概率分布,包括均值和标准差也即(μ,σ),使得其值近似标准正态分布,从得到的分布(μ,σ)中采样得到隐式变量Z,并融合物体的初始点云,预测物体的目标占有网格。
步骤S35:利用移动立方体算法对目标占有网格进行处理以得到目标物体的语义实例重建结果。
在一些实施例中,利用移动立方体算法从目标物体的目标占有网格中生成物体的语义实例重建结果,也即重建网格表面。其中,初始时设置隐式变量Z=0。
其中,关于上述步骤S31和S32的处理过程可以参考前述实施例中提供的相应内容,在此不再进行赘述。
可见,在利用预设形状生成网络对初始点云进行处理得到目标物体的语义实例重建结果时,为基于三维特征信息和初始点云得到目标物体的第三特征信息;利用PointNet网络对第三特征信息进行特征提取得到第四特征信息,并基于第四特征信息利用占有网格预测算法预测目标物体的目标占有网格;利用移动立方体算法对目标占有网格进行处理以得到目标物体的语义实例重建结果。也即,通过利用形状生成网络对得到的初始点云进一步进行补全优化,能够重建物体的完整形状,通过重建网格表面表示。
参见图5所示,本申请实施例的语义实例重建方法,还包括:
步骤S41:基于三维目标检测网络和三维物体重建网络构建包括第一目标检测网络、第 二目标检测网络、点生成网络和预设形状生成网络的语义实例重建网络。
在一些实施例中,可以理解的是,语义实例重建网络包括三维目标检测网络和三维物体重建网络两个部分,而三维目标检测网络包括但不限于第一目标检测网络和第二目标检测网络,三维物体重建网络包括但不限于点生成网络和预设形状生成网络。也即参见图6所示,将场景的三维点云和场景的RGB图输入语义实例重建网络中的三维目标检测网络和三维物体重建网络,分别进行多模态三维目标检测和多模态三维物体重建,最终输出语义实例重建结果,也即完整的物体形状。
步骤S42:构建总损失函数,并利用总损失函数对语义实例重建网络进行训练,直到满足预设迭代次数,以得到训练后语义实例重建网络。
在一些实施例中,需要构建总损失函数,并利用总损失函数对语义实例重建网络进行训练,直到满足预设迭代次数,以得到训练后语义实例重建网络。进一步的,上述构建总损失函数,包括:基于概率分布和目标占有网格构建形状损失函数;基于形状损失函数和检测损失函数构建总损失函数;其中,检测损失函数包括中心点回归损失函数、航向角损失回归函数、检测框大小交叉熵损失函数、物体语义类别交叉熵损失函数。需要指出的是,总损失函数包括两个部分,分别是检测损失函数和形状损失函数;其中,检测损失函数Lbox采用目标检测任务中常见的形式,包括:物体中心点的L1回归损失Lc、航向角L1回归损失Lθ、检测框大小交叉熵损失Ls、物体语义类别交叉熵损失Lz;也即Lbox=Lc+Lθ+Ls+Lz。形状损失函数是基于概率分布和目标占有网格构建的,也即对于每个物体实例,形状损失函数的计算公式为:
其中,Lshape表示形状损失函数,Lce和KL分别表示交叉熵和KL散度,和oi,j分别表示第i个物体的第j个点的预测占有网格和真值占有网格,预测占有网格也即上述预测的目标占有网格,真值占有网格指数据集提供的真实的占有网格;和p(zi)分别表示预测的概率分布和标准正态分布;K和M分别表示初始点云的维度信息。因此,总损失函数为:Lpred=Lbox+Lshape
构建好总损失函数后,则利用总损失函数对语义实例重建网络进行训练,直到满足预设迭代次数,以得到训练后语义实例重建网络。其中,训练过程为,首先分别在给定目标场景的原始图像和三维点云上,预训练二维目标检测网络和三维目标检测网络;固定网络参数,训练语义实例重建网络时,二维目标检测网络和三维目标检测网络不再训练。将Scan2CAD提供的物体重建网格作为监督信息训练网络,利用梯度下降最小化的总损失函数Lpred训练语义实例重建网络,预测完整的三维物体形状。当网络的训练误差达到一个指定的较小值或者满足预设迭代次数时,训练结束,得到训练后语义实例重建网络。
进一步的,将测试集输入训练后语义实例重建网络,以测试网络。其中,可以将 ScanNet测试集中某个场景的RGB图和三维点云输入到已训练好的语义实例重建网络中,输出语义实例重建结果,以重建网格形式表示。图7为本申请实施例提供的语义实例重建结果示意图,图7中第一列是语义实例重建结果,第二列是对应的真值。
可见,语义实例重建网络包括三维目标检测网络和三维物体重建网络两个部分,因此提供了一种多模态的两阶段语义实例重建方法,而三维目标检测网络又包括第一目标检测网络、第二目标检测网络等,三维物体重建网络包括点生成网络、预设形状生成网络等,能够通过利用场景的RGB图和三维点云所提供的二维语义信息和三维几何信息,提高语义实例重建的质量。并且在构建总损失函数时是基于检测损失函数和形状损失函数构建,以利用构建好的总损失函数对语义实例重建网络进行训练,以得到训练后语义实例重建网络。
参见图8所示,本申请实施例提供了一种语义实例重建装置,该装置包括:
特征提取模块11,用于利用第一目标检测网络对目标场景的原始图像进行处理以得到目标物体的第一特征信息,并利用第二目标检测网络对目标场景的三维点云进行处理以得到目标物体的第二特征信息;
预测模块12,用于基于第一特征信息预测目标物体的第一粗糙点云,并基于第一特征信息和第二特征信息预测目标物体的三维检测结果,以基于三维检测结果得到目标物体的第二粗糙点云;
重建结果获取模块13,用于基于第一粗糙点云和第二粗糙点云得到目标物体的初始点云,并利用预设形状生成网络对初始点云进行处理得到目标物体的语义实例重建结果。
可见,本申请利用第一目标检测网络对目标场景的原始图像进行处理以得到目标物体的第一特征信息,并利用第二目标检测网络对目标场景的三维点云进行处理以得到目标物体的第二特征信息;基于第一特征信息预测目标物体的第一粗糙点云,并基于第一特征信息和第二特征信息预测目标物体的三维检测结果,以基于三维检测结果得到目标物体的第二粗糙点云;基于第一粗糙点云和第二粗糙点云得到目标物体的初始点云,并利用预设形状生成网络对初始点云进行处理得到目标物体的语义实例重建结果。由此可见,本申请获取目标场景的原始图像和三维点云,并利用第一目标检测网络和第二目标检测网络对分别对原始图像和三维点云进行处理,以获取对应的第一特征信息和第二特征信息,然后根据第一特征信息预测目标物体的第一粗糙点云,其次,通过结合第一特征信息和第二特征信息预测目标物体的三维检测结果,能够使得三维检测结果更加准确,也即物体定位更加准确,从而基于三维检测结果得到第二粗糙点云的质量更高,再融合第一粗糙点云和第二粗糙点云得到目标物体的初始点云,以利用预设形状生成网络对该初始点云进行处理以得到语义实例重建结果,如此一来,通过结合原始图像的第一特征信息和三维点云的第二特征信息,能够准确定位物体位置并提高语义实例重建结果的质量。
在一些实施例中,特征提取模块11,可以包括:
第一特征提取子模块,用于利用Faster R-CNN网络对目标场景的原始图像进行处理以得到目标物体的二维特征信息。
在一些实施例中,第一特征提取子模块,可以包括:
二维特征提取单元,用于利用Faster R-CNN网络的卷积层对目标场景的原始图像进行特征提取,并通过激活函数输出第一预设数量个包括目标物体的位置信息和语义类别信息的二维特征信息。
在一些实施例中,预测模块12,可以包括:
第一粗糙点云预测单元,用于基于位置信息和语义类别信息,利用点生成网络预测目标物体的第一粗糙点云。
在一些实施例中,语义实例重建装置,还可以包括:
网络构建模块,用于基于三维目标检测网络和三维物体重建网络构建包括第一目标检测网络、第二目标检测网络、点生成网络和预设形状生成网络的语义实例重建网络。
在一些实施例中,语义实例重建装置,还可以包括:
网络训练模块,用于构建总损失函数,并利用总损失函数对语义实例重建网络进行训练,直到满足预设迭代次数,以得到训练后语义实例重建网络。
在一些实施例中,特征提取模块11,可以包括:
第二特征提取子模块,用于利用VoteNet网络对目标场景的三维点云进行处理以得到目标物体的三维特征信息。
在一些实施例中,第二特征提取子模块,可以包括:
三维点云特征提取单元,用于利用VoteNet网络的PointNet网络对目标场景的三维点云进行特征提取得到三维点云特征;
中心点坐标获取单元,用于基于三维点云特征和三维点云坐标,并通过多层感知机网络得到目标物体的中心点坐标;
三维特征提取单元,用于基于中心点坐标和三维点云特征,并通过多层感知机网络输出第二预设数量个包括目标物体的物体类别信息的三维特征信息。
在一些实施例中,重建结果获取模块13,可以包括:
第三特征信息获取单元,用于基于三维特征信息和初始点云得到目标物体的第三特征信息;
占有网格预测子模块,用于利用PointNet网络对第三特征信息进行特征提取得到第四特征信息,并基于第四特征信息利用占有网格预测算法预测目标物体的目标占有网格;
占有网格处理单元,用于利用移动立方体算法对目标占有网格进行处理以得到目标物体的语义实例重建结果。
在一些实施例中,占有网格预测子模块,可以包括:
概率分布预测单元,用于基于第四特征信息、初始占有网络和初始点云,并利用占有网络预测算法中的隐式编码器预测目标物体的概率分布;
预测单元,用于对概率分布进行采样得到隐式变量,基于隐式变量和初始点云预测目标物体的目标占有网格。
在一些实施例中,网络训练模块,可以包括:
形状损失函数构建单元,用于基于概率分布和目标占有网格构建形状损失函数;
总损失函数构建单元,用于基于形状损失函数和检测损失函数构建总损失函数;其中,检测损失函数包括中心点回归损失函数、航向角损失回归函数、检测框大小交叉熵损失函数、物体语义类别交叉熵损失函数。
在一些实施例中,预测模块12,可以包括:
三维检测边框预测单元,用于基于第一特征信息和第二特征信息,并利用边界框回归网络预测目标物体的三维检测边框;
第二粗糙点云获取单元,用于基于三维检测边框从三维点云中提取目标物体的点云信息,以得到第二粗糙点云。
图9为本申请实施例提供的一种电子设备的结构示意图。可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,存储器22用于存储计算机程序,计算机程序由处理器21加载并执行,以实现前述任一实施例提供的由电子设备执行的语义实例重建方法中的相关步骤。
在一些实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据应用需要进行选取,在此不进行具体限定。
其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central Processing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以再集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器21还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作系统221、计算机程序222及数据223等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,以实现处理器21对存储器22中海量数据223的运算与处理,其可以是Windows、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例提供的由电子设备20执行的语义 实例重建方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223除了可以包括电子设备接收到的由外部设备传输进来的数据,也可以包括由自身输入输出接口25采集到的数据等。
图10为本申请实施例提供的一种非易失性计算机可读存储介质的结构示意图,非易失性计算机可读存储介质10中存储有计算机程序101,计算机程序101被处理器加载并执行时,实现前述任一实施例提供的由语义实例重建过程中执行的方法步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例提供的装置而言,由于其与实施例提供的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所提供的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器、内存、只读存储器、电可编程只读存储器、电可擦除可编程只读存储器、寄存器、硬盘、可移动磁盘、只读光盘存储器、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种语义实例重建方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (21)

  1. 一种语义实例重建方法,其特征在于,包括:
    利用第一目标检测网络对目标场景的原始图像进行处理以得到目标物体的第一特征信息,并利用第二目标检测网络对所述目标场景的三维点云进行处理以得到所述目标物体的第二特征信息;
    基于所述第一特征信息预测所述目标物体的第一粗糙点云,并基于所述第一特征信息和所述第二特征信息预测所述目标物体的三维检测结果,以基于所述三维检测结果得到所述目标物体的第二粗糙点云;
    基于所述第一粗糙点云和所述第二粗糙点云得到所述目标物体的初始点云,并利用预设形状生成网络对所述初始点云进行处理得到所述目标物体的语义实例重建结果。
  2. 根据权利要求1所述的语义实例重建方法,其特征在于,所述原始图像为红绿蓝RGB图像。
  3. 根据权利要求2所述的语义实例重建方法,其特征在于,所述利用第一目标检测网络对目标场景的原始图像进行处理以得到目标物体的第一特征信息,包括:
    利用快速区域卷积神经网络Faster R-CNN网络对目标场景的原始图像进行处理以得到目标物体的二维特征信息。
  4. 根据权利要求3所述的语义实例重建方法,其特征在于,所述利用Faster R-CNN网络对目标场景的原始图像进行处理以得到目标物体的二维特征信息,包括:
    利用Faster R-CNN网络的卷积层对目标场景的原始图像进行特征提取,并通过激活函数输出第一预设数量个包括目标物体的位置信息和语义类别信息的二维特征信息。
  5. 根据权利要求4所述的语义实例重建方法,其特征在于,所述Faster R-CNN网络包括图片特征提取模块和候选生成模块;
    所述图片特征提取模块,用于利用多个卷积层对目标场景的原始图像进行特征提取;
    所述候选生成模块,用于通过激活函数输出第一预设数量个包括目标物体的位置信息和语义类别信息的二维特征信息。
  6. 根据权利要求4所述的语义实例重建方法,其特征在于,所述基于所述第一特征信息预测所述目标物体的第一粗糙点云,包括:
    基于所述位置信息和所述语义类别信息,利用点生成网络预测所述目标物体的第一粗糙点云。
  7. 根据权利要求6所述的语义实例重建方法,其特征在于,所述基于所述位置信息 和所述语义类别信息,利用点生成网络预测所述目标物体的第一粗糙点云,包括:
    根据目标物体的位置信息和语义类别信息,利用点生成网络和多层感知机,预测目标物体的第一粗糙点云。
  8. 根据权利要求6所述的语义实例重建方法,其特征在于,还包括:
    基于三维目标检测网络和三维物体重建网络构建包括所述第一目标检测网络、所述第二目标检测网络、所述点生成网络和所述预设形状生成网络的语义实例重建网络。
  9. 根据权利要求8所述的语义实例重建方法,其特征在于,还包括:
    构建总损失函数,并利用所述总损失函数对所述语义实例重建网络进行训练,直到满足预设迭代次数,以得到训练后语义实例重建网络。
  10. 根据权利要求9所述的语义实例重建方法,其特征在于,所述利用第二目标检测网络对所述目标场景的三维点云进行处理以得到所述目标物体的第二特征信息,包括:
    利用VoteNet网络对所述目标场景的三维点云进行处理以得到所述目标物体的三维特征信息。
  11. 根据权利要求10所述的语义实例重建方法,其特征在于,所述利用VoteNet网络对所述目标场景的三维点云进行处理以得到所述目标物体的三维特征信息,包括:
    利用VoteNet网络的PointNet网络对所述目标场景的三维点云进行特征提取得到三维点云特征;
    基于所述三维点云特征和三维点云坐标,并通过多层感知机网络得到所述目标物体的中心点坐标;
    基于所述中心点坐标和所述三维点云特征,并通过多层感知机网络输出第二预设数量个包括所述目标物体的物体类别信息的三维特征信息。
  12. 根据权利要求11所述的语义实例重建方法,其特征在于,所述VoteNet网络包括点云特征提取模块、投票生成模块和候选生成模块;
    所述特征提取模块,用于利用PointNet网络对目标场景的三维点云进行特征提取得到三维点云特征;
    所述投票生成模块,用于融合三维点云特征和三维点云坐标,并通过多层感知机网络生成投票,表示物体的中心点坐标;
    所述候选生成模块,用于融合中心点坐标和附近的三维点云特征,利用多层感知机生成物体候选,并预测物体类别信息。
  13. 根据权利要求11所述的语义实例重建方法,其特征在于,所述利用预设形状生成网络对所述初始点云进行处理得到所述目标物体的语义实例重建结果,包括:
    基于所述三维特征信息和所述初始点云得到所述目标物体的第三特征信息;
    利用PointNet网络对所述第三特征信息进行特征提取得到第四特征信息,并基于所述第四特征信息利用占有网格预测算法预测所述目标物体的目标占有网格;
    利用移动立方体算法对所述目标占有网格进行处理以得到所述目标物体的语义实例重建结果。
  14. 根据权利要求13所述的语义实例重建方法,其特征在于,所述基于所述第四特征信息利用占有网格预测算法预测所述目标物体的目标占有网格,包括:
    基于所述第四特征信息、初始占有网络和所述初始点云,并利用占有网络预测算法中的隐式编码器预测所述目标物体的概率分布;
    对所述概率分布进行采样得到隐式变量,基于所述隐式变量和所述初始点云预测所述目标物体的目标占有网格。
  15. 根据权利要求14所述的语义实例重建方法,其特征在于,所述构建总损失函数,包括:
    基于所述概率分布和所述目标占有网格构建形状损失函数;
    基于所述形状损失函数和检测损失函数构建总损失函数;其中,所述检测损失函数包括中心点回归损失函数、航向角损失回归函数、检测框大小交叉熵损失函数、物体语义类别交叉熵损失函数。
  16. 根据权利要求1至15任一项所述的语义实例重建方法,其特征在于,所述基于所述第一特征信息和所述第二特征信息预测所述目标物体的三维检测结果,以基于所述三维检测结果得到所述目标物体的第二粗糙点云,包括:
    基于所述第一特征信息和所述第二特征信息,并利用边界框回归网络预测所述目标物体的三维检测边框;
    基于所述三维检测边框从所述三维点云中提取所述目标物体的点云信息,以得到第二粗糙点云。
  17. 根据权利要求16所述的语义实例重建方法,其特征在于,所述基于所述第一特征信息和所述第二特征信息,并利用边界框回归网络预测所述目标物体的三维检测边框,包括:
    融合二维特征信息和三维特征信息得到所述目标物体的特征表示;
    基于所述特征标识,三维边界框回归网络利用多层感知机,预测所述目标物体的三维检测边框。
  18. 根据权利要求1所述的语义实例重建方法,其特征在于,所述基于第一粗糙点云和第二粗糙点云得到目标物体的初始点云,包括:
    融合所述第一粗糙点云和所述第二粗糙点云,以得到所述目标物体的所述初始点云。
  19. 一种语义实例重建装置,其特征在于,包括:
    特征提取模块,用于利用第一目标检测网络对目标场景的原始图像进行处理以得到目标物体的第一特征信息,并利用第二目标检测网络对所述目标场景的三维点云进行处理以得到所述目标物体的第二特征信息;
    预测模块,用于基于所述第一特征信息预测所述目标物体的第一粗糙点云,并基于所述第一特征信息和所述第二特征信息预测所述目标物体的三维检测结果,以基于所述三维检测结果得到所述目标物体的第二粗糙点云;
    重建结果获取模块,用于基于所述第一粗糙点云和所述第二粗糙点云得到所述目标物体的初始点云,并利用预设形状生成网络对所述初始点云进行处理得到所述目标物体的语义实例重建结果。
  20. 一种电子设备,其特征在于,包括:
    存储器,用于保存计算机程序;
    处理器,用于执行所述计算机程序,以实现如权利要求1至18任一项所述的语义实例重建方法的步骤。
  21. 一种非易失性计算机可读存储介质,其特征在于,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至18任一项所述的语义实例重建方法的步骤。
PCT/CN2023/078805 2022-06-16 2023-02-28 一种语义实例重建方法、装置、设备及介质 WO2023241097A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210677281.9A CN114758337B (zh) 2022-06-16 2022-06-16 一种语义实例重建方法、装置、设备及介质
CN202210677281.9 2022-06-16

Publications (1)

Publication Number Publication Date
WO2023241097A1 true WO2023241097A1 (zh) 2023-12-21

Family

ID=82336871

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2023/078805 WO2023241097A1 (zh) 2022-06-16 2023-02-28 一种语义实例重建方法、装置、设备及介质

Country Status (2)

Country Link
CN (1) CN114758337B (zh)
WO (1) WO2023241097A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117475089A (zh) * 2023-12-27 2024-01-30 浪潮电子信息产业股份有限公司 基于预训练语言模型的三维场景生成方法及相关组件
CN117808987A (zh) * 2024-02-28 2024-04-02 苏州元脑智能科技有限公司 室内场景三维重建方法、装置、电子设备及存储介质
CN117808987B (zh) * 2024-02-28 2024-05-14 苏州元脑智能科技有限公司 室内场景三维重建方法、装置、电子设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114758337B (zh) * 2022-06-16 2022-10-28 山东海量信息技术研究院 一种语义实例重建方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200349763A1 (en) * 2019-05-03 2020-11-05 Facebook Technologies, Llc Semantic Fusion
CN113450408A (zh) * 2021-06-23 2021-09-28 中国人民解放军63653部队 一种基于深度相机的非规则物体位姿估计方法及装置
CN113468950A (zh) * 2021-05-12 2021-10-01 东风汽车股份有限公司 一种基于深度学习的无人驾驶场景下的多目标跟踪方法
CN114140672A (zh) * 2021-11-19 2022-03-04 江苏大学 一种应用于雨雪天气场景下多传感器数据融合的目标检测网络系统及方法
CN114419249A (zh) * 2021-12-24 2022-04-29 珠海剑心互动娱乐有限公司 物体三维形状重建方法、装置、设备及存储介质
CN114758337A (zh) * 2022-06-16 2022-07-15 山东海量信息技术研究院 一种语义实例重建方法、装置、设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111882666B (zh) * 2020-07-20 2022-06-21 浙江商汤科技开发有限公司 三维网格模型的重建方法及其装置、设备、存储介质
CN112560972B (zh) * 2020-12-21 2021-10-08 北京航空航天大学 基于毫米波雷达先验定位和视觉特征融合的目标检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200349763A1 (en) * 2019-05-03 2020-11-05 Facebook Technologies, Llc Semantic Fusion
CN113468950A (zh) * 2021-05-12 2021-10-01 东风汽车股份有限公司 一种基于深度学习的无人驾驶场景下的多目标跟踪方法
CN113450408A (zh) * 2021-06-23 2021-09-28 中国人民解放军63653部队 一种基于深度相机的非规则物体位姿估计方法及装置
CN114140672A (zh) * 2021-11-19 2022-03-04 江苏大学 一种应用于雨雪天气场景下多传感器数据融合的目标检测网络系统及方法
CN114419249A (zh) * 2021-12-24 2022-04-29 珠海剑心互动娱乐有限公司 物体三维形状重建方法、装置、设备及存储介质
CN114758337A (zh) * 2022-06-16 2022-07-15 山东海量信息技术研究院 一种语义实例重建方法、装置、设备及介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117475089A (zh) * 2023-12-27 2024-01-30 浪潮电子信息产业股份有限公司 基于预训练语言模型的三维场景生成方法及相关组件
CN117475089B (zh) * 2023-12-27 2024-03-29 浪潮电子信息产业股份有限公司 基于预训练语言模型的三维场景生成方法及相关组件
CN117808987A (zh) * 2024-02-28 2024-04-02 苏州元脑智能科技有限公司 室内场景三维重建方法、装置、电子设备及存储介质
CN117808987B (zh) * 2024-02-28 2024-05-14 苏州元脑智能科技有限公司 室内场景三维重建方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN114758337B (zh) 2022-10-28
CN114758337A (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
KR102126724B1 (ko) 포인트 클라우드 데이터를 복구하기 위한 방법 및 장치
WO2023241097A1 (zh) 一种语义实例重建方法、装置、设备及介质
CN109087349A (zh) 一种单目深度估计方法、装置、终端和存储介质
CN115100339A (zh) 图像生成方法、装置、电子设备和存储介质
CN112529015A (zh) 一种基于几何解缠的三维点云处理方法、装置及设备
CN112085840B (zh) 语义分割方法、装置、设备及计算机可读存储介质
CN115082639A (zh) 图像生成方法、装置、电子设备和存储介质
CN111753698A (zh) 一种多模态三维点云分割系统和方法
JP7228623B2 (ja) 障害物検出方法、装置、設備、記憶媒体、及びプログラム
CN115631418A (zh) 图像处理方法、神经辐射场的训练方法和神经网络
CN114565916A (zh) 目标检测模型训练方法、目标检测方法以及电子设备
CN112580428A (zh) 一种配电网设计方法及装置
JP2024507727A (ja) 潜在変数で条件付けた幾何学的形状認識ニューラルネットワークを使用した、シーンの新規画像のレンダリング
CN111583417B (zh) 一种图像语义和场景几何联合约束的室内vr场景构建的方法、装置、电子设备和介质
JP7375149B2 (ja) 測位方法、測位装置、ビジュアルマップの生成方法およびその装置
WO2023209560A1 (en) Machine learning for vector map generation
CN116385660A (zh) 室内单视图场景语义重建方法及系统
CN115866229A (zh) 多视角图像的视角转换方法、装置、设备和介质
CN115578515A (zh) 三维重建模型的训练方法、三维场景渲染方法及装置
Zhang et al. Exploring Semantic Information Extraction from Different Data Forms in 3D Point Cloud Semantic Segmentation
He et al. Manhattan‐world urban building reconstruction by fitting cubes
Lyu et al. 3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enhancement
Wang et al. Real‐time fusion of multiple videos and 3D real scenes based on optimal viewpoint selection
WO2023185228A1 (zh) 网格模型处理方法、装置、设备以及存储介质
CN117808987B (zh) 室内场景三维重建方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23822669

Country of ref document: EP

Kind code of ref document: A1