WO2025041215A1 - Information processing device, information processing method, and program - Google Patents
Information processing device, information processing method, and program Download PDFInfo
- Publication number
- WO2025041215A1 WO2025041215A1 PCT/JP2023/029921 JP2023029921W WO2025041215A1 WO 2025041215 A1 WO2025041215 A1 WO 2025041215A1 JP 2023029921 W JP2023029921 W JP 2023029921W WO 2025041215 A1 WO2025041215 A1 WO 2025041215A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- point cloud
- cloud data
- dimensional
- data
- estimation model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
Definitions
- the present invention relates to an information processing device, an information processing method, and a program.
- Non-Patent Document 1 aims to improve classification accuracy by using missing synthetic data to learn both the completion of missing or occluded areas and semantic segmentation.
- Non-Patent Document 1 requires the preparation of synthetic data in advance, which increases the time and effort required to create and pre-process training data (i.e., the cost of training).
- This disclosure has been made in consideration of the above problems, and its purpose is to provide a highly accurate segmentation technique while suppressing increases in costs.
- An information processing device includes an acquisition means for acquiring input data, a point cloud data generation means for generating three-dimensional point cloud data from the input data, a thinned point cloud data generation means for generating three-dimensional thinned point cloud data by applying a thinning process to at least one of the input data and the three-dimensional point cloud data, and a learning means for training an estimation model that receives point cloud data as input and outputs complemented point cloud data and segmentation labels related to the complemented point cloud data by referring to the three-dimensional point cloud data and the three-dimensional thinned point cloud data.
- An information processing device includes an acquisition means for acquiring input data, a point cloud data generation means for generating three-dimensional point cloud data from the input data, and an estimation means for estimating the complemented point cloud data corresponding to the three-dimensional point cloud data generated by the point cloud data generation means and the segmentation label for the complemented point cloud data using an estimation model that receives point cloud data as an input and outputs complemented point cloud data and a segmentation label for the complemented point cloud data, the estimation model being machine-learned by referring to the three-dimensional point cloud data and three-dimensional thinned point cloud data obtained by applying a thinning process to the three-dimensional point cloud data.
- An information processing method includes acquiring input data, generating three-dimensional point cloud data from the input data, generating three-dimensional thinned point cloud data by applying a thinning process to at least one of the input data and the three-dimensional point cloud data, and training an estimation model that receives point cloud data as input and outputs complemented point cloud data and segmentation labels related to the complemented point cloud data, by referring to the three-dimensional point cloud data and the three-dimensional thinned point cloud data.
- An information processing method includes acquiring input data, generating three-dimensional point cloud data from the input data, and estimating the complemented point cloud data corresponding to the three-dimensional point cloud data generated in the generating step and the segmentation label related to the complemented point cloud data using an estimation model that takes the point cloud data as input and outputs complemented point cloud data and a segmentation label related to the complemented point cloud data, the estimation model being machine-learned by referring to the three-dimensional point cloud data and three-dimensional thinned point cloud data obtained by applying a thinning process to the three-dimensional point cloud data.
- FIG. 1 is a block diagram showing a configuration of an information processing device according to the present disclosure.
- 1 is a diagram for explaining a data flow in an information processing device according to the present disclosure.
- 1 is a block diagram showing a configuration of an information processing device according to the present disclosure.
- FIG. 2 is a diagram for explaining processing executed by an information processing device according to the present disclosure.
- 1 is a block diagram showing a configuration of an information processing device according to the present disclosure.
- 1 is a block diagram showing a hardware configuration of an information processing device according to the present disclosure.
- a first exemplary embodiment which is an example of an embodiment of the present invention, will be described in detail with reference to the drawings.
- This exemplary embodiment is the basic form of each exemplary embodiment described later.
- the scope of application of each technical means adopted in this exemplary embodiment is not limited to this exemplary embodiment. That is, each technical means adopted in this exemplary embodiment can be adopted in other exemplary embodiments included in this disclosure to the extent that no particular technical obstacle occurs.
- each technical means shown in the drawings referred to for explaining this exemplary embodiment can also be adopted in other exemplary embodiments included in this disclosure to the extent that no particular technical obstacle occurs.
- Fig. 1 is a block diagram showing the configuration of the information processing device 1. As shown in Fig. 1, the information processing device 1 includes an acquisition unit 11, a point cloud data generation unit 12, a thinned point cloud data generation unit 13, and a learning unit 14.
- the acquisition unit 11 acquires input data.
- the input data is, for example, input data for the learning phase.
- the image data may be configured to include at least one of: RGB data in which each pixel (data point) represents an RGB value; depth data in which each pixel (data point) represents a depth value; and three-dimensional point cloud data in which each data point represents a three-dimensional coordinate.
- the three-dimensional point cloud data may be point cloud data acquired by a LiDAR (Light Detection and Ranging, or Laser Imaging Detection and Ranging) device, as an example, but this example does not limit the present exemplary embodiment.
- the three-dimensional point cloud data may be configured to include a feature value of each data point in addition to the three-dimensional coordinates assigned to each data point.
- each feature value may be configured to include at least one of the RGB value and the normal value (normal vector) of each data point.
- the point cloud data generating unit 12 may be configured to generate attribute data including the feature value of each data point (for example, at least one of the RGB value and the normal value (normal vector)) in association with the three-dimensional point cloud data including the three-dimensional coordinates of each data point.
- the point cloud data generator 12 may also generate the above-mentioned three-dimensional point cloud data using algorithms such as Structure from Motion (SfM) and Simultaneous Localization and Mapping (SLAM).
- SfM Structure from Motion
- SLAM Simultaneous Localization and Mapping
- the point cloud data generator 12 with the above-mentioned configuration, can generate the above-mentioned three-dimensional point cloud data from one or more frames (one or more data sets) included in the input data acquired by the acquisition unit 11.
- the point cloud data generation unit 12 may be configured to output the three-dimensional point cloud data as is.
- the three-dimensional point cloud data may be configured to include the feature amounts of each of the above-mentioned data points (for example, at least one of RGB values and normal values (normal vectors)) before outputting the data.
- the attribute data including the feature amounts of each of the above-mentioned data points may be output in association with the three-dimensional point cloud data including the three-dimensional coordinates of each data point.
- the information processing device 1 may be configured not to include the point cloud data generation unit 12. Such a configuration is also included in this exemplary embodiment.
- the thinned point cloud data generating unit 13 generates three-dimensional thinned point cloud data by applying a thinning process to at least one of the input data acquired by the acquiring unit 11 and the three-dimensional point cloud data generated by the point cloud data generating unit 12.
- the thinning process may be, for example, The thinning process includes a process of generating the three-dimensional thinned point cloud data by using only a part of the frames among the plurality of frames included in the input data.
- the thinning process includes The configuration may include a process of generating the three-dimensional thinned point cloud data using only a portion of a plurality of data points included in at least one of the input data and the three-dimensional point cloud data.
- the learning unit 14 trains an estimation model to which point cloud data is input, and outputs complemented point cloud data and segmentation labels related to the complemented point cloud data.
- the learning unit 14 trains the estimation model by referring to the three-dimensional point cloud data and the three-dimensional thinned point cloud data. Note that the expression “completion” in this exemplary embodiment is derived from “point cloud completion” as an example, but this wording does not limit this exemplary embodiment.
- the learning unit 14 Refer to training data including the three-dimensional point cloud data and the three-dimensional thinned point cloud data,
- the three-dimensional thinned point cloud data included in the training data is input to the estimation model to generate three-dimensional point cloud data in the estimation model;
- the estimation model is subjected to machine learning so that the difference between the 3D point cloud data generated by the estimation model and the 3D point cloud data included in the training data is reduced.
- the three-dimensional point cloud data included in the teacher data may include a correct answer label (also called a true value label) for segmentation, or the three-dimensional point cloud data included in the teacher data may be associated with (associated with) a correct answer label for segmentation.
- the learning unit 14 may be configured to train the estimation model so that the difference between the segmentation label output (estimated) by the estimation model and the correct answer label for segmentation is small.
- the correct answer label may be, as one example, included in the input data or associated with the input data, and the acquisition unit 11 may acquire the correct answer label.
- the learning unit 14 configured as described above can effectively learn the estimation model that receives point cloud data as input and outputs complemented point cloud data and segmentation labels related to the complemented point cloud data.
- the term "complement” in the above description includes the complementation of so-called missing areas and the complementation of occlusion areas, but this term does not limit this exemplary embodiment.
- a thinning process is applied to at least one of the input data and the three-dimensional point cloud data to generate three-dimensional thinned point cloud data, and the estimation model is trained by referring to the three-dimensional thinned point cloud data, so that a highly accurate estimation model can be generated while suppressing an increase in cost. Therefore, according to the above configuration, a highly accurate segmentation technology can be provided while suppressing an increase in cost.
- the information processing device 1 may be configured not to include the point cloud data generation unit 12.
- the information processing device 1 may be configured to include a learning unit 14 that learns an estimation model that receives point cloud data as an input, and outputs complemented point cloud data and segmentation labels related to the complemented point cloud data, by referring to the three-dimensional point cloud data and the three-dimensional thinned point cloud data.
- the information processing device 1 configured in this manner can also achieve the above-mentioned effects.
- Fig. 2 is a flow diagram showing the flow of the information processing method S1.
- the information processing method S1 includes a step (process) S11 of acquiring input data, a step (process) S12 of generating three-dimensional point cloud data, a step (process) S13 of generating three-dimensional thinned point cloud data, and a step (process) S14 of training an estimation model.
- step S11 the acquisition unit 11 acquires input data.
- the specific process performed by the acquisition unit 11 has been described above, and therefore will not be described here.
- step S12 the point cloud data generating unit 12 generates three-dimensional point cloud data from the input data acquired by the acquiring unit 11.
- the specific processing by the point cloud data generating unit 12 has been described above, and therefore will not be described here.
- step S13 the thinned point cloud data generator 13 generates three-dimensional thinned point cloud data by applying a thinning process to at least one of the input data acquired by the acquisition unit 11 and the three-dimensional point cloud data generated by the point cloud data generator 12.
- the specific process by the thinned point cloud data generator 13 has been described above, and therefore will not be described here.
- step S14 the learning unit 14 trains an estimation model to which point cloud data is input and which outputs the complemented point cloud data and a segmentation label related to the complemented point cloud data.
- the learning unit 14 trains the estimation model by referring to the three-dimensional point cloud data and the three-dimensional thinned point cloud data. The specific processing by the learning unit 14 has been described above, and therefore will not be described here.
- a thinning process is applied to at least one of the input data and the three-dimensional point cloud data to generate three-dimensional thinned point cloud data, and the estimation model is trained by referring to the three-dimensional thinned point cloud data, so that a highly accurate estimation model can be generated while suppressing an increase in cost. Therefore, according to the above configuration, a highly accurate segmentation technology can be provided while suppressing an increase in cost.
- the information processing method S1 may be configured not to include step S12.
- the information processing method S1 may include a learning step S14 in which an estimation model having point cloud data as input and having complemented point cloud data and segmentation labels related to the complemented point cloud data as output is learned by referring to the three-dimensional point cloud data and the three-dimensional thinned point cloud data.
- the information processing method S1 configured in this manner can also achieve the above-mentioned effects.
- Fig. 3 is a block diagram showing the configuration of the information processing device 2.
- the information processing device 2 includes an acquisition unit 21, a point cloud data generation unit 22, and an estimation unit 23.
- the acquisition unit 11 acquires input data.
- the input data is, for example, input data for an inference phase (estimation phase, test phase).
- a specific example of the input data acquired by the acquisition unit 21 does not limit the present exemplary embodiment, but may be, for example,
- the image data may be configured to include at least one of: RGB data in which each pixel (data point) represents an RGB value; depth data in which each pixel (data point) represents a depth value; and three-dimensional point cloud data in which each data point represents a three-dimensional coordinate.
- the three-dimensional point cloud data may be point cloud data acquired by a LiDAR (Light Detection and Ranging, or Laser Imaging Detection and Ranging) device, as an example, but this example does not limit the present exemplary embodiment.
- LiDAR Light Detection and Ranging, or Laser Imaging Detection and Ranging
- the acquisition unit 21 can be configured to acquire data in the same format as the input data acquired by the acquisition unit 11 provided in the information processing device 1 described above, but the acquisition unit 21 does not need to acquire the correct answer label regarding the segmentation described in the information processing device 1.
- Point cloud data generator 22 The point cloud data generator 12 generates three-dimensional point cloud data from the input data acquired by the acquisition unit 21 .
- the point cloud data generating unit 22 generates three-dimensional point cloud data from the input data acquired by the acquiring unit 21, the input data including at least one of RGB data and depth data. Identifying the three-dimensional coordinates of each pixel included in the RGB data by referencing the depth data of each pixel in the depth data; - A configuration may be adopted in which three-dimensional point cloud data is generated in which the specified three-dimensional coordinates are assigned to each pixel (each data point).
- the three-dimensional point cloud data may be configured to include at least one of the RGB values and normal values (normal vectors) of each data point in addition to the three-dimensional coordinates assigned to each data point.
- a configuration may be adopted in which attribute data including at least one of the RGB values and normal values (normal vectors) of each data point is generated in association with the three-dimensional point cloud data including the three-dimensional coordinates of each data point.
- the point cloud data generation unit 22 may be configured to output the three-dimensional point cloud data as is.
- the three-dimensional point cloud data may be configured to include at least one of the RGB values and normal values (normal vectors) of each of the above-mentioned data points before outputting the data.
- the point cloud data generation unit 22 may be configured to output attribute data including at least one of the RGB values and normal values (normal vectors) of each of the above-mentioned data points, in association with the three-dimensional point cloud data including the three-dimensional coordinates of each data point.
- the information processing device 2 may be configured not to include the point cloud data generation unit 22. Such a configuration is also included in this exemplary embodiment.
- the point cloud data generator 22 can be configured to perform processing similar to that of the point cloud data generator 12 included in the information processing device 1, as an example, but this is not a limitation of this exemplary embodiment.
- the estimation unit 23 uses a machine-learned estimation model to estimate the complemented point cloud data corresponding to the three-dimensional point cloud data generated by the point cloud data generation unit 22 and the segmentation label related to the complemented point cloud data.
- the machine-learned estimation model may be an estimation model trained by the learning unit 14 included in the information processing device 1 described above.
- the machine-learned estimation model is an estimation model that receives point cloud data as an input and outputs complemented point cloud data and a segmentation label related to the complemented point cloud data, and is machine-learned with reference to the three-dimensional point cloud data and the three-dimensional thinned point cloud data obtained by applying a thinning process to the three-dimensional point cloud data.
- the estimation model that has been machine-learned with reference to three-dimensional thinned point cloud data generated by applying a thinning process to the three-dimensional point cloud data is used to estimate the complemented point cloud data corresponding to the three-dimensional point cloud data generated in the point cloud data generation process and the segmentation label related to the complemented point cloud data, so that it is possible to perform an estimation process using a highly accurate estimation model while suppressing an increase in cost. Therefore, according to the above configuration, it is possible to provide a highly accurate segmentation technology while suppressing an increase in cost.
- the information processing device 2 may be configured not to include the point cloud data generation unit 22.
- the information processing device 2 may be configured to include an estimation unit 23 that uses an estimation model that is machine-learned by referring to three-dimensional point cloud data and three-dimensional thinned point cloud data obtained by applying a thinning process to the three-dimensional point cloud data, to estimate the complemented point cloud data corresponding to the three-dimensional point cloud data acquired by the acquisition unit 21 and the segmentation label related to the complemented point cloud data, using an estimation model that receives point cloud data as an input and outputs complemented point cloud data and a segmentation label related to the complemented point cloud data.
- the information processing device 2 configured in this manner can also achieve the above-mentioned effects.
- Fig. 4 is a flow diagram showing the flow of the information processing method S2.
- the information processing method S2 includes a step (process) S21 of acquiring input data, a step (process) S22 of generating three-dimensional point cloud data, and a step (process) S23 of performing estimation using an estimation model.
- Step S21 the acquiring unit 21 acquires input data.
- the specific process performed by the acquiring unit 21 has been described above, and therefore will not be described here.
- step S22 the point cloud data generating unit 22 generates three-dimensional point cloud data from the input data acquired by the acquiring unit 21.
- the specific processing by the point cloud data generating unit 22 has been described above, and therefore will not be described here.
- step S23 the estimation unit 23 estimates the complemented point cloud data corresponding to the three-dimensional point cloud data generated in step S22 and the segmentation label related to the complemented point cloud data by using the machine-learned estimation model.
- the machine-learned estimation model can be an estimation model trained by the above-mentioned information processing method S1.
- the machine-learned estimation model is an estimation model that inputs point cloud data and outputs complemented point cloud data and a segmentation label related to the complemented point cloud data, and is machine-learned with reference to the three-dimensional point cloud data and the three-dimensional thinned point cloud data obtained by applying a thinning process to the three-dimensional point cloud data.
- the estimation model machine-learned with reference to three-dimensional thinned point cloud data generated by applying a thinning process to the three-dimensional point cloud data is used to estimate the complemented point cloud data corresponding to the three-dimensional point cloud data generated in the point cloud data generation process and the segmentation label related to the complemented point cloud data, so that it is possible to perform an estimation process using a highly accurate estimation model while suppressing an increase in cost. Therefore, according to the above configuration, it is possible to provide a highly accurate segmentation technology while suppressing an increase in cost.
- the input/output unit 40 is configured to include at least one of input/output devices such as a keyboard, a mouse, a display, a printer, and a touch panel. Alternatively, the input/output unit 40 may be configured to be connected to input/output devices such as a keyboard, a mouse, a display, a printer, and a touch panel. In this configuration, the input/output unit 40 accepts input of various information from the connected input device to the information processing device 1A. Moreover, the input/output unit 40 outputs various information to the connected output device under the control of the control unit 10A.
- An example of the input/output unit 40 is an interface such as a Universal Serial Bus (USB).
- USB Universal Serial Bus
- the storage unit 20A stores various data referenced by the control unit 10A and various data generated by the control unit 10A.
- Input data IND ⁇ 3D point cloud data PCD ⁇ Three-dimensional thinned point cloud data TPCD First feature amount F1 Second feature amount F2 ⁇ Estimation model PM ⁇ Segmentation data SG
- the input data IND is data acquired by an acquisition unit 11 (21) described later. Specific examples of the input data IND will be described later.
- the three-dimensional point cloud data PCD is data generated by a point cloud data generation unit 12 (22) described later. Specific examples of the three-dimensional point cloud data PCD will be described later.
- the three-dimensional thinned point cloud data TPCD is data generated by a thinned point cloud data generation unit 13 described later. Specific examples of the three-dimensional thinned point cloud data TPCD will be described later.
- the control unit 10A also includes a feature quantity selection unit 15, as shown in FIG. 5.
- the feature quantity selection unit 15 includes a first feature quantity selection unit 151 and a second feature quantity selection unit 152, as shown in FIG. 5.
- the acquisition unit 11 (21) acquires input data IND.
- the acquisition unit 11 acquires input data for learning in the learning phase, and acquires input data for inference in the inference phase (estimation phase, test phase).
- the image data may be configured to include at least one of: RGB data in which each pixel (data point) represents an RGB value; depth data in which each pixel (data point) represents a depth value; and three-dimensional point cloud data in which each data point represents a three-dimensional coordinate.
- the three-dimensional point cloud data may be point cloud data acquired by a LiDAR (Light Detection and Ranging, or Laser Imaging Detection and Ranging) device, as an example, but this example does not limit the present exemplary embodiment.
- the acquisition unit 11 (21) can be configured to acquire input data including correct answer labels for segmentation (input data in which correct answer labels for segmentation are attached to each data point) in the learning phase, and to acquire input data that does not include the correct answer labels in the inference phase.
- the input data IND acquired by the acquisition unit 11 (21) is stored in the memory unit 20A, for example, and is referenced by the point cloud data generation unit 12 (22), the thinned point cloud data generation unit 13, the learning unit 14, the estimation unit 23, etc.
- the point cloud data generating unit 12 (22) generates three-dimensional point cloud data PCD from the input data IND acquired by the acquiring unit 11 (21).
- the point cloud data generating unit 12 (22) generates three-dimensional point cloud data PCD from the input data IND acquired by the acquiring unit 11 (21), the input data IND including at least one of RGB data and depth data.
- the point cloud data generating unit 12 (22) Identifying the three-dimensional coordinates of each pixel included in the RGB data by referencing the depth data of each pixel in the depth data; - A configuration may be adopted in which three-dimensional point cloud data PCD is generated in which the specified three-dimensional coordinates are assigned to each pixel (each data point).
- the three-dimensional point cloud data PCD may be configured to include at least one of the RGB values and normal values (normal vectors) of each data point in addition to the three-dimensional coordinates assigned to each data point.
- a configuration may be adopted in which attribute data including at least one of the RGB values and normal values (normal vectors) of each data point is generated in association with the three-dimensional point cloud data including the three-dimensional coordinates of each data point.
- the point cloud data generation unit 12 (22) may be configured to output the three-dimensional point cloud data as it is as three-dimensional point cloud data PCD.
- the three-dimensional point cloud data acquired by the acquisition unit 11 (21) may be configured to include at least one of the RGB values and normal values (normal vectors) of each of the above-mentioned data points and output the data as three-dimensional point cloud data PCD.
- the attribute data including at least one of the RGB values and normal values (normal vectors) of each of the above-mentioned data points may be output in association with the three-dimensional point cloud data PCD including the three-dimensional coordinates of each data point.
- the point cloud data generation unit 12 (22) can be configured to, as an example, generate three-dimensional point cloud data PCD by referring to all frames included in the input data IND.
- the information processing device 1A may be configured not to include the point cloud data generation unit 12 (22). Such a configuration is also included in this exemplary embodiment.
- the thinned point cloud data generating unit 13 applies a thinning process to at least one of the input data IND acquired by the acquiring unit 11 (21) and the three-dimensional point cloud data PCD generated by the point cloud data generating unit 12 (22) to generate three-dimensional thinned point cloud data TPCD.
- the thinning process may be, for example, The process includes a process of generating the three-dimensional thinned point cloud data TPCD using only some of the frames included in the input data IND.
- the thinning process may include, as an example, a process of generating the three-dimensional thinned point cloud data TPCD using only N % (N is a real number less than 100) of the frames included in the input data IND.
- the thinned point cloud data generating unit 13 performs the process of selecting the N % of frames as follows: Randomly select the frames to be removed.
- a process may be performed in which a group of consecutive frames are removed in such a way that a specific area is missing from the image or object represented by the input data IND.
- the thinning process may include:
- the configuration may include a process of generating the three-dimensional thinned point cloud data TPCD by using only some of the data points included in at least one of the input data IND and the three-dimensional point cloud data PCD.
- the thinning process may include:
- the configuration may include at least one of the following: a process for reducing the resolution of a depth image contained in the input data IND; and a process for applying a thinning method to the three-dimensional point cloud data contained in the input data IND so as to reduce the density of the light receiving sensors of the LiDAR device.
- the learning unit 14 trains an estimation model PM to which the point cloud data IND is input and which outputs complemented point cloud data and a segmentation label related to the complemented point cloud data.
- the learning unit 14 trains the estimation model PM by referring to the three-dimensional point cloud data PCD and the three-dimensional thinned point cloud data TPCD.
- the learning unit 14 Refer to teacher data TD including the three-dimensional point cloud data PCD1 and three-dimensional thinned point cloud data TPCD1 obtained by thinning the three-dimensional point cloud data PCD1,
- the three-dimensional thinned point cloud data TPCD1 included in the teacher data TD is input to the estimation model PM, thereby causing the estimation model PM to generate three-dimensional point cloud data PCD2 (which may also be referred to as complemented three-dimensional point cloud data IPCD1); -
- the estimation model PM is subjected to machine learning so that the difference between the three-dimensional point cloud data PCD2 generated by the estimation model PM and the three-dimensional point cloud data PCD1 included in the training data TD is reduced.
- the three-dimensional point cloud data PCD1 included in the teacher data TD may include a correct answer label GTL1 for segmentation, or the three-dimensional point cloud data PCD1 included in the teacher data TD may be configured to accompany (associate) the correct answer label GTL1 for segmentation.
- the learning unit 14 may be configured to train the estimation model PM so that the difference between the segmentation label PL1 output (estimated) by the estimation model PM and the correct answer label GTL1 for segmentation is small.
- the correct answer label GTL1 may be, as an example, included in the input data IND or may be configured to accompany (associate) with the input data IND, and the acquisition unit 11 may be configured to acquire the correct answer label GTL1.
- the learning unit 14 may also be configured to learn the estimation model PM by further referring to a first feature value F1 associated with at least one of the input data IND, the three-dimensional point cloud data PCD, and the three-dimensional thinned point cloud data TPCD.
- the first feature amount F1 may be At least one of the RGB values and normal values (normal vectors) of each data point included in (or associated with) the input data IND or the three-dimensional point cloud data PCD can be used. A specific method of training the estimation model PM with reference to the first feature amount F1 will be described later.
- the estimation model PM is, for example, A first estimation model PM1 that receives point cloud data and outputs complemented point cloud data; and a second estimation model PM2 that receives at least the interpolated point cloud data and outputs a segmentation label related to the interpolated point cloud data.
- a more specific configuration example of the estimation model PM will be described later with reference to the drawings.
- the learning unit 14 configured as described above can effectively train the estimation model PM, which receives point cloud data as input and outputs complemented point cloud data and segmentation labels related to the complemented point cloud data.
- the estimation model PM is learned by referring to the three-dimensional thinned point cloud data TPCD generated by applying a thinning process to at least one of the input data IND and the three-dimensional point cloud data PCD, so that it is possible to generate a highly accurate estimation model while suppressing increases in cost. Therefore, with the above configuration, it is possible to provide a highly accurate segmentation technique while suppressing increases in cost.
- Estimatiation unit 23 The estimation unit 23, similarly to the exemplary embodiment 2, estimates the complemented point cloud data corresponding to the three-dimensional point cloud data PCD generated by the point cloud data generation unit 12 (22) and the segmentation label related to the complemented point cloud data by using a machine-learned estimation model.
- the machine-learned estimation model can use the estimation model PM trained by the learning unit 14 described above.
- the machine-learned estimation model is an estimation model that inputs point cloud data and outputs complemented point cloud data and a segmentation label related to the complemented point cloud data, and is the estimation model PM trained by machine learning with reference to the three-dimensional point cloud data and the three-dimensional thinned point cloud data obtained by applying a thinning process to the three-dimensional point cloud data.
- the estimation unit 23 may also be configured to further refer to a second feature F2 associated with at least one of the input data IND and the three-dimensional point cloud data PCD generated by the point cloud data generation unit 12 (22) to estimate the complemented point cloud data corresponding to the three-dimensional point cloud data PCD generated by the point cloud data generation unit 12 (22) and the segmentation label related to the complemented point cloud data.
- a second feature F2 associated with at least one of the input data IND and the three-dimensional point cloud data PCD generated by the point cloud data generation unit 12 (22) to estimate the complemented point cloud data corresponding to the three-dimensional point cloud data PCD generated by the point cloud data generation unit 12 (22) and the segmentation label related to the complemented point cloud data.
- the second feature amount F2 may be At least one of the RGB values and normal values (normal vectors) of each data point included in (or associated with) the input data IND or the three-dimensional point cloud data PCD can be used.
- the type of the second feature F2 e.g., RGB value or normal value
- data including the "complemented point cloud data” and “segmentation labels related to the complemented point cloud data” estimated (generated) by the estimation unit 23 is stored in the storage unit 20A as the segmentation data SD shown in FIG. 5, for example, and is provided to the outside of the information processing device 100A via the communication unit 30 and the input/output unit 40, etc.
- the segmentation data SD may also be expressed as a segmentation image, a segmentation result, etc.
- the estimation unit 23 also functions as a presentation means that presents a segmentation image including objects having a display color and a display texture corresponding to the segmentation label estimated by the estimation unit 23 to the user via a display provided in the input/output unit 40.
- the estimation unit 23 configured as described above performs estimation processing using the estimation model PM that has been trained with reference to the three-dimensional thinned point cloud data TPCD that has been generated by applying a thinning process to at least one of the input data IND and the three-dimensional point cloud data PCD, making it possible to perform highly accurate estimation while suppressing increases in cost. Therefore, with the above configuration, it is possible to provide a highly accurate segmentation technique while suppressing increases in cost.
- the feature quantity selection unit 15 includes a first feature quantity selection unit 151 and a second feature quantity selection unit 152.
- the first feature quantity selection unit 151 selects a first feature quantity F1 to be referred to when the learning unit 14 learns the estimation model PM.
- the second feature quantity selection unit 152 selects a second feature quantity F2 to be referred to when the estimation unit 23 performs estimation processing using the estimation model PM.
- FIG. 6 is a diagram for explaining an example of the flow of data in the learning phase of the information processing device 1A.
- the acquisition unit 11 acquires input data IND.
- the input data IND is, as an example, input data for learning, and each data point included in the input data is assigned, as an example, a correct answer label GTL1 for segmentation.
- the point cloud data generation unit 12 generates three-dimensional point cloud data PCD by referring to the input data IND.
- the generated three-dimensional point cloud data PCD is supplied to the thinned point cloud data generation unit 13 and the first estimation model learning unit 141 provided in the learning unit 14.
- the thinned point cloud data generation unit 13 generates three-dimensional thinned point cloud data TPCD from the three-dimensional point cloud data PCD, and supplies the generated three-dimensional thinned point cloud data TPCD to the first estimation model learning unit 141.
- the first estimation model learning unit 141 is configured to learn the first estimation model PM1 included in the estimation model PM.
- the first estimation model learning unit 141 also calculates a first loss value (first loss function) (also denoted as BCE_Loss) indicating the difference between the above-mentioned complemented three-dimensional point cloud data IPCD1 and the three-dimensional point cloud data PCD generated by the point cloud data generation unit 12.
- first loss function also denoted as BCE_Loss
- the first estimation model learning unit 141 supplies the coordinates of each data point included in the complemented three-dimensional point cloud data IPCD1 to the first feature quantity selection unit 151. Then, the first feature quantity selection unit 151 Compare the coordinates associated with the first feature amount F1 stored in the storage unit 20A with the coordinates of each data point included in the interpolated three-dimensional point cloud data IPCD1; Identifying the first feature values F1 corresponding to each data point included in the interpolated three-dimensional point cloud data IPCD1 from among the first feature values F1 stored in the storage unit 20A; The identified first feature amount F1 is supplied to the second estimation model learning unit 142.
- the first feature F1 supplied from the first feature selection unit 151 is input to the second estimation model PM2, and an estimated label PL1 relating to the segmentation output by the second estimation model PM2 is obtained.
- the second estimation model learning unit 142 also calculates a second loss value (second loss function) (also indicated as CE_Loss) indicating the difference between the estimated label PL1 and, as an example, the correct label GTL1 for the segmentation acquired by the acquisition unit 11.
- second loss function also indicated as CE_Loss
- the learning unit 14 trains a first estimation model PM that receives point cloud data as input and outputs complemented point cloud data, and a second estimation model PM2 that receives at least the complemented point cloud data as input and outputs segmentation labels related to the complemented point cloud data.
- FIG. 7 is a diagram for explaining an example of the flow of data regarding the network in the learning phase.
- at least one of the acquisition unit 11 and the point cloud data generation unit 12 acquires teacher data TD including three-dimensional point cloud data PCD1 and ground truth labels GTL1 (also indicated as true value labels GTL1 in FIG. 7) assigned to each data point of the three-dimensional point cloud data PCD1.
- teacher data TD including three-dimensional point cloud data PCD1 and ground truth labels GTL1 (also indicated as true value labels GTL1 in FIG. 7) assigned to each data point of the three-dimensional point cloud data PCD1.
- the three-dimensional point cloud data BPCD1 from which attribute data such as RGB values and normal values have been removed is input to the thinned point cloud data generator 13, and the thinned point cloud data generator 13 generates three-dimensional thinned point cloud data BTPCD1.
- the three-dimensional thinned point cloud data BTPCD1 is then input to the first estimation model PM1 (also referred to as the complementation network in FIG. 7).
- the first estimation model PM1 outputs the complemented three-dimensional point cloud data IPCD1.
- the complemented three-dimensional point cloud data IPCD1 is input to the second estimation model PM2 (also referred to as semantic segmentation network in FIG. 7) together with the first feature F1 (referred to as first feature data F1 in FIG. 7).
- the first feature F1 is the first feature F1 selected by the first feature selection unit 151 described above.
- the first feature F1 is input to the second estimation model PM2 in the form of a mask feature, for example.
- the mask feature refers to a data group in which the data points at which the first feature F1 selected by the first feature selection unit 151 exists have the value of the feature, and the other data points are assigned a null feature (a predetermined value such as 0, 255, -1, etc.).
- the difference between the complemented three-dimensional point cloud data IPCD1 and the above-mentioned three-dimensional point cloud data BPCD1 is calculated as a first loss value (BCE_Loss).
- the second estimation model PM2 outputs an estimated label PL1 for the segmentation of each data point of the complemented 3D point cloud data IPCD1.
- the difference between the estimated label PL1 and the ground truth label GTL1 is calculated as a second loss value (CE_Loss).
- the learning unit 14 updates the parameters of the first estimation model PM1 and the second estimation model PM2 so that the total loss value represented by the first loss value and the second loss value becomes smaller.
- FIG. 8 is a diagram for explaining an example of the flow of data in the estimation phase of the information processing device 1A.
- the acquisition unit 21 acquires input data IND.
- the input data IND is, as an example, input data for estimation, and unlike the input data for learning described above, each data point included in the input data is not assigned a correct answer label GTL1 for segmentation.
- the point cloud data generation unit 22 generates three-dimensional point cloud data PCD by referring to the input data IND.
- the generated three-dimensional point cloud data PCD is supplied to a first estimation model PM1 provided in the estimation unit 23.
- the point cloud data generator 22 also associates at least one of the RGB values and normal values (normal vectors) of each data point included in (or associated with) the input data IND or the three-dimensional point cloud data PCD with the coordinates of the data point, and stores them in the memory unit 20A as a second feature F2.
- the estimation unit 23 inputs the three-dimensional point cloud data PCD generated by the point cloud data generation unit 22 into the first estimation model PM1.
- the first estimation model PM1 is, as an example, the first estimation model PM1 that has been machine-learned by the first estimation model learning unit 141 described above in the learning phase.
- the first estimation model PM1 to which the above-mentioned three-dimensional point cloud data PCD is input outputs the complemented three-dimensional point cloud data IPCD2.
- the estimation unit 23 also supplies the coordinates of each data point included in the complemented three-dimensional point cloud data IPCD2 to the second feature quantity selection unit 152.
- the second feature quantity selection unit 152 then: Compare the coordinates associated with the second feature amount F2 stored in the storage unit 20A with the coordinates of each data point included in the interpolated three-dimensional point cloud data IPCD2, Identifying the second feature amounts F2 corresponding to each data point included in the interpolated three-dimensional point cloud data IPCD2 from among the second feature amounts F2 stored in the storage unit 20A; The identified second feature F2 is supplied to a second estimation model PM2.
- the estimation unit 23 Interpolated three-dimensional point cloud data IPCD2 calculated using the first estimation model PM1; and - The second feature F2 supplied from the second feature selection unit 152 is input into the second estimation model PM2, and an estimated label PL2 regarding the segmentation output by the second estimation model PM2 (in other words, a segmentation label regarding the complemented 3D point cloud data IPCD2) is obtained.
- data including the "complemented three-dimensional point cloud data IPCD2" and “segmentation labels related to the complemented three-dimensional point cloud data IPCD2" estimated (generated) by the estimation unit 23 is stored in the storage unit 20A as the segmentation data SD shown in FIG. 5, for example, and is provided to the outside of the information processing device 100A via the communication unit 30 and the input/output unit 40, etc.
- FIG. 9 is a diagram for explaining an example of the flow of data related to the network in the estimation phase.
- three-dimensional point cloud data PCD2 is acquired by at least one of the acquisition unit 21 and the point cloud data generation unit 22.
- the three-dimensional point cloud data BPCD2 from which attribute data such as RGB values and normal values have been removed is input to the first estimation model PM1 (also referred to as the complementation network in FIG. 9).
- the first estimation model PM1 outputs the complemented three-dimensional point cloud data IPCD2.
- the complemented three-dimensional point cloud data IPCD2 is input to the second estimation model PM2 (also referred to as the semantic segmentation network in FIG. 7) together with the second feature F2 (referred to as the second feature data F2 in FIG. 9).
- the second feature F2 is the second feature F2 selected by the second feature selection unit 152 described above.
- the second feature F2 is input to the second estimation model PM2 in the form of a mask feature, for example.
- the mask feature refers to a data group in which the data points at which the second feature F2 selected by the second feature selection unit 152 exists have the value of the feature, and the other data points are assigned a null feature (a predetermined value such as 0, 255, -1, etc.).
- the second estimation model PM2 outputs estimated labels PL2 for the segmentation of each data point of the interpolated 3D point cloud data IPCD2.
- the estimation phase - Obtain input data, Generate three-dimensional point cloud data from the input data;
- An estimation model that takes point cloud data as input and outputs complemented point cloud data and segmentation labels related to the complemented point cloud data, and is configured to estimate complemented point cloud data corresponding to the three-dimensional point cloud data generated in the point cloud data generation process and segmentation labels related to the complemented point cloud data using an estimation model that has been machine-learned by referring to three-dimensional point cloud data and three-dimensional thinned point cloud data obtained by applying a thinning process to the three-dimensional point cloud data.
- the estimation model in the learning phase, is trained by referring to three-dimensional thinned point cloud data generated by applying a thinning process to three-dimensional point cloud data. Then, in the estimation phase, the machine-learned estimation model is used to estimate complemented point cloud data corresponding to the three-dimensional point cloud data generated in the point cloud data generation process and segmentation labels related to the complemented point cloud data. Therefore, with the above configuration, it is possible to perform estimation processing using a highly accurate estimation model while suppressing increases in costs.
- the estimation model PM is trained by further referring to a first feature associated with at least one of the input data, the three-dimensional point cloud data, and the three-dimensional thinned point cloud data, and in the estimation phase, estimation processing is performed using the estimation model PM by further referring to a second feature associated with at least one of the input data and the three-dimensional point cloud data. Therefore, with the above configuration, it is possible to perform estimation processing using a more accurate estimation model while suppressing increases in costs.
- the estimation model PM is - a first network;
- a configuration may be adopted in which the first network is branched off from a second network, the above-mentioned loss value CE_Loss (or BCE_Loss) is calculated by referring to the output of the first network, the above-mentioned loss value BCE_Loss (or CE_Loss) is calculated by referring to the output of the second network, and the parameters of the first network and the second network are updated by referring to a total loss value including these loss values.
- Fig. 10 is a block diagram showing the configuration of the information processing device 1B. As shown in Fig. 10, the information processing device 1B includes a projection unit 16 in addition to the units included in the information processing device 1A according to the second exemplary embodiment.
- the storage unit 20B of the information processing device 1B stores projected point cloud data PPCD (also referred to as post-projection point cloud data PPCD) in addition to the data stored in the storage unit 20A of the information processing device 1A according to the second exemplary embodiment.
- PPCD projected point cloud data
- the following explanation will focus on the differences from the information processing device 1A.
- the projection unit 16 generates projected point cloud data PPCD by projecting the complemented point cloud data generated by the estimation model PM onto a two-dimensional plane.
- the two-dimensional plane is, for example, a two-dimensional plane corresponding to a projection onto a camera position (viewpoint) that was not used when the thinned point cloud data generation unit 13 generated the three-dimensional thinned point cloud data TPCD in the learning phase.
- the projection unit 16 may be expressed as generating the projected point cloud data PPCD by projecting the complemented point cloud data generated by the estimation model PM from a camera position (viewpoint) that was not used when the thinned point cloud data generation unit 13 generated the three-dimensional thinned point cloud data TPCD in the learning phase.
- the projection unit 16 projects the complemented point cloud data generated by the estimation model PM as follows: A position (viewpoint) different from the position (viewpoint) of an imaging device (including LiDAR) when the imaging device acquires at least one of the RGB values, depth values, and 3D point cloud data included in the input data IND.
- the projection unit 16 may be configured to project the interpolated point cloud data generated by the estimation model PM onto the It may also be expressed as a configuration in which the projected point cloud data PPCD is generated by projecting to a viewpoint different from the viewpoint for at least any of the RGB values, depth values, and three-dimensional point cloud data contained in the input data IND that the point cloud data generation unit 12 (22) refers to when generating the three-dimensional point cloud data PCD.
- the learning unit 14 learns the estimation model by further referring to the projected point cloud data PPCD and the segmentation ground truth label GTL corresponding to the projected point cloud data.
- the learning unit 14 calculates a third loss value (third loss function) CE_2D_Loss indicating the difference between the estimated label estimated by the estimation model PM for the projected point cloud data PPCD and the segmentation correct label GTL acquired by the acquisition unit 11.
- a third loss value CE_2D_Loss indicating the difference between the estimated label estimated by the estimation model PM for the projected point cloud data PPCD and the segmentation correct label GTL acquired by the acquisition unit 11.
- ⁇ and ⁇ indicate weighting coefficients that can be appropriately set.
- the third loss value CE_2D_Loss may be calculated by the projection unit 16.
- FIG. 11 is a diagram for explaining an example of the data flow in the learning phase of the information processing device 1B.
- the segmentation correct label GTL is supplied from the acquisition unit 11 to the projection unit 16,
- the first estimation model learning unit 141 supplies the complemented three-dimensional point cloud data IPCD generated by the first estimation model PM1
- the second estimation model learning unit 142 supplies the estimated labels PL, which are estimated by the second estimation model PM2 and relate to each data point of the three-dimensional point cloud data PPCD after projection by the projection unit 16.
- the projection unit 16 calculates a third loss value CE_2D_Loss indicating the difference between the segmentation ground truth label GTL and the estimated label PL, and supplies it to the learning unit 14.
- the learning unit 14 calculates a total loss value (Loss_total) using the linear sum of the first loss value BCE_Loss, the second loss value CE_Loss, and the third loss value CE_2D_Loss, as described above.
- the learning unit 14 updates the parameters of the first estimation model PM1 and the second estimation model PM2 so that the value of the total loss value (Loss_total) becomes smaller.
- the interpolated point cloud data IPCD generated by the estimation model PM is projected onto a two-dimensional plane to generate projected point cloud data PPCD;
- the learning unit 14 is configured to learn the estimation model PM by further referring to the projected point cloud data PPCD and the segmentation ground truth label GTL corresponding to the projected point cloud data PPCD.
- a more suitable loss function can be configured by referring to the projected point cloud data PPCD, so that an estimation model PM with higher estimation accuracy can be generated in the learning phase.
- highly accurate estimation can be performed using such an estimation model PM.
- a fourth exemplary embodiment which is an example of an embodiment of the present invention, will be described in detail with reference to the drawings. Components having the same functions as those described in the above exemplary embodiment will be given the same reference numerals, and their description will be omitted as appropriate.
- the scope of application of each technical means adopted in this exemplary embodiment is not limited to this exemplary embodiment. That is, each technical means adopted in this exemplary embodiment can be adopted in other exemplary embodiments included in this disclosure to the extent that no particular technical hindrance occurs. In addition, each technical means shown in each drawing referred to for explaining this exemplary embodiment can be adopted in other exemplary embodiments included in this disclosure to the extent that no particular technical hindrance occurs.
- Fig. 12 is a block diagram showing the configuration of the information processing device 1C.
- a control unit 10C included in the information processing device 1C has the same configuration as the control unit 10A included in the information processing device 1A.
- a storage unit 20C included in the information processing device 1C stores thinning information TI in addition to the data stored in the storage unit 20A included in the information processing device 1A according to the second exemplary embodiment.
- the thinning information TI here is information that indicates what type of thinning process was performed when the thinned point cloud data generation unit 13 executed the thinning process. The following explanation will focus on the points that are different from the information processing device 1A.
- the thinning information TI is information indicating what type of thinning processing has been performed when the thinned point cloud data generating unit 13 executes the thinning processing.
- Fig. 13 is a diagram for explaining an example of the thinning information TI.
- the upper part of FIG. 13 shows a schematic representation of multiple frames included in the input data IND acquired by the acquisition unit 11 during the learning phase.
- the frame numbers increase as you move to the right, for example.
- the lower left side of Fig. 13 shows thinning pattern 1 in the thinning process by the thinned point cloud data generation unit 13.
- the shaded frames are frames that are referenced by the thinned point cloud data generation unit 13 when generating the three-dimensional thinned point cloud data TPCD
- the non-shaded frames are frames that are not referenced when generating the three-dimensional thinned point cloud data TPCD.
- the non-shaded frames are frames that are thinned out when generating the three-dimensional thinned point cloud data TPCD.
- thinning pattern 1 in certain 10 consecutive frames, - Refer to two consecutive frames, - The next two consecutive frames are thinned out. - The next two consecutive frames are referenced. The next two consecutive frames are thinned out, and the next two consecutive frames are referenced.
- Fig. 13 shows thinning pattern 2 in the thinning process by the thinned point cloud data generating unit 13.
- thinning pattern 2 in certain consecutive 10 frames, - Refer to three consecutive frames, - The next two consecutive frames are thinned out. - The next two consecutive frames are referenced. The next two consecutive frames are then thinned out, and the next frame is referenced.
- the thinned point cloud data generation unit 13 stores, as an example, a frame index indicating the thinned frame, as thinning information TI in the storage unit 20C. By referencing such thinning information TI, the thinned point cloud data generation unit 13 generates multiple mutually different three-dimensional thinned point cloud data TPCD using multiple thinning patterns for the same input data IND or the same three-dimensional point cloud data PCD.
- the information processing device 1C stores the thinned frame index when generating the three-dimensional thinned point cloud data TPCD in the thinned point cloud data generating unit 13, thereby creating multiple three-dimensional thinned point cloud data TPCD with different thinning methods from a single data input, thereby strengthening the data used for learning in the learning phase.
- a fifth exemplary embodiment which is an example of an embodiment of the present invention, will be described in detail with reference to the drawings. Components having the same functions as those described in the above exemplary embodiment will be given the same reference numerals, and their description will be omitted as appropriate.
- the scope of application of each technical means adopted in this exemplary embodiment is not limited to this exemplary embodiment. That is, each technical means adopted in this exemplary embodiment can be adopted in other exemplary embodiments included in this disclosure, as long as no particular technical hindrance occurs. In addition, each technical means shown in each drawing referred to for explaining this exemplary embodiment can be adopted in other exemplary embodiments included in this disclosure, as long as no particular technical hindrance occurs.
- Fig. 14 is a block diagram showing the configuration of the information processing device 1D.
- the information processing device 1D has the following configurations (or data) among the units included in the information processing devices 1A, 1B, and 1C according to exemplary embodiments 2 to 4, and other configurations are not essential.
- - In the control unit 10D, an acquisition unit 21, a point cloud data generation unit 22, an estimation unit 23, a second feature selection unit 152, and -
- input data IND input data IND, three-dimensional point cloud data PCD, a second feature F2, an estimation model PM, and segmentation data SG.
- the information processing device 1D has a configuration for performing processing of the estimation phase using the estimation model PM, but does not have a configuration for learning the estimation model PM.
- the estimation model PM used by the information processing device 1D for the estimation processing may be the estimation model PM learned by the information processing devices 1A, 1B, and 1C according to exemplary embodiments 2 to 4.
- the information processing device 1D configured as described above uses the estimation model PM, which has been machine-learned with reference to three-dimensional thinned point cloud data generated by applying a thinning process to three-dimensional point cloud data, to estimate complemented point cloud data corresponding to the three-dimensional point cloud data generated in the point cloud data generation process and segmentation labels related to the complemented point cloud data.
- This makes it possible to perform estimation processing using a highly accurate estimation model while suppressing increases in costs. Therefore, with the above configuration, it is possible to provide a highly accurate segmentation technology while suppressing increases in costs.
- the information processing devices 1, 1A, 1B, 1C, and 1D (hereinafter simply referred to as information processing device 1, etc.) according to the exemplary embodiments described above can also be applied to the medical and healthcare fields, for example.
- the technology of the present application can be used for medical applications by performing segmentation based on medical images of patients.
- processing may be performed according to the processing flow shown below.
- Step S101 Scan step
- a medical professional such as a doctor or medical staff uses an imaging device (endoscope, fMRI, etc.) to capture images of a patient's organs (stomach, intestines, etc.) and generate a medical image. Then, the medical image is input to an information processing device 1, etc. as input data IND.
- an imaging device endoscope, fMRI, etc.
- Step S102 3D modeling step
- the point cloud data generating unit 12 (22) included in the information processing device 1 or the like refers to the input data IND and generates three-dimensional point cloud data PCD corresponding to the input data IND.
- the three-dimensional point cloud data PCD generated by the point cloud data generating unit 12 (22) may be configured to be presented to medical professionals, medical staff, patients, etc. via a display or the like included in the input/output unit 40, as an example. Note that this step can be applied to both the learning phase and the estimation phase.
- Step S103A decision making step
- the estimation unit 23 included in the information processing device 1 or the like performs semantic segmentation on the medical image using the machine-learned estimation model PM, and outputs the segmentation result.
- the semantic segmentation performs segmentation (area classification) into, for example, lesion areas (inflammation, ulcer, polyp), normal areas, sites, and the like. This allows medical personnel to, for example, make a treatment plan. Therefore, the present device can support medical personnel in making diagnostic decisions.
- the acquisition unit 11 (21) of the information processing device 1 or the like acquires medical images as the input data
- the estimation unit 23 functions as a presentation means for presenting the segmentation results to assist medical professionals in making decisions.
- each of the above devices is realized, for example, by a computer that executes instructions of a program, which is software that realizes each function.
- a computer that executes instructions of a program, which is software that realizes each function.
- An example of such a computer (hereinafter referred to as computer C) is shown in FIG. 15.
- FIG. 15 is a block diagram showing the hardware configuration of computer C that functions as each of the above devices.
- Computer C has at least one processor C1 and at least one memory C2.
- Memory C2 stores a program P for operating computer C as each of the above devices.
- processor C1 reads and executes program P from memory C2, thereby realizing each function of each of the above devices.
- the processor C1 may be, for example, a CPU (Central Processing Unit), GPU (Graphic Processing Unit), DSP (Digital Signal Processor), MPU (Micro Processing Unit), FPU (Floating point number Processing Unit), PPU (Physics Processing Unit), TPU (Tensor Processing Unit), quantum processor, microcontroller, or a combination of these.
- the memory C2 may be, for example, a flash memory, HDD (Hard Disk Drive), SSD (Solid State Drive), or a combination of these.
- the program P can also be recorded on a non-transitory, tangible recording medium M that can be read by the computer C.
- a recording medium M can be, for example, a tape, a disk, a card, a semiconductor memory, or a programmable logic circuit.
- the computer C can obtain the program P via such a recording medium M.
- the program P can also be transmitted via a transmission medium.
- a transmission medium can be, for example, a communications network or broadcast waves.
- the computer C can also obtain the program P via such a transmission medium.
- the thinning process by the thinned point cloud data generating means includes the following steps: The information processing device according to claim A1, further comprising a process of generating the three-dimensional thinned point cloud data using only a portion of a plurality of frames included in the input data.
- the estimation model is a first estimation model that receives point cloud data and outputs interpolated point cloud data; and a second estimation model that receives at least the complemented point cloud data and outputs a segmentation label related to the complemented point cloud data.
- Appendix A6 a projection unit for projecting the interpolated point cloud data generated by the estimation model onto a two-dimensional surface to generate projected point cloud data;
- the information processing device according to any one of Appendices A1 to A5, wherein the learning means further refers to the projected point cloud data and a segmentation answer label corresponding to the projected point cloud data to learn the estimation model.
- Appendix A7 The information processing device according to any one of appendices A1 to A6, wherein the thinned point cloud data generation means generates a plurality of mutually different three-dimensional thinned point cloud data for the same input data or the same three-dimensional point cloud data.
- An information processing device comprising: an estimation means for estimating, using an estimation model trained by machine learning with reference to three-dimensional point cloud data and three-dimensional thinned point cloud data obtained by applying a thinning process to the three-dimensional point cloud data, the complemented point cloud data corresponding to the three-dimensional point cloud data generated by the point cloud data generation means and the segmentation label related to the complemented point cloud data, the estimation model having point cloud data as input and complemented point cloud data and segmentation labels related to the complemented point cloud data as output.
- the acquisition means acquires a medical image as the input data
- the information processing device according to claim 9, wherein the presentation means presents the segmentation result to assist a medical professional in making a decision.
- Appendix A11 The information processing device according to any one of Appendices A8 to A10, wherein the estimation means further refers to features accompanying the three-dimensional point cloud data generated by the point cloud data generation means, and estimates complemented point cloud data corresponding to the three-dimensional point cloud data generated by the point cloud data generation means and a segmentation label related to the complemented point cloud data.
- the estimation model is A first estimation model that receives point cloud data as input and outputs interpolated point cloud data; and a second estimation model that receives at least the complemented point cloud data and outputs a segmentation label related to the complemented point cloud data.
- Appendix B1 An acquisition step of acquiring input data; a point cloud data generation step of generating three-dimensional point cloud data from the input data; a thinned point cloud data generating step of generating three-dimensional thinned point cloud data by applying a thinning process to at least one of the input data and the three-dimensional point cloud data; an information processing method including a learning process for learning an estimation model that receives point cloud data as input and outputs complemented point cloud data and segmentation labels related to the complemented point cloud data, by referring to the three-dimensional point cloud data and the three-dimensional thinned point cloud data.
- the thinning process in the thinned point cloud data generation step includes the following steps: The information processing method according to claim B1, further comprising a process of generating the three-dimensional thinned point cloud data using only a portion of a plurality of frames included in the input data.
- the thinning process in the thinned point cloud data generation step includes the following steps:
- the information processing method described in Appendix B1 or B2 includes a process of generating the three-dimensional thinned point cloud data using only a portion of the multiple data points included in at least one of the input data and the three-dimensional point cloud data.
- the estimation model is a first estimation model that receives point cloud data and outputs interpolated point cloud data;
- the information processing method according to claim 1 or 2 further comprising: a second estimation model that receives at least the complemented point cloud data and outputs a segmentation label related to the complemented point cloud data.
- the method further includes a projection step of generating projected point cloud data by projecting the interpolated point cloud data generated by the estimation model onto a two-dimensional surface,
- the information processing method according to any one of Appendices B1 to B5, wherein the learning step further refers to the projected point cloud data and a segmentation answer label corresponding to the projected point cloud data to learn the estimation model.
- Appendix B7 The information processing method according to any one of appendices B1 to B6, wherein the thinned point cloud data generation step generates a plurality of mutually different three-dimensional thinned point cloud data for the same input data or the same three-dimensional point cloud data.
- An information processing method comprising: an estimation step of estimating the complemented point cloud data corresponding to the three-dimensional point cloud data generated in the point cloud data generation step and the segmentation label related to the complemented point cloud data, using an estimation model that has been machine-learned by referring to three-dimensional point cloud data and three-dimensional thinned point cloud data obtained by applying a thinning process to the three-dimensional point cloud data, and the segmentation label related to the complemented point cloud data, the estimation model having point cloud data as input and complemented point cloud data and segmentation labels related to the complemented point cloud data as output.
- the acquiring step acquires a medical image as the input data;
- Appendix B11 The information processing method according to any one of Appendices B8 to B10, wherein the estimation step further refers to features associated with the three-dimensional point cloud data generated by the point cloud data generation step, and estimates complemented point cloud data corresponding to the three-dimensional point cloud data generated by the point cloud data generation step and a segmentation label related to the complemented point cloud data.
- the estimation model is A first estimation model that receives point cloud data as input and outputs interpolated point cloud data; and a second estimation model that receives at least the complemented point cloud data and outputs a segmentation label related to the complemented point cloud data.
- (Appendix C1) A program for causing a computer to function as an information processing device, The computer, An acquisition means for acquiring input data; a point cloud data generating means for generating three-dimensional point cloud data from the input data; a thinned point cloud data generating means for generating three-dimensional thinned point cloud data by applying a thinning process to at least one of the input data and the three-dimensional point cloud data; An information processing program that functions as a learning means that receives point cloud data as input, and learns an estimation model that outputs complemented point cloud data and segmentation labels related to the complemented point cloud data, by referring to the three-dimensional point cloud data and the three-dimensional thinned point cloud data.
- the thinning process by the thinned point cloud data generating means includes the following steps: The information processing program according to claim C1, further comprising a process of generating the three-dimensional thinned point cloud data using only a portion of a plurality of frames included in the input data.
- the thinning process by the thinned point cloud data generating means includes the following steps:
- the information processing program described in Appendix C1 or C2 includes a process of generating the three-dimensional thinned point cloud data using only a portion of the multiple data points included in at least one of the input data and the three-dimensional point cloud data.
- the estimation model is a first estimation model that receives point cloud data and outputs interpolated point cloud data; and a second estimation model that receives at least the complemented point cloud data and outputs a segmentation label related to the complemented point cloud data.
- the projection unit further functions as a projection unit that generates projected point cloud data by projecting the interpolated point cloud data generated by the estimation model onto a two-dimensional surface;
- the information processing program according to any one of appendices C1 to C5, wherein the learning means further refers to the projected point cloud data and a segmentation answer label corresponding to the projected point cloud data to train the estimation model.
- Appendix C11 The information processing program according to any one of Appendices C8 to C10, wherein the estimation means further refers to features associated with the three-dimensional point cloud data generated by the point cloud data generation means, and estimates complemented point cloud data corresponding to the three-dimensional point cloud data generated by the point cloud data generation means and a segmentation label related to the complemented point cloud data.
- At least one processor comprising: An acquisition process for acquiring input data; A point cloud data generation process for generating three-dimensional point cloud data from the input data; a thinned point cloud data generation process for generating three-dimensional thinned point cloud data by applying a thinning process to at least one of the input data and the three-dimensional point cloud data; An information processing device that executes a learning process in which point cloud data is input, and an estimation model that outputs complemented point cloud data and segmentation labels related to the complemented point cloud data is trained by referring to the three-dimensional point cloud data and the three-dimensional thinned point cloud data.
- the thinning process by the thinned point cloud data generation process includes the following steps:
- the information processing device described in Appendix D1 or D2 includes a process of generating the three-dimensional thinned point cloud data using only a portion of the multiple data points included in at least one of the input data and the three-dimensional point cloud data.
- the at least one processor An acquisition process for acquiring input data; A point cloud data generation process for generating three-dimensional point cloud data from the input data; An information processing device that executes an estimation process to estimate complemented point cloud data corresponding to the three-dimensional point cloud data generated by the point cloud data generation process and a segmentation label related to the complemented point cloud data, using an estimation model that has been machine-learned by referring to three-dimensional point cloud data and three-dimensional thinned point cloud data obtained by applying a thinning process to the three-dimensional point cloud data, and a segmentation label related to the complemented point cloud data.
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、情報処理装置、情報処理方法、及びプログラムに関する。 The present invention relates to an information processing device, an information processing method, and a program.
点群データ等の対象データに含まれる各データ点に対して、当該データ点が複数の領域候補のうち何れの領域に属するものであるかを示すラベルを付すことにより、当該対象データのセグメンテーションを行う技術が知られている(非特許文献1等)。
A technique is known for segmenting target data, such as point cloud data, by attaching a label to each data point in the target data indicating which of multiple candidate regions the data point belongs to (Non-Patent
非特許文献1に記載の技術は、合成データを欠損させたデータを用いて,欠損又は遮蔽領域の補完とセマンティックセグメンテーションとを共に学習することにより、識別精度の向上を図るというものである。
The technology described in Non-Patent
しかしながら、非特許文献1に記載の技術では、予め合成データを準備しておく必要があるため、学習データの作成や事前処理に要する時間や労力(すなわち、学習のためのコスト)が上昇するという問題があった。
However, the technology described in Non-Patent
本開示は、上記の問題に鑑みてなされたものであり、その目的は、コストの上昇を抑制しつつ、精度の高いセグメンテーション技術を提供することにある。 This disclosure has been made in consideration of the above problems, and its purpose is to provide a highly accurate segmentation technique while suppressing increases in costs.
本開示の一側面に係る情報処理装置は、入力データを取得する取得手段と、前記入力データから3次元点群データを生成する点群データ生成手段と、前記入力データ及び前記3次元点群データの少なくとも何れかに対して間引き処理を適用することによって3次元間引き点群データを生成する間引き点群データ生成手段と、点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルを、前記3次元点群データと、前記3次元間引き点群データとを参照して学習させる学習手段とを備えている。 An information processing device according to one aspect of the present disclosure includes an acquisition means for acquiring input data, a point cloud data generation means for generating three-dimensional point cloud data from the input data, a thinned point cloud data generation means for generating three-dimensional thinned point cloud data by applying a thinning process to at least one of the input data and the three-dimensional point cloud data, and a learning means for training an estimation model that receives point cloud data as input and outputs complemented point cloud data and segmentation labels related to the complemented point cloud data by referring to the three-dimensional point cloud data and the three-dimensional thinned point cloud data.
本開示の一側面に係る情報処理装置は、入力データを取得する取得手段と、前記入力データから3次元点群データを生成する点群データ生成手段と、点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルであって、3次元点群データと、当該3次元点群データに対して間引き処理を適用することによって得られた3次元間引き点群データとを参照して機械学習された推定モデルを用いて、前記点群データ生成手段が生成した3次元点群データに対応する補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを推定する推定手段とを備えている。 An information processing device according to one aspect of the present disclosure includes an acquisition means for acquiring input data, a point cloud data generation means for generating three-dimensional point cloud data from the input data, and an estimation means for estimating the complemented point cloud data corresponding to the three-dimensional point cloud data generated by the point cloud data generation means and the segmentation label for the complemented point cloud data using an estimation model that receives point cloud data as an input and outputs complemented point cloud data and a segmentation label for the complemented point cloud data, the estimation model being machine-learned by referring to the three-dimensional point cloud data and three-dimensional thinned point cloud data obtained by applying a thinning process to the three-dimensional point cloud data.
本開示の一側面に係る情報処理方法は、入力データを取得することと、前記入力データから3次元点群データを生成することと、前記入力データ及び前記3次元点群データの少なくとも何れかに対して間引き処理を適用することによって3次元間引き点群データを生成することと、点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルを、前記3次元点群データと、前記3次元間引き点群データとを参照して学習させることとを含んでいる。 An information processing method according to one aspect of the present disclosure includes acquiring input data, generating three-dimensional point cloud data from the input data, generating three-dimensional thinned point cloud data by applying a thinning process to at least one of the input data and the three-dimensional point cloud data, and training an estimation model that receives point cloud data as input and outputs complemented point cloud data and segmentation labels related to the complemented point cloud data, by referring to the three-dimensional point cloud data and the three-dimensional thinned point cloud data.
本開示の一側面に係る情報処理方法は、入力データを取得することと、前記入力データから3次元点群データを生成することと、点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルであって、3次元点群データと、当該3次元点群データに対して間引き処理を適用することによって得られた3次元間引き点群データとを参照して機械学習された推定モデルを用いて、前記生成する工程にて生成された3次元点群データに対応する補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを推定することとを含んでいる。 An information processing method according to one aspect of the present disclosure includes acquiring input data, generating three-dimensional point cloud data from the input data, and estimating the complemented point cloud data corresponding to the three-dimensional point cloud data generated in the generating step and the segmentation label related to the complemented point cloud data using an estimation model that takes the point cloud data as input and outputs complemented point cloud data and a segmentation label related to the complemented point cloud data, the estimation model being machine-learned by referring to the three-dimensional point cloud data and three-dimensional thinned point cloud data obtained by applying a thinning process to the three-dimensional point cloud data.
本開示の一側面に係るプログラムは、コンピュータに、入力データを取得する取得処理と、前記入力データから3次元点群データを生成する点群データ生成処理と、前記入力データ及び前記3次元点群データの少なくとも何れかに対して間引き処理を適用することによって3次元間引き点群データを生成する間引き点群データ生成処理と、点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルを、前記3次元点群データと、前記3次元間引き点群データとを参照して学習させる学習処理とを実行させる。 A program according to one aspect of the present disclosure causes a computer to execute an acquisition process for acquiring input data, a point cloud data generation process for generating three-dimensional point cloud data from the input data, a thinned point cloud data generation process for generating three-dimensional thinned point cloud data by applying a thinning process to at least one of the input data and the three-dimensional point cloud data, and a learning process for training an estimation model that takes point cloud data as input and outputs complemented point cloud data and segmentation labels related to the complemented point cloud data, by referring to the three-dimensional point cloud data and the three-dimensional thinned point cloud data.
本開示の一側面に係るプログラムは、コンピュータに、入力データを取得する取得処理と、前記入力データから3次元点群データを生成する点群データ生成処理と、点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルであって、3次元点群データと、当該3次元点群データに対して間引き処理を適用することによって得られた3次元間引き点群データとを参照して機械学習された推定モデルを用いて、前記点群データ生成処理にて生成した3次元点群データに対応する補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを推定する推定処理とを実行させる。 A program according to one aspect of the present disclosure causes a computer to execute an acquisition process for acquiring input data, a point cloud data generation process for generating three-dimensional point cloud data from the input data, and an estimation process for estimating the complemented point cloud data corresponding to the three-dimensional point cloud data generated in the point cloud data generation process and the segmentation label for the complemented point cloud data using an estimation model that takes point cloud data as input and outputs complemented point cloud data and segmentation labels for the complemented point cloud data, the estimation model being machine-learned by referring to the three-dimensional point cloud data and three-dimensional thinned point cloud data obtained by applying a thinning process to the three-dimensional point cloud data.
本開示によれば、コストの上昇を抑制しつつ、精度の高いセグメンテーション技術を提供することができる。 This disclosure makes it possible to provide highly accurate segmentation technology while suppressing increases in costs.
以下、本発明の実施形態を例示する。ただし、本発明は、以下に例示する各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。例えば、以下に例示する各実施形態において採用される技術的手段を適宜組み合わせることにより得られる実施形態についても、本発明の範疇に含まれ得る。或いは、以下に例示する実施形態において採用される技術的手段の一部を適宜省略することにより得られる実施形態についても、本発明の範疇に含まれる。また、以下に示す各例示的実施形態において言及する効果は、その例示的実施形態において期待される効果の一例であり、本発明の外延を規定するものではない。すなわち、以下に示す各例示的実施形態において言及する効果を奏さない実施形態についても、本発明の範疇に含まれ得る。 Below are examples of embodiments of the present invention. However, the present invention is not limited to the embodiments exemplified below, and various modifications are possible within the scope of the claims. For example, embodiments obtained by appropriately combining the technical means employed in the embodiments exemplified below may also be included in the scope of the present invention. Alternatively, embodiments obtained by appropriately omitting some of the technical means employed in the embodiments exemplified below may also be included in the scope of the present invention. Furthermore, the effects mentioned in each of the exemplary embodiments shown below are examples of effects expected in the exemplary embodiments, and do not define the scope of the present invention. In other words, embodiments that do not exhibit the effects mentioned in each of the exemplary embodiments shown below may also be included in the scope of the present invention.
〔第1の実施形態〕
本発明の実施形態の一例である第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する各例示的実施形態の基本となる形態である。なお、本例示的実施形態において採用する各技術的手段の適用範囲は、本例示的実施形態に限定されない。すなわち、本例示的実施形態において採用する各技術的手段は、特段の技術的支障が生じない範囲で、本開示に含まれる他の例示的実施形態においても採用可能である。また、本例示的実施形態を説明するために参照する図面に示される各技術的手段も、特段の技術的支障が生じない範囲で、本開示に含まれる他の例示的実施形態においても採用可能である。
First Embodiment
A first exemplary embodiment, which is an example of an embodiment of the present invention, will be described in detail with reference to the drawings. This exemplary embodiment is the basic form of each exemplary embodiment described later. The scope of application of each technical means adopted in this exemplary embodiment is not limited to this exemplary embodiment. That is, each technical means adopted in this exemplary embodiment can be adopted in other exemplary embodiments included in this disclosure to the extent that no particular technical obstacle occurs. In addition, each technical means shown in the drawings referred to for explaining this exemplary embodiment can also be adopted in other exemplary embodiments included in this disclosure to the extent that no particular technical obstacle occurs.
(情報処理装置1の構成)
本例示的実施形態に係る情報処理装置1の構成について、図1を参照して説明する。図1は、情報処理装置1の構成を示すブロック図である。情報処理装置1は、図1に示すように、取得部11と、点群データ生成部12と、間引き点群データ生成部13と、学習部14とを備えている。
(Configuration of information processing device 1)
The configuration of an
(取得部11)
取得部11は、入力データを取得する。ここで、当該入力データは、一例として学習フェーズ用の入力データである。また、取得部11が取得する入力データの具体例は本例示的実施形態を限定するものではないが、一例として、
・各ピクセル(データ点)がRGB値を表現するRGBデータ
・各ピクセル(データ点)がデプス値(奥行値)を表現するデプスデータ、及び
・各データ点が3次元座標を表現する3次元点群データ
の少なくとも何れかを含むよう構成され得る。また、3次元点群データは、一例としてLiDAR(Light Detection and Ranging、又はLaser Imaging Detection and Ranging)装置によって取得された点群データであり得るが、当該例は本例示的実施形態を限定するものではない。
(Acquisition unit 11)
The
The image data may be configured to include at least one of: RGB data in which each pixel (data point) represents an RGB value; depth data in which each pixel (data point) represents a depth value; and three-dimensional point cloud data in which each data point represents a three-dimensional coordinate. In addition, the three-dimensional point cloud data may be point cloud data acquired by a LiDAR (Light Detection and Ranging, or Laser Imaging Detection and Ranging) device, as an example, but this example does not limit the present exemplary embodiment.
(点群データ生成部12)
点群データ生成部12は、取得部11が取得した入力データから3次元点群データを生成する。一例として、点群データ生成部12は、取得部11が取得した入力データであって、RGBデータ及びデプスデータの少なくとも何れかを含む入力データから、3次元点群データを生成する。一例として、点群データ生成部12は、
・RGBデータに含まれる各ピクセルの3次元座標を、デプスデータにおける各ピクセルのデプスデータを参照することによって特定し、
・特定した3次元座標が各ピクセル(各データ点)に割り当てられた3次元点群データを生成する
という構成とすることができる。ここで、当該3次元点群データは、各データ点に割り当てられた3次元座標に加え、各データ点の特徴量を含む構成としてもよい。ここで、各特徴量は、各データ点のRGB値、及び法線値(法線ベクトル)の少なくとも何れかを含む構成としてもよい。或いは、点群データ生成部12は、各データ点の特徴量(例えば、RGB値、及び法線値(法線ベクトル)の少なくとも何れか等)を含む属性データを、各データ点の3次元座標を含む3次元点群データに付随して生成する構成としてもよい。
(Point cloud data generator 12)
The point cloud
Identifying the three-dimensional coordinates of each pixel included in the RGB data by referencing the depth data of each pixel in the depth data;
- The specified three-dimensional coordinates may be assigned to each pixel (each data point) to generate three-dimensional point cloud data. Here, the three-dimensional point cloud data may be configured to include a feature value of each data point in addition to the three-dimensional coordinates assigned to each data point. Here, each feature value may be configured to include at least one of the RGB value and the normal value (normal vector) of each data point. Alternatively, the point cloud
また、点群データ生成部12は、Structure from Motion(SfM)やSLAM(Simultaneous Localization and Mapping)等のアルゴリズムを用いて、上記3次元点群データを生成してもよい。
The point
点群データ生成部12は、上述の構成により、取得部11が取得した入力データに含まれる1又は複数のフレーム(1又は複数のデータセット)から上記3次元点群データを生成することができる。
The point
また、取得部11が、3次元点群データを含む入力データを取得した場合、点群データ生成部12は、当該3次元点群データを、そのまま出力する構成としてもよい。或いは、当該3次元点群データに、上述の各データ点の特徴量(例えば、RGB値、及び法線値(法線ベクトル)の少なくとも何れか等)を含めたうえで出力する構成としてもよい。或いは、上述の各データ点の特徴量を含む属性データを、各データ点の3次元座標を含む3次元点群データに付随して出力する構成としてもよい。
Furthermore, when the
なお、取得部11が、3次元点群データを含む入力データを取得し、点群データ生成部12が当該3次元点群データをそのまま出力する構成とする場合、情報処理装置1は、当該点群データ生成部12を備えない構成としてもよい。このような構成も本例示的実施形態に含まれる。
Note that if the
(間引き点群データ生成部13)
間引き点群データ生成部13は、取得部11が取得した前記入力データ及び前記点群データ生成部12が生成した前記3次元点群データの少なくとも何れかに対して間引き処理を適用することによって3次元間引き点群データを生成する。ここで、上記間引き処理には、一例として、
・前記入力データに含まれる複数のフレームのうち、一部のフレームのみを用いて、前記3次元間引き点群データを生成する処理
が含まれる。或いは、上記間引き処理には、
・前記入力データ及び前記3次元点群データの少なくとも何れかに含まれる複数のデータ点のうち、一部のデータ点のみを用いて、前記3次元間引き点群データを生成する処理
が含まれる構成としてもよい。
(Thinned point cloud data generating unit 13)
The thinned point cloud
The thinning process includes a process of generating the three-dimensional thinned point cloud data by using only a part of the frames among the plurality of frames included in the input data. Alternatively, the thinning process includes
The configuration may include a process of generating the three-dimensional thinned point cloud data using only a portion of a plurality of data points included in at least one of the input data and the three-dimensional point cloud data.
(学習部14)
学習部14は、点群データが入力される推定モデルであって、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力する推定モデルを学習させる。一例として、学習部14は、前記3次元点群データと、前記3次元間引き点群データとを参照して、前記推定モデルを学習させる。なお、本例示的実施形態に係る「補完」との表現は一例として「点群補完(Point Cloud Completion)」に由来するが、当該文言は本例示的実施形態を限定するものではない。
(Learning Unit 14)
The
より具体的には、一例として、学習部14は、
・前記3次元点群データと、前記3次元間引き点群データとを含む教師データを参照し、
・上記教師データに含まれる前記3次元間引き点群データを前記推定モデルに入力することによって、当該推定モデルに3次元点群データを生成させ、
・前記推定モデルが生成した3次元点群データと、前記教師データに含まれる3次元点群データとの相違が小さくなるように、前記推定モデルを機械学習させる。
More specifically, as an example, the
Refer to training data including the three-dimensional point cloud data and the three-dimensional thinned point cloud data,
The three-dimensional thinned point cloud data included in the training data is input to the estimation model to generate three-dimensional point cloud data in the estimation model;
The estimation model is subjected to machine learning so that the difference between the 3D point cloud data generated by the estimation model and the 3D point cloud data included in the training data is reduced.
ここで、上記教師データに含まれる3次元点群データが、セグメンテーションに関する正解ラベル(真値ラベルとも呼ぶ)を含むか、又は、上記教師データに含まれる3次元点群データに、セグメンテーションに関する正解ラベルを付随させる(関連付ける)構成としてもよい。そして、学習部14は、推定モデルが出力(推定)するセグメンテーションラベルと、セグメンテーションに関する正解ラベルとの相違が小さくなるように、前記推定モデルを学習させる構成としてもよい。ここで、当該正解ラベルは、一例として、上記入力データに含まれるか、又は上記入力データに付随させる構成とし、上記取得部11が、当該正解ラベルを取得する構成とすることができる。
Here, the three-dimensional point cloud data included in the teacher data may include a correct answer label (also called a true value label) for segmentation, or the three-dimensional point cloud data included in the teacher data may be associated with (associated with) a correct answer label for segmentation. The
以上のように構成された学習部14によれば、点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする上記推定モデルを好適に学習させることができる。なお、上記の説明において「補完」との文言には、いわゆる欠損領域の補完、及びオクルージョン領域の補完も含まれるが当該文言は本例示的実施形態を限定するものではない。
The
(情報処理装置1の効果)
以上のように、情報処理装置1においては、
・入力データを取得し、
・前記入力データから3次元点群データを生成し、
・前記入力データ及び前記3次元点群データの少なくとも何れかに対して間引き処理を適用することによって3次元間引き点群データを生成し、
・点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルを、前記3次元点群データと、前記3次元間引き点群データとを参照して学習させる
という構成が採用されている。上記のように構成された情報処理装置1によれば、前記入力データ及び前記3次元点群データの少なくとも何れかに対して間引き処理を適用することによって3次元間引き点群データを生成し、当該3次元間引き点群データを参照して、前記推定モデルの学習を行うので、コストの上昇を抑制しつつ、精度の高い推定モデルを生成することができる。したがって、上記の構成によれば、コストの上昇を抑制しつつ、精度の高いセグメンテーション技術を提供することができる。
(Effects of information processing device 1)
As described above, in the
- Obtain input data,
Generate three-dimensional point cloud data from the input data;
applying a thinning process to at least one of the input data and the three-dimensional point cloud data to generate three-dimensional thinned point cloud data;
A configuration is adopted in which an estimation model that uses point cloud data as input, and outputs complemented point cloud data and segmentation labels related to the complemented point cloud data is trained by referring to the three-dimensional point cloud data and the three-dimensional thinned point cloud data. According to the
(情報処理装置1に関する付記事項)
上述のように、取得部11が3次元点群データを取得する構成の場合、情報処理装置1は、点群データ生成部12を備えない構成としてもよい。換言すれば、情報処理装置1は、
・3次元点群データを含む入力データを取得する取得部11と、
・前記入力データに対して間引き処理を適用することによって3次元間引き点群データを生成する間引き点群データ生成部13と、
・点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルを、前記3次元点群データと、前記3次元間引き点群データとを参照して学習させる学習部14と
を備える構成としてもよい。このように構成された情報処理装置1によっても、上述の効果を奏することができる。
(Additional Notes Regarding Information Processing Device 1)
As described above, in the case where the
An
a thinned point cloud
The
(情報処理方法S1の流れ)
続いて、本例示的実施形態に係る情報処理方法S1の流れについて、図2を参照して説明する。図2は、情報処理方法S1の流れを示すフロー図である。情報処理方法S1は、図2に示すように、入力データを取得するステップ(処理)S11と、3次元点群データを生成するステップ(処理)S12と、3次元間引き点群データを生成するステップ(処理)S13と、推定モデルを学習させるステップ(処理)S14とを含んでいる。
(Flow of information processing method S1)
Next, the flow of the information processing method S1 according to this exemplary embodiment will be described with reference to Fig. 2. Fig. 2 is a flow diagram showing the flow of the information processing method S1. As shown in Fig. 2, the information processing method S1 includes a step (process) S11 of acquiring input data, a step (process) S12 of generating three-dimensional point cloud data, a step (process) S13 of generating three-dimensional thinned point cloud data, and a step (process) S14 of training an estimation model.
(ステップS11)
ステップS11において、取得部11は、入力データを取得する。取得部11による具体的な処理については、上述したためここでは説明を省略する。
(Step S11)
In step S11, the
(ステップS12)
続いて、ステップS12において、点群データ生成部12は、取得部11が取得した入力データから3次元点群データを生成する。点群データ生成部12による具体的な処理については、上述したためここでは説明を省略する。
(Step S12)
Next, in step S12, the point cloud
(ステップS13)
続いて、ステップS13において、間引き点群データ生成部13は、取得部11が取得した前記入力データ及び前記点群データ生成部12が生成した前記3次元点群データの少なくとも何れかに対して間引き処理を適用することによって3次元間引き点群データを生成する。間引き点群データ生成部13による具体的な処理については、上述したためここでは説明を省略する。
(Step S13)
Next, in step S13, the thinned point
(ステップS14)
続いて、ステップS14において、学習部14は、点群データが入力される推定モデルであって、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力する推定モデルを学習させる。一例として、学習部14は、前記3次元点群データと、前記3次元間引き点群データとを参照して、前記推定モデルを学習させる。学習部14による具体的な処理については、上述したためここでは説明を省略する。
(Step S14)
Next, in step S14, the
(情報処理方法S1の効果)
以上のように、情報処理方法S1においては、
・入力データを取得し、
・前記入力データから3次元点群データを生成し、
・前記入力データ及び前記3次元点群データの少なくとも何れかに対して間引き処理を適用することによって3次元間引き点群データを生成し、
・点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルを、前記3次元点群データと、前記3次元間引き点群データとを参照して学習させる
という構成が採用されている。上記のように構成された情報処理方法S1によれば、前記入力データ及び前記3次元点群データの少なくとも何れかに対して間引き処理を適用することによって3次元間引き点群データを生成し、当該3次元間引き点群データを参照して、前記推定モデルの学習を行うので、コストの上昇を抑制しつつ、精度の高い推定モデルを生成することができる。したがって、上記の構成によれば、コストの上昇を抑制しつつ、精度の高いセグメンテーション技術を提供することができる。
(Effects of information processing method S1)
As described above, in the information processing method S1,
- Obtain input data,
Generate three-dimensional point cloud data from the input data;
applying a thinning process to at least one of the input data and the three-dimensional point cloud data to generate three-dimensional thinned point cloud data;
A configuration is adopted in which an estimation model that uses point cloud data as input and outputs complemented point cloud data and segmentation labels related to the complemented point cloud data is trained by referring to the three-dimensional point cloud data and the three-dimensional thinned point cloud data. According to the information processing method S1 configured as above, a thinning process is applied to at least one of the input data and the three-dimensional point cloud data to generate three-dimensional thinned point cloud data, and the estimation model is trained by referring to the three-dimensional thinned point cloud data, so that a highly accurate estimation model can be generated while suppressing an increase in cost. Therefore, according to the above configuration, a highly accurate segmentation technology can be provided while suppressing an increase in cost.
(情報処理方法S1に関する付記事項)
ステップS11において、取得部11が3次元点群データを取得する構成の場合、情報処理方法S1は、ステップS12を含まない構成としてもよい。換言すれば、情報処理方法S1は、
・3次元点群データを含む入力データを取得する取得ステップS11と、
・前記入力データに対して間引き処理を適用することによって3次元間引き点群データを生成する間引き点群データ生成ステップS13と、
・点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルを、前記3次元点群データと、前記3次元間引き点群データとを参照して学習させる学習ステップS14と
を含む構成としてもよい。このように構成された情報処理方法S1によっても、上述の効果を奏することができる。
(Additional Notes Regarding Information Processing Method S1)
In the case where the
An acquisition step S11 of acquiring input data including three-dimensional point cloud data;
a thinned point cloud data generating step S13 of generating three-dimensional thinned point cloud data by applying a thinning process to the input data;
The information processing method S1 may include a learning step S14 in which an estimation model having point cloud data as input and having complemented point cloud data and segmentation labels related to the complemented point cloud data as output is learned by referring to the three-dimensional point cloud data and the three-dimensional thinned point cloud data. The information processing method S1 configured in this manner can also achieve the above-mentioned effects.
(情報処理装置2の構成)
続いて、本例示的実施形態に係る情報処理装置2の構成について、図3を参照して説明する。図3は、情報処理装置2の構成を示すブロック図である。情報処理装置2は、図3に示すように、取得部21と、点群データ生成部22と、推定部23を備えている。
(Configuration of information processing device 2)
Next, the configuration of the
(取得部21)
取得部11は、入力データを取得する。ここで、当該入力データは、一例として、推論フェーズ(推定フェーズ、テストフェーズ)用の入力データである。また、取得部21が取得する入力データの具体例は本例示的実施形態を限定するものではないが、一例として、
・各ピクセル(データ点)がRGB値を表現するRGBデータ
・各ピクセル(データ点)がデプス値(奥行値)を表現するデプスデータ、及び
・各データ点が3次元座標を表現する3次元点群データ
の少なくとも何れかを含むよう構成され得る。また、3次元点群データは、一例としてLiDAR(Light Detection and Ranging、又はLaser Imaging Detection and Ranging)装置によって取得された点群データであり得るが、当該例は本例示的実施形態を限定するものではない。
(Acquisition unit 21)
The
The image data may be configured to include at least one of: RGB data in which each pixel (data point) represents an RGB value; depth data in which each pixel (data point) represents a depth value; and three-dimensional point cloud data in which each data point represents a three-dimensional coordinate. In addition, the three-dimensional point cloud data may be point cloud data acquired by a LiDAR (Light Detection and Ranging, or Laser Imaging Detection and Ranging) device, as an example, but this example does not limit the present exemplary embodiment.
このように、取得部21は、上述した情報処理装置1が備える取得部11が取得する入力データと同様の形式のデータを取得する構成とすることができるが、取得部21は、情報処理装置1において説明したセグメンテーションに関する正解ラベルを取得する必要はない。
In this way, the
(点群データ生成部22)
点群データ生成部12は、取得部21が取得した入力データから3次元点群データを生成する。
(Point cloud data generator 22)
The point
一例として、点群データ生成部22は、取得部21が取得した入力データであって、RGBデータ及びデプスデータの少なくとも何れかを含む入力データから、3次元点群データを生成する。一例として、点群データ生成部22は、
・RGBデータに含まれる各ピクセルの3次元座標を、デプスデータにおける各ピクセルのデプスデータを参照することによって特定し、
・特定した3次元座標が各ピクセル(各データ点)に割り当てられた3次元点群データを生成する
という構成とすることができる。ここで、当該3次元点群データは、各データ点に割り当てられた3次元座標に加え、各データ点のRGB値、及び法線値(法線ベクトル)の少なくとも何れかを含む構成としてもよい。或いは、各データ点のRGB値、及び法線値(法線ベクトル)の少なくとも何れかを含む属性データを、各データ点の3次元座標を含む3次元点群データに付随して生成する構成としてもよい。
As an example, the point cloud
Identifying the three-dimensional coordinates of each pixel included in the RGB data by referencing the depth data of each pixel in the depth data;
- A configuration may be adopted in which three-dimensional point cloud data is generated in which the specified three-dimensional coordinates are assigned to each pixel (each data point). Here, the three-dimensional point cloud data may be configured to include at least one of the RGB values and normal values (normal vectors) of each data point in addition to the three-dimensional coordinates assigned to each data point. Alternatively, a configuration may be adopted in which attribute data including at least one of the RGB values and normal values (normal vectors) of each data point is generated in association with the three-dimensional point cloud data including the three-dimensional coordinates of each data point.
また、取得部21が、3次元点群データを含む入力データを取得した場合、点群データ生成部22は、当該3次元点群データを、そのまま出力する構成としてもよい。或いは、当該3次元点群データに、上述の各データ点のRGB値、及び法線値(法線ベクトル)の少なくとも何れかを含めたうえで出力する構成としてもよい。或いは、上述の各データ点のRGB値、及び法線値(法線ベクトル)の少なくとも何れかを含む属性データを、各データ点の3次元座標を含む3次元点群データに付随して出力する構成としてもよい。
Furthermore, when the
なお、取得部21が、3次元点群データを含む入力データを取得し、点群データ生成部22が当該3次元点群データをそのまま出力する構成とする場合、情報処理装置2は、当該点群データ生成部22を備えない構成としてもよい。このような構成も本例示的実施形態に含まれる。
Note that if the
このように、点群データ生成部22は、一例として、情報処理装置1が備える点群データ生成部12と同様の処理を行う構成とすることができるが、これは本例示的実施形態を限定するものではない。
In this way, the point
(推定部23)
推定部23は、機械学習された推定モデルを用いて、前記点群データ生成部22が生成した3次元点群データに対応する補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを推定する。ここで、上記機械学習された推定モデルは、一例として、上述した情報処理装置1が備える学習部14によって学習された推定モデルを用いることができる。換言すれば、上記機械学習された推定モデルは、一例として、点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルであって、3次元点群データと、当該3次元点群データに対して間引き処理を適用することによって得られた3次元間引き点群データとを参照して機械学習された推定モデルである。
(Estimation unit 23)
The
(情報処理装置2の効果)
以上のように、情報処理装置2においては、
・入力データを取得し、
・前記入力データから3次元点群データを生成し、
・点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルであって、3次元点群データと、当該3次元点群データに対して間引き処理を適用することによって得られた3次元間引き点群データとを参照して機械学習された推定モデルを用いて、前記点群データ生成処理にて生成した3次元点群データに対応する補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを推定する
という構成が採用されている。上記のように構成された情報処理装置2によれば、3次元点群データに対して間引き処理を適用することによって生成された3次元間引き点群データを参照して機械学習された前記推定モデルを用いて、前記点群データ生成処理にて生成した3次元点群データに対応する補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを推定するので、コストの上昇を抑制しつつ、精度の高い推定モデルを用いた推定処理を行うことができる。したがって、上記の構成によれば、コストの上昇を抑制しつつ、精度の高いセグメンテーション技術を提供することができる。
(Effects of information processing device 2)
As described above, in the
- Obtain input data,
Generate three-dimensional point cloud data from the input data;
- An estimation model that uses point cloud data as input and outputs complemented point cloud data and a segmentation label related to the complemented point cloud data, and uses an estimation model that has been machine-learned with reference to three-dimensional point cloud data and three-dimensional thinned point cloud data obtained by applying a thinning process to the three-dimensional point cloud data to estimate the complemented point cloud data corresponding to the three-dimensional point cloud data generated in the point cloud data generation process and the segmentation label related to the complemented point cloud data. According to the
(情報処理装置2に関する付記事項)
上述のように、取得部21が3次元点群データを取得する構成の場合、情報処理装置2は、点群データ生成部22を備えない構成としてもよい。換言すれば、情報処理装置2は、
・3次元点群データを含む入力データを取得する取得部21と、
・点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルであって、3次元点群データと、当該3次元点群データに対して間引き処理を適用することによって得られた3次元間引き点群データとを参照して機械学習された推定モデルを用いて、前記取得部21が取得した3次元点群データに対応する補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを推定する推定部23と
を備える構成としてもよい。このように構成された情報処理装置2によっても、上述の効果を奏することができる。
(Additional Notes Regarding Information Processing Device 2)
As described above, in the case where the
An
The
(情報処理方法S2の流れ)
続いて、本例示的実施形態に係る情報処理方法S2の流れについて、図4を参照して説明する。図4は、情報処理方法S2の流れを示すフロー図である。情報処理方法S2は、図4に示すように、入力データを取得するステップ(処理)S21と、3次元点群データを生成するステップ(処理)S22と、推定モデルを用いた推定を行うステップ(処理)S23とを含んでいる。
(Flow of information processing method S2)
Next, the flow of the information processing method S2 according to this exemplary embodiment will be described with reference to Fig. 4. Fig. 4 is a flow diagram showing the flow of the information processing method S2. As shown in Fig. 4, the information processing method S2 includes a step (process) S21 of acquiring input data, a step (process) S22 of generating three-dimensional point cloud data, and a step (process) S23 of performing estimation using an estimation model.
(ステップS21)
ステップS21において、取得部21は、入力データを取得する。取得部21による具体的な処理については、上述したためここでは説明を省略する。
(Step S21)
In step S21, the acquiring
(ステップS22)
続いて、ステップS22において、点群データ生成部22は、取得部21が取得した入力データから3次元点群データを生成する。点群データ生成部22による具体的な処理については、上述したためここでは説明を省略する。
(Step S22)
Next, in step S22, the point cloud
(ステップS23)
続いて、ステップS23において、推定部23は、機械学習された推定モデルを用いて、ステップS22において生成された3次元点群データに対応する補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを推定する。ここで、上記機械学習された推定モデルは、一例として、上述した情報処理方法S1によって学習された推定モデルを用いることができる。換言すれば、上記機械学習された推定モデルは、一例として、点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルであって、3次元点群データと、当該3次元点群データに対して間引き処理を適用することによって得られた3次元間引き点群データとを参照して機械学習された推定モデルである。
(Step S23)
Next, in step S23, the
(情報処理方法S2の効果)
以上のように、情報処理方法S2においては、
・入力データを取得し、
・前記入力データから3次元点群データを生成し、
・点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルであって、3次元点群データと、当該3次元点群データに対して間引き処理を適用することによって得られた3次元間引き点群データとを参照して機械学習された推定モデルを用いて、前記点群データ生成処理にて生成した3次元点群データに対応する補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを推定する
という構成が採用されている。上記のように構成された情報処理方法S2によれば、3次元点群データに対して間引き処理を適用することによって生成された3次元間引き点群データを参照して機械学習された前記推定モデルを用いて、前記点群データ生成処理にて生成した3次元点群データに対応する補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを推定するので、コストの上昇を抑制しつつ、精度の高い推定モデルを用いた推定処理を行うことができる。したがって、上記の構成によれば、コストの上昇を抑制しつつ、精度の高いセグメンテーション技術を提供することができる。
(Effects of information processing method S2)
As described above, in the information processing method S2,
- Obtain input data,
Generate three-dimensional point cloud data from the input data;
- An estimation model that uses point cloud data as input and outputs complemented point cloud data and a segmentation label related to the complemented point cloud data, and uses an estimation model machine-learned with reference to three-dimensional point cloud data and three-dimensional thinned point cloud data obtained by applying a thinning process to the three-dimensional point cloud data to estimate the complemented point cloud data corresponding to the three-dimensional point cloud data generated in the point cloud data generation process and the segmentation label related to the complemented point cloud data. According to the information processing method S2 configured as above, the estimation model machine-learned with reference to three-dimensional thinned point cloud data generated by applying a thinning process to the three-dimensional point cloud data is used to estimate the complemented point cloud data corresponding to the three-dimensional point cloud data generated in the point cloud data generation process and the segmentation label related to the complemented point cloud data, so that it is possible to perform an estimation process using a highly accurate estimation model while suppressing an increase in cost. Therefore, according to the above configuration, it is possible to provide a highly accurate segmentation technology while suppressing an increase in cost.
(情報処理方法S2に関する付記事項)
ステップS21において3次元点群データを取得する構成の場合、情報処理方法S2は、ステップS22を含まない構成としてもよい。換言すれば、情報処理方法S2は、
・3次元点群データを含む入力データを取得する取得ステップS21と、
・点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルであって、3次元点群データと、当該3次元点群データに対して間引き処理を適用することによって得られた3次元間引き点群データとを参照して機械学習された推定モデルを用いて、前記取得ステップS21にて取得した3次元点群データに対応する補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを推定する推定ステップS23と
を含む構成としてもよい。このように構成された情報処理方法S2によっても、上述の効果を奏することができる。
(Additional Notes Regarding Information Processing Method S2)
In the case where the three-dimensional point cloud data is acquired in step S21, the information processing method S2 may be configured not to include step S22.
An acquisition step S21 of acquiring input data including three-dimensional point cloud data;
The information processing method S2 may include an estimation step S23 in which an estimation model having point cloud data as input and having complemented point cloud data and segmentation labels related to the complemented point cloud data as output is used to estimate the complemented point cloud data corresponding to the three-dimensional point cloud data acquired in the acquisition step S21 and the segmentation labels related to the complemented point cloud data, using an estimation model machine-learned with reference to three-dimensional point cloud data and three-dimensional thinned point cloud data obtained by applying a thinning process to the three-dimensional point cloud data. The information processing method S2 configured in this manner can also achieve the above-mentioned effects.
〔第2の実施形態〕
本発明の実施形態の一例である第2の例示的実施形態について、図面を参照して詳細に説明する。上述した例示的実施形態にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。なお、本例示的実施形態において採用する各技術的手段の適用範囲は、本例示的実施形態に限定されない。すなわち、本例示的実施形態において採用する各技術的手段は、特段の技術的支障が生じない範囲で、本開示に含まれる他の例示的実施形態においても採用可能である。また、本例示的実施形態を説明するために参照する各図面に示される各技術的手段は、特段の技術的支障が生じない範囲で、本開示に含まれる他の例示的実施形態においても採用可能である。
Second Embodiment
A second exemplary embodiment, which is an example of an embodiment of the present invention, will be described in detail with reference to the drawings. Components having the same functions as those described in the above exemplary embodiment will be given the same reference numerals, and their description will be omitted as appropriate. The scope of application of each technical means adopted in this exemplary embodiment is not limited to this exemplary embodiment. That is, each technical means adopted in this exemplary embodiment can be adopted in other exemplary embodiments included in this disclosure, as long as no particular technical hindrance occurs. In addition, each technical means shown in each drawing referred to for explaining this exemplary embodiment can be adopted in other exemplary embodiments included in this disclosure, as long as no particular technical hindrance occurs.
(情報処理装置1Aの構成)
本例示的実施形態に係る情報処理装置1Aの構成について、図5を参照して説明する。図5は、情報処理装置1Aの構成を示すブロック図である。図5に示すように、情報処理装置1Aは、制御部10A、記憶部20A、通信部30、及び入出力部40を備えている。
(Configuration of
The configuration of the
(通信部30)
通信部30は、ネットワークを介して、情報処理装置1Aの外部の装置と通信を行う。一例として通信部30は、制御部10Aから供給されたデータを外部の装置に送信したり、外部の装置から受信したデータを制御部10Aに供給したりする。なお、上記ネットワークの具体的構成は本例示的実施形態を限定するものではないが、一例として、無線LAN(Local Area Network)、有線LAN、WAN(Wide Area Network)、公衆回線網、モバイルデータ通信網、又は、これらのネットワークの組み合わせを用いることができる。
(Communication unit 30)
The
(入出力部40)
入出力部40は、キーボード、マウス、ディスプレイ、プリンタ、タッチパネル等の入出力装置の少なくとも何れかを備えて構成される。或いは、入出力部40には、キーボード、マウス、ディスプレイ、プリンタ、タッチパネル等の入出力機器が接続される構成としてもよい。当該構成の場合、入出力部40は、接続された入力機器から情報処理装置1Aに対する各種の情報の入力を受け付ける。また、入出力部40は、制御部10Aの制御の下、接続された出力機器に各種の情報を出力する。入出力部40としては、例えばUSB(Universal Serial Bus)などのインタフェースが挙げられる。
(Input/Output Unit 40)
The input/
(記憶部20A)
記憶部20Aには、制御部10Aが参照する各種のデータ、及び制御部10Aによって生成された各種のデータが格納される。一例として、記憶部20Aには、
・入力データIND
・3次元点群データPCD
・3次元間引き点群データTPCD
・第1の特徴量F1
・第2の特徴量F2
・推定モデルPM
・セグメンテーションデータSG
ここで、入力データINDは、後述する取得部11(21)が取得したデータである。入力データINDの具体例については後述する。3次元点群データPCDは、後述する点群データ生成部12(22)が生成したデータである。3次元点群データPCDの具体例については後述する。3次元間引き点群データTPCDは、後述する間引き点群データ生成部13が生成したデータである。3次元間引き点群データTPCDの具体例については後述する。
(
The
Input data IND
・3D point cloud data PCD
・Three-dimensional thinned point cloud data TPCD
First feature amount F1
Second feature amount F2
・Estimation model PM
・Segmentation data SG
Here, the input data IND is data acquired by an acquisition unit 11 (21) described later. Specific examples of the input data IND will be described later. The three-dimensional point cloud data PCD is data generated by a point cloud data generation unit 12 (22) described later. Specific examples of the three-dimensional point cloud data PCD will be described later. The three-dimensional thinned point cloud data TPCD is data generated by a thinned point cloud
第1の特徴量F1は、後述する第1の特徴量選択部151によって参照されるデータである。第1の特徴量F1の具体例については後述する。第2の特徴量F2は、後述する第2の特徴量選択部152によって参照されるデータである。第2の特徴量F2の具体例については後述する。
The first feature F1 is data referenced by the first
推定モデルPMは、後述する学習部14によって機械学習され、推定部23によって参照される推論用のモデルである。記憶部20Aには、当該推定モデルPMを構成する各種のプログラム及びパラメータが格納される。推定モデルPMの具体例については後述する。
The estimation model PM is a model for inference that is machine-learned by the
(制御部10A)
制御部10Aは、図5に示すように、例示的実施形態1において説明した、取得部11、点群データ生成部12、間引き点群データ生成部13、学習部14,及び推定部23を備えている。ここで、取得部11は、例示的実施形態1において説明した取得部21と同様の構成である表現することもできるので、取得部11のことを取得部11(21)とも表記することがある。また、点群データ生成部12は、例示的実施形態1において説明した点群データ生成部22と同様の構成である表現することもできるので、点群データ生成部12のことを点群データ生成部12(22)とも表記することがある。
(
5, the
また、制御部10Aは、図5に示すように、特徴量選択部15を備えている。ここで、当該特徴量選択部15は、図5に示すように、第1の特徴量選択部151、及び第2の特徴量選択部152を備えている。
The
(取得部11(21))
取得部11(21)は、入力データINDを取得する。ここで、取得部11は、学習フェーズにおいては、学習用の入力データを取得し、推論フェーズ(推定フェーズ、テストフェーズ)においては、推論用の入力データを取得する。取得部11(21)が取得する入力データの具体例は本例示的実施形態を限定するものではないが、一例として、例示的実施形態と同様に、
・各ピクセル(データ点)がRGB値を表現するRGBデータ
・各ピクセル(データ点)がデプス値(奥行値)を表現するデプスデータ、及び
・各データ点が3次元座標を表現する3次元点群データ
の少なくとも何れかを含むよう構成され得る。また、3次元点群データは、一例としてLiDAR(Light Detection and Ranging、又はLaser Imaging Detection and Ranging)装置によって取得された点群データであり得るが、当該例は本例示的実施形態を限定するものではない。
(Acquisition unit 11 (21))
The acquisition unit 11 (21) acquires input data IND. Here, the
The image data may be configured to include at least one of: RGB data in which each pixel (data point) represents an RGB value; depth data in which each pixel (data point) represents a depth value; and three-dimensional point cloud data in which each data point represents a three-dimensional coordinate. In addition, the three-dimensional point cloud data may be point cloud data acquired by a LiDAR (Light Detection and Ranging, or Laser Imaging Detection and Ranging) device, as an example, but this example does not limit the present exemplary embodiment.
なお、取得部11(21)は、一例として、学習フェーズにおいては、セグメンテーションに関する正解ラベルを含む入力データ(セグメンテーションに関する正解ラベルが各データ点に付された入力データ)を取得し、推論フェーズにおいては、当該正解ラベルを含まない入力データを取得する構成とすることができる。 In addition, as an example, the acquisition unit 11 (21) can be configured to acquire input data including correct answer labels for segmentation (input data in which correct answer labels for segmentation are attached to each data point) in the learning phase, and to acquire input data that does not include the correct answer labels in the inference phase.
取得部11(21)が取得した入力データINDは、一例として記憶部20Aに記憶され、点群データ生成部12(22)、間引き点群データ生成部13、学習部14、推定部23等によって参照される。
The input data IND acquired by the acquisition unit 11 (21) is stored in the
(点群データ生成部12(22))
点群データ生成部12(22)は、取得部11(21)が取得した入力データINDから3次元点群データPCDを生成する。一例として、点群データ生成部12(22)は、取得部11(21)が取得した入力データでINDあって、RGBデータ及びデプスデータの少なくとも何れかを含む入力データINDから、3次元点群データPCDを生成する。一例として、点群データ生成部12(22)は、
・RGBデータに含まれる各ピクセルの3次元座標を、デプスデータにおける各ピクセルのデプスデータを参照することによって特定し、
・特定した3次元座標が各ピクセル(各データ点)に割り当てられた3次元点群データPCDを生成する
という構成とすることができる。ここで、当該3次元点群データPCDは、各データ点に割り当てられた3次元座標に加え、各データ点のRGB値、及び法線値(法線ベクトル)の少なくとも何れかを含む構成としてもよい。或いは、各データ点のRGB値、及び法線値(法線ベクトル)の少なくとも何れかを含む属性データを、各データ点の3次元座標を含む3次元点群データに付随して生成する構成としてもよい。
(Point cloud data generator 12 (22))
The point cloud data generating unit 12 (22) generates three-dimensional point cloud data PCD from the input data IND acquired by the acquiring unit 11 (21). As an example, the point cloud data generating unit 12 (22) generates three-dimensional point cloud data PCD from the input data IND acquired by the acquiring unit 11 (21), the input data IND including at least one of RGB data and depth data. As an example, the point cloud data generating unit 12 (22)
Identifying the three-dimensional coordinates of each pixel included in the RGB data by referencing the depth data of each pixel in the depth data;
- A configuration may be adopted in which three-dimensional point cloud data PCD is generated in which the specified three-dimensional coordinates are assigned to each pixel (each data point). Here, the three-dimensional point cloud data PCD may be configured to include at least one of the RGB values and normal values (normal vectors) of each data point in addition to the three-dimensional coordinates assigned to each data point. Alternatively, a configuration may be adopted in which attribute data including at least one of the RGB values and normal values (normal vectors) of each data point is generated in association with the three-dimensional point cloud data including the three-dimensional coordinates of each data point.
また、取得部11(21)が、3次元点群データを含む入力データを取得した場合、点群データ生成部12(22)は、当該3次元点群データを、そのまま3次元点群データPCDとして出力する構成としてもよい。或いは、取得部11(21)が取得した3次元点群データに、上述の各データ点のRGB値、及び法線値(法線ベクトル)の少なくとも何れかを含めたうえで3次元点群データPCDとして出力する構成としてもよい。或いは、上述の各データ点のRGB値、及び法線値(法線ベクトル)の少なくとも何れかを含む属性データを、各データ点の3次元座標を含む3次元点群データPCDに付随して出力する構成としてもよい。 Furthermore, when the acquisition unit 11 (21) acquires input data including three-dimensional point cloud data, the point cloud data generation unit 12 (22) may be configured to output the three-dimensional point cloud data as it is as three-dimensional point cloud data PCD. Alternatively, the three-dimensional point cloud data acquired by the acquisition unit 11 (21) may be configured to include at least one of the RGB values and normal values (normal vectors) of each of the above-mentioned data points and output the data as three-dimensional point cloud data PCD. Alternatively, the attribute data including at least one of the RGB values and normal values (normal vectors) of each of the above-mentioned data points may be output in association with the three-dimensional point cloud data PCD including the three-dimensional coordinates of each data point.
また、取得部11(21)が、RGBデータ、デプスデータRGB、3次元点群データの少なくとも何れかを含む複数フレームの入力データINDを取得した場合、点群データ生成部12(22)は、一例として当該入力データINDに含まれる全てのフレームを参照して、3次元点群データPCDを生成する構成とすることができる。 In addition, when the acquisition unit 11 (21) acquires multiple frames of input data IND including at least one of RGB data, RGB depth data, and three-dimensional point cloud data, the point cloud data generation unit 12 (22) can be configured to, as an example, generate three-dimensional point cloud data PCD by referring to all frames included in the input data IND.
また、取得部11(21)が、3次元点群データを含む入力データを取得し、点群データ生成部12(22)が当該入力データに含まれる3次元点群データを3次元点群データPCDとしてそのまま出力する構成とする場合、情報処理装置1Aは、当該点群データ生成部12(22)を備えない構成としてもよい。このような構成も本例示的実施形態に含まれる。
In addition, if the acquisition unit 11 (21) acquires input data including three-dimensional point cloud data, and the point cloud data generation unit 12 (22) outputs the three-dimensional point cloud data included in the input data as three-dimensional point cloud data PCD, the
(間引き点群データ生成部13)
間引き点群データ生成部13は、例示的実施形態1と同様に、取得部11(21)が取得した前記入力データIND及び前記点群データ生成部12(22)が生成した前記3次元点群データPCDの少なくとも何れかに対して間引き処理を適用することによって3次元間引き点群データをTPCD生成する。ここで、上記間引き処理には、一例として、
・前記入力データINDに含まれる複数のフレームのうち、一部のフレームのみを用いて、前記3次元間引き点群データTPCDを生成する処理
が含まれる。より具体的には、上記間引き処理には、一例として、入力データINDに含まれる複数のフレームのうちN%(Nは100未満の実数)のフレームのみを用いて前記3次元間引き点群データTPCDを生成する処理が含まれ得る。
ここで、間引き点群データ生成部13は、上記N%のフレームを選択する処理として、
・取り除くフレームをランダムに選択する
・入力データINDが示す画像又は対象物において、特定の領域が欠損するように、連続するフレームを纏めて取り除く
という処理を行ってもよい。
(Thinned point cloud data generating unit 13)
Similarly to the first exemplary embodiment, the thinned point cloud
The process includes a process of generating the three-dimensional thinned point cloud data TPCD using only some of the frames included in the input data IND. More specifically, the thinning process may include, as an example, a process of generating the three-dimensional thinned point cloud data TPCD using only N % (N is a real number less than 100) of the frames included in the input data IND.
Here, the thinned point cloud
Randomly select the frames to be removed. A process may be performed in which a group of consecutive frames are removed in such a way that a specific area is missing from the image or object represented by the input data IND.
或いは、上記間引き処理には、
・前記入力データIND及び前記3次元点群データPCDの少なくとも何れかに含まれる複数のデータ点のうち、一部のデータ点のみを用いて、前記3次元間引き点群データTPCDを生成する処理
が含まれる構成としてもよい。より具体的には、上記間引き処理には、
・入力データINDに含まれるデプス画像を低解像度化する処理
・入力データINDに含まれる3次元点群データに対して、LiDAR装置の受光センサ密度が低くなるような間引き方を適用する処理
の少なくとも何れかが含まれる構成としてもよい。
Alternatively, the thinning process may include:
The configuration may include a process of generating the three-dimensional thinned point cloud data TPCD by using only some of the data points included in at least one of the input data IND and the three-dimensional point cloud data PCD. More specifically, the thinning process may include:
The configuration may include at least one of the following: a process for reducing the resolution of a depth image contained in the input data IND; and a process for applying a thinning method to the three-dimensional point cloud data contained in the input data IND so as to reduce the density of the light receiving sensors of the LiDAR device.
(学習部14)
学習部14は、例示的実施形態1と同様に、点群データINDが入力される推定モデルPMであって、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力する推定モデルを学習させる。一例として、学習部14は、前記3次元点群データPCDと、前記3次元間引き点群データTPCDとを参照して、前記推定モデルPMを学習させる。
(Learning Unit 14)
The
より具体的には、一例として、学習部14は、
・前記3次元点群データPCD1と、当該3次元点群データPCD1を間引き処理して得られる3次元間引き点群データTPCD1とを含む教師データTDを参照し、
・上記教師データTDに含まれる前記3次元間引き点群データTPCD1を前記推定モデルPMに入力することによって、当該推定モデルPMに3次元点群データPCD2(補完された3次元点群データIPCD1とも呼ぶことがある)を生成させ、
・前記推定モデルPMが生成した3次元点群データPCD2と、前記教師データTDに含まれる3次元点群データPCD1との相違が小さくなるように、前記推定モデルPMを機械学習させる。
More specifically, as an example, the
Refer to teacher data TD including the three-dimensional point cloud data PCD1 and three-dimensional thinned point cloud data TPCD1 obtained by thinning the three-dimensional point cloud data PCD1,
The three-dimensional thinned point cloud data TPCD1 included in the teacher data TD is input to the estimation model PM, thereby causing the estimation model PM to generate three-dimensional point cloud data PCD2 (which may also be referred to as complemented three-dimensional point cloud data IPCD1);
- The estimation model PM is subjected to machine learning so that the difference between the three-dimensional point cloud data PCD2 generated by the estimation model PM and the three-dimensional point cloud data PCD1 included in the training data TD is reduced.
ここで、上記教師データTDに含まれる3次元点群データPCD1が、セグメンテーションに関する正解ラベルGTL1を含むか、又は、上記教師データTDに含まれる3次元点群データPCD1に、セグメンテーションに関する正解ラベルGTL1を付随させる(関連付ける)構成としてもよい。そして、学習部14は、推定モデルPMが出力(推定)するセグメンテーションラベルPL1と、セグメンテーションに関する正解ラベルGTL1との相違が小さくなるように、前記推定モデルPMを学習させる構成としてもよい。ここで、当該正解ラベルGTL1は、一例として、上記入力データINDに含まれるか、又は上記入力データINDに付随させる(関連付けられる)構成とし、上記取得部11が、当該正解ラベルGTL1を取得する構成とすることができる。
Here, the three-dimensional point cloud data PCD1 included in the teacher data TD may include a correct answer label GTL1 for segmentation, or the three-dimensional point cloud data PCD1 included in the teacher data TD may be configured to accompany (associate) the correct answer label GTL1 for segmentation. The
また、学習部14は、前記入力データIND、前記3次元点群データPCD、及び前記3次元間引き点群データTPCDの少なくとも何れかに付随する第1の特徴量F1を更に参照して、前記推定モデルPMを学習させる構成としてもよい。
The
ここで、当該第1の特徴量F1の具体例は本例示的実施形態を限定するものではないが、一例として、第1の特徴量F1として、
・入力データIND又は3次元点群データPCDに含まれる(又は付随する)各データ点のRGB値、及び法線値(法線ベクトル)の少なくとも何れか
を用いることができる。第1の特徴量F1を参照した具体的な推定モデルPMの学習のさせ方については後述する。
Here, a specific example of the first feature amount F1 does not limit the present exemplary embodiment. However, as an example, the first feature amount F1 may be
At least one of the RGB values and normal values (normal vectors) of each data point included in (or associated with) the input data IND or the three-dimensional point cloud data PCD can be used. A specific method of training the estimation model PM with reference to the first feature amount F1 will be described later.
また、本例示的実施形態では、推定モデルPMは一例として、
・点群データを入力が入力され、補完された点群データを出力する第1の推定モデルPM1と、
・前記補完された点群データが少なくとも入力され、前記補完された点群データに関するセグメンテーションラベルを出力とする第2の推定モデルPM2と
を含んで構成されている。推定モデルPMのより具体的な構成例については参照する図面を代えて後述する。
In the present exemplary embodiment, the estimation model PM is, for example,
A first estimation model PM1 that receives point cloud data and outputs complemented point cloud data;
and a second estimation model PM2 that receives at least the interpolated point cloud data and outputs a segmentation label related to the interpolated point cloud data. A more specific configuration example of the estimation model PM will be described later with reference to the drawings.
以上のように構成された学習部14によれば、点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする上記推定モデルPMを好適に学習させることができる。
The
また、以上のように構成された学習部14によれば、前記入力データIND及び前記3次元点群データPCDの少なくとも何れかに対して間引き処理を適用することによって生成された3次元間引き点群データTPCDを参照して、前記推定モデルPMの学習を行うので、コストの上昇を抑制しつつ、精度の高い推定モデルを生成することができる。したがって、上記の構成によれば、コストの上昇を抑制しつつ、精度の高いセグメンテーション技術を提供することができる。
Furthermore, with the
(推定部23)
推定部23は、例示的実施形態2と同様に、機械学習された推定モデルを用いて、前記点群データ生成部12(22)が生成した3次元点群データPCDに対応する補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを推定する。ここで、上記機械学習された推定モデルは、一例として、上述した学習部14によって学習された推定モデルPMを用いることができる。換言すれば、上記機械学習された推定モデルは、一例として、点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルであって、3次元点群データと、当該3次元点群データに対して間引き処理を適用することによって得られた3次元間引き点群データとを参照して機械学習された推定モデルPMである。
(Estimation unit 23)
The
また、推定部23は、入力データIND、及び前記点群データ生成部12(22)が生成した3次元点群データPCDの少なくとも何れかに付随する第2の特徴量F2を更に参照して、前記点群データ生成部12(22)が生成した3次元点群データPCDに対応する補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを推定する構成としてもよい。
The
ここで、当該第2の特徴量F2の具体例は本例示的実施形態を限定するものではないが、一例として、第2の特徴量F2として、
・入力データIND又は3次元点群データPCDに含まれる(又は付随する)各データ点のRGB値、及び法線値(法線ベクトル)の少なくとも何れか
を用いることができる。第2の特徴量F2の種別(例:RGB値か法線値か)は、一例として、上述した第1の特徴量F1の種別と同じ種別とすることができる。第2の特徴量F2を参照した具体的な推定の仕方については後述する。
Here, a specific example of the second feature amount F2 does not limit the present exemplary embodiment, but as an example, the second feature amount F2 may be
At least one of the RGB values and normal values (normal vectors) of each data point included in (or associated with) the input data IND or the three-dimensional point cloud data PCD can be used. The type of the second feature F2 (e.g., RGB value or normal value) can be the same as the type of the first feature F1 described above, for example. A specific method of estimation with reference to the second feature F2 will be described later.
また、推定部23によって推定(生成)された「補完された点群データ」及び「当該補完された点群データに関するセグメンテーションラベル」を含むデータは、一例として、図5に示したセグメンテーションデータSDとして記憶部20Aに記憶され、通信部30及び入出力部40等を介して、情報処理装置100Aの外部に提供される。セグメンテーションデータSDは、本例示的実施形態において、セグメンテーション画像、セグメンテーション結果などと表現されることもある。
Furthermore, data including the "complemented point cloud data" and "segmentation labels related to the complemented point cloud data" estimated (generated) by the
一例として、推定部23は、当該推定部23によって推定されたセグメンテーションラベルに応じた表示色や表示テクスチャを有するオブジェクトを含むセグメンテーション画像を、入出力部40が備えるディスプレイを介してユーザに提示する提示手段としても機能する。
As an example, the
以上のように構成された推定部23によれば、前記入力データIND及び前記3次元点群データPCDの少なくとも何れかに対して間引き処理を適用することによって生成された3次元間引き点群データTPCDを参照して学習された前記推定モデルPMを用いて推定処理を行うので、コストの上昇を抑制しつつ、精度の高い推定を行うことができる。したがって、上記の構成によれば、コストの上昇を抑制しつつ、精度の高いセグメンテーション技術を提供することができる。
The
(特徴量選択部15)
図5に示すように、特徴量選択部15は、第1の特徴量選択部151、及び第2の特徴量選択部152を備えている。第1の特徴量選択部151は、一例として、学習部14が推定モデルPMを学習させる際に参照する第1の特徴量F1を選択する。一方、第2の特徴量選択部152は、一例として、推定部23が推定モデルPMを用いた推定処理を行う際に参照する第2の特徴量F2を選択する。
(Feature quantity selection unit 15)
5, the feature
第1の特徴量F1及び第2の特徴量F2の具体例としては、
・入力データIND又は3次元点群データPCDに含まれる(又は付随する)各データ点のRGB値、及び法線値(法線ベクトル)の少なくとも何れか
が挙げられる。第1の特徴量選択部151、及び第2の特徴量選択部152が行う処理の具体例については、参照する図面を代えて後述する。
Specific examples of the first feature amount F1 and the second feature amount F2 include:
At least one of the RGB values and normal values (normal vectors) of each data point included in (or associated with) the input data IND or the three-dimensional point cloud data PCD. Specific examples of the processes performed by the first feature
(学習フェーズにおけるデータの流れ)
続いて、情報処理装置1Aの学習フェーズにおけるデータの流れについて、図6~図7を参照して説明する。
(Data flow during the learning phase)
Next, the flow of data in the learning phase of the
図6は、情報処理装置1Aの学習フェーズにおけるデータの流れの例を説明するための図である。図6に示すように、まず、取得部11は入力データINDを取得する。ここで、当該入力データINDは、一例として学習用の入力データであり、当該入力データに含まれる各データ点には一例としてセグメンテーションに関する正解ラベルGTL1が付与されている。そして、点群データ生成部12は、当該入力データINDを参照して3次元点群データPCDを生成する。ここで、生成された3次元点群データPCDは、間引き点群データ生成部13及び学習部14が備える第1の推定モデル学習部141に供給される。
FIG. 6 is a diagram for explaining an example of the flow of data in the learning phase of the
一方、間引き点群データ生成部13は、一例として、3次元点群データPCDから3次元間引き点群データTPCDを生成し、生成した3次元間引き点群データTPCDを、第1の推定モデル学習部141に供給する。ここで、当該第1の推定モデル学習部141は、推定モデルPMに含まれる第1の推定モデルPM1を学習させるための構成である。
On the other hand, as an example, the thinned point cloud
また、間引き点群データ生成部13は、入力データIND又は3次元点群データPCDに含まれる(又は付随する)各データ点のRGB値、及び法線値(法線ベクトル)の少なくとも何れかのうち、間引き点群データ生成部13が生成した3次元間引き点群データTPCDに含まれる各データ点に対応するRGB値、及び法線値(法線ベクトル)の少なくとも何れかを、当該データ点の座標に関連付けて、第1の特徴量F1として記憶部20Aに格納する。
The thinned point
第1の推定モデル学習部141は、第1の推定モデルPM1に対して、間引き点群データ生成部13が生成した3次元間引き点群データTPCD1を入力し、当該第1の推定モデルPM1が出力する補完された3次元点群データIPCD1を取得する。そして、当該補完された3次元点群データIPCD1を、第2の推定モデル学習部142に供給する。
The first estimation
また、第1の推定モデル学習部141は、上記補完された3次元点群データIPCD1と、点群データ生成部12が生成した3次元点群データPCDとの相違を示す第1の損失値(第1の損失関数)(BCE_Lossとも表記)を算出する。
The first estimation
また、第1の推定モデル学習部141は、補完された3次元点群データIPCD1に含まれる各データ点の座標を第1の特徴量選択部151に供給する。そして、第1の特徴量選択部151は、
・記憶部20Aに格納されている第1の特徴量F1に関連付けられた座標と、補完された3次元点群データIPCD1に含まれる各データ点の座標とを対比し、
・記憶部20Aに格納されている第1の特徴量F1のうち、補完された3次元点群データIPCD1に含まれる各データ点に対応する第1の特徴量F1を特定し、
・特定した第1の特徴量F1を、第2の推定モデル学習部142に供給する。
In addition, the first estimation
Compare the coordinates associated with the first feature amount F1 stored in the
Identifying the first feature values F1 corresponding to each data point included in the interpolated three-dimensional point cloud data IPCD1 from among the first feature values F1 stored in the
The identified first feature amount F1 is supplied to the second estimation
第2の推定モデル学習部142は、
・第1の推定モデル学習部141が第1の推定モデルPM1を用いて算出した補完された3次元点群データIPCD1と、
・第1の特徴量選択部151から供給された第1の特徴量F1と
を第2の推定モデルPM2に入力し、当該第2の推定モデルPM2が出力するセグメンテーションに関する推定ラベルPL1を取得する。
The second estimation
- the complemented three-dimensional point cloud data IPCD1 calculated by the first estimation
The first feature F1 supplied from the first
また、第2の推定モデル学習部142は、上記推定ラベルPL1と、一例として取得部11が取得したセグメンテーションに関する正解ラベルGTL1との相違を示す第2の損失値(第2の損失関数)(CE_Lossとも表示)を算出する。
The second estimation
そして、学習部14は、第1の損失値BCE_Lossと第2の損失値CE_Lossとの線形和
Loss_total = CE_Loss + α×BCE_Loss
によって、トータルの損失値Loss_totalを算出し、当該損失値Loss_totalがより小さくなるよう、第1の推定モデルPM1及び第2の推定モデルPM2のパラメータを更新する。ここで、αは、適宜設定可能な重み係数を示す。
Then, the
The total loss value Loss_total is calculated by the above formula, and the parameters of the first estimation model PM1 and the second estimation model PM2 are updated so that the loss value Loss_total becomes smaller, where α denotes a weighting coefficient that can be appropriately set.
このように、学習部14が、統合された損失値Loss_totalを参照して、第1の推定モデルPM1と第2の推定モデルPM2とを更新する(学習させる)ことによって、補完処理の精度と、セグメンテーション処理の精度とを好適に向上させることができる。なお、このように、統合された損失値Loss_totalを参照して、第1の推定モデルPM1と第2の推定モデルPM2とを更新する(学習させる)ことと、「第1の推定モデルPM1と第2の推定モデルPM2とを同時に学習させる」と表現することもある。
In this way, the
このようにして、学習部14は、点群データを入力が入力され、補完された点群データを出力する第1の推定モデルPMと、前記補完された点群データが少なくとも入力され、前記補完された点群データに関するセグメンテーションラベルを出力とする第2の推定モデルPM2とを学習させる。
In this way, the
図7は、学習フェーズにおけるネットワークに関するデータの流れの例を説明するための図である。図7に示すように、取得部11及び点群データ生成部12の少なくとも何れかにより、3次元点群データPCD1と、当該3次元点群データPCD1の各データ点に付与された正解ラベルGTL1(図7では真値ラベルGTL1とも表記)とを含む教師データTDが取得される。
FIG. 7 is a diagram for explaining an example of the flow of data regarding the network in the learning phase. As shown in FIG. 7, at least one of the
続いて、教師データTDに含まれる3次元点群データPCD1のうち、RBG値及び法線値等の属性データが取り除かれた3次元点群データBPCD1が、間引き点群データ生成部13に入力され、当該間引き点群データ生成部13によって3次元間引き点群データBTPCD1が生成される。そして、当該3次元間引き点群データBTPCD1が、第1の推定モデルPM1(図7では補完ネットワークとも表記)に入力される。
Next, the three-dimensional point cloud data BPCD1 from which attribute data such as RGB values and normal values have been removed is input to the thinned point
そして、第1の推定モデルPM1は、補完された3次元点群データIPCD1を出力する。当該補完された3次元点群データIPCD1は、第1の特徴量F1(図7では第1の特徴量データF1と表記)と共に、第2の推定モデルPM2(図7ではセマンティックセグメンテーションネットワークとも表記)に入力される。ここで、第1の特徴量F1は、上述した第1の特徴量選択部151によって選択された第1の特徴量F1である。当該第1の特徴量F1は、一例として、マスク特徴量の形式で第2の推定モデルPM2に入力される。ここで、当該マスク特徴量とは、第1の特徴量選択部151によって選択された第1の特徴量F1が存在するデータ点には当該特徴量の値を有し、それ以外のデータ点は空の特徴量(特徴量としての値が0、255、-1等の所定の値)が割り当てられたデータ群のことを指す。
Then, the first estimation model PM1 outputs the complemented three-dimensional point cloud data IPCD1. The complemented three-dimensional point cloud data IPCD1 is input to the second estimation model PM2 (also referred to as semantic segmentation network in FIG. 7) together with the first feature F1 (referred to as first feature data F1 in FIG. 7). Here, the first feature F1 is the first feature F1 selected by the first
また、補完された3次元点群データIPCD1と、上述の3次元点群データBPCD1との相違が、第1の損失値(BCE_Loss)として算出される。 In addition, the difference between the complemented three-dimensional point cloud data IPCD1 and the above-mentioned three-dimensional point cloud data BPCD1 is calculated as a first loss value (BCE_Loss).
そして、第2の推定モデルPM2は、補完された3次元点群データIPCD1の各データ点のセグメンテーションに関する推定ラベルPL1を出力する。また、推定ラベルPL1と、正解ラベルGTL1との相違が、第2の損失値(CE_Loss)として算出される。 Then, the second estimation model PM2 outputs an estimated label PL1 for the segmentation of each data point of the complemented 3D point cloud data IPCD1. In addition, the difference between the estimated label PL1 and the ground truth label GTL1 is calculated as a second loss value (CE_Loss).
学習部14は上述したように、第1の損失値と第2の損失値とによって表されるトータルの損失値がより小さくなるよう、第1の推定モデルPM1及び第2の推定モデルPM2のパラメータを更新する。
As described above, the
(推定フェーズにおけるデータの流れ)
続いて、情報処理装置1Aの推定フェーズにおけるデータの流れについて、図8~図9を参照して説明する。
(Data flow in the estimation phase)
Next, the flow of data in the estimation phase of the
図8は、情報処理装置1Aの推定フェーズにおけるデータの流れの例を説明するための図である。図8に示すように、まず、取得部21は入力データINDを取得する。ここで、当該入力データINDは、一例として推定用の入力データであり、上述した学習用の入力データとは異なり、当該入力データに含まれる各データ点にはセグメンテーションに関する正解ラベルGTL1が付与されていない。そして、点群データ生成部22は、当該入力データINDを参照して3次元点群データPCDを生成する。ここで、生成された3次元点群データPCDは、推定部23が備える第1の推定モデルPM1に供給される。
FIG. 8 is a diagram for explaining an example of the flow of data in the estimation phase of the
また、点群データ生成部22は、入力データIND又は3次元点群データPCDに含まれる(又は付随する)各データ点のRGB値、及び法線値(法線ベクトル)の少なくとも何れかを、当該データ点の座標に関連付けて、第2の特徴量F2として記憶部20Aに格納する。
The point
推定部23は、点群データ生成部22が生成した3次元点群データPCDを、第1の推定モデルPM1に入力する。ここで、当該第1の推定モデルPM1は、一例として、学習フェーズにおいて上述した第1の推定モデル学習部141によって機械学習された第1の推定モデルPM1である。
The
上記3次元点群データPCDが入力された第1の推定モデルPM1は、補完された3次元点群データIPCD2を出力する。また、推定部23は、当該補完された3次元点群データIPCD2に含まれる各データ点の座標を第2の特徴量選択部152に供給する。そして、第2の特徴量選択部152は、
・記憶部20Aに格納されている第2の特徴量F2に関連付けられた座標と、補完された3次元点群データIPCD2に含まれる各データ点の座標とを対比し、
・記憶部20Aに格納されている第2の特徴量F2のうち、補完された3次元点群データIPCD2に含まれる各データ点に対応する第2の特徴量F2を特定し、
・特定した第2の特徴量F2を、第2の推定モデルPM2に供給する。
The first estimation model PM1 to which the above-mentioned three-dimensional point cloud data PCD is input outputs the complemented three-dimensional point cloud data IPCD2. The
Compare the coordinates associated with the second feature amount F2 stored in the
Identifying the second feature amounts F2 corresponding to each data point included in the interpolated three-dimensional point cloud data IPCD2 from among the second feature amounts F2 stored in the
The identified second feature F2 is supplied to a second estimation model PM2.
推定部23は、
・第1の推定モデルPM1を用いて算出した補完された3次元点群データIPCD2と、
・第2の特徴量選択部152から供給された第2の特徴量F2と
を第2の推定モデルPM2に入力し、当該第2の推定モデルPM2が出力するセグメンテーションに関する推定ラベルPL2(換言すれば、補完された3次元点群データIPCD2に関するセグメンテーションラベル)を取得する。
The
- Interpolated three-dimensional point cloud data IPCD2 calculated using the first estimation model PM1; and
- The second feature F2 supplied from the second
そして、推定部23によって推定(生成)された「補完された3次元点群データIPCD2」及び「当該補完された3次元点群データIPCD2に関するセグメンテーションラベル」を含むデータは、一例として、図5に示したセグメンテーションデータSDとして記憶部20Aに記憶され、通信部30及び入出力部40等を介して、情報処理装置100Aの外部に提供される。
Then, data including the "complemented three-dimensional point cloud data IPCD2" and "segmentation labels related to the complemented three-dimensional point cloud data IPCD2" estimated (generated) by the
図9は、推定フェーズにおけるネットワークに関するデータの流れの例を説明するための図である。図9に示すように、取得部21及び点群データ生成部22の少なくとも何れかにより、3次元点群データPCD2が取得される。
FIG. 9 is a diagram for explaining an example of the flow of data related to the network in the estimation phase. As shown in FIG. 9, three-dimensional point cloud data PCD2 is acquired by at least one of the
続いて、3次元点群データPCD2のうち、RBG値及び法線値等の属性データが取り除かれた3次元点群データBPCD2が、第1の推定モデルPM1(図9では補完ネットワークとも表記)に入力される。 Next, the three-dimensional point cloud data BPCD2 from which attribute data such as RGB values and normal values have been removed is input to the first estimation model PM1 (also referred to as the complementation network in FIG. 9).
そして、第1の推定モデルPM1は、補完された3次元点群データIPCD2を出力する。当該補完された3次元点群データIPCD2は、第2の特徴量F2(図9では第2の特徴量データF2と表記)と共に、第2の推定モデルPM2(図7ではセマンティックセグメンテーションネットワークとも表記)に入力される。ここで、第2の特徴量F2は、上述した第2の特徴量選択部152によって選択された第2の特徴量F2である。当該第2の特徴量F2は、一例として、マスク特徴量の形式で第2の推定モデルPM2に入力される。ここで、当該マスク特徴量とは、第2の特徴量選択部152によって選択された第2の特徴量F2が存在するデータ点には当該特徴量の値を有し、それ以外のデータ点は空の特徴量(特徴量としての値が0、255、-1等の所定の値)が割り当てられたデータ群のことを指す。
Then, the first estimation model PM1 outputs the complemented three-dimensional point cloud data IPCD2. The complemented three-dimensional point cloud data IPCD2 is input to the second estimation model PM2 (also referred to as the semantic segmentation network in FIG. 7) together with the second feature F2 (referred to as the second feature data F2 in FIG. 9). Here, the second feature F2 is the second feature F2 selected by the second
そして、第2の推定モデルPM2は、補完された3次元点群データIPCD2の各データ点のセグメンテーションに関する推定ラベルPL2を出力する。 Then, the second estimation model PM2 outputs estimated labels PL2 for the segmentation of each data point of the interpolated 3D point cloud data IPCD2.
(情報処理装置1Aによる効果)
以上のように、情報処理装置1Aにおいては、学習フェーズにおいて、
・入力データを取得し、
・前記入力データから3次元点群データを生成し、
・前記入力データ及び前記3次元点群データの少なくとも何れかに対して間引き処理を適用することによって3次元間引き点群データを生成し、
・点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルを、前記3次元点群データと、前記3次元間引き点群データとを参照して学習させる
という構成が採用されている。
(Effects of
As described above, in the learning phase, in the
- Obtain input data,
Generate three-dimensional point cloud data from the input data;
applying a thinning process to at least one of the input data and the three-dimensional point cloud data to generate three-dimensional thinned point cloud data;
A configuration is adopted in which an estimation model that takes point cloud data as input and outputs complemented point cloud data and segmentation labels related to the complemented point cloud data is trained by referring to the 3D point cloud data and the 3D thinned point cloud data.
また、情報処理装置1Aにおいては、推定フェーズにおいて、
・入力データを取得し、
・前記入力データから3次元点群データを生成し、
・点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルであって、3次元点群データと、当該3次元点群データに対して間引き処理を適用することによって得られた3次元間引き点群データとを参照して機械学習された推定モデルを用いて、前記点群データ生成処理にて生成した3次元点群データに対応する補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを推定する
という構成が採用されている。
In addition, in the
- Obtain input data,
Generate three-dimensional point cloud data from the input data;
An estimation model that takes point cloud data as input and outputs complemented point cloud data and segmentation labels related to the complemented point cloud data, and is configured to estimate complemented point cloud data corresponding to the three-dimensional point cloud data generated in the point cloud data generation process and segmentation labels related to the complemented point cloud data using an estimation model that has been machine-learned by referring to three-dimensional point cloud data and three-dimensional thinned point cloud data obtained by applying a thinning process to the three-dimensional point cloud data.
上記のように構成された情報処理装置1Aによれば、学習フェーズにおいて、3次元点群データに対して間引き処理を適用することによって生成された3次元間引き点群データを参照して前記推定モデルを学習させる。そして、推定フェーズにおいて、当該機械学習済みの推定モデルを用いて、前記点群データ生成処理にて生成した3次元点群データに対応する補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを推定する。したがって、上記の構成によれば、コストの上昇を抑制しつつ、精度の高い推定モデルを用いた推定処理を行うことができる。
In the
また、上記のように構成された情報処理装置1Aによれば、学習フェーズにおいて、入力データ、3次元点群データ、及び3次元間引き点群データの少なくとも何れかに付随する第1の特徴量を更に参照して推定モデルPMを学習させ、推定フェーズにおいて、入力データ、及び3次元点群データの少なくとも何れかに付随する第2の特徴量を更に参照して推定モデルPMを用いた推定処理を行う。したがって、上記の構成によれば、上記の構成によれば、コストの上昇を抑制しつつ、より精度の高い推定モデルを用いた推定処理を行うことができる。
Furthermore, with the
(例示的実施形態2に関する付記事項)
上記の説明では、推定モデルPMを構成する第1の推定モデルPM1と第2の推定モデルPM2との関係が直列的である構成を例に挙げたが、当該例は本例示的実施形態を限定するものではない。例えば、第1の推定モデルPM1と第2の推定モデルPM2とが並列的又は部分的に並列的である構成を採用し、当該第1の推定モデルPM1と第2の推定モデルPM2とを同時に学習させる構成としてもよい。一例として、推定モデルPMが、
・第1のネットワークと、
・当該第1のネットワークの途中から枝分かれした第2のネットワークと
を備える構成とし、当該第1のネットワークの出力を参照して、上述した損失値CE_Loss(又はBCE_Loss)が算出され、当該第2のネットワークの出力を参照して、上述した損失値BCE_Loss(又はCE_Loss)が算出され、これらの損失値を含むトータルの損失値を参照して、上記第1のネットワーク及び第2のネットワークのパラメータを更新する構成としてもよい。このような構成によっても、本例示的実施形態に係る各種の効果を得ることができる。本明細書に記載の他の例示的実施形態についても同様である。
(Additional Notes Regarding Exemplary Embodiment 2)
In the above description, a configuration in which the first estimation model PM1 and the second estimation model PM2 constituting the estimation model PM are in series has been taken as an example, but this example does not limit the present exemplary embodiment. For example, a configuration in which the first estimation model PM1 and the second estimation model PM2 are in parallel or partially in parallel may be adopted, and the first estimation model PM1 and the second estimation model PM2 may be simultaneously trained. As an example, the estimation model PM is
- a first network;
A configuration may be adopted in which the first network is branched off from a second network, the above-mentioned loss value CE_Loss (or BCE_Loss) is calculated by referring to the output of the first network, the above-mentioned loss value BCE_Loss (or CE_Loss) is calculated by referring to the output of the second network, and the parameters of the first network and the second network are updated by referring to a total loss value including these loss values. With such a configuration, various effects according to this exemplary embodiment can be obtained. The same applies to other exemplary embodiments described in this specification.
〔第3の実施形態〕
本発明の実施形態の一例である第3の例示的実施形態について、図面を参照して詳細に説明する。上述した例示的実施形態にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。なお、本例示的実施形態において採用する各技術的手段の適用範囲は、本例示的実施形態に限定されない。すなわち、本例示的実施形態において採用する各技術的手段は、特段の技術的支障が生じない範囲で、本開示に含まれる他の例示的実施形態においても採用可能である。また、本例示的実施形態を説明するために参照する各図面に示される各技術的手段は、特段の技術的支障が生じない範囲で、本開示に含まれる他の例示的実施形態においても採用可能である。
Third Embodiment
A third exemplary embodiment, which is an example of an embodiment of the present invention, will be described in detail with reference to the drawings. Components having the same functions as those described in the above exemplary embodiment will be given the same reference numerals, and their description will be omitted as appropriate. The scope of application of each technical means adopted in this exemplary embodiment is not limited to this exemplary embodiment. That is, each technical means adopted in this exemplary embodiment can be adopted in other exemplary embodiments included in this disclosure to the extent that no particular technical hindrance occurs. In addition, each technical means shown in each drawing referred to for explaining this exemplary embodiment can be adopted in other exemplary embodiments included in this disclosure to the extent that no particular technical hindrance occurs.
(情報処理装置1Bの構成)
本例示的実施形態に係る情報処理装置1Bの構成について、図10を参照して説明する。図10は、情報処理装置1Bの構成を示すブロック図である。図10に示すように、情報処理装置1Bは、例示的実施形態2に係る情報処理装置1Aが備える各部に加え、投影部16を備えている。
(Configuration of
The configuration of the
また、情報処理装置1Bが備える記憶部20Bには、例示的実施形態2に係る情報処理装置1Aが備える記憶部20Aに格納された各データに加え、投影された点群データPPCD(投影後の点群データPPCDとも表記する)が格納されている。以下の説明では、情報処理装置1Aとは異なる点を中心に説明を行う。
In addition, the
(投影部16)
投影部16は、推定モデルPMが生成する補完された点群データを2次元面に投影することによって、投影後の点群データPPCDを生成する。ここで、当該2次元面は、一例として、学習フェーズにおいて間引き点群データ生成部13が3次元間引き点群データTPCDを生成する際には用いられなかったカメラ位置(視点)への投影に対応する2次元面である。
(Projection unit 16)
The
換言すれば、投影部16は、推定モデルPMが生成する補完された点群データを、学習フェーズにおいて間引き点群データ生成部13が3次元間引き点群データTPCDを生成する際には用いられなかったカメラ位置(視点)から投影することによって、投影後の点群データPPCDを生成するものであると表現してもよい。
In other words, the
ただし上記の例は、本例示的実施形態を限定するものではなく、投影部16は、推定モデルPMが生成する補完された点群データを、
・入力データINDに含まれるRGB値、デプス値、及び3次元点群データの少なくも何れかを撮像装置(LiDARも含む)が取得する際の、当該撮像装置の位置(視点)とは異なる位置(視点)
へ投影することによって投影後の点群データPPCDを生成する構成であると表現してもよい。或いは、投影部16は、推定モデルPMが生成する補完された点群データを、
・点群データ生成部12(22)が3次元点群データPCDを生成する際に参照する、入力データINDに含まれるRGB値、デプス値、及び3次元点群データの少なくも何れかに関する視点とは異なる視点
へ投影することによって投影後の点群データPPCDを生成する構成であると表現してもよい。
However, the above example does not limit the present exemplary embodiment, and the
A position (viewpoint) different from the position (viewpoint) of an imaging device (including LiDAR) when the imaging device acquires at least one of the RGB values, depth values, and 3D point cloud data included in the input data IND.
Alternatively, the
It may also be expressed as a configuration in which the projected point cloud data PPCD is generated by projecting to a viewpoint different from the viewpoint for at least any of the RGB values, depth values, and three-dimensional point cloud data contained in the input data IND that the point cloud data generation unit 12 (22) refers to when generating the three-dimensional point cloud data PCD.
(学習部14)
本例示的実施形態に係る学習部14は、前記投影後の点群データPPCDと、当該投影後の点群データに対応するセグメンテーション正解ラベルGTLとを更に参照して、前記推定モデルを学習させる。
(Learning Unit 14)
The
一例として、学習部14は、前記投影後の点群データPPCDに対して推定モデルPMが推定した推定ラベルと、前記取得部11が取得したセグメンテーション正解ラベルGTLとの相違を示す第3の損失値(第3の損失関数)CE_2D_Lossを算出する。そして、学習部14は、例示的実施形態2において説明した第1の損失値BCE_Loss、第2の損失値CE_Loss、及び前記第3の損失値CE_2D_Lossの線形和を用いて、トータルの損失値(Loss_total)を
Loss_total = CE_Loss + α×BCE_Loss + β×CE_2D_Loss
によって算出する。そして、学習部14は、当該トータルの損失値(Loss_total)の値がより小さくなるよう、第1の推定モデルPM1及び第2の推定モデルPM2のパラメータを更新する。ここで、α及びβは、適宜設定可能な重み係数を示す。なお、上記第3の損失値CE_2D_Lossは投影部16によって行う構成としてもよい。
As an example, the
The
(学習フェーズにおけるデータの流れ)
続いて、情報処理装置1Bの学習フェーズにおけるデータの流れについて、図11を参照して説明する。
(Data flow during the learning phase)
Next, the flow of data in the learning phase of the
図11は、情報処理装置1Bの学習フェーズにおけるデータの流れの例を説明するための図である。図11に示すように、情報処理装置1Bの学習フェーズでは、図6を用いて説明した情報処理装置1Aの学習フェーズにおけるデータの流れに加え、
・取得部11から投影部16へのセグメンテーション正解ラベルGTLが供給され、
・第1の推定モデル学習部141から、第1の推定モデルPM1によって生成された補完された3次元点群データIPCDが供給され、
・第2の推定モデル学習部142から、第2の推定モデルPM2が推定した推定ラベルであって、投影部16による投影後の3次元点群データPPCDの各データ点に関する推定ラベルPLが供給される。
11 is a diagram for explaining an example of the data flow in the learning phase of the
The segmentation correct label GTL is supplied from the
The first estimation
The second estimation
そして、投影部16は、セグメンテーション正解ラベルGTLと推定ラベルPLとの相違を示す第3の損失値CE_2D_Lossを算出し、学習部14に供給する。そして、学習部14は、上述したように第1の損失値BCE_Loss、第2の損失値CE_Loss、及び前記第3の損失値CE_2D_Lossの線形和を用いて、トータルの損失値(Loss_total)を算出する。そして、学習部14は、当該トータルの損失値(Loss_total)の値がより小さくなるよう、第1の推定モデルPM1及び第2の推定モデルPM2のパラメータを更新する。
Then, the
(情報処理装置1Bによる効果)
以上のように構成された情報処理装置1Bによれば、
・推定モデルPMが生成する補完された点群データIPCDを2次元面に投影することによって、投影後の点群データPPCDを生成し、
・学習部14は、前記投影後の点群データPPCDと、当該投影後の点群データPPCDに対応するセグメンテーション正解ラベルGTLとを更に参照して、前記推定モデルPMを学習させる
という構成が採用されている。当該構成によれば、投影後の点群データPPCDを参照することにより、より好適な損失関数を構成することができるので、学習フェーズにおいて、推定精度のより高い推定モデルPMを生成することができる。また、推定フェーズにおいて、そのような推定モデルPMを用いて精度の高い推定を行うことができる。
(Effects of
According to the
The interpolated point cloud data IPCD generated by the estimation model PM is projected onto a two-dimensional plane to generate projected point cloud data PPCD;
The
〔第4の実施形態〕
本発明の実施形態の一例である第4の例示的実施形態について、図面を参照して詳細に説明する。上述した例示的実施形態にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。なお、本例示的実施形態において採用する各技術的手段の適用範囲は、本例示的実施形態に限定されない。すなわち、本例示的実施形態において採用する各技術的手段は、特段の技術的支障が生じない範囲で、本開示に含まれる他の例示的実施形態においても採用可能である。また、本例示的実施形態を説明するために参照する各図面に示される各技術的手段は、特段の技術的支障が生じない範囲で、本開示に含まれる他の例示的実施形態においても採用可能である。
Fourth embodiment
A fourth exemplary embodiment, which is an example of an embodiment of the present invention, will be described in detail with reference to the drawings. Components having the same functions as those described in the above exemplary embodiment will be given the same reference numerals, and their description will be omitted as appropriate. The scope of application of each technical means adopted in this exemplary embodiment is not limited to this exemplary embodiment. That is, each technical means adopted in this exemplary embodiment can be adopted in other exemplary embodiments included in this disclosure to the extent that no particular technical hindrance occurs. In addition, each technical means shown in each drawing referred to for explaining this exemplary embodiment can be adopted in other exemplary embodiments included in this disclosure to the extent that no particular technical hindrance occurs.
(情報処理装置1Cの構成)
本例示的実施形態に係る情報処理装置1Cの構成について、図12を参照して説明する。図12は、情報処理装置1Cの構成を示すブロック図である。図12に示すように、情報処理装置1Cが備える制御部10Cは、情報処理装置1Aが備える制御部10Aと同様の構成である。一方で、情報処理装置1Cが備える記憶部20Cには、例示的実施形態2に係る情報処理装置1Aが備える記憶部20Aに格納された各データに加え、間引き情報TIが格納されている。
(Configuration of
The configuration of the
ここで、当該間引き情報TIは、間引き点群データ生成部13が間引き処理を実行する際に、どのような間引き処理を行ったのかを示す情報である。以下の説明では、情報処理装置1Aとは異なる点を中心に説明を行う。
The thinning information TI here is information that indicates what type of thinning process was performed when the thinned point cloud
(間引き情報TI)
間引き情報TIは、間引き点群データ生成部13が間引き処理を実行する際に、どのような間引き処理を行ったのかを示す情報である。図13は、間引き情報TIの例を説明するための図である。
(Thinning-out information TI)
The thinning information TI is information indicating what type of thinning processing has been performed when the thinned point cloud
図13の上段には、学習フェーズにおいて取得部11が取得する入力データINDに含まれる複数のフレームが模式的に示されている。図13の上段に示す例では、一例として、右側に行くにつれて、フレーム番号が増大する。
The upper part of FIG. 13 shows a schematic representation of multiple frames included in the input data IND acquired by the
図13の下段左側には、間引き点群データ生成部13による間引き処理における間引きパターン1が示されている。ここで、網掛けされたフレームは3次元間引き点群データTPCDを生成する際に、間引き点群データ生成部13が参照するフレームであり、網掛けされていないフレーム(図13の下段左側における白いフレーム)は3次元間引き点群データTPCDを生成する際に、参照されないフレームである。換言すれば、網掛けされていないフレームは3次元間引き点群データTPCDを生成する際に、間引かれたフレームである。間引きパターン1では、ある連続する10フレームにおいて、
・2フレーム連続で参照し、
・その後の2フレーム連続で間引き
・その後の2フレーム連続で参照し、
・その後の2フレーム連続で間引き
・その後の2フレーム連続で参照する
という処理が行われる。
The lower left side of Fig. 13
- Refer to two consecutive frames,
- The next two consecutive frames are thinned out. - The next two consecutive frames are referenced.
The next two consecutive frames are thinned out, and the next two consecutive frames are referenced.
一方で、図13の下段右側には、間引き点群データ生成部13による間引き処理における間引きパターン2が示されている。間引きパターン2では、ある連続する10フレームにおいて、
・3フレーム連続で参照し、
・その後の2フレーム連続で間引き
・その後の2フレーム連続で参照し、
・その後の2フレーム連続で間引き
・その後の1フレームを参照する
という処理が行われる。
On the other hand, the lower right side of Fig. 13
- Refer to three consecutive frames,
- The next two consecutive frames are thinned out. - The next two consecutive frames are referenced.
The next two consecutive frames are then thinned out, and the next frame is referenced.
そして、間引き点群データ生成部13は、一例として、間引いたフレームを示すフレームインデックスを、間引き情報TIを記憶部20Cに格納する。間引き点群データ生成部13は、そのような間引き情報TIを参照することによって、同一の入力データIND又は同一の3次元点群データPCDに対して、複数の間引きパターンを用いて、互いに異なる複数の3次元間引き点群データTPCDを生成する。
Then, the thinned point cloud
このように、本例示的実施形態に係る情報処理装置1Cは、間引き点群データ生成部13で3次元間引き点群データTPCDを生成する際に、間引いたフレームインデックスを保持しておくことにより、異なる間引き方の3次元間引き点群データTPCDを一つのデータ入力データから複数作成することで、学習フェーズにおける学習に用いるデータの強を行うというものである。
In this way, the
(情報処理装置1Cによる効果)
以上のように構成された情報処理装置1Bによれば、学習フェーズにおいてより多くのデータを用いて推定モデルPMを学習させることができるので、より精度の高い推定モデルPMを生成することができる。また、そのような推定モデルPMを用いて、より精度の高い推定を行うことができる。
(Effects of
According to the
〔第5の実施形態〕
本発明の実施形態の一例である第5の例示的実施形態について、図面を参照して詳細に説明する。上述した例示的実施形態にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。なお、本例示的実施形態において採用する各技術的手段の適用範囲は、本例示的実施形態に限定されない。すなわち、本例示的実施形態において採用する各技術的手段は、特段の技術的支障が生じない範囲で、本開示に含まれる他の例示的実施形態においても採用可能である。また、本例示的実施形態を説明するために参照する各図面に示される各技術的手段は、特段の技術的支障が生じない範囲で、本開示に含まれる他の例示的実施形態においても採用可能である。
Fifth embodiment
A fifth exemplary embodiment, which is an example of an embodiment of the present invention, will be described in detail with reference to the drawings. Components having the same functions as those described in the above exemplary embodiment will be given the same reference numerals, and their description will be omitted as appropriate. The scope of application of each technical means adopted in this exemplary embodiment is not limited to this exemplary embodiment. That is, each technical means adopted in this exemplary embodiment can be adopted in other exemplary embodiments included in this disclosure, as long as no particular technical hindrance occurs. In addition, each technical means shown in each drawing referred to for explaining this exemplary embodiment can be adopted in other exemplary embodiments included in this disclosure, as long as no particular technical hindrance occurs.
(情報処理装置1Dの構成)
本例示的実施形態に係る情報処理装置1Dの構成について、図14を参照して説明する。図14は、情報処理装置1Dの構成を示すブロック図である。図14に示すように、情報処理装置1Dは、例示的実施形態2~4に係る情報処理装置1A、1B、1Cが備える各部のうち、以下の構成(又はデータ)を有しており、その他の構成について必須ではない。
・制御部10Dにおいて、取得部21、点群データ生成部22、推定部23、第2の特徴量選択部152、及び
・記憶部20Dにおいて、入力データIND、3次元点群データPCD、第2の特徴量F2、推定モデルPM、セグメンテーションデータSG。
(Configuration of
The configuration of the
- In the
換言すれば、情報処理装置1Dは、推定モデルPMを用いた推定フェーズの処理を行うための構成を有しているが、推定モデルPMを学習させるための構成は有していない。情報処理装置1Dが推定処理に用いる推定モデルPMは、一例として、例示的実施形態2~4に係る情報処理装置1A、1B、1Cによって学習された推定モデルPMを用いればよい。
In other words, the
上記のように構成された情報処理装置1Dによれば、3次元点群データに対して間引き処理を適用することによって生成された3次元間引き点群データを参照して機械学習された前記推定モデルPMを用いて、前記点群データ生成処理にて生成した3次元点群データに対応する補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを推定するので、コストの上昇を抑制しつつ、精度の高い推定モデルを用いた推定処理を行うことができる。したがって、上記の構成によれば、コストの上昇を抑制しつつ、精度の高いセグメンテーション技術を提供することができる。
The
(適用例)
以下では、上述の各例示的実施形態に係る情報処理装置1,1A,1B,1C,1Dの適用例について説明する。
(Examples of application)
In the following, application examples of the
上述の各例示的実施形態に係る情報処理装置1,1A,1B,1C,1D(以下、単に情報処理装置1等とも記載)は、一例として、医療・ヘルスケア分野に適用することもできる。当該分野において、本願の技術を利用すれば、患者を撮影した医療画像に基づくセグメンテーションを行うことによる医療応用が可能となる。
The
情報処理装置1等を、医療・ヘルスケア分野に適用する場合、例えば、以下のような処理フローに沿った処理を行えばよい。
When the
(ステップS101:スキャンステップ)
医師等医療従事者や医療スタッフは、撮像装置(内視鏡、fMRI等)を使って、患者の臓器(胃や腸等)等、関連する領域を撮像し、医療画像を生成する。そして、当該医療画像を、入力データINDとして、情報処理装置1等に入力する。
(Step S101: Scan step)
A medical professional such as a doctor or medical staff uses an imaging device (endoscope, fMRI, etc.) to capture images of a patient's organs (stomach, intestines, etc.) and generate a medical image. Then, the medical image is input to an
(ステップS102:3Dモデリングステップ)
続いて、情報処理装置1等が備える点群データ生成部12(22)は、上記入力データINDを参照して、当該入力データINDに対応する3次元点群データPCDを生成する。ここで、点群データ生成部12(22)が生成した3次元点群データPCDは、一例として、入出力部40が備えるディスプレイ等を介して、医療従事者、医療スタッフ、及び患者等に提示される構成としてもよい。なお、本ステップは、学習フェーズ及び推定フェーズの双方に対して適用することが可能である。
(Step S102: 3D modeling step)
Next, the point cloud data generating unit 12 (22) included in the
(ステップS103A:意思決定ステップ)
続いて、情報処理装置1等が備える推定部23は、機械学習された推定モデルPMを用いて、上記医療画像に対してセマンティックセグメンテーションを行い、セグメンテーション結果を出力する。ここで、当該セマンティックセグメンテーションにより、一例として、病変箇所(炎症・潰瘍・ポリープ)・正常箇所、部位、等のセグメンテーション(領域分類)が行われる。これにより、医療従事者は、例えば、治療計画を立てることができる。したがって、本装置は医療従事者による診断の意思決定を支援することができる。
(Step S103A: decision making step)
Next, the
(ステップS103B:意思決定ステップ)
ステップS103Aの処理に代えて、又はステップS103Aと共に、情報処理装置1等は以下の処理を行ってもよい。すなわち、情報処理装置1等の推定部23は、第1の推定モデルPM1によって補完された(一例として欠損補完された)3次元点群データIPCD(または、当該欠損補完された3次元点群データIPCDに基づき構成された3Dモデル)を出力する。当該出力処理は、一例として、入出力部40が備えるディスプレイ等を介して、医療従事者の提示という形式で行われ得る。医療従事者は、当該補完された3次元点群データ(3Dモデル)を参照することで、例えば、患者の臓器の状態を理解することができる。したがって、本装置は医療従事者による診断の意思決定を支援することができる。
(Step S103B: decision making step)
Instead of the process of step S103A, or together with step S103A, the
このように、本適用例において、情報処理装置1等の取得部11(21)は、前記入力データとして医療画像を取得し、推定部23は、医療従事者の意思決定を支援するための前記セグメンテーション結果を提示する提示手段として機能する。
In this manner, in this application example, the acquisition unit 11 (21) of the
〔ソフトウェアによる実現例〕
情報処理装置1,1A,1B,1C,1D(以下、「上記各装置」とも記載する)の一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
[Software implementation example]
Some or all of the functions of the
後者の場合、上記各装置は、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例(以下、コンピュータCと記載する)を図15に示す。図15は、上記各装置として機能するコンピュータCのハードウェア構成を示すブロック図である。 In the latter case, each of the above devices is realized, for example, by a computer that executes instructions of a program, which is software that realizes each function. An example of such a computer (hereinafter referred to as computer C) is shown in FIG. 15. FIG. 15 is a block diagram showing the hardware configuration of computer C that functions as each of the above devices.
コンピュータCは、少なくとも1つのプロセッサC1と、少なくとも1つのメモリC2と、を備えている。メモリC2には、コンピュータCを上記各装置として動作させるためのプログラムPが記録されている。コンピュータCにおいて、プロセッサC1は、プログラムPをメモリC2から読み取って実行することにより、上記各装置の各機能が実現される。 Computer C has at least one processor C1 and at least one memory C2. Memory C2 stores a program P for operating computer C as each of the above devices. In computer C, processor C1 reads and executes program P from memory C2, thereby realizing each function of each of the above devices.
プロセッサC1としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、TPU(Tensor Processing Unit)、量子プロセッサ、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリC2としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。 The processor C1 may be, for example, a CPU (Central Processing Unit), GPU (Graphic Processing Unit), DSP (Digital Signal Processor), MPU (Micro Processing Unit), FPU (Floating point number Processing Unit), PPU (Physics Processing Unit), TPU (Tensor Processing Unit), quantum processor, microcontroller, or a combination of these. The memory C2 may be, for example, a flash memory, HDD (Hard Disk Drive), SSD (Solid State Drive), or a combination of these.
なお、コンピュータCは、プログラムPを実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータCは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータCは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。 Computer C may further include a RAM (Random Access Memory) for expanding program P during execution and for temporarily storing various data. Computer C may further include a communications interface for sending and receiving data to and from other devices. Computer C may further include an input/output interface for connecting input/output devices such as a keyboard, mouse, display, and printer.
また、プログラムPは、コンピュータCが読み取り可能な、一時的でない有形の記録媒体Mに記録することができる。このような記録媒体Mとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータCは、このような記録媒体Mを介してプログラムPを取得することができる。また、プログラムPは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータCは、このような伝送媒体を介してプログラムPを取得することもできる。 The program P can also be recorded on a non-transitory, tangible recording medium M that can be read by the computer C. Such a recording medium M can be, for example, a tape, a disk, a card, a semiconductor memory, or a programmable logic circuit. The computer C can obtain the program P via such a recording medium M. The program P can also be transmitted via a transmission medium. Such a transmission medium can be, for example, a communications network or broadcast waves. The computer C can also obtain the program P via such a transmission medium.
〔付記事項A〕
本開示には、以下の各付記に記載の技術が含まれる。ただし、本発明は、以下の各付記に記載の技術に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。
[Appendix A]
This disclosure includes the techniques described in the following appendices. However, the present invention is not limited to the techniques described in the following appendices, and various modifications are possible within the scope of the claims.
(付記A1)
入力データを取得する取得手段と、
前記入力データから3次元点群データを生成する点群データ生成手段と、
前記入力データ及び前記3次元点群データの少なくとも何れかに対して間引き処理を適用することによって3次元間引き点群データを生成する間引き点群データ生成手段と、
点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルを、前記3次元点群データと、前記3次元間引き点群データとを参照して学習させる学習手段と
を備えている情報処理装置。
(Appendix A1)
An acquisition means for acquiring input data;
a point cloud data generating means for generating three-dimensional point cloud data from the input data;
a thinned point cloud data generating means for generating three-dimensional thinned point cloud data by applying a thinning process to at least one of the input data and the three-dimensional point cloud data;
and a learning means for learning an estimation model that receives point cloud data as input and outputs complemented point cloud data and segmentation labels related to the complemented point cloud data, by referring to the three-dimensional point cloud data and the three-dimensional thinned point cloud data.
(付記A2)
前記間引き点群データ生成手段による間引き処理には、
前記入力データに含まれる複数のフレームのうち、一部のフレームのみを用いて、前記3次元間引き点群データを生成する処理が含まれる
付記A1に記載の情報処理装置。
(Appendix A2)
The thinning process by the thinned point cloud data generating means includes the following steps:
The information processing device according to claim A1, further comprising a process of generating the three-dimensional thinned point cloud data using only a portion of a plurality of frames included in the input data.
(付記A3)
前記間引き点群データ生成手段による間引き処理には、
前記入力データ及び前記3次元点群データの少なくとも何れかに含まれる複数のデータ点のうち、一部のデータ点のみを用いて、前記3次元間引き点群データを生成する処理が含まれる
付記A1又はA2に記載の情報処理装置。
(Appendix A3)
The thinning process by the thinned point cloud data generating means includes the following steps:
The information processing device described in Appendix A1 or A2 includes a process of generating the three-dimensional thinned point cloud data using only a portion of the multiple data points included in at least one of the input data and the three-dimensional point cloud data.
(付記A4)
前記学習手段は、前記3次元間引き点群データに付随する特徴量を更に参照して、前記推定モデルを学習させる
付記A1に記載の情報処理装置。
(Appendix A4)
The information processing device according to
(付記A5)
前記推定モデルは、
点群データを入力が入力され、補完された点群データを出力する第1の推定モデルと、
前記補完された点群データが少なくとも入力され、前記補完された点群データに関するセグメンテーションラベルを出力とする第2の推定モデルと
を含んでいる
付記A1又はA2に記載の情報処理装置。
(Appendix A5)
The estimation model is
a first estimation model that receives point cloud data and outputs interpolated point cloud data;
and a second estimation model that receives at least the complemented point cloud data and outputs a segmentation label related to the complemented point cloud data.
(付記A6)
前記推定モデルが生成する補完された点群データを2次元面に投影することによって、投影後の点群データを生成する投影手段を更に備え、
前記学習手段は、前記投影後の点群データと、当該投影後の点群データに対応するセグメンテーション正解ラベルとを更に参照して、前記推定モデルを学習させる
付記A1からA5の何れか1つに記載の情報処理装置。
(Appendix A6)
a projection unit for projecting the interpolated point cloud data generated by the estimation model onto a two-dimensional surface to generate projected point cloud data;
The information processing device according to any one of Appendices A1 to A5, wherein the learning means further refers to the projected point cloud data and a segmentation answer label corresponding to the projected point cloud data to learn the estimation model.
(付記A7)
前記間引き点群データ生成手段は、同一の前記入力データ又は同一の前記3次元点群データに対して、互いに異なる複数の3次元間引き点群データを生成する
付記A1からA6の何れか1つに記載の情報処理装置。
(Appendix A7)
The information processing device according to any one of appendices A1 to A6, wherein the thinned point cloud data generation means generates a plurality of mutually different three-dimensional thinned point cloud data for the same input data or the same three-dimensional point cloud data.
(付記A8)
入力データを取得する取得手段と、
前記入力データから3次元点群データを生成する点群データ生成手段と、
点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルであって、3次元点群データと、当該3次元点群データに対して間引き処理を適用することによって得られた3次元間引き点群データとを参照して機械学習された推定モデルを用いて、前記点群データ生成手段が生成した3次元点群データに対応する補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを推定する推定手段と
を備えている情報処理装置。
(Appendix A8)
An acquisition means for acquiring input data;
a point cloud data generating means for generating three-dimensional point cloud data from the input data;
An information processing device comprising: an estimation means for estimating, using an estimation model trained by machine learning with reference to three-dimensional point cloud data and three-dimensional thinned point cloud data obtained by applying a thinning process to the three-dimensional point cloud data, the complemented point cloud data corresponding to the three-dimensional point cloud data generated by the point cloud data generation means and the segmentation label related to the complemented point cloud data, the estimation model having point cloud data as input and complemented point cloud data and segmentation labels related to the complemented point cloud data as output.
(付記A9)
前記推定手段によって推定されたセグメンテーションラベルが示すセグメンテーション結果を提示する提示手段を備えている
付記A8に記載の情報処理装置。
(Appendix A9)
The information processing device according to claim A8, further comprising a presentation means for presenting a segmentation result indicated by the segmentation label estimated by the estimation means.
(付記A10)
前記取得手段は、前記入力データとして医療画像を取得し、
前記提示手段は、医療従事者の意思決定を支援するための前記セグメンテーション結果を提示する
付記A9に記載の情報処理装置。
(Appendix A10)
The acquisition means acquires a medical image as the input data,
The information processing device according to claim 9, wherein the presentation means presents the segmentation result to assist a medical professional in making a decision.
(付記A11)
前記推定手段は、前記点群データ生成手段が生成した3次元点群データに付随する特徴量を更に参照して、前記点群データ生成手段が生成した3次元点群データに対応する補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを推定する
付記A8からA10の何れか1つに記載の情報処理装置。
(Appendix A11)
The information processing device according to any one of Appendices A8 to A10, wherein the estimation means further refers to features accompanying the three-dimensional point cloud data generated by the point cloud data generation means, and estimates complemented point cloud data corresponding to the three-dimensional point cloud data generated by the point cloud data generation means and a segmentation label related to the complemented point cloud data.
(付記A12)
前記推定モデルは、
点群データを入力とし、補完された点群データを出力とする第1の推定モデルと、
少なくとも前記補完された点群データが入力され、当該補完された点群データに関するセグメンテーションラベルを出力とする第2の推定モデルと
を含んでいる
付記A8からA11の何れか1つに記載の情報処理装置。
(Appendix A12)
The estimation model is
A first estimation model that receives point cloud data as input and outputs interpolated point cloud data;
and a second estimation model that receives at least the complemented point cloud data and outputs a segmentation label related to the complemented point cloud data.
〔付記事項B〕
本開示には、以下の各付記に記載の技術が含まれる。ただし、本発明は、以下の各付記に記載の技術に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。
[Appendix B]
This disclosure includes the techniques described in the following appendices. However, the present invention is not limited to the techniques described in the following appendices, and various modifications are possible within the scope of the claims.
(付記B1)
入力データを取得する取得工程と、
前記入力データから3次元点群データを生成する点群データ生成工程と、
前記入力データ及び前記3次元点群データの少なくとも何れかに対して間引き処理を適用することによって3次元間引き点群データを生成する間引き点群データ生成工程と、
点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルを、前記3次元点群データと、前記3次元間引き点群データとを参照して学習させる学習工程と
を含んでいる情報処理方法。
(Appendix B1)
An acquisition step of acquiring input data;
a point cloud data generation step of generating three-dimensional point cloud data from the input data;
a thinned point cloud data generating step of generating three-dimensional thinned point cloud data by applying a thinning process to at least one of the input data and the three-dimensional point cloud data;
an information processing method including a learning process for learning an estimation model that receives point cloud data as input and outputs complemented point cloud data and segmentation labels related to the complemented point cloud data, by referring to the three-dimensional point cloud data and the three-dimensional thinned point cloud data.
(付記B2)
前記間引き点群データ生成工程による間引き処理には、
前記入力データに含まれる複数のフレームのうち、一部のフレームのみを用いて、前記3次元間引き点群データを生成する処理が含まれる
付記B1に記載の情報処理方法。
(Appendix B2)
The thinning process in the thinned point cloud data generation step includes the following steps:
The information processing method according to claim B1, further comprising a process of generating the three-dimensional thinned point cloud data using only a portion of a plurality of frames included in the input data.
(付記B3)
前記間引き点群データ生成工程による間引き処理には、
前記入力データ及び前記3次元点群データの少なくとも何れかに含まれる複数のデータ点のうち、一部のデータ点のみを用いて、前記3次元間引き点群データを生成する処理が含まれる
付記B1又はB2に記載の情報処理方法。
(Appendix B3)
The thinning process in the thinned point cloud data generation step includes the following steps:
The information processing method described in Appendix B1 or B2 includes a process of generating the three-dimensional thinned point cloud data using only a portion of the multiple data points included in at least one of the input data and the three-dimensional point cloud data.
(付記B4)
前記学習工程は、前記3次元間引き点群データに付随する特徴量を更に参照して、前記推定モデルを学習させる
付記B1に記載の情報処理方法。
(Appendix B4)
The information processing method according to
(付記B5)
前記推定モデルは、
点群データを入力が入力され、補完された点群データを出力する第1の推定モデルと、
前記補完された点群データが少なくとも入力され、前記補完された点群データに関するセグメンテーションラベルを出力とする第2の推定モデルと
を含んでいる
付記B1又はB2に記載の情報処理方法。
(Appendix B5)
The estimation model is
a first estimation model that receives point cloud data and outputs interpolated point cloud data;
The information processing method according to
(付記B6)
前記推定モデルが生成する補完された点群データを2次元面に投影することによって、投影後の点群データを生成する投影工程を更に含み、
前記学習工程は、前記投影後の点群データと、当該投影後の点群データに対応するセグメンテーション正解ラベルとを更に参照して、前記推定モデルを学習させる
付記B1からB5の何れか1つに記載の情報処理方法。
(Appendix B6)
The method further includes a projection step of generating projected point cloud data by projecting the interpolated point cloud data generated by the estimation model onto a two-dimensional surface,
The information processing method according to any one of Appendices B1 to B5, wherein the learning step further refers to the projected point cloud data and a segmentation answer label corresponding to the projected point cloud data to learn the estimation model.
(付記B7)
前記間引き点群データ生成工程は、同一の前記入力データ又は同一の前記3次元点群データに対して、互いに異なる複数の3次元間引き点群データを生成する
付記B1からB6の何れか1つに記載の情報処理方法。
(Appendix B7)
The information processing method according to any one of appendices B1 to B6, wherein the thinned point cloud data generation step generates a plurality of mutually different three-dimensional thinned point cloud data for the same input data or the same three-dimensional point cloud data.
(付記B8)
入力データを取得する取得工程と、
前記入力データから3次元点群データを生成する点群データ生成工程と、
点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルであって、3次元点群データと、当該3次元点群データに対して間引き処理を適用することによって得られた3次元間引き点群データとを参照して機械学習された推定モデルを用いて、前記点群データ生成工程が生成した3次元点群データに対応する補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを推定する推定工程と
を含んでいる情報処理方法。
(Appendix B8)
An acquisition step of acquiring input data;
a point cloud data generation step of generating three-dimensional point cloud data from the input data;
An information processing method comprising: an estimation step of estimating the complemented point cloud data corresponding to the three-dimensional point cloud data generated in the point cloud data generation step and the segmentation label related to the complemented point cloud data, using an estimation model that has been machine-learned by referring to three-dimensional point cloud data and three-dimensional thinned point cloud data obtained by applying a thinning process to the three-dimensional point cloud data, and the segmentation label related to the complemented point cloud data, the estimation model having point cloud data as input and complemented point cloud data and segmentation labels related to the complemented point cloud data as output.
(付記B9)
前記推定工程によって推定されたセグメンテーションラベルが示すセグメンテーション結果を提示する提示工程を含んでいる
付記B8に記載の情報処理方法。
(Appendix B9)
The information processing method according to appended claim B8, further comprising a presentation step of presenting a segmentation result indicated by the segmentation label estimated by the estimation step.
(付記B10)
前記取得工程は、前記入力データとして医療画像を取得し、
前記提示工程は、医療従事者の意思決定を支援するための前記セグメンテーション結果を提示する
付記B9に記載の情報処理方法。
(Appendix B10)
The acquiring step acquires a medical image as the input data;
The information processing method according to claim 9, wherein the presentation step presents the segmentation results to assist a medical professional in making a decision.
(付記B11)
前記推定工程は、前記点群データ生成工程が生成した3次元点群データに付随する特徴量を更に参照して、前記点群データ生成工程が生成した3次元点群データに対応する補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを推定する
付記B8からB10の何れか1つに記載の情報処理方法。
(Appendix B11)
The information processing method according to any one of Appendices B8 to B10, wherein the estimation step further refers to features associated with the three-dimensional point cloud data generated by the point cloud data generation step, and estimates complemented point cloud data corresponding to the three-dimensional point cloud data generated by the point cloud data generation step and a segmentation label related to the complemented point cloud data.
(付記B12)
前記推定モデルは、
点群データを入力とし、補完された点群データを出力とする第1の推定モデルと、
少なくとも前記補完された点群データが入力され、当該補完された点群データに関するセグメンテーションラベルを出力とする第2の推定モデルと
を含んでいる
付記B8からB11の何れか1つに記載の情報処理方法。
(Appendix B12)
The estimation model is
A first estimation model that receives point cloud data as input and outputs interpolated point cloud data;
and a second estimation model that receives at least the complemented point cloud data and outputs a segmentation label related to the complemented point cloud data.
〔付記事項C〕
本開示には、以下の各付記に記載の技術が含まれる。ただし、本発明は、以下の各付記に記載の技術に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。
[Appendix C]
This disclosure includes the techniques described in the following appendices. However, the present invention is not limited to the techniques described in the following appendices, and various modifications are possible within the scope of the claims.
(付記C1)
情報処理装置としてコンピュータを機能させるプログラムであって、
前記コンピュータを、
入力データを取得する取得手段と、
前記入力データから3次元点群データを生成する点群データ生成手段と、
前記入力データ及び前記3次元点群データの少なくとも何れかに対して間引き処理を適用することによって3次元間引き点群データを生成する間引き点群データ生成手段と、
点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルを、前記3次元点群データと、前記3次元間引き点群データとを参照して学習させる学習手段と
として機能させる情報処理プログラム。
(Appendix C1)
A program for causing a computer to function as an information processing device,
The computer,
An acquisition means for acquiring input data;
a point cloud data generating means for generating three-dimensional point cloud data from the input data;
a thinned point cloud data generating means for generating three-dimensional thinned point cloud data by applying a thinning process to at least one of the input data and the three-dimensional point cloud data;
An information processing program that functions as a learning means that receives point cloud data as input, and learns an estimation model that outputs complemented point cloud data and segmentation labels related to the complemented point cloud data, by referring to the three-dimensional point cloud data and the three-dimensional thinned point cloud data.
(付記C2)
前記間引き点群データ生成手段による間引き処理には、
前記入力データに含まれる複数のフレームのうち、一部のフレームのみを用いて、前記3次元間引き点群データを生成する処理が含まれる
付記C1に記載の情報処理プログラム。
(Appendix C2)
The thinning process by the thinned point cloud data generating means includes the following steps:
The information processing program according to claim C1, further comprising a process of generating the three-dimensional thinned point cloud data using only a portion of a plurality of frames included in the input data.
(付記C3)
前記間引き点群データ生成手段による間引き処理には、
前記入力データ及び前記3次元点群データの少なくとも何れかに含まれる複数のデータ点のうち、一部のデータ点のみを用いて、前記3次元間引き点群データを生成する処理が含まれる
付記C1又はC2に記載の情報処理プログラム。
(Appendix C3)
The thinning process by the thinned point cloud data generating means includes the following steps:
The information processing program described in Appendix C1 or C2 includes a process of generating the three-dimensional thinned point cloud data using only a portion of the multiple data points included in at least one of the input data and the three-dimensional point cloud data.
(付記C4)
前記学習手段は、前記3次元間引き点群データに付随する特徴量を更に参照して、前記推定モデルを学習させる
付記C1に記載の情報処理プログラム。
(Appendix C4)
The information processing program according to
(付記C5)
前記推定モデルは、
点群データを入力が入力され、補完された点群データを出力する第1の推定モデルと、
前記補完された点群データが少なくとも入力され、前記補完された点群データに関するセグメンテーションラベルを出力とする第2の推定モデルと
を含んでいる
付記C1又はC2に記載の情報処理プログラム。
(Appendix C5)
The estimation model is
a first estimation model that receives point cloud data and outputs interpolated point cloud data;
and a second estimation model that receives at least the complemented point cloud data and outputs a segmentation label related to the complemented point cloud data.
(付記C6)
前記コンピュータを、
前記推定モデルが生成する補完された点群データを2次元面に投影することによって、投影後の点群データを生成する投影手段として更に機能させ、
前記学習手段は、前記投影後の点群データと、当該投影後の点群データに対応するセグメンテーション正解ラベルとを更に参照して、前記推定モデルを学習させる
付記C1からC5の何れか1つに記載の情報処理プログラム。
(Appendix C6)
The computer,
The projection unit further functions as a projection unit that generates projected point cloud data by projecting the interpolated point cloud data generated by the estimation model onto a two-dimensional surface;
The information processing program according to any one of appendices C1 to C5, wherein the learning means further refers to the projected point cloud data and a segmentation answer label corresponding to the projected point cloud data to train the estimation model.
(付記C7)
前記間引き点群データ生成手段は、同一の前記入力データ又は同一の前記3次元点群データに対して、互いに異なる複数の3次元間引き点群データを生成する
付記C1からC6の何れか1つに記載の情報処理プログラム。
(Appendix C7)
The information processing program according to any one of appendices C1 to C6, wherein the thinned point cloud data generation means generates multiple different three-dimensional thinned point cloud data for the same input data or the same three-dimensional point cloud data.
(付記C8)
前記コンピュータを、
入力データを取得する取得手段と、
前記入力データから3次元点群データを生成する点群データ生成手段と、
点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルであって、3次元点群データと、当該3次元点群データに対して間引き処理を適用することによって得られた3次元間引き点群データとを参照して機械学習された推定モデルを用いて、前記点群データ生成手段が生成した3次元点群データに対応する補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを推定する推定手段と
として機能させる情報処理プログラム。
(Appendix C8)
The computer,
An acquisition means for acquiring input data;
a point cloud data generating means for generating three-dimensional point cloud data from the input data;
An information processing program that functions as an estimation means for estimating complemented point cloud data corresponding to the three-dimensional point cloud data generated by the point cloud data generation means and a segmentation label related to the complemented point cloud data, using an estimation model that has been machine-learned by referring to three-dimensional point cloud data and three-dimensional thinned point cloud data obtained by applying a thinning process to the three-dimensional point cloud data, and an estimation model that has been machine-learned by referring to the three-dimensional point cloud data and three-dimensional thinned point cloud data obtained by applying a thinning process to the three-dimensional point cloud data.
(付記C9)
前記コンピュータを、
前記推定手段によって推定されたセグメンテーションラベルが示すセグメンテーション結果を提示する提示手段として機能させる
付記C8に記載の情報処理プログラム。
(Appendix C9)
The computer,
The information processing program according to claim C8, which functions as a presentation means for presenting a segmentation result indicated by the segmentation label estimated by the estimation means.
(付記C10)
前記取得手段は、前記入力データとして医療画像を取得し、
前記提示手段は、医療従事者の意思決定を支援するための前記セグメンテーション結果を提示する
付記C9に記載の情報処理プログラム。
(Appendix C10)
The acquisition means acquires a medical image as the input data,
The information processing program according to claim C9, wherein the presentation means presents the segmentation results to assist medical personnel in making decisions.
(付記C11)
前記推定手段は、前記点群データ生成手段が生成した3次元点群データに付随する特徴量を更に参照して、前記点群データ生成手段が生成した3次元点群データに対応する補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを推定する
付記C8からC10の何れか1つに記載の情報処理プログラム。
(Appendix C11)
The information processing program according to any one of Appendices C8 to C10, wherein the estimation means further refers to features associated with the three-dimensional point cloud data generated by the point cloud data generation means, and estimates complemented point cloud data corresponding to the three-dimensional point cloud data generated by the point cloud data generation means and a segmentation label related to the complemented point cloud data.
(付記C12)
前記推定モデルは、
点群データを入力とし、補完された点群データを出力とする第1の推定モデルと、
少なくとも前記補完された点群データが入力され、当該補完された点群データに関するセグメンテーションラベルを出力とする第2の推定モデルと
を含んでいる
付記C8からC11の何れか1つに記載の情報処理プログラム。
(Appendix C12)
The estimation model is
A first estimation model that receives point cloud data as input and outputs interpolated point cloud data;
and a second estimation model that receives at least the complemented point cloud data and outputs a segmentation label related to the complemented point cloud data.
〔付記事項D〕
本開示には、以下の各付記に記載の技術が含まれる。ただし、本発明は、以下の各付記に記載の技術に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。
[Appendix D]
This disclosure includes the techniques described in the following appendices. However, the present invention is not limited to the techniques described in the following appendices, and various modifications are possible within the scope of the claims.
(付記D1)
少なくとも1つのプロセッサを備え、前記少なくとも1つのプロセッサは、
入力データを取得する取得処理と、
前記入力データから3次元点群データを生成する点群データ生成処理と、
前記入力データ及び前記3次元点群データの少なくとも何れかに対して間引き処理を適用することによって3次元間引き点群データを生成する間引き点群データ生成処理と、
点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルを、前記3次元点群データと、前記3次元間引き点群データとを参照して学習させる学習処理と
を実行する情報処理装置。
(Appendix D1)
At least one processor, the at least one processor comprising:
An acquisition process for acquiring input data;
A point cloud data generation process for generating three-dimensional point cloud data from the input data;
a thinned point cloud data generation process for generating three-dimensional thinned point cloud data by applying a thinning process to at least one of the input data and the three-dimensional point cloud data;
An information processing device that executes a learning process in which point cloud data is input, and an estimation model that outputs complemented point cloud data and segmentation labels related to the complemented point cloud data is trained by referring to the three-dimensional point cloud data and the three-dimensional thinned point cloud data.
(付記D2)
前記間引き点群データ生成処理による間引き処理には、
前記入力データに含まれる複数のフレームのうち、一部のフレームのみを用いて、前記3次元間引き点群データを生成する処理が含まれる
付記D1に記載の情報処理装置。
(Appendix D2)
The thinning process by the thinned point cloud data generation process includes the following steps:
The information processing device according to appendix D1, further comprising a process of generating the three-dimensional thinned point cloud data using only a portion of a plurality of frames included in the input data.
(付記D3)
前記間引き点群データ生成処理による間引き処理には、
前記入力データ及び前記3次元点群データの少なくとも何れかに含まれる複数のデータ点のうち、一部のデータ点のみを用いて、前記3次元間引き点群データを生成する処理が含まれる
付記D1又はD2に記載の情報処理装置。
(Appendix D3)
The thinning process by the thinned point cloud data generation process includes the following steps:
The information processing device described in Appendix D1 or D2 includes a process of generating the three-dimensional thinned point cloud data using only a portion of the multiple data points included in at least one of the input data and the three-dimensional point cloud data.
(付記D4)
前記学習処理において、前記少なくとも1つのプロセッサは、前記3次元間引き点群データに付随する特徴量を更に参照して、前記推定モデルを学習させる
付記D1に記載の情報処理装置。
(Appendix D4)
The information processing device according to
(付記D5)
前記推定モデルは、
点群データを入力が入力され、補完された点群データを出力する第1の推定モデルと、
前記補完された点群データが少なくとも入力され、前記補完された点群データに関するセグメンテーションラベルを出力とする第2の推定モデルと
を含んでいる
付記D1又はD2に記載の情報処理装置。
(Appendix D5)
The estimation model is
a first estimation model that receives point cloud data and outputs interpolated point cloud data;
The information processing device according to
(付記D6)
前記少なくとも1つのプロセッサが、
前記推定モデルが生成する補完された点群データを2次元面に投影することによって、投影後の点群データを生成する投影処理を更に実行し、
前記学習処理において、前記少なくとも1つのプロセッサは、前記投影後の点群データと、当該投影後の点群データに対応するセグメンテーション正解ラベルとを更に参照して、前記推定モデルを学習させる
付記D1からD5の何れか1つに記載の情報処理装置。
(Appendix D6)
The at least one processor:
A projection process is further performed to generate projected point cloud data by projecting the interpolated point cloud data generated by the estimation model onto a two-dimensional surface;
The information processing device according to any one of appendices D1 to D5, wherein in the learning process, the at least one processor further refers to the projected point cloud data and a segmentation answer label corresponding to the projected point cloud data to learn the estimation model.
(付記D7)
前記間引き点群データ生成処理は、同一の前記入力データ又は同一の前記3次元点群データに対して、互いに異なる複数の3次元間引き点群データを生成する
付記D1からD6の何れか1つに記載の情報処理装置。
(Appendix D7)
The information processing device according to any one of appendices D1 to D6, wherein the thinned point cloud data generation process generates multiple pieces of three-dimensional thinned point cloud data that are different from each other for the same input data or the same three-dimensional point cloud data.
(付記D8)
前記少なくとも1つのプロセッサは、
入力データを取得する取得処理と、
前記入力データから3次元点群データを生成する点群データ生成処理と、
点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルであって、3次元点群データと、当該3次元点群データに対して間引き処理を適用することによって得られた3次元間引き点群データとを参照して機械学習された推定モデルを用いて、前記点群データ生成処理が生成した3次元点群データに対応する補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを推定する推定処理と
を実行する情報処理装置。
(Appendix D8)
The at least one processor
An acquisition process for acquiring input data;
A point cloud data generation process for generating three-dimensional point cloud data from the input data;
An information processing device that executes an estimation process to estimate complemented point cloud data corresponding to the three-dimensional point cloud data generated by the point cloud data generation process and a segmentation label related to the complemented point cloud data, using an estimation model that has been machine-learned by referring to three-dimensional point cloud data and three-dimensional thinned point cloud data obtained by applying a thinning process to the three-dimensional point cloud data, and a segmentation label related to the complemented point cloud data.
(付記D9)
前記少なくとも1つのプロセッサは、
前記推定処理によって推定されたセグメンテーションラベルが示すセグメンテーション結果を提示する提示処理を実行する
付記D8に記載の情報処理装置。
(Appendix D9)
The at least one processor
The information processing device according to claim D8, which executes a presentation process of presenting a segmentation result indicated by the segmentation label estimated by the estimation process.
(付記D10)
前記取得処理において、前記少なくとも1つのプロセッサは、前記入力データとして医療画像を取得し、
前記提示処理において、前記少なくとも1つのプロセッサは、医療従事者の意思決定を支援するための前記セグメンテーション結果を提示する
付記D9に記載の情報処理装置。
(Appendix D10)
In the acquisition process, the at least one processor acquires a medical image as the input data;
The information processing device of claim D9, wherein in the presentation process, the at least one processor presents the segmentation results to assist a medical professional in making decisions.
(付記D11)
前記推定処理において、前記少なくとも1つのプロセッサは、前記点群データ生成処理が生成した3次元点群データに付随する特徴量を更に参照して、前記点群データ生成処理が生成した3次元点群データに対応する補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを推定する
付記D8からD10の何れか1つに記載の情報処理装置。
(Appendix D11)
The information processing device of any one of Appendices D8 to D10, wherein, in the estimation process, the at least one processor further refers to features associated with the three-dimensional point cloud data generated by the point cloud data generation process to estimate complemented point cloud data corresponding to the three-dimensional point cloud data generated by the point cloud data generation process and a segmentation label related to the complemented point cloud data.
(付記D12)
前記推定モデルは、
点群データを入力とし、補完された点群データを出力とする第1の推定モデルと、
少なくとも前記補完された点群データが入力され、当該補完された点群データに関するセグメンテーションラベルを出力とする第2の推定モデルと
を含んでいる
付記D8からD11の何れか1つに記載の情報処理装置。
(Appendix D12)
The estimation model is
A first estimation model that receives point cloud data as input and outputs interpolated point cloud data;
The information processing device according to any one of appendices D8 to D11, further including a second estimation model that receives at least the complemented point cloud data and outputs a segmentation label related to the complemented point cloud data.
〔付記事項E〕
本開示には、以下の各付記に記載の技術が含まれる。ただし、本発明は、以下の各付記に記載の技術に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。
[Appendix E]
This disclosure includes the techniques described in the following appendices. However, the present invention is not limited to the techniques described in the following appendices, and various modifications are possible within the scope of the claims.
(付記E1)
情報処理装置としてコンピュータを機能させるプログラムであって、
前記コンピュータに、
入力データを取得する取得処理と、
前記入力データから3次元点群データを生成する点群データ生成処理と、
前記入力データ及び前記3次元点群データの少なくとも何れかに対して間引き処理を適用することによって3次元間引き点群データを生成する間引き点群データ生成処理と、
点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルを、前記3次元点群データと、前記3次元間引き点群データとを参照して学習させる学習処理と
を実行させる情報処理プログラム、を記録した一時的でない記録媒体。
(Appendix E1)
A program for causing a computer to function as an information processing device,
The computer includes:
An acquisition process for acquiring input data;
A point cloud data generation process for generating three-dimensional point cloud data from the input data;
a thinned point cloud data generation process for generating three-dimensional thinned point cloud data by applying a thinning process to at least one of the input data and the three-dimensional point cloud data;
A non-transient recording medium having recorded thereon an information processing program that executes a learning process in which an estimation model is trained by inputting point cloud data and outputting complemented point cloud data and segmentation labels related to the complemented point cloud data, by referring to the three-dimensional point cloud data and the three-dimensional thinned point cloud data.
1,2,1A,1B,1C,1D ・・・情報処理装置
11,21 ・・・取得部(取得手段)
12,22 ・・・点群データ生成部(点群データ生成手段)
13 ・・・間引き点群データ生成部(間引き点群データ生成手段)
14 ・・・学習部(学習手段)
23 ・・・推定部(推定手段)
16 ・・・投影部(投影手段)
1, 2, 1A, 1B, 1C, 1D ...
12, 22 ... Point cloud data generation unit (point cloud data generation means)
13 ... Thinned point cloud data generation unit (thinned point cloud data generation means)
14 ... learning unit (learning means)
23... Estimation unit (estimation means)
16... Projection unit (projection means)
Claims (16)
前記入力データから3次元点群データを生成する点群データ生成手段と、
前記入力データ及び前記3次元点群データの少なくとも何れかに対して間引き処理を適用することによって3次元間引き点群データを生成する間引き点群データ生成手段と、
点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルを、前記3次元点群データと、前記3次元間引き点群データとを参照して学習させる学習手段と
を備えている情報処理装置。 An acquisition means for acquiring input data;
a point cloud data generating means for generating three-dimensional point cloud data from the input data;
a thinned point cloud data generating means for generating three-dimensional thinned point cloud data by applying a thinning process to at least one of the input data and the three-dimensional point cloud data;
and a learning means for learning an estimation model that receives point cloud data as input and outputs complemented point cloud data and segmentation labels related to the complemented point cloud data, by referring to the three-dimensional point cloud data and the three-dimensional thinned point cloud data.
前記入力データに含まれる複数のフレームのうち、一部のフレームのみを用いて、前記3次元間引き点群データを生成する処理が含まれる
請求項1に記載の情報処理装置。 The thinning process by the thinned point cloud data generating means includes the following steps:
The information processing apparatus according to claim 1 , further comprising a process of generating the three-dimensional thinned point cloud data by using only a portion of a plurality of frames included in the input data.
前記入力データ及び前記3次元点群データの少なくとも何れかに含まれる複数のデータ点のうち、一部のデータ点のみを用いて、前記3次元間引き点群データを生成する処理が含まれる
請求項1又は2に記載の情報処理装置。 The thinning process by the thinned point cloud data generating means includes the following steps:
The information processing apparatus according to claim 1 or 2, further comprising a process of generating the three-dimensional thinned point cloud data using only a portion of a plurality of data points included in at least one of the input data and the three-dimensional point cloud data.
請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1 , wherein the learning means learns the estimation model by further referring to feature amounts accompanying the three-dimensional thinned point cloud data.
点群データを入力が入力され、補完された点群データを出力する第1の推定モデルと、
前記補完された点群データが少なくとも入力され、前記補完された点群データに関するセグメンテーションラベルを出力とする第2の推定モデルと
を含んでいる
請求項1又は2に記載の情報処理装置。 The estimation model is
a first estimation model that receives point cloud data and outputs interpolated point cloud data;
The information processing apparatus according to claim 1 , further comprising: a second estimation model that receives at least the interpolated point cloud data and outputs a segmentation label related to the interpolated point cloud data.
前記学習手段は、前記投影後の点群データと、当該投影後の点群データに対応するセグメンテーション正解ラベルとを更に参照して、前記推定モデルを学習させる
請求項1から5の何れか1項に記載の情報処理装置。 a projection unit for projecting the interpolated point cloud data generated by the estimation model onto a two-dimensional surface to generate projected point cloud data;
The information processing device according to claim 1 , wherein the learning means learns the estimation model by further referring to the projected point cloud data and a segmentation correct answer label corresponding to the projected point cloud data.
請求項1から6の何れか1項に記載の情報処理装置。 The information processing apparatus according to claim 1 , wherein the thinned point cloud data generating means generates a plurality of mutually different three-dimensional thinned point cloud data for the same input data or the same three-dimensional point cloud data.
前記入力データから3次元点群データを生成する点群データ生成手段と、
点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルであって、3次元点群データと、当該3次元点群データに対して間引き処理を適用することによって得られた3次元間引き点群データとを参照して機械学習された推定モデルを用いて、前記点群データ生成手段が生成した3次元点群データに対応する補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを推定する推定手段と
を備えている情報処理装置。 An acquisition means for acquiring input data;
a point cloud data generating means for generating three-dimensional point cloud data from the input data;
An information processing device comprising: an estimation means for estimating, using an estimation model trained by machine learning with reference to three-dimensional point cloud data and three-dimensional thinned point cloud data obtained by applying a thinning process to the three-dimensional point cloud data, the complemented point cloud data corresponding to the three-dimensional point cloud data generated by the point cloud data generation means and the segmentation label related to the complemented point cloud data, the estimation model having point cloud data as input and complemented point cloud data and segmentation labels related to the complemented point cloud data as output.
請求項8に記載の情報処理装置。 The information processing apparatus according to claim 8 , further comprising: a presentation unit that presents a segmentation result indicated by the segmentation label estimated by the estimation unit.
前記提示手段は、医療従事者の意思決定を支援するための前記セグメンテーション結果を提示する
請求項9に記載の情報処理装置。 The acquisition means acquires a medical image as the input data,
The information processing apparatus according to claim 9 , wherein the presentation means presents the segmentation result to assist a medical professional in making a decision.
請求項8から10の何れか1項に記載の情報処理装置。 The information processing device according to any one of claims 8 to 10, wherein the estimation means further refers to features accompanying the three-dimensional point cloud data generated by the point cloud data generation means, and estimates complemented point cloud data corresponding to the three-dimensional point cloud data generated by the point cloud data generation means and a segmentation label related to the complemented point cloud data.
点群データを入力とし、補完された点群データを出力とする第1の推定モデルと、
少なくとも前記補完された点群データが入力され、当該補完された点群データに関するセグメンテーションラベルを出力とする第2の推定モデルと
を含んでいる
請求項8から11の何れか1項に記載の情報処理装置 The estimation model is
A first estimation model that receives point cloud data as input and outputs interpolated point cloud data;
and a second estimation model that receives at least the interpolated point cloud data and outputs a segmentation label related to the interpolated point cloud data.
前記入力データから3次元点群データを生成することと、
前記入力データ及び前記3次元点群データの少なくとも何れかに対して間引き処理を適用することによって3次元間引き点群データを生成することと、
点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルを、前記3次元点群データと、前記3次元間引き点群データとを参照して学習させることと
を含んでいる情報処理方法。 Obtaining input data;
generating three-dimensional point cloud data from the input data;
applying a thinning process to at least one of the input data and the three-dimensional point cloud data to generate three-dimensional thinned point cloud data;
An information processing method comprising: training an estimation model that receives point cloud data as input and outputs complemented point cloud data and segmentation labels related to the complemented point cloud data, by referring to the three-dimensional point cloud data and the three-dimensional thinned point cloud data.
前記入力データから3次元点群データを生成することと、
点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルであって、3次元点群データと、当該3次元点群データに対して間引き処理を適用することによって得られた3次元間引き点群データとを参照して機械学習された推定モデルを用いて、前記生成する工程にて生成された3次元点群データに対応する補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを推定することと
を含んでいる情報処理方法。 Obtaining input data;
generating three-dimensional point cloud data from the input data;
An information processing method comprising: estimating, using an estimation model that has point cloud data as input and outputs complemented point cloud data and a segmentation label related to the complemented point cloud data, the complemented point cloud data corresponding to the three-dimensional point cloud data generated in the generating step, and the segmentation label related to the complemented point cloud data, the estimation model being machine-learned by referring to three-dimensional point cloud data and three-dimensional thinned point cloud data obtained by applying a thinning process to the three-dimensional point cloud data.
入力データを取得する取得処理と、
前記入力データから3次元点群データを生成する点群データ生成処理と、
前記入力データ及び前記3次元点群データの少なくとも何れかに対して間引き処理を適用することによって3次元間引き点群データを生成する間引き点群データ生成処理と、
点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルを、前記3次元点群データと、前記3次元間引き点群データとを参照して学習させる学習処理と
を実行させるプログラム。 On the computer,
An acquisition process for acquiring input data;
A point cloud data generation process for generating three-dimensional point cloud data from the input data;
a thinned point cloud data generation process for generating three-dimensional thinned point cloud data by applying a thinning process to at least one of the input data and the three-dimensional point cloud data;
and a learning process for learning an estimation model that receives point cloud data as input and outputs complemented point cloud data and segmentation labels related to the complemented point cloud data, by referring to the three-dimensional point cloud data and the three-dimensional thinned point cloud data.
入力データを取得する取得処理と、
前記入力データから3次元点群データを生成する点群データ生成処理と、
点群データを入力とし、補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを出力とする推定モデルであって、3次元点群データと、当該3次元点群データに対して間引き処理を適用することによって得られた3次元間引き点群データとを参照して機械学習された推定モデルを用いて、前記点群データ生成処理にて生成した3次元点群データに対応する補完された点群データ及び当該補完された点群データに関するセグメンテーションラベルを推定する推定処理と
を実行させるプログラム。
On the computer,
An acquisition process for acquiring input data;
A point cloud data generation process for generating three-dimensional point cloud data from the input data;
A program that executes an estimation process to estimate complemented point cloud data corresponding to the three-dimensional point cloud data generated in the point cloud data generation process and a segmentation label related to the complemented point cloud data, using an estimation model that has been machine-learned by referring to three-dimensional point cloud data and three-dimensional thinned point cloud data obtained by applying a thinning process to the three-dimensional point cloud data, and the complemented point cloud data corresponding to the three-dimensional point cloud data generated in the point cloud data generation process. The program executes an estimation process to estimate a segmentation label related to the complemented point cloud data, the ...
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2023/029921 WO2025041215A1 (en) | 2023-08-21 | 2023-08-21 | Information processing device, information processing method, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2023/029921 WO2025041215A1 (en) | 2023-08-21 | 2023-08-21 | Information processing device, information processing method, and program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2025041215A1 true WO2025041215A1 (en) | 2025-02-27 |
Family
ID=94731666
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2023/029921 Pending WO2025041215A1 (en) | 2023-08-21 | 2023-08-21 | Information processing device, information processing method, and program |
Country Status (1)
| Country | Link |
|---|---|
| WO (1) | WO2025041215A1 (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119888151A (en) * | 2025-03-26 | 2025-04-25 | 智道网联科技(北京)有限公司 | Point cloud data display method, device, equipment and medium based on digital twin |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020088658A (en) * | 2018-11-27 | 2020-06-04 | 富士通株式会社 | Monitoring device, monitoring method and monitoring program |
| JP2022094331A (en) * | 2020-12-14 | 2022-06-24 | ヤンマーホールディングス株式会社 | Actual estimation system, actual harvest system, branch stem estimation system, learning system, actual estimation method and actual estimation program |
-
2023
- 2023-08-21 WO PCT/JP2023/029921 patent/WO2025041215A1/en active Pending
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020088658A (en) * | 2018-11-27 | 2020-06-04 | 富士通株式会社 | Monitoring device, monitoring method and monitoring program |
| JP2022094331A (en) * | 2020-12-14 | 2022-06-24 | ヤンマーホールディングス株式会社 | Actual estimation system, actual harvest system, branch stem estimation system, learning system, actual estimation method and actual estimation program |
Non-Patent Citations (1)
| Title |
|---|
| DAI, ANGELA ET AL.: "ScanComplete: Large-Scale Scene Completion and Semantic Segmentation for 3D Scans", 2018 IEEE /CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR, 2018, pages 4578 - 4587, XP033473368, DOI: 10.1109/CVPR.2018.00481 * |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119888151A (en) * | 2025-03-26 | 2025-04-25 | 智道网联科技(北京)有限公司 | Point cloud data display method, device, equipment and medium based on digital twin |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110047056B (en) | Cross-domain image analysis and synthesis using deep image-to-image networks and adversarial networks | |
| JP7403528B2 (en) | Method and system for reconstructing color and depth information of a scene | |
| Patwardhan et al. | Video inpainting under constrained camera motion | |
| CN108735279B (en) | Virtual reality upper limb rehabilitation training system for stroke in brain and control method | |
| CN112802185B (en) | Endoscope image three-dimensional reconstruction method and system facing minimally invasive surgery space perception | |
| Yang et al. | Efficient deformable tissue reconstruction via orthogonal neural plane | |
| US20180174311A1 (en) | Method and system for simultaneous scene parsing and model fusion for endoscopic and laparoscopic navigation | |
| US12118737B2 (en) | Image processing method, device and computer-readable storage medium | |
| CN107624193A (en) | The method and system of semantic segmentation in laparoscope and endoscope 2D/2.5D view data | |
| EP2901419A1 (en) | Multi-bone segmentation for 3d computed tomography | |
| JP2017174039A (en) | Image classification device, method, and program | |
| Wu et al. | Ai-enhanced virtual reality in medicine: A comprehensive survey | |
| WO2020085336A1 (en) | Weighted image generation device, method, and program, classifier learning device, method, and program, region extraction device, method, and program, and classifier | |
| US11676361B2 (en) | Computer-readable recording medium having stored therein training program, training method, and information processing apparatus | |
| Liang et al. | Synthesis and edition of ultrasound images via sketch guided progressive growing GANS | |
| US20210174518A1 (en) | Tracking device, endoscope system, and tracking method | |
| Amara et al. | Enhancing brain tumour aid diagnosis with augmented reality rendering-based 6 dof object pose estimation | |
| WO2025041215A1 (en) | Information processing device, information processing method, and program | |
| CN120047937B (en) | Bounding box prediction method and data transmission method and device for three-dimensional image data | |
| Kala et al. | Brain magnetic resonance image inpainting via deep edge region-based generative adversarial network | |
| JPWO2020175445A1 (en) | Learning methods, learning devices, generative models and programs | |
| Nguyen et al. | Towards abdominal 3-D scene rendering from laparoscopy surgical videos using NeRFs | |
| CN118037963B (en) | Method, device, equipment and medium for reconstructing three-dimensional model of digestive cavity inner wall | |
| Li et al. | Sdfplane: Explicit neural surface reconstruction of deformable tissues | |
| WO2025026230A1 (en) | Tracking method and apparatus, medical assistance system, medium, and computing device |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 23949676 Country of ref document: EP Kind code of ref document: A1 |