WO2023243185A1 - 学習用データ生成装置 - Google Patents

学習用データ生成装置 Download PDF

Info

Publication number
WO2023243185A1
WO2023243185A1 PCT/JP2023/013389 JP2023013389W WO2023243185A1 WO 2023243185 A1 WO2023243185 A1 WO 2023243185A1 JP 2023013389 W JP2023013389 W JP 2023013389W WO 2023243185 A1 WO2023243185 A1 WO 2023243185A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
data
learning
variation
data generation
Prior art date
Application number
PCT/JP2023/013389
Other languages
English (en)
French (fr)
Inventor
拓実 會下
洋登 永吉
朋晟 平岡
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Publication of WO2023243185A1 publication Critical patent/WO2023243185A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Definitions

  • the present invention relates to a device that generates learning data used for machine learning.
  • Image recognition methods using machine learning have been widely known.
  • image recognition methods in order to effectively train the model that performs machine learning, it is necessary to understand how the object to be recognized and the scene in which the object to be recognized exists in these images. It is required to prepare learning data using a variety of different learning images.
  • CG Computer Graphics
  • Patent Document 1 a three-dimensional CG of the object to be recognized is created, a two-dimensional image is created by projecting this onto a two-dimensional plane, and the created two-dimensional image is used to display various images of the object to be recognized. It is described that it is used as a shape learning image.
  • Patent Document 2 the degree of similarity between the original frame image and the created CG model is calculated, and training data is generated from the CG model based on this degree of similarity.
  • a training data generation device is described that improves recognition performance in.
  • Patent Document 1 since the appearance of the generated learning images is not taken into account, there is a possibility that a large number of visually similar learning images will be generated. Furthermore, in Patent Document 2, since training data is generated for a set of an original frame image, which is a live-action image, and a CG model, it is not possible to generate a variety of training data that is not included in the live-action image. In this way, with conventional methods, it is possible to generate a large number of training images by using CG, but the proportion of images that look similar increases, resulting in the generation of training images with little diversity. There is a risk that you may be If such training images with poor diversity are used for model learning, the learning cannot be performed effectively, so there is a problem that the accuracy of image recognition does not improve.
  • the present invention was made based on this background, and an object of the present invention is to provide a learning data generation device that can generate a variety of learning images.
  • the learning data generation device acquires first CG data having one or more CG parameters regarding a CG space including one or more CG models, and varies the CG parameters of the first CG data.
  • a second CG data generation unit that generates one or more second CG data, generates one or more first images from the first CG data, and generates one or more second images from the second CG data; an image generation unit that calculates an amount of variation between the first image and the second image, and an image variation calculation unit that selects one of the one or more pieces of second CG data based on the amount of variation.
  • a learning image generating section that generates one or more learning images from the second CG data selected by the second CG data selecting section.
  • FIG. 1 is a diagram showing a hardware configuration of a learning data generation device according to an embodiment of the present invention.
  • FIG. 2 is a block diagram showing the functional configuration of a learning data generation device. 2 is a flowchart illustrating an example of a process in which the learning data generation device according to the first embodiment of the present invention generates learning CG data.
  • FIG. 3 is a diagram showing an example of a CG data variation constraint table.
  • FIG. 3 is a diagram showing an example of a calculation target selection table. It is a figure showing an example of an operation screen.
  • 12 is a flowchart illustrating an example of a process in which the learning data generation device generates learning data. 12 is a flowchart illustrating an example of a process in which the learning data generation device according to the second embodiment of the present invention generates learning CG data.
  • FIG. 1 is a diagram showing the hardware configuration of a learning data generation device according to an embodiment of the present invention.
  • the learning data generation device 1 shown in FIG. 1 is an information processing device (computer) that generates learning data used in machine learning, and includes a processor 2, a main storage device 3, an auxiliary storage device 4, an input device 5, and an output device.
  • a device 6 and a communication device 7 are provided.
  • the processor 2 is a device that performs arithmetic processing, and is configured using, for example, a CPU (Central Processing Unit), an MPU (Micro Processing Unit), a GPU (Graphics Processing Unit), or the like.
  • the main storage device 3 is a device that stores various programs and data, and includes, for example, ROM (Read Only Memory), mask ROM, PROM (Programmable ROM), RAM (Random Access Memory), DRAM (Dynamic RAM), and SRAM (Static RAM), NVRAM (Non Volatile RAM), etc.
  • the auxiliary storage device 4 is a device that stores programs and data, and is configured using, for example, an HDD (Hard Disk Drive), a flash memory, an SSD (Solid State Drive), an optical storage medium, or the like. Programs and data stored in the auxiliary storage device 4 are read into the main storage device 3 by the processor 2 at any time and are used for processing and control performed by the processor 2.
  • an HDD Hard Disk Drive
  • flash memory a flash memory
  • SSD Solid State Drive
  • optical storage medium or the like.
  • Programs and data stored in the auxiliary storage device 4 are read into the main storage device 3 by the processor 2 at any time and are used for processing and control performed by the processor 2.
  • the input device 5 is a user interface that receives information from the user, and is, for example, a keyboard, mouse, card reader, touch panel, etc.
  • the output device 6 is a user interface that outputs various information (display output, audio output, printed output, etc.), and includes, for example, a display device (LCD (Liquid Crystal Display), graphic card, etc.) that visualizes various information, audio output, etc. These include output devices (speakers), printing devices, etc.
  • the communication device 7 is a communication interface that communicates with other devices via communication means.
  • the configuration of the communication means is not necessarily limited, but includes, for example, communication means compliant with various communication standards such as USB (Universal Serial Bus) and RS-232C, LAN (Local Area Network), WAN (Wide Area Network), the Internet, and dedicated Lines, etc.
  • the communication device 7 is, for example, a NIC (Network Interface Card), a wireless communication module, a USB module, a serial communication module, or the like.
  • the communication device 7 can also function as an input device that receives information from other devices with which it is communicatively connected.
  • the communication device 7 can also function as an output device that transmits information to other devices that are communicably connected.
  • FIG. 2 is a block diagram showing the functional configuration of the learning data generation device 1.
  • the learning data generation device 1 includes the following functions: a storage section 10, a learning CG data generation section 20, and a learning data generation section 30.
  • the storage unit 10 is realized by the main storage device 3 and the auxiliary storage device 4, for example.
  • the learning CG data generation section 20 and the learning data generation section 30 are realized, for example, by the processor 2 reading out a program stored in the main storage device 3 and executing processing according to this program. .
  • the learning data generation device 1 may be further equipped with hardware such as an FPGA (Field Programmable Gate Array), an ASIC (Application Specific Integrated Circuit), and an AI (Artificial Intelligence) chip in addition to what is shown in FIG. , some or all of the functions shown in FIG. 2 may be realized by using these hardware alone or in cooperation with the processor 2.
  • hardware such as an FPGA (Field Programmable Gate Array), an ASIC (Application Specific Integrated Circuit), and an AI (Artificial Intelligence) chip in addition to what is shown in FIG. , some or all of the functions shown in FIG. 2 may be realized by using these hardware alone or in cooperation with the processor 2.
  • the storage unit 10 stores a first CG data group 11, a CG data variation constraint table 12, a calculation target selection table 13, a learning CG data group 14, and a learning data group 15.
  • the storage unit 10 can store this information (data), for example, as a database table provided by a DBMS (DataBase Management System) or a file provided by a file system.
  • DBMS DataBase Management System
  • the first CG data group 11 is composed of one or more CG data (first CG data).
  • Each first CG data of the first CG data group 11 has one or more CG parameters regarding CG space. For example, information on the shape, angle, position, etc. of one or more CG models and their component parts existing in CG space, information on the position and orientation of a camera model set in CG space, Information about the environment light and illumination irradiated onto the CG model, etc. are set as CG parameters in the first CG data.
  • the values of these CG parameters are set in advance in the learning data generation device 1 by, for example, being inputted by the user using the input device 5 or acquired from the communication device 7.
  • the learning CG data group 14 is composed of one or more learning CG data. Each learning CG data of the learning CG data group 14 is generated by the learning CG data generation section 20. Note that the details of how the learning CG data generation section 20 generates the learning CG data will be described later.
  • the learning data group 15 is composed of one or more learning data. Each learning data of the learning data group 15 is generated by the learning data generating section 30. Note that the details of the method of generating learning data by the learning data generating section 30 will be described later.
  • the CG data variation constraint table 12 is information representing constraint conditions when varying the CG parameters of each first CG data of the first CG data group 11. Note that details of the CG data variation constraint table 12 will be described later.
  • the calculation target selection table 13 is information regarding the calculation conditions for the amount of variation between images that the learning CG data generation unit 20 calculates when generating the learning CG data. Note that details of the calculation target selection table 13 will be described later.
  • the learning CG data generation section 20 includes a second CG data generation section 21, an image generation section 22, an image variation calculation section 23, and a second CG data selection section 24.
  • the second CG data generation unit 21 acquires any first CG data from the first CG data group 11 stored in the storage unit 10. Then, by varying one or more CG parameters of the acquired first CG data based on the CG data variation constraint table 12, one or more CG data (second CG data) different from the first CG data are generated. generate.
  • the image generation unit 22 generates one or more CG images (first images) from the first CG data acquired by the second CG data generation unit 21.
  • the image generation unit 22 also generates one or more CG images (second images) different from the first image from the second CG data generated by the second CG data generation unit 21.
  • the image generation unit 22 may apply image processing such as grayscale conversion and edge detection to the generated first image and second image. Note that since the CG parameters of the second CG data have been changed from those of the first CG data, the first image and the second image have different appearances.
  • the image variation calculation unit 23 acquires the first image and the second image generated by the image generation unit 22, and calculates the amount of variation between these images. For example, the image variation calculation unit 23 generates a variation image representing the difference between the first image and the second image using the background subtraction method or optical flow, and calculates the amount of variation from this variation image based on the calculation target selection table 13. . Further, the image variation calculation unit 23 may calculate the feature amount of each image from the first image and the second image, and calculate the distance between these feature amounts as the variation amount.
  • the second CG data selection unit 24 acquires the amount of variation calculated by the image variation calculation unit 23, and selects one of the one or more second CG data generated by the image generation unit 22 based on this amount of variation. do. Then, the selected second CG data is stored as learning CG data in the learning CG data group 14 stored in the storage unit 10.
  • the learning data generation section 30 includes a learning image generation section 31 and a teacher signal generation section 32.
  • the learning image generation unit 31 acquires any learning CG data from the learning CG data group 14 stored in the storage unit 10, that is, the second CG data selected by the second CG data selection unit 24. . Then, a CG image (learning image) is generated from the acquired learning CG data (second CG data).
  • the teacher signal generation unit 32 generates a teacher signal based on the learning CG data (second CG data) acquired by the learning image generation unit 31. Then, learning data in which the learning image generated by the learning image generation unit 31 is associated with the teacher signal is generated and stored in the learning data group 15 stored in the storage unit 10.
  • the learning data generation device 1 selects one of the second CG data based on the amount of variation of the second image generated from the second CG data in the learning CG data generation unit 20, and The data generation unit 30 can generate learning data from the selected second CG data. Therefore, the learning data generation device 1 can generate learning data including a variety of learning images with different appearances.
  • FIG. 3 is a flowchart illustrating an example of a process in which the learning data generation device 1 according to the first embodiment of the present invention generates learning CG data in the learning CG data generation unit 20.
  • the learning CG data generation unit 20 uses the second CG data generation unit 21 to acquire first CG data from the first CG data group 11 held in the storage unit 10 (S210).
  • the first CG data has one or more CG parameters regarding a CG space including one or more CG models.
  • the CG parameters are parameters for controlling the CG space and each CG model existing within the CG space.
  • the CG parameters include parameters related to background information and ambient light regarding the CG space.
  • parameters such as their number, their position and angle on the CG space, color, pattern, reflection characteristics, movement, and shape are included. It also includes parameters such as the number of lights installed in the CG space, their position and angle in the CG space, the irradiation direction, and the illuminance.
  • the camera model it includes parameters such as position and angle in CG space. In addition to these, any parameters related to CG images can be set as CG parameters.
  • the learning CG data generation unit 20 causes the second CG data generation unit 21 to generate one or more pieces of second CG data from the first CG data acquired in step S210 based on the CG data variation constraint table 12.
  • Generate (S220) causes the second CG data generation unit 21 to generate one or more pieces of second CG data from the first CG data acquired in step S210 based on the CG data variation constraint table 12.
  • FIG. 4 shows an example of the CG data variation constraint table 12.
  • the CG data variation constraint table 12 holds information such as the setting value of the first CG data, the minimum value and maximum value of the variation value, and the rate of variation for each CG parameter.
  • the setting value of the first CG data is obtained from the first CG data, so it may be omitted.
  • the minimum value and maximum value of the fluctuation value and the ratio of fluctuation may be set in advance by the user.
  • the minimum and maximum values of the fluctuation values may be automatically set to the minimum and maximum values that each CG parameter can take on the CG space, or the set values of the first CG data may be set automatically.
  • the minimum value and maximum value of the centered interval may be automatically set.
  • the second CG data generation unit 21 first determines the CG parameters to be varied in the first CG data based on the variation ratio shown in the CG data variation constraint table 12. Subsequently, based on the minimum and maximum values of the fluctuation values shown in the CG data fluctuation constraint table 12, the values of the CG parameters after fluctuation are randomly determined. For example, in the CG data variation constraint table 12 in FIG. The minimum value is set to 30° and the maximum value is set to 90°. Therefore, the value of this CG parameter is changed by the second CG data generation unit 21 to a value randomly determined within the range of 30° or more and 90° or less with a probability of 50%.
  • the second CG data generation unit 21 changes the CG parameters of the first CG data based on the CG data variation constraint table 12 in step S220 of FIG. Second CG data having different values can be generated.
  • the learning CG data generation unit 20 then generates a first composite image from the first CG data acquired by the second CG data generation unit 21 in step S210 in the image generation unit 22.
  • a first region image is generated (S230).
  • the image generation unit 22 creates a CG space based on the CG parameters included in the first CG data, and sets (arranges) one or more CG models and camera models in the CG space. Then, an image obtained by photographing each CG model with the camera model is generated as a first composite image.
  • the image generation unit 22 also converts each CG model and/or the area of each part constituting each CG model on the first composite image into a specific form (color, pattern, A first area image is generated by coloring the areas differently (brightness, etc.).
  • a specific CG model or a specific part can be identified. , regions corresponding to these can be easily extracted within the first composite image and within the first region image.
  • the image generation unit 22 may generate only the first area image without generating the first composite image.
  • the first composite image including distance information may be generated by embedding a distance value in the CG space between the CG model and camera model corresponding to the pixel into each pixel of the first composite image. good.
  • the image generation unit 22 may apply image processing such as grayscale conversion, edge detection, and HSV (Hue, Saturation and Value) conversion to the generated first composite image.
  • the learning CG data generation unit 20 performs the following processes from step S240 to step S270 on each of the one or more pieces of second CG data generated by the second CG data generation unit 21 in step S220. In this way, the amount of variation between the image based on the first CG data and the image based on the second CG data is calculated.
  • step S240 the image generation unit 22 generates a second composite image and a second region image from the second CG data to be processed.
  • the second composite image and the second area image can be generated from the second CG data by the same process as that used to generate the first composite image and the first area image in step S230.
  • a second area image is generated by coloring each CG model on the second composite image and/or the area of each part constituting each CG model in the same form as the first area image. is preferred.
  • step S250 the image variation calculation unit 23 calculates a variation image representing the difference between these images from the first composite image and the second composite image generated by the image generation unit 22 in steps S230 and S240, respectively.
  • a variation image can be obtained by extracting the difference between the first composite image and the second composite image using a background subtraction method or optical flow.
  • the image fluctuation calculation unit 23 may perform processing such as absolute value conversion and normalization on the value of each pixel of the fluctuation image. For example, in a variable image, the values of pixels in areas where no change has occurred between the first composite image and the second composite image are 0, and the values of pixels included in areas where a change has occurred are values other than 0.
  • the fluctuation image can also be generated using other methods. For example, at least one of the color and brightness components is extracted from the first composite image and the second composite image, and regions where the extracted color and brightness components differ between the first and second composite images are extracted. Then, an image showing the area may be generated as a variation image.
  • the first area image is used as the first composite image
  • the second area image is used as the second composite image, and the areas of the CG model whose position has changed between these images, and the visible area where the visible area has changed due to the occurrence of occlusion.
  • a variation image may be generated by extracting a region of the CG model.
  • a variation image may be generated by extracting a region whose shape has changed three-dimensionally.
  • step S260 the image variation calculation unit 23 uses a calculation target selection table based on the first region image and second region image generated by the image generation unit 22 in steps S230 and S240, respectively, for the variation image obtained in step 250. 13, one or more calculation target regions are extracted.
  • FIG. 5 shows an example of the calculation target selection table 13.
  • the calculation target selection table 13 includes information as to whether each CG model included in the first CG data and each part constituting the CG model is to be subjected to calculation of the amount of variation, and the value of the weight. and has.
  • As the information on whether or not to be included in the calculation of the variation amount "1" is set if the variation is to be calculated, and "0" is set if not.
  • the weight value is set to any value between 0 and 1. These values may be set in advance by the user.
  • the image variation calculation unit 23 first calculates the values for each CG model and each part constituting the CG model for which the information as to whether or not to be subject to variation amount calculation is set to "1" in the calculation target selection table 13. A region on the first region image and a region on the second region image corresponding to are respectively extracted. Then, a region that is the union of these extracted regions is extracted as a region to be calculated for the amount of variation. For example, in the calculation target selection table 13, for a CG model to be recognized, by setting the information as to whether the amount of variation is to be calculated to "1", the area of the CG model is extracted as the calculation target area. Ru. Alternatively, an intersection set, a difference set, a symmetric difference set, etc. of regions extracted from the first region image and a second region image as targets for calculating the amount of variation may be extracted as the regions for calculating the amount of variation.
  • the image variation calculation unit 23 calculates the amount of variation from the variation image obtained in step S250, based on the calculation target area extracted in step S260. Specifically, the image fluctuation calculation unit 23 extracts, for example, a region corresponding to the calculation target region in the fluctuation image, and calculates the average value of the values of each pixel included in the region as the amount of fluctuation. At this time, the image variation calculation unit 23 may refer to the calculation target selection table 13 and weight the variation amount based on this.
  • the weight value of the calculation target region corresponding to that region is obtained from the calculation target selection table 13, and after multiplying the value of each pixel in the region by the obtained weight, The average value of the values of each pixel may be calculated as the amount of variation.
  • the amount of variation can be calculated from the variation image using another method. For example, the value of each pixel in the region extracted from the fluctuation image may be compared with a predetermined threshold value, and the ratio of pixels exceeding the threshold value may be calculated as the amount of fluctuation.
  • This threshold value may be set, for example, as the median value of the values that the pixel values of the fluctuating image can take, or may be set in advance by the user.
  • the learning CG data generation section 20 can perform the processing for each of the one or more second CG data generated by the second CG data generation section 21.
  • the amount of variation from the first CG data can be calculated.
  • the learning CG data generation unit 20 After performing the processes from step S240 to step S270 on all the second CG data generated by the second CG data generation unit 21, the learning CG data generation unit 20 then performs the processing in the second CG data selection unit 24. , the image variation calculation unit 23 selects one of the second CG data based on the amount of variation calculated in step S270. Then, the selected second CG data is stored as learning CG data in the learning CG data group 14 stored in the storage unit 10 (S280). Thereafter, the process shown in the flowchart of FIG. 3 ends.
  • the second CG data selection unit 24 selects, for example, one or more of the second CG data that the second CG data generation unit 21 generated in step S220, the image variation calculation unit 23 calculates in step S270.
  • second CG data in which the amount of variation exceeds a predetermined threshold value is selected.
  • the threshold value can be set, for example, to the median value of the values that the pixel values of the fluctuating image can take. Alternatively, it may be set in advance by the user.
  • FIG. 6 is an explanatory diagram showing an example of the operation screen in the second CG data selection section 24.
  • the operation screen 1000 shown in the figure is displayed on the output device 6 of the learning data generation device 1 or a display (not shown) that can communicate via the communication device 7 in step S280.
  • the operation screen 1000 includes a selection result 1001 and a variation setting 1002.
  • the selection result 1001 the selection result of the second CG data is shown in a column 1011
  • the value of the amount of variation of each second CG data is shown in a column 1012
  • the first composite image and second composite image or their reduced images are shown in a column 1013. are displayed respectively.
  • “1" is displayed in the column of the second CG data selected by the second CG data selection unit 24 in step S280
  • "0" is displayed in the other columns.
  • the variation amount setting 1002 the results of using the variation amount when selecting the second CG data are displayed in a column 1021, and the threshold values are displayed in a column 1022, respectively.
  • “1” is displayed in the column of the amount of variation used when the second CG data selection unit 24 selects the second CG data in step S280, and "0” is displayed in the other columns. be done.
  • the user can arbitrarily change the second CG data to be selected by rewriting the column 1011 of the selection result 1001. Furthermore, by rewriting the columns 1021 and 1022 of the variation amount setting 1002, it is possible to arbitrarily change the variation amount and threshold used when the second CG data selection section 24 selects the second CG data.
  • the learning CG data generation unit 20 generates one piece of second CG data by varying the CG parameters of the first CG data. Generate more than that. Based on the variation between the first composite image generated from the first CG data and the second composite image generated from the second CG data, it is possible to generate an image that looks different from the first CG data.
  • the second CG data can be selected. Therefore, the learning data generation device 1 aims to generate a variety of learning images by generating learning images from the second CG data (learning CG data) selected by the learning CG data generation unit 20. be able to.
  • FIG. 7 is a flowchart illustrating an example of a process in which the learning data generation device 1 generates learning data in the learning data generation unit 30.
  • the learning data generation unit 30 generates learning CG data from the learning CG data group 14 included in the storage unit 10 in the learning image generation unit 31, that is, the second CG data selection unit 24 selects the learning CG data from the learning CG data group 14 in the learning image generation unit 31 in step S280 in FIG.
  • the second CG data selected in is acquired (S310).
  • the learning data generation unit 30 generates a learning image from the learning CG data (second CG data) acquired in step S310 in the learning image generation unit 31 (S320).
  • the learning image generation unit 31 creates a CG space based on CG parameters included in the learning CG data, and sets (arranges) one or more CG models and camera models in the CG space. do.
  • images obtained by photographing each CG model with the camera model are generated as learning images.
  • the learning image generation unit 31 may apply image processing such as grayscale conversion, image conversion using deep learning, etc. to the generated learning image.
  • the second composite image generated by the image generation unit 22 in step S240 of FIG. 3 may be stored in the storage unit 10, and by using this, the process of step S320 may be omitted.
  • the learning data generation unit 30 generates a teacher signal in the teacher signal generation unit 32 from the learning CG data (second CG data) acquired by the learning image generation unit 31 in step S310 (S330). .
  • the teacher signal generation unit 32 generates, for example, each CG model on the learning image generated by the learning image generation unit 31 in step S320 and/or the area of each part constituting each CG model, A region image colored differently in the same manner as the first region image and second region image described above is generated as a teacher signal.
  • the second area image generated by the image generation unit 22 in step S240 of FIG. 3 may be stored in the storage unit 10 and used, thereby omitting the process of step S330.
  • the teacher signal generation unit 32 may create a two-dimensional bounding box surrounding the area of each CG model or each part that constitutes the CG model based on the generated region image, and may include this in the teacher signal.
  • the teacher signal generation unit 32 also calculates, for each pixel of the learning image generated by the learning image generation unit 31 in step S320, a distance value in the CG space between the CG model and the camera model corresponding to the pixel. This may be embedded in the teacher signal.
  • the teacher signal generation unit 32 also generates each CG parameter included in the learning CG data (second CG data) acquired by the learning image generation unit 31 in step S310, such as background information regarding the CG space and parameters regarding ambient light.
  • the teaching signal may include parameters such as the position and angle of the camera model in the CG space.
  • the teacher signal generation unit 32 generates a signal that is included in the learning CG data (second CG data) acquired by the learning image generation unit 31 in step S310 regarding each CG model on the learning image and each part constituting the CG model.
  • Information created from each CG parameter such as class name, attribute information, three-dimensional bounding box, volume data, etc., may be included in the teacher signal. In addition to this, any information obtained from the learning CG data can be included in the teacher signal.
  • the learning data generation unit 30 causes the teacher signal generation unit 32 to associate the learning image generated by the learning image generation unit 31 in step S320 with the teacher signal generated in step S330, and performs learning. Create data for use. Then, the created learning data is stored in the learning data group 15 stored in the storage unit 10 (S340). Thereafter, the process shown in the flowchart of FIG. 7 ends.
  • the learning data generation device 1 of the present embodiment generates second CG data that can generate images with different appearances in the learning CG data generation unit 20, and
  • the data generation unit 30 generates learning data from the second CG data generated by the learning CG data generation unit 20. Thereby, it is possible to generate learning data including a variety of learning images.
  • the learning data generation device 1 includes a second CG data generation section 21, an image generation section 22, an image variation calculation section 23, a second CG data selection section 24, and a learning image generation section 31. Be prepared.
  • the second CG data generation unit 21 acquires first CG data having one or more CG parameters regarding a CG space including one or more CG models (S210), and varies the CG parameters of the first CG data.
  • One or more pieces of second CG data are generated (S220).
  • the image generation unit 22 generates one or more first images from the first CG data (S230), and generates one or more second images from the second CG data (S240).
  • the image variation calculation unit 23 calculates the amount of variation between the first image and the second image (S250 to S270).
  • the second CG data selection unit 24 selects one or more second CG data based on the amount of variation (S280).
  • the learning image generation unit 31 generates one or more learning images from the second CG data selected by the second CG data selection unit 24 (S320). By doing this, it is possible to provide a learning data generation device that can generate a variety of learning images.
  • step S230 the image generation unit 22 sets a camera model (first camera model) based on the CG parameters included in the first CG data in the CG space based on the CG parameters included in the first CG data. Then, a first composite image in which each CG model in the CG space is photographed by the first camera model, and each CG model and/or the area of each part constituting each CG model on the first composite image are shown in different forms. A first area image with different colors is generated. Further, in step S240, a camera model (second camera model) is set based on the CG parameters included in the second CG data in the CG space based on the CG parameters included in the second CG data.
  • a camera model second camera model
  • the image fluctuation calculation unit 23 generates a fluctuation image from the first composite image and the second composite image (S250), extracts a calculation target region from the first region image and the second region image (S260), and performs calculation in the fluctuation image.
  • the amount of variation is calculated based on the image information of the target area (S270). By doing this, it is possible to reliably calculate the amount of variation representing the magnitude of variation between the first image and the second image.
  • the image fluctuation calculation unit 23 extracts at least one of the color and brightness components from the first composite image and the second composite image, and generates a fluctuation image based on at least one of the extracted color and brightness components. can do. In this way, it becomes possible to easily generate a fluctuating image.
  • the image fluctuation calculation unit 23 may calculate the amount of fluctuation using the first region image as the first composite image and the second region image as the second composite image. In this way, it becomes possible to easily calculate the amount of variation.
  • the image generation unit 22 embeds a distance value in the CG space between the CG model corresponding to the pixel and the first camera model in each pixel of the first composite image, and A distance value in the CG space between the CG model corresponding to the pixel and the second camera model may be embedded in each pixel of the image. In this way, the image variation calculation unit 23 can easily generate a variation image.
  • the learning data generating device 1 generates a teaching signal from the second CG data (S330), and generates learning data in which the generated teaching signal and the learning image are associated (S340) teaching signal generation.
  • a section 32 is provided. By doing this, it is possible to generate learning data including a variety of learning images.
  • FIG. 8 is a flowchart illustrating an example of a process in which the learning data generation device 1 according to the second embodiment of the present invention generates learning CG data in the learning CG data generation unit 20. Note that in the flowchart of FIG. 8, the same step numbers as in FIG. 3 are used for parts that perform the same processing as in the flowchart of FIG. 3 described in the first embodiment. In the following, the flowchart of FIG. 8 will be described without explaining the processes assigned the same step numbers as those of FIG. 3.
  • step S270 After the processes from step S240 to step S270 are performed on all the second CG data generated by the second CG data generation unit 21, the learning CG data generation unit 20 then executes the image fluctuation calculation unit 23 in step S270.
  • the amount of variation calculated in is compared with a predetermined threshold value, and it is determined whether there is a predetermined number or more of second CG data whose amount of variation is equal to or greater than the threshold value (S271). If there is a predetermined number or more of second CG data whose amount of variation is equal to or greater than the threshold value, the process advances to step S280A; otherwise, the process advances to step S272.
  • the second CG data selection unit 24 selects the amount of variation calculated in step S270 by the image variation calculation unit 23 among the one or more second CG data generated by the second CG data generation unit 21 in step S220.
  • the second CG data with the largest value is selected.
  • one or more new 2. Regenerate the CG data.
  • the second CG data is adjusted to increase the amount of variation by changing each CG parameter of the selected second CG data so that the difference from the CG parameter value in the first CG data increases. be able to.
  • the learning CG data generation unit 20 After regenerating one or more second CG data in step S272, the learning CG data generation unit 20 returns to step S240 and repeats the processes from step S240 to S270 for each second parameter after regeneration. . Thereby, the learning CG data generation section 20 can calculate the amount of variation from the first CG data for each of the one or more second CG data regenerated by the second CG data generation section 21. can.
  • step S280A in the second CG data selection unit 24, the image variation calculation unit selects one or more second CG data generated by the second CG data generation unit 21 in step S220 or regenerated in step S272. 23 selects second CG data in which the amount of variation calculated in step S270 exceeds a predetermined threshold. Then, the selected second CG data is stored as learning CG data in the learning CG data group 14 stored in the storage unit 10. Thereafter, the process shown in the flowchart of FIG. 8 ends.
  • the second CG data generation unit 21 regenerates one or more second CG data based on the amount of variation (S272). By doing this, it is possible to reliably generate a variety of learning images.
  • each of the above-mentioned configurations, functional units, processing units, processing means, etc. may be partially or entirely realized in hardware by, for example, designing an integrated circuit.
  • each of the above configurations, functions, etc. may be realized by software by a processor interpreting and executing a program for realizing each function.
  • Information such as programs, tables, files, etc. that implement each function can be stored in a memory, a hard disk, a recording device such as an SSD, or a recording medium such as an IC card, an SD card, or a DVD.
  • control lines and information lines are shown that are considered necessary for explanation, and do not necessarily show all control lines and information lines on implementation. For example, it may be considered that in reality almost all components are interconnected.
  • the arrangement of the various functional units, various processing units, and various databases described above is only an example.
  • the layout of the various functional units, the various processing units, and the various databases can be changed to an optimal layout from the viewpoint of the performance, processing efficiency, communication efficiency, etc. of the hardware and software included in these devices.
  • the configuration of the database (schema, etc.) that stores the various data described above can be flexibly changed from the viewpoints of efficient resource use, improved processing efficiency, improved access efficiency, improved search efficiency, etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Graphics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

学習用データ生成装置は、1つ以上のCGモデルを含むCG空間に関する1つ以上のCGパラメータを有する第一CGデータを取得し、前記第一CGデータの前記CGパラメータを変動させた第二CGデータを1つ以上生成する第二CGデータ生成部と、前記第一CGデータから1つ以上の第一画像を生成し、前記第二CGデータから1つ以上の第二画像を生成する画像生成部と、前記第一画像と前記第二画像の間の変動量を算出する画像変動算出部と、前記変動量に基づいて、1つ以上の前記第二CGデータからいずれかを選択する第二CGデータ選択部と、前記第二CGデータ選択部によって選択された前記第二CGデータから、1つ以上の学習用画像を生成する学習用画像生成部と、を備える。

Description

学習用データ生成装置
 本発明は、機械学習に使用される学習用データを生成する装置に関する。
 従来、ディープラーニングに代表される機械学習を用いた画像認識手法が広く知られている。このような画像認識手法において、機械学習を実行するモデルの学習を効果的に行うためには、認識対象の物体や、認識対象の物体が存在する場面に関して、これらの画像上での見え方がそれぞれ異なる多様な学習用画像を用いた学習用データを準備することが求められる。
 しかしながら、学習用画像に適した大量の実画像を準備するのは手間がかかるため、容易ではない。そこで、実画像の代わりにCG(Computer Graphics)を用いて学習用画像を生成する手法が提案されている。実画像と異なり、CGの場合はパラメータを変更するだけでプログラムによって多様な画像を作成できるため、学習用データに適した大量の画像を容易に生成することが可能である。
 たとえば、特許文献1では、認識対象の物体の3次元CGを作成し、これを2次元平面に投影することで2次元画像を作成し、作成した2次元画像を、認識対象の物体の様々な形状の学習画像として用いることが記載されている。
 また、特許文献2では、元フレーム画像と作成したCGモデルとの間の類似度を算出し、この類似度に基づいてCGモデルから教師データを生成することで、実写画像とCG画像との間における認識性能を向上させる教師データ生成装置が記載されている。
日本国特開2010-211732号公報 日本国特開2021-107981号公報
 特許文献1では、生成された学習画像の見え方を考慮していないため、見た目が類似する学習画像が大量に生成されてしまう可能性がある。また、特許文献2では、実写画像である元フレーム画像とCGモデルとのセットに対して教師データが生成されるため、実写画像に含まれない多様な教師データを生成することができない。このように、従来の手法では、CGを用いることで学習用画像を大量に生成することが可能だが、見た目が類似する画像の割合が高くなり、その結果、多様性に乏しい学習用画像が生成されてしまうおそれがある。こうした多様性に乏しい学習用画像をモデルの学習に用いると、効果的に学習を行うことができないため、画像認識の精度が向上しないという問題がある。
 本発明は、こうした背景に基づきなされたものであり、多様な学習用画像を生成することが可能な学習用データ生成装置を提供することを目的とする。
 本発明による学習用データ生成装置は、1つ以上のCGモデルを含むCG空間に関する1つ以上のCGパラメータを有する第一CGデータを取得し、前記第一CGデータの前記CGパラメータを変動させた第二CGデータを1つ以上生成する第二CGデータ生成部と、前記第一CGデータから1つ以上の第一画像を生成し、前記第二CGデータから1つ以上の第二画像を生成する画像生成部と、前記第一画像と前記第二画像の間の変動量を算出する画像変動算出部と、前記変動量に基づいて、1つ以上の前記第二CGデータからいずれかを選択する第二CGデータ選択部と、前記第二CGデータ選択部によって選択された前記第二CGデータから、1つ以上の学習用画像を生成する学習用画像生成部と、を備える。
 本発明によれば、多様な学習用画像を生成することが可能な学習用データ生成装置を提供することができる。
本発明の一実施形態に係る学習用データ生成装置のハードウェア構成を示す図である。 学習用データ生成装置の機能構成を示すブロック図である。 本発明の第1の実施形態に係る学習用データ生成装置が学習用CGデータを生成する処理の例を示すフローチャートである。 CGデータ変動制約表の一例を示す図である。 算出対象選定表の一例を示す図である。 操作画面の一例を示す図である。 学習用データ生成装置が学習用データを生成する処理の例を示すフローチャートである。 本発明の第2の実施形態に係る学習用データ生成装置が学習用CGデータを生成する処理の例を示すフローチャートである。
 以下、本発明の実施形態について図面を参照しつつ説明する。以下の説明において、同一のまたは類似する構成に同一の符号を付して重複した説明を省略することがある。また以下の説明において、同種の構成を区別する必要がある場合、構成を総称する符号の後に括弧書きで識別子(数字、アルファベット等)を表記することがある。
(第1の実施形態)
 はじめに、本発明の第1の実施形態について、図1~図7を参照して以下に説明する。
<学習用データ生成装置1のハードウェア構成例>
 図1は、本発明の一実施形態に係る学習用データ生成装置のハードウェア構成を示す図である。図1に示す学習用データ生成装置1は、機械学習に用いられる学習用データを生成する情報処理装置(コンピュータ)であり、プロセッサ2、主記憶装置3、補助記憶装置4、入力装置5、出力装置6、および通信装置7を備える。
 プロセッサ2は、演算処理を行う装置であり、たとえばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)等を用いて構成される。主記憶装置3は、各種プログラムやデータを記憶する装置であり、たとえばROM(Read Only Memory)、マスクROM、PROM(Programmable ROM)、RAM(Random Access Memory)、DRAM(Dynamic RAM)、SRAM(Static RAM)、NVRAM(Non Volatile RAM)等を用いて構成される。補助記憶装置4は、プログラムやデータを格納する装置であり、たとえばHDD(Hard Disk Drive)、フラッシュメモリ、SSD(Solid State Drive)、光学式記憶媒体等を用いて構成される。補助記憶装置4に格納されているプログラムやデータは、プロセッサ2によって主記憶装置3に随時読み込まれ、プロセッサ2が行う処理や制御に利用される。
 入力装置5は、ユーザから情報を受付けるユーザインタフェースであり、たとえば、キーボード、マウス、カードリーダ、タッチパネル等である。出力装置6は、各種の情報を出力(表示出力、音声出力、印字出力等)するユーザインタフェースであり、たとえば、各種情報を可視化する表示装置(LCD(Liquid Crystal Display)、グラフィックカード等)や音声出力装置(スピーカ)、印字装置等である。
 通信装置7は、通信手段を介して他の装置と通信する通信インタフェースである。通信手段の構成は必ずしも限定されないが、たとえば、USB(Universal Serial Bus)やRS-232C等の各種通信規格に準拠した通信手段、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット、専用線等である。通信装置7は、たとえば、NIC(Network Interface Card)、無線通信モジュール、USBモジュール、シリアル通信モジュール等である。通信装置7は、通信可能に接続する他の装置から情報を受信する入力装置として機能することもできる。また通信装置7は、通信可能に接続する他の装置に情報を送信する出力装置として機能することもできる。
<学習用データ生成装置1の機能構成>
 図2は、学習用データ生成装置1の機能構成を示すブロック図である。同図に示すように、学習用データ生成装置1は、記憶部10、学習用CGデータ生成部20、学習用データ生成部30の各機能を備える。記憶部10は、たとえば主記憶装置3や補助記憶装置4によって実現される。また、学習用CGデータ生成部20および学習用データ生成部30は、たとえばプロセッサ2が主記憶装置3に格納されているプログラムを読み出して、このプログラムに従った処理を実行することにより実現される。
 なお、学習用データ生成装置1において、図1に示したもの以外に、たとえばFPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)、AI(Artificial Intelligence)チップ等のハードウェアをさらに搭載し、これらのハードウェアを単独で、またはプロセッサ2と協働して用いることで、図2に示す機能の一部または全部を実現してもよい。
 記憶部10は、第一CGデータ群11、CGデータ変動制約表12、算出対象選定表13、学習用CGデータ群14および学習用データ群15を記憶する。記憶部10は、たとえば、DBMS(DataBase Management System)が提供するデータベースのテーブルや、ファイルシステムが提供するファイルとして、これらの情報(データ)を記憶することができる。
 第一CGデータ群11は、1つ以上のCGデータ(第一CGデータ)により構成される。第一CGデータ群11の各第一CGデータは、CG空間に関する1つ以上のCGパラメータを有している。たとえば、CG空間内に存在する1つ以上のCGモデルとその構成部品の形状、角度、位置等の情報や、CG空間内に設定されるカメラモデルの位置や向きの情報、CG空間内で各CGモデルに照射される環境光や照明の情報などが、第一CGデータにおけるCGパラメータとして設定される。これらのCGパラメータの値は、たとえば、ユーザが入力装置5を用いて入力したり、通信装置7から取得したりすることで、学習用データ生成装置1において予め設定される。
 学習用CGデータ群14は、1つ以上の学習用CGデータにより構成される。学習用CGデータ群14の各学習用CGデータは、学習用CGデータ生成部20によって生成される。なお、学習用CGデータ生成部20による学習用CGデータの生成方法の詳細については後述する。
 学習用データ群15は、1つ以上の学習用データにより構成される。学習用データ群15の各学習用データは、学習用データ生成部30によって生成される。なお、学習用データ生成部30による学習用データの生成方法の詳細については後述する。
 CGデータ変動制約表12は、第一CGデータ群11の各第一CGデータのCGパラメータを変動させる際の制約条件を表す情報である。なお、CGデータ変動制約表12の詳細については後述する。
 算出対象選定表13は、学習用CGデータ生成部20が学習用CGデータを生成する際に算出する画像間の変動量の算出条件に関する情報である。なお、算出対象選定表13の詳細については後述する。
 学習用CGデータ生成部20は、第二CGデータ生成部21、画像生成部22、画像変動算出部23、第二CGデータ選択部24を有する。
 第二CGデータ生成部21は、記憶部10に記憶された第一CGデータ群11からいずれかの第一CGデータを取得する。そして、CGデータ変動制約表12に基づき、取得した第一CGデータが有する1つ以上のCGパラメータを変動させることで、第一CGデータとは異なるCGデータ(第二CGデータ)を1つ以上生成する。
 画像生成部22は、第二CGデータ生成部21が取得した第一CGデータから、1つ以上のCG画像(第一画像)を生成する。また画像生成部22は、第二CGデータ生成部21が生成した第二CGデータから、第一画像とは異なる1つ以上のCG画像(第二画像)を生成する。このとき画像生成部22は、生成した第一画像と第二画像に対して、グレースケール化やエッジ検出などの画像処理を適用してもよい。なお、第二CGデータは第一CGデータからCGパラメータが変動されているため、第一画像と第二画像は見た目が異なる。
 画像変動算出部23は、画像生成部22が生成した第一画像と第二画像を取得し、これらの画像間の変動量を算出する。たとえば、画像変動算出部23は、背景差分法やオプティカルフローによって、第一画像と第二画像の差分を表す変動画像を生成し、この変動画像から算出対象選定表13に基づき変動量を算出する。また画像変動算出部23は、第一画像と第二画像からそれぞれの画像の特徴量を計算し、これらの特徴量間の距離を変動量として算出してもよい。
 第二CGデータ選択部24は、画像変動算出部23が算出した変動量を取得し、この変動量に基づいて、画像生成部22が生成した1つ以上の第二CGデータからいずれかを選択する。そして、選択した第二CGデータを学習用CGデータとして、記憶部10に記憶された学習用CGデータ群14に格納する。
 学習用データ生成部30は、学習用画像生成部31および教師信号生成部32を有する。
 学習用画像生成部31は、記憶部10に記憶された学習用CGデータ群14からいずれかの学習用CGデータ、すなわち、第二CGデータ選択部24によって選択された第二CGデータを取得する。そして、取得した学習用CGデータ(第二CGデータ)からCG画像(学習用画像)を生成する。
 教師信号生成部32は、学習用画像生成部31が取得した学習用CGデータ(第二CGデータ)に基づき、教師信号を生成する。そして、学習用画像生成部31が生成した学習用画像と教師信号とを対応付けた学習用データを生成し、記憶部10に記憶された学習用データ群15に格納する。
 これにより、学習用データ生成装置1は、学習用CGデータ生成部20において、第二CGデータから生成される第二画像の変動量に基づいていずれかの第二CGデータを選択し、学習用データ生成部30において、選択された第二CGデータから学習用データを生成することができる。したがって、学習用データ生成装置1は、見た目が異なる多様な学習用画像を含む学習用データの生成を図ることができる。
<学習用CGデータ生成部20の処理例>
 図3は、本発明の第1の実施形態に係る学習用データ生成装置1が、学習用CGデータ生成部20において、学習用CGデータを生成する処理の例を説明するフローチャートである。
 まず、学習用CGデータ生成部20は、第二CGデータ生成部21において、記憶部10が有する第一CGデータ群11から第一CGデータを取得する(S210)。
 第一CGデータは、1つ以上のCGモデルを含むCG空間に関する1つ以上のCGパラメータを有する。CGパラメータとは、CG空間およびCG空間内に存在する各CGモデルを制御するためのパラメータである。たとえば、CGパラメータは、CG空間に関して、背景情報や環境光に関するパラメータを含む。また、各CGモデルおよび各CGモデルを構成する部品に関して、これらの個数や、CG空間上でのこれらの位置および角度、色、模様、反射特性、動き、形状などのパラメータを含む。また、CG空間内に設置される照明に関して、個数や、CG空間上での位置および角度、照射方向、照度などのパラメータを含む。また、カメラモデルに関して、CG空間上での位置や角度などのパラメータを含む。これ以外にも、CG画像に関する任意のパラメータをCGパラメータとして設定することができる。
 続いて、学習用CGデータ生成部20は、第二CGデータ生成部21において、CGデータ変動制約表12に基づき、ステップS210で取得した第一CGデータから、1つ以上の第二CGデータを生成する(S220)。
 図4に、CGデータ変動制約表12の例を示す。同図に示すように、CGデータ変動制約表12は、各CGパラメータに関して、第一CGデータの設定値、変動値の最小値および最大値、変動させる割合等の情報を保持する。このうち、第一CGデータの設定値は第一CGデータから得られるため、省略してもよい。また、変動値の最小値および最大値と変動させる割合は、ユーザがあらかじめ設定してもよい。さらに、変動値の最小値および最大値は、各CGパラメータがCG空間上で取り得る値の最小値と最大値をそれぞれ自動的に設定してもよく、もしくは、第一CGデータの設定値を中心とした区間の最小値と最大値をそれぞれ自動的に設定してもよい。
 第二CGデータ生成部21は、まず、CGデータ変動制約表12に示された変動させる割合に基づき、第一CGデータにおいて変動させるCGパラメータを決定する。続いて、CGデータ変動制約表12に示された変動値の最小値および最大値に基づき、変動後のCGパラメータの値を無作為に決定する。たとえば、図4のCGデータ変動制約表12において、行121に記載されたCGパラメータ(CGモデルM1の構成部品P1の角度を制御するCGパラメータ)は、変動させる割合が0.5、変動値の最小値が30°、最大値が90°にそれぞれ設定されている。したがって、このCGパラメータの値は、第二CGデータ生成部21により、50%の確率で、30°以上かつ90°以下の範囲内で無作為に決定された値へと変更される。
 このように、第二CGデータ生成部21は、図3のステップS220において、CGデータ変動制約表12に基づき、第一CGデータのCGパラメータを変更することで、第一CGデータとはCGパラメータの値が異なる第二CGデータを生成することができる。
 図3の説明に戻ると、続いて、学習用CGデータ生成部20は、画像生成部22において、第二CGデータ生成部21がステップS210で取得した第一CGデータから、第一合成画像と第一領域画像を生成する(S230)。
 具体的には、画像生成部22は、第一CGデータが有するCGパラメータに基づき、CG空間を作成し、そのCG空間内に1つ以上のCGモデルとカメラモデルをそれぞれ設定(配置)する。そして、カメラモデルによって各CGモデルを撮影することで得られる画像を、第一合成画像として生成する。
 また画像生成部22は、第一合成画像上の各CGモデル、および/または各CGモデルを構成する各部品の領域を、これらに対してそれぞれ個別に割り当てられた特定の形態(色、模様、明度等)で塗り分けることにより、第一領域画像を生成する。これにより、たとえば、第一合成画像上に複数のCGモデルが存在した場合であっても、第一領域画像上で特定の形態を有する領域を参照することで、特定のCGモデルや特定の部品に関して、これらに対応する領域を第一合成画像内および第一領域画像内で容易に抽出することができる。
 なお、画像生成部22は、第一合成画像を生成せずに第一領域画像のみを生成してもよい。また、第一合成画像の各画素に対して、当該画素に対応するCGモデルとカメラモデルとの間のCG空間における距離値を埋め込むことにより、距離情報を含む第一合成画像を生成してもよい。さらに、画像生成部22は、生成した第一合成画像に対して、グレースケール化やエッジ検出、HSV(Hue, Saturation and Value)変換などの画像処理を適用してもよい。
 続いて、学習用CGデータ生成部20は、第二CGデータ生成部21がステップS220で生成した1つ以上の第二CGデータの各々に対して、以下のステップS240からステップS270の処理を行うことで、第一CGデータによる画像と第二CGデータによる画像の間での変動量を算出する。
 ステップS240では、画像生成部22において、処理対象の第二CGデータから、第二合成画像と第二領域画像を生成する。ここでは、ステップS230で第一合成画像および第一領域画像を生成したのと同様の処理により、第二CGデータから第二合成画像および第二領域画像を生成することができる。このとき、第二合成画像上の各CGモデル、および/または各CGモデルを構成する各部品の領域を、それぞれ第一領域画像と同じ形態で塗り分けることにより、第二領域画像を生成することが好ましい。
 ステップS250では、画像変動算出部23において、画像生成部22がステップS230、S240でそれぞれ生成した第一合成画像と第二合成画像から、これらの画像間の差分を表す変動画像を求める。具体的には、第一合成画像と第二合成画像から、背景差分法やオプティカルフローによってこれらの差分を抽出し、変動画像を求めることができる。このとき画像変動算出部23は、変動画像の各画素の値に対して、絶対値化および正規化などの処理を行ってもよい。たとえば、変動画像では、第一合成画像と第二合成画像とで変化が生じなかった領域の画素の値が0となり、変化が生じた領域に含まれる画素の値が0以外の値となる。
 あるいは、他の方法を用いて変動画像を生成することもできる。たとえば、第一合成画像および第二合成画像から色味および明度成分の少なくとも一方をそれぞれ抽出し、抽出した色味や明度成分が第一合成画像と第二合成画像の間で異なる領域を抽出して、その領域を示す画像を変動画像として生成してもよい。また、第一領域画像を第一合成画像、第二領域画像を第二合成画像としてそれぞれ用いて、これらの画像間で位置が変化したCGモデルの領域や、オクルージョンの発生によって可視領域が変化したCGモデルの領域等を抽出することで、変動画像を生成してもよい。さらに、第一合成画像および第二合成画像において、前述のように各画素に距離値が埋め込まれている場合には、第一合成画像と第二合成画像とで距離値が変化した画素の領域、すなわち、3次元的に形状が変化した領域を抽出することで、変動画像を生成してもよい。これ以外にも、第一合成画像と第二合成画像の間の差分を適切に表すことができれば、任意の方法で変動画像を生成することが可能である。
 ステップS260では、画像変動算出部23において、ステップ250で求めた変動画像に対して、画像生成部22がステップS230、S240でそれぞれ生成した第一領域画像と第二領域画像から、算出対象選定表13に基づき、1つ以上の算出対象領域を抽出する。
 図5に、算出対象選定表13の例を示す。同図に示すように、算出対象選定表13は、第一CGデータが有する各CGモデルおよびCGモデルを構成する各部品に関して、変動量の算出対象とするか否かの情報と、重みの値とを有する。変動量の算出対象とするか否かの情報として、算出対象とする場合には「1」、しない場合には「0」が設定される。重みの値は、0から1の間でいずれかの値が設定される。これらの値は、ユーザがあらかじめ設定してもよい。
 画像変動算出部23は、まず、算出対象選定表13において、変動量の算出対象とするか否かの情報が「1」と設定された各CGモデルおよびCGモデルを構成する各部品に関して、これらに対応する第一領域画像上での領域と、第二領域画像上での領域とをそれぞれ抽出する。そして、抽出したこれらの領域の和集合の領域を、変動量の算出対象領域として抽出する。たとえば、算出対象選定表13において、認識対象のCGモデルに関して、変動量の算出対象とするか否かの情報を「1」と設定することで、そのCGモデルの領域が算出対象領域として抽出される。もしくは、第一領域画像と第二領域画像から変動量の算出対象としてそれぞれ抽出した領域の積集合、差集合、対称差集合などを、変動量の算出対象領域として抽出してもよい。
 図3の説明に戻ると、ステップS270では、画像変動算出部23において、ステップS260で抽出した算出対象領域に基づき、ステップS250で求めた変動画像から変動量を算出する。具体的には、画像変動算出部23は、たとえば、変動画像において算出対象領域に対応する領域を抽出し、その領域内に含まれる各画素の値の平均値を変動量として算出する。このとき画像変動算出部23は、算出対象選定表13を参照し、これに基づいて変動量を重み付けしてもよい。たとえば、変動画像から抽出した領域に対して、その領域に対応する算出対象領域の重みの値を算出対象選定表13から取得し、取得した重みを領域内の各画素の値に乗算した後に、各画素の値の平均値を変動量として算出してもよい。
 あるいは、他の方法を用いて変動画像から変動量を算出することもできる。たとえば、変動画像から抽出した領域内の各画素の値を所定の閾値とそれぞれ比較し、閾値を超える画素の割合を変動量として算出してもよい。この閾値は、たとえば、変動画像の画素の値が取り得る値の中央値を設定してもよいし、ユーザがあらかじめ設定してもよい。これ以外にも、第一合成画像と第二合成画像の間の変動量を変動画像から適切に算出することができれば、任意の方法で変動量を算出することが可能である。
 上記のステップS240からS270の処理を第二CGデータごとに繰り返すことで、学習用CGデータ生成部20は、第二CGデータ生成部21が生成した1つ以上の第二CGデータの各々に対して、第一CGデータからの変動量を算出することができる。
 第二CGデータ生成部21が生成した全ての第二CGデータに対してステップS240からステップS270の処理を実施したら、続いて、学習用CGデータ生成部20は、第二CGデータ選択部24において、画像変動算出部23がステップS270で算出した変動量に基づき、いずれかの第二CGデータを選択する。そして、選択した第二CGデータを学習用CGデータとして、記憶部10に記憶された学習用CGデータ群14に格納する(S280)。その後、図3のフローチャートに示す処理を終了する。
 具体的には、第二CGデータ選択部24は、たとえば、第二CGデータ生成部21がステップS220で生成した1つ以上の第二CGデータのうち、画像変動算出部23がステップS270で算出した変動量が所定の閾値を超える第二CGデータを選択する。このとき閾値としては、たとえば、変動画像の画素の値が取り得る値の中央値を設定することができる。もしくは、ユーザがあらかじめ設定してもよい。
 図6は、第二CGデータ選択部24における操作画面の一例を示す説明図である。同図に示す操作画面1000は、ステップS280において、学習用データ生成装置1の出力装置6や、通信装置7を介して通信可能な不図示のディスプレイなどに表示される。
 操作画面1000には、選択結果1001と変動量設定1002が含まれる。選択結果1001では、第二CGデータの選択結果が列1011に、各第二CGデータの変動量の値が列1012に、第一合成画像と第二合成画像、またはこれらの縮小画像が列1013にそれぞれ表示される。列1011において、第二CGデータ選択部24がステップS280で選択した第二CGデータの欄には「1」が表示され、他の欄には「0」が表示される。また、変動量設定1002では、第二CGデータ選択時の変動量の使用結果が列1021に、閾値が列1022にそれぞれ表示される。列1021において、第二CGデータ選択部24がステップS280で第二CGデータを選択する際に使用された変動量の欄には「1」が表示され、他の欄には「0」が表示される。
 ユーザは、選択結果1001の列1011を書き換えることで、選択される第二CGデータを任意に変更することができる。また、変動量設定1002の列1021、1022を書き換えることで、第二CGデータ選択部24が第二CGデータを選択する際に使用される変動量と閾値を任意に変更することができる。
 以上、詳細に説明したように、本実施形態の学習用データ生成装置1において、学習用CGデータ生成部20は、第一CGデータのCGパラメータを変動させることで、第二CGデータを1つ以上生成する。そして、第一CGデータから生成される第一合成画像と、第二CGデータから生成される第二合成画像との間の変動に基づき、第一CGデータに対して見た目が異なる画像を生成可能な第二CGデータを選択することができる。したがって、学習用データ生成装置1は、学習用CGデータ生成部20によって選択された第二CGデータ(学習用CGデータ)から学習用画像を生成することで、多様な学習用画像の生成を図ることができる。
<学習用データ生成部30の処理例>
 図7は、学習用データ生成装置1が、学習用データ生成部30において、学習用データを生成する処理の例を説明するフローチャートである。
 まず、学習用データ生成部30は、学習用画像生成部31において、記憶部10が有する学習用CGデータ群14から学習用CGデータ、すなわち、第二CGデータ選択部24が図3のステップS280で選択した第二CGデータを取得する(S310)。
 続いて、学習用データ生成部30は、学習用画像生成部31において、ステップS310で取得した学習用CGデータ(第二CGデータ)から、学習用画像を生成する(S320)。具体的には、学習用画像生成部31は、学習用CGデータが有するCGパラメータに基づき、CG空間を作成し、そのCG空間内に1つ以上のCGモデルとカメラモデルをそれぞれ設定(配置)する。そして、カメラモデルによって各CGモデルを撮影することで得られる画像を、学習用画像として生成する。このとき学習用画像生成部31は、生成した学習用画像に対して、グレースケール化などの画像処理や、深層学習による画像変換などを適用してもよい。また、図3のステップS240で画像生成部22が生成した第二合成画像を記憶部10に保存しておき、これを用いることで、ステップS320の処理を省略してもよい。
 続いて、学習用データ生成部30は、教師信号生成部32において、学習用画像生成部31がステップS310で取得した学習用CGデータ(第二CGデータ)から、教師信号を生成する(S330)。具体的には、教師信号生成部32は、たとえば、ステップS320で学習用画像生成部31が生成した学習用画像上の各CGモデル、および/または各CGモデルを構成する各部品の領域を、前述の第一領域画像や第二領域画像と同様に塗り分けた領域画像を、教師信号として生成する。なお、図3のステップS240で画像生成部22が生成した第二領域画像を記憶部10に保存しておき、これを用いることで、ステップS330の処理を省略してもよい。
 さらに教師信号生成部32は、生成した領域画像に基づき、各CGモデルやCGモデルを構成する各部品の領域を囲む二次元バウンディングボックスを作成し、これを教師信号に含めてもよい。また教師信号生成部32は、ステップS320で学習用画像生成部31が生成した学習用画像の各画素に対して、当該画素に対応するCGモデルとカメラモデルとの間のCG空間における距離値を埋め込み、これを教師信号に含めてもよい。また教師信号生成部32は、学習用画像生成部31がステップS310で取得した学習用CGデータ(第二CGデータ)に含まれる各CGパラメータ、たとえば、CG空間に関する背景情報や環境光に関するパラメータ、各CGモデルおよびCGモデルを構成する各部品に関するCG空間上での位置および角度、色、模様、反射特性、動き、形状などのパラメータ、照明に関するCG空間上での位置および角度、照射方向、照度などのパラメータ、カメラモデルに関するCG空間上での位置や角度などのパラメータなどを、教師信号に含めてもよい。また教師信号生成部32は、学習用画像上の各CGモデルおよびCGモデルを構成する各部品に関して、学習用画像生成部31がステップS310で取得した学習用CGデータ(第二CGデータ)に含まれる各CGパラメータから作成される情報、たとえば、クラス名や属性情報、三次元バウンディングボックス、ボリュームデータ等を教師信号に含めてもよい。これ以外にも、学習用CGデータから得られる任意の情報を教師信号に含めることができる。
 続いて、学習用データ生成部30は、教師信号生成部32において、ステップS320で学習用画像生成部31が生成した学習用画像と、ステップS330で生成した教師信号とを互いに対応付けて、学習用データを作成する。そして、作成した学習用データを記憶部10に記憶された学習用データ群15に格納する(S340)。その後、図7のフローチャートに示す処理を終了する。
 以上、詳細に説明したように、本実施形態の学習用データ生成装置1は、学習用CGデータ生成部20において、見た目が異なる画像を生成することのできる第二CGデータを生成し、学習用データ生成部30において、学習用CGデータ生成部20が生成した第二CGデータから学習用データを生成する。これにより、多様な学習用画像を含む学習用データの生成を図ることができる。
 以上説明した本発明の第1の実施形態によれば、以下の作用効果が得られる。
(1)学習用データ生成装置1は、第二CGデータ生成部21と、画像生成部22と、画像変動算出部23と、第二CGデータ選択部24と、学習用画像生成部31とを備える。第二CGデータ生成部21は、1つ以上のCGモデルを含むCG空間に関する1つ以上のCGパラメータを有する第一CGデータを取得し(S210)、第一CGデータのCGパラメータを変動させた第二CGデータを1つ以上生成する(S220)。画像生成部22は、第一CGデータから1つ以上の第一画像を生成し(S230)、第二CGデータから1つ以上の第二画像を生成する(S240)。画像変動算出部23は、第一画像と第二画像の間の変動量を算出する(S250~S270)。第二CGデータ選択部24は、変動量に基づいて、1つ以上の第二CGデータからいずれかを選択する(S280)。学習用画像生成部31は、第二CGデータ選択部24によって選択された第二CGデータから、1つ以上の学習用画像を生成する(S320)。このようにしたので、多様な学習用画像を生成することが可能な学習用データ生成装置を提供することができる。
(2)画像生成部22は、ステップS230では、第一CGデータが有するCGパラメータに基づくCG空間において、第一CGデータが有するCGパラメータに基づいてカメラモデル(第一カメラモデル)を設定する。そして、第一カメラモデルによってCG空間内の各CGモデルを撮影した第一合成画像と、第一合成画像上の各CGモデルおよび/または各CGモデルを構成する各部品の領域をそれぞれ異なる形態で塗り分けた第一領域画像と、を生成する。また、ステップS240では、第二CGデータが有するCGパラメータに基づくCG空間において、第二CGデータが有するCGパラメータに基づいてカメラモデル(第二カメラモデル)を設定する。そして、第二カメラモデルによってCG空間内の各CGモデルを撮影した第二合成画像と、第二合成画像上の各CGモデルおよび/または各CGモデルを構成する各部品の領域をそれぞれ異なる形態で塗り分けた第二領域画像と、を生成する。画像変動算出部23は、第一合成画像と第二合成画像から変動画像を生成し(S250)、第一領域画像と第二領域画像から算出対象領域を抽出し(S260)、変動画像における算出対象領域の画像情報に基づいて変動量を算出する(S270)。このようにしたので、第一画像と第二画像の間の変動の大きさを表す変動量を、確実に算出することができる。
(3)画像変動算出部23は、第一合成画像および第二合成画像から色味および明度成分の少なくとも一方をそれぞれ抽出し、抽出した色味および明度成分の少なくとも一方に基づいて変動画像を生成することができる。このようにすれば、変動画像を容易に生成することが可能となる。
(4)また、画像変動算出部23は、第一領域画像を第一合成画像、第二領域画像を第二合成画像としてそれぞれ用いて変動量を算出してもよい。このようにすれば、変動量を容易に算出することが可能となる。
(5)さらに、画像生成部22は、第一合成画像の各画素に対して、当該画素に対応するCGモデルと第一カメラモデルとの間のCG空間における距離値を埋め込むとともに、第二合成画像の各画素に対して、当該画素に対応するCGモデルと第二カメラモデルとの間のCG空間における距離値を埋め込むようにしてもよい。このようにすれば、画像変動算出部23が変動画像を容易に生成することが可能となる。
(6)学習用データ生成装置1は、第二CGデータから教師信号を生成し(S330)、生成した教師信号と学習用画像とを対応付けた学習用データを生成する(S340)教師信号生成部32を備える。このようにしたので、多様な学習用画像を含む学習用データを生成することができる。
(第2の実施形態)
 次に、本発明の第2の実施形態について、図8を参照して以下に説明する。本実施形態では、変動量が所定の閾値を超える第二CGデータが十分に得られなかった場合に、第二CGデータを再生成する例を説明する。
 なお、本実施形態における学習用データ生成装置のハードウェア構成と機能構成は、第1の実施形態において図1、図2に示したものとそれぞれ同一である。したがって以下では、第1の実施形態と共通のハードウェア構成と機能構成を用いて、本実施形態の学習用データ生成装置を説明する。
 図8は、本発明の第2の実施形態に係る学習用データ生成装置1が、学習用CGデータ生成部20において、学習用CGデータを生成する処理の例を説明するフローチャートである。なお、図8のフローチャートにおいて、第1の実施形態で説明した図3のフローチャートと同様の処理を行う部分については、図3と共通のステップ番号としている。以下では、図3と共通のステップ番号が付された処理の説明を省略して、図8のフローチャートを説明する。
 第二CGデータ生成部21が生成した全ての第二CGデータに対してステップS240からステップS270の処理を実施したら、続いて、学習用CGデータ生成部20は、画像変動算出部23がステップS270で算出した変動量を所定の閾値と比較し、変動量が閾値以上の第二CGデータが所定数以上あるか否かを判定する(S271)。変動量が閾値以上の第二CGデータが所定数以上ある場合はステップS280Aへ進み、ない場合はステップS272へ進む。
 ステップS272では、第二CGデータ選択部24において、第二CGデータ生成部21がステップS220で生成した1つ以上の第二CGデータのうち、画像変動算出部23がステップS270で算出した変動量が最も大きい第二CGデータを選択する。そして、第二CGデータ生成部21において、第二CGデータ選択部24が選択した第二CGデータのCGパラメータを、さらに変動量が大きくなるように調整することで、1つ以上の新たな第二CGデータを再生成する。たとえば、選択した第二CGデータが有する各CGパラメータを、第一CGデータにおけるCGパラメータ値との差分が大きくなるように変化させることで、変動量が大きくなるように第二CGデータを調整することができる。
 ステップS272で1つ以上の第二CGデータを再生成したら、学習用CGデータ生成部20は、ステップS240へ戻り、再生成後の各第二パラメータに対して、ステップS240からS270の処理を繰り返す。これにより、学習用CGデータ生成部20は、第二CGデータ生成部21が再生成した1つ以上の第二CGデータの各々に対して、第一CGデータからの変動量を算出することができる。
 ステップS280Aでは、第二CGデータ選択部24において、第二CGデータ生成部21がステップS220で生成するか、もしくはステップS272で再生成した1つ以上の第二CGデータのうち、画像変動算出部23がステップS270で算出した変動量が所定の閾値を超える第二CGデータを選択する。そして、選択した第二CGデータを学習用CGデータとして、記憶部10に記憶された学習用CGデータ群14に格納する。その後、図8のフローチャートに示す処理を終了する。
 以上説明した本発明の第2の実施形態によれば、第二CGデータ生成部21は、変動量に基づき、1つ以上の第二CGデータを再生成する(S272)。このようにしたので、多様な学習用画像を確実に生成することができる。
 なお、本発明は上記の実施形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。たとえば、上記の実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、説明した全ての構成を備えるものに必ずしも限定されるものではない。また上記実施形態の構成の一部について、他の構成の追加や削除、置換をすることが可能である。
 また上記の各構成、機能部、処理部、処理手段等は、それらの一部または全部を、たとえば、集積回路で設計する等によりハードウェアで実現してもよい。また上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、SSD等の記録装置、ICカード、SDカード、DVD等の記録媒体に置くことができる。
 また上記の各図において、制御線や情報線は説明上必要と考えられるものを示しており、必ずしも実装上の全ての制御線や情報線を示しているとは限らない。たとえば、実際には殆ど全ての構成が相互に接続されていると考えてもよい。
 また以上に説明した各種機能部、各種処理部、各種データベースの配置形態は一例に過ぎない。各種機能部、各種処理部、各種データベースの配置形態は、これらの装置が備えるハードウェアやソフトウェアの性能、処理効率、通信効率等の観点から最適な配置形態に変更し得る。
 また前述した各種のデータを格納するデータベースの構成(スキーマ(Schema)等)は、リソースの効率的な利用、処理効率向上、アクセス効率向上、検索効率向上等の観点から柔軟に変更し得る。
1 学習用データ生成装置
2 プロセッサ
3 主記憶装置
4 補助記憶装置
5 入力装置
6 出力装置
7 通信装置
10 記憶部
11 第一CGデータ群
12 CGデータ変動制約表
13 算出対象選定表
14 学習用CGデータ群
15 学習用データ群
20 学習用CGデータ生成部
21 第二CGデータ生成部
22 画像生成部
23 画像変動算出部
24 第二CGデータ選択部
30 学習用データ生成部
31 学習用画像生成部
32 教師信号生成部

Claims (7)

  1.  1つ以上のCGモデルを含むCG空間に関する1つ以上のCGパラメータを有する第一CGデータを取得し、前記第一CGデータの前記CGパラメータを変動させた第二CGデータを1つ以上生成する第二CGデータ生成部と、
     前記第一CGデータから1つ以上の第一画像を生成し、前記第二CGデータから1つ以上の第二画像を生成する画像生成部と、
     前記第一画像と前記第二画像の間の変動量を算出する画像変動算出部と、
     前記変動量に基づいて、1つ以上の前記第二CGデータからいずれかを選択する第二CGデータ選択部と、
     前記第二CGデータ選択部によって選択された前記第二CGデータから、1つ以上の学習用画像を生成する学習用画像生成部と、を備える、学習用データ生成装置。
  2.  請求項1に記載の学習用データ生成装置であって、
     前記画像生成部は、
     前記第一CGデータが有する前記CGパラメータに基づく前記CG空間において、前記第一CGデータが有する前記CGパラメータに基づいて第一カメラモデルを設定し、
     前記第一カメラモデルによって前記CG空間内の各CGモデルを撮影した第一合成画像と、前記第一合成画像上の各CGモデルおよび/または各CGモデルを構成する各部品の領域をそれぞれ異なる形態で塗り分けた第一領域画像と、を生成し、
     前記第二CGデータが有する前記CGパラメータに基づく前記CG空間において、前記第二CGデータが有する前記CGパラメータに基づいて第二カメラモデルを設定し、
     前記第二カメラモデルによって前記CG空間内の各CGモデルを撮影した第二合成画像と、前記第二合成画像上の各CGモデルおよび/または各CGモデルを構成する各部品の領域をそれぞれ異なる形態で塗り分けた第二領域画像と、を生成し、
     前記画像変動算出部は、
     前記第一合成画像と前記第二合成画像から変動画像を生成し、
     前記第一領域画像と前記第二領域画像から算出対象領域を抽出し、
     前記変動画像における前記算出対象領域の画像情報に基づいて前記変動量を算出する、学習用データ生成装置。
  3.  請求項2に記載の学習用データ生成装置であって、
     前記画像変動算出部は、前記第一合成画像および前記第二合成画像から色味および明度成分の少なくとも一方をそれぞれ抽出し、抽出した前記色味および前記明度成分の少なくとも一方に基づいて前記変動画像を生成する、学習用データ生成装置。
  4.  請求項2に記載の学習用データ生成装置であって、
     前記画像変動算出部は、前記第一領域画像を前記第一合成画像、前記第二領域画像を前記第二合成画像としてそれぞれ用いて前記変動量を算出する、学習用データ生成装置。
  5.  請求項2に記載の学習用データ生成装置であって、
     前記画像生成部は、前記第一合成画像の各画素に対して、当該画素に対応する前記CGモデルと前記第一カメラモデルとの間の前記CG空間における距離値を埋め込むとともに、前記第二合成画像の各画素に対して、当該画素に対応する前記CGモデルと前記第二カメラモデルとの間の前記CG空間における距離値を埋め込む、学習用データ生成装置。
  6.  請求項1に記載の学習用データ生成装置であって、
     前記第二CGデータ生成部は、前記変動量に基づき、1つ以上の前記第二CGデータを再生成する、学習用データ生成装置。
  7.  請求項1に記載の学習用データ生成装置であって、
     前記第二CGデータから教師信号を生成し、生成した前記教師信号と前記学習用画像とを対応付けた学習用データを生成する教師信号生成部を備える、学習用データ生成装置。
PCT/JP2023/013389 2022-06-15 2023-03-30 学習用データ生成装置 WO2023243185A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-096778 2022-06-15
JP2022096778A JP2023183255A (ja) 2022-06-15 2022-06-15 学習用データ生成装置

Publications (1)

Publication Number Publication Date
WO2023243185A1 true WO2023243185A1 (ja) 2023-12-21

Family

ID=89192580

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/013389 WO2023243185A1 (ja) 2022-06-15 2023-03-30 学習用データ生成装置

Country Status (2)

Country Link
JP (1) JP2023183255A (ja)
WO (1) WO2023243185A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010211732A (ja) * 2009-03-12 2010-09-24 Nippon Telegr & Teleph Corp <Ntt> 物体認識装置および方法
JP2018163554A (ja) * 2017-03-27 2018-10-18 富士通株式会社 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法
JP2020119127A (ja) * 2019-01-22 2020-08-06 日本金銭機械株式会社 学習用データ生成方法、プログラム、学習用データ生成装置、および、推論処理方法
JP2021107981A (ja) * 2019-12-27 2021-07-29 トヨタ自動車株式会社 教師データ生成装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010211732A (ja) * 2009-03-12 2010-09-24 Nippon Telegr & Teleph Corp <Ntt> 物体認識装置および方法
JP2018163554A (ja) * 2017-03-27 2018-10-18 富士通株式会社 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法
JP2020119127A (ja) * 2019-01-22 2020-08-06 日本金銭機械株式会社 学習用データ生成方法、プログラム、学習用データ生成装置、および、推論処理方法
JP2021107981A (ja) * 2019-12-27 2021-07-29 トヨタ自動車株式会社 教師データ生成装置

Also Published As

Publication number Publication date
JP2023183255A (ja) 2023-12-27

Similar Documents

Publication Publication Date Title
US10789686B2 (en) Denoising Monte Carlo renderings using machine learning with importance sampling
US10846828B2 (en) De-noising images using machine learning
US8824821B2 (en) Method and apparatus for performing user inspired visual effects rendering on an image
US20170278308A1 (en) Image modification and enhancement using 3-dimensional object model based recognition
US9262853B2 (en) Virtual scene generation based on imagery
WO2018080533A1 (en) Real-time generation of synthetic data from structured light sensors for 3d object pose estimation
CN112967180A (zh) 一种生成对抗网络的训练方法、图像风格转换方法和装置
CN113869219A (zh) 人脸活体检测方法、装置、设备及存储介质
TW202316373A (zh) 針對多層顯像中之物件辨識性的系統及方法
CN114359269A (zh) 基于神经网络的虚拟食品盒缺陷生成方法及系统
CN107563958B (zh) 全息图像转换方法和系统
CN112434581A (zh) 一种室外目标颜色识别方法、系统、电子设备及存储介质
WO2023243185A1 (ja) 学習用データ生成装置
US20230276020A1 (en) Image processing device, image processing method, and image processing program
CN115035224A (zh) 图像处理和重构图像生成的方法和装置
JP2023521456A (ja) 実際の場所の仮想環境復元を作成するための方法
CN111104470A (zh) 一种电子沙盘和应急平台联动的方法和系统
CN117994173B (zh) 修复网络训练方法、图像处理方法、装置及电子设备
CN118036336A (zh) 范围自适应高保真深度数据模拟方法
Park et al. Improving Instance Segmentation using Synthetic Data with Artificial Distractors
CN117953167B (zh) 基于点云数据的高速公路附属设施建模方法及系统
US20240161391A1 (en) Relightable neural radiance field model
WO2023035263A1 (zh) 确定图像信号处理参数的方法、装置和感知系统
US20240169701A1 (en) Affordance-based reposing of an object in a scene
Hagn Training and Validation of Visual Perception Functions for Autonomous Driving with Synthetic Data

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23823489

Country of ref document: EP

Kind code of ref document: A1