WO2024116392A1 - 学習用データ生成装置、学習用データ生成方法、及び学習用データ生成プログラム - Google Patents
学習用データ生成装置、学習用データ生成方法、及び学習用データ生成プログラム Download PDFInfo
- Publication number
- WO2024116392A1 WO2024116392A1 PCT/JP2022/044476 JP2022044476W WO2024116392A1 WO 2024116392 A1 WO2024116392 A1 WO 2024116392A1 JP 2022044476 W JP2022044476 W JP 2022044476W WO 2024116392 A1 WO2024116392 A1 WO 2024116392A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- learning data
- images
- data generation
- training data
- Prior art date
Links
- 238000012549 training Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 title claims description 39
- 238000012545 processing Methods 0.000 claims description 31
- 239000000284 extract Substances 0.000 claims description 2
- 238000003384 imaging method Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 25
- 238000003860 storage Methods 0.000 description 15
- 238000001514 detection method Methods 0.000 description 14
- 238000010801 machine learning Methods 0.000 description 9
- 235000008534 Capsicum annuum var annuum Nutrition 0.000 description 6
- 240000008384 Capsicum annuum var. annuum Species 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 235000015277 pork Nutrition 0.000 description 6
- 235000021186 dishes Nutrition 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 235000013305 food Nutrition 0.000 description 5
- 240000005856 Lyophyllum decastes Species 0.000 description 3
- 235000013194 Lyophyllum decastes Nutrition 0.000 description 3
- 241000209094 Oryza Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 235000009566 rice Nutrition 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 235000015220 hamburgers Nutrition 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Definitions
- the disclosed technology relates to a learning data generation device, a learning data generation method, and a learning data generation program.
- the generation of learning data here is also called annotation.
- the pixel area of each object to be detected that appears in the image is given as rectangular information in the form of a set of rectangular coordinates, and then generated. Annotating the target object from each and every image is extremely labor-intensive.
- Non-Patent Document 1 describes existing research on annotation work.
- Non-Patent Document 1 describes a risk-hedging technique in which, rather than just having one person attach multiple bounding boxes (BBs, which represent annotation rectangles) to one image as shown in Figure 16, one person first attaches the BBs, then another person checks the quality, and yet another person checks whether all of the categories have been annotated for the image.
- BBs bounding boxes
- Non-Patent Document 1 Even with the technology described in Non-Patent Document 1, a certain number of annotations is still required initially. For this reason, there is a need for a method to easily generate more versatile training data.
- the disclosed technology has been made in consideration of the above points, and aims to provide a learning data generation device, a learning data generation method, and a learning data generation program that can easily generate learning data to be used in machine learning.
- a first aspect of the present disclosure is a learning data generation device that includes a first acquisition unit that acquires a plurality of first images including an object, a second acquisition unit that acquires a plurality of second images including an area that may be the background of the object, and a generation unit that generates learning data by superimposing each of the plurality of first images with each of the plurality of second images.
- a second aspect of the present disclosure is a method for generating training data, which involves obtaining a plurality of first images including an object, obtaining a plurality of second images including an area that may be the background of the object, and superimposing each of the plurality of first images with each of the plurality of second images to generate training data.
- a third aspect of the present disclosure is a learning data generation program that causes a computer to acquire a plurality of first images that include an object, acquire a plurality of second images that include an area that may be the background of the object, and generate learning data by superimposing each of the plurality of first images and each of the plurality of second images.
- the disclosed technology has the effect of making it possible to easily generate learning data to be used in machine learning.
- FIG. 1 is a block diagram showing an example of a hardware configuration of a learning data generating device according to a first embodiment.
- FIG. 1 is a block diagram showing an example of a functional configuration of a learning data generating device according to a first embodiment.
- FIG. FIG. 2 is a diagram showing an example of a first image according to the embodiment.
- FIG. 13 is a diagram showing an example of numbers that can be used in the first image.
- FIG. 2 is a diagram showing an example of an image of learning data according to the embodiment.
- FIG. 11 is a diagram showing an example of a processed first image.
- FIG. 13 is a diagram illustrating an example of learning data to which annotation information is added.
- FIG. 13 is a diagram showing another example of the first image according to the embodiment.
- FIG. 13 is a diagram showing another example of the first image according to the embodiment.
- FIG. 13 is a diagram showing another example of an image of learning data according to the embodiment.
- 11 is a flowchart showing an example of a processing flow of a learning data generation program according to the first embodiment.
- FIG. 11 is a block diagram showing an example of a functional configuration of a learning data generating device according to a second embodiment.
- 1A to 1C are diagrams illustrating an example of an estimation target image and an estimation result according to the embodiment.
- 11A to 11C are diagrams illustrating a region extraction process for extracting a first image from images of a plurality of different objects.
- 11A to 11C are diagrams illustrating a region extraction process for an estimation target image.
- FIG. 13 is a diagram showing yet another example of the first image according to the embodiment.
- FIG. 13 is a diagram showing an example of a combination that can be assumed from a plurality of objects.
- FIG. 1 illustrates the prior art.
- the training data generation device provides specific improvements over conventional methods for generating training data for use in machine learning using machine learning, and represents an advancement in the technical field of generating training data for use in machine learning.
- learning data to be used in machine learning is generated by superimposing an image of a target object on a background image. This makes it possible to obtain an image in which an annotation image is pseudo-reproduced, in other words, an annotation is added in advance. Compared to the conventional method of annotating an object from within an image, learning data can be generated more easily.
- FIG. 1 is a block diagram showing an example of the hardware configuration of a learning data generation device 10 according to the first embodiment.
- the learning data generating device 10 includes a CPU (Central Processing Unit) 11, a ROM (Read Only Memory) 12, a RAM (Random Access Memory) 13, a storage 14, an input unit 15, a display unit 16, and a communication interface (I/F) 17.
- a CPU Central Processing Unit
- ROM Read Only Memory
- RAM Random Access Memory
- storage 14 an input unit 15, a display unit 16, and a communication interface (I/F) 17.
- I/F communication interface
- the CPU 11 is a central processing unit that executes various programs and controls each part. That is, the CPU 11 reads a program from the ROM 12 or storage 14, and executes the program using the RAM 13 as a working area. The CPU 11 controls each of the above components and performs various calculation processes according to the program stored in the ROM 12 or storage 14. In this embodiment, the ROM 12 or storage 14 stores a learning data generation program for executing the learning data generation process. Note that instead of the CPU, for example, a GPU (Graphics Processing Unit) may be used.
- a GPU Graphics Processing Unit
- ROM 12 stores various programs and data.
- RAM 13 temporarily stores programs or data as a working area.
- Storage 14 is composed of a HDD (Hard Disk Drive) or SSD (Solid State Drive) and stores various programs including the operating system and various data.
- the input unit 15 includes a pointing device such as a mouse and a keyboard, and is used to perform various inputs to the device itself.
- the display unit 16 is, for example, a liquid crystal display, and displays various information.
- the display unit 16 may also function as the input unit 15 by adopting a touch panel system.
- the communication interface 17 is an interface for the device to communicate with other external devices.
- a wired communication standard such as Ethernet (registered trademark) or FDDI (Fiber Distributed Data Interface)
- FDDI Fiber Distributed Data Interface
- a wireless communication standard such as 4G, 5G, or Wi-Fi (registered trademark) is used.
- the learning data generation device 10 is implemented as a general-purpose computer device such as a server computer or a personal computer (PC).
- FIG. 2 is a block diagram showing an example of the functional configuration of the learning data generation device 10 according to the first embodiment.
- the learning data generation device 10 has, as its functional components, a first acquisition unit 101A, a first sorting unit 102A, a first processing unit 103A, a second acquisition unit 101B, a second sorting unit 102B, a second processing unit 103B, and a generation unit 104.
- Each functional component is realized by the CPU 11 reading out a learning data generation program stored in the ROM 12 or storage 14, expanding it in the RAM 13, and executing it.
- the first acquisition unit 101A acquires a first image group including a plurality of first images.
- the first images may be captured images or generated images.
- the first images are images obtained by capturing or generating an image of an object that is the subject of object detection or the like.
- the first selection unit 102A selects first images to be used as learning data from the first image group acquired by the first acquisition unit 101A.
- the first processing unit 103A processes the first image selected by the first sorting unit 102A as necessary.
- the method of processing the first image is not particularly limited, but examples include enlarging, reducing, rotating, changing the aspect ratio of the image, applying a blur, etc.
- the second acquisition unit 101B acquires a second image group including a plurality of second images.
- the second images may be captured images or generated images.
- the second images are images obtained by capturing or generating an image of an area that may be the background of the object of interest in the first image.
- the second selection unit 102B selects second images to be used as learning data from the second image group acquired by the second acquisition unit 101B.
- the second processing unit 103B processes the second image selected by the second sorting unit 102B as necessary.
- the method of processing the second image is not particularly limited, but as described above, examples include enlarging, reducing, rotating, changing the aspect ratio of the image, applying a blur, etc.
- the generating unit 104 generates learning data by superimposing each of the multiple first images and each of the multiple second images.
- the first and second images superimposed as learning data may both be processed, one of them may be processed, or neither may be processed.
- the generating unit 104 stores the generated learning data in a learning data DB (Data Base) 141.
- the learning data DB 141 is stored in the storage 14, for example.
- the generating unit 104 may further add annotation information, which is information representing an object corresponding to the first image, to the first image in the learning data.
- FIG. 3A is a diagram showing an example of a first image 21 according to this embodiment. Note that the example of FIG. 3A shows a first image 21 in which a license plate is the object.
- a first license plate image 21 may be generated automatically.
- the license plate image is an example, and in reality, other numbers, letters, background color, letter color, etc. are mixed in.
- license plates for example, the font, color, and position of the letters and numbers are patterned and fixed, so automatic generation is possible.
- license plates may be generated using software that automatically generates license plates (see, for example, https://carnumberplategenerator.firebaseapp.com/#/).
- FIG. 3B shows an example of a number that can be used in the first image 21.
- the number plate may be prepared for each individual number, rather than for the entire plate.
- the position of each number on the number plate is fixed, so the coordinates within the number plate can be created automatically.
- FIG. 4 is a diagram showing an example of an image of learning data according to this embodiment. Note that the example in FIG. 4 shows a case where the second image 22 is an image obtained from a drive recorder, an in-vehicle camera, or the like that is likely to capture an image of a vehicle or license plate.
- Each of the learning data 20A and 20B shown in FIG. 4 is generated by superimposing a first image 21, which is an image of a license plate, and a second image 22, which is an image of an area that may be the background of the first image 21 (e.g., an image from a drive recorder).
- a first image 21 which is an image of a license plate
- a second image 22 which is an image of an area that may be the background of the first image 21 (e.g., an image from a drive recorder).
- FIG. 5 shows an example of a processed first image 21.
- the first image 21 shown in FIG. 5 is an image that has been processed, for example, by randomly distorting the characters, changing the size or aspect ratio of the characters, blurring the characters, or rotating the characters.
- the first image 21 that has been processed in this way may be superimposed on the second image 22.
- FIG. 6 shows an example of learning data 20A and 20B to which annotation information 23 has been added.
- the annotation information 23 is information that represents an object (e.g., a license plate) that corresponds to the first image 21.
- the coordinates of the superimposed position become the annotation, that is, the coordinates of the position of a rectangle that surrounds the license plate.
- the learning data is generated pseudo-wise by superimposing separately prepared images.
- FIGS. 7A and 7B are diagrams showing another example of the first image 21 according to this embodiment.
- a first image 21 of a dish may be automatically collected.
- the image of the dish is one example, and by using a crawling tool, for example, it is possible to collect images of a specific dish (e.g., stir-fried pork with green peppers).
- image 24 shown in FIG. 7B includes dishes other than the specific dish (e.g., stir-fried pork with green peppers). For this reason, it is desirable to delete image 24. It is also desirable to delete images of dishes other than the specific dish (e.g., stir-fried pork with green peppers).
- FIG. 8 is a diagram showing another example of an image of learning data according to this embodiment. Note that the example in FIG. 8 shows a case where the second image 22 is an image obtained by capturing an image of a table, tray, or the like on which food is likely to be placed.
- the learning data 20 shown in FIG. 8 is generated by superimposing a first image 21, which is an image of a specific dish (e.g., stir-fried pork with green peppers), and a second image 22, which is an image of an area that can be the background of the first image 21 (e.g., an image of a tray).
- a first image 21 which is an image of a specific dish (e.g., stir-fried pork with green peppers)
- a second image 22 which is an image of an area that can be the background of the first image 21 (e.g., an image of a tray).
- annotation information 23 is added to the learning data 20 shown in FIG. 8.
- the annotation information 23 is information that represents the object (e.g., stir-fried pork with green peppers) that corresponds to the first image 21.
- FIG. 9 is a flowchart showing an example of the processing flow of the learning data generation program according to the first embodiment. Processing by the learning data generation program is realized by the CPU 11 of the learning data generation device 10 writing the learning data generation program stored in the ROM 12 or storage 14 to the RAM 13 and executing it.
- step S101 of FIG. 9 the CPU 11 acquires a first image group, which is a plurality of first images including the object to be detected, as shown in FIG. 3A and FIG. 7A above as an example.
- step S102 the CPU 11 selects first images to be used as learning data from the first image group acquired in step S101, as shown in FIG. 5 above as an example, and further processes the selected first images as necessary.
- step S103 the CPU 11 acquires a second image group, which is a plurality of second images that include areas that may be the background of the target object in the first image.
- step S104 the CPU 11 selects second images to be used as learning data from the group of second images acquired in step S103, and further processes the selected second images as necessary.
- step S105 the CPU 11 generates learning data by superimposing the first image obtained by processing in step S102 and the second image obtained by processing in step S104, as shown in Figures 4 and 8 above, for example.
- step S106 the CPU 11 adds annotation information to the learning data generated in step S105, as shown in Figures 6 and 8 above, for example.
- step S107 the CPU 11 stores the learning data to which the annotation information was added in step S106 in the learning data DB 141, and ends the series of processes according to this learning data generation program.
- the learning data is generated pseudo-wise by overlaying separately prepared images. This makes it possible to reduce the time, cost, and workload required for the learning data.
- first image may be duplicated or overlaid with images that have been processed in different ways.
- first image group may be processed in different ways and overlaid simultaneously on a single second image.
- the first images may be superimposed on each other.
- the degree of superimposition should be low.
- the upper limit of the overlap ratio and the overlap method may be changed depending on the object.
- the upper limit of the area ratio may be set to 5% for traffic lights and 30% for vehicles, limiting the overlap ratio horizontally.
- traffic lights and road signs may be arranged in close proximity to each other, with multiple traffic lights (e.g., red lights) with the same color scheme.
- multiple objects may be captured simultaneously or overlapping on the screen of a drive recorder. The above processing method is capable of dealing with such cases.
- Second Embodiment We will explain a form in which machine learning is performed using the learning data generated in the first embodiment described above to generate a trained model, and the generated trained model is used to detect objects in an image.
- FIG. 10 is a block diagram showing an example of the functional configuration of a training data generation device 10A according to the second embodiment. Note that in this embodiment, a configuration is shown in which the training data generation process, the learning process, and the estimation process are realized by one device, but the training data generation process, the learning process, and the estimation process may each be realized by separate devices, or the training data generation process, and the learning process and the estimation process may be realized by separate devices.
- the learning data generation device 10A has, as its functional configuration, a first acquisition unit 101A, a first sorting unit 102A, a first processing unit 103A, a second acquisition unit 101B, a second sorting unit 102B, a second processing unit 103B, and a generation unit 104, as well as a learning unit 105, a reception unit 106, a processing unit 107, and an estimation unit 108.
- a learning unit 105 a reception unit 106
- processing unit 107 a processing unit 107
- estimation unit 108 an estimation unit
- the storage 14 stores a learning data DB 141 that stores the learning data generated by the generation unit 104 described in the first embodiment above.
- the learning unit 105 performs machine learning using the learning data stored in the learning data DB 141 to generate a trained model 142 that inputs an image of an unknown object and outputs an estimated result of object detection.
- a general object detection algorithm is used for the learning model used for machine learning, and for example, a convolutional neural network (CNN), YOLO (You Only Look Once), etc. are applied.
- the trained model 142 generated by the learning unit 105 is stored in the storage 14, for example.
- the reception unit 106 receives input of an estimated target image, which is an image that is the subject of object detection.
- the processing unit 107 processes the estimated target image received by the receiving unit 106 as necessary.
- the method of processing the estimated target image is not particularly limited, but as described above, examples include enlarging, reducing, rotating, changing the aspect ratio of the image, applying blur, etc.
- the estimation unit 108 uses the trained model 142 to estimate the object depicted in the estimation target image obtained by processing the processing unit 107.
- FIG. 11 shows an example of estimation target images 30A, 30B and estimation results 31A, 31B according to this embodiment.
- the estimation target image 30A shows "fried chicken” as an example of an object, and "fried chicken” is considered to be an unknown object.
- the estimation result 31A obtained by estimation by the estimation unit 108 the object shown in the estimation target image 30A is detected as "fried chicken”.
- the estimation target image 30B shows "gomoku ramen” as an example of an object, and "gomoku ramen” is considered to be an unknown object.
- the estimation result 31B obtained by estimation by the estimation unit 108 the object shown in the estimation target image 30B is detected as "gomoku ramen”.
- the first acquisition unit 101A may extract image areas representing each of a plurality of different objects from an image capturing the objects, as shown in FIG. 12, and acquire the extracted image areas as the first image.
- FIG. 12 is a diagram used to explain the area extraction process for extracting a first image from an image 25 capturing multiple different objects.
- Image 25 shown in FIG. 12 is an image of a number of different objects.
- Various types of figure detection processes such as rectangle detection, trapezoid detection, and ellipse detection, are performed on image 25 to detect a plate region, which is an area representing a plate on which food is served, which is an example of an object.
- Plate regions R1 to R4 are detected from image 25. Then, rectangular regions circumscribing or inscribing each of the detected plate regions R1 to R4 are extracted as images, and the extracted images are used as first images for the learning data.
- FIG. 13 is a diagram used to explain the area extraction process for the estimation target image.
- the image to be estimated shown in FIG. 13 may be subjected to dish region detection processing and image extraction processing to carefully select the range to be estimated.
- FIG. 14 shows yet another example of the first image 21 according to this embodiment.
- a part of the first image 21 may be used as the coordinates of the annotation.
- the second image 22 does not need to be used.
- an area R21 obtained by cutting off 5% of the entire image on all four sides is used as the coordinates of the annotation, and annotation information 23 is added.
- the learning data generated by the method described in the above embodiment is one dish per image.
- known object detection methods often incorporate a mechanism for combining multiple pieces of learning data to pad the data and improve the learning accuracy. For this reason, there is no problem if multiple dishes (e.g., rice and hamburger steak) appear in one image to be estimated.
- the learning data generation process that the CPU reads and executes the program in the above embodiment may be executed by various processors other than the CPU.
- processors in this case include PLDs (Programmable Logic Devices) such as FPGAs (Field-Programmable Gate Arrays) whose circuit configuration can be changed after manufacture, and dedicated electrical circuits such as ASICs (Application Specific Integrated Circuits), which are processors with circuit configurations designed specifically to execute specific processes.
- the learning data generation process may be executed by one of these various processors, or may be executed by a combination of two or more processors of the same or different types (e.g., multiple FPGAs, and a combination of a CPU and an FPGA).
- the hardware structure of these various processors is, more specifically, an electrical circuit that combines circuit elements such as semiconductor elements.
- the learning data generation program is described as being pre-stored (also called “installed") in ROM or storage, but this is not limiting.
- the learning data generation program may be provided in a form stored in a non-transient storage medium such as a CD-ROM (Compact Disk Read Only Memory), a DVD-ROM (Digital Versatile Disk Read Only Memory), or a USB (Universal Serial Bus) memory.
- the learning data generation program may also be downloaded from an external device via a network.
- Memory at least one processor coupled to the memory; Including, The processor, Obtaining a plurality of first images including the object; acquiring a plurality of second images including areas that may be background to the object; generating learning data by superimposing each of the plurality of first images and each of the plurality of second images;
- the learning data generating device is configured as follows.
- a non-transitory storage medium storing a program executable by a computer to execute a learning data generation process,
- the learning data generation process includes: Obtaining a plurality of first images including the object; acquiring a plurality of second images including areas that may be background to the object; generating learning data by superimposing each of the plurality of first images and each of the plurality of second images; Non-transitory storage media.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
学習用データ生成装置は、物体を撮像した複数の第1画像を取得する第1取得部と、物体の背景となり得る領域を撮像した複数の第2画像を取得する第2取得部と、複数の第1画像の各々と複数の第2画像の各々とを重ね合わせて学習用データを生成する生成部と、を備える。
Description
開示の技術は、学習用データ生成装置、学習用データ生成方法、及び学習用データ生成プログラムに関する。
近年、画像を用いて、画像内に撮影された各物体を識別する物体検知手段が確立され、様々な用途に活用されている。しかし、活用には識別する対象である各物体について学習するための学習用データを多数生成する必要があり、また商用利用可能な学習用データセットは数が少ないことから、導入のハードルになっている。
ここでいう学習用データの生成は、アノテーションとも呼称される。一般的には膨大な量の画像データセットに対して1枚ずつ、画像内に映った検知したい各物体の画素領域を矩形情報として、矩形の座標セットで付与し生成される。画像1枚1枚から目的とする物体をアノテーションするのは非常に労力を要する。
例えば、非特許文献1には、アノテーション作業に関する既存研究が記載されている。この非特許文献1には、正確性を担保するために、図16に示すように、1枚の画像に1人が複数個のBounding Box(BB、アノテーションの矩形を表す。)をつけるだけではなく、1人がまずBBをつける、次に別の人が品質をチェックする、さらに別の人が画像に対してそのカテゴリがすべてアノテーションされているかをチェックする、というリスクヘッジを行う技術が記載されている。
Hao Su, Jia Deng, Li Fei-Fe, "Crowdsourcing Annotations for Visual Object Detection"
しかしながら、非特許文献1に記載の技術であっても、一定数のアノテーションが最初に必要なことに変わりはない。このため、より汎用性の高い学習用データを簡易に生成することが望まれている。
開示の技術は、上記の点に鑑みてなされたものであり、機械学習に用いる学習用データを簡易に生成することができる学習用データ生成装置、学習用データ生成方法、及び学習用データ生成プログラムを提供することを目的とする。
本開示の第1態様は、学習用データ生成装置であって、物体を含む複数の第1画像を取得する第1取得部と、前記物体の背景となり得る領域を含む複数の第2画像を取得する第2取得部と、前記複数の第1画像の各々と前記複数の第2画像の各々とを重ね合わせて学習用データを生成する生成部と、を備える。
本開示の第2態様は、学習用データ生成方法であって、物体を含む複数の第1画像を取得し、前記物体の背景となり得る領域を含む複数の第2画像を取得し、前記複数の第1画像の各々と前記複数の第2画像の各々とを重ね合わせて学習用データを生成する。
本開示の第3態様は、学習用データ生成プログラムであって、物体を含む複数の第1画像を取得し、前記物体の背景となり得る領域を含む複数の第2画像を取得し、前記複数の第1画像の各々と前記複数の第2画像の各々とを重ね合わせて学習用データを生成することを、コンピュータに実行させる。
開示の技術によれば、機械学習に用いる学習用データを簡易に生成することができる、という効果を有する。
以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において、同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
本実施形態に係る学習用データ生成装置は、機械学習を用いて、機械学習に用いる学習用データを生成する従来の手法に対して特定の改善を提供するものであり、機械学習に用いる学習用データを生成する技術分野の向上を示すものである。
[第1の実施形態]
本実施形態に係る学習用データ生成装置では、対象とされる物体の画像を背景画像に重ね合わせることにより機械学習に用いる学習用データを生成する。これにより、アノテーション画像が疑似的に再現された、換言すれば、予めアノテーションが付与された画像を得ることが可能となる。画像の中から物体をアノテーションする従来の手法と比較して、学習用データを簡易に生成することができる。
本実施形態に係る学習用データ生成装置では、対象とされる物体の画像を背景画像に重ね合わせることにより機械学習に用いる学習用データを生成する。これにより、アノテーション画像が疑似的に再現された、換言すれば、予めアノテーションが付与された画像を得ることが可能となる。画像の中から物体をアノテーションする従来の手法と比較して、学習用データを簡易に生成することができる。
図1は、第1の実施形態に係る学習用データ生成装置10のハードウェア構成の一例を示すブロック図である。
図1に示すように、学習用データ生成装置10は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、ストレージ14、入力部15、表示部16、及び通信インタフェース(I/F)17を備えている。各構成は、バス18を介して相互に通信可能に接続されている。
CPU11は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、CPU11は、ROM12又はストレージ14からプログラムを読み出し、RAM13を作業領域としてプログラムを実行する。CPU11は、ROM12又はストレージ14に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。本実施形態では、ROM12又はストレージ14には、学習用データ生成処理を実行するための学習用データ生成プログラムが格納されている。なお、CPUに代えて、例えば、GPU(Graphics Processing Unit)を用いるようにしてもよい。
ROM12は、各種プログラム及び各種データを格納する。RAM13は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ14は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。
入力部15は、マウス等のポインティングデバイス、及びキーボードを含み、自装置に対して各種の入力を行うために使用される。
表示部16は、例えば、液晶ディスプレイであり、各種の情報を表示する。表示部16は、タッチパネル方式を採用して、入力部15として機能しても良い。
通信インタフェース17は、自装置が他の外部機器と通信するためのインタフェースである。当該通信には、例えば、イーサネット(登録商標)若しくはFDDI(Fiber Distributed Data Interface)等の有線通信の規格、又は、4G、5G、若しくはWi-Fi(登録商標)等の無線通信の規格が用いられる。
本実施形態に係る学習用データ生成装置10には、例えば、サーバコンピュータ、パーソナルコンピュータ(PC)等の汎用的なコンピュータ装置が適用される。
次に、図2を参照して、学習用データ生成装置10の機能構成について説明する。
図2は、第1の実施形態に係る学習用データ生成装置10の機能構成の一例を示すブロック図である。
図2に示すように、学習用データ生成装置10は、機能構成として、第1取得部101A、第1選別部102A、第1加工部103A、第2取得部101B、第2選別部102B、第2加工部103B、及び生成部104を備えている。各機能構成は、CPU11がROM12又はストレージ14に記憶された学習用データ生成プログラムを読み出し、RAM13に展開して実行することにより実現される。
第1取得部101Aは、複数の第1画像を含む第1画像群を取得する。第1画像は、撮像された画像でもよいし、生成された画像でもよい。第1画像は、物体検知等の対象とする物体を撮像又は生成して得られた画像である。
第1選別部102Aは、第1取得部101Aにより取得された第1画像群から学習用データとして用いる第1画像を選別する。
第1加工部103Aは、第1選別部102Aにより選別された第1画像を必要に応じて加工する。第1画像を加工する方法は、特に限定されるものではないが、一例として、画像の拡大、縮小、回転、縦横比の変更、ぼかしの付与、等が挙げられる。
一方、第2取得部101Bは、複数の第2画像を含む第2画像群を取得する。第2画像は、撮像された画像でもよいし、生成された画像でもよい。第2画像は、第1画像で対象とする物体の背景となり得る領域を撮像又は生成して得られた画像である。
第2選別部102Bは、第2取得部101Bにより取得された第2画像群から学習用データとして用いる第2画像を選別する。
第2加工部103Bは、第2選別部102Bにより選別された第2画像を必要に応じて加工する。第2画像を加工する方法は、特に限定されるものではないが、上述したように、一例として、画像の拡大、縮小、回転、縦横比の変更、ぼかしの付与、等が挙げられる。
生成部104は、複数の第1画像の各々と複数の第2画像の各々とを重ね合わせて学習用データを生成する。学習用データとして重ね合わせる第1画像及び第2画像は、両方が加工されていてもよいし、何れか一方が加工されていてもよいし、両方とも加工されていなくてもよい。生成部104は、生成した学習用データを学習用データDB(Data Base:データベース)141に格納する。学習用データDB141は、例えば、ストレージ14に記憶されている。
なお、生成部104は、学習用データ中の第1画像に対して、当該第1画像に対応する物体を表す情報であるアノテーション情報を更に付与するようにしてもよい。
次に、図3A、図3B、図4、図5、及び図6を参照して、物体の一例としてナンバープレートを適用した場合の学習用データ生成処理について具体的に説明する。
図3Aは、本実施形態に係る第1画像21の一例を示す図である。なお、図3Aの例では、ナンバープレートを物体とする第1画像21について示している。
図3Aに示すように、ナンバープレートの第1画像21を自動的に生成するようにしてもよい。ナンバープレートの画像は一例であり、実際には他の数字、文字、背景色、文字色等が混在するものとする。ナンバープレートの場合、例えば、フォント、色合いや、文字、数字の配置位置がパターン化されて決まっているため、自動的に生成することが可能である。例えば、ナンバープレートを自動的に生成するソフトウェア(例えば、https://carnumberplategenerator.firebaseapp.com/#/を参照)を利用して生成してもよい。
図3Bは、第1画像21に利用可能な数字の一例を示す図である。
図3Bに示すように、ナンバープレート全体ではなく、個々の数字単位で用意してもよい。この場合、ナンバープレートにおける個々の数字の位置は固定されているため、ナンバープレート内の座標は自動的に作成可能である。
図4は、本実施形態に係る学習用データの画像の一例を示す図である。なお、図4の例では、車両、ナンバープレートを撮像する可能性が高いドライブレコーダ、車載カメラ等から得られる画像を第2画像22とした場合について示している。
図4に示す学習用データ20A、20Bの各々は、ナンバープレートの画像である第1画像21と、第1画像21の背景となり得る領域の画像(例えば、ドライブレコーダの画像)である第2画像22とを重ね合わせて生成される。
図5は、加工された第1画像21の一例を示す図である。
図5に示す第1画像21は、例えば、文字をランダムで歪ませる、文字の大きさ又は縦横比を変更する、文字にぼかしを付与する、文字を回転させる、といった加工を施した画像とされる。このような加工を施した第1画像21を、第2画像22に重ね合わせるようにしてもよい。
図6は、アノテーション情報23が付与された学習用データ20A、20Bの一例を示す図である。
図6に示す学習用データ20A、20Bの各々は、アノテーション情報23が付与されている。アノテーション情報23は、第1画像21に対応する物体(例えば、ナンバープレート)を表す情報である。この場合、第1画像21と第2画像22とを重ね合わせた際に、重ね合わせた位置の座標がアノテーション、つまり、ナンバープレートを囲む矩形の位置の座標となる。つまり、画像中の物体を抽出して学習用データを生成するのではなく、別々に用意した画像を重ね合わせることにより、疑似的に学習用データを生成する。
次に、図7A、図7B、図8、及び図9を参照して、物体の一例として料理を適用した場合の学習用データ生成処理について具体的に説明する。
図7A及び図7Bは、本実施形態に係る第1画像21の別の例を示す図である。
図7Aに示すように、料理を撮像した第1画像21を自動的に収集するようにしてもよい。料理の画像は一例であり、例えば、クローリングツールを用いれば特定の料理(例えば、チンジャオロース)の画像を収集することが可能となる。
なお、図7Bに示す画像24は、特定の料理(例えば、チンジャオロース)以外の他の料理も含まれている。このため、画像24は削除することが望ましい。また、特定の料理(例えば、チンジャオロース)とは異なる料理の画像も削除することが望ましい。
図8は、本実施形態に係る学習用データの画像の別の例を示す図である。なお、図8の例では、料理が置かれる可能性が高い机、お盆等を撮像して得られる画像を第2画像22とした場合について示している。
図8に示す学習用データ20は、特定の料理(例えば、チンジャオロース)の画像である第1画像21と、第1画像21の背景となり得る領域の画像(例えば、お盆の画像)である第2画像22とを重ね合わせて生成される。
また、図8に示す学習用データ20には、アノテーション情報23が付与される。アノテーション情報23は、第1画像21に対応する物体(例えば、チンジャオロース)を表す情報である。
次に、図9を参照して、第1の実施形態に係る学習用データ生成装置10の作用について説明する。
図9は、第1の実施形態に係る学習用データ生成プログラムによる処理の流れの一例を示すフローチャートである。学習用データ生成プログラムによる処理は、学習用データ生成装置10のCPU11が、ROM12又はストレージ14に記憶されている学習用データ生成プログラムをRAM13に書き込んで実行することにより、実現される。
図9のステップS101では、CPU11が、一例として上述の図3A及び図7Aに示すように、検知対象とする物体を含む複数の第1画像である第1画像群を取得する。
ステップS102では、CPU11が、一例として上述の図5に示すように、ステップS101で取得した第1画像群から、学習用データとして用いる第1画像を選別し、更に、選別した第1画像を必要に応じて加工する。
ステップS103では、CPU11が、第1画像で対象とする物体の背景となり得る領域を含む複数の第2画像である第2画像群を取得する。
ステップS104では、CPU11が、ステップS103で取得した第2画像群から、学習用データとして用いる第2画像を選別し、更に、選別した第2画像を必要に応じて加工する。
ステップS105では、CPU11が、一例として、上述の図4及び図8に示すように、ステップS102で加工して得られた第1画像と、ステップS104で加工して得られた第2画像とを重ね合わせて学習用データを生成する。
ステップS106では、CPU11が、一例として、上述の図6及び図8に示すように、ステップS105で生成した学習用データにアノテーション情報を付与する。
ステップS107では、CPU11が、ステップS106でアノテーション情報が付与された学習用データを学習用データDB141に記憶し、本学習用データ生成プログラムによる一連の処理を終了する。
このように本実施形態によれば、画像中の物体を抽出して学習用データを生成するのではなく、別々に用意した画像を重ね合わせることにより、疑似的に学習用データが生成される。これにより、学習用データにかかる時間、コスト、及び作業負荷を低減することができる。
なお、第1画像の物体次第ではあるが、1枚の第2画像に対して、複数の同一の第1画像の物体が含まれることを想定して、第1画像を複製したり、異なる内容の加工を行ったものを重ね合わせたりしてもよい。同様に、第1画像群の中の異なる画像に対して、異なる内容の加工を行い、1枚の第2画像に対して同時に重ね合わせてもよい。
また、第1画像群から複数画像を用いる場合は、第1画像同士が重ね合うように重ね合わせてもよい。但し、重ね合わせの割合は低めとする。
また、重ね合わせの割合の上限や、重ね合わせのやり方は物体によって変化させてもよい。例えば、信号機なら面積比5%、車両なら面積比30%を上限とし横方向に限定する等が考えられる。
例えば、信号機や道路標識等は、同じ配色の状態の信号機(赤信号等)が複数近接して配置されていることがある。また、配置によっては、例えば、ドライブレコーダから物体が複数同時に映ったり重ね合わさって見えたりすることがある。上記処理方法は、このようなケースに対応可能とするものである。
[第2の実施形態]
上記第1の実施形態で生成した学習用データを用いて機械学習して学習済みモデルを生成し、生成した学習済みモデルを用いて画像中の物体を検知する形態について説明する。
上記第1の実施形態で生成した学習用データを用いて機械学習して学習済みモデルを生成し、生成した学習済みモデルを用いて画像中の物体を検知する形態について説明する。
図10は、第2の実施形態に係る学習用データ生成装置10Aの機能構成の一例を示すブロック図である。なお、本実施形態では、学習用データ生成処理、学習処理、及び推定処理を1つの装置で実現する構成を示しているが、これら学習用データ生成処理、学習処理、及び推定処理をそれぞれ別々の装置で実現してもよいし、学習用データ生成処理と、学習処理及び推定処理とを別々の装置で実現してもよい。
図10に示すように、学習用データ生成装置10Aは、機能構成として、第1取得部101A、第1選別部102A、第1加工部103A、第2取得部101B、第2選別部102B、第2加工部103B、生成部104に加え、更に、学習部105、受付部106、加工部107、及び推定部108を備えている。なお、上記第1の実施形態で説明した学習用データ生成装置10が有する構成要素と同じ構成要素には同じ符号を付与し、その繰り返しの説明は省略する。
ストレージ14には、上記第1の実施形態で説明した生成部104により生成された学習用データを格納した学習用データDB141が記憶されている。
学習部105は、学習用データDB141に格納された学習用データを用いて機械学習することにより、物体が未知の画像を入力とし、物体検知の推定結果を出力する学習済みモデル142を生成する。ここで、機械学習に用いる学習モデルには、例えば、一般的な物体検知アルゴリズムが用いられ、例えば、畳み込みニューラルネットワーク(CNN:Convolution Neural Network)、YOLO(You Only Look Once)等が適用される。学習部105で生成した学習済みモデル142は、例えば、ストレージ14に記憶される。
受付部106は、物体検知の対象とする画像である推定対象画像の入力を受け付ける。
加工部107は、受付部106により受け付けた推定対象画像を必要に応じて加工する。推定対象画像を加工する方法は、特に限定されるものではないが、上述したように、一例として、画像の拡大、縮小、回転、縦横比の変更、ぼかしの付与、等が挙げられる。
推定部108は、学習済みモデル142を用いて、加工部107により加工して得られた推定対象画像に対して、当該画像中に映っている物体を推定する。
図11は、本実施形態に係る推定対象画像30A、30B及び推定結果31A、31Bの一例を示す図である。
図11に示すように、推定対象画像30Aには、物体の一例である「唐揚げ」が映っており、「唐揚げ」が未知の物体とされる。推定部108によって推定して得られた推定結果31Aでは、推定対象画像30A中に映っている物体が「唐揚げ」として検知されている。一方、推定対象画像30Bには、物体の一例である「五目ラーメン」が映っており、「五目ラーメン」が未知の物体とされる。推定部108によって推定して得られた推定結果31Bでは、推定対象画像30B中に映っている物体が「五目ラーメン」として検知されている。
ここで、上述の図7Bに示した料理を検知対象とした事例で、他の料理が含まれる画像や、異なる画像は削除することが望ましいとしたが、画像に対して領域抽出処理を実行して学習用データを生成してもよい。
つまり、第1取得部101Aは、一例として、図12に示すように、複数の異なる物体を撮像した画像から、物体の各々を表す画像領域を抽出し、抽出した画像領域を第1画像として取得してもよい。
図12は、複数の異なる物体を撮像した画像25から第1画像を抽出する領域抽出処理の説明に供する図である。
図12に示す画像25は、複数の異なる物体を撮像した画像である。画像25に対して、例えば、四角形検知、台形検知、楕円検知等の各種図形の検知処理を実行し、物体の一例である料理が盛られた皿を表す領域である皿領域を検知する。画像25からは、皿領域R1~R4が検知される。そして、検知した皿領域R1~R4の各々に外接又は内接する矩形領域を画像として抽出し、抽出した画像を学習用データの第1画像として利用する。
図13は、推定対象画像に対する領域抽出処理の説明に供する図である。
図13に示す推定対象画像に対して、上述の図12に示す画像25の例と同様に、皿領域検知処理、画像抽出処理を実行し、推定する範囲を厳選するようにしてもよい。
図14は、本実施形態に係る第1画像21の更に別の例を示す図である。
図14に示すように、第1画像21の一部をアノテーションの座標としてもよい。この場合、第2画像22は利用しなくてもよい。図14の例では、画像全体の上下左右を5%カットした領域R21をアノテーションの座標とし、アノテーション情報23を付与する。
上記実施形態で説明した手法により生成した学習用データは、画像1枚につき1料理といったものになっている。しかし、既知の物体検知の手法は、学習用データを複数組み合わせてデータを水増しし、学習精度を向上させる仕組みが入っていることが多い。このため、推定対象画像の1画像内に複数の料理(例えば、ライスとハンバーグ)が映っていても問題は無い。
また、物体検知の手法が上記のような水増しに対応していない場合を加味し、一例として、図15に示すように、複数の料理から想定されうる組み合わせ(例えば、チンジャオロースとライスの組み合わせ)を作成し、複数画像同士の重ね合わせを実施してもよいし、皿の配置や料理間の拡大縮小率に補正を加えてもよい。
上記実施形態でCPUがプログラムを読み込んで実行した学習用データ生成処理を、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、学習用データ生成処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
また、上記実施形態では、学習用データ生成プログラムがROM又はストレージに予め記憶(「インストール」ともいう)されている態様を説明したが、これに限定されない。学習用データ生成プログラムは、CD-ROM(Compact Disk Read Only Memory)、DVD-ROM(Digital Versatile Disk Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の非一時的(non-transitory)記憶媒体に記憶された形態で提供されてもよい。また、学習用データ生成プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
本明細書に記載された全ての文献、特許出願、及び技術規格は、個々の文献、特許出願、及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。
以上の実施形態に関し、更に以下の付記を開示する。
(付記項1)
メモリと、
前記メモリに接続された少なくとも1つのプロセッサと、
を含み、
前記プロセッサは、
物体を含む複数の第1画像を取得し、
前記物体の背景となり得る領域を含む複数の第2画像を取得し、
前記複数の第1画像の各々と前記複数の第2画像の各々とを重ね合わせて学習用データを生成する、
ように構成されている学習用データ生成装置。
メモリと、
前記メモリに接続された少なくとも1つのプロセッサと、
を含み、
前記プロセッサは、
物体を含む複数の第1画像を取得し、
前記物体の背景となり得る領域を含む複数の第2画像を取得し、
前記複数の第1画像の各々と前記複数の第2画像の各々とを重ね合わせて学習用データを生成する、
ように構成されている学習用データ生成装置。
(付記項2)
学習用データ生成処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
前記学習用データ生成処理は、
物体を含む複数の第1画像を取得し、
前記物体の背景となり得る領域を含む複数の第2画像を取得し、
前記複数の第1画像の各々と前記複数の第2画像の各々とを重ね合わせて学習用データを生成する、
非一時的記憶媒体。
学習用データ生成処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
前記学習用データ生成処理は、
物体を含む複数の第1画像を取得し、
前記物体の背景となり得る領域を含む複数の第2画像を取得し、
前記複数の第1画像の各々と前記複数の第2画像の各々とを重ね合わせて学習用データを生成する、
非一時的記憶媒体。
10、10A 学習用データ生成装置
11 CPU
12 ROM
13 RAM
14 ストレージ
15 入力部
16 表示部
17 通信I/F
18 バス
101A 第1取得部
102A 第1選別部
103A 第1加工部
101B 第2取得部
102B 第2選別部
103B 第2加工部
104 生成部
105 学習部
106 受付部
107 加工部
108 推定部
141 学習用データDB
142 学習済みモデル
11 CPU
12 ROM
13 RAM
14 ストレージ
15 入力部
16 表示部
17 通信I/F
18 バス
101A 第1取得部
102A 第1選別部
103A 第1加工部
101B 第2取得部
102B 第2選別部
103B 第2加工部
104 生成部
105 学習部
106 受付部
107 加工部
108 推定部
141 学習用データDB
142 学習済みモデル
Claims (6)
- 物体を含む複数の第1画像を取得する第1取得部と、
前記物体の背景となり得る領域を含む複数の第2画像を取得する第2取得部と、
前記複数の第1画像の各々と前記複数の第2画像の各々とを重ね合わせて学習用データを生成する生成部と、
を備えた学習用データ生成装置。 - 前記第1画像を加工する第1加工部と、
前記第2画像を加工する第2加工部と、
を更に備え、
前記生成部は、前記第1加工部により加工された前記第1画像と前記第2加工部により加工された前記第2画像とを重ね合わせて学習用データを生成する
請求項1に記載の学習用データ生成装置。 - 前記生成部は、前記学習用データ中の前記第1画像に対して、当該第1画像に対応する前記物体を表す情報であるアノテーション情報を更に付与する
請求項1に記載の学習用データ生成装置。 - 前記第1取得部は、複数の異なる物体を撮像した画像から、前記物体の各々を表す画像領域を抽出し、抽出した画像領域を前記第1画像として取得する
請求項1に記載の学習用データ生成装置。 - 学習用データ生成装置が、
物体を含む複数の第1画像を取得し、
前記物体の背景となり得る領域を含む複数の第2画像を取得し、
前記複数の第1画像の各々と前記複数の第2画像の各々とを重ね合わせて学習用データを生成する、
学習用データ生成方法。 - 物体を含む複数の第1画像を取得し、
前記物体の背景となり得る領域を含む複数の第2画像を取得し、
前記複数の第1画像の各々と前記複数の第2画像の各々とを重ね合わせて学習用データを生成することを、
コンピュータに実行させるための学習用データ生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/044476 WO2024116392A1 (ja) | 2022-12-01 | 2022-12-01 | 学習用データ生成装置、学習用データ生成方法、及び学習用データ生成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/044476 WO2024116392A1 (ja) | 2022-12-01 | 2022-12-01 | 学習用データ生成装置、学習用データ生成方法、及び学習用データ生成プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2024116392A1 true WO2024116392A1 (ja) | 2024-06-06 |
Family
ID=91323159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2022/044476 WO2024116392A1 (ja) | 2022-12-01 | 2022-12-01 | 学習用データ生成装置、学習用データ生成方法、及び学習用データ生成プログラム |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2024116392A1 (ja) |
-
2022
- 2022-12-01 WO PCT/JP2022/044476 patent/WO2024116392A1/ja unknown
Non-Patent Citations (2)
Title |
---|
LIU LIU, LIU ZHENCHEN; ZHANG BO; LI JIANGTONG; NIU LI; LIU QINGYANG; ZHANG LIQING: "OPA: Object Placement Assessment Dataset", ARXIV:2107.01889V3, 21 June 2022 (2022-06-21), XP093175365, Retrieved from the Internet <URL:https://arxiv.org/pdf/2107.01889v3.pdf> * |
vol. 48, 1 January 1900, SPRINGER, article LIN TSUNG-YI; MAIRE MICHAEL; BELONGIE SERGE; HAYS JAMES; PERONA PIETRO; RAMANAN DEVA; DOLLáR PIOTR; ZITNICK C. LAWRENCE: "Microsoft COCO: Common Objects in Context", pages: 740 - 755, XP047529588, DOI: 10.1007/978-3-319-10602-1_48 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11455502B2 (en) | Learning device, classification device, learning method, classification method, learning program, and classification program | |
US20210304796A1 (en) | Data processing method and system, storage medium, and computing device | |
US8948502B2 (en) | Image processing method, and image processor | |
JP5526874B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP2012252691A (ja) | 画像からテキスト筆画画像を抽出する方法及び装置 | |
CN106331746A (zh) | 用于识别视频文件中的水印位置的方法和装置 | |
WO2024116392A1 (ja) | 学習用データ生成装置、学習用データ生成方法、及び学習用データ生成プログラム | |
JP2018152026A (ja) | 文字認識方法及びコンピュータプログラム | |
JP5324017B1 (ja) | 画像処理装置、画像処理方法、および画像処理プログラム | |
JP5986422B2 (ja) | オブジェクト抽出方法、オブジェクト抽出装置、及びオブジェクト抽出プログラム | |
US11037311B2 (en) | Method and apparatus for augmenting data in monitoring video | |
JP2019067106A (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP7107544B2 (ja) | 情報処理装置、制御方法、及びプログラム | |
JP2010220158A (ja) | 画像処理装置および画像処理プログラム | |
JP4024744B2 (ja) | トラッピング方法、トラッピング装置、トラッピングプログラム、および印刷システム | |
JP6613625B2 (ja) | 画像処理プログラム、画像処理装置、及び画像処理方法 | |
JP4548062B2 (ja) | 画像処理装置 | |
JP2011186906A (ja) | 画像処理装置及び画像処理プログラム | |
WO2024090054A1 (ja) | 画像処理方法、プログラム、および、画像処理装置 | |
WO2024194951A1 (ja) | 物体検出装置、方法、及びプログラム | |
JP2020166653A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP3594625B2 (ja) | 文字入力装置 | |
JP2011186835A (ja) | 画像処理装置及び画像処理プログラム | |
KR100586602B1 (ko) | 라스터 맵 오버레이 방법 | |
JP2008059122A (ja) | 画像処理装置、画像処理方法、プログラム及び情報記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22967222 Country of ref document: EP Kind code of ref document: A1 |