WO2023062784A1 - Dataset creation device, dataset creation method, and recording medium - Google Patents
Dataset creation device, dataset creation method, and recording medium Download PDFInfo
- Publication number
- WO2023062784A1 WO2023062784A1 PCT/JP2021/038080 JP2021038080W WO2023062784A1 WO 2023062784 A1 WO2023062784 A1 WO 2023062784A1 JP 2021038080 W JP2021038080 W JP 2021038080W WO 2023062784 A1 WO2023062784 A1 WO 2023062784A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- dataset
- data set
- sample
- quality
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 12
- 238000003384 imaging method Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 10
- 238000001514 detection method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000015654 memory Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Definitions
- This disclosure relates to creating a training dataset.
- Patent Literature 1 describes a method of evaluating labelers in order to improve the quality when creating datasets for machine learning.
- One object of the present disclosure is to provide a dataset creation device that enables even an inexperienced person to capture images suitable for creating learning data and create a high-quality learning dataset. to do.
- the dataset creation device Acquisition means for acquiring a photographed image of an object; data processing means for generating a sample image, which is an image of a portion of the object, from the captured image, and generating a learning data set including effective sample images satisfying a predetermined criterion among the sample images; data quality estimation means for estimating the quality of the dataset based on the captured image and the dataset; display control means for displaying shooting support information including quality information of the data set on a display device; Prepare.
- a dataset creation method includes: Acquire a photographed image of an object, generating a sample image, which is an image of a portion of the object, from the captured image, generating a learning data set containing valid sample images satisfying a predetermined criterion among the sample images; estimating the quality of the dataset based on the captured image and the dataset; A display device displays shooting support information including quality information of the data set.
- the recording medium comprises Acquire a photographed image of an object, generating a sample image, which is an image of a portion of the object, from the captured image, generating a learning data set containing valid sample images satisfying a predetermined criterion among the sample images; estimating the quality of the dataset based on the captured image and the dataset;
- a program for causing a computer to execute a process of displaying shooting support information including quality information of the data set on a display device is recorded.
- FIG. 1 shows a schematic configuration of a dataset creation system according to a first embodiment
- 2 is a block diagram showing the hardware configuration of the data set creation device of the first embodiment
- FIG. 2 is a block diagram showing the functional configuration of the data set creation device of the first embodiment
- FIG. 4 is a block diagram showing the configuration of a data quality estimation unit according to the first example
- FIG. 4 shows an example of a shooting support screen according to the first embodiment
- 9 is a flowchart of display processing of shooting support information
- FIG. 11 is a block diagram showing the configuration of a data quality estimation unit according to the second embodiment
- FIG. 9 shows an example of a shooting support screen according to the second embodiment
- FIG. 1 shows a schematic configuration of a data set creation system according to the first embodiment.
- the data set creation system 1 is a system that creates a learning data set that is used when learning a recognition model for recognizing products from photographed images.
- the dataset creation system 1 includes a dataset creation device 100, a camera 2, and a display device 5.
- the camera 2 and the display device 5 are each connected to the data set creation device 100 .
- the camera 2 is fixedly arranged at a predetermined position such as a shelf.
- An operator brings an object (product) for which a data set is to be created into the photographing range of the camera 2 and photographs the object with the camera 2 .
- the operator rotates the object or changes its grip to photograph the appearance of the object from various directions.
- the camera 2 outputs a captured image (moving image) of the captured object to the data set creation device 100 .
- the data set creation device 100 creates a learning data set for the target object based on the captured image input from the camera 2 .
- the created dataset is used to train a recognition model that recognizes objects. By learning the recognition model using the created data set, the recognition model can recognize the object.
- the data set creation device 100 generates shooting support information and displays it on the display device 5 while the worker is shooting an object with the camera 2 .
- the shooting support information is information that tells the operator how the object is currently being shot and how the data set is created, and if necessary, gives instructions and advice on how to shoot the object.
- the data set creation device 100 generates shooting support information based on the captured images captured by the camera 2 and analysis results such as the number and quality of data created based on the captured images, and outputs the information to the display device 5. do. Details of the shooting assistance information will be described later.
- FIG. 2 is a block diagram showing the hardware configuration of the dataset creation device 100 of the first embodiment.
- the data set creation device 100 includes an interface (I/F) 11, a processor 12, a memory 13, a recording medium 14, and a database (DB) 15.
- the interface 11 performs data input/output with an external device. Specifically, the interface 11 acquires a photographed image from the camera 2 while the operator is photographing, and outputs photographing support information to the display device 5 . In addition, the interface 11 outputs the created data set for learning to a learning device for learning the recognition model.
- the processor 12 is a computer such as a CPU (Central Processing Unit), and controls the entire data set creation device 100 by executing a program prepared in advance.
- the processor 12 may be a GPU (Graphics Processing Unit) or an FPGA (Field-Programmable Gate Array).
- the processor 12 executes processing for displaying shooting support information, which will be described later.
- the memory 13 is composed of ROM (Read Only Memory), RAM (Random Access Memory), and the like. Memory 13 is also used as a working memory during execution of various processes by processor 12 .
- the recording medium 14 is a non-volatile, non-temporary recording medium such as a disk-shaped recording medium or semiconductor memory, and is configured to be detachable from the data set creation device 100 .
- the recording medium 14 records various programs executed by the processor 12 .
- a program recorded on the recording medium 14 is loaded into the memory 13 and executed by the processor 12 .
- the DB 15 stores captured images input from the camera 2 and created data sets.
- FIG. 3 is a block diagram showing the functional configuration of the dataset creation device 100 of the first embodiment.
- the data set creation device 100 includes a captured image input unit 21 , a data processing unit 22 , a storage unit 23 , a data quality estimation unit 24 and a display control unit 25 .
- the captured image input unit 21 is composed of the interface 11
- the data processing unit 22 , the data quality estimation unit 24 and the display control unit 25 are mainly composed of the processor 12
- the storage unit 23 is composed of the DB 15 .
- the photographed image input unit 21 acquires the photographed image of the object photographed by the worker from the camera 2 and outputs it to the data processing unit 22 .
- a photographed image is a moving image obtained by continuously photographing an object.
- the data processing unit 22 uses the input captured image to generate learning data for learning the recognition model. Specifically, the data processing unit 22 detects an object from the captured image using an object detection model or the like, cuts out an image of the object portion, and generates an image of the object (hereinafter referred to as a “sample image”). Generate.
- the object detection model detects an object from a captured image, and outputs position information of a rectangle containing the object and a score indicating the likelihood of the object.
- the data processing unit 22 extracts the rectangular area detected by the object detection model from the captured image and uses it as a sample image. The data processing unit 22 then outputs the generated sample image to the storage unit 23 together with the captured image.
- the storage unit 23 receives the captured image generated by the camera 2 and a plurality of sample images extracted from the captured image from the data processing unit 22 and stores them.
- the data quality estimation unit 24 estimates the quality of the sample images generated by the data processing unit 22, selects sample images that satisfy predetermined criteria as valid sample images, and stores them in the storage unit 23 as learning data. In this way, a training data set is created by collecting a plurality of valid sample images determined to satisfy the criteria. Of the sample images generated by the data processing unit 22, those that do not satisfy the above criteria are not adopted as learning data and discarded.
- the data quality estimation unit 24 generates shooting support information based on the captured image and the result of estimating the quality of the sample image, and outputs it to the display control unit 25 .
- the shooting support information includes a captured image captured by the camera 2, an effective sample image, and the like, the details of which will be described later.
- the display control unit 25 creates a shooting assistance screen using the shooting assistance information input from the data quality estimation unit 24 and displays it on the display device 5 .
- FIG. 4 is a block diagram showing the configuration of the data quality estimator 24a according to the first embodiment. As illustrated, the data quality estimator 24a includes an importance estimator 26.
- FIG. 4 is a block diagram showing the configuration of the data quality estimator 24a according to the first embodiment. As illustrated, the data quality estimator 24a includes an importance estimator 26.
- a sample image is input from the storage unit 23 to the importance estimation unit 26 .
- the importance estimation unit 26 estimates the importance of the input sample image using an importance estimation model.
- an object detection model can be used as the importance estimation model. Since the object detection model outputs a score of object-likeness of the detected object based on the input sample image, the importance estimation unit 26 uses this score as the importance. The higher the object-likeness score, the higher the probability that an object is included in the sample image, and the higher the suitability as learning data. Therefore, the data quality estimating unit 24a selects a sample image whose object-likeness score is higher than a predetermined value as an effective sample image.
- a model for estimating image quality as an image can be used as the importance estimation model.
- a model for estimating image quality for example, a model for estimating camera shake, blurring, brightness, degree of hiding of objects (ratio of objects hidden behind other objects), etc. can be used. .
- the importance estimating unit 26 determines that the less camera shake, the less blurring, the more appropriate brightness, and the smaller the degree of hiding of the object, the more important it is. increase the degree.
- the data quality estimating unit 24a selects sample images whose image quality is determined to be equal to or higher than the reference level by the model for estimating image quality as described above, as valid sample images.
- the degree of importance may be calculated by adding a score of object-likeness and a value indicating the degree of camera shake or brightness using a predetermined weight.
- the data quality estimation unit 24a stores the valid sample images selected as described above in the storage unit 23. A set of effective sample images accumulated in this manner serves as a data set for learning.
- the data quality estimation unit 24a calculates the degree of attainment, the effective image ratio, etc. calculated based on the photographed images input from the storage unit 23, the valid sample images selected by the importance estimation unit 26, and the number of valid sample images. is output to the display control unit 25 as shooting assistance information.
- the display control unit 25 generates a shooting support screen using the input shooting support information and displays it on the display device 5 .
- FIG. 5 shows an example of a shooting assistance screen according to the first embodiment. As illustrated, the shooting support screen is roughly divided into a captured image display area 30 and an effective image display area 40 .
- the captured image display area 30 displays a captured image 31, a rectangle 32, a degree of importance 33, and a degree of attainment .
- the captured image 31 is a captured image (moving image) captured by the camera 2 and displayed in real time.
- a rectangle 32 indicates the position of the object detected by the object detection model from the captured image 31 .
- the portion of the rectangle 32 surrounding the object is cut out from the captured image 31 as a sample image.
- the degree of importance 33 is the degree of importance of the detected object, specifically, the value of the degree of importance calculated by the degree-of-importance estimator 26 described above. Therefore, in the first embodiment, the importance value is the object-likeness score or the image quality estimate of the sample image as described above.
- the attainment level 34 is the ratio of the number of valid sample images already obtained to the total number of images required for learning. Note that the total number of images required for learning is determined in advance based on experience and the like. The example of FIG. 5 shows that currently "120 (frames)" of effective sample images have been acquired for the total number of images "300 (frames)" required for learning. This allows the operator to know how many sample images required for learning have been acquired and how much more is required. It should be noted that when the necessary total number of valid sample images have been acquired, the fact may be notified to the operator by display or voice.
- thumbnail display area 41 thumbnails of a plurality of effective sample images cut out from the captured image 31 are displayed side by side. That is, each thumbnail image 43, as indicated by the rectangle 32 in the captured image display area 30, is determined by the data quality estimating unit 24a to satisfy the predetermined criteria among the sample images cut out from the captured image 31. It is a sample image. Instead of displaying only effective sample images as shown in FIG. 5, all sample images cut out from the photographed image 31 are displayed in the thumbnail display area 41, and the effective sample images are displayed, for example, in the color of the frame. may be emphasized and displayed by changing
- the valid image ratio 42 is the ratio of valid sample images to the total number of sample images cut out from the captured image 31 .
- the effective image ratio is 90%, it indicates that 90% of the sample images cut out from the photographed image 31 so far have been adopted as effective sample images. . It may also display the main determining factors for an ineffective image, such as 5% blur, 3% lighting conditions, and 2% hidden objects. If the effective image ratio is lower than a predetermined standard, the operator may be notified of this by means of display, voice, or the like.
- the operator can notice a problem such as the object being out of the photographing range of the camera 2.
- a problem such as the object being out of the photographing range of the camera 2.
- instructions or advice may be given to the operator. For example, if the sample image has a lot of camera shake and the effective image ratio is low, a message such as "Please move a little more slowly" may be displayed or output by voice.
- the attainment level 34 and the effective image ratio 42 are displayed numerically, but they may be displayed as graphs or meters instead.
- the operator may be notified of whether or not sufficient valid sample images have been acquired for all objects at the time when all objects have been photographed. For example, for an object for which effective sample images are insufficient due to interruption of photography, etc., a message such as "Product X: 30 insufficient images" may be displayed to notify the worker that the required number of sample images has not been reached. good. This allows the operator to take additional shots of missing sample images.
- FIG. 6 is a flowchart of display processing of shooting support information. This processing is realized by the processor 12 shown in FIG. 2 executing a program prepared in advance and operating as each element shown in FIGS. 3 and 4. FIG.
- the captured image input unit 21 acquires a captured image from the camera 2 (step S11).
- the data processing unit 22 cuts out the object portion from the captured image to generate a sample image (step S12).
- the data quality estimator 24a estimates the importance of each sample image and extracts the sample image that satisfies a predetermined criterion as an effective sample image.
- the data quality estimator 24a also calculates the degree of reach, the effective image ratio, etc., based on the number of effective sample images.
- the data quality estimation unit 24a generates shooting support information including the shot image, the effective sample image, the reach, the effective image ratio, etc., and outputs it to the display control unit 25 (step S13).
- the display control unit 25 uses the input shooting assistance information to generate a shooting assistance screen (step S14), and displays the shooting assistance screen on the display device 5 (step S15). In this way, a photographing support screen such as that illustrated in FIG. 5 is displayed on the display device 5 .
- the data set creation device 100 determines whether or not to end shooting (step S16). For example, when an instruction to end photography is input to the display device 5, or when the reach reaches 100%, the data set creation device 100 determines to end photography. If it is determined not to end the shooting (step S16: No), the process returns to step S11, and steps S11 to S16 are repeated. On the other hand, if it is determined to end the shooting (step S16: Yes), the display process ends.
- FIG. 7 is a block diagram showing the configuration of the data quality estimator 24b according to the second embodiment.
- the data quality estimation unit 24b includes an existing object similarity estimation unit 27.
- FIG. The existing object similarity estimation unit 27 estimates the quality of the sample image using the existing recognition model.
- Existing object similarity refers to the similarity of a sample image to an existing object that has already been learned in an existing recognition model. That is, the existing object similarity indicates the degree of similarity between the sample image and other objects (products) already registered in the recognition model. The degree of similarity is calculated, for example, by cosine similarity with respect to feature quantities extracted using a pre-learned feature extraction model.
- the new product A may be similar to product B already registered in the recognition model. In this case, for learning the recognition model, it is necessary to use a sample image of the new product A that is not similar to the existing product B, that is, has distinctiveness.
- the data quality estimating unit 24b calculates the attainment level, effective image ratio, etc. calculated based on the captured image input from the storage unit 23, the valid sample images selected by the existing object similarity estimating unit 27, and the number of valid sample images. is output to the display control unit 25 as shooting assistance information. Further, the existing object similarity estimation unit 27 selects an image of an existing object determined to have a high similarity (hereinafter also referred to as a "similar object image") for a sample image whose similarity to the existing object is higher than a predetermined standard. ) is output to the display control unit 25 as shooting support information. The display control unit 25 generates a shooting support screen using the input shooting support information and displays it on the display device 5 .
- FIG. 8 shows an example of a shooting assistance screen according to the second embodiment.
- the photographing support screen includes a photographed image display area 30 and an effective image display area 40.
- the display contents of the effective image display area 40 are the same as those of the first embodiment, description thereof will be omitted.
- a photographed image 31, a rectangle 32, and an attainment level 34 are displayed in the photographed image display area 30, as in the first embodiment.
- the image of the existing object when the existing object similarity estimating unit 27 determines that the similarity of the sample image to the existing object is higher than a predetermined standard, the image of the existing object, that is, the similar object image 35 is displayed. be done. In the example of FIG. 8, the similar object image 35 is displayed side by side with the rectangle 32 corresponding to the sample image. Furthermore, the similarity 36 between the sample image and the similar object image calculated by the existing object similarity estimation unit 27 is displayed near the similar object image 35 .
- the worker can see that there are existing objects similar to the currently created sample image, the image of the existing object, the degree of similarity with the existing object, and so on. Therefore, the worker can actively photograph the surface or part of the object currently being photographed that is highly identifiable from the existing object with a high degree of similarity. can be created efficiently. Specifically, the operator may change the photographing location of the product so that the displayed similarity value decreases and photograph the product. Note that when there are a plurality of existing objects with high similarities, the similar object images 35 may be displayed for a predetermined number of existing objects with the highest similarities.
- the product name of the product indicated by the similar object image 35 may be displayed. Furthermore, if the degree of similarity between the sample image and the existing object is higher than a predetermined value, the operator may be notified that there is a high possibility that the product currently being photographed has already been registered. As a result, it is possible to prevent duplicate registration of an object (product) that has already been registered in the existing recognition model.
- step S13 the existing object similarity estimating unit 27 generates shooting support information including the similar object image 35 and the similarity 36 with the existing object. Output.
- the data quality estimation unit 24a estimates the importance of sample images, and adds sample images whose importance satisfies the criteria to the data set as valid sample images.
- the estimated importance is added to the effective sample image as attribute information.
- the sample images included in the data set accumulated in the storage unit 23 are attached with their importance as attribute information. Therefore, when learning a recognition model using that data set, it is possible to select sample images to be used for learning and determine priorities using the importance added to the sample images. Specifically, by learning a recognition model by preferentially selecting from sample images with a high degree of importance, improvement in learning efficiency can be expected.
- the data quality estimation unit 24b estimates the existing object similarity of the sample image.
- the estimated existing object similarity is added as attribute information to the effective sample image and added to the data set.
- the existing object similarity is attached as attribute information to the sample images included in the data set accumulated in the storage unit 23 . Therefore, when learning a recognition model using the data set, the existing object similarity added to the sample images can be used to select and prioritize sample images to be used for learning. Specifically, by learning a recognition model by preferentially selecting from sample images with low similarity to existing objects, it is expected to improve the efficiency of learning.
- FIG. 9 is a block diagram showing the functional configuration of the data set creation device of the second embodiment.
- the data set creation device 70 includes acquisition means 71 , data processing means 72 , data quality estimation means 73 , and display control means 74 .
- FIG. 10 is a flowchart of processing by the data set creation device 70 of the second embodiment.
- the acquisition means 71 acquires a photographed image of an object (step S21).
- the data processing means 72 generates a sample image, which is an image of the part of the object, from the photographed image, and generates a data set for learning including effective sample images satisfying a predetermined criterion among the sample images (step S22).
- the data quality estimation means 73 estimates the quality of the dataset based on the captured image and the dataset (step S23).
- the display control means 74 displays the shooting support information including the quality information of the dataset on the display device (step S24). Then the process ends.
- the data set creation device 70 of the second embodiment even an inexperienced person can capture images suitable for learning and create a high quality learning data set.
- a dataset creation device comprising:
- Appendix 2 The data set creation device according to appendix 1, wherein the quality information includes importance of sample images included in the data set.
- Appendix 3 The data set creation device according to appendix 2, wherein the importance includes a score of object-likeness of an object detected from the sample image.
- Appendix 4 The data set creation device according to appendix 2 or 3, wherein the degree of importance includes information about image quality of the sample image.
- Appendix 5 The data set creation apparatus according to appendix 1, wherein the quality information includes a similarity to an existing object obtained by recognizing a sample image included in the data set using an existing recognition model.
- Appendix 6 The data set creation device according to appendix 1, wherein the quality information includes a similarity between a sample image included in the data set and an existing object.
- the shooting support information includes the captured image, information indicating a position where the sample image is extracted from the captured image, valid sample images included in the data set, and valid samples for the total number of the sample images.
- the data set creation device according to any one of Appendices 1 to 6, comprising: an effective image ratio, which is a ratio of images.
- (Appendix 8) The data set creation device according to any one of appendices 1 to 7, wherein the shooting support information includes an attainment level indicating a ratio of the number of valid sample images already obtained to the total number of images required for learning.
- (Appendix 11) Acquire a photographed image of an object, generating a sample image, which is an image of a portion of the object, from the captured image, generating a learning data set containing valid sample images satisfying a predetermined criterion among the sample images; estimating the quality of the dataset based on the captured image and the dataset;
- a recording medium recording a program for causing a computer to execute processing for displaying shooting support information including quality information of the data set on a display device.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
In this dataset creation device, an acquisition means acquires imaged images of an object. A data processing means generates sample images from the imaged images, said sample images being images of sections of the object, and generates a training dataset including a sample image among the sample images that is useful for satisfying a prescribed criterion. A data quality estimation means estimates the quality of the dataset on the basis of the imaged images and the dataset. A display control means displays, on a display device, imaging assistance information including dataset quality information.
Description
本開示は、学習用データセットの作成に関する。
This disclosure relates to creating a training dataset.
店舗などにおいて、商品を撮影して画像認識を行うことにより商品を識別する手法が知られている。商品の画像認識を行うためには、対象となる商品について認識モデルを学習する必要がある。また、新商品が発売されたような場合、その新商品を認識できるように既存の認識モデルを学習する必要がある。認識モデルの学習を行うには、対象となる商品について学習用のデータセットを用意する必要がある。
In stores, etc., there is a known method of identifying products by photographing the products and performing image recognition. In order to perform product image recognition, it is necessary to learn a recognition model for the target product. Also, when a new product is released, it is necessary to learn an existing recognition model so that the new product can be recognized. In order to train the recognition model, it is necessary to prepare a training data set for the target product.
特許文献1は、機械学習に用いるデータセットを作成する際の品質向上のために、ラベリング担当者の評価を行う手法を記載している。
Patent Literature 1 describes a method of evaluating labelers in order to improve the quality when creating datasets for machine learning.
学習用のデータセットの作成時には、対象となる商品などの物体の外観を様々な方向から撮影し、得られた撮影画像から学習用のサンプル画像が生成される。しかし、学習に有効なデータを効率良く作成できるような画像を撮影するには、経験が必要となる。具体的に、経験の浅い者には、認識モデルの学習に必要なデータ数が分からない、学習に有用な見えのバリエーションが収集できないなどの課題があった。
When creating a data set for learning, the appearance of objects such as target products is photographed from various directions, and sample images for learning are generated from the captured images. However, experience is required to capture images that can efficiently create data effective for learning. Specifically, inexperienced users have problems such as not knowing the amount of data necessary for learning a recognition model and not being able to collect useful appearance variations for learning.
本開示の1つの目的は、特に経験の無い者であっても、学習データの生成に適した画像を撮影し、品質の高い学習用データセットを作成することが可能なデータセット作成装置を提供することにある。
One object of the present disclosure is to provide a dataset creation device that enables even an inexperienced person to capture images suitable for creating learning data and create a high-quality learning dataset. to do.
本開示の一つの観点では、データセット作成装置は、
物体の撮影画像を取得する取得手段と、
前記撮影画像から前記物体の部分の画像であるサンプル画像を生成し、前記サンプル画像のうち、所定の基準を満たす有効なサンプル画像を含む学習用のデータセットを生成するデータ処理手段と、
前記撮影画像及び前記データセットに基づいて、前記データセットの品質を推定するデータ品質推定手段と、
前記データセットの品質情報を含む撮影支援情報を表示装置に表示する表示制御手段と、
を備える。 In one aspect of the present disclosure, the dataset creation device
Acquisition means for acquiring a photographed image of an object;
data processing means for generating a sample image, which is an image of a portion of the object, from the captured image, and generating a learning data set including effective sample images satisfying a predetermined criterion among the sample images;
data quality estimation means for estimating the quality of the dataset based on the captured image and the dataset;
display control means for displaying shooting support information including quality information of the data set on a display device;
Prepare.
物体の撮影画像を取得する取得手段と、
前記撮影画像から前記物体の部分の画像であるサンプル画像を生成し、前記サンプル画像のうち、所定の基準を満たす有効なサンプル画像を含む学習用のデータセットを生成するデータ処理手段と、
前記撮影画像及び前記データセットに基づいて、前記データセットの品質を推定するデータ品質推定手段と、
前記データセットの品質情報を含む撮影支援情報を表示装置に表示する表示制御手段と、
を備える。 In one aspect of the present disclosure, the dataset creation device
Acquisition means for acquiring a photographed image of an object;
data processing means for generating a sample image, which is an image of a portion of the object, from the captured image, and generating a learning data set including effective sample images satisfying a predetermined criterion among the sample images;
data quality estimation means for estimating the quality of the dataset based on the captured image and the dataset;
display control means for displaying shooting support information including quality information of the data set on a display device;
Prepare.
本開示の他の観点では、データセット作成方法は、
物体の撮影画像を取得し、
前記撮影画像から前記物体の部分の画像であるサンプル画像を生成し、前記サンプル画像のうち、所定の基準を満たす有効なサンプル画像を含む学習用のデータセットを生成し、
前記撮影画像及び前記データセットに基づいて、前記データセットの品質を推定し、
前記データセットの品質情報を含む撮影支援情報を表示装置に表示する。 In another aspect of the present disclosure, a dataset creation method includes:
Acquire a photographed image of an object,
generating a sample image, which is an image of a portion of the object, from the captured image, generating a learning data set containing valid sample images satisfying a predetermined criterion among the sample images;
estimating the quality of the dataset based on the captured image and the dataset;
A display device displays shooting support information including quality information of the data set.
物体の撮影画像を取得し、
前記撮影画像から前記物体の部分の画像であるサンプル画像を生成し、前記サンプル画像のうち、所定の基準を満たす有効なサンプル画像を含む学習用のデータセットを生成し、
前記撮影画像及び前記データセットに基づいて、前記データセットの品質を推定し、
前記データセットの品質情報を含む撮影支援情報を表示装置に表示する。 In another aspect of the present disclosure, a dataset creation method includes:
Acquire a photographed image of an object,
generating a sample image, which is an image of a portion of the object, from the captured image, generating a learning data set containing valid sample images satisfying a predetermined criterion among the sample images;
estimating the quality of the dataset based on the captured image and the dataset;
A display device displays shooting support information including quality information of the data set.
本開示のさらに他の観点では、記録媒体は、
物体の撮影画像を取得し、
前記撮影画像から前記物体の部分の画像であるサンプル画像を生成し、前記サンプル画像のうち、所定の基準を満たす有効なサンプル画像を含む学習用のデータセットを生成し、
前記撮影画像及び前記データセットに基づいて、前記データセットの品質を推定し、
前記データセットの品質情報を含む撮影支援情報を表示装置に表示する処理をコンピュータに実行させるプログラムを記録する。 In yet another aspect of the present disclosure, the recording medium comprises
Acquire a photographed image of an object,
generating a sample image, which is an image of a portion of the object, from the captured image, generating a learning data set containing valid sample images satisfying a predetermined criterion among the sample images;
estimating the quality of the dataset based on the captured image and the dataset;
A program for causing a computer to execute a process of displaying shooting support information including quality information of the data set on a display device is recorded.
物体の撮影画像を取得し、
前記撮影画像から前記物体の部分の画像であるサンプル画像を生成し、前記サンプル画像のうち、所定の基準を満たす有効なサンプル画像を含む学習用のデータセットを生成し、
前記撮影画像及び前記データセットに基づいて、前記データセットの品質を推定し、
前記データセットの品質情報を含む撮影支援情報を表示装置に表示する処理をコンピュータに実行させるプログラムを記録する。 In yet another aspect of the present disclosure, the recording medium comprises
Acquire a photographed image of an object,
generating a sample image, which is an image of a portion of the object, from the captured image, generating a learning data set containing valid sample images satisfying a predetermined criterion among the sample images;
estimating the quality of the dataset based on the captured image and the dataset;
A program for causing a computer to execute a process of displaying shooting support information including quality information of the data set on a display device is recorded.
本開示によれば、特に経験の無い者であっても、学習データの生成に適した画像を撮影し、品質の高い学習用データセットを作成することが可能となる。
According to the present disclosure, even an inexperienced person can capture images suitable for generating learning data and create a high-quality learning data set.
以下、図面を参照して、本開示の好適な実施形態について説明する。
<第1実施形態>
[全体構成]
図1は、第1実施形態に係るデータセット作成システムの概略構成を示す。データセット作成システム1は、撮影画像から商品を認識する認識モデルの学習を行う際に使用される学習用のデータセットを作成するシステムである。 Preferred embodiments of the present disclosure will be described below with reference to the drawings.
<First embodiment>
[overall structure]
FIG. 1 shows a schematic configuration of a data set creation system according to the first embodiment. The dataset creation system 1 is a system that creates a learning data set that is used when learning a recognition model for recognizing products from photographed images.
<第1実施形態>
[全体構成]
図1は、第1実施形態に係るデータセット作成システムの概略構成を示す。データセット作成システム1は、撮影画像から商品を認識する認識モデルの学習を行う際に使用される学習用のデータセットを作成するシステムである。 Preferred embodiments of the present disclosure will be described below with reference to the drawings.
<First embodiment>
[overall structure]
FIG. 1 shows a schematic configuration of a data set creation system according to the first embodiment. The data
図示のように、データセット作成システム1は、データセット作成装置100と、カメラ2と、表示装置5とを備える。カメラ2と表示装置5は、それぞれデータセット作成装置100に接続されている。カメラ2は、例えば棚などの所定位置に固定配置されている。作業者は、データセットの作成の対象となる物体(商品)をカメラ2の撮影範囲に持っていき、カメラ2により物体を撮影する。この際、作業者は、物体を回転させたり、持ち替えたりして、物体の様々な方向からの外観を撮影する。カメラ2は、撮影した物体の撮影画像(動画)をデータセット作成装置100へ出力する。
As illustrated, the dataset creation system 1 includes a dataset creation device 100, a camera 2, and a display device 5. The camera 2 and the display device 5 are each connected to the data set creation device 100 . The camera 2 is fixedly arranged at a predetermined position such as a shelf. An operator brings an object (product) for which a data set is to be created into the photographing range of the camera 2 and photographs the object with the camera 2 . At this time, the operator rotates the object or changes its grip to photograph the appearance of the object from various directions. The camera 2 outputs a captured image (moving image) of the captured object to the data set creation device 100 .
データセット作成装置100は、カメラ2から入力された撮影画像に基づいて、対象となる物体の学習用のデータセットを作成する。作成されたデータセットは、物体を認識する認識モデルの学習に使用される。作成したデータセットを用いて認識モデルを学習することにより、認識モデルがその物体を認識することが可能となる。
The data set creation device 100 creates a learning data set for the target object based on the captured image input from the camera 2 . The created dataset is used to train a recognition model that recognizes objects. By learning the recognition model using the created data set, the recognition model can recognize the object.
データセット作成装置100は、作業者がカメラ2により物体を撮影しているときに、撮影支援情報を生成し、表示装置5に表示する。撮影支援情報は、現在どのように物体の撮影やデータセットの作成が行われているかを作業者に伝え、必要であれば物体の撮影方法についての指示やアドバイスなどを行う情報である。データセット作成装置100は、カメラ2により撮影された撮影画像と、その撮影画像に基づいて作成したデータの数や品質などの分析結果とに基づいて撮影支援情報を生成し、表示装置5へ出力する。なお、撮影支援情報の詳細については後述する。
The data set creation device 100 generates shooting support information and displays it on the display device 5 while the worker is shooting an object with the camera 2 . The shooting support information is information that tells the operator how the object is currently being shot and how the data set is created, and if necessary, gives instructions and advice on how to shoot the object. The data set creation device 100 generates shooting support information based on the captured images captured by the camera 2 and analysis results such as the number and quality of data created based on the captured images, and outputs the information to the display device 5. do. Details of the shooting assistance information will be described later.
このように、作業者による物体の撮影中に撮影支援情報を表示して現在の撮影状態やデータ作成状態を作業者にフィードバックすることにより、十分な経験の無い作業者であっても、認識モデルの学習に適した画像を撮影し、品質の高いデータセットを効率的に作成することが可能となる。
In this way, by displaying the shooting support information while the worker is shooting an object and feeding back the current shooting state and the data creation state to the worker, even an inexperienced worker can recognize a recognition model. It is possible to capture images suitable for learning and efficiently create a high-quality data set.
[ハードウェア構成]
図2は、第1実施形態のデータセット作成装置100のハードウェア構成を示すブロック図である。図示のように、データセット作成装置100は、インタフェース(I/F)11と、プロセッサ12と、メモリ13と、記録媒体14と、データベース(DB)15と、を備える。 [Hardware configuration]
FIG. 2 is a block diagram showing the hardware configuration of thedataset creation device 100 of the first embodiment. As illustrated, the data set creation device 100 includes an interface (I/F) 11, a processor 12, a memory 13, a recording medium 14, and a database (DB) 15.
図2は、第1実施形態のデータセット作成装置100のハードウェア構成を示すブロック図である。図示のように、データセット作成装置100は、インタフェース(I/F)11と、プロセッサ12と、メモリ13と、記録媒体14と、データベース(DB)15と、を備える。 [Hardware configuration]
FIG. 2 is a block diagram showing the hardware configuration of the
インタフェース11は、外部装置との間でデータの入出力を行う。具体的に、インタフェース11は、作業者による撮影中にカメラ2から撮影画像を取得し、撮影支援情報を表示装置5へ出力する。また、インタフェース11は、作成された学習用のデータセットを、認識モデルの学習を行う学習装置へ出力する。
The interface 11 performs data input/output with an external device. Specifically, the interface 11 acquires a photographed image from the camera 2 while the operator is photographing, and outputs photographing support information to the display device 5 . In addition, the interface 11 outputs the created data set for learning to a learning device for learning the recognition model.
プロセッサ12は、CPU(Central Processing Unit)などのコンピュータであり、予め用意されたプログラムを実行することによりデータセット作成装置100の全体を制御する。なお、プロセッサ12は、GPU(Graphics Processing Unit)またはFPGA(Field-Programmable Gate Array)であってもよい。プロセッサ12は、後述する撮影支援情報の表示処理を実行する。
The processor 12 is a computer such as a CPU (Central Processing Unit), and controls the entire data set creation device 100 by executing a program prepared in advance. The processor 12 may be a GPU (Graphics Processing Unit) or an FPGA (Field-Programmable Gate Array). The processor 12 executes processing for displaying shooting support information, which will be described later.
メモリ13は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ13は、プロセッサ12による各種の処理の実行中に作業メモリとしても使用される。
The memory 13 is composed of ROM (Read Only Memory), RAM (Random Access Memory), and the like. Memory 13 is also used as a working memory during execution of various processes by processor 12 .
記録媒体14は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、データセット作成装置100に対して着脱可能に構成される。記録媒体14は、プロセッサ12が実行する各種のプログラムを記録している。データセット作成装置100が各種の処理を実行する際には、記録媒体14に記録されているプログラムがメモリ13にロードされ、プロセッサ12により実行される。DB15は、カメラ2から入力された撮影画像や、作成されたデータセットを記憶する。
The recording medium 14 is a non-volatile, non-temporary recording medium such as a disk-shaped recording medium or semiconductor memory, and is configured to be detachable from the data set creation device 100 . The recording medium 14 records various programs executed by the processor 12 . When the data set creation device 100 executes various processes, a program recorded on the recording medium 14 is loaded into the memory 13 and executed by the processor 12 . The DB 15 stores captured images input from the camera 2 and created data sets.
[機能構成]
図3は、第1実施形態のデータセット作成装置100の機能構成を示すブロック図である。データセット作成装置100は、撮影画像入力部21と、データ処理部22と、記憶部23と、データ品質推定部24と、表示制御部25と、を備える。なお、撮影画像入力部21はインタフェース11により構成され、データ処理部22、データ品質推定部24及び表示制御部25は主としてプロセッサ12により構成され、記憶部23はDB15により構成される。 [Function configuration]
FIG. 3 is a block diagram showing the functional configuration of thedataset creation device 100 of the first embodiment. The data set creation device 100 includes a captured image input unit 21 , a data processing unit 22 , a storage unit 23 , a data quality estimation unit 24 and a display control unit 25 . The captured image input unit 21 is composed of the interface 11 , the data processing unit 22 , the data quality estimation unit 24 and the display control unit 25 are mainly composed of the processor 12 , and the storage unit 23 is composed of the DB 15 .
図3は、第1実施形態のデータセット作成装置100の機能構成を示すブロック図である。データセット作成装置100は、撮影画像入力部21と、データ処理部22と、記憶部23と、データ品質推定部24と、表示制御部25と、を備える。なお、撮影画像入力部21はインタフェース11により構成され、データ処理部22、データ品質推定部24及び表示制御部25は主としてプロセッサ12により構成され、記憶部23はDB15により構成される。 [Function configuration]
FIG. 3 is a block diagram showing the functional configuration of the
撮影画像入力部21は、作業者が撮影した物体の撮影画像をカメラ2から取得し、データ処理部22へ出力する。撮影画像は、物体を連続的に撮影した動画像である。
The photographed image input unit 21 acquires the photographed image of the object photographed by the worker from the camera 2 and outputs it to the data processing unit 22 . A photographed image is a moving image obtained by continuously photographing an object.
データ処理部22は、入力された撮影画像を用いて、認識モデルの学習のための学習データを生成する。具体的には、データ処理部22は、物体検知モデルなどを用いて撮影画像から物体を検出し、その物体の部分の画像を切り出して物体の画像(以下、「サンプル画像」と呼ぶ。)を生成する。物体検知モデルは、撮影画像から物体を検出し、物体を含む矩形の位置情報、及び、物体としての確からしさを示すスコアを出力する。データ処理部22は、物体検知モデルにより検出された矩形の領域を撮影画像から抽出してサンプル画像とする。そして、データ処理部22は、生成したサンプル画像を、撮影画像とともに記憶部23へ出力する。
The data processing unit 22 uses the input captured image to generate learning data for learning the recognition model. Specifically, the data processing unit 22 detects an object from the captured image using an object detection model or the like, cuts out an image of the object portion, and generates an image of the object (hereinafter referred to as a “sample image”). Generate. The object detection model detects an object from a captured image, and outputs position information of a rectangle containing the object and a score indicating the likelihood of the object. The data processing unit 22 extracts the rectangular area detected by the object detection model from the captured image and uses it as a sample image. The data processing unit 22 then outputs the generated sample image to the storage unit 23 together with the captured image.
記憶部23は、カメラ2により生成された撮影画像と、その撮影画像から抽出された複数のサンプル画像とをデータ処理部22から受け取り、記憶する。
The storage unit 23 receives the captured image generated by the camera 2 and a plurality of sample images extracted from the captured image from the data processing unit 22 and stores them.
データ品質推定部24は、データ処理部22が生成したサンプル画像の品質を推定し、予め決められた基準を満たすサンプル画像を有効サンプル画像として選択し、学習データとして記憶部23に記憶する。こうして、基準を満たすと判定された複数の有効サンプル画像を収集し、学習用データセットが作成される。なお、データ処理部22が生成したサンプル画像のうち、上記の基準を満たさないものは、学習データとしては採用されず、破棄される。
The data quality estimation unit 24 estimates the quality of the sample images generated by the data processing unit 22, selects sample images that satisfy predetermined criteria as valid sample images, and stores them in the storage unit 23 as learning data. In this way, a training data set is created by collecting a plurality of valid sample images determined to satisfy the criteria. Of the sample images generated by the data processing unit 22, those that do not satisfy the above criteria are not adopted as learning data and discarded.
また、データ品質推定部24は、撮影画像と、サンプル画像の品質の推定結果とに基づいて撮影支援情報を生成し、表示制御部25へ出力する。撮影支援情報は、カメラ2が撮影した撮影画像、有効サンプル画像などを含むが、その詳細は後述する。表示制御部25は、データ品質推定部24から入力された撮影支援情報を用いて撮影支援画面を作成し、表示装置5に表示する。
In addition, the data quality estimation unit 24 generates shooting support information based on the captured image and the result of estimating the quality of the sample image, and outputs it to the display control unit 25 . The shooting support information includes a captured image captured by the camera 2, an effective sample image, and the like, the details of which will be described later. The display control unit 25 creates a shooting assistance screen using the shooting assistance information input from the data quality estimation unit 24 and displays it on the display device 5 .
[第1実施例]
(データ品質推定部の構成)
次に、データセット作成装置100の第1実施例について説明する。第1実施例では、データ品質推定部24は、サンプル画像の品質として、サンプル画像の学習における重要度を推定する。図4は、第1実施例に係るデータ品質推定部24aの構成を示すブロック図である。図示のように、データ品質推定部24aは、重要度推定部26を備える。 [First embodiment]
(Configuration of data quality estimation unit)
Next, a first example of the dataset creation device 100 will be described. In the first embodiment, the data quality estimation unit 24 estimates the importance of the sample images in learning as the quality of the sample images. FIG. 4 is a block diagram showing the configuration of the data quality estimator 24a according to the first embodiment. As illustrated, the data quality estimator 24a includes an importance estimator 26. FIG.
(データ品質推定部の構成)
次に、データセット作成装置100の第1実施例について説明する。第1実施例では、データ品質推定部24は、サンプル画像の品質として、サンプル画像の学習における重要度を推定する。図4は、第1実施例に係るデータ品質推定部24aの構成を示すブロック図である。図示のように、データ品質推定部24aは、重要度推定部26を備える。 [First embodiment]
(Configuration of data quality estimation unit)
Next, a first example of the data
重要度推定部26には、記憶部23からサンプル画像が入力される。重要度推定部26は、入力されたサンプル画像の重要度を、重要度推定モデルを用いて推定する。1つの例では、重要度推定モデルとして、物体検知モデルを用いることができる。物体検知モデルは、入力されたサンプル画像に基づいて、検出された物体の物体らしさのスコアを出力するので、重要度推定部26はこのスコアを重要度として使用する。物体らしさのスコアが高いほど、そのサンプル画像に物体が含まれている確率が高く、学習データとしての適性が高いと考えられる。よって、データ品質推定部24aは、物体らしさのスコアが所定値より高いサンプル画像を有効サンプル画像として選択する。
A sample image is input from the storage unit 23 to the importance estimation unit 26 . The importance estimation unit 26 estimates the importance of the input sample image using an importance estimation model. In one example, an object detection model can be used as the importance estimation model. Since the object detection model outputs a score of object-likeness of the detected object based on the input sample image, the importance estimation unit 26 uses this score as the importance. The higher the object-likeness score, the higher the probability that an object is included in the sample image, and the higher the suitability as learning data. Therefore, the data quality estimating unit 24a selects a sample image whose object-likeness score is higher than a predetermined value as an effective sample image.
他の例では、重要度推定モデルとして、画像としての画質を推定するモデルを用いることができる。画質を推定するモデルとしては、例えば、画像の手ブレ、ボケ、明るさ、対象物の隠れ度合い(対象物が他の物体の陰に隠れている割合)などを推定するモデルを用いることができる。具体的には、重要度推定部26は、上記のモデルによる推定結果に基づき、手ブレが少ないほど、ボケが少ないほど、適正な明るさであるほど、対象物の隠れ度合いが小さいほど、重要度を高くする。
In another example, a model for estimating image quality as an image can be used as the importance estimation model. As a model for estimating image quality, for example, a model for estimating camera shake, blurring, brightness, degree of hiding of objects (ratio of objects hidden behind other objects), etc. can be used. . Specifically, based on the estimation result of the above model, the importance estimating unit 26 determines that the less camera shake, the less blurring, the more appropriate brightness, and the smaller the degree of hiding of the object, the more important it is. increase the degree.
サンプル画像の画質が良くない場合、具体的に手ブレが多い、画像がぼけている、画像が暗い、対象物の大部分が隠れてしまっているなどの場合、そのサンプル画像は学習データとしての適性が低いと考えられる。よって、データ品質推定部24aは、上記のような画質を推定するモデルによって画質が基準レベル以上であると判定されたサンプル画像を有効サンプル画像として選択する。
If the image quality of the sample image is not good, specifically if there is a lot of camera shake, the image is blurred, the image is dark, or most of the object is hidden, the sample image is used as training data. Considered to be less suitable. Therefore, the data quality estimating unit 24a selects sample images whose image quality is determined to be equal to or higher than the reference level by the model for estimating image quality as described above, as valid sample images.
なお、上記の物体らしさのスコアと画質の両方を組み合わせて重要度として用いてもよい。例えば、物体らしさのスコアと、手ブレや明るさなどの程度を示す値とを所定の重みを用いて加算して重要度を算出することとしてもよい。
It should be noted that both the above object-likeness score and image quality may be combined and used as the degree of importance. For example, the degree of importance may be calculated by adding a score of object-likeness and a value indicating the degree of camera shake or brightness using a predetermined weight.
データ品質推定部24aは、上記のようにして選択した有効サンプル画像を、記憶部23に記憶する。こうして蓄積された有効サンプル画像の集合が学習用のデータセットとなる。
The data quality estimation unit 24a stores the valid sample images selected as described above in the storage unit 23. A set of effective sample images accumulated in this manner serves as a data set for learning.
また、データ品質推定部24aは、記憶部23から入力された撮影画像、重要度推定部26が選択した有効サンプル画像、及び、有効サンプル画像の数に基づいて算出した到達度や有効画像率などの情報を、撮影支援情報として表示制御部25へ出力する。表示制御部25は、入力された撮影支援情報を用いて撮影支援画面を生成し、表示装置5に表示する。
In addition, the data quality estimation unit 24a calculates the degree of attainment, the effective image ratio, etc. calculated based on the photographed images input from the storage unit 23, the valid sample images selected by the importance estimation unit 26, and the number of valid sample images. is output to the display control unit 25 as shooting assistance information. The display control unit 25 generates a shooting support screen using the input shooting support information and displays it on the display device 5 .
(撮影支援画面)
図5は、第1実施例による撮影支援画面の例を示す。図示のように、撮影支援画面は、大別して、撮影画像表示エリア30と、有効画像表示エリア40とを備える。図5の例では、撮影画像表示エリア30は、撮影画像31と、矩形32と、重要度33と、到達度34とが表示されている。 (Shooting support screen)
FIG. 5 shows an example of a shooting assistance screen according to the first embodiment. As illustrated, the shooting support screen is roughly divided into a capturedimage display area 30 and an effective image display area 40 . In the example of FIG. 5, the captured image display area 30 displays a captured image 31, a rectangle 32, a degree of importance 33, and a degree of attainment .
図5は、第1実施例による撮影支援画面の例を示す。図示のように、撮影支援画面は、大別して、撮影画像表示エリア30と、有効画像表示エリア40とを備える。図5の例では、撮影画像表示エリア30は、撮影画像31と、矩形32と、重要度33と、到達度34とが表示されている。 (Shooting support screen)
FIG. 5 shows an example of a shooting assistance screen according to the first embodiment. As illustrated, the shooting support screen is roughly divided into a captured
撮影画像31は、カメラ2で撮影された撮影画像(動画像)をリアルタイムで表示したものである。矩形32は、撮影画像31から物体検知モデルが検出した物体の位置を示す。前述のように、物体を囲む矩形32の部分が、撮影画像31からサンプル画像として切り出される。重要度33は、検出された物体の重要度であり、具体的には前述の重要度推定部26により算出された重要度の値である。よって、第1実施例では、重要度の値は、前述のように物体らしさのスコア又はサンプル画像の画質の推定値となる。
The captured image 31 is a captured image (moving image) captured by the camera 2 and displayed in real time. A rectangle 32 indicates the position of the object detected by the object detection model from the captured image 31 . As described above, the portion of the rectangle 32 surrounding the object is cut out from the captured image 31 as a sample image. The degree of importance 33 is the degree of importance of the detected object, specifically, the value of the degree of importance calculated by the degree-of-importance estimator 26 described above. Therefore, in the first embodiment, the importance value is the object-likeness score or the image quality estimate of the sample image as described above.
到達度34は、学習に必要な総画像数に対する、既に得られた有効なサンプル画像数の割合である。なお、学習に必要な総画像数は、経験などに基づいて予め決定される。図5の例では、学習に必要な総画像数「300(フレーム)」に対して、現在「120(フレーム)」の有効なサンプル画像が取得済みであることが示されている。これにより、作業者は学習に必要なサンプル画像がどの程度取得できたのか、あとどのくらい必要か、などを知ることができる。なお、必要な総画像数の有効なサンプル画像が取得できたときに、その旨を表示や音声で作業者に通知してもよい。
The attainment level 34 is the ratio of the number of valid sample images already obtained to the total number of images required for learning. Note that the total number of images required for learning is determined in advance based on experience and the like. The example of FIG. 5 shows that currently "120 (frames)" of effective sample images have been acquired for the total number of images "300 (frames)" required for learning. This allows the operator to know how many sample images required for learning have been acquired and how much more is required. It should be noted that when the necessary total number of valid sample images have been acquired, the fact may be notified to the operator by display or voice.
一方、有効画像表示エリア40には、サムネイル表示エリア41と、有効画像率42とが表示されている。サムネイル表示エリア41には、撮影画像31から切り出された複数の有効なサンプル画像のサムネイルが並べて表示されている。即ち、各サムネイル画像43は、撮影画像表示エリア30の矩形32に示すように、撮影画像31から切り出されたサンプル画像のうち、前述のデータ品質推定部24aにより所定の基準を満たすと判定されたサンプル画像である。なお、図5のように有効なサンプル画像のみを表示する代わりに、撮影画像31から切り出された全てのサンプル画像をサムネイル表示エリア41に表示した上で、有効なサンプル画像を、例えば枠の色を変えるなどして強調して表示することとしてもよい。
On the other hand, in the effective image display area 40, a thumbnail display area 41 and an effective image ratio 42 are displayed. In the thumbnail display area 41, thumbnails of a plurality of effective sample images cut out from the captured image 31 are displayed side by side. That is, each thumbnail image 43, as indicated by the rectangle 32 in the captured image display area 30, is determined by the data quality estimating unit 24a to satisfy the predetermined criteria among the sample images cut out from the captured image 31. It is a sample image. Instead of displaying only effective sample images as shown in FIG. 5, all sample images cut out from the photographed image 31 are displayed in the thumbnail display area 41, and the effective sample images are displayed, for example, in the color of the frame. may be emphasized and displayed by changing
有効画像率42は、撮影画像31から切り出されたサンプル画像の総数に対する、有効なサンプル画像の割合である。図5の例では、有効画像率が90%となっているので、現在までに撮影画像31から切り出されたサンプル画像のうちの90%が有効なサンプル画像として採用されていることを示している。また、ブレ5%、照明条件3%、物体の隠れ2%のように、有効でない画像の主な判定要因を表示してもよい。なお、有効画像率が所定の基準より低い場合、表示や音声などによりその旨を作業者に通知してもよい。これにより、物体がカメラ2の撮影範囲に入っていないなどの不具合に作業者が気づくことができる。さらには、有効画像率が所定の基準より低い場合、作業者に指示やアドバイスを行うこととしてもよい。例えば、サンプル画像の手ブレが多く、有効画像率が下がっている場合、「もう少しゆっくり動かして下さい。」などのメッセージを表示したり、音声出力したりしてもよい。
The valid image ratio 42 is the ratio of valid sample images to the total number of sample images cut out from the captured image 31 . In the example of FIG. 5, since the effective image ratio is 90%, it indicates that 90% of the sample images cut out from the photographed image 31 so far have been adopted as effective sample images. . It may also display the main determining factors for an ineffective image, such as 5% blur, 3% lighting conditions, and 2% hidden objects. If the effective image ratio is lower than a predetermined standard, the operator may be notified of this by means of display, voice, or the like. As a result, the operator can notice a problem such as the object being out of the photographing range of the camera 2.例文帳に追加Furthermore, if the effective image ratio is lower than a predetermined standard, instructions or advice may be given to the operator. For example, if the sample image has a lot of camera shake and the effective image ratio is low, a message such as "Please move a little more slowly" may be displayed or output by voice.
なお、図5の例では、到達度34及び有効画像率42を数値で表示しているが、その代わりに、グラフやメーターなどで表示してもよい。
In the example of FIG. 5, the attainment level 34 and the effective image ratio 42 are displayed numerically, but they may be displayed as graphs or meters instead.
また、全ての物体についての撮影が終了した時点で、全ての物体について十分な有効サンプル画像が取得できているか否かを作業者に通知してもよい。例えば、撮影の中断などによって有効サンプル画像が不足している物体について、「商品X:30枚不足」などの表示を行い、必要なサンプル画像数に達していないことを作業者に通知してもよい。これにより、作業者は不足しているサンプル画像の追加撮影を行うことができる。
In addition, the operator may be notified of whether or not sufficient valid sample images have been acquired for all objects at the time when all objects have been photographed. For example, for an object for which effective sample images are insufficient due to interruption of photography, etc., a message such as "Product X: 30 insufficient images" may be displayed to notify the worker that the required number of sample images has not been reached. good. This allows the operator to take additional shots of missing sample images.
(表示処理)
次に、撮影支援情報の表示処理について説明する。図6は、撮影支援情報の表示処理のフローチャートである。この処理は、図2に示すプロセッサ12が、予め用意されたプログラムを実行し、図3及び図4に示す各要素として動作することにより実現される。 (Display processing)
Next, display processing of shooting support information will be described. FIG. 6 is a flowchart of display processing of shooting support information. This processing is realized by theprocessor 12 shown in FIG. 2 executing a program prepared in advance and operating as each element shown in FIGS. 3 and 4. FIG.
次に、撮影支援情報の表示処理について説明する。図6は、撮影支援情報の表示処理のフローチャートである。この処理は、図2に示すプロセッサ12が、予め用意されたプログラムを実行し、図3及び図4に示す各要素として動作することにより実現される。 (Display processing)
Next, display processing of shooting support information will be described. FIG. 6 is a flowchart of display processing of shooting support information. This processing is realized by the
まず、撮影画像入力部21は、カメラ2から撮影画像を取得する(ステップS11)。次に、データ処理部22は、撮影画像から物体の部分を切り出してサンプル画像を生成する(ステップS12)。次に、データ品質推定部24aは、各サンプル画像の重要度を推定し、所定基準を満たすサンプル画像を有効サンプル画像として抽出する。また、データ品質推定部24aは、有効サンプル画像の数に基づいて、到達度や有効画像率などを算出する。そして、データ品質推定部24aは、撮影画像、有効サンプル画像、到達度、有効画像率などを含む撮影支援情報を生成して表示制御部25へ出力する(ステップS13)。
First, the captured image input unit 21 acquires a captured image from the camera 2 (step S11). Next, the data processing unit 22 cuts out the object portion from the captured image to generate a sample image (step S12). Next, the data quality estimator 24a estimates the importance of each sample image and extracts the sample image that satisfies a predetermined criterion as an effective sample image. The data quality estimator 24a also calculates the degree of reach, the effective image ratio, etc., based on the number of effective sample images. Then, the data quality estimation unit 24a generates shooting support information including the shot image, the effective sample image, the reach, the effective image ratio, etc., and outputs it to the display control unit 25 (step S13).
次に、表示制御部25は、入力された撮影支援情報を用いて、撮影支援画面を生成し(ステップS14)、撮影支援画面を表示装置5に表示する(ステップS15)。こうして、図5に例示するような撮影支援画面が表示装置5に表示される。
Next, the display control unit 25 uses the input shooting assistance information to generate a shooting assistance screen (step S14), and displays the shooting assistance screen on the display device 5 (step S15). In this way, a photographing support screen such as that illustrated in FIG. 5 is displayed on the display device 5 .
次に、データセット作成装置100は、撮影を終了するか否かを判定する(ステップS16)。例えば、表示装置5に対して撮影終了指示を入力した場合、又は、到達度が100%になった場合、データセット作成装置100は、撮影を終了すると判定する。撮影を終了しないと判定された場合(ステップS16:No)、処理はステップS11へ戻り、ステップS11~S16が繰り返される。一方、撮影を終了すると判定された場合(ステップS16:Yes)、表示処理は終了する。
Next, the data set creation device 100 determines whether or not to end shooting (step S16). For example, when an instruction to end photography is input to the display device 5, or when the reach reaches 100%, the data set creation device 100 determines to end photography. If it is determined not to end the shooting (step S16: No), the process returns to step S11, and steps S11 to S16 are repeated. On the other hand, if it is determined to end the shooting (step S16: Yes), the display process ends.
[第2実施例]
(データ品質推定部の構成)
次に、データセット作成装置100の第2実施例について説明する。第2実施例では、データ品質推定部24は、サンプル画像の品質として、既存物体類似度を推定する。図7は、第2実施例に係るデータ品質推定部24bの構成を示すブロック図である。図示のように、データ品質推定部24bは、既存物体類似度推定部27を備える。既存物体類似度推定部27は、既存認識モデルを用いてサンプル画像の品質を推定する。 [Second embodiment]
(Configuration of data quality estimation unit)
Next, a second embodiment of the dataset creation device 100 will be described. In the second embodiment, the data quality estimation unit 24 estimates the existing object similarity as the quality of the sample image. FIG. 7 is a block diagram showing the configuration of the data quality estimator 24b according to the second embodiment. As illustrated, the data quality estimation unit 24b includes an existing object similarity estimation unit 27. FIG. The existing object similarity estimation unit 27 estimates the quality of the sample image using the existing recognition model.
(データ品質推定部の構成)
次に、データセット作成装置100の第2実施例について説明する。第2実施例では、データ品質推定部24は、サンプル画像の品質として、既存物体類似度を推定する。図7は、第2実施例に係るデータ品質推定部24bの構成を示すブロック図である。図示のように、データ品質推定部24bは、既存物体類似度推定部27を備える。既存物体類似度推定部27は、既存認識モデルを用いてサンプル画像の品質を推定する。 [Second embodiment]
(Configuration of data quality estimation unit)
Next, a second embodiment of the data
「既存物体類似度」とは、既存認識モデルにおいて学習済みの既存物体に対する、サンプル画像の類似度を言う。即ち、既存物体類似度は、サンプル画像が、既に認識モデルに登録済みの他の物体(商品)と類似している度合いを示す。類似度の計算は、例えば、事前学習した特徴抽出モデルを用いて抽出した特徴量に対するコサイン類似度で計算する。ある新商品Aを認識できるように認識モデルを学習する場合に、その新商品Aが既に認識モデルに登録済の商品Bと類似していることがある。この場合、認識モデルの学習には、既存の商品Bと類似していない、即ち、識別性のある新商品Aのサンプル画像を用いる必要がある。
"Existing object similarity" refers to the similarity of a sample image to an existing object that has already been learned in an existing recognition model. That is, the existing object similarity indicates the degree of similarity between the sample image and other objects (products) already registered in the recognition model. The degree of similarity is calculated, for example, by cosine similarity with respect to feature quantities extracted using a pre-learned feature extraction model. When learning a recognition model so that a certain new product A can be recognized, the new product A may be similar to product B already registered in the recognition model. In this case, for learning the recognition model, it is necessary to use a sample image of the new product A that is not similar to the existing product B, that is, has distinctiveness.
データ品質推定部24bは、記憶部23から入力された撮影画像、既存物体類似度推定部27が選択した有効サンプル画像、及び、有効サンプル画像の数に基づいて算出した到達度や有効画像率などの情報を、撮影支援情報として表示制御部25へ出力する。また、既存物体類似度推定部27は、既存物体に対する類似度が所定の基準より高いサンプル画像については、その類似度が高いと判定された既存物体の画像(以下、「類似物体画像」とも呼ぶ。)を撮影支援情報として表示制御部25へ出力する。表示制御部25は、入力された撮影支援情報を用いて撮影支援画面を生成し、表示装置5に表示する。
The data quality estimating unit 24b calculates the attainment level, effective image ratio, etc. calculated based on the captured image input from the storage unit 23, the valid sample images selected by the existing object similarity estimating unit 27, and the number of valid sample images. is output to the display control unit 25 as shooting assistance information. Further, the existing object similarity estimation unit 27 selects an image of an existing object determined to have a high similarity (hereinafter also referred to as a "similar object image") for a sample image whose similarity to the existing object is higher than a predetermined standard. ) is output to the display control unit 25 as shooting support information. The display control unit 25 generates a shooting support screen using the input shooting support information and displays it on the display device 5 .
(撮影支援画面)
図8は、第2実施例による撮影支援画面の例を示す。図5に示す第1実施例と同様に、撮影支援画面は、撮影画像表示エリア30と、有効画像表示エリア40とを備える。有効画像表示エリア40の表示内容は第1実施例と同様であるので説明を省略する。撮影画像表示エリア30には、第1実施例と同様に、撮影画像31と、矩形32と、到達度34とが表示されている。 (Shooting support screen)
FIG. 8 shows an example of a shooting assistance screen according to the second embodiment. As in the first embodiment shown in FIG. 5, the photographing support screen includes a photographedimage display area 30 and an effective image display area 40. As shown in FIG. Since the display contents of the effective image display area 40 are the same as those of the first embodiment, description thereof will be omitted. A photographed image 31, a rectangle 32, and an attainment level 34 are displayed in the photographed image display area 30, as in the first embodiment.
図8は、第2実施例による撮影支援画面の例を示す。図5に示す第1実施例と同様に、撮影支援画面は、撮影画像表示エリア30と、有効画像表示エリア40とを備える。有効画像表示エリア40の表示内容は第1実施例と同様であるので説明を省略する。撮影画像表示エリア30には、第1実施例と同様に、撮影画像31と、矩形32と、到達度34とが表示されている。 (Shooting support screen)
FIG. 8 shows an example of a shooting assistance screen according to the second embodiment. As in the first embodiment shown in FIG. 5, the photographing support screen includes a photographed
また、第2実施例では、既存物体類似度推定部27により、サンプル画像の既存物体に対する類似度が所定基準より高いと判定された場合、その既存物体の画像、即ち、類似物体画像35が表示される。図8の例では、類似物体画像35が、サンプル画像に対応する矩形32と並べて表示されている。さらに、既存物体類似度推定部27により算出された、サンプル画像と類似物体画像との類似度36が類似物体画像35の近傍に表示される。
Further, in the second embodiment, when the existing object similarity estimating unit 27 determines that the similarity of the sample image to the existing object is higher than a predetermined standard, the image of the existing object, that is, the similar object image 35 is displayed. be done. In the example of FIG. 8, the similar object image 35 is displayed side by side with the rectangle 32 corresponding to the sample image. Furthermore, the similarity 36 between the sample image and the similar object image calculated by the existing object similarity estimation unit 27 is displayed near the similar object image 35 .
これにより、作業者は、現在作成されているサンプル画像と類似する既存物体があること、その既存物体の画像、その既存物体との類似度などを見ることができる。よって、作業者は、現在撮影中の物体について、類似度の高い既存物体との識別性の高い面や部分を積極的に撮影することができるので、より既存物体との識別性の高い学習データを効率的に作成することが可能となる。具体的には、作業者は、表示された類似度の値が下がるように商品の撮影箇所を変化させて撮影を行えばよい。なお、類似度の高い既存物体が複数ある場合には、類似度が高い方から所定数の既存物体について類似物体画像35を表示してもよい。
As a result, the worker can see that there are existing objects similar to the currently created sample image, the image of the existing object, the degree of similarity with the existing object, and so on. Therefore, the worker can actively photograph the surface or part of the object currently being photographed that is highly identifiable from the existing object with a high degree of similarity. can be created efficiently. Specifically, the operator may change the photographing location of the product so that the displayed similarity value decreases and photograph the product. Note that when there are a plurality of existing objects with high similarities, the similar object images 35 may be displayed for a predetermined number of existing objects with the highest similarities.
また、類似物体画像35の近傍に、その類似物体画像35が示す商品の商品名などを表示してもよい。さらに、サンプル画像と既存物体との類似度が所定値より高い場合に、現在撮影している商品が既に登録済である可能性が高いことなどを作業者に通知してもよい。これにより、既存認識モデルに登録済の物体(商品)を重複登録してしまうこと防止できる。
Also, in the vicinity of the similar object image 35, the product name of the product indicated by the similar object image 35 may be displayed. Furthermore, if the degree of similarity between the sample image and the existing object is higher than a predetermined value, the operator may be notified that there is a high possibility that the product currently being photographed has already been registered. As a result, it is possible to prevent duplicate registration of an object (product) that has already been registered in the existing recognition model.
(表示処理)
次に、撮影支援情報の表示処理について説明する。第2実施例における撮影支援情報の表示処理は、基本的に図6に示す第1実施例と同様である。但し、第2実施例では、ステップS13において、既存物体類似度推定部27が上記の類似物体画像35や、既存物体との類似度36などを含む撮影支援情報を生成し、表示制御部25へ出力する。 (Display processing)
Next, display processing of shooting support information will be described. The display processing of the shooting assistance information in the second embodiment is basically the same as that in the first embodiment shown in FIG. However, in the second embodiment, in step S13, the existing objectsimilarity estimating unit 27 generates shooting support information including the similar object image 35 and the similarity 36 with the existing object. Output.
次に、撮影支援情報の表示処理について説明する。第2実施例における撮影支援情報の表示処理は、基本的に図6に示す第1実施例と同様である。但し、第2実施例では、ステップS13において、既存物体類似度推定部27が上記の類似物体画像35や、既存物体との類似度36などを含む撮影支援情報を生成し、表示制御部25へ出力する。 (Display processing)
Next, display processing of shooting support information will be described. The display processing of the shooting assistance information in the second embodiment is basically the same as that in the first embodiment shown in FIG. However, in the second embodiment, in step S13, the existing object
[変形例]
次に、第1実施形態に係るデータセット作成装置100の変形例を説明する。この変形例は、上記の第1実施例又は第2実施例に適用することができる。上記の第1実施例では、データ品質推定部24aは、サンプル画像の重要度を推定し、重要度が基準を満たすサンプル画像を有効サンプル画像としてデータセットに加えている。この際、変形例では、推定された重要度を属性情報として有効サンプル画像に付加する。これにより、記憶部23に蓄積されるデータセットに含まれるサンプル画像には、その重要度が属性情報として付属している状態となる。よって、そのデータセットを用いて認識モデルを学習する際に、サンプル画像に付加された重要度を用いて、学習に使用するサンプル画像の選択や優先度の決定を行うことができる。具体的には、重要度の高いサンプル画像から優先的に選択して認識モデルを学習することにより、学習の効率化が期待できる。 [Modification]
Next, a modified example of the dataset creation device 100 according to the first embodiment will be described. This modification can be applied to the first or second embodiment described above. In the first embodiment described above, the data quality estimation unit 24a estimates the importance of sample images, and adds sample images whose importance satisfies the criteria to the data set as valid sample images. At this time, in the modified example, the estimated importance is added to the effective sample image as attribute information. As a result, the sample images included in the data set accumulated in the storage unit 23 are attached with their importance as attribute information. Therefore, when learning a recognition model using that data set, it is possible to select sample images to be used for learning and determine priorities using the importance added to the sample images. Specifically, by learning a recognition model by preferentially selecting from sample images with a high degree of importance, improvement in learning efficiency can be expected.
次に、第1実施形態に係るデータセット作成装置100の変形例を説明する。この変形例は、上記の第1実施例又は第2実施例に適用することができる。上記の第1実施例では、データ品質推定部24aは、サンプル画像の重要度を推定し、重要度が基準を満たすサンプル画像を有効サンプル画像としてデータセットに加えている。この際、変形例では、推定された重要度を属性情報として有効サンプル画像に付加する。これにより、記憶部23に蓄積されるデータセットに含まれるサンプル画像には、その重要度が属性情報として付属している状態となる。よって、そのデータセットを用いて認識モデルを学習する際に、サンプル画像に付加された重要度を用いて、学習に使用するサンプル画像の選択や優先度の決定を行うことができる。具体的には、重要度の高いサンプル画像から優先的に選択して認識モデルを学習することにより、学習の効率化が期待できる。 [Modification]
Next, a modified example of the data
同様に、第2実施例では、データ品質推定部24bは、サンプル画像の既存物体類似度を推定している。この際、変形例では、推定された既存物体類似度を属性情報として有効サンプル画像に付加してデータセットに加える。これにより、記憶部23に蓄積されるデータセットに含まれるサンプル画像には、その既存物体類似度が属性情報として付属している状態となる。よって、そのデータセットを用いて認識モデルを学習する際に、サンプル画像に付加された既存物体類似度を用いて、学習に使用するサンプル画像際の選択や優先度の決定を行うことができる。具体的には、既存物体類似度の低いサンプル画像から優先的に選択して認識モデルを学習することにより、学習の効率化が期待できる。
Similarly, in the second embodiment, the data quality estimation unit 24b estimates the existing object similarity of the sample image. At this time, in the modified example, the estimated existing object similarity is added as attribute information to the effective sample image and added to the data set. As a result, the existing object similarity is attached as attribute information to the sample images included in the data set accumulated in the storage unit 23 . Therefore, when learning a recognition model using the data set, the existing object similarity added to the sample images can be used to select and prioritize sample images to be used for learning. Specifically, by learning a recognition model by preferentially selecting from sample images with low similarity to existing objects, it is expected to improve the efficiency of learning.
<第2実施形態>
図9は、第2実施形態のデータセット作成装置の機能構成を示すブロック図である。データセット作成装置70は、取得手段71と、データ処理手段72と、データ品質推定手段73と、表示制御手段74とを備える。 <Second embodiment>
FIG. 9 is a block diagram showing the functional configuration of the data set creation device of the second embodiment. The dataset creation device 70 includes acquisition means 71 , data processing means 72 , data quality estimation means 73 , and display control means 74 .
図9は、第2実施形態のデータセット作成装置の機能構成を示すブロック図である。データセット作成装置70は、取得手段71と、データ処理手段72と、データ品質推定手段73と、表示制御手段74とを備える。 <Second embodiment>
FIG. 9 is a block diagram showing the functional configuration of the data set creation device of the second embodiment. The data
図10は、第2実施形態のデータセット作成装置70による処理のフローチャートである。まず、取得手段71は、物体の撮影画像を取得する(ステップS21)。次に、データ処理手段72は、撮影画像から物体の部分の画像であるサンプル画像を生成し、サンプル画像のうち、所定の基準を満たす有効なサンプル画像を含む学習用のデータセットを生成する(ステップS22)。次に、データ品質推定手段73は、撮影画像及びデータセットに基づいて、データセットの品質を推定する(ステップS23)。そして、表示制御手段74は、データセットの品質情報を含む撮影支援情報を表示装置に表示する(ステップS24)。そして、処理は終了する。
FIG. 10 is a flowchart of processing by the data set creation device 70 of the second embodiment. First, the acquisition means 71 acquires a photographed image of an object (step S21). Next, the data processing means 72 generates a sample image, which is an image of the part of the object, from the photographed image, and generates a data set for learning including effective sample images satisfying a predetermined criterion among the sample images ( step S22). Next, the data quality estimation means 73 estimates the quality of the dataset based on the captured image and the dataset (step S23). Then, the display control means 74 displays the shooting support information including the quality information of the dataset on the display device (step S24). Then the process ends.
第2実施形態のデータセット作成装置70によれば、特に経験の無い者であっても、学習に適した画像を撮影し、品質の高い学習用データセットを作成することが可能となる。
According to the data set creation device 70 of the second embodiment, even an inexperienced person can capture images suitable for learning and create a high quality learning data set.
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
Some or all of the above embodiments can also be described as the following additional remarks, but are not limited to the following.
(付記1)
物体の撮影画像を取得する取得手段と、
前記撮影画像から前記物体の部分の画像であるサンプル画像を生成し、前記サンプル画像のうち、所定の基準を満たす有効なサンプル画像を含む学習用のデータセットを生成するデータ処理手段と、
前記撮影画像及び前記データセットに基づいて、前記データセットの品質を推定するデータ品質推定手段と、
前記データセットの品質情報を含む撮影支援情報を表示装置に表示する表示制御手段と、
を備えるデータセット作成装置。 (Appendix 1)
Acquisition means for acquiring a photographed image of an object;
data processing means for generating a sample image, which is an image of a portion of the object, from the captured image, and generating a learning data set including effective sample images satisfying a predetermined criterion among the sample images;
data quality estimation means for estimating the quality of the dataset based on the captured image and the dataset;
display control means for displaying shooting support information including quality information of the data set on a display device;
A dataset creation device comprising:
物体の撮影画像を取得する取得手段と、
前記撮影画像から前記物体の部分の画像であるサンプル画像を生成し、前記サンプル画像のうち、所定の基準を満たす有効なサンプル画像を含む学習用のデータセットを生成するデータ処理手段と、
前記撮影画像及び前記データセットに基づいて、前記データセットの品質を推定するデータ品質推定手段と、
前記データセットの品質情報を含む撮影支援情報を表示装置に表示する表示制御手段と、
を備えるデータセット作成装置。 (Appendix 1)
Acquisition means for acquiring a photographed image of an object;
data processing means for generating a sample image, which is an image of a portion of the object, from the captured image, and generating a learning data set including effective sample images satisfying a predetermined criterion among the sample images;
data quality estimation means for estimating the quality of the dataset based on the captured image and the dataset;
display control means for displaying shooting support information including quality information of the data set on a display device;
A dataset creation device comprising:
(付記2)
前記品質情報は、前記データセットに含まれるサンプル画像の重要度を含む付記1に記載のデータセット作成装置。 (Appendix 2)
2. The data set creation device according toappendix 1, wherein the quality information includes importance of sample images included in the data set.
前記品質情報は、前記データセットに含まれるサンプル画像の重要度を含む付記1に記載のデータセット作成装置。 (Appendix 2)
2. The data set creation device according to
(付記3)
前記重要度は、前記サンプル画像から検出された物体の物体らしさのスコアを含む付記2に記載のデータセット作成装置。 (Appendix 3)
3. The data set creation device according toappendix 2, wherein the importance includes a score of object-likeness of an object detected from the sample image.
前記重要度は、前記サンプル画像から検出された物体の物体らしさのスコアを含む付記2に記載のデータセット作成装置。 (Appendix 3)
3. The data set creation device according to
(付記4)
前記重要度は、前記サンプル画像の画質に関する情報を含む付記2又は3に記載のデータセット作成装置。 (Appendix 4)
4. The data set creation device according toappendix 2 or 3, wherein the degree of importance includes information about image quality of the sample image.
前記重要度は、前記サンプル画像の画質に関する情報を含む付記2又は3に記載のデータセット作成装置。 (Appendix 4)
4. The data set creation device according to
(付記5)
前記品質情報は、前記データセットに含まれるサンプル画像を既存認識モデルで認識した結果の、既存物体に対する類似度を含む付記1に記載のデータセット作成装置。 (Appendix 5)
1. The data set creation apparatus according toappendix 1, wherein the quality information includes a similarity to an existing object obtained by recognizing a sample image included in the data set using an existing recognition model.
前記品質情報は、前記データセットに含まれるサンプル画像を既存認識モデルで認識した結果の、既存物体に対する類似度を含む付記1に記載のデータセット作成装置。 (Appendix 5)
1. The data set creation apparatus according to
(付記6)
前記品質情報は、前記データセットに含まれるサンプル画像と既存物体との類似度を含む付記1に記載のデータセット作成装置。 (Appendix 6)
2. The data set creation device according toappendix 1, wherein the quality information includes a similarity between a sample image included in the data set and an existing object.
前記品質情報は、前記データセットに含まれるサンプル画像と既存物体との類似度を含む付記1に記載のデータセット作成装置。 (Appendix 6)
2. The data set creation device according to
(付記7)
前記撮影支援情報は、前記撮影画像と、前記撮影画像において前記サンプル画像が切り出される位置を示す情報と、前記データセットに含まれている有効なサンプル画像と、前記サンプル画像の総数に対する有効なサンプル画像の割合である有効画像率と、を含む付記1乃至6のいずれか一項に記載のデータセット作成装置。 (Appendix 7)
The shooting support information includes the captured image, information indicating a position where the sample image is extracted from the captured image, valid sample images included in the data set, and valid samples for the total number of the sample images. 7. The data set creation device according to any one ofAppendices 1 to 6, comprising: an effective image ratio, which is a ratio of images.
前記撮影支援情報は、前記撮影画像と、前記撮影画像において前記サンプル画像が切り出される位置を示す情報と、前記データセットに含まれている有効なサンプル画像と、前記サンプル画像の総数に対する有効なサンプル画像の割合である有効画像率と、を含む付記1乃至6のいずれか一項に記載のデータセット作成装置。 (Appendix 7)
The shooting support information includes the captured image, information indicating a position where the sample image is extracted from the captured image, valid sample images included in the data set, and valid samples for the total number of the sample images. 7. The data set creation device according to any one of
(付記8)
前記撮影支援情報は、学習に必要な総画像数に対する、既に得られた有効なサンプル画像数の割合を示す到達度を含む付記1乃至7のいずれか一項に記載のデータセット作成装置。 (Appendix 8)
8. The data set creation device according to any one ofappendices 1 to 7, wherein the shooting support information includes an attainment level indicating a ratio of the number of valid sample images already obtained to the total number of images required for learning.
前記撮影支援情報は、学習に必要な総画像数に対する、既に得られた有効なサンプル画像数の割合を示す到達度を含む付記1乃至7のいずれか一項に記載のデータセット作成装置。 (Appendix 8)
8. The data set creation device according to any one of
(付記9)
前記有効なサンプル画像に、当該サンプル画像に基づいて推定された品質情報を付加して前記データセットを記憶する記憶手段を備える付記1乃至8のいずれか一項に記載のデータセット作成装置。 (Appendix 9)
9. The data set creation device according to any one ofadditional notes 1 to 8, further comprising storage means for adding quality information estimated based on the sample image to the effective sample image and storing the data set.
前記有効なサンプル画像に、当該サンプル画像に基づいて推定された品質情報を付加して前記データセットを記憶する記憶手段を備える付記1乃至8のいずれか一項に記載のデータセット作成装置。 (Appendix 9)
9. The data set creation device according to any one of
(付記10)
物体の撮影画像を取得し、
前記撮影画像から前記物体の部分の画像であるサンプル画像を生成し、前記サンプル画像のうち、所定の基準を満たす有効なサンプル画像を含む学習用のデータセットを生成し、
前記撮影画像及び前記データセットに基づいて、前記データセットの品質を推定し、
前記データセットの品質情報を含む撮影支援情報を表示装置に表示するデータセット作成方法。 (Appendix 10)
Acquire a photographed image of an object,
generating a sample image, which is an image of a portion of the object, from the captured image, generating a learning data set containing valid sample images satisfying a predetermined criterion among the sample images;
estimating the quality of the dataset based on the captured image and the dataset;
A data set creation method for displaying shooting assistance information including quality information of the data set on a display device.
物体の撮影画像を取得し、
前記撮影画像から前記物体の部分の画像であるサンプル画像を生成し、前記サンプル画像のうち、所定の基準を満たす有効なサンプル画像を含む学習用のデータセットを生成し、
前記撮影画像及び前記データセットに基づいて、前記データセットの品質を推定し、
前記データセットの品質情報を含む撮影支援情報を表示装置に表示するデータセット作成方法。 (Appendix 10)
Acquire a photographed image of an object,
generating a sample image, which is an image of a portion of the object, from the captured image, generating a learning data set containing valid sample images satisfying a predetermined criterion among the sample images;
estimating the quality of the dataset based on the captured image and the dataset;
A data set creation method for displaying shooting assistance information including quality information of the data set on a display device.
(付記11)
物体の撮影画像を取得し、
前記撮影画像から前記物体の部分の画像であるサンプル画像を生成し、前記サンプル画像のうち、所定の基準を満たす有効なサンプル画像を含む学習用のデータセットを生成し、
前記撮影画像及び前記データセットに基づいて、前記データセットの品質を推定し、
前記データセットの品質情報を含む撮影支援情報を表示装置に表示する処理をコンピュータに実行させるプログラムを記録した記録媒体。 (Appendix 11)
Acquire a photographed image of an object,
generating a sample image, which is an image of a portion of the object, from the captured image, generating a learning data set containing valid sample images satisfying a predetermined criterion among the sample images;
estimating the quality of the dataset based on the captured image and the dataset;
A recording medium recording a program for causing a computer to execute processing for displaying shooting support information including quality information of the data set on a display device.
物体の撮影画像を取得し、
前記撮影画像から前記物体の部分の画像であるサンプル画像を生成し、前記サンプル画像のうち、所定の基準を満たす有効なサンプル画像を含む学習用のデータセットを生成し、
前記撮影画像及び前記データセットに基づいて、前記データセットの品質を推定し、
前記データセットの品質情報を含む撮影支援情報を表示装置に表示する処理をコンピュータに実行させるプログラムを記録した記録媒体。 (Appendix 11)
Acquire a photographed image of an object,
generating a sample image, which is an image of a portion of the object, from the captured image, generating a learning data set containing valid sample images satisfying a predetermined criterion among the sample images;
estimating the quality of the dataset based on the captured image and the dataset;
A recording medium recording a program for causing a computer to execute processing for displaying shooting support information including quality information of the data set on a display device.
以上、実施形態及び実施例を参照して本開示を説明したが、本開示は上記実施形態及び実施例に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。
Although the present disclosure has been described above with reference to the embodiments and examples, the present disclosure is not limited to the above embodiments and examples. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present disclosure within the scope of the present disclosure.
1 データセット作成システム
12 プロセッサ
21 撮影画像入力部
22 データ処理部
23 記憶部
24、24a、24b データ品質推定部
25 表示制御部
26 重要度推定部
27 既存物体類似度推定部
100 データセット作成装置 1 dataset creation system 12 processor 21 captured image input unit 22 data processing unit 23 storage unit 24, 24a, 24b data quality estimation unit 25 display control unit 26 importance estimation unit 27 existing object similarity estimation unit 100 data set creation device
12 プロセッサ
21 撮影画像入力部
22 データ処理部
23 記憶部
24、24a、24b データ品質推定部
25 表示制御部
26 重要度推定部
27 既存物体類似度推定部
100 データセット作成装置 1 data
Claims (11)
- 物体の撮影画像を取得する取得手段と、
前記撮影画像から前記物体の部分の画像であるサンプル画像を生成し、前記サンプル画像のうち、所定の基準を満たす有効なサンプル画像を含む学習用のデータセットを生成するデータ処理手段と、
前記撮影画像及び前記データセットに基づいて、前記データセットの品質を推定するデータ品質推定手段と、
前記データセットの品質情報を含む撮影支援情報を表示装置に表示する表示制御手段と、
を備えるデータセット作成装置。 Acquisition means for acquiring a photographed image of an object;
data processing means for generating a sample image, which is an image of a portion of the object, from the captured image, and generating a learning data set including effective sample images satisfying a predetermined criterion among the sample images;
data quality estimation means for estimating the quality of the dataset based on the captured image and the dataset;
display control means for displaying shooting support information including quality information of the data set on a display device;
A dataset creation device comprising: - 前記品質情報は、前記データセットに含まれるサンプル画像の重要度を含む請求項1に記載のデータセット作成装置。 The dataset creation device according to claim 1, wherein the quality information includes importance of sample images included in the dataset.
- 前記重要度は、前記サンプル画像から検出された物体の物体らしさのスコアを含む請求項2に記載のデータセット作成装置。 The data set creation device according to claim 2, wherein the degree of importance includes a score of object-likeness of an object detected from the sample image.
- 前記重要度は、前記サンプル画像の画質に関する情報を含む請求項2又は3に記載のデータセット作成装置。 The data set creation device according to claim 2 or 3, wherein the degree of importance includes information about image quality of the sample image.
- 前記品質情報は、前記データセットに含まれるサンプル画像を既存認識モデルで認識した結果の、既存物体に対する類似度を含む請求項1に記載のデータセット作成装置。 The dataset creation device according to claim 1, wherein the quality information includes the degree of similarity to an existing object obtained by recognizing a sample image included in the dataset using an existing recognition model.
- 前記品質情報は、前記データセットに含まれるサンプル画像と既存物体との類似度を含む請求項1に記載のデータセット作成装置。 The dataset creation device according to claim 1, wherein the quality information includes a degree of similarity between the sample image included in the dataset and an existing object.
- 前記撮影支援情報は、前記撮影画像と、前記撮影画像において前記サンプル画像が切り出される位置を示す情報と、前記データセットに含まれている有効なサンプル画像と、前記サンプル画像の総数に対する有効なサンプル画像の割合である有効画像率と、を含む請求項1乃至6のいずれか一項に記載のデータセット作成装置。 The shooting support information includes the captured image, information indicating a position where the sample image is extracted from the captured image, valid sample images included in the data set, and valid samples for the total number of the sample images. 7. The data set creation device according to any one of claims 1 to 6, further comprising an effective image ratio which is a ratio of images.
- 前記撮影支援情報は、学習に必要な総画像数に対する、既に得られた有効なサンプル画像数の割合を示す到達度を含む請求項1乃至7のいずれか一項に記載のデータセット作成装置。 The data set creation device according to any one of claims 1 to 7, wherein the shooting support information includes an attainment level indicating the ratio of the number of valid sample images already obtained to the total number of images required for learning.
- 前記有効なサンプル画像に、当該サンプル画像に基づいて推定された品質情報を付加して前記データセットを記憶する記憶手段を備える請求項1乃至8のいずれか一項に記載のデータセット作成装置。 The dataset creation device according to any one of claims 1 to 8, further comprising storage means for adding quality information estimated based on the sample image to the effective sample image and storing the dataset.
- 物体の撮影画像を取得し、
前記撮影画像から前記物体の部分の画像であるサンプル画像を生成し、前記サンプル画像のうち、所定の基準を満たす有効なサンプル画像を含む学習用のデータセットを生成し、
前記撮影画像及び前記データセットに基づいて、前記データセットの品質を推定し、
前記データセットの品質情報を含む撮影支援情報を表示装置に表示するデータセット作成方法。 Acquire a photographed image of an object,
generating a sample image, which is an image of a portion of the object, from the captured image, generating a learning data set containing valid sample images satisfying a predetermined criterion among the sample images;
estimating the quality of the dataset based on the captured image and the dataset;
A data set creation method for displaying shooting assistance information including quality information of the data set on a display device. - 物体の撮影画像を取得し、
前記撮影画像から前記物体の部分の画像であるサンプル画像を生成し、前記サンプル画像のうち、所定の基準を満たす有効なサンプル画像を含む学習用のデータセットを生成し、
前記撮影画像及び前記データセットに基づいて、前記データセットの品質を推定し、
前記データセットの品質情報を含む撮影支援情報を表示装置に表示する処理をコンピュータに実行させるプログラムを記録した記録媒体。 Acquire a photographed image of an object,
generating a sample image, which is an image of a portion of the object, from the captured image, generating a learning data set containing valid sample images satisfying a predetermined criterion among the sample images;
estimating the quality of the dataset based on the captured image and the dataset;
A recording medium recording a program for causing a computer to execute processing for displaying shooting support information including quality information of the data set on a display device.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2021/038080 WO2023062784A1 (en) | 2021-10-14 | 2021-10-14 | Dataset creation device, dataset creation method, and recording medium |
JP2023553850A JPWO2023062784A5 (en) | 2021-10-14 | Data set creation device, data set creation method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2021/038080 WO2023062784A1 (en) | 2021-10-14 | 2021-10-14 | Dataset creation device, dataset creation method, and recording medium |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023062784A1 true WO2023062784A1 (en) | 2023-04-20 |
Family
ID=85987348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2021/038080 WO2023062784A1 (en) | 2021-10-14 | 2021-10-14 | Dataset creation device, dataset creation method, and recording medium |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2023062784A1 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018180646A (en) * | 2017-04-04 | 2018-11-15 | 日本電信電話株式会社 | Object candidate area estimation device, object candidate area estimation method and object candidate area estimation program |
JP2020008904A (en) * | 2018-07-02 | 2020-01-16 | パナソニックIpマネジメント株式会社 | Learning data collection apparatus, learning data collection system and learning data collection method |
JP2021033489A (en) * | 2019-08-21 | 2021-03-01 | 富士通株式会社 | Image recognition application construction support system |
-
2021
- 2021-10-14 WO PCT/JP2021/038080 patent/WO2023062784A1/en active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018180646A (en) * | 2017-04-04 | 2018-11-15 | 日本電信電話株式会社 | Object candidate area estimation device, object candidate area estimation method and object candidate area estimation program |
JP2020008904A (en) * | 2018-07-02 | 2020-01-16 | パナソニックIpマネジメント株式会社 | Learning data collection apparatus, learning data collection system and learning data collection method |
JP2021033489A (en) * | 2019-08-21 | 2021-03-01 | 富士通株式会社 | Image recognition application construction support system |
Also Published As
Publication number | Publication date |
---|---|
JPWO2023062784A1 (en) | 2023-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI709091B (en) | Image processing method and device | |
JP5081922B2 (en) | Apparatus and method for generating photorealistic image thumbnails | |
JP5210318B2 (en) | Image processing apparatus, method, and storage medium | |
WO2018219180A1 (en) | Method and apparatus for determining facial image quality, as well as electronic device and computer storage medium | |
JP5589548B2 (en) | Imaging apparatus, image processing method, and program storage medium | |
US20110142299A1 (en) | Recognition of faces using prior behavior | |
US20230215126A1 (en) | Multi-Angle Object Recognition | |
JP2008165701A (en) | Image processing device, electronics equipment, image processing method, and program | |
TWI586160B (en) | Real time object scanning using a mobile phone and cloud-based visual search engine | |
JP6914007B2 (en) | Information processing device and information processing method | |
CN108229289B (en) | Target retrieval method and device and electronic equipment | |
US9025905B2 (en) | Image processing apparatus, recording medium storing image processing program, and method of image processing | |
JP2017076288A (en) | Information processor, information processing method and program | |
JP2010140425A (en) | Image processing system | |
Obu et al. | Crop Disease Detection using Yolo V5 on Raspberry Pi | |
WO2023062784A1 (en) | Dataset creation device, dataset creation method, and recording medium | |
CN112200775A (en) | Image definition detection method and device, electronic equipment and storage medium | |
WO2020217369A1 (en) | Object feature quantity extraction device, object feature quantity extraction method, and non-transitory computer-readable medium | |
WO2023157695A1 (en) | Image processing device, image processing method, and program | |
JP7028729B2 (en) | Object tracking device, object tracking system, and object tracking method | |
JP2021111228A (en) | Learning device, learning method, and program | |
JP2017016592A (en) | Main subject detection device, main subject detection method and program | |
JP2004140693A (en) | Image processor | |
JP4795907B2 (en) | Image evaluation apparatus and method, and program | |
JP2023063807A (en) | Image processing device, image processing method, program, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21960641 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2023553850 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 21960641 Country of ref document: EP Kind code of ref document: A1 |