WO2022185473A1 - 物体検知モデル生成装置、物体検知モデル生成方法、物体検知装置、物体検知方法、及び、記録媒体 - Google Patents
物体検知モデル生成装置、物体検知モデル生成方法、物体検知装置、物体検知方法、及び、記録媒体 Download PDFInfo
- Publication number
- WO2022185473A1 WO2022185473A1 PCT/JP2021/008387 JP2021008387W WO2022185473A1 WO 2022185473 A1 WO2022185473 A1 WO 2022185473A1 JP 2021008387 W JP2021008387 W JP 2021008387W WO 2022185473 A1 WO2022185473 A1 WO 2022185473A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- object detection
- learning
- foreground
- detection model
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 178
- 238000000034 method Methods 0.000 title claims description 20
- 238000000605 extraction Methods 0.000 claims abstract description 43
- 239000000284 extract Substances 0.000 claims abstract description 24
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 230000000873 masking effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 21
- 230000015654 memory Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
Definitions
- the present disclosure relates to technology for detecting objects included in images.
- a technique for detecting an object from a photographed image of the object is known. For example, there has been proposed a system in which a customer picks up a product from a product shelf in a store by photographing it with a camera, recognizing the product from the photographed image, and paying for the product.
- photographed images of various products are used in advance to learn an object detection model for detecting products from the photographed images.
- the trained object detection model is used to identify the products actually picked up by customers at each store.
- Japanese Patent Laid-Open No. 2002-200002 describes a method of replacing a feature amount of a background region with another value in a system for learning parameters for recognizing an object in an image.
- the environment in which the images used for learning the object detection model are acquired may differ from the environment such as the store where the object detection model is actually used to detect objects. If the image capturing environment changes between when the object detection model is trained and when it is inferred, the detection accuracy of the object detection model may decrease.
- One purpose of this disclosure is to generate an object detection model that is robust against changes in the environment during learning and during inference.
- an object detection model generation device includes: a foreground extraction means for extracting a foreground in an input image and outputting a foreground mask; learning image generating means for generating and outputting a learning image based on the learning data set including the input image and the correct data and the foreground mask; an object position estimating means for estimating the position of an object in the learning image using an object detection model and outputting an estimation result; loss calculation means for calculating a loss using the estimation result and the correct data; learning means for updating parameters of the object detection model based on the loss; Prepare.
- an object detection model generation method includes: Extract the foreground in the input image, output the foreground mask, generating and outputting a learning image based on the learning data set including the input image and correct data and the foreground mask; estimating the position of the object in the learning image using the object detection model and outputting the estimation result; calculating a loss using the estimation result and the correct data; Based on the loss, parameters of the object detection model are updated.
- the recording medium comprises Extract the foreground in the input image, output the foreground mask, generating and outputting a learning image based on the learning data set including the input image and correct data and the foreground mask; estimating the position of the object in the learning image using the object detection model and outputting the estimation result; calculating a loss using the estimation result and the correct data;
- a program is recorded that causes a computer to execute a process of updating parameters of the object detection model based on the loss.
- an object detection device includes: a foreground extraction means for extracting a foreground in an input image and outputting a foreground mask; target image generation means for generating and outputting a target image based on the input image and the foreground mask; and object position estimation means for estimating the position of an object included in the target image using a trained object detection model and outputting an estimation result.
- an object detection method includes: Extract the foreground in the input image, output the foreground mask, generating and outputting a target image based on the input image and the foreground mask; Using the trained object detection model, the position of the object included in the target image is estimated, and the estimation result is output.
- the recording medium comprises Extract the foreground in the input image, output the foreground mask, generating and outputting a target image based on the input image and the foreground mask;
- a program is recorded that causes a computer to execute a process of estimating the position of an object included in the target image using the trained object detection model and outputting the estimation result.
- 1 shows the overall configuration of an object detection device according to a first embodiment
- 1 shows an example of a store environment in which an object detection device is used
- It is a block diagram which shows the hardware constitutions of an object detection apparatus.
- It is a block diagram which shows the basic functional structure of the object detection apparatus at the time of learning.
- 1 is a block diagram showing the functional configuration of an object detection device according to a first embodiment
- FIG. An example of generating a foreground mask is shown.
- An example of generating a foreground mask is shown.
- FIG. 6 is a block diagram showing the functional configuration of an object detection device according to a second embodiment
- FIG. 11 is a block diagram showing the functional configuration of an object detection device according to a third embodiment
- FIG. 11 is a block diagram showing the functional configuration of an object detection device according to a fourth embodiment
- FIG. 6 is a flowchart of learning processing for an object detection model
- FIG. 4 is a block diagram showing the functional configuration of the object detection device during inference
- FIG. 11 is a block diagram showing a functional configuration during learning of the object detection device according to the second embodiment
- 9 is a flowchart of learning processing of the object detection device of the second embodiment
- FIG. 11 is a block diagram showing the functional configuration during inference of the object detection device according to the second embodiment
- FIG. 12 is a block diagram showing the functional configuration of an object detection model generation device according to the third embodiment
- 4 is a flowchart of processing by the object detection model generation device
- FIG. 11 is a block diagram showing the functional configuration of an object detection device according to a fourth embodiment
- FIG. 4 is a flowchart of processing by the object detection device;
- FIG. 1 shows the overall configuration of an object detection device according to the first embodiment.
- the object detection device 100 acquires image data from an image database (hereinafter "database” will be referred to as "DB") 3 and performs object detection.
- database hereinafter "database” will be referred to as "DB"
- DB image database
- a learning data set is stored in the image DB3.
- images taken in the shop are stored in the image DB 3 .
- FIG. 2 shows an example of a store environment in which the object detection device 100 is used.
- a product shelf 5 is installed in the store, and various products are displayed on the product shelf 5.
- - ⁇ A customer takes out a desired product from the product shelf 5.
- - ⁇ A camera 2 is installed near the product shelf 5.
- the camera 2 is set so as to photograph the customer's hand, that is, the vicinity of the customer's hand holding the product when the customer takes out the product from the product shelf 5.
- - ⁇ Images (moving images) captured by the camera 2 are sent to the terminal device 4 installed in the store and stored in the image DB 3 connected to the terminal device 4 .
- the object detection device 100 is implemented by, for example, the terminal device 4 or another terminal device.
- FIG. 3 is a block diagram showing the hardware configuration of the object detection device 100. As shown in FIG. As illustrated, object detection device 100 includes communication unit 101 , processor 102 , memory 103 , and recording medium 104 .
- the communication unit 101 communicates with the image DB 3 by wire or wirelessly, and acquires training data sets prepared in advance, images captured by the camera 2 in the store, and the like.
- the processor 102 is a computer such as a CPU (Central Processing Unit), and controls the entire object detection device 100 by executing a program prepared in advance.
- the processor 102 may be a GPU (Graphics Processing Unit) or an FPGA (Field-Programmable Gate Array). Specifically, the processor 102 executes learning processing, which will be described later.
- the memory 103 is composed of ROM (Read Only Memory), RAM (Random Access Memory), and the like. Memory 103 is also used as a working memory during execution of various processes by processor 102 .
- the recording medium 104 is a non-volatile, non-temporary recording medium such as a disk-shaped recording medium or semiconductor memory, and is configured to be detachable from the object detection device 100 .
- the recording medium 104 records various programs executed by the processor 102 .
- a program recorded on the recording medium 104 is loaded into the memory 103 and executed by the processor 102 .
- FIG. 4 shows a basic functional configuration of the object detection device 100 during learning.
- the object detection device 100 includes a learning image generator 10 , a foreground extractor 20 , an object position estimator 30 and a loss calculator 40 .
- An input image included in the learning data set is input to the learning image generation unit 10 and the foreground extraction unit 20 .
- the learning data set is prepared in advance for learning of the object detection device 100, and includes input images and correct data.
- the input image is a moving image including an object to be detected, for example, a moving image of a person picking up a product.
- an image obtained by photographing a product to be detected being rotated in front of a camera, or the like is used.
- Correct data includes the position of a rectangle indicating an object included in each input image (hereinafter referred to as "rectangular position") and the class of the object.
- the position of the rectangle is indicated by coordinates or the like indicating the position of the rectangle in the input image.
- the object class is a code or the like indicating what the object is.
- the foreground extraction unit 20 extracts only moving objects as the foreground from the input images included in the learning data set.
- the foreground extraction unit 20 compares a plurality of frame images that make up the input image using, for example, a background difference model, extracts only pixels with large changes and their surroundings as the foreground, and extracts the foreground mask 1ch image (hereinafter referred to as the mask”) and outputs it to the learning image generation unit 10 .
- a foreground mask is an image that indicates, for example, a foreground area and a background area of an image in binary. An example of the background subtraction method is described in the following document, which is incorporated by reference.
- the learning image generation unit 10 generates a learning image by extracting the foreground of the input image using the input image included in the learning data set and the foreground mask input from the foreground extraction unit 20, and calculates the object position. Output to the estimation unit 30 .
- a learning image is an image used for learning by the object position estimation unit 30 . Details of the learning image generation unit 10 will be described later.
- the object position estimation unit 30 uses an object detection model to detect objects included in the input image. Specifically, the object position estimation unit 30 uses the object detection model to estimate the rectangular position of the object included in the learning image input from the learning image generation unit 10 and the class of the object.
- the object detection model is configured by a neural network using, for example, CNN (Convolutional Neural Network).
- the object position estimator 30 outputs the estimated rectangular position and class to the loss calculator 40 .
- the loss calculation unit 40 calculates the loss based on the estimation result by the object position estimation unit 30.
- the loss calculation unit 40 calculates the loss using the correct data included in the learning data set and the estimation result by the object position estimation unit 30.
- FIG. Specifically, the loss calculator 40 calculates the loss using the rectangular position and class estimated by the object position estimator 30 and the rectangular position and class of the object included in the correct data.
- the loss calculator 40 updates the parameters of the object detection model of the object position estimator 30 so that the calculated loss becomes smaller. In this way, the parameters of the object detection model are updated until the loss value converges to a predetermined value or less, and learning of the object detection model ends when the loss value converges.
- An object detection model at the time when learning is completed is obtained as a learned object detection model.
- the object detection apparatus 100 learns the object detection model using the learning image obtained by extracting the foreground from the input image. Even in this case, it is possible to prevent deterioration of object detection accuracy.
- the learning image generation unit 10 is an example of the learning image generation means
- the foreground extraction unit 20 is an example of the foreground extraction means
- the object position estimation unit 30 is an example of the object position estimation means
- the loss calculation unit 40 is an example of loss calculation means and learning means.
- FIG. 5 is a block diagram showing the functional configuration of the object detection device 100a according to the first embodiment.
- the learning image generation unit 10 includes a background mask processing unit 11 and masks the background of the input image to generate the learning image.
- the foreground extraction unit 20 extracts the foreground from the RGB 3-channel (ch) image that is the input image included in the learning data set, generates a foreground mask, and outputs it to the learning image generation unit 10 .
- FIG. 6 shows an example of foreground mask generation.
- FIG. 6A is an example of a frame image containing an input image. In this frame image, the hand of a person holding an object (PET bottle drink) is shown in the center. A product shelf 5 is shown on the right side of the object, and another product shelf 8 is shown behind the person's arm and the object.
- the foreground extracting unit 20 extracts, from a plurality of frame images of the input image, an area with large motion, for example, an area of a person's arm and an object as shown in FIG. 6B, as the foreground. Then, as illustrated in FIG.
- the foreground extraction unit 20 generates a foreground mask that distinguishes between the foreground and the background, and outputs the foreground mask to the learning image generation unit 10 .
- the foreground mask is an image in which the foreground area is indicated by "1" (white) and the background area is indicated by "0" (black).
- the background mask processing unit 11 of the learning image generation unit 10 uses the foreground mask to generate a background mask image (moving image) in which the background of the RGB 3ch image is masked, and outputs it to the object position estimation unit 30 .
- the RGB3ch image is a moving image including a foreground and a background as shown in FIG. 6A, for example.
- the background mask processing unit 11 masks the background of the RGB 3ch image using the foreground mask shown in FIG. 7A to generate a background mask image (moving image) as shown in FIG. 7B.
- the learning image generation unit 10 generates a learning image by extracting the foreground of the input image, and outputs the learning image to the object position estimation unit 30 . Learning of the object detection model that constitutes the object position estimation unit 30 is performed using this learning image.
- FIG. 8 is a block diagram showing the functional configuration of an object detection device 100b according to the second embodiment.
- the learning image generation unit 10 includes a background mask processing unit 11 and a background synthesizing unit 12 . Except for the background synthesizing unit 12, the object detection device 100b of the second embodiment is the same as the object detection device 100a of the first embodiment.
- the background synthesis unit 12 replaces the background of the background mask image generated by the background mask processing unit 11 with a background different from the original image, that is, the background of the RGB 3ch image input to the background mask processing unit 11. Specifically, another background image to be synthesized is prepared in advance, and the background synthesizing unit 12 synthesizes the different background image with the background area of the background mask image output by the background mask processing unit 11 to obtain the background image. generates a modified image (hereinafter referred to as a “background composite image”). The background synthesizing section 12 then outputs the background synthetic image to the object position estimating section 30 . In this way, learning of the object detection model constituting the object position estimation unit 30 is performed using the background composite image as the learning image.
- the second embodiment by replacing the background of the background mask image with various images, it is possible to generate learning images in which the foreground is left unchanged and the background is variously changed. This makes it possible to increase the number of learning images used for learning the object detection model. In addition, it is possible to learn an object detection model by generating learning images with various images as a background.
- FIG. 9 is a block diagram showing the functional configuration of an object detection device 100c according to the third embodiment.
- the learning image generation unit 10 includes a foreground image extraction unit 13 and a combination processing unit 14 .
- the object position estimation unit 30 also includes a rectangle/class score inference unit 31 .
- FIG. 9 shows the rectangle/class score inferring unit 31 for the object position estimating unit 30, the configuration of the object position estimating unit 30 is basically the same as in the first and second embodiments.
- the foreground extractor 20 and the loss calculator 40 are the same as in the first and second embodiments.
- the foreground image extraction unit 13 of the learning image generation unit 10 uses the foreground mask input from the foreground extraction unit 20 to generate a 3ch extracted foreground image (moving image) by extracting the foreground region from the RGB 3ch image, and performs combining processing. Output to the unit 14 .
- the extracted foreground image is an image as shown in FIG. 6B, for example.
- the combining processing unit 14 receives the RGB 3ch image and the 3ch extracted foreground image generated by the foreground image extracting unit 13, combines them, and generates an RGBf6ch image (“f” means foreground). is output to the object position estimation unit 30 as a learning image. That is, in the third embodiment, the learning image is an image including the original RGB 3ch image and the 3ch extracted foreground image obtained by extracting the foreground from them.
- the object position estimation unit 30 estimates the rectangular position and class of the object in the learning image, and outputs them to the loss calculation unit 40 as estimation results.
- the rectangle/class score inference unit 31 of the object position estimation unit 30 uses the object detection model to calculate the rectangle position and class score of the object in the learning image, and outputs them to the loss calculation unit 40 .
- An object detection model corresponding to the rectangle/class score inference unit 31 is configured by a neural network or the like as described above.
- the object position estimation unit 30 is configured using a neural network corresponding to 3-channel input images.
- the rectangle/class score inference unit 31 is configured by a neural network in which the convolution parameters and the like are changed so as to correspond to the 6ch input image. .
- the loss calculation unit 40 compares the estimation result input from the object position estimation unit 30, that is, the rectangular position and the class score, with the correct data included in the learning data set to calculate the loss. Update the parameters of the object detection model to be smaller. Thus, the object detection model is learned using the learning images.
- the foreground mask extracted by the foreground extractor 20 is used to mask the background of the original RGB 3ch image. may incorrectly mask part of the foreground of the original RGB image.
- the learning image includes the original RGB 3ch image and the 3ch extracted foreground image, and the object detection model detects an object using these 6ch images. That is, since the object detection model also uses the original RGB 3ch image to perform object detection, even if there is an error in the foreground extraction by the foreground extraction unit 20, the effect of the error can be reduced.
- the combination processing unit 14 combines the RGB 3ch image and the 3ch extracted foreground image to generate the RGBf6ch image as the learning image.
- the foreground mask output by the foreground extraction unit 20 is directly input to the combination processing unit 14, and the combination processing unit 14 combines the RGB 3ch image and the foreground mask into a 4ch image. Images may be output as training images. In this case, the foreground image extraction unit 13 becomes unnecessary.
- the foreground extraction unit 20 may generate a 1ch attention area image instead of the foreground mask and input it to the combination processing unit 14 .
- the attention area image is an image in which the foreground and the background are distinguished by multiple bits (grayscale) instead of by 1 bit like the mask image.
- the combination processing unit 14 outputs a 4ch image obtained by combining the RGB 3ch image and the 1ch attention area image as a learning image.
- FIG. 10 is a block diagram showing the functional configuration of an object detection device 100d according to the fourth embodiment.
- the loss calculator 40 also includes individual loss calculators 41 and 42 and a loss combiner 43 .
- the RGB 3ch image included in the learning data set and the 3ch extracted foreground image generated by the foreground image extracting unit 13 are individually input to the object position estimating unit 30 as learning images.
- the rectangle/class score inference unit 31 detects an object from the RGB 3ch image, and outputs the rectangle position and class score to the individual loss calculation unit 41 as estimation results.
- the rectangle/class score inference unit 32 detects an object from the 3ch extracted foreground image, and outputs the rectangle position and class score to the individual loss calculation unit 42 as an estimation result.
- the individual loss calculation unit 41 calculates a loss based on the estimation result output by the rectangle/class score inference unit 31 and outputs the loss to the loss combining unit 43 .
- the individual loss calculator 42 also calculates a loss based on the estimation result output from the rectangle/class score inference unit 32 and outputs the loss to the loss combiner 43 .
- the loss combiner 43 combines the losses calculated by the individual loss calculators 41 and 42, and based on the obtained loss, the object detection model in the object position estimator 30, specifically the rectangle/class score inferrer 31 and 32 parameters are updated. Note that the loss combiner 43 may combine the losses calculated by the individual loss calculators 41 and 42 using weights set as hyperparameters. Thus, the object detection model in the object position estimation unit 30 is learned based on the learning image.
- FIG. 11 is a flowchart of learning processing for an object detection model. This processing is realized by executing a program prepared in advance by the processor 102 shown in FIG. 3 and operating as each element shown in FIG.
- the input image of the learning data set is input to the foreground extraction unit 20 and the learning image generation unit 10 (step S11).
- the foreground extraction unit 20 extracts the foreground from the input image using a background difference model prepared in advance, and outputs the foreground mask to the learning image generation unit 10 (step S12).
- the learning image generation unit 10 generates a learning image using the input image and the foreground mask, and outputs the learning image to the object position estimation unit 30 (step S13). Note that the learning image in this case is generated according to any one of the first to fourth embodiments described above.
- the object position estimation unit 30 detects an object from the learning image using the object detection model, and outputs the estimation result including the object's rectangular position and class score to the loss calculation unit 40 (step S14). Specifically, the object position estimating unit 30 outputs the position of the rectangle indicating the object included in the learning image and the class score as the estimation result.
- the loss calculation unit 40 calculates the loss using the input estimation result and the correct data included in the learning data set (step S15). Then, the loss calculator 40 determines whether or not the loss has converged to a predetermined value or less (step S16). If the loss has not converged (step S16: No), the loss calculator 40 updates the parameters of the object detection model that configures the object position estimator 30 so that the loss becomes smaller (step S17). Then, the process returns to step S11. On the other hand, if the loss converges (step S16: Yes), the process ends.
- FIG. 12 is a block diagram showing the functional configuration of the object detection device 110 during inference.
- the inference object detection device 110 includes a target image generation unit 10x, a foreground extraction unit 20, and an object position estimation unit 30x.
- an image (moving image) targeted for object detection (hereinafter referred to as a "target image”) is input to the target image generation unit 10x and the foreground extraction unit 20.
- the foreground extraction unit 20 has the same configuration as that used during learning, extracts the foreground from the target image, and outputs the foreground mask to the target image generation unit 10x.
- the target image generation unit 10x basically has the same configuration as the learning image generation unit 10 at the time of learning. Specifically, the target image generation unit 10x has the same configuration as the example applied to the learning image generation unit 10 at the time of learning among the first to fourth examples described above.
- the target image generation unit 10x uses the target image and the foreground mask to generate a target image in the same manner as the learning image generation unit 10, and outputs the target image to the object position estimation unit 30x.
- the object position estimation unit 30x uses the learned object detection model generated by the learning process described above to detect an object from the target image. Specifically, the object position estimation unit 30 estimates the rectangular position and class score of the object from the input target image, and outputs the estimation result.
- the target image generation unit 10x is an example of target image generation means
- the foreground extraction unit 20 is an example of foreground extraction means
- the object position estimation unit 30x is an example of object position estimation means.
- a learning image is generated using a foreground mask extracted from an input image of a learning data set, and an object detection model is learned. It is possible to generate an object detection model that is not easily affected by changes in the environment and the appearance of new objects. Therefore, by using the object detection model at the time of inference, robust object detection against environmental changes is possible.
- the object detection device of the second embodiment eliminates the influence of human hands included in images.
- the hardware configuration of the object detection device according to the second embodiment is the same as that of the first embodiment shown in FIG.
- FIG. 13 is a block diagram showing the functional configuration during learning of the object detection device according to the second embodiment.
- the object detection device 200 of the second embodiment is obtained by adding a hand region estimation unit 50 to the object detection device 100 of the first embodiment shown in FIG.
- the learning image generation unit 10, the foreground extraction unit 20, the object position estimation unit 30, and the loss calculation unit 40 are the same as those of the object detection device 100 of the first embodiment.
- the input image of the learning data set is input to the hand region estimating unit 50 in the same way as the foreground extracting unit 20 and the learning image generating unit 10 .
- the hand region estimation unit 50 estimates a hand region, that is, a human hand region, in an input image using a hand region estimation model prepared in advance, and generates an image showing the hand region (hereinafter referred to as a “hand region image”). ) is output to the learning image generation unit 10 .
- the hand region estimating unit 50 is an example of hand region estimating means.
- the learning image generation unit 10 generates a learning image using the input image of the learning data set, the foreground mask input from the foreground extraction unit 20, and the hand region image input from the hand region estimation unit 50. Generate. Specifically, the learning image generation unit 10 performs the same processing as that performed on the background indicated by the foreground mask on the hand region indicated by the hand region image. As a result, the learning image generating unit 10 generates a learning image from which the background and the hand region are removed from the input image.
- any one of the first to fourth examples of the first embodiment can be applied to the learning image generation unit 10 .
- the learning image generation unit 10 When the first embodiment is applied, the learning image generation unit 10 generates, as a learning image, an image obtained by masking the background and hand region of the input image.
- the learning image generation unit 10 When the second embodiment is applied, the learning image generation unit 10 generates, as a learning image, an image obtained by replacing the background and hand region of the input image with a different background.
- the learning image generation unit 10 generates an RGBf6ch image obtained by combining an RGB 3ch image included in the learning data set and a 3ch image excluding the background and the hand region from the RGB 3ch image for learning. Generate as an image.
- the fourth embodiment uses the RGB 3ch image included in the learning data set and the 3ch image obtained by removing the background and hand region from the RGB 3ch image as learning images. Output.
- the hand region estimating unit 50 estimates the hand region in the input image and excludes it from the input image, it may also estimate and exclude a region other than the hand that can be extracted as the foreground. For example, if the input image includes areas such as arms and legs, in addition to the hand areas, the areas such as arms and legs may be estimated using a human skeleton estimation model, etc., and removed from the input image. . Alternatively, a region estimation model for estimating sleeves of clothes may be learned in advance, and regions such as sleeves of clothes may be estimated from an input image and excluded.
- FIG. 14 is a flowchart of learning processing of the object detection device 200 . This processing is realized by executing a program prepared in advance by the processor 102 shown in FIG. 3 and operating as each element shown in FIG.
- the input image of the learning data set is input to the foreground extraction unit 20, the learning image generation unit 10, and the hand region estimation unit 50 (step S21).
- the foreground extraction unit 20 extracts the foreground from the input image using a background difference model prepared in advance, and outputs the foreground mask to the learning image generation unit 10 (step S22).
- the hand region estimation unit 50 estimates the hand region in the input image, and outputs the hand region image to the learning image generation unit 10 (step S23).
- the learning image generation unit 10 generates a learning image using the input image, the foreground mask, and the hand region image, and outputs it to the object position estimation unit 30 (step S24).
- the processing of steps S25 to S28 is the same as steps S14 to S17 of the learning processing of the first embodiment shown in FIG. 11, so description thereof will be omitted.
- FIG. 15 is a block diagram showing the functional configuration of the object detection device 210 during inference.
- the inference object detection device 210 includes a target image generation unit 10x, a foreground extraction unit 20, an object position estimation unit 30x, and a hand region estimation unit 50.
- FIG. 10x target image generation unit 10x
- a foreground extraction unit 20 foreground extraction unit 20
- an object position estimation unit 30x foreground extraction unit 20
- a hand region estimation unit 50 a hand region estimation unit 50.
- the target image (moving image) that is the target of object detection is input to the target image generation unit 10x, the foreground extraction unit 20, and the hand region estimation unit 50.
- the foreground extraction unit 20 has the same configuration as that used during learning, extracts the foreground from the target image, and outputs the foreground mask to the target image generation unit 10x.
- the hand region estimating unit 50 has the same configuration as in learning, and estimates the hand region of the target image.
- the target image generation unit 10x basically has the same configuration as the learning image generation unit 10 at the time of learning.
- the target image generation unit 10x uses the target image, the foreground mask, and the hand region image to generate a target image in the same manner as the learning image generation unit 10, and outputs the target image to the object position estimation unit 30x.
- the object position estimation unit 30x uses the learned object detection model generated by the learning process described above to detect an object from the target image. Specifically, the object position estimation unit 30 estimates the rectangular position and class score of the object from the input target image, and outputs the estimation result.
- the object detection apparatus of the second embodiment estimates the hand region from the input image of the learning data set, generates the learning image excluding the hand region, and learns the object detection model. This prevents the hand holding the object from being erroneously detected as the foreground.
- FIG. 16 is a block diagram showing the functional configuration of an object detection model generation device according to the third embodiment.
- the object detection model generation device 70 includes foreground extraction means 71 , learning image generation means 72 , object position estimation means 73 , loss calculation means 74 , and learning means 75 .
- FIG. 17 is a flowchart of processing by the object detection model generation device 70.
- the foreground extraction means 71 extracts the foreground in the input image and outputs a foreground mask (step S41).
- the learning image generating means 72 generates and outputs a learning image based on the learning data set including the input image and the correct answer data, and the foreground mask (step S42).
- the object position estimating means 73 uses the object detection model to estimate the position of the object in the learning image and outputs the estimation result (step S43).
- the loss calculation means 74 calculates the loss using the estimation result and the correct data (step S44).
- the learning means 75 updates the parameters of the object detection model based on the loss (step S45).
- the object detection model generation device 70 of the third embodiment it is possible to generate an object detection model that is less likely to be affected by changes in the imaging environment of images, the appearance of new objects, and the like.
- FIG. 18 is a block diagram showing the functional configuration of an object detection device according to the fourth embodiment.
- the object detection device 80 includes foreground extraction means 81 , target image generation means 82 , and object position estimation means 83 .
- FIG. 19 is a flowchart of processing by the object detection device 80.
- the foreground extraction means 81 extracts the foreground in the input image and outputs a foreground mask (step S51).
- the target image generating means 82 generates and outputs a target image based on the input image and the foreground mask (step S52).
- the object position estimating means 83 uses the learned object detection model to estimate the position of the object included in the target image and outputs the estimation result (step S53).
- the object detection device 80 of the fourth embodiment robust object detection is possible against environmental changes and the like.
- An object detection model generation device comprising:
- the learning image generating means outputs the input image and a foreground extracted image obtained by extracting the foreground from the input image using the foreground mask as the learning image
- the object position estimating means estimates the position of the object using the input image and outputs a first estimation result, and estimates the position of the object using the extracted foreground image and outputs a second estimation result. death
- the loss calculation means calculates a first loss using the first estimation result and the correct data, calculates a second loss using the second estimation result and the correct data, and calculates a second loss using the second estimation result and the correct data. 2.
- the object detection model generation device wherein the loss is calculated by combining the loss of 1 and the second loss.
- (Appendix 9) Extract the foreground in the input image, output the foreground mask, generating and outputting a learning image based on the learning data set including the input image and correct data and the foreground mask; estimating the position of the object in the learning image using the object detection model and outputting the estimation result; calculating a loss using the estimation result and the correct data;
- a recording medium recording a program for causing a computer to execute a process of updating parameters of the object detection model based on the loss.
- An object detection device comprising:
- (Appendix 11) hand region estimation means for estimating a hand region included in the input image; 11.
- a recording medium recording a program for causing a computer to execute a process of estimating the position of an object included in the target image using a trained object detection model and outputting the estimation result.
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
物体検知モデル生成装置において、前景抽出手段は、入力画像中の前景を抽出し、前景マスクを出力する。学習用画像生成手段は、入力画像及び正解データを含む学習用データセットと、前景マスクとに基づいて、学習用画像を生成して出力する。物体位置推定手段は、物体検知モデルを用いて、学習用画像中の物体の位置を推定して推定結果を出力する。損失計算手段は、推定結果と、正解データとを用いて損失を計算する。学習手段は、損失に基づいて、物体検知モデルのパラメータを更新する。
Description
本開示は、画像に含まれる物体を検知する技術に関する。
物体の撮影画像から物体を検知する技術が知られている。例えば、店舗において顧客が商品棚から商品を取り出す様子をカメラで撮影し、撮影画像からその商品を認識して決済を行うシステムが提案されている。このようなシステムでは、事前に各種の商品の撮影画像を用いて、撮影画像から商品を検知する物体検知モデルを学習する。そして、実際の運用時には、学習済みの物体検知モデルを用いて、各店舗で実際に顧客が手にした商品を特定する。なお、特許文献1は、画像中の物体を認識するためのパラメータを学習するシステムにおいて、背景領域の特徴量を別の値で置換する手法を記載している。
上記のシステムでは、物体検知モデルの学習に使用する画像を取得する環境と、実際に物体検知モデルを使用して物体の検知を行う店舗などの環境とが異なることがある。物体検知モデルの学習時と推論時で画像の撮影環境が変わると、物体検知モデルによる検知精度が低下する可能性がある。
本開示の1つの目的は、学習時と推論時の環境の変化などに対して頑健な物体検知モデルを生成することにある。
本開示の一つの観点では、物体検知モデル生成装置は、
入力画像中の前景を抽出し、前景マスクを出力する前景抽出手段と、
前記入力画像及び正解データを含む学習用データセットと、前記前景マスクとに基づいて、学習用画像を生成して出力する学習用画像生成手段と、
物体検知モデルを用いて、前記学習用画像中の物体の位置を推定して推定結果を出力する物体位置推定手段と、
前記推定結果と、前記正解データとを用いて損失を計算する損失計算手段と、
前記損失に基づいて、前記物体検知モデルのパラメータを更新する学習手段と、
を備える。
入力画像中の前景を抽出し、前景マスクを出力する前景抽出手段と、
前記入力画像及び正解データを含む学習用データセットと、前記前景マスクとに基づいて、学習用画像を生成して出力する学習用画像生成手段と、
物体検知モデルを用いて、前記学習用画像中の物体の位置を推定して推定結果を出力する物体位置推定手段と、
前記推定結果と、前記正解データとを用いて損失を計算する損失計算手段と、
前記損失に基づいて、前記物体検知モデルのパラメータを更新する学習手段と、
を備える。
本開示の他の観点では、物体検知モデル生成方法は、
入力画像中の前景を抽出し、前景マスクを出力し、
前記入力画像及び正解データを含む学習用データセットと、前記前景マスクとに基づいて、学習用画像を生成して出力し、
物体検知モデルを用いて、前記学習用画像中の物体の位置を推定して推定結果を出力し、
前記推定結果と、前記正解データとを用いて損失を計算し、
前記損失に基づいて、前記物体検知モデルのパラメータを更新する。
入力画像中の前景を抽出し、前景マスクを出力し、
前記入力画像及び正解データを含む学習用データセットと、前記前景マスクとに基づいて、学習用画像を生成して出力し、
物体検知モデルを用いて、前記学習用画像中の物体の位置を推定して推定結果を出力し、
前記推定結果と、前記正解データとを用いて損失を計算し、
前記損失に基づいて、前記物体検知モデルのパラメータを更新する。
本開示のさらに他の観点では、記録媒体は、
入力画像中の前景を抽出し、前景マスクを出力し、
前記入力画像及び正解データを含む学習用データセットと、前記前景マスクとに基づいて、学習用画像を生成して出力し、
物体検知モデルを用いて、前記学習用画像中の物体の位置を推定して推定結果を出力し、
前記推定結果と、前記正解データとを用いて損失を計算し、
前記損失に基づいて、前記物体検知モデルのパラメータを更新する処理をコンピュータに実行させるプログラムを記録する。
入力画像中の前景を抽出し、前景マスクを出力し、
前記入力画像及び正解データを含む学習用データセットと、前記前景マスクとに基づいて、学習用画像を生成して出力し、
物体検知モデルを用いて、前記学習用画像中の物体の位置を推定して推定結果を出力し、
前記推定結果と、前記正解データとを用いて損失を計算し、
前記損失に基づいて、前記物体検知モデルのパラメータを更新する処理をコンピュータに実行させるプログラムを記録する。
本開示のさらに他の観点では、物体検知装置は、
入力画像中の前景を抽出し、前景マスクを出力する前景抽出手段と、
前記入力画像と、前記前景マスクとに基づいて対象画像を生成して出力する対象画像生成手段と、
学習済みの物体検知モデルを用いて、前記対象画像に含まれる物体の位置を推定して推定結果を出力する物体位置推定手段と、を備える。
入力画像中の前景を抽出し、前景マスクを出力する前景抽出手段と、
前記入力画像と、前記前景マスクとに基づいて対象画像を生成して出力する対象画像生成手段と、
学習済みの物体検知モデルを用いて、前記対象画像に含まれる物体の位置を推定して推定結果を出力する物体位置推定手段と、を備える。
本開示のさらに他の観点では、物体検知方法は、
入力画像中の前景を抽出し、前景マスクを出力し、
前記入力画像と、前記前景マスクとに基づいて対象画像を生成して出力し、
学習済みの物体検知モデルを用いて、前記対象画像に含まれる物体の位置を推定して推定結果を出力する。
入力画像中の前景を抽出し、前景マスクを出力し、
前記入力画像と、前記前景マスクとに基づいて対象画像を生成して出力し、
学習済みの物体検知モデルを用いて、前記対象画像に含まれる物体の位置を推定して推定結果を出力する。
本開示のさらに他の観点では、記録媒体は、
入力画像中の前景を抽出し、前景マスクを出力し、
前記入力画像と、前記前景マスクとに基づいて対象画像を生成して出力し、
学習済みの物体検知モデルを用いて、前記対象画像に含まれる物体の位置を推定して推定結果を出力する処理をコンピュータに実行させるプログラムを記録する。
入力画像中の前景を抽出し、前景マスクを出力し、
前記入力画像と、前記前景マスクとに基づいて対象画像を生成して出力し、
学習済みの物体検知モデルを用いて、前記対象画像に含まれる物体の位置を推定して推定結果を出力する処理をコンピュータに実行させるプログラムを記録する。
本開示によれば、学習時と推論時の環境の変化などに対して頑健な物体検知モデルを生成することが可能となる。
以下、図面を参照して、本開示の好適な実施形態について説明する。
<第1実施形態>
[全体構成]
図1は、第1実施形態に係る物体検知装置の全体構成を示す。物体検知装置100は、画像データベース(以下、「データベース」を「DB」と記す。)3から画像データを取得し、物体検知を行う。物体検知装置100の学習時には、画像DB3に学習用データセットが記憶される。一方、物体検知装置100を実際の店舗などに設置して使用する際、即ち推論時には、画像DB3に店舗で撮影された画像が記憶される。
[全体構成]
図1は、第1実施形態に係る物体検知装置の全体構成を示す。物体検知装置100は、画像データベース(以下、「データベース」を「DB」と記す。)3から画像データを取得し、物体検知を行う。物体検知装置100の学習時には、画像DB3に学習用データセットが記憶される。一方、物体検知装置100を実際の店舗などに設置して使用する際、即ち推論時には、画像DB3に店舗で撮影された画像が記憶される。
[店舗環境の例]
図2は、物体検知装置100が使用される店舗環境の例を示す。店舗には商品棚5が設置されており、商品棚5には各種の商品が陳列されている。顧客は、商品棚5から希望する商品を取り出す。商品棚5の近くにはカメラ2が設置されている。カメラ2は、顧客が商品棚5から商品を取り出す際に、顧客の手元、即ち商品を持っている顧客の手の付近を撮影できるように設定されている。カメラ2が撮影した画像(動画)は、店舗に設置された端末装置4に送られ、端末装置4に接続された画像DB3に記憶される。物体検知装置100は、例えば端末装置4又は別の端末装置により実現される。
図2は、物体検知装置100が使用される店舗環境の例を示す。店舗には商品棚5が設置されており、商品棚5には各種の商品が陳列されている。顧客は、商品棚5から希望する商品を取り出す。商品棚5の近くにはカメラ2が設置されている。カメラ2は、顧客が商品棚5から商品を取り出す際に、顧客の手元、即ち商品を持っている顧客の手の付近を撮影できるように設定されている。カメラ2が撮影した画像(動画)は、店舗に設置された端末装置4に送られ、端末装置4に接続された画像DB3に記憶される。物体検知装置100は、例えば端末装置4又は別の端末装置により実現される。
[ハードウェア構成]
図3は、物体検知装置100のハードウェア構成を示すブロック図である。図示のように、物体検知装置100は、通信部101と、プロセッサ102と、メモリ103と、記録媒体104とを備える。
図3は、物体検知装置100のハードウェア構成を示すブロック図である。図示のように、物体検知装置100は、通信部101と、プロセッサ102と、メモリ103と、記録媒体104とを備える。
通信部101は、有線又は無線により画像DB3と通信し、予め用意された学習用データセットや、店舗のカメラ2で撮影された画像などを取得する。プロセッサ102は、CPU(Central Processing Unit)などのコンピュータであり、予め用意されたプログラムを実行することにより、物体検知装置100の全体を制御する。なお、プロセッサ102は、GPU(Graphics Processing Unit)またはFPGA(Field-Programmable Gate Array)であってもよい。具体的に、プロセッサ102は、後述する学習処理を実行する。
メモリ103は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ103は、プロセッサ102による各種の処理の実行中に作業メモリとしても使用される。
記録媒体104は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、物体検知装置100に対して着脱可能に構成される。記録媒体104は、プロセッサ102が実行する各種のプログラムを記録している。物体検知装置100が各種の処理を実行する際には、記録媒体104に記録されているプログラムがメモリ103にロードされ、プロセッサ102により実行される。
[物体検知装置の学習]
次に、物体検知装置100の学習について説明する。
次に、物体検知装置100の学習について説明する。
(学習時の基本構成)
図4は、物体検知装置100の学習時の基本的な機能構成を示す。物体検知装置100は、学習用画像生成部10と、前景抽出部20と、物体位置推定部30と、損失計算部40とを備える。学習用画像生成部10及び前景抽出部20には、学習用データセットに含まれる入力画像が入力される。
図4は、物体検知装置100の学習時の基本的な機能構成を示す。物体検知装置100は、学習用画像生成部10と、前景抽出部20と、物体位置推定部30と、損失計算部40とを備える。学習用画像生成部10及び前景抽出部20には、学習用データセットに含まれる入力画像が入力される。
学習用データセットは、物体検知装置100の学習用に予め用意されたものであり、入力画像と正解データとを含む。入力画像は、検知の対象となる物体を含む動画であり、例えば人が商品を手に取った状態の手元を撮影した動画である。好適には、入力画像として、検知対象となる商品をカメラの前で回転させる様子を撮影した画像などが使用される。正解データは、各入力画像に含まれる物体を示す矩形の位置(以下、「矩形位置」と呼ぶ。)と、その物体のクラスとを含む。矩形位置は、入力画像における矩形の位置を示す座標などにより示される。また、物体のクラスは、その物体が何であるかを示すコードなどである。
前景抽出部20は、学習用データセットに含まれる入力画像から、動いている物体のみを前景として抽出する。前景抽出部20は、例えば背景差分モデルを用いて、入力画像を構成する複数のフレーム画像を比較し、変化の大きい画素及びその周辺のみを前景として抽出し、前景マスク1ch画像(以下、「前景マスク」と呼ぶ。)を生成して学習用画像生成部10へ出力する。前景マスクは、例えば画像の前景領域と背景領域を2値で示す画像である。なお、背景差分手法の一例が下記の文献に記載されており、この文献を参照により援用する。
Z. Zivkovic, "Improved adaptive Gaussian mixture model for background subtraction," Proceedings of the 17th International Conference on Pattern Recognition, 2004. ICPR 2004., Cambridge, UK, 2004, pp. 28-31 Vol.2, doi: 10.1109/ICPR.2004.1333992.
学習用画像生成部10は、学習用データセットに含まれる入力画像と、前景抽出部20から入力された前景マスクとを用いて、入力画像の前景を抽出した学習用画像を生成し、物体位置推定部30へ出力する。学習用画像は、物体位置推定部30の学習に使用される画像である。なお、学習用画像生成部10の詳細については後述する。
物体位置推定部30は、物体検知モデルを用いて、入力された画像に含まれる物体を検知する。具体的に、物体位置推定部30は、物体検知モデルを用いて、学習用画像生成部10から入力された学習用画像に含まれる物体の矩形位置と、その物体のクラスとを推定する。物体検知モデルは、例えばCNN(Convolutional Neural Network)などを用いたニューラルネットワークにより構成される。物体位置推定部30は、推定した矩形位置及びクラスを損失計算部40へ出力する。
損失計算部40は、物体位置推定部30による推定結果に基づいて損失を計算する。損失計算部40は、学習用データセットに含まれる正解データと、物体位置推定部30による推定結果とを用いて損失を計算する。具体的に、損失計算部40は、物体位置推定部30が推定した矩形位置及びクラスと、正解データに含まれる物体の矩形位置及びクラスとを用いて損失を計算する。そして、損失計算部40は、計算された損失が小さくなるように、物体位置推定部30の物体検知モデルのパラメータを更新する。こうして、損失の値が所定値以下に収束するまで物体検知モデルのパラメータが更新され、損失の値が収束した時点で物体検知モデルの学習が終了する。学習が終了した時点における物体検知モデルが、学習済みの物体検知モデルとして得られる。
このように、物体検知装置100は、入力画像から前景を抽出した学習用画像を用いて物体検知モデルの学習を行うので、学習時と推論時で撮影環境が変化して背景が変わったような場合でも、物体検知精度の低下を防止することができる。
上記の構成において、学習用画像生成部10は学習用画像生成手段の一例であり、前景抽出部20は前景抽出手段の一例であり、物体位置推定部30は物体位置推定手段の一例であり、損失計算部40は損失計算手段及び学習手段の一例である。
(第1実施例)
図5は、第1実施例に係る物体検知装置100aの機能構成を示すブロック図である。第1実施例では、学習用画像生成部10は、背景マスク処理部11を備え、入力画像の背景をマスクして学習用画像を生成する。
図5は、第1実施例に係る物体検知装置100aの機能構成を示すブロック図である。第1実施例では、学習用画像生成部10は、背景マスク処理部11を備え、入力画像の背景をマスクして学習用画像を生成する。
まず、前景抽出部20は、学習用データセットに含まれる入力画像であるRGB3チャンネル(ch)画像から前景を抽出し、前景マスクを生成して学習用画像生成部10へ出力する。
図6は、前景マスクの生成例を示す。図6(A)は、入力画像のあるフレーム画像の例である。このフレーム画像では、中央に物体(ペットボトル飲料)を持った人の手元が映っている。また、物体の右側には商品棚5が映っており、人の腕及び物体の背後には別の商品棚8が映っている。前景抽出部20は、入力画像の複数のフレーム画像から、動きの大きい領域、例えば図6(B)に示すように人の腕及び物体の領域を前景として抽出する。そして、前景抽出部20は、図7(A)に例示するように、前景と背景とを区別して示す前景マスクを生成し、学習用画像生成部10へ出力する。図7(A)の例では、前景マスクは、前景領域を「1」(白)で示し、背景領域を「0」(黒)で示す画像である。
学習用画像生成部10の背景マスク処理部11は、前景マスクを用いて、RGB3ch画像の背景をマスクした背景マスク画像(動画)を生成し、物体位置推定部30へ出力する。RGB3ch画像は、例えば図6(A)に示すように前景と背景を含む動画である。背景マスク処理部11は、図7(A)に示す前景マスクを用いて、RGB3ch画像の背景をマスクし、図7(B)に示すような背景マスク画像(動画)を生成する。こうして、学習用画像生成部10は、入力画像の前景を抽出した学習用画像を生成し、物体位置推定部30へ出力する。この学習用画像を用いて、物体位置推定部30を構成する物体検知モデルの学習が行われる。
(第2実施例)
第2実施例では、第1実施例における背景マスク画像の背景を、入力画像の背景とは別の背景に置き換えた画像を生成し、学習用画像として使用する。図8は、第2実施例に係る物体検知装置100bの機能構成を示すブロック図である。第2実施例では、学習用画像生成部10は、背景マスク処理部11と、背景合成部12とを備える。背景合成部12以外では、第2実施例の物体検知装置100bは第1実施例の物体検知装置100aと同様である。
第2実施例では、第1実施例における背景マスク画像の背景を、入力画像の背景とは別の背景に置き換えた画像を生成し、学習用画像として使用する。図8は、第2実施例に係る物体検知装置100bの機能構成を示すブロック図である。第2実施例では、学習用画像生成部10は、背景マスク処理部11と、背景合成部12とを備える。背景合成部12以外では、第2実施例の物体検知装置100bは第1実施例の物体検知装置100aと同様である。
背景合成部12は、背景マスク処理部11が生成した背景マスク画像の背景を、元の画像、即ち、背景マスク処理部11に入力されたRGB3ch画像の背景とは別の背景に置き換える。具体的には、合成すべき別の背景画像を予め用意しておき、背景合成部12は、背景マスク処理部11が出力した背景マスク画像の背景領域に別の背景画像を合成して、背景が変更された画像(以下、「背景合成画像」と呼ぶ。)を生成する。そして、背景合成部12は、背景合成画像を物体位置推定部30へ出力する。こうして、背景合成画像を学習用画像として用いて、物体位置推定部30を構成する物体検知モデルの学習が行われる。
第2実施例では、背景マスク画像の背景を多様な画像に置き換えることにより、前景はそのままで、背景を多様に変化させた学習用画像を生成することができる。これにより、物体検知モデルの学習に使用する学習用画像の数を増やすことができる。また、多様な画像を背景とした学習用画像を生成して、物体検知モデルを学習することができる。
(第3実施例)
第3実施例は、学習用データセットに含まれるRGB3ch画像と、そのRGB3ch画像から前景を取り出した画像とを統合して学習用画像として使用するものである。図9は、第3実施例に係る物体検出装置100cの機能構成を示すブロック図である。図示のように、第3実施例では、学習用画像生成部10は、前景画像取り出し部13と、結合処理部14とを備える。また、物体位置推定部30は、矩形・クラススコア推論部31を備える。なお、図9では物体位置推定部30について矩形・クラススコア推論部31を図示しているが、物体位置推定部30の構成は基本的に第1、第2実施例と同様である。また、前景抽出部20及び損失計算部40も第1、第2実施例と同様である。
第3実施例は、学習用データセットに含まれるRGB3ch画像と、そのRGB3ch画像から前景を取り出した画像とを統合して学習用画像として使用するものである。図9は、第3実施例に係る物体検出装置100cの機能構成を示すブロック図である。図示のように、第3実施例では、学習用画像生成部10は、前景画像取り出し部13と、結合処理部14とを備える。また、物体位置推定部30は、矩形・クラススコア推論部31を備える。なお、図9では物体位置推定部30について矩形・クラススコア推論部31を図示しているが、物体位置推定部30の構成は基本的に第1、第2実施例と同様である。また、前景抽出部20及び損失計算部40も第1、第2実施例と同様である。
学習用画像生成部10の前景画像取り出し部13は、前景抽出部20から入力される前景マスクを用いて、RGB3ch画像から前景領域を取り出した3chの前景取り出し画像(動画)を生成し、結合処理部14へ出力する。前景取り出し画像は、例えば、図6(B)に示すような画像となる。
結合処理部14は、RGB3ch画像と、前景画像取り出し部13が生成した3chの前景取り出し画像とを受け取り、それらを結合してRGBf6ch画像(「f」は前景を意味する。)を生成し、これを学習用画像として物体位置推定部30へ出力する。即ち、第3実施例では、学習用画像は、元のRGB3ch画像と、それらから前景を取り出した3chの前景取り出し画像とを含む画像となる。
物体位置推定部30は、学習用画像中の物体の矩形位置及びクラスを推定し、推定結果として損失計算部40へ出力する。具体的には、物体位置推定部30の矩形・クラススコア推論部31は、物体検知モデルを用いて、学習用画像中の物体の矩形位置及びクラススコアを算出し、損失計算部40へ出力する。矩形・クラススコア推論部31に相当する物体検知モデルは、前述のようにニューラルネットワークなどにより構成される。ここで、第1及び第2実施例では、学習用画像が3chの背景マスク画像又は背景合成画像であるので、3chの入力画像に対応するニューラルネットワークを用いて物体位置推定部30が構成されている。これに対し、第3実施例では学習用画像がRGBf6ch画像であるため、矩形・クラススコア推論部31は、6chの入力画像に対応するように畳み込みパラメータなどが変更されたニューラルネットワークにより構成される。
損失計算部40は、物体位置推定部30から入力された推定結果、即ち、矩形位置とクラススコアを、学習用データセットに含まれる正解データと比較して損失を計算し、得られた損失が小さくなるように物体検知モデルのパラメータを更新する。こうして、学習用画像を用いて物体検知モデルが学習される。
第1及び第2実施例では、前景抽出部20が抽出した前景マスクを用いて元のRGB3ch画像の背景をマスクしてしまうので、前景抽出部20による前景の抽出に誤差があるような場合には、元のRGB画像の前景の一部が誤ってマスクされてしまう可能性がある。この点、第3実施例では、上記のように学習用画像が元のRGB3ch画像と、3chの前景取り出し画像とを含み、物体検知モデルはこれら6chの画像を用いて物体の検知を行う。即ち、物体検知モデルは、元のRGB3ch画像も用いて物体検知を行うので、前景抽出部20による前景の抽出に誤差がある場合でも、その誤差の影響を低減できる。
なお、上記の第3実施例では、結合処理部14はRGB3ch画像と、3chの前景取り出し画像とを結合し、学習用画像としてRGBf6ch画像を生成している。その代わりに、図9に破線17で示すように、前景抽出部20が出力する前景マスクを結合処理部14に直接入力し、結合処理部14がRGB3ch画像と、前景マスクとを結合した4chの画像を学習用画像として出力してもよい。この場合、前景画像取り出し部13は不要となる。
また、前景抽出部20が前景マスクの代わりに1chの注視領域画像を生成し、結合処理部14に入力してもよい。注視領域画像とは、マスク画像のように1ビットではなく、多ビット(グレースケール)によって前景と背景を区別する画像である。この場合、結合処理部14は、RGB3ch画像と、1chの注視領域画像とを結合した4chの画像を学習用画像として出力する。多ビットの注視領域画像を用いることにより、前景マスクを用いる場合と比較して、前景の輪郭領域をより正確に抽出することが可能となる。
(第4実施例)
第4実施例では、学習用画像として、元のRGB3ch画像と、3chの前景取り出し画像とが個別に物体位置推定部30に入力され、それぞれに基づいて物体検知が個別に行われる。図10は、第4実施例に係る物体検知装置100dの機能構成を示すブロック図である。第4実施例では、物体位置推定部30内に2つの矩形・クラススコア推論部31、32を設ける。また、損失計算部40は、個別損失計算部41、42と、損失結合部43とを備える。
第4実施例では、学習用画像として、元のRGB3ch画像と、3chの前景取り出し画像とが個別に物体位置推定部30に入力され、それぞれに基づいて物体検知が個別に行われる。図10は、第4実施例に係る物体検知装置100dの機能構成を示すブロック図である。第4実施例では、物体位置推定部30内に2つの矩形・クラススコア推論部31、32を設ける。また、損失計算部40は、個別損失計算部41、42と、損失結合部43とを備える。
学習用データセットに含まれるRGB3ch画像と、前景画像取り出し部13が生成した3chの前景取り出し画像は、学習用画像として個別に物体位置推定部30に入力される。物体位置推定部30では、矩形・クラススコア推論部31はRGB3ch画像から物体を検知し、矩形位置及びクラススコアを推定結果として個別損失計算部41へ出力する。一方、矩形・クラススコア推論部32は、3chの前景取り出し画像から物体を検知し、矩形位置及びクラススコアを推定結果として個別損失計算部42へ出力する。
損失計算部40では、個別損失計算部41は矩形・クラススコア推論部31が出力した推定結果に基づいて損失を計算し、損失結合部43へ出力する。また、個別損失計算部42は、矩形・クラススコア推論部32が出力した推定結果に基づいて損失を計算し、損失結合部43へ出力する。損失結合部43は、個別損失計算部41及び42が計算した損失を結合し、得られた損失に基づいて物体位置推定部30における物体検知モデル、具体的には矩形・クラススコア推論部31及び32のパラメータを更新する。なお、損失結合部43は、ハイパーパラメータとして設定された重みを用いて、個別損失計算部41及び42が計算した損失を結合してもよい。こうして、学習用画像に基づいて物体位置推定部30内の物体検知モデルが学習される。
(学習処理)
図11は、物体検知モデルの学習処理のフローチャートである。この処理は、図3に示すプロセッサ102が予め用意されたプログラムを実行し、図4に示す各要素として動作することにより実現される。
図11は、物体検知モデルの学習処理のフローチャートである。この処理は、図3に示すプロセッサ102が予め用意されたプログラムを実行し、図4に示す各要素として動作することにより実現される。
まず、学習用データセットの入力画像が前景抽出部20と学習用画像生成部10に入力される(ステップS11)。前景抽出部20は、予め用意された背景差分モデルを用いて入力画像から前景を抽出し、前景マスクを学習用画像生成部10へ出力する(ステップS12)。学習用画像生成部10は、入力画像と前景マスクとを用いて学習用画像を生成し、物体位置推定部30へ出力する(ステップS13)。なお、この場合の学習用画像は、前述の第1~第4実施例のいずれかに従って生成される。
物体位置推定部30は、物体検知モデルを用いて学習用画像から物体を検知し、物体の矩形位置及びクラススコアを含む推定結果を損失計算部40へ出力する(ステップS14)。具体的には、物体位置推定部30は、学習用画像に含まれる物体を示す矩形位置及びクラススコアを推定結果として出力する。
損失計算部40は、入力された推定結果と、学習用データセットに含まれる正解データとを用いて損失を計算する(ステップS15)。そして、損失計算部40は、損失が所定値以下に収束したか否かを判定する(ステップS16)。損失が収束していない場合(ステップS16:No)、損失計算部40は、損失が小さくなるように物体位置推定部30を構成する物体検知モデルのパラメータを更新する(ステップS17)。そして、処理はステップS11へ戻る。一方、損失が収束した場合(ステップS16:Yes)、処理は終了する。
[物体検知装置による推論]
次に、物体検知装置による推論について説明する。図12は、推論時の物体検知装置110の機能構成を示すブロック図である。推論時の物体検知装置110は、対象画像生成部10xと、前景抽出部20と、物体位置推定部30xとを備える。
次に、物体検知装置による推論について説明する。図12は、推論時の物体検知装置110の機能構成を示すブロック図である。推論時の物体検知装置110は、対象画像生成部10xと、前景抽出部20と、物体位置推定部30xとを備える。
推論時には、物体検知の対象となる画像(動画)(以下、「対象画像」と呼ぶ。)が対象画像生成部10x及び前景抽出部20へ入力される。前景抽出部20は、学習時と同様の構成を有し、対象画像から前景を抽出し、前景マスクを対象画像生成部10xへ出力する。
対象画像生成部10xは、基本的に学習時における学習用画像生成部10と同様の構成を有する。具体的には、対象画像生成部10xは、前述の第1~第4実施例のうち、学習時の学習用画像生成部10に適用した実施例と同様の構成を有する。対象画像生成部10xは、対象画像と前景マスクとを用いて、学習用画像生成部10と同様の手法で対象画像を生成し、物体位置推定部30xへ出力する。
物体位置推定部30xは、前述の学習処理により生成された学習済みの物体検知モデルを用いて、対象画像から物体を検知する。具体的に、物体位置推定部30は、入力された対象画像から物体の矩形位置及びクラススコアを推定し、推定結果を出力する。
上記の構成において、対象画像生成部10xは対象画像生成手段の一例であり、前景抽出部20は前景抽出手段の一例であり、物体位置推定部30xは物体位置推定手段の一例である。
[第1実施形態による効果]
以上のように、第1実施形態の物体検知装置では、学習用データセットの入力画像から抽出された前景マスクを用いて学習用画像を生成し、物体検知モデルの学習を行うので、画像の撮影環境の変化や新たな物体の出現などに影響されにくい物体検知モデルを生成することができる。よって、推論時にその物体検知モデルを用いることにより、環境変化などに頑健な物体検知が可能となる。
以上のように、第1実施形態の物体検知装置では、学習用データセットの入力画像から抽出された前景マスクを用いて学習用画像を生成し、物体検知モデルの学習を行うので、画像の撮影環境の変化や新たな物体の出現などに影響されにくい物体検知モデルを生成することができる。よって、推論時にその物体検知モデルを用いることにより、環境変化などに頑健な物体検知が可能となる。
<第2実施形態>
次に、物体検知装置の第2実施形態について説明する。第2実施形態の物体検知装置は、画像に含まれる人間の手の影響を排除するものである。なお、第2実施形態に係る物体検知装置のハードウェア構成は、図3に示す第1実施形態のものと同様である。
次に、物体検知装置の第2実施形態について説明する。第2実施形態の物体検知装置は、画像に含まれる人間の手の影響を排除するものである。なお、第2実施形態に係る物体検知装置のハードウェア構成は、図3に示す第1実施形態のものと同様である。
[物体検知装置の学習]
(機能構成)
図13は、第2実施形態に係る物体検知装置の学習時の機能構成を示すブロック図である。第2実施形態の物体検知装置200は、図4に示す第1実施形態の物体検知装置100に対して、手領域推定部50を付加したものである。なお、学習用画像生成部10、前景抽出部20、物体位置推定部30及び損失計算部40は第1実施形態の物体検知装置100と同様である。
(機能構成)
図13は、第2実施形態に係る物体検知装置の学習時の機能構成を示すブロック図である。第2実施形態の物体検知装置200は、図4に示す第1実施形態の物体検知装置100に対して、手領域推定部50を付加したものである。なお、学習用画像生成部10、前景抽出部20、物体位置推定部30及び損失計算部40は第1実施形態の物体検知装置100と同様である。
手領域推定部50には、前景抽出部20及び学習用画像生成部10と同様に、学習用データセットの入力画像が入力される。手領域推定部50は、予め用意された手領域推定モデルを用いて、入力画像中の手領域、即ち人の手の領域を推定し、手領域を示す画像(以下、「手領域画像」と呼ぶ。)を学習用画像生成部10へ出力する。なお、手領域推定部50は手領域推定手段の一例である。
学習用画像生成部10は、学習用データセットの入力画像と、前景抽出部20から入力された前景マスクと、手領域推定部50から入力された手領域画像とを用いて、学習用画像を生成する。具体的に、学習用画像生成部10は、前景マスクが示す背景に対して行う処理と同様の処理を、手領域画像が示す手領域に対しても行う。これにより、学習用画像生成部10は、入力画像における背景と、手領域とを除去した学習用画像を生成する。
具体的に、学習用画像生成部10には、第1実施形態の第1~第4実施例のいずれかを適用することができる。第1実施例を適用した場合、学習用画像生成部10は、入力画像の背景及び手領域をマスクした画像を学習用画像として生成する。第2実施例を適用した場合、学習用画像生成部10は、入力画像の背景及び手領域を別の背景に置き換えた画像を学習用画像として生成する。第3実施例を適用した場合、学習用画像生成部10は、学習用データセットに含まれるRGB3ch画像と、そのRGB3ch画像から背景及び手領域を除いた3chの画像を結合したRGBf6ch画像を学習用画像として生成する。また、第4実施例を適用した場合、学習用画像生成部10は、学習用データセットに含まれるRGB3ch画像と、そのRGB3ch画像から背景及び手領域を除いた3chの画像をそれぞれ学習用画像として出力する。
なお、手領域推定部50は入力画像中の手領域を推定して入力画像から排除しているが、手以外の前景として抽出されうる領域を推定し、排除してもよい。例えば、入力画像に腕、足などの領域が含まれる場合には、手領域に加えて、人骨格推定モデルなどを用いて腕や足などの領域を推定し、入力画像から除去してもよい。また、服の袖などを推定する領域推定モデルを予め学習しておき、入力画像から服の袖などの領域を推定し、除外してもよい。
(学習処理)
図14は、物体検知装置200の学習処理のフローチャートである。この処理は、図3に示すプロセッサ102が予め用意されたプログラムを実行し、図13に示す各要素として動作することにより実現される。
図14は、物体検知装置200の学習処理のフローチャートである。この処理は、図3に示すプロセッサ102が予め用意されたプログラムを実行し、図13に示す各要素として動作することにより実現される。
まず、学習用データセットの入力画像が、前景抽出部20と、学習用画像生成部10と、手領域推定部50とに入力される(ステップS21)。前景抽出部20は、予め用意された背景差分モデルを用いて入力画像から前景を抽出し、前景マスクを学習用画像生成部10へ出力する(ステップS22)。また、手領域推定部50は、入力画像における手領域を推定し、手領域画像を学習用画像生成部10へ出力する(ステップS23)。
学習用画像生成部10は、入力画像と、前景マスクと、手領域画像とを用いて学習用画像を生成し、物体位置推定部30へ出力する(ステップS24)。ステップS25~S28の処理は、図11に示す第1実施形態の学習処理のステップS14~S17と同様であるので、説明を省略する。
[物体検知装置による推論]
次に、物体検知装置による推論について説明する。図15は、推論時の物体検知装置210の機能構成を示すブロック図である。推論時の物体検知装置210は、対象画像生成部10xと、前景抽出部20と、物体位置推定部30xと、手領域推定部50とを備える。
次に、物体検知装置による推論について説明する。図15は、推論時の物体検知装置210の機能構成を示すブロック図である。推論時の物体検知装置210は、対象画像生成部10xと、前景抽出部20と、物体位置推定部30xと、手領域推定部50とを備える。
推論時には、物体検知の対象である対象画像(動画)が対象画像生成部10x、前景抽出部20及び手領域推定部50へ入力される。前景抽出部20は、学習時と同様の構成を有し、対象画像から前景を抽出し、前景マスクを対象画像生成部10xへ出力する。手領域推定部50は、学習時と同様の構成を有し、対象画像の手領域を推定する。
対象画像生成部10xは、基本的に学習時における学習用画像生成部10と同様の構成を有する。対象画像生成部10xは、対象画像と、前景マスクと、手領域画像とを用いて、学習用画像生成部10と同様の手法で対象画像を生成し、物体位置推定部30xへ出力する。
物体位置推定部30xは、前述の学習処理により生成された学習済みの物体検知モデルを用いて、対象画像から物体を検知する。具体的に、物体位置推定部30は、入力された対象画像から、物体の矩形位置及びクラススコア推定し、推定結果を出力する。
[第2実施形態による効果]
以上のように、第2実施形態の物体検知装置では、学習用データセットの入力画像から手領域を推定し、手領域を除いた学習用画像を生成して物体検知モデルの学習を行う。これにより、物体を持つ手が前景として誤検知されることを防止できる。
以上のように、第2実施形態の物体検知装置では、学習用データセットの入力画像から手領域を推定し、手領域を除いた学習用画像を生成して物体検知モデルの学習を行う。これにより、物体を持つ手が前景として誤検知されることを防止できる。
<第3実施形態>
次に、本開示の第3実施形態について説明する。図16は、第3実施形態に係る物体検知モデル生成装置の機能構成を示すブロック図である。物体検知モデル生成装置70は、前景抽出手段71と、学習用画像生成手段72と、物体位置推定手段73と、損失計算手段74と、学習手段75とを備える。
次に、本開示の第3実施形態について説明する。図16は、第3実施形態に係る物体検知モデル生成装置の機能構成を示すブロック図である。物体検知モデル生成装置70は、前景抽出手段71と、学習用画像生成手段72と、物体位置推定手段73と、損失計算手段74と、学習手段75とを備える。
図17は、物体検知モデル生成装置70による処理のフローチャートである。前景抽出手段71は、入力画像中の前景を抽出し、前景マスクを出力する(ステップS41)。学習用画像生成手段72は、入力画像及び正解データを含む学習用データセットと、前景マスクとに基づいて、学習用画像を生成して出力する(ステップS42)。物体位置推定手段73はと、物体検知モデルを用いて、学習用画像中の物体の位置を推定して推定結果を出力する(ステップS43)。損失計算手段74は、推定結果と、正解データとを用いて損失を計算する(ステップS44)。学習手段75は、損失に基づいて、物体検知モデルのパラメータを更新する(ステップS45)。
第3実施形態の物体検知モデル生成装置70によれば、画像の撮影環境の変化や新たな物体の出現などに影響されにくい物体検知モデルを生成することができる。
<第4実施形態>
次に、本開示の第4実施形態について説明する。図18は、第4実施形態に係る物体検知装置の機能構成を示すブロック図である。物体検知装置80は、前景抽出手段81と、対象画像生成手段82と、物体位置推定手段83とを備える。
次に、本開示の第4実施形態について説明する。図18は、第4実施形態に係る物体検知装置の機能構成を示すブロック図である。物体検知装置80は、前景抽出手段81と、対象画像生成手段82と、物体位置推定手段83とを備える。
図19は、物体検知装置80による処理のフローチャートである。前景抽出手段81は、入力画像中の前景を抽出し、前景マスクを出力する(ステップS51)。対象画像生成手段82は、入力画像と、前景マスクとに基づいて対象画像を生成して出力する(ステップS52)。物体位置推定手段83は、学習済みの物体検知モデルを用いて、対象画像に含まれる物体の位置を推定して推定結果を出力する(ステップS53)。
第4実施形態の物体検知装置80によれば、環境変化などに頑健な物体検知が可能となる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
入力画像中の前景を抽出し、前景マスクを出力する前景抽出手段と、
前記入力画像及び正解データを含む学習用データセットと、前記前景マスクとに基づいて、学習用画像を生成して出力する学習用画像生成手段と、
物体検知モデルを用いて、前記学習用画像中の物体の位置を推定して推定結果を出力する物体位置推定手段と、
前記推定結果と、前記正解データとを用いて損失を計算する損失計算手段と、
前記損失に基づいて、前記物体検知モデルのパラメータを更新する学習手段と、
を備える物体検知モデル生成装置。
入力画像中の前景を抽出し、前景マスクを出力する前景抽出手段と、
前記入力画像及び正解データを含む学習用データセットと、前記前景マスクとに基づいて、学習用画像を生成して出力する学習用画像生成手段と、
物体検知モデルを用いて、前記学習用画像中の物体の位置を推定して推定結果を出力する物体位置推定手段と、
前記推定結果と、前記正解データとを用いて損失を計算する損失計算手段と、
前記損失に基づいて、前記物体検知モデルのパラメータを更新する学習手段と、
を備える物体検知モデル生成装置。
(付記2)
前記学習用画像生成手段は、前記前景マスクを用いて前記入力画像の背景をマスクした画像を前記学習用画像として生成する付記1に記載の物体検知モデル生成装置。
前記学習用画像生成手段は、前記前景マスクを用いて前記入力画像の背景をマスクした画像を前記学習用画像として生成する付記1に記載の物体検知モデル生成装置。
(付記3)
前記学習用画像生成手段は、前記前景マスクを用いて前記入力画像の背景を別の背景に置き換えた画像を前記学習用画像として生成する付記1に記載の物体検知モデル生成装置。
前記学習用画像生成手段は、前記前景マスクを用いて前記入力画像の背景を別の背景に置き換えた画像を前記学習用画像として生成する付記1に記載の物体検知モデル生成装置。
(付記4)
前記学習用画像生成手段は、前記前景マスクを用いて前記入力画像から前景を抽出した画像と、前記入力画像とを結合して前記学習用画像を生成する付記1に記載の物体検知モデル生成装置。
前記学習用画像生成手段は、前記前景マスクを用いて前記入力画像から前景を抽出した画像と、前記入力画像とを結合して前記学習用画像を生成する付記1に記載の物体検知モデル生成装置。
(付記5)
前記学習用画像生成手段は、前記前景マスクと前記入力画像とを結合して前記学習用画像を生成する付記1に記載の物体検知モデル生成装置。
前記学習用画像生成手段は、前記前景マスクと前記入力画像とを結合して前記学習用画像を生成する付記1に記載の物体検知モデル生成装置。
(付記6)
前記学習用画像生成手段は、前記入力画像と、前記前景マスクを用いて前記入力画像から前景を取り出した前景取り出し画像とを前記学習用画像として出力し、
前記物体位置推定手段は、前記入力画像を用いて物体の位置を推定して第1の推定結果を出力し、前記前景取り出し画像を用いて物体の位置を推定して第2の推定結果を出力し、
前記損失計算手段は、前記第1の推定結果と前記正解データを用いて第1の損失を計算し、前記第2の推定結果と前記正解データを用いて第2の損失を計算し、前記第1の損失と前記第2の損失を結合して前記損失を計算する付記1に記載の物体検知モデル生成装置。
前記学習用画像生成手段は、前記入力画像と、前記前景マスクを用いて前記入力画像から前景を取り出した前景取り出し画像とを前記学習用画像として出力し、
前記物体位置推定手段は、前記入力画像を用いて物体の位置を推定して第1の推定結果を出力し、前記前景取り出し画像を用いて物体の位置を推定して第2の推定結果を出力し、
前記損失計算手段は、前記第1の推定結果と前記正解データを用いて第1の損失を計算し、前記第2の推定結果と前記正解データを用いて第2の損失を計算し、前記第1の損失と前記第2の損失を結合して前記損失を計算する付記1に記載の物体検知モデル生成装置。
(付記7)
前記入力画像に含まれる手領域を推定する手領域推定手段を備え、
前記学習用画像生成手段は、前記入力画像と、前記前景マスクと、前記手領域とに基づいて、学習用画像を生成して出力する付記1に記載の物体検知モデル生成装置。
前記入力画像に含まれる手領域を推定する手領域推定手段を備え、
前記学習用画像生成手段は、前記入力画像と、前記前景マスクと、前記手領域とに基づいて、学習用画像を生成して出力する付記1に記載の物体検知モデル生成装置。
(付記8)
入力画像中の前景を抽出し、前景マスクを出力し、
前記入力画像及び正解データを含む学習用データセットと、前記前景マスクとに基づいて、学習用画像を生成して出力し、
物体検知モデルを用いて、前記学習用画像中の物体の位置を推定して推定結果を出力し、
前記推定結果と、前記正解データとを用いて損失を計算し、
前記損失に基づいて、前記物体検知モデルのパラメータを更新する物体検知モデル生成方法。
入力画像中の前景を抽出し、前景マスクを出力し、
前記入力画像及び正解データを含む学習用データセットと、前記前景マスクとに基づいて、学習用画像を生成して出力し、
物体検知モデルを用いて、前記学習用画像中の物体の位置を推定して推定結果を出力し、
前記推定結果と、前記正解データとを用いて損失を計算し、
前記損失に基づいて、前記物体検知モデルのパラメータを更新する物体検知モデル生成方法。
(付記9)
入力画像中の前景を抽出し、前景マスクを出力し、
前記入力画像及び正解データを含む学習用データセットと、前記前景マスクとに基づいて、学習用画像を生成して出力し、
物体検知モデルを用いて、前記学習用画像中の物体の位置を推定して推定結果を出力し、
前記推定結果と、前記正解データとを用いて損失を計算し、
前記損失に基づいて、前記物体検知モデルのパラメータを更新する処理をコンピュータに実行させるプログラムを記録した記録媒体。
入力画像中の前景を抽出し、前景マスクを出力し、
前記入力画像及び正解データを含む学習用データセットと、前記前景マスクとに基づいて、学習用画像を生成して出力し、
物体検知モデルを用いて、前記学習用画像中の物体の位置を推定して推定結果を出力し、
前記推定結果と、前記正解データとを用いて損失を計算し、
前記損失に基づいて、前記物体検知モデルのパラメータを更新する処理をコンピュータに実行させるプログラムを記録した記録媒体。
(付記10)
入力画像中の前景を抽出し、前景マスクを出力する前景抽出手段と、
前記入力画像と、前記前景マスクとに基づいて対象画像を生成して出力する対象画像生成手段と、
学習済みの物体検知モデルを用いて、前記対象画像に含まれる物体の位置を推定して推定結果を出力する物体位置推定手段と、
を備える物体検知装置。
入力画像中の前景を抽出し、前景マスクを出力する前景抽出手段と、
前記入力画像と、前記前景マスクとに基づいて対象画像を生成して出力する対象画像生成手段と、
学習済みの物体検知モデルを用いて、前記対象画像に含まれる物体の位置を推定して推定結果を出力する物体位置推定手段と、
を備える物体検知装置。
(付記11)
前記入力画像に含まれる手領域を推定する手領域推定手段を備え、
前記対象画像生成手段は、前記入力画像と、前記前景マスクと、前記手領域とに基づいて、前記対象画像を生成して出力する付記10に記載の物体検知装置。
前記入力画像に含まれる手領域を推定する手領域推定手段を備え、
前記対象画像生成手段は、前記入力画像と、前記前景マスクと、前記手領域とに基づいて、前記対象画像を生成して出力する付記10に記載の物体検知装置。
(付記12)
入力画像中の前景を抽出し、前景マスクを出力し、
前記入力画像と、前記前景マスクとに基づいて対象画像を生成して出力し、
学習済みの物体検知モデルを用いて、前記対象画像に含まれる物体の位置を推定して推定結果を出力する物体検知方法。
入力画像中の前景を抽出し、前景マスクを出力し、
前記入力画像と、前記前景マスクとに基づいて対象画像を生成して出力し、
学習済みの物体検知モデルを用いて、前記対象画像に含まれる物体の位置を推定して推定結果を出力する物体検知方法。
(付記13)
入力画像中の前景を抽出し、前景マスクを出力し、
前記入力画像と、前記前景マスクとに基づいて対象画像を生成して出力し、
学習済みの物体検知モデルを用いて、前記対象画像に含まれる物体の位置を推定して推定結果を出力する処理をコンピュータに実行させるプログラムを記録した記録媒体。
入力画像中の前景を抽出し、前景マスクを出力し、
前記入力画像と、前記前景マスクとに基づいて対象画像を生成して出力し、
学習済みの物体検知モデルを用いて、前記対象画像に含まれる物体の位置を推定して推定結果を出力する処理をコンピュータに実行させるプログラムを記録した記録媒体。
以上、実施形態及び実施例を参照して本開示を説明したが、本開示は上記実施形態及び実施例に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。
3 画像データベース
10 学習用画像生成部
10x 対象画像生成部
11 背景マスク処理部
12 背景合成部
13 前景画像取り出し部
14 結合処理部
20 前景抽出部
30、30x 物体位置推定部
31、32 矩形・クラススコア推論部
40 損失計算部
50 手領域推定部
102 プロセッサ
10 学習用画像生成部
10x 対象画像生成部
11 背景マスク処理部
12 背景合成部
13 前景画像取り出し部
14 結合処理部
20 前景抽出部
30、30x 物体位置推定部
31、32 矩形・クラススコア推論部
40 損失計算部
50 手領域推定部
102 プロセッサ
Claims (13)
- 入力画像中の前景を抽出し、前景マスクを出力する前景抽出手段と、
前記入力画像及び正解データを含む学習用データセットと、前記前景マスクとに基づいて、学習用画像を生成して出力する学習用画像生成手段と、
物体検知モデルを用いて、前記学習用画像中の物体の位置を推定して推定結果を出力する物体位置推定手段と、
前記推定結果と、前記正解データとを用いて損失を計算する損失計算手段と、
前記損失に基づいて、前記物体検知モデルのパラメータを更新する学習手段と、
を備える物体検知モデル生成装置。 - 前記学習用画像生成手段は、前記前景マスクを用いて前記入力画像の背景をマスクした画像を前記学習用画像として生成する請求項1に記載の物体検知モデル生成装置。
- 前記学習用画像生成手段は、前記前景マスクを用いて前記入力画像の背景を別の背景に置き換えた画像を前記学習用画像として生成する請求項1に記載の物体検知モデル生成装置。
- 前記学習用画像生成手段は、前記前景マスクを用いて前記入力画像から前景を抽出した画像と、前記入力画像とを結合して前記学習用画像を生成する請求項1に記載の物体検知モデル生成装置。
- 前記学習用画像生成手段は、前記前景マスクと前記入力画像とを結合して前記学習用画像を生成する請求項1に記載の物体検知モデル生成装置。
- 前記学習用画像生成手段は、前記入力画像と、前記前景マスクを用いて前記入力画像から前景を取り出した前景取り出し画像とを前記学習用画像として出力し、
前記物体位置推定手段は、前記入力画像を用いて物体の位置を推定して第1の推定結果を出力し、前記前景取り出し画像を用いて物体の位置を推定して第2の推定結果を出力し、
前記損失計算手段は、前記第1の推定結果と前記正解データを用いて第1の損失を計算し、前記第2の推定結果と前記正解データを用いて第2の損失を計算し、前記第1の損失と前記第2の損失を結合して前記損失を計算する請求項1に記載の物体検知モデル生成装置。 - 前記入力画像に含まれる手領域を推定する手領域推定手段を備え、
前記学習用画像生成手段は、前記入力画像と、前記前景マスクと、前記手領域とに基づいて、学習用画像を生成して出力する請求項1に記載の物体検知モデル生成装置。 - 入力画像中の前景を抽出し、前景マスクを出力し、
前記入力画像及び正解データを含む学習用データセットと、前記前景マスクとに基づいて、学習用画像を生成して出力し、
物体検知モデルを用いて、前記学習用画像中の物体の位置を推定して推定結果を出力し、
前記推定結果と、前記正解データとを用いて損失を計算し、
前記損失に基づいて、前記物体検知モデルのパラメータを更新する物体検知モデル生成方法。 - 入力画像中の前景を抽出し、前景マスクを出力し、
前記入力画像及び正解データを含む学習用データセットと、前記前景マスクとに基づいて、学習用画像を生成して出力し、
物体検知モデルを用いて、前記学習用画像中の物体の位置を推定して推定結果を出力し、
前記推定結果と、前記正解データとを用いて損失を計算し、
前記損失に基づいて、前記物体検知モデルのパラメータを更新する処理をコンピュータに実行させるプログラムを記録した記録媒体。 - 入力画像中の前景を抽出し、前景マスクを出力する前景抽出手段と、
前記入力画像と、前記前景マスクとに基づいて対象画像を生成して出力する対象画像生成手段と、
学習済みの物体検知モデルを用いて、前記対象画像に含まれる物体の位置を推定して推定結果を出力する物体位置推定手段と、
を備える物体検知装置。 - 前記入力画像に含まれる手領域を推定する手領域推定手段を備え、
前記対象画像生成手段は、前記入力画像と、前記前景マスクと、前記手領域とに基づいて、前記対象画像を生成して出力する請求項10に記載の物体検知装置。 - 入力画像中の前景を抽出し、前景マスクを出力し、
前記入力画像と、前記前景マスクとに基づいて対象画像を生成して出力し、
学習済みの物体検知モデルを用いて、前記対象画像に含まれる物体の位置を推定して推定結果を出力する物体検知方法。 - 入力画像中の前景を抽出し、前景マスクを出力し、
前記入力画像と、前記前景マスクとに基づいて対象画像を生成して出力し、
学習済みの物体検知モデルを用いて、前記対象画像に含まれる物体の位置を推定して推定結果を出力する処理をコンピュータに実行させるプログラムを記録した記録媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2021/008387 WO2022185473A1 (ja) | 2021-03-04 | 2021-03-04 | 物体検知モデル生成装置、物体検知モデル生成方法、物体検知装置、物体検知方法、及び、記録媒体 |
JP2023503279A JPWO2022185473A5 (ja) | 2021-03-04 | 物体検知モデル生成装置、物体検知モデル生成方法、物体検知装置、物体検知方法、及び、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2021/008387 WO2022185473A1 (ja) | 2021-03-04 | 2021-03-04 | 物体検知モデル生成装置、物体検知モデル生成方法、物体検知装置、物体検知方法、及び、記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022185473A1 true WO2022185473A1 (ja) | 2022-09-09 |
Family
ID=83155232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2021/008387 WO2022185473A1 (ja) | 2021-03-04 | 2021-03-04 | 物体検知モデル生成装置、物体検知モデル生成方法、物体検知装置、物体検知方法、及び、記録媒体 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2022185473A1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020022329A1 (ja) * | 2018-07-26 | 2020-01-30 | 日本電信電話株式会社 | 物体検出認識装置、方法、及びプログラム |
JP2020053019A (ja) * | 2018-07-16 | 2020-04-02 | アクセル ロボティクス コーポレーションAccel Robotics Corp. | 自律店舗追跡システム |
JP2020101927A (ja) * | 2018-12-20 | 2020-07-02 | カシオ計算機株式会社 | 画像識別装置、識別器学習方法、画像識別方法及びプログラム |
JP2020187385A (ja) * | 2019-05-09 | 2020-11-19 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 幾何パラメータ推定装置、幾何パラメータ推定システム、幾何パラメータ推定方法及びコンピュータプログラム |
-
2021
- 2021-03-04 WO PCT/JP2021/008387 patent/WO2022185473A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020053019A (ja) * | 2018-07-16 | 2020-04-02 | アクセル ロボティクス コーポレーションAccel Robotics Corp. | 自律店舗追跡システム |
WO2020022329A1 (ja) * | 2018-07-26 | 2020-01-30 | 日本電信電話株式会社 | 物体検出認識装置、方法、及びプログラム |
JP2020101927A (ja) * | 2018-12-20 | 2020-07-02 | カシオ計算機株式会社 | 画像識別装置、識別器学習方法、画像識別方法及びプログラム |
JP2020187385A (ja) * | 2019-05-09 | 2020-11-19 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 幾何パラメータ推定装置、幾何パラメータ推定システム、幾何パラメータ推定方法及びコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2022185473A1 (ja) | 2022-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102574141B1 (ko) | 이미지 디스플레이 방법 및 디바이스 | |
CN109272509B (zh) | 一种连续图像的目标检测方法、装置、设备及存储介质 | |
WO2019136591A1 (zh) | 基于弱监督时空级联神经网络的显著目标检测方法及系统 | |
US20200050890A1 (en) | Method for estimating operation of work vehicle, system, method for producing trained classification model, training data, and method for producing training data | |
CN109685037B (zh) | 一种实时动作识别方法、装置及电子设备 | |
CN112418195B (zh) | 一种人脸关键点检测方法、装置、电子设备及存储介质 | |
CN111696196B (zh) | 一种三维人脸模型重建方法及装置 | |
CN110619316A (zh) | 人体关键点检测方法、装置和电子设备 | |
Prajapati et al. | Direct unsupervised super-resolution using generative adversarial network (DUS-GAN) for real-world data | |
CN112861718A (zh) | 一种轻量级特征融合人群计数方法及系统 | |
CN111784624A (zh) | 目标检测方法、装置、设备及计算机可读存储介质 | |
CN112561813A (zh) | 人脸图像增强方法、装置、电子设备及存储介质 | |
JP2024107488A (ja) | 画像処理装置、画像処理方法及びプログラム | |
US20230033548A1 (en) | Systems and methods for performing computer vision task using a sequence of frames | |
JP2023003763A (ja) | 学習装置、画像処理装置、学習処理方法、及びプログラム | |
WO2022185473A1 (ja) | 物体検知モデル生成装置、物体検知モデル生成方法、物体検知装置、物体検知方法、及び、記録媒体 | |
CN108010050A (zh) | 一种基于自适应背景更新和选择性背景更新的前景检测方法 | |
WO2020063436A1 (zh) | 一种深度学习(dnn)的课堂学习行为分析方法及装置 | |
CN116258643A (zh) | 图像阴影消除方法、装置、设备及存储介质 | |
JP2006343989A (ja) | 画像処理装置、画像処理方法及び画像処理プログラム | |
Zhu et al. | HDRfeat: A feature-rich network for high dynamic range image reconstruction | |
CN110751163A (zh) | 目标定位方法及其装置、计算机可读存储介质和电子设备 | |
WO2020184006A1 (ja) | 画像処理装置、画像処理方法及び非一時的なコンピュータ可読媒体 | |
CN114722228A (zh) | 图像分类方法以及相关装置、设备 | |
JP7479809B2 (ja) | 画像処理装置、画像処理方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21929047 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2023503279 Country of ref document: JP |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 21929047 Country of ref document: EP Kind code of ref document: A1 |