WO2020261392A1 - 学習装置、物体検出装置および学習方法 - Google Patents
学習装置、物体検出装置および学習方法 Download PDFInfo
- Publication number
- WO2020261392A1 WO2020261392A1 PCT/JP2019/025185 JP2019025185W WO2020261392A1 WO 2020261392 A1 WO2020261392 A1 WO 2020261392A1 JP 2019025185 W JP2019025185 W JP 2019025185W WO 2020261392 A1 WO2020261392 A1 WO 2020261392A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- auxiliary information
- unit
- image
- teacher
- target image
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
Definitions
- the present invention relates to a learning device that generates a machine learning model, a learning method, and an object detection device that uses machine learning.
- Patent Document 1 discloses a mobile vehicle analysis system that uses a machine learning model to generate an output that identifies a moving vehicle in an aerial captured image.
- auxiliary information there is information (hereinafter referred to as "auxiliary information") that can improve the detection accuracy of an object when it is input to a machine learning model together with a target image.
- auxiliary information for example, there is GIS (Geographic Information System) information.
- GIS Geographic Information System
- the present invention has been made to solve the above problems, and provides a learning device capable of generating a machine learning model in consideration of auxiliary information without using a machine learning model in which auxiliary information is used as an input parameter. It is intended to be provided.
- the learning device uses a teacher image of an object, a first auxiliary information reference unit that acquires auxiliary information corresponding to the object, and auxiliary information acquired by the first auxiliary information reference unit as a teacher image. It is provided with a first auxiliary information synthesis unit that generates a reflected synthetic teacher image, and a learning unit that generates a machine learning model by learning using the synthetic teacher image generated by the first auxiliary information synthesis unit.
- FIG. 1 it is a figure for demonstrating an example of an image in which the 1st auxiliary information synthesis part synthesizes auxiliary information and a teacher image to generate a synthetic teacher image.
- the first image dividing section is a diagram for explaining an example of an image of a composite teacher image before being divided into a teacher image and an image of a composite teacher image after being divided into a teacher image. It is a figure for demonstrating an example of the image of the thinning-out of a teacher image performed by the teacher data thinning-out part in Embodiment 1.
- FIG. 1 it is a figure for demonstrating an example of an image in which the 1st auxiliary information synthesis part synthesizes auxiliary information and a teacher image to generate a synthetic teacher image.
- the first image dividing section is a diagram for explaining an example of an image of a composite teacher image before being divided into a teacher image and an image of a composite teacher image after being divided into a teacher image.
- the first embodiment it is a figure for demonstrating an example of the image of the composite target image before being divided into small target images, and the image of the composite target image after being divided into small target images by the second image division part. It is a flowchart for demonstrating operation of the learning apparatus which concerns on Embodiment 1. FIG. It is a flowchart for demonstrating operation of the inference apparatus which concerns on Embodiment 1. FIG. In the first embodiment, for example, when the object is a vehicle moving on a road and the auxiliary information is road information and trunk road information, the first auxiliary information synthesis unit or the second auxiliary information synthesis unit is a teacher image.
- 9A and 9B are diagrams showing an example of the hardware configuration of the learning device and the inference device according to the first embodiment.
- the object detection device 1 executes learning using the teacher data and auxiliary information, and generates a machine learning model. Then, the object detection device 1 acquires a target image to be detected for the object, and detects the object from the target image using the machine learning model.
- a boat is assumed as an object.
- a satellite image, a drone aerial image, an aircraft image, or the like is assumed as the target image and the teacher image described later.
- the object detection device 1 shall detect a boat sailing on the water or a boat preparing for departure on the water from the target image.
- FIG. 1 is a diagram showing a configuration example of the object detection device 1 according to the first embodiment.
- the object detection device 1 includes a learning device 10, a first auxiliary information DB 20, a machine learning model 40, an inference device 50, and a second auxiliary information DB 60.
- the learning device 10 is a device that executes learning in machine learning in the object detection device 1, and is composed of, for example, a high-performance workstation.
- the learning device 10 executes learning by using the teacher data and the auxiliary information.
- the learning device 10 generates a machine learning model 40 for detecting an object from a target image by learning.
- the learning device 10 includes a teacher data acquisition unit 100, a first auxiliary information reference unit 101, a first auxiliary information synthesis unit 102, a first image division unit 103, a statistic analysis unit 104, a teacher data thinning unit 105, and a learning unit. 106 is provided.
- the teacher data acquisition unit 100 acquires teacher data.
- the teacher data is prepared in advance and is stored in a place where the learning device 10 can refer to, for example.
- the teacher data includes a plurality of images of an object (hereinafter referred to as "teacher image").
- the teacher data also includes text information about an object on each teacher image associated with each teacher image among the plurality of teacher images.
- the text information about the object is, for example, the position information of the object on the teacher image.
- the position of the object on the teacher image is represented, for example, based on the rectangle of the object.
- the rectangle of the object is, for example, the smallest rectangle that surrounds the object on the teacher image.
- the pixel positions (x, y) indicating the four vertices of the smallest rectangle surrounding the boat on the teacher image are the position information of the object on the teacher image. ..
- the number of objects existing on one teacher image is not limited to one.
- the teacher data includes text information about each of the plurality of objects in association with one teacher image. For example, if there are two boats on one teacher image, the four vertices of the rectangle of the two boats are two sets, and the pixel position indicating a total of eight vertices is the teacher as the position information of the boat. Included in the data.
- the metadata of the teacher image includes position information (hereinafter referred to as "first imaged position information") indicating a point or region captured in the teacher image.
- the first imaged position information is latitude and longitude information indicating a point or region imaged in the teacher image, for example.
- the teacher data acquisition unit 100 outputs the acquired teacher data to the first auxiliary information reference unit 101 and the learning unit 106.
- the first auxiliary information reference unit 101 refers to the first auxiliary information DB 20, and based on the first imaging position information included in the metadata of the teacher image acquired by the teacher data acquisition unit 100, the first auxiliary information Acquire auxiliary information from DB20.
- the auxiliary information is information related to a point or region captured in the teacher image or the target image.
- Auxiliary information is, for example, a water area map, a topographic map, a land area map, a road map, a land cover map, or the same point or area as the point or area previously imaged in the teacher image or the target image. It is an image. Geographic information is attached to each of the auxiliary information.
- the geographic information is, for example, latitude, longitude, and altitude information, and based on the geographic information, auxiliary information in a range geographically corresponding to the geographic information is specified.
- Auxiliary information is stored in the first auxiliary information DB 20. What kind of auxiliary information the first auxiliary information reference unit 101 acquires is predetermined according to the object. For example, for boats, it is predetermined that information on the water area, such as a water area map, will be used as auxiliary information. Therefore, here, the first auxiliary information reference unit 101 refers to the first auxiliary information DB 20 to acquire information on the water area.
- the first auxiliary information reference unit 101 outputs the teacher data and the acquired auxiliary information to the first auxiliary information synthesis unit 102.
- the first auxiliary information synthesizing unit 102 synthesizes the auxiliary information and the teacher image based on the teacher data and the auxiliary information output from the first auxiliary information reference unit 101. Specifically, the first auxiliary information synthesizing unit 102 generates, for example, a masked image by painting pixels in a portion other than a portion corresponding to a water area in a teacher image with a specific color. In the first embodiment, the image generated by the first auxiliary information synthesizing unit 102 by synthesizing the auxiliary information and the teacher image is also referred to as a “composite teacher image”.
- the first auxiliary information synthesizing unit 102 fills the pixels of the portion other than the portion corresponding to the water area with black in the teacher image.
- the auxiliary information is acquired based on the first imaging position information, and is information that geographically corresponds to the point or area imaged in the teacher image. Therefore, the first auxiliary information synthesizing unit 102 can identify the part corresponding to the water area on the teacher image based on the auxiliary information.
- FIG. 2 is a diagram for explaining an example of an image in which the first auxiliary information synthesis unit 102 synthesizes the auxiliary information and the teacher image to generate a composite teacher image in the first embodiment.
- the teacher image is an aerial image of the waterside where the boat is floating
- the auxiliary information is information about the water area.
- the water area is indicated by 201.
- the composite teacher image becomes an image in which pixels in a range other than the range representing the water area indicated by 201 are filled in black. If the auxiliary information does not exist for a part of the area captured in one teacher image, for example, the part corresponding to the above water area may not be specified for the part of the area. possible.
- the first auxiliary information synthesis unit 102 outputs the teacher data (hereinafter referred to as “composite teacher data”) in which the teacher image is replaced with the composite teacher image to the first image division unit 103. If the first auxiliary information synthesis unit 102 does not output the auxiliary information from the first auxiliary information reference unit 101 and the auxiliary information to be combined with the teacher image does not exist, the first auxiliary information synthesis unit 102 uses the teacher data as it is as the composite teacher data. Output to the first image dividing unit 103.
- the first image division unit 103 divides the composite teacher image into a predetermined size. For example, the first image dividing unit 103 divides the composite teacher image into a size of 256 ⁇ 256.
- the composite teacher image divided into small sizes by the first image dividing unit 103 is referred to as a "small teacher image”.
- FIG. 3 is for explaining an example of an image of a composite teacher image before being divided into a teacher image and an image of a composite teacher image after being divided into a teacher image by the first image division unit 103 in the first embodiment. It is a figure of. In FIG. 3, it is assumed that the size of the composite teacher image is 1024 ⁇ 2048, and the first image division unit 103 divides the composite teacher image into a small teacher image having a size of 256 ⁇ 256. As a result of the first image dividing unit 103 dividing the composite teacher image, the composite teacher image is divided into 32 sub-teacher images. At this time, when the object exists on the teacher image, the first image dividing unit 103 adds the position information of the object on the teacher image to the teacher image.
- the first image dividing unit 103 may determine the position information of the object on the teacher image from the position information of the object associated with the composite teacher image.
- the first image dividing unit 103 outputs the synthetic teacher data after dividing into the small teacher image to the statistic analysis unit 104.
- the statistic analysis unit 104 classifies the composite teacher image output from the first image division unit 103 according to the characteristics of the teacher image, and counts the number of the teacher images for each classification.
- the statistic analysis unit 104 uses the teacher image as "with auxiliary information synthesis and with object”, “with auxiliary information synthesis and without object”, and “without auxiliary information synthesis”. , And there is an object "or” there is no auxiliary information synthesis and there is no object ". Note that this is only an example, and the statistic analysis unit 104 can classify the teacher image into an appropriate pattern.
- the statistic analysis unit 104 outputs information regarding the result of counting the number of small teacher images to the teacher data thinning unit 105 together with the synthetic teacher data. At this time, the statistic analysis unit 104 is made to give information on which classification the teacher image is classified into.
- the teacher data thinning unit 105 thins out the small teacher images belonging to the biased classification based on the result of the statistic analysis unit 104 counting the number of small teacher images. Specifically, the teacher data thinning unit 105 refers to the teacher images belonging to the classification having a large number of images so that the teacher images belonging to each classification have an ideal ratio with respect to the teacher images included in the composite teacher data. Take out and discard. As a result, the teacher data thinning unit 105 thins out unnecessary small teacher images.
- the ideal ratio of the teacher images belonging to each classification shall be appropriately set by the user or the like.
- FIG. 4 is a diagram for explaining an example of an image of thinning out a small teacher image performed by the teacher data thinning unit 105 in the first embodiment.
- the teacher data thinning unit 105 thins out the small teacher images after the statistic analysis unit 104 classifies them into the above four patterns. Further, in FIG. 4, the teacher data thinning unit 105 thins out the small teacher images so that the number of small teacher images belonging to each classification has a ratio of “1: 1: 1: 1”.
- the teacher data thinning unit 105 performs "auxiliary information" until the number of small images belonging to the categories of "with auxiliary information synthesis and with object” and “without auxiliary information synthesis and with object” is the same as the number of small images. Thin out the teacher images that belong to the categories of "with composition and without objects” and "without auxiliary information composition and without objects”. The teacher data thinning unit 105 outputs the synthetic teacher data after the thinning out to the learning unit 106.
- the learning unit 106 mixes the synthetic teacher data after thinning output from the teacher data thinning unit 105 and the teacher data acquired by the teacher data acquisition unit 100 at a predetermined ratio, and then executes learning to perform machine learning. Generate model 40.
- the learning unit 106 mixes the synthetic teacher data after thinning output from the teacher data thinning unit 105 with the teacher data acquired by the teacher data acquisition unit 100, the learning unit 106 uses the teacher image included in the teacher data as a small teacher. Divide into the same size as the image.
- the learning unit 106 executes learning after mixing the synthetic teacher data and the teacher data, regardless of the presence or absence of auxiliary information, when inferring in the inference device 50, inference by one machine learning model 40. This is to enable.
- the first auxiliary information reference unit 101 may not always be able to acquire the auxiliary information associated with the teacher image.
- the learning unit 106 can improve the robustness of the machine learning model 40 by executing learning after mixing the synthetic teacher data and the teacher data.
- the machine learning model 40 holds the network structure and the adjusted parameters used by the learning unit 106 during learning.
- the machine learning model 40 assumes an object detection type neural network or the like such as YOLO (You Only Look None) or SSD (Single Shot Detection).
- the first auxiliary information DB 20 is a database that stores auxiliary information.
- the inference device 50 is a device that executes inference in machine learning in the object detection device 1, and is composed of, for example, a high-performance workstation. In the first embodiment, the inference device 50 infers whether or not an object is captured in the target image. Further, in the first embodiment, the inference device 50 detects the position and size of the object when it is inferred that the object exists. The inference device 50 acquires the target image and auxiliary information stored in the second auxiliary information DB 60, and infers the presence or absence of an object in the target image using the machine learning model 40 generated by the learning device 10. Detects the position and size of an object in the target image. In FIG.
- the object detection device 1 includes a learning device 10 and an inference device 50, respectively, but this is only an example.
- the object detection device may include a device in which the learning device 10 and the inference device 50 are integrated.
- the inference device 50 includes an image acquisition unit 500, a second auxiliary information reference unit 501, a second auxiliary information synthesis unit 502, a second image division unit 503, an inference unit 504, a detection result integration unit 505, and a detection result output unit 506. To be equipped.
- the image acquisition unit 500 acquires the target image.
- the target image is prepared in advance and is stored in a place where the inference device 50 can refer to, for example.
- the metadata of the target image includes position information (hereinafter referred to as “second imaged position information”) indicating a point or region captured in the target image.
- the second imaging position information is latitude and longitude information indicating, for example, a point or region imaged in the target image.
- the image acquisition unit 500 outputs the acquired target image to the second auxiliary information reference unit 501.
- the second auxiliary information reference unit 501 refers to the second auxiliary information DB 60, and based on the second imaging position information included in the metadata of the target image acquired by the image acquisition unit 500, the second auxiliary information DB 60 Get auxiliary information from.
- the second auxiliary information reference unit 501 acquires is predetermined according to the object.
- the second auxiliary information reference unit 501 refers to the second auxiliary information DB 60 and acquires information on the water area.
- the second auxiliary information reference unit 501 associates the acquired auxiliary information with the target image and outputs it to the second auxiliary information synthesis unit 502.
- the second auxiliary information reference unit 501 outputs the target image as it is to the second auxiliary information synthesis unit 502.
- the second auxiliary information synthesizing unit 502 synthesizes the auxiliary information and the target image when the auxiliary information is associated with the target image based on the target image output from the second auxiliary information reference unit 501. Specifically, the second auxiliary information synthesizing unit 502 generates, for example, an image in which pixels other than the portion corresponding to the water area in the target image are filled with a specific color and masked. In the first embodiment, the image generated by the second auxiliary information synthesizing unit 502 by synthesizing the auxiliary information and the target image is also referred to as a “composite target image”.
- the second auxiliary information synthesizing unit 502 fills the pixels of the portion other than the portion corresponding to the water area with black in the image to be synthesized.
- the method in which the second auxiliary information synthesis unit 502 synthesizes the target image and the auxiliary information can be an appropriate method, but the method in which the first auxiliary information synthesis unit 102 synthesizes the auxiliary information and the teacher image. Need to be combined with.
- the auxiliary information is acquired based on the second imaging position information, and is information that geographically corresponds to the point or area imaged in the target image. Therefore, the second auxiliary information synthesizing unit 502 can specify a portion corresponding to the water area on the target image based on the auxiliary information.
- the second auxiliary information synthesizing unit 502 outputs the image to be synthesized to the second image dividing unit 503. At this time, the second auxiliary information synthesis unit 502 shall output the target image as well as the synthesis target image to the second image division unit 503. When the auxiliary information is not associated with the target image, the second auxiliary information synthesizing unit 502 outputs only the target image to the second image dividing unit 503 as it is.
- the second image dividing unit 503 divides the target image or the composite target image output from the second auxiliary information synthesizing unit 502 into a predetermined size. Specifically, the second image dividing unit 503 divides the target image into a predetermined size when only the target image is output from the second auxiliary information synthesizing unit 502. When the composition target image is output together with the target image from the second auxiliary information composition unit 502, the second image division unit 503 divides the composition target image into a predetermined size.
- the target image or the composite target image divided by the second image dividing unit 503 is referred to as a “small target image”.
- FIG. 5 is for explaining an example of an image of a composite target image before being divided into small target images and an image of a composite target image after being divided into small target images by the second image division unit 503 in the first embodiment. It is a figure of. In FIG. 5, it is assumed that the size of the composite target image is 1024 ⁇ 2048, and the second image division unit 503 divides the composite target image into small target images having a size of 256 ⁇ 256. As a result of the second image dividing unit 503 dividing the composite target image in the first embodiment, the composite target image is divided into, for example, 53 small target images. The second image division unit 503 creates a small target image in which overlap occurs between the small target images created by dividing the composite target image based on the composite target image. This is to prevent an object existing at the boundary between the divided small target images from being detected.
- the second image dividing unit 503 outputs the target image and the small target image formed by dividing the target image or the small target image formed by dividing the composite target image to the inference unit 504.
- the inference unit 504 infers the presence or absence of an object on the small object image by using the machine learning model 40 with the small object image divided by the second image division unit 503 as an input, and the object exists on the small object image. If so, detect the position and size of the object. However, if there is a small target image that clearly does not require inference, the reasoning unit 504 may not perform inference for the small target image as a non-inference target.
- the small target image that clearly does not require inference is a small target image that can be determined here that the entire image is not a water area. For example, when detecting a boat sailing on the water or preparing for departure on the water, the boat on land is excluded from the detection.
- the inference unit 504 does not have to perform inference for, for example, a small target image whose entire surface is land.
- the inference unit 504 may determine that the entire surface of the image is land, for example, by the entire surface of the small target image being painted black.
- the inference unit 504 does not infer about a small object image that clearly does not require inference, the inference unit 504 is a small object in which the entire surface of the small object image is painted black based on auxiliary information, in other words, information about the water area. Inference is performed for small target images other than images.
- the inference unit 504 makes an inference with all the small object images as inputs or an inference with all the small object images other than the small object images not inferred, the inference for each target image and each small object image is performed. The result is output to the detection result integration unit 505.
- the detection result integration unit 505 integrates the inference results for each small target image so as to be the inference result for the target image based on the inference result for each small target image output from the inference unit 504, and infers for the target image. Produce results. For example, if the inference unit 504 infers each of the small target images as input images in a state where there is overlap, the same object is double-counted when the same object is transferred to a plurality of small target images. Become. Therefore, in order to avoid double counting of the same object, the detection result integration unit 505 integrates the inference results for each small target image. The detection result integration unit 505 integrates the inference results for each small target image while considering the boundary portion of the small target image. The inference result generated by integrating the inference results for each small target image in this way becomes the inference result for the target image. The detection result integration unit 505 outputs the target image and the inference result for the target image to the detection result output unit 506.
- the detection result output unit 506 displays, for example, display data indicating a display screen that makes the inference result visible to the user based on the target image output from the detection result integration unit 505 and the inference result for the target image. Output to the device (not shown).
- the display device is connected to the object detection device 1 via a network, for example. Specifically, the detection result output unit 506 generates, for example, display data for superimposing and displaying a rectangle surrounding an object on a target image, and outputs the display data to the display device.
- the display device displays a screen in which a rectangle surrounding the object is superimposed and displayed on the target image according to the display data output from the detection result output unit 506.
- the second auxiliary information DB 60 is a database that stores auxiliary information.
- the first auxiliary information DB 20, the second auxiliary information DB 60, and the machine learning model 40 are provided in the object detection device 1, but the present invention is limited to this. Instead, the first auxiliary information DB 20, the second auxiliary information DB 60, and the machine learning model 40 may be provided in a place outside the object detection device 1 where the learning device 10 or the inference device 50 can be referred. .. Further, the first auxiliary information DB 20 and the second auxiliary information DB 60 may be configured as one common auxiliary information DB.
- FIG. 6 and 7 are flowcharts for explaining the operation of the object detection device 1 according to the first embodiment.
- FIG. 6 is a flowchart for explaining the operation of the learning device 10 according to the first embodiment
- FIG. 7 is a flowchart for explaining the operation of the inference device 50 according to the first embodiment.
- the teacher data acquisition unit 100 acquires teacher data and outputs the acquired teacher data to the first auxiliary information reference unit 101 and the learning unit 106.
- the learning device 10 sequentially performs the following processes of steps ST601 to ST603 on all of the plurality of teacher images included in the teacher data.
- the first auxiliary information reference unit 101 refers to the first auxiliary information DB 20, and based on the first imaging position information included in the metadata of the teacher image acquired by the teacher data acquisition unit 100, the first auxiliary information DB 20 Auxiliary information is acquired from (step ST601).
- the first auxiliary information reference unit 101 refers to the first auxiliary information DB 20 to acquire information on the water area.
- the first auxiliary information reference unit 101 outputs the teacher data and the auxiliary information corresponding to the object on the teacher image to the first auxiliary information synthesis unit 102.
- the first auxiliary information reference unit 101 acquires information on the water area as auxiliary information and outputs it to the first auxiliary information synthesis unit 102 together with the teacher data.
- the first auxiliary information synthesizing unit 102 synthesizes the auxiliary information and the teacher image based on the teacher data and the auxiliary information output from the first auxiliary information reference unit 101 in step ST601 (step ST602). Specifically, the first auxiliary information synthesizing unit 102 generates, for example, a composite teacher image in which the pixels of a portion other than the portion corresponding to the water area in the teacher image are filled with a specific color. The first auxiliary information synthesis unit 102 outputs the composite teacher data in which the teacher image is replaced with the composite teacher image to the first image division unit 103.
- the first image division unit 103 sets the composite teacher image to a predetermined size. It is divided into small teacher images (step ST603).
- the first image dividing unit 103 outputs the synthetic teacher data after dividing into the small teacher image to the statistic analysis unit 104.
- the learning device 10 sequentially performs the above processes of steps ST601 to ST603 for all of the plurality of teacher images included in the teacher data.
- the learning device 10 proceeds to the process of step ST604.
- the statistic analysis unit 104 classifies the composite teacher image output from the first image division unit 103 in step ST603 according to the characteristics of the teacher image, and determines the number of teacher images for each classification. Count (step ST604).
- the statistic analysis unit 104 outputs information regarding the result of counting the number of small teacher images to the teacher data thinning unit 105 together with the synthetic teacher data. At this time, the statistic analysis unit 104 is made to give information on which classification the teacher image is classified into.
- the teacher data thinning unit 105 thins out the small teacher images belonging to the biased classification based on the result of the statistic analysis unit 104 counting the number of small teacher images in step ST604 (step ST605).
- the teacher data thinning unit 105 outputs the synthetic teacher data after the thinning out to the learning unit 106.
- the learning unit 106 mixes the synthetic teacher data output from the teacher data thinning unit 105 in step ST605 and the teacher data acquired by the teacher data acquisition unit 100 in step ST601 in a predetermined ratio. (Step ST606) to generate a machine learning model 40 (step ST607).
- the image acquisition unit 500 acquires the target image and outputs the acquired target image to the second auxiliary information reference unit 501.
- the second auxiliary information reference unit 501 refers to the second auxiliary information DB 60 and is in the first auxiliary information DB 20 based on the second imaging position information included in the metadata of the target image acquired by the image acquisition unit 500. It is determined whether or not the auxiliary information of (step ST701) can be referred to.
- the second auxiliary information reference unit 501 determines whether or not the information regarding the water area in the second auxiliary information DB 60 can be referred to.
- step ST701 When the second auxiliary information reference unit 501 determines in step ST701 that the information about the water area cannot be referred to (when “NO” in step ST701), the operation of the inference device 50 proceeds to step ST704. At this time, the second auxiliary information reference unit 501 outputs the target image to the second image division unit 503 via the second auxiliary information synthesis unit 502.
- step ST701 when the second auxiliary information reference unit 501 determines that the information about the water area can be referred to (when “YES” in step ST701), the second auxiliary information reference unit 501 uses the second auxiliary information DB 60. Obtain auxiliary information from (step ST702).
- the second auxiliary information reference unit 501 acquires information about the water area from the second auxiliary information DB 60.
- the second auxiliary information reference unit 501 associates the acquired auxiliary information with the target image and outputs it to the second auxiliary information synthesis unit 502.
- the second auxiliary information synthesizing unit 502 synthesizes the auxiliary information and the target image based on the target image output from the second auxiliary information reference unit 501 in step ST702 (step ST703). Specifically, the second auxiliary information synthesizing unit 502 generates, for example, a composite target image in which pixels of a portion other than the portion corresponding to the water area of the target image are filled with a specific color. The second auxiliary information synthesizing unit 502 outputs the image to be synthesized to the second image dividing unit 503. At this time, the second auxiliary information synthesis unit 502 outputs the target image as well as the synthesis target image to the second image division unit 503.
- the second image dividing unit 503 converts the target image into a small target image of a predetermined size. To divide.
- the second image division unit 503 displays the composition target image. It is divided into small target images of a predetermined size (step ST704).
- the second image dividing unit 503 outputs the target image and the small target image formed by dividing the target image or the small target image formed by dividing the composite target image to the inference unit 504.
- step ST705 1, number of divisions, 1
- the inference unit 504 determines whether or not the small target image is an image that clearly does not require inference (step ST705). Specifically, here, the inference unit 504 determines whether or not the entire image of the small target image is land. In step ST705, when it is determined that the entire image of the small target image is not land, that is, a part or the entire surface of the image is a water area (when “NO” in step ST705), the inference unit 504 determines the small target image. Is inferred (step ST706). If it is determined in step ST705 that the entire image of the small target image is land (in the case of "YES" in step ST705), the inference unit 504 does not perform the process of step ST706.
- the inference unit 504 performs the processes of steps ST705 to ST706 on all the small target images output from the second image division unit 503 in step ST704.
- the inference unit 504 outputs the target image and the inference result for each small target image to the detection result integration unit 505.
- the detection result integration unit 505 integrates the inference result for each small target image so as to be the inference result for the target image based on the inference result for each small target image output from the inference unit 504 in step ST706 (step). ST707).
- the detection result integration unit 505 outputs the target image and the inference result for the target image to the detection result output unit 506.
- the detection result output unit 506 displays display data indicating a display screen so that the inference result can be visually recognized by the user based on the target image output from the detection result integration unit 505 in step ST707 and the inference result for the target image. , Output to the display device (step ST708).
- the learning device 10 in the object detection device 1 when the learning device 10 in the object detection device 1 generates the machine learning model 40 for detecting an object from the target image, the learning device 10 performs machine learning by executing learning based on the teacher data and the auxiliary information. Generate model 40. At that time, the learning device 10 executes learning using a composite teacher image obtained by synthesizing the teacher image included in the teacher data and the auxiliary information. Further, in the object detection device 1, the inference device 50 detects an object from the target image by using the machine learning model 40 generated by the learning device 10. At that time, the inference device 50 made it possible to input the composite target image in which the target image and the auxiliary information were combined as the input of the machine learning model 40. Since the object detection device 1 can detect an object from the target image in consideration of auxiliary information, the object detection accuracy is improved.
- the object detection device 1 can detect an object in consideration of the auxiliary information without using a machine learning model in which the auxiliary information is used as an input parameter. That is, for example, it is possible to detect an object with high accuracy in consideration of auxiliary information while using a machine learning model that uses only the target image as an input parameter.
- the input parameter to the machine learning model 40 can be, for example, only an image regardless of whether the auxiliary information is used or not.
- the same machine learning model 40 can be used for inference. This means that when the learning is executed, the learning corresponding to both the case where the auxiliary information is used and the case where the auxiliary information is not used can be executed at the same time.
- the synthetic teacher data and the teacher data are mixed at a predetermined ratio and then learning is executed, so that the synthetic teacher data and the teacher data are used in both the case where the auxiliary information is used and the case where the auxiliary information is not used.
- the machine learning model 40 that can be used is generated. Therefore, in the object detection device 1 according to the first embodiment, different learning is executed in order to generate different machine learning models depending on whether the auxiliary information is used or not. It is possible to shorten the learning time.
- the first image division unit 103 divides the composite teacher image generated by the first auxiliary information synthesis unit 102 into a plurality of sub-teacher images, and performs statistical analysis.
- the unit 104 classifies the plurality of teacher images into a plurality of categories.
- the teacher data thinning unit 105 thins out the small teacher images belonging to each classification after being classified by the statistic analysis unit 104 according to the number of small teacher images belonging to each classification. Therefore, the machine learning model 40 can be created from the teacher data without bias, and the accuracy of detecting an object from the target image can be improved.
- the auxiliary information for the boat is the information related to the water area, and the auxiliary information is described as one, but the auxiliary information for the object is not limited to one type. There may be a plurality of types of auxiliary information for an object.
- the object is a boat, but this is only an example.
- the object may be a vehicle, and the object detection device 1 may consider information about the road as auxiliary information when detecting the vehicle. By considering the information about the road when detecting the vehicle, it is possible to suppress erroneous detection of the vehicle in a place other than the road where the vehicle normally does not normally exist.
- the first auxiliary information synthesis unit 102 and the second auxiliary information synthesis unit 502 have been described as reflecting binary water area information on the image, but this is only an example.
- the first auxiliary information synthesis unit 102 and the second auxiliary information synthesis unit 502 may reflect the auxiliary information in the teacher image or the target image as 50% gray instead of binary. Further, for example, the first auxiliary information synthesis unit 102 and the second auxiliary information synthesis unit 502 may reflect the auxiliary information in the teacher image or the target image as a specific color instead of monochrome.
- the object detection device 1 includes a first image division unit 103 and a second image division unit 503, and the first image division unit 103 and the second image division unit 503 are composite teacher images. Was divided.
- the division of the composite teacher image is not essential in the object detection device 1.
- the object detection device 1 may be configured not to include the first image dividing unit 103 and the second image dividing unit 503.
- the teacher image included in the teacher data is combined with the teacher image. It is not necessary to divide into small images of the same size.
- FIG. 8 shows, in the first embodiment, when the object is a vehicle moving on the road and the auxiliary information is the road information and the trunk road information, the first auxiliary information synthesis unit 102 or the second. It is a figure explaining an example of the image which the auxiliary information synthesis unit 502 generates a composite teacher image or a composite target image which reflects auxiliary information with respect to a teacher image or a target image.
- the first auxiliary information synthesizing unit 102 or the second auxiliary information synthesizing unit 502 is red with 50% transparency on the pixels (indicated by 802 in FIG. 8) other than the road (indicated by 801 in FIG. 8).
- a composite teacher image or a composite target image in which is superimposed is generated.
- red with a transparency of 50% is indicated by a horizontal line.
- the first auxiliary information synthesis unit 102 or the second auxiliary information synthesis unit 502 has a transparency of 50 on pixels (indicated by 804 in FIG. 8) other than the main road (indicated by 803 in FIG. 8).
- a composite teacher image or a composite target image in which% blue is superimposed is generated.
- blue with a transparency of 50% is indicated by a vertical line.
- the learning device 10 and the inference device 50 are provided in the object detection device 1, but this is only an example.
- the learning device 10 and the inference device 50 may be used alone.
- FIGS. 9A and 9B are diagrams showing an example of the hardware configuration of the learning device 10 and the inference device 50 according to the first embodiment.
- the teacher data acquisition unit 100, the first auxiliary information reference unit 101, the first auxiliary information synthesis unit 102, the first image division unit 103, the statistic analysis unit 104, and the teacher data thinning unit The functions of 105 and the learning unit 106 are realized by the processing circuit 901. That is, the learning device 10 includes a processing circuit 901 for controlling a process of generating a machine learning model 40 for detecting an object from a target image by executing learning using teacher data and auxiliary information. ..
- the image acquisition unit 500, the second auxiliary information reference unit 501, the second auxiliary information synthesis unit 502, the second image division unit 503, the inference unit 504, and the detection result integration unit 505 The function of the detection result output unit 506 is realized by the processing circuit 901. That is, the inference device 50 includes a processing circuit 901 for acquiring the target image and auxiliary information and controlling the process of detecting the object from the target image by using the machine learning model 40.
- the processing circuit 901 may be dedicated hardware as shown in FIG. 9A, or may be a CPU (Central Processing Unit) 905 that executes a program stored in the memory 906 as shown in FIG. 9B.
- CPU Central Processing Unit
- the processing circuit 901 may be, for example, a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, an ASIC (Application Specific Integrated Circuit), or an FPGA (Field-Programmable). Gate Array) or a combination of these is applicable.
- the processing circuit 901 is the CPU 905, the teacher data acquisition unit 100, the first auxiliary information reference unit 101, the first auxiliary information synthesis unit 102, the first image division unit 103, the statistic analysis unit 104, and the teacher data
- the functions of the unit 505 and the detection result output unit 506 are realized by software, firmware, or a combination of software and firmware.
- the teacher data acquisition unit 100 the first auxiliary information reference unit 101, the first auxiliary information synthesis unit 102, the first image division unit 103, the statistic analysis unit 104, the teacher data thinning unit 105, and learning.
- Unit 106 image acquisition unit 500, second auxiliary information reference unit 501, second auxiliary information synthesis unit 502, second image division unit 503, inference unit 504, detection result integration unit 505, and detection result.
- the output unit 506 is realized by a processing circuit such as an HDD (Hard Disk Drive) 902, a CPU 905 that executes a program stored in a memory 906 or the like, or a system LSI (Large-Scale Integration). Further, the programs stored in the HDD 902, the memory 906, etc.
- HDD Hard Disk Drive
- LSI Large-Scale Integration
- the computer is made to execute the procedures and methods of the unit 504, the detection result integration unit 505, and the detection result output unit 506.
- the memory 906 is, for example, a RAM (Random Access Memory), a ROM (Read Only Memory), a flash memory, an EPROM (Erasable Programmable Lead Online Memory), an EEPROM (Electric Memory), or an EEPROM (Electric Memory).
- RAM Random Access Memory
- ROM Read Only Memory
- flash memory an EPROM (Erasable Programmable Lead Online Memory)
- EEPROM Electrical Memory
- EEPROM Electrical Memory
- the functions of the unit 105 and the learning unit 106 may be partially realized by dedicated hardware and partly realized by software or firmware.
- the teacher data acquisition unit 100 and the first auxiliary information reference unit 101 are realized by the processing circuit 901 as dedicated hardware, and the first auxiliary information synthesis unit 102, the first image division unit 103, and the first image division unit 103.
- the functions of the statistic analysis unit 104, the teacher data thinning unit 105, and the learning unit 106 can be realized by the processing circuit reading and executing the program stored in the memory 906.
- the image acquisition unit 500, the second auxiliary information reference unit 501, the second auxiliary information synthesis unit 502, the second image division unit 503, the inference unit 504, and the detection result integration unit 505 may be partially realized by dedicated hardware and partly realized by software or firmware.
- the image acquisition unit 500 and the detection result output unit 506 are realized by the processing circuit 901 as dedicated hardware, and the second auxiliary information reference unit 501, the second auxiliary information synthesis unit 502, and the second
- the functions of the image division unit 503, the inference unit 504, and the detection result integration unit 505 can be realized by the processing circuit reading and executing the program stored in the memory 906.
- the learning device 10 and the inference device 50 include an input interface device 903 and an output interface device 904 that communicate with an external device such as a display device.
- a machine learning model 40 is created by learning using a first auxiliary information synthesis unit 102 that generates a composite teacher image that reflects the auxiliary information acquired by 101 in a teacher image and a composite teacher image generated by the first auxiliary information synthesis unit 102. It is configured to include a learning unit 106 to be generated. Therefore, it is possible to generate a machine learning model in consideration of auxiliary information without using a machine learning model in which auxiliary information is used as an input parameter.
- the object detection device 1 includes the above-mentioned learning device 10, a target image, a second auxiliary information reference unit 501 for acquiring auxiliary information corresponding to the target image, and a second auxiliary information.
- a second auxiliary information synthesis unit 502 that generates a synthesis target image that reflects the auxiliary information acquired by the reference unit 501 in the target image, and an inference unit 504 that detects an object by inputting the synthesis target image into the machine learning model 40. It is configured to be prepared. Therefore, it is possible to detect an object in consideration of the auxiliary information without using a machine learning model that uses the auxiliary information as an input parameter.
- the object detection device is configured to be able to generate a machine learning model in consideration of auxiliary information without using a machine learning model in which auxiliary information is used as an input parameter, it is a machine for detecting an object. It can be applied to a learning device that generates a learning model.
- 1 object detection device 10 learning device, 20 1st auxiliary information DB, 40 machine learning model, 50 inference device, 60 2nd auxiliary information DB, 100 teacher data acquisition unit, 101 1st auxiliary information reference unit, 102 1st auxiliary Information synthesis unit, 103 1st image division unit, 104 statistics analysis unit, 105 teacher data thinning unit, 106 learning unit, 500 image acquisition unit, 501 2nd auxiliary information reference unit, 502 2nd auxiliary information synthesis unit, 503rd 2 image division unit, 504 inference unit, 505 detection result integration unit, 506 detection result output unit, 901 processing circuit, 902 HDD, 903 input interface device, 904 output interface device, 905 CPU, 906 memory.
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
物体が撮像された教師画像、および、物体に対応する補助情報を取得する第1補助情報参照部(101)と、第1補助情報参照部(101)が取得した補助情報を教師画像に反映した合成教師画像を生成する第1補助情報合成部(102)と、第1補助情報合成部(102)が生成した合成教師画像を用いた学習により機械学習モデル(40)を生成する学習部(106)を備えた。
Description
この発明は、機械学習モデルを生成する学習装置、学習方法、および、機械学習を用いた物体検出装置に関するものである。
機械学習を用いて対象画像から特定の物体(以下、「特定の物体」のことを単に「物体」という。)を検出する物体検出装置が知られている。対象画像とは、物体が撮像されている可能性がある画像であり、物体検出装置が物体を検出する対象となる画像である。例えば、特許文献1には、空中撮像画像内の移動車両を識別する出力を生成するための機械学習モデルを使用した移動車両分析システムが開示されている。
対象画像とともに機械学習モデルへ入力した場合に、物体の検出精度を向上させることができる情報(以下「補助情報」という。)が存在する。補助情報として、例えば、GIS(Geographic Information System)情報がある。
しかしながら、従来、機械学習において補助情報を用いるためには、例えば、対象画像のみを入力パラメータとする機械学習モデルをそのまま用いることはできず、対象画像および補助情報の両方を入力パラメータとする機械学習モデルを改めて設計する必要があるという課題があった。
しかしながら、従来、機械学習において補助情報を用いるためには、例えば、対象画像のみを入力パラメータとする機械学習モデルをそのまま用いることはできず、対象画像および補助情報の両方を入力パラメータとする機械学習モデルを改めて設計する必要があるという課題があった。
この発明は上記のような課題を解決するためになされたもので、補助情報を入力パラメータとする機械学習モデルを用いることなく、補助情報を考慮した機械学習モデルを生成することができる学習装置を提供することを目的としている。
この発明に係る学習装置は、物体が撮像された教師画像、および、物体に対応する補助情報を取得する第1補助情報参照部と、第1補助情報参照部が取得した補助情報を教師画像に反映した合成教師画像を生成する第1補助情報合成部と、第1補助情報合成部が生成した合成教師画像を用いた学習により機械学習モデルを生成する学習部を備えたものである。
この発明によれば、補助情報を入力パラメータとする機械学習モデルを用いることなく、補助情報を考慮した機械学習モデルを生成することができる。
以下、この発明の実施の形態について、図面を参照しながら詳細に説明する。
実施の形態1.
実施の形態1.
実施の形態1において、物体検出装置1は、教師データと補助情報とを用いて学習を実行し、機械学習モデルを生成する。そして、物体検出装置1は、物体を検出する対象となる対象画像を取得し、機械学習モデルを用いて当該対象画像から物体を検出する。実施の形態1では、物体として、ボートが想定されている。また、実施の形態1では、対象画像および後述する教師画像として、衛星画像、ドローン空撮画像、または、航空機画像等が想定されている。
以下の実施の形態1では、物体検出装置1は、水上を航行中のボートまたは水上で出発準備中のボートを対象画像から検出するものとする。
以下の実施の形態1では、物体検出装置1は、水上を航行中のボートまたは水上で出発準備中のボートを対象画像から検出するものとする。
図1は、実施の形態1に係る物体検出装置1の構成例を示す図である。
物体検出装置1は、学習装置10、第1補助情報DB20、機械学習モデル40、推論装置50、および、第2補助情報DB60を備える。
物体検出装置1は、学習装置10、第1補助情報DB20、機械学習モデル40、推論装置50、および、第2補助情報DB60を備える。
学習装置10は、物体検出装置1において、機械学習における学習を実行する装置であり、例えば、高性能なワークステーションから成る。
学習装置10は、教師データと補助情報とを用いて、学習を実行する。学習装置10は、学習により、対象画像から物体を検出するための機械学習モデル40を生成する。
学習装置10は、教師データ取得部100、第1補助情報参照部101、第1補助情報合成部102、第1画像分割部103、統計量解析部104、教師データ間引き部105、および、学習部106を備える。
学習装置10は、教師データと補助情報とを用いて、学習を実行する。学習装置10は、学習により、対象画像から物体を検出するための機械学習モデル40を生成する。
学習装置10は、教師データ取得部100、第1補助情報参照部101、第1補助情報合成部102、第1画像分割部103、統計量解析部104、教師データ間引き部105、および、学習部106を備える。
教師データ取得部100は、教師データを取得する。なお、教師データは、予め用意されており、例えば、学習装置10が参照可能な場所に記憶されている。
実施の形態1において、教師データは、複数の、物体が撮像された画像(以下「教師画像」という。)を含む。また、教師データは、複数の教師画像のうちの各教師画像に対応づけられた、当該各教師画像上の物体に関するテキスト情報を含む。対象物に関するテキスト情報とは、例えば、物体の、教師画像上の位置情報である。教師画像上の物体の位置は、例えば、物体の矩形に基づいてあらわされる。物体の矩形とは、例えば、教師画像上で物体を囲む最小矩形である。実施の形態1では、物体をボートとしているので、例えば、教師画像上でボートを囲む最小矩形の4つの頂点を示すピクセル位置(x,y)が、物体の、教師画像上の位置情報となる。
なお、1つの教師画像上に存在する物体は1つとは限らない。1つの教師画像上に複数の物体が存在する場合、教師データには、1つの教師画像と対応付けて、複数の物体それぞれに関するテキスト情報が含まれる。例えば、1つの教師画像上にボートが2艘存在していれば、当該2艘のボートの矩形の4つの頂点が2組で、合計8つの頂点を示すピクセル位置が、ボートの位置情報として教師データに含まれる。
教師画像のメタデータには、教師画像に撮像されている地点または領域を示す位置情報(以下「第1撮像位置情報」という。)が含まれている。第1撮像位置情報は、具体的には、例えば、教師画像に撮像されている地点または領域を示す、緯度および経度の情報である。
教師データ取得部100は、取得した教師データを、第1補助情報参照部101および学習部106に出力する。
実施の形態1において、教師データは、複数の、物体が撮像された画像(以下「教師画像」という。)を含む。また、教師データは、複数の教師画像のうちの各教師画像に対応づけられた、当該各教師画像上の物体に関するテキスト情報を含む。対象物に関するテキスト情報とは、例えば、物体の、教師画像上の位置情報である。教師画像上の物体の位置は、例えば、物体の矩形に基づいてあらわされる。物体の矩形とは、例えば、教師画像上で物体を囲む最小矩形である。実施の形態1では、物体をボートとしているので、例えば、教師画像上でボートを囲む最小矩形の4つの頂点を示すピクセル位置(x,y)が、物体の、教師画像上の位置情報となる。
なお、1つの教師画像上に存在する物体は1つとは限らない。1つの教師画像上に複数の物体が存在する場合、教師データには、1つの教師画像と対応付けて、複数の物体それぞれに関するテキスト情報が含まれる。例えば、1つの教師画像上にボートが2艘存在していれば、当該2艘のボートの矩形の4つの頂点が2組で、合計8つの頂点を示すピクセル位置が、ボートの位置情報として教師データに含まれる。
教師画像のメタデータには、教師画像に撮像されている地点または領域を示す位置情報(以下「第1撮像位置情報」という。)が含まれている。第1撮像位置情報は、具体的には、例えば、教師画像に撮像されている地点または領域を示す、緯度および経度の情報である。
教師データ取得部100は、取得した教師データを、第1補助情報参照部101および学習部106に出力する。
第1補助情報参照部101は、第1補助情報DB20を参照して、教師データ取得部100が取得した教師画像のメタデータに含まれている、第1撮像位置情報に基づき、第1補助情報DB20から補助情報を取得する。
実施の形態1において、補助情報とは、教師画像または対象画像に撮像されている地点または領域に関連した情報である。補助情報は、例えば、水域地図、地形図、陸域地図、道路地図、土地被覆地図、または、過去に、教師画像若しくは対象画像に撮像されている地点若しくは領域と同じ地点若しくは領域が撮像された画像である。補助情報には、それぞれ、地理情報が付与されている。地理情報とは、例えば、緯度、経度および標高の情報であり、当該地理情報に基づいて、当該地理情報に地理的に対応する範囲の補助情報が特定される。
第1補助情報DB20には、補助情報が記憶されている。
第1補助情報参照部101が、どのような種類の補助情報を取得するかは、物体に応じて予め決められている。例えば、ボートに対しては、水域地図等の、水域に関する情報を補助情報とすると予め決められている。従って、ここでは、第1補助情報参照部101は、第1補助情報DB20を参照して、水域に関する情報を取得する。
第1補助情報参照部101は、教師データと、取得した補助情報とを第1補助情報合成部102に出力する。
実施の形態1において、補助情報とは、教師画像または対象画像に撮像されている地点または領域に関連した情報である。補助情報は、例えば、水域地図、地形図、陸域地図、道路地図、土地被覆地図、または、過去に、教師画像若しくは対象画像に撮像されている地点若しくは領域と同じ地点若しくは領域が撮像された画像である。補助情報には、それぞれ、地理情報が付与されている。地理情報とは、例えば、緯度、経度および標高の情報であり、当該地理情報に基づいて、当該地理情報に地理的に対応する範囲の補助情報が特定される。
第1補助情報DB20には、補助情報が記憶されている。
第1補助情報参照部101が、どのような種類の補助情報を取得するかは、物体に応じて予め決められている。例えば、ボートに対しては、水域地図等の、水域に関する情報を補助情報とすると予め決められている。従って、ここでは、第1補助情報参照部101は、第1補助情報DB20を参照して、水域に関する情報を取得する。
第1補助情報参照部101は、教師データと、取得した補助情報とを第1補助情報合成部102に出力する。
第1補助情報合成部102は、第1補助情報参照部101から出力された教師データおよび補助情報に基づき、補助情報と教師画像を合成する。具体的には、第1補助情報合成部102は、例えば、教師画像において、水域に該当する箇所以外の箇所の画素を、特定の色で塗りつぶすことでマスクした画像を生成する。実施の形態1において、第1補助情報合成部102が補助情報と教師画像を合成して生成した画像を、「合成教師画像」ともいう。ここでは、一例として、第1補助情報合成部102は、教師画像において、水域に該当する箇所以外の箇所の画素を、黒色で塗りつぶすものとする。
なお、上述のとおり、補助情報は、第1撮像位置情報に基づき取得されたものであり、教師画像に撮像されている地点または領域と、地理的に対応した情報である。従って、第1補助情報合成部102は、補助情報に基づき、教師画像上で水域に該当する箇所を特定することができる。
なお、上述のとおり、補助情報は、第1撮像位置情報に基づき取得されたものであり、教師画像に撮像されている地点または領域と、地理的に対応した情報である。従って、第1補助情報合成部102は、補助情報に基づき、教師画像上で水域に該当する箇所を特定することができる。
図2は、実施の形態1において、第1補助情報合成部102が、補助情報と教師画像とを合成して合成教師画像を生成するイメージの一例を説明するための図である。
図2では、教師画像は、ボートが浮かんでいる水際を撮像した空撮画像とし、補助情報は、水域に関する情報としている。図2において、水域を、201で示している。
第1補助情報合成部102が、教師画像と補助情報を合成すると、合成教師画像は、201で示す水域を表す範囲以外の範囲の画素が、黒色に塗りつぶされた画像となる。
なお、補助情報が、1枚の教師画像に撮像されている領域の一部に対して存在しない場合には、当該一部の領域については、例えば、上記水域に該当する箇所を特定できない場合もあり得る。
図2では、教師画像は、ボートが浮かんでいる水際を撮像した空撮画像とし、補助情報は、水域に関する情報としている。図2において、水域を、201で示している。
第1補助情報合成部102が、教師画像と補助情報を合成すると、合成教師画像は、201で示す水域を表す範囲以外の範囲の画素が、黒色に塗りつぶされた画像となる。
なお、補助情報が、1枚の教師画像に撮像されている領域の一部に対して存在しない場合には、当該一部の領域については、例えば、上記水域に該当する箇所を特定できない場合もあり得る。
第1補助情報合成部102は、教師画像を合成教師画像に置き換えた教師データ(以下「合成教師データ」という。)を、第1画像分割部103に出力する。
なお、第1補助情報合成部102は、第1補助情報参照部101から補助情報が出力されず、教師画像と合成する補助情報が存在しなかった場合は、教師データをそのまま合成教師データとして、第1画像分割部103に出力する。
なお、第1補助情報合成部102は、第1補助情報参照部101から補助情報が出力されず、教師画像と合成する補助情報が存在しなかった場合は、教師データをそのまま合成教師データとして、第1画像分割部103に出力する。
第1画像分割部103は、合成教師データに含まれる合成教師画像のサイズが大きい場合に、当該合成教師画像を、予め決められたサイズに分割する。例えば、第1画像分割部103は、合成教師画像を、256×256のサイズに分割する。
以下、第1画像分割部103によって小さいサイズに分割された合成教師画像を、「小教師画像」という。
以下、第1画像分割部103によって小さいサイズに分割された合成教師画像を、「小教師画像」という。
図3は、実施の形態1において、第1画像分割部103が、小教師画像に分割する前の合成教師画像と、小教師画像に分割した後の合成教師画像のイメージの一例を説明するための図である。
図3では、合成教師画像のサイズが1024×2048であったとし、第1画像分割部103は、合成教師画像を、256×256のサイズの小教師画像に分割するものとしている。
第1画像分割部103が合成教師画像を分割した結果、合成教師画像は、32枚の小教師画像に分割される。
このとき、第1画像分割部103は、小教師画像上に物体が存在する場合、小教師画像上の物体の位置情報を、小教師画像に付与しておくようにする。第1画像分割部103は、小教師画像上の物体の位置情報を、合成教師画像に対応付けられている物体の位置情報から判断すればよい。
第1画像分割部103は、小教師画像に分割した後の合成教師データを、統計量解析部104に出力する。
図3では、合成教師画像のサイズが1024×2048であったとし、第1画像分割部103は、合成教師画像を、256×256のサイズの小教師画像に分割するものとしている。
第1画像分割部103が合成教師画像を分割した結果、合成教師画像は、32枚の小教師画像に分割される。
このとき、第1画像分割部103は、小教師画像上に物体が存在する場合、小教師画像上の物体の位置情報を、小教師画像に付与しておくようにする。第1画像分割部103は、小教師画像上の物体の位置情報を、合成教師画像に対応付けられている物体の位置情報から判断すればよい。
第1画像分割部103は、小教師画像に分割した後の合成教師データを、統計量解析部104に出力する。
統計量解析部104は、第1画像分割部103から出力された合成教師データについて、小教師画像の特性ごとに当該小教師画像を分類し、分類毎の小教師画像の枚数をカウントする。
実施の形態1では、一例として、統計量解析部104は、小教師画像を、「補助情報合成有り、かつ、物体有り」、「補助情報合成有り、かつ、物体無し」、「補助情報合成無し、かつ、物体有り」、または、「補助情報合成無し、かつ、物体無し」の4パターンに分類するものとする。なお、これは一例に過ぎず、統計量解析部104は、適宜のパターンに小教師画像を分類可能である。
統計量解析部104は、小教師画像の枚数をカウントした結果に関する情報を、合成教師データとともに、教師データ間引き部105に出力する。このとき、統計量解析部104は、小教師画像に対して、どの分類に分類分けされたかの情報を付与するようにする。
実施の形態1では、一例として、統計量解析部104は、小教師画像を、「補助情報合成有り、かつ、物体有り」、「補助情報合成有り、かつ、物体無し」、「補助情報合成無し、かつ、物体有り」、または、「補助情報合成無し、かつ、物体無し」の4パターンに分類するものとする。なお、これは一例に過ぎず、統計量解析部104は、適宜のパターンに小教師画像を分類可能である。
統計量解析部104は、小教師画像の枚数をカウントした結果に関する情報を、合成教師データとともに、教師データ間引き部105に出力する。このとき、統計量解析部104は、小教師画像に対して、どの分類に分類分けされたかの情報を付与するようにする。
教師データ間引き部105は、統計量解析部104が小教師画像の枚数をカウントした結果に基づき、偏りのある分類に属する小教師画像を、間引く。具体的には、教師データ間引き部105は、合成教師データに含まれる小教師画像について、各分類に属する小教師画像が理想的な比率になるように、画像数が多い分類に属する小教師画像を取り出し、破棄する。これにより、教師データ間引き部105は、不要な小教師画像の間引きを行う。
なお、各分類に属する小教師画像の理想的な比率は、ユーザ等によって、適宜設定されるものとする。理想的な比率の例としては、上述の4パターンに小教師画像が分類分けされるものとすると、「補助情報合成有り、かつ、物体有り」:「補助情報合成有り、かつ、物体無し」:「補助情報合成無し、かつ、物体有り」:「補助情報合成無し、かつ、物体無し」が、「1:1:1:1」、「1:3:1:3」、または、「2:6:1:3」等が挙げられる。
なお、各分類に属する小教師画像の理想的な比率は、ユーザ等によって、適宜設定されるものとする。理想的な比率の例としては、上述の4パターンに小教師画像が分類分けされるものとすると、「補助情報合成有り、かつ、物体有り」:「補助情報合成有り、かつ、物体無し」:「補助情報合成無し、かつ、物体有り」:「補助情報合成無し、かつ、物体無し」が、「1:1:1:1」、「1:3:1:3」、または、「2:6:1:3」等が挙げられる。
図4は、実施の形態1において、教師データ間引き部105が行う、小教師画像の間引きのイメージの一例について説明するための図である。
図4では、一例として、教師データ間引き部105は、統計量解析部104が上述の4パターンに分類した後の小教師画像を間引くものとしている。また、図4では、教師データ間引き部105は、各分類に属する小教師画像の枚数が「1:1:1:1」の比率となるように、小教師画像を間引くものとしている。
図4では、「補助情報合成有り、かつ、物体無し」および「補助情報合成無し、かつ、物体無し」の分類に属する小教師画像が多い。そこで、教師データ間引き部105は、「補助情報合成有り、かつ、物体有り」および「補助情報合成無し、かつ、物体有り」の分類に属する小画像の枚数と同じ枚数になるまで、「補助情報合成有り、かつ、物体無し」および「補助情報合成無し、かつ、物体無し」の分類に属する小教師画像を間引く。
教師データ間引き部105は、間引き後の合成教師データを、学習部106に出力する。
図4では、一例として、教師データ間引き部105は、統計量解析部104が上述の4パターンに分類した後の小教師画像を間引くものとしている。また、図4では、教師データ間引き部105は、各分類に属する小教師画像の枚数が「1:1:1:1」の比率となるように、小教師画像を間引くものとしている。
図4では、「補助情報合成有り、かつ、物体無し」および「補助情報合成無し、かつ、物体無し」の分類に属する小教師画像が多い。そこで、教師データ間引き部105は、「補助情報合成有り、かつ、物体有り」および「補助情報合成無し、かつ、物体有り」の分類に属する小画像の枚数と同じ枚数になるまで、「補助情報合成有り、かつ、物体無し」および「補助情報合成無し、かつ、物体無し」の分類に属する小教師画像を間引く。
教師データ間引き部105は、間引き後の合成教師データを、学習部106に出力する。
学習部106は、教師データ間引き部105から出力された間引き後の合成教師データと、教師データ取得部100が取得した教師データとを、所定の比率で混ぜた上で学習を実行し、機械学習モデル40を生成する。なお、学習部106は、教師データ間引き部105から出力された間引き後の合成教師データと、教師データ取得部100が取得した教師データとを混ぜる際、教師データに含まれる教師画像を、小教師画像と同じサイズに分割する。学習部106が、合成教師データと教師データとを混ぜた上で学習を実行するのは、補助情報の有無にかかわらず、推論装置50における推論の際に、1つの機械学習モデル40での推論を可能とするためである。また、補助情報が必ず存在する場合であっても、第1補助情報参照部101が、必ずしも、教師画像と紐づく補助情報を取得できるとも限らない。学習部106は、合成教師データと教師データとを混ぜた上で学習を実行することで、機械学習モデル40のロバスト性を向上させることができる。
機械学習モデル40は、学習部106が学習時に使用したネットワーク構造および調整後のパラメータを保持する。
実施の形態1において、機械学習モデル40は、YOLO(You Only Look Once)またはSSD(Single Shot Detection)等の、物体検出型のニューラルネットワーク等を想定している。
機械学習モデル40は、学習部106が学習時に使用したネットワーク構造および調整後のパラメータを保持する。
実施の形態1において、機械学習モデル40は、YOLO(You Only Look Once)またはSSD(Single Shot Detection)等の、物体検出型のニューラルネットワーク等を想定している。
第1補助情報DB20は、補助情報を記憶するデータベースである。
推論装置50は、物体検出装置1において、機械学習における推論を実行する装置であり、例えば、高性能なワークステーションから成る。実施の形態1において、推論装置50は、対象画像に物体が撮像されているか否かを推論する。また、実施の形態1において、推論装置50は、物体が存在すると推論された場合に、物体の位置およびサイズを検出する。
推論装置50は、対象画像および第2補助情報DB60に記憶されている補助情報を取得し、学習装置10が生成した機械学習モデル40を用いて、対象画像中の物体の有無を推論して、対象画像中の物体の位置およびサイズを検出する。
なお、図1では、物体検出装置1は、学習装置10および推論装置50をそれぞれ備えるものとしたが、これは一例に過ぎない。物体検出装置は、学習装置10および推論装置50が統合された装置を備えるようにしてもよい。ただし、学習装置10と推論装置50に求められる仕様は互いに異なり、一般的に、学習装置10の方が高い処理性能が必要とされる。
推論装置50は、画像取得部500、第2補助情報参照部501、第2補助情報合成部502、第2画像分割部503、推論部504、検出結果統合部505、および、検出結果出力部506を備える。
推論装置50は、対象画像および第2補助情報DB60に記憶されている補助情報を取得し、学習装置10が生成した機械学習モデル40を用いて、対象画像中の物体の有無を推論して、対象画像中の物体の位置およびサイズを検出する。
なお、図1では、物体検出装置1は、学習装置10および推論装置50をそれぞれ備えるものとしたが、これは一例に過ぎない。物体検出装置は、学習装置10および推論装置50が統合された装置を備えるようにしてもよい。ただし、学習装置10と推論装置50に求められる仕様は互いに異なり、一般的に、学習装置10の方が高い処理性能が必要とされる。
推論装置50は、画像取得部500、第2補助情報参照部501、第2補助情報合成部502、第2画像分割部503、推論部504、検出結果統合部505、および、検出結果出力部506を備える。
画像取得部500は、対象画像を取得する。なお、対象画像は、予め用意されており、例えば、推論装置50が参照可能な場所に記憶されている。
対象画像のメタデータには、対象画像に撮像されている地点または領域を示す位置情報(以下「第2撮像位置情報」という。)が含まれている。第2撮像位置情報は、具体的には、例えば、対象画像に撮像されている地点または領域を示す、緯度および経度の情報である。
画像取得部500は、取得した対象画像を、第2補助情報参照部501に出力する。
第2補助情報参照部501は、第2補助情報DB60を参照して、画像取得部500が取得した対象画像のメタデータに含まれている、第2撮像位置情報に基づき、第2補助情報DB60から補助情報を取得する。
第2補助情報参照部501が、どのような種類の補助情報を取得するかは、物体に応じて予め決められている。ここでは、物体としてボートが想定されているため、第2補助情報参照部501は、第2補助情報DB60を参照して、水域に関する情報を取得する。
第2補助情報参照部501は、取得した補助情報を、対象画像と対応付けて、第2補助情報合成部502に出力する。
第2補助情報参照部501は、補助情報を取得できなかった場合は、対象画像をそのまま、第2補助情報合成部502に出力する。
対象画像のメタデータには、対象画像に撮像されている地点または領域を示す位置情報(以下「第2撮像位置情報」という。)が含まれている。第2撮像位置情報は、具体的には、例えば、対象画像に撮像されている地点または領域を示す、緯度および経度の情報である。
画像取得部500は、取得した対象画像を、第2補助情報参照部501に出力する。
第2補助情報参照部501は、第2補助情報DB60を参照して、画像取得部500が取得した対象画像のメタデータに含まれている、第2撮像位置情報に基づき、第2補助情報DB60から補助情報を取得する。
第2補助情報参照部501が、どのような種類の補助情報を取得するかは、物体に応じて予め決められている。ここでは、物体としてボートが想定されているため、第2補助情報参照部501は、第2補助情報DB60を参照して、水域に関する情報を取得する。
第2補助情報参照部501は、取得した補助情報を、対象画像と対応付けて、第2補助情報合成部502に出力する。
第2補助情報参照部501は、補助情報を取得できなかった場合は、対象画像をそのまま、第2補助情報合成部502に出力する。
第2補助情報合成部502は、第2補助情報参照部501から出力された対象画像に基づき、対象画像に補助情報が対応付けられている場合、補助情報と対象画像とを合成する。具体的には、第2補助情報合成部502は、例えば、対象画像において、水域に該当する箇所以外の画素を、特定の色で塗りつぶしてマスクした画像を生成する。実施の形態1において、第2補助情報合成部502が補助情報と対象画像を合成して生成した画像を、「合成対象画像」ともいう。ここでは、一例として、第2補助情報合成部502は、合成対象画像において、水域に該当する箇所以外の箇所の画素を、黒色で塗りつぶすものとする。第2補助情報合成部502が、対象画像と補助情報を合成する方法は、適宜の方法とすることが可能であるが、第1補助情報合成部102が、補助情報と教師画像を合成する方法とあわせる必要がある。
なお、上述のとおり、補助情報は、第2撮像位置情報に基づき取得されたものであり、対象画像に撮像されている地点または領域と、地理的に対応した情報である。従って、第2補助情報合成部502は、補助情報に基づき、対象画像上で水域に該当する箇所を特定することができる。
第2補助情報合成部502は、合成対象画像を、第2画像分割部503に出力する。
このとき、第2補助情報合成部502は、合成対象画像とともに、対象画像も、第2画像分割部503に出力するものとする。
第2補助情報合成部502は、対象画像に補助情報が対応づけられていない場合、対象画像のみを、そのまま、第2画像分割部503に出力する。
なお、上述のとおり、補助情報は、第2撮像位置情報に基づき取得されたものであり、対象画像に撮像されている地点または領域と、地理的に対応した情報である。従って、第2補助情報合成部502は、補助情報に基づき、対象画像上で水域に該当する箇所を特定することができる。
第2補助情報合成部502は、合成対象画像を、第2画像分割部503に出力する。
このとき、第2補助情報合成部502は、合成対象画像とともに、対象画像も、第2画像分割部503に出力するものとする。
第2補助情報合成部502は、対象画像に補助情報が対応づけられていない場合、対象画像のみを、そのまま、第2画像分割部503に出力する。
第2画像分割部503は、第2補助情報合成部502から出力された、対象画像または合成対象画像を、予め決められたサイズに分割する。
具体的には、第2画像分割部503は、第2補助情報合成部502から対象画像のみが出力された場合は、対象画像を、予め決められたサイズに分割する。第2画像分割部503は、第2補助情報合成部502から、対象画像とともに合成対象画像が出力された場合は、合成対象画像を、予め決められたサイズに分割する。以下、第2画像分割部503によって分割された対象画像または合成対象画像を、「小対象画像」という。
具体的には、第2画像分割部503は、第2補助情報合成部502から対象画像のみが出力された場合は、対象画像を、予め決められたサイズに分割する。第2画像分割部503は、第2補助情報合成部502から、対象画像とともに合成対象画像が出力された場合は、合成対象画像を、予め決められたサイズに分割する。以下、第2画像分割部503によって分割された対象画像または合成対象画像を、「小対象画像」という。
第2画像分割部503が対象画像または合成対象画像を分割する具体的な方法の一例について説明する。以下では、第2画像分割部503が合成対象画像を分割する方法の一例として説明するが、第2画像分割部503が対象画像を分割する方法も合成対象画像を分割する方法と同様である。
図5は、実施の形態1において、第2画像分割部503が、小対象画像に分割する前の合成対象画像と、小対象画像に分割した後の合成対象画像のイメージの一例を説明するための図である。
図5では、合成対象画像のサイズが1024×2048であったとし、第2画像分割部503は、合成対象画像を、256×256のサイズの小対象画像に分割するものとしている。
実施の形態1において、第2画像分割部503が合成対象画像を分割した結果、合成対象画像は、例えば、53枚の小対象画像に分割される。第2画像分割部503が、合成対象画像に基づき、合成対象画像を分割してできた小対象画像同士の間にオーバーラップが発生するような小対象画像を作成するのは、合成対象画像を分割してできた小対象画像同士の境界に存在する物体が検出されないことを防ぐためである。
図5では、合成対象画像のサイズが1024×2048であったとし、第2画像分割部503は、合成対象画像を、256×256のサイズの小対象画像に分割するものとしている。
実施の形態1において、第2画像分割部503が合成対象画像を分割した結果、合成対象画像は、例えば、53枚の小対象画像に分割される。第2画像分割部503が、合成対象画像に基づき、合成対象画像を分割してできた小対象画像同士の間にオーバーラップが発生するような小対象画像を作成するのは、合成対象画像を分割してできた小対象画像同士の境界に存在する物体が検出されないことを防ぐためである。
第2画像分割部503は、対象画像と、対象画像を分割してできた小対象画像または合成対象画像を分割してできた小対象画像とを、推論部504に出力する。
推論部504は、第2画像分割部503が分割した小対象画像を入力として、機械学習モデル40を用いて、小対象画像上の物体の有無を推論し、小対象画像上に物体が存在する場合、物体の位置およびサイズを検出する。
ただし、推論部504は、明らかに推論が不要な小対象画像があれば、当該小対象画像については、推論対象外として推論を行わないことも可能である。明らかに推論が不要な小対象画像とは、ここでは、画像全面が水域ではないと判断可能な小対象画像である。
例えば、水上を航行中、または、水上で出発準備中のボートを検出する場合には、陸上のボートは検出の対象外となる。従って、推論部504は、例えば、画像全面が陸である小対象画像については、推論を行わなくてもよい。推論部504は、画像全面が陸であることを、例えば、小対象画像の全面が黒く塗りつぶしがされていることで判断すればよい。推論部504が、明らかに推論が不要な小対象画像について推論を行わない場合、推論部504は、補助情報、言い換えれば、水域に関する情報に基づき、小対象画像の全面が黒く塗りつぶされた小対象画像以外の小対象画像に対して、推論を行う。
推論部504は、全ての小対象画像を入力とした推論、または、推論対象外の小対象画像以外の全ての小対象画像を入力した推論を行うと、対象画像と、小対象画像毎の推論結果とを、検出結果統合部505に出力する。
ただし、推論部504は、明らかに推論が不要な小対象画像があれば、当該小対象画像については、推論対象外として推論を行わないことも可能である。明らかに推論が不要な小対象画像とは、ここでは、画像全面が水域ではないと判断可能な小対象画像である。
例えば、水上を航行中、または、水上で出発準備中のボートを検出する場合には、陸上のボートは検出の対象外となる。従って、推論部504は、例えば、画像全面が陸である小対象画像については、推論を行わなくてもよい。推論部504は、画像全面が陸であることを、例えば、小対象画像の全面が黒く塗りつぶしがされていることで判断すればよい。推論部504が、明らかに推論が不要な小対象画像について推論を行わない場合、推論部504は、補助情報、言い換えれば、水域に関する情報に基づき、小対象画像の全面が黒く塗りつぶされた小対象画像以外の小対象画像に対して、推論を行う。
推論部504は、全ての小対象画像を入力とした推論、または、推論対象外の小対象画像以外の全ての小対象画像を入力した推論を行うと、対象画像と、小対象画像毎の推論結果とを、検出結果統合部505に出力する。
検出結果統合部505は、推論部504から出力された、小対象画像毎の推論結果に基づき、対象画像に対する推論結果となるよう、小対象画像毎の推論結果を統合して、対象画像に対する推論結果を生成する。
例えば、オーバーラップがある状態で、小対象画像をそれぞれ入力画像として推論部504が推論を行うと、同じ物体が複数の小対象画像にうつりこんでいる場合に、当該物体をダブルカウントすることになる。そこで、同じ物体がダブルカウントされることを避けるため、検出結果統合部505が、小対象画像毎の推論結果を統合する。検出結果統合部505は、小対象画像の境界部分を考慮しながら、小対象画像毎の推論結果を統合する。このように小対象画像毎の推論結果を統合して生成された推論結果が、対象画像に対する推論結果となる。
検出結果統合部505は、対象画像と、当該対象画像に対する推論結果とを、検出結果出力部506に出力する。
例えば、オーバーラップがある状態で、小対象画像をそれぞれ入力画像として推論部504が推論を行うと、同じ物体が複数の小対象画像にうつりこんでいる場合に、当該物体をダブルカウントすることになる。そこで、同じ物体がダブルカウントされることを避けるため、検出結果統合部505が、小対象画像毎の推論結果を統合する。検出結果統合部505は、小対象画像の境界部分を考慮しながら、小対象画像毎の推論結果を統合する。このように小対象画像毎の推論結果を統合して生成された推論結果が、対象画像に対する推論結果となる。
検出結果統合部505は、対象画像と、当該対象画像に対する推論結果とを、検出結果出力部506に出力する。
検出結果出力部506は、検出結果統合部505から出力された対象画像と当該対象画像に対する推論結果に基づき、推論結果がユーザに目視可能となるような表示画面を示す表示データを、例えば、表示装置(図示省略)に出力する。表示装置は、例えば、物体検出装置1とネットワークを介して接続されている。検出結果出力部506は、具体的には、例えば、対象画像上で、物体を囲む矩形を重畳表示させる表示用データを生成し、表示装置に出力する。表示装置は、検出結果出力部506から出力された表示用データに従い、対象画像上に、物体を囲む矩形が重畳表示された画面を表示する。
第2補助情報DB60は、補助情報を記憶しているデータベースである。
なお、実施の形態1では、図1に示すように、第1補助情報DB20、第2補助情報DB60、および、機械学習モデル40は、物体検出装置1に備えられるものとするが、これに限らず、第1補助情報DB20、第2補助情報DB60、および、機械学習モデル40は、物体検出装置1の外部の、学習装置10または推論装置50が参照可能な場所に備えられるようにしてもよい。また、第1補助情報DB20と第2補助情報DB60とは、共通の1つの補助情報DBとして構成されていても良い。
実施の形態1に係る物体検出装置1の動作について説明する。
図6および図7は、実施の形態1に係る物体検出装置1の動作を説明するためのフローチャートである。図6は、実施の形態1に係る学習装置10の動作を説明するためのフローチャートであり、図7は、実施の形態1に係る推論装置50の動作を説明するためのフローチャートである。
まず、図6を用いて、学習装置10の動作について説明する。
教師データ取得部100は、教師データを取得し、取得した教師データを、第1補助情報参照部101および学習部106に出力する。
図6中の「p=1,教師画像数,1」は、学習装置10が、以下のステップST601~ステップST603の処理を、教師データに含まれる複数の教師画像の全てに対して順次行うことを示している。すなわち、以下のステップST601~ST603の処理の説明において、「教師画像」とは、現在、処理対象となっている、ある1つの教師画像を意味し、「教師データ」とは、当該1つの教師画像と当該教師画像に対応づけられたテキスト情報とを意味している。
第1補助情報参照部101は、第1補助情報DB20を参照して、教師データ取得部100が取得した教師画像のメタデータに含まれている第1撮像位置情報に基づき、第1補助情報DB20から補助情報を取得する(ステップST601)。ここでは、第1補助情報参照部101は、第1補助情報DB20を参照して、水域に関する情報を取得する。
第1補助情報参照部101は、教師データと、教師画像上の物体に対応する補助情報とを第1補助情報合成部102に出力する。
具体例を挙げると、第1補助情報参照部101は、補助情報として、水域に関する情報を取得し、教師データとともに、第1補助情報合成部102に出力する。
図6および図7は、実施の形態1に係る物体検出装置1の動作を説明するためのフローチャートである。図6は、実施の形態1に係る学習装置10の動作を説明するためのフローチャートであり、図7は、実施の形態1に係る推論装置50の動作を説明するためのフローチャートである。
まず、図6を用いて、学習装置10の動作について説明する。
教師データ取得部100は、教師データを取得し、取得した教師データを、第1補助情報参照部101および学習部106に出力する。
図6中の「p=1,教師画像数,1」は、学習装置10が、以下のステップST601~ステップST603の処理を、教師データに含まれる複数の教師画像の全てに対して順次行うことを示している。すなわち、以下のステップST601~ST603の処理の説明において、「教師画像」とは、現在、処理対象となっている、ある1つの教師画像を意味し、「教師データ」とは、当該1つの教師画像と当該教師画像に対応づけられたテキスト情報とを意味している。
第1補助情報参照部101は、第1補助情報DB20を参照して、教師データ取得部100が取得した教師画像のメタデータに含まれている第1撮像位置情報に基づき、第1補助情報DB20から補助情報を取得する(ステップST601)。ここでは、第1補助情報参照部101は、第1補助情報DB20を参照して、水域に関する情報を取得する。
第1補助情報参照部101は、教師データと、教師画像上の物体に対応する補助情報とを第1補助情報合成部102に出力する。
具体例を挙げると、第1補助情報参照部101は、補助情報として、水域に関する情報を取得し、教師データとともに、第1補助情報合成部102に出力する。
第1補助情報合成部102は、ステップST601にて第1補助情報参照部101から出力された教師データおよび補助情報に基づき、補助情報と教師画像を合成する(ステップST602)。具体的には、第1補助情報合成部102は、例えば、教師画像において、水域に該当する箇所以外の箇所の画素を、特定の色で塗りつぶした合成教師画像を生成する。
第1補助情報合成部102は、教師画像を合成教師画像に置き換えた合成教師データを、第1画像分割部103に出力する。
第1補助情報合成部102は、教師画像を合成教師画像に置き換えた合成教師データを、第1画像分割部103に出力する。
第1画像分割部103は、ステップST602において第1補助情報合成部102から出力された合成教師データに含まれる合成教師画像のサイズが大きい場合に、当該合成教師画像を、予め決められたサイズの小教師画像に分割する(ステップST603)。
第1画像分割部103は、小教師画像に分割した後の合成教師データを、統計量解析部104に出力する。
学習装置10は、以上のステップST601~ステップST603の処理を、教師データに含まれる複数の教師画像の全てに対して順次行う。
学習装置10は、教師データに含まれる複数の教師画像の全てに対してステップST601~ステップST603の処理を行うと、ステップST604の処理へ進む。
第1画像分割部103は、小教師画像に分割した後の合成教師データを、統計量解析部104に出力する。
学習装置10は、以上のステップST601~ステップST603の処理を、教師データに含まれる複数の教師画像の全てに対して順次行う。
学習装置10は、教師データに含まれる複数の教師画像の全てに対してステップST601~ステップST603の処理を行うと、ステップST604の処理へ進む。
統計量解析部104は、ステップST603にて第1画像分割部103から出力された合成教師データについて、小教師画像の特性ごとに当該小教師画像を分類し、分類毎の小教師画像の枚数をカウントする(ステップST604)。
統計量解析部104は、小教師画像の枚数をカウントした結果に関する情報を、合成教師データとともに、教師データ間引き部105に出力する。このとき、統計量解析部104は、小教師画像に対して、どの分類に分類分けされたかの情報を付与するようにする。
統計量解析部104は、小教師画像の枚数をカウントした結果に関する情報を、合成教師データとともに、教師データ間引き部105に出力する。このとき、統計量解析部104は、小教師画像に対して、どの分類に分類分けされたかの情報を付与するようにする。
教師データ間引き部105は、ステップST604にて統計量解析部104が小教師画像の枚数をカウントした結果に基づき、偏りのある分類に属する小教師画像を、間引く(ステップST605)。
教師データ間引き部105は、間引き後の合成教師データを、学習部106に出力する。
教師データ間引き部105は、間引き後の合成教師データを、学習部106に出力する。
学習部106は、ステップST605にて教師データ間引き部105から出力された間引き後の合成教師データと、ステップST601にて教師データ取得部100が取得した教師データとを、所定の比率で混ぜた上で学習を行い(ステップST606)、機械学習モデル40を生成する(ステップST607)。
次に、図7を用いて、推論装置50の動作について説明する。
画像取得部500は、対象画像を取得し、取得した対象画像を、第2補助情報参照部501に出力する。
第2補助情報参照部501は、第2補助情報DB60を参照して、画像取得部500が取得した対象画像のメタデータに含まれている第2撮像位置情報に基づき、第1補助情報DB20内の補助情報が参照可能かどうかを判定する(ステップST701)。ここでは、第2補助情報参照部501は、第2補助情報DB60内の水域に関する情報が参照可能かどうかを判定する。
画像取得部500は、対象画像を取得し、取得した対象画像を、第2補助情報参照部501に出力する。
第2補助情報参照部501は、第2補助情報DB60を参照して、画像取得部500が取得した対象画像のメタデータに含まれている第2撮像位置情報に基づき、第1補助情報DB20内の補助情報が参照可能かどうかを判定する(ステップST701)。ここでは、第2補助情報参照部501は、第2補助情報DB60内の水域に関する情報が参照可能かどうかを判定する。
ステップST701において、第2補助情報参照部501が、水域に関する情報が参照可能ではないと判定した場合(ステップST701の“NO”の場合)、推論装置50の動作は、ステップST704に進む。このとき、第2補助情報参照部501は、対象画像を、第2補助情報合成部502を介して第2画像分割部503に出力する。
ステップST701において、第2補助情報参照部501が、水域に関する情報が参照可能であると判定した場合(ステップST701の“YES”の場合)、第2補助情報参照部501は、第2補助情報DB60から補助情報を取得する(ステップST702)。ここでは、第2補助情報参照部501は、第2補助情報DB60から水域に関する情報を取得する。
第2補助情報参照部501は、取得した補助情報を、対象画像と対応付けて、第2補助情報合成部502に出力する。
ステップST701において、第2補助情報参照部501が、水域に関する情報が参照可能であると判定した場合(ステップST701の“YES”の場合)、第2補助情報参照部501は、第2補助情報DB60から補助情報を取得する(ステップST702)。ここでは、第2補助情報参照部501は、第2補助情報DB60から水域に関する情報を取得する。
第2補助情報参照部501は、取得した補助情報を、対象画像と対応付けて、第2補助情報合成部502に出力する。
第2補助情報合成部502は、ステップST702にて第2補助情報参照部501から出力された対象画像に基づき、補助情報と対象画像とを合成する(ステップST703)。具体的には、第2補助情報合成部502は、例えば、対象画像において、水域に該当する箇所以外の箇所の画素を、特定の色で塗りつぶした合成対象画像を生成する。
第2補助情報合成部502は、合成対象画像を、第2画像分割部503に出力する。
このとき、第2補助情報合成部502は、合成対象画像とともに、対象画像も、第2画像分割部503に出力する。
第2補助情報合成部502は、合成対象画像を、第2画像分割部503に出力する。
このとき、第2補助情報合成部502は、合成対象画像とともに、対象画像も、第2画像分割部503に出力する。
第2画像分割部503は、第2補助情報合成部502から対象画像のみが出力された場合(ステップST701の“NO”の場合)は、対象画像を、予め決められたサイズの小対象画像に分割する。
一方、第2画像分割部503は、第2補助情報合成部502から、対象画像とともに合成対象画像が出力された場合(ステップST701の“YES”~ステップST703の場合)は、合成対象画像を、予め決められたサイズの小対象画像に分割する(ステップST704)。
第2画像分割部503は、対象画像と、対象画像を分割してできた小対象画像または合成対象画像を分割してできた小対象画像とを、推論部504に出力する。
一方、第2画像分割部503は、第2補助情報合成部502から、対象画像とともに合成対象画像が出力された場合(ステップST701の“YES”~ステップST703の場合)は、合成対象画像を、予め決められたサイズの小対象画像に分割する(ステップST704)。
第2画像分割部503は、対象画像と、対象画像を分割してできた小対象画像または合成対象画像を分割してできた小対象画像とを、推論部504に出力する。
図7中の「p=1,分割数,1」は、推論装置50が、以下のステップST705~ステップST706の処理を、ステップST704にて第2画像分割部503から出力された全ての小対象画像に対して順次行うことを示している。
推論部504は、小対象画像が、明らかに推論が不要な画像であるか否かを判定する(ステップST705)。具体的には、ここでは、推論部504は、小対象画像の画像全面が陸であるかどうかを判定する。
ステップST705において、小対象画像の画像全面が陸ではない、すなわち、画像の一部または全面が水域であると判定した場合(ステップST705の“NO”の場合)、推論部504は、小対象画像に対して、推論を行う(ステップST706)。
ステップST705において、小対象画像の画像全面が陸であると判定した場合(ステップST705の“YES”の場合)、推論部504は、ステップST706の処理を行わない。
推論部504は、小対象画像が、明らかに推論が不要な画像であるか否かを判定する(ステップST705)。具体的には、ここでは、推論部504は、小対象画像の画像全面が陸であるかどうかを判定する。
ステップST705において、小対象画像の画像全面が陸ではない、すなわち、画像の一部または全面が水域であると判定した場合(ステップST705の“NO”の場合)、推論部504は、小対象画像に対して、推論を行う(ステップST706)。
ステップST705において、小対象画像の画像全面が陸であると判定した場合(ステップST705の“YES”の場合)、推論部504は、ステップST706の処理を行わない。
推論部504は、ステップST705~ステップST706の処理を、ステップST704にて第2画像分割部503から出力された全ての小対象画像に対して行う。
推論部504は、全ての小対象画像に対してステップST705~ステップST706の処理を行うと、対象画像と、小対象画像毎の推論結果とを、検出結果統合部505に出力する
推論部504は、全ての小対象画像に対してステップST705~ステップST706の処理を行うと、対象画像と、小対象画像毎の推論結果とを、検出結果統合部505に出力する
検出結果統合部505は、ステップST706にて推論部504から出力された、小対象画像毎の推論結果に基づき、対象画像に対する推論結果となるよう、小対象画像毎の推論結果を統合する(ステップST707)。
検出結果統合部505は、対象画像と、当該対象画像に対する推論結果とを、検出結果出力部506に出力する。
検出結果統合部505は、対象画像と、当該対象画像に対する推論結果とを、検出結果出力部506に出力する。
検出結果出力部506は、ステップST707にて検出結果統合部505から出力された対象画像と当該対象画像に対する推論結果に基づき、推論結果がユーザに目視可能となるような表示画面を示す表示データを、表示装置に出力する(ステップST708)。
このように、物体検出装置1における学習装置10は、対象画像から物体を検出するための機械学習モデル40を生成する際、教師データと補助情報とに基づいて学習を実行することで、機械学習モデル40を生成する。その際、学習装置10は、教師データに含まれる教師画像と補助情報とを合成した合成教師画像を用いて学習を実行する。また、物体検出装置1において、推論装置50は、学習装置10が生成した機械学習モデル40を用いて、対象画像から物体を検出する。その際、推論装置50は、機械学習モデル40の入力として、対象画像と補助情報とを合成した合成対象画像を入力可能とした。
物体検出装置1は、補助情報を考慮して対象画像から物体を検出できるため、物体の検出精度が向上する。
物体検出装置1は、補助情報を考慮して対象画像から物体を検出できるため、物体の検出精度が向上する。
一般的には、上述した従来技術のように、補助情報を用いるためには、対象画像および補助情報の両方を入力パラメータとする機械学習モデルを改めて設計する必要があった。また、汎用ソフト等に組み込まれている機械学習モジュールを使用する場合は、機械学習モデルの変更が不能な場合もある。
これに対し、実施の形態1に係る物体検出装置1は、補助情報を入力パラメータとする機械学習モデルを用いることなく、補助情報を考慮した物体の検出を行うことができる。すなわち、例えば、対象画像のみを入力パラメータとする機械学習モデルを用いつつ、かつ、補助情報を考慮した精度の高い物体の検出を行うことができる。
これに対し、実施の形態1に係る物体検出装置1は、補助情報を入力パラメータとする機械学習モデルを用いることなく、補助情報を考慮した物体の検出を行うことができる。すなわち、例えば、対象画像のみを入力パラメータとする機械学習モデルを用いつつ、かつ、補助情報を考慮した精度の高い物体の検出を行うことができる。
また、実施の形態1に係る物体検出装置1において、機械学習モデル40への入力パラメータは、補助情報を用いる場合も、補助情報を用いない場合も、例えば画像のみとすることができ、いずれの場合も同じ機械学習モデル40での推論を実行できる。これは、学習を実行する際も、補助情報を用いる場合と補助情報を用いない場合との両方の場合に対応した学習を、同時に実行できることを意味している。例えば、実施の形態1では、合成教師データと教師データとを、所定の比率で混ぜた上で学習を実行することで、補助情報を用いる場合と補助情報を用いない場合との両方に用いることができる機械学習モデル40を生成している。そのため、実施の形態1に係る物体検出装置1においては、補助情報を用いる場合と、補助情報を用いない場合とで、互いに別の機械学習モデルを生成するために、別々の学習を実行させる場合よりも、学習時間の短縮が可能となる。
また、一般に、機械学習では、教師データを様々なケースにおいて偏りなく収集することが望ましいが、多くの場合、教師データの偏りが発生することで、特定の条件下で物体の誤検知が増える。
これに対し、実施の形態1に係る物体検出装置1では、第1画像分割部103が、第1補助情報合成部102が生成した合成教師画像を複数の小教師画像に分割し、統計量解析部104が、当該複数の小教師画像を複数の分類に分類する。そして、教師データ間引き部105が、統計量解析部104が分類した後の、各分類に属する小教師画像を、各分類に属する小教師画像の数に応じて、間引きする。そのため、偏りのない教師データから機械学習モデル40を作成することができ、対象画像から物体を検出する精度を向上させることができる。
これに対し、実施の形態1に係る物体検出装置1では、第1画像分割部103が、第1補助情報合成部102が生成した合成教師画像を複数の小教師画像に分割し、統計量解析部104が、当該複数の小教師画像を複数の分類に分類する。そして、教師データ間引き部105が、統計量解析部104が分類した後の、各分類に属する小教師画像を、各分類に属する小教師画像の数に応じて、間引きする。そのため、偏りのない教師データから機械学習モデル40を作成することができ、対象画像から物体を検出する精度を向上させることができる。
以上の実施の形態1では、ボートに対する補助情報は水域に関する情報とし、補助情報は1つとして説明したが、物体に対する補助情報は1種類に限らない。物体に対する補助情報は複数種類あってもよい。
また、以上の実施の形態1では、物体をボートとしたが、これは一例に過ぎない。例えば、物体は車両とし、物体検出装置1は、車両を検出する際に、補助情報として道路に関する情報を考慮するようにしてもよい。車両を検出する際に、道路に関する情報を考慮することで、例えば、通常、車両が存在しないような、道路以外の場所での、車両の誤検出を抑制することができる。
また、以上の実施の形態1では、第1補助情報合成部102および第2補助情報合成部502は、二値の水域情報を画像に反映するものとして説明したが、これは一例に過ぎない。例えば、第1補助情報合成部102および第2補助情報合成部502は、補助情報を、二値ではなく、50%のグレーとして教師画像または対象画像に反映するようにしてもよい。また、例えば、第1補助情報合成部102および第2補助情報合成部502は、補助情報をモノクロではなく特定の色として教師画像または対象画像に反映するようにしてもよい。
また、以上の実施の形態1では、第1補助情報合成部102および第2補助情報合成部502は、二値の水域情報を画像に反映するものとして説明したが、これは一例に過ぎない。例えば、第1補助情報合成部102および第2補助情報合成部502は、補助情報を、二値ではなく、50%のグレーとして教師画像または対象画像に反映するようにしてもよい。また、例えば、第1補助情報合成部102および第2補助情報合成部502は、補助情報をモノクロではなく特定の色として教師画像または対象画像に反映するようにしてもよい。
また、以上の実施の形態1では、物体検出装置1は、第1画像分割部103および第2画像分割部503を備え、第1画像分割部103および第2画像分割部503は、合成教師画像を分割するようにした。しかし、これは一例に過ぎず、物体検出装置1において、合成教師画像の分割は必須ではない。例えば、合成教師画像のサイズが小さい場合、物体検出装置1は、合成教師画像を分割しなくてもよい。この場合、物体検出装置1は、第1画像分割部103および第2画像分割部503を備えない構成とすることができる。
また、物体検出装置1において、合成教師画像を分割しない場合、学習部106は、合成教師データと教師データとを混ぜて学習を実行する際、教師データに含まれる教師画像を、小教師画像と同じサイズの小画像に分割する必要はない。
また、物体検出装置1において、合成教師画像を分割しない場合、学習部106は、合成教師データと教師データとを混ぜて学習を実行する際、教師データに含まれる教師画像を、小教師画像と同じサイズの小画像に分割する必要はない。
ここで、図8は、実施の形態1において、例えば、物体を、道路を移動中の車両とし、補助情報を道路情報および幹線道路情報とした場合に、第1補助情報合成部102または第2補助情報合成部502が、教師画像または対象画像に対して、補助情報を反映した、合成教師画像または合成対象画像を生成するイメージの一例を説明する図である。
図8では、第1補助情報合成部102または第2補助情報合成部502は、道路(図8の801で示す)以外の箇所の画素(図8の802で示す)に、透明度50%の赤色を重ねた合成教師画像または合成対象画像を生成するものとしている。なお、図8では、便宜上、透明度50%の赤色を、横線で示している。
また、図8では、第1補助情報合成部102または第2補助情報合成部502は、幹線道路(図8の803で示す)以外の箇所の画素(図8の804で示す)に、透明度50%の青色を重ねた合成教師画像または合成対象画像を生成するものとしている。なお、図8では、便宜上、透明度50%の青色を、縦線で示している。
図8では、第1補助情報合成部102または第2補助情報合成部502は、道路(図8の801で示す)以外の箇所の画素(図8の802で示す)に、透明度50%の赤色を重ねた合成教師画像または合成対象画像を生成するものとしている。なお、図8では、便宜上、透明度50%の赤色を、横線で示している。
また、図8では、第1補助情報合成部102または第2補助情報合成部502は、幹線道路(図8の803で示す)以外の箇所の画素(図8の804で示す)に、透明度50%の青色を重ねた合成教師画像または合成対象画像を生成するものとしている。なお、図8では、便宜上、透明度50%の青色を、縦線で示している。
また、以上の実施の形態1では、学習装置10および推論装置50が、物体検出装置1に備えられるものとしたが、これは一例に過ぎない。学習装置10および推論装置50は、それぞれ単体で用いられるものとしてもよい。
図9A,図9Bは、実施の形態1に係る学習装置10および推論装置50のハードウェア構成の一例を示す図である。
実施の形態1において、教師データ取得部100と、第1補助情報参照部101と、第1補助情報合成部102と、第1画像分割部103と、統計量解析部104と、教師データ間引き部105と、学習部106の機能は、処理回路901により実現される。すなわち、学習装置10は、教師データと補助情報を用いた学習を実行することにより、対象画像から物体を検出するための機械学習モデル40を生成する処理の制御を行うための処理回路901を備える。
また、実施の形態1において、画像取得部500と、第2補助情報参照部501と、第2補助情報合成部502と、第2画像分割部503と、推論部504と、検出結果統合部505と、検出結果出力部506の機能は、処理回路901により実現される。すなわち、推論装置50は、対象画像および補助情報を取得し、機械学習モデル40を用いて、対象画像から物体を検出する処理の制御を行うための処理回路901を備える。
処理回路901は、図9Aに示すように専用のハードウェアであっても、図9Bに示すようにメモリ906に格納されるプログラムを実行するCPU(Central Processing Unit)905であってもよい。
実施の形態1において、教師データ取得部100と、第1補助情報参照部101と、第1補助情報合成部102と、第1画像分割部103と、統計量解析部104と、教師データ間引き部105と、学習部106の機能は、処理回路901により実現される。すなわち、学習装置10は、教師データと補助情報を用いた学習を実行することにより、対象画像から物体を検出するための機械学習モデル40を生成する処理の制御を行うための処理回路901を備える。
また、実施の形態1において、画像取得部500と、第2補助情報参照部501と、第2補助情報合成部502と、第2画像分割部503と、推論部504と、検出結果統合部505と、検出結果出力部506の機能は、処理回路901により実現される。すなわち、推論装置50は、対象画像および補助情報を取得し、機械学習モデル40を用いて、対象画像から物体を検出する処理の制御を行うための処理回路901を備える。
処理回路901は、図9Aに示すように専用のハードウェアであっても、図9Bに示すようにメモリ906に格納されるプログラムを実行するCPU(Central Processing Unit)905であってもよい。
処理回路901が専用のハードウェアである場合、処理回路901は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、またはこれらを組み合わせたものが該当する。
処理回路901がCPU905の場合、教師データ取得部100と、第1補助情報参照部101と、第1補助情報合成部102と、第1画像分割部103と、統計量解析部104と、教師データ間引き部105と、学習部106と、画像取得部500と、第2補助情報参照部501と、第2補助情報合成部502と、第2画像分割部503と、推論部504と、検出結果統合部505と、検出結果出力部506の機能は、ソフトウェア、ファームウェア、または、ソフトウェアとファームウェアとの組み合わせにより実現される。すなわち、教師データ取得部100と、第1補助情報参照部101と、第1補助情報合成部102と、第1画像分割部103と、統計量解析部104と、教師データ間引き部105と、学習部106と、画像取得部500と、第2補助情報参照部501と、第2補助情報合成部502と、第2画像分割部503と、推論部504と、検出結果統合部505と、検出結果出力部506は、HDD(Hard Disk Drive)902、メモリ906等に記憶されたプログラムを実行するCPU905、またはシステムLSI(Large-Scale Integration)等の処理回路により実現される。また、HDD902、またはメモリ906等に記憶されたプログラムは、教師データ取得部100と、第1補助情報参照部101と、第1補助情報合成部102と、第1画像分割部103と、統計量解析部104と、教師データ間引き部105と、学習部106と、画像取得部500と、第2補助情報参照部501と、第2補助情報合成部502と、第2画像分割部503と、推論部504と、検出結果統合部505と、検出結果出力部506の手順や方法をコンピュータに実行させるものであるとも言える。ここで、メモリ906とは、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read-Only Memory)等の、不揮発性もしくは揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、またはDVD(Digital Versatile Disc)等が該当する。
なお、学習装置10において、教師データ取得部100と、第1補助情報参照部101と、第1補助情報合成部102と、第1画像分割部103と、統計量解析部104と、教師データ間引き部105と、学習部106の機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現するようにしてもよい。例えば、教師データ取得部100と第1補助情報参照部101については専用のハードウェアとしての処理回路901でその機能を実現し、第1補助情報合成部102と、第1画像分割部103と、統計量解析部104と、教師データ間引き部105と、学習部106については処理回路がメモリ906に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。
また、推論装置50において、画像取得部500と、第2補助情報参照部501と、第2補助情報合成部502と、第2画像分割部503と、推論部504と、検出結果統合部505と、検出結果出力部506の機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現するようにしてもよい。例えば、画像取得部500と検出結果出力部506については専用のハードウェアとしての処理回路901でその機能を実現し、第2補助情報参照部501と、第2補助情報合成部502と、第2画像分割部503と、推論部504と、検出結果統合部505については処理回路がメモリ906に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。
また、学習装置10および推論装置50は、表示装置等の外部の装置との通信を行う、入力インタフェース装置903、および、出力インタフェース装置904を有する。
また、推論装置50において、画像取得部500と、第2補助情報参照部501と、第2補助情報合成部502と、第2画像分割部503と、推論部504と、検出結果統合部505と、検出結果出力部506の機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現するようにしてもよい。例えば、画像取得部500と検出結果出力部506については専用のハードウェアとしての処理回路901でその機能を実現し、第2補助情報参照部501と、第2補助情報合成部502と、第2画像分割部503と、推論部504と、検出結果統合部505については処理回路がメモリ906に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。
また、学習装置10および推論装置50は、表示装置等の外部の装置との通信を行う、入力インタフェース装置903、および、出力インタフェース装置904を有する。
以上のように、実施の形態1に係る学習装置10は、物体が撮像された教師画像、および、物体に対応する補助情報を取得する第1補助情報参照部101と、第1補助情報参照部101が取得した補助情報を教師画像に反映した合成教師画像を生成する第1補助情報合成部102と、第1補助情報合成部102が生成した合成教師画像を用いた学習により機械学習モデル40を生成する学習部106を備えるように構成されている。そのため、補助情報を入力パラメータとする機械学習モデルを用いることなく、補助情報を考慮した機械学習モデルを生成することができる。
また、実施の形態1に係る物体検出装置1は、上述の学習装置10と、対象画像、および、当該対象画像に対応する補助情報を取得する第2補助情報参照部501と、第2補助情報参照部501が取得した補助情報を対象画像に反映した合成対象画像を生成する第2補助情報合成部502と、機械学習モデル40に合成対象画像を入力することにより物体を検出する推論部504を備えるように構成されている。そのため、補助情報を入力パラメータとする機械学習モデルを用いることなく、補助情報を考慮した物体の検出を行うことができる。
また、実施の形態1に係る物体検出装置1は、上述の学習装置10と、対象画像、および、当該対象画像に対応する補助情報を取得する第2補助情報参照部501と、第2補助情報参照部501が取得した補助情報を対象画像に反映した合成対象画像を生成する第2補助情報合成部502と、機械学習モデル40に合成対象画像を入力することにより物体を検出する推論部504を備えるように構成されている。そのため、補助情報を入力パラメータとする機械学習モデルを用いることなく、補助情報を考慮した物体の検出を行うことができる。
なお、本願発明はその発明の範囲内において、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。
この発明に係る物体検出装置は、補助情報を入力パラメータとする機械学習モデルを用いることなく、補助情報を考慮した機械学習モデルを生成することができるように構成したため、物体を検出するための機械学習モデルを生成する学習装置に適用することができる。
1 物体検出装置、10 学習装置、20 第1補助情報DB、40 機械学習モデル、50 推論装置、60 第2補助情報DB、100 教師データ取得部、101 第1補助情報参照部、102 第1補助情報合成部、103 第1画像分割部、104 統計量解析部、105 教師データ間引き部、106 学習部、500 画像取得部、501 第2補助情報参照部、502 第2補助情報合成部、503 第2画像分割部、504 推論部、505 検出結果統合部、506 検出結果出力部、901 処理回路、902 HDD、903 入力インタフェース装置、904 出力インタフェース装置、905 CPU、906 メモリ。
Claims (6)
- 物体が撮像された教師画像、および、前記物体に対応する補助情報を取得する第1補助情報参照部と、前記第1補助情報参照部が取得した補助情報を前記教師画像に反映した合成教師画像を生成する第1補助情報合成部と、前記第1補助情報合成部が生成した合成教師画像を用いた学習により機械学習モデルを生成する学習部
を備えた学習装置。 - 前記第1補助情報合成部が生成した合成教師画像を複数の小教師画像に分割する第1画像分割部と、
前記第1画像分割部が分割した複数の小教師画像を複数の分類に分類する統計量解析部と、
前記統計量解析部が分類した後の、各分類に属する小教師画像を、各分類に属する小教師画像の数に応じて、間引きする教師データ間引き部を備え、
前記教師データ間引き部が間引きした後の小教師画像の学習によって前記機械学習モデルを生成する
ことを特徴とする請求項1記載の学習装置。 - 前記第1補助情報合成部は、前記補助情報に基づき、前記教師画像上において、当該補助情報に応じた画素をマスクして前記合成教師画像を生成する
ことを特徴とする請求項1記載の学習装置。 - 機械学習を用いて対象画像から前記物体を検出する物体検出装置であって、
請求項1記載の学習装置と、
前記対象画像、および、当該対象画像に対応する補助情報を取得する第2補助情報参照部と、前記第2補助情報参照部が取得した補助情報を前記対象画像に反映した合成対象画像を生成する第2補助情報合成部と、前記機械学習モデルに前記合成対象画像を入力することにより前記物体を検出する推論部を備えた推論装置
を備えた物体検出装置。 - 前記第2補助情報合成部は、前記補助情報に基づき、前記対象画像上において、当該補助情報に応じた画素をマスクして前記合成対象画像を生成する
ことを特徴とする請求項4記載の物体検出装置。 - 第1補助情報参照部が、物体が撮像された教師画像、および、前記物体に対応する補助情報を取得するステップと、第1補助情報合成部が、前記第1補助情報参照部が取得した補助情報を前記教師画像に反映した合成教師画像を生成するステップと、学習部が、前記第1補助情報合成部が生成した合成教師画像を用いた学習により機械学習モデルを生成するステップ
を備えた学習方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/025185 WO2020261392A1 (ja) | 2019-06-25 | 2019-06-25 | 学習装置、物体検出装置および学習方法 |
JP2021526501A JP6945772B1 (ja) | 2019-06-25 | 2019-06-25 | 学習装置、物体検出装置および学習方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/025185 WO2020261392A1 (ja) | 2019-06-25 | 2019-06-25 | 学習装置、物体検出装置および学習方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020261392A1 true WO2020261392A1 (ja) | 2020-12-30 |
Family
ID=74060798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2019/025185 WO2020261392A1 (ja) | 2019-06-25 | 2019-06-25 | 学習装置、物体検出装置および学習方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6945772B1 (ja) |
WO (1) | WO2020261392A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022230639A1 (ja) * | 2021-04-30 | 2022-11-03 | パナソニックIpマネジメント株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180052224A1 (en) * | 2014-12-15 | 2018-02-22 | Airbus Singapore Private Limited | Automated method for selecting training areas of sea clutter and detecting ship targets in polarimetric synthetic aperture radar imagery |
JP2018173814A (ja) * | 2017-03-31 | 2018-11-08 | 富士通株式会社 | 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法 |
-
2019
- 2019-06-25 JP JP2021526501A patent/JP6945772B1/ja active Active
- 2019-06-25 WO PCT/JP2019/025185 patent/WO2020261392A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180052224A1 (en) * | 2014-12-15 | 2018-02-22 | Airbus Singapore Private Limited | Automated method for selecting training areas of sea clutter and detecting ship targets in polarimetric synthetic aperture radar imagery |
JP2018173814A (ja) * | 2017-03-31 | 2018-11-08 | 富士通株式会社 | 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法 |
Non-Patent Citations (2)
Title |
---|
AO, WEI ET AL.: "Detection and Discrimination of Ship Targets in Complex Background From Spaceborne ALOS-2 SAR Images", IEEE JOURNAL OF SELECTED TOPICS IN APPLIED EARTH OBSERVATIONS AND REMOTE SENSING, vol. 11, no. 2, 15 January 2018 (2018-01-15), pages 536 - 550, XP011677270, ISSN: 1939-1404, DOI: 10.1109/JSTARS.2017.2787573 * |
ZOU, ZHENGXIA ET AL.: "Ship Detection in Spaceborne Optical Image With SVD Networks", IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING, vol. 54, no. 10, 16 June 2016 (2016-06-16), pages 5832 - 5845, XP011619585, ISSN: 0196-2892, DOI: 10.1109/TGRS.2016.2572736 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022230639A1 (ja) * | 2021-04-30 | 2022-11-03 | パナソニックIpマネジメント株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6945772B1 (ja) | 2021-10-06 |
JPWO2020261392A1 (ja) | 2020-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10032301B2 (en) | Rebuilding images based on historical image data | |
CN110033475B (zh) | 一种高分辨率纹理生成的航拍图运动物体检测与消除方法 | |
WO2022000862A1 (zh) | 鱼眼图像中的对象检测方法、装置及存储介质 | |
CN109493332B (zh) | 基于envi的优化矢量选取roi遥感影像预处理系统 | |
CN111667030B (zh) | 基于深度神经网络实现遥感图像目标检测的方法、系统及其存储介质 | |
CN114758337B (zh) | 一种语义实例重建方法、装置、设备及介质 | |
CN111815707A (zh) | 点云确定方法、点云筛选方法、装置、计算机设备 | |
CN110276791B (zh) | 一种参数可配置的深度相机仿真方法 | |
CN111080662A (zh) | 车道线的提取方法、装置及计算机设备 | |
CN113536935A (zh) | 一种工程现场的安全监测方法及设备 | |
CN115424221A (zh) | 点云与图像融合的方法、相关检测方法、设备及存储介质 | |
CN105931284B (zh) | 三维纹理tin数据与大场景数据的融合方法及装置 | |
JP6945772B1 (ja) | 学習装置、物体検出装置および学習方法 | |
CN115457354A (zh) | 融合方法、3d目标检测方法、车载设备及存储介质 | |
CN116071557A (zh) | 一种长尾目标检测方法、计算机可读存储介质及驾驶设备 | |
CN109389570B (zh) | 基于envi的优化矢量选取roi遥感影像预处理方法 | |
CN112991537B (zh) | 城市场景重建方法、装置、计算机设备和存储介质 | |
CN116828305A (zh) | 一种基于YOLOv5算法的云台自动追踪目标物方法 | |
CN115861891A (zh) | 视频目标检测方法、装置、设备及介质 | |
CN113593026B (zh) | 车道线标注辅助地图生成方法、装置和计算机设备 | |
CN114529834A (zh) | 小目标对象的检测方法和检测装置 | |
EP4248365A1 (en) | Gating of contextual attention and convolutional features | |
CN115840761B (zh) | 一种卫星影像像元值修改方法、系统、设备及介质 | |
KR102687528B1 (ko) | 이미지 내의 텍스트를 삭제하는 방법 및 시스템 | |
US20240169552A1 (en) | Image processing apparatus, image processing method, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19935511 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2021526501 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19935511 Country of ref document: EP Kind code of ref document: A1 |