WO2021149252A1 - 学習データセット生成装置および方法 - Google Patents

学習データセット生成装置および方法 Download PDF

Info

Publication number
WO2021149252A1
WO2021149252A1 PCT/JP2020/002583 JP2020002583W WO2021149252A1 WO 2021149252 A1 WO2021149252 A1 WO 2021149252A1 JP 2020002583 W JP2020002583 W JP 2020002583W WO 2021149252 A1 WO2021149252 A1 WO 2021149252A1
Authority
WO
WIPO (PCT)
Prior art keywords
target
area
data set
learning
image
Prior art date
Application number
PCT/JP2020/002583
Other languages
English (en)
French (fr)
Inventor
友輔 生内
Original Assignee
株式会社日立国際電気
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立国際電気 filed Critical 株式会社日立国際電気
Priority to PCT/JP2020/002583 priority Critical patent/WO2021149252A1/ja
Priority to JP2021572242A priority patent/JP7104252B2/ja
Publication of WO2021149252A1 publication Critical patent/WO2021149252A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present invention relates to a learning data set generation device and a learning data set generation method.
  • an image to be processed is subjected to image processing such as identification and classification of an object, attribute analysis, prediction and analysis using a learning model.
  • a training data set for machine learning is used for machine learning of such a learning model.
  • Step 1 The operator visually confirms the pattern of each input image.
  • the worker finds a characteristic image area (area such as a specific subject) to be processed in the image processing, the worker selects the image area on the work screen and sets it as the learning target area.
  • Step 2 The operator assigns the desired correct answer data as the processing result of the image processing to the input learning target area as "tag information".
  • This tag information is information that characterizes the learning target area, and is used as teacher data or the like in machine learning.
  • Patent Document 1 as one of the methods for determining the learning target area in the creation of the training data set, "a rectangular image estimated as an object is detected by using a general-purpose object detector, and the rectangular image is detected.
  • a technique of "estimating a candidate rectangle based on the difference in the amount of image features between the object image and the background image, the contour information of the object detected from the image, and the like" is disclosed.
  • the accuracy rate and generalization performance of a learning model are determined by the quantity and diversity of learning data included in the learning data set. Therefore, when preparing a training data set, it is necessary to handle a huge variety of input images collected for training.
  • Patent Document 1 requires manpower in estimating a region candidate of a learning target region based on "difference in image feature amount between an object image and a background image” and "contour information of an object detected from an image”. It is considered to be an effective method for reduction. However, the method based on this "difference in image feature amount between the object image and the background image” is applied to "the case where the background of the input image can be regarded as known and constant" like the input image of a fixed point camera under indoor artificial lighting. It is a specialized and effective technology.
  • the method based on the "contour information of the object detected from the image” is an effective technique specializing in "the case where the contour information is concentrated in the learning target area and the contour information is small in other areas". Therefore, the technique of Patent Document 1 may not be able to flexibly and sufficiently cope with the pre-processing of a huge variety of input images.
  • an object of the present invention is to provide a technique for processing a huge variety of input images when detecting a region candidate of a learning target region.
  • one of the typical learning data set generators of the present invention is a learning target that tags an image area of an input image collected for training data as a learning target for machine learning. It is a device that detects a region candidate of a region, and includes a non-target storage unit, a non-target selection unit, and an area candidate extraction unit.
  • the non-target storage unit stores a group of non-target images that do not include the learning target area in the image area as a non-target data set.
  • the non-target selection unit evaluates a difference between the input image and the non-target data set, and based on the evaluation result of the difference, the non-target image adapted to the input image is obtained from the non-target data set. select.
  • the region candidate extraction unit detects the region candidate based on the region distribution of the difference region between the non-target image and the input image selected by the non-target selection unit.
  • the present invention provides a technique for processing a huge variety of input images when detecting a region candidate of a learning target region.
  • FIG. 1 is a diagram showing the configuration of the learning data set generation device 100 of the first embodiment.
  • FIG. 2 is a flow chart showing the preparation process of the non-target data set 112A.
  • FIG. 3 is an explanatory diagram showing an extraction process of the non-target image performed at the time of preparation of the non-target data set 112A.
  • FIG. 4 is a flow chart (1/2) for explaining the detection process of the area candidate of the learning target area.
  • FIG. 5 is a flow chart (2/2) for explaining the detection process of the area candidate of the learning target area.
  • FIG. 6 is an explanatory diagram showing the flow of internal data of the learning data set generation device 100.
  • FIG. 7 is an explanatory diagram showing a state of image processing by the learning data set generation device 100.
  • FIG. 8 is a flow chart illustrating the operation of the interface unit 190.
  • FIG. 9 is a diagram showing an example of the data structure of the training data set 114.
  • FIG. 10 is a diagram showing an example of
  • FIG. 1 is a diagram showing the configuration of the learning data set generation device 100 of the first embodiment.
  • the learning data set generation device 100 includes an auxiliary storage unit 110, a non-target selection unit 130, a region candidate extraction unit 140, a region candidate inheritance unit 150, a moving object discrimination unit 160, a representative image generation unit 170, and a non-target generation unit. It includes 180, an interface unit 190, and a learning model unit 210.
  • a non-target candidate storage unit 111 In the storage area of the auxiliary storage unit 110, a non-target candidate storage unit 111, a non-target storage unit 112, an input image storage unit 113, a learning data set 114, and a learning data set generation program 115 are provided.
  • the non-target candidate storage unit 111 stores a group of images collected as candidates for non-target images.
  • non-target storage unit 112 a group of non-target images (images whose learning target area is not included in the image area) generated by the non-target generation unit 180 or the like is stored as the non-target data set 112A.
  • the input image storage unit 113 stores a group of input images collected as materials for the learning data set.
  • the learning data set 114 stores, for example, list data of a learning set that can be referred to (input image, learning target area, tag information).
  • the non-target selection unit 130 captures the input image to be processed from the input image storage unit 113. Further, the non-target selection unit 130 captures the non-target data set 112A of the non-target storage unit 112. The non-target selection unit 130 evaluates the difference between the input image and the non-target data set 112A, and selects the non-target image suitable for the input image from the non-target data set 112A based on the evaluation result of the difference.
  • the area candidate extraction unit 140 detects the area candidate of the learning target area in the input image based on the area distribution of the difference area between the non-target image selected by the non-target selection unit 130 and the input image.
  • the area candidate inheritance unit 150 evaluates the reliability of the selection process of the non-target image. Here, when the reliability is evaluated low, the area candidate inheritance unit 150 determines the area candidate of the input image based on the area candidate detected within a predetermined number of frames before (or after) the input image. ..
  • the moving body discrimination unit 160 captures a group of images collected as candidates for the non-target image from the non-target candidate storage unit 111.
  • the moving body discriminating unit 160 detects a moving body for these image groups, and selects a group of "images not including a moving body".
  • the representative image generation unit 170 generates a group of representative images with reduced redundancy due to similar images by clustering the group of "images not including moving objects".
  • the non-target generation unit 180 adds or newly creates the non-target data set 112A based on the group of representative images.
  • the non-target generation unit 180 stores the non-target data set 112A in the non-target storage unit 112.
  • the interface unit 190 is communicatively connected to the client terminal 200 via a wired or wireless network NW.
  • NW a wired or wireless network
  • a plurality of client terminals 200 are prepared so that a plurality of workers can work at the same time.
  • the interface unit 190 generates a display screen including a display area for displaying the area candidate detected by the area candidate extraction unit 140 and a display area for displaying the non-target image used for detecting the area candidate. ..
  • the generated display screen is displayed on the client terminal 200 via the network NW.
  • the worker operates the browser program of the client terminal 200 or the like to input information such as judgment of whether or not the displayed area candidate is a learning target area and correction of the area, and determines the learning target area in the input image. Further, the worker inputs and sets tag information as teacher data for the determined learning target area.
  • the interface unit 190 creates a learning set including (input image, learning target area, tag information) acquired from the client terminal 200, and adds it to the learning data set 114.
  • the learning data set generation device 100 may include a learning model unit 210.
  • the learning model unit 210 includes at least an input layer 211 for inputting an input image, an intermediate layer 212 for machine learning, and an output layer 213 for outputting region candidates.
  • the learning data set generation device 100 described above is configured as a computer system equipped with a CPU (Central Processing Unit), memory, and the like as hardware.
  • a CPU Central Processing Unit
  • memory and the like as hardware.
  • various functions as the above-mentioned device are realized.
  • various functions may be provided as a cloud service to a plurality of client terminals 200 by concentrating or distributing a part or all of hardware and programs to servers on the network NW to configure a cloud system. ..
  • FIG. 2 is a flow chart showing the preparation process of the non-target data set 112A.
  • FIG. 3 is an explanatory diagram showing an extraction process of the non-target image performed at the time of preparation of the non-target data set 112A.
  • the non-target candidate storage unit 111 stores a group of images collected as candidates for the non-target image.
  • the group of these images may include a group of images collected as follows. (Candidate for non-target image 1) Image group that is unspecifiedly collected (Candidate for non-target image 2) Unspecified image group that is collected for learning but is judged not to include the learning target area (non-target image)
  • the 160 takes in the candidates of the non-target image including these image groups from the non-target candidate storage unit 111.
  • Step S102 The moving object determination unit 160 detects whether or not the moving object is included in the image region for the group of images.
  • images having an inter-frame difference of less than a predetermined threshold are selected as "image 302 not including moving objects", and the inter-frame difference is a threshold.
  • image 303 including moving objects are selected as "image 303 including moving objects”.
  • the moving object discriminating unit 160 detects the contour width of the subject in the image area, and sets the image in which the maximum value of the contour width is less than a predetermined threshold value as "an image 302 not including a moving body".
  • the image whose contour is blurred when the maximum value of the contour width is equal to or larger than the threshold value is selected as "image 303 including a moving object”.
  • the moving object discriminating unit 160 excludes the "image 303 including a moving object” from the candidates for the non-target image, thereby leaving the "image 302 not including the moving object” as a candidate for the non-target image.
  • Step S103 The representative image generation unit 170 obtains the difference in images (distance between images, dissimilarity, etc.) between the “images 302 not including moving objects”.
  • the representative image generation unit 170 classifies (clusters) "images 302 not including moving objects" into a plurality of groups 304 by collecting images having a small difference in images in group units.
  • Step S104 The representative image generation unit 170 groups the images relatively close to the distribution center of gravity of clustering for each group 304 (when a plurality of such images exist, the images obtained by synthesizing the plurality of images by weighting addition or the like) are group 304. Each is extracted as a representative image. By extracting the representative image, a group of representative images with reduced redundancy due to similar images is generated.
  • Step S105 The non-target generation unit 180 stores the group of representative images generated by the representative image generation unit 170 in the non-target storage unit 112, and newly creates or additionally updates (that is, augments) the non-target data set 112A. conduct. Through the series of operations described above, the learning data set generator 100 can prepare the non-target data set 112A.
  • FIGS. 6 and 7 are flow charts for explaining the detection process of the area candidate of the learning target area.
  • FIG. 6 is an explanatory diagram showing the flow of internal data of the learning data set generation device 100.
  • FIG. 7 is an explanatory diagram showing a state of image processing by the learning data set generation device 100.
  • the same reference numerals are given to the same configurations as those in FIG. 1, and duplicate description thereof will be omitted here.
  • the “region candidate detection process of the learning target region” will be described with reference to FIGS. 1 and 4 to 7.
  • Step S201 The non-target selection unit 130 acquires an input image waiting to be processed as learning data from the input image storage unit 113.
  • Such an input image may be subjected to processing such as a smoothing filter, a contour enhancement filter, and a density conversion as preprocessing for reducing the influence of noise and flicker.
  • processing such as a smoothing filter, a contour enhancement filter, and a density conversion as preprocessing for reducing the influence of noise and flicker.
  • the data format of the image may be appropriately converted to RGB, YUV, monochrome, or the like depending on the use of machine learning or the like. Further, in order to reduce the processing load, a process of reducing the image size may be performed.
  • Step S202 The non-target selection unit 130 acquires one non-target image from the non-target data set 112A.
  • the previously selected non-target image or the non-target image with high selection frequency may be preferentially read out.
  • Step S203 Regarding the difference between the input image and the non-target image (see FIG. 7), the non-target selection unit 130 determines which significant difference is local and which meaningless difference is global, for example: Evaluate the items of.
  • Difference evaluation 3 Difference area shape The closer the difference area shape is to a specific shape (human type, building type, vehicle type, electric pole type, marker type, graphic type, product type, lesion type, etc.), the more the input image and Differences from non-target images are evaluated as characteristic and significant differences.
  • the specific shape here is appropriately set according to the purpose and use of the training data set.
  • the non-target selection unit 130 may simply carry out the evaluation at an appropriate number of samples in the image area. If the evaluation is found to be low during the evaluation, the non-target selection unit 130 may determine the evaluation as low without waiting for the completion of the evaluation. Further, in order to simplify the evaluation of the difference, pretreatments such as size adjustment, binarization, isolated point removal, and contour extraction may be used together with the difference region. These processes make it possible to reduce the processing load required for evaluating differences.
  • Step S204 The non-target selection unit 130 determines whether or not there are remaining non-target images in the non-target data set 112A. If there are remaining non-target images, the non-target selection unit 130 returns to step S202. On the other hand, when there is no remaining non-target image, the non-target selection unit 130 proceeds to step S205.
  • Step S205 The non-target selection unit 130 determines whether or not there is a non-target image showing a significant difference with respect to the input image based on the evaluation result of the difference. When there is a non-target image showing a significant difference with respect to the input image, the non-target selection unit 130 shifts the operation to step S207. On the other hand, when the non-target image showing a significant difference from the input image is not found, the non-target selection unit 130 proceeds to step S206.
  • Step S206 Here, since the non-target image suitable for extracting the region candidate is not found, the region candidate inheritance unit 150 cannot obtain a reliable result in the selection process of the non-target image (that is, the reliability is low). Evaluate as. In this case, the area candidate inheritance unit 150 determines the area candidate of the input image based on the area candidate detected within a predetermined number of frames from the input image. Such an inheritance operation is based on the reason that there is a high possibility that the positions and ranges of region candidates in the image region are inherited in a series of input images. After this operation, the area candidate inheritance unit 150 shifts the operation to step S209.
  • Step S207 The non-target selection unit 130 selects one or a plurality of non-target images whose difference evaluation results are sufficiently high as the non-target images applicable to the input image.
  • Step S208 The region candidate extraction unit 140 obtains the region distribution of the difference region between the non-target image selected to be adapted to the input image and the input image.
  • the region distribution here is a local significant region distribution because it passes through the determination in step S205.
  • the region candidate extraction unit 140 detects region candidates of the learning target region in the input image based on this significant region distribution.
  • the area candidate extraction unit 140 detects the area candidate of the learning target area in the input image by using the information of the difference area generated in the difference evaluation process (see step S203). You may.
  • the area candidate extraction unit 140 detects a plurality of area candidates corresponding to each of the plurality of non-target images.
  • the area candidate extraction unit 140 outputs a set of (input image, area candidate, non-target image) to the interface unit 190.
  • the operation of the interface unit 190 will be described later.
  • Step S209 The non-target selection unit 130 determines whether or not the input image waiting to be processed remains in the input image storage unit 113. When there is an input image waiting to be processed, the non-target selection unit 130 returns the operation to step S201 and repeats the above operation for the new input image. On the other hand, when all the area candidate detections of the learning target area for the input image are completed, the non-target selection unit 130 completes the operation.
  • the area candidate detection of the learning target area is automatically performed for a huge amount of input images.
  • FIG. 8 is a flow chart illustrating the operation of the interface unit 190.
  • FIG. 9 is a diagram showing an example of the data structure of the training data set 114. In FIG. 9, the same reference numerals are given to the same configurations as those in FIG. 1, and duplicate description here will be omitted. Hereinafter, "operation of the interface unit 190" will be described with reference to FIGS. 1 and 8 to 9.
  • Step S301 The interface unit 190 acquires information on a set including (input image, area candidate, non-target image) generated by the area candidate extraction unit 140 or the area candidate inheritance unit 150.
  • Step S302 The interface unit 190 transmits the data of the display screen including the display area for displaying the area candidate and the display area for displaying the non-target image used for detecting the area candidate via the network NW. , Communicate to the client terminal 200.
  • the client terminal 200 uses a browser program or the like to display the transmitted display screen. An example of the display screen will be described later.
  • Step S303 The worker who supervises the learning data set 114 operates the client terminal 200 while referring to the area candidate on the display screen, and "whether the area candidate is correct or not as the learning target area" or "area candidate". Enter “Region correction” and so on.
  • the interface unit 190 determines the learning target area in the input image by modifying or deleting the area candidates in response to these inputs.
  • Step S304 The worker operates the client terminal 200 and inputs the tag information to be given to the learning target area.
  • the interface unit 190 determines the tag information to be given to the learning target area.
  • Step S305 The interface unit 190 adds (input image, learning target area, tag information) and the like acquired from the client terminal 200 to the learning data set 114 as a learning set.
  • the learning data set 114 has the data structure shown in FIG.
  • the learning data set 114 stores information on the learning target area and tag information in association with each input image.
  • the learning data set 114 stores attribute information useful for machine learning and the like.
  • the identification flag of the learning data set generation device 100 that generated the learning set, the ID code of the worker, and the like are stored in the "generation source" item of the attribute information.
  • the data stored in the learning data set 114 is not limited to the actual data, and may be reference data that can refer to the actual data.
  • Step S306 The interface unit 190 determines whether or not a set of processing-waiting (input image, area candidate, non-target image) or the like remains as the learning data set generation device 100. When there is a set waiting for processing, the interface unit 190 returns the operation to step S301 and repeats the above-described operation.
  • the interface unit 190 when the set of waiting for processing (input image, area candidate, non-target image) is exhausted, the interface unit 190 once completes the operation, and the waiting for processing (input image, area candidate, non-target image) is accumulated again. Wait until it is done.
  • the training data set 114 is generated by the series of operations described above.
  • FIG. 10 is a diagram showing an example of a display screen.
  • the display screen 1001 shown in the figure is displayed as an operation window of the tagging tool on the screen of the client terminal 200.
  • the display screen 1001 is laid out by the following GUI components.
  • a session corresponds to a unit of work for training data set generation. Sessions are associated with data folders for managing unit of work information. This data folder stores work information such as input images, tag information, and learning target areas that are being worked on or have been worked on. The worker can newly start the work (session) of learning data set generation by operating the session selection part 1002 to create a new data folder related to the session. In addition, the worker can open the related data folder and resume the work of generating the learning data set at any time by selecting the past session.
  • the learning image folder selection part 1003 is a GUI component for designating an input source folder (a plurality of selections are possible) of input images.
  • the non-target data set registration part 1004 is a GUI component for registering the folder of the non-target data set 112A used for detecting the area candidate.
  • tag information is managed as, for example, a classification.
  • the worker can newly create a class of tag information having an arbitrary name by inputting the class name as tag information into the class input field part 1006 and operating the class addition part 1005.
  • the created tag information class is displayed in the class name list part 1007.
  • the worker selects the class of the tag information to be given to the learning target area by selecting the class name list part 1007 from the menu.
  • the worker can collectively or partially modify or delete the class of tag information given to the learning target area in the past.
  • the display area 1009 displays an input image to be processed.
  • the operator can select and operate the display area 1009 and switch the input image to be processed with the mouse wheel, the cross key, or the like.
  • the display area 1010 displays the area candidates of the learning target area in a format in which a rectangular frame, contour highlighting, or the like is superimposed on the display area 1009 of the input image.
  • the worker makes a judgment as to whether or not the area is a learning target area and inputs an area correction. By such an operation, the learning target area is determined.
  • the operation for the display area 1011 it is possible to determine a plurality of learning target areas for one input image. It is also possible to determine the entire image of the input image as the learning target area.
  • a plurality of area candidates are detected in step S208 described above, a plurality of display areas 1010 corresponding to each of the plurality of area candidates are displayed on the display screen 1001 simultaneously or sequentially.
  • the display area 1011 highlights the non-target image used for detecting the area candidate in the registered non-target data set 112A.
  • Session save part 1012 When the worker operates the session save part 1012, the work data of the session is saved in the data folder associated with the session.
  • the session may be saved automatically when the tagging of the input image is completed.
  • the session may be automatically saved each time the input image is switched.
  • the session may be automatically saved between each operation.
  • the worker can efficiently create a learning data set while referring to the area candidates.
  • machine learning such as an error back propagation method is performed on at least a group of input images using the learning target area determined by the interface unit 190 as teacher data.
  • the learning model unit 210 optimizes the weighting coefficient, the bias value, and the like for the group of input images having a correlation between the input image and the learning target area. With the progress of this optimization of machine learning, the learning model unit 210 will output the estimation result of the region candidate to the output layer 213 by giving a new input image to the input layer 211.
  • a learning model unit 210 that complements or substitutes for a part or all of the functions of the learning data set generation device 100 is obtained.
  • the difference between the group of non-target images whose learning target area is not included in the image area and the input image is evaluated. Based on the evaluation result of this difference, a region showing a significant difference in the input image is obtained. Based on the region distribution of this significant difference, it becomes possible to detect region candidates of the learning target region in the input image.
  • Example 1 The major difference between Example 1 and the technique of Patent Document 1 is that, as described in (1) above, a region showing a significant difference from the input image is obtained without specializing the background of the input image. That is the point. Therefore, when detecting a region candidate of a learning target region, it is not necessary to specialize in "an input image having a known background and a constant background", and it is possible to handle a huge variety of input images.
  • the first embodiment is significantly different from the technique of Patent Document 1 because information other than the difference is reduced by obtaining the difference between the group of non-target images and the input image.
  • the point is that it is not necessary to specialize in "input images in which contour information is concentrated in and other contour information is scarce”. From this point as well, the first embodiment can handle a huge variety of input image processing.
  • the area candidate of the input image is determined based on the area candidate detected within a predetermined number of frames from the input image.
  • the input images collected for the training data set may be collected as time-series images such as moving images and continuous shot images.
  • the area candidates of the learning target area are continuous between frames, the continuity of the area candidates is high within a predetermined number of frames. Therefore, even when the reliability of the selection process of the non-target image is low, it is possible to determine the region candidate with a certain degree of reliability.
  • Example 1 a group of non-target images is automatically selected from the group of images. That is, a moving object is detected for a group of images to select "an image that does not include a moving object", and a group of non-target images is obtained based on the selection result.
  • the learning target area corresponds to a moving object
  • Example 1 the group of non-target images is further narrowed down. That is, clustering is performed on the group of "images not including moving objects" to obtain a group of representative images with reduced redundancy due to similar images. Non-target images based on such representative images are carefully selected because similar images are excluded according to the “degree of redundancy reduction”. Therefore, it is possible to reduce the processing load using the group of non-target images.
  • the non-target images are not similar to each other according to the "degree of redundancy reduction" for the group of non-target images. Therefore, the differences between the non-target image and the input image are not similar to each other. Therefore, when a plurality of non-target images are selected in step S207 described above, it is possible to detect a plurality of “region candidates dissimilar to each other” in step S208.
  • the learning target area in the input image can be determined by outputting the determined area candidate as information and accepting the information input of the pros and cons judgment or the area correction as the learning target area. Therefore, the learning data set generation device 100 can efficiently determine the learning target area by using the area candidate as a reference material by cooperating with the outside (for example, an operator).
  • a display screen including a display area for displaying the detected area candidate and a display area for displaying the non-target image used for detecting the area candidate is generated.
  • the worker can easily and quickly determine the learning target area.
  • the non-target image used for detecting the area candidate it is possible to make the worker or the system operator confirm the process of detecting the area candidate.
  • a learning model unit 210 further includes at least an input layer for inputting an input image, an intermediate layer for machine learning, and an output layer for outputting area candidates.
  • machine learning is performed on at least a group of input images using the learning target area to be determined as teacher data.
  • Example 1 the learning data set can be efficiently generated by the synergistic action of each of the above-mentioned effects. Therefore, it is possible to generate a huge and diverse training data set at a lower cost.
  • the non-target storage unit 112 has been described as a configuration exclusively assigned to the learning data set generation device 100.
  • the non-target data set 112A stored in the non-target storage unit 112 is a general-purpose data set in the property of "a group of non-target images whose learning target area is not included in the image area". Therefore, the non-target storage unit 112 may be shared by a plurality of learning data set generation devices 100 (without making it an exclusive configuration). In this case, it is possible to increase the amount of data and the versatility of the non-target data set 112A even faster by using the data rapidly accumulated by the joint use of a large number of learning data set generation devices 100.
  • a specialized non-target data set 112A it is possible to create a non-target data set 112A that does not include the "learning target area according to the purpose or theme" for each purpose or theme of machine learning.
  • the specialized non-target data set 112A by selecting and using the specialized non-target data set 112A according to the purpose and theme of machine learning, it is possible to determine the area candidate of the learning target area according to the purpose and theme of machine learning.
  • the learning target area is determined after the client terminal 200 confirms / corrects the area candidate.
  • the present invention is not limited to this. Since the detected region candidates are guaranteed to be significantly different, the region candidates can be automatically (or by default) determined as the learning target region. In this case, since the worker can concentrate on adding tag information to the area candidate (that is, the learning target area), the work efficiency is further improved. In general, it is preferable to determine whether or not it is necessary to carefully check / modify the area candidates according to the requirements (design specifications, etc.) of the learning data set determined for each purpose of machine learning and each theme.
  • the present invention is not limited to the above-described embodiment, and includes various modifications.
  • the above-described embodiment has been described in detail in order to explain the present invention in an easy-to-understand manner, and is not necessarily limited to those having all the described configurations. It is also possible to replace a part of the configuration of the embodiment with another configuration. It is also possible to add other configurations to the configurations of the examples.
  • Learning image folder selection part 1004 ... Not applicable data set registration part, 1005 ... Class addition part, 1006 ... Class input field part, 1007 ... Class name list part, 1009 ... Input image display area, 1010 ... Area candidate display area, 1011 ... Area candidate detection Display area of non-target image used for 1012 ... Session storage part, NW ... Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本発明は、学習対象領域の領域候補を検出するに際して、膨大かつ多種多様な入力画像の処理に対応することを目的とする。そのため、学習データセット生成装置は、学習データ用に収集される入力画像の画像領域から、機械学習の学習対象としてタグ付けを行う学習対象領域の領域候補を検出する装置であって、対象外格納部、対象外選択部、および領域候補抽出部を備える。前記対象外格納部は、前記学習対象領域を画像領域に含まない対象外画像の群を対象外データセットとして格納する。前記対象外選択部は、前記入力画像と前記対象外データセットとの間で差異を評価し、前記差異の評価結果に基づいて、前記入力画像に適応する対象外画像を前記対象外データセットから選択する。前記領域候補抽出部は、前記対象外選択部によって選択された前記対象外画像と前記入力画像との間の差異領域の領域分布に基づいて、前記領域候補を検出する。

Description

学習データセット生成装置および方法
 本発明は、学習データセット生成装置、および学習データセット生成方法に関する。
 従来、学習モデルを用いて、処理対象の画像について、対象物の識別や分類や属性分析や予測や解析などの画像処理を行うことが知られている。このような学習モデルの機械学習には、機械学習用の学習データセットが使用される。
 この種の学習データセットの生成には、次のような人手による作業が行われる。
(工程1)作業者は、入力画像の一つ一つについて絵柄を視認によって確認する。作業者は、画像処理において処理対象にすべき特徴的な画像領域(特定の被写体などの領域)を見つけると、その画像領域を作業画面上で領域選択し、学習対象領域とする。
(工程2)作業者は、入力した学習対象領域に対して、画像処理の処理結果として所望する正解データを「タグ情報」として属性付与する。このタグ情報は、学習対象領域を特徴付ける情報であって、機械学習における教師データなどとして使用される。
 また、特許文献1には、学習データセットの作成において学習対象領域を決定する手法の一つとして、「汎用的な物体検出器を利用して物体として推定される矩形画像を検出し、それを候補矩形として推定する手法において、物体画像と背景画像との画像特徴量の差異や、画像から検知した物体の輪郭情報などをもとに候補矩形を推定する」旨の技術が開示される。
特開2019-75130号公報
 一般に、学習モデルの正解率や汎化性能は、学習データセットに含まれる学習データの数量や多様性によって決定される。そのため、学習データセットを準備する際には、学習用に収集される膨大かつ多種多様な入力画像を扱わなければならない。
 例えば、前述した人手による作業では、膨大かつ多種多様な入力画像の一つ一つについて視認を繰り返しながら、学習対象領域を入力しなければならず、多大な作業工数が必要になる。
 また、特許文献1の技術は、「物体画像と背景画像との画像特徴量の差異」や「画像から検知した物体の輪郭情報」に基づいて学習対象領域の領域候補を推定する点で、工数削減に有効な手法と考えられる。
 しかしながら、この「物体画像と背景画像との画像特徴量の差異」に基づく手法は、室内人工照明下の定点カメラの入力画像のように、「入力画像の背景が既知かつ一定とみなせるケース」に特化して有効な技術である。
 また、この「画像から検知した物体の輪郭情報」に基づく手法は、「学習対象領域に輪郭情報が集中し、それ以外に輪郭情報が少ないケース」に特化して有効な技術である。
 そのため、特許文献1の技術では、膨大かつ多種多様な入力画像の事前処理に柔軟にかつ十分に対応できないおそれがある。
 そこで、本発明は、学習対象領域の領域候補を検出するに際して、膨大かつ多種多様な入力画像の処理に対応するための技術を提供することを目的とする。
 上記課題を解決するために、本発明の代表的な学習データセット生成装置の一つは、学習データ用に収集される入力画像の画像領域から、機械学習の学習対象としてタグ付けを行う学習対象領域の領域候補を検出する装置であって、対象外格納部、対象外選択部、および領域候補抽出部を備える。
 前記対象外格納部は、前記学習対象領域を画像領域に含まない対象外画像の群を対象外データセットとして格納する。
 前記対象外選択部は、前記入力画像と前記対象外データセットとの間で差異を評価し、前記差異の評価結果に基づいて、前記入力画像に適応する対象外画像を前記対象外データセットから選択する。
 前記領域候補抽出部は、前記対象外選択部によって選択された前記対象外画像と前記入力画像との間の差異領域の領域分布に基づいて、前記領域候補を検出する。
 本発明では、学習対象領域の領域候補を検出するに際して、膨大かつ多種多様な入力画像の処理に対応するための技術が提供される。
 上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。 
図1は、実施例1の学習データセット生成装置100の構成を示す図である。 図2は、対象外データセット112Aの準備処理を示す流れ図である。 図3は、対象外データセット112Aの準備時に実施される対象外画像の抽出過程を示す説明図である。 図4は、学習対象領域の領域候補の検出処理を説明する流れ図(1/2)である。 図5は、学習対象領域の領域候補の検出処理を説明する流れ図(2/2)である。 図6は、学習データセット生成装置100の内部データの流れを示す説明図である。 図7は、学習データセット生成装置100による画像処理の様子を示す説明図である。 図8は、インタフェース部190の動作を説明する流れ図である。 図9は、学習データセット114のデータ構造の一例を示す図である。 図10は、表示画面の一例を示す図である。
 以下、本発明の実施例について図面を用いて説明する。
<実施例1の構成について>
 図1は、実施例1の学習データセット生成装置100の構成を示す図である。
 同図において、学習データセット生成装置100は、補助記憶部110、対象外選択部130、領域候補抽出部140、領域候補継承部150、動体判別部160、代表画像生成部170、対象外生成部180、インタフェース部190、および学習モデル部210を備える。
 補助記憶部110の記憶領域には、対象外候補格納部111、対象外格納部112、入力画像格納部113、学習データセット114、および学習データセット生成プログラム115が設けられる。
 対象外候補格納部111には、対象外画像の候補として収集された画像群が格納される。
 対象外格納部112には、対象外生成部180などによって生成される対象外画像(学習対象領域を画像領域に含まない画像)の群が、対象外データセット112Aとして格納される。
 入力画像格納部113には、学習データセットの材料として収集された入力画像の群が格納される。
 学習データセット114には、例えば(入力画像、学習対象領域、タグ情報)を参照可能な学習セットのリストデータが格納される。
 対象外選択部130は、入力画像格納部113から処理対象とする入力画像を取り込む。また、対象外選択部130は、対象外格納部112の対象外データセット112Aを取り込む。対象外選択部130は、入力画像と対象外データセット112Aとの間で差異を評価し、差異の評価結果に基づいて入力画像に適応する対象外画像を対象外データセット112Aから選択する。
 領域候補抽出部140は、対象外選択部130によって選択された対象外画像と、入力画像との間の差異領域の領域分布に基づいて、入力画像における学習対象領域の領域候補を検出する。
 領域候補継承部150は、対象外画像の選択処理について信頼性を評価する。ここで、信頼性が低く評価された場合、領域候補継承部150は、入力画像の前(または後)の所定フレーム数以内で検出された領域候補に基づいて、入力画像の領域候補を決定する。
 動体判別部160は、対象外候補格納部111から、対象外画像の候補として収集された画像の群を取り込む。動体判別部160は、これらの画像の群に対して動体の検知を行い、「動体を含まない画像」の群を選別する。
 代表画像生成部170は、「動体を含まない画像」の群についてクラスタリングを行うことによって、類似する画像による冗長性を削減した代表画像の群を生成する。
 対象外生成部180は、代表画像の群に基づいて、対象外データセット112Aを追加または新規作成する。対象外生成部180は、対象外データセット112Aを対象外格納部112に格納する。
 インタフェース部190は、有線や無線のネットワークNWを介して、クライアント端末200に通信接続される。例えば、クライアント端末200は、複数の作業者が同時作業可能なように複数用意される。
 インタフェース部190は、領域候補抽出部140により検出された領域候補を表示するための表示域と、領域候補の検出に使用した対象外画像を表示するための表示域とを含む表示画面を生成する。生成された表示画面は、ネットワークNWを介してクライアント端末200に表示される。作業者はクライアント端末200のブラウザプログラムなどを操作して、表示される領域候補について学習対象領域としての是非の判断や領域の訂正などの情報入力を行い、入力画像における学習対象領域を確定する。さらに、作業者は、確定された学習対象領域について、タグ情報を教師データとして入力設定する。
 インタフェース部190は、クライアント端末200から取得した(入力画像、学習対象領域、タグ情報)を含む学習セットを作成し、学習データセット114に追加する。
 なお、学習データセット生成装置100は、学習モデル部210を備えてもよい。この学習モデル部210は、少なくとも入力画像について入力する入力層211と、機械学習のための中間層212と、領域候補について出力する出力層213とを備える。
 以上説明した学習データセット生成装置100は、ハードウェアとしてCPU(Central Processing Unit)やメモリなどを備えたコンピュータシステムとして構成される。このハードウェアがコンピュータ可読媒体に記憶された学習データセット生成プログラム115を実行することにより、上述した装置としての各種機能が実現する。なお、このハードウェアの一部または全部については、専用の装置、汎用の機械学習マシン、DSP(Digital Signal Processor)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)、PLD(programmable logic device)などで代替してもよい。さらに、ハードウェアやプログラムの一部または全部をネットワークNW上のサーバに集中または分散してクラウドシステムを構成することにより、複数のクライアント端末200に対して各種機能をクラウドサービスとして提供してもよい。
<対象外データセット112Aの準備処理>
 まず、学習データセット生成装置100が実施する「対象外データセット112Aの準備処理」について説明する。
 図2は、対象外データセット112Aの準備処理を示す流れ図である。
 図3は、対象外データセット112Aの準備時に実施される対象外画像の抽出過程を示す説明図である。
 以下、図2および図3を用いて説明する。
ステップS101: 対象外候補格納部111には、対象外画像の候補として収集された画像の群が格納される。これらの画像の群は、次のように収集された画像群を含んでもよい。
(対象外画像の候補1)不特定に収集される画像群
(対象外画像の候補2)学習用に収集されながら、学習対象領域を含まないと判断された不特定の画像群
(対象外画像の候補3)入力画像に近い入手元(カメラなど)や入手地域において、照明条件や日照条件(季節や撮影時刻)や撮影対象などの撮影条件を不特定に変えて収集した画像群
 動体判別部160は、対象外候補格納部111から、これらの画像群を含む対象外画像の候補を取り込む。
ステップS102: 動体判別部160は、画像の群に対して画像領域に動体を含むか否かの検知を行う。
 例えば、時系列に撮影される画像の群(動画像や連写画像)については、フレーム間差が所定の閾値未満の画像を「動体を含まない画像302」として選別し、フレーム間差が閾値以上の画像を「動体を含む画像303」として選別する。
 また例えば、単独の画像については、動体判別部160は、画像領域における被写体の輪郭幅を検知し、輪郭幅の最大値が所定の閾値未満で静止している画像を「動体を含まない画像302」として選別し、輪郭幅の最大値が閾値以上で輪郭がぶれている画像を「動体を含む画像303」として選別する。
 ここで、動体判別部160は、「動体を含む画像303」を対象外画像の候補から除外することによって、「動体を含まない画像302」を対象外画像の候補として残す。
ステップS103: 代表画像生成部170は、「動体を含まない画像302」の相互間において画像の差異(画像間距離や非類似度など)を求める。代表画像生成部170は、画像の差異の小さい画像をグループ単位に集めることによって、「動体を含まない画像302」を複数のグループ304に分類(クラスタリング)する。
ステップS104: 代表画像生成部170は、グループ304ごとにクラスタリングの分布重心に比較的近い画像(そのような画像が複数存在する場合は、複数画像を加重加算などの合成処理した画像)をグループ304ごとに代表画像として抽出する。この代表画像の抽出により、類似する画像による冗長性を削減した代表画像の群が生成される。
ステップS105: 対象外生成部180は、代表画像生成部170により生成される代表画像の群を、対象外格納部112に格納し、対象外データセット112Aの新規作成または追加更新(すなわち増補)を行う。 
 上述した一連の動作により、学習データセット生成装置100は、対象外データセット112Aを準備することが可能になる。
<学習対象領域の領域候補の検出>
 続いて、学習データセット生成装置100が実施する「学習対象領域の領域候補の検出」について説明する。
 図4および図5は、学習対象領域の領域候補の検出処理を説明する流れ図である。
 図6は、学習データセット生成装置100の内部データの流れを示す説明図である。
 図7は、学習データセット生成装置100による画像処理の様子を示す説明図である。
 なお、図6および図7において、図1と同じ構成については同一の参照符号を付与し、ここでの重複説明を省略する。
 以下、図1および図4~図7に基づいて「学習対象領域の領域候補の検出処理」を説明する。
ステップS201: 対象外選択部130は、学習データとして処理待ちの入力画像を入力画像格納部113から取得する。
 このような入力画像に対しては、ノイズやフリッカなどの影響を低減するための前処理として、平滑化フィルタ、輪郭強調フィルタ、濃度変換などの処理を施してもよい。また、機械学習の用途などに応じて、画像のデータ形式をRGB、YUV、モノクロなどに適宜変換してもよい。さらに、処理負荷を低減するため、画像サイズを縮小する処理を施してもよい。
ステップS202: 対象外選択部130は、対象外データセット112Aから対象外画像を一つ取得する。
 このとき、入力画像を対象外画像と同様にクラスタリング(ステップS103参照)することにより、入力画像が分類されたグループを代表する対象外画像を優先的に読み出すことが好ましい。
 また、対象外データセット112Aに格納される対象外画像の内、前回選択された対象外画像や、選択頻度の高い対象外画像から優先的に読み出してもよい。
ステップS203: 対象外選択部130は、入力画像と対象外画像との間の差異(図7参照)について、局所的などの有意な差異か、全域的などの無意味な差異かを、例えば次の項目について評価する。
(差異評価1)差異の絶対値和
 差異の絶対値和が低い場合、入力画像と対象外画像との差異は少なく、局所的で有意な差異と評価される。
(差異評価2)差異領域の面積
 差異領域の面積が狭い場合、入力画像と対象外画像との差異領域は狭く、局所的で有意な差異と評価される。
(差異評価3)差異の領域形状
 差異の領域形状が特定の形状(人型、建物型、乗物型、電柱型、標識型、図形型、商品型、病巣型など)に近いほど、入力画像と対象外画像との差異は特徴的で有意な差異と評価される。ここでの特定の形状は、学習データセットの目的および用途に応じて適宜に設定される。
(差異評価4)差異の領域数
 差異の領域数が少ないほど、入力画像と対象外画像との差異は集約され、局所的で有意な差異と評価される。
(差異評価5)差異の集中度
 差異の画像領域内での集中度が高いほど、入力画像と対象外画像との差異は集中し、局所的で有意な差異と評価される。
 なお、ここでの評価については、対象外選択部130は、画像領域について適当な標本数の箇所で簡略に実施してもよい。また、評価途中で低評価と判明した場合は、対象外選択部130は、評価の完了を待たずに低評価と判定してもよい。さらに、差異の評価を簡略化するために、差異領域に対して、サイズ調整、二値化、孤立点除去、および輪郭抽出などの前処理を併用してもよい。これらの処理によって、差異の評価に必要な処理負荷を軽減することが可能になる。
ステップS204: 対象外選択部130は、対象外データセット112Aに残りの対象外画像があるかを判定する。
 残りの対象外画像がある場合、対象外選択部130はステップS202に動作を戻す。
 一方、残りの対象外画像がない場合、対象外選択部130はステップS205に動作を進める。
ステップS205: 対象外選択部130は、差異の評価結果に基づいて、入力画像に対して有意な差異を示す対象外画像が存在するか否かを判定する。
 入力画像に対して有意な差異を示す対象外画像が存在する場合、対象外選択部130はステップS207に動作を移行する。
 一方、入力画像に対して有意な差異を示す対象外画像が見つからない場合、対象外選択部130はステップS206に動作を進める。
ステップS206: ここでは、領域候補の抽出に適した対象外画像が見つからないため、領域候補継承部150は、対象外画像の選択処理について信頼できる結果が得られなかった(つまり信頼性が低い)と評価する。この場合、領域候補継承部150は、入力画像から所定フレーム数以内で検出された領域候補に基づいて、入力画像の領域候補を決定する。このような継承動作は、一連の入力画像において、画像領域内の領域候補の位置や範囲が継承される可能性が高いとの理由に基づく。
 この動作の後、領域候補継承部150はステップS209に動作を移行する。
ステップS207: 対象外選択部130は、差異の評価結果が充分に高い対象外画像を、入力画像に適応する対象外画像として一つまたは複数選択する。
ステップS208: 領域候補抽出部140は、入力画像に適応するとして選択された対象外画像と、入力画像との間で差異領域の領域分布を求める。ここでの領域分布は、ステップS205の判定を経るため、局所的などの有意な領域分布である。領域候補抽出部140は、この有意な領域分布に基づいて、入力画像における学習対象領域の領域候補を検出する。
 なお、領域候補抽出部140は、図7に示すように、差異評価の過程(ステップS203参照)で生成される差異領域の情報を利用して、入力画像における学習対象領域の領域候補を検出してもよい。
 また、ステップS207において、入力画像に適応する対象外画像が複数選択された場合、領域候補抽出部140は、複数の対象外画像それぞれに対応して、複数の領域候補を検出する。
 領域候補抽出部140は、(入力画像、領域候補、対象外画像)のセットをインタフェース部190に出力する。インタフェース部190の動作については後述する。
ステップS209: 対象外選択部130は、入力画像格納部113に処理待ちの入力画像が残っているか否かを判定する。
 処理待ちの入力画像がある場合、対象外選択部130はステップS201に動作を戻して、上述した動作を新たな入力画像に対して繰り返す。
 一方、入力画像に対する学習対象領域の領域候補検出が全て完了した場合、対象外選択部130は動作を完了する。
 上述した一連の動作により、膨大な入力画像に対して、学習対象領域の領域候補検出が自動的に実施される。
<インタフェース部190の動作>
 続いて、インタフェース部190の動作について説明する。
 図8は、インタフェース部190の動作を説明する流れ図である。
 図9は、学習データセット114のデータ構造の一例を示す図である。なお、図9において、図1と同じ構成については同一の参照符号を付与し、ここでの重複説明を省略する。
 以下、図1および図8~図9に基づいて「インタフェース部190の動作」を説明する。
ステップS301: インタフェース部190は、領域候補抽出部140または領域候補継承部150によって生成された(入力画像、領域候補、対象外画像)を含むセットを情報取得する。
ステップS302: インタフェース部190は、領域候補を表示するための表示域と、領域候補の検出に使用した対象外画像を表示するための表示域とを含む表示画面のデータを、ネットワークNWを介して、クライアント端末200に伝達する。クライアント端末200は、ブラウザプログラムなどを用いて、伝達される表示画面を表示する。表示画面の例については後述する。
ステップS303: 学習データセット114の監修を行う作業者は、表示画面上の領域候補を参考にしながらクライアント端末200を操作し、「領域候補が学習対象領域として是か非か」や「領域候補の領域訂正」などを入力する。インタフェース部190は、これら入力に応じて領域候補を修正ないし削除することによって、入力画像における学習対象領域を確定する。
ステップS304: 作業者は、クライアント端末200を操作し、学習対象領域に付与するタグ情報を入力する。この入力に応じて、インタフェース部190は、学習対象領域に付与するタグ情報を確定する。
ステップS305: インタフェース部190は、クライアント端末200から取得した(入力画像、学習対象領域、タグ情報)などを学習セットとして、学習データセット114に追加する。
 例えば、学習データセット114は、図9に示すデータ構造をとる。この学習データセット114には、入力画像ごとに対応付けて、学習対象領域およびタグ情報の情報が格納される。さらに、学習データセット114には、機械学習などに際して有用な属性情報が格納される。例えば、学習セットを生成した学習データセット生成装置100の識別フラグや作業者のIDコードなどが、属性情報の「生成元」項目に格納される。なお、学習データセット114に格納されるデータは、実データに限らず、実データを参照可能な参照データでもよい。
ステップS306: インタフェース部190は、学習データセット生成装置100として処理待ちの(入力画像、領域候補、対象外画像)などのセットが残っているか否かを判定する。
 処理待ちのセットがある場合、インタフェース部190はステップS301に動作を戻して、上述した動作を繰り返す。
 一方、処理待ちの(入力画像、領域候補、対象外画像)のセットが払底した場合、インタフェース部190は一旦動作を完了し、処理待ちの(入力画像、領域候補、対象外画像)が再び蓄積されるまで待機する。
 上述した一連の動作により、学習データセット114の生成がなされる。
<学習データセット生成装置100の表示画面について>
 続いて、インタフェース部190が生成する表示画面について説明する。
 図10は、表示画面の一例を示す図である。
 同図に示す表示画面1001は、クライアント端末200の画面上にタグ付けツールの操作ウィンドウとして表示される。
 この表示画面1001は、次のGUI部品によってレイアウト構成される。
・セッション選択パート1002
 セッションは、学習データセット生成の作業単位に相当する。セッションは、作業単位の情報を管理するためのデータフォルダに関連付けられる。このデータフォルダには、作業中または作業済みの入力画像やタグ情報や学習対象領域などの作業情報が格納される。作業者は、セッション選択パート1002を操作してセッションに関連するデータフォルダを新規作成することにより、学習データセット生成の作業(セッション)を新規に開始することができる。また、作業者は、過去のセッションを選択することにより、関連するデータフォルダを開いて学習データセット生成の作業を随時に再開することができる。
・学習画像フォルダ選択パート1003
 学習画像フォルダ選択パート1003は、入力画像の入力元フォルダ(複数選択可)を指定するためのGUI部品である。
・対象外データセット登録パート1004
 対象外データセット登録パート1004は、領域候補の検出に使用する対象外データセット112Aのフォルダを登録するためGUI部品である。
・クラス追加パート1005、クラス入力欄パート1006、クラス名一覧表パート1007
 図10に示す操作ウィンドウでは、タグ情報は、例えばクラス分類として管理される。作業者は、タグ情報としてのクラス名をクラス入力欄パート1006に入力してクラス追加パート1005を操作することによって、任意の名前のタグ情報のクラスを新規作成することができる。作成されたタグ情報のクラスはクラス名一覧表パート1007に表示される。作業者は、クラス名一覧表パート1007をメニュー選択することにより、学習対象領域に付与するタグ情報のクラスを選択する。また、作業者は、過去に学習対象領域に付与されたタグ情報のクラスを一括または部分的に修正または削除することもできる。
・入力画像の表示域1009
 表示域1009は、処理対象である入力画像を表示する。作業者は表示域1009を選択操作し、マウスホイールや十字キーなどで処理対象の入力画像を切り替えることができる。
・領域候補の表示域1010
 表示域1010は、学習対象領域の領域候補を、矩形枠または輪郭強調表示などを入力画像の表示域1009に重畳させた形式で表示する。
 作業者は、表示される領域候補をGUI操作することで、学習対象領域としての是非判断や領域訂正の入力操作を行う。このような操作によって、学習対象領域が確定される。
 また、表示域1011に対する操作では、一つの入力画像に対して複数の学習対象領域を確定することもできる。また、入力画像の画像全域を学習対象領域に確定することもできる。
 なお、上述のステップS208において複数の領域候補が検出された場合、複数の領域候補それぞれに対応する複数の表示域1010が、同時または順次に表示画面1001に表示される。
・領域候補の検出に使用した対象外画像の表示域1011
 表示域1011は、登録された対象外データセット112Aの内で、領域候補の検出に使用した対象外画像を強調枠表示する。
・セッション保存パート1012
 作業者がセッション保存パート1012を操作することにより、セッションの作業データは、セッションに関連付けられたデータフォルダに保存される。なお、セッションの保存は、入力画像のタグ付けが完了した時点で自動的に行ってもよい。また、入力画像を切り替えるたびにセッションを自動的に保存してもよい。さらに、各操作の合間にセッションを自動的に保存してもよい。
 以上説明した表示画面の操作により、作業者は、領域候補を参考にしながら、学習データセットを効率良く作成できる。
<学習モデル部210について>
 次に、学習モデル部210について説明する。
 図1に示す学習モデル部210では、インタフェース部190により確定する学習対象領域を教師データとして、少なくとも入力画像の群について誤差逆伝播法などの機械学習が実施される。
 この機械学習によって、入力画像と学習対象領域との間に相関関係を有する入力画像の群については、重み係数やバイアス値などの最適化が学習モデル部210に行われる。この機械学習の最適化の進展により、学習モデル部210は、新たな入力画像を入力層211に与えることによって、領域候補の推定結果を出力層213に出力するようになる。
 その結果、学習データセット生成装置100の一部または全部の機能を補完または代替する学習モデル部210が得られる。
<効果について>
 以下、実施例1が奏する顕著な効果について説明する。
(1)実施例1では、学習対象領域を画像領域に含まない対象外画像の群と、入力画像との間で差異が評価される。この差異の評価結果に基づいて、入力画像において有意な差異を示す領域が求められる。この有意な差異の領域分布に基づくことにより、入力画像内の学習対象領域の領域候補を検出することが可能になる。
(2)実施例1が、特許文献1の技術と大きく異なるのは、上記(1)に述べたように入力画像の背景を特化することなく、入力画像から有意な差異を示す領域を求めている点である。したがって、学習対象領域の領域候補を検出するに際して、「背景が既知かつ一定の入力画像」に特化する必要がなく、膨大かつ多種多様な入力画像の処理に対応することが可能になる。
(3)さらに、実施例1が、特許文献1の技術と大きく異なるのは、対象外画像の群と入力画像との差異を求めることで差異以外の情報が削減されるため、「学習対象領域に輪郭情報が集中し、それ以外に輪郭情報が少ない入力画像」に特化する必要がない点である。この点からも、実施例1は、膨大かつ多種多様な入力画像の処理に対応することが可能になる。
(4)実施例1では、対象外画像の選択処理について信頼性が低い場合、入力画像から所定フレーム数以内で検出された領域候補に基づいて、入力画像の領域候補を決定する。学習データセット用に収集される入力画像は動画や連写画像のように時系列の画像として収集されるケースがある。この場合、学習対象領域の領域候補はフレーム間で連続するため、所定フレーム数以内において領域候補の継続性は高くなる。したがって、対象外画像の選択処理について信頼性が低い場合であっても、一定の信頼性で領域候補を決定することが可能になる。
(5)実施例1では、画像の群から対象外画像の群を自動的に選別する。すなわち、画像の群に対して動体の検知を行って「動体を含まない画像」を選別し、その選別結果に基づいて対象外画像の群を得る。学習対象領域が動体に該当する多くのケースでは、「動体を含まない画像」を選別することによって、学習対象領域を含まない対象外画像の群を効率的に得ることが可能になる。
(6)実施例1では、対象外画像の群をさらに絞り込む。すなわち、「動体を含まない画像」の群に対してクラスタリングを行って、類似画像による冗長性を削減した代表画像の群を得る。このような代表画像に基づく対象外画像は、「冗長性削減の度合い」に応じて類似画像が除外されるため、厳選される。したがって、対象外画像の群を利用した処理の負荷を軽減することが可能になる。
(7)実施例1では、対象外画像の群に対する「冗長性削減の度合い」に応じて、対象外画像一つ一つは類似しなくなる。そのため、これら対象外画像と入力画像との差異一つ一つも類似しなくなる。したがって、上述のステップS207において対象外画像が複数選択された場合、ステップS208において「互いに類似しない領域候補」を複数検出することが可能になる。
(8)実施例1では、決定された領域候補を情報出力し、学習対象領域としての是非判断または領域訂正の情報入力を受け付けることによって、入力画像における学習対象領域を確定することもできる。したがって、学習データセット生成装置100は、外部(例えば、作業者)と連携することによって、領域候補を参考材料として学習対象領域の効率的な確定作業が可能になる。
(9)実施例1では、検出された領域候補を表示するための表示域と、領域候補の検出に使用した対象外画像を表示するための表示域とを含む表示画面を生成する。この領域候補の表示により、作業者にとって学習対象領域の判断が容易かつ迅速化される。また、領域候補の検出に使用した対象外画像の表示により、作業者やシステム運営者に対して領域候補の検出された経緯を確認させることが可能になる。
(10)実施例1では、少なくとも入力画像について入力する入力層と、機械学習のための中間層と、領域候補について出力する出力層とを有する学習モデル部210をさらに備える。この学習モデル部210において、確定する学習対象領域を教師データとして、少なくとも入力画像の群について機械学習が行われる。この学習モデル部210によって領域候補の推定を行うことにより、学習データセット生成装置100の機能の一部または全部を補完または代替することが可能になる。
(11)実施例1では、上述した各効果の相乗作用によって、学習データセットを効率的に生成することが可能になる。そのため、莫大かつ多種多様な学習データセットを一段と低コストに生成することが可能になる。
<実施形態の補足事項について>
 なお、実施形態では、学習データセット生成装置100を複数のクライアント端末200に接続したシステム構成について説明した。しかしながら、本発明はこの構成に限定されるものではない。例えば、本発明を、単独の装置(コンピュータなど)で実現してもよい。
 また、実施形態の図1では、対象外格納部112を、学習データセット生成装置100に専属する構成として説明した。しかしながら、本発明はこの構成に限定されるものではない。対象外格納部112に格納される対象外データセット112Aは、「学習対象領域を画像領域に含まない対象外画像の群」という性質において汎用的なデータセットである。そのため、対象外格納部112を、(専属の構成にせずに)複数の学習データセット生成装置100が共同利用するようにしてもよい。この場合、多数の学習データセット生成装置100の共同利用によって急速に蓄積されるデータを使用して、対象外データセット112Aのデータ量や汎用性を一段と速く高めることが可能になる。
 さらに、本発明では、専門の対象外データセット112Aを作成することもできる。すなわち、機械学習の目的別やテーマ別に、「目的やテーマに則した学習対象領域」を含まない対象外データセット112Aを作成することができる。この場合、機械学習の目的別やテーマ別に専門の対象外データセット112Aを選択使用することによって、機械学習の目的やテーマに則した学習対象領域の領域候補を決定することが可能になる。
 また、実施形態では、クライアント端末200による領域候補の確認・修正を経て、学習対象領域を確定する。しかしながら、本発明はこれに限定されない。検出された領域候補は有意な差異であることが保証されるので、領域候補を自動的(またはデフォルト設定で)学習対象領域に確定することもできる。この場合、作業者は領域候補(つまり学習対象領域)に対するタグ情報の付与に集中できるので、作業効率は一層高くなる。一般に、領域候補について慎重な確認・修正が必要か否かは、機械学習の目的別やテーマ別に定まる学習データセットの要求(設計仕様など)に応じて決定することが好ましい。
 さらに、本発明で扱うデータ全般(各種の画像群や領域情報やタグ情報など)については、実データや参照データなどのいずれを使用してもよい。
 なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されない。また、実施例の構成の一部を他の構成に置き換えることも可能である。また、実施例の構成に他の構成を加えることも可能である。
100…学習データセット生成装置、110…補助記憶部、111…対象外候補格納部、112…対象外格納部、112A…対象外データセット、113…入力画像格納部、114…学習データセット、115…学習データセット生成プログラム、130…対象外選択部、140…領域候補抽出部、150…領域候補継承部、160…動体判別部、170…代表画像生成部、180…対象外生成部、190…インタフェース部、200…クライアント端末、210…学習モデル部、211…入力層、212…中間層、213…出力層、1001…表示画面、1002…セッション選択パート、1003…学習画像フォルダ選択パート、1004…対象外データセット登録パート、1005…クラス追加パート、1006…クラス入力欄パート、1007…クラス名一覧表パート、1009…入力画像の表示域、1010…領域候補の表示域、1011…領域候補の検出に使用した対象外画像の表示域、1012…セッション保存パート、NW…ネットワーク

Claims (8)

  1.  学習データ用に収集される入力画像の画像領域から、機械学習の学習対象としてタグ付けを行う学習対象領域の領域候補を検出する学習データセット生成装置であって、
     前記学習対象領域を画像領域に含まない対象外画像の群を対象外データセットとして格納する対象外格納部と、
     前記入力画像と前記対象外データセットとの間で差異を評価し、前記差異の評価結果に基づいて、前記入力画像に適応する対象外画像を前記対象外データセットから選択する対象外選択部と、
     前記対象外選択部によって選択された前記対象外画像と前記入力画像との間の差異領域の領域分布に基づいて、前記領域候補を検出する領域候補抽出部と
     を備えることを特徴とする学習データセット生成装置。
  2.  請求項1に記載の学習データセット生成装置であって、
     前記対象外画像の選択処理について信頼性を評価し、前記信頼性が低評価の場合、前記入力画像から所定フレーム数以内で検出された前記領域候補に基づいて、前記入力画像の前記領域候補を決定する領域候補継承部を備える
     ことを特徴とする学習データセット生成装置。
  3.  請求項1~2のいずれか一項に記載の学習データセット生成装置であって、
     画像の群に対して動体の検知を行い、「動体を含まない画像」の群を選別する動体判別部と、
     前記「動体を含まない画像」の群から前記対象外データセットを生成する対象外生成部と
     を備えることを特徴とする学習データセット生成装置。
  4.  請求項3に記載の学習データセット生成装置であって、
     前記「動体を含まない画像」の群についてクラスタリングを行うことによって、類似する画像による冗長性を削減した代表画像の群を生成する代表画像生成部を備え、
     前記対象外生成部は、前記代表画像の群に基づいて前記対象外データセットを生成する
     ことを特徴とする学習データセット生成装置。
  5.  請求項1~4のいずれか一項に記載の学習データセット生成装置であって、
     前記領域候補抽出部によって決定された前記領域候補を情報出力し、前記学習対象領域としての是非判断または領域訂正の情報入力を受け付けることによって、前記入力画像における前記学習対象領域を確定するインタフェース部
     を備えたことを特徴とする学習データセット生成装置。
  6.  請求項5に記載の学習データセット生成装置であって、
     前記インタフェース部は、前記領域候補抽出部によって検出された前記領域候補を表示するための表示域と、前記領域候補の検出に使用した前記対象外画像を表示するための表示域とを含む表示画面を生成する
     ことを特徴とする学習データセット生成装置。
  7.  請求項5~6のいずれか一項に記載の学習データセット生成装置であって、
     少なくとも前記入力画像について入力する入力層と、機械学習のための中間層と、前記領域候補について出力する出力層とを有する学習モデル部をさらに備え、
     前記学習モデル部は、前記インタフェース部において確定する前記学習対象領域を教師データとして、少なくとも前記入力画像の群について機械学習を行う
     ことを特徴とする学習データセット生成装置。
  8.  学習データ用に収集される入力画像の画像領域から、機械学習の学習対象としてタグ付けを行う学習対象領域の領域候補を検出する学習データセット生成方法であって、
     前記学習対象領域を画像領域に含まない対象外画像の群を対象外データセットとして格納する対象外格納ステップと、
     前記入力画像と前記対象外データセットとの間で差異を評価し、前記差異の評価結果に基づいて、前記入力画像に適応する対象外画像を前記対象外データセットから選択する対象外選択ステップと、
     前記対象外選択ステップによって選択された前記対象外画像と前記入力画像との間の差異領域の領域分布に基づいて、前記領域候補を検出する領域候補抽出ステップと
     を備えることを特徴とする学習データセット生成方法。
PCT/JP2020/002583 2020-01-24 2020-01-24 学習データセット生成装置および方法 WO2021149252A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2020/002583 WO2021149252A1 (ja) 2020-01-24 2020-01-24 学習データセット生成装置および方法
JP2021572242A JP7104252B2 (ja) 2020-01-24 2020-01-24 学習データセット生成装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/002583 WO2021149252A1 (ja) 2020-01-24 2020-01-24 学習データセット生成装置および方法

Publications (1)

Publication Number Publication Date
WO2021149252A1 true WO2021149252A1 (ja) 2021-07-29

Family

ID=76991841

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/002583 WO2021149252A1 (ja) 2020-01-24 2020-01-24 学習データセット生成装置および方法

Country Status (2)

Country Link
JP (1) JP7104252B2 (ja)
WO (1) WO2021149252A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023175652A1 (ja) * 2022-03-14 2023-09-21 日本電気株式会社 動画生成装置、動画生成方法、および動画生成プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005128959A (ja) * 2003-10-27 2005-05-19 Sony Corp ロボット装置及びその物体学習方法
JP2019159787A (ja) * 2018-03-13 2019-09-19 コニカミノルタ株式会社 人物検出方法および人物検出プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005128959A (ja) * 2003-10-27 2005-05-19 Sony Corp ロボット装置及びその物体学習方法
JP2019159787A (ja) * 2018-03-13 2019-09-19 コニカミノルタ株式会社 人物検出方法および人物検出プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023175652A1 (ja) * 2022-03-14 2023-09-21 日本電気株式会社 動画生成装置、動画生成方法、および動画生成プログラム

Also Published As

Publication number Publication date
JP7104252B2 (ja) 2022-07-20
JPWO2021149252A1 (ja) 2021-07-29

Similar Documents

Publication Publication Date Title
Li et al. Automatic pavement crack recognition based on BP neural network
CN109639481A (zh) 一种基于深度学习的网络流量分类方法、系统及电子设备
CN111008961B (zh) 一种输电线路设备缺陷检测方法及其系统、设备、介质
JP2002099918A (ja) 画像処理方法、画像処理システムおよび記録媒体
CN113032868A (zh) 预制构件管理方法、装置、电子设备及存储介质
CN103870824B (zh) 一种在人脸检测跟踪过程中的人脸捕捉方法及装置
CN113255590A (zh) 一种缺陷检测模型训练方法、缺陷检测方法、装置及系统
CN113033516A (zh) 对象识别统计方法及装置、电子设备、存储介质
CN110992307A (zh) 基于yolo的绝缘子定位识别方法及装置
CN107564032A (zh) 一种基于外观网络的视频跟踪对象分割方法
Avola et al. A shape comparison reinforcement method based on feature extractors and f1-score
JP7104252B2 (ja) 学習データセット生成装置および方法
CN113641906A (zh) 基于资金交易关系数据实现相似目标人员识别处理的系统、方法、装置、处理器及其介质
CN110009045A (zh) 物联网终端的识别方法和装置
CN113705650B (zh) 一种人脸图片集的处理方法、装置、介质和计算设备
CN112101125B (zh) 一种快递货物堆积程度的检测方法及装置
CN111882545B (zh) 基于双向信息传递及特征融合的织物疵点检测方法
CN113569912A (zh) 车辆识别方法、装置、电子设备及存储介质
Jiashun A new trajectory clustering algorithm based on TRACLUS
JP6326622B2 (ja) 人物検出装置
CN108256578B (zh) 一种灰度图像的识别方法、装置、设备及可读存储介质
CN117274843A (zh) 基于轻量级边缘计算的无人机前端缺陷识别方法及系统
CN117036798A (zh) 一种基于深度学习的输配电线路图像识别方法及系统
CN116721384A (zh) 基于神经网络的暴露垃圾监控方法及系统
CN110032933B (zh) 一种图像数据的获取方法、装置、终端及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20915797

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021572242

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20915797

Country of ref document: EP

Kind code of ref document: A1