WO2020101036A1 - 教師信号生成装置、モデル生成装置、物体検出装置、教師信号生成方法、モデル生成方法、およびプログラム - Google Patents

教師信号生成装置、モデル生成装置、物体検出装置、教師信号生成方法、モデル生成方法、およびプログラム Download PDF

Info

Publication number
WO2020101036A1
WO2020101036A1 PCT/JP2019/045036 JP2019045036W WO2020101036A1 WO 2020101036 A1 WO2020101036 A1 WO 2020101036A1 JP 2019045036 W JP2019045036 W JP 2019045036W WO 2020101036 A1 WO2020101036 A1 WO 2020101036A1
Authority
WO
WIPO (PCT)
Prior art keywords
positive
teacher signal
determination
detection target
negative
Prior art date
Application number
PCT/JP2019/045036
Other languages
English (en)
French (fr)
Inventor
勇佑 二井谷
小川 徹
Original Assignee
株式会社 Preferred Networks
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社 Preferred Networks filed Critical 株式会社 Preferred Networks
Publication of WO2020101036A1 publication Critical patent/WO2020101036A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present invention relates to a learning device, an object detection device, a learning method, and a program.
  • a large amount of data is required to perform machine learning. Further, for supervised learning, a data set with teacher data showing a correct answer is required. For example, as data sets with teacher data for object detection, there are imageNet of Princeton University, Open Images Dataset (OID) of GOOGLE (registered trademark), and the like.
  • OID Open Images Dataset
  • An embodiment of the present invention aims to suppress a decrease in object detection accuracy even when learning of object detection is performed using a dataset having inconsistent annotations.
  • One embodiment of the present invention includes an object detection unit, a positive / negative determination unit, and a teacher signal determination unit.
  • the object detection unit attempts to detect a detection target from the proposed area that is a part of the image using the object detection network.
  • the positive / negative determination unit performs positive / negative determination to determine whether the proposed area should be a positive example or a negative example of the detection target, based on the image data.
  • the teacher signal determination unit performs an eligibility determination that determines whether the positive / negative determination is eligible or not, and determines a result of the positive / negative determination used as a teacher signal based on the result of the eligibility determination.
  • FIG. 1 is a block diagram showing an example of a learning device (object detection device) according to the first embodiment.
  • the learning device (object detection device) 1 according to the present embodiment includes a region proposing unit 11, an object detection unit 12, a positive / negative determination unit 13, a teacher signal determination unit (eligibility determination unit) 14, and an evaluation unit 15.
  • the learning unit 16, the output unit 17, and the storage unit 18 are provided.
  • the learning device 1 of the present embodiment uses the data set for object detection to perform learning related to object detection. Then, the learning device 1 after learning detects a predetermined object (detection target) from the given image. Therefore, the learning device 1 can be said to be an object detection device.
  • “learning” may be rephrased as “training” or “model generation”, and “learning device” as “training device”.
  • the network is a model, and the learned model obtained by learning is It can be called a trained model.
  • the data set for object detection is a set of a large amount of image data. Relevant information related to the image as well as the image itself is attached to each image data. As the related information, for example, information such as an object shown in the image and its position is included in the image data.
  • the related information attached to the image is called an annotation (or metadata). By performing learning based on this annotation, the learning device 1 can detect the detection target object from the given image.
  • the learning device 1 is assumed to capture the data set from the data set providing source, but the data set may be stored in the storage unit 18 in advance.
  • FIG. 2 is a diagram showing an example of image data of a data set.
  • a frame (bounding box) surrounding each detection target shown in the image is displayed on the image of FIG.
  • a bounding box that surrounds each of "person”, “person's face”, and “person's arm” is displayed.
  • detection targets classes
  • the image data includes information such as the position and size of the bounding box and the detection target in the bounding box as annotations.
  • annotations may be different (that is, inconsistent) for each image in the dataset.
  • FIG. 2B as in FIG. 2A, “person”, “person's face”, and “person's arm” are displayed.
  • FIG. 2B although there is a bounding box for "person”, there is no bounding box for "Human Face” and "Human arm”. That is, some of the annotations included in the image data of FIG. 2A are not included in the image data of FIG. 2B.
  • the detection accuracy may decrease.
  • the image data of FIG. 2B includes “human face” and “human face”. Since there is no annotation for "arm", a general learning device will erroneously recognize that the detection was incorrect.
  • FIG. 3 is a diagram for explaining misrecognition based on annotations.
  • FIG. 3 shows a proposal region (solid line and dotted frame) generated by a general learning device for the image of FIG. 2 (B).
  • the suggestion area means a bounding box candidate.
  • Each of the proposed areas shown in FIG. 3 is an area that should be treated as a positive example (positionview sample) when annotations are added to all detection targets.
  • the image data of FIG. 3 includes annotations for “person”, but does not include annotations for “human face” and “human arm”. Therefore, the proposed area indicated by the solid line is determined to be a positive example, but the proposed area indicated by the dotted line is mistakenly determined to be a negative example. In this way, the false negative example is used as the teacher signal, so that the detection accuracy is reduced.
  • the learning device 1 of the present embodiment determines whether the determination result based on the annotation is suitable as a teacher signal. As a result, even when learning of object detection is performed using a data set having inconsistent annotations, it is possible to suppress deterioration in accuracy of object detection.
  • the content of the processing of the learning device 1 will be described together with each component of the learning device 1.
  • Area suggestion unit 11 proposes a part of the given image as a proposal area.
  • the suggestion area means a candidate for a bounding box that surrounds the detection target in the image.
  • the proposed area may not actually surround the detection target.
  • the area proposing unit 11 calculates the proposal area using, for example, a known neural network (area proposal network) that outputs the proposal area when an image is input. From the viewpoint of efficiency, it is assumed that the area proposal network is used, but the proposal area may be proposed by a method other than the area proposal network.
  • the object detection unit 12 attempts to detect a detection target from the proposal area.
  • an object detection network that detects a predetermined object when an image is input is used. Specifically, when the proposal area is input, the object detection network outputs at least the probability that an object in the proposal area is a detection target. Learning is performed so that the accuracy of the output result is improved.
  • the object detection unit 12 may use the probability as it is as the detection result. Further, when the probability is less than or equal to a predetermined value, the detection result may be that detection is not possible. Further, when there are a plurality of detection targets, the probability of each detection target may be output for one proposed region, or the highest probability may be output.
  • known neural networks such as Faster R-CNN (Regions with Conventional Neural Networks) and Feature Pyramid Networks may be used.
  • the positive / negative determination unit 13 determines, based on the annotation of the image, whether the proposed region should be a positive example or a negative example for the detection target. The determination is described as positive / negative determination.
  • the positive / negative determination unit 13 may erroneously recognize that the detection target does not exist in the image because the annotation is not added, and may make a determination “should be a negative example”. That is, the determination result by the positive / negative determination unit 13 may actually be incorrect. Therefore, not all the positive / negative determination results are used as they are as the teacher signal.
  • the result of the positive / negative determination is described as “should be a positive example” or “should be a negative example” so that it can be distinguished from “positive example” and “negative example” which are teacher signals. There is.
  • the positive / negative determination unit 13 recognizes the true area of the detection target indicated by the annotation of the image data. Then, positive / negative determination is performed based on the proposed area and the true area to be detected. For example, when the proposed area completely includes the true area, it may be determined that “it should be a positive example”. Further, even if the proposed area completely includes the true area, if the area of the proposed area is larger than the area of the true area by more than a predetermined value, it is determined as “a negative example”. It is possible that In this way, the determination condition for the positive / negative determination may be set appropriately.
  • one detection area may include a plurality of detection targets. In such a case, the positive / negative determination may be performed for each detection target. Alternatively, only the most suitable detection target may be determined to be “a positive example” and other detection targets may be determined to be a “negative example”.
  • the teacher signal determination unit 14 performs eligibility determination to determine whether the positive / negative determination by the positive / negative determination unit 13 is qualified or unqualified. Then, based on the result of the eligibility determination, it is determined whether to use the result of the positive / negative determination as the teacher signal. In other words, based on the result of the eligibility determination, the result of the positive / negative determination is classified into one used as a teacher signal and one not used as a teacher signal. At this time, if only the result of the positive / negative judgment determined to be qualified is determined as the teacher signal, in other words, if learning is performed without using the result of the unqualified positive / negative judgment, the positive / negative judgment that is actually an error is made. The result of can be prevented from becoming a teacher signal.
  • the teacher signal determination unit 14 may reduce the number of results of positive / negative determination, which are determined to be ineligible, used as a teacher signal.
  • the teacher signal determination unit 14 recognizes a combination of detection targets associated in advance. Then, the teacher signal determination unit 14 confirms whether the current eligibility determination is a detection target included in the combination (hereinafter, referred to as a detection target in the combination). If the eligibility determination is for the detection target in the combination, the result of the previous eligibility determination for another detection target in the combination is confirmed. Then, the present eligibility determination is performed in consideration of the previous eligibility determination result of another detection target. In this way, the teacher signal determination unit 14 considers the result of the eligibility determination regarding a certain detection target and performs the eligibility determination regarding another detection target associated with the detection target.
  • the detection targets in the combination can be those that are likely to be displayed together in one image.
  • the detection targets that are likely to be displayed together in one image are associated in advance.
  • the whole partial relationship means a relationship between an entire object such as “person” and “face”, “car” and “tire”, or a part thereof, or a part of an object and a smaller part thereof. To do.
  • the larger one of the detection targets having the whole partial relationship is also referred to as “whole object”, and the smaller one is also described as “partial object”.
  • the detection target is associated with another detection target that is likely to be detected. For example, when there is another detection target that is likely to be included in the bounding box of a certain detection target, it is considered that one detection target and another detection target have an overall partial relationship, and these are associated with each other. Good.
  • the association of detection targets may be set on a rule basis, for example. Further, for example, it may be performed by a model obtained by machine learning. Further, for example, for a combination of detection targets, images in which a plurality of detection targets are present are collected, the proportion of the partial objects in which the partial objects are included in the entire object is calculated, and the ratio is associated with the larger ratio. be able to.
  • FIG. 4 is a graph showing an example of combinations of detection targets.
  • the "1" node in the graph means the "whole” detection target
  • the "2" node in the graph means the "partial” detection target.
  • “person” is shown as the detection target of “whole”
  • “hat”, “arm”, and “face” are shown as the detection targets of “part”.
  • a “hat” does not seem to be part of a person, but when a person wears a hat, a "hat” becomes part of a person. Therefore, a clothing item such as a "hat” may be wholly partly related to the "person".
  • tools used by humans may be treated as "parts”.
  • the teacher signal determination unit 14 may disqualify the result of the positive / negative determination in such a case.
  • the teacher signal determination unit 14 determines that the determination is appropriate, and (3) the positive / negative determination unit 13 determines that the second proposed region is negative for “face”. Assume that it is determined that it should be an example. In such an assumption, the teacher signal determination unit 14 determines, based on the positional relationship between the first proposed area and the second proposed area, the determination result that the second proposed area should be a negative example for the “face”. , May be determined to be ineligible. The positional relationship may be appropriately determined for each combination of detection targets.
  • the first suggestion area (“person” area) may include the second suggestion area (“face” area), or the first suggestion area (“person” area) may be included. , And may include at least a part of the second proposal area (the “face” area). Even if the determination is made based on the ratio of the common part of the first proposal area and the second proposal area (the first proposal area ⁇ the second proposal area) to the first proposal area or the second proposal area. Good.
  • the threshold value for the ratio for making the determination may be set appropriately. If too few negative examples are used for the teacher signal, learning may be hindered. Therefore, it is considered that the threshold value is preferably about 90%.
  • the second proposal area (“shoes” area) is in the lower half of the first proposal area (“people” area). May be Since the first proposal area and the second proposal area are on the same image, they may be determined to be ineligible regardless of their positional relationship. That is, if the above conditions (1) to (3) are satisfied, it may be determined as unqualified, and if the conditions regarding the positional relationship are further satisfied, it may be determined as unqualified.
  • an object to which an annotation is added in a certain image such as an OID authenticated label
  • image data corresponding to the image. That is, the object to which the annotation is added may be known from the image data.
  • the teacher signal determination unit 14 confirms whether or not the detection target is the target of the annotation based on the image data (specifically, the list). The result of the positive / negative determination regarding the detection target that is determined not to be assigned may be determined to be ineligible.
  • the teacher signal determination unit 14 determines only the result of the positive / negative determination, which is determined to be suitable, as the teacher signal.
  • the determination result of “should be a positive example” is used as the “positive example” of the teacher signal
  • the determination result of “should be a negative example” is used as the “negative example” of the teacher signal.
  • the teacher signal determination unit 14 does not determine eligibility with respect to the determination “should be a positive example”. Good. That is, the determination that “it should be a positive example” does not have to be the target of the eligibility determination. However, it is possible that the image has the wrong annotation. Therefore, it is possible to judge the authenticity of the annotation. In that case, the judgment “should be a positive example” is also the target of eligibility judgment.
  • the teacher signal determination unit 14 adjusts the ratio of the positive example and the negative example used as the teacher signal by not setting all the determination results of “qualify as a negative example” that are determined to be qualified as the teacher signal. You may.
  • the adjustment method and the number of adjustments may be appropriately determined. For example, the determination result of “qualifying as a negative example” that is determined to be eligible may be narrowed down randomly or may be narrowed down based on a predetermined condition.
  • the evaluation unit 15 evaluates the detection result based on at least the teacher signal.
  • the evaluation is represented by a loss with respect to the probability of each detection target calculated by the object detection unit 12.
  • the loss calculation method may follow a predetermined loss function for the teacher signal. For example, it is conceivable to convert the probability of each detection target according to the teacher signal and obtain the loss based on each conversion result.
  • the conversion may be, for example, +1 for a positive example, -1 for a negative example, 0 if there is no teacher signal, and so on. It can be said that the conversion result of each detection target is an element of the loss function.
  • whether or not the proposed area truly surrounds the detection target may be included in the loss. That is, the degree of agreement with respect to the position, size, etc., obtained by comparing the proposed area with the true area to be detected may be used as the element of the loss function.
  • the learning unit 16 updates the parameters of the object detection network based on the evaluation result of the evaluation unit 15. Specifically, the learning unit 16 changes the value of the parameter and tries to increase the evaluation by the evaluation unit (that is, to reduce the loss). In this way, the detection accuracy of the detection target is improved.
  • the output unit 17 outputs information regarding the processing of each component. For example, the information regarding the detection result by the object detection unit 12 is output. For example, the output unit 17 may output the proposed area, the probability of which exceeds a predetermined threshold value, together with the detection target, as the detection target area.
  • the storage unit 18 stores data necessary for processing each component.
  • the area proposal network, the object detection network, the combination of detection targets, the processing result of each component, and the like are stored in the storage unit 18.
  • the data stored in the storage unit 18 may be duplicated.
  • the data stored in the storage unit 18 is not particularly limited. Note that the storage device may be outside the learning device 1, and these data may be acquired from the storage device when the learning device 1 performs processing.
  • FIG. 5 is a schematic flowchart of the learning process of the learning device 1 according to the first embodiment. This flow is performed for each image of the learning data in the data set.
  • the area proposing unit 11 proposes a part of the image as a proposal area based on the given image data (S101).
  • the object detection unit 12 attempts to detect each detection target in each proposed area (S102). Thereby, the probability of each detection target in each proposal target is calculated.
  • the positive / negative determination unit 13 executes positive / negative determination for each detection target for each proposed region based on the annotation of the image data (S103).
  • the teacher signal determination unit 14 executes the eligibility determination on the eligibility of the positive / negative determination (S104), and determines the teacher signal based on the result of the eligibility determination (S105).
  • the evaluation unit 15 evaluates the detection result of the object detection unit 12 based on at least the teacher signal (S106). Specifically, the evaluation unit 15 calculates the loss based on the teacher signal and the probability of each detection target. Then, the learning unit updates the parameters of the object detection network based on the evaluation (S107). In this way, learning for one image is completed, and the flow is similarly started for the next image.
  • the process of S107 may be performed using a plurality of evaluations after obtaining the evaluation results for the plurality of images.
  • FIG. 6 is a schematic flowchart of the object detection process of the learning device 1 according to the first embodiment. This flow may be performed on an image of the evaluation data in the data set, or may be performed on an image different from the data set used for learning.
  • the area proposing unit 11 calculates a proposing area in the image based on the given image data (S201).
  • the object detection unit tries to detect each detection target in each proposed area (S102).
  • information such as the probability of each detection target in each proposal target and whether or not detection is possible based on the probability is calculated.
  • the output unit 17 outputs information regarding the detection result such as the detection target and the detected area (S203). In this way, the learning device 1 can operate as an object detection device that detects a detection target from a given image.
  • FIG. 7 is a diagram showing an evaluation result of the object detection performance of the learning device 1 according to the first embodiment. The results are shown when the eligibility is not determined and when the eligibility is determined.
  • the learning device 1 showing the evaluation result uses Feature Pyramid Networks as an object detection network. Further, this object detection network is learned by using OID learning data.
  • the detection target of each item in the table of this evaluation result is associated with "person", and the eligibility determination of the detection target of each item is performed in consideration of the result of the eligibility determination for "person”. ..
  • the numerical values in the table are the results of object detection of the learning device 1 with respect to the OID evaluation data, which are evaluated by Average Precision (AP).
  • AP Average Precision
  • the eligibility of the result of the positive / negative judgment based on the annotation is judged, and only the positive / negative judgment result judged to be suitable is used as a teacher signal. As a result, even if the dataset includes image data with missing annotations, it is possible to suppress a decrease in detection accuracy.
  • FIG. 8 is a block diagram showing an example of a learning device (object detection device) according to the second embodiment.
  • the learning device according to the second embodiment further includes a pseudo annotation adding unit 19.
  • the accuracy of the positive / negative determination result is increased by complementing the annotation. That is, the learning device 1 newly adds an annotation.
  • the annotation added by the learning device 1 is described as a pseudo annotation.
  • the annotations included in the image data are described as standard annotations.
  • the pseudo annotation is not always correct, and the result of positive / negative judgment may be incorrect due to incorrect pseudo annotation. Therefore, also in the present embodiment, the eligibility determination is performed to prevent an incorrect positive / negative determination result from being a teacher signal. The description of the same points as in the first embodiment will be omitted.
  • the pseudo annotation adding unit 19 detects an object that is considered to be a detection target from the given image and adds a pseudo annotation.
  • An object detection network during learning may be used to add the pseudo annotation, or another object detection network may be used. Therefore, the object detection unit 12 may perform the above process as a pseudo annotation adding unit.
  • the positive / negative determination unit 13 determines positive / negative based on not only the standard annotation but also the pseudo annotation. In other words, the number of annotations used for positive / negative determination has increased. Other than that, the processing is performed in the same manner as in the first embodiment.
  • the eligibility determination for the pseudo annotation may be performed first, and the pseudo annotation determined to be ineligible may not be used for the positive / negative determination.
  • the teacher signal determination unit 14 performs eligibility determination on the positive / negative determination result as in the first embodiment.
  • a condition for pseudo annotation is newly added to the eligibility determination determination condition. Has been added.
  • the conditions for the pseudo annotation are appropriately determined so that it can be determined whether the pseudo annotation is correct.
  • a condition regarding the positional relationship between the bounding box of the pseudo annotation and the bounding box of the standard annotation can be considered. For example, if the degree of matching between the bounding box of the pseudo annotation and the bounding box of the standard annotation is higher than the upper limit value, it may be determined as ineligible. On the contrary, when the degree of matching is lower than the lower limit, it may be determined that the person is not qualified.
  • the upper limit and the lower limit may be set appropriately.
  • the pseudo annotation regarding the object to which the standard annotation is added may be determined to be ineligible.
  • the teacher signal determination unit 14 may perform eligibility determination by further using the condition for the newly added annotation.
  • FIG. 9 is a schematic flowchart of the learning process of the learning device of the second embodiment.
  • a pseudo annotation is attached to the image given by the pseudo annotation attaching unit 19 (S201).
  • the positive / negative determination unit 13 performs positive / negative determination for each search target for each proposal area based on these annotations without distinguishing between pseudo annotations and standard annotations. Therefore, the processing of the positive / negative determination unit 13 is similar to that of the first embodiment (S103).
  • the teacher signal determination unit 14 executes the eligibility determination, but is the same as the first embodiment except that the determination condition is different from that of the first embodiment (S104). The subsequent processing is also the same as in the first embodiment.
  • the pseudo annotation by adding the pseudo annotation, it is possible to reduce the error in the positive / negative determination due to the non-addition of the annotation. Also, since the pseudo-annotation may be erroneous, it is possible to reduce the risk of using the result of erroneous positive / negative determination due to the error of the pseudo-annotation for the teacher signal by performing eligibility determination on the pseudo-annotation. You can As a result, similarly to the first embodiment, even when the image data including the missing annotation is included in the data set, it is possible to suppress a decrease in detection accuracy.
  • the learning and the object detection are both performed by the single learning device 1.
  • the learning may be divided into the first device for learning and the second device for object detection. Good.
  • the object detection network learned by the first device is transmitted to the second device, and the second device performs object detection using this learned object detection network.
  • the components for learning for example, the positive / negative determination unit 13, the teacher signal determination unit 14, the evaluation unit 15, the learning unit 16, and the pseudo annotation adding unit 19 may not be included in the second device.
  • the learning device 1 may be configured as a learning system or an object detection system by distributing the constituent elements of the above-described embodiment into a plurality of devices.
  • the learning unit may be a single device (model generation device) and may be divided into a device (teacher signal generation device) that includes a teacher signal determination unit and generates a teacher signal used by the device.
  • At least part of the above-described embodiments may be realized by a dedicated electronic circuit (that is, hardware) such as an IC (Integrated Circuit) in which a processor, a memory and the like are mounted.
  • a plurality of constituent elements may be realized by one electronic circuit, one constituent element may be realized by a plurality of electronic circuits, or one constituent element and one electronic circuit may be realized. Further, at least a part of the above-described embodiments may be realized by executing software (program).
  • a general-purpose computer device is used as basic hardware, and a processor (processing circuit, processing circuit) such as a central processing unit (CPU: Central Processing Unit) and an image processing device (GPU: Graphics Processing Unit) mounted on the computer device,
  • processor processing circuit
  • processing circuit such as a central processing unit (CPU: Central Processing Unit) and an image processing device (GPU: Graphics Processing Unit) mounted on the computer device
  • CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • the computer can be used as the device of the above-described embodiment by the computer reading the dedicated software stored in the computer-readable storage medium.
  • the type of storage medium is not particularly limited.
  • the computer can be the device of the above embodiment by installing the dedicated software downloaded via the communication network by the computer. In this way, information processing by software is specifically implemented by using hardware resources.
  • FIG. 10 is a block diagram showing an example of the hardware configuration according to the embodiment of the present invention.
  • the learning device 1 includes a processor 21, a main storage device 22, an auxiliary storage device 23, a network interface 24, and a device interface 25, which can be realized as a computer device 2 connected via a bus 26. ..
  • the computer device 2 in FIG. 10 includes one component, but may include a plurality of the same components. Further, although one computer device 2 is shown in FIG. 10, software may be installed in a plurality of computer devices, and each of the plurality of computer devices may execute a part of processing of different software. ..
  • the processor 21 is an electronic circuit (processing circuit) including a computer control device and a computing device.
  • the processor 21 performs arithmetic processing based on data and programs input from each device of the internal configuration of the computer device 2 and outputs an arithmetic result and a control signal to each device.
  • the processor 21 controls each component that constitutes the computer device 2 by executing an OS (operating system) of the computer device 2, an application, or the like.
  • the processor 21 is not particularly limited as long as it can perform the above processing. It is assumed that the components other than the storage unit 18 of the learning device 1 are realized by the processor 21.
  • One or more processors 21 are provided and are connected to a memory described later.
  • the main storage device 22 is a storage device that stores instructions executed by the processor 21 and various data, and the information stored in the main storage device 22 is directly read by the processor 21.
  • the auxiliary storage device 23 is a storage device other than the main storage device 22. Note that these storage devices mean arbitrary electronic components capable of storing electronic information, and may be a memory or a storage.
  • the memory includes a volatile memory and a non-volatile memory, but either may be used.
  • the storage unit 18 may be realized by the main storage device 22 or the auxiliary storage device 23. That is, the storage unit 18 may be a memory or a storage.
  • the network interface 24 is an interface for connecting to the communication network 3 wirelessly or by wire. As the network interface 24, one that conforms to the existing communication standard may be used. From the network interface 24, the computer device 2 and the external device 4A can be connected via the communication network 3.
  • the device interface 25 is an interface such as a USB that is directly connected to the external device 4B. That is, the computer device 2 and the external device 4 (4A and 4B) may be connected via a network or directly.
  • the external device 4 (4A and 4B) may be any device external to the learning device 1, an internal device of the learning device 1, an external storage medium, or a storage device.
  • the term "image” may mean a still image or a moving image.
  • each frame may be converted into a still image and used for learning.
  • the embodiment of the present invention can be applied to learning or detection when the detection target has the above-mentioned overall partial relationship. Further, in the above-described embodiment, the case where the combination of detection targets is two layers of “whole object” and “partial object” has been described, but it may be three or more layers.
  • the first layer is a "person”
  • the second layer is a "person's face” and “person's hand”, which is part of a "person”
  • the third layer is a further part of a "person's face.”
  • a combination of three layers of “human eyes” and “human nose” may be defined.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本発明の一実施形態は、アノテーションの一貫性に欠けるデータセットを用いて物体検出の学習を行った場合でも、物体検出精度の低下を抑えることを目的とする。 [解決手段] 本発明の一実施形態は、物体検出部と、正負判定部と、教師信号決定部と、を備える。前記物体検出部は、物体検出ネットワークを用いて、画像の一部である提案領域から、検出対象の検出を試みる。前記正負判定部は、前記画像に関するデータに基づき、前記提案領域を前記検出対象に対する正例とすべきか負例とすべきかを判定する正負判定を行う。前記教師信号決定部は、前記正負判定が適格か不適格かを判定する適格性判定を行い、前記適格性判定の結果に基づき、教師信号として用いる正負判定の結果を決定する。

Description

教師信号生成装置、モデル生成装置、物体検出装置、教師信号生成方法、モデル生成方法、およびプログラム
 本発明は、学習装置、物体検出装置、学習方法、およびプログラムに関する。
 機械学習を行うには大量のデータが必要とされる。また、教師あり学習のためには、正解を示す教師データ付きのデータセットが必要である。例えば、物体検出のための教師データ付きのデータセットとしては、プリンストン大学のimageNet、GOOGLE(登録商標)のOpen Images Dataset(OID)などがある。
 従来の物体認識の機械学習においては、データセットの全ての画像に対し、等しくアノテーションがされていることが前提であった。しかし、当該前提は崩れつつある。例えば、OIDでは、認証済みラベル(verified labels)という概念が導入され、認証済みラベルで規定された物体だけにアノテーションが行われている。この認証済みラベルは画像に応じて異なるため、各画像で検出対象(クラス)の物体が必ずアノテーションされているとは限らない。例えば、1番目の画像では人の顔にアノテーションが付与されているが、2番目の画像では、表示されているにも関わらず、人の顔にアノテーションが付与されていない、といったことがあり得る。このようなアノテーションの一貫性に欠けるデータセットを用いることによって、従来のデータセットを用いた場合よりも、検出精度などが低下してしまうといった問題が生じている。
 本発明の一実施形態は、アノテーションの一貫性に欠けるデータセットを用いて物体検出の学習を行った場合でも、物体検出精度の低下を抑えることを目的とする。
[課題を解決するための手段]
 本発明の一実施形態は、物体検出部と、正負判定部と、教師信号決定部と、を備える。前記物体検出部は、物体検出ネットワークを用いて、画像の一部である提案領域から、検出対象の検出を試みる。前記正負判定部は、前記画像に関するデータに基づき、前記提案領域を前記検出対象に対する正例とすべきか負例とすべきかを判定する正負判定を行う。前記教師信号決定部は、前記正負判定が適格か不適格かを判定する適格性判定を行い、前記適格性判定の結果に基づき、教師信号として用いる正負判定の結果を決定する。
第1の実施形態に係る学習装置(物体検出装置)の一例を示すブロック図。 データセットの画像データの例を示す図。 アノテーションに基づく誤認識について説明する図。 検出対象の組み合わせの例を示すグラフ。 第1の実施形態の学習装置の学習処理の概略フローチャート。 第1の実施形態の学習装置の物体検出処理の概略フローチャート。 第1の実施形態の学習装置の物体検出の性能に対する評価結果評価を示す図。 第2の実施形態に係る学習装置(物体検出装置)の一例を示すブロック図。 第2の実施形態の学習装置の学習処理の概略フローチャート。 本発明の一実施形態におけるハードウェア構成の一例を示すブロック図。
 以下、図面を参照しながら、本発明の実施形態について説明する。
(第1の実施形態)
 図1は、第1の実施形態に係る学習装置(物体検出装置)の一例を示すブロック図である。本実施形態に係る学習装置(物体検出装置)1は、領域提案部11と、物体検出部12と、正負判定部13と、教師信号決定部(適格性判定部)14と、評価部15と、学習部16と、出力部17と、記憶部18と、を備える。
 本実施形態の学習装置1は、物体検出のためのデータセットを用いて、物体検出に関する学習を行う。そして、学習後の学習装置1は、与えられた画像から所定の物体(検出対象)を検出する。ゆえに、学習装置1は、物体検出装置とも言える。なお、本明細書においては、「学習」を「訓練」または「モデルの生成」、「学習装置」を「訓練装置」と言い換えてもよく、ネットワークはモデル、学習されて得られる学習済みモデルは訓練済みモデルと呼ぶことができる。
 物体検出のためのデータセットは、大量の画像データの集合である。各画像データには、画像そのものだけでなく、その画像に関連する関連情報が付与されている。関連情報として、例えば、画像内に示された物体およびその位置などの情報が、画像データに含まれる。画像に付与された関連情報は、アノテーション(あるいはメタデータ)と称される。このアノテーションに基づいて学習を行うことにより、学習装置1は、与えられた画像から、検出対象の物体を検出することができるようになる。
 なお、図1では、学習装置1は、データセットの提供源からデータセットを取り込むことを想定しているが、データセットが記憶部18に予め記憶されていてもよい。
 図2は、データセットの画像データの例を示す図である。図2(A)の画像上に、画像内に示された各検出対象を囲む枠(バウンディングボックス)が表示されている。ここでは、「人」、「人の顔」、「人の腕」をそれぞれ囲むバウンディングボックスが表示されている。また、データセットには検出対象(クラス)が規定されており、各バウンディングボックスの傍に、囲まれている検出対象が表示されている。ここでは、“person”、“Human Face”、“Human arm”と表示されている。このように、画像データは、アノテーションとして、バウンディングボックスの位置および大きさ、そのバウンディングボックス内の検出対象などの情報を含んでいる。
 しかしながら、データセットの画像ごとに、アノテーションが異なる(つまり、一貫性に欠ける)場合もあり得る。例えば、図2(B)では、図2(A)同様、「人」、「人の顔」、「人の腕」が表示されている。しかし、図2(B)には、“person”に関するバウンディングボックスはあるが、“Human Face”、“Human arm”に関するバウンディングボックスが存在しない。つまり、図2(A)の画像データに含まれていたアノテーションの一部が、図2(B)の画像データには含まれていない。
 図2のようなデータセットを用いて学習を行った場合、検出精度が低下する恐れがある。例えば、一般の学習装置が図2(B)を読み込んで「人の顔」および「人の腕」を検出した場合では、図2(B)の画像データには「人の顔」および「人の腕」についてのアノテーションがないため、一般の学習装置は検出が不正解であったと誤認識することになる。
 図3は、アノテーションに基づく誤認識について説明する図である。図3には、図2(B)の画像に対して一般の学習装置が生成した提案領域(実線および点線の枠)が示されている。提案領域は、バウンディングボックスの候補を意味する。図3に示された各提案領域は、全ての検出対象に対してアノテーションが付与されている場合、正例(positvie sample)として扱われるべき領域である。しかし、上述の通り、図3の画像データには、「人」に対するアノテーションはあるが、「人の顔」と「人の腕」に対するアノテーションがない。そのため、実線の提案領域は正例と判断されるが、点線の提案領域は誤って負例(negative sample)と判断される。こうして、誤った負例が教師信号として用いられるため、検出の精度が低下する。
 データセットの画像数は今後も増加すると思われるが、画像数が増加するにつれ、アノテーションなどに掛かるコストも増加してしまう。ゆえに、データセットの提供源は、画像内の全ての検出対象についてアノテーションをする必要がない認証済みラベルのような概念を採用し、アノテーションに掛かるコストを抑えるようになると思われる。つまり、アノテーションの一貫性に欠けるデータセットが今後増加すると思われる。そこで、本実施形態の学習装置1は、アノテーションに基づく判定結果が教師信号として適格であるかを判定する。これにより、アノテーションの一貫性に欠けるデータセットを用いて物体検出の学習を行った場合でも、物体検出の精度の低下が抑えられる。
 学習装置1の処理の内容を、学習装置1の各構成要素とともに説明する。
 領域提案部11は、与えられた画像の一部を提案領域として提案する。提案領域は、画像内の検出対象を取り囲むバウンディングボックスの候補を意味する。なお、提案領域は、実際に検出対象を取り囲んでいない場合もある。領域提案部11は、例えば、画像を入力すると提案領域を出力する公知のニューラルネットワーク(領域提案ネットワーク)を用いて、提案領域を算出する。なお、効率の観点からは、領域提案ネットワークを用いることが想定されるが、領域提案ネットワーク以外の方法で、提案領域を提案してもよい。
 物体検出部12は、提案領域から、検出対象の検出を試みる。検出には、画像を入力すると所定の物体を検出する物体検出ネットワークが用いられる。具体的には、物体検出ネットワークは、提案領域が入力されると、提案領域内の物体が検出対象である確率を少なくとも出力する。この出力結果の精度が向上するように、学習が行われる。なお、物体検出部12は、当該確率をそのまま検出結果としてもよい。また、当該確率が所定値以下の場合は、検出不可という検出結果にしてもよい。また、検出対象が複数ある場合、一つの提案領域に対して、各検出対象の確率が出力されてもよいし、最も高い確率が出力されてもよい。
 物体検出ネットワークは、Faster R-CNN(Regions with Convolutional Neural Networks)、Feature Pyramid Networksなどといった公知のニューラルネットワークを用いればよい。
 正負判定部13は、画像のアノテーションに基づき、提案領域を検出対象に対する正例とすべきか、それとも負例とすべきか、を判定する。当該判定を、正負判定と記載する。
 なお、前述の通り、各画像において、検出対象に必ずアノテーションが付与されているとは限らない。ゆえに、正負判定部13は、アノテーションが付与されていないために画像内に検出対象が存在していないと誤認識して、「負例とすべき」という判定を行うことがあり得る。つまり、正負判定部13による判定結果は、実際には誤りであることがあり得る。ゆえに、正負判定の結果の全てをそのまま教師信号とは用いない。
 なお、ここでは教師信号である「正例」および「負例」と区別可能なように、正負判定の結果については、「正例とすべき」または「負例とすべき」と記載している。
 具体的には、正負判定部13は、画像データのアノテーションに示された、検出対象の真の領域を認識する。そして、提案領域と、検出対象の真の領域と、に基づき、正負判定を行う。例えば、提案領域が当該真の領域を完全に内包している場合は、「正例とすべき」と判定されることが考えられる。また、提案領域が当該真の領域を完全に内包していても、提案領域の面積が当該真の領域の面積よりも所定値を越えて大きい場合は、「負例とすべき」と判定されることが考えられる。このように、正負判定の判定条件は、適宜に定めてよい。なお、図3に示したように、一つの提案領域に複数の検出対象が含まれる場合もある。そのような場合、正負判定が各検出対象ごとに行われてもよい。あるいは、最も適した検出対象だけを「正例とすべき」と判定し、その他の検出対象については「負例とすべき」と判定してもよい。
 教師信号決定部14は、正負判定部13による正負判定が適格か不適格かを判定する適格性判定を行う。そして、適格性判定の結果に基づき、正負判定の結果を教師信号として用いるか否かについて決定する。言い換えると、適格性判定の結果に基づき、正負判定の結果を、教師信号として用いるものと、教師信号として用いないものと、に分類する。この際、適格と判定された正負判定の結果のみを教師信号と決定すれば、言い換えると、不適格とした正負判定の結果を利用せずに学習を行えば、実際には誤りである正負判定の結果が教師信号となるのを防ぐことができる。なお、不適格と判定された正負判定の結果の一部を教師信号として利用した場合、不適格と判定された正負判定の結果全てを教師信号として利用した場合よりも、物体検出精度の低下は抑えられる。ゆえに、教師信号決定部14は、不適格と判定された正負判定の結果が教師信号として利用される数を減らすようにしてもよい。
 適格性判定の判定方法の一例について説明する。教師信号決定部14は、予め対応付けられた検出対象の組み合わせを認識しておく。そして、教師信号決定部14は、今回の適格性判定が、当該組み合わせに含まれる検出対象(以下、組み合わせ内の検出対象という)であるかを確認する。組み合わせ内の検出対象に関する適格性判定であった場合は、組み合わせ内の別の検出対象の以前の適格性判定の結果を確認する。そして、別の検出対象の以前の適格性判定結果を考慮して、今回の適格性判定を行う。このように、教師信号決定部14は、ある検出対象に関する適格性判定の結果を考慮して、当該検出対象に対応付けられた別の検出対象に関する適格性判定を行う。
 組み合わせ内の検出対象は、一つの画像内に一緒に表示されている可能性が高いものとすることができる。言い換えると、一つの画像内に一緒に表示されている可能性が高い検出対象を予め対応付けておく。例えば、全体部分関係にある検出対象同士を対応付けることが想定される。本明細書において、全体部分関係とは、「人」と「顔」、「車」と「タイヤ」など、物体の全体とその一部分、または、物体の部分とそれより小さいその一部分の関係を意味する。なお、全体部分関係にある検出対象の大きいほうを「全体物」、小さいほうを「部分物」とも記載する。さらに、言い換えると、ある検出対象が検出された場合において、当該検出対象を、検出される可能性が高い別の検出対象に対応付けておく。例えば、ある検出対象のバウンディングボックス内に含まれている可能性が高い別の検出対象がある場合、ある検出対象と別の検出対象とが全体部分関係にあるとみなして、これらを対応付けてもよい。
 この検出対象の対応付け(検出対象の組み合わせ)は、例えばルールベースで設定されてもよい。また例えば、機械学習で得られたモデルによって行われてもよい。また例えば、検出対象の組み合わせについて、複数の検出対象が存在する画像を集め、部分物のうち、部分物が全体物に含まれるものの割合を計算して、その割合が大きいものについて対応付けることで行うことができる。
 図4は、検出対象の組み合わせの例を示すグラフである。図4では、三つの全体部分関係のグラフが示されている。グラフの「1」のノードが「全体」の検出対象を意味し、グラフの「2」のノードが「部分」の検出対象を意味している。最も左側のグラフでは、「全体」の検出対象として「人」が示されており、「部分」の検出対象として「帽子」、「腕」、「顔」が示されている。「帽子」は人の一部ではないように思えるが、人が帽子を着用しているときは、「帽子」は人の一部となる。ゆえに、「帽子」のような着用物も、「人」と全体部分関係にあるとしてよい。その他にも、人が使用する道具なども「部分」として扱うことも考えられる。
 全体部分関係のように、一つの画像内に一緒に表示されている可能性が高い検出対象同士の一方が既に画像内に表示されていることが確定したにも関わらず、もう一方の検出対象に関する提案領域が「負例とすべき」と判定された場合、アノテーションが付与されていない可能性がある。ゆえに、教師信号決定部14は、このような場合に、正負判定の結果を不適格とすることが考えられる。
 例えば、(1)「全体」が「人」であって「部分」が「顔」であるという全体部分関係が予め定められており、(2)正負判定部13が、第1の提案領域を「人」に対する正例とすべきと判定し、教師信号決定部14が、当該判定を適格と確定させており、(3)正負判定部13が、第2の提案領域を「顔」に対する負例とすべきと判定した、という場合を想定する。このような想定の場合、教師信号決定部14は、第2の提案領域を「顔」に対する負例とすべきという判定結果を、第1の提案領域と第2の提案領域の位置関係に基づき、不適格と判定してもよい。位置関係は、検出対象の組み合わせごとに、適宜に定めてよい。例えば、第1の提案領域(「人」の領域)が、第2の提案領域(「顔」の領域)を内包するというものでもよいし、第1の提案領域(「人」の領域)が、第2の提案領域(「顔」の領域)の少なくとも一部を含むというものでもよい。第1の提案領域または第2の提案領域に対する、第1の提案領域および第2の提案領域の共通部分(第1の提案領域∩第2の提案領域)の割合に基づき、判定を行ってもよい。当該判定を行うための、当該割合に対する閾値は、適宜に定めてよい。なお、教師信号に用いられる負例が少な過ぎると、学習に支障が出る恐れがある。ゆえに、閾値は90%程度が好ましいと考えられる。つまり、当該共通部分が第1の提案領域または第2の提案領域の90%以上である場合、第2の提案領域に関する判定結果を不適格と判定することが好ましい。また、「人」と「靴」という検出対象の組み合わせであれば、第2の提案領域(「靴」の領域)が、第1の提案領域(「人」の領域)の下半分にあるなどとしてもよい。なお、第1の提案領域と第2の提案領域は同一画像上にあるため、位置関係は問わずに、不適格と判定してもよい。つまり、上記の(1)から(3)の条件を満たし場合に、不適格と判定してもよいし、さらに位置関係に関する条件を満たした場合に、不適格と判定してもよい。
 また、OIDの認証済みラベルのように、ある画像においてアノテーションが付与された物体が、当該画像に対応する画像データにより示されている場合もあり得る。つまり、画像データから、アノテーションが付与された物体が分かる場合もあり得る。画像データが、アノテーションが付与された物体を示している場合に、教師信号決定部14は、画像データ(詳細にはそのリスト)に基づき、検出対象がアノテーションの対象であるかを確認し、アノテーションが付与されていないと判明した検出対象に関する正負判定の結果を不適格と判定してもよい。
 このようにして、教師信号決定部14は、適格と判定された正負判定の結果のみを教師信号と決定する。当然ながら、「正例とすべき」という判定結果は、教師信号の「正例」として用いられ、「負例とすべき」という判定結果は、教師信号の「負例」として用いられる。
 なお、ここでは、アノテーションが付与されていないことを想定しているが、この想定の場合、教師信号決定部14は、「正例とすべき」という判定に対して、適格性を判定しなくともよい。つまり、「正例とすべき」という判定は、適格性判定の対象としなくともよい。しかし、画像に間違ったアノテーションが付与されている場合もあり得る。ゆえに、アノテーションの真偽を判定することも考えられる。その場合、「正例とすべき」という判定も、適格性判定の対象となる。
 なお、教師信号として用いられる正例と負例の割合が大きく異なると、検出精度に関する学習速度が低下する。また、物体検知では、一般的に正例に比べて負例の数が膨大になる。ゆえに、教師信号決定部14は、適格と判定された「負例とすべき」という判定結果の全てを教師信号とはしないことにより、教師信号として用いられる正例と負例の割合を調節してもよい。調節方法および調節する数は、適宜に定めてよい。例えば、適格と判定された「負例とすべき」という判定結果を、ランダムに絞り込んでもよいし、所定の条件に基づいて絞り込んでもよい。
 評価部15は、少なくとも教師信号に基づき、検出の結果に対し評価を行う。当該評価は、物体検出部12により算出された、各検出対象の確率に対する損失で表される。損失の計算方法は、予め定められた、教師信号に関する損失関数に従えばよい。例えば、各検出対象の確率を教師信号に応じて変換し、各変換結果に基づき損失を求めることが考えられる。変換は、例えば、正例なら+1、負例なら-1、教師信号がないなら0、などとすればよい。各検出対象の変換結果は、損失関数の要素と言える。
 また、提案領域が、検出対象を真に取り囲んでいるかについても、損失に含めてもよい。つまり、提案領域と、検出対象の真の領域とを比較して得られた、位置、大きさなどに対する合致度を損失関数の要素としてもよい。
 学習部16は、評価部15の評価結果に基づき、物体検出ネットワークのパラメータを更新する。具体的には、学習部16は、当該パラメータの値を変えて、評価部による評価が高まるように(つまり、損失が小さくなるように)試みる。このようにして、検出対象の検出精度が向上する。
 出力部17は、各構成要素の処理に関する情報を出力する。例えば、物体検出部12による検出結果に関する情報を出力する。例えば、出力部17は、確率が所定閾値を超えている提案領域を、検出対象が検出された領域として、検出対象とともに、出力してもよい。
 記憶部18は、各構成要素の処理に必要なデータを記憶する。例えば、領域提案ネットワーク、物体検出ネットワーク、検出対象の組み合わせ、各構成要素の処理結果などが、記憶部18に格納される。なお、記憶部18に記憶されたデータは、複製されてもよい。なお、記憶部18により記憶されるデータは、特に限られるものではない。なお、記憶装置が学習装置1の外部にあり、学習装置1が処理を行う際にこれらのデータを記憶装置から取得してもよい。
 次に、各構成要素の処理の流れを説明する。図5は、第1の実施形態の学習装置1の学習処理の概略フローチャートである。本フローは、データセット内の学習用データの各画像に対して行われる。
 領域提案部11は、与えられた画像データに基づき、画像の一部分を提案領域として提案する(S101)。物体検出部12は、各提案領域に対し、各検出対象の検出を試みる(S102)。これにより、各提案対象における各検出対象の確率が算出される。
 一方、正負判定部13は、画像データのアノテーションに基づき、提案領域ごとに各検出対象に対する正負判定を実行する(S103)。正負判定の結果を受けて、教師信号決定部14は、正負判定の適格性について適格性判定を実行し(S104)、適格性判定の結果に基づいて教師信号を決定する(S105)。
 評価部15は、少なくとも教師信号に基づき、物体検出部12の検出結果を評価する(S106)。具体的には、評価部15は、教師信号と、検出対象ごとの確率と、に基づき、損失を算出する。そして、学習部が当該評価に基づき、物体検出ネットワークのパラメータを更新する(S107)。こうして、一つの画像に対する学習が終了し、次の画像に対して、同様にフローが開始される。なお、S107の処理は、複数の画像に対する評価結果を得た後に、複数の評価を用いて行われてもよい。
 図6は、第1の実施形態の学習装置1の物体検出処理の概略フローチャートである。本フローは、データセット内の評価用データの画像に対して行われてもよいし、学習に用いたデータセットとは別の画像に対して行われてもよい。
 領域提案部11は、与えられた画像データに基づき、画像内の提案領域を算出する(S201)。物体検出部が、各提案領域に対し、各検出対象の検出を試みる(S102)。これにより、各提案対象における各検出対象の確率、当該確率に基づいた検出可否などの情報が算出される。出力部17は、検出対象、検出された領域などの検出結果に関する情報を出力する(S203)。こうして、学習装置1は、与えられた画像から検出対象を検出する物体検出装置として、稼働することができる。
 なお、本説明におけるフローチャートは一例であり、上記の例に限られるものではない。実施形態の求められる仕様、変更などに応じて、手順の並び替え、追加、および省略が行われてもよい。以降のフローチャートも同様である。
 図7は、第1の実施形態の学習装置1の物体検出の性能に対する評価結果を示す図である。適格性判定を行わなかった場合と、適格性判定を行った場合での結果が示されている。本評価結果を示した学習装置1は、Feature Pyramid Networksを物体検出ネットワークとして用いている。また、この物体検出ネットワークは、OIDの学習用データを用いて学習されている。本評価結果の表の各項目の検出対象は「人」と対応付けられており、「人」に対する適格性判定の結果を考慮して、各項目の検出対象の適格性判定が行われている。表の数値は、OIDの評価用データに対する学習装置1の物体検出の結果を、Average Precision(AP)で評価したものである。
 これらの検出対象に関しては、適格性判定を行った場合のほうが平均して9.2(A)Pほどの優れた結果を得ている。特に、「顔」、「腕」などといった人のパーツを表す検出対象(図7の表では、腕から手までの12個の検出対象)に関しては、適格性判定を行った場合のほうが22.7APほどの優れた結果を得ている。検出精度の向上させる方法としては、物体検出ネットワークのレイヤ数を増やすことが考えられるが、101層のネットワークから154層のネットワークに変更したときに得られる精度向上は、OIDの500個の検出対象の平均で1.5APほどであった。したがって、本学習装置1の精度向上が極めて大きな向上であることを理解することができる。
 以上のように、本実施形態によれば、アノテーションに基づく正負判定の結果に対して、その適格性を判定し、適格と判定された正負判定結果のみを教師信号として用いる。これにより、アノテーションが抜けている画像データがデータセットに含まれている場合でも、検出精度の低下を抑えることができる。
(第2の実施形態)
 図8は、第2の実施形態に係る学習装置(物体検出装置)の一例を示すブロック図である。第2の実施形態に係る学習装置は、擬似アノテーション付与部19をさらに備える。
 正負判定の結果が誤るのは、主に、アノテーションが付与されていない画像データがあることに起因すると考えられる。そこで、第2の実施形態では、アノテーションを補完することにより、正負判定の結果の精度を上げる。つまり、学習装置1がアノテーションを新たに付与する。学習装置1が付与したアノテーションを擬似アノテーションと記載する。また、画像データに含まれるアノテーション(データセットに設定済みのアノテーション)を、標準アノテーションと記載する。
 しかし、擬似アノテーションが必ずしも正しいとは限らず、誤った擬似アノテーションにより、正負判定の結果が誤ることもあり得る。そこで、本実施形態でも、適格性判定を行うことにより、誤った正負判定の結果が教師信号となることを防ぐ。なお、第1の実施形態と同様な点は、説明を省略する。
 擬似アノテーション付与部19は、与えられた画像から、検出対象と思われる物体を検出し、擬似アノテーションを付与する。擬似アノテーションを付与するために、学習中の物体検出ネットワークを用いてもよいし、別の物体検出ネットワークを用いてもよい。ゆえに、物体検出部12が、擬似アノテーション付与部として、上記の処理を行ってもよい。
 正負判定部13は、標準アノテーションだけでなく、擬似アノテーションにも基づき、正負判定を行う。つまり、正負判定に用いられるアノテーションが増えたことになる。それ以外は、第1の実施形態と同様に処理される。なお、擬似アノテーションに対する適格性判定を先に行い、不適格と判定された擬似アノテーションは正負判定に用いないとしてもよい。
 教師信号決定部14は、第1の実施形態と同様、正負判定結果に対して適格性判定を行うが、第2の実施形態では、適格性判定の判定条件に、擬似アノテーションに対する条件が新たに追加されている。擬似アノテーションに対する条件は、擬似アノテーションが正しいかを判定することができるように、適宜に定められる。例えば、擬似アノテーションのバウンディングボックスと、標準アノテーションのバウンディングボックスとの位置関係に関する条件が考えられる。例えば、擬似アノテーションのバウンディングボックスと、標準アノテーションのバウンディングボックスとの合致度が上限値よりも高い場合、不適格と判定するとしてもよい。逆に、当該合致度が下限値よりも低い場合も、不適格と判定するとしてもよい。上限値および下限値も適宜に定めてよい。また、認証済みラベルのように、画像データが、標準アノテーションが付与された物体を示している場合に、標準アノテーションが付与された物体に関する擬似アノテーションは不適格と判定してもよい。このように、教師信号決定部14は、新たに付与されたアノテーションに対する条件をさらに用いて、適格性判定を行えばよい。
 図9は、第2の実施形態の学習装置の学習処理の概略フローチャートである。領域提案部11の処理(S101)と並行して、擬似アノテーション付与部19が与えられた画像に対し、擬似アノテーションを付与する(S201)。正負判定部13は、擬似アノテーションと標準アノテーションを区別せずに、これらのアノテーションに基づき、提案領域ごとに各検索対象に対する正負判定を実行する。ゆえに、正負判定部13の処理は第1の実施形態と同様である(S103)。また、教師信号決定部14が適格性判定を実行するが、判定条件が第1の実施形態と異なる以外は、第1の実施形態と同じである(S104)。以降の処理も、第1の実施形態と同様である。
 以上のように、本実施形態によれば、擬似アノテーションを付与することにより、アノテーションが付与されていないことに起因する正負判定の誤りを減少させることができる。また、擬似アノテーションが誤りである可能性もあるため、適格性判定を擬似アノテーションに対して行うことにより、擬似アノテーションの誤りに起因する誤った正負判定の結果を教師信号に用いるおそれを低減することができる。これらにより、第1の実施形態同様、アノテーションが抜けている画像データがデータセットに含まれている場合でも、検出精度の低下を抑えることができる。
 なお、上述の実施形態では、一つの学習装置1にて学習と物体検出の両方を行うとしたが、学習のための第1装置と、物体検出のための第2装置と、に分けてもよい。その場合、第1装置により学習された物体検出ネットワークが第2装置に送信され、第2装置は、この学習済みの物体検出ネットワークを用いて、物体検出を行う。なお、学習のための構成要素、例えば、正負判定部13、教師信号決定部14、評価部15、学習部16、擬似アノテーション付与部19は、第2装置になくてもよい。
 あるいは、上述の実施形態の構成要素を複数の装置に分散して、学習装置1を学習システムまたは物体検出システムとして構成してもよい。例えば、学習部を単独の装置(モデル生成装置)にし、教師信号決定部などを含み当該装置が用いる教師信号を生成する装置(教師信号生成装置)と、に分けてもよい。
 なお、上記の実施形態の少なくとも一部は、プロセッサ、メモリなどを実装しているIC(Integrated Circuit:集積回路)などの専用の電子回路(すなわちハードウェア)により実現されてもよい。複数の構成要素が一つの電子回路で実現されてもよいし、一つの構成要素が複数の電子回路で実現されてもよいし、構成要素と電子回路が一対一で実現されていてもよい。また、上記の実施形態の少なくとも一部は、ソフトウェア(プログラム)を実行することにより、実現されてもよい。例えば、汎用のコンピュータ装置を基本ハードウェアとして用い、コンピュータ装置に搭載された中央処理装置(CPU:Central Processing Unit)、画像処理装置(GPU:Graphics Processing Unit)などのプロセッサ(処理回路、Processing circuit、Processing circuitry)にプログラムを実行させることにより、上記の実施形態の処理を実現することが可能である。言い換えると、当該プログラムの実行により、プロセッサ(処理回路)が、各装置の各処理を実行できるように構成される。
 例えば、コンピュータが読み取り可能な記憶媒体に記憶された専用のソフトウェアをコンピュータが読み出すことにより、コンピュータを上記の実施形態の装置とすることができる。記憶媒体の種類は特に限定されるものではない。また、通信ネットワークを介してダウンロードされた専用のソフトウェアをコンピュータがインストールすることにより、コンピュータを上記の実施形態の装置とすることができる。こうして、ソフトウェアによる情報処理が、ハードウェア資源を用いて、具体的に実装される。
 図10は、本発明の一実施形態におけるハードウェア構成の一例を示すブロック図である。学習装置1は、プロセッサ21と、主記憶装置22と、補助記憶装置23と、ネットワークインタフェース24と、デバイスインタフェース25と、を備え、これらがバス26を介して接続されたコンピュータ装置2として実現できる。
 なお、図10のコンピュータ装置2は、各構成要素を一つ備えているが、同じ構成要素を複数備えていてもよい。また、図10では、1台のコンピュータ装置2が示されているが、ソフトウェアが複数のコンピュータ装置にインストールされて、当該複数のコンピュータ装置それぞれがソフトウェアの異なる一部の処理を実行してもよい。
 プロセッサ21は、コンピュータの制御装置および演算装置を含む電子回路(処理回路)である。プロセッサ21は、コンピュータ装置2の内部構成の各装置などから入力されたデータやプログラムに基づいて演算処理を行い、演算結果や制御信号を各装置などに出力する。具体的には、プロセッサ21は、コンピュータ装置2のOS(オペレーティングシステム)や、アプリケーションなどを実行することにより、コンピュータ装置2を構成する各構成要素を制御する。プロセッサ21は、上記の処理を行うことができれば特に限られるものではない。学習装置1の記憶部18以外の構成要素は、プロセッサ21により実現されることが想定される。プロセッサ21は1つ以上が備えられ、後述するメモリに接続される。
 主記憶装置22は、プロセッサ21が実行する指示および各種データなどを記憶する記憶装置であり、主記憶装置22に記憶された情報がプロセッサ21により直接読み出される。補助記憶装置23は、主記憶装置22以外の記憶装置である。なお、これらの記憶装置は、電子情報を格納可能な任意の電子部品を意味するものとし、メモリでもストレージでもよい。また、メモリには、揮発性メモリと、不揮発性メモリがあるが、いずれでもよい。記憶部18は、主記憶装置22または補助記憶装置23により実現されてもよい。すなわち、記憶部18は、メモリでもよいし、ストレージでもよい。
 ネットワークインタフェース24は、無線または有線により、通信ネットワーク3に接続するためのインタフェースである。ネットワークインタフェース24は、既存の通信規格に適合したものを用いればよい。ネットワークインタフェース24より、通信ネットワーク3を介して、コンピュータ装置2と外部装置4Aとを接続することができる。
 デバイスインタフェース25は、外部装置4Bと直接接続するUSBなどのインタフェースである。すなわち、コンピュータ装置2と外部装置4(4Aおよび4B)との接続は、ネットワークを介してでもよいし、直接でもよい。
 なお、外部装置4(4Aおよび4B)は、学習装置1の外部の装置、学習装置1の内部の装置、外部記憶媒体、およびストレージ装置のいずれでもよい。
 上記に、本発明の一実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
 なお、本説明において「画像」という用語は、静止画を意味してもよいし、動画を意味してもよい。動画の場合は、例えばフレーム毎に静止画に変換されて学習に用いられてもよい。また、本発明の実施形態は、画像の他、検出対象が上述の全体部分関係を有する場合の学習または検出にも適用可能である。また、上記の実施形態では、検出対象の組み合わせが「全体物」と「部分物」の2階層である場合を説明したが、3階層以上であってもよい。例えば、1層目が「人」、2層目が「人」の一部である「人の顔」と「人の手」、3層目がさらに「人の顔」の一部である「人の目」と「人の鼻」の3階層の組み合わせが定められてもよい。
1:学習装置(物体検出装置)、11:領域提案部、12:物体検出部、13:正負判定部、14:教師信号決定部(適格性判定部)、15:評価部、16:学習部、17:出力部、18:記憶部、19:擬似アノテーション付与部、2:コンピュータ装置、21:プロセッサ、22:主記憶装置、23:補助記憶装置、24:ネットワークインタフェース、25:デバイスインタフェース、26:バス、3:通信ネットワーク、4(4A、4B):外部装置

Claims (14)

  1.  物体検出ネットワークを用いて、画像の一部である提案領域から、検出対象の検出を試みる物体検出部と、
     前記画像に関するデータに基づき、前記提案領域を前記検出対象に対する正例とすべきか負例とすべきかを判定する正負判定を行う正負判定部と、
     前記正負判定が適格か不適格かを判定する適格性判定を行い、前記適格性判定の結果に基づき、教師信号として用いる正負判定の結果を決定する教師信号決定部と、
     を備える教師信号生成装置。
  2.  前記教師信号決定部が、適格と判定された正負判定の結果のみを教師信号に選出する
     請求項1に記載の教師信号生成装置。
  3.  前記教師信号決定部は、第1検出対象に対する適格性判定の結果を考慮して、前記第1検出対象に対応付けられた第2検出対象に対する適格性判定を行う
     請求項1または2に記載の教師信号生成装置。
  4.  第1提案領域を前記第1検出対象の正例とすべきという正負判定が適格と判定されている場合において、前記正負判定部が、第2提案領域を前記第2検出対象の負例とすべきと判定したときは、
     前記教師信号決定部は、前記第2提案領域を前記第2検出対象の負例とすべきという正負判定に対し、前記第1提案領域と前記第2提案領域の位置関係に基づき、適格性判定を行う
     請求項3に記載の教師信号生成装置。
  5.  前記第1検出対象と前記第2検出対象は、前記第1検出対象が全体を意味し、前記第2検出対象が部分を意味する、全体部分関係にある
     請求項3または4に記載の教師信号生成装置。
  6.  前記データが、アノテーションが付与された物体を示している場合に、
     前記教師信号決定部が、前記データによりアノテーションが付与されていないと判明した検出対象に関する正負判定の結果を不適格と判定する
     請求項1ないし5のいずれか一項に記載の教師信号生成装置。
  7.  前記画像に対し、アノテーションを新たに付与する擬似アノテーション付与部
     をさらに備え、
     前記正負判定部が、新たに付与されたアノテーションにさらに基づき、前記正負判定を行い、
     前記教師信号決定部が、新たに付与されたアノテーションに対する条件をさらに用いて、前記適格性判定を行う
     請求項1ないし6のいずれか一項に記載の教師信号生成装置。
  8.  与えられた画像の一部を前記提案領域として提案する領域提案部
     をさらに備える請求項1ないし7のいずれか一項に記載の教師信号生成装置。
  9.  少なくとも請求項1ないし8のいずれか一項により得られた前記教師信号に基づき、物体検出ネットワークのパラメータを更新する学習部を備える、モデル生成装置。
  10.  少なくとも前記教師信号に基づき、前記検出の結果に対し評価を行う評価部
     をさらに備え、
     前記学習部が、前記評価に基づき、前記物体検出ネットワークのパラメータを更新する
     請求項9に記載のモデル生成装置。
  11.  与えられた画像の一部を提案領域として提案する領域提案部と、
     請求項1ないし10のいずれか一項に記載の教師信号に基づいて学習された物体検出ネットワークを用いて、前記提案領域から、検出対象の検出を試みる物体検出部と、
     前記検出の結果に基づき、前記提案領域および前記検出対象の少なくともいずれかに関する情報を出力する出力部と、
     を備える物体検出装置。
  12.  物体検出ネットワークを用いて、画像の一部である提案領域から、検出対象の検出を試みるステップと、
     前記画像に関するデータに基づき、前記提案領域を前記検出対象に対する正例とすべきか負例とすべきかを判定する正負判定を行うステップと、
     前記正負判定が適格か不適格かを判定する適格性判定を行い、前記適格性判定の結果に基づき、教師信号として用いる正負判定の結果を決定するステップと、
     を含む、教師信号生成方法。
  13.  少なくとも請求項12の教師信号決定方法で得られた教師信号に基づき、前記物体検出ネットワークのパラメータを更新するステップ
     を備えるモデル生成方法。
  14.  物体検出ネットワークを用いて、画像の一部である提案領域から、検出対象の検出を試みるステップと、
     前記画像に関するデータに基づき、前記提案領域を前記検出対象に対する正例とすべきか負例とすべきかを判定する正負判定を行うステップと、
     前記正負判定が適格か不適格かを判定する適格性判定を行い、前記適格性判定の結果に基づき、教師信号として用いる正負判定の結果を決定するステップと、
     をコンピュータに実行させるためのプログラム。
PCT/JP2019/045036 2018-11-16 2019-11-18 教師信号生成装置、モデル生成装置、物体検出装置、教師信号生成方法、モデル生成方法、およびプログラム WO2020101036A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018215864A JP2022043364A (ja) 2018-11-16 2018-11-16 学習装置、物体検出装置、学習方法、およびプログラム
JP2018-215864 2018-11-16

Publications (1)

Publication Number Publication Date
WO2020101036A1 true WO2020101036A1 (ja) 2020-05-22

Family

ID=70731460

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/045036 WO2020101036A1 (ja) 2018-11-16 2019-11-18 教師信号生成装置、モデル生成装置、物体検出装置、教師信号生成方法、モデル生成方法、およびプログラム

Country Status (2)

Country Link
JP (1) JP2022043364A (ja)
WO (1) WO2020101036A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023188417A1 (ja) * 2022-03-31 2023-10-05 ファナック株式会社 作業分析装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006189915A (ja) * 2004-12-28 2006-07-20 Olympus Corp 分類装置及び分類方法
JP2014215852A (ja) * 2013-04-26 2014-11-17 オリンパス株式会社 画像処理装置、プログラム及び画像処理方法
JP2017102865A (ja) * 2015-12-04 2017-06-08 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP2017117139A (ja) * 2015-12-24 2017-06-29 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006189915A (ja) * 2004-12-28 2006-07-20 Olympus Corp 分類装置及び分類方法
JP2014215852A (ja) * 2013-04-26 2014-11-17 オリンパス株式会社 画像処理装置、プログラム及び画像処理方法
JP2017102865A (ja) * 2015-12-04 2017-06-08 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP2017117139A (ja) * 2015-12-24 2017-06-29 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023188417A1 (ja) * 2022-03-31 2023-10-05 ファナック株式会社 作業分析装置

Also Published As

Publication number Publication date
JP2022043364A (ja) 2022-03-16

Similar Documents

Publication Publication Date Title
US11210513B2 (en) Detection method and detection device
US10572072B2 (en) Depth-based touch detection
US10699102B2 (en) Image identification apparatus and image identification method
JP6798798B2 (ja) ユーザ認証のためのデータを更新する方法及び装置
WO2011148596A1 (ja) 顔特徴点位置補正装置、顔特徴点位置補正方法および顔特徴点位置補正プログラム
US20190370982A1 (en) Movement learning device, skill discriminating device, and skill discriminating system
JP7213701B2 (ja) 加工装置、加工方法、加工プログラム、及び検査装置
US20130243251A1 (en) Image processing device and image processing method
JP7334801B2 (ja) 学習装置、学習方法および学習プログラム
JP2014206935A (ja) 識別器更新装置、識別器更新プログラム、情報処理装置、および識別器更新方法
CN111126268A (zh) 关键点检测模型训练方法、装置、电子设备及存储介质
WO2020101036A1 (ja) 教師信号生成装置、モデル生成装置、物体検出装置、教師信号生成方法、モデル生成方法、およびプログラム
CN114519401A (zh) 一种图像分类方法及装置、电子设备、存储介质
CN112464827B (zh) 口罩佩戴识别方法、装置、设备及存储介质
CN111126566B (zh) 基于gan模型的异常家具布局数据检测方法
US20230281947A1 (en) Image processing device, image processing method, and non-transitory computer readable storage medium
JP2021144359A (ja) 学習装置、推定装置、学習方法、及びプログラム
JP6947460B1 (ja) プログラム、情報処理装置、及び方法
WO2013128839A1 (ja) 画像認識システム、画像認識方法およびコンピュータ・プログラム
WO2020183807A1 (ja) 情報処理方法、および、情報処理システム
WO2022230413A1 (ja) 検出装置、検出装置の制御方法、学習済モデルを生成するモデル生成装置によるモデル生成方法、情報処理プログラム、および記録媒体
JP2020149361A (ja) 表情推定装置、感情判定装置、表情推定方法及びプログラム
US10936052B2 (en) Method and device for determining head movement according to electrooculographic information
JP2015102897A (ja) 画像認識装置、及び画像認識方法
WO2022181251A1 (ja) 関節点検出装置、関節点検出方法、及びコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19883694

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19883694

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP