WO2021053815A1 - 学習装置、学習方法、推論装置、推論方法、及び、記録媒体 - Google Patents
学習装置、学習方法、推論装置、推論方法、及び、記録媒体 Download PDFInfo
- Publication number
- WO2021053815A1 WO2021053815A1 PCT/JP2019/037007 JP2019037007W WO2021053815A1 WO 2021053815 A1 WO2021053815 A1 WO 2021053815A1 JP 2019037007 W JP2019037007 W JP 2019037007W WO 2021053815 A1 WO2021053815 A1 WO 2021053815A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image data
- case
- feature vector
- unit
- inference
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Definitions
- the present invention relates to a technique for recognizing an object included in an image.
- Patent Document 1 and Non-Patent Document 1 describe an object recognition technique for learning and identifying using a neural network.
- Non-Patent Document 1 also describes that a predetermined threshold value is set for the identification score, and when the identification score is lower than the above threshold value, the identification result is rejected as if the object in the registration category could not be detected. Has been done.
- the above method only rejects the identification target of the unregistered category, and cannot identify it.
- the identification performance is significantly reduced except for the domain (environment) of the image used at the time of learning.
- One object of the present invention is to correspond to images acquired in various environments and to be able to output recognition results even for identification targets of unregistered categories.
- the learning device is A metric space learning unit that learns a metric space including a feature vector extracted from the attributed image data for each combination of different attributes using attributed image data to which attribute information is added. It includes a case storage unit that calculates a feature vector from case image data and stores it as a case associated with the measurement space.
- the learning method Using the attributed image data to which the attribute information is added, the metric space including the feature vector extracted from the attributed image data is learned for each combination of different attributes. A feature vector is calculated from the case image data and stored as a case associated with the measurement space.
- the recording medium is: Using the attributed image data to which the attribute information is added, the metric space including the feature vector extracted from the attributed image data is learned for each combination of different attributes.
- a program for calculating a feature vector from case image data and causing a computer to execute a process of storing it as a case associated with the measurement space is recorded.
- the inference device A case storage unit that stores feature vectors of case image data as cases by associating them with a plurality of metric spaces learned for each combination of different attributes.
- a metric space selection unit that evaluates the plurality of metric spaces using the feature vector of the image data for selection and selects one metric space.
- An identification unit that identifies the inference image data based on the feature vector extracted from the inference image data and the case associated with the one metric space.
- a result output unit for outputting the identification result by the identification unit is provided.
- the inference method A plurality of metric spaces are acquired from the case storage unit that stores the feature vector of the case image data as a case in association with the metric space learned for each combination of different attributes.
- the plurality of metric spaces are evaluated using the feature vector of the image data for selection, and one metric space is selected. Based on the feature vector extracted from the inference image data and the case associated with the one metric space, the inference image data is identified and the identification result is output.
- the recording medium is: A plurality of metric spaces are acquired from the case storage unit that stores the feature vector of the case image data as a case in association with the metric space learned for each combination of different attributes. The plurality of metric spaces are evaluated using the feature vector of the image data for selection, and one metric space is selected. A program that causes a computer to execute a process of identifying the inference image data and outputting the identification result based on the feature vector extracted from the inference image data and the case associated with the one metric space is recorded. To do.
- FIG. 1 shows a method of creating a case dictionary for a recognition target including a new class.
- the metric space is learned using the image data to which the attribute information and the like are added.
- the image data of the person to which the attribute information is given is acquired by using the public image data set of various people.
- the "attribute information” is a person attribute reflected in the image data, and examples thereof include the age, gender, height, and incidental items (such as belongings and wearing items) of the person.
- image data of various attributes are acquired for the "police officer", “pedestrian", and "firefighter” to be recognized.
- FIG. 1 shows a metric space 10 learned based on a certain person attribute.
- the metric space 10 is a space defined by a feature vector (metric) extracted from image data, and has the property that similar image data are located at a short distance and dissimilar image data are located at a distant distance.
- a public image data set of a person having a certain person attribute for example, wearing a hat
- a feature vector is calculated for them
- a metric space is learned based on the obtained feature vector.
- learning the metric space actually means preparing an identification model using a neural network or the like so that the feature vector generated by the model with respect to the input of each image data has the above-mentioned properties. In addition, it refers to learning the model. Further, the metric space obtained by learning is defined by the parameters of the trained discriminative model.
- a feature vector is generated from the image data of the existing class and embedded in the metric space 10 as an example.
- similar image data are located close to each other. Therefore, as shown in the figure, the image data of the existing class “police officer” are located close to each other on the weighing space 10 as indicated by the mark 11.
- the image data of the existing class "pedestrian” are located close to each other on the weighing space 10 as indicated by the mark 12.
- the "police officer” indicated by the mark 11 and the "pedestrian” indicated by the mark 12 are located apart from each other on the weighing space 10. In this way, the image data of the existing class is embedded in the weighing space 10 as an example.
- "embedding as an example” actually means that the feature vector extracted from the image is stored in association with the metric space 10.
- the new class embed a case in the weighing space 10 in the same way.
- a feature vector is extracted from the image data of the new class "firefighter” and embedded as an example in the measuring space 10.
- the image data of the new class "firefighter” is arranged close to each other on the weighing space 10 as shown by the mark 13, and is separated from other classes "police officer” and "pedestrian”. Is placed.
- cases of the same class are located close to each other, and cases of different classes are located apart from each other.
- cases are embedded in the weighing space 10 in this way, it becomes possible to identify the class of image data by referring to these cases. For example, as shown in FIG. 1, when the image data 15 of a certain person is input, the feature vector of the image data 15 is extracted and the position on the weighing space 10 is calculated. In the example of FIG. 1, since the feature vector of the image data 15 belongs to the area where the cases of the class "firefighter" are gathered, the class of the image data can be recognized as "firefighter". In this way, even when a new class is added as a recognition target, the new class can be recognized by embedding the cases of the existing class and the new class in the metric space and creating a case dictionary.
- FIG. 1 illustrates one metric space learned for a certain person attribute
- the metric space 10 is learned and learned for each of a plurality of combinations of different person attributes.
- a case dictionary is created by embedding a case in the space 10. Cases for a plurality of measuring spaces are registered in the case dictionary.
- FIG. 2 is a diagram illustrating a method of selecting an optimum weighing space.
- the case dictionary contains cases for multiple metric spaces that correspond to different combinations of person attributes.
- the case dictionary contains a weighing space 10a for the attributes "incidental” and “age”, a weighing space 10b for the attributes "incidental” and “gender", and an attribute "incidental”. It is assumed that examples are stored for each of the measuring space 10c for "height” and “height” and the measuring space 10d for the attributes "height", "age”, and "gender".
- these weighing spaces 10a to 10d are evaluated using a plurality of cases of the existing class.
- the evaluation data the evaluation data of the existing domain (source domain) for the existing class "police officer" and the minority data of the target domain, and the evaluation data of the existing domain for the existing class "pedestrian" are used.
- the above evaluation data is recognized by referring to the cases of the respective measuring spaces 10a to 10d, and the result is compared with the teacher label prepared in advance to calculate the degree of agreement.
- the weighing space having the highest degree of coincidence is selected as the optimum weighing space 10x.
- the recognition accuracy in the target domain can be improved.
- the image data of the target domain is recognized by using the discriminative model that defines the selected metric space.
- FIG. 3 is a block diagram showing a hardware configuration of the object recognition device according to the first embodiment.
- the object recognition device 100 includes an interface 102, a processor 103, a memory 104, a recording medium 105, a database (DB) 106, and a display unit 107.
- DB database
- Interface 102 inputs / outputs data to / from an external device. Specifically, image data used for learning and inference of the object recognition device 100 is input through the interface 102, and the recognition result by the object recognition device 100 is output to the external device through the interface 102.
- the processor 103 is a computer such as a CPU (Central Processing Unit) or a CPU and a GPU (Graphics Processing Unit), and controls the entire object recognition device 100 by executing a program prepared in advance. Specifically, the processor 103 executes the learning process and the inference process described later.
- a CPU Central Processing Unit
- a CPU and a GPU Graphics Processing Unit
- the memory 104 is composed of a ROM (Read Only Memory), a RAM (Random Access Memory), and the like.
- the memory 104 stores a model for object recognition used by the object recognition device 100.
- the memory 104 stores various programs executed by the processor 103.
- the memory 104 is also used as a working memory during execution of various processes by the processor 103.
- the recording medium 105 is a non-volatile, non-temporary recording medium such as a disk-shaped recording medium or a semiconductor memory, and is configured to be removable from the object recognition device 100.
- the recording medium 105 records various programs executed by the processor 103. When the object recognition device 100 executes various processes, the program recorded on the recording medium 105 is loaded into the memory 104 and executed by the processor 103.
- Database 106 stores image data input from the outside. Specifically, image data or the like used for learning of the object recognition device 100 is stored. In addition, the database 106 stores a case dictionary created by the learning process.
- the display unit 107 is, for example, a liquid crystal display device, and displays the recognition result by the object recognition device 100, additional information related thereto, and the like.
- the object recognition device 100 may be provided with input devices such as a keyboard and a mouse for the user to give instructions and inputs.
- FIG. 4 is a block diagram showing a functional configuration of the object recognition device 100A for learning.
- the object recognition device 100A includes a label selection unit 111, a measurement space learning unit 112, an image perturbation unit 113, a measurement calculation unit 114, a feature perturbation unit 115, and a case embedding unit 116.
- Additional information 121, teacher label 122, and image data 123 are input to the object recognition device 100A as data for measurement learning.
- the "data for metric learning” is data for learning the metric space.
- the image data 123 is learning image data necessary for learning the metric space, and for example, the above-mentioned public image data set can be used.
- the teacher label 122 is a teacher label associated with the image data 123, and is, for example, person attribute information or class information.
- the attribute information includes age, gender, height, accessories, clothes, etc.
- the class information includes personal ID, occupation (police officer, firefighter), and the like.
- the additional information 121 is information that is added as additional information to assist in understanding the information when the image data 123 and the teacher label 122 are registered.
- Examples of the additional information 121 include information such as the shooting time and the depression angle of the camera used for shooting, environmental information (temperature, latitude / longitude, indoor / outdoor), and the like. As will be described later, the image data 123 for metric learning and the teacher label 122 are also used for case registration as needed.
- the teacher label 124, the image data 125, and the additional information 126 are input to the object recognition device 100A as the data for registering the case.
- Data for case registration is data for creating a case dictionary.
- the image data 125 is learning image data necessary for registering a case, and image data is prepared for each class to be identified.
- the teacher label 124 is a teacher label associated with the image data 125, and is, for example, class information.
- the additional information 126 is information that is added as additional information to assist in understanding the information when the image data 125 and the teacher label 124 are registered. Examples of the additional information 126 include information such as the shooting time and the depression angle of the camera used for shooting, environmental information (temperature, latitude / longitude, indoor / outdoor), and the like.
- the label selection unit 111 selects a teacher label indicating an attribute or the like from the teacher label 122 when learning the weighing space.
- the label selection unit 111 may randomly select a plurality of teacher labels, or select a plurality of teacher labels so that the teacher labels selected by using information entropy or the like become complementary information. You may.
- the label selection unit 111 outputs a set of selected combinations of teacher labels to the metric space learning unit 112.
- the label selection unit 111 is an example of the attribute determination unit of the present invention.
- the metric space learning unit 112 learns the metric space based on the image data 123 for metric learning and the teacher label selected by the label selection unit 111. Specifically, the metric space learning unit 112 learns a metric space in which each class of teacher labels selected by the label selection unit 111 can be best identified. That is, as shown in FIG. 1, the metric space learning unit 112 learns the metric space so that the same classes gather close to each other and different classes are located apart from each other. Actually, in the discriminative model in which features are extracted from image data by convolution and identified, the feature vector obtained at the stage immediately before the final identification may be used as a metric.
- a feature vector obtained in a fully connected layer in a CNN (Convolutional Neural Network) model such as VGG may be used.
- the metric space learned in this way is output to the metric calculation unit 114 and the case embedding unit 116.
- the parameters of the learned discriminative model are output as the metric space.
- Image data 123 and additional information 121 for metric learning, and image data 125 and additional information 126 for case registration are input to the image perturbation unit 113.
- the image data 123 for metric learning input to the image perturbation unit 113 is used for case registration.
- the image perturbation unit 113 perturbs the image data 123 for metric learning and the image data 125 for case registration.
- the image perturbation unit 113 gives a hostile perturbation to the original image by geometric deformation, image compression, addition of blur and noise, change of brightness and saturation, and the like. If the perturbation parameter can be estimated from the additional information, the image perturbation unit 113 may perturb the image only within the range of the parameter.
- the image perturbation unit 113 may perform the geometric deformation within the range of the parameter.
- Image perturbation can substantially increase the number of image data used for learning.
- the perturbed image data is output to the measurement calculation unit 114.
- the metric calculation unit 114 is given a metric space that has been learned from the metric space learning unit 112, and image data after perturbation is input from the image perturbation unit 113.
- the metric calculation unit 114 calculates a feature vector corresponding to the metric from the image data after the perturbation. That is, the metric calculation unit 114 uses each image data perturbed as an example as an example, and calculates the position of each case in the metric space learned by the metric space learning unit 112. As a result, the image data 125 for case registration is arranged on the weighing space as shown in FIG.
- the metric space learning unit 112 extracts a feature vector from each image data after perturbation by using an identification model showing the metric space learned by the metric space learning unit 112. The feature vector extracted from each image data after perturbation is output to the feature perturbation unit 115.
- the feature perturbation unit 115 perturbs the feature vector of each image data obtained by the measurement calculation unit 114. That is, the feature perturbation unit 115 newly obtains a feature vector existing at the farthest distance in the measurement space within a certain range of changes on the image from the feature vector of each image data obtained by the measurement calculation unit 114. Generate as an example. As a result, a plurality of cases can be added around the cases arranged on the measurement space by the measurement calculation unit 114, and the area of each class in the measurement space can be expanded.
- the feature perturbation unit 115 outputs the feature vector generated by the perturbation and the feature vector before perturbation, that is, the feature vector input from the metric calculation unit 114 to the case embedding unit 116.
- the case embedding unit 116 embeds the feature vector input from the feature perturbation unit 115, that is, the feature vector before and after the feature perturbation in the metric space as an example. Specifically, the case embedding unit 116 associates the feature vector input from the feature perturbation unit 115 with the metric space as a case, and registers it in the case dictionary 127. At that time, the case embedding unit 116 also registers the teacher labels 122 and 124 and the additional information 121 and 126 in association with each case. Further, the case embedding unit 116 may register representative image data as image data corresponding to the case embedded in the measuring space.
- a case dictionary 127 is created in which cases for the corresponding measuring spaces are registered for each combination of the plurality of labels (attributes).
- the case dictionary 127 stores information defining a plurality of measuring spaces and cases embedded in each measuring space.
- the "information defining the metric space” is actually a parameter of the learned discriminative model
- the "case embedded in each metric space” is a feature vector in the metric space.
- the case dictionary 127 is an example of the case storage unit of the present invention.
- FIG. 5 is a flowchart of learning processing by the object recognition device 100A for learning. This process is performed by the processor 103 shown in FIG. 3 executing a program prepared in advance.
- the label selection unit 111 selects a teacher label including attributes and classes (step S11).
- the metric space learning unit 112 learns the metric space for the combination of labels selected in step S11 using the image data 123 for metric learning and the teacher label 122 (step S12).
- the image perturbation unit 113 perturbs the image data 125 for case registration, and outputs the image data after the perturbation to the measurement calculation unit 114.
- the metric calculation unit 114 calculates the feature vector of the image data after perturbation (step S14), and the feature perturbation unit 115 perturbs the calculated feature vector (step S15). In this way, a plurality of feature vectors can be obtained from the image data for registration by the perturbation of the image and the perturbation of the features.
- the case embedding unit 116 creates a case dictionary 127 by storing the obtained feature vector as a case in association with the metric space (step S16). In this way, the learning process ends. As a result, cases are registered in the case dictionary 127 for the metric space for one combination of attributes.
- the object recognition device 100A By changing the label selected by the label selection unit 111, the object recognition device 100A also learns the metric space for another combination of attributes, embeds a case, and registers it in the case dictionary 127. In this way, as illustrated in FIG. 2, in the case dictionary 127, cases arranged on the measuring space corresponding to the combination of a plurality of attributes are registered.
- FIG. 6 is a block diagram showing a functional configuration of the object recognition device 100B for inference.
- the object recognition device 100B includes an image perturbation unit 131, a measurement calculation unit 132, a feature perturbation unit 133, a measurement space selection unit 134, an image perturbation unit 135, a measurement calculation unit 136, and a feature perturbation unit.
- a unit 137, an identification unit 138, and a result output unit 139 are provided.
- the object recognition device 100B uses image data 141 for dictionary selection, a teacher label 142 for dictionary selection, additional information 143 for dictionary selection teaching, image data 145 for inference, and a case dictionary 127.
- the case dictionary 127 is created by the above-mentioned learning process.
- the image data 141 for dictionary selection is image data used for selecting a case dictionary 127 corresponding to an optimum measurement space from a case dictionary 127 for a plurality of measurement spaces prepared in advance, and is basic.
- the properties are the same as the image data 123 for metric space learning described above.
- the teacher label 142 for dictionary selection is a teacher label associated with the image data 141 for dictionary selection, and its basic properties are the same as those of the teacher label 122 for measurement space learning.
- the additional information 143 for dictionary selection is additional information associated with the image data 141 for dictionary selection, and its basic properties are the same as those of the additional information 121 for metric space learning.
- the image data for inference is the image data to be recognized by the object recognition device 100B.
- the image perturbation units 131 and 135 are the same as the image perturbation unit 113 in the functional configuration for learning shown in FIG. 4, and the metric calculation units 132 and 136 are the same as the metric calculation unit 114 in the functional configuration for learning.
- the feature perturbation units 133 and 137 are similar to the feature perturbation unit 115 in the functional configuration for learning.
- the image perturbation unit 131, the measurement calculation unit 132, the feature perturbation unit 133, and the measurement space selection unit 134 store the image data 141 for dictionary selection, the teacher label 142, and the additional information 143 in the case dictionary 127. Performs a process of selecting the optimum weighing space from a plurality of weighing spaces. Specifically, the image perturbation unit 131 perturbs the image data 141 for dictionary selection.
- the metric calculation unit 132 acquires one metric space from a plurality of metric spaces stored in the case dictionary 127, and calculates a feature vector of image data after perturbation in the metric space.
- the feature perturbation unit 133 perturbs the feature vector calculated by the metric calculation unit 132, and generates a feature vector after the perturbation. In this way, a plurality of feature vectors are calculated from the image data 141 for dictionary selection. This process increases the number of image data used to select the optimal weighing space.
- the image perturbation unit 131, the measurement calculation unit 132, and the feature perturbation unit 133 perform the same processing on other measurement spaces and calculate the feature vector in those measurement spaces. In this way, a plurality of feature vectors are calculated for the plurality of metric spaces stored in the case dictionary 127 based on the image data 141 for dictionary selection.
- the weighing space selection unit 134 selects the optimum weighing space from the feature vector calculated from the image data 141 for dictionary selection and the corresponding teacher label 142 and additional information 143.
- the metric space selection unit 134 includes a teacher label, a feature vector on the metric space of image data 141 for dictionary selection, and a feature vector in a case embedded in the metric space stored in the case dictionary 127. Performance is evaluated for each metric space using techniques such as nearest neighbor recognition. That is, as shown in FIG. 2, the metric space selection unit 134 evaluates the performance of a plurality of metric spaces using the image data of the existing class, and selects the metric space having the highest performance.
- the measurement space selection unit 134 uses the additional information 143 to narrow down the measurement space to be selected in advance, and then performs the above-mentioned performance.
- the optimum weighing space may be selected by evaluation.
- the above-mentioned performance evaluation and selection using additional information may be performed at the same time.
- the metric space selected in this way is a metric space that enables the most accurate recognition of the attributes of the image data 141 for dictionary selection.
- the measurement space selection unit 134 outputs the selected measurement space to the measurement calculation unit 136 and the identification unit 138.
- the inference of the image data 145 for inference is performed using the metric space.
- the image perturbation unit 135 perturbs the image data 145 for inference, and outputs the image data after the perturbation to the measurement calculation unit 136.
- the metric calculation unit 136 calculates the feature vector of the image data after perturbation in the metric space selected by the metric space selection unit 134. Further, the feature perturbation unit 137 perturbs the feature vector calculated by the measurement calculation unit 136, and outputs the obtained plurality of feature vectors to the identification unit 138.
- the identification unit 138 includes a teacher label, a plurality of feature vectors obtained from the image data 145 for inference, and a large number of cases stored in the case dictionary 127 for the metric space selected by the metric space selection unit 134. The nearest neighbor recognition is performed between them, and the class of the image data 145 for inference is identified. The identification result is supplied to the result output unit 139.
- the result output unit 139 outputs, in addition to the class identification result by the identification unit 138, an image corresponding to a nearby case selected by the identification unit 138, a teacher label associated with the case, and additional information. Specifically, the result output unit 139 displays this information on the display unit 107 or the like shown in FIG. As a result, even if the recognition target included in the inference image data 145 is a new class, the user can use not only the identification result class but also the image, teacher label, additional information, etc. associated with the case close to the recognition target. Since you can see, it is possible to intuitively judge the validity of the recognition result.
- FIG. 7 is a flowchart of inference processing by the object recognition device for inference. This process is performed by the processor 103 shown in FIG. 3 executing a program prepared in advance.
- the image perturbation unit 131 perturbs the image data 141 for dictionary selection (step S21), and the metric calculation unit 132 calculates the feature vector of the perturbed image data for a plurality of metric spaces (step S22).
- the feature perturbation unit 133 perturbs the obtained feature vector to generate a plurality of feature vectors (step S23).
- the metric space selection unit 134 evaluates the performance using the plurality of feature vectors and the cases embedded in each metric space in the case dictionary 127, and selects the optimum metric space (step S24).
- the image data 145 for inference is then identified.
- the image perturbation unit 135 perturbs the image data 145 for inference (step S25), and the metric calculation unit 136 calculates the feature vector of the image data after perturbation for the metric space selected in step S24 (step S26).
- the feature perturbation unit 137 perturbs the obtained feature vector to generate a plurality of feature vectors (step S27), and the identification unit 138 recognizes the nearest neighbor to the case in the selected metric space.
- the class is identified by the method (step S28).
- the result output unit 139 outputs the class identification result together with the image data of the case used for the identification, the teacher label, the additional information, and the like (step S29). In this way, the inference process ends.
- the metric space selection unit 134 evaluates a plurality of metric spaces using the image data of the existing class as evaluation data, and selects the optimum metric space.
- the metric space selection unit 134 may use a new class of image data as evaluation data. In this case, it is possible that the correct label (correct class) is not prepared for the image data of the new class, but even in that case, multiple cases of the new class are combined with the cases of other existing classes in the metric space.
- a unit is formed at a distant position, it can be evaluated that the measuring space has appropriate performance.
- the set of cases of the new class to be targeted is gathered in a narrower area on the metric space, and the one that is far from the set other than the new class may be selected as the case dictionary with the best characteristics. .. More specifically, for example, for each case in the new class, the ratio of the average value A of the distance between the case and another case in the new class and the average value B in the distance between the case and the case in the existing class. , And select the one with a small ratio.
- the weighing space is learned using the person attribute data (incidental items, age, etc.) and the person class data (police officer, firefighter, etc.). Instead, the metric space is learned using only the person attribute data, each metric space obtained is used as the initial value, and after re-learning (fine tuning) using the person class data, the performance is evaluated and optimized. The weighing space may be selected.
- the metric space is learned based on the person attribute data and the person class data.
- the weight in the neural network may be shared by both the person attribute identification task and the person class identification task.
- weights may be set for the loss function of the person attribute identification task and the loss function of the person class identification task for learning. For example, regarding the loss function of the person attribute identification task and the loss function of the person class identification task, the contribution (coefficient) of either one is increased in the first half of the re-proposed, and the contribution (coefficient) in the loss function is increased in the second half of the optimization ( Coefficient) is reduced.
- the person attribute data can also be diverted, it is effective when the data of the person class and the person class is small.
- a public image data set or the like contains a large amount of person attribute data, but often has a small amount of person class data. Therefore, first, the weight of the person attribute identification task for the loss function is increased to start learning, and then the weight of the person class identification task for the loss function is increased to perform learning specialized for each person class. As a result, even in a situation where there is a large amount of person attribute data and there is little person class data, it is possible to effectively utilize the person class data and learn the metric space.
- the image data is perturbed by the image perturbation unit, but the following method may be used as the image perturbation method.
- a first method an image of a plurality of people is decomposed into partial areas such as body parts (head, torso, hands, feet, etc.), and these are pasted together to generate an image of the person.
- Image processing such as ⁇ -blending is applied to the boundaries of body parts.
- the second method first, the joint position of the body of the person included in the image data is detected by the key point detection.
- geometric transformations such as affine transformation, Helmart transformation, homography transformation, and B-spline interpolation are used to normalize the positions of key points and generate an image in which the positions of joints are aligned. Then, by adding noise or the like, the position of the key point is slightly shifted to give perturbation.
- the feature perturbation unit may generate micro-perturbation cases using hostile case generation. Specifically, when adding a minute noise to the input image, the case in which the distance between the case group in the same class as the class to which the target case belongs is the longest is adopted. That is, if the case obtained by applying minute noise to the input image is far from the existing case in the measuring space, it is adopted, and if it is close to the existing case, it is not adopted.
- the image and the feature vector are perturbed in the learning of the metric space and the selection of the metric space, but when a sufficient amount of image data can be prepared, the perturbation of the image and the feature vector. You do not have to do.
- FIG. 8A shows the configuration of the learning device 50 according to the second embodiment.
- the learning device 50 includes a measuring space learning unit 51 and a case storage unit 52.
- the metric space learning unit 51 learns a metric space including a feature vector extracted from the attributed image data for each combination of different attributes using the attributed image data to which the attribute information is added.
- the case storage unit 52 calculates a feature vector from the case image data and stores it as a case associated with the metric space. In this way, the metric space is learned for each combination of different attributes, and the case is stored in association with it.
- FIG. 8B shows the configuration of the inference device according to the second embodiment.
- the inference device 60 includes a case storage unit 61, a measurement space selection unit 62, an identification unit 63, and a result output unit 64.
- the case storage unit 61 stores the feature vector of the case image data as a case in association with a plurality of metric spaces learned for each combination of different attributes.
- the metric space selection unit 62 evaluates a plurality of metric spaces using the feature vector of the image data for selection, and selects one metric space.
- the identification unit 63 identifies the inference image data based on the feature vector extracted from the inference image data and the case associated with one metric space. Then, the result output unit 64 outputs the identification result by the identification unit 63. In this way, the inference image data can be identified by using the case stored in the case storage unit 61.
- a metric space learning unit that learns a metric space including a feature vector extracted from the attributed image data for each combination of different attributes using attributed image data to which attribute information is added.
- a case storage unit that calculates a feature vector from case image data and stores it as a case associated with the measurement space.
- a learning device equipped with
- Appendix 2 The learning device according to Appendix 1, further comprising an attribute determination unit that determines a combination of different attributes.
- a first image perturbation unit for perturbing the case image data is provided.
- the learning device according to Appendix 1 or 2, wherein the case storage unit stores a feature vector calculated from image data for a case after perturbation as a case.
- Appendix 5 The learning device according to any one of Appendix 1 to 4, wherein the case storage unit stores a teacher label and additional information of the case image data in association with the case.
- a recording medium that records a program that causes a computer to execute a process of calculating a feature vector from case image data and storing it as a case associated with the measurement space.
- a case storage unit that stores feature vectors of case image data as cases by associating them with a plurality of metric spaces learned for each combination of different attributes.
- a metric space selection unit that evaluates the plurality of metric spaces using the feature vector of the image data for selection and selects one metric space.
- An identification unit that identifies the inference image data based on the feature vector extracted from the inference image data and the case associated with the one metric space.
- a result output unit that outputs the identification result by the identification unit, and An inference device equipped with.
- the weighing space selection unit identifies the selection image data of the existing class using each of the plurality of weighing spaces, and selects the weighing space having the highest degree of coincidence with the teacher label of the selection image data of the existing class.
- the inference device according to Appendix 8, which determines the measurement space of the above.
- Appendix 10 The identification unit is described in Appendix 8 or 9 in which, among the cases stored in the case storage unit, the class of the case closest to the feature vector of the inference image data in the one measuring space is used as the identification result. Inference device.
- a second image perturbation unit that perturbs the inference image data is provided.
- the inference device according to any one of Supplementary note 8 to 11, wherein the identification unit identifies the inference image data by using a feature vector of the inference image data after perturbation.
- a second feature perturbation unit that perturbs the feature vector of the inference image data is provided.
- the inference device according to any one of Appendix 8 to 11, wherein the identification unit identifies image data for inference by using a feature vector after perturbation.
- a plurality of metric spaces are acquired from the case storage unit that stores the feature vector of the case image data as a case in association with the metric space learned for each combination of different attributes.
- the plurality of metric spaces are evaluated using the feature vector of the image data for selection, and one metric space is selected.
- An inference method that identifies the inference image data based on the feature vector extracted from the inference image data and the case associated with the one metric space, and outputs the identification result.
- a plurality of metric spaces are acquired from the case storage unit that stores the feature vector of the case image data as a case in association with the metric space learned for each combination of different attributes.
- the plurality of metric spaces are evaluated using the feature vector of the image data for selection, and one metric space is selected.
- a program that causes a computer to execute a process of identifying the inference image data and outputting the identification result based on the feature vector extracted from the inference image data and the case associated with the one metric space is recorded. Recording medium.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
学習装置は、計量空間学習部と、事例記憶部とを備える。計量空間学習部は、属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、属性付画像データから抽出された特徴ベクトルを含む計量空間を学習する。事例記憶部は、事例用画像データから特徴ベクトルを算出し、計量空間に関連付けた事例として記憶する。
Description
本発明は、画像に含まれる物体を認識する技術に関する。
カメラ等の撮像装置で取得された画像中の対象物体を認識する物体認識技術が知られている。例えば、特許文献1及び非特許文献1には、ニューラルネットワークを用いて学習及び識別を行う物体認識技術が記載されている。
上記の物体認識技術における学習では、識別対象として予め登録されたカテゴリ(登録カテゴリ)のいずれかに属する物体の画像が所定の識別モデルに入力され、属するカテゴリについての識別スコアが高くなるように、識別モデルの学習が行われる。識別モデルの学習後、カテゴリが未知である物体の画像が学習済みの識別モデルに入力された場合には、登録カテゴリそれぞれについての識別スコアが上記の識別モデルから出力される。また、非特許文献1には、識別スコアに対して所定の閾値を設け、識別スコアが上記閾値を下回る場合には、登録カテゴリの物体を検出できなかったとして識別結果をリジェクトする点についても記載されている。
Karen Simomyan,and Andrew Zisserman、"Very Deep Convolutional Networks for Large-Scale Image Recognition" ICLR,2015.
しかし、上記の手法は、未登録カテゴリの識別対象をリジェクトするだけであり、識別することはできない。また、学習時に使用した画像のドメイン(環境)以外では識別性能が大幅に低下してしまう。
本発明の1つの目的は、様々な環境で取得された画像に対応し、未登録カテゴリの識別対象についても認識結果を出力できるようにすることにある。
上記の課題を解決するため、本発明の一つの観点では、学習装置は、
属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習する計量空間学習部と、
事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶する事例記憶部と、を備える。
属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習する計量空間学習部と、
事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶する事例記憶部と、を備える。
本発明の他の観点では、学習方法は、
属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶する。
属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶する。
本発明のさらに他の観点では、記録媒体は、
属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶する処理をコンピュータに実行させるプログラムを記録する。
属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶する処理をコンピュータに実行させるプログラムを記録する。
本発明のさらに他の観点では、推論装置は、
異なる属性の組み合わせ毎に学習された複数の計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶した事例記憶部と、
選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択する計量空間選択部と、
推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別する識別部と、
前記識別部による識別結果を出力する結果出力部と、を備える。
異なる属性の組み合わせ毎に学習された複数の計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶した事例記憶部と、
選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択する計量空間選択部と、
推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別する識別部と、
前記識別部による識別結果を出力する結果出力部と、を備える。
本発明のさらに他の観点では、推論方法は、
異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶した事例記憶部から複数の計量空間を取得し、
選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択し、
推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、識別結果を出力する。
異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶した事例記憶部から複数の計量空間を取得し、
選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択し、
推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、識別結果を出力する。
本発明のさらに他の観点では、記録媒体は、
異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶した事例記憶部から複数の計量空間を取得し、
選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択し、
推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、識別結果を出力する処理をコンピュータに実行させるプログラムを記録する。
異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶した事例記憶部から複数の計量空間を取得し、
選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択し、
推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、識別結果を出力する処理をコンピュータに実行させるプログラムを記録する。
本発明によれば、様々な環境で取得された画像に対応し、未登録カテゴリの識別対象についても認識結果を出力することが可能となる。
以下、図面を参照して、本発明の好適な実施形態について説明する。
[基本原理]
まず、実施形態の物体認識方法の基本原理を説明する。本実施形態では、それまで認識対象としていたクラス(以下、「既存クラス」と呼ぶ。)に加えて、新たなクラス(以下、「新クラス」と呼ぶ。)を認識する必要が生じた場合に、新クラスに対応する事例を登録した事例データ(以下、「事例辞書」とも呼ぶ。)を作成し、事例辞書を参照して新クラスの対象を認識する。また、既存クラスの認識対象についても、新たな環境での認識精度の低下を防止するため、複数の計量空間を用意し、最適な計量空間を用いて認識を行う。
[基本原理]
まず、実施形態の物体認識方法の基本原理を説明する。本実施形態では、それまで認識対象としていたクラス(以下、「既存クラス」と呼ぶ。)に加えて、新たなクラス(以下、「新クラス」と呼ぶ。)を認識する必要が生じた場合に、新クラスに対応する事例を登録した事例データ(以下、「事例辞書」とも呼ぶ。)を作成し、事例辞書を参照して新クラスの対象を認識する。また、既存クラスの認識対象についても、新たな環境での認識精度の低下を防止するため、複数の計量空間を用意し、最適な計量空間を用いて認識を行う。
(1)事例辞書の作成
図1は、新クラスを含む認識対象について事例辞書を作成する方法を示す。いま、既存クラスとして「警察官」及び「歩行者」があり、新クラスとして「消防士」の認識を行いたいと仮定する。まず、属性情報などが付与された画像データを用いて、計量空間を学習する。具体的には、様々な人物の公開画像データセットなどを利用して、属性情報が付与された人物の画像データを取得する。なお、「属性情報」とは、画像データに写っている人物属性であり、例えば、その人物の年齢、性別、身長、付帯物(持ち物や身に着けている物など)が挙げられる。図1の例では、認識対象となる「警察官」、「歩行者」及び「消防士」について、様々な属性の画像データを取得する。
図1は、新クラスを含む認識対象について事例辞書を作成する方法を示す。いま、既存クラスとして「警察官」及び「歩行者」があり、新クラスとして「消防士」の認識を行いたいと仮定する。まず、属性情報などが付与された画像データを用いて、計量空間を学習する。具体的には、様々な人物の公開画像データセットなどを利用して、属性情報が付与された人物の画像データを取得する。なお、「属性情報」とは、画像データに写っている人物属性であり、例えば、その人物の年齢、性別、身長、付帯物(持ち物や身に着けている物など)が挙げられる。図1の例では、認識対象となる「警察官」、「歩行者」及び「消防士」について、様々な属性の画像データを取得する。
そして、取得した画像データを用いて計量空間(距離空間)を学習する。図1は、ある人物属性に基づいて学習された計量空間10を示す。計量空間10は、画像データから抽出された特徴ベクトル(計量)により規定される空間であり、類似する画像データ同士は近い距離に位置し、類似しない画像データ同士は遠い距離に位置する性質を有するように学習される。具体的には、ある人物属性(例えば、帽子をかぶっている)を有する人物の公開画像データセットを取得し、それらについて特徴ベクトルを算出し、得られた特徴ベクトルに基づいて計量空間が学習される。なお、「計量空間を学習する」とは、実際には、ニューラルネットワークなどを用いた識別モデルを用意し、各画像データの入力に対して当該モデルが生成する特徴ベクトルが上記の性質を有するように、当該モデルを学習することを指す。また、学習により得られた計量空間は、学習済の識別モデルのパラメータにより規定されることになる。
計量空間の学習が終了すると、次に、既存クラスの画像データから特徴ベクトルを生成し、計量空間10に事例として埋め込む。計量空間10では、類似する画像データ同士は近い距離に位置するので、図示のように、既存クラス「警察官」の画像データ同士はマーク11で示すように計量空間10上で近くに位置し、既存クラス「歩行者」の画像データ同士はマーク12で示すように計量空間10上で近くに位置する。一方、マーク11で示す「警察官」と、マーク12で示す「歩行者」は計量空間10上で離れて位置する。こうして、既存クラスの画像データを計量空間10に事例として埋め込む。なお、「事例として埋め込む」とは、実際には、その画像から抽出された特徴ベクトルを、その計量空間10と関連付けて記憶することを指す。
次に、新クラスについても、同様に計量空間10上に事例を埋め込む。具体的には、新クラス「消防士」の画像データから特徴ベクトルを抽出し、計量空間10上に事例として埋め込む。これにより、新クラス「消防士」の画像データは、マーク13で示すように、計量空間10上で相互に近い位置に配置され、かつ、他のクラス「警察官」や「歩行者」から離れて配置される。こうして、計量空間10上では、同一クラスの事例同士は近くに位置し、異なるクラスの事例同士は離れて位置するようになる。
こうして計量空間10上に事例が埋め込まれると、これらの事例を参照して、画像データのクラスを識別することができるようになる。例えば、図1に示すように、ある人物の画像データ15が入力された場合に、その画像データ15の特徴ベクトルを抽出して計量空間10上の位置を算出する。図1の例では、画像データ15の特徴ベクトルはクラス「消防士」の事例が集まっている領域に属するので、その画像データのクラスは「消防士」であると認識することができる。このように、認識対象として新クラスが追加された場合でも、既存クラス及び新クラスの事例を計量空間上に埋め込んで事例辞書を作成することにより、新クラスの認識が可能となる。
なお、図1には、ある人物属性について学習された1つの計量空間を例示しているが、実際には、異なる人物属性の複数の組み合わせについて、それぞれ計量空間10を学習し、学習された計量空間10に事例を埋め込んで事例辞書を作成する。事例辞書には、複数の計量空間についての事例が登録される。
(2)事例辞書を用いた推論
さて、作成された事例辞書を利用して物体認識を行う際には、そのときの環境(ドメイン)に最も適した計量空間を選択し、その計量空間を用いて物体認識を行う。図2は、最適な計量空間を選択する方法を説明する図である。前述のように、事例辞書は、異なる人物属性の組み合わせに対応する複数の計量空間についての事例を含む。いま、事例辞書には、図2に示すように、属性「付帯物」及び「年齢」についての計量空間10aと、属性「付帯物」及び「性別」についての計量空間10bと、属性「付帯物」及び「身長」についての計量空間10cと、属性「身長」、「年齢」、「性別」についての計量空間10dのそれぞれについて事例が記憶されているものとする。
さて、作成された事例辞書を利用して物体認識を行う際には、そのときの環境(ドメイン)に最も適した計量空間を選択し、その計量空間を用いて物体認識を行う。図2は、最適な計量空間を選択する方法を説明する図である。前述のように、事例辞書は、異なる人物属性の組み合わせに対応する複数の計量空間についての事例を含む。いま、事例辞書には、図2に示すように、属性「付帯物」及び「年齢」についての計量空間10aと、属性「付帯物」及び「性別」についての計量空間10bと、属性「付帯物」及び「身長」についての計量空間10cと、属性「身長」、「年齢」、「性別」についての計量空間10dのそれぞれについて事例が記憶されているものとする。
ここで、最適な計量空間を選択するために、既存クラスの複数の事例を用いて、これらの計量空間10a~10dを評価する。図2の例では、評価用データとして、既存クラス「警察官」についての既存ドメイン(ソースドメイン)の評価用データ及びターゲットドメインの少数データと、既存クラス「歩行者」についての既存ドメインの評価用データ及びターゲットドメインの少数データを用意する。これらの評価用データには、クラス情報などの教師ラベルが用意されているものとする。上記の評価用データについて、各計量空間10a~10dの事例を参照して認識処理を行い、その結果を、予め用意されている教師ラベルと比較して一致度を算出する。そして、最も一致度の高い計量空間を、最適な計量空間10xとして選択する。このように、複数の計量空間から最適な計量空間を選択することにより、ターゲットドメインにおける認識精度を向上させることができる。なお、実際の処理としては、選択された計量空間を規定する識別モデルを用いて、ターゲットドメインの画像データの認識を行うことになる。
[第1実施形態]
次に、本発明の第1実施形態について説明する。
(ハードウェア構成)
図3は、第1実施形態に係る物体認識装置のハードウェア構成を示すブロック図である。図示のように、物体認識装置100は、インタフェース102と、プロセッサ103と、メモリ104と、記録媒体105と、データベース(DB)106と、表示部107と、を備える。
次に、本発明の第1実施形態について説明する。
(ハードウェア構成)
図3は、第1実施形態に係る物体認識装置のハードウェア構成を示すブロック図である。図示のように、物体認識装置100は、インタフェース102と、プロセッサ103と、メモリ104と、記録媒体105と、データベース(DB)106と、表示部107と、を備える。
インタフェース102は、外部装置との間でデータの入出力を行う。具体的に、物体認識装置100の学習や推論に用いられる画像データがインタフェース102を通じて入力され、物体認識装置100による認識結果がインタフェース102を通じて外部装置へ出力される。
プロセッサ103は、CPU(Central Processing Unit)、又はCPUとGPU(Graphics Processing Uit)などのコンピュータであり、予め用意されたプログラムを実行することにより、物体認識装置100の全体を制御する。具体的に、プロセッサ103は、後述する学習処理及び推論処理を実行する。
メモリ104は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ104は、物体認識装置100が使用する物体認識のためのモデルを記憶する。メモリ104は、プロセッサ103により実行される各種のプログラムを記憶する。また、メモリ104は、プロセッサ103による各種の処理の実行中に作業メモリとしても使用される。
記録媒体105は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、物体認識装置100に対して着脱可能に構成される。記録媒体105は、プロセッサ103が実行する各種のプログラムを記録している。物体認識装置100が各種の処理を実行する際には、記録媒体105に記録されているプログラムがメモリ104にロードされ、プロセッサ103により実行される。
データベース106は、外部から入力される画像データを記憶する。具体的には、物体認識装置100の学習に使用される画像データなどが記憶される。また、データベース106は、学習処理により作成された事例辞書を格納する。表示部107は、例えば液晶表示装置などであり、物体認識装置100による認識結果や、それに関連する付加情報などを表示する。なお、上記に加えて、物体認識装置100は、ユーザが指示や入力を行うためのキーボード、マウスなどの入力機器を備えていても良い。
(学習のための機能構成)
次に、物体認識装置100の学習のための機能構成について説明する。図4は、学習のための物体認識装置100Aの機能構成を示すブロック図である。図示のように、物体認識装置100Aは、ラベル選択部111と、計量空間学習部112と、画像摂動部113と、計量算出部114と、特徴摂動部115と、事例埋め込み部116とを備える。
次に、物体認識装置100の学習のための機能構成について説明する。図4は、学習のための物体認識装置100Aの機能構成を示すブロック図である。図示のように、物体認識装置100Aは、ラベル選択部111と、計量空間学習部112と、画像摂動部113と、計量算出部114と、特徴摂動部115と、事例埋め込み部116とを備える。
物体認識装置100Aには、計量学習用のデータとして、付加情報121と、教師ラベル122と、画像データ123とが入力される。なお、「計量学習用のデータ」とは、計量空間を学習するためのデータである。画像データ123は、計量空間を学習するために必要な学習用の画像データであり、例えば前述の公開画像データセットなどを使用することができる。教師ラベル122は、画像データ123に紐づく教師ラベルであり、例えば、人物の属性情報やクラス情報などである。ここで、属性情報としては、年齢、性別、身長、付帯物、服装などが挙げられ、クラス情報としては、個人ID、職業(警察官、消防士)などが挙げられる。付加情報121は、画像データ123と教師ラベル122を登録する際に、その情報の理解を助けるために追加の情報として付加される情報である。付加情報121の例としては、撮影時刻、撮影に用いるカメラの俯角などの情報、環境情報(気温、緯度・経度、屋内/屋外)などが挙げられる。なお、後述するように、計量学習用の画像データ123及び教師ラベル122は、必要に応じて事例登録用にも使用される。
また、物体認識装置100Aには、事例登録用のデータとして、教師ラベル124と、画像データ125と、付加情報126とが入力される。「事例登録用のデータ」とは、事例辞書を作成するためのデータである。画像データ125は、事例を登録するために必要な学習用の画像データであり、識別したいクラス毎に画像データが用意される。教師ラベル124は、画像データ125に紐づく教師ラベルであり、例えばクラス情報などである。付加情報126は、画像データ125と教師ラベル124を登録する際に、それらの情報の理解を助けるために追加の情報として付加される情報である。付加情報126の例としては、撮影時刻、撮影に用いるカメラの俯角などの情報、環境情報(気温、緯度・経度、屋内/屋外)などが挙げられる。
ラベル選択部111は、計量空間を学習する際に、教師ラベル122から、属性などを示す教師ラベルを選択する。ラベル選択部111は、選択方法としては、ランダムに複数の教師ラベルを選択してもよいし、情報エントロピーなどを用いて選んだ教師ラベルが相補的な情報となるように複数の教師ラベルを選択してもよい。ラベル選択部111は、選んだ教師ラベルの組み合わせの集合を計量空間学習部112に出力する。ラベル選択部111は、本発明の属性決定部の一例である。
計量空間学習部112は、計量学習用の画像データ123と、ラベル選択部111で選択された教師ラベルとに基づいて計量空間を学習する。具体的には、計量空間学習部112は、ラベル選択部111で選択された教師ラベルの各クラスが最も良く識別できるような距離空間を学習する。即ち、計量空間学習部112は、図1に示したように、同一クラス同士が近くに集まり、異なるクラスが離れて位置するように計量空間を学習する。実際には、画像データから畳み込みにより特徴を抽出して識別を行う識別モデルにおいて、最終的な識別を行う直前の段階で得られる特徴ベクトルを計量として用いればよい。例えば、VGGなどのCNN(Convolutional Neural Network)のモデルにおける全結合層で得られる特徴ベクトルを用いればよい。こうして学習された計量空間は、計量算出部114と事例埋め込み部116に出力される。なお、実際には、計量空間として、学習された識別モデルのパラメータが出力される。
画像摂動部113には、計量学習用の画像データ123及び付加情報121、並びに、事例登録用の画像データ125及び付加情報126が入力される。なお、ここでは、画像摂動部113に入力された計量学習用の画像データ123は、事例登録用として使用されている。画像摂動部113は、計量学習用の画像データ123や事例登録用の画像データ125を摂動させる。具体的には、画像摂動部113は、元の画像に対して、幾何変形、画像圧縮、ボケやノイズの付与、明度や彩度などの変更などにより、敵対的摂動を与える。なお、付加情報により、摂動のパラメータが推定できる場合には、画像摂動部113はそのパラメータの範囲内でのみ画像を摂動させればよい。例えば、付加情報に含まれるカメラの俯角から幾何変形のパラメータが推定できる場合には、画像摂動部113は、そのパラメータの範囲内で幾何変形を行えばよい。画像摂動により、学習に使用する画像データ数を実質的に増加させることができる。摂動された画像データは、計量算出部114に出力される。
計量算出部114には、計量空間学習部112から学習済みの計量空間が与えられ、画像摂動部113から摂動後の画像データが入力される。計量算出部114は、摂動後の画像データから、計量に相当する特徴ベクトルを算出する。即ち、計量算出部114は、画像摂動された各画像データを事例とし、計量空間学習部112が学習した計量空間上における各事例の位置を算出する。これにより、事例登録用の画像データ125が、図1に示すように計量空間上に配置される。実際には、計量空間学習部112は、計量空間学習部112が学習した計量空間を示す識別モデルを用いて、摂動後の各画像データから特徴ベクトルを抽出する。摂動後の各画像データから抽出された特徴ベクトルは特徴摂動部115に出力される。
特徴摂動部115は、計量算出部114で得られた各画像データの特徴ベクトルを摂動させる。即ち、特徴摂動部115は、計量算出部114で得られた各画像データの特徴ベクトルから、画像上での変化が一定の範囲内において、計量空間上で最も遠い距離に存在する特徴ベクトルを新たな事例として生成する。これにより、計量算出部114が計量空間上に配置した事例の周辺に複数の事例を追加し、計量空間における各クラスの領域を広げることができる。特徴摂動部115は、摂動により生成した特徴ベクトルと、摂動を施す前の特徴ベクトル、即ち、計量算出部114から入力された特徴ベクトルとを事例埋め込み部116に出力する。
事例埋め込み部116は、特徴摂動部115から入力された特徴ベクトル、即ち、特徴摂動の前後の特徴ベクトルを事例として計量空間に埋め込む。具体的には、事例埋め込み部116は、特徴摂動部115から入力された特徴ベクトルを事例として計量空間に関連付け、事例辞書127に登録する。その際、事例埋め込み部116は、各事例に紐づけて、教師ラベル122、124と、付加情報121、126も登録する。さらに、事例埋め込み部116は、計量空間に埋め込まれる事例に対応する画像データとして、代表的な画像データを登録してもよい。こうして、複数のラベル(属性)の組み合わせ毎に、対応する計量空間についての事例を登録した事例辞書127が作成される。具体的には、事例辞書127には、複数の計量空間を規定する情報と、各計量空間に埋め込まれた事例とが記憶される。ここで、「計量空間を規定する情報」とは、実際には学習された識別モデルのパラメータであり、「各計量空間に埋め込まれた事例」とは、その計量空間における特徴ベクトルである。なお、事例辞書127は本発明の事例記憶部の一例である。
(学習処理)
次に、上記の学習処理の流れを説明する。図5は、学習のための物体認識装置100Aによる学習処理のフローチャートである。この処理は、図3に示すプロセッサ103が、予め用意されたプログラムを実行することにより実施される。
次に、上記の学習処理の流れを説明する。図5は、学習のための物体認識装置100Aによる学習処理のフローチャートである。この処理は、図3に示すプロセッサ103が、予め用意されたプログラムを実行することにより実施される。
まず、ラベル選択部111は、属性やクラスを含む教師ラベルを選択する(ステップS11)。計量空間学習部112は、計量学習用の画像データ123及び教師ラベル122を用いて、ステップS11で選択されたラベルの組み合わせについて計量空間を学習する(ステップS12)。
次に、画像摂動部113は、事例登録用の画像データ125を摂動し、摂動後の画像データを計量算出部114に出力する。計量算出部114は、摂動後の画像データの特徴ベクトルを算出し(ステップS14)、特徴摂動部115は、算出された特徴ベクトルを摂動する(ステップS15)。こうして、画像の摂動及び特徴の摂動により、登録用画像データから複数の特徴ベクトルが得られる。事例埋め込み部116は、得られた特徴ベクトルを事例として計量空間に関連付けて記憶することにより、事例辞書127を作成する(ステップS16)。こうして、学習処理は終了する。これにより、属性の1つの組み合わせに対する計量空間について、事例が事例辞書127に登録される。
物体認識装置100Aは、ラベル選択部111が選択するラベルを変えることにより、別の属性の組み合わせについても同様に計量空間を学習し、事例を埋め込んで事例辞書127に登録する。こうして、図2に例示するように、事例辞書127には、複数の属性の組み合わせに対応する計量空間上に配置した事例が登録される。
(推論のための機能構成)
次に、物体認識装置100の推論のための機能構成について説明する。図6は、推論のための物体認識装置100Bの機能構成を示すブロック図である。図示のように、物体認識装置100Bは、画像摂動部131と、計量算出部132と、特徴摂動部133と、計量空間選択部134と、画像摂動部135と、計量算出部136と、特徴摂動部137と、識別部138と、結果出力部139とを備える。
次に、物体認識装置100の推論のための機能構成について説明する。図6は、推論のための物体認識装置100Bの機能構成を示すブロック図である。図示のように、物体認識装置100Bは、画像摂動部131と、計量算出部132と、特徴摂動部133と、計量空間選択部134と、画像摂動部135と、計量算出部136と、特徴摂動部137と、識別部138と、結果出力部139とを備える。
物体認識装置100Bは、辞書選択用の画像データ141と、辞書選択用の教師ラベル142と、辞書選択教の付加情報143と、推論用の画像データ145と、事例辞書127とを使用する。事例辞書127は、上述の学習処理により作成されたものである。
辞書選択用の画像データ141は、予め用意された複数の計量空間についての事例辞書127から、最適な計量空間に対応する事例辞書127を選択するために使用される画像データであり、基本的な性質は前述した計量空間学習用の画像データ123と同様である。辞書選択用の教師ラベル142は、辞書選択用の画像データ141に紐づく教師ラベルであり、基本的な性質は計量空間学習用の教師ラベル122と同様である。辞書選択用の付加情報143は、辞書選択用の画像データ141に紐づく付加情報であり、基本的な性質は計量空間学習用の付加情報121と同様である。推論用の画像データは、物体認識装置100Bによる認識の対象となる画像データである。
また、画像摂動部131及び135は、図4に示す学習のための機能構成における画像摂動部113と同様であり、計量算出部132及び136は学習のための機能構成における計量算出部114と同様であり、特徴摂動部133及び137は学習のための機能構成における特徴摂動部115と同様である。
図6において、画像摂動部131、計量算出部132、特徴摂動部133及び計量空間選択部134は、辞書選択用の画像データ141、教師ラベル142及び付加情報143を用いて、事例辞書127に蓄えられている複数の計量空間から最適な計量空間を選択する処理を行う。具体的に、画像摂動部131は、辞書選択用の画像データ141を摂動する。計量算出部132は、まず、事例辞書127に蓄えられている複数の計量空間から、1つの計量空間を取得し、その計量空間における摂動後の画像データの特徴ベクトルを算出する。次に、特徴摂動部133は、計量算出部132により算出された特徴ベクトルを摂動し、摂動後の特徴ベクトルを生成する。こうして、辞書選択用の画像データ141から、複数の特徴ベクトルが算出される。この処理により、最適な計量空間を選択するために使用する画像データ数を増加させている。
画像摂動部131、計量算出部132及び特徴摂動部133は、他の計量空間についても同様の処理を行い、それらの計量空間における特徴ベクトルを算出する。こうして、事例辞書127に記憶されている複数の計量空間について、辞書選択用の画像データ141に基づいて複数の特徴ベクトルが算出される。
計量空間選択部134は、辞書選択用の画像データ141から算出された特徴ベクトルと、それに対応する教師ラベル142及び付加情報143とから最適な計量空間を選択する。具体的には、計量空間選択部134は、教師ラベルと、辞書選択用の画像データ141の計量空間上の特徴ベクトルと、事例辞書127に記憶されている計量空間に埋め込まれた事例における特徴ベクトルとの間で、最近傍認識などの手法を用いて、計量空間ごとに性能評価を行う。即ち、計量空間選択部134は、図2に示したように、既存クラスの画像データを用いて複数の計量空間の性能を評価し、最も性能が高い計量空間を選択する。
さらに、辞書選択用の付加情報143から選択すべき計量空間を限定できる場合には、計量空間選択部134は、付加情報143を用いて選択すべき計量空間を予め絞った後で、上述の性能評価により最適な計量空間を選択すればよい。もしくは、上述の性能評価と、付加情報を用いた選択を同時に行ってもよい。こうして選択された計量空間は、辞書選択用の画像データ141の属性に対して最も高精度な認識を可能とする計量空間となる。計量空間選択部134は、選択した計量空間を計量算出部136及び識別部138に出力する。
最適な計量空間が選択されると、その計量空間を用いて推論用の画像データ145の推論が行われる。画像摂動部135は、推論用の画像データ145を摂動し、摂動後の画像データを計量算出部136に出力する。計量算出部136は、計量空間選択部134が選択した計量空間における、摂動後の画像データの特徴ベクトルを算出する。さらに、特徴摂動部137は、計量算出部136が算出した特徴ベクトルを摂動し、得られた複数の特徴ベクトルを識別部138に出力する。
識別部138は、教師ラベルと、推論用の画像データ145から得られた複数の特徴ベクトルと、計量空間選択部134により選択された計量空間について事例辞書127に記憶されている多数の事例との間で最近傍認識などを行い、推論用の画像データ145のクラスを識別する。識別結果は結果出力部139に供給される。
結果出力部139は、識別部138によるクラスの識別結果に加えて、識別部138により選択された近傍の事例に対応する画像と、その事例に紐づく教師ラベル及び付加情報とを出力する。具体的には、結果出力部139は、これらの情報を図3に示す表示部107などに表示する。これにより、推論用の画像データ145に含まれる認識対象が新クラスであったとしても、ユーザは識別結果のクラスのみならず、その認識対象と近い事例に紐づく画像、教師ラベル、付加情報などを見ることができるので、認識結果の妥当性などを直感的に判断することが可能となる。
(推論処理)
次に、推論のための物体認識装置100Bによる推論処理について説明する。図7は、推論のための物体認識装置による推論処理のフローチャートである。この処理は、図3に示すプロセッサ103が予め用意されたプログラムを実行することにより実施される。
次に、推論のための物体認識装置100Bによる推論処理について説明する。図7は、推論のための物体認識装置による推論処理のフローチャートである。この処理は、図3に示すプロセッサ103が予め用意されたプログラムを実行することにより実施される。
まず、画像摂動部131が辞書選択用の画像データ141を摂動し(ステップS21)、計量算出部132は複数の計量空間について摂動後の画像データの特徴ベクトルを算出する(ステップS22)。次に、特徴摂動部133が、得られた特徴ベクトルを摂動して複数の特徴ベクトルを生成する(ステップS23)。そして、計量空間選択部134は、複数の特徴ベクトルと、事例辞書127において各計量空間上に埋め込まれている事例とを用いて性能評価を行い、最適な計量空間を選択する(ステップS24)。
こうして最適な計量空間が選択されると、次に、推論用の画像データ145に対する識別が行われる。画像摂動部135は推論用の画像データ145を摂動し(ステップS25)、計量算出部136は、ステップS24で選択された計量空間について摂動後の画像データの特徴ベクトルを算出する(ステップS26)。次に、特徴摂動部137が、得られた特徴ベクトルを摂動して複数の特徴ベクトルを生成し(ステップS27)、識別部138は選択された計量空間における事例との間で最近傍認識などの手法によりクラスを識別する(ステップS28)。そして、結果出力部139は、クラスの識別結果を、その識別に使用した事例の画像データ、教師ラベル、付加情報などとともに出力する(ステップS29)。こうして、推論処理は終了する。
(変形例)
(1)上記の推論処理では、計量空間選択部134は、既存クラスの画像データを評価用データとして用いて複数の計量空間を評価し、最適な計量空間を選択している。これに加えて、計量空間選択部134は、新クラスの画像データを評価用データとして使用してもよい。この場合、新クラスの画像データについては正解ラベル(正解クラス)が用意されていないことが考えられるが、その場合でも、新クラスの複数の事例が、計量空間上で他の既存クラスの事例と離れた位置でまとまりを形成しているような場合には、その計量空間が適切な性能を有していると評価することができる。よって、対象となる新クラスの事例の集合が計量空間上でより狭い領域に集まっており、さらに新クラス以外の集合との距離が遠いものを、最良の特等を持つ事例辞書として選択すればよい。より具体的には、例えば、新クラスの各事例毎に、当該事例と新クラスの他の事例との距離の平均値Aと、当該事例と既存クラスの事例との距離の平均値Bの比を求め、この比が小さいものを選択すればよい。
(1)上記の推論処理では、計量空間選択部134は、既存クラスの画像データを評価用データとして用いて複数の計量空間を評価し、最適な計量空間を選択している。これに加えて、計量空間選択部134は、新クラスの画像データを評価用データとして使用してもよい。この場合、新クラスの画像データについては正解ラベル(正解クラス)が用意されていないことが考えられるが、その場合でも、新クラスの複数の事例が、計量空間上で他の既存クラスの事例と離れた位置でまとまりを形成しているような場合には、その計量空間が適切な性能を有していると評価することができる。よって、対象となる新クラスの事例の集合が計量空間上でより狭い領域に集まっており、さらに新クラス以外の集合との距離が遠いものを、最良の特等を持つ事例辞書として選択すればよい。より具体的には、例えば、新クラスの各事例毎に、当該事例と新クラスの他の事例との距離の平均値Aと、当該事例と既存クラスの事例との距離の平均値Bの比を求め、この比が小さいものを選択すればよい。
(2)上記の実施形態では、人物属性データ(付帯物、年齢など)と、人物クラスデータ(警察官、消防士など)を用いて計量空間を学習している。その代わりに、人物属性データのみを用いて計量空間を学習し、得られた各計量空間を初期値として、人物クラスデータを用いて再学習(ファインンチューニング)した後、性能評価して最適な計量空間を選択するようにしてもよい。
(3)上記の実施形態では、人物属性データと人物クラスデータに基づいて計量空間を学習している。その際に、ニューラルネットワークにおける重みを、人物属性識別タスクと人物クラス識別タスクの両方で共有してもよい。具体的に、最適化(計量空間の学習)を行う際に、人物属性識別タスクの損失関数と人物クラス識別タスクの損失関数について重みを設定して学習を行うようにしてもよい。例えば、人物属性識別タスクの損失関数と人物クラス識別タスクの損失関数について、再提起な前半ではどちらか一方の損失関数の寄与(係数)を大きくし、最適化の後半ではその損失関数における寄与(係数)を小さくする。これにより、人物属性の識別が可能で、人物クラスの識別も可能なモデルを獲得できるため、より高性能な識別が期待できる。
さらに、人物属性データも流用できるため、人物クラス人物クラスのデータが少ない場合に有効である。一般的に、公開画像データセットなどは、多数の人物属性データを含んでいるが、人物クラスデータは少ない場合が多い。そこで、最初は人物属性識別タスクの損失関数に対する重みを大きくして学習を開始し、その後に人物クラス識別タスクの損失関数に対する重みを大きくして各人物クラスに特化する学習を行う。これにより、人物属性データが多数あり、人物クラスデータが少ないという状況でも、人物クラスデータを有効活用して計量空間の学習が可能となる。
(4)上記の実施形態では、画像摂動部により画像データを摂動させているが、画像摂動の方法としては以下の方法を使用してもよい。第1の方法としては、複数の人物の画像をそれぞれ身体のパーツ(頭、胴体、手、足など)などの部分的な領域に分解し、これらを張り合わせて人物の画像を生成する。なお、身体のパーツの境界部にはαブレンディングなどの画像処理を施す。第2の方法としては、まず、キーポイント検出により、画像データに含まれる人物の身体の関節位置を検出する。次に、アフィン変換、ヘルマート変換、ホモグラフィ変換、B-スプライン補間などの幾何変換を用いて、キーポイントの位置を正規化し、関節の位置を揃えた画像を生成する。そして、ノイズの付与などにより、キーポイントの位置を微小にずらして、摂動を与える。
また、特徴摂動部は、敵対的事例生成を用いて微小摂動事例を生成してもよい。具体的には、入力画像に対して微小のノイズを加える際に、対象となる事例が属するクラスと同じクラスの事例群との距離が最も離れている事例を採用する。即ち、入力画像に対して微小ノイズを付与することにより得られる事例が、計量空間上で既存の事例と遠ければ採用し、既存の事例に近ければ不採用とする。
(5)上記の実施形態では、計量空間の学習及び計量空間の選択において、画像及び特徴ベクトルを摂動させているが、十分な量の画像データが用意できる場合には、画像及び特徴ベクトルの摂動を行わなくてもよい。
[第2実施形態]
次に、本発明の第2実施形態について説明する。図8(A)は、第2実施形態に係る学習装置50の構成を示す。学習装置50は、計量空間学習部51と、事例記憶部52とを備える。計量空間学習部51は、属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、属性付画像データから抽出された特徴ベクトルを含む計量空間を学習する。事例記憶部52は、事例用画像データから特徴ベクトルを算出し、計量空間に関連付けた事例として記憶する。こうして、異なる属性の組み合わせ毎に計量空間が学習され、それに関連付けて事例が記憶される。
次に、本発明の第2実施形態について説明する。図8(A)は、第2実施形態に係る学習装置50の構成を示す。学習装置50は、計量空間学習部51と、事例記憶部52とを備える。計量空間学習部51は、属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、属性付画像データから抽出された特徴ベクトルを含む計量空間を学習する。事例記憶部52は、事例用画像データから特徴ベクトルを算出し、計量空間に関連付けた事例として記憶する。こうして、異なる属性の組み合わせ毎に計量空間が学習され、それに関連付けて事例が記憶される。
図8(B)は、第2実施形態に係る推論装置の構成を示す。推論装置60は、事例記憶部61と、計量空間選択部62と、識別部63と、結果出力部64とを備える。事例記憶部61は、異なる属性の組み合わせ毎に学習された複数の計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶している。計量空間選択部62は、選択用画像データの特徴ベクトルを用いて複数の計量空間を評価して、一の計量空間を選択する。識別部63は、推論用画像データから抽出された特徴ベクトルと、一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別する。そして、結果出力部64は、識別部63による識別結果を出力する。こうして、事例記憶部61に記憶されている事例を用いて、推論用画像データを識別することができる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習する計量空間学習部と、
事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶する事例記憶部と、
を備える学習装置。
属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習する計量空間学習部と、
事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶する事例記憶部と、
を備える学習装置。
(付記2)
前記異なる属性の組み合わせを決定する属性決定部を備える付記1に記載の学習装置。
前記異なる属性の組み合わせを決定する属性決定部を備える付記1に記載の学習装置。
(付記3)
前記事例用画像データを摂動させる第1の画像摂動部を備え、
前記事例記憶部は、摂動後の事例用画像データから算出された特徴ベクトルを事例として記憶する付記1又は2に記載の学習装置。
前記事例用画像データを摂動させる第1の画像摂動部を備え、
前記事例記憶部は、摂動後の事例用画像データから算出された特徴ベクトルを事例として記憶する付記1又は2に記載の学習装置。
(付記4)
前記事例用画像データについて算出された特徴ベクトルを摂動する第1の特徴摂動部を備え、
前記事例記憶部は、摂動後の特徴ベクトルを事例として記憶する付記1乃至3のいずれか一項に記載の学習装置。
前記事例用画像データについて算出された特徴ベクトルを摂動する第1の特徴摂動部を備え、
前記事例記憶部は、摂動後の特徴ベクトルを事例として記憶する付記1乃至3のいずれか一項に記載の学習装置。
(付記5)
前記事例記憶部は、前記事例用画像データの教師ラベル及び付加情報を前記事例に紐づけて記憶する付記1乃至4のいずれか一項に記載の学習装置。
前記事例記憶部は、前記事例用画像データの教師ラベル及び付加情報を前記事例に紐づけて記憶する付記1乃至4のいずれか一項に記載の学習装置。
(付記6)
属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶する学習方法。
属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶する学習方法。
(付記7)
属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶する処理をコンピュータに実行させるプログラムを記録した記録媒体。
属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶する処理をコンピュータに実行させるプログラムを記録した記録媒体。
(付記8)
異なる属性の組み合わせ毎に学習された複数の計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶した事例記憶部と、
選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択する計量空間選択部と、
推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別する識別部と、
前記識別部による識別結果を出力する結果出力部と、
を備える推論装置。
異なる属性の組み合わせ毎に学習された複数の計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶した事例記憶部と、
選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択する計量空間選択部と、
推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別する識別部と、
前記識別部による識別結果を出力する結果出力部と、
を備える推論装置。
(付記9)
前記計量空間選択部は、前記複数の計量空間の各々を用いて既存クラスの選択用画像データを識別し、当該既存クラスの選択用画像データの教師ラベルと最も一致度の高い計量空間を前記一の計量空間と決定する付記8に記載の推論装置。
前記計量空間選択部は、前記複数の計量空間の各々を用いて既存クラスの選択用画像データを識別し、当該既存クラスの選択用画像データの教師ラベルと最も一致度の高い計量空間を前記一の計量空間と決定する付記8に記載の推論装置。
(付記10)
前記識別部は、前記事例記憶部に記憶されている事例のうち、前記一の計量空間において前記推論用画像データの特徴ベクトルと最も近い事例のクラスを前記識別結果とする付記8又は9に記載の推論装置。
前記識別部は、前記事例記憶部に記憶されている事例のうち、前記一の計量空間において前記推論用画像データの特徴ベクトルと最も近い事例のクラスを前記識別結果とする付記8又は9に記載の推論装置。
(付記11)
前記結果出力部は、前記識別結果に加えて、前記最も近い事例の教師ラベル、付加情報及び画像データを推論結果として出力する10に記載の推論装置。
前記結果出力部は、前記識別結果に加えて、前記最も近い事例の教師ラベル、付加情報及び画像データを推論結果として出力する10に記載の推論装置。
(付記12)
前記推論用画像データを摂動する第2の画像摂動部を備え、
前記識別部は、摂動後の推論用画像データの特徴ベクトルを用いて、当該推論用画像データを識別する付記8乃至11のいずれか一項に記載の推論装置。
前記推論用画像データを摂動する第2の画像摂動部を備え、
前記識別部は、摂動後の推論用画像データの特徴ベクトルを用いて、当該推論用画像データを識別する付記8乃至11のいずれか一項に記載の推論装置。
(付記13)
前記推論用画像データの特徴ベクトルを摂動する第2の特徴摂動部を備え、
前記識別部は、摂動後の特徴ベクトルを用いて、前記推論用の画像データを識別する付記8乃至11のいずれか一項に記載の推論装置。
前記推論用画像データの特徴ベクトルを摂動する第2の特徴摂動部を備え、
前記識別部は、摂動後の特徴ベクトルを用いて、前記推論用の画像データを識別する付記8乃至11のいずれか一項に記載の推論装置。
(付記14)
異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶した事例記憶部から複数の計量空間を取得し、
選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択し、
推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、識別結果を出力する推論方法。
異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶した事例記憶部から複数の計量空間を取得し、
選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択し、
推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、識別結果を出力する推論方法。
(付記15)
異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶した事例記憶部から複数の計量空間を取得し、
選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択し、
推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、識別結果を出力する処理をコンピュータに実行させるプログラムを記録した記録媒体。
異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶した事例記憶部から複数の計量空間を取得し、
選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択し、
推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、識別結果を出力する処理をコンピュータに実行させるプログラムを記録した記録媒体。
以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
10 計量空間
100 物体認識装置
103 プロセッサ
111 ラベル選択部
112 計量空間学習部
113、131、135 画像摂動部
114、132、135 計量算出部
115、133、136 特徴摂動部
116 事例埋め込み部
127 事例辞書
170 端末装置
138 識別部
129 結果出力部
100 物体認識装置
103 プロセッサ
111 ラベル選択部
112 計量空間学習部
113、131、135 画像摂動部
114、132、135 計量算出部
115、133、136 特徴摂動部
116 事例埋め込み部
127 事例辞書
170 端末装置
138 識別部
129 結果出力部
Claims (15)
- 属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習する計量空間学習部と、
事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶する事例記憶部と、
を備える学習装置。 - 前記異なる属性の組み合わせを決定する属性決定部を備える請求項1に記載の学習装置。
- 前記事例用画像データを摂動させる第1の画像摂動部を備え、
前記事例記憶部は、摂動後の事例用画像データから算出された特徴ベクトルを事例として記憶する請求項1又は2に記載の学習装置。 - 前記事例用画像データについて算出された特徴ベクトルを摂動する第1の特徴摂動部を備え、
前記事例記憶部は、摂動後の特徴ベクトルを事例として記憶する請求項1乃至3のいずれか一項に記載の学習装置。 - 前記事例記憶部は、前記事例用画像データの教師ラベル及び付加情報を前記事例に紐づけて記憶する請求項1乃至4のいずれか一項に記載の学習装置。
- 属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶する学習方法。 - 属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶する処理をコンピュータに実行させるプログラムを記録した記録媒体。 - 異なる属性の組み合わせ毎に学習された複数の計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶した事例記憶部と、
選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択する計量空間選択部と、
推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別する識別部と、
前記識別部による識別結果を出力する結果出力部と、
を備える推論装置。 - 前記計量空間選択部は、前記複数の計量空間の各々を用いて既存クラスの選択用画像データを識別し、当該既存クラスの選択用画像データの教師ラベルと最も一致度の高い計量空間を前記一の計量空間と決定する請求項8に記載の推論装置。
- 前記識別部は、前記事例記憶部に記憶されている事例のうち、前記一の計量空間において前記推論用画像データの特徴ベクトルと最も近い事例のクラスを前記識別結果とする請求項8又は9に記載の推論装置。
- 前記結果出力部は、前記識別結果に加えて、前記最も近い事例の教師ラベル、付加情報及び画像データを推論結果として出力する請求項10に記載の推論装置。
- 前記推論用画像データを摂動する第2の画像摂動部を備え、
前記識別部は、摂動後の推論用画像データの特徴ベクトルを用いて、当該推論用画像データを識別する請求項8乃至11のいずれか一項に記載の推論装置。 - 前記推論用画像データの特徴ベクトルを摂動する第2の特徴摂動部を備え、
前記識別部は、摂動後の特徴ベクトルを用いて、前記推論用の画像データを識別する請求項8乃至11のいずれか一項に記載の推論装置。 - 異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶した事例記憶部から複数の計量空間を取得し、
選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択し、
推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、識別結果を出力する推論方法。 - 異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶した事例記憶部から複数の計量空間を取得し、
選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択し、
推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、識別結果を出力する処理をコンピュータに実行させるプログラムを記録した記録媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021546155A JP7338690B2 (ja) | 2019-09-20 | 2019-09-20 | 学習装置、学習方法、推論装置、推論方法、及び、プログラム |
US17/640,926 US20220335291A1 (en) | 2019-09-20 | 2019-09-20 | Learning apparatus, learning method, inference apparatus, inference method, and recording medium |
PCT/JP2019/037007 WO2021053815A1 (ja) | 2019-09-20 | 2019-09-20 | 学習装置、学習方法、推論装置、推論方法、及び、記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/037007 WO2021053815A1 (ja) | 2019-09-20 | 2019-09-20 | 学習装置、学習方法、推論装置、推論方法、及び、記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021053815A1 true WO2021053815A1 (ja) | 2021-03-25 |
Family
ID=74884422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2019/037007 WO2021053815A1 (ja) | 2019-09-20 | 2019-09-20 | 学習装置、学習方法、推論装置、推論方法、及び、記録媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220335291A1 (ja) |
JP (1) | JP7338690B2 (ja) |
WO (1) | WO2021053815A1 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5378909B2 (ja) * | 2009-08-12 | 2013-12-25 | Kddi株式会社 | サポートベクトルマシンの再学習方法 |
US11238362B2 (en) * | 2016-01-15 | 2022-02-01 | Adobe Inc. | Modeling semantic concepts in an embedding space as distributions |
CN106803063B (zh) * | 2016-12-21 | 2019-06-28 | 华中科技大学 | 一种行人重识别的度量学习方法 |
JP7351344B2 (ja) * | 2019-10-24 | 2023-09-27 | 日本電気株式会社 | 学習装置、学習方法、推論装置、推論方法、及び、プログラム |
-
2019
- 2019-09-20 JP JP2021546155A patent/JP7338690B2/ja active Active
- 2019-09-20 WO PCT/JP2019/037007 patent/WO2021053815A1/ja active Application Filing
- 2019-09-20 US US17/640,926 patent/US20220335291A1/en active Pending
Non-Patent Citations (2)
Title |
---|
LAMPERT, C. H. ET AL.: "Learning to detect unseen object classes by between-class attribute transfer", PROCEEDINGS OF THE 2009 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 25 June 2009 (2009-06-25), pages 951 - 958, XP055652082, ISBN: 978-1-4244-3991-1, DOI: 10.1109/CVPR.2009.5206594 * |
MATSUKAWA, T. ET AL.: "Person re-identification using CNN features learned from combination of attributes", PROCEEDINGS OF THE 2016 23RD INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR, 8 December 2016 (2016-12-08), pages 2428 - 2433, XP033085950, ISBN: 978-1-5090-4847-2, DOI: 10.1109/ICPR.2016.7900000 * |
Also Published As
Publication number | Publication date |
---|---|
JPWO2021053815A1 (ja) | 2021-03-25 |
JP7338690B2 (ja) | 2023-09-05 |
US20220335291A1 (en) | 2022-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Classification of high-spatial-resolution remote sensing scenes method using transfer learning and deep convolutional neural network | |
CN110348319B (zh) | 一种基于人脸深度信息和边缘图像融合的人脸防伪方法 | |
JP6867479B2 (ja) | 画像解析および予測に基づく視覚検索 | |
CN108229267B (zh) | 对象属性检测、神经网络训练、区域检测方法和装置 | |
Chen et al. | SWIPENET: Object detection in noisy underwater scenes | |
CN112673369B (zh) | 用于可视搜索的可视意图触发 | |
WO2020061489A1 (en) | Training neural networks for vehicle re-identification | |
KR20200075114A (ko) | 이미지와 텍스트간 유사도 매칭 시스템 및 방법 | |
CN107451619A (zh) | 一种基于感知生成对抗网络的小目标检测方法 | |
CN110414550B (zh) | 人脸识别模型的训练方法、装置、系统和计算机可读介质 | |
KR20190029083A (ko) | 신경망 학습 방법 및 이를 적용한 장치 | |
Barman et al. | Shape: A novel graph theoretic algorithm for making consensus-based decisions in person re-identification systems | |
US20220165095A1 (en) | Person verification device and method and non-transitory computer readable media | |
CN103150546A (zh) | 视频人脸识别方法和装置 | |
WO2021079451A1 (ja) | 学習装置、学習方法、推論装置、推論方法、及び、記録媒体 | |
CN111626098B (zh) | 模型的参数值更新方法、装置、设备及介质 | |
Viraktamath et al. | Comparison of YOLOv3 and SSD algorithms | |
CN116597336A (zh) | 视频处理方法、电子设备、存储介质及计算机程序产品 | |
CN113298850A (zh) | 一种基于注意力机制与特征融合的目标跟踪方法及系统 | |
CN109033321A (zh) | 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法 | |
CN103605979A (zh) | 一种基于形状片段的物体识别方法及系统 | |
CN111652350B (zh) | 神经网络可视化解释方法及弱监督定位物体方法 | |
WO2021053815A1 (ja) | 学習装置、学習方法、推論装置、推論方法、及び、記録媒体 | |
Kapoor et al. | Multi-sensor based object tracking using enhanced particle swarm optimized multi-cue granular fusion | |
Dewi et al. | Deep Learning for Advanced Similar Musical Instrument Detection and Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19945644 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2021546155 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19945644 Country of ref document: EP Kind code of ref document: A1 |