WO2021079451A1 - 学習装置、学習方法、推論装置、推論方法、及び、記録媒体 - Google Patents

学習装置、学習方法、推論装置、推論方法、及び、記録媒体 Download PDF

Info

Publication number
WO2021079451A1
WO2021079451A1 PCT/JP2019/041632 JP2019041632W WO2021079451A1 WO 2021079451 A1 WO2021079451 A1 WO 2021079451A1 JP 2019041632 W JP2019041632 W JP 2019041632W WO 2021079451 A1 WO2021079451 A1 WO 2021079451A1
Authority
WO
WIPO (PCT)
Prior art keywords
case
image data
feature vector
metric space
inference
Prior art date
Application number
PCT/JP2019/041632
Other languages
English (en)
French (fr)
Inventor
あずさ 澤田
壮馬 白石
剛志 柴田
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2021553221A priority Critical patent/JP7351344B2/ja
Priority to PCT/JP2019/041632 priority patent/WO2021079451A1/ja
Priority to US17/768,597 priority patent/US20240112447A1/en
Publication of WO2021079451A1 publication Critical patent/WO2021079451A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Definitions

  • the present invention relates to a technique for recognizing an object included in an image.
  • Patent Document 1 and Non-Patent Document 1 describe an object recognition technique for learning and identifying using a neural network.
  • Non-Patent Document 1 also describes that a predetermined threshold value is set for the identification score, and when the identification score is lower than the above threshold value, the identification result is rejected as if the object in the registration category could not be detected. Has been done.
  • the above method only rejects the identification target of the unregistered category, and cannot identify it. Moreover, since the conventional identification method only performs identification, it is difficult to intuitively interpret the validity of the identification result.
  • One object of the present invention is to correspond to images acquired in various environments and to output a recognition result in a form in which it is easy to judge the validity of the recognition result even for an identification target of an unregistered category. ..
  • the learning device A metric space learning unit that learns a metric space including a feature vector extracted from the attributed image data for each combination of different attributes using attributed image data to which attribute information is added. It is provided with a case storage unit that calculates a feature vector from the image data for a case, stores it as a case associated with the measurement space, and stores additional information related to the case.
  • the learning method Using the attributed image data to which the attribute information is added, the metric space including the feature vector extracted from the attributed image data is learned for each combination of different attributes.
  • a feature vector is calculated from the case image data and stored as a case associated with the measurement space, and additional information related to the case is stored.
  • the recording medium is: Using the attributed image data to which the attribute information is added, the metric space including the feature vector extracted from the attributed image data is learned for each combination of different attributes.
  • a program that calculates a feature vector from case image data, stores it as a case associated with the measurement space, and causes a computer to execute a process of storing additional information related to the case is recorded.
  • the inference device A case storage unit that stores the feature vector of the case image data as a case and stores additional information related to the case in association with the metric space learned for each combination of different attributes.
  • An identification unit that identifies the inference image data based on the feature vector extracted from the inference image data and the case associated with the metric space. It includes a result output unit that outputs the identification result by the identification unit together with additional information related to the case used for the identification.
  • the inference method The feature vector of the case image data is stored as a case in association with the metric space learned for each combination of different attributes, and the metric space is acquired from the case storage unit that stores additional information related to the case.
  • the inference image data is identified based on the feature vector extracted from the inference image data and the case associated with the metric space.
  • the identification result is output together with additional information related to the case used for identification.
  • the recording medium is:
  • the feature vector of the case image data is stored as a case in association with the metric space learned for each combination of different attributes, and the metric space is acquired from the case storage unit that stores additional information related to the case.
  • the inference image data is identified based on the feature vector extracted from the inference image data and the case associated with the metric space. Record a program that causes the computer to execute a process that outputs the identification result together with additional information related to the case used for identification.
  • FIG. 1 shows a method of creating a case dictionary for a recognition target including a new class.
  • the metric space is learned using the image data to which the attribute information and the like are added.
  • the image data of the person to which the attribute information is given is acquired by using the public image data set of various people.
  • the "attribute information” is a person attribute reflected in the image data, and examples thereof include the age, gender, height, and incidental items (such as belongings and wearing items) of the person.
  • image data of various attributes are acquired for the "police officer", “pedestrian", and "firefighter” to be recognized.
  • FIG. 1 shows a metric space 10 learned based on a certain person attribute.
  • the metric space 10 is a space defined by a feature vector (metric) extracted from image data, and has the property that similar image data are located at a short distance and dissimilar image data are located at a distant distance.
  • a public image data set of a person having a certain person attribute for example, wearing a hat
  • a feature vector is calculated for them
  • a metric space is learned based on the obtained feature vector.
  • learning the metric space actually means preparing an identification model using a neural network or the like so that the feature vector generated by the model with respect to the input of each image data has the above-mentioned properties. In addition, it refers to learning the model. Further, the metric space obtained by learning is defined by the parameters of the trained discriminative model.
  • a feature vector is generated from the image data of the existing class and embedded in the metric space 10 as an example.
  • similar image data are located close to each other. Therefore, as shown in the figure, the image data of the existing class “police officer” are located close to each other on the weighing space 10 as indicated by the mark 11.
  • the image data of the existing class "pedestrian” are located close to each other on the weighing space 10 as indicated by the mark 12.
  • the "police officer” indicated by the mark 11 and the "pedestrian” indicated by the mark 12 are located apart from each other on the weighing space 10. In this way, the image data of the existing class is embedded in the weighing space 10 as an example.
  • "embedding as an example” actually means that the feature vector extracted from the image is stored in association with the metric space 10.
  • the new class embed a case in the weighing space 10 in the same way.
  • a feature vector is extracted from the image data of the new class "firefighter” and embedded as an example in the measuring space 10.
  • the image data of the new class "firefighter” is arranged close to each other on the weighing space 10 as shown by the mark 13, and is separated from other classes "police officer” and "pedestrian”. Is placed.
  • cases of the same class are located close to each other, and cases of different classes are located apart from each other.
  • cases are embedded in the weighing space 10 in this way, it becomes possible to identify the class of image data by referring to these cases. For example, as shown in FIG. 1, when the image data 15 of a certain person is input, the feature vector of the image data 15 is extracted and the position on the weighing space 10 is calculated. In the example of FIG. 1, since the feature vector of the image data 15 belongs to the area where the cases of the class "firefighter" are gathered, the class of the image data can be recognized as "firefighter". In this way, even when a new class is added as a recognition target, the new class can be recognized by embedding the cases of the existing class and the new class in the metric space and creating a case dictionary.
  • FIG. 1 illustrates one metric space learned for a certain person attribute
  • the metric space 10 is learned and learned for each of a plurality of combinations of different person attributes.
  • a case dictionary is created by embedding a case in the space 10. Cases for a plurality of measuring spaces are registered in the case dictionary.
  • FIG. 2 is a diagram illustrating a method of selecting an optimum weighing space.
  • the case dictionary contains cases for multiple metric spaces that correspond to different combinations of person attributes.
  • the case dictionary contains a weighing space 10a for the attributes "incidental” and “age”, a weighing space 10b for the attributes "incidental” and “gender", and an attribute "incidental”. It is assumed that examples are stored for each of the measuring space 10c for "height” and “height” and the measuring space 10d for the attributes "height", "age”, and "gender".
  • these weighing spaces 10a to 10d are evaluated using a plurality of cases of the existing class.
  • the evaluation data the evaluation data of the existing domain (source domain) for the existing class "police officer" and the minority data of the target domain, and the evaluation data of the existing domain for the existing class "pedestrian" are used.
  • the above evaluation data is recognized by referring to the cases of the respective measuring spaces 10a to 10d, and the result is compared with the teacher label prepared in advance to calculate the degree of agreement.
  • the weighing space having the highest degree of coincidence is selected as the optimum weighing space 10x.
  • the recognition accuracy in the target domain can be improved.
  • the image data of the target domain is recognized by using the discriminative model that defines the selected metric space.
  • FIG. 3 is a block diagram showing a hardware configuration of the object recognition device according to the first embodiment.
  • the object recognition device 100 includes an interface 102, a processor 103, a memory 104, a recording medium 105, a database (DB) 106, and a display unit 107.
  • DB database
  • Interface 102 inputs / outputs data to / from an external device. Specifically, image data used for learning and inference of the object recognition device 100 is input through the interface 102, and the recognition result by the object recognition device 100 is output to the external device through the interface 102.
  • the processor 103 is a computer such as a CPU (Central Processing Unit) or a CPU and a GPU (Graphics Processing Unit), and controls the entire object recognition device 100 by executing a program prepared in advance. Specifically, the processor 103 executes the learning process and the inference process described later.
  • a CPU Central Processing Unit
  • a CPU and a GPU Graphics Processing Unit
  • the memory 104 is composed of a ROM (Read Only Memory), a RAM (Random Access Memory), and the like.
  • the memory 104 stores a model for object recognition used by the object recognition device 100.
  • the memory 104 stores various programs executed by the processor 103.
  • the memory 104 is also used as a working memory during execution of various processes by the processor 103.
  • the recording medium 105 is a non-volatile, non-temporary recording medium such as a disk-shaped recording medium or a semiconductor memory, and is configured to be removable from the object recognition device 100.
  • the recording medium 105 records various programs executed by the processor 103. When the object recognition device 100 executes various processes, the program recorded on the recording medium 105 is loaded into the memory 104 and executed by the processor 103.
  • Database 106 stores image data input from the outside. Specifically, image data or the like used for learning of the object recognition device 100 is stored. In addition, the database 106 stores a case dictionary created by the learning process.
  • the display unit 107 is, for example, a liquid crystal display device, and displays the recognition result by the object recognition device 100, additional information related thereto, and the like.
  • the object recognition device 100 may be provided with input devices such as a keyboard and a mouse for the user to give instructions and inputs.
  • FIG. 4 is a block diagram showing a functional configuration of the object recognition device 100A for learning.
  • the object recognition device 100A includes a label selection unit 111, a measurement space learning unit 112, an image perturbation unit 113, a measurement calculation unit 114, a feature perturbation unit 115, and a case embedding unit 116.
  • Additional information 121, teacher label 122, and image data 123 are input to the object recognition device 100A as data for measurement learning.
  • the "data for metric learning” is data for learning the metric space.
  • the image data 123 is learning image data necessary for learning the metric space, and for example, the above-mentioned public image data set can be used.
  • the teacher label 122 is a teacher label associated with the image data 123, and is, for example, person attribute information or class information.
  • the attribute information includes age, gender, height, accessories, clothes, etc.
  • the class information includes personal ID, occupation (police officer, firefighter), and the like.
  • the additional information 121 is information that is added as additional information to assist in understanding the information when the image data 123 and the teacher label 122 are registered.
  • Examples of the additional information 121 include information such as the shooting time and the depression angle of the camera used for shooting, environmental information (temperature, latitude / longitude, indoor / outdoor), and the like. As will be described later, the image data 123 for metric learning and the teacher label 122 are also used for case registration as needed.
  • the teacher label 124, the image data 125, and the additional information 126 are input to the object recognition device 100A as the data for registering the case.
  • Data for case registration is data for creating a case dictionary.
  • the image data 125 is learning image data necessary for registering a case, and image data is prepared for each class to be identified.
  • the teacher label 124 is a teacher label associated with the image data 125, and is, for example, class information.
  • the additional information 126 is information that is added as additional information to assist in understanding the information when the image data 125 and the teacher label 124 are registered. Examples of the additional information 126 include information such as the shooting time and the depression angle of the camera used for shooting, environmental information (temperature, latitude / longitude, indoor / outdoor), and the like.
  • the label selection unit 111 selects a teacher label indicating an attribute or the like from the teacher label 122 when learning the weighing space.
  • the label selection unit 111 may randomly select a plurality of teacher labels, or select a plurality of teacher labels so that the teacher labels selected by using information entropy or the like become complementary information. You may.
  • the label selection unit 111 outputs a set of selected combinations of teacher labels to the metric space learning unit 112.
  • the metric space learning unit 112 learns the metric space based on the image data 123 for metric learning and the teacher label selected by the label selection unit 111. Specifically, the metric space learning unit 112 learns a metric space in which each class of teacher labels selected by the label selection unit 111 can be best identified. That is, as shown in FIG. 1, the metric space learning unit 112 learns the metric space so that the same classes gather close to each other and different classes are located apart from each other. Actually, in the discriminative model in which features are extracted from image data by convolution and identified, the feature vector obtained at the stage immediately before the final identification may be used as a metric.
  • a feature vector obtained in a fully connected layer in a CNN (Convolutional Neural Network) model such as VGG may be used.
  • the metric space learned in this way is output to the metric calculation unit 114 and the case embedding unit 116.
  • the parameters of the learned discriminative model are output as the metric space.
  • Image data 123 and additional information 121 for metric learning, and image data 125 and additional information 126 for case registration are input to the image perturbation unit 113.
  • the image data 123 for metric learning input to the image perturbation unit 113 is used for case registration.
  • the image perturbation unit 113 perturbs the image data 123 for metric learning and the image data 125 for case registration.
  • the image perturbation unit 113 gives a hostile perturbation to the original image by geometric deformation, image compression, addition of blur and noise, change of brightness, saturation, and the like. If the perturbation parameter can be estimated from the additional information, the image perturbation unit 113 may perturb the image only within the range of the parameter.
  • the image perturbation unit 113 may perform the geometric deformation within the range of the parameter.
  • Image perturbation can substantially increase the number of image data used for learning.
  • the perturbed image data is output to the measurement calculation unit 114.
  • the metric calculation unit 114 is given a metric space that has been learned from the metric space learning unit 112, and image data after perturbation is input from the image perturbation unit 113.
  • the metric calculation unit 114 calculates a feature vector corresponding to the metric from the image data after the perturbation. That is, the metric calculation unit 114 uses each image data perturbed as an example as an example, and calculates the position of each case in the metric space learned by the metric space learning unit 112. As a result, the image data 125 for case registration is arranged on the weighing space as shown in FIG.
  • the metric space learning unit 112 extracts a feature vector from each image data after perturbation by using an identification model showing the metric space learned by the metric space learning unit 112. The feature vector extracted from each image data after perturbation is output to the feature perturbation unit 115.
  • the feature perturbation unit 115 perturbs the feature vector of each image data obtained by the measurement calculation unit 114. That is, the feature perturbation unit 115 newly obtains a feature vector existing at the farthest distance in the measurement space within a certain range of changes on the image from the feature vector of each image data obtained by the measurement calculation unit 114. Generate as an example. As a result, a plurality of cases can be added around the cases arranged on the measurement space by the measurement calculation unit 114, and the area of each class in the measurement space can be expanded.
  • the feature perturbation unit 115 outputs the feature vector generated by the perturbation and the feature vector before perturbation, that is, the feature vector input from the metric calculation unit 114 to the case embedding unit 116.
  • the case embedding unit 116 embeds the feature vector input from the feature perturbation unit 115, that is, the feature vector before and after the feature perturbation in the metric space as an example. Specifically, the case embedding unit 116 associates the feature vector input from the feature perturbation unit 115 with the metric space as a case, and registers it in the case dictionary 127. At that time, the case embedding unit 116 also registers the teacher labels 122 and 124 and the additional information 121 and 126 in association with each case. Further, the case embedding unit 116 may register representative image data as image data corresponding to the case embedded in the measuring space.
  • a case dictionary 127 is created in which cases for the corresponding measuring spaces are registered for each combination of the plurality of labels (attributes).
  • the case dictionary 127 stores information defining a plurality of measuring spaces and cases embedded in each measuring space.
  • the "information defining the metric space” is actually a parameter of the learned discriminative model
  • the "case embedded in each metric space” is a feature vector in the metric space.
  • the case dictionary 127 is an example of the case storage unit of the present invention.
  • FIG. 5 is a flowchart of learning processing by the object recognition device 100A for learning. This process is performed by the processor 103 shown in FIG. 3 executing a program prepared in advance.
  • the label selection unit 111 selects a teacher label including attributes and classes (step S11).
  • the metric space learning unit 112 learns the metric space for the combination of labels selected in step S11 using the image data 123 for metric learning and the teacher label 122 (step S12).
  • the image perturbation unit 113 perturbs the image data 125 for case registration, and outputs the image data after the perturbation to the measurement calculation unit 114.
  • the metric calculation unit 114 calculates the feature vector of the image data after perturbation (step S14), and the feature perturbation unit 115 perturbs the calculated feature vector (step S15). In this way, a plurality of feature vectors can be obtained from the image data for registration by the perturbation of the image and the perturbation of the features.
  • the case embedding unit 116 creates a case dictionary 127 by storing the obtained feature vector as a case in association with the metric space (step S16). In this way, the learning process ends. As a result, cases are registered in the case dictionary 127 for the metric space for one combination of attributes.
  • the object recognition device 100A learns the metric space for another combination of attributes in the same manner, embeds a case, and registers it in the case dictionary 127.
  • the case dictionary 127 registers the cases arranged on the measuring space corresponding to the combination of a plurality of attributes.
  • FIG. 6 is a block diagram showing a functional configuration of the object recognition device 100B for inference.
  • the object recognition device 100B includes an image perturbation unit 131, a measurement calculation unit 132, a feature perturbation unit 133, a measurement space selection unit 134, an image perturbation unit 135, a measurement calculation unit 136, and a feature perturbation unit.
  • a unit 137, an identification unit 138, and a result output unit 139 are provided.
  • the object recognition device 100B uses image data 141 for dictionary selection, a teacher label 142 for dictionary selection, additional information 143 for dictionary selection, image data 145 for inference, and a case dictionary 127.
  • the case dictionary 127 is created by the above-mentioned learning process.
  • the image data 141 for dictionary selection is image data used for selecting a case dictionary 127 corresponding to an optimum measurement space from a case dictionary 127 for a plurality of measurement spaces prepared in advance, and is basic.
  • the properties are the same as the image data 123 for metric space learning described above.
  • the teacher label 142 for dictionary selection is a teacher label associated with the image data 141 for dictionary selection, and its basic properties are the same as those of the teacher label 122 for measurement space learning.
  • the additional information 143 for dictionary selection is additional information associated with the image data 141 for dictionary selection, and its basic properties are the same as those of the additional information 121 for metric space learning.
  • the image data for inference is the image data to be recognized by the object recognition device 100B.
  • the image perturbation units 131 and 135 are the same as the image perturbation unit 113 in the functional configuration for learning shown in FIG. 4, and the metric calculation units 132 and 136 are the same as the metric calculation unit 114 in the functional configuration for learning.
  • the feature perturbation units 133 and 137 are similar to the feature perturbation unit 115 in the functional configuration for learning.
  • the image perturbation unit 131, the measurement calculation unit 132, the feature perturbation unit 133, and the measurement space selection unit 134 are stored in the case dictionary 127 by using the image data 141 for dictionary selection, the teacher label 142, and the additional information 143. Performs a process of selecting the optimum weighing space from a plurality of weighing spaces. Specifically, the image perturbation unit 131 perturbs the image data 141 for dictionary selection. First, the metric calculation unit 132 acquires one metric space from a plurality of metric spaces stored in the case dictionary 127, and calculates a feature vector of image data after perturbation in the metric space.
  • the feature perturbation unit 133 perturbs the feature vector calculated by the metric calculation unit 132, and generates a feature vector after the perturbation. In this way, a plurality of feature vectors are calculated from the image data 141 for dictionary selection. This process increases the number of image data used to select the optimal weighing space.
  • the image perturbation unit 131, the measurement calculation unit 132, and the feature perturbation unit 133 perform the same processing on other measurement spaces and calculate the feature vector in those measurement spaces. In this way, a plurality of feature vectors are calculated for the plurality of metric spaces stored in the case dictionary 127 based on the image data 141 for dictionary selection.
  • the weighing space selection unit 134 selects the optimum weighing space from the feature vector calculated from the image data 141 for dictionary selection and the corresponding teacher label 142 and additional information 143.
  • the metric space selection unit 134 includes a teacher label, a feature vector on the metric space of image data 141 for dictionary selection, and a feature vector in a case embedded in the metric space stored in the case dictionary 127. Performance is evaluated for each metric space using techniques such as nearest neighbor recognition. That is, as shown in FIG. 2, the metric space selection unit 134 evaluates the performance of a plurality of metric spaces using the image data of the existing class, and selects the metric space having the highest performance.
  • the measurement space selection unit 134 uses the additional information 143 to narrow down the measurement space to be selected in advance, and then performs the above-mentioned performance.
  • the optimum weighing space may be selected by evaluation.
  • the above-mentioned performance evaluation and selection using additional information may be performed at the same time.
  • the metric space selected in this way is a metric space that enables the most accurate recognition of the attributes of the image data 141 for dictionary selection.
  • the measurement space selection unit 134 outputs the selected measurement space to the measurement calculation unit 136 and the identification unit 138.
  • the inference of the image data 145 for inference is performed using the metric space.
  • the image perturbation unit 135 perturbs the image data 145 for inference, and outputs the image data after the perturbation to the measurement calculation unit 136.
  • the metric calculation unit 136 calculates the feature vector of the image data after perturbation in the metric space selected by the metric space selection unit 134. Further, the feature perturbation unit 137 perturbs the feature vector calculated by the measurement calculation unit 136, and outputs the obtained plurality of feature vectors to the identification unit 138.
  • the identification unit 138 includes a teacher label, a plurality of feature vectors obtained from the image data 145 for inference, and a large number of cases stored in the case dictionary 127 for the metric space selected by the metric space selection unit 134. The nearest neighbor recognition is performed between them, and the class of the image data 145 for inference is identified. The identification result is supplied to the result output unit 139.
  • the result output unit 139 outputs, in addition to the class identification result by the identification unit 138, an image corresponding to a nearby case selected by the identification unit 138, a teacher label associated with the case, and additional information. Specifically, the result output unit 139 displays this information on the display unit 107 or the like shown in FIG. As a result, even if the recognition target included in the inference image data 145 is a new class, the user can use not only the identification result class but also the image, teacher label, additional information, etc. associated with the case close to the recognition target. Since you can see, it is possible to intuitively judge the validity of the recognition result.
  • FIG. 7 is a flowchart of inference processing by the object recognition device for inference. This process is performed by the processor 103 shown in FIG. 3 executing a program prepared in advance.
  • the image perturbation unit 131 perturbs the image data 141 for dictionary selection (step S21), and the metric calculation unit 132 calculates the feature vector of the perturbed image data for a plurality of metric spaces (step S22).
  • the feature perturbation unit 133 perturbs the obtained feature vector to generate a plurality of feature vectors (step S23).
  • the metric space selection unit 134 evaluates the performance using the plurality of feature vectors and the cases embedded in each metric space in the case dictionary 127, and selects the optimum metric space (step S24).
  • the image data 145 for inference is then identified.
  • the image perturbation unit 135 perturbs the image data 145 for inference (step S25), and the metric calculation unit 136 calculates the feature vector of the image data after perturbation for the metric space selected in step S24 (step S26).
  • the feature perturbation unit 137 perturbs the obtained feature vector to generate a plurality of feature vectors (step S27), and the identification unit 138 recognizes the nearest neighbor to the case in the selected metric space.
  • the class is identified by the method (step S28).
  • the result output unit 139 outputs the class identification result together with the image data of the case used for the identification, the teacher label, the additional information, and the like (step S29). In this way, the inference process ends.
  • FIG. 8 shows a display example of the recognition result by the above inference processing.
  • FIG. 8A shows a display example of the recognition result before adding the plastic tank as a new class.
  • Three objects 71 to 73 are recognized in the input image.
  • the object 71 is actually a person who possesses the poly tank, but since the poly tank is not registered as a recognition target class, the recognition result is "travel back".
  • the object 72 is a pedestrian, and the object 73 is a construction worker. Since these correspond to the existing class, the correct recognition result is output.
  • FIG. 8B shows an example of displaying the recognition result after adding the plastic tank as a new class by the method of the above embodiment. Due to the addition of a plastic tank as a new class, the object 71 is correctly recognized as a "poly tank". Further, since the representative image data of the new class "Polytank" is registered in the case dictionary, the image data 75 is also displayed. In this way, since auxiliary information such as a representative image is output to the recognition result, the user can intuitively judge the validity of the recognition result and the like.
  • the metric space selection unit 134 evaluates a plurality of metric spaces using the image data of the existing class as evaluation data, and selects the optimum metric space.
  • the metric space selection unit 134 may use a new class of image data as evaluation data. In this case, it is possible that the correct label (correct class) is not prepared for the image data of the new class, but even in that case, multiple cases of the new class are combined with the cases of other existing classes in the metric space.
  • a unit is formed at a distant position, it can be evaluated that the measuring space has appropriate performance.
  • the set of cases of the new class to be targeted is gathered in a narrower area on the metric space, and the one that is far from the set other than the new class may be selected as the case dictionary having the best characteristics. .. More specifically, for example, for each case in the new class, the ratio of the average value A of the distance between the case and another case in the new class and the average value B in the distance between the case and the case in the existing class. , And select the one with a small ratio.
  • the weighing space is learned using the person attribute data (incidental items, age, etc.) and the person class data (police officer, firefighter, etc.). Instead, the metric space is learned using only the person attribute data, and after re-learning (fine tuning) using the person class data with each metric space obtained as the initial value, the performance is evaluated and optimized. The weighing space may be selected.
  • the metric space is learned based on the person attribute data and the person class data.
  • the weight in the neural network may be shared by both the person attribute identification task and the person class identification task.
  • weights may be set for the loss function of the person attribute identification task and the loss function of the person class identification task for learning. For example, regarding the loss function of the person attribute identification task and the loss function of the person class identification task, the contribution (coefficient) of either loss function is increased in the first half of the optimization, and the contribution (coefficient) in the loss function in the second half of the optimization ( Coefficient) is reduced.
  • the person attribute data can also be diverted, it is effective when the data of the person class is small.
  • a public image data set or the like contains a large amount of person attribute data, but often has a small amount of person class data. Therefore, first, the weight of the person attribute identification task for the loss function is increased to start learning, and then the weight of the person class identification task for the loss function is increased to perform learning specialized for each person class. As a result, even in a situation where there is a large amount of person attribute data and there is little person class data, it is possible to effectively utilize the person class data and learn the metric space.
  • the image data is perturbed by the image perturbation unit, but the following method may be used as the image perturbation method.
  • a first method an image of a plurality of people is decomposed into partial areas such as body parts (head, torso, hands, feet, etc.), and these are pasted together to generate an image of the person.
  • Image processing such as ⁇ -blending is applied to the boundaries of body parts.
  • the second method first, the joint position of the body of the person included in the image data is detected by the key point detection.
  • geometric transformations such as affine transformation, Helmart transformation, homography transformation, and B-spline interpolation are used to normalize the positions of key points and generate an image in which the positions of joints are aligned. Then, by adding noise or the like, the position of the key point is slightly shifted to give perturbation.
  • the feature perturbation unit may generate micro-perturbation cases using hostile case generation. Specifically, when adding a minute noise to the input image, the case in which the distance between the case group in the same class as the class to which the target case belongs is the longest is adopted. That is, if the case obtained by applying minute noise to the input image is far from the existing case in the measuring space, it is adopted, and if it is close to the existing case, it is not adopted.
  • the image and the feature vector are perturbed in the learning of the metric space and the selection of the metric space, but when a sufficient amount of image data can be prepared, the perturbation of the image and the feature vector. You do not have to do.
  • FIG. 8A shows the configuration of the learning device 50 according to the second embodiment.
  • the learning device 50 includes a measuring space learning unit 51 and a case storage unit 52.
  • the metric space learning unit 51 learns a metric space including a feature vector extracted from the attributed image data for each combination of different attributes using the attributed image data to which the attribute information is added.
  • the case storage unit 52 calculates a feature vector from the case image data, stores it as a case associated with the metric space, and stores additional information related to the case. In this way, the metric space is learned for each combination of different attributes, and cases and additional information are stored in association with it.
  • FIG. 8B shows the configuration of the inference device according to the second embodiment.
  • the inference device 60 includes a case storage unit 61, a measurement space selection unit 62, an identification unit 63, and a result output unit 64.
  • the case storage unit 61 stores the feature vector of the case image data as a case in association with a plurality of metric spaces learned for each combination of different attributes, and stores additional information related to the case.
  • the metric space selection unit 62 acquires a plurality of metric spaces from the case storage unit 61, evaluates the plurality of metric spaces using the feature vectors of the selection image data, and selects one metric space.
  • the identification unit 63 identifies the inference image data based on the feature vector extracted from the inference image data and the case associated with one metric space.
  • the result output unit 64 outputs the identification result by the identification unit 63 together with additional information related to the case used for the identification.
  • the case stored in the case storage unit 61 can be used to identify the inference image data and output it together with additional information related to the case used for the identification.
  • a metric space learning unit that learns a metric space including a feature vector extracted from the attributed image data for each combination of different attributes using attributed image data to which attribute information is added.
  • a case storage unit that calculates a feature vector from case image data, stores it as a case associated with the measurement space, and stores additional information related to the case.
  • a learning device equipped with
  • Appendix 2 The learning device according to Appendix 1, wherein the additional information includes representative image data corresponding to the case.
  • Appendix 3 The learning device according to Appendix 2, wherein the additional information includes any of the teacher label, shooting conditions, and environmental information of the case image data.
  • a recording medium that records a program that calculates a feature vector from case image data, stores it as a case associated with the measurement space, and causes a computer to execute a process of storing additional information related to the case.
  • a case storage unit that stores the feature vector of the case image data as a case and stores additional information related to the case in association with the metric space learned for each combination of different attributes.
  • An identification unit that identifies the inference image data based on the feature vector extracted from the inference image data and the case associated with the metric space.
  • a result output unit that outputs the identification result by the identification unit together with additional information related to the case used for identification.
  • a metric space selection unit is provided which acquires a plurality of metric spaces from the case storage unit, evaluates the plurality of metric spaces using feature vectors of image data for selection, and selects one metric space.
  • the inference device according to Appendix 6, wherein the identification unit identifies the inference image data based on a feature vector extracted from the inference image data and a case associated with the one metric space.
  • the additional information includes representative image data corresponding to the case.
  • Appendix 9 The inference device according to any one of Appendix 6 to 8, wherein the additional information includes any of the teacher label, shooting conditions, and environmental information of the case image data.
  • the feature vector of the case image data is stored as a case in association with the metric space learned for each combination of different attributes, and the metric space is acquired from the case storage unit that stores additional information related to the case.
  • the inference image data is identified based on the feature vector extracted from the inference image data and the case associated with the metric space. An inference method that outputs the identification result together with additional information related to the case used for identification.
  • the feature vector of the case image data is stored as a case in association with the metric space learned for each combination of different attributes, and the metric space is acquired from the case storage unit that stores additional information related to the case.
  • the inference image data is identified based on the feature vector extracted from the inference image data and the case associated with the metric space.
  • a recording medium that records a program that causes a computer to execute a process that outputs the identification result together with additional information related to the case used for identification.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

学習装置は、計量空間学習部と、事例記憶部とを備える。計量空間学習部は、属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習する。事例記憶部は、事例用画像データから特徴ベクトルを算出し、計量空間に関連付けた事例として記憶するとともに、当該事例に関連する追加情報を記憶する。

Description

学習装置、学習方法、推論装置、推論方法、及び、記録媒体
 本発明は、画像に含まれる物体を認識する技術に関する。
 カメラ等の撮像装置で取得された画像中の対象物体を認識する物体認識技術が知られている。例えば、特許文献1及び非特許文献1には、ニューラルネットワークを用いて学習及び識別を行う物体認識技術が記載されている。
 上記の物体認識技術における学習では、識別対象として予め登録されたカテゴリ(登録カテゴリ)のいずれかに属する物体の画像が所定の識別モデルに入力され、属するカテゴリについての識別スコアが高くなるように、識別モデルの学習が行われる。識別モデルの学習後、カテゴリが未知である物体の画像が学習済みの識別モデルに入力された場合には、登録カテゴリそれぞれについての識別スコアが上記の識別モデルから出力される。また、非特許文献1には、識別スコアに対して所定の閾値を設け、識別スコアが上記閾値を下回る場合には、登録カテゴリの物体を検出できなかったとして識別結果をリジェクトする点についても記載されている。
国際公開 WO2008/126790号公報
Karen Simomyan,and Andrew Zisserman、"Very Deep Convolutional Networks for Large-Scale Image Recognition" ICLR,2015.
 しかし、上記の手法は、未登録カテゴリの識別対象をリジェクトするだけであり、識別することはできない。また、従来の識別手法は識別のみを行うため、識別結果の妥当性を直感的に解釈することが難しい。
 本発明の1つの目的は、様々な環境で取得された画像に対応し、未登録カテゴリの識別対象についても、認識結果の妥当性判断しやすい形態で認識結果を出力できるようにすることにある。
 本発明の一つの観点では、学習装置は、
 属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習する計量空間学習部と、
 事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶するとともに、当該事例に関連する追加情報を記憶する事例記憶部と、を備える。
 本発明の他の観点では、学習方法は、
 属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
 事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶するとともに、当該事例に関連する追加情報を記憶する。
 本発明のさらに他の観点では、記録媒体は、
 属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
 事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶するとともに、当該事例に関連する追加情報を記憶する処理をコンピュータに実行させるプログラムを記録する。
 本発明のさらに他の観点では、推論装置は、
 異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶するとともに、当該事例に関連する追加情報を記憶した事例記憶部と、
 推論用画像データから抽出された特徴ベクトルと、前記計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別する識別部と、
 前記識別部による識別結果を、識別に用いた事例に関連する追加情報とともに出力する結果出力部と、を備える。
 本発明のさらに他の観点では、推論方法は、
 異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶するとともに、当該事例に関連する追加情報を記憶した事例記憶部から計量空間を取得し、
 推論用画像データから抽出された特徴ベクトルと、前記計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、
 識別結果を、識別に用いた事例に関連する追加情報とともに出力する。
 本発明のさらに他の観点では、記録媒体は、
 異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶するとともに、当該事例に関連する追加情報を記憶した事例記憶部から計量空間を取得し、
 推論用画像データから抽出された特徴ベクトルと、前記計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、
 識別結果を、識別に用いた事例に関連する追加情報とともに出力する処理をコンピュータに実行させるプログラムを記録する。
 本発明によれば、様々な環境で取得された画像に対応し、未登録カテゴリの識別対象についても認識結果を出力することが可能となる。
認識対象について事例辞書を作成する方法を説明する図である。 最適な計量空間を選択する方法を説明する図である。 第1実施形態に係る物体認識装置のハードウェア構成を示すブロック図である。 学習のための物体認識装置の機能構成を示すブロック図である。 学習のための物体認識装置による学習処理のフローチャートである。 推論のための物体認識装置の機能構成を示すブロック図である。 推論のための物体認識装置による推論処理のフローチャートである。 物体認識結果の表示例を示す。 第2実施形態に係る学習装置及び推論装置の構成を示すブロック図である。
 以下、図面を参照して、本発明の好適な実施形態について説明する。
 [基本原理]
 まず、実施形態の物体認識方法の基本原理を説明する。本実施形態では、それまで認識対象としていたクラス(以下、「既存クラス」と呼ぶ。)に加えて、新たなクラス(以下、「新クラス」と呼ぶ。)を認識する必要が生じた場合に、新クラスに対応する事例を登録した事例データ(以下、「事例辞書」とも呼ぶ。)を作成し、事例辞書を参照して新クラスの対象を認識する。また、既存クラスの認識対象についても、新たな環境での認識精度の低下を防止するため、複数の計量空間を用意し、最適な計量空間を用いて認識を行う。
 (1)事例辞書の作成
 図1は、新クラスを含む認識対象について事例辞書を作成する方法を示す。いま、既存クラスとして「警察官」及び「歩行者」があり、新クラスとして「消防士」の認識を行いたいと仮定する。まず、属性情報などが付与された画像データを用いて、計量空間を学習する。具体的には、様々な人物の公開画像データセットなどを利用して、属性情報が付与された人物の画像データを取得する。なお、「属性情報」とは、画像データに写っている人物属性であり、例えば、その人物の年齢、性別、身長、付帯物(持ち物や身に着けている物など)が挙げられる。図1の例では、認識対象となる「警察官」、「歩行者」及び「消防士」について、様々な属性の画像データを取得する。
 そして、取得した画像データを用いて計量空間(距離空間)を学習する。図1は、ある人物属性に基づいて学習された計量空間10を示す。計量空間10は、画像データから抽出された特徴ベクトル(計量)により規定される空間であり、類似する画像データ同士は近い距離に位置し、類似しない画像データ同士は遠い距離に位置する性質を有するように学習される。具体的には、ある人物属性(例えば、帽子をかぶっている)を有する人物の公開画像データセットを取得し、それらについて特徴ベクトルを算出し、得られた特徴ベクトルに基づいて計量空間が学習される。なお、「計量空間を学習する」とは、実際には、ニューラルネットワークなどを用いた識別モデルを用意し、各画像データの入力に対して当該モデルが生成する特徴ベクトルが上記の性質を有するように、当該モデルを学習することを指す。また、学習により得られた計量空間は、学習済の識別モデルのパラメータにより規定されることになる。
 計量空間の学習が終了すると、次に、既存クラスの画像データから特徴ベクトルを生成し、計量空間10に事例として埋め込む。計量空間10では、類似する画像データ同士は近い距離に位置するので、図示のように、既存クラス「警察官」の画像データ同士はマーク11で示すように計量空間10上で近くに位置し、既存クラス「歩行者」の画像データ同士はマーク12で示すように計量空間10上で近くに位置する。一方、マーク11で示す「警察官」と、マーク12で示す「歩行者」は計量空間10上で離れて位置する。こうして、既存クラスの画像データを計量空間10に事例として埋め込む。なお、「事例として埋め込む」とは、実際には、その画像から抽出された特徴ベクトルを、その計量空間10と関連付けて記憶することを指す。
 次に、新クラスについても、同様に計量空間10上に事例を埋め込む。具体的には、新クラス「消防士」の画像データから特徴ベクトルを抽出し、計量空間10上に事例として埋め込む。これにより、新クラス「消防士」の画像データは、マーク13で示すように、計量空間10上で相互に近い位置に配置され、かつ、他のクラス「警察官」や「歩行者」から離れて配置される。こうして、計量空間10上では、同一クラスの事例同士は近くに位置し、異なるクラスの事例同士は離れて位置するようになる。
 こうして計量空間10上に事例が埋め込まれると、これらの事例を参照して、画像データのクラスを識別することができるようになる。例えば、図1に示すように、ある人物の画像データ15が入力された場合に、その画像データ15の特徴ベクトルを抽出して計量空間10上の位置を算出する。図1の例では、画像データ15の特徴ベクトルはクラス「消防士」の事例が集まっている領域に属するので、その画像データのクラスは「消防士」であると認識することができる。このように、認識対象として新クラスが追加された場合でも、既存クラス及び新クラスの事例を計量空間上に埋め込んで事例辞書を作成することにより、新クラスの認識が可能となる。
 なお、図1には、ある人物属性について学習された1つの計量空間を例示しているが、実際には、異なる人物属性の複数の組み合わせについて、それぞれ計量空間10を学習し、学習された計量空間10に事例を埋め込んで事例辞書を作成する。事例辞書には、複数の計量空間についての事例が登録される。
 (2)事例辞書を用いた推論
 さて、作成された事例辞書を利用して物体認識を行う際には、そのときの環境(ドメイン)に最も適した計量空間を選択し、その計量空間を用いて物体認識を行う。図2は、最適な計量空間を選択する方法を説明する図である。前述のように、事例辞書は、異なる人物属性の組み合わせに対応する複数の計量空間についての事例を含む。いま、事例辞書には、図2に示すように、属性「付帯物」及び「年齢」についての計量空間10aと、属性「付帯物」及び「性別」についての計量空間10bと、属性「付帯物」及び「身長」についての計量空間10cと、属性「身長」、「年齢」、「性別」についての計量空間10dのそれぞれについて事例が記憶されているものとする。
 ここで、最適な計量空間を選択するために、既存クラスの複数の事例を用いて、これらの計量空間10a~10dを評価する。図2の例では、評価用データとして、既存クラス「警察官」についての既存ドメイン(ソースドメイン)の評価用データ及びターゲットドメインの少数データと、既存クラス「歩行者」についての既存ドメインの評価用データ及びターゲットドメインの少数データを用意する。これらの評価用データには、クラス情報などの教師ラベルが用意されているものとする。上記の評価用データについて、各計量空間10a~10dの事例を参照して認識処理を行い、その結果を、予め用意されている教師ラベルと比較して一致度を算出する。そして、最も一致度の高い計量空間を、最適な計量空間10xとして選択する。このように、複数の計量空間から最適な計量空間を選択することにより、ターゲットドメインにおける認識精度を向上させることができる。なお、実際の処理としては、選択された計量空間を規定する識別モデルを用いて、ターゲットドメインの画像データの認識を行うことになる。
 [第1実施形態]
 次に、本発明の第1実施形態について説明する。
 (ハードウェア構成)
 図3は、第1実施形態に係る物体認識装置のハードウェア構成を示すブロック図である。図示のように、物体認識装置100は、インタフェース102と、プロセッサ103と、メモリ104と、記録媒体105と、データベース(DB)106と、表示部107と、を備える。
 インタフェース102は、外部装置との間でデータの入出力を行う。具体的に、物体認識装置100の学習や推論に用いられる画像データがインタフェース102を通じて入力され、物体認識装置100による認識結果がインタフェース102を通じて外部装置へ出力される。
 プロセッサ103は、CPU(Central Processing Unit)、又はCPUとGPU(Graphics Processing Uit)などのコンピュータであり、予め用意されたプログラムを実行することにより、物体認識装置100の全体を制御する。具体的に、プロセッサ103は、後述する学習処理及び推論処理を実行する。
 メモリ104は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ104は、物体認識装置100が使用する物体認識のためのモデルを記憶する。メモリ104は、プロセッサ103により実行される各種のプログラムを記憶する。また、メモリ104は、プロセッサ103による各種の処理の実行中に作業メモリとしても使用される。
 記録媒体105は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、物体認識装置100に対して着脱可能に構成される。記録媒体105は、プロセッサ103が実行する各種のプログラムを記録している。物体認識装置100が各種の処理を実行する際には、記録媒体105に記録されているプログラムがメモリ104にロードされ、プロセッサ103により実行される。
 データベース106は、外部から入力される画像データを記憶する。具体的には、物体認識装置100の学習に使用される画像データなどが記憶される。また、データベース106は、学習処理により作成された事例辞書を格納する。表示部107は、例えば液晶表示装置などであり、物体認識装置100による認識結果や、それに関連する付加情報などを表示する。なお、上記に加えて、物体認識装置100は、ユーザが指示や入力を行うためのキーボード、マウスなどの入力機器を備えていても良い。
 (学習のための機能構成)
 次に、物体認識装置100の学習のための機能構成について説明する。図4は、学習のための物体認識装置100Aの機能構成を示すブロック図である。図示のように、物体認識装置100Aは、ラベル選択部111と、計量空間学習部112と、画像摂動部113と、計量算出部114と、特徴摂動部115と、事例埋め込み部116とを備える。
 物体認識装置100Aには、計量学習用のデータとして、付加情報121と、教師ラベル122と、画像データ123とが入力される。なお、「計量学習用のデータ」とは、計量空間を学習するためのデータである。画像データ123は、計量空間を学習するために必要な学習用の画像データであり、例えば前述の公開画像データセットなどを使用することができる。教師ラベル122は、画像データ123に紐づく教師ラベルであり、例えば、人物の属性情報やクラス情報などである。ここで、属性情報としては、年齢、性別、身長、付帯物、服装などが挙げられ、クラス情報としては、個人ID、職業(警察官、消防士)などが挙げられる。付加情報121は、画像データ123と教師ラベル122を登録する際に、その情報の理解を助けるために追加情報として付加される情報である。付加情報121の例としては、撮影時刻、撮影に用いるカメラの俯角などの情報、環境情報(気温、緯度・経度、屋内/屋外)などが挙げられる。なお、後述するように、計量学習用の画像データ123及び教師ラベル122は、必要に応じて事例登録用にも使用される。
 また、物体認識装置100Aには、事例登録用のデータとして、教師ラベル124と、画像データ125と、付加情報126とが入力される。「事例登録用のデータ」とは、事例辞書を作成するためのデータである。画像データ125は、事例を登録するために必要な学習用の画像データであり、識別したいクラス毎に画像データが用意される。教師ラベル124は、画像データ125に紐づく教師ラベルであり、例えばクラス情報などである。付加情報126は、画像データ125と教師ラベル124を登録する際に、それらの情報の理解を助けるために追加の情報として付加される情報である。付加情報126の例としては、撮影時刻、撮影に用いるカメラの俯角などの情報、環境情報(気温、緯度・経度、屋内/屋外)などが挙げられる。
 ラベル選択部111は、計量空間を学習する際に、教師ラベル122から、属性などを示す教師ラベルを選択する。ラベル選択部111は、選択方法としては、ランダムに複数の教師ラベルを選択してもよいし、情報エントロピーなどを用いて選んだ教師ラベルが相補的な情報となるように複数の教師ラベルを選択してもよい。ラベル選択部111は、選んだ教師ラベルの組み合わせの集合を計量空間学習部112に出力する。
 計量空間学習部112は、計量学習用の画像データ123と、ラベル選択部111で選択された教師ラベルとに基づいて計量空間を学習する。具体的には、計量空間学習部112は、ラベル選択部111で選択された教師ラベルの各クラスが最も良く識別できるような距離空間を学習する。即ち、計量空間学習部112は、図1に示したように、同一クラス同士が近くに集まり、異なるクラスが離れて位置するように計量空間を学習する。実際には、画像データから畳み込みにより特徴を抽出して識別を行う識別モデルにおいて、最終的な識別を行う直前の段階で得られる特徴ベクトルを計量として用いればよい。例えば、VGGなどのCNN(Convolutional Neural Network)のモデルにおける全結合層で得られる特徴ベクトルを用いればよい。こうして学習された計量空間は、計量算出部114と事例埋め込み部116に出力される。なお、実際には、計量空間として、学習された識別モデルのパラメータが出力される。
 画像摂動部113には、計量学習用の画像データ123及び付加情報121、並びに、事例登録用の画像データ125及び付加情報126が入力される。なお、ここでは、画像摂動部113に入力された計量学習用の画像データ123は、事例登録用として使用されている。画像摂動部113は、計量学習用の画像データ123や事例登録用の画像データ125を摂動させる。具体的には、画像摂動部113は、元の画像に対して、幾何変形、画像圧縮、ボケやノイズの付与、明度や彩度などの変更などにより、敵対的摂動を与える。なお、付加情報により、摂動のパラメータが推定できる場合には、画像摂動部113はそのパラメータの範囲内でのみ画像を摂動させればよい。例えば、付加情報に含まれるカメラの俯角から幾何変形のパラメータが推定できる場合には、画像摂動部113は、そのパラメータの範囲内で幾何変形を行えばよい。画像摂動により、学習に使用する画像データ数を実質的に増加させることができる。摂動された画像データは、計量算出部114に出力される。
 計量算出部114には、計量空間学習部112から学習済みの計量空間が与えられ、画像摂動部113から摂動後の画像データが入力される。計量算出部114は、摂動後の画像データから、計量に相当する特徴ベクトルを算出する。即ち、計量算出部114は、画像摂動された各画像データを事例とし、計量空間学習部112が学習した計量空間上における各事例の位置を算出する。これにより、事例登録用の画像データ125が、図1に示すように計量空間上に配置される。実際には、計量空間学習部112は、計量空間学習部112が学習した計量空間を示す識別モデルを用いて、摂動後の各画像データから特徴ベクトルを抽出する。摂動後の各画像データから抽出された特徴ベクトルは特徴摂動部115に出力される。
 特徴摂動部115は、計量算出部114で得られた各画像データの特徴ベクトルを摂動させる。即ち、特徴摂動部115は、計量算出部114で得られた各画像データの特徴ベクトルから、画像上での変化が一定の範囲内において、計量空間上で最も遠い距離に存在する特徴ベクトルを新たな事例として生成する。これにより、計量算出部114が計量空間上に配置した事例の周辺に複数の事例を追加し、計量空間における各クラスの領域を広げることができる。特徴摂動部115は、摂動により生成した特徴ベクトルと、摂動を施す前の特徴ベクトル、即ち、計量算出部114から入力された特徴ベクトルとを事例埋め込み部116に出力する。
 事例埋め込み部116は、特徴摂動部115から入力された特徴ベクトル、即ち、特徴摂動の前後の特徴ベクトルを事例として計量空間に埋め込む。具体的には、事例埋め込み部116は、特徴摂動部115から入力された特徴ベクトルを事例として計量空間に関連付け、事例辞書127に登録する。その際、事例埋め込み部116は、各事例に紐づけて、教師ラベル122、124と、付加情報121、126も登録する。さらに、事例埋め込み部116は、計量空間に埋め込まれる事例に対応する画像データとして、代表的な画像データを登録してもよい。こうして、複数のラベル(属性)の組み合わせ毎に、対応する計量空間についての事例を登録した事例辞書127が作成される。具体的には、事例辞書127には、複数の計量空間を規定する情報と、各計量空間に埋め込まれた事例とが記憶される。ここで、「計量空間を規定する情報」とは、実際には学習された識別モデルのパラメータであり、「各計量空間に埋め込まれた事例」とは、その計量空間における特徴ベクトルである。なお、事例辞書127は本発明の事例記憶部の一例である。
 (学習処理)
 次に、上記の学習処理の流れを説明する。図5は、学習のための物体認識装置100Aによる学習処理のフローチャートである。この処理は、図3に示すプロセッサ103が、予め用意されたプログラムを実行することにより実施される。
 まず、ラベル選択部111は、属性やクラスを含む教師ラベルを選択する(ステップS11)。計量空間学習部112は、計量学習用の画像データ123及び教師ラベル122を用いて、ステップS11で選択されたラベルの組み合わせについて計量空間を学習する(ステップS12)。
 次に、画像摂動部113は、事例登録用の画像データ125を摂動し、摂動後の画像データを計量算出部114に出力する。計量算出部114は、摂動後の画像データの特徴ベクトルを算出し(ステップS14)、特徴摂動部115は、算出された特徴ベクトルを摂動する(ステップS15)。こうして、画像の摂動及び特徴の摂動により、登録用画像データから複数の特徴ベクトルが得られる。事例埋め込み部116は、得られた特徴ベクトルを事例として計量空間に関連付けて記憶することにより、事例辞書127を作成する(ステップS16)。こうして、学習処理は終了する。これにより、属性の1つの組み合わせに対する計量空間について、事例が事例辞書127に登録される。
 物体認識装置100Aは、ラベル選択部111が選択するラベルを変えることにより、別の属性の組み合わせについても同様に計量空間を学習し、事例を埋め込んで事例辞書127に登録する。こうして、図2に例示するように、事例辞書127には、複数の属性の組み合わせに対応する計量空間上に配置した事例が登録される。
 (推論のための機能構成)
 次に、物体認識装置100の推論のための機能構成について説明する。図6は、推論のための物体認識装置100Bの機能構成を示すブロック図である。図示のように、物体認識装置100Bは、画像摂動部131と、計量算出部132と、特徴摂動部133と、計量空間選択部134と、画像摂動部135と、計量算出部136と、特徴摂動部137と、識別部138と、結果出力部139とを備える。
 物体認識装置100Bは、辞書選択用の画像データ141と、辞書選択用の教師ラベル142と、辞書選択用の付加情報143と、推論用の画像データ145と、事例辞書127とを使用する。事例辞書127は、上述の学習処理により作成されたものである。
 辞書選択用の画像データ141は、予め用意された複数の計量空間についての事例辞書127から、最適な計量空間に対応する事例辞書127を選択するために使用される画像データであり、基本的な性質は前述した計量空間学習用の画像データ123と同様である。辞書選択用の教師ラベル142は、辞書選択用の画像データ141に紐づく教師ラベルであり、基本的な性質は計量空間学習用の教師ラベル122と同様である。辞書選択用の付加情報143は、辞書選択用の画像データ141に紐づく付加情報であり、基本的な性質は計量空間学習用の付加情報121と同様である。推論用の画像データは、物体認識装置100Bによる認識の対象となる画像データである。
 また、画像摂動部131及び135は、図4に示す学習のための機能構成における画像摂動部113と同様であり、計量算出部132及び136は学習のための機能構成における計量算出部114と同様であり、特徴摂動部133及び137は学習のための機能構成における特徴摂動部115と同様である。
 図6において、画像摂動部131、計量算出部132、特徴摂動部133及び計量空間選択部134は、辞書選択用の画像データ141、教師ラベル142及び付加情報143を用いて、事例辞書127に蓄えられている複数の計量空間から最適な計量空間を選択する処理を行う。具体的に、画像摂動部131は、辞書選択用の画像データ141を摂動する。計量算出部132は、まず、事例辞書127に蓄えられている複数の計量空間から、1つの計量空間を取得し、その計量空間における摂動後の画像データの特徴ベクトルを算出する。次に、特徴摂動部133は、計量算出部132により算出された特徴ベクトルを摂動し、摂動後の特徴ベクトルを生成する。こうして、辞書選択用の画像データ141から、複数の特徴ベクトルが算出される。この処理により、最適な計量空間を選択するために使用する画像データ数を増加させている。
 画像摂動部131、計量算出部132及び特徴摂動部133は、他の計量空間についても同様の処理を行い、それらの計量空間における特徴ベクトルを算出する。こうして、事例辞書127に記憶されている複数の計量空間について、辞書選択用の画像データ141に基づいて複数の特徴ベクトルが算出される。
 計量空間選択部134は、辞書選択用の画像データ141から算出された特徴ベクトルと、それに対応する教師ラベル142及び付加情報143とから最適な計量空間を選択する。具体的には、計量空間選択部134は、教師ラベルと、辞書選択用の画像データ141の計量空間上の特徴ベクトルと、事例辞書127に記憶されている計量空間に埋め込まれた事例における特徴ベクトルとの間で、最近傍認識などの手法を用いて、計量空間ごとに性能評価を行う。即ち、計量空間選択部134は、図2に示したように、既存クラスの画像データを用いて複数の計量空間の性能を評価し、最も性能が高い計量空間を選択する。
 さらに、辞書選択用の付加情報143から選択すべき計量空間を限定できる場合には、計量空間選択部134は、付加情報143を用いて選択すべき計量空間を予め絞った後で、上述の性能評価により最適な計量空間を選択すればよい。もしくは、上述の性能評価と、付加情報を用いた選択を同時に行ってもよい。こうして選択された計量空間は、辞書選択用の画像データ141の属性に対して最も高精度な認識を可能とする計量空間となる。計量空間選択部134は、選択した計量空間を計量算出部136及び識別部138に出力する。
 最適な計量空間が選択されると、その計量空間を用いて推論用の画像データ145の推論が行われる。画像摂動部135は、推論用の画像データ145を摂動し、摂動後の画像データを計量算出部136に出力する。計量算出部136は、計量空間選択部134が選択した計量空間における、摂動後の画像データの特徴ベクトルを算出する。さらに、特徴摂動部137は、計量算出部136が算出した特徴ベクトルを摂動し、得られた複数の特徴ベクトルを識別部138に出力する。
 識別部138は、教師ラベルと、推論用の画像データ145から得られた複数の特徴ベクトルと、計量空間選択部134により選択された計量空間について事例辞書127に記憶されている多数の事例との間で最近傍認識などを行い、推論用の画像データ145のクラスを識別する。識別結果は結果出力部139に供給される。
 結果出力部139は、識別部138によるクラスの識別結果に加えて、識別部138により選択された近傍の事例に対応する画像と、その事例に紐づく教師ラベル及び付加情報とを出力する。具体的には、結果出力部139は、これらの情報を図3に示す表示部107などに表示する。これにより、推論用の画像データ145に含まれる認識対象が新クラスであったとしても、ユーザは識別結果のクラスのみならず、その認識対象と近い事例に紐づく画像、教師ラベル、付加情報などを見ることができるので、認識結果の妥当性などを直感的に判断することが可能となる。
 (推論処理)
 次に、推論のための物体認識装置100Bによる推論処理について説明する。図7は、推論のための物体認識装置による推論処理のフローチャートである。この処理は、図3に示すプロセッサ103が予め用意されたプログラムを実行することにより実施される。
 まず、画像摂動部131が辞書選択用の画像データ141を摂動し(ステップS21)、計量算出部132は複数の計量空間について摂動後の画像データの特徴ベクトルを算出する(ステップS22)。次に、特徴摂動部133が、得られた特徴ベクトルを摂動して複数の特徴ベクトルを生成する(ステップS23)。そして、計量空間選択部134は、複数の特徴ベクトルと、事例辞書127において各計量空間上に埋め込まれている事例とを用いて性能評価を行い、最適な計量空間を選択する(ステップS24)。
 こうして最適な計量空間が選択されると、次に、推論用の画像データ145に対する識別が行われる。画像摂動部135は推論用の画像データ145を摂動し(ステップS25)、計量算出部136は、ステップS24で選択された計量空間について摂動後の画像データの特徴ベクトルを算出する(ステップS26)。次に、特徴摂動部137が、得られた特徴ベクトルを摂動して複数の特徴ベクトルを生成し(ステップS27)、識別部138は選択された計量空間における事例との間で最近傍認識などの手法によりクラスを識別する(ステップS28)。そして、結果出力部139は、クラスの識別結果を、その識別に使用した事例の画像データ、教師ラベル、付加情報などとともに出力する(ステップS29)。こうして、推論処理は終了する。
 (識別結果の表示例)
 図8は、上記の推論処理による認識結果の表示例を示す。図8(A)は、新クラスとしてポリタンクを追加する前の認識結果の表示例を示す。入力画像において3つの物体71~73が認識されている。物体71は実際にはポリタンクを所持する人物であるが、認識対象クラスとしてポリタンクが登録されていないため、認識結果は「旅行バック」となっている。物体72は歩行者、物体73は建設作業員であり、これらは既存クラスに該当するため、正しい認識結果が出力されている。
 図8(B)は、上記の実施形態の方法により、新クラスとしてポリタンクを追加した後の認識結果の表示例を示す。新クラスとしてポリタンクが追加されているため、物体71は「ポリタンク」と正しく認識されている。また、事例辞書に新クラス「ポリタンク」の代表的な画像データが登録されているため、その画像データ75が一緒に表示されている。このように、認識結果に対して、代表的な画像などの補助的情報が出力されるため、ユーザは認識結果の妥当性などを直感的に判断することが可能となる。
 (変形例)
(1)上記の推論処理では、計量空間選択部134は、既存クラスの画像データを評価用データとして用いて複数の計量空間を評価し、最適な計量空間を選択している。これに加えて、計量空間選択部134は、新クラスの画像データを評価用データとして使用してもよい。この場合、新クラスの画像データについては正解ラベル(正解クラス)が用意されていないことが考えられるが、その場合でも、新クラスの複数の事例が、計量空間上で他の既存クラスの事例と離れた位置でまとまりを形成しているような場合には、その計量空間が適切な性能を有していると評価することができる。よって、対象となる新クラスの事例の集合が計量空間上でより狭い領域に集まっており、さらに新クラス以外の集合との距離が遠いものを、最良の特徴を持つ事例辞書として選択すればよい。より具体的には、例えば、新クラスの各事例毎に、当該事例と新クラスの他の事例との距離の平均値Aと、当該事例と既存クラスの事例との距離の平均値Bの比を求め、この比が小さいものを選択すればよい。
(2)上記の実施形態では、人物属性データ(付帯物、年齢など)と、人物クラスデータ(警察官、消防士など)を用いて計量空間を学習している。その代わりに、人物属性データのみを用いて計量空間を学習し、得られた各計量空間を初期値として、人物クラスデータを用いて再学習(ファインンチューニング)した後、性能評価して最適な計量空間を選択するようにしてもよい。
 (3)上記の実施形態では、人物属性データと人物クラスデータに基づいて計量空間を学習している。その際に、ニューラルネットワークにおける重みを、人物属性識別タスクと人物クラス識別タスクの両方で共有してもよい。具体的に、最適化(計量空間の学習)を行う際に、人物属性識別タスクの損失関数と人物クラス識別タスクの損失関数について重みを設定して学習を行うようにしてもよい。例えば、人物属性識別タスクの損失関数と人物クラス識別タスクの損失関数について、最適化の前半ではどちらか一方の損失関数の寄与(係数)を大きくし、最適化の後半ではその損失関数における寄与(係数)を小さくする。これにより、人物属性の識別が可能で、人物クラスの識別も可能なモデルを獲得できるため、より高性能な識別が期待できる。
 さらに、人物属性データも流用できるため、人物クラスのデータが少ない場合に有効である。一般的に、公開画像データセットなどは、多数の人物属性データを含んでいるが、人物クラスデータは少ない場合が多い。そこで、最初は人物属性識別タスクの損失関数に対する重みを大きくして学習を開始し、その後に人物クラス識別タスクの損失関数に対する重みを大きくして各人物クラスに特化する学習を行う。これにより、人物属性データが多数あり、人物クラスデータが少ないという状況でも、人物クラスデータを有効活用して計量空間の学習が可能となる。
 (4)上記の実施形態では、画像摂動部により画像データを摂動させているが、画像摂動の方法としては以下の方法を使用してもよい。第1の方法としては、複数の人物の画像をそれぞれ身体のパーツ(頭、胴体、手、足など)などの部分的な領域に分解し、これらを貼り合わせて人物の画像を生成する。なお、身体のパーツの境界部にはαブレンディングなどの画像処理を施す。第2の方法としては、まず、キーポイント検出により、画像データに含まれる人物の身体の関節位置を検出する。次に、アフィン変換、ヘルマート変換、ホモグラフィ変換、B-スプライン補間などの幾何変換を用いて、キーポイントの位置を正規化し、関節の位置を揃えた画像を生成する。そして、ノイズの付与などにより、キーポイントの位置を微小にずらして、摂動を与える。
 また、特徴摂動部は、敵対的事例生成を用いて微小摂動事例を生成してもよい。具体的には、入力画像に対して微小のノイズを加える際に、対象となる事例が属するクラスと同じクラスの事例群との距離が最も離れている事例を採用する。即ち、入力画像に対して微小ノイズを付与することにより得られる事例が、計量空間上で既存の事例と遠ければ採用し、既存の事例に近ければ不採用とする。
 (5)上記の実施形態では、計量空間の学習及び計量空間の選択において、画像及び特徴ベクトルを摂動させているが、十分な量の画像データが用意できる場合には、画像及び特徴ベクトルの摂動を行わなくてもよい。
 [第2実施形態]
 次に、本発明の第2実施形態について説明する。図8(A)は、第2実施形態に係る学習装置50の構成を示す。学習装置50は、計量空間学習部51と、事例記憶部52とを備える。計量空間学習部51は、属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習する。事例記憶部52は、事例用画像データから特徴ベクトルを算出し、計量空間に関連付けた事例として記憶するとともに、当該事例に関連する追加情報を記憶する。こうして、異なる属性の組み合わせ毎に計量空間が学習され、それに関連付けて事例と追加情報が記憶される。
 図8(B)は、第2実施形態に係る推論装置の構成を示す。推論装置60は、事例記憶部61と、計量空間選択部62と、識別部63と、結果出力部64とを備える。事例記憶部61は、異なる属性の組み合わせ毎に学習された複数の計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶するとともに、当該事例に関連する追加情報を記憶している。計量空間選択部62は、事例記憶部61から複数の計量空間を取得し、選択用画像データの特徴ベクトルを用いて複数の計量空間を評価して、一の計量空間を選択する。識別部63は、推論用画像データから抽出された特徴ベクトルと、一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別する。結果出力部64は、識別部63による識別結果を、識別に用いた事例に関連する追加情報とともに出力する。こうして、事例記憶部61に記憶されている事例を用いて、推論用画像データを識別し、識別に用いた事例に関連する追加情報とともに出力することができる。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習する計量空間学習部と、
 事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶するとともに、当該事例に関連する追加情報を記憶する事例記憶部と、
 を備える学習装置。
 (付記2)
 前記追加情報は、前記事例に対応する代表的な画像データを含む付記1に記載の学習装置。
 (付記3)
 前記追加情報は、前記事例用画像データの教師ラベル、撮影条件、環境情報のいずれかを含む付記2に記載の学習装置。
 (付記4)
 属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
 事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶するとともに、当該事例に関連する追加情報を記憶する学習方法。
 (付記5)
 属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
 事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶するとともに、当該事例に関連する追加情報を記憶する処理をコンピュータに実行させるプログラムを記録した記録媒体。
 (付記6)
 異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶するとともに、当該事例に関連する追加情報を記憶した事例記憶部と、
 推論用画像データから抽出された特徴ベクトルと、前記計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別する識別部と、
 前記識別部による識別結果を、識別に用いた事例に関連する追加情報とともに出力する結果出力部と、
 を備える推論装置。
 (付記7)
 前記事例記憶部から複数の計量空間を取得し、選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択する計量空間選択部を備え、
 前記識別部は、推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別する付記6に記載の推論装置。
 (付記8)
 前記追加情報は、前記事例に対応する代表的な画像データを含み、
 前記結果出力部は、前記識別結果と、前記代表的な画像データとを表示装置に表示する付記6又は7に記載の推論装置。
 (付記9)
 前記追加情報は、前記事例用画像データの教師ラベル、撮影条件、環境情報のいずれかを含む付記6乃至8のいずれか一項に記載の推論装置。
 (付記10)
 異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶するとともに、当該事例に関連する追加情報を記憶した事例記憶部から計量空間を取得し、
 推論用画像データから抽出された特徴ベクトルと、前記計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、
 識別結果を、識別に用いた事例に関連する追加情報とともに出力する推論方法。
 (付記11)
 異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶するとともに、当該事例に関連する追加情報を記憶した事例記憶部から計量空間を取得し、
 推論用画像データから抽出された特徴ベクトルと、前記計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、
 識別結果を、識別に用いた事例に関連する追加情報とともに出力する処理をコンピュータに実行させるプログラムを記録した記録媒体。
 以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 10 計量空間
 100 物体認識装置
 103 プロセッサ
 111 ラベル選択部
 112 計量空間学習部
 113、131、135 画像摂動部
 114、132、136 計量算出部
 115、133、137 特徴摂動部
 116 事例埋め込み部
 127 事例辞書
 170 端末装置
 138 識別部
 129 結果出力部

Claims (11)

  1.  属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習する計量空間学習部と、
     事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶するとともに、当該事例に関連する追加情報を記憶する事例記憶部と、
     を備える学習装置。
  2.  前記追加情報は、前記事例に対応する代表的な画像データを含む請求項1に記載の学習装置。
  3.  前記追加情報は、前記事例用画像データの教師ラベル、撮影条件、環境情報のいずれかを含む請求項2に記載の学習装置。
  4.  属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
     事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶するとともに、当該事例に関連する追加情報を記憶する学習方法。
  5.  属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
     事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶するとともに、当該事例に関連する追加情報を記憶する処理をコンピュータに実行させるプログラムを記録した記録媒体。
  6.  異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶するとともに、当該事例に関連する追加情報を記憶した事例記憶部と、
     推論用画像データから抽出された特徴ベクトルと、前記計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別する識別部と、
     前記識別部による識別結果を、識別に用いた事例に関連する追加情報とともに出力する結果出力部と、
     を備える推論装置。
  7.  前記事例記憶部から複数の計量空間を取得し、選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択する計量空間選択部を備え、
     前記識別部は、推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別する請求項6に記載の推論装置。
  8.  前記追加情報は、前記事例に対応する代表的な画像データを含み、
     前記結果出力部は、前記識別結果と、前記代表的な画像データとを表示装置に表示する請求項6又は7に記載の推論装置。
  9.  前記追加情報は、前記事例用画像データの教師ラベル、撮影条件、環境情報のいずれかを含む請求項6乃至8のいずれか一項に記載の推論装置。
  10.  異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶するとともに、当該事例に関連する追加情報を記憶した事例記憶部から計量空間を取得し、
     推論用画像データから抽出された特徴ベクトルと、前記計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、
     識別結果を、識別に用いた事例に関連する追加情報とともに出力する推論方法。
  11.  異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶するとともに、当該事例に関連する追加情報を記憶した事例記憶部から計量空間を取得し、
     推論用画像データから抽出された特徴ベクトルと、前記計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、
     識別結果を、識別に用いた事例に関連する追加情報とともに出力する処理をコンピュータに実行させるプログラムを記録した記録媒体。
PCT/JP2019/041632 2019-10-24 2019-10-24 学習装置、学習方法、推論装置、推論方法、及び、記録媒体 WO2021079451A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021553221A JP7351344B2 (ja) 2019-10-24 2019-10-24 学習装置、学習方法、推論装置、推論方法、及び、プログラム
PCT/JP2019/041632 WO2021079451A1 (ja) 2019-10-24 2019-10-24 学習装置、学習方法、推論装置、推論方法、及び、記録媒体
US17/768,597 US20240112447A1 (en) 2019-10-24 2019-10-24 Learning device, learning method, inference device, inference method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/041632 WO2021079451A1 (ja) 2019-10-24 2019-10-24 学習装置、学習方法、推論装置、推論方法、及び、記録媒体

Publications (1)

Publication Number Publication Date
WO2021079451A1 true WO2021079451A1 (ja) 2021-04-29

Family

ID=75620641

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/041632 WO2021079451A1 (ja) 2019-10-24 2019-10-24 学習装置、学習方法、推論装置、推論方法、及び、記録媒体

Country Status (3)

Country Link
US (1) US20240112447A1 (ja)
JP (1) JP7351344B2 (ja)
WO (1) WO2021079451A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023042318A1 (ja) * 2021-09-15 2023-03-23 富士通株式会社 情報処理プログラム、情報処理方法、および情報処理装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012027617A (ja) * 2010-07-21 2012-02-09 Canon Inc パターン識別装置、パターン識別方法及びプログラム
WO2018116921A1 (ja) * 2016-12-21 2018-06-28 日本電気株式会社 辞書学習装置、辞書学習方法、データ認識方法およびプログラム記憶媒体
JP2019030584A (ja) * 2017-08-09 2019-02-28 キヤノン株式会社 画像処理システム、装置、方法およびプログラム
JP2019061494A (ja) * 2017-09-26 2019-04-18 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012027617A (ja) * 2010-07-21 2012-02-09 Canon Inc パターン識別装置、パターン識別方法及びプログラム
WO2018116921A1 (ja) * 2016-12-21 2018-06-28 日本電気株式会社 辞書学習装置、辞書学習方法、データ認識方法およびプログラム記憶媒体
JP2019030584A (ja) * 2017-08-09 2019-02-28 キヤノン株式会社 画像処理システム、装置、方法およびプログラム
JP2019061494A (ja) * 2017-09-26 2019-04-18 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023042318A1 (ja) * 2021-09-15 2023-03-23 富士通株式会社 情報処理プログラム、情報処理方法、および情報処理装置

Also Published As

Publication number Publication date
JPWO2021079451A1 (ja) 2021-04-29
US20240112447A1 (en) 2024-04-04
JP7351344B2 (ja) 2023-09-27

Similar Documents

Publication Publication Date Title
CN110348319B (zh) 一种基于人脸深度信息和边缘图像融合的人脸防伪方法
EP3267368B1 (en) Machine learning image processing
Arietta et al. City forensics: Using visual elements to predict non-visual city attributes
US8655020B2 (en) Method of tracking an object captured by a camera system
Sun et al. Understanding architecture age and style through deep learning
CN110414550B (zh) 人脸识别模型的训练方法、装置、系统和计算机可读介质
KR102312413B1 (ko) 인공 신경망 기반의 공간 인테리어 큐레이팅 시스템 및 그 방법
CN110222780A (zh) 物体检测方法、装置、设备和存储介质
KR20200075114A (ko) 이미지와 텍스트간 유사도 매칭 시스템 및 방법
US20220165095A1 (en) Person verification device and method and non-transitory computer readable media
CN103150546A (zh) 视频人脸识别方法和装置
JP7327077B2 (ja) 路上障害物検知装置、路上障害物検知方法、及び路上障害物検知プログラム
US20120093395A1 (en) Method and system for hierarchically matching images of buildings, and computer-readable recording medium
CN103605979A (zh) 一种基于形状片段的物体识别方法及系统
CN108280481A (zh) 一种基于残差网络的联合目标分类和三维姿态估计方法
Viraktamath et al. Comparison of YOLOv3 and SSD algorithms
WO2021079451A1 (ja) 学習装置、学習方法、推論装置、推論方法、及び、記録媒体
WO2021053815A1 (ja) 学習装置、学習方法、推論装置、推論方法、及び、記録媒体
CN111652350B (zh) 神经网络可视化解释方法及弱监督定位物体方法
CN110414792A (zh) 基于bim和大数据的部品集采管理系统及相关产品
CN110852394B (zh) 数据处理方法及装置、计算机系统以及可读存储介质
Pawar et al. Deep learning based glance of real world scenes through decision tree
WO2019235370A1 (ja) 学習装置、予測装置、方法、及びプログラム
Chai et al. Robust facial landmark detection based on initializing multiple poses
Wang et al. Dynamic human object recognition by combining color and depth information with a clothing image histogram

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19949580

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 17768597

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2021553221

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19949580

Country of ref document: EP

Kind code of ref document: A1