WO2020179378A1 - 情報処理システム、情報処理方法および記録媒体 - Google Patents

情報処理システム、情報処理方法および記録媒体 Download PDF

Info

Publication number
WO2020179378A1
WO2020179378A1 PCT/JP2020/005178 JP2020005178W WO2020179378A1 WO 2020179378 A1 WO2020179378 A1 WO 2020179378A1 JP 2020005178 W JP2020005178 W JP 2020005178W WO 2020179378 A1 WO2020179378 A1 WO 2020179378A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
learning
data set
data
information processing
Prior art date
Application number
PCT/JP2020/005178
Other languages
English (en)
French (fr)
Inventor
貴裕 戸泉
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US17/435,512 priority Critical patent/US20220139069A1/en
Priority to JP2021503492A priority patent/JP7259935B2/ja
Publication of WO2020179378A1 publication Critical patent/WO2020179378A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features

Definitions

  • the present invention relates to an information processing system, an information processing method, and a recording medium.
  • Zero-shot recognition is a recognition method for recognizing objects that have no image examples in the learning data.
  • the test data in zero shot recognition includes an unknown image which is an image of an object for which there is no image example in the training data.
  • Zero-shot recognition estimates a label indicating the content of an unknown image included in test data by utilizing auxiliary information that is auxiliary information about an object to be recognized.
  • Non-Patent Document 1 uses a distributed expression of words as auxiliary information.
  • Zero-shot recognition has a problem that the accuracy of unknown image recognition cannot be obtained sufficiently. The reason is that there is little image data similar to unknown image data in the learning data. There is a need for an information processing system that can solve the above problems and generate a model for estimating image labels with high accuracy.
  • An object of the present invention is to provide an information processing system, an information processing method, and an information processing program that solve the above-mentioned problems.
  • An information processing system includes a first selection unit that selects two or more images from a first data set including an image, a label associated with the image, and learning data including auxiliary information, and the first selection.
  • a model for estimating a label is learned based on auxiliary information by using a selection unit, learning data included in the first data set, and learning data corresponding to the image selected by the second selection unit.
  • learning means is used to learn the image from a first data set including an image, a label associated with the image, and learning data including auxiliary information, and the first selection.
  • two or more images are selected from a first data set including an image, a label associated with the image, and training data including auxiliary information, and selected from the first data set.
  • An image is selected from a second dataset containing training data different from the training data included in the first dataset based on the position of the two or more images in the feature space, and the first dataset is selected.
  • the model for estimating the label is learned based on the auxiliary information by using the learning data included in the above and the learning data corresponding to the image selected from the second data set.
  • a recording medium includes a first selection process of selecting two or more images from a first data set including an image, a learning data including a label associated with the image and auxiliary information, and the first selection process.
  • a second selection that selects an image from a second dataset that contains training data that is different from the training data contained in the first dataset, based on the position on the feature space of the two or more images selected by Learning for learning a model for estimating a label based on auxiliary information using processing, learning data included in the first data set, and learning data corresponding to the image selected by the second selection processing.
  • the object of the present invention is also achieved by a computer-readable recording medium in which the above program is stored.
  • each block diagram represents a configuration of a functional unit rather than a configuration of a hardware unit.
  • FIG. 1 is a diagram showing an example of functional blocks of the information processing system 1000 according to the present embodiment.
  • the information processing system 1000 in the present embodiment includes a first selection unit 1100, a second selection unit 1200, and a learning unit 1300.
  • the first selection unit 1100 acquires a first data set including learning data.
  • the learning data included in the first data set includes an image, a label, and auxiliary information. Labels and ancillary information are associated with the image.
  • the label is information indicating the correct answer of the learning data including the label.
  • the label is a word or a sentence indicating the correct answer of the target represented in the associated image. Images associated with the same label belong to the same class.
  • a class is a division that classifies objects. The class may have a hierarchical structure including a lower class and a higher class. For example, a Dalmatian image may be classified into a class of “Dalmatian”, which is the word indicated by the label, and a class of “Dog”, which is a superclass of Dalmatian.
  • auxiliary information is information that is used supplementarily when estimating the label of the object to be recognized.
  • the auxiliary information is a distributed expression (word embedding) of a word, an attribute, a dictionary definition sentence, an image description sentence, line-of-sight information and the like.
  • the distributed expression of a word is information that can be generated from the word indicated by the label. Specifically, a distributed representation of words is generated using a large amount of text corpus based on the distribution hypothesis that words that appear in the same context tend to have similar meanings.
  • the attribute is information representing the characteristics of the object shown in the image. For example, the attribute is information such as "fluffy", "yellow", and "four-legged".
  • a dictionary definition sentence is information including a sentence that explains the concept that the word indicated by the label means by using another word.
  • the image description is information including a sentence written down in natural language about the scene shown by the image.
  • the line-of-sight information is information about the line-of-sight movement of the person who views the image.
  • the first selection unit 1100 selects an image from the acquired first data set. For example, the first selection unit 1100 may randomly select two or more images from the first data set. Alternatively, the first selection unit 1100 may select two or more images associated with labels of different classes. For example, the first selection unit 1100 may arbitrarily select one image from each class of training data.
  • the first selection unit 1100 outputs the selected image.
  • the second selection unit 1200 acquires an image selected by the first selection unit 1100 and a second data set including learning data different from the training data included in the first data set.
  • the training data included in the second data set includes images, labels, and auxiliary information. Labels and ancillary information are associated with the image.
  • the second selection unit 1200 selects an image from the second data set based on the image selected by the first selection unit 1100. Specifically, the second selection unit 1200 selects, from the second data set, an image corresponding to the middle of the positions in the feature space of the two or more images selected by the first selection unit 1100. The second selection unit 1200 extracts the feature amount from the two or more images selected by the first selection unit 1100 and the images included in the second data set. For example, the second selection unit 1100 can convert an image into a feature amount using a trained neural network.
  • the second selection unit 1200 calculates the weighted average x new of the feature amounts extracted from the two or more images selected by the first selection unit 1100 using Expression (1).
  • w i in equation (1) is a weight.
  • x i is a feature amount of the image.
  • n is an integer of 2 or more. Note that x i is not limited to the feature amount of the image, and may be the pixel value of the image or the like.
  • the weighted average x new is calculated using the following equation (2).
  • w i, w j in equation (2) is a weight
  • x i, x j is the feature quantity of the image.
  • the weight used to calculate the weighted average may be a constant.
  • the weight may be a value generated using a random number.
  • the generation of weights using random numbers can be expressed from a uniform distribution to a distribution in which only one is selected by moving the value of ⁇ as a hyperparameter.
  • the second selection unit 1200 determines the similarity between the weighted average x new and the feature amount of the image of the second data set. Then, the second selection unit 1200 selects the image of the feature amount whose similarity is equal to or more than the threshold value from the second data set.
  • the second selection unit 1200 uses the cosine similarity for the similarity determination between the weighted average x new and the feature amount of the image of the second data set.
  • the following description is for the case where the weighted average x new and the image features of the second data set are vectors.
  • the second selection unit 1200 normalizes the lengths of the two vectors so that they are 1, and obtains the inner product between the normalized vectors.
  • the second selection unit 1200 determines that the weighted average x new at which the calculated inner product is equal to or greater than a predetermined value is similar to the feature amount of the image of the second data set.
  • the similarity determination is not limited to the cosine similarity, and Euclidean distance, Mahalanobis distance, KL divergence, Earth mover's distance, and the like may be used.
  • the second selection unit 1200 outputs the learning data corresponding to the image selected from the second data set.
  • the learning unit 1300 acquires the learning data of the first data set and the learning data of the second data set corresponding to the image selected by the second selection unit 1200.
  • the learning unit 1300 learns a model using the acquired learning data. Specifically, the learning unit 1300 extracts a feature amount from the acquired image. Then, the learning unit 1300 learns a mapping function that converts the extracted feature amount into auxiliary information.
  • the mapping function may be not only the conversion from the image feature to the auxiliary information but also the conversion from the auxiliary information to the image feature.
  • the learning unit 1300 learns a mapping function that converts the feature amount of the image into the distributed expression. Further, the learning unit 1300 may convert the label of the acquired data set into a distributed representation using learned word2vec or the like, and use it as learning as auxiliary information.
  • the learning unit 1300 learns a mapping function that converts the image feature amount into an attribute.
  • the learning unit 1300 may use, for example, the learning method described in Non-Patent Document 1.
  • the learning unit 1300 outputs the learned parameter of the model.
  • the above explanation is an explanation of an example in which the learning data includes an image, a label, and auxiliary information.
  • the training data may include the feature amount of the image.
  • the learning data may include a feature amount of the image instead of the image.
  • the extraction of the feature amount can be omitted in the second selection unit 1200 and the learning unit 1300.
  • the training data may include additional information such as weights calculated from the probability that each auxiliary information will be observed.
  • Multiple labels for learning data may be associated with one image.
  • the label may also be associated with auxiliary information. Further, the label may be generated using the auxiliary information. For example, the label may be generated before being acquired by the first selection unit 1100 and the second selection unit 1200. The label may be generated by any of the first selection unit 1100, the second selection unit 1200, and the learning unit 1300.
  • a plurality of auxiliary information of learning data may be associated with one image.
  • the auxiliary information may be associated with the label.
  • the auxiliary information may be generated by using one or both of the image and the label.
  • the auxiliary information may be generated before being acquired by the first selection unit 1100 and the second selection unit 1200.
  • the auxiliary information may be generated by any of the first selection unit 1100, the second selection unit 1200, and the learning unit 1300.
  • FIG. 2 is a flowchart illustrating the flow of processing executed by the information processing system 1000 according to the first embodiment.
  • FIG. 3 is a diagram showing an example of the distribution of the feature amount of the image of the first data set.
  • the figures in the figure represent the respective learning data of the first data set, and if the figures have the same shape, they belong to the same class. Images of learning data belonging to the same class have similar image feature amounts. Therefore, the learning data belonging to the same class are solidified and distributed.
  • the distribution of FIG. 3 represents the distribution of the feature amount of the image of the learning data classified into the three types of classes.
  • FIG. 4 is a diagram showing an example of a data set used for learning.
  • the star-shaped figure in the figure represents the feature amount of the image of the training data of the second data set selected by the second selection unit 1200.
  • the other figures in the figure represent the training data of the first data set similar to that in FIG.
  • the distribution of FIG. 4 represents the distribution of the data set used for training, in which the image features of the selected second data set are added between the distributions of the training data of the first data set.
  • step S101 the first selection unit 1100 acquires the first data set.
  • step S102 the second selection unit 1200 acquires the second data set.
  • step S103 the first selection unit 1100 selects two or more images from the first data set.
  • the first selection unit 1100 outputs the selected two or more images.
  • the order of step S102 and step S103 may be reversed.
  • step S104 the second selection unit 1200 acquires the two or more images selected in step S103.
  • the second selection unit 1200 selects an image from the second data set based on the acquired two or more images.
  • the second selection unit 1200 outputs the learning data corresponding to the selected image.
  • step S103 the first selection unit 1100 selects two images from the first data set having the distribution shown in FIG.
  • step S104 the second selection unit 1200 selects an image located in the middle of the two selected images.
  • Steps S103 and S104 may be repeatedly executed a predetermined number of times.
  • the iterative process of step S103 and step S104 may be completed when the number of images equal to or larger than the threshold value is selected from the second data set. Further, the repeating process of step S103 and step S104 may be ended when step S103 and step S104 are repeated a preset number of times.
  • FIG. 4 shows after the images have been selected multiple times from the second dataset by the second selection unit 1200, and during the distribution of the training data of the first dataset, of the selected second dataset. It represents a data set to be used for learning, in which the image feature amount is added multiple times.
  • step S105 the learning unit 1300 acquires the learning data of the first data set and the second data set corresponding to the image selected by the second selection unit 1200, and learns the model using the acquired learning data. ..
  • step S106 the learning unit 1300 outputs the trained parameters of the model learned in step S105. After outputting the learned parameter, the information processing system 1000 ends the process.
  • the information processing system 1000 of the present embodiment can solve the problem that the accuracy of zero-shot recognition cannot be sufficiently obtained because the learning data contains few image data similar to unknown image data. That is, the information processing system 1000 learns with learning data in which an image having a high possibility of having a feature amount similar to unknown image data is added, and thus a model with high estimation accuracy of zero shot recognition can be provided.
  • FIG. 5 is a diagram showing an example of learning data and test data when the present invention is not applied
  • FIG. 6 is a diagram showing an example of learning data and test data when the present invention is applied.
  • the inverted triangular figure in the drawing of FIG. 5 represents the test data of the first data set.
  • the other figures in the figure represent the respective learning data of the first data set, and if they have the same shape, they represent that they belong to the same class.
  • the distribution in FIG. 5 represents the distribution of image features of training data and test data classified into three types of classes.
  • the star-shaped graphic in the diagram of FIG. 6 represents the feature amount of the image of the learning data of the second data set selected by the second selection unit 1200.
  • FIG. 6 The other figures in the figure represent the training data and the test data of the first data set similar to those in FIG.
  • the distribution of FIG. 6 is a training data and test when the present invention is applied, in which the image features of the selected second dataset are added between the distributions of the training data of the first dataset. It represents the distribution of data. Since the second selecting unit 1200 selects and adds the feature amount of the image located in the middle of the feature amounts of the two or more images selected by the first selecting unit 1100, the learning unit 1300 is configured as shown in FIG. Learning can be done with learning data. FIG. 6 shows that the second selection unit 1200 selects and adds an image having the feature amount of the image distributed in the vicinity of the test data from the second data set.
  • the learning unit 1300 can perform learning with learning data to which an image having a feature amount similar to the test data is added. That is, since the information processing system 1000 of the present embodiment can recognize an image having a feature amount similar to the feature amount of the image of the test data with a trained model, it provides a model with high accuracy of zero shot recognition for the test data. can do.
  • the first selection unit 1100 can avoid selecting two or more images from the same class.
  • the first selection unit 1100 selects the feature amounts of the two or more images associated with the labels of different classes, so that the second selection unit 1200 causes the second selection unit 1200 to select the intermediate value of the images of two or more images associated with the labels of different classes. Select the feature amount of the image located in. Therefore, the second selection unit 1200 can avoid selecting the feature amount of the image that is too similar to the feature amount of the image of the learning data of the first data set.
  • the second selection unit 1200 selects a feature amount of an image that is not too similar to the feature amount of the image of the learning data of the first data set and is located in the middle of two or more images associated with labels of different classes. To do. Therefore, the information processing system 1000 of the present embodiment can increase the possibility of selecting and adding the feature amount of the image similar to the test data to the training data.
  • FIG. 7 is a diagram showing an example of a functional block of the information processing system 1001 according to the present embodiment.
  • the information processing system 1001 according to this embodiment includes a calculation unit 1400, a first selection unit 1101, a second selection unit 1201, and a learning unit 1300.
  • the calculation unit 1400 acquires the first data set including the learning data.
  • the training data contained in the first dataset includes images, labels, and auxiliary information. Labels and ancillary information are associated with the image.
  • the calculation unit 1400 extracts the characteristic amount of the acquired image. For example, the calculation unit 1400 can convert an image into a feature amount using a trained neural network.
  • the calculation unit 1400 calculates the representative value of the image for each label class from the acquired image and label of the first data set. For example, the calculation unit 1400 calculates the average value of the feature amounts of the acquired image as a representative value of the class to which the label of the image belongs.
  • the method used for calculating the representative value is not limited to the calculation of the average value, and various statistics may be used. For example, the method used to calculate the representative value may use statistical values such as median, mode, standard deviation, and variance.
  • the image used for calculating the representative value may be all images for each class, or may be an arbitrarily selected image.
  • the image used for calculating the representative value may be an image randomly selected by a predetermined number for each label from the first data set.
  • the calculation unit 1400 outputs the calculated representative value.
  • the first selection unit 1101 acquires the representative value calculated by the calculation unit 1400.
  • the first selection unit 1101 arbitrarily selects two or more representative values from the acquired representative values.
  • the first selection unit 1101 may randomly select two or more representative values from the acquired representative values.
  • the first selection unit 1101 outputs the selected representative value.
  • the second selecting unit 1201 acquires the representative value selected by the first selecting unit 1101 and the second data set including learning data different from the learning data included in the first data set.
  • the training data included in the second data set includes images, labels, and auxiliary information. Labels and ancillary information are associated with the image.
  • the second selection unit 1201 selects an image from the second data set based on the representative value selected by the first selection unit 1101. Specifically, the second selecting unit 1201 selects, from the second data set, an image corresponding to the middle of the positions in the feature space of the two or more representative values selected by the first selecting unit 1101. The second selection unit 1201 extracts the feature amount from the images included in the second data set. For example, the second selection unit 1201 can convert an image into a feature amount using a trained neural network.
  • the second selection unit 1201 calculates the weighted average x new of the two or more representative values selected by the first selection unit 1101 by using the formula (1).
  • w i in equation (1) is a weight.
  • x i is a representative value.
  • n is an integer of 2 or more.
  • the weighted average x new is calculated using the equation (2).
  • w i in equation (2) w j is the weight, x i, x j is a representative value.
  • the weight used to calculate the weighted average may be a constant.
  • the weight may be a value generated using a random number.
  • the second selection unit 1201 determines the similarity between the weighted average x new and the feature amount of the image of the second data set. Then, the second selection unit 1201 selects, from the second data set, the image of the feature amount whose similarity is equal to or more than the threshold value.
  • the second selection unit 1201 uses the cosine similarity for the similarity determination between the weighted average x new and the feature amount of the image of the second data set.
  • the following description is for the case where the weighted average x new and the image features of the second data set are vectors.
  • the second selection unit 1201 normalizes the two vectors so that the lengths are 1, and obtains the inner product between the normalized vectors.
  • the second selection unit 1201 determines that the weighted average x new at which the obtained inner product is equal to or larger than a predetermined value is similar to the feature amount of the image of the second data set.
  • the similarity determination is not limited to the cosine similarity, and Euclidean distance, Mahalanobis distance, KL divergence, Earth mover's distance, and the like may be used.
  • the second selection unit 1201 outputs the learning data corresponding to the image selected from the second data set.
  • the function of the learning unit 1300 of this embodiment is the same as that of the learning unit 1300 of the first embodiment.
  • the above explanation is an explanation of an example in which the learning data includes an image, a label, and auxiliary information.
  • the training data may include the feature amount of the image.
  • the learning data may include a feature amount of the image instead of the image.
  • the extraction of the feature amount by the calculation unit 1400, the second selection unit 1201, and the learning unit 1300 can be omitted.
  • the training data may include additional information such as weights calculated from the probability that each auxiliary information will be observed.
  • Multiple labels for learning data may be associated with one image.
  • the label may also be associated with auxiliary information. Further, the label may be generated using the auxiliary information. For example, the label may be generated before being acquired by the calculation unit 1400 and the second selection unit 1201. The label may be generated by any of the calculation unit 1400, the first selection unit 1101, the second selection unit 1201, and the learning unit 1300.
  • a plurality of auxiliary information of learning data may be associated with one image.
  • the auxiliary information may be associated with the label.
  • the auxiliary information may be generated by using one or both of the image and the label.
  • the auxiliary information may be generated before being acquired by the calculation unit 1400 and the second selection unit 1201.
  • the auxiliary information may be generated by any of the calculation unit 1400, the first selection unit 1101, the second selection unit 1201, and the learning unit 1300.
  • FIG. 8 is a flowchart illustrating the flow of processing executed by the information processing system 1001 according to the second embodiment.
  • FIG. 9 is a diagram showing an example of the distribution of representative values calculated from the first data set.
  • the figure in the figure represents a representative value of each class of the first data set, and represents that the class is different for each shape of the figure.
  • the distribution shown in FIG. 9 represents a distribution of representative values of learning data classified into three types of classes.
  • FIG. 10 is a diagram showing an example of learning data used for learning selected from the second data set.
  • the star-shaped figure in the figure represents the feature amount of the image of the learning data of the second data set selected by the second selection unit 1201.
  • Other figures in the figure represent representative values of each class of the first data set similar to FIG.
  • the distribution of FIG. 10 is the distribution of the data set used for training, in which the image features of the selected second data set are added between the distributions of the representative values of each class of the first data set.
  • step S201 the calculation unit 1400 acquires the first data set.
  • step S202 the second selection unit 1201 acquires the second data set.
  • step S203 the calculation unit 1400 calculates a representative value from the acquired first data set.
  • the calculation unit 1400 outputs the calculated representative value.
  • the order of step S202 and step S203 may be reversed.
  • step S204 the first selection unit 1101 acquires a representative value from the calculation unit 1400 and selects two or more representative values from the acquired representative values.
  • the first selection unit 1101 outputs the selected representative value of two or more sheets. Note that step S202 may be performed between steps S204 and S205.
  • step S205 the second selection unit 1201 acquires the representative value of two or more sheets selected in step S204.
  • the second selection unit 1201 selects an image from the second data set based on the acquired representative values of two or more images.
  • the second selection unit 1201 outputs learning data corresponding to the selected image.
  • step S204 the first selection unit 1101 selects two representative values from the representative values of the first data set having the distribution shown in FIG.
  • step S205 the second selection unit 1201 selects an image located in the middle of the two selected representative values.
  • Steps S204 and S205 may be repeatedly executed a predetermined number of times.
  • the iterative process of steps S204 and S205 may be completed when a threshold number or more of images are selected from the second data set. Further, the iterative process of step S204 and step S205 may be completed when step S204 and step S205 are repeated a preset number of times.
  • FIG. 10 shows images after the images have been selected from the second data set by the second selection unit 1201 a plurality of times, and during the distribution of the representative values of the first data set, the selected second data set Represents a dataset in which image features have been added multiple times.
  • the training data and the first data set corresponding to the images of the second data set selected by the multiple selections are used for training.
  • step S206 the learning unit 1300 acquires the learning data of the first data set and the second data set corresponding to the image selected by the second selection unit 1201, and learns the model using the acquired learning data. ..
  • step S207 the learning unit 1300 outputs the trained parameters of the model learned in step S206. After outputting the learned parameter, the information processing system 1001 ends the process.
  • the information processing system 1001 of the present embodiment can solve the problem that the accuracy of zero shot recognition cannot be sufficiently obtained because the learning data contains few image data similar to unknown image data. That is, the information processing system 1001 learns with learning data in which an image having a high possibility of having a feature amount similar to unknown image data is added, and thus a model with high estimation accuracy of zero shot recognition can be provided.
  • the information processing system 1001 can efficiently perform repetitive processing even when there are a large number of images of the first data set, because a large number of images have been converted into representative values for each label. Therefore, the information processing system 1001 can reduce the calculation time. Further, since the information processing system 1001 selects an image located in the middle of the representative values for each label, it efficiently has a feature amount similar to the test data without adding an image that is too similar to the training data. Images can be added. Therefore, the information processing system 1001 can increase the possibility of selecting and adding the feature amount of the image similar to the test data to the training data.
  • FIG. 11 is a diagram showing an example of a functional block of the information processing system 1001 according to the present embodiment.
  • the information processing system 1002 according to this embodiment includes an acquisition unit 1500 and an estimation unit 1600.
  • the acquisition unit 1500 acquires the image to be estimated.
  • the acquisition unit 1500 outputs the acquired image.
  • the estimation unit 1600 uses the first data set and the second data set corresponding to the image selected from the second data set based on the positions of the two or more images of the first data set in the feature space. And the label corresponding to the auxiliary information most similar to the auxiliary information converted from the image acquired by the acquisition unit 1500 are estimated using the learning data of 1.
  • the learned model used by the estimation unit 1600 is the model learned in the first and second embodiments.
  • the estimation unit 1600 may hold or acquire the correct label of the object to be estimated.
  • the estimation unit 1600 converts the image acquired by the acquisition unit 1500 into a distributed expression using the learned model.
  • the estimation unit 1600 determines a correct answer label having a distributed expression that is most similar to the converted distributed expression from the correct or retained correct answer labels, and sets it as the estimation result.
  • the estimation unit 1600 may convert the correct answer label into a distributed expression using the learned word2vec or the like, and use it for determining the correct answer label having the most similar distributed expression.
  • the estimation unit 1600 may output the transformed distributed representation as an estimation result.
  • the estimation unit 1600 converts the image acquired by the acquisition unit 1500 into the attribute using the learned model.
  • the estimation unit 1600 determines the correct answer label associated with the attribute that is most similar to the converted attribute from the correct or retained correct answer labels, and sets this as the estimation result.
  • the estimation unit 1600 may output the converted attribute as the estimation result.
  • the estimation unit 1600 may use, for example, cosine similarity, Euclidean distance, Mahalanobis distance, KL divergence, Earth mover's distance, or the like when determining the most similar auxiliary information.
  • the estimation unit 1600 outputs the estimation result.
  • FIG. 12 is a flowchart illustrating the flow of processing executed by the information processing system 1002 according to the third embodiment.
  • step S301 the acquisition unit 1500 acquires an image to be estimated.
  • the acquisition unit 1500 outputs the acquired image.
  • step S302 the estimation unit 1600 acquires an image from the acquisition unit 1500 and estimates it using a learned model.
  • the estimation unit 1600 outputs the estimation result. After outputting the estimation result, the information processing system 1002 ends the process.
  • the information processing system 1002 of the present embodiment can solve the problem that the accuracy of zero shot recognition cannot be sufficiently obtained because there are few image data similar to unknown image data in the learning data. That is, since the information processing system 1002 performs estimation using the model learned with the learning data in which the image having the feature amount similar to the test data is added, the zero shot recognition with high estimation accuracy can be performed.
  • FIG. 13 is an explanatory diagram showing a hardware configuration example of the information processing system according to the present invention.
  • the information processing system shown in FIG. 13 includes a CPU (Central Processing Unit) 101, a main storage unit 102, a communication unit 103, and an auxiliary storage unit 104.
  • the information processing system shown in FIG. 13 may include an input unit 105 for the user to operate, and an output unit 106 for presenting the process result or the progress of the process content to the user.
  • the main storage unit 102 is used as a data work area or a data temporary save area.
  • the main storage unit 102 is, for example, a RAM (Random Access Memory).
  • the communication unit 103 has a function of inputting and outputting data to and from peripheral devices via a wired network or a wireless network (information communication network).
  • the auxiliary storage unit 104 is a non-transitory tangible storage medium.
  • non-temporary tangible storage media include magnetic disks, magneto-optical disks, CD-ROMs (Compact Disk Read Only Memory), DVD-ROMs (Digital Why Disk Read Only Memory), and semiconductor memories.
  • the input unit 105 has a function of inputting data and processing instructions.
  • the input unit 105 is an input device such as a keyboard or a mouse.
  • the output unit 106 has a function of outputting data.
  • the output unit 106 is, for example, a display device such as a liquid crystal display device or a printing device such as a printer.
  • each component is connected to the system bus 107.
  • the auxiliary storage unit 104 realizes, for example, a first selection unit 1100, a first selection unit 1101, a second selection unit 1200, a second selection unit 1201, a learning unit 1300, a calculation unit 1400, an acquisition unit 1500, and an estimation unit 1600. I remember the program to do.
  • the first selection unit 1100, the first selection unit 1101, the second selection unit 1200, the second selection unit 1201, and the acquisition unit 1500 may receive a data set, an image, etc. via the communication unit 103.
  • the estimation unit 1600 may also transmit the estimation result via the communication unit 103.
  • the information processing system 1000, the information processing system 1001, and the information processing system 1002 may be realized by hardware.
  • the information processing system 1000 may be equipped with a circuit including a hardware component such as an LSI (Large Scale Integration) in which a program that implements the functions illustrated in FIG. 1 is incorporated.
  • LSI Large Scale Integration
  • the CPU 101 shown in FIG. 13 executes a program that provides the function of each component shown in FIG. 1, FIG. 7, or FIG. May be realized by software.
  • the CPU 101 loads the program stored in the auxiliary storage unit 104 into the main storage unit 102 and executes it to operate the information processing system 1000, the information processing system 1001, or the information processing system 1002.
  • each function is realized by software.
  • the respective constituent elements may be realized by a general-purpose circuit or a dedicated circuit, a processor, or a combination thereof. These may be configured by a single chip, or may be configured by a plurality of chips connected via a bus. Some or all of the constituent elements may be realized by a combination of the above-described circuits and the like and a program.
  • the plurality of information processing devices and circuits may be centrally arranged or distributedly arranged.
  • the information processing device, the circuit, and the like may be realized as a form in which each of the client and server system, the cloud computing system, and the like is connected via a communication network.
  • First selecting means for selecting two or more images from a first data set including an image, a learning data including a label associated with the image and auxiliary information; Based on the positions in the feature space of the two or more images selected by the first selecting means, an image is acquired from a second data set including learning data different from the learning data included in the first data set.
  • the second selection means to select and A learning means for learning a model for estimating a label based on auxiliary information using the learning data included in the first data set and the learning data corresponding to the image selected by the second selection means.
  • An information processing system including.
  • the auxiliary information is a distributed representation of the words indicated by the label associated with the image.
  • the auxiliary information is an attribute representing the characteristics of the object indicated by the image,
  • the second selection means selects an image corresponding to an intermediate position between two or more images selected by the first selection means in the feature space from the second data set.
  • the information processing system according to item 1.
  • the second selection means selects an image corresponding to a feature amount similar to a weighted average of the feature amounts of two or more images selected by the first selection means from the second data set.
  • the second selection means obtains images from the second data set corresponding to the features whose similarity with the weighted average of the features of the two or more images selected by the first selection means exceeds the threshold value.
  • Two or more images are selected from the first dataset containing the image, the label associated with the image, and the training data including the auxiliary information.
  • the image from the second data set including the learning data different from the learning data included in the first data set based on the positions in the feature space of the two or more images selected from the first data set.
  • Select An information processing method for learning a model that estimates a label based on auxiliary information using the training data included in the first data set and the training data corresponding to the image selected from the second data set. ..
  • the second selection process to select and A learning process for learning a model that estimates a label based on auxiliary information using the training data included in the first data set and the training data corresponding to the image selected by the second selection process.
  • a recording medium on which a program for executing is recorded.
  • the present invention can be applied to machine learning when some labels do not have learning data.
  • learning data in which an image similar to the defective product of the target product is added.
  • the present invention is one of transfer learning, and by using the present invention, not only zero-shot learning but also complementing with large-scale data when there is little or biased data for learning images and labels. It can be applied to applications such as improving accuracy. Further, the present invention can also be applied to an application such as searching for an image closest to a combination of a plurality of images in a search for similar images.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)

Abstract

本発明による情報処理システムは、画像、前記画像に関連付けられたラベルおよび補助情報を含む学習データを含む第1のデータセットから2枚以上の画像を選択する第1選択部と、選択された2枚以上の画像の特徴空間上の位置に基づいて、第1のデータセットに含まれる学習データとは異なる学習データを含む第2のデータセットから画像を選択する第2選択部と、第1のデータセットに含まれる学習データと、第2選択部によって選択された画像に対応する学習データとを用いて、補助情報に基づいてラベルを推定するモデルを学習する学習部とを備える。

Description

情報処理システム、情報処理方法および記録媒体
 本発明は、情報処理システム、情報処理方法および記録媒体に関する。
 ゼロショット認識は、学習データに画像例のない物体を認識する認識手法である。ゼロショット認識におけるテストデータは、学習データに画像例のない物体の画像である未知の画像を含む。ゼロショット認識は、認識対象の物体についての補助的な情報である補助情報を活用することで、テストデータに含まれる未知の画像の内容を示すラベルを推定する。
 ゼロショット認識は、例えば非特許文献1に記載されている。非特許文献1は、補助情報として単語の分散表現が用いられている。
A. Frome, G. S. Corrado, J. Shlens, S. Bengio, J. Dean,M. A. Ranzato, and T. Mikolov, "DeViSE: A Deep Visual-Semantic Embedding Model," In NIPS, 2013.
 ゼロショット認識は、未知の画像の認識の精度が十分に得られないという問題がある。その理由は、学習データ内に、未知の画像データと類似する画像データが少ないためである。上記の問題を解決できる、画像のラベルを高精度に推定するモデルを生成する情報処理システムが、求められている。
 本発明は、上述した課題を解決する情報処理システム、情報処理方法および情報処理プログラムを提供することを目的とする。
 本発明による情報処理システムは、画像、前記画像に関連付けられたラベルおよび補助情報を含む学習データを含む第1のデータセットから2枚以上の画像を選択する第1選択手段と、前記第1選択手段によって選択された2枚以上の画像の特徴空間上の位置に基づいて、前記第1のデータセットに含まれる学習データとは異なる学習データを含む第2のデータセットから画像を選択する第2選択手段と、前記第1のデータセットに含まれる学習データと、前記第2選択手段によって選択された画像に対応する学習データとを用いて、補助情報に基づいてラベルを推定するモデルを学習する学習手段とを備える。
 本発明による情報処理方法は、画像、前記画像に関連付けられたラベルおよび補助情報含む学習データを含む第1のデータセットから2枚以上の画像を選択し、前記第1のデータセットから選択された2枚以上の画像の特徴空間上の位置に基づいて、前記第1のデータセットに含まれる学習データとは異なる学習データを含む第2のデータセットから画像を選択し、前記第1のデータセットに含まれる学習データと、前記第2のデータセットから選択された画像に対応する学習データとを用いて、補助情報に基づいてラベルを推定するモデルを学習する。
 本発明による記録媒体は、画像、前記画像に関連付けられたラベルおよび補助情報を含む学習データを含む第1のデータセットから2枚以上の画像を選択する第1選択処理と、前記第1選択処理によって選択された2枚以上の画像の特徴空間上の位置に基づいて、前記第1のデータセットに含まれる学習データとは異なる学習データを含む第2のデータセットから画像を選択する第2選択処理と、前記第1のデータセットに含まれる学習データと、前記第2選択処理によって選択された画像に対応する学習データとを用いて、補助情報に基づいてラベルを推定するモデルを学習する学習処理とをコンピュータに実行させるプログラムを記録する。
 また、本発明の目的は、上記のプログラムが格納されたコンピュータ読み取り可能な記録媒体によっても達成される。
 本発明によれば、画像のラベルを高精度に推定するモデルを生成することができる。
第1実施形態に係る情報処理システムを例示するブロック図である。 第1実施形態の情報処理システムによって実行される処理の流れを例示するフローチャートである。 第1実施形態の第1のデータセットの画像の特徴量の分布の一例を表す図である。 第1実施形態の学習に用いられるデータセットの一例を表す図である。 本発明が適用されていない場合の学習データとテストデータの一例を表す図である。 本発明が適用された場合の学習データとテストデータの一例を表す図である。 第2実施形態に係る情報処理システムを例示するブロック図である。 第2実施形態の情報処理システムによって実行される処理の流れを例示するフローチャートである。 第2実施形態の第1のデータセットから算出した代表値の分布の一例を表す図である。 第2実施形態の第2のデータセットから選択された学習に用いられる学習データの一例を表す図である。 第3実施形態に係る情報処理システムを例示するブロック図である。 第3実施形態の情報処理システムによって実行される処理の流れを例示するフローチャートである。 本発明による情報処理システムのハードウェア構成例を示す説明図である。
 以下、本発明の実施の形態についての説明は、図面を用いた説明である。尚、すべての図面において、同様な構成要素は、同様の符号を付し、適宜説明が省略されている。また、特に説明がされている場合を除き、各ブロック図において、各ブロックは、ハードウェア単位の構成ではなく機能単位の構成を表している。
<第1実施形態>
[構成の説明]
 図1は、本実施形態における情報処理システム1000の機能ブロックの一例を示す図である。本実施形態における情報処理システム1000は、第1選択部1100と、第2選択部1200と、学習部1300とを備えている。
 第1選択部1100は、学習データを含む第1のデータセットを取得する。第1のデータセットに含まれる学習データは、画像と、ラベルと、補助情報とを含む。ラベルと補助情報は、画像に関連付けられている。
 ラベルは、ラベルが含まれる学習データの正解を示す情報である。ラベルは、関連付けられた画像に表される対象の正解を示す単語や文章などである。同一のラベルが関連付けられている画像は、同一のクラスに属する。クラスは、対象を分類する区分である。クラスは、下位のクラスと上位のクラスからなる階層構造であってもよい。例えば、ダルメシアンの画像は、ラベルが示す単語である「ダルメシアン」のクラスと、ダルメシアンの上位クラスである「犬」のクラスとに分類されてもよい。
 補助情報は、認識対象の物体のラベルを推定する際に補助的に用いられる情報である。例えば、補助情報は、単語の分散表現(単語埋め込み)、属性、辞書定義文、画像説明文、視線情報等である。単語の分散表現は、ラベルが示す単語から生成することができる情報である。具体的には、単語の分散表現は、同じ文脈で現れる単語は似た意味を持つ傾向にあるという分布仮説に基づき、大量のテキストコーパスを用いて生成される。属性は、画像が示す物体の特性を表す情報である。例えば、属性は、「ふわふわとした」、「黄色い」、「四本足の」などの情報である。辞書定義文は、ラベルが示す単語が意味する概念を別の単語を用いて説明した文を含む情報である。画像説明文は、画像が示す情景について自然言語で書き下した文を含む情報である。視線情報は、画像を見る人の視線の動きの情報である。
 第1選択部1100は、取得した第1のデータセットから画像を選択する。例えば、第1選択部1100は、第1のデータセットから2枚以上の画像をランダムに選択してもよい。または、第1選択部1100は、異なるクラスのラベルが関連付けられた2枚以上の画像を選択してもよい。例えば、第1選択部1100は、学習データの各クラスから任意にひとつずつの画像を選択してもよい。
 第1選択部1100は、選択した画像を出力する。
 第2選択部1200は、第1選択部1100が選択した画像と、第1のデータセットに含まれる学習データとは異なる学習データを含む第2のデータセットとを取得する。
 第2のデータセットに含まれる学習データは、画像と、ラベルと、補助情報とを含む。ラベルと補助情報は、画像に関連付けられている。
 第2選択部1200は、第1選択部1100によって選択された画像に基づいて、第2のデータセットから画像を選択する。具体的には、第2選択部1200は、第1選択部1100によって選択された2枚以上の画像の特徴空間上の位置の中間に対応する画像を、第2のデータセットから選択する。第2選択部1200は、第1選択部1100によって選択された2枚以上の画像と第2のデータセットに含まれる画像とから特徴量を抽出する。例えば、第2選択部1100は、学習済みのニューラルネットワークを用いて画像を特徴量に変換することができる。
 第2選択部1200は、第1選択部1100によって選択された2枚以上の画像から抽出した特徴量の重み付き平均xnewを、式(1)を用いて算出する。
Figure JPOXMLDOC01-appb-M000001
 ここで、式(1)におけるwは、重みである。xは、画像の特徴量である。nは、2枚以上の整数である。なお、xは画像の特徴量に限られず、画像の画素値等であってもよい。
 第1選択部1100によって画像が2つ選択された場合、重み付き平均xnewは、以下の式(2)を用いて算出される。
Figure JPOXMLDOC01-appb-M000002
 なお、式(2)におけるw、wは、重みであり、x、xjは、画像の特徴量である。
 重み付き平均の算出に用いる重みは、定数であってもよい。例えば、重みは、(w,w)=(0.4,0.6)という定数であってもよい。または重みは、乱数を用いて生成された値であってもよい。例えば、乱数を用いた重みの生成は、α=βという条件を持つベータ分布を乱数生成の分布として用いることで、2つのデータで対称な分布を用いて重み付けを行う。乱数を用いた重みの生成は、αの値をハイパーパラメータとして動かすことで、一様分布からどちらか一方のみを選ぶ分布までを表現することができる。
 第2選択部1200は、重み付き平均xnewと第2のデータセットの画像の特徴量との類似を判定する。そして、第2選択部1200は、類似度が閾値以上である特徴量の画像を第2のデータセットから選択する。
 例えば、第2選択部1200は、重み付き平均xnewと第2のデータセットの画像の特徴量との類似判定にはコサイン類似度を用いる。以下の説明は、重み付き平均xnewと第2のデータセットの画像の特徴量が、ベクトルである場合の説明である。第2選択部1200は、2つのベクトルの長さが1となるように正規化し、正規化したベクトル間の内積を求める。第2選択部1200は、求めた内積が所定の値以上となる重み付き平均xnewと第2のデータセットの画像の特徴量とが類似であると判定する。類似判定は、コサイン類似度に限らず、ユークリッド距離、マハラノビス距離、KLダイバージェンス、Earth mover’s distance等を用いてもよい。
 第2選択部1200は、第2のデータセットから選択した画像に対応する学習データを出力する。
 学習部1300は、第1のデータセットの学習データと、第2選択部1200が選択した画像に対応する第2のデータセットの学習データを取得する。
 学習部1300は、取得した学習データを用いて、モデルを学習する。具体的には、学習部1300は、取得した画像から特徴量を抽出する。そして学習部1300は、抽出した特徴量を補助情報に変換する写像関数を学習する。なお、写像関数は画像特徴から補助情報への変換だけでなく、補助情報から画像特徴への変換であってもよい。
 例えば、取得した学習データに含まれる補助情報が分散表現(単語埋め込み)である場合、学習部1300は、画像の特徴量を分散表現に変換する写像関数を学習する。また、学習部1300は、取得したデータセットのラベルを、学習済みのword2vec等を用いて分散表現に変換し、補助情報として学習に用いてもよい。
 例えば、取得した学習データに含まれる補助情報が属性である場合、学習部1300は、画像の特徴量を属性に変換する写像関数を学習する。
 また、学習部1300は、例えば、非特許文献1に記載されている学習方法を用いてもよい。
 学習部1300は、モデルの学習済みパラメータを出力する。
 上記説明は、学習データが、画像と、ラベルと、補助情報とを含む例の説明である。しかし学習データは、これに限定されるものではない。学習データは、画像の特徴量を含んでいてもよい。あるいは、学習データは、画像の代わりに画像の特徴量を含んでいてもよい。学習データが画像の特徴量を含む場合には、第2選択部1200や学習部1300には、特徴量の抽出を省略することができる。また、学習データは、各補助情報が観測される確率から計算される重み等の追加情報を含んでいてもよい。
 学習データのラベルは、1つの画像に対して複数関連付けられていてもよい。また、ラベルは、補助情報に関連付けられていてもよい。また、ラベルは、補助情報を用いて生成されたものであってもよい。例えば、ラベルは、第1選択部1100、第2選択部1200に取得される前に生成されていてもよい。ラベルは、第1選択部1100、第2選択部1200、学習部1300のいずれで生成されてもよい。
 学習データの補助情報は、1つの画像に対して複数関連付けられていてもよい。また、補助情報はラベルに関連付けられていてもよい。また、補助情報は、画像とラベルのいずれか一方、又は両方を用いて生成されたものであってもよい。例えば、補助情報は、第1選択部1100、第2選択部1200に取得される前に生成されていてもよい。補助情報は、第1選択部1100、第2選択部1200、学習部1300のいずれで生成されてもよい。
[動作の説明]
 図2は、第1実施形態の情報処理システム1000によって実行される処理の流れを例示するフローチャートである。
 図3は、第1のデータセットの画像の特徴量の分布の一例を表す図である。図中の図形は、第1のデータセットの各学習データを表しており、形が同一の図形であれば同一のクラスに属していることを表している。同一のクラスに属する学習データの画像は、画像の特徴量が類似する。従って、同一のクラスに属する学習データは、固まって分布する。図3の分布は、3種類のクラスに分類される学習データの画像の特徴量の分布を表す。
 図4は、学習に用いられるデータセットの一例を表す図である。図中の星形の図形は、第2選択部1200に選択された第2のデータセットの学習データの画像の特徴量を表している。図中のその他の図形は、図3と同様の第1のデータセットの学習データを表している。図4の分布は、第1のデータセットの学習データの分布の間に、選択された第2のデータセットの画像の特徴量が追加された、学習に用いられるデータセットの分布を表す。
 ステップS101では、第1選択部1100は、第1のデータセットを取得する。
 ステップS102では、第2選択部1200は、第2のデータセットを取得する。
 ステップS103では、第1選択部1100は、第1のデータセットから2枚以上の画像を選択する。第1選択部1100は、選択した2枚以上の画像を出力する。なお、ステップS102とステップS103は、順序を逆にしてもよい。
 ステップS104では、第2選択部1200は、ステップS103で選択された2枚以上の画像を取得する。第2選択部1200は取得した2枚以上の画像に基づいて、第2のデータセットから画像を選択する。第2選択部1200は、選択した画像に対応する学習データを出力する。
 例えば、ステップS103では、第1選択部1100は、図3のような分布となる第1のデータセットから画像を2つ選択する。ステップS104では、第2選択部1200は、選択された2つの画像の中間に位置する画像を選択する。
 ステップS103とステップS104は、所定の回数繰り返して実行されてもよい。ステップS103とステップS104の繰り返し処理は、第2のデータセットから閾値以上の個数の画像が選択された場合に、終了してもよい。また、ステップS103とステップS104の繰り返し処理は、ステップS103とステップS104をあらかじめ設定していた回数繰り返した場合に、終了してもよい。図4は、第2選択部1200によって第2のデータセットから画像が複数回選択された後であり、第1のデータセットの学習データの分布の間に、選択された第2のデータセットの画像の特徴量が複数回追加された、学習に用いられるデータセットを表している。
 ステップS105では、学習部1300は、第1のデータセットと第2選択部1200が選択した画像に対応する第2のデータセットの学習データを取得し、取得した学習データを用いてモデルを学習する。
 ステップS106では、学習部1300は、ステップS105で学習したモデルの学習済みパラメータを出力する。学習済みパラメータを出力した後、情報処理システム1000は、処理を終了する。
[効果の説明]
 本実施形態の情報処理システム1000は、学習データ内に未知の画像データと類似する画像データが少ないために、ゼロショット認識の精度が十分に得られないという問題を解決することができる。つまり、情報処理システム1000は、未知の画像データに類似する特徴量を持つ可能性の高い画像を追加した学習データで学習するので、ゼロショット認識の推定精度の高いモデルを提供することができる。
 図5は本発明が適用されていない場合の学習データとテストデータの一例を表す図であり、図6は本発明が適用された場合の学習データとテストデータの一例を表す図である。図5の図中の逆三角形の図形は、第1のデータセットのテストデータを表している。図中のその他の図形は、第1のデータセットの各学習データを表しており、形が同一であれば同一のクラスに属していることを表している。図5の分布は、3種類のクラスに分類される学習データとテストデータの画像の特徴量の分布を表している。図6の図中の星形の図形は、第2選択部1200に選択された第2のデータセットの学習データの画像の特徴量を表している。図中のその他の図形は、図5と同様の第1のデータセットの学習データとテストデータを表している。図6の分布は、第1のデータセットの学習データの分布の間に、選択された第2のデータセットの画像の特徴量が追加された、本発明が適用された場合の学習データとテストデータの分布を表している。第2選択部1200は、第1選択部1100が選択した2枚以上の画像の特徴量の中間に位置する画像の特徴量を選択し、追加するので、学習部1300は、図6のような学習データで学習が可能となる。図6は、第2選択部1200が、テストデータの近傍に分布する画像の特徴量を持つ画像を、第2のデータセットから選択して追加したことを表している。学習部1300は、テストデータに類似する特徴量を持つ画像を追加した学習データで学習できる。つまり、本実施形態の情報処理システム1000は、テストデータの画像の特徴量に類似した特徴量を持つ画像を学習したモデルで認識ができるので、テストデータに対するゼロショット認識の精度が高いモデルを提供することができる。
 第1選択部1100において、異なるクラスのラベルが関連付けられた2枚以上の画像を選択する場合、第1選択部1100は、同一のクラスから2枚以上の画像の選択を避けることができる。第1選択部1100が異なるクラスのラベルが関連付けられた2枚以上の画像の特徴量の選択することで、第2選択部1200は、異なるクラスのラベルが関連付けられた2枚以上の画像の中間に位置する画像の特徴量を選択する。従って、第2選択部1200は、第1のデータセットの学習データの画像の特徴量に類似し過ぎた画像の特徴量を選択することを避けることができる。第2選択部1200は、第1のデータセットの学習データの画像の特徴量に類似し過ぎず、異なるクラスのラベルが関連付けられた2枚以上の画像の中間に位置する画像の特徴量を選択する。従って、本実施形態の情報処理システム1000は、テストデータに類似する画像の特徴量を選択して学習データに追加する可能性を高めることができる。
<第2実施形態>
[構成の説明]
 図7は、本実施形態における情報処理システム1001の機能ブロックの一例を示す図である。本実施形態における情報処理システム1001は、算出部1400と、第1選択部1101と、第2選択部1201と、学習部1300とを備えている。
 算出部1400は、学習データを含む第1のデータセットを取得する。例えば、第1のデータセットに含まれる学習データは、画像と、ラベルと、補助情報とを含む。ラベルと補助情報は、画像に関連付けられている。
 算出部1400は、取得した画像の特徴量を抽出する。例えば、算出部1400は、学習済みのニューラルネットワークを用いて画像を特徴量に変換することができる。
 算出部1400は、取得した第1のデータセットの画像とラベルから、ラベルのクラス毎の画像の代表値を算出する。例えば、算出部1400は、取得した画像の特徴量の平均値を、その画像のラベルが属するクラスの代表値として算出する。代表値の算出に用いる方法は、平均値の算出に限られず、様々な統計量を用いてよい。例えば、代表値の算出に用いる方法は、中央値、最頻値、標準偏差、分散等の統計値を用いてもよい。
 代表値の算出に用いる画像は、クラス毎のすべての画像でもよく、任意に選ばれた画像でもよい。例えば、代表値の算出に用いる画像は、第1のデータセットからラベル毎に所定の個数ずつランダムに選択された画像でもよい。
 算出部1400は、算出した代表値を出力する。
 第1選択部1101は、算出部1400が算出した代表値を取得する。
 第1選択部1101は、取得した代表値から2枚以上の代表値を任意に選択する。例えば、第1選択部1101は、取得した代表値から2枚以上の代表値をランダムに選択してもよい。
 第1選択部1101は、選択した代表値を出力する。
 第2選択部1201は、第1選択部1101が選択した代表値と、第1のデータセットに含まれる学習データとは異なる学習データを含む第2のデータセットとを取得する。
 第2のデータセットに含まれる学習データは、画像と、ラベルと、補助情報とを含む。ラベルと補助情報は、画像に関連付けられている。
 第2選択部1201は、第1選択部1101によって選択された代表値に基づいて、第2のデータセットから画像を選択する。具体的には、第2選択部1201は、第1選択部1101によって選択された2枚以上の代表値の特徴空間上の位置の中間に対応する画像を、第2のデータセットから選択する。第2選択部1201は、第2のデータセットに含まれる画像から特徴量を抽出する。例えば、第2選択部1201は、学習済みのニューラルネットワークを用いて画像を特徴量に変換することができる。
 第2選択部1201は、第1選択部1101によって選択された2枚以上の代表値の重み付き平均xnewを、式(1)を用いて算出する。ここで、式(1)におけるwは、重みである。xは、代表値である。nは、2枚以上の整数である。
 第1選択部1101によって代表値が2つ選択された場合、重み付き平均xnewは、式(2)を用いて算出される。なお、式(2)におけるw、wは、重みであり、x、xjは、代表値である。
 重み付き平均の算出に用いる重みは、定数であってもよい。例えば、重みは、(w,w)=(0.4,0.6)という定数であってもよい。または重みは、乱数を用いて生成された値であってもよい。例えば、乱数を用いた重みの生成は、α=βという条件を持つベータ分布を乱数生成の分布として用いることで、2つのデータで対象な分布を用いて重み付けを行う。乱数を用いた重みの生成は、αの値をハイパーパラメータとして動かすことで、一様分布からどちらか一方のみを選ぶ分布までを表現することができる。
 第2選択部1201は、重み付き平均xnewと第2のデータセットの画像の特徴量との類似を判定する。そして、第2選択部1201は、類似度が閾値以上である特徴量の画像を第2のデータセットから選択する。
 例えば、第2選択部1201は、重み付き平均xnewと第2のデータセットの画像の特徴量との類似判定にはコサイン類似度を用いる。以下の説明は、重み付き平均xnewと第2のデータセットの画像の特徴量が、ベクトルである場合の説明である。第2選択部1201は、2つのベクトルの長さが1となるように正規化し、正規化したベクトル間の内積を求める。第2選択部1201は、求めた内積が所定の値以上となる重み付き平均xnewと第2のデータセットの画像の特徴量とが類似であると判定する。類似判定は、コサイン類似度に限らず、ユークリッド距離、マハラノビス距離、KLダイバージェンス、Earth mover’s distance等を用いてもよい。
 第2選択部1201は、第2のデータセットから選択した画像に対応する学習データを出力する。
 本実施形態の学習部1300が有する機能は、第1の実施形態の学習部1300と同様である。
 上記説明は、学習データが、画像と、ラベルと、補助情報とを含む例の説明である。しかし、学習データは、これに限定されるものではない。学習データは、画像の特徴量を含んでいてもよい。あるいは、学習データは、画像の代わりに画像の特徴量を含んでいてもよい。学習データが画像の特徴量を含む場合には、算出部1400、第2選択部1201、学習部1300における特徴量の抽出は、省略することができる。また、学習データは、各補助情報が観測される確率から計算される重み等の追加情報を含んでいてもよい。
 学習データのラベルは、1つの画像に対して複数関連付けられていてもよい。また、ラベルは補助情報に関連付けられていてもよい。また、ラベルは、補助情報を用いて生成されたものであってもよい。例えば、ラベルは、算出部1400、第2選択部1201に取得される前に生成されていてもよい。ラベルは、算出部1400、第1選択部1101、第2選択部1201、学習部1300のいずれで生成されてもよい。
 学習データの補助情報は、1つの画像に対して複数関連付けられていてもよい。また、補助情報はラベルに関連付けられていてもよい。また、補助情報は、画像とラベルのいずれか一方、又は両方を用いて生成されたものであってもよい。例えば、補助情報は、算出部1400、第2選択部1201に取得される前に生成されていてもよい。補助情報は、算出部1400、第1選択部1101、第2選択部1201、学習部1300のいずれで生成されてもよい。
[動作の説明]
 図8は、第2実施形態の情報処理システム1001によって実行される処理の流れを例示するフローチャートである。
 図9は、第1のデータセットから算出した代表値の分布の一例を表す図である。図中の図形は、第1のデータセットの各クラスの代表値を表しており、図形の形ごとにクラスが異なることを表している。図9の分布は、3種類のクラスに分類される学習データの代表値の分布を表す。
 図10は、第2のデータセットから選択された学習に用いられる学習データの一例を表す図である。図中の星形の図形は、第2選択部1201に選択された第2のデータセットの学習データの画像の特徴量を表している。図中のその他の図形は、図9と同様の第1のデータセットの各クラスの代表値を表している。図10の分布は、第1のデータセットの各クラスの代表値の分布の間に、選択された第2のデータセットの画像の特徴量が追加された、学習に用いられるデータセットの分布を表す。
 ステップS201では、算出部1400は、第1のデータセットを取得する。
 ステップS202では、第2選択部1201は、第2のデータセットを取得する。
 ステップS203では、算出部1400は、取得した第1のデータセットから代表値を算出する。算出部1400は、算出した代表値を出力する。なお、ステップS202とステップS203は順序を逆にしてもよい。
 ステップS204では、第1選択部1101は、算出部1400から代表値を取得し、取得した代表値から2枚以上の代表値を選択する。第1選択部1101は、選択した2枚以上の代表値を出力する。なお、ステップS202は、ステップS204とステップS205の間に行われてもよい。
 ステップS205では、第2選択部1201は、ステップS204で選択された2枚以上の代表値を取得する。第2選択部1201は、取得した2枚以上の代表値に基づいて、第2のデータセットから画像を選択する。第2選択部1201は、選択した画像に対応する学習データを出力する。
 例えば、ステップS204では、第1選択部1101は、図9のような分布となる第1のデータセットの代表値から、代表値を2つ選択する。ステップS205では、第2選択部1201は、選択された2つの代表値の中間に位置する画像を選択する。
 ステップS204とステップS205は、所定の回数繰り返して実行されてもよい。ステップS204とステップS205の繰り返し処理は、第2のデータセットから閾値以上の個数の画像が選択された場合に、終了してもよい。また、ステップS204とステップS205の繰り返し処理は、ステップS204とステップS205をあらかじめ設定していた回数繰り返した場合に、終了してもよい。図10は、第2選択部1201によって第2のデータセットから画像が複数回選択された後であり、第1のデータセットの代表値の分布の間に、選択された第2のデータセットの画像の特徴量が複数回追加されたデータセットを表している。複数回の選択によって選択された第2のデータセットの画像に対応する学習データと第1のデータセットとが、学習に用いられる。
 ステップS206では、学習部1300は、第1のデータセットと第2選択部1201が選択した画像に対応する第2のデータセットの学習データを取得し、取得した学習データを用いてモデルを学習する。
 ステップS207では、学習部1300は、ステップS206で学習したモデルの学習済みパラメータを出力する。学習済みパラメータを出力した後、情報処理システム1001は、処理を終了する。
[効果の説明]
 本実施形態の情報処理システム1001は、学習データ内に未知の画像データと類似する画像データが少ないために、ゼロショット認識の精度が十分に得られないという問題を解決することができる。つまり、情報処理システム1001は、未知の画像データに類似する特徴量を持つ可能性の高い画像を追加した学習データで学習するので、ゼロショット認識の推定精度の高いモデルを提供することができる。
 本実施形態の情報処理システム1001は、第1のデータセットの画像が大量にある場合でも、大量の画像がラベル毎の代表値に変換されているため、効率的に繰り返し処理が可能となる。従って、情報処理システム1001は、計算時間を削減することができる。また、情報処理システム1001は、ラベル毎の代表値の中間に位置する画像を選択するので、学習データに類似しすぎた画像を追加せずに、効率的にテストデータと類似する特徴量を持つ画像を追加することができる。従って、情報処理システム1001は、テストデータに類似する画像の特徴量を選択して学習データに追加する可能性を高めることができる。
<第3実施形態>
[構成の説明]
 図11は、本実施形態における情報処理システム1001の機能ブロックの一例を示す図である。本実施形態における情報処理システム1002は、取得部1500と、推定部1600とを備えている。
 取得部1500は、推定対象の画像を取得する。
 取得部1500は、取得した画像を出力する。
 推定部1600は、第1のデータセットと、第1のデータセットの2枚以上の画像の特徴空間上の位置に基づいて第2のデータセットから選択された画像に対応する第2のデータセットの学習データと、を用いて学習されたモデルを用いて、取得部1500によって取得された画像から変換した補助情報に最も類似する補助情報と対応するラベルを推定する。例えば、推定部1600が用いる学習されたモデルは、第1実施形態、第2実施形態で学習されたモデルである。また、推定部1600は、推定対象となる物体の正解ラベルを保持または取得していてもよい。
 例えば、補助情報に分散表現(単語埋め込み)を用いて学習されたモデルを用いる場合、推定部1600は、取得部1500によって取得された画像を、学習されたモデルを用いて分散表現に変換する。推定部1600は、保持または取得している正解ラベルから、変換された分散表現に最も類似する分散表現を持つ正解ラベルを判定し、推定結果とする。推定部1600は、正解ラベルを学習済みのword2vec等を用いて分散表現に変換し、最も類似する分散表現を持つ正解ラベルの判定に用いてもよい。また、推定部1600は、変換された分散表現を推定結果として出力してもよい。
 例えば、推定部1600は、補助情報に属性を用いる場合、取得部1500によって取得された画像を、学習されたモデルを用いて属性に変換する。推定部1600は、保持または取得している正解ラベルから、変換された属性に最も類似する属性が関連付けられている正解ラベルを判定し、推定結果とする。また、推定部1600は、変換された属性を推定結果として出力してもよい。
 推定部1600は、最も類似する補助情報を判定する際には、例えば、コサイン類似度、ユークリッド距離、マハラノビス距離、KLダイバージェンス、Earth mover’s distance等を用いてもよい。
 推定部1600は、推定結果を出力する。
 [動作の説明]
 図12は、第3実施形態の情報処理システム1002によって実行される処理の流れを例示するフローチャートである。
 ステップS301では、取得部1500は、推定対象の画像を取得する。取得部1500は取得した画像を出力する。
 ステップS302では、推定部1600は、取得部1500から画像を取得し、学習済みモデルを用いて推定する。
 ステップ303では、推定部1600は、推定結果を出力する。推定結果を出力した後、情報処理システム1002は、処理を終了する。
[効果の説明]
 本実施形態の情報処理システム1002は、学習データ内に未知の画像データと類似する画像データが少ないために、ゼロショット認識の精度が十分に得られないという問題を解決することができる。つまり、情報処理システム1002は、テストデータに類似する特徴量を持つ画像を追加した学習データで学習したモデルを用いて推定するので、推定精度の高いゼロショット認識をすることができる。
<ハードウェア構成>
 以下の説明は、各実施形態の情報処理システム1000、情報処理システム1001、および情報処理システム1002のハードウェア構成の具体例である。図13は、本発明による情報処理システムのハードウェア構成例を示す説明図である。
 図13に示す情報処理システムは、CPU(Central Processing Unit)101と、主記憶部102と、通信部103と、補助記憶部104とを備える。また、図13に示す情報処理システムは、ユーザが操作するための入力部105や、ユーザに処理結果または処理内容の経過を提示するための出力部106を備えてもよい。
 主記憶部102は、データの作業領域やデータの一時退避領域として用いられる。主記憶部102は、例えばRAM(Random Access Memory)である。
 通信部103は、有線のネットワークまたは無線のネットワーク(情報通信ネットワーク)を介して、周辺機器との間でデータを入力および出力する機能を有する。
 補助記憶部104は、一時的でない有形の記憶媒体である。一時的でない有形の記憶媒体は、例えば磁気ディスク、光磁気ディスク、CD-ROM(Compact Disk Read Only Memory) 、DVD-ROM(Digital Versatile Disk Read Only Memory)、半導体メモリが挙げられる。
 入力部105は、データや処理命令を入力する機能を有する。入力部105は、例えばキーボードやマウス等の入力デバイスである。
 出力部106は、データを出力する機能を有する。出力部106は、例えば液晶ディスプレイ装置等の表示装置、またはプリンタ等の印刷装置である。
 また、図13に示すように、各構成要素は、システムバス107に接続されている。
 補助記憶部104は、例えば、第1選択部1100、第1選択部1101、第2選択部1200、第2選択部1201、学習部1300、算出部1400、取得部1500、および推定部1600を実現するためのプログラムを記憶している。
 また、第1選択部1100、第1選択部1101、第2選択部1200、第2選択部1201、取得部1500は、通信部103を介してデータセット、画像等を受信してもよい。また、推定部1600は、通信部103を介して推定結果を送信してもよい。
 なお、情報処理システム1000、情報処理システム1001、および情報処理システム1002は、ハードウェアにより実現されてもよい。例えば、情報処理システム1000は、内部に図1に示すような機能を実現するプログラムが組み込まれたLSI(Large Scale Integration)等のハードウェア部品が含まれる回路が実装されてもよい。
 また、情報処理システム1000、情報処理システム1001、および情報処理システム1002は、図13に示すCPU101が図1、図7、または図11に示す各構成要素が有する機能を提供するプログラムを実行することによって、ソフトウェアにより実現されてもよい。
 ソフトウェアにより実現される場合、CPU101が補助記憶部104に格納されているプログラムを、主記憶部102にロードして実行し、情報処理システム1000、情報処理システム1001、または情報処理システム1002の動作を制御することによって、各機能が、ソフトウェアにより実現される。
 また、各構成要素の一部または全部は、汎用の回路(circuitry)または専用の回路、プロセッサ等やこれらの組み合わせによって実現されてもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各構成要素の一部または全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。
 各構成要素の一部または全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
 上述した各実施の形態および具体例は、適宜組み合わせて実施されることが可能である。
 各ブロック図に示したブロック分けは、説明の便宜上から表された構成である。各実施形態を例に説明された本発明は、その実装に際して、各ブロック図に示した構成には限定されない。
 また、上述した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、本発明を図示の態様に限定することを意図するものではない。
 以上の説明は、本発明を実施するための形態についての説明であったが、上記実施の形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明は、その趣旨を逸脱することなく変更、改良され得ると共に、本発明にはその等価物も含まれる。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。 
 (付記1)
 画像、前記画像に関連付けられたラベルおよび補助情報を含む学習データを含む第1のデータセットから2枚以上の画像を選択する第1選択手段と、
 前記第1選択手段によって選択された2枚以上の画像の特徴空間上の位置に基づいて、前記第1のデータセットに含まれる学習データとは異なる学習データを含む第2のデータセットから画像を選択する第2選択手段と、
 前記第1のデータセットに含まれる学習データと、前記第2選択手段によって選択された画像に対応する学習データとを用いて、補助情報に基づいてラベルを推定するモデルを学習する学習手段と、
 を備える情報処理システム。
 (付記2)
 前記補助情報は、画像に関連付けられたラベルが示す単語の分散表現であり、
 前記学習手段は、分散表現に基づいてラベルを推定するモデルを学習する請求項1に記載の情報処理システム。
 (付記3)
 前記補助情報は、画像が示す物体の特性を表す属性であり、
 前記学習手段は、属性に基づいてラベルを推定するモデルを学習する請求項1に記載の情報処理システム。
 (付記4)
 前記第2選択手段は、前記第1選択手段によって選択された2枚以上の画像の特徴空間上の位置の中間に対応する画像を前記第2のデータセットから選択する請求項1から3のいずれか1項に記載の情報処理システム。
 (付記5)
 前記第2選択手段は、前記第1選択手段によって選択された2枚以上の画像の特徴量の重み付き平均と類似する特徴量に対応する画像を前記第2のデータセットから選択する請求項4に記載の情報処理システム。
 (付記6)
 前記第2選択手段は、前記第1選択手段によって選択された2枚以上の画像の特徴量の重み付き平均との類似度が閾値を超える特徴量に対応する画像を前記第2のデータセットから選択する請求項5に記載の情報処理システム。
 (付記7)
 画像、前記画像に関連付けられたラベルおよび補助情報を含む学習データを含む第1のデータセットの画像と、前記画像に関連付けられたラベルとから、前記ラベル毎に前記画像の代表値を算出する算出手段と、
 前記代表値から2枚以上の代表値を選択する第1選択手段と、
 前記2枚以上の代表値の特徴空間上の位置に基づいて、前記第1のデータセットに含まれる学習データとは異なる学習データを含む第2のデータセットから画像を選択する第2選択手段と、
 前記第1のデータセットに含まれる学習データと、前記第2選択手段によって選択された画像に対応する学習データとを用いて、補助情報に基づいてラベルを推定するモデルを学習する学習手段と、
 を備える情報処理システム。
 (付記8)
 画像を取得する取得手段と、
 画像、前記画像に関連付けられたラベルおよび補助情報を含む学習データを含む第1のデータセットと、前記第1のデータセットの2枚以上の画像の特徴空間上の位置に基づいて前記第1のデータセットに含まれる学習データとは異なる学習データを含む第2のデータセットから選択された画像に対応する前記第2のデータセットの学習データと、を用いて学習されたモデルを用いて、前記取得手段によって取得された画像から変換した補助情報に最も類似する補助情報と対応するラベルを推定する推定手段と、
 を備える情報処理システム。
 (付記9)
 画像、前記画像に関連付けられたラベルおよび補助情報を含む学習データを含む第1のデータセットから2枚以上の画像を選択し、
 前記第1のデータセットから選択された2枚以上の画像の特徴空間上の位置に基づいて、前記第1のデータセットに含まれる学習データとは異なる学習データを含む第2のデータセットから画像を選択し、
 前記第1のデータセットに含まれる学習データと、前記第2のデータセットから選択された画像に対応する学習データとを用いて、補助情報に基づいてラベルを推定するモデルを学習する情報処理方法。
 (付記10)
 画像、前記画像に関連付けられたラベルおよび補助情報を含む学習データを含む第1のデータセットから2枚以上の画像を選択する第1選択処理と、
 前記第1選択処理によって選択された2枚以上の画像の特徴空間上の位置に基づいて、前記第1のデータセットに含まれる学習データとは異なる学習データを含む第2のデータセットから画像を選択する第2選択処理と、
 前記第1のデータセットに含まれる学習データと、前記第2選択処理によって選択された画像に対応する学習データとを用いて、補助情報に基づいてラベルを推定するモデルを学習する学習処理と、
 を実行させるためのプログラムを記録した記録媒体。
 以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 本発明は一部のラベルが学習データを持たない場合の機械学習に応用することができる。例えば、本発明は、工場の生産ラインでの対象製品の不良品検知において、対象製品の不良品の画像例がない場合であっても、対象製品の不良品に類似した画像を追加した学習データを用意し学習することで、対象製品の不良品検知において高精度なゼロショット認識を可能とする。
 また、本発明は、転移学習のひとつであり、本発明を用いることでゼロショット学習だけでなく、学習用の画像とラベルのデータが少ないもしくは偏っている場合に、大規模データで補完することで精度を改善するといった用途に適用できる。 また、本発明は、類似画像の検索において、複数の画像の組み合わせに最も近い画像を検索する、といった用途にも適用することができる。
101 CPU
102 主記憶部
103 通信部
104 補助記憶部
105 入力部
106 出力部
107 システムバス
1000、1001、1002 情報処理システム
1100、1101 第1選択部
1200、1201 第2選択部
1300 学習部
1400 算出部
1500 取得部
1600 推定部

Claims (10)

  1.  画像、前記画像に関連付けられたラベルおよび補助情報を含む学習データを含む第1のデータセットから2枚以上の画像を選択する第1選択手段と、
     前記第1選択手段によって選択された2枚以上の画像の特徴空間上の位置に基づいて、前記第1のデータセットに含まれる学習データとは異なる学習データを含む第2のデータセットから画像を選択する第2選択手段と、
     前記第1のデータセットに含まれる学習データと、前記第2選択手段によって選択された画像に対応する学習データとを用いて、補助情報に基づいてラベルを推定するモデルを学習する学習手段と、
     を備える情報処理システム。
  2.  前記補助情報は、画像に関連付けられたラベルが示す単語の分散表現であり、
     前記学習手段は、分散表現に基づいてラベルを推定するモデルを学習する請求項1に記載の情報処理システム。
  3.  前記補助情報は、画像が示す物体の特性を表す属性であり、
     前記学習手段は、属性に基づいてラベルを推定するモデルを学習する請求項1に記載の情報処理システム。
  4.  前記第2選択手段は、前記第1選択手段によって選択された2枚以上の画像の特徴空間上の位置の中間に対応する画像を前記第2のデータセットから選択する請求項1から3のいずれか1項に記載の情報処理システム。
  5.  前記第2選択手段は、前記第1選択手段によって選択された2枚以上の画像の特徴量の重み付き平均と類似する特徴量に対応する画像を前記第2のデータセットから選択する請求項4に記載の情報処理システム。
  6.  前記第2選択手段は、前記第1選択手段によって選択された2枚以上の画像の特徴量の重み付き平均との類似度が閾値を超える特徴量に対応する画像を前記第2のデータセットから選択する請求項5に記載の情報処理システム。
  7.  画像、前記画像に関連付けられたラベルおよび補助情報を含む学習データを含む第1のデータセットの画像と、前記画像に関連付けられたラベルとから、前記ラベル毎に前記画像の代表値を算出する算出手段と、
     前記代表値から2枚以上の代表値を選択する第1選択手段と、
     前記2枚以上の代表値の特徴空間上の位置に基づいて、前記第1のデータセットに含まれる学習データとは異なる学習データを含む第2のデータセットから画像を選択する第2選択手段と、
     前記第1のデータセットに含まれる学習データと、前記第2選択手段によって選択された画像に対応する学習データとを用いて、補助情報に基づいてラベルを推定するモデルを学習する学習手段と、
     を備える情報処理システム。
  8.  画像を取得する取得手段と、
     画像、前記画像に関連付けられたラベルおよび補助情報を含む学習データを含む第1のデータセットと、前記第1のデータセットの2枚以上の画像の特徴空間上の位置に基づいて前記第1のデータセットに含まれる学習データとは異なる学習データを含む第2のデータセットから選択された画像に対応する前記第2のデータセットの学習データと、を用いて学習されたモデルを用いて、前記取得手段によって取得された画像から変換した補助情報に最も類似する補助情報と対応するラベルを推定する推定手段と、
     を備える情報処理システム。
  9.  画像、前記画像に関連付けられたラベルおよび補助情報を含む学習データを含む第1のデータセットから2枚以上の画像を選択し、
     前記第1のデータセットから選択された2枚以上の画像の特徴空間上の位置に基づいて、前記第1のデータセットに含まれる学習データとは異なる学習データを含む第2のデータセットから画像を選択し、
     前記第1のデータセットに含まれる学習データと、前記第2のデータセットから選択された画像に対応する学習データとを用いて、補助情報に基づいてラベルを推定するモデルを学習する情報処理方法。
  10.  画像、前記画像に関連付けられたラベルおよび補助情報を含む学習データを含む第1のデータセットから2枚以上の画像を選択する第1選択処理と、
     前記第1選択処理によって選択された2枚以上の画像の特徴空間上の位置に基づいて、前記第1のデータセットに含まれる学習データとは異なる学習データを含む第2のデータセットから画像を選択する第2選択処理と、
     前記第1のデータセットに含まれる学習データと、前記第2選択処理によって選択された画像に対応する学習データとを用いて、補助情報に基づいてラベルを推定するモデルを学習する学習処理と、
     をコンピュータに実行させるためのプログラムを記録した記録媒体。
PCT/JP2020/005178 2019-03-04 2020-02-10 情報処理システム、情報処理方法および記録媒体 WO2020179378A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/435,512 US20220139069A1 (en) 2019-03-04 2020-02-10 Information processing system, information processing method, and recording medium
JP2021503492A JP7259935B2 (ja) 2019-03-04 2020-02-10 情報処理システム、情報処理方法およびプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019038366 2019-03-04
JP2019-038366 2019-03-04

Publications (1)

Publication Number Publication Date
WO2020179378A1 true WO2020179378A1 (ja) 2020-09-10

Family

ID=72338305

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/005178 WO2020179378A1 (ja) 2019-03-04 2020-02-10 情報処理システム、情報処理方法および記録媒体

Country Status (3)

Country Link
US (1) US20220139069A1 (ja)
JP (1) JP7259935B2 (ja)
WO (1) WO2020179378A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7100737B1 (ja) 2021-04-01 2022-07-13 日本電信電話株式会社 学習装置、学習方法及び学習プログラム
JP7270894B1 (ja) * 2022-12-09 2023-05-11 株式会社Creator’s NEXT 新規な作風のデジタルデータの特定

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012203422A (ja) * 2011-03-23 2012-10-22 Toshiba Corp 学習装置、方法及びプログラム
JP2013058095A (ja) * 2011-09-08 2013-03-28 Sony Corp 情報処理装置、推定機生成方法、及びプログラム
JP2018073429A (ja) * 2017-11-15 2018-05-10 ヤフー株式会社 検索装置、検索方法および検索プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012203422A (ja) * 2011-03-23 2012-10-22 Toshiba Corp 学習装置、方法及びプログラム
JP2013058095A (ja) * 2011-09-08 2013-03-28 Sony Corp 情報処理装置、推定機生成方法、及びプログラム
JP2018073429A (ja) * 2017-11-15 2018-05-10 ヤフー株式会社 検索装置、検索方法および検索プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7100737B1 (ja) 2021-04-01 2022-07-13 日本電信電話株式会社 学習装置、学習方法及び学習プログラム
JP2022158736A (ja) * 2021-04-01 2022-10-17 日本電信電話株式会社 学習装置、学習方法及び学習プログラム
JP7270894B1 (ja) * 2022-12-09 2023-05-11 株式会社Creator’s NEXT 新規な作風のデジタルデータの特定

Also Published As

Publication number Publication date
JPWO2020179378A1 (ja) 2020-09-10
JP7259935B2 (ja) 2023-04-18
US20220139069A1 (en) 2022-05-05

Similar Documents

Publication Publication Date Title
AU2019201787B2 (en) Compositing aware image search
CN105354307B (zh) 一种图像内容识别方法及装置
JP6231944B2 (ja) 学習モデル作成装置、判定システムおよび学習モデル作成方法
JP6763426B2 (ja) 情報処理システム、情報処理方法、及び、プログラム
CN110968697B (zh) 文本分类方法、装置、设备及可读存储介质
WO2020179378A1 (ja) 情報処理システム、情報処理方法および記録媒体
CN113435531B (zh) 零样本图像分类方法、系统、电子设备及存储介质
JPWO2019171416A1 (ja) 画像分類システム、画像分類方法および画像分類プログラム
CN115115923B (zh) 模型训练方法、实例分割方法、装置、设备及介质
JP7031686B2 (ja) 画像認識システム、方法およびプログラム、並びにパラメータ学習システム、方法およびプログラム
JP5633424B2 (ja) プログラム及び情報処理システム
JP2010282275A (ja) 半教師画像認識検索装置、半教師画像認識検索方法、及びプログラム
US20170293863A1 (en) Data analysis system, and control method, program, and recording medium therefor
JP6509391B1 (ja) 計算機システム
CN111708884A (zh) 文本分类方法、装置及电子设备
JP6453618B2 (ja) 算出装置、方法及びプログラム
CN112801221B (zh) 一种数据分类方法、装置、设备及存储介质
JP7333891B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP7394680B2 (ja) 画像類似度推定システム、学習装置、推定装置、及びプログラム
JP6679391B2 (ja) 地名表記判定装置
US20230343073A1 (en) Novel category discovery using machine learning
US20230298311A1 (en) Image matching apparatus, control method, and non-transitory computer-readable storage medium
US20220398833A1 (en) Information processing device, learning method, and recording medium
JP2023552881A (ja) 設計空間削減装置、制御方法、及びプログラム
CN117009599A (zh) 数据检索方法、装置、处理器及电子设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20766600

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021503492

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20766600

Country of ref document: EP

Kind code of ref document: A1