WO2022190301A1 - 学習装置、学習方法、及びコンピュータ可読媒体 - Google Patents

学習装置、学習方法、及びコンピュータ可読媒体 Download PDF

Info

Publication number
WO2022190301A1
WO2022190301A1 PCT/JP2021/009687 JP2021009687W WO2022190301A1 WO 2022190301 A1 WO2022190301 A1 WO 2022190301A1 JP 2021009687 W JP2021009687 W JP 2021009687W WO 2022190301 A1 WO2022190301 A1 WO 2022190301A1
Authority
WO
WIPO (PCT)
Prior art keywords
target data
data
loss
class
statistical
Prior art date
Application number
PCT/JP2021/009687
Other languages
English (en)
French (fr)
Inventor
貴也 宮本
博志 橋本
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US17/619,723 priority Critical patent/US20230143070A1/en
Priority to JP2023504999A priority patent/JP7544254B2/ja
Priority to PCT/JP2021/009687 priority patent/WO2022190301A1/ja
Publication of WO2022190301A1 publication Critical patent/WO2022190301A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • This disclosure relates to a learning device, a learning method, and a computer-readable medium.
  • a pattern recognition device that extracts features (patterns) of target data using a feature amount extractor and uses the extracted feature amounts to recognize data. For example, in object image recognition, a feature vector is extracted from an image in which a target object is captured, and a linear classifier is used to estimate which class the target object belongs to. In face authentication, a feature amount vector is extracted from a person's face image, and the person or another person is recognized based on the distance of the feature amount vector on the feature amount space.
  • pre-collected supervised data with correct class labels (hereinafter referred to as learning data) is used to bring the statistical properties of the target data and its class labels close to each other.
  • learning data pre-collected supervised data with correct class labels
  • Statistical machine learning is widely used to train feature extractors.
  • different people are defined as different classes, and supervised learning of multi-class classification problems is performed.
  • Images with different statistical properties include images having different information other than class label information, such as an image captured by a visible light camera and an image captured by a near-infrared camera.
  • the cause of the performance degradation for data with different statistical properties is that the statistical distribution of the extracted feature values differs on the feature value space. The cause of this will be described in detail with reference to the upper diagram of FIG.
  • the upper diagram in Fig. 1 is a conceptual diagram of the distribution of feature values for data with different statistical properties on the feature value space.
  • the feature amount of data belonging to the first class is represented by stars
  • the feature amount of data belonging to the second class is represented by triangles.
  • a solid line represents the feature amount distribution of data having the first statistical property
  • a dotted line represents the feature amount distribution of data having the second statistical property.
  • the first statistical property is the statistical property of the learning data
  • the statistical property different from the learning data is the second statistical property.
  • the feature quantity extractor has a high degree of separation between classes in the feature quantity distribution for data with the first statistical property (range of solid circles in the upper diagram of FIG. 1). learned to become In other words, the feature amount extractor is learned so that the feature amount distance within the same class is small and the feature amount distance between other classes is large.
  • the data having the first statistical property has a distribution different from the feature value distribution for In particular, it has a distribution with a lower degree of separation between classes than the feature quantity distribution for data having the first statistical property.
  • the feature amount for data having the second statistical property has a larger distance between the feature amounts within the same class, or Since the feature amount distance between other classes becomes smaller, the recognition performance for class classification, etc., is degraded.
  • the recognition performance deteriorates.
  • the training data contains many images taken with easily available visible light cameras, but the number of images taken with near-infrared cameras and far-infrared cameras is small ( or not included). For this reason, there is a problem that the recognition accuracy in the near-infrared image captured by the near-infrared camera is lower than that in the visible light image captured by the visible light camera.
  • the lower diagram in Fig. 1 conceptually shows the correction of differences in statistical properties between data.
  • the feature quantity distribution extracted by the feature quantity extractor before correction has different distributions for data with different statistical properties, as shown in the above figure.
  • the feature quantity extractor is learned so that the corrected feature quantity distribution brings the feature quantity distributions of data of the same class and having different statistical properties closer to each other.
  • the arrows in the figure indicate the direction of correction of the feature quantity distribution in the feature quantity space
  • the solid line arrows indicate the direction of correction of the feature quantity distribution for data having the first statistical property
  • the dotted line arrows indicate the direction of correction of the feature quantity distribution for the data having the first statistical property.
  • 2 represents the correction direction of the feature quantity distribution for data with the statistical properties of 2.
  • the data with the first and second statistical properties have a certain distribution, so that the distance between the feature quantities of data with different statistical properties in the same class is is smaller than the feature quantity distribution before correction.
  • the recognition accuracy between images with different statistical properties for example, an image captured by a visible light camera and an image captured by a near-infrared camera
  • the feature amount distribution after correction has a higher degree of separation between the feature amount classes for the data having the second statistical property. This has the effect of improving authentication accuracy for data with properties.
  • Patent Documents 1 and 2 As one of the techniques for correcting the difference in statistical properties between data as described above, there is a learning method disclosed in Patent Documents 1 and 2.
  • the learning method according to Patent Document 1 when training data and test data follow different probability distributions, an importance-weighted loss function that takes into consideration the importance that is the ratio of the generation probability of training data and test data is used. Train a predictive model by gradient boosting. This predicts the label of the test data with higher accuracy. In this manner, the learning method according to Patent Document 1 corrects the difference in statistical properties between training data and test data with different probability distributions, that is, between training data and test data with different statistical properties.
  • the prediction model is composed of a feature quantity extractor such as a neural network
  • this correction consists of learning the feature quantity extractor so that the feature quantity distribution for the training data and the feature quantity distribution for the test data are brought closer to each other. Synonymous.
  • the learning method according to Patent Document 2 relates to a technique called domain adaptation, which corrects differences in statistical properties between data. It is characterized by having the effect of realizing supervised learning.
  • the difference in statistical properties between data with domain information and data without domain information that is, between data with domain information and data without domain information, which have different statistical properties, is corrected. is doing.
  • this correction is synonymous with learning the feature quantity extractor so as to bring the feature quantity distributions for the data in different domains closer to each other.
  • the purpose of this disclosure is to solve problems in related technologies.
  • a learning device comprises: A learning device for supervised learning of a classification problem, an input unit for inputting target data to be learned, class label information of the target data, and statistical property information of the target data; a feature quantity extractor that extracts a feature quantity from the target data using parameters; a class classifier that outputs class classification inference results for the target data by statistical processing using the feature amount and weight vectors for the number of classes; a loss calculation unit that calculates a loss using a loss function that receives the class classification inference result and the class label information; a parameter modification unit that modifies the weight vector of the class classifier and the parameter of the feature amount extractor so as to reduce the loss according to the statistical property information; including.
  • a learning method comprises: A learning method by a learning device that performs supervised learning of a class classification problem, inputting target data to be learned, class label information of the target data, and statistical property information of the target data; A feature amount extractor extracts a feature amount from the target data using a parameter, A class classifier outputs a class classification inference result for the target data by statistical processing using the feature amount and weight vectors for the number of classes, calculating a loss using a loss function with the class classification inference result and the class label information as inputs; According to the statistical property information, the weight vector of the class classifier and the parameters of the feature amount extractor are modified so that the loss becomes small.
  • a non-transitory computer-readable medium comprises: In a computer that performs supervised learning for class classification problems, a process of inputting target data to be learned, class label information of the target data, and statistical property information of the target data; A process of extracting a feature amount from the target data using a parameter by a feature amount extractor; A process of outputting a class classification inference result of the target data by a class classifier by statistical processing using the feature amount and weight vectors for the number of classes; a process of calculating a loss using a loss function having the class classification inference result and the class label information as inputs; a process of modifying the weight vector of the classifier and the parameters of the feature amount extractor so as to reduce the loss according to the statistical property information; The program that executes the is stored.
  • FIG. 2 is a conceptual diagram of distribution of feature amounts for data with different statistical properties on a feature amount space
  • 1 is a block diagram showing an example of a configuration of a learning device according to Embodiment 1
  • FIG. 4 is a flow chart showing an example of the operation of the learning device according to the first embodiment
  • FIG. 5 is a conceptual diagram relating to the distribution of feature amounts on the feature amount space, used for explaining the effect of the learning device according to the first embodiment
  • FIG. 11 is a block diagram showing an example of the configuration of a learning device according to a second embodiment
  • FIG. FIG. 11 is a block diagram showing an example of a configuration of a learning device according to a third embodiment
  • FIG. FIG. 11 is a block diagram showing an example of the configuration of a learning device according to a fourth embodiment
  • FIG. 1 is a block diagram showing an example of a configuration of a computer that implements a learning device according to embodiments 1, 2, 3, and 4;
  • the feature quantity extractor is trained so that the feature quantity distributions of data having two statistical properties are brought closer to each other.
  • the recognition performance improves for the data having the target statistical property (data having the second statistical property in FIG. 1), but the original learning data (the second statistical property in FIG. 1) Data having the same statistical property as the data having the statistical property of 1) has a problem that the recognition performance deteriorates conversely.
  • the visible light image has the same statistical properties as the training data, and the near-infrared image has different statistical properties from the training data, the recognition performance for the near-infrared image will improve, but for the visible light image Recognition performance declines. This is because the feature amount distribution for the visible light image and the feature amount distribution for the near-infrared image are brought close to each other, so that the feature amount distribution for the visible light image, which originally had a high degree of separation, is destroyed.
  • the purpose of this disclosure is to improve the recognition performance for data that has one or more statistical properties different from the learning data without reducing the recognition performance for data that has the same statistical properties as the learning data.
  • a recognition target may be an image of an object or an image of a face.
  • an image of a face may be used as an example of data. However, this does not limit the data of interest.
  • FIG. 2 is a block diagram showing an example of the configuration of the learning device 10 according to the first embodiment.
  • the learning device 10 includes a data input unit 100, a feature extractor 101, a classifier 102, a correct information input unit 103, a statistical property information input unit 104, and a loss calculator. 105 , a parameter correction amount calculation unit 106 , and a parameter correction unit 107 .
  • the data input unit 100 inputs target data to be learned from the learning data.
  • the target data may be a normalized image in which the subject is normalized in advance based on the position of the subject included in the image.
  • the number of target data to be input may be one or plural.
  • the feature quantity extractor 101 includes parameters that can be learned, and uses the parameters to calculate and output feature quantities representing the features of the target data.
  • the specific form of the feature quantity extractor 101 is not limited, and functions such as a convolutional layer, a pooling layer, or a fully connected layer included in a neural network such as a convolutional neural network used in machine learning such as deep learning may have Specific parameters of the feature amount extractor 101 are, for example, kernel (filter) weights in the case of a convolutional layer, and weights applied to affine transformation in the case of a fully connected layer.
  • the feature quantity output from the feature quantity extractor 101 may be in the form of a tensor (ie, feature quantity map) or in the form of a vector (ie, feature quantity vector).
  • the class classifier 102 outputs class classification inference results for the target data through statistical processing using the feature quantities output from the feature quantity extractor 101 and weight vectors for the number of classes.
  • the feature amount output from the feature amount extractor 101 is a tensor
  • the class classifier 102 performs statistical processing using the feature amount map and the weight vector.
  • the weight vector may be in the form of a tensor.
  • the weight vectors for the number of classes which are the parameters of the class classifier 102, represent the representative points of each class on the feature amount space. It represents calculating the distance on the feature quantity space of the feature quantity with respect to . Therefore, the class classification inference result, which is the output of the class classifier 102, is a value representing the distance between the feature quantity output from the feature quantity extractor 101 and the representative point of each class.
  • the number of weight vectors (that is, the number of classes) does not need to match the number of class labels input to the correct information input unit 103, which will be described later.
  • variable parameters refer to the parameters of the feature quantity extractor 101 and the weight vectors for the number of classes of the classifier 102.
  • the correct answer information input unit 103 inputs class label information as correct answer information.
  • the class label information is information representing the correct label of the target data. For example, if the target data is a face image, the person ID of the person in the face image may be used as the class label.
  • the statistical property information input unit 104 inputs statistical property information, which is information representing the statistical properties of the target data.
  • Statistical property information may be a scalar value with a value, or a vector or tensor based on statistical properties. For example, when the target data is an image, the statistical property information may be set to 1 for images captured by a visible light camera, and set to 0 for images captured by other image sensors.
  • the loss calculation unit 105 calculates a loss using a loss function having as inputs (arguments) the class classification inference result output from the class classifier 102 and the class label information input to the correct information input unit 103. output. At the same time, the loss calculator 105 also calculates the gradient of the loss function with respect to various parameters (that is, the first derivative of the loss function) for use in calculating the correction amount of each parameter, which will be described later.
  • the loss calculated using the loss function in the loss calculation unit 105 is defined to be a value corresponding to the difference between the class classification inference result and the class label information. Specifically, the loss is defined to have a larger value as the difference between the class classification inference result and the class label information is larger. Therefore, optimizing various parameters so as to reduce the loss is synonymous with optimizing the classification inference result so that it approaches the correct label.
  • bringing the class classification inference result closer to the correct label generally means reducing the distance between the feature quantity and the weight vector of the same class in the feature quantity space, and reducing the distance between the feature quantity and the weight vector of the other class. It can be said that increasing the distance between In other words, optimizing various parameters so that the loss calculated by the loss calculation unit 105 becomes small reduces the distance between the feature amount and the weight vector of the same class, and reduces the distance between the feature amount and the weight vector of the other class. It is synonymous with optimizing to increase the distance of .
  • the specific functional form of the loss function used in the loss calculation unit 105 is not limited.
  • the loss function may be Softmax-Cross Entropy Loss, which is commonly used in class classification problems, or may be a margin system Softmax Loss such as SphereFace, CosFace, and ArcFace.
  • the loss function may be various loss functions used in distance learning, or a combination thereof.
  • the parameter correction amount calculation unit 106 calculates correction amounts of various parameters for reducing the loss calculated by the loss calculation unit 105 .
  • the parameter correction amount calculation unit 106 calculates the correction amount of various parameters according to the gradient of the loss function for each parameter and the value of the statistical property information input to the statistical property information input unit 104 .
  • the correction amount of the weight vector is calculated by statistical processing using the gradient of the loss function with respect to the weight vector and the value of the statistical property information.
  • the gradient of the loss function with respect to the parameter of the feature quantity extractor 101 may be used as the correction amount, or the parameter correction amount may be obtained by statistical processing using the gradient and the value of the statistical property information. may be calculated.
  • the parameter correction unit 107 corrects various parameters based on the correction amounts of various parameters calculated by the parameter correction amount calculation unit 106 .
  • various parameters may be corrected using, for example, a stochastic gradient descent method, an error backpropagation method, or the like, which are used in machine learning such as deep learning.
  • the learning device 10 repeatedly corrects various parameters of the feature amount extractor 101 and classifier 102 .
  • the statistical properties of the target data to be learned are not limited. Also, the number of types of statistical properties of the target data input to the statistical properties information input unit 104 may be two or more.
  • the data input unit 100 acquires a large amount of learning data from a learning database (not shown).
  • the learning data may be a data set including an image serving as target data for learning, a correct label indicating the classification of the subject of the image, and statistical property information of the image.
  • the data input unit 100 inputs the above-described image as target data
  • the correct information input unit 103 inputs the class level information representing the above-described correct label
  • the statistical property information input unit 104 inputs the above-described Enter the statistical properties information.
  • the image of the target data may be a normalized image that has undergone normalization processing in advance. Note that when cross-validation is performed, the learning data may be classified into training data and test data.
  • the feature quantity extractor 101 uses the parameters at that time to calculate the feature quantity by extracting the features of the target data input to the data input unit 100 in the operation of S10.
  • the parameters at that point in time are the parameters corrected by the parameter correction unit 107 in the previous operation of S16.
  • the parameter at that point in time is the initial value of the parameter.
  • the initial values of the parameters of the feature amount extractor 101 may be determined randomly or may be learned in advance by supervised learning.
  • the class classifier 102 uses the weight vector at that time to perform statistical processing using the feature amount calculated by the feature amount extractor 101 in the operation of S11 and the weight vector. Output the class classification inference result of the data.
  • the weight vector at that time is the weight vector corrected by the parameter correction unit 107 in the previous operation of S16.
  • the weight vector at that point in time is the initial value of the weight vector.
  • the initial value of the weight vector may be randomly determined or previously learned by supervised learning.
  • the loss calculation unit 105 uses the loss function to calculate the class classification inference result output by the classifier 102 in the operation of S12 and the correct answer input to the correct answer information input unit 103 in the operation of S10. Calculate the loss between the label and At the same time, the loss calculator 105 also calculates the slope of the loss function with respect to various parameters.
  • the parameter correction amount calculation unit 106 determines whether or not to end learning.
  • the parameter correction amount calculation unit 106 determines whether or not the learning is finished by determining whether or not the number of updates representing the number of times the operation of S16 has been performed has reached a preset number of times. You can judge whether Also, the parameter correction amount calculation unit 106 may determine whether or not to end learning by determining whether or not the loss is less than a predetermined threshold. If the parameter correction amount calculation unit 106 ends learning (Yes in S14), the process proceeds to S17; otherwise (No in S14), the process proceeds to S15.
  • the parameter correction amount calculation unit 106 calculates correction amounts of various parameters for reducing the loss calculated by the loss calculation unit 105 in the operation of S13. For example, the parameter correction amount calculation unit 106 calculates the slope of the loss function for various parameters calculated by the loss calculation unit 105 in the operation of S13, and the statistical properties input to the statistical property information input unit 104 in the operation of S10. Based on the value of information and the amount of correction of various parameters is calculated. At this time, regarding the parameter (weight vector) of the class classifier 102, the gradient of the loss function with respect to the weight vector is subjected to statistical processing based on the statistical property information, and this is used as the correction amount.
  • the gradient of the loss function with respect to the parameter of the feature quantity extractor 101 may be used as the correction amount, or the correction amount may be obtained by statistical processing using the gradient and the value of the statistical property information. may be calculated.
  • the parameter correction unit 107 corrects various parameters based on the correction amounts of various parameters calculated by the parameter correction amount calculation unit 106 in the operation of step S15.
  • the parameter correction unit 107 may update various parameters using stochastic gradient descent and error backpropagation, for example.
  • the order of correcting the parameters is not limited. That is, the parameter modification unit 107 may modify the weight vector of the classifier 102 after modifying the parameters of the feature amount extractor 101, or may perform modification in the reverse order.
  • the parameter correction unit 107 may separate the correction of the parameter of the feature quantity extractor 101 and the correction of the weight vector of the class classifier 102 for each iteration of learning. Then, the parameter correction unit 107 returns the process to S10.
  • the parameter correction unit 107 determines various parameters to the values corrected in the most recent operation of step S16. Thus, the operation of the learning device 10 is completed.
  • the learning device 10 optimizes the parameters included in the feature quantity extractor 101 and the weight vectors included in the class classifier 102 by machine learning.
  • the parameter correction unit 107 modifies the parameters of the feature amount extractor 101 and the weight vector of the class classifier 102 so that the loss calculated by the loss calculation unit 105 becomes small. fix it. This is synonymous with reducing the distance between the feature quantity and the weight vector of the same class and increasing the distance between the feature quantity and the weight vector of the other class in the feature quantity space.
  • Correcting the weight vector of the class classifier 102 so as to reduce the loss means correcting the weight vector in the direction of the feature quantity of the input target data. That is, when the input target data is data having the first statistical property, the weight vector is corrected in the direction of the feature amount distribution for the data having the first statistical property. Also, when the input target data is data having the second statistical property, the weight vector is corrected in the direction of the feature amount distribution for the data having the second statistical property.
  • modifying the parameters of the feature quantity extractor 101 so as to reduce the loss means that the feature quantity extracted by the feature quantity extractor 101 is shifted in the direction of the weight vector of the same class and away from the weight vectors of other classes. In the direction of leaving, it is to correct.
  • the feature quantity extractor 101 is learned so that the feature quantity distributions for data with different statistical properties become closer to each other.
  • the parameter correction amount calculation unit 106 changes the correction amount of the weight vector of the class classifier 102 according to the statistical properties of the target data.
  • the weight vector is modified when data with specific statistical properties (for example, an image taken with a visible light camera) is input, but the weight vector is modified when data with other statistical properties is input. Do not modify the vector (or reduce the amount of modification).
  • the direction in which the weight vector is corrected becomes the direction of the feature quantity distribution for data having specific statistical properties.
  • the feature distribution for data with other statistical properties is brought closer to the feature distribution for data with one specific statistical property. Therefore, the type of data having other statistical properties is not limited to one, and feature quantity distributions for data having a plurality of types of statistical properties can be optimized at the same time. This makes it possible to improve the recognition performance for data having one or more statistical properties different from the specific statistical properties without reducing the recognition performance for data having specific statistical properties.
  • FIG. 4 is a conceptual diagram explaining the effects of the learning device 10 according to the first embodiment.
  • the upper diagram in FIG. 4 is a conceptual diagram of the distribution of feature amounts for data with different statistical properties on the feature amount space.
  • the feature amount of data belonging to the first class is represented by stars
  • the feature amount of data belonging to the second class is represented by triangles.
  • the feature amount distribution of data having the first statistical property is represented by a solid line
  • the feature amount distribution of data having the second statistical property is represented by a dotted line
  • the feature amount of data having the third statistical property is represented by a dotted line.
  • the distribution is represented by a dashed-dotted line.
  • the first statistical property is the statistical property of the learning data
  • statistical properties different from the learning data are the second and third statistical properties.
  • the lower diagram of FIG. 4 conceptually shows the correction of the difference in statistical properties between data according to the first embodiment.
  • the feature quantity distribution extracted by the feature quantity extractor 101 before correction has different distributions for data with different statistical properties, as shown in the above diagram.
  • the feature amount distribution of data having other statistical properties is changed to the first statistical property without destroying the feature amount distribution of data having the first statistical property.
  • the feature quantity extractor 101 is trained so as to approximate the feature quantity distribution of data having properties.
  • the arrows in the figure indicate the direction of correction of the feature quantity distribution in the feature quantity space
  • the dotted arrow indicates the direction of correction of the feature quantity distribution for data having the second statistical property
  • the dashed-dotted line arrow represents the direction of feature amount distribution correction for data having the third statistical property.
  • the data input unit 100 inputs a face image as target data to be learned from learning data.
  • the input face image may be an image that has undergone normalization processing in advance based on the points of facial features.
  • the input face image is denoted as I.
  • a feature quantity extractor 101 extracts the features of the input face image I and outputs the feature quantity.
  • the feature quantity extractor 101 is denoted as F ⁇ .
  • is a parameter included in the feature amount extractor 101 .
  • x is a parameter included in the feature amount extractor 101 .
  • x is a series of processes performed by the feature quantity extractor 101 .
  • the feature amount x is assumed to be a vector and is referred to as a feature amount vector x.
  • the class classifier 102 receives the feature amount vector x, and outputs a class classification inference result for the input face image I by statistical processing using weight vectors for the number of classes.
  • a weight vector for the number of classes is denoted as wi .
  • i is a subscript representing a class. It is assumed that the dimension of the feature quantity vector x and the dimension of the weight vector are the same. It is also assumed that the feature amount vector x and the weight vector wi are normalized to 1.
  • the correct information input unit 103 inputs the class label information (that is, the correct label) of the input face image I.
  • the correct label is denoted by t i
  • t i is a scalar value (that is, a one-hot vector) that has a value of 1 only for the class to which the input face image I belongs and is 0 otherwise.
  • the specific form of t i is not limited. For example, only the class to which the input face image I belongs has a value of 1, and the other classes have a small value, which is Label-Smoothing. There may be.
  • the statistical property information input unit 104 inputs the statistical property information of the input face image I.
  • the statistical property information is denoted as P, and P is a scalar value having a value from 0 to 1.
  • P is a scalar value having a value from 0 to 1.
  • P may have any value from 0 to 1 depending on the type of image sensor.
  • the loss calculation unit 105 calculates a loss using a loss function having as inputs (arguments) the class classification inference result y i and the class label information t i output from the class classifier 102, and the loss for various parameters. Calculate the gradient of a function.
  • the loss function is assumed to be Softmax-Cross Entropy Loss and denoted by L.
  • the gradient of the loss function L with respect to the parameter ⁇ of the feature extractor 101 is ⁇ L/ ⁇
  • the gradient of the loss function L with respect to the weight vector wi of the classifier 102 is ⁇ L / ⁇ wi .
  • the parameter correction amount calculation unit 106 calculates correction amounts of various parameters based on the loss function L, its gradient, and the statistical property information P.
  • the correction amount of the parameter ⁇ of the feature quantity extractor 101 is ⁇ ⁇ ⁇ L/ ⁇ using the gradient of the loss function L
  • the correction amount of the weight vector w i of the classifier 102 is the loss Using the gradient of the function L and the statistical property information P, let ⁇ P ⁇ w ⁇ L/ ⁇ w.
  • ⁇ ⁇ and ⁇ w are hyperparameters that determine the learning rate of the parameter ⁇ and the weight vector w, respectively.
  • the parameter correction unit 107 corrects various parameters by the error back propagation method based on the correction amounts of the various parameters calculated by the parameter correction amount calculation unit 106 .
  • the order of correcting the parameters is not limited. That is, the parameter modification unit 107 may modify the weight vector wi of the classifier 102 after modifying the parameter ⁇ of the feature quantity extractor 101, or may perform modification in the reverse order. . Further, the parameter correction unit 107 may separate the correction of the parameter ⁇ of the feature quantity extractor 101 and the correction of the class classifier 102 for each iteration of learning.
  • the target data is an image
  • only one image is input, but multiple images may be input at once to improve learning efficiency.
  • the weight vector wi is corrected only in the direction of the feature amount distribution for the image captured by the visible light camera.
  • the parameter ⁇ of the feature quantity extractor 101 is corrected so that the feature quantity vector approaches the weight vector wi of the same class regardless of the statistical property information P of the input face image I.
  • the feature quantity extractor 101 is trained so as to bring the feature quantity distribution closer to images captured by other image sensors without destroying the feature quantity distribution for images captured by a visible light camera.
  • FIG. 5 is a block diagram showing an example of the configuration of the learning device 11 according to the second embodiment.
  • the same configurations and functions as those of the learning device 10 according to the first embodiment will be omitted, and differences will be described.
  • the loss calculation unit 105 includes the feature amount extractor 101 and the statistical property information input unit 104 and the correct answer information input to the correct answer information input unit 103 are different.
  • the correct answer information input unit 103 inputs class label information or correct answer vectors as correct answer information.
  • a correct vector is a desired feature amount vector for the target data.
  • the correct vector may be generated by any method.
  • the correct answer information input unit 103 uses a learned feature amount extractor (this feature amount extractor is prepared separately from the feature amount extractor 101) to generate a feature amount vector for the target data.
  • the feature amount vector may be used as the correct vector.
  • the correct information input unit 103 inputs class label information or a correct vector depending on whether the target data has specific statistical properties. That is, the correct information input unit 103 inputs the correct vector of the target data when the target data has a specific statistical property. Further, the correct information input unit 103 inputs the class label information of the target data when the target data has statistical properties other than the specific statistical properties.
  • the loss calculation unit 105 determines whether the target data has statistical properties. When the target data is data having a specific statistical property, the loss calculation unit 105 calculates the correct vector input to the correct answer information input unit 103, the feature amount vector extracted by the feature amount extractor 101, is used as an input (argument) to calculate the loss. Further, when the target data is data having a statistical property other than a specific statistical property, the loss calculation unit 105 inputs the class classification inference result output from the class classifier 102 and the correct answer information input unit 103 A loss is calculated using the input class label information and a loss function having as inputs (arguments).
  • the distance between the feature amount vector and the correct vector is calculated as a loss.
  • Various parameters will be modified. Therefore, it is possible to further improve the effect of not destroying the feature quantity distribution of data having specific statistical properties.
  • FIG. 6 is a block diagram showing an example of the configuration of the learning device 12 according to the third embodiment.
  • the same configurations and functions as those of the learning device 10 according to the first embodiment will be omitted, and differences will be described.
  • the learning device 12 according to the third embodiment is characterized by having a statistical property information estimating unit 108 instead of the statistical property information input unit 104 according to the first embodiment. .
  • the statistical property information estimation unit 108 estimates statistical property information of the target data from the target data input to the data input unit 100, and outputs the estimated statistical property information.
  • the output statistical property information is used by the parameter correction amount calculator 106 to calculate the correction amounts of various parameters, as in the first embodiment described above.
  • the specific form of the statistical property information estimation unit 108 is not limited, and a convolutional layer, a pooling layer, a fully connected layer, or the like included in a neural network such as a convolutional neural network used in machine learning such as deep learning. may have the function of Moreover, the statistical property information estimation unit 108 may use a pre-learned model so that the statistical properties of the target data can be estimated from the target data.
  • the statistical property information estimation unit 108 estimates the statistical property information of the target data from the target data input to the data input unit 100 . Therefore, even if statistical property information is not added to the target data, it is possible to obtain the same effects as in the first embodiment described above.
  • the statistical property information estimation unit 108 and the statistical property information input unit 104 according to the first embodiment can be provided at the same time.
  • the parameter correction amount calculation unit 106 uses the input statistical property information to input the statistical property information to the statistical property information input unit 104. If no statistical property information is input, the statistical property information estimated by the statistical property information estimation unit 108 may be used.
  • the third embodiment has been described as having the statistical property information estimating unit 108 instead of the statistical property information input unit 104 according to the first embodiment, the present invention is not limited to this.
  • the third embodiment may be configured to include a statistical property information estimation unit 108 instead of the statistical property information input unit 104 according to the second embodiment.
  • the third embodiment can include the statistical property information estimation unit 108 and the statistical property information input unit 104 according to the second embodiment at the same time.
  • loss calculation section 105 may determine statistical property information to be used in the same manner as parameter correction amount calculation section 106 described above.
  • FIG. 7 is a block diagram showing an example of the configuration of the learning device 13 according to the fourth embodiment.
  • the learning device 13 includes an input unit 109 , a feature amount extractor 110 , a classifier 111 , a loss calculator 112 and a parameter corrector 113 .
  • the input unit 109 inputs target data to be learned, class label information representing the correct label of the target data, and statistical property information representing the statistical properties of the target data.
  • the input unit 109 corresponds to the data input unit 100 and correct answer information input unit 103 according to the first, second and third embodiments described above and the statistical property information input unit 104 according to the first and second embodiments described above.
  • the feature quantity extractor 110 uses parameters to extract feature quantities from the target data input to the input unit 109 .
  • the feature quantity extractor 110 corresponds to the feature quantity extractor 101 according to the first, second and third embodiments described above.
  • the class classifier 111 performs statistical processing using the feature quantity calculated by the feature quantity extractor 110 and the weight vectors for the number of classes, and outputs the class classification inference result of the target data input to the input unit 109. do.
  • a class classifier 111 corresponds to the class classifier 102 according to the first, second, and third embodiments described above.
  • the loss calculation unit 112 calculates a loss using a loss function whose inputs (arguments) are the class classification inference result output from the class classifier 111 and the class label information input to the input unit 109 .
  • the loss calculator 112 corresponds to the loss calculator 105 according to the first, second, and third embodiments described above.
  • the parameter correction unit 113 reduces the loss calculated by the loss calculation unit 112 according to the statistical property information input to the input unit 109. Correct the parameters.
  • a parameter correction unit 113 corresponds to the parameter correction unit 107 according to the first, second, and third embodiments described above.
  • the parameter modification unit 113 modifies the weight vector of the classifier 111 and the parameters of the feature amount extractor 110 so as to reduce the loss. Therefore, the feature quantity extractor 110 is trained so that the feature quantity distributions for data with different statistical properties become closer.
  • the parameter correction unit 113 corrects the weight vector of the class classifier 111 according to the statistical property information of the target data. Therefore, instead of bringing the feature value distributions for data with different statistical properties closer together, the feature value distributions for data with other statistical properties tend toward the feature value distributions for data with specific statistical properties.
  • the feature quantity extractor 110 is trained to approximate.
  • the type of data with other statistical properties is limited to one. can be multiple.
  • the recognition performance for data having one or more statistical properties different from the specific statistical property is improved without reducing the recognition performance for data having the specific statistical property. can be improved.
  • the learning device 12 calculates the amount of correction of the weight vector of the class classifier 111 and the amount of correction of the parameter of the feature amount extractor 110 so as to reduce the loss according to the statistical property information. You may further provide a part.
  • This parameter correction amount calculation unit corresponds to the parameter correction amount calculation unit 106 according to the first, second, and third embodiments described above.
  • the parameter correction unit 113 may correct the weight vector of the class classifier 111 and the parameter of the feature amount extractor 110 using the correction amount calculated by the parameter correction amount calculation unit.
  • the input unit 109 inputs the correct vector of the target data when the target data is data having a specific statistical property, and inputs the correct vector of the target data, In some cases, class label information for the subject data may be entered.
  • the feature amount extractor 110 may extract a feature amount vector as a feature amount from the target data.
  • the loss calculation unit 112 calculates the loss using a loss function having the correct vector and the feature amount vector as inputs, and calculates the loss so that the target data is In the case of data having statistical properties other than specific statistical properties, the loss may be calculated using a loss function whose inputs are class classification inference results and class label information.
  • the loss calculation unit 112 may further calculate the gradient of the loss function for the weight vectors for the number of classes of the class classifier 111 .
  • the parameter correction amount calculation unit calculates the correction amount of the weight vector of the class classifier 111 by statistical processing using the gradient of the loss function for the weight vector of the number of classes of the class classifier 111 and the statistical property information. may be calculated.
  • the loss calculation unit 112 may further calculate the gradient of the loss function with respect to the parameters of the feature quantity extractor 110 .
  • the parameter correction amount calculation unit may use the gradient of the loss function for the parameters of the feature amount extractor 110 as the correction amount for the parameters of the feature amount extractor 110, or the loss function for the parameters of the feature amount extractor 110.
  • the correction amount of the parameter of the feature amount extractor 110 may be calculated by statistical processing using the gradient and the statistical property information.
  • the learning device 12 may further include a statistical property information estimation unit that estimates statistical property information of the target data.
  • This statistical property information estimation unit corresponds to the statistical property information estimation unit 108 according to the third embodiment described above.
  • the parameter correction amount calculation unit uses the input statistical property information when the statistical property information is input to the input unit 109, and if the statistical property information is not input to the input unit 109, , the statistical property information estimated by the statistical property information estimation unit may be used.
  • the learning devices 10, 11, 12, and 13 according to the first, second, third, and fourth embodiments described above can be realized by computers.
  • This computer is composed of a computer system including a personal computer, a word processor, and the like.
  • the computer is not limited to this, and can be configured by a LAN (local area network) server, a computer (personal computer) communication host, a computer system connected to the Internet, or the like. It is also possible to distribute the functions to each device on the network and configure the computer over the entire network.
  • the learning devices 10, 11, 12, and 13 have been described as hardware configurations, but this disclosure is not limited to this.
  • This disclosure provides a computer program for executing various processes such as the learning data acquisition process, the feature amount extraction process, the class classification process, the loss calculation process, the parameter correction amount calculation process, the parameter correction process, the parameter determination process, etc. in the processor 1010 described later. It is also possible to realize by executing
  • FIG. 8 is a block diagram showing an example configuration of a computer 1900 that implements the learning devices 10, 11, 12, and 13 according to the first, second, third, and fourth embodiments described above.
  • the computer 1900 has a control section 1000 for controlling the entire system.
  • An input device 1050, a display device 1100, a storage device 1200, a storage medium drive device 1300, a communication control device 1400, and an input/output I/F 1500 are connected to the control unit 1000 via bus lines such as a data bus.
  • the control unit 1000 includes a processor 1010, a ROM (Read Only Memory) 1020, and a RAM (Random Access Memory) 1030.
  • the processor 1010 performs various information processing and controls according to programs stored in various storage units such as the ROM 1020 and storage device 1200 .
  • the ROM 1020 is a read-only memory in which various programs and data for the processor 1010 to perform various controls and calculations are stored in advance.
  • a RAM 1030 is a random access memory used by the processor 1010 as working memory. In this RAM 1030, various areas can be secured for performing various processes according to the first, second, third, and fourth embodiments described above.
  • the input device 1050 is an input device such as a keyboard, mouse and touch panel that receives input from the user.
  • the keyboard has various keys such as ten keys, function keys for executing various functions, and cursor keys.
  • the mouse is a pointing device and an input device for designating a corresponding function by clicking a key, icon, or the like displayed on the display device 1100 .
  • the touch panel is an input device arranged on the surface of the display device 1100. The touch panel identifies a user's touch position corresponding to various operation keys displayed on the screen of the display device 1100, and displays an operation corresponding to the touch position. Accept key input.
  • the display device 1100 for example, a CRT (Cathode Ray Tube) display, liquid crystal display, or the like is used.
  • the display device 1100 displays input results from a keyboard or a mouse, and finally retrieved image information. Further, the display device 1100 displays images of operation keys for performing various necessary operations from the touch panel according to various functions of the computer 1900 .
  • the storage device 1200 is composed of a readable and writable storage medium and a drive device for reading and writing various information such as programs and data on the storage medium.
  • a hard disk or the like is mainly used as the storage medium used in this storage device 1200, but a non-temporary computer-readable medium used in the storage medium drive device 1300, which will be described later, may also be used.
  • the storage device 1200 includes a data storage unit 1210, a program storage unit 1220, and other storage units (not shown) (for example, a storage unit for backing up the programs and data stored in the storage device 1200). ing.
  • the program storage unit 1220 stores programs for realizing various processes in the first, second, third, and fourth embodiments described above.
  • the data storage unit 1210 stores various data of various databases according to the first, second, third, and fourth embodiments described above.
  • the storage medium drive device 1300 is a drive device for the processor 1010 to read data including computer programs and documents from an external storage medium (external storage medium).
  • an external storage medium refers to a non-temporary computer-readable medium that stores computer programs, data, etc.
  • Non-transitory computer readable media include various types of tangible storage media. Examples of non-transitory computer-readable media include magnetic recording media (e.g., flexible discs, magnetic tapes, hard disk drives), magneto-optical recording media (e.g., magneto-optical discs), CD-ROMs (Compact Disc-ROMs), CD- R (CD-Recordable), CD-R/W (CD-ReWritable), semiconductor memory (eg mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM).
  • Various programs may also be provided to the computer by various types of transitory computer readable medium.
  • Examples of transitory computer-readable media include electrical signals, optical signals, and electromagnetic waves.
  • the temporary computer-readable medium can supply various programs to the computer via a wired communication path such as electric wires and optical fibers, or a wireless communication path and the storage medium drive 1300 .
  • the processor 1010 of the control unit 1000 reads various programs from an external storage medium set in the storage medium drive device 1300 and stores them in each unit of the storage device 1200.
  • the computer 1900 executes various processes, the corresponding program is read from the storage device 1200 into the RAM 1030 and executed.
  • the computer 1900 can also read the program directly into the RAM 1030 from an external storage medium by the storage medium drive device 1300 instead of from the storage device 1200 and execute the program.
  • various programs may be stored in the ROM 1020 in advance and the processor 1010 may execute them.
  • the computer 1900 may download various programs and data from another storage medium via the communication control device 1400 and execute them.
  • the communication control device 1400 is a control device for network connection between the computer 1900 and various external electronic devices such as other personal computers and word processors.
  • the communication control device 1400 enables access to the computer 1900 from these various external electronic devices.
  • the input/output I/F 1500 is an interface for connecting various input/output devices via parallel ports, serial ports, keyboard ports, mouse ports, and the like.
  • Processor 1010 may be a CPU (Central Processing Unit), GPU (Graphics Processing Unit), FPGA (field-programmable gate array), DSP (digital signal processor), ASIC (application specific integrated circuit), or the like.
  • CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • FPGA field-programmable gate array
  • DSP digital signal processor
  • ASIC application specific integrated circuit
  • This disclosure is applicable to various data, including image processing such as face recognition and object recognition.
  • this disclosure can be used in an image processing apparatus to improve the recognition performance for near-infrared images, far-infrared images, etc. without deteriorating the recognition performance for visible light images.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

この開示にかかる学習装置(12)は、クラス分類問題の教師有り学習を行う。学習装置(12)は、学習対象の対象データ、対象データのクラスラベル情報、及び対象データの統計的性質情報を入力する入力部(109)と、パラメータを用いて、対象データから特徴量を抽出する特徴量抽出器(110)と、特徴量とクラス数分の重みベクトルとを用いた統計処理により、対象データのクラス分類推論結果を出力するクラス分類器(111)と、クラス分類推論結果とクラスラベル情報とを入力とする損失関数を用いて、損失を算出する損失算出部(112)と、統計的性質情報に応じて、損失が小さくなるように、クラス分類器(111)の重みベクトル及び特徴量抽出器(110)のパラメータを修正するパラメータ修正部(113)と、を含む。

Description

学習装置、学習方法、及びコンピュータ可読媒体
 この開示は、学習装置、学習方法、及びコンピュータ可読媒体に関する。
 対象となるデータの特徴(パターン)を特徴量抽出器により抽出し、抽出された特徴量を用いて、データの認識を行うパターン認識装置が知られている。例えば、物体画像認識では、対象の物体が映る画像から特徴量ベクトルを抽出し、線形分類器により対象の物体がどのクラスに属するかを推定する。また、顔認証では、人物顔画像から特徴量ベクトルを抽出し、特徴量空間上での特徴量ベクトルの距離により本人又は他人の認識を行う。
 このような認識を可能とするために、事前に収集した正解クラスラベル付きの教師有りデータ(以下、学習データと呼ぶ)を用いて、対象データとそのクラスラベルとの統計的な性質を近づけるように特徴量抽出器を学習する、統計的機械学習が広く利用されている。顔認証の例では、異なる人物をそれぞれ異なるクラスとして定義し、多クラス分類問題の教師有り学習を行う。
 このとき、一般的に、統計的機械学習では、学習データと同じ統計的性質を持つデータに対しては高い認識性能を持つが、学習データと統計的性質が異なるデータに対しては性能が低下する。統計的性質が異なる画像としては、例えば、可視光カメラで撮影された画像と近赤外カメラで撮影された画像とのような、クラスラベル情報以外の情報が異なるような画像である。
 統計的性質が異なるデータに対して性能が低下する原因としては、抽出される特徴量の、特徴量空間上での統計的な分布が異なることが挙げられる。この原因に関して、図1の上図を用いて、詳しく説明する。
 図1の上図は、統計的性質が異なるデータに対する特徴量の、特徴量空間上での分布に関する概念図である。ここでは、データには2つのクラスのみ存在するとし、第1のクラスに属するデータの特徴量を星で表し、第2のクラスに属するデータの特徴量を三角で表している。また、第1の統計的性質を持つデータの特徴量分布を実線で表し、第2の統計的性質を持つデータの特徴量分布を点線で表している。特に、第1の統計的性質を学習データの統計的性質であることを想定し、学習データとは異なる統計的性質を第2の統計的性質とする。
 学習データを用いた教師有り学習により、特徴量抽出器は、第1の統計的性質を持つデータに対する特徴量分布(図1の上図の実線の丸の範囲)のクラス同士の分離度が高くなるように学習される。つまり、特徴量抽出器は、同クラス内の特徴量の距離は小さく、他クラス間の特徴量の距離は大きくなるように学習される。
 このとき、学習データとは異なる統計的性質である第2の統計的性質を持つデータに対する特徴量分布は、十分に(もしくは全く)学習されていないために、第1の統計的性質を持つデータに対する特徴量分布とは異なる分布を持つ。特に、第1の統計的性質を持つデータに対する特徴量分布よりも、クラス同士の分離度が低い分布を持つ。
 このことにより、第1の統計的性質を持つデータに対する特徴量と比較して、第2の統計的性質を持つデータに対する特徴量は、同クラス内の特徴量の距離が大きくなるか、もしくは、他クラス間の特徴量の距離が小さくなるため、クラス分類等の認識性能が低下する。特に、顔認証の場合、本人の画像であっても、統計的性質が異なる画像同士の特徴量の距離が大きくなり、認識性能が低下する。
 このような、学習データとの統計的性質の差が生じる状況は多く存在する。例えば、顔認証の場合、学習データには、容易に入手可能な可視光カメラで撮影された画像が多く含まれるが、近赤外カメラや遠赤外線カメラ等で撮影された画像は数が少ない(もしくは含まれない)ことが一般的である。このために、可視光カメラで撮影された可視光画像に比べて、近赤外カメラで撮影された近赤外画像での認識精度が低下することが問題となっている。
 上述したようなデータ間の統計的性質の差を補正するために、統計的性質の異なる、同クラスのデータの特徴量分布を互いに近づけるように特徴量抽出器を学習する手法が知られている。
 図1の下図は、データ間の統計的性質の差の補正を概念的に示した図である。補正前の、特徴量抽出器により抽出される特徴量分布は、上図に表すように、統計的性質の異なるデータでそれぞれ異なる分布を持つ。これに対して、補正後の特徴量分布は、同クラスで統計的性質の異なるデータの特徴量分布を互いに近づけるように特徴量抽出器が学習される。図中の矢印は、特徴量空間における、特徴量分布の補正の方向を示し、実線の矢印は第1の統計的性質を持つデータに対する特徴量分布の補正の方向を表し、点線の矢印は第2の統計的性質を持つデータに対する特徴量分布の補正の方向を表す。
 この補正により、同クラスの、第1、第2の統計的性質を持つデータが、ある一定の分布を持つようになる。また、補正後の特徴量分布は、補正前の特徴量分布と比較して、第2の統計的性質を持つデータに対する特徴量のクラス同士の分離度が高くなる。
 補正後の特徴量分布では、第1、第2の統計的性質を持つデータが、ある一定の分布を持つようになることにより、同クラスの、統計的性質が異なるデータの特徴量間の距離が、補正前の特徴量分布と比較して小さくなる。この結果、例えば、顔認証の場合、統計的性質が異なる画像(例えば、可視光カメラで撮影された画像と近赤外カメラで撮影された画像)同士の認証精度が改善するという効果がある。
 また、補正後の特徴量分布は、補正前の特徴量分布と比較して、第2の統計的性質を持つデータに対する特徴量のクラス同士の分離度が高くなることにより、第2の統計的性質を持つデータに対する認証精度が改善するという効果がある。
 上述したような、データ間の統計的性質の差を補正する技術の1つとして、特許文献1,2に開示された学習方法がある。
 特許文献1にかかる学習方法では、訓練データとテストデータとが異なる確率分布に従っている場合に、訓練データとテストデータとの生成確率の比である重要度を考慮した重要度重み付き損失関数を用いた勾配ブースティングによって、予測モデルを学習する。これにより、テストデータのラベルをより高い精度で予測する。このようにして、特許文献1にかかる学習方法では、確率分布が異なる訓練データとテストデータ間、すなわち、統計的性質が異なる訓練データとテストデータ間の統計的性質の差を補正している。予測モデルがニューラルネットワーク等の特徴量抽出器により構成される場合、この補正は、訓練データに対する特徴量分布とテストデータに対する特徴量分布とを互いに近づけるように、特徴量抽出器を学習することと同義である。
 特許文献2にかかる学習方法は、データ間における統計的性質のずれを補正する、ドメイン適用(Domain adaptation)と呼ばれる技術に関するものであり、ドメイン情報有りデータに加え、ドメイン情報無しデータを用いた半教師有り学習を実現する効果を奏することに特徴を持つ。このようにして、特許文献2にかかる学習方法では、ドメイン情報有りデータとドメイン情報無しデータ間、すなわち、統計的性質が異なるドメイン情報有りデータとドメイン情報無しデータ間の統計的性質の差を補正している。モデルがニューラルネットワーク等の特徴量抽出器により構成される場合、この補正は、ドメインが異なるそれぞれのデータに対する特徴量分布を互いに近づけるように、特徴量抽出器を学習することと同義である。
特開2010-092266号公報 国際公開第2019/102962号
 この開示の目的は、関連する技術における課題を解決することにある。
 一態様による学習装置は、
 クラス分類問題の教師有り学習を行う学習装置であって、
 学習対象の対象データ、前記対象データのクラスラベル情報、及び前記対象データの統計的性質情報を入力する入力部と、
 パラメータを用いて、前記対象データから特徴量を抽出する特徴量抽出器と、
 前記特徴量とクラス数分の重みベクトルとを用いた統計処理により、前記対象データのクラス分類推論結果を出力するクラス分類器と、
 前記クラス分類推論結果と前記クラスラベル情報とを入力とする損失関数を用いて、損失を算出する損失算出部と、
 前記統計的性質情報に応じて、前記損失が小さくなるように、前記クラス分類器の前記重みベクトル及び前記特徴量抽出器の前記パラメータを修正するパラメータ修正部と、
 を含む。
 一態様による学習方法は、
 クラス分類問題の教師有り学習を行う学習装置による学習方法であって、
 学習対象の対象データ、前記対象データのクラスラベル情報、及び前記対象データの統計的性質情報を入力し、
 特徴量抽出器によって、パラメータを用いて、前記対象データから特徴量を抽出し、
 クラス分類器によって、前記特徴量とクラス数分の重みベクトルとを用いた統計処理により、前記対象データのクラス分類推論結果を出力し、
 前記クラス分類推論結果と前記クラスラベル情報とを入力とする損失関数を用いて、損失を算出し、
 前記統計的性質情報に応じて、前記損失が小さくなるように、前記クラス分類器の前記重みベクトル及び前記特徴量抽出器の前記パラメータを修正する。
 一態様による非一時的なコンピュータ可読媒体は、
 クラス分類問題の教師有り学習を行うコンピュータに、
 学習対象の対象データ、前記対象データのクラスラベル情報、及び前記対象データの統計的性質情報を入力する処理と、
 特徴量抽出器によって、パラメータを用いて、前記対象データから特徴量を抽出する処理と、
 クラス分類器によって、前記特徴量とクラス数分の重みベクトルとを用いた統計処理により、前記対象データのクラス分類推論結果を出力する処理と、
 前記クラス分類推論結果と前記クラスラベル情報とを入力とする損失関数を用いて、損失を算出する処理と、
 前記統計的性質情報に応じて、前記損失が小さくなるように、前記クラス分類器の前記重みベクトル及び前記特徴量抽出器の前記パラメータを修正する処理と、
 を実行させるプログラムが格納される。
 上述した態様によれば、学習データと同じ統計的性質を持つデータに対する認識性能を落とさずに、学習データとは異なる1つもしくは複数の統計的性質を持つデータに対する認識性能を向上させることができる。
統計的性質が異なるデータに対する特徴量の、特徴量空間上での分布に関する概念図である。 実施形態1にかかる学習装置の構成の一例を示すブロック図である。 実施形態1にかかる学習装置の動作の一例を示すフローチャートである。 実施形態1に係る学習装置の効果の説明に用いる、特徴量の特徴量空間上での分布に関する概念図である。 実施形態2にかかる学習装置の構成の一例を示すブロック図である。 実施形態3にかかる学習装置の構成の一例を示すブロック図である。 実施形態4にかかる学習装置の構成の一例を示すブロック図である。 実施形態1,2,3,4にかかる学習装置を実現するコンピュータの構成の一例を示すブロック図である。
 この開示の実施形態を説明する前に、この開示の課題及び目的について詳細に説明する。
 上述したように、特許文献1,2にかかる学習方法では、ある特定の2つの統計的性質を持つデータを用い、その2つのデータの特徴量分布を近づけるように、特徴量抽出器を学習する。よって、上記2つの統計的性質とはさらに異なる第3の統計的性質を持つデータに関しては、依然として認識性能は低いままであるという問題がある。
 加えて、特許文献1,2にかかる学習方法では、2つの統計的性質を持つデータの特徴量分布を互いに近づけるように、特徴量抽出器を学習する。このとき、対象となる統計的性質を持つデータ(図1で言うと、第2の統計的性質を持つデータ)に関しては認識性能が向上するが、元々の学習データ(図1で言うと、第1の統計的性質を持つデータ)と同じ統計的性質を持つデータに関しては逆に認識性能が低下するという問題がある。例えば、可視光画像が学習データと同じ統計的性質を持ち、近赤外画像が学習データとは異なる統計的性質を持つ場合では、近赤外画像に対する認識性能は向上するが、可視光画像に対する認識性能は低下する。これは、可視光画像に対する特徴量分布と近赤外画像に対する特徴量分布とを互いに近づけたために、元々は分離度が高かった可視光画像に対する特徴量分布が崩されることが原因である。
 この開示は、学習データと同じ統計的性質を持つデータに対する認識性能を落とさずに、学習データとは異なる1つもしくは複数の統計的性質を持つデータに対する認識性能を向上させることが目的である。
 以下、この開示の実施形態について図面を参照して詳細に説明する。
 なお、以下の説明に用いる各図面は、この開示の実施形態を説明するためのものである。ただし、この開示は、各図面の記載に限られるわけではない。また、各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。また、以下の説明に用いる図面において、この開示の説明に関係しない部分の構成については、記載を省略し、図示しない場合もある。
 さらに、この開示の実施形態が用いるデータは、制限されない。認識対象は、物体の画像でもよいし、顔の画像でもよい。以下の説明では、データの一例として、顔の画像を用いる場合がある。しかし、これは、対象となるデータを制限するものではない。
(実施形態1)
 以下、この開示の実施形態1について図2を参照して説明する。
 図2は、本実施形態1にかかる学習装置10の構成の一例を示すブロック図である。図2に示すように、学習装置10は、データ入力部100と、特徴量抽出器101と、クラス分類器102と、正解情報入力部103と、統計的性質情報入力部104と、損失算出部105と、パラメータ修正量算出部106と、パラメータ修正部107と、を備える。
 データ入力部100は、学習データの中から、学習対象となる対象データを入力する。このとき、例えば、対象データが画像の場合、対象データは、画像に含まれる被写体の位置に基づいて予め被写体を正規化した正規化画像であってもよい。また、入力される対象データは、1つでもよいし、複数でもよい。
 特徴量抽出器101は、学習可能なパラメータを含むものであり、そのパラメータを用いて、対象データの特徴を表す特徴量を算出し出力する。ここで、特徴量抽出器101の具体形は限定されず、深層学習等の機械学習にて用いられる、畳み込みニューラルネットワーク等のニューラルネットワークに含まれる畳み込み層、プーリング層、又は全結合層等の機能を有してもよい。特徴量抽出器101のパラメータの具体形としては、例えば、畳み込み層の場合はカーネル(フィルタ)の重みであり、全結合層の場合はアフィン変換にかかる重みである。また、特徴量抽出器101から出力される特徴量は、テンソルの形(すなわち、特徴量マップ)であってもよいし、ベクトルの形(すなわち、特徴量ベクトル)であってもよい。
 クラス分類器102は、特徴量抽出器101から出力された特徴量とクラス数分の重みベクトルとを用いた統計処理により、対象データのクラス分類推論結果を出力する。ただし、特徴量抽出器101から出力された特徴量がテンソルである場合は、クラス分類器102は、特徴量マップと重みベクトルとを用いた統計処理を行う。また、重みベクトルはテンソルの形であってもよい。
 クラス分類器102のパラメータであるクラス数分の重みベクトルは、各クラスの、特徴量空間上の代表点を表すものであり、この重みベクトルと特徴量との統計処理は、各クラスの代表点に対する特徴量の特徴量空間上の距離を算出することを表す。よって、クラス分類器102の出力であるクラス分類推論結果は、特徴量抽出器101から出力された特徴量と各クラスの代表点との距離を表す値となる。このとき、重みベクトルの数(すなわち、クラスの数)は、後述の正解情報入力部103に入力されるクラスラベルの数と一致する必要はない。
 なお、以下の記載において、「各種パラメータ」と言う場合は、特徴量抽出器101のパラメータ及びクラス分類器102のクラス数分の重みベクトルを指すものとする。
 正解情報入力部103は、正解情報として、クラスラベル情報を入力する。クラスラベル情報は、対象データの正解ラベルを表す情報である。例えば、対象データが顔画像の場合、顔画像に移っている人物の人物IDをクラスラベルとしてもよい。
 統計的性質情報入力部104は、対象データの統計的性質を表す情報である統計的性質情報を入力する。統計的性質情報は、ある値をもつスカラー値でもよいし、統計的性質に基づいたベクトルもしくはテンソルでもよい。例えば、対象データが画像の場合、可視光カメラで撮影された画像については統計的性質情報を1とし、それ以外のイメージセンサで撮影された画像については統計的性質情報を0としてもよい。
 損失算出部105は、クラス分類器102から出力されたクラス分類推論結果と、正解情報入力部103に入力されたクラスラベル情報と、を入力(引数)とする損失関数を用いて、損失を算出し出力する。また、損失算出部105は、後述する、各種パラメータの修正量の算出に用いるための、各種パラメータに対する損失関数の勾配(すなわち、損失関数の1階微分)も同時に算出する。
 損失算出部105において、損失関数を用いて算出される損失は、クラス分類推論結果とクラスラベル情報との違いに応じた値になるように定義される。具体的には、損失は、クラス分類推論結果とクラスラベル情報との違いが大きいほど、大きい値を持つように定義される。よって、損失が小さくなるように、各種パラメータを最適化することは、クラス分類推論結果を正解ラベルに近づけるように最適化することと同義である。
 ここで、クラス分類推論結果を正解ラベルに近づけるということは、一般的に、特徴量空間上において、特徴量と同クラスの重みベクトルとの距離を小さくし、特徴量と他クラスの重みベクトルとの距離を大きくすることであるといえる。つまり、損失算出部105により算出された損失が小さくなるように、各種パラメータを最適化することは、特徴量と同クラスの重みベクトルとの距離を小さくし、特徴量と他クラスの重みベクトルとの距離を大きくするように最適化することと同義である。
 このとき、損失算出部105で用いる損失関数の具体的な関数形は限定されない。例えば、損失関数は、クラス分類問題で一般的に用いられるSoftmax-Cross Entropy Lossであってもよいし、SphereFace、CosFace、ArcFace等のマージン系Softmax Lossであってもよい。また、損失関数は、距離学習で用いられる各種損失関数であってもよいし、それらの組み合わせであってもよい。
 パラメータ修正量算出部106は、損失算出部105により算出された損失を小さくするための、各種パラメータの修正量を算出する。特に、パラメータ修正量算出部106は、各種パラメータに対する損失関数の勾配及び統計的性質情報入力部104に入力された統計的性質情報の値に応じて、各種パラメータの修正量を算出する。具体的には、例えば、クラス分類器102の重みベクトルに関しては、重みベクトルに対する損失関数の勾配と統計的性質情報の値とを用いた統計処理により、重みベクトルの修正量を算出する。特徴量抽出器101のパラメータに関しては、特徴量抽出器101のパラメータに対する損失関数の勾配を修正量としてもよいし、その勾配と統計的性質情報の値とを用いた統計処理によりパラメータの修正量を算出してもよい。
 パラメータ修正部107は、パラメータ修正量算出部106により算出された各種パラメータの修正量に基づいて、各種パラメータを修正する。このとき、各種パラメータの修正には、例えば、深層学習等の機械学習にて用いられる、確率的勾配降下法、及び誤差逆伝搬法等を用いてよい。
 なお、後述するように、学習装置10は、特徴量抽出器101及びクラス分類器102の各種パラメータを繰り返し修正する。
 また、本実施形態1では、学習対象となる対象データの統計的性質は限定されない。また、統計的性質情報入力部104に入力される対象データの統計的性質の種類は、2つでもよいし、それ以上でもよい。
 次に、図3を参照して、本実施形態1にかかる学習装置10の動作を説明する。
 図3は、本実施形態1にかかる学習装置10の動作の一例を示すフローチャートである。
 まず、S10において、データ入力部100は、学習データベース(不図示)から大量の学習データを取得する。一例として、学習データは、学習対象の対象データとなる画像と、当該画像の被写体の分類を示す正解ラベルと、当該画像の統計的性質情報と、を含むデータセットであってよい。この場合、データ入力部100は、上述した画像を対象データとして入力し、正解情報入力部103は、上述した正解ラベルを表すクラスレベル情報を入力し、統計的性質情報入力部104は、上述した統計的性質情報を入力する。ここで、対象データの画像は、予め正規化処理が行われた正規化画像であってよい。なお、交差検定を行う場合は、学習データは訓練データとテストデータとに分類されていてよい。
 次に、S11において、特徴量抽出器101は、その時点におけるパラメータを用いて、S10の動作においてデータ入力部100に入力された対象データの特徴を抽出した特徴量を算出する。
 その時点におけるパラメータとは、前回のS16の動作においてパラメータ修正部107により修正された後のパラメータである。最初の動作の場合、その時点におけるパラメータとは、パラメータの初期値である。特徴量抽出器101のパラメータの初期値は、ランダムに決定したものでもよいし、予め教師有り学習により学習されたものを用いてもよい。
 次に、S12において、クラス分類器102は、その時点における重みベクトルを用いて、S11の動作において特徴量抽出器101により算出された特徴量と、重みベクトルと、を用いた統計処理により、対象データのクラス分類推論結果を出力する。
 その時点における重みベクトルとは、前回のS16の動作においてパラメータ修正部107により修正された後の重みベクトルである。最初の動作の場合、その時点における重みベクトルとは、重みベクトルの初期値である。重みベクトルの初期値は、ランダムに決定したものでもよいし、予め教師有り学習により学習されたものを用いてもよい。
 次に、S13において、損失算出部105は、損失関数を用いて、S12の動作においてクラス分類器102により出力されたクラス分類推論結果と、S10の動作において正解情報入力部103に入力された正解ラベルと、の間の損失を算出する。また、損失算出部105は、各種パラメータに対する損失関数の勾配も同時に算出する。
 次に、S14において、パラメータ修正量算出部106は、学習を終了するか否かを判定する。本実施形態1では、パラメータ修正量算出部106は、S16の動作が行われた回数を表す更新回数が予め設定された回数に達したか否かを判定することにより、学習を終了するか否かを判定してよい。また、パラメータ修正量算出部106は、損失が予め定められた閾値未満であるか否かを判定することにより、学習を終了するか否かを判定してもよい。パラメータ修正量算出部106は、学習を終了する場合は(S14でYes)、処理をS17に進め、そうでない場合は(S14でNo)、処理をS15に進める。
 S15において、パラメータ修正量算出部106は、S13の動作において損失算出部105により算出された損失を小さくするための、各種パラメータの修正量を算出する。例えば、パラメータ修正量算出部106は、S13の動作において損失算出部105により算出された、各種パラメータに対する損失関数の勾配と、S10の動作において統計的性質情報入力部104に入力された統計的性質情報の値と、に基づいて、各種パラメータの修正量を算出する。このとき、クラス分類器102のパラメータ(重みベクトル)に関しては、重みベクトルに対する損失関数の勾配を統計的性質情報に基づいて統計処理を行ったものを修正量とする。一方、特徴量抽出器101のパラメータに関しては、特徴量抽出器101のパラメータに対する損失関数の勾配を修正量としてもよいし、その勾配と統計的性質情報の値とを用いた統計処理により修正量を算出してもよい。
 S16において、パラメータ修正部107は、ステップS15の動作においてパラメータ修正量算出部106により算出された各種パラメータの修正量に基づいて、各種パラメータを修正する。パラメータ修正部107は、一例として確率的勾配降下法及び誤差逆伝播法を用いて、各種パラメータを更新してよい。このとき、パラメータを修正する順番は限定されない。すなわち、パラメータ修正部107は、特徴量抽出器101のパラメータを修正してから、クラス分類器102の重みベクトルを修正してもよいし、その逆の順番で修正を行ってもよい。また、パラメータ修正部107は、学習の繰り返しごとに、特徴量抽出器101のパラメータの修正とクラス分類器102の重みベクトルの修正とを分けてもよい。そして、パラメータ修正部107は、処理をS10に戻す。
 S17において、パラメータ修正部107は、各種パラメータを直近のステップS16の動作において修正された値に決定する。
 以上で、学習装置10の動作が終了する。
 このようにして、学習装置10は、機械学習により、特徴量抽出器101に含まれるパラメータ、及び、クラス分類器102に含まれる重みベクトルを最適化する。
 次に、本実施形態1にかかる学習装置10の効果を説明する。
 上述したように、本実施形態1によれば、パラメータ修正部107は、損失算出部105で算出される損失が小さくなるように、特徴量抽出器101のパラメータ及びクラス分類器102の重みベクトルを修正する。このことは、特徴量空間上において、特徴量と同クラスの重みベクトルとの距離を小さくし、特徴量と他クラスの重みベクトルとの距離を大きくすることと同義である。
 損失が小さくなるようにクラス分類器102の重みベクトルを修正することは、重みベクトルを、入力された対象データの特徴量の方向に修正することである。つまり、入力された対象データが第1の統計的性質を持つデータの場合、第1の統計的性質を持つデータに対する特徴量分布の方向に向かって重みベクトルは修正される。また、入力された対象データが第2の統計的性質を持つデータの場合、第2の統計的性質を持つデータに対する特徴量分布の方向に向かって重みベクトルは修正される。
 また、損失が小さくなるように特徴量抽出器101のパラメータを修正することは、特徴量抽出器101により抽出される特徴量を、同クラスの重みベクトルの方向に、かつ他クラスの重みベクトルから離れる方向に、修正することである。
 特徴量抽出器101のパラメータ及びクラス分類器102の重みベクトルの修正を繰り返すことにより、異なる統計的性質を持つデータに対する特徴量分布が互いに近づくように特徴量抽出器101が学習される。
 また、本実施形態1によれば、パラメータ修正量算出部106は、対象データの統計的性質に応じて、クラス分類器102の重みベクトルの修正量を変更する。つまり、特定の統計的性質を持つデータ(例えば、可視光カメラで撮影された画像)が入力された場合は重みベクトルを修正するが、その他の統計的性質を持つデータが入力された場合は重みベクトルを修正しない(もしくは修正量を小さくする)。これにより、重みベクトルが修正される方向が、特定の統計的性質を持つデータに対する特徴量分布の方向となる。
 その結果として、異なる統計的性質を持つデータに対する特徴量分布を、互いに近づけるのではなく、特定の統計的性質を持つデータ(例えば、可視光カメラで撮影された画像)に対する特徴量分布に向かって、その他の統計的性質を持つデータに対する特徴量分布が近づくように特徴量抽出器101が学習される。これにより、特定の統計的性質を持つデータに対する認識性能を落とさずに、その他の統計的性質を持つデータに対する認識性能を向上させることができる。
 また、本実施形態1によれば、特定の1つの統計的性質を持つデータに対する特徴量分布に向かって、その他の統計的性質を持つデータに対する特徴量分布を近づける。そのため、その他の統計的性質を持つデータの種類は1つに限定されず、複数の種類の統計的性質を持つデータに対する特徴量分布を同時に最適化することができる。これにより、特定の統計的性質を持つデータに対する認識性能を落とさずに、特定の統計的性質とは異なる1つもしくは複数の統計的性質を持つデータに対する認識性能を向上させることができる。
 図4は、本実施形態1にかかる学習装置10の効果を説明する概念図である。
 図4の上図は、統計的性質が異なるデータに対する特徴量の、特徴量空間上での分布に関する概念図である。ここでは、データには2つのクラスのみ存在するとし、第1のクラスに属するデータの特徴量を星で表し、第2のクラスに属するデータの特徴量を三角で表している。また、第1の統計的性質を持つデータの特徴量分布を実線で表し、第2の統計的性質を持つデータの特徴量分布を点線で表し、第3の統計的性質を持つデータの特徴量分布を1点鎖線で表している。特に、第1の統計的性質を学習データの統計的性質であることを想定し、学習データとは異なる統計的性質を第2及び第3の統計的性質とする。
 図4の下図では、本実施形態1にかかる、データ間の統計的性質の差の補正を概念的に示した図である。補正前の、特徴量抽出器101により抽出される特徴量分布は、上図に示すように、統計的性質の異なるデータでそれぞれ異なる分布を持つ。これに対して、本実施形態1によれば、第1の統計的性質を持つデータの特徴量分布は崩さずに、その他の統計的性質を持つデータの特徴量分布を、第1の統計的性質を持つデータの特徴量分布に近づけるように特徴量抽出器101が学習される。図中の矢印は、特徴量空間における、特徴量分布の補正の方向を示し、点線の矢印は第2の統計的性質を持つデータに対する特徴量分布の補正の方向を表し、1点鎖線の矢印は第3の統計的性質を持つデータに対する特徴量分布の補正の方向を表す。
 次に、本実施形態1にかかる学習装置10の具体的な実施例を説明する。
 例えば、顔照合において、データ入力部100は、学習データの中から、学習対象となる対象データとして顔画像を入力する。このとき、入力顔画像は、顔器官点に基づき予め正規化処理を行った画像であってもよい。以下の説明では、入力顔画像をIと記す。
 特徴量抽出器101は、入力顔画像Iの特徴を抽出し、特徴量を出力する。ここで、特徴量抽出器101をFΦと記す。なお、Φは特徴量抽出器101に含まれるパラメータである。特徴量抽出器101から出力される特徴量をxと記すと、特徴量抽出器101が行う一連の処理は、x=FΦ(I)と表すことができる。なお、以下の説明では、特徴量xをベクトルであるとし、特徴量ベクトルxと記す。
 クラス分類器102は、特徴量ベクトルxを入力し、クラス数分の重みベクトルを用いた統計処理により、入力顔画像Iのクラス分類推論結果を出力する。ここで、クラス数分の重みベクトルをwと記す。iはクラスを表す添え字である。なお、特徴量ベクトルxの次元と重みベクトルの次元は同じものであるとする。また、特徴量ベクトルxと重みベクトルwは1に規格化されているものとする。クラス分類推論結果をyと記し、統計処理の一例として、特徴量ベクトルxと重みベクトルwとの内積を用いると、クラス分類器102が行う一連の処理は、y=w・xと表せる。このとき、クラス分類推論結果yは、-1から1までの値を持つスカラー値となり、値が大きいほど特徴量ベクトルxと重みベクトルwの、特徴量空間上での距離が近いことを表す。
 正解情報入力部103は、入力顔画像Iのクラスラベル情報(すなわち、正解ラベル)を入力する。ここで、正解ラベルをtと記し、tは入力顔画像Iが属するクラスのみ1の値を持ち、それ以外は0であるスカラー値(すなわち、one-hotベクトル)であるとする。ただし、tの具体形は限定されず、例えば、入力顔画像Iが属するクラスのみ1の値を持ち、それ以外のクラスはある小さな値を持つようにする、Label-Smoothingを行ったものであってもよい。
 統計的性質情報入力部104は、入力顔画像Iの統計的性質情報を入力する。ここで、統計的性質情報をPと記し、Pは0から1までの値をもつスカラー値とする。例えば、入力顔画像Iが可視光カメラで撮影された画像である場合は、P=1とし、それ以外のイメージセンサで撮影された画像が入力された場合は、P=0とする。ただし、イメージセンサの種類によりPは0から1までのいずれかの値を持つようにしてもよい。
 損失算出部105は、クラス分類器102の出力であるクラス分類推論結果yとクラスラベル情報tとを入力(引数)とする損失関数を用いて、損失を算出すると共に、各種パラメータに対する損失関数の勾配を算出する。ここでは、損失関数をSoftmax-Cross Entropy Lossであるとし、Lと記す。Lの具体形は、SをSoftmax関数として、L=-Σ t log[S(y)]である。また、特徴量抽出器101のパラメータΦに対する損失関数Lの勾配は∂L/∂Φであり、クラス分類器102の重みベクトルwに対する損失関数Lの勾配は∂L/∂wである。
 パラメータ修正量算出部106は、損失関数L及びその勾配と、統計的性質情報Pと、に基づいて、各種パラメータの修正量を算出する。ここで、特徴量抽出器101のパラメータΦの修正量は、損失関数Lの勾配を用いて、-λΦ∂L/∂Φとし、クラス分類器102の重みベクトルwの修正量は、損失関数Lの勾配及び統計的性質情報Pを用いて、-Pλ∂L/∂wとする。ここで、λΦとλは、それぞれパラメータΦ、重みベクトルwの学習率を決めるハイパーパラメータである。
 パラメータ修正部107は、パラメータ修正量算出部106により算出された各種パラメータの修正量に基づいて、誤差逆伝搬法により各種パラメータを修正する。このとき、パラメータを修正する順番は限定されない。すなわち、パラメータ修正部107は、特徴量抽出器101のパラメータΦを修正してから、クラス分類器102の重みベクトルwを修正してもよいし、その逆の順番で修正を行ってもよい。また、パラメータ修正部107は、学習の繰り返しごとに、特徴量抽出器101のパラメータΦの修正とクラス分類器102の修正とを分けてもよい。
 これまでの説明では、対象データが画像である場合、入力される画像は1枚であったが、学習効率化のために複数の画像を一度に入力してもよい。
 上述したように、本実施例では、クラス分類器102の重みベクトルwに対する損失関数Lの勾配に、統計的性質情報Pを乗算することで、入力顔画像Iの統計的性質に応じて、クラス分類器102の重みベクトルwの修正量を決定する。Pは可視光カメラで撮影された画像では1、それ以外のイメージセンサで撮影された画像では0の値を持つ。そのため、重みベクトルwは、可視光カメラで撮影された画像に対する特徴量分布の方向にのみ修正される。また、特徴量抽出器101のパラメータΦは、入力顔画像Iの統計的性質情報Pに関わらず、同クラスの重みベクトルwに特徴量ベクトルが近づくように修正される。その結果として、可視光カメラで撮影された画像に対する特徴量分布を崩さずに、それ以外のイメージセンサで撮影された画像に対する特徴量分布を近づけるように特徴量抽出器101が学習される。
(実施形態2)
 次に、この開示の実施形態2について図5を参照して説明する。
 図5は、本実施形態2にかかる学習装置11の構成の一例を示すブロック図である。なお、以下では、上述した実施形態1にかかる学習装置10と同様の構成及び機能の説明は省略し、相違点について説明する。
 図5に示すように、本実施形態2にかかる学習装置11では、上述した実施形態1にかかる学習装置10と比較して、損失算出部105が特徴量抽出器101及び統計的性質情報入力部104に接続されている点と、正解情報入力部103に入力される正解情報と、が異なる。
 正解情報入力部103は、正解情報として、クラスラベル情報又は正解ベクトルを入力する。正解ベクトルは、対象データに対する望ましい特徴量ベクトルである。なお、正解ベクトルは、任意の方法で生成すればよい。例えば、正解情報入力部103は、学習済みの特徴量抽出器(この特徴量抽出器は、特徴量抽出器101とは別に用意する)を用いて、対象データに対する特徴量ベクトルを生成しておき、その特徴量ベクトルを正解ベクトルとしてもよい。
 ここで、正解情報入力部103は、対象データが特定の統計的性質を持つデータであるかに応じて、クラスラベル情報又は正解ベクトルを入力する。すなわち、正解情報入力部103は、対象データが特定の統計的性質を持つデータである場合には、対象データの正解ベクトルを入力する。また、正解情報入力部103は、対象データが特定の統計的性質以外の統計的性質を持つデータである場合には、対象データのクラスラベル情報を入力する。
 損失算出部105は、統計的性質情報入力部104に入力された統計的性質情報に基づいて、対象データが統計的性質を持つデータであるか否かを判断する。損失算出部105は、対象データが特定の統計的性質を持つデータである場合には、正解情報入力部103に入力された正解ベクトルと、特徴量抽出器101により抽出された特徴量ベクトルと、を入力(引数)とする損失関数を用いて、損失を算出する。また、損失算出部105は、対象データが特定の統計的性質以外の統計的性質を持つデータである場合には、クラス分類器102から出力されたクラス分類推論結果と、正解情報入力部103に入力されたクラスラベル情報と、を入力(引数)とする損失関数を用いて、損失を算出する。
 このように、本実施形態2では、対象データが特定の統計的性質を持つデータである場合には、特徴量ベクトルと正解ベクトルとの距離を損失として算出し、この損失が小さくなるように、各種パラメータを修正することになる。そのため、特定の統計的性質を持つデータの特徴量分布を崩さない、という効果のさらなる向上を図ることができる。
(実施形態3)
 次に、この開示の実施形態3について図6を参照して説明する。
 図6は、本実施形態3にかかる学習装置12の構成の一例を示すブロック図である。なお、以下では、上述した実施形態1にかかる学習装置10と同様の構成及び機能の説明は省略し、相違点について説明する。
 上述した実施形態1にかかる学習装置10によれば、学習対象となる全ての対象データで統計的性質情報が必要であったが、対象データによっては統計的性質情報が得られない場合がある。
 図6に示すように、本実施形態3にかかる学習装置12では、上述した実施形態1にかかる統計的性質情報入力部104の代わりに、統計的性質情報推定部108を備えることに特徴を有する。
 統計的性質情報推定部108は、データ入力部100に入力された対象データから、その対象データの統計的性質情報を推定し、推定された統計的性質情報を出力する。出力された統計的性質情報は、上述した実施形態1と同様に、パラメータ修正量算出部106にて各種パラメータの修正量を算出することに用いられる。
 ここで、統計的性質情報推定部108の具体形は限定されず、深層学習等の機械学習にて用いられる、畳み込みニューラルネットワーク等のニューラルネットワークに含まれる畳み込み層、プーリング層、又は全結合層等の機能を有してもよい。また、統計的性質情報推定部108は、対象データから、その対象データの統計的性質が推定できるように、予め学習されたモデルを用いてもよい。
 このように、本実施形態3では、統計的性質情報推定部108が、データ入力部100に入力された対象データから、その対象データの統計的性質情報を推定する。そのため、対象データに統計的性質情報が付加されていない場合であっても、上述した実施形態1と同様の効果を得ることができる。
 なお、本実施形態3では、全ての対象データについて統計的性質情報を推定する形をとっているが、一部の対象データに統計的性質情報が付加されている場合、その対象データを用いた学習の際は、上述した実施形態1の形を取ってもよい。
 すなわち、本実施形態3では、統計的性質情報推定部108と、上述した実施形態1にかかる統計的性質情報入力部104と、を同時に備えることもできる。この場合、パラメータ修正量算出部106は、統計的性質情報入力部104に統計的性質情報が入力された場合は、入力された統計的性質情報を使用し、統計的性質情報入力部104への統計的性質情報の入力が無い場合は、統計的性質情報推定部108により推定された統計的性質情報を使用すれば良い。
 なお、本実施形態3は、上述した実施形態1にかかる統計的性質情報入力部104の代わりに、統計的性質情報推定部108を備える構成として説明したが、これには限定されない。本実施形態3は、上述した実施形態2にかかる統計的性質情報入力部104の代わりに、統計的性質情報推定部108を備える構成としてもよい。
 また、本実施形態3は、統計的性質情報推定部108と、上述した実施形態2にかかる統計的性質情報入力部104と、を同時に備えることもできる。この場合、損失算出部105は、上述したパラメータ修正量算出部106と同様の方法で、使用する統計的性質情報を決めればよい。
(実施形態4)
 次に、この開示の実施形態4について図7を参照して説明する。本実施形態4は、上述した実施形態1,2,3を上位概念化した実施形態に相当する。
 図7は、本実施形態4にかかる学習装置13の構成の一例を示すブロック図である。図7に示すように、学習装置13は、入力部109と、特徴量抽出器110と、クラス分類器111と、損失算出部112と、パラメータ修正部113と、を備える。
 入力部109は、学習対象の対象データ、対象データの正解ラベルを表すクラスラベル情報、及び対象データの統計的性質を表す統計的性質情報を入力する。入力部109は、上述した実施形態1,2,3にかかるデータ入力部100及び正解情報入力部103と、上述した実施形態1,2にかかる統計的性質情報入力部104に対応する。
 特徴量抽出器110は、パラメータを用いて、入力部109に入力された対象データから特徴量を抽出する。特徴量抽出器110は、上述した実施形態1,2,3にかかる特徴量抽出器101に対応する。
 クラス分類器111は、特徴量抽出器110により算出された特徴量と、クラス数分の重みベクトルと、を用いた統計処理により、入力部109に入力された対象データのクラス分類推論結果を出力する。クラス分類器111は、上述した実施形態1,2,3にかかるクラス分類器102に対応する。
 損失算出部112は、クラス分類器111から出力されたクラス分類推論結果と、入力部109に入力されたクラスラベル情報と、を入力(引数)とする損失関数を用いて、損失を算出する。損失算出部112は、上述した実施形態1,2,3にかかる損失算出部105に対応する。
 パラメータ修正部113は、入力部109に入力された統計的性質情報に応じて、損失算出部112により算出された損失が小さくなるように、クラス分類器111の重みベクトル及び特徴量抽出器110のパラメータを修正する。パラメータ修正部113は、上述した実施形態1,2,3にかかるパラメータ修正部107に対応する。
 上述したように、本実施形態4によれば、パラメータ修正部113は、損失が小さくなるように、クラス分類器111の重みベクトル及び特徴量抽出器110のパラメータを修正する。そのため、異なる統計的性質を持つデータに対する特徴量分布が近づくように特徴量抽出器110が学習される。
 また、パラメータ修正部113は、対象データの統計的性質情報に応じて、クラス分類器111の重みベクトルを修正する。そのため、異なる統計的性質を持つデータに対する特徴量分布を、互いに近づけるのではなく、特定の統計的性質を持つデータに対する特徴量分布に向かって、その他の統計的性質を持つデータに対する特徴量分布が近づくように特徴量抽出器110が学習される。
 また、特定の統計的性質を持つデータに対する特徴量分布に向かって、その他の統計的性質を持つデータに対する特徴量分布を近づけるため、その他の統計的性質を持つデータの種類は1つに限定されず、複数とすることができる。
 その結果、本実施形態4によれば、特定の統計的性質を持つデータに対する認識性能を落とさずに、特定の統計的性質とは異なる1つもしくは複数の統計的性質を持つデータに対する認識性能を向上させることができる。
 なお、学習装置12は、統計的性質情報に応じて、損失が小さくなるように、クラス分類器111の重みベクトルの修正量及び特徴量抽出器110のパラメータの修正量を算出するパラメータ修正量算出部をさらに備えてもよい。このパラメータ修正量算出部は、上述した実施形態1,2,3にかかるパラメータ修正量算出部106に対応する。また、パラメータ修正部113は、パラメータ修正量算出部により算出された修正量を用いて、クラス分類器111の重みベクトル及び特徴量抽出器110のパラメータを修正してもよい。
 また、入力部109は、対象データが特定の統計的性質を持つデータである場合には、対象データの正解ベクトルを入力し、対象データが特定の統計的性質以外の統計的性質を持つデータである場合には、対象データのクラスラベル情報を入力してもよい。また、特徴量抽出器110は、対象データから、特徴量ベクトルを特徴量として抽出してもよい。また、損失算出部112は、対象データが特定の統計的性質を持つデータである場合には、正解ベクトルと特徴量ベクトルとを入力とする損失関数を用いて、損失を算出し、対象データが特定の統計的性質以外の統計的性質を持つデータである場合には、クラス分類推論結果とクラスラベル情報とを入力とする損失関数を用いて、損失を算出してもよい。
 また、損失算出部112は、クラス分類器111のクラス数分の重みベクトルに対する損失関数の勾配をさらに算出してもよい。また、パラメータ修正量算出部は、クラス分類器111のクラス数分の重みベクトルに対する損失関数の勾配と、統計的性質情報と、を用いた統計処理により、クラス分類器111の重みベクトルの修正量を算出してもよい。
 また、損失算出部112は、特徴量抽出器110のパラメータに対する損失関数の勾配をさらに算出してもよい。また、パラメータ修正量算出部は、特徴量抽出器110のパラメータに対する損失関数の勾配を、特徴量抽出器110のパラメータの修正量としてもよし、又は、特徴量抽出器110のパラメータに対する損失関数の勾配と、統計的性質情報と、を用いた統計処理により、特徴量抽出器110のパラメータの修正量を算出してもよい。
 また、学習装置12は、対象データの統計的性質情報を推定する統計的性質情報推定部をさらに備えてもよい。この統計的性質情報推定部は、上述した実施形態3にかかる統計的性質情報推定部108に対応する。また、パラメータ修正量算出部は、入力部109に統計的性質情報が入力された場合は、入力された統計的性質情報を使用し、入力部109への統計的性質情報の入力がない場合は、統計的性質情報推定部により推定された統計的性質情報を使用してもよい。
(学習装置を実現するコンピュータ)
 上述した実施形態1,2,3,4にかかる学習装置10,11,12,13は、コンピュータで実現することができる。このコンピュータは、パーソナルコンピュータやワードプロセッサ等を含むコンピュータシステムで構成される。しかしこれに限らず、コンピュータは、LAN(ローカル・エリア・ネットワーク)のサーバ、コンピュータ(パソコン)通信のホスト、インターネット上に接続されたコンピュータシステム等によって構成されることも可能である。また、ネットワーク上の各機器に機能分散させ、ネットワーク全体でコンピュータを構成することも可能である。
 また、上述した実施形態1,2,3,4では、この開示にかかる学習装置10,11,12,13をハードウェアの構成として説明したが、この開示は、これに限定されるものではない。この開示は、上述した学習データ取得処理、特徴量抽出処理、クラス分類処理、損失算出処理、パラメータ修正量算出処理、パラメータ修正処理、パラメータ決定処理等の各種処理を、後述のプロセッサ1010にコンピュータプログラムを実行させることにより実現することも可能である。
 図8は、上述した実施形態1,2,3,4にかかる学習装置10,11,12,13を実現するコンピュータ1900の構成の一例を示すブロック図である。図8に示すように、コンピュータ1900は、システム全体を制御するための制御部1000を備えている。この制御部1000には、データバス等のバスラインを介して、入力装置1050、表示装置1100、記憶装置1200、記憶媒体駆動装置1300、通信制御装置1400、及び入出力I/F1500が接続されている。
 制御部1000は、プロセッサ1010と、ROM(Read Only Memory)1020と、RAM(Random Access Memory)1030、とを備えている。 
 プロセッサ1010は、ROM1020や記憶装置1200等の各種記憶部に記憶されたプログラムに従って、各種の情報処理や制御を行う。 
 ROM1020は、プロセッサ1010が各種制御や演算を行うための各種プログラムやデータが予め格納されたリードオンリーメモリである。
 RAM1030は、プロセッサ1010にワーキングメモリとして使用されるランダムアクセスメモリである。このRAM1030には、上述した実施形態1,2,3,4による各種処理を行うための各種エリアが確保可能になっている。
 入力装置1050は、キーボード、マウス及びタッチパネル等のユーザからの入力を受け付ける入力装置である。たとえばキーボードは、テンキー、各種機能を実行するための機能キー及びカーソルキー等の各種キーが配置されている。マウスは、ポインティングデバイスであり、表示装置1100に表示されたキーやアイコン等をクリックすることで対応する機能の指定を行う入力装置である。タッチパネルは、表示装置1100の表面に配置される入力機器で、表示装置1100に画面表示された各種操作キーに対応した、ユーザのタッチ位置を特定し、当該タッチ位置に対応して表示された操作キーの入力を受け付ける。
 表示装置1100は、例えば、CRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイ等が使用される。この表示装置1100には、キーボードやマウスによる入力結果が表示されたり、最終的に検索されたイメージ情報が表示されたりするようになっている。また、表示装置1100は、コンピュータ1900の各種機能に応じて、タッチパネルから必要な各種操作を行うための操作キーを画像表示する。
 記憶装置1200は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータ等の各種情報を読み書きするための駆動装置で構成されている。 
 この記憶装置1200に使用される記憶媒体は、主としてハードディスク等が使用されるが、後述の記憶媒体駆動装置1300で使用される非一時的なコンピュータ可読媒体を使用するようにしてもよい。 
 記憶装置1200は、データ格納部1210、プログラム格納部1220及び図示しないその他の格納部(例えば、この記憶装置1200内に格納されているプログラムやデータ等をバックアップするための格納部)等を有している。プログラム格納部1220には、上述した実施形態1,2,3,4における各種処理を実現するためのプログラムが格納されている。データ格納部1210には、上述した実施形態1,2,3,4にかかる各種データベースの各種データを格納する。
 記憶媒体駆動装置1300は、プロセッサ1010が外部の記憶媒体(外部記憶媒体)からコンピュータプログラムや文書を含むデータ等を読み込むための駆動装置である。 
 ここで、外部記憶媒体とは、コンピュータプログラムやデータ等が記憶される非一時的なコンピュータ可読媒体をいう。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば、光磁気ディスク)、CD-ROM(Compact Disc-ROM)、CD-R(CD-Recordable)、CD-R/W(CD-ReWritable)、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM)を含む。また、各種プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路並びに記憶媒体駆動装置1300を介して、各種プログラムをコンピュータに供給できる。
 つまり、コンピュータ1900は、制御部1000のプロセッサ1010が、記憶媒体駆動装置1300にセットされた外部の記憶媒体から各種プログラムを読み込んで、記憶装置1200の各部に格納する。
 そして、コンピュータ1900が各種処理を実行する場合、記憶装置1200から該当プログラムをRAM1030に読み込み、実行するようになっている。但し、コンピュータ1900は、記憶装置1200からではなく、記憶媒体駆動装置1300により外部の記憶媒体から直接RAM1030にプログラムを読み込んで実行することも可能である。また、コンピュータによっては各種プログラム等を予めROM1020に記憶させておき、これをプロセッサ1010が実行するようにしてもよい。さらに、コンピュータ1900は、各種プログラムやデータを、通信制御装置1400を介して他の記憶媒体からダウンロードし、実行するようにしてもよい。
 通信制御装置1400は、コンピュータ1900と他のパーソナルコンピュータやワードプロセッサ等の各種外部電子機器との間をネットワーク接続するための制御装置である。通信制御装置1400は、これら各種外部電子機器からコンピュータ1900にアクセスすることを可能とする。
 入出力I/F1500は、パラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して各種の入出力装置を接続するためのインターフェースである。
 なお、プロセッサ1010は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array)、DSP(digital signal processor)及びASIC(application specific integrated circuit)等が用いられてよい。
 請求の範囲、明細書、及び図面中において示したシステム及び方法における各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのではない限り、任意の順序で実現しうる。請求の範囲、明細書及び図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順序で実施することが必須であることを意味するものではない。
 以上、実施の形態を参照して、この開示を説明したが、この開示は上述した実施の形態に限定されるものではない。この開示の構成や詳細には、この開示のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この開示は、顔認識及び物体認識などのような画像処理を含め、様々なデータに適用可能である。特に、この開示は、画像処理装置において、可視光画像での認識性能を落とさずに、近赤外画像や遠赤外線画像等での認識性能を向上させる用途に利用可能である。
 10,11,12,13 学習装置
 100 データ入力部
 101,110 特徴量抽出器
 102,111 クラス分類器
 103 正解情報入力部
 104 統計的性質情報入力部
 105,112 損失算出部
 106 パラメータ修正量算出部
 107,113 パラメータ修正部
 108 統計的性質情報推定部
 109 入力部
 1000 制御部
 1010 プロセッサ
 1020 ROM
 1030 RAM
 1050 入力装置
 1100 表示装置
 1200 記憶装置
 1210 データ格納部
 1220 プログラム格納部
 1300 記憶媒体駆動装置
 1400 通信制御装置
 1500 入出力I/F
 1900 コンピュータ

Claims (8)

  1.  クラス分類問題の教師有り学習を行う学習装置であって、
     学習対象の対象データ、前記対象データのクラスラベル情報、及び前記対象データの統計的性質情報を入力する入力部と、
     パラメータを用いて、前記対象データから特徴量を抽出する特徴量抽出器と、
     前記特徴量とクラス数分の重みベクトルとを用いた統計処理により、前記対象データのクラス分類推論結果を出力するクラス分類器と、
     前記クラス分類推論結果と前記クラスラベル情報とを入力とする損失関数を用いて、損失を算出する損失算出部と、
     前記統計的性質情報に応じて、前記損失が小さくなるように、前記クラス分類器の前記重みベクトル及び前記特徴量抽出器の前記パラメータを修正するパラメータ修正部と、
     を含む、学習装置。
  2.  前記統計的性質情報に応じて、前記損失が小さくなるように、前記クラス分類器の前記重みベクトルの修正量及び前記特徴量抽出器の前記パラメータの修正量を算出するパラメータ修正量算出部をさらに含み、
     前記パラメータ修正部は、
     前記パラメータ修正量算出部により算出された前記修正量を用いて、前記クラス分類器の前記重みベクトル及び前記特徴量抽出器の前記パラメータを修正する、
     請求項1に記載の学習装置。
  3.  前記入力部は、
     前記対象データが特定の統計的性質を持つデータである場合には、前記対象データの正解ベクトルを入力し、
     前記対象データが前記特定の統計的性質以外の統計的性質を持つデータである場合には、前記対象データの前記クラスラベル情報を入力し、
     前記特徴量抽出器は、
     前記対象データから、特徴量ベクトルを前記特徴量として抽出し、
     前記損失算出部は、
     前記対象データが前記特定の統計的性質を持つデータである場合には、前記正解ベクトルと前記特徴量ベクトルとを入力とする損失関数を用いて、前記損失を算出し、
     前記対象データが前記特定の統計的性質以外の統計的性質を持つデータである場合には、前記クラス分類推論結果と前記クラスラベル情報とを入力とする損失関数を用いて、前記損失を算出する、
     請求項2に記載の学習装置。
  4.  前記損失算出部は、
     前記クラス分類器のクラス数分の前記重みベクトルに対する前記損失関数の勾配をさらに算出し、
     前記パラメータ修正量算出部は、
     前記クラス分類器のクラス数分の前記重みベクトルに対する前記損失関数の勾配と、前記統計的性質情報と、を用いた統計処理により、前記クラス分類器の前記重みベクトルの修正量を算出する、
     請求項2又は3に記載の学習装置。
  5.  前記損失算出部は、
     前記特徴量抽出器の前記パラメータに対する前記損失関数の勾配をさらに算出し、
     前記パラメータ修正量算出部は、
     前記特徴量抽出器の前記パラメータに対する前記損失関数の勾配を、前記特徴量抽出器の前記パラメータの修正量とするか、又は、前記特徴量抽出器の前記パラメータに対する前記損失関数の勾配と、前記統計的性質情報と、を用いた統計処理により、前記特徴量抽出器の前記パラメータの修正量を算出する、
     請求項4に記載の学習装置。
  6.  前記対象データの前記統計的性質情報を推定する統計的性質情報推定部をさらに含み、
     前記パラメータ修正量算出部は、
     前記入力部に前記統計的性質情報が入力された場合は、入力された前記統計的性質情報を使用し、
     前記入力部への前記統計的性質情報の入力がない場合は、前記統計的性質情報推定部により推定された前記統計的性質情報を使用する、
     請求項2から5のいずれか1項に記載の学習装置。
  7.  クラス分類問題の教師有り学習を行う学習装置による学習方法であって、
     学習対象の対象データ、前記対象データのクラスラベル情報、及び前記対象データの統計的性質情報を入力し、
     特徴量抽出器によって、パラメータを用いて、前記対象データから特徴量を抽出し、
     クラス分類器によって、前記特徴量とクラス数分の重みベクトルとを用いた統計処理により、前記対象データのクラス分類推論結果を出力し、
     前記クラス分類推論結果と前記クラスラベル情報とを入力とする損失関数を用いて、損失を算出し、
     前記統計的性質情報に応じて、前記損失が小さくなるように、前記クラス分類器の前記重みベクトル及び前記特徴量抽出器の前記パラメータを修正する、
     学習方法。
  8.  クラス分類問題の教師有り学習を行うコンピュータに、
     学習対象の対象データ、前記対象データのクラスラベル情報、及び前記対象データの統計的性質情報を入力する処理と、
     特徴量抽出器によって、パラメータを用いて、前記対象データから特徴量を抽出する処理と、
     クラス分類器によって、前記特徴量とクラス数分の重みベクトルとを用いた統計処理により、前記対象データのクラス分類推論結果を出力する処理と、
     前記クラス分類推論結果と前記クラスラベル情報とを入力とする損失関数を用いて、損失を算出する処理と、
     前記統計的性質情報に応じて、前記損失が小さくなるように、前記クラス分類器の前記重みベクトル及び前記特徴量抽出器の前記パラメータを修正する処理と、
     を実行させるプログラムが格納された非一時的なコンピュータ可読媒体。
PCT/JP2021/009687 2021-03-10 2021-03-10 学習装置、学習方法、及びコンピュータ可読媒体 WO2022190301A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/619,723 US20230143070A1 (en) 2021-03-10 2021-03-10 Learning device, learning method, and computer-readable medium
JP2023504999A JP7544254B2 (ja) 2021-03-10 2021-03-10 学習装置、学習方法、及びプログラム
PCT/JP2021/009687 WO2022190301A1 (ja) 2021-03-10 2021-03-10 学習装置、学習方法、及びコンピュータ可読媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/009687 WO2022190301A1 (ja) 2021-03-10 2021-03-10 学習装置、学習方法、及びコンピュータ可読媒体

Publications (1)

Publication Number Publication Date
WO2022190301A1 true WO2022190301A1 (ja) 2022-09-15

Family

ID=83226469

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/009687 WO2022190301A1 (ja) 2021-03-10 2021-03-10 学習装置、学習方法、及びコンピュータ可読媒体

Country Status (3)

Country Link
US (1) US20230143070A1 (ja)
JP (1) JP7544254B2 (ja)
WO (1) WO2022190301A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019102962A1 (ja) * 2017-11-22 2019-05-31 日本電気株式会社 学習装置、学習方法、及び、記録媒体
WO2019215904A1 (ja) * 2018-05-11 2019-11-14 日本電気株式会社 予測モデル作成装置、予測モデル作成方法、および予測モデル作成プログラム記録媒体
WO2020235033A1 (ja) * 2019-05-22 2020-11-26 日本電気株式会社 データ変換装置、パターン認識システム、データ変換方法及び非一時的なコンピュータ可読媒体

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6509717B2 (ja) 2015-12-09 2019-05-08 日本電信電話株式会社 事例選択装置、分類装置、方法、及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019102962A1 (ja) * 2017-11-22 2019-05-31 日本電気株式会社 学習装置、学習方法、及び、記録媒体
WO2019215904A1 (ja) * 2018-05-11 2019-11-14 日本電気株式会社 予測モデル作成装置、予測モデル作成方法、および予測モデル作成プログラム記録媒体
WO2020235033A1 (ja) * 2019-05-22 2020-11-26 日本電気株式会社 データ変換装置、パターン認識システム、データ変換方法及び非一時的なコンピュータ可読媒体

Also Published As

Publication number Publication date
US20230143070A1 (en) 2023-05-11
JP7544254B2 (ja) 2024-09-03
JPWO2022190301A1 (ja) 2022-09-15

Similar Documents

Publication Publication Date Title
CN111126574B (zh) 基于内镜图像对机器学习模型进行训练的方法、装置和存储介质
US20190130212A1 (en) Deep Network Embedding with Adversarial Regularization
CN111695415A (zh) 图像识别模型的构建方法、识别方法及相关设备
US20180285778A1 (en) Sensor data processor with update ability
US20220301288A1 (en) Control method and information processing apparatus
JP6892606B2 (ja) 位置特定装置、位置特定方法及びコンピュータプログラム
US11734837B2 (en) Systems and methods for motion estimation
CN111125529A (zh) 产品匹配方法、装置、计算机设备及存储介质
CN110781970A (zh) 分类器的生成方法、装置、设备及存储介质
JP6955233B2 (ja) 予測モデル作成装置、予測モデル作成方法、および予測モデル作成プログラム
CN111373418A (zh) 学习设备和学习方法、识别设备和识别方法、程序和记录介质
US20230103737A1 (en) Attention mechanism, image recognition system, and feature conversion method
CN115151917A (zh) 经由批量归一化统计的域泛化
Zhang et al. Linear regression problem relaxations solved by nonconvex ADMM with convergence analysis
JP2023044336A (ja) 学習装置、学習方法およびプログラム
CN117315758A (zh) 面部表情的检测方法、装置、电子设备及存储介质
WO2021181627A1 (ja) 画像処理装置、画像認識システム、画像処理方法および非一時的なコンピュータ可読媒体
WO2022190301A1 (ja) 学習装置、学習方法、及びコンピュータ可読媒体
US20230360177A1 (en) Joint Trimap Estimation and Alpha Matte Prediction for Video Matting
CN111860556A (zh) 一种模型的处理方法、装置及存储介质
JP2007249394A (ja) 顔画像認識装置及び顔画像認識プログラム
CN114970732A (zh) 分类模型的后验校准方法、装置、计算机设备及介质
JP7347750B2 (ja) 照合装置、学習装置、方法、及びプログラム
JP2022044112A (ja) 推定装置、推定方法及びプログラム
JP2021177312A (ja) 情報処理装置、情報処理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21930154

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023504999

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21930154

Country of ref document: EP

Kind code of ref document: A1