WO2016125500A1 - 特徴変換装置、認識装置、特徴変換方法及びコンピュータ読み取り可能記録媒体 - Google Patents

特徴変換装置、認識装置、特徴変換方法及びコンピュータ読み取り可能記録媒体 Download PDF

Info

Publication number
WO2016125500A1
WO2016125500A1 PCT/JP2016/000592 JP2016000592W WO2016125500A1 WO 2016125500 A1 WO2016125500 A1 WO 2016125500A1 JP 2016000592 W JP2016000592 W JP 2016000592W WO 2016125500 A1 WO2016125500 A1 WO 2016125500A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature conversion
learning data
weight
feature
data
Prior art date
Application number
PCT/JP2016/000592
Other languages
English (en)
French (fr)
Inventor
雅人 石井
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US15/545,769 priority Critical patent/US10482351B2/en
Priority to JP2016573231A priority patent/JP6673226B2/ja
Publication of WO2016125500A1 publication Critical patent/WO2016125500A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/196Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries

Definitions

  • the present invention relates to a feature conversion device, a recognition device, a feature conversion method, and a computer-readable recording medium.
  • Statistic machine learning technology is used in various fields.
  • Statistical machine learning includes a plurality of samples, and learning data that is the data to which the correct answer class that is the content represented by each sample is attached. Learning is performed based on the model of the property. This learning data is collected in advance prior to learning. Then, by applying the model to test data that includes a plurality of samples and each of which is not attached with the correct class described above, the results of prediction and recognition on the test data can be obtained. Obtainable.
  • the pattern recognition technique estimates a class to which an input pattern belongs.
  • Examples of the pattern recognition technique include a technique such as object recognition for estimating an object included in an image and voice recognition for estimating speech content related to voice.
  • Patent Document 1 describes a learning device and the like.
  • the learning device described in Patent Literature 1 learns a prediction model for predicting the output of test data based on the importance that is the ratio of the generation probability of training data, which is input data of training sample data, and test data. To do.
  • Non-Patent Document 1 describes a technique for performing feature conversion so that learning data and test data have a similar distribution.
  • projection to a partial space group in which a partial space in which learning data is distributed and a partial space in which test data is distributed is used as feature conversion.
  • the number of effective sample data included in the learning data may be reduced. Further, in the technique described in Non-Patent Document 1, feature conversion may be performed using unnecessary learning data when approximating the statistical properties of test data. For this reason, learning is performed using data that has undergone feature conversion based on these techniques, which may affect the accuracy of learning.
  • Patent Document 1 that is, the techniques described in Patent Document 1 and Non-Patent Document 1 have room for improvement in the accuracy of domain adaptation.
  • the present invention has been made to solve the above-described problems, and has as its main object to provide a feature conversion device and the like that enable highly accurate feature conversion.
  • the feature conversion device includes a receiving unit that receives learning data and test data each including a plurality of samples, a weight deriving unit that derives a weight assigned to each element included in the learning data, And feature conversion parameter deriving means for deriving a feature conversion parameter for converting each of the samples included in the learning data or the test data, and the weight and the feature conversion parameter are optimized based on the objective function related to the weight and the feature conversion parameter.
  • An optimization unit that performs normalization, a constraint condition determination unit that determines whether or not a weight satisfies a predetermined constraint condition, and a regularization unit that performs regularization with respect to at least one of the weight and the feature conversion parameter.
  • Objective function derivation means for deriving the value of the function, and learning data or test based on the feature transformation parameter Of over motor and a converting means for converting an element included in at least one.
  • the feature conversion method accepts learning data and test data each including a plurality of samples, and whether or not a weight given to each element included in the learning data satisfies a predetermined constraint condition. And regularizing the weight or at least one of the feature transformation parameters for transforming each of the samples included in the learning data or test data, deriving the value of the objective function, deriving the weight, and feature transformation Deriving parameters, optimizing weights and feature conversion parameters based on objective functions related to weights and feature conversion parameters, and converting elements included in at least one of learning data and test data based on feature conversion parameters To do.
  • the computer receives learning data and test data each including a plurality of samples, and optimizes the weight assigned to each element included in the learning data. And a process for deriving so as to optimize the feature conversion parameters for converting each of the samples included in the learning data or the test data, and based on the objective functions related to the weights and the feature conversion parameters, A process for optimizing the weight and the feature conversion parameter, a process for determining whether or not the weight satisfies a predetermined constraint condition, and a process for regularizing at least one of the weight or the feature conversion parameter, Based on the process of deriving the value and the feature conversion parameter, Storing a program for executing a process of converting an element included in at least one non-transitory manner.
  • domain adaptation is a technique for correcting a deviation in statistical properties when the statistical properties of learning data and the statistical properties of test data are different.
  • the learning data includes, for example, one or more samples assigned with correct classes.
  • the test data includes, for example, one or more samples that are not assigned a correct answer class.
  • FIG. 3 is a diagram illustrating an example of learning data and test data when weighting is performed on each sample included in the learning data.
  • the solid-line ellipse shown as learning data in FIG. 3 (1) and the dotted-line ellipse shown as test data in FIG. 3 (2) are included in the learning data and test data, respectively. Represents the area where the sample is distributed.
  • the weight of the learning data sample included in the region where the distributions of the learning data and the test data overlap increases. Is weighted. Then, by performing the above-described weighting, the data distribution of the learning data that approximates the test data is expressed.
  • the solid-line ellipse and the dotted-line ellipse represent areas where samples included in the learning data and the test data are distributed.
  • weighting may be performed without considering the number of effective samples (samples that are effective when learning is performed using the learning data). For this reason, there is a possibility that a large weight is applied only to some samples. If a large weight is given to only a part of the data, the number of effective samples of the learning data may be reduced. As a result, when learning using the learning data is performed, the learning may be adversely affected.
  • FIG. 4 is a diagram illustrating an example of learning data and test data in a case where feature conversion is performed on each of learning data and test data.
  • the solid-line ellipse shown as learning data in FIG. 4 (1) and the dotted-line ellipse shown as test data in FIG. It represents an area where the samples included in each of the test data are distributed.
  • the learning data and the test data have a similar distribution by performing feature conversion. Therefore, in this example, it is possible to approximate the test data with the converted learning data.
  • the solid-line ellipse and the dotted-line ellipse represent regions in which samples included in each of the learning data and the test data are distributed, as in FIG. 3 (3).
  • feature conversion may be performed by using all of the sample data included in the learning data equally. For this reason, in the feature conversion, a sample of learning data that is not necessarily required when approximating the statistical properties of the test data may be used. When such feature conversion is performed, it may be difficult to perform accurate domain adaptation.
  • the feature conversion apparatus uses the above-described weighting method and feature conversion method together. That is, the feature conversion apparatus according to the first embodiment of the present invention obtains the weight of learning data and the feature conversion by optimizing with respect to the same objective function.
  • the feature conversion apparatus according to the first embodiment of the present invention may use an objective function including a regularization term that equalizes the weight of learning data. By doing this, while increasing the effective sample data included in the domain-adapted learning data, the feature conversion that approximates the statistical properties of the learning data and the statistical properties of the test data is performed. It becomes possible.
  • FIG. 5 is a diagram illustrating an example of learning data and test data when weighting and feature conversion are performed on learning data and test data, respectively.
  • the solid-line ellipse shown as the learning data in FIG. 5 (1) and the dotted-line ellipse shown as the test data in FIG. 5 (2) are the learning data and test as in the example of FIG. It represents the area where the samples included in each of the data are distributed.
  • each of the learning data and the test data is subjected to weighting and feature conversion, and has a form as shown in FIG.
  • FIG. 5 (3) the region where the distribution of learning data and the distribution of test data overlap is colored in the same manner as in FIG. 3 (3).
  • the region where the distribution of the learning data and the distribution of the test data overlap is larger than that in FIG. 3 (3).
  • weighting is performed so that a large weight is given to a sample of learning data included in the colored region.
  • the solid oval and the dotted oval are regions where the samples included in each of the learning data and the test data are distributed, as in FIG. 3 (3) or 4 (3).
  • the sample data included in the region where the distributions of the learning data and the test data do not overlap are small compared to the method based only on the feature conversion shown in FIG. A weight is assigned. This indicates that effective domain adaptation can be performed.
  • each component of each device represents a functional unit block.
  • Each component of each device can be realized by any combination of an information processing device 500 and software as shown in FIG. 7, for example.
  • the information processing apparatus 500 includes the following configuration as an example.
  • each device can be realized as a dedicated device.
  • Each device can be realized by a combination of a plurality of devices.
  • each device is realized by general-purpose or dedicated circuits, processors, etc., or combinations thereof. These may be configured by a single chip or may be configured by a plurality of chips connected via a bus. Part or all of each component of each device may be realized by a combination of the above-described circuit and the like and a program.
  • FIG. 1 is a diagram showing a configuration of a feature conversion apparatus according to the first embodiment of the present invention.
  • FIG. 2 is a flowchart showing an example of the operation of the feature conversion apparatus according to the first embodiment of the present invention.
  • FIG. 7 is an example of an information processing apparatus that implements a feature conversion apparatus and the like in the embodiments and examples of the present invention.
  • the feature conversion device includes a feature conversion device 100, a reception unit 110, an optimization unit 120, an objective function derivation unit 130, a constraint condition determination unit 131, and the like.
  • the regularization part 132 and the conversion part 140 are provided.
  • the optimization unit 120 includes a weight derivation unit 121 and a feature conversion parameter derivation unit 122.
  • the objective function derivation unit 130 includes a constraint condition determination unit 131 and a regularization unit 132.
  • the accepting unit 110 accepts learning data and test data.
  • the optimization unit 120 optimizes the weight and the feature conversion parameter based on the objective function related to the weight and the feature conversion parameter.
  • the weight deriving unit 121 derives a weight assigned to each element included in the learning data.
  • the feature conversion parameter deriving unit 122 derives a feature conversion parameter for converting each element included in the learning data or test data.
  • the objective function deriving unit 130 derives the value of the objective function described above.
  • the constraint condition determination unit 131 determines whether or not a predetermined constraint condition regarding the weight is satisfied.
  • the regularization unit 132 performs regularization on at least one of the weight and the feature conversion parameter.
  • the conversion unit 140 converts an element included in at least one of the learning data and the test data based on the feature conversion parameter.
  • the accepting unit 110 accepts learning data and test data.
  • the learning data and test data received by the receiving unit 110 are stored in a storage unit (not shown).
  • the learning data includes, for example, one or more samples to which correct classes are attached.
  • the test data includes, for example, one or more samples that are not assigned a correct answer class.
  • the sample included in the learning data and the test data is a feature such as a SIFT (Scale-Invariant Feature Transform) feature amount extracted from the image. This is a feature vector describing the quantity.
  • the class attached to the learning data is, for example, the name of the object included in the image.
  • the learning data and test data received by the receiving unit 110 may be different from the above-described example.
  • the reception unit 110 may receive learning data including a sample to which a correct class is not attached and test data including a sample to which a correct class is attached.
  • the reception part 110 may receive the learning data containing the sample to which the correct class is not attached
  • the samples included in the learning data and the test data may be in a form different from the above-described feature vector as appropriate according to the type of information that each represents.
  • the optimization unit 120 optimizes the weights and feature conversion parameters based on the objective functions related to the weights and feature conversion parameters.
  • the optimization unit 120 includes a weight deriving unit 121 and a feature conversion parameter deriving unit 122.
  • the weight is a value determined for each sample included in the learning data, and represents the importance of each sample when approximating the test data.
  • the weight is a scalar value determined for each feature vector. In this case, when the weight is large, it indicates that the feature vector is important when approximating the test data.
  • the feature conversion parameter is a parameter indicating the degree of feature conversion when feature conversion is performed on learning data or the like.
  • the feature conversion parameter is expressed as a matrix. Then, feature conversion is performed by multiplication of the matrix and the feature vector.
  • Optimizer 120 performs optimization based on a predetermined objective function.
  • the objective function L shown in the following equation (1) is used as the objective function.
  • the above-described optimization is performed so as to minimize the value of the objective function L shown in this equation (1).
  • x represents a feature vector that is a sample included in learning data or test data
  • DS represents learning data
  • D T represents test data
  • w is a weight
  • is a parameter for feature conversion
  • f ⁇ is an operation related to feature conversion
  • g ⁇ is an operation related to inverse conversion that returns the converted feature to the original feature
  • R is a regularization for the weight. Represents the convex function to perform.
  • the objective function expressed by the above-described equation (1) minimizes the L2 norm of the difference between the value obtained by inversely transforming the converted feature and the original feature in the first and second terms.
  • the objective function expressed by equation (1) is an example of a criterion used in feature conversion learning.
  • the objective function may be appropriately determined in a format different from the above-described equation (1) according to the information represented by the learning data and the test data.
  • the objective function may be a correlation function.
  • optimization unit 120 repeatedly performs, for example, alternately the weight optimization in the weight derivation unit 121 and the feature conversion parameter optimization in the feature conversion parameter derivation unit 122.
  • the weight deriving unit 121 obtains the above-described weight. More specifically, the weight deriving unit 121 obtains a weight optimized for the above-described objective function.
  • the objective function expressed by equation (1) is a convex function with respect to the weight. Therefore, the weight deriving unit 121 optimizes the weight based on a method such as a subgradient method or an interior point method that is generally used when optimizing the convex function.
  • the feature conversion parameter derivation unit 122 obtains the above-described feature conversion parameter. More specifically, the feature transformation parameter derivation unit 122 obtains feature transformation parameters optimized for the above-described objective function.
  • the feature conversion parameter deriving unit 122 can optimize the feature conversion parameter based on a method such as a gradient method generally used in the feature conversion optimization.
  • the objective function deriving unit 130 obtains the value of the objective function.
  • the objective function derivation unit 130 includes a constraint condition determination unit 131 and a regularization unit 132.
  • the objective function deriving unit 130 derives the value of the objective function based on the weight at the time of obtaining the objective function and the value of the feature conversion parameter.
  • the objective function deriving unit 130 may also derive information (for example, gradient) necessary for optimization of weights and feature conversion parameters.
  • the constraint condition determination unit 131 determines whether or not the weight satisfies a predetermined constraint condition.
  • a condition that each weight is non-negative and the sum of the weights is a predetermined value is used.
  • the constraint condition is expressed as the following equation (2).
  • C is a predetermined constant.
  • the weight given to the sample included in the learning data increases. That is, when C is a large value, the weight is optimized by the optimization unit 120 and the weight deriving unit 121 so that the learning data is emphasized.
  • the weight given to the sample included in the learning data becomes small. That is, when C is a large value, the weight is optimized by the optimization unit 120 and the weight deriving unit 121 so that the test data is emphasized.
  • the constraint condition determination unit 131 determines that the weight does not satisfy a predetermined constraint condition, for example, the weight deriving unit 121 or the like corrects the weight so as to satisfy the constraint condition.
  • the objective function deriving unit 130 may obtain a sufficiently large value as compared with the normally obtained objective function value. By doing in this way, the weight which does not satisfy
  • the constraint condition determination unit 131 may appropriately use a constraint condition different from the expression (2) according to information represented by learning data, test data, and the like, the format of the objective function, and the like.
  • the regularization unit 132 performs regularization on at least one of the weight and the feature conversion parameter.
  • the regularization unit 132 performs regularization on weights using a convex function so that the optimization unit 120 or the like can easily perform optimization.
  • the regularization unit 132 uses, for example, a regularization term represented by the following equation (3).
  • the optimization unit 120 optimizes the weight and the feature conversion parameter so that the value of the equation (3) becomes small.
  • the sum of the weights is constant. Therefore, the value of the expression (3) is used when the weights assigned to the samples included in the learning data are equal (that is, the difference between the weights is small and the difference is included in the predetermined range). Small value.
  • the objective function deriving unit 130 has the regularization unit 132, and regularization terms are introduced into the objective function, so that the weights can be equalized. This makes it possible to increase the number of effective samples included in the learning data.
  • the regularization unit 132 may appropriately use an expression different from the expression (3) as the regularization term depending on the information represented by the learning data, test data, and the like, the format of the objective function, and the like.
  • the conversion unit 140 performs feature conversion on at least one of the learning data and the test data based on the weight and the feature conversion parameter obtained by the optimization unit 120 and the feature conversion parameter derivation unit 122 for optimization. .
  • the conversion unit 140 performs feature conversion using f ⁇ described above.
  • the conversion unit 140 may output the learning data or the test data subjected to the feature conversion to an arbitrary type of storage unit, a communication network, or an arbitrary type of display unit (not shown). For example, the conversion unit 140 may output only the feature-converted f ⁇ (x) (x represents a feature vector that is a sample included in the learning data or test data). Moreover, the conversion part 140 may output together the learning data by which the characteristic conversion was carried out, and the weight corresponding to the said learning data regarding learning data.
  • the conversion unit 140 may output feature conversion parameters and weights so that the above-described feature conversion is performed also in other devices.
  • the conversion unit 140 may output the feature conversion parameter and the weight together with the learning data and the test data subjected to the feature conversion or only the feature conversion parameter and the weight.
  • the receiving unit 110 receives learning data and test data (step S101).
  • the accepted learning data and test data are appropriately stored in a storage means (not shown).
  • the initial values of weights and feature conversion parameters may be determined by the receiving unit 110 or the like.
  • the feature conversion apparatus 100 performs a series of operations for requesting the feature conversion parameters to be optimized.
  • the constraint condition determination unit 131 determines whether or not the constraint condition is satisfied by the weight (step S103). Further, the regularization unit 132 performs regularization (step S102). The order of the operations of these two steps is arbitrary.
  • the objective function deriving unit 130 obtains the value of the objective function based on the learning data and test data input in step S101, the weight, and the feature conversion parameter (step S104). In this case, the objective function deriving unit 130 obtains the value of the objective function using the result in step S102 or step S103.
  • the feature conversion parameter derivation unit 122 obtains a feature conversion parameter so as to optimize the feature conversion parameter with respect to the objective function (step S105).
  • the feature conversion apparatus 100 performs a series of operations for determining the weights to be optimized.
  • the constraint condition determination unit 131 determines again whether the constraint condition is satisfied by the weight (step S107).
  • the regularization unit 132 performs regularization (step S106).
  • the objective function deriving unit 130 obtains the value of the objective function (step S108).
  • the operations from step S106 to step S108 are performed in the same manner as the operations from step S102 to step S104, respectively.
  • the weight derivation unit 121 obtains a weight so as to optimize the weight for the objective function (step S109).
  • the optimization unit 120 determines whether or not to end the optimization process (step S110).
  • the optimization unit is optimized when, for example, a predetermined number of optimization processes have been performed, or when it is determined that a predetermined condition regarding the objective function is satisfied based on the degree of convergence of the objective function, etc. Is determined to end.
  • the conversion unit 140 next performs the process of step S111. That is, the conversion unit 140 performs feature conversion on at least one of the learning data and the test data based on the feature conversion parameter obtained in the previous steps. In this step, the conversion unit 140 may output the converted learning data or test data to any type of storage means, communication network, or any type of display means (not shown) as necessary. Moreover, the conversion part 140 may output the weight calculated
  • step S110 when the optimization unit 120 determines that the optimization process is not finished, the feature conversion apparatus 100 returns to step S102 or S103 and continues the process. That is, the processing after step S102 or step S103 is performed again using the weights and feature conversion parameters newly obtained in the processing up to that point. That is, the feature conversion apparatus 100 according to the present embodiment repeatedly performs weight value and feature conversion parameter derivation, for example, alternately until it is determined by the optimization unit 120 to end the optimization process.
  • the feature conversion apparatus 100 calculates the learning data weights and feature conversion parameters so as to be optimized with respect to the same objective function. More specifically, the feature conversion apparatus according to the first embodiment of the present invention optimizes learning data weight and feature conversion using an objective function including a regularization term that equalizes the weight of learning data. I do. By doing so, the feature conversion apparatus in the present embodiment increases the effective sample data included in the learning data, and approximates the statistical properties of the learning data and the statistical properties of the test data. Feature conversion can be performed. That is, the feature conversion apparatus according to the present embodiment can perform feature conversion with high accuracy.
  • the weight of learning data and an objective function into which normalization using a convex function is introduced are used. For this reason, the weight is optimized using a method for optimizing a convex function such as the subgradient method.
  • the feature conversion parameters are optimized using a general optimization technique. That is, by using the feature conversion apparatus 100 according to this embodiment, the weight of learning data and the parameters for feature conversion can be easily optimized.
  • the recognition device 10 using the feature conversion device 100 according to the first embodiment of the present invention will be described with reference to FIG.
  • the recognition device 10 is used for applications such as image recognition and voice recognition, for example.
  • the recognition device 10 may be used for other purposes.
  • the recognition device 10 in this application example includes a feature conversion device 100, a learning unit 11, and a recognition unit 12.
  • the feature conversion device 100 is the feature conversion device 100 described in the first embodiment of the present invention. That is, the feature conversion apparatus 100 performs feature conversion on the input learning model and test data. Then, the feature conversion apparatus 100 outputs the learning model and the test data subjected to the feature conversion, and the weight for the learning data as necessary to the learning unit 11 and the recognition unit 12 described later.
  • the learning unit 11 learns a recognition model based on, for example, a support vector machine based on the learning data on which the feature conversion is performed by the feature conversion device 100.
  • the recognition unit 12 recognizes the test data subjected to feature conversion by the feature conversion device 100 using the recognition model learned by the learning unit 11.
  • the recognition unit 12 outputs the result of recognition to, for example, an arbitrary type of storage unit (not shown), a communication network, or an arbitrary type of display unit.
  • the learning unit 11 learns a recognition model based on the learning data that has undergone feature conversion by the feature conversion device 100. Therefore, the recognition apparatus 10 in this application example can generate a highly accurate learning model even when the statistical properties of the prepared learning data are different from the statistical properties of the test data. Therefore, the recognition device 10 in this application example has high accuracy when applying a learning model generated based on learning data prepared in advance to actual test data, for example, when used for image or voice recognition. Can be recognized.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

 精度の高い特徴変換を可能とする特徴変換装置等を提供する。 特徴変換装置は、それぞれ複数のサンプルを含む学習データ及びテストデータを受付ける受付手段と、学習データに含まれる要素の各々に対して付される重みを導出する重み導出手段、及び、学習データ又はテストデータに含まれるサンプルの各々を変換する特徴変換パラメータを導出する特徴変換パラメータ導出手段を有し、重み及び特徴変換パラメータに関する目的関数に基づいて、重み及び特徴変換パラメータの最適化を行う最適化手段と、重みが所定の拘束条件を満たすか否かを判定する拘束条件判定手段、及び、重み又は特徴変換パラメータの少なくとも一方に関して正則化を行う正則化手段を有し、目的関数の値を導出する目的関数導出手段と、特徴変換パラメータに基づいて、学習データ又はテストデータの少なくとも一方に含まれる要素を変換する変換手段とを備える。

Description

特徴変換装置、認識装置、特徴変換方法及びコンピュータ読み取り可能記録媒体
 本発明は、特徴変換装置、認識装置、特徴変換方法及びコンピュータ読み取り可能記録媒体に関する。
 様々な分野において、統計的機械学習の技術が用いられている。統計的機械学習では、複数のサンプルを含み、各々のサンプルに対して当該サンプルが表す内容である正解クラスが付されたデータである学習データを用いて、その学習データとクラスとの統計的な性質がモデルに基づいて学習が行われる。この学習データは、学習に先立ち予め収集される。そして、複数のサンプルを含み、各々にサンプルに対して上述した正解クラスが付されていないデータであるテストデータに対して当該モデルが適用されることで、テストデータに関する予測や認識等の結果を得ることができる。
 機械学習が用いられる分野の一つとして、パターン認識技術がある。パターン認識技術は、入力されたパターンが属するクラスを推定する。パターン認識技術の例としては、画像に含まれる物体を推定する物体認識や、音声に関する発話内容を推定する音声認識などの技術がある。
 機械学習手法の多くでは、学習データの統計的性質とテストデータの統計的性質とが一致していることが仮定されている。すなわち、これらの性質が異なる場合には、機械学習の精度が低下する可能性がある。そのため、ドメイン適応と呼ばれる、上述した統計的性質のずれを補正する技術が提案されている。
 特許文献1には、学習装置等が記載されている。特許文献1に記載の学習装置は、訓練サンプルデータの入力データである訓練データと、テストデータとの生成確率の比である重要度に基づき、テストデータの出力を予測するための予測モデルを学習する。
 また、非特許文献1には、学習データとテストデータとが同じような分布となるように特徴変換を行う技術が記載されている。非特許文献1に記載された技術では、特徴変換として、学習データが分布する部分空間と、テストデータが分布する部分空間とを内挿した部分空間群への射影が用いられている。
特開2010-92266号公報
B. Gong, Y. Shi, F. Sha, and K. Grauman, "Geodesic Flow Kernel for Unsupervised Domain Adaptation," IEEE Conference on Computer Vision and Pattern Recognition (CVPR),pp. 2066-2073, 2012
 特許文献1に記載されている学習装置においては、学習データに含まれる実効的なサンプルデータの数が少なくなる場合がある。また、非特許文献1に記載されている技術においては、テストデータの統計的性質を近似する際に不要な学習データを使用して特徴変換が行われる場合がある。そのため、これらの技術に基づいて特徴変換がなされたデータを用いて学習が行われることで、学習の精度に影響が生じる場合がある。
 すなわち、特許文献1や非特許文献1に記載されている技術は、ドメイン適応の精度に改善の余地がある。
 本発明は、上記課題を解決するためになされたものであって、精度の高い特徴変換を可能とする特徴変換装置等を提供することを主たる目的とする。
 本発明の一態様における特徴変換装置は、それぞれ複数のサンプルを含む学習データ及びテストデータを受付ける受付手段と、学習データに含まれる要素の各々に対して付される重みを導出する重み導出手段、及び、学習データ又はテストデータに含まれるサンプルの各々を変換する特徴変換パラメータを導出する特徴変換パラメータ導出手段を有し、重み及び特徴変換パラメータに関する目的関数に基づいて、重み及び特徴変換パラメータの最適化を行う最適化手段と、重みが所定の拘束条件を満たすか否かを判定する拘束条件判定手段、及び、重み又は特徴変換パラメータの少なくとも一方に関して正則化を行う正則化手段を有し、目的関数の値を導出する目的関数導出手段と、特徴変換パラメータに基づいて、学習データ又はテストデータの少なくとも一方に含まれる要素を変換する変換手段とを備える。
 本発明の一態様における特徴変換方法は、それぞれ複数のサンプルを含む学習データ及びテストデータを受付け、学習データに含まれる要素の各々に対して付される重みが所定の拘束条件を満たすか否かを判定し、重み又は学習データ若しくはテストデータに含まれるサンプルの各々を変換する特徴変換パラメータの少なくとも一方に関して正則化を行って、目的関数の値を導出し、重みを導出し、かつ、特徴変換パラメータを導出して、重み及び特徴変換パラメータに関する目的関数に基づいて、重み及び特徴変換パラメータの最適化を行い、特徴変換パラメータに基づいて、学習データ又はテストデータの少なくとも一方に含まれる要素を変換する。
 本発明の一態様におけるコンピュータ読み取り可能記録媒体は、コンピュータに、それぞれ複数のサンプルを含む学習データ及びテストデータを受付ける処理と、学習データに含まれる要素の各々に対して付される重みを最適化するように導出する処理、及び、学習データ又はテストデータに含まれるサンプルの各々を変換する特徴変換パラメータを最適化するように導出する処理を行い、重み及び特徴変換パラメータに関する目的関数に基づいて、重み及び特徴変換パラメータを最適化する処理と、重みが所定の拘束条件を満たすか否かを判定する処理、及び、重み又は特徴変換パラメータの少なくとも一方に関して正則化を行う処理を行い、目的関数の値を導出する処理と、特徴変換パラメータに基づいて、学習データ又はテストデータの少なくとも一方に含まれる要素を変換する処理とを実行させるプログラムを非一時的に格納する。
 本発明によると、精度の高い特徴変換を可能とする特徴変換装置等を提供することができる。
本発明の第1の実施形態における特徴変換装置の構成を示す図である。 本発明の第1の実施形態における特徴変換装置の動作の一例を示すフローチャートである。 本発明の第1の実施形態における特徴変換装置と関連する技術に基づいて、学習データ及びテストデータに含まれるサンプルの各々に対して重み付けが行われる場合の一例を示す図である。 本発明の第1の実施形態における特徴変換装置と関連する技術に基づいて、学習データ等に関して特徴変換が行われる場合の一例を示す図である。 本発明の第1の実施形態における特徴変換装置にて学習データ及びテストデータに対して特徴変換及び重み付けが行われる場合の例を示す図である。 本発明の一実施例における認識装置の構成を示す図である。 本発明の実施形態及び実施例における特徴変換装置等を実現する情報処理装置の一例である。
 本発明の実施形態等について、添付の図面を参照して説明する。最初に、本発明の実施形態等における特徴変換装置の基礎となるドメイン適応の技術について説明する。その後、本発明の実施形態等について説明する。
 最初に、ドメイン適応の技術について説明する。上述のように、ドメイン適応は、学習データの統計的性質とテストデータの統計的性質とが異なる場合に、その統計的性質のずれを補正する技術である。なお、この場合において、学習データは、例えば正解クラスが付された1つ以上のサンプルを含む。テストデータは、例えば正解クラスが付されていない1つ以上のサンプルを含む。
 ドメイン適応に関する手法の一つは、学習データに含まれるサンプルの各々に対して重み付けを行う手法である。この手法は、例えば上述した特許文献1に記載されている。図3は、学習データに含まれるサンプルの各々に対して重み付けがなされる場合における学習データ及びテストデータの例を示す図である。なお、図3の例では、図3(1)にて学習データとして示される実線の楕円及び図3(2)にてテストデータとして示される点線の楕円は、学習データ及びテストデータのそれぞれに含まれるサンプルが分布する領域を表す。
 この手法においては、例えば、学習データ及びテストデータの各々の分布が重なる領域(図3においては、図3(3)にて色付けされた領域)に含まれる学習データのサンプルに対する重みが大きくなるように、重み付けが行われる。そして、上述した重み付けが行われることによって、テストデータを近似した学習データのデータ分布が表現されるようになる。なお、図3(3)において、実線の楕円及び点線の楕円は、学習データ及びテストデータのそれぞれに含まれるサンプルが分布する領域を表す。
 しかしながら、この手法においては、実効的なサンプル(当該学習データを用いて学習が行われる場合に有効となるサンプル)の数を考慮せずに重み付けが行われる場合がある。このことから、一部のサンプルのみに大きな重み付けが行われる可能性がある。一部のデータのみに大きな重み付けが行われることで、学習データの実効的なサンプルのデータ数が少なくなる可能性がある。その結果として、当該学習データを用いた学習が行われる場合に、その学習に悪影響が生じる場合がある。
 ドメイン適応に関する別の手法の一つは、学習データの分布とテストデータの分布とを近似させる(すなわち、同じような分布となる)ように、学習データ又はテストデータの少なくとも一方に対して特徴変換を行う手法である。この手法は、例えば上述した非特許文献1に記載されている。図4は、学習データ及びテストデータの各々に対して特徴変換がなされる場合における学習データ及びテストデータの例を示す図である。図4の例では、図4(1)にて学習データとして示される実線の楕円及び図4(2)にてテストデータとして示される点線の楕円は、図3の例と同様に、学習データ及びテストデータのそれぞれに含まれるサンプルが分布する領域を表す。
 この手法においては、図4(3)に示されるように、特徴変換が行われることで、学習データとテストデータとが類似した分布となる。したがって、この例では、変換された学習データにてテストデータを近似させることが可能となる。なお、図4(3)において、実線の楕円及び点線の楕円は、図3(3)と同様に、それぞれ学習データ及びテストデータの各々に含まれるサンプルが分布する領域を表す。
 しかしながら、この手法においては、学習データに含まれるサンプルデータの全てが均等に用いられて特徴変換が行われる場合がある。そのため、特徴変換において、テストデータの統計的性質に近似させる場合には必ずしも必要ではない学習データのサンプルが用いられる場合がある。このような特徴変換が行われると、正確なドメイン適応が行うことが難しい場合がある。
 これに対して、本発明の第1の実施形態等における特徴変換装置は、上述した重み付けの手法と特徴変換の手法とを併用する。すなわち、本発明の第1の実施形態等における特徴変換装置は、学習データの重みと特徴変換とを同一の目的関数に関して最適化するようにして求める。また、本発明の第1の実施形態等における特徴変換装置は、学習データの重みを均等にするような正則化項を含む目的関数を用いてもよい。このようにすることで、ドメイン適応が行われた学習データに含まれる実効的なサンプルのデータを多くしつつ、学習データの統計的性質とテストデータの統計的性質とが近似した特徴変換を行うことが可能となる。
 図5は、学習データ及びテストデータの各々に対して重み付け及び特徴変換がなされる場合における学習データ及びテストデータの例を示す図である。図5において、図5(1)にて学習データとして示される実線の楕円及び図5(2)にてテストデータとして示される点線の楕円は、図3等の例と同様に、学習データ及びテストデータのそれぞれに含まれるサンプルが分布する領域を表す。
 本発明の各実施形態において用いられる手法では、学習データ及びテストデータの各々は、重み付け及び特徴変換が行われることで、図5(3)に示されるような形態となる。なお、図5(3)において、学習データの分布とテストデータの分布とが重なる領域は、図3(3)と同様に色付けされている。図5(3)に示されているように、学習データの分布とテストデータの分布とが重なる領域は、図3(3)と比較して大きくなっている。そして、本発明の各実施形態において用いられる手法では、当該色付けられた領域に含まれる学習データのサンプルに大きな重みが付されるように重み付けが行われる。なお、図5(3)において、実線の楕円及び点線の楕円は、図3(3)又は図4(3)と同様に、それぞれ学習データ及びテストデータの各々に含まれるサンプルが分布する領域を表す。
 すなわち、本発明の各実施形態において用いられる手法では、図3(3)に示される重み付けのみに基づく手法と比較すると、大きな重みをもつサンプルが含まれる領域を大きくすることが可能である。このことは、実効的な学習データのサンプル数が増えていることを示している。
 また、本発明の各実施形態において用いられる手法では、図4(3)に示される特徴変換のみに基づく手法と比較すると、学習データ及びテストデータの分布が重ならない領域に含まれるサンプルデータに小さな重みが割当てられている。
このことは、効果的なドメイン適応を行うことが可能であることを示している。
 続いて、本発明の実施形態等について説明する。なお、本発明の実施形態において、各装置の各構成要素は、機能単位のブロックを示している。各装置の各構成要素は、例えば図7に示すような情報処理装置500とソフトウェアとの任意の組み合わせにより実現することができる。情報処理装置500は、一例として、以下のような構成を含む。
  ・CPU(Central Processing Unit)501
  ・ROM(Read Only Memory)502
  ・RAM(Random Access Memory)503
  ・RAM503にロードされるプログラム504
  ・プログラム504を格納する記憶装置505
  ・記録媒体506の読み書きを行うドライブ装置507
  ・ネットワーク509と接続する通信インターフェース508
  ・データの入出力を行う入出力インターフェース510
  ・各構成要素を接続するバス511
各装置の実現方法には様々な変形例がある。例えば、各装置は、専用の装置として実現することができる。また、各装置は、複数の装置の組み合わせにより実現することができる。
 なお、本発明の各実施形態の構成等を示す図面において、矢印は、データの流れの向きの一例を示す。しかしながら、データの流れは、図中に示す矢印の向きに限られない。
 また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry)、プロセッサ等やこれらの組み合わせによって実現される。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。
 各装置の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
(第1の実施形態)
 まず、本発明の第1の実施形態について説明する。図1は、本発明の第1の実施形態における特徴変換装置の構成を示す図である。図2は、本発明の第1の実施形態における特徴変換装置の動作の一例を示すフローチャートである。図7は、本発明の実施形態及び実施例における特徴変換装置等を実現する情報処理装置の一例である。
 図1に示すとおり、本発明の第1の実施形態における特徴変換装置は、特徴変換装置100と、受付部110と、最適化部120と、目的関数導出部130と、拘束条件判定部131と、正則化部132と、変換部140とを備える。最適化部120は、重み導出部121と、特徴変換パラメータ導出部122とを有する。目的関数導出部130は、拘束条件判定部131と、正則化部132とを有する。
 受付部110は、学習データ及びテストデータを受付ける。最適化部120は、重み及び特徴変換パラメータに関する目的関数に基づいて、重み及び特徴変換パラメータの最適化を行う。最適化部120において、重み導出部121は、学習データに含まれる要素の各々に対して付される重みを導出する。また、特徴変換パラメータ導出部122は、学習データ又はテストデータに含まれる要素の各々を変換する特徴変換パラメータを導出する。目的関数導出部130は、上述した目的関数の値を導出する。目的関数導出部130において、拘束条件判定部131は、重みに関する所定の拘束条件を満たすか否かを判定する。また、正則化部132は、重み又は特徴変換パラメータの少なくとも一方に関する正則化を行う。変換部140は、特徴変換パラメータに基づいて、学習データ又はテストデータの少なくとも一方に含まれる要素を変換する。
 続いて、本実施形態における特徴変換装置100の各構成要素について説明する。
 受付部110は、学習データ及びテストデータを受付ける。受付部110にて受付けた学習データ及びテストデータは、図示しない記憶手段等に格納される。
 本実施形態において、学習データは、例えば正解クラスが付された1つ以上のサンプルを含む。テストデータは、例えば正解クラスが付されていない1つ以上のサンプルを含む。また、例えば学習データ及びテストデータが画像に含まれる物体の認識に関するデータである場合、学習データ及びテストデータに含まれるサンプルは、画像から抽出したSIFT(Scale-Invariant Feature Transform)特徴量等の特徴量を記述した特徴ベクトルとなる。この場合に、学習データに付されたクラスは、例えば当該画像に含まれる物体の名称である。
 なお、受付部110にて受付ける学習データ及びテストデータは、それぞれ上述した例と異なるデータでもよい。例えば、受付部110は、正解クラスが付されていないサンプルを含む学習データと、正解クラスが付されたサンプルを含むテストデータとを受付けてもよい。または、受付部110は、正解クラスが付されていないサンプルを含む学習データと、正解クラスが付されていないサンプルを含むテストデータとを受付けてもよい。学習データ及びテストデータに含まれるサンプルは、各々が表す情報の種類等に応じて、適宜上述した特徴ベクトルと異なる形態であってもよい。
 最適化部120は、重み及び特徴変換パラメータに関する目的関数に基づいて、重み及び特徴変換パラメータを最適化する。最適化部120は、重み導出部121及び特徴変換パラメータ導出部122を有する。
 本実施形態において、重みは、学習データに含まれるサンプルごとに定められる値であり、テストデータを近似する場合におけるサンプルの各々の重要度を表す。学習データに含まれるサンプルが上述した特徴ベクトルである場合には、重みは当該特徴ベクトルごとに決められるスカラー値である。また、この場合には、重みが大きい場合に、当該特徴ベクトルがテストデータを近似する場合に重要であることを示す。
 特徴変換パラメータは、学習データ等に対して特徴変換が行われる場合に、その特徴変換の程度を示すパラメータである。学習データに含まれるサンプルが上述した特徴ベクトルである場合には、特徴変換パラメータは、行列として表現される。そして、この行列と特徴ベクトルとの乗算によって、特徴変換が行われる。
 最適化部120では、最適化は、予め定められた目的関数に基づいて行われる。一例として、画像に含まれる物体の認識に関する学習の場合においては、目的関数は、下記の(1)式に示す目的関数Lが用いられる。目的関数として下記の(1)式に示す目的関数Lが用いられる場合においては、上述した最適化は、この(1)式に示す目的関数Lの値を最小化するように行われる。
Figure JPOXMLDOC01-appb-M000001
 この(1)式において、xは学習データ又はテストデータに含まれるサンプルである特徴ベクトルを、Dは学習データを、Dはテストデータを表す。また、wは重みを、θは特徴変換のパラメータを、fθは特徴変換に関する演算を、gθは変換後の特徴から元の特徴に戻す逆変換に関する演算を、Rは重みに対する正則化を行う凸関数を表す。
 上述した(1)式にて示される目的関数は、変換後の特徴を逆変換した値と元の特徴との差のL2ノルムを第1項及び第2項で最小化する。(1)式にて示される目的関数は、特徴変換の学習において用いられる基準の一例である。ただし、目的関数は、学習データ及びテストデータが表す情報等に応じて、上述した(1)式と異なる形式にて適宜定められてもよい。例えば、目的関数は、相関関数であってもよい。
 なお、最適化部120は、重み導出部121での重みの最適化と、特徴変換パラメータ導出部122での特徴変換パラメータの最適化とを、例えば交互に繰り返して実行する。
 最適化部120において、重み導出部121は、上述した重みを求める。より詳しくは、重み導出部121は、上述した目的関数に関して最適化した重みを求める。本実施形態においては、(1)式で示される目的関数は、重みに関して凸関数となる。したがって、重み導出部121は、凸関数を最適化する際に一般的に用いられる劣勾配法や内点法等の手法に基づいて、重みを最適化する。
 最適化部120において、特徴変換パラメータ導出部122は、上述した特徴変換パラメータを求める。より詳しくは、特徴変換パラメータ導出部122は、上述した目的関数に関して最適化した特徴変換パラメータを求める。
 本実施形態の例では、特徴変換パラメータに関しては、後述する拘束条件判定部131にて説明されるような拘束条件は定められていない。そのため、特徴変換パラメータ導出部122は、特徴変換の最適化において一般に用いられる勾配法等の手法に基づいて、特徴変換パラメータの最適化を行うことが可能である。
 目的関数導出部130は、目的関数の値を求める。目的関数導出部130は、拘束条件判定部131と、正則化部132とを有する。
 目的関数導出部130は、目的関数を求める時点における重み及び特徴変換パラメータの値に基づいて目的関数の値を導出する。また、目的関数導出部130は、重み及び特徴変換パラメータの最適化に際して必要となる情報(例えば、勾配)を併せて導出してもよい。
 目的関数導出部130において、拘束条件判定部131は、重みが予め定められた拘束条件を満たすか否かを判定する。拘束条件の一例として、各々の重みが非負であり、重みの総和が予め定められた値であるとの条件が用いられる。一例として、画像に含まれる物体の認識に関する学習の場合においては、拘束条件は、下記の(2)式のように表される。
Figure JPOXMLDOC01-appb-M000002
 上述した(2)式において、Cは予め定められる定数である。Cが大きな値になることで、学習データに含まれるサンプルに付される重みが大きくなる。すなわち、Cが大きな値となることで、学習データが重視されるように、最適化部120や重み導出部121にて重みが最適化されて求められる。一方、Cが小さな値となることで、学習データに含まれるサンプルに付される重みが小さくなる。すなわち、Cが大きな値となることで、テストデータが重視されるように、最適化部120や重み導出部121にて重みが最適化されて求められる。
 拘束条件判定部131において、重みが予め定められた拘束条件を満たさないと判定される場合には、例えば重み導出部121等にて、拘束条件を満たすように重みが補正される。
 又は、この場合において、目的関数導出部130は、通常求められる目的関数の値と比較して十分に大きな値を求めてもよい。このようにすることで、上述した拘束条件を満たさない重みが最適解として導出されないようにすることができる。
 なお、拘束条件判定部131は、学習データやテストデータ等が表す情報や、目的関数の形式等に応じて、適宜(2)式と異なる拘束条件を用いてもよい。
 目的関数導出部130において、正則化部132は、重み又は特徴変換パラメータの少なくとも一方に関する正則化を行う。一例として、正則化部132は、最適化部120等にて容易に最適化が行われるように、凸関数を用いて重みに関する正則化を行う。本実施形態においては、例えば画像に含まれる物体の認識に関する学習の場合においては、正則化部132は、例えば以下の(3)式に示される正則化項を用いる。
Figure JPOXMLDOC01-appb-M000003
 先の(1)式にて示されているように、最適化部120は、この(3)式の値が小さくなるように重み及び特徴変換パラメータの最適化を行う。一方、拘束条件判定部131における(2)式にして示されているように、重みの総和は一定となる。そのため、(3)式の値は、学習データに含まれるサンプルの各々に付された重みが均等である(すなわち、重みの各々の相違が小さく、その相違が所定の範囲に含まれる)場合に小さな値となる。
 つまり、本実施形態における特徴変換装置100は、目的関数導出部130が正則化部132を有し、目的関数に正則化項が導入されることで、重みを均等にすることができる。そして、このことから、学習データに含まれる実効的なサンプルの数を多くすることが可能となる。
 なお、正則化部132は、学習データやテストデータ等が表す情報や、目的関数の形式等に応じて、適宜(3)式と異なる式を正則化項として用いてもよい。
 変換部140は、最適化部120及び特徴変換パラメータ導出部122にて最適化するように求められた重み及び特徴変換パラメータに基づいて、学習データ又はテストデータの少なくとも一方に対して特徴変換を行う。変換部140は、先に説明したfθを用いて特徴変換を行う。
 変換部140は、特徴変換が行われた学習データ又はテストデータを、図示しない任意の種類の記憶手段、通信ネットワーク又は任意の種類の表示手段等に出力してもよい。変換部140は、一例として、特徴変換されたfθ(x)のみ(xは学習データ又はテストデータに含まれるサンプルである特徴ベクトルを表す)を出力してもよい。また、変換部140は、学習データに関しては、特徴変換された学習データと、当該学習データに対応する重みとを、併せて出力してもよい。
 なお、変換部140は、他の装置等においても上述したような特徴変換が行われるよう、特徴変換パラメータや重みを出力してもよい。この場合には、変換部140は、特徴変換パラメータや重みを、特徴変換がなされた学習データやテストデータと併せて、又は特徴変換パラメータや重みのみを出力してもよい。
 続いて、図2を用いて、本実施形態における特徴変換装置100の動作の一例を説明する。
 最初に、受付部110は、学習データ及びテストデータを受付ける(ステップS101)。受付けた学習データ及びテストデータは、図示しない記憶手段等に適宜格納される。なお、このステップにおいて、受付部110等にて重みや特徴変換パラメータの初期値が定められてもよい。
 次に、特徴変換装置100は、特徴変換パラメータを最適化するように求める一連の動作を行う。この場合に、まず、目的関数導出部130において、拘束条件判定部131は、重みに拘束条件が満たされているか否かの判定を行う(ステップS103)。また、正則化部132は、正則化を行う(ステップS102)。この2つのステップの動作の順序は任意である。そして、目的関数導出部130は、ステップS101にて入力された学習データ及びテストデータや、重み、特徴変換パラメータに基づいて、目的関数の値を求める(ステップS104)。この場合に、目的関数導出部130は、ステップS102又はステップS103における結果も用いて目的関数の値を求める。次に、最適化部120において、特徴変換パラメータ導出部122は、目的関数に対して特徴変換パラメータを最適化するように、特徴変換パラメータを求める(ステップS105)。
 次に、特徴変換装置100は、重みを最適化するように求める一連の動作を行う。まず、目的関数導出部130において、拘束条件判定部131は、再び重みに拘束条件が満たされているか否かの判定を行う(ステップS107)。同様に、正則化部132は、正則化を行う(ステップS106)。そして、目的関数導出部130は、目的関数の値を求める(ステップS108)。ステップS106からステップS108までの動作は、それぞれステップS102からステップS104までの動作と同様に行われる。次に、最適化部120において、重み導出部121は、目的関数に対して重みを最適化するように、重みを求める(ステップS109)。
 次に、最適化部120は、最適化処理を終了するか否かを判定する(ステップS110)。最適化部は、例えば予め定めた回数の最適化の処理が行われた場合や、目的関数の収束具合等に基づき、目的関数に関する所定の条件が満たされていると判断される場合に、最適化処理を終了すると判定する。
 最適化部120が最適化処理を終了すると判定した場合には、次に、変換部140においてステップS111の処理が行われる。すなわち、変換部140は、それまでのステップにて求められた特徴変換パラメータに基づいて、学習データ又はテストデータの少なくとも一方に関して特徴変換を行う。このステップでは、変換部140は、必要に応じて、変換された学習データ又はテストデータを、図示しない任意の種類の記憶手段、通信ネットワーク又は任意の種類の表示手段等に出力してもよい。また、変換部140は、それまでのステップにて求められた重みを併せて出力してもよい。
 ステップS110において、最適化部120が最適化処理を終了しないと判定した場合には、特徴変換装置100は、ステップS102又はS103に戻り、処理を継続する。すなわち、それまでの処理にて新たに求められた重みや特徴変換パラメータを用いて、ステップS102又はステップS103以降の処理が再度行われる。すなわち、本実施形態における特徴変換装置100は、重み及び特徴変換パラメータの導出を、最適化部120において最適化処理を終了すると判定されるまで、例えば交互に繰り返し実行する。
 以上のとおり、本実施形態における特徴変換装置100は、学習データの重みと特徴変換パラメータとを、同一の目的関数に関して最適化するように求める。より詳しくは、本発明の第1の実施形態等における特徴変換装置は、学習データの重みを均等にするような正則化項を含む目的関数を用いて、学習データの重み及び特徴変換の最適化を行う。このようにすることで、本実施形態における特徴変換装置は、学習データに含まれる実効的なサンプルのデータを多くしつつ、学習データの統計的性質とテストデータの統計的性質とを近似させて特徴変換を行うことができる。すなわち、本実施形態における特徴変換装置は、精度の高い特徴変換を行うことができる。
 また、本実施形態における特徴変換装置100では、例えば学習データの重みに関する拘束条件と、凸関数を用いた正規化を導入した目的関数が用いられる。このことから、重みに関しては、劣勾配法等の凸関数に関する最適化の方法等を用いて最適化が行われる。また、特徴変換のパラメータに関しては、一般的な最適化の手法を用いて最適化が行われる。すなわち、本実施形態における特徴変換装置100を用いることで、学習データの重み及び特徴変換のパラメータが、容易に最適化されることが可能となる。
 そして、本実施形態における特徴変換装置100を用いることで、画像認識や音声認識を含む統計的機械学習において、予め用意された学習データを実際のデータに適用する場合における学習の性能を向上させることが可能となる。
(適用例)
 次に、図6を用いて、本発明の第1の実施形態における特徴変換装置100を用いる認識装置10について説明する。この認識装置10は、例えば、画像認識や音声認識等の用途に用いられる。ただし、認識装置10は、その他の用途にて用いられてもよい。
 本適用例における認識装置10は、特徴変換装置100と、学習部11と、認識部12とを備える。
 特徴変換装置100は、本発明の第1の実施形態にて説明した特徴変換装置100である。すなわち、特徴変換装置100は、入力された学習モデル及びテストデータに対して特徴変換を行う。そして、特徴変換装置100は、特徴変換された学習モデル及びテストデータや、必要に応じて学習データに対する重みを、後述する学習部11及び認識部12に出力する。
 学習部11は、特徴変換装置100にて特徴変換が行われた学習データに基づいて、例えばサポートベクターマシン等に基づく認識モデルを学習する。
 認識部12は、学習部11にて学習が行われた認識モデルを用いて、特徴変換装置100にて特徴変換されたテストデータの認識を行う。認識部12は、認識を行った結果を、例えば図示しない任意の種類の記憶手段、通信ネットワーク又は任意の種類の表示手段等に出力する。
 本適用例における認識装置10においては、学習部11は、特徴変換装置100にて特徴変換が行われた学習データに基づいて、認識モデルの学習を行う。そのため、本適用例における認識装置10は、予め用意された学習データの統計的性質がテストデータの統計的性質と異なっている場合でも、精度の高い学習モデルを生成することができる。したがって、本適用例における認識装置10は、例えば画像や音声の認識に用いられる場合に、予め用意された学習データに基づいて生成された学習モデルを実際のテストデータに適用する場合に、高い精度で認識等を行うことができる。
 以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、各実施形態における構成は、本発明のスコープを逸脱しない限りにおいて、互いに組み合わせることが可能である。
 この出願は、2015年2月6日に出願された日本出願特願2015-22400を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 10  認識装置
 100  特徴変換装置
 110  受付部
 120  最適化部
 121  重み導出部
 122  特徴変換パラメータ導出部
 130  目的関数導出部
 131  拘束条件判定部
 132  正則化部
 140  変換部

Claims (9)

  1.  それぞれ複数のサンプルを含む学習データ及びテストデータを受付ける受付手段と、
     前記学習データに含まれる要素の各々に対して付される重みを導出する重み導出手段、及び、前記学習データ又は前記テストデータに含まれる前記サンプルの各々を変換する特徴変換パラメータを導出する特徴変換パラメータ導出手段を有し、前記重み及び前記特徴変換パラメータに関する目的関数に基づいて、前記重み及び前記特徴変換パラメータの最適化を行う最適化手段と、
     前記重みが所定の拘束条件を満たすか否かを判定する拘束条件判定手段、及び、前記重み又は前記特徴変換パラメータの少なくとも一方に関して正則化を行う正則化手段を有し、前記目的関数の値を導出する目的関数導出手段と、
     前記特徴変換パラメータに基づいて、前記学習データ又は前記テストデータの少なくとも一方に含まれる要素を変換する変換手段とを備える、特徴変換装置。
  2.  前記正則化手段は、学習データに含まれる前記複数のサンプルの各々に対する前記重みの相違が所定の範囲に含まれるように正則化を行う、請求項1に記載の特徴変換装置。
  3.  前記拘束条件判定手段は、学習データに含まれる前記複数のサンプルの各々に対する前記重みが非負であり、かつ、前記重みの総和が所定の条件を満たすか否かを判定する、請求項1又は2に記載の特徴変換装置。
  4.  前記受付手段は、複数の前記サンプルの各々に対して当該サンプルが表す内容である正解クラスが付された学習データと、複数の前記サンプルの各々に対して前記正解クラスが付されていないテストデータとを受付ける、請求項1から3のいずれか一項に記載の特徴変換装置。
  5.  前記受付手段は、複数の前記サンプルの各々に対して当該サンプルが表す内容である正解クラスが付されていない学習データと、複数の前記サンプルの各々に対して前記正解クラスが付されたテストデータとを受付ける、請求項1から3のいずれか一項に記載の特徴変換装置。
  6.  前記受付手段は、複数の前記サンプルの各々に対して当該サンプルが表す内容である正解クラスが付されていない学習データと、複数の前記サンプルの各々に対して前記正解クラスが付されていないテストデータとを受付ける、請求項1から3のいずれか一項に記載の特徴変換装置。
  7.  請求項1から6のいずれか一項に記載の特徴変換装置と、
     前記特徴変換装置にて導出された前記重み及び前記特徴変換パラメータに基づいて変換された前記学習データに基づいて認識モデルの学習を行う学習手段と、
     前記特徴変換装置にて導出された前記特徴変換パラメータに基づいて変換された前記テストデータと前記認識モデルとに基づいて、前記テストデータに関する認識を行う認識手段とを備える、認識装置。
  8.  それぞれ複数のサンプルを含む学習データ及びテストデータを受付け、
     前記学習データに含まれる要素の各々に対して付される重みが所定の拘束条件を満たすか否かを判定し、かつ、前記重み又は前記学習データ若しくは前記テストデータに含まれる前記サンプルの各々を変換する特徴変換パラメータの少なくとも一方に関して正則化を行って、前記目的関数の値を導出し、
     前記重みを導出し、かつ、前記特徴変換パラメータを導出して、前記重み及び前記特徴変換パラメータに関する目的関数に基づいて、前記重み及び前記特徴変換パラメータの最適化を行い、
     前記特徴変換パラメータに基づいて、前記学習データ又は前記テストデータの少なくとも一方に含まれる要素を変換する、
     特徴変換方法。
  9.  コンピュータに、
     それぞれ複数のサンプルを含む学習データ及びテストデータを受付ける処理と、
     前記学習データに含まれる要素の各々に対して付される重みを最適化するように導出する処理、及び、前記学習データ又は前記テストデータに含まれる前記サンプルの各々を変換する特徴変換パラメータを最適化するように導出する処理を行い、前記重み及び前記特徴変換パラメータに関する目的関数に基づいて、前記重み及び前記特徴変換パラメータを最適化する処理と、
     前記重みが所定の拘束条件を満たすか否かを判定する処理、及び、前記重み又は前記特徴変換パラメータの少なくとも一方に関して正則化を行う処理を行い、前記目的関数の値を導出する処理と、
     前記特徴変換パラメータに基づいて、前記学習データ又は前記テストデータの少なくとも一方に含まれる要素を変換する処理とを実行させるプログラムを非一時的に格納したコンピュータ読み取り可能記録媒体。
PCT/JP2016/000592 2015-02-06 2016-02-05 特徴変換装置、認識装置、特徴変換方法及びコンピュータ読み取り可能記録媒体 WO2016125500A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US15/545,769 US10482351B2 (en) 2015-02-06 2016-02-05 Feature transformation device, recognition device, feature transformation method and computer readable recording medium
JP2016573231A JP6673226B2 (ja) 2015-02-06 2016-02-05 特徴変換装置、認識装置、特徴変換方法及びコンピュータ読み取り可能記録媒体

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015022400 2015-02-06
JP2015-022400 2015-02-06

Publications (1)

Publication Number Publication Date
WO2016125500A1 true WO2016125500A1 (ja) 2016-08-11

Family

ID=56563852

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/000592 WO2016125500A1 (ja) 2015-02-06 2016-02-05 特徴変換装置、認識装置、特徴変換方法及びコンピュータ読み取り可能記録媒体

Country Status (3)

Country Link
US (1) US10482351B2 (ja)
JP (1) JP6673226B2 (ja)
WO (1) WO2016125500A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019101789A (ja) * 2017-12-04 2019-06-24 日本電信電話株式会社 モデル学習装置、モデル学習方法、および、予測システム
JP2019128790A (ja) * 2018-01-24 2019-08-01 株式会社リコー 言語処理装置、言語処理方法及びプログラム
WO2019215904A1 (ja) * 2018-05-11 2019-11-14 日本電気株式会社 予測モデル作成装置、予測モデル作成方法、および予測モデル作成プログラム記録媒体
JP6818970B1 (ja) * 2020-05-20 2021-01-27 三菱電機株式会社 データ作成装置、機械学習システムおよび加工状態推定システム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11403327B2 (en) * 2019-02-20 2022-08-02 International Business Machines Corporation Mixed initiative feature engineering

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08106295A (ja) * 1994-10-05 1996-04-23 Atr Onsei Honyaku Tsushin Kenkyusho:Kk パターン認識方法及び装置
JP2010092266A (ja) * 2008-10-08 2010-04-22 Nec Corp 学習装置、学習方法及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3776500B2 (ja) * 1996-03-26 2006-05-17 オリンパス株式会社 多重化光学系及びそれを用いた特徴ベクトル変換装置、特徴ベクトル検出伝送装置、及び、それらを用いた認識分類装置
EP1927080B1 (en) * 2005-09-15 2017-01-11 Philips Intellectual Property & Standards GmbH Compensating in-plane and off-plane motion in medical images
US7467118B2 (en) * 2006-01-12 2008-12-16 Entelos Inc. Adjusted sparse linear programming method for classifying multi-dimensional biological data
US8612367B2 (en) * 2011-02-04 2013-12-17 Microsoft Corporation Learning similarity function for rare queries

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08106295A (ja) * 1994-10-05 1996-04-23 Atr Onsei Honyaku Tsushin Kenkyusho:Kk パターン認識方法及び装置
JP2010092266A (ja) * 2008-10-08 2010-04-22 Nec Corp 学習装置、学習方法及びプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019101789A (ja) * 2017-12-04 2019-06-24 日本電信電話株式会社 モデル学習装置、モデル学習方法、および、予測システム
JP2019128790A (ja) * 2018-01-24 2019-08-01 株式会社リコー 言語処理装置、言語処理方法及びプログラム
WO2019215904A1 (ja) * 2018-05-11 2019-11-14 日本電気株式会社 予測モデル作成装置、予測モデル作成方法、および予測モデル作成プログラム記録媒体
JPWO2019215904A1 (ja) * 2018-05-11 2021-03-18 日本電気株式会社 予測モデル作成装置、予測モデル作成方法、および予測モデル作成プログラム
JP6818970B1 (ja) * 2020-05-20 2021-01-27 三菱電機株式会社 データ作成装置、機械学習システムおよび加工状態推定システム
WO2021234876A1 (ja) * 2020-05-20 2021-11-25 三菱電機株式会社 データ作成装置、機械学習システムおよび加工状態推定装置
US11762374B2 (en) 2020-05-20 2023-09-19 Mitsubishi Electric Corporation Data generation device, machine learning system, and machining state estimation system

Also Published As

Publication number Publication date
JP6673226B2 (ja) 2020-03-25
US10482351B2 (en) 2019-11-19
JPWO2016125500A1 (ja) 2017-11-24
US20180018538A1 (en) 2018-01-18

Similar Documents

Publication Publication Date Title
JP6673226B2 (ja) 特徴変換装置、認識装置、特徴変換方法及びコンピュータ読み取り可能記録媒体
CN110263162B (zh) 卷积神经网络及其进行文本分类的方法、文本分类装置
CN109919183B (zh) 一种基于小样本的图像识别方法、装置、设备及存储介质
JP6943291B2 (ja) 学習装置、学習方法、及び、プログラム
CN113610232B (zh) 网络模型量化方法、装置、计算机设备以及存储介质
KR20180094024A (ko) 적응적 인공 신경 네트워크 선택 기법들
CN111079780A (zh) 空间图卷积网络的训练方法、电子设备及存储介质
TWI751668B (zh) 影像歸一化處理方法、電腦可讀取記錄媒體和電子設備
WO2022021834A1 (zh) 神经网络模型确定方法、装置、电子设备、介质及产品
CN115982736A (zh) 用于计算机网络信息的数据加密方法及系统
CN113778718A (zh) 基于动态路由的微服务资源管理方法、系统和电子设备
CN115660116A (zh) 基于稀疏适配器的联邦学习方法及系统
WO2017188048A1 (ja) 作成装置、作成プログラム、および作成方法
JP5175754B2 (ja) 線形変換行列算出装置、その方法、及び、そのプログラム
KR102305981B1 (ko) 신경망 압축 훈련 방법 및 압축된 신경망을 이용하는 방법
JP7211501B2 (ja) データ変換装置、パターン認識システム、データ変換方法及びデータ変換プログラム
CN116668351A (zh) 服务质量预测方法、装置、计算机设备及存储介质
US20210073586A1 (en) Learning device, learning method, and storage medium
JP6409463B2 (ja) パターン認識装置、パターン学習装置、パターン学習方法およびパターン学習プログラム
JP2019219765A (ja) 情報処理装置及び情報処理方法
WO2020040007A1 (ja) 学習装置、学習方法及び学習プログラム
JP7024687B2 (ja) データ分析システム、学習装置、方法、及びプログラム
CN109492707B (zh) 光谱分析模型的构建方法、装置、设备及存储介质
CN113066038A (zh) 图像评估方法、装置、电子设备及计算机存储介质
CN111178443B (zh) 模型参数选择、图像分类、信息识别方法及装置、设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16746331

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016573231

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15545769

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16746331

Country of ref document: EP

Kind code of ref document: A1