WO2019215904A1 - 予測モデル作成装置、予測モデル作成方法、および予測モデル作成プログラム記録媒体 - Google Patents

予測モデル作成装置、予測モデル作成方法、および予測モデル作成プログラム記録媒体 Download PDF

Info

Publication number
WO2019215904A1
WO2019215904A1 PCT/JP2018/018244 JP2018018244W WO2019215904A1 WO 2019215904 A1 WO2019215904 A1 WO 2019215904A1 JP 2018018244 W JP2018018244 W JP 2018018244W WO 2019215904 A1 WO2019215904 A1 WO 2019215904A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
distribution
domain
source
attribute
Prior art date
Application number
PCT/JP2018/018244
Other languages
English (en)
French (fr)
Inventor
雅人 石井
高志 竹之内
将 杉山
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2018/018244 priority Critical patent/WO2019215904A1/ja
Priority to JP2020517728A priority patent/JP6955233B2/ja
Priority to US17/043,309 priority patent/US20210019636A1/en
Publication of WO2019215904A1 publication Critical patent/WO2019215904A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present invention relates to a prediction model creation device, a prediction model creation method, and a prediction model creation program recording medium, and particularly includes a data conversion device that realizes appropriate and efficient data conversion even when no data in a target domain is obtained.
  • the present invention relates to a prediction model creation device.
  • the pattern recognition technique is a technique for estimating which class an input pattern belongs to.
  • Specific examples of pattern recognition include object recognition for estimating an object captured using an image as input, and voice recognition for estimating speech content using sound as an input.
  • Machine learning is widely used to realize pattern recognition.
  • supervised learning which is typical machine learning
  • a pattern (learning data) with a label indicating a recognition result is collected in advance, and the relationship between the pattern and the label is learned based on a prediction model.
  • the learning data is also called training data.
  • the learned prediction model By applying the learned prediction model to a pattern to be recognized (test data) without a label, a label indicating the result of pattern recognition is obtained.
  • the probability distribution of the learning data and the probability distribution of the test data match.
  • the probability distribution is also simply referred to as distribution. Therefore, if the distribution is different between the learning data and the test data, the performance of pattern recognition is lowered according to the degree of difference.
  • Such a situation in which the learning data and the test data follow different distributions is called a covariate shift. In a covariate shift situation, it is difficult to predict test data labels with higher accuracy.
  • the reason why the distribution is different between the learning data and the test data is that attribute information other than the label information affects the data distribution.
  • the attribute information is information representing factors that affect information (data, samples) obtained with respect to the domain.
  • the appearance of the face image and the non-face image is greatly different between the image of the scene that received strong illumination from the right and the image of the scene that received strong illumination from the left.
  • the distribution of the face image / non-face image data changes depending on the attribute information “illumination condition” other than the face / non-face label information.
  • attribute information such as “photographing angle”, “characteristics of the photographed camera”, and “person's age / sex / race”. For this reason, it is difficult to match the distribution between the learning data and the test data for all attribute information, and as a result, the distribution differs between the learning data and the test data.
  • the target domain represents a domain to be predicted.
  • the source domain represents a certain domain.
  • the data of the target domain is also referred to as “target data”, and the data of the source domain is also referred to as “source data”.
  • the source data corresponds to learning data (training data), and the target data corresponds to test data.
  • a machine learning method a method of calculating the importance of the source data based on the distribution of attribute information and weighting the target data according to the importance is generally used. For example, in the face image example, it is assumed that information is obtained that “the percentage of people aged 20-30 is low in the source domain, but the percentage of people aged 20-30 is high in the target domain”. In this case, since data of 20-30 years old in the source domain is considered to be highly important, the source data is weighted with a large weight.
  • FIG. 1 is a diagram illustrating an example in which domain adaptation is performed using two domain data.
  • domain adaptation is performed on “domain 1 data” and “domain 2 data” to obtain “converted domain 1 data” and “converted domain 2 data”.
  • An example is shown.
  • the importance of the source data is calculated using only the attribute information, and the difference in the distribution of the source data within the same attribute is not considered. Therefore, there is a problem that data cannot be adapted efficiently.
  • the age of a person is assumed as attribute information.
  • the importance of source data of an age that is a little different from the age included in the target domain is low.
  • source data it is assumed that there is data in which the actual age is different but the apparent age is close to the target domain. Since such source data is data close to the target domain when viewed as an image, the importance should be high. However, since the age is actually different, the importance is calculated to be low, and the number of data to be applied is reduced, which is not efficient.
  • Patent Document 1 only the distribution of the data itself is taken into consideration, and the distribution of the attribute information of the data is not taken into consideration at all.
  • the main object of the present invention is to provide an apparatus for creating a prediction model for a target domain even when target data is not obtained.
  • the predictive model creation device includes a first possibility that an event affecting a sample occurs in the source domain in the data in which the sample and the label are associated, and the event is generated in the target domain. Calculating means for calculating the importance according to the difference from the second possibility generated in the step; a prediction model relating to the target domain, the sample and the label included in the data taking the importance into account Creating means for creating by calculating relevance.
  • the prediction model creation method includes a first possibility that an event affecting a sample occurs in the source domain in the data in which the sample and the label are associated with each other by the information processing device. Calculate the importance according to the difference from the second possibility that the event occurs in the target domain; the sample and the label included in the data including the prediction model for the target domain It is created by calculating the relevance to.
  • the prediction model creation program recording medium has a first possibility that an event affecting the sample occurs in the source domain in the data in which the sample and the label are associated with each other.
  • a calculation procedure for calculating the importance according to the difference from the second possibility generated in the target domain; and the sample and the label included in the data including the prediction model related to the target domain in consideration of the importance A prediction model creation program for causing a computer to execute a creation procedure created by calculating the relationship between
  • FIG. 1 It is a figure which shows the example which performs domain adaptation using two domain data. It is a block diagram which shows the hardware constitutions of the prediction model production apparatus 100 which concerns on the 1st Embodiment of this invention. It is a block diagram which shows the structure of the data converter 200 which concerns on the 2nd Embodiment of this invention. It is a flowchart which shows the flow of operation
  • target data is not obtained for the target domain, but information (for example, probability distribution) is obtained for attribute information (for example, imaging angle, illumination conditions, etc.).
  • attribute information for example, imaging angle, illumination conditions, etc.
  • the attribute information in each embodiment is information (for example, a value) related to a factor of data difference caused by a domain difference.
  • the attribute information includes information related to data acquisition status (for example, shooting angle and lighting conditions) and attributes of the recognition target itself (for example, gender, race, age, etc. in the case of a face image) Conceivable. That is, in each embodiment, it is assumed that the difference in data distribution between domains is related to the difference in attribute information distribution between domains.
  • the shooting angle is attribute information
  • the shooting angle in the source domain and the shooting angle in the target domain are different, and information that this difference contributes to the difference in data distribution between the domains is obtained. Is assumed.
  • the distribution does not necessarily have to be a mathematical probability distribution, and information indicating an attribute in a domain may be associated with data of the domain when the attribute is the information.
  • the distribution may be data representing relevance obtained based on the associated data. For example, if the attribute is a lighting condition, the distribution may represent a relevance that the brightness in the data (eg, image) increases as the lighting becomes brighter. In the distribution, for example, as illustrated in FIG. 4, the relevance may be expressed using a conditional probability.
  • the distribution of the target data cannot be estimated, so the distribution of the source data and the target data cannot be directly matched between the domains. That is, the method of Patent Document 1 cannot be adopted.
  • attribute information is newly introduced, and the distribution of target data is estimated through this attribute information. That is, according to the present invention, two-stage estimation, that is, estimation of attribute distribution in each data and estimation of domain distribution in each attribute is performed, and the respective estimation results are integrated. As a result, it is possible to indirectly estimate the distribution of domains in each data, that is, how much the occurrence probability is deviated between domains with respect to certain data, and to calculate a conversion parameter that corrects this deviation. .
  • the present invention considers the distribution of source data, and different weighting is generally performed for source data having the same attribute, it is more than the method of weighting source data using only attribute information. Data can be adapted efficiently.
  • FIG. 2 is a block diagram showing a hardware configuration of the prediction model creation device 100 according to the first embodiment of the present invention.
  • the illustrated prediction model creation apparatus 100 includes a data processing apparatus 10 that operates under program control, and a storage device 20 that stores a program 21 and data to be described later.
  • An input device 30 that inputs data and an output device 40 that outputs data are connected to the prediction model creation device 100.
  • the prediction model creation apparatus 100 illustrated in FIG. 1 uses a source domain data (source data), a first distribution of attribute information of the source domain, and a second distribution of attribute information of the target domain as described below. Is a device for creating a prediction model for
  • the input device 30 includes, for example, a keyboard and a mouse.
  • the output device 40 includes a display device such as an LCD (Liquid Crystal Display) or a PDP (Plasma Display Panel) or a printer.
  • the output device 40 has a function of displaying various information such as an operation menu and printing out a final result in response to an instruction from the data processing device 10.
  • the storage device 20 includes a memory such as a hard disk, a read only memory (ROM), and a random access memory (RAM).
  • the storage device 20 has a function of storing processing information (described later) and programs 21 necessary for various processes in the data processing device 10.
  • the data processing device 10 includes a microprocessor such as an MPU (micro processing unit) or a central processing unit (CPU).
  • the data processing device 10 has a function of realizing various processing units that read the program 21 from the storage device 20 and process data according to the program 21.
  • the main processing units realized by the data processing apparatus 10 include an importance degree calculation unit 11 and a model creation unit 12.
  • the importance calculation unit 11 calculates the importance as will be described later.
  • the model creation unit 12 creates a prediction model related to the target domain.
  • the storage device 20 includes a data storage unit 22 and a model storage unit 23 in addition to the program 21.
  • the data storage unit 22 stores the source data, the first distribution, and the second distribution input from the input device 30 and the importance calculated by the importance calculation unit 11.
  • the model storage unit 23 stores the prediction model created by the model creation unit 12.
  • the importance calculation unit 11 has a first possibility that an event (attribute information) affecting the sample occurs in the source domain, and the event occurs in the target domain.
  • the importance according to the difference from the second possibility is calculated.
  • the possibility means, for example, a distribution (probability distribution), and the importance means a deviation of data distribution between domains.
  • the possibility does not necessarily need to be a mathematical probability distribution, but may be a distribution similar to the probability distribution.
  • the model creation unit 12 creates a prediction model related to the target domain by calculating the relevance with the sample and the label included in the data taking the importance into account.
  • the prediction model is a model related to a target domain created by using data (converted data) obtained by converting source data as learning data.
  • the importance corresponds to the conversion parameter indicating the deviation of the data distribution between the domains. Therefore, the importance calculation unit 11 of the prediction model creation apparatus 100 corresponds to a conversion parameter calculation unit described later. Therefore, by using the conversion parameter calculated in the conversion parameter calculation unit of the prediction model creation device 100, the source data can be efficiently converted to data close to the distribution of the target data even if the target data is not obtained. It becomes possible.
  • a prediction model creation program is expanded in RAM (random access memory), and hardware such as a control unit (CPU (central processing unit)) is operated based on the prediction model creation program.
  • CPU central processing unit
  • each unit is realized as various means.
  • the prediction model creation program may be recorded on a recording medium and distributed.
  • the prediction model creation program recorded in the recording medium is read into the memory via the wired, wireless, or recording medium itself, and operates the control unit and the like. Examples of the recording medium include an optical disk, a magnetic disk, a semiconductor memory device, and a hard disk.
  • the computer that operates as the prediction model creation apparatus 100 operates as the importance calculation unit 11 and the model creation unit 12 based on the prediction model creation program expanded in the RAM. This can be realized.
  • FIG. 3 is a block diagram showing a configuration of a data conversion apparatus 200 according to the second embodiment of the present invention.
  • the input device 30 includes a source domain data input unit 32, a source domain attribute input unit 34, and a target domain attribute input unit 36.
  • the source domain data input unit 32 receives source domain data (source data).
  • the source domain represents a certain domain.
  • the source domain represents moving image data captured by a certain imaging device, for example.
  • the source domain may be a plurality of domains.
  • the source domain attribute input unit 34 receives source domain attribute information (for example, a first distribution related to the attribute information).
  • the attribute information is information representing factors that affect information (data, samples) obtained about the domain.
  • the attribute information is, for example, information representing the properties (characteristics, features) or the like of the domain, or information representing the properties (characteristics, features) of the information related to the domain.
  • the attribute information is information such as the height at which the imaging device is installed, the angle at which the imaging device is imaging, the characteristics of the imaging device, and the like.
  • the attribute information may be information representing the age, sex, race, and the like of the target (person) imaged by the imaging device, for example.
  • the target domain attribute input unit 36 receives target domain attribute information (for example, a second distribution related to the attribute information).
  • the target domain represents a domain to be predicted.
  • the target domain represents, for example, moving image data captured by an imaging device different from the certain imaging device.
  • the data conversion apparatus 200 includes the conversion parameter calculation unit 210 and the data conversion unit 220.
  • the conversion parameter calculation unit 210 uses the first distribution of the source data and the attribute information of the source domain and the second distribution of the attribute information of the target domain to estimate the data conversion parameter as described later.
  • the data conversion unit 220 converts the source data into data close to (or coincides with) the distribution of the target data using the calculated conversion parameter and outputs the data.
  • the conversion parameter calculation unit 210 obtains a relationship between the first distribution of attribute information related to the source domain and the second distribution of attribute information related to the target domain, and based on the relationship, the source parameter A conversion parameter representing a rule for converting data into data close to the distribution of the target data is calculated.
  • the data conversion unit 220 applies the rule represented by the conversion parameter calculated by the conversion parameter calculation unit 210 to the source data, so that data close to (or matches) the distribution of the target data is obtained. create.
  • the conversion parameter calculation unit 210 includes an in-data attribute distribution estimation unit 212, an in-attribute domain distribution estimation unit 214, and a domain adaptation unit 216.
  • the in-data attribute distribution estimation unit 212 estimates the attribute distribution in each source data based on the source data and the first distribution of the attribute information of the source domain.
  • the intra-attribute domain distribution estimation unit 214 estimates the domain distribution in each attribute based on the attribute information (for example, the first distribution) of the source domain and the attribute information (for example, the second distribution) of the target domain.
  • the domain adaptation unit 216 estimates the domain distribution in each target data based on the estimated attribute distribution in each source data and the domain distribution in each attribute, and the similarity of the data distribution between domains increases. Thus, a conversion parameter for converting the data is calculated.
  • the importance calculation unit 11 of the prediction model creation apparatus 100 corresponds to the conversion parameter calculation unit 210.
  • the model creation unit 12 of the prediction model creation device 100 corresponds to a combination of a data conversion unit 220 and a machine learning unit (not shown). Data converted by the data conversion unit 220 is supplied to the machine learning unit as learning data.
  • the machine learning unit learns the prediction model using the learning data according to a predetermined learning method.
  • the predetermined learning technique is, for example, a technique such as a neural network or a support vector machine.
  • the data conversion apparatus 200 having such a configuration, when data is converted so that the distribution of source data is close to the distribution of target data, appropriate and efficient data conversion is possible even when no target data is obtained. Can be realized.
  • each unit of the data conversion apparatus 200 may be realized using a combination of hardware and software.
  • a data conversion program is developed in a RAM (random access memory), and hardware such as a control unit (CPU (central processing unit)) is operated based on the data conversion program.
  • CPU central processing unit
  • each unit is realized as various means.
  • the data conversion program may be recorded on a recording medium and distributed. The data conversion program recorded on the recording medium is read into the memory via the wired, wireless, or recording medium itself, and operates the control unit and the like. Examples of the recording medium include an optical disk, a magnetic disk, a semiconductor memory device, and a hard disk.
  • a computer that operates as the data conversion device 200 is operated as the conversion parameter calculation unit 210 and the data conversion unit 220 based on the data conversion program expanded in the RAM. Can be realized.
  • data is expressed as x
  • attribute information is expressed as z
  • domain information is expressed as d.
  • the attribute that the data has is one of C categories, and the category it belongs to is expressed as an integer from 1 to C.
  • the source domain data input unit 32 and the source domain attribute input unit 34 data and attribute information (for example, first distribution) of the source domain are input, respectively. That is, the source domain data input unit 32 and the source domain attribute input unit 34 include information (data) related to the source domain, and attribute information (for example, a factor that has a first possibility of affecting the information (data)). , First distribution). In this embodiment, it is assumed that N data sets (x, z) are input for the source domain.
  • target domain attribute information (for example, second distribution) is input.
  • a probability distribution of attribute information is input as the second distribution for the target domain. That is, the target domain attribute input unit 36 inputs information representing a second possibility that a certain factor occurs in the target domain. That is, it is assumed that a conditional probability distribution p (z
  • d T) of z under a condition where the domain is a target is given.
  • the conversion parameter calculation unit 210 calculates data conversion parameters.
  • FIG. 4 is a flowchart showing an operation flow of the conversion parameter calculation unit 210.
  • sample weighting under a covariance shift known as a typical technique for domain adaptation is used (see Non-Patent Document 2).
  • the conversion parameter calculation unit 210 calculates the weight for each sample in order to create learning data that is the basis for creating a prediction model related to the target domain by weighting the source data for each sample. To do. Therefore, the created data is learning data that is the basis of the prediction model related to the target domain.
  • the conversion parameter calculation unit 210 includes an in-data attribute distribution estimation unit 212, an in-attribute domain distribution estimation unit 214, and a domain adaptation unit 216. Each operation will be described below.
  • the in-data attribute distribution estimation unit 212 has a first distribution of attributes in each source data from a set of (x, z) in the source domain, that is, an attribute posterior probability p (z when a certain source data x is given.
  • the certain factor may be each factor included in the attribute information.
  • the in-data attribute distribution estimation unit 212 calculates, for each factor, the first possibility that the factor has influenced the information (data). For example, when the k-nearest neighbor method is used, as shown in the following Equation 1, z corresponding to k data kNN (x) in the vicinity of x is referred to, and p (z
  • the k-nearest neighbor method is used, but any method may be used as long as it is a method for estimating the posterior probability in general.
  • the intra-attribute domain distribution estimation unit 214 is given an attribute distribution in each domain, that is, attribute information z based on the first distribution of the attribute information of the source domain and the second distribution of the attribute information of the target domain.
  • z) of the domain is estimated. That is, the intra-attribute domain distribution estimation unit 214 estimates, for a certain attribute information, information indicating the possibility that the certain attribute information is attribute information regarding which domain.
  • d) may be estimated.
  • the intra-attribute domain distribution estimation unit 214 uses the information indicating the possibility that a certain factor is generated in the domain to perform the above-described processing, thereby determining in which domain the certain information is generated. Estimate information that represents the possibility of.
  • the domain adaptation unit 216 performs domain adaptation based on p (z
  • the data conversion unit 220 converts the source data to the source data by weighting the source data for each sample with w (x) as shown in the following Equation 3. It becomes possible to convert the data to a distribution close to the target data.
  • the conversion parameter is the weight w (x) for each sample, and the domain adaptation unit 216 estimates the weight w (x). This weight w (x) corresponds to the importance.
  • the domain adaptation unit 216 calculates the ratio of the first possibility that the sample (data, information) x is obtained for the source domain to the second possibility that the sample (data, information) x is obtained for the target domain. Calculated as the weight of the sample x. That is, the domain adaptation unit 216 calculates a weight having a larger value as the second possibility that the sample (data, information) x is information obtained in the target domain is higher, and the second possibility The lower the weight, the smaller the weight is calculated. In other words, if the source domain is low but the target domain is high, the weight is a large value. If the source domain is high but the target domain is low, the weight is a small value.
  • the domain adapting unit 216 considers that data having a second possibility that the sample x is information (data) obtained with respect to the target domain is data that is more important in creating a prediction model regarding the target domain. judge. On the other hand, the domain adaptation unit 216 is not as important data when creating a prediction model for the target domain as the second possibility that the sample x is information (data) obtained from the target domain is low. Is determined.
  • the distribution may not be uniform.
  • the right side can be calculated.
  • x) can be estimated. That is, the domain adaptation unit 216 calculates p (d
  • the data converter 220 converts the source data into data close to the distribution of the target data using the conversion parameter calculated by the domain adaptation unit 216 and outputs the data.
  • the source data is weighted with the weight w (x) for each sample, and the weighted data is output.
  • the machine learning unit of the model creating unit 12 inputs weighted data (data after conversion), and creates a prediction model representing the relationship between the explanatory variable and the label in the input data. That is, in the machine learning unit, data (converted data) calculated based on the processing as described above is used as learning data regarding the target domain.
  • the weight is heavier as the second possibility that the sample x is information (data) about the target domain is higher, and the weight is lighter as the second possibility that the sample x is information (data) about the target domain is lower. Any information may be used. That is, the weight is not limited to the example described above.
  • the present invention can be used for the purpose of converting data so that a learning data set collected in a specific environment can be effectively used in another environment in learning of a pattern recognizer used for image processing and sound processing. is there.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

予測モデル作成装置は、サンプルとラベルとが関連付けされたデータにおいて、当該サンプルに影響を及ぼす事象がソースドメインにて生じる第1の可能性と、当該事象がターゲットドメインにて生じる第2の可能性との差異に応じた重要度を算出する算出手段と;ターゲットドメインに関する予測モデルを、当該重要度を加味したデータに含まれているサンプル及びラベルとの関連性を算出することによって作成する作成手段と;を備える。

Description

予測モデル作成装置、予測モデル作成方法、および予測モデル作成プログラム記録媒体
本発明は予測モデル作成装置、予測モデル作成方法、および予測モデル作成プログラム記録媒体に関し、特に、ターゲットドメインのデータが全く得られない場合でも適切かつ効率的なデータ変換を実現するデータ変換装置を含む予測モデル作成装置に関する。
パターン認識技術とは、入力されたパターンがどのクラスに属するパターンであるかを推定する技術である。具体的なパターン認識の例としては、画像を入力として写っている物体を推定する物体認識や、音声を入力として発話内容を推定する音声認識などが挙げられる。
パターン認識を実現するために機械学習が広く利用されている。代表的な機械学習である教師あり学習では、認識結果を示すラベルが付与されたパターン(学習データ)を事前に収集し、パターンとラベルの関係を予測モデルに基づいて学習する。なお、学習データは訓練データとも呼ばれる。学習した予測モデルを、ラベルの付いていない認識すべきパターン(テストデータ)に適用することで、パターン認識の結果を示すラベルを得る。
多くの機械学習手法では、学習データの確率分布とテストデータの確率分布とが一致していることを仮定している。以下では、確率分布を単に分布とも呼ぶ。したがって、学習データとテストデータとで分布が異なっていると、異なりの度合に応じてパターン認識の性能が低下してしまう。なお、このような学習データとテストデータとが異なる分布に従う状況は共変量シフト(Covariate Shift)と呼ばれている。共変量シフトの状況では、テストデータのラベルをより高い精度で予測するのは難しい。学習データとテストデータとの間で分布が異なる原因は、ラベル情報以外の属性情報がデータの分布に影響を与えているためである。なお、属性情報は、ドメインに関して得られた情報(データ、サンプル)に影響を与える要因を表す情報である。
例えば、画像から顔検出を行う例を考える。この例の場合、向かって右から強い照明を受けたシーンの画像と、左から強い照明を受けたシーンの画像とでは、顔画像や非顔画像の見た目が大きく異なる。これにより、顔画像・非顔画像のデータの分布は、顔/非顔というラベル情報以外の「照明条件」という属性情報によって変化してしまう。この他にも、「撮影角度」、「撮影したカメラの特性」、「人物の年齢・性別・人種」など、ラベル情報以外にデータの分布に影響を与える属性情報は多く存在する。そのため、全ての属性情報について学習データとテストデータとで分布を合わせることは難しく、結果として学習データとテストデータとで分布が異なる要因となる。
ターゲットドメインにおける属性情報の分布が得られているとする。ターゲットドメインは、予測をする対象であるドメインを表す。なお、ソースドメインは、あるドメインを表す。以下では、ターゲットドメインのデータを「ターゲットデータ」とも呼び、ソースドメインのデータを「ソースデータ」とも呼ぶ。ソースデータは学習データ(訓練データ)に対応し、ターゲットデータはテストデータに対応する。この場合、機械学習手法としては、属性情報の分布に基づいてソースデータの重要度を算出し、重要度に応じてターゲットデータに重みづけする方法が一般的に良く用いられる。例えば顔画像の例では、「ソースドメインでは20-30才の人の割合が低いが、ターゲットドメインでは20-30才の人の割合が高い」という情報が得られているとする。この場合、ソースドメインの20-30才のデータは重要度が高いと考えられるため、ソースデータに対して大きな重みで重みづけを行う。
上で述べた属性情報の分布に基づくデータの変換は、属性ごとに重要度が決まるため、同じ属性を持つデータは同じ重みとなる。一方で、ターゲットデータが十分に得られている場合には、データごとに異なる重みをかけることで分布のずれを正確に補正する技術としてドメイン適応を用いることができる(例えば、特許文献1、非特許文献1参照)。ドメイン適応は、分布がずれている複数のデータに対し、それらのデータの分布が十分に近くなるように変換を行う技術である。なお、特許文献1では、訓練データ(学習データ;ソースデータ)とテストデータ(ターゲットデータ)との生成確率の比のことを重要度と呼んでいる。
図1は、2つのドメインデータを用いてドメイン適応を行う例を示す図である。図1は、「ドメイン1のデータ」と「ドメイン2のデータ」とに対して、ドメイン適応を行って、「変換後のドメイン1のデータ」と「変換後のドメイン2のデータ」とを得る例を示している。学習データ(ソースデータ)とテストデータ(ターゲットデータ)とを用いて事前にドメイン適応を行うことで、機械学習を行う前に両者のデータの分布を合わせ、分布のずれに起因する機械学習の性能劣化を軽減できることが知られている。
特開2010-92266号公報
B. Gong, Y. Shi, F. Sha, and K. Grauman, "Geodesic Flow Kernel for Unsupervised Domain Adaptation," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2012 H. Shimodaira,"Improving predictive inference under covariate shift by weighting the log-likelihood function," Journal of statistical planning and inference, 90(2), 2000
属性情報の分布に基づいてソースデータを重みづけする方法では、属性情報のみでソースデータの重要度を算出しており、同じ属性内でのソースデータの分布の違いを考慮していない。そのため、データを効率的に適応させることができないという問題がある。
例えば顔画像の例で属性情報として人物の年齢を仮定する。この場合、ターゲットドメインに多く含まれる年齢から少しでも異なる年齢のソースデータの重要度は低くなる。ここで、ソースデータとして、実際の年齢が異なるが見た目の年齢はターゲットドメインに近いデータがあったとする。このようなソースデータは画像として見た場合にはターゲットドメインに近いデータであるため、重要度は高くなるべきである。しかし、実際には年齢が異なるために重要度が低く算出されてしまい、適応させるデータの数が減るため、効率的ではない。
なお、特許文献1では、データそのものの分布のみを考慮に入れており、データの属性情報の分布については何ら考慮していない。
 [発明の目的]
本発明の主たる目的は、ターゲットデータが得られていない場合であっても、ターゲットドメインについての予測モデルを作成する装置等を提供することである。
本発明の1つの形態として、予測モデル作成装置は、サンプルとラベルとが関連付けされたデータにおいて、当該サンプルに影響を及ぼす事象がソースドメインにて生じる第1の可能性と、当該事象がターゲットドメインにて生じる第2の可能性との差異に応じた重要度を算出する算出手段と;前記ターゲットドメインに関する予測モデルを、当該重要度を加味したデータに含まれている前記サンプル及び前記ラベルとの関連性を算出することによって作成する作成手段と;を備える。
本発明の他の形態として、予測モデル作成方法は、情報処理装置によって、サンプルとラベルとが関連付けされたデータにおいて、当該サンプルに影響を及ぼす事象がソースドメインにて生じる第1の可能性と、当該事象がターゲットドメインにて生じる第2の可能性との差異に応じた重要度を算出し;前記ターゲットドメインに関する予測モデルを、当該重要度を加味したデータに含まれている前記サンプル及び前記ラベルとの関連性を算出することによって作成する。
本発明の他の形態として、予測モデル作成プログラム記録媒体は、サンプルとラベルとが関連付けされたデータにおいて、当該サンプルに影響を及ぼす事象がソースドメインにて生じる第1の可能性と、当該事象がターゲットドメインにて生じる第2の可能性との差異に応じた重要度を算出する算出手順と;前記ターゲットドメインに関する予測モデルを、当該重要度を加味したデータに含まれている前記サンプル及び前記ラベルとの関連性を算出することによって作成する作成手順と;をコンピュータに実行させる予測モデル作成プログラムを記録する。
本発明によれば、ターゲットデータが得られていない場合であっても、ターゲットドメインについての予測モデルを作成することができる。
2つのドメインデータを用いてドメイン適応を行う例を示す図である。 本発明の第1の実施形態に係る予測モデル作成装置100のハードウェア構成を示すブロック図である。 本発明の第2の実施形態に係るデータ変換装置200の構成を示すブロック図である。 図3に示した変換パラメータ算出部の動作のフローを示すフローチャートである。
本発明の理解を容易にするために、本発明における仮定と効果についての概略を説明する。
本発明の各実施形態では、ターゲットドメインについて、ターゲットデータは得られていないが、属性情報(例えば撮影角度や照明条件など)について情報(例えば確率分布)が得られていると仮定する。各実施形態における属性情報とは、ドメインの違いによって生じるデータの差異の要因に関連している情報(たとえば、値)である。例えば、該属性情報としては、データの取得状況に関する情報(例えば撮影角度や照明条件など)や、認識対象自身の属性(例えば顔画像の例であれば、性別、人種、年齢など)などが考えられる。つまり、各実施形態では、ドメイン間のデータの分布の違いが、ドメイン間の属性情報の分布の違いに関連していると仮定する。例えば撮影角度を属性情報とする例では、ソースドメインにおける撮影角度とターゲットドメインにおける撮影角度が異なり、この違いがドメイン間のデータの分布の違いの一因となっている、という情報が得られていると仮定している。
 以降の説明においては、説明の便宜上、分布という言葉を用いて、予測モデル作成装置等における処理について説明する。しかし、分布は、必ずしも、数学的な確率分布でなくともよく、ドメインにおける属性を表す情報と、属性が当該情報である場合における当該ドメインのデータとが関連付けされていればよい。また、分布は、当該関連付けされたデータに基づき求められる関連性を表すデータであってもよい。たとえば、属性が、照明条件である場合に、分布は、照明が明るくなるにつれデータ(たとえば、画像)における明度が増すという関連性を表していてもよい。分布は、たとえば、図4に例示されているように、当該関連性が、条件付き確率を用いて表されていてもよい。
ターゲットデータが得られない場合、ターゲットデータの分布が推定できないため、ソースデータおよびターゲットデータの分布をドメイン間で直接合わせることはできない。すなわち、上記特許文献1の手法を採用することができない。しかしながら、各実施形態では、属性情報を新たに導入し、この属性情報を介することでターゲットデータの分布を推定する。すなわち、本発明では、各データにおける属性の分布の推定と、各属性におけるドメインの分布の推定との2段階の推定を行い、それぞれの推定結果を統合する。これにより、間接的に各データにおけるドメインの分布、すなわち、あるデータに対して発生確率がドメイン間でどれだけずれているかを推定し、このずれを補正するような変換パラメータを算出することができる。また、本発明はソースデータの分布を考慮しており、一般に同じ属性を持つソースデータに対しても異なる重みづけが行われるため、属性情報のみを用いてソースデータの重みづけを行う方法よりもデータを効率的に適応できる。
以下、本発明の実施の形態について図面を参照して説明する。
図2は、本発明の第1の実施形態に係る予測モデル作成装置100のハードウェア構成を示すブロック図である。図示の予測モデル作成装置100は、プログラム制御により動作するデータ処理装置10と、プログラム21や後述するデータを記憶する記憶装置20とを備える。
予測モデル作成装置100には、データを入力する入力装置30と、データを出力する出力装置40とが接続される。
図示の予測モデル作成装置100は、ソースドメインのデータ(ソースデータ)と、ソースドメインの属性情報の第1の分布と、ターゲットドメインの属性情報の第2の分布とから、後述のようにターゲットドメインに関する予測モデルを作成する装置である。
入力装置30は、例えば、キーボードやマウス等からなる。出力装置40は、LCD(Liquid Crystal Display)やPDP(Plasma Display Panel)などの表示装置やプリンタからなる。出力装置40は、データ処理装置10からの指示に応じて、操作メニューなどの各種情報を表示したり、最終結果を印字出力する機能を有する。
記憶装置20は、ハードディスクやリードオンリメモリ(ROM)およびランダムアクセスメモリ(RAM)などのメモリからなる。記憶装置20は、データ処理装置10における各種処理に必要な処理情報(後述する)やプログラム21を記憶する機能を有する。
データ処理装置10は、MPU(micro processing unit)などのマイクロプロセッサや中央処理装置(CPU)からなる。データ処理装置10は、記憶装置20からプログラム21を読み込んで、プログラム21に従ってデータを処理する各種処理部を実現する機能を有する。
データ処理装置10で実現される主な処理部は、重要度算出部11と、モデル作成部12とを有する。
重要度算出部11は、後述するように、重要度を算出する。モデル作成部12は、後述するように、ターゲットドメインに関する予測モデルを作成する。
記憶装置20は、上記プログラム21に加えて、データ記憶部22と、モデル記憶部23とを備える。データ記憶部22は、入力装置30から入力された、上記ソースデータ、上記第1の分布、および上記第2の分布と、重要度算出部11が算出した重要度とを記憶する。モデル記憶部23は、モデル作成部12が作成した予測モデルを記憶する。
重要度算出部11は、サンプルとラベルとが関連付けされたデータにおいて、当該サンプルに影響を及ぼす事象(属性情報)がソースドメインにて生じる第1の可能性と、当該事象がターゲットドメインにて生じる第2の可能性との差異に応じた重要度を算出する。なお、可能性は、たとえば、分布(確率分布)を意味し、重要度はドメイン間のデータ分布のずれを意味する。可能性は、必ずしも、数学的な確率分布である必要はなく、確率分布に類する分布であればよい。モデル作成部12は、ターゲットドメインに関する予測モデルを、当該重要度を加味したデータに含まれているサンプル及びラベルとの関連性を算出することによって作成する。
予測モデルは、ソースデータを変換して得られたデータ(変換したデータ)を学習データとして用いることによって作成される、ターゲットドメインに関するモデルである。上述したように、重要度はドメイン間のデータ分布のずれを示す変換パラメータに対応する。従って、予測モデル作成装置100の重要度算出部11は、後述する変換パラメータ算出部に対応する。よって、予測モデル作成装置100の変換パラメータ算出部において算出された変換パラメータを使用することにより、ターゲットデータが得られなくとも、ソースデータを効率的にターゲットデータの分布に近いデータに変換することが可能となる。
尚、予測モデル作成装置100の各部は、ハードウェアとソフトウェアとの組み合わせを用いて実現すればよい。ハードウェアとソフトウェアとを組み合わせた形態では、RAM(random access memory)に予測モデル作成プログラムが展開され、該予測モデル作成プログラムに基づいて制御部(CPU(central processing unit))等のハードウェアを動作させることによって、各部を各種手段として実現する。また、該予測モデル作成プログラムは、記録媒体に記録されて頒布されても良い。当該記録媒体に記録された予測モデル作成プログラムは、有線、無線、又は記録媒体そのものを介して、メモリに読込まれ、制御部等を動作させる。尚、記録媒体を例示すれば、オプティカルディスクや磁気ディスク、半導体メモリ装置、ハードディスクなどが挙げられる。
上記第1の実施形態を別の表現で説明すれば、予測モデル作成装置100として動作させるコンピュータを、RAMに展開された予測モデル作成プログラムに基づき、重要度算出部11およびモデル作成部12として動作させることで実現することが可能である。
次に、予測モデル作成装置100の重要度算出部11を変換パラメータ算出部210として用いた、本発明の第2の実施形態に係るデータ変換装置200について説明する。
[構成の説明]
図3は、本発明の第2の実施形態に係るデータ変換装置200の構成を示すブロック図である。
データ変換装置200には、入力装置30と出力装置40とが接続されている。入力装置30は、ソースドメインデータ入力部32と、ソースドメイン属性入力部34と、ターゲットドメイン属性入力部36とを備える。
ソースドメインデータ入力部32は、図3に示すように、ソースドメインのデータ(ソースデータ)を受け付ける。ソースドメインは、あるドメインを表す。たとえば、画像から顔を検出する例において、ソースドメインは、たとえば、ある撮像装置によって撮像された動画像データを表す。ソースドメインは、複数のドメインであってもよい。
ソースドメイン属性入力部34は、ソースドメインの属性情報(たとえば、当該属性情報に関する第1の分布)を受け付ける。属性情報は、ドメインに関して得られた情報(データ、サンプル)に影響を与える要因を表す情報である。属性情報は、たとえば、ドメインの性質(特質、特徴)等を表す情報、または、当該ドメインに関する情報の性質(特質、特徴)を表す情報等である。たとえば、画像から顔を検出する例において、属性情報は、たとえば、当該撮像装置が設置されている高さ、当該撮像装置が撮像している角度、当該撮像装置の特性等の情報である。属性情報は、たとえば、当該撮像装置によって撮像された対象(人物)の年齢、性別、人種等を表す情報であってもよい。
ターゲットドメイン属性入力部36は、ターゲットドメインの属性情報(たとえば、当該属性情報に関する第2の分布)を受け付ける。ターゲットドメインは、予測をする対象であるドメインを表す。ターゲットドメインは、たとえば、当該ある撮像装置とは異なる撮像装置によって撮像された動画像データを表す。
データ変換装置200は、上記変換パラメータ算出部210と、データ変換部220とから成る。
変換パラメータ算出部210は、ソースデータとソースドメインの属性情報の第1の分布およびターゲットドメインの属性情報の第2の分布を用いて、後述するようにデータの変換パラメータを推定する。データ変換部220は、算出した変換パラメータを用いて、ソースデータをターゲットデータの分布に近い(または、一致している)データに変換して出力する。
詳述すると、変換パラメータ算出部210は、ソースドメインに関する属性情報の第1の分布と、ターゲットドメインに関する属性情報の第2の分布との間の関連性を求め、当該関連性に基づき、当該ソースデータを、当該ターゲットデータの分布に近いデータに変換する際の規則を表す変換パラメータを算出する。
データ変換部220は、変換パラメータ算出部210によって算出された変換パラメータによって表される規則を、当該ソースデータに適用することによって、当該ターゲットデータの分布に近い(または、一致している)データを作成する。
また、変換パラメータ算出部210は、データ内属性分布推定部212と、属性内ドメイン分布推定部214と、ドメイン適応部216とを備える。
データ内属性分布推定部212は、ソースデータとソースドメインの属性情報の第1の分布とに基づいて、各ソースデータにおける属性の分布を推定する。属性内ドメイン分布推定部214は、ソースドメインの属性情報(たとえば、第1の分布)とターゲットドメインの属性情報(たとえば、第2の分布)とに基づいて、各属性におけるドメインの分布を推定する。ドメイン適応部216は、推定された各ソースデータにおける属性の分布と各属性におけるドメインの分布とに基づいて、各ターゲットデータにおけるドメインの分布を推定し、ドメイン間でデータ分布の類似性が高くなるようにデータを変換するための変換パラメータを算出する。
次に、図2に図示した予測モデル作成装置100と図3に図示したデータ変換装置200との間の関係について説明する。前述したように、予測モデル作成装置100の重要度算出部11は、変換パラメータ算出部210に対応する。予測モデル作成装置100のモデル作成部12は、データ変換部220と図示しない機械学習部との組み合わせに対応する。機械学習部には、データ変換部220によって変換されたデータが、学習データとして供給される。機械学習部は、学習データを用いて、所定の学習手法に従って、予測モデルの学習を行う。所定の学習手法は、たとえば、ニューラルネット、サポートベクターマシン等の手法である。
このような構成のデータ変換装置200によれば、ソースデータの分布がターゲットデータの分布に近くなるようにデータを変換する場合に、ターゲットデータが全く得られない場合でも適切かつ効率的なデータ変換を実現することができる。
尚、データ変換装置200の各部は、ハードウェアとソフトウェアとの組み合わせを用いて実現すればよい。ハードウェアとソフトウェアとを組み合わせた形態では、RAM(random access memory)にデータ変換プログラムが展開され、該データ変換プログラムに基づいて制御部(CPU(central processing unit))等のハードウェアを動作させることによって、各部を各種手段として実現する。また、該データ変換プログラムは、記録媒体に記録されて頒布されても良い。当該記録媒体に記録されたデータ変換プログラムは、有線、無線、又は記録媒体そのものを介して、メモリに読込まれ、制御部等を動作させる。尚、記録媒体を例示すれば、オプティカルディスクや磁気ディスク、半導体メモリ装置、ハードディスクなどが挙げられる。
上記第2の実施形態を別の表現で説明すれば、データ変換装置200として動作させるコンピュータを、RAMに展開されたデータ変換プログラムに基づき、変換パラメータ算出部210およびデータ変換部220として動作させることで実現することが可能である。
具体的な実施例を用いて本発明を実施するための形態の動作を説明する。以下では、データをx、属性情報をz、ドメイン情報をdと表記する。また、ドメイン情報は、ソースドメイン、または、ターゲットドメインのいずれかを表し、それぞれ「d=S」、「d=T」と表す。データが持つ属性はC個のカテゴリのいずれかであるとし、どのカテゴリに属するかを1~Cの整数で表記する。
ソースドメインデータ入力部32とソースドメイン属性入力部34では、それぞれソースドメインのデータと属性情報(たとえば、第1の分布)が入力される。すなわち、ソースドメインデータ入力部32とソースドメイン属性入力部34は、ソースドメインに関する情報(データ)と、当該情報(データ)に影響を与えた第1の可能性がある要因を表す属性情報(たとえば、第1の分布)とを入力する。本実施例では、ソースドメインに関して、(x,z)というデータの組がN個入力されたとする。
ターゲットドメイン属性入力部36では、ターゲットドメインの属性情報(たとえば、第2の分布)が入力される。本実施例では、ターゲットドメインに関して、第2の分布として属性情報の確率分布が入力されたとする。すなわち、ターゲットドメイン属性入力部36は、ターゲットドメインにて、ある要因が生じる第2の可能性を表す情報を入力する。すなわち、ドメインがターゲットである条件下でのzの条件付き確率分布p(z|d=T)が与えられたとする。
変換パラメータ算出部210では、データの変換パラメータを算出する。
図4は、変換パラメータ算出部210の動作のフローを示すフローチャートである。本実施例では、ドメイン適応の代表的な手法として知られる共分散シフト下におけるサンプル重みづけを用いる(非特許文献2参照)。この手法では、ソースデータに対してサンプルごとに重みづけを行うことでターゲットドメインに関する予測モデルを作成する際の基である学習データを作成するため、変換パラメータ算出部210ではサンプルごとの重みを算出する。したがって、作成されたデータは、ターゲットドメインに関する予測モデルの基である学習データである。変換パラメータ算出部210は、図3に示されるように、データ内属性分布推定部212と属性内ドメイン分布推定部214とドメイン適応部216とから成り、以降でそれぞれの動作を説明する。
データ内属性分布推定部212では、ソースドメインの(x,z)の組から各ソースデータにおける属性の第1の分布、すなわち、あるソースデータxが与えられた場合の属性の事後確率p(z|x)を推定する。すなわち、データ内属性分布推定部212は、ソースドメインに関して得られた情報(データ)に関して、ある要因が当該情報(データ)に影響を与えた第1の可能性を表す情報を作成する。当該ある要因は、属性情報にふくまれている各要因であってもよい。この場合に、データ内属性分布推定部212は、当該情報(データ)に関して、当該要因が影響を与えた第1の可能性を、各要因について算出する。例えばk近傍法を用いると、以下の数1で示すように、xの近傍にあるk個のデータkNN(x)に対応するzを参照し、k個の内の比率からp(z|x)を推定する。
Figure JPOXMLDOC01-appb-M000001
ここではk近傍法を用いたが、一般に事後確率を推定する方法であればどのような方法を用いてもよい。
属性内ドメイン分布推定部214では、ソースドメインの属性情報の第1の分布とターゲットドメインの属性情報の第2の分布とに基づいて、各ドメインにおける属性の分布、すなわち、属性情報zが与えられた場合のドメインの事後確率p(d|z)を推定する。すなわち、属性内ドメイン分布推定部214は、ある属性情報に対して、当該ある属性情報が、いずれのドメインに関する属性情報であるかの可能性を表す情報を推定する。ここで、ドメインの事前分布として一様分布(すなわち、p(d=S)=p(d=T))を仮定し、以下の数2で示すようにベイズの定理を用いると、p(d|z)を推定するためにはp(z|d)を推定すれば良い。
Figure JPOXMLDOC01-appb-M000002
尚、上記では、p(d=S)=p(d=T)を仮定したが、一般にp(d=S)とp(d=T)とが異なっていても問題はない。
ソースドメインに関しては、データと属性の組が得られているため、各属性に対応するデータの個数を数え、その全体に対する割合でp(z|d=S)を推定できる。一方、ターゲットドメインに関しては、ターゲットドメイン属性入力部36から得られたp(z|d=T)をそのまま用いる。すなわち、属性内ドメイン分布推定部214は、ドメインにてある要因が生じる可能性を表す情報を用いて、上述した処理を行うことによって、ある情報が、いずれのドメインに生じた要因であるかについての可能性を表す情報を推定する。
ドメイン適応部216では、データ内属性分布推定部212で推定されたp(z|x)と属性内ドメイン分布推定部214で推定されたp(d|z)とに基づいてドメイン適応を行い、データの変換パラメータを得る。本実施例で用いる共変量シフト下におけるサンプル重みづけでは、ソースデータに以下の数3で示すようなw(x)でサンプルごとに重みづけを行うことで、データ変換部220が、ソースデータをターゲットデータの分布に近いデータに変換することが可能となる。
Figure JPOXMLDOC01-appb-M000003
したがって、変換パラメータはサンプルごとの重みw(x)であり、ドメイン適応部216では重みw(x)を推定する。この重みw(x)は、上記重要度に相当する。
すなわち、ドメイン適応部216は、ソースドメインに関してサンプル(データ、情報)xが得られる第1の可能性の、ターゲットドメインに関してサンプル(データ、情報)xが得られる第2の可能性に対する比を、当該サンプルxの重みとして算出する。すなわち、ドメイン適応部216は、サンプル(データ、情報)xがターゲットドメインにて得られた情報である第2の可能性が高いほど大きな値を持つ重みを算出し、当該第2の可能性が低いほど小さな値を持つ重みを算出する。換言すれば、ソースドメインでは低いけどターゲットドメインでは高いと、重みは大きな値となり、ソースドメインでは高いけどターゲットドメインでは低いと、重みは小さな値となる。
したがって、ドメイン適応部216は、サンプルxがターゲットドメインに関して得られた情報(データ)である第2の可能性が高いデータほど、当該ターゲットドメインに関する予測モデルを作成する際に重要なデータであると判定する。その一方で、ドメイン適応部216は、サンプルxがターゲットドメインに関して得られた情報(データ)である第2の可能性が低いデータほど、当該ターゲットドメインに関する予測モデルを作成する際に重要なデータでないと判定する。
ここで、ドメインの事前分布として一様分布(すなわち、p(d=S)=p(d=T))を仮定し、ベイズの定理を用いると、上式の重みは以下の数4の様にも得られる。
Figure JPOXMLDOC01-appb-M000004
 ただし、分布は、一様分布でなくもよい。
ターゲットデータが得られないため、本来はp(d=T|x)を推定できないが、本発明の実施例では第1および第2の属性情報を介してこれを推定するため、以下の数5の様にp(d|x)を近似する。
Figure JPOXMLDOC01-appb-M000005
ここで、p(d|z)は属性内ドメイン分布推定部214で、p(z|x)はデータ内属性分布推定部212でそれぞれ推定されているため、右辺を計算することができ、p(d|x)を推定することができる。すなわち、ドメイン適応部216は、各要因について、当該要因がサンプルxに対して影響を与えた可能性と、ドメインごとに当該要因が生じる可能性とに基づき、p(d|x)を算出する。これにより、推定したp(d|x)についてドメイン間で比をとることで、サンプルごとの重みw(x)も算出することができる。
データ変換部220では、ドメイン適応部216で算出された変換パラメータを用いて、ソースデータをターゲットデータの分布に近いデータに変換して出力する。本実施例では、ソースデータに対してサンプルごとの重みw(x)で重みづけを行い、重みづけされたデータを出力する。
モデル作成部12(図2)の機械学習部は、重み付けされたデータ(変換後のデータ)を入力し、入力したデータにおいて、説明変数と、ラベルとの関連性を表す予測モデルを作成する。すなわち、機械学習部において、上述したように処理に基づき算出されたデータ(変換後のデータ)は、ターゲットドメインに関する学習データとして用いられる。
上述した例においては、重みとして比を用いる例を参照しながら説明したが、比でなく差等であってもよい。したがって、重みは、サンプルxがターゲットドメインに関する情報(データ)である第2の可能性が高いほど重く、サンプルxがターゲットドメインに関する情報(データ)である第2の可能性が低いほど軽いことを示す情報であればよい。すなわち、重みは、上述した例に限定されない。
本発明は、画像処理や音声処理に用いられるパターン認識器の学習において、特定の環境で収集した学習用データセットを別の環境で効果的に流用できるようにデータを変換する用途に利用可能である。
10  データ処理装置
11  重要度算出部
12  モデル作成部
20  記憶装置
21  プログラム
22  データ記憶部
23  モデル記憶部
30  入力装置
32  ソースドメインデータ入力部
34  ソースドメイン属性入力部
36  ターゲットドメイン属性入力部
40  出力装置
100  予測モデル作成装置
200  データ変換装置
210  変換パラメータ算出部
212  データ内属性分布推定部
214  属性内ドメイン分布推定部
216  ドメイン適応部
220  データ変換部
 

 

Claims (9)

  1. サンプルとラベルとが関連付けされたデータにおいて、当該サンプルに影響を及ぼす事象がソースドメインにて生じる第1の可能性と、当該事象がターゲットドメインにて生じる第2の可能性との差異に応じた重要度を算出する算出手段と、
    前記ターゲットドメインに関する予測モデルを、当該重要度を加味したデータに含まれている前記サンプル及び前記ラベルとの関連性を算出することによって作成する作成手段と、
    を備える予測モデル作成装置。
  2. 前記算出手段は、
    前記ソースドメインのソースデータと前記ソースドメインの属性情報の第1の分布とに基づいて、各ソースデータにおける属性の分布を推定するデータ内属性分布推定部と、
    前記ソースドメインの属性情報の前記第1の分布と前記ターゲットドメインの属性情報の第2の分布とに基づいて、各属性におけるドメインの分布を推定する属性内ドメイン分布推定部と、
    前記推定された各ソースデータにおける属性の分布と、前記各属性におけるドメインの分布とに基づいて、各ターゲットデータにおける前記ターゲットドメインの分布を推定し、ドメイン間でデータ分布の類似性が高くなるように、前記重要度として前記ソースデータを変換するための変換パラメータを算出するドメイン適応部とを備える、
    請求項1に記載の予測モデル作成装置。
  3. 前記ドメイン適応部は、データの変換方法としてサンプル重みづけを行う、請求項2に記載の予測モデル作成装置。
  4. 情報処理装置によって、サンプルとラベルとが関連付けされたデータにおいて、当該サンプルに影響を及ぼす事象がソースドメインにて生じる第1の可能性と、当該事象がターゲットドメインにて生じる第2の可能性との差異に応じた重要度を算出し、
    前記ターゲットドメインに関する予測モデルを、当該重要度を加味したデータに含まれている前記サンプル及び前記ラベルとの関連性を算出することによって作成する、
    予測モデル作成方法。
  5. 前記算出することは、
    前記ソースドメインのソースデータと前記ソースドメインの属性情報の第1の分布とに基づいて、各ソースデータにおける属性の分布を推定し、
    前記ソースドメインの属性情報の前記第1の分布と前記ターゲットドメインの属性情報の第2の分布とに基づいて、各属性におけるドメインの分布を推定し、
    前記推定された各ソースデータにおける属性の分布と、前記各属性におけるドメインの分布とに基づいて、各ターゲットデータにおける前記ターゲットドメインの分布を推定し、ドメイン間でデータ分布の類似性が高くなるように、前記重要度として前記ソースデータを変換するための変換パラメータを算出する、
    ことを含む請求項4に記載の予測モデル作成方法。
  6. 前記変換パラメータを算出することは、データの変換方法としてサンプル重みづけを行う、請求項5に記載の予測モデル作成方法。
  7. サンプルとラベルとが関連付けされたデータにおいて、当該サンプルに影響を及ぼす事象がソースドメインにて生じる第1の可能性と、当該事象がターゲットドメインにて生じる第2の可能性との差異に応じた重要度を算出する算出手順と、
    前記ターゲットドメインに関する予測モデルを、当該重要度を加味したデータに含まれている前記サンプル及び前記ラベルとの関連性を算出することによって作成する作成手順と、
    をコンピュータに実行させる予測モデル作成プログラムを記録した記録媒体。
  8. 前記算出手順は、前記コンピュータに、
    前記ソースドメインのソースデータと前記ソースドメインの属性情報の第1の分布とに基づいて、各ソースデータにおける属性の分布を推定するデータ内属性分布推定手順と、
    前記ソースドメインの属性情報の前記第1の分布と前記ターゲットドメインの属性情報の第2の分布とに基づいて、各属性におけるドメインの分布を推定する属性内ドメイン分布推定手順と、
    前記推定された各ソースデータにおける属性の分布と、前記各属性におけるドメインの分布とに基づいて、各ターゲットデータにおける前記ターゲットドメインの分布を推定し、ドメイン間でデータ分布の類似性が高くなるように、前記重要度として前記ソースデータを変換するための変換パラメータを算出するドメイン適応手順と、
    を実行させる、請求項7に記載の記録媒体。
  9. 前記ドメイン適応手順は、データの変換方法としてサンプル重みづけを行う、請求項8に記載の記録媒体。
     

     
PCT/JP2018/018244 2018-05-11 2018-05-11 予測モデル作成装置、予測モデル作成方法、および予測モデル作成プログラム記録媒体 WO2019215904A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2018/018244 WO2019215904A1 (ja) 2018-05-11 2018-05-11 予測モデル作成装置、予測モデル作成方法、および予測モデル作成プログラム記録媒体
JP2020517728A JP6955233B2 (ja) 2018-05-11 2018-05-11 予測モデル作成装置、予測モデル作成方法、および予測モデル作成プログラム
US17/043,309 US20210019636A1 (en) 2018-05-11 2018-05-11 Prediction model construction device, prediction model construction method and prediction model construction program recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/018244 WO2019215904A1 (ja) 2018-05-11 2018-05-11 予測モデル作成装置、予測モデル作成方法、および予測モデル作成プログラム記録媒体

Publications (1)

Publication Number Publication Date
WO2019215904A1 true WO2019215904A1 (ja) 2019-11-14

Family

ID=68467868

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/018244 WO2019215904A1 (ja) 2018-05-11 2018-05-11 予測モデル作成装置、予測モデル作成方法、および予測モデル作成プログラム記録媒体

Country Status (3)

Country Link
US (1) US20210019636A1 (ja)
JP (1) JP6955233B2 (ja)
WO (1) WO2019215904A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220004819A1 (en) * 2020-07-03 2022-01-06 Samsung Electronics Co., Ltd. Electronic device and controlling method of electronic device
WO2022190301A1 (ja) * 2021-03-10 2022-09-15 日本電気株式会社 学習装置、学習方法、及びコンピュータ可読媒体

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11443236B2 (en) * 2019-11-22 2022-09-13 International Business Machines Corporation Enhancing fairness in transfer learning for machine learning models with missing protected attributes in source or target domains

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016125500A1 (ja) * 2015-02-06 2016-08-11 日本電気株式会社 特徴変換装置、認識装置、特徴変換方法及びコンピュータ読み取り可能記録媒体

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9984334B2 (en) * 2014-06-16 2018-05-29 Mitsubishi Electric Research Laboratories, Inc. Method for anomaly detection in time series data based on spectral partitioning
US9916542B2 (en) * 2016-02-02 2018-03-13 Xerox Corporation Domain adaptation by multi-noising stacked marginalized denoising encoders
US10401847B2 (en) * 2016-12-12 2019-09-03 General Electric Company System and method for issue detection of industrial processes

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016125500A1 (ja) * 2015-02-06 2016-08-11 日本電気株式会社 特徴変換装置、認識装置、特徴変換方法及びコンピュータ読み取り可能記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SUGIYAMA, MASASHI: "Supervised Learning under Covariate Shift", THE BRAIN & NEURAL NETWORKS- DEPARTMENT OF COMPUTER SCIENCE, vol. 13, no. 3, 2006, Tokyo, Institute of Technology, pages 111 - 118, XP055650910 *
TSUCHIYA, MASAMITSU ET AL.: "Transfer Forest based on Covariate Shift", IEICE TECHNICAL REPORT, vol. 114, no. 90, 12 June 2014 (2014-06-12), pages 31 - 36 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220004819A1 (en) * 2020-07-03 2022-01-06 Samsung Electronics Co., Ltd. Electronic device and controlling method of electronic device
WO2022190301A1 (ja) * 2021-03-10 2022-09-15 日本電気株式会社 学習装置、学習方法、及びコンピュータ可読媒体

Also Published As

Publication number Publication date
JP6955233B2 (ja) 2021-10-27
JPWO2019215904A1 (ja) 2021-03-18
US20210019636A1 (en) 2021-01-21

Similar Documents

Publication Publication Date Title
WO2018121690A1 (zh) 对象属性检测、神经网络训练、区域检测方法和装置
US8331655B2 (en) Learning apparatus for pattern detector, learning method and computer-readable storage medium
JP6965206B2 (ja) クラスタリング装置、クラスタリング方法およびプログラム
WO2019215904A1 (ja) 予測モデル作成装置、予測モデル作成方法、および予測モデル作成プログラム記録媒体
US20090204556A1 (en) Large Scale Manifold Transduction
CN111860504A (zh) 基于深度学习的视觉多目标跟踪方法及装置
JP4543644B2 (ja) データ認識装置
WO2019244930A1 (ja) 検知装置、検知方法および検知プログラム
CN113537630A (zh) 业务预测模型的训练方法及装置
CN110503090B (zh) 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器
WO2017188048A1 (ja) 作成装置、作成プログラム、および作成方法
WO2021095509A1 (ja) 推定システム、推定装置および推定方法
JP6942203B2 (ja) データ処理システムおよびデータ処理方法
JP2016224821A (ja) 学習装置、学習装置の制御方法及びプログラム
JP7331940B2 (ja) 学習装置、推定装置、学習方法および学習プログラム
JP4928193B2 (ja) 顔画像認識装置及び顔画像認識プログラム
JP2007249394A (ja) 顔画像認識装置及び顔画像認識プログラム
JP2010182013A (ja) 線形変換行列算出装置、その方法、及び、そのプログラム
CN116309056A (zh) 图像重建方法、装置和计算机存储介质
CN115861625A (zh) 一种处理噪声标签的自标签修改方法
CN114970732A (zh) 分类模型的后验校准方法、装置、计算机设备及介质
CN110334244B (zh) 一种数据处理的方法、装置及电子设备
WO2022190301A1 (ja) 学習装置、学習方法、及びコンピュータ可読媒体
EP4083870A1 (en) Method and system for classifying data
Atallah et al. NEURAL NETWORK WITH AGNOSTIC META-LEARNING MODEL FOR FACE-AGING RECOGNITION

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18918183

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020517728

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18918183

Country of ref document: EP

Kind code of ref document: A1