WO2019194105A1 - 因果関係学習装置、因果関係推定装置、因果関係学習方法、因果関係推定方法及びプログラム - Google Patents

因果関係学習装置、因果関係推定装置、因果関係学習方法、因果関係推定方法及びプログラム Download PDF

Info

Publication number
WO2019194105A1
WO2019194105A1 PCT/JP2019/014236 JP2019014236W WO2019194105A1 WO 2019194105 A1 WO2019194105 A1 WO 2019194105A1 JP 2019014236 W JP2019014236 W JP 2019014236W WO 2019194105 A1 WO2019194105 A1 WO 2019194105A1
Authority
WO
WIPO (PCT)
Prior art keywords
label
classification
causal relationship
series data
classifier
Prior art date
Application number
PCT/JP2019/014236
Other languages
English (en)
French (fr)
Inventor
鷹一 近原
昭典 藤野
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/044,783 priority Critical patent/US20210117840A1/en
Publication of WO2019194105A1 publication Critical patent/WO2019194105A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Definitions

  • the present invention relates to a causal learning and estimation technique for time-series data.
  • Granger causality if the past value of the variable X is useful in predicting the future value of the variable Y, then the causal relationship is defined as X is the cause of Y.
  • Non-Patent Document 1 uses a regression model called VAR (Vector Auto-Regressive) model
  • Non-Patent Document 2 technology uses a regression model called GAM (Generalized Additive Model) to presume.
  • VAR Vector Auto-Regressive
  • GAM Generalized Additive Model
  • Patent Document 1 discloses a causal relationship estimation technique for a bivariate time series that does not require a regression model in advance. This technique is based on an approach that estimates a causal relationship of time series by learning a classification device, not a regression model.
  • An object of the present invention is to provide a technique for estimating a causal relationship that does not require a preset regression model that can solve the problems of the prior art.
  • an aspect of the present invention has an input of correct labels of classification labels classified into three or more related to the causal relationship of time-series data and time-series data corresponding to the correct labels.
  • the feature quantity calculation unit for calculating the feature quantity of the series data, and using the set of the feature quantity and the correct label, the output of the classifier for the feature quantity is set to the maximum value of the output value of the correct answer label.
  • the present invention relates to a causal relationship learning apparatus having a classifier learning unit for learning a classifier.
  • FIG. 6 is a diagram showing an experimental result of the binary classification device according to the first embodiment.
  • a classification learning device and a classification estimation device for learning and estimating a causal relationship of time series data of two or more variables.
  • a classification learning device and a classification estimation device according to embodiments described later can learn and estimate the causal relationship of time-series data without requiring a preset regression model.
  • the classification learning device and the classification estimation device are constructed in a form in which the operation principle is clear as compared with the conventional causal relationship estimation technology, so the classification feature amount is set in accordance with the definition of Granger causality. It can be calculated and applied to time-series data related to multivariate, and is further realized by learning a ternary classifier to simultaneously estimate the presence / absence / direction of causality.
  • a causal relationship classification learning device is disclosed.
  • the classification learning device according to the first embodiment is applied to time-series data relating to bivariate X and Y (hereinafter referred to as bivariate time-series data).
  • the classification learning device according to the second embodiment is applied to time-series data including a third variable Z other than bivariate X and Y (hereinafter referred to as trivariate time-series data).
  • the classification learning device according to the third embodiment is applied to time-series data regarding n variables (n> 3).
  • causal relationship is time-series data represented as X ⁇ Y (that is, the variable X is the cause of the variable Y), or (ii) the causal relationship is X ⁇ Is time-series data represented as Y (ie, variable Y is the cause of variable X), or (iii) the causal relationship is No Causation (ie, there is no causal relationship between variables X and Y)
  • a ternary (X ⁇ Y, X ⁇ Y and no causal relationship) classifier is learned using time-series data expressed as or known time-series data (hereinafter referred to as training data).
  • Predict labels of time-series data with unknown causality hereinafter referred to as test data).
  • the ternary classification apparatus learns a classifier using training data for continuous time series data regarding two variables X and Y included in a database, and assigns a classification label to test data. Estimate the causal relationship between assignments, variables X and Y. For example, it is assumed that a sample without a classification label is provided, which is composed of bivariate time series data composed of a time series (X) relating to the yen-dollar exchange rate and a time series (Y) relating to a stock price of a specific company.
  • training data is prepared, for example, by artificially generating a set of bivariate time series data in which the causal relationship between the variables is known, and the classifier is learned using the training data. Then, using the learned classifier, predict the classification label for the test data, and the causal relationship between the two variables X, Y is (i) X ⁇ Y (ie, the stock price of the company due to the exchange rate (Ii) X ⁇ Y (ie, the exchange rate is the result due to the company's stock price), or (iii) no causal relationship, that is, whether there is a causal relationship Estimate the direction.
  • the causal relationship between the variables X and Y is assigned the classification label of the bivariate time series data (test data) regarding the variables X and Y, the causal relationship is X ⁇
  • Use training data consisting of bivariate time series data represented as Y, bivariate time series data whose causal relation is represented as X ⁇ Y, and bivariate time series data whose causal relation is represented as No Causation To learn the classifier.
  • the causal relationship is Training data composed of trivariate time series data represented as X ⁇ Y, trivariate time series data whose causal relation is represented as X ⁇ Y, and trivariate time series data whose causal relation is represented as No Causation To learn the classifier.
  • variables X, Y, Z v (v 1, ..., n-2; where n> 3) whose causal relationship between variables X and Y is unknown
  • the probability that the causal relationship is X ⁇ Y, the probability that the causal relationship is X ⁇ Y, and the probability that the causal relationship is No Causation are calculated, and the classification label is obtained by taking the average value of the classification probabilities for v Assign.
  • any of the ternary classification devices according to the first to third embodiments outputs a classification label estimated for test data whose causal relationship is unknown.
  • the ternary classification probability calculation apparatuses according to the first to third embodiments output classification label estimation probabilities (ternary classification probabilities) for samples without classification labels whose causal relationship is unknown.
  • the ternary classification device and the ternary classification probability calculation device according to the first to third embodiments may typically be realized by a calculation device such as a server, for example, a drive device interconnected via a bus. , An auxiliary storage device, a memory device, a processor, an interface device, and a communication device.
  • Various computer programs including programs for realizing various functions and processing in the ternary classification apparatus and the ternary classification probability calculation apparatus according to the first to third embodiments are a CD-ROM (Compact Disk-Read Only Memory) and a DVD (Digital Versatile). Disk) or a recording medium such as a flash memory.
  • the recording medium storing the program is set in the drive device, the program is installed from the recording medium to the auxiliary storage device via the drive device.
  • the auxiliary storage device stores the installed program and also stores necessary files and data.
  • the memory device reads and stores the program and data from the auxiliary storage device when there is an instruction to start the program.
  • the processor performs various functions of the ternary classification device and the ternary classification probability calculation device according to the first to third embodiments described later according to various data such as a program stored in the memory device and parameters necessary for executing the program. And execute processing.
  • the interface device is used as a communication interface for connecting to a network or an external device.
  • the communication device executes various communication processes for communicating with a network such as the Internet.
  • FIG. 1 is a block diagram showing a functional configuration of a ternary classification apparatus according to an embodiment of the present invention. Note that the ternary classification device and the ternary classification probability calculation device according to the first to third embodiments described above are different in the processing content of each component as will be described later, but the functional configuration shown in the figure. It is comprised so that it may comprise.
  • the ternary classification apparatus 100 includes an input unit 10, a learning unit 20, an inference unit 30, and an output unit 90.
  • the input unit 10 receives various data such as training data, test data, and parameters used for feature quantity calculation.
  • the input unit 10 includes a first input unit 12 and a second input unit 14.
  • the first input unit 12 receives parameters and / or training data used for the feature amount calculation unit 26.
  • the training data is stored in a training data database (DB) 24.
  • the second input unit 14 receives parameters and / or test data used for the feature amount calculation unit 34.
  • the test data is stored in a test data database (DB) 32.
  • the learning unit 20 learns a classifier that classifies the time series data into three values.
  • the learning unit 20 includes a training data generation unit 22, a training data DB 24, a feature amount calculation unit 26, and a classifier learning unit 28 described in detail below.
  • the inference unit 30 classifies the test data in three values using a learned classifier.
  • the inference unit 30 includes a test data DB 32, a feature amount calculation unit 34, and a label estimation unit 36, which will be described in detail below.
  • the output unit 90 outputs the inference result of the inference unit 30. That is, the output unit 90 outputs a classification label estimated for test data whose classification label is unknown.
  • the training data generation unit 22 When the training data is not input in the first input unit 12 or when the training data stored in the training data DB 24 is insufficient, the training data generation unit 22 has a known classification label indicating the causal relationship. A certain bivariate time series data is generated as training data.
  • the training data generation unit 22 performs bivariate time series data (hereinafter referred to as linear time series data) in which the relationship between the two variables is expressed as a linear function as follows: Training data including bivariate time series data (hereinafter referred to as nonlinear time series data) in which the relationship between them is expressed as a nonlinear function is generated.
  • the training data generation unit 22 generates linear time series data from the following VAR model.
  • the coefficients a ⁇ and d ⁇ are sampled from the uniform distribution U ( ⁇ 1, 1), and the coefficient c ⁇ is randomly given from ⁇ 1, 1 ⁇ .
  • the coefficient matrix A ⁇ is given in the same manner as the linear time series data described above.
  • the training data generation unit 22 normalizes the generated time series data so that the average becomes 0 and the variance becomes 1. In this way, the training data generation unit 22 generates bivariate time series data with known classification labels representing causal relationships as training data, and stores the generated training data in the training data DB 24.
  • the feature amount calculation units 26 and 34 calculate feature amounts for the training data and test data, respectively, according to the processing flow shown in FIG.
  • the classification feature amount for each training data and each test data is not limited to the following, but the distance defined between the statistics called two kernel averages (hereinafter referred to as MMD). Obtained using estimated values.
  • the feature quantity calculation units 26 and 34 can acquire an estimated value of MMD based on Kernel Kalman Filter based on Conditional Embedding Operator (hereinafter referred to as KKF-CEO) disclosed in Non-Patent Document 3. is there.
  • S X be the set of observations ⁇ x 1 , ..., x t ⁇ for the variable X and S Y be the set ⁇ y 1 , ..., y t ⁇ for the observations of the variable Y (t> 4 ).
  • S Y be the set ⁇ y 1 , ..., y t ⁇ for the observations of the variable Y (t> 4 ).
  • KKF-CEO the following two kernel averages can be estimated based on these observations.
  • ⁇ X is a function called feature map defined by positive definite kernel k X
  • the weight vectors w XY and w X can be calculated by using the above-described KKF-CEO.
  • KKF-CEO disclosed in Non-Patent Document 3
  • the weight vector w XY can be calculated by using the product kernel k X ⁇ k Y and using KKF-CEO.
  • ⁇ Y is a function called feature mapping defined by positive definite kernel k Y
  • I a real-valued weight vector, which can be similarly estimated by KKF-CEO.
  • ⁇ D is a feature map for positive definite kernel k D
  • Random Fourier Features (hereinafter referred to as RFF) disclosed in Non-Patent Document 4 is used to approximately calculate ⁇ D using a function called Gaussian kernel as kernel k D. Is available.
  • the feature amount calculation units 26 and 34 execute the specific operations described above on the training data and test data according to the flow shown in FIG.
  • step S101 the feature amount calculation units 26 and 34 read training data and test data from the training data DB 24 and the test data DB 32, respectively.
  • step S102 the feature quantity calculation units 26 and 34 calculate weight vectors for the read time series data using KKF-CEO as described above.
  • step S103 the feature amount calculation units 26 and 34 calculate the kernel average according to the above-described formulas (1), (2), (4), and (5) using the calculated weight vector.
  • step S104 the feature quantity calculation units 26 and 34 calculate the MMD pair according to the above-described equations (3) and (6) using the calculated kernel average.
  • step S106 the feature amount calculation units 26 and 34 calculate the feature amount according to the above-described equation (7) using the acquired MMD pair sequence.
  • the classifier learning unit 28 learns the classifier based on the feature amount and the classification label (hereinafter referred to as labeled feature amount) for the training data acquired from the feature amount calculation unit 26, and performs label estimation on the learned classifier Provided to part 36.
  • the label estimation unit 36 uses the learned classifier to estimate the classification label of the test data based on the feature amount for the test data acquired from the feature amount calculation unit 34, and provides it to the output unit 90.
  • the ternary classification probability calculation apparatus according to the first embodiment Next, the ternary classification probability calculation apparatus according to the first embodiment will be described.
  • the ternary classification probability calculation apparatus according to the present embodiment has the same configuration as the above-described ternary classification apparatus except for the output unit 90, and the description of the same components is omitted to avoid duplication.
  • the output unit 90 does not use the classification label value estimated by the label estimation unit 36 but the classification label value (X ⁇ Y, X ⁇ Y , No Causation), the probability that the classification label is X ⁇ Y, the probability that the classification label is X ⁇ Y, and the probability that the classification label is No Causation are output.
  • the classification label value (X ⁇ Y, X ⁇ Y , No Causation)
  • the probability that the classification label is X ⁇ Y the probability that the classification label is X ⁇ Y
  • the probability that the classification label is No Causation
  • the ternary classification device according to the present embodiment has the same configuration as the ternary classification device according to the first embodiment except for the input unit 10, the training data generation unit 22, and the feature amount calculation units 26 and 34, and has the same configuration. Explanation of the components is omitted to avoid duplication.
  • the input unit 10 accepts trivariate time series data as training data and test data.
  • the training data generation unit 22 When the training data is not input in the first input unit 12 or when the training data stored in the training data DB 24 is insufficient, the training data generation unit 22 has a known classification label indicating the causal relationship.
  • a trivariate time series data is generated as training data.
  • bivariate time series data is generated as training data, but in this embodiment, trivariate time series data is generated as training data.
  • the training data generation unit 22 according to the present embodiment generates linear time-series data and nonlinear time-series data as trivariate time-series data. The specific generation process simply extends the generation principle of the training data generation unit 22 according to the first embodiment to three variables, and a detailed description thereof is omitted.
  • the feature amount calculation units 26 and 34 calculate feature amounts for the training data and the test data as described later.
  • feature amounts are calculated using MMD pairs.
  • feature amounts are calculated using four MMD pairs.
  • S X be the set of observations ⁇ x 1 , ..., x t ⁇ for variable X
  • S Y be the set of observations for variable Y ⁇ y 1 , ..., y t ⁇
  • S Z be a variable
  • Z be the set of observations (t> 4).
  • ⁇ X is a function called feature map defined by positive definite kernel k X
  • the weight vectors w XYZ and w XZ can be calculated by using the above-described KKF-CEO.
  • the weight vector w XY can be calculated by using the product kernel k X ⁇ k Y and using KKF-CEO.
  • ⁇ Y is a function called feature mapping defined by positive definite kernel k Y
  • I a real-valued weight vector, which can be similarly estimated by KKF-CEO.
  • the MMD quadruple d t at the time t is obtained by using the equations (3), (6), (10) and (13).
  • ⁇ D is a feature map for positive definite kernel k D
  • the RFF disclosed in Non-Patent Document 4 can be used to approximately calculate ⁇ D.
  • a ternary classification probability calculation apparatus according to the second embodiment Next, a ternary classification probability calculation apparatus according to the second embodiment will be described.
  • the ternary classification probability calculation apparatus according to the present embodiment has the same configuration as the above-described ternary classification apparatus except for the output unit 90, and the description of the same components is omitted to avoid duplication.
  • the output unit 90 does not use the classification label value estimated by the label estimation unit 36, but the classification label value estimated by the label estimation unit 36 (X ⁇ Y, X ⁇ Y , No Causation), the probability that the classification label is X ⁇ Y, the probability that the classification label is X ⁇ Y, and the probability that the classification label is No Causation are output.
  • the classification label value estimated by the label estimation unit 36 (X ⁇ Y, X ⁇ Y , No Causation)
  • the probability that the classification label is X ⁇ Y, the probability that the classification label is X ⁇ Y, and the probability that the classification label is No Causation are output.
  • the ternary classification device according to the present embodiment has the same configuration as the ternary classification device according to the second embodiment except for the second input unit 14, the feature amount calculation unit 34, and the label estimation unit 36, and has the same configuration. Explanation of elements is omitted to avoid duplication.
  • Second input unit 14 receives time-series data (n> 3) about Z n-2.
  • the feature quantity calculation unit 34 applies the formula (3) to the time series data regarding the triples X, Y, Z v (v ⁇ ⁇ 1, ..., n-2 ⁇ ) of each variable. 14) is used to calculate the feature value.
  • the label estimation unit 36 uses the classifier learned by the classifier learning unit 26, and the classification label is X ⁇ Y for each feature amount acquired by the feature amount calculation unit 34. , The probability that the classification label is X ⁇ Y, and the probability that the classification label is No Causation, and calculating the mean value, the causal relationship between the variables X and Y is X ⁇ Y Calculate a probability, a probability of X ⁇ Y, and a probability of No Causation. Then, the label estimation unit 36 outputs the maximum classification label as an estimated classification label among the average values of the probability values of the three acquired classification labels.
  • the ternary classification probability calculation apparatus has the same configuration as the above-described ternary classification apparatus except for the output unit 90, and the description of the same components is omitted to avoid duplication.
  • the output unit 90 does not use the classification label value estimated by the label estimation unit 36, but the classification label value estimated by the label estimation unit 36 (X ⁇ Y, X ⁇ Y , No Causation), the average value of the probability that the classification label is X ⁇ Y, the average value of the probability that the classification label is X ⁇ Y, and the average value of the probability that the classification label is No Causation Is output.
  • the classification label value estimated by the label estimation unit 36 (X ⁇ Y, X ⁇ Y , No Causation)
  • the average value of the probability that the classification label is X ⁇ Y
  • the average value of the probability that the classification label is X ⁇ Y
  • the average value of the probability that the classification label is No Causation Is output.
  • a set of artificially generated data was prepared, and an experiment was performed using the classification device according to the first embodiment.
  • T ′ 50, 100, and 250, respectively.
  • the number of time-series data with causal relationships X ⁇ Y, X ⁇ Y, and No Causation was prepared to be 100 pairs each.
  • Non-linear time series data with causal relationship X ⁇ Y was generated as follows.
  • FIG. 3 shows the experimental results when the classification device according to the first embodiment is applied to this set of artificial data.
  • Proposed indicates the correct answer rate of the classification label obtained using the first embodiment.
  • RCC, GC VAR , GC GAM , GC KER, and TE indicate the correct answer rates of classification labels obtained by using the techniques disclosed in Non-Patent Documents 5, 1, 2, 6, and 7, respectively.
  • kernel functions called Gaussian kernels are used as k X , k Y , k Z , and k D , and the parameter values are determined by a heuristic called median heuristic (see Non-Patent Document 8). ).
  • a random forest is used, and the parameter representing the number of trees in the random forest is changed from the candidate set ⁇ 100, 200, 500, 1000, 2000 ⁇ to the training data.
  • the feature quantity used for classification is calculated for each test data, and the calculated feature quantity is classified using the ternary classifier learned based on the training data, and the classification corresponding to the test data is performed.
  • the label is estimated. In this way, it is possible to estimate the causal relationship between variables for given time-series data without requiring the presetting of a regression model.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

従来技術による問題点を解決可能な回帰モデルの事前設定が不要な因果関係を推定するための技術が開示される。本発明の一態様は、時系列データの因果関係に関する3つ以上に分類された分類ラベルの正解ラベルと前記正解ラベルに対応する時系列データとを入力とし、前記時系列データの特徴量を計算する特徴量計算部と、前記特徴量と前記正解ラベルとの組を用いて、前記特徴量に対する分類器の出力が前記正解ラベルの出力値の最大値となるよう前記分類器を学習する分類器学習部と、を有する因果関係学習装置に関する。

Description

因果関係学習装置、因果関係推定装置、因果関係学習方法、因果関係推定方法及びプログラム
 本発明は、時系列データの因果関係の学習及び推定技術に関する。
 一般に、変量Xと変量Yとの間に原因と結果の関係があるとき、変量X, Yの間に因果関係があるという。時系列における因果関係の定義の1つとして、Granger因果性がある。Granger因果性では、変量Xの過去の値が変量Yの未来の値を予測する上で有用であれば、XはYの原因であるとして因果関係を定義する。
 Granger因果性を推定する技術では、変量間の依存関係が特定の回帰モデルに従うか否かに基づいて因果関係の有無を推定する。例えば、非特許文献1の技術では、VAR(Vector Auto-Regressive)モデルという回帰モデルを用いて、非特許文献2の技術では、GAM (Generalized Additive Model)という回帰モデルを用いて、Granger因果性を推定する。
特開2017-228256
C. W. Granger, "Investigating causal relations by econometric models and cross-spectral methods", Econometrica: Journal of the Econometric Society, pages 424-438, 1969. D. Bell, J. Kay, and J. Malley, "A non-parametric approach to non-linear causality testing", Economics Letters, 51(1): 718, 1996. Pingping Zhu, Badong Chen, and Jose C. Principe, "Learning nonlinear generative models of time series with a Kalman filter in RKHS", Signal Processing, IEEE Transactions on, 62(1): pages 141-155, 2014. Ali Rahimi and Benjamin Recht, "Random features for large-scale kernel machines", In NIPS, pages 1177-1184, 2007. David Lopez-Paz, Krikamol Muandet, Bernhard Schoelkopf, and Ilya Tolstikhin, "Towards a learning theory of cause-effect inference", In ICML, JMLR, 2015. D. Marinazzo, M. Pellicor, and S. Stra-maglia, "Kernel-Granger causality and the analysis of dynamical networks", Physical Review E, 77(5): 056215, 2008. T. Schreiber, "Measuring information transfer", Physical review letters, 85(2): 461, 2000. B. Scholkopf and A. J. Smola, "Learning with kernels: support vector machines, regularization, optimization, and beyond, MIT press, 2001.
 しかしながら、このような技術を用いてGranger因果性を正しく推定するためには、与えられた時系列データを上手くフィッティングできるような回帰モデルを選択する必要がある。適切な回帰モデルを選択するためには、回帰手法に関する専門知識を要するため、このような技術を用いてGranger因果性を正しく推定することは容易でない。
 非特許文献1及び2の技術では、VARモデル及びGAMという回帰モデルを利用しているため、これらの回帰モデルが上手くフィッティングできるような時系列データでなければ、正しくGranger因果性を推定することはできない。このため、Granger因果性を推定する技術領域において、このような回帰モデルの事前設定を不要とする因果関係の推定技術が必要とされる。
 一方、特許文献1では、回帰モデルの事前設定が不要な2変量時系列に関する因果関係の推定技術が開示されている。当該技術は、回帰モデルでなく、分類装置を学習することによって時系列の因果関係を推定するアプローチによるものである。
 しかしながら、当該技術によると、(i)なぜ、分類装置によって時系列の因果関係を正しく推定することができるのか、その動作原理が不明瞭である点、(ii)2変量に関する時系列データのみに適用される技術であり、変量数が3以上の場合には適用できない点、(iii)2値分類器を学習するため、変量間の因果関係の方向・有無を同時に推定できない点、などのいくつかの問題点がある。
 本発明の課題は、従来技術による問題点を解決可能な回帰モデルの事前設定が不要な因果関係を推定するための技術を提供することである。
 上記課題を解決するため、本発明の一態様は、時系列データの因果関係に関する3つ以上に分類された分類ラベルの正解ラベルと前記正解ラベルに対応する時系列データとを入力とし、前記時系列データの特徴量を計算する特徴量計算部と、前記特徴量と前記正解ラベルとの組を用いて、前記特徴量に対する分類器の出力が前記正解ラベルの出力値の最大値となるよう前記分類器を学習する分類器学習部と、を有する因果関係学習装置に関する。
 本発明によると、従来技術による問題点を解消可能な回帰モデルの事前設定が不要な因果関係を推定するための技術を提供することができる。
本発明の一実施例による3値分類装置の機能的構成を示すブロック図である。 本発明の一実施例による特徴量計算処理を示すフローチャートである。 第1の実施形態による2値分類装置の実験結果を示す図である。
 以下の実施例では、2変量以上の時系列データの因果関係を学習及び推定する分類学習装置及び分類推定装置が開示される。後述される実施例による分類学習装置及び分類推定装置は、回帰モデルの事前設定を必要とすることなく時系列データの因果関係を学習及び推定可能である。また、当該分類学習装置及び分類推定装置は、従来の因果関係推定技術と比較して、その動作原理が明らかな形で構築されるため、Granger因果性の定義に即して分類の特徴量を計算し、また、多変量に関する時系列データに適用可能であり、さらに、因果関係の有無・方向を同時に推定するために3値分類器を学習することによって実現される。
 具体的には、以下の実施例では、3つの実施形態による時系列データの因果関係の分類学習装置が開示される。第1の実施形態による分類学習装置は、2変量X, Yに関する時系列データ(以下、2変量時系列データとして参照する)に対して適用される。第2の実施形態による分類学習装置は、2変量X, Y以外の第三の変量Zを含む時系列データ(以下、3変量時系列データとして参照する)に対して適用される。第3の実施形態による分類学習装置は、n変量(n>3)に関する時系列データに対して適用される。
 上述した何れの分類学習装置も、(i)因果関係がX→Y(すなわち、変量Xが変量Yの原因である)として表される時系列データであるか、(ii)因果関係がX←Y(すなわち、変量Yが変量Xの原因である)として表される時系列データであるか、あるいは、(iii)因果関係がNo Causation(すなわち、変量X, Yの間に因果関係がない)として表される時系列データであるか、が既知である時系列データ(以下、訓練データとして参照する)を用いて3値(X→Y, X←Y及び因果関係なし)分類器を学習し、因果関係が未知の時系列データ(以下、テストデータとして参照する)のラベルを予測する。
 図1を参照して、本発明の一実施例による3値分類装置を説明する。本実施例による3値分類装置は、データベースに含まれる2つの変量X, Yに関する連続値の時系列データに対して、訓練データを用いて分類器を学習し、テストデータに対して分類ラベルを割当て、変量X, Yの間の因果関係を推定する。例えば、円ドルの為替レートに関する時系列(X)と特定の企業の株価に関する時系列(Y)とから構成される2変量時系列データからなる分類ラベルなしのサンプルが与えられたとする。このとき、まず変量間の因果関係が既知である2変量時系列データの集合を人工的に生成するなどによって訓練データを用意し、当該訓練データを利用して分類器を学習させる。その後、学習済みの分類器を利用して、テストデータに対する分類ラベルを予測し、2つの変量X, Yの間の因果関係が(i) X→Y(すなわち、為替レートが原因で企業の株価が結果である)、(ii) X←Y(すなわち、企業の株価が原因で為替レートが結果である)、又は(iii)因果関係なし、の何れであるか、すなわち、因果関係の有無・方向を推定する。
 第1実施形態による3値分類装置では、変量X, Yの間の因果関係が未知である変量X, Yに関する2変量時系列データ(テストデータ)の分類ラベルを割り当てるため、因果関係がX→Yとして表される2変量時系列データ、因果関係がX←Yとして表される2変量時系列データ、及び因果関係がNo Causationとして表される2変量時系列データから構成される訓練データを用いて分類器を学習する。
 第2実施形態による3値分類装置では、変量X, Yの間の因果関係が未知である変量X, Y, Zに関する3変量時系列データ(テストデータ)の分類ラベルを割り当てるため、因果関係がX→Yとして表される3変量時系列データ、因果関係がX←Yとして表される3変量時系列データ、及び因果関係がNo Causationとして表される3変量時系列データから構成される訓練データを用いて分類器を学習する。
 第3実施形態による3値分類装置では、変量X, Yの間の因果関係が未知である変量X, Y, Zv (v=1, ..., n-2; ただし、n>3)に関するn変量時系列データ(テストデータ)の分類ラベルを割り当てるため、第2の実施形態で学習した分類器を利用して、テストデータにおける各変量の3つ組(X, Y, Zv)に対して、因果関係がX→Yである確率、因果関係がX←Yである確率、及び因果関係がNo Causationである確率をそれぞれ計算し、vに関して分類確率の平均値をとることで分類ラベルを割り当てる。
 第1~3実施形態による3値分類装置は何れも、因果関係が未知であるテストデータに対して推定された分類ラベルを出力する。また、第1~3実施形態による3値分類確率計算装置は何れも、因果関係が未知である分類ラベルなしのサンプルに対して、分類ラベルの推定確率(3値分類確率)を出力する。
 なお、第1~3実施形態による3値分類装置及び3値分類確率計算装置は、典型的には、サーバなどの計算装置により実現されてもよく、例えば、バスを介し相互接続されるドライブ装置、補助記憶装置、メモリ装置、プロセッサ、インタフェース装置及び通信装置から構成されてもよい。第1~3実施形態による3値分類装置及び3値分類確率計算装置における各種機能及び処理を実現するプログラムを含む各種コンピュータプログラムは、CD-ROM(Compact Disk-Read Only Memory)、DVD(Digital Versatile Disk)、フラッシュメモリなどの記録媒体によって提供されてもよい。プログラムを記憶した記録媒体がドライブ装置にセットされると、プログラムが記録媒体からドライブ装置を介して補助記憶装置にインストールされる。但し、プログラムのインストールは必ずしも記録媒体により行う必要はなく、ネットワークなどを介し何れかの外部装置からダウンロードするようにしてもよい。補助記憶装置は、インストールされたプログラムを格納すると共に、必要なファイルやデータなどを格納する。メモリ装置は、プログラムの起動指示があった場合に、補助記憶装置からプログラムやデータを読み出して格納する。プロセッサは、メモリ装置に格納されたプログラムやプログラムを実行するのに必要なパラメータなどの各種データに従って、後述される第1~3実施形態による3値分類装置及び3値分類確率計算装置の各種機能及び処理を実行する。インタフェース装置は、ネットワーク又は外部装置に接続するための通信インタフェースとして用いられる。通信装置は、インターネットなどのネットワークと通信するための各種通信処理を実行する。
 しかしながら、第1~3実施形態による3値分類装置及び3値分類確率計算装置は、上述したハードウェア構成に限定されるものでなく、他の何れか適切なハードウェア構成により実現されてもよい。
[第1実施形態による3値分類装置]
 まず、3値分類装置について説明する。図1は、本発明の一実施例による3値分類装置の機能的構成を示すブロック図である。なお、上述した第1~3実施形態による3値分類装置及び3値分類確率計算装置は何れも、後述されるように、各構成要素の処理内容に相違はあるが、図示された機能的構成を備えるよう構成される。
 図1に示されるように、3値分類装置100は、入力部10、学習部20、推論部30及び出力部90を有する。
 入力部10は、訓練データ、テストデータ、特徴量計算に用いられるパラメータなどの各種データを受け付ける。図示される実施例では、入力部10は、第1入力部12及び第2入力部14を有する。第1入力部12は、特徴量計算部26に用いられるパラメータ及び/又は訓練データを受け付ける。訓練データは、訓練データデータベース(DB)24に格納される。第2入力部14は、特徴量計算部34に用いられるパラメータ及び/又はテストデータを受け付ける。テストデータは、テストデータデータベース(DB)32に格納される。
 学習部20は、時系列データを3値分類する分類器を学習する。図示される実施例では、学習部20は、以下で詳細に説明される訓練データ生成部22、訓練データDB24、特徴量計算部26及び分類器学習部28を有する。
 推論部30は、学習済みの分類器を用いてテストデータを3値分類する。図示される実施例では、推論部30は、以下で詳細に説明されるテストデータDB32、特徴量計算部34及びラベル推定部36を有する。
 出力部90は、推論部30の推論結果を出力する。すなわち、出力部90は、分類ラベルが未知のテストデータに対して推定された分類ラベルを出力する。
 訓練データ生成部22は、第1入力部12において訓練データが入力されなかった場合、あるいは、訓練データDB24に格納されている訓練データが不足している場合、因果関係を表す分類ラベルが既知である2変量時系列データを訓練データとして生成する。
 一実施例では、訓練データ生成部22は、以下のようにして、2変量間の関係が線形関数として表される2変量時系列データ(以下、線形時系列データとして参照する)と、2変量間の関係が非線形関数として表される2変量時系列データ(以下、非線形時系列データとして参照する)とを含む訓練データを生成する。
 まず、訓練データ生成部22は、以下のVARモデルから線形時系列データを生成する。
Figure JPOXMLDOC01-appb-M000003
ここで、τ=1, ..., P (P∈{1, 2, 3})、ノイズ
Figure JPOXMLDOC01-appb-M000004
は標準正規分布N(0, 1)からサンプリングされる。
 因果関係X→Yの時系列データを取得するため、係数行列を以下のように与える。
Figure JPOXMLDOC01-appb-M000005
ここで、係数aτ, dτは一様分布U(-1, 1)からサンプリングされ、係数cτは{-1, 1}からランダムに与えられる。
 また、因果関係X←Yの時系列データは、
Figure JPOXMLDOC01-appb-M000006
の係数行列を与えることによって生成される。
 さらに、因果関係No Causationの時系列データは、
Figure JPOXMLDOC01-appb-M000007
の係数行列を与えることによって生成される。
 一方、訓練データ生成部22は、VARモデルと標準シグモイド関数g(x)=1/(1+exp(-x))を用いて、以下のモデルから非線形時系列データを生成する。
Figure JPOXMLDOC01-appb-M000008
ここで、τ、ノイズ
Figure JPOXMLDOC01-appb-M000009
及び係数行列Aτは、上述した線形時系列データと同様にして与えられる。
 そして、訓練データ生成部22は、生成した各時系列データを平均0及び分散1になるよう正規化する。このようにして、訓練データ生成部22は、因果関係を表す分類ラベルが既知である2変量時系列データを訓練データとして生成し、生成した訓練データを訓練データDB24に格納する。
 特徴量計算部26及び34はそれぞれ、訓練データ及びテストデータに対して、図2に示される処理フローに従って特徴量を計算する。本実施形態では、以下に限定することなく、各訓練データ及び各テストデータに対する分類の特徴量は、2つのカーネル平均と呼ばれる統計量の間で定義される距離(以下、MMDとして参照する)の推定値を用いて取得される。具体的には、特徴量計算部26及び34は、非特許文献3に開示されるKernel Kalman Filter based on Conditional Embedding Operator(以下、KKF-CEOとして参照する)に基づきMMDの推定値を取得可能である。
 SXを変量Xの観測値の集合{x1, ..., xt}とし、SYを変量Yの観測値の集合{y1, ..., yt}とする(t>4)。KKF-CEOを利用して、これらの観測値に基づき、以下の2つのカーネル平均を推定できる。
Figure JPOXMLDOC01-appb-M000010
 ここで、ΦXは、正定値カーネルkXが定義する特徴写像と呼ばれる関数
Figure JPOXMLDOC01-appb-M000011
であり、
Figure JPOXMLDOC01-appb-M000012
はそれぞれ実数値の重みベクトルである。
 重みベクトルwXY, wXを計算するには、上述したKKF-CEOを利用することによって実現可能である。なお、非特許文献3に開示されるKKF-CEOでは、1変数時系列の観測SXに対してカーネル平均
Figure JPOXMLDOC01-appb-M000013
を推定するために、重みベクトルwXを計算する技術を提案している。重みベクトルwXYに関しては積カーネルkX・kYを用いて、KKF-CEOを利用することによって計算できる。
 式(1)及び(2)によって得られるカーネル平均を用いてMMDを計算すると、
Figure JPOXMLDOC01-appb-M000014
として得られる。
 同様にして、2つのカーネル平均
Figure JPOXMLDOC01-appb-M000015
に対してMMDを計算すると、
Figure JPOXMLDOC01-appb-M000016
として得られる。ただし、ΦYは、正定値カーネルkYが定義する特徴写像と呼ばれる関数
Figure JPOXMLDOC01-appb-M000017
であり、
Figure JPOXMLDOC01-appb-M000018
は実数値の重みベクトルであり、同様にして、KKF-CEOによって推定可能である。
 長さTの2変量時系列の観測値
Figure JPOXMLDOC01-appb-M000019
に対して分類の特徴量を計算するため、MMDのペア
Figure JPOXMLDOC01-appb-M000020
を以下のように用いる。
 1. 系列長W(W<T)の時系列
Figure JPOXMLDOC01-appb-M000021
に基づいて、式(3)及び(6)を用いることによって時刻tにおけるMMDのペアdtを得る。
 2. 上記の1を時刻t=W,...,Tについて処理することによってMMDのペアの系列{dW, ..., dT}を得る。
 3. 当該MMDのペアの系列を次のように用いることによって、時系列Sに対する分類の特徴量を得る。
Figure JPOXMLDOC01-appb-M000022
ただし、ΦDは、正定値カーネルkDに対する特徴写像
Figure JPOXMLDOC01-appb-M000023
である。
 ここで、式(7)において、カーネルkDとしてガウシアンカーネルと呼ばれる関数を利用してΦDを近似計算するため、非特許文献4に開示されるRandom Fourier Features(以下、RFFとして参照される)が利用可能である。
 特徴量計算部26及び34は、図2に示されるようなフローに従って訓練データ及びテストデータに対して上述した具体的な演算を実行する。
 まず、ステップS101において、特徴量計算部26及び34は、訓練データDB24及びテストデータDB32からそれぞれ訓練データ及びテストデータを読み込む。
 ステップS102において、特徴量計算部26及び34は、読み込んだ時系列データに対して、上述したようにKKF-CEOを利用して重みベクトルを計算する。
 ステップS103において、特徴量計算部26及び34は、計算した重みベクトルを利用して、上述した式(1), (2), (4)及び(5)に従ってカーネル平均を計算する。
 ステップS104において、特徴量計算部26及び34は、計算したカーネル平均を利用して、上述した式(3)及び(6)に従ってMMDのペアを計算する。
 ステップS105において、特徴量計算部26及び34は、時刻t=W, ..., Tに対してステップS101~S104を繰り返すことによって、MMDのペアの系列を得る。
 ステップS106において、特徴量計算部26及び34は、取得したMMDのペアの系列を利用して、上述した式(7)に従って特徴量を計算する。
 分類器学習部28は、特徴量計算部26から取得した訓練データに対する特徴量と分類ラベル(以下、ラベル有り特徴量として参照する)に基づき分類器を学習し、学習済みの分類器をラベル推定部36に提供する。
 ラベル推定部36は、学習済みの分類器を利用して、特徴量計算部34から取得したテストデータに対する特徴量に基づき当該テストデータの分類ラベルを推定し、出力部90に提供する。
[第1実施形態による3値分類確率計算装置]
 次に、第1実施形態による3値分類確率計算装置について説明する。なお、本実施形態による3値分類確率計算装置は、出力部90を除き、上述した3値分類装置と同様の構成を備え、同様の構成要素については重複を避けるため説明を省く。
 本実施形態による3値分類確率計算装置では、出力部90は、ラベル推定部36が推定した分類ラベルの値でなく、ラベル推定部36が推定した分類ラベルの値(X→Y, X←Y, No Causation)を決定する際に用いられる、分類ラベルがX→Yである確率、分類ラベルがX←Yである確率、及び分類ラベルがNo Causationである確率を出力する。
[第2実施形態による3値分類装置]
 次に、第2実施形態による3値分類装置について説明する。なお、本実施形態による3値分類装置は、入力部10、訓練データ生成部22及び特徴量計算部26, 34を除き、第1実施形態による3値分類装置と同様の構成を備え、同様の構成要素については重複を避けるため説明を省く。
 本実施形態による入力部10は、3変量時系列データを訓練データ及びテストデータとして受け付ける。
 訓練データ生成部22は、第1入力部12において訓練データが入力されなかった場合、あるいは、訓練データDB24に格納されている訓練データが不足している場合、因果関係を表す分類ラベルが既知である3変量時系列データを訓練データとして生成する。第1実施形態では、2変量時系列データが訓練データとして生成されるが、本実施形態では、3変量時系列データが訓練データとして生成される。各種生成手法が可能であるが、第1実施形態と同様に、本実施形態による訓練データ生成部22は、線形時系列データ及び非線形時系列データを3変量時系列データとして生成する。具体的な生成処理は、第1実施形態による訓練データ生成部22の生成原理を単に3変量に拡張するだけであり、その具体的詳細について説明を省く。
 特徴量計算部26及び34は、後述されるようにして訓練データ及びテストデータに対して特徴量を計算する。第1実施形態では、MMDのペアを用いて特徴量が計算されたが、本実施形態では、MMDの4つ組を用いて特徴量が計算される。
 SXを変量Xの観測値の集合{x1, ..., xt}とし、SYを変量Yの観測値の集合{y1, ..., yt}とし、SZを変量Zの観測値の集合とする(t>4)。KKF-CEOを利用して、これらの観測値に基づき、以下の2つのカーネル平均を推定できる。
Figure JPOXMLDOC01-appb-M000024
 ここで、ΦXは、正定値カーネルkXが定義する特徴写像と呼ばれる関数
Figure JPOXMLDOC01-appb-M000025
であり、
Figure JPOXMLDOC01-appb-M000026
はそれぞれ実数値の重みベクトルである。
 重みベクトルwXYZ, wXZを計算するには、上述したKKF-CEOを利用することによって実現可能である。重みベクトルwXYに関しては積カーネルkX・kYを用いて、KKF-CEOを利用することによって計算できる。
 式(8)及び(9)によって得られるカーネル平均を用いてMMDを計算すると、
Figure JPOXMLDOC01-appb-M000027
として得られる。
 同様にして、2つのカーネル平均
Figure JPOXMLDOC01-appb-M000028
に対してMMDを計算すると、
Figure JPOXMLDOC01-appb-M000029
として得られる。ただし、ΦYは、正定値カーネルkYが定義する特徴写像と呼ばれる関数
Figure JPOXMLDOC01-appb-M000030
であり、
Figure JPOXMLDOC01-appb-M000031
は実数値の重みベクトルであり、同様にして、KKF-CEOによって推定可能である。
 長さTの3変量時系列の観測値
Figure JPOXMLDOC01-appb-M000032
に対して分類の特徴量を計算するため、MMDの4つ組
Figure JPOXMLDOC01-appb-M000033
を以下のように用いる。
 1. 系列長W(W<T)の時系列
Figure JPOXMLDOC01-appb-M000034
に基づいて、式(3), (6), (10)及び(13)を用いることによって時刻tにおけるMMDの4つ組dtを得る。
 2. 上記の1を時刻t=W,...,Tについて処理することによってMMDの4つ組の系列{dW, ..., dT}を得る。
 3. 当該MMDの4つ組の系列を次のように用いることによって、時系列Sに対する分類の特徴量を得る。
Figure JPOXMLDOC01-appb-M000035
ただし、ΦDは、正定値カーネルkDに対する特徴写像
Figure JPOXMLDOC01-appb-M000036
である。
 ここで、式(14)において、ΦDを近似計算するため、非特許文献4に開示されるRFFが利用可能である。
[第2実施形態による3値分類確率計算装置]
 次に、第2実施形態による3値分類確率計算装置について説明する。なお、本実施形態による3値分類確率計算装置は、出力部90を除き、上述した3値分類装置と同様の構成を備え、同様の構成要素については重複を避けるため説明を省く。
 本実施形態による3値分類確率計算装置では、出力部90は、ラベル推定部36が推定した分類ラベルの値でなく、ラベル推定部36が推定した分類ラベルの値(X→Y, X←Y, No Causation)を決定する際に用いられる、分類ラベルがX→Yである確率、分類ラベルがX←Yである確率、及び分類ラベルがNo Causationである確率を出力する。
[第3実施形態による3値分類装置]
 次に、第3実施形態による3値分類装置について説明する。なお、本実施形態による3値分類装置は、第2入力部14、特徴量計算部34及びラベル推定部36を除き、第2実施形態による3値分類装置と同様の構成を備え、同様の構成要素については重複を避けるため説明を省く。
 本実施形態による第2入力部14は、n変量X, Y, Z1, ..., Zn-2に関する時系列データ(n>3)を受け付ける。
 また、本実施形態による特徴量計算部34は、各変量の3つ組X, Y, Zv (v∈{1, ..., n-2})に関する時系列データに対して、式(14)を用いて特徴量を計算する。
 さらに、本実施形態によるラベル推定部36は、分類器学習部26により学習済みの分類器を利用して、特徴量計算部34により取得された各特徴量に対して、分類ラベルがX→Yである確率、分類ラベルがX←Yである確率、及び分類ラベルがNo Causationである確率を計算し、その平均値を計算することによって、変量X, Yの間の因果関係がX→Yである確率、X←Yである確率、及びNo Causationである確率を計算する。そして、ラベル推定部36は、取得した3つの分類ラベルの確率値の平均値のうち最大となる分類ラベルを推定された分類ラベルとして出力する。
[第3実施形態による3値分類確率計算装置]
 次に、第3実施形態による3値分類確率計算装置について説明する。なお、本実施形態による3値分類確率計算装置は、出力部90を除き、上述した3値分類装置と同様の構成を備え、同様の構成要素については重複を避けるため説明を省く。
 本実施形態による3値分類確率計算装置では、出力部90は、ラベル推定部36が推定した分類ラベルの値でなく、ラベル推定部36が推定した分類ラベルの値(X→Y, X←Y, No Causation)を決定する際に用いられる、分類ラベルがX→Yである確率の平均値、分類ラベルがX←Yである確率の平均値、及び分類ラベルがNo Causationである確率の平均値を出力する。
[実験例]
 人工的に生成されたデータの集合を用意し、第1実施形態による分類装置を用いて実験を行った。テストデータは、300個のペアの非線形時系列データからなるデータセットを3種類用意し、データセット内の時系列の長さはそれぞれT'=50, 100, 250とした。ここで、因果関係がX→Y, X←Y及びNo Causationの時系列データの個数はそれぞれ100個のペアとなるよう用意した。
 因果関係がX→Yの非線形時系列データは、次のように生成した。
Figure JPOXMLDOC01-appb-M000037
ここで、
Figure JPOXMLDOC01-appb-M000038
は、それぞれ標準正規分布N(0, 1)により与えられる。X←Yについても同様に用意した。No Causationについては、単に式(16)内の第二項を無視することによって用意した。
 この人工データの集合に対して、第1実施形態による分類装置を適用した場合の実験結果を図3に示す。図3において、Proposedは第1実施形態を用いて得られた分類ラベルの正答率を示す。RCC, GCVAR, GCGAM, GCKER及びTEは、それぞれ非特許文献5, 1, 2, 6及び7に開示された技術を用いて得られた分類ラベルの正答率を示す。
 以下、第1実施形態の実施結果を得るのに用いるパラメータの設定方法について述べる。
 訓練データの生成に用いるパラメータについては、変量間の関係が線形である2変量時系列データと、変量間の関係が非線形である2変量時系列データとをそれぞれ7500種類用意し、合計で15000種類用意し、各時系列データの長さが42になるようにした。
 特徴量の生成については、kX, kY, kZ, kDとしてガウシアンカーネルと呼ばれるカーネル関数を利用し、そのパラメータ値はmedian heuristicと呼ばれるヒューリスティックにより決定した(非特許文献8を参照されたい)。RFFで用いられるパラメータについては、nrff=100と設定した。
 分類器学習部28で利用される分類器としては、ランダムフォレストが利用され、ランダムフォレストの木の数を表すパラメータは、候補集合{100, 200, 500, 1000, 2000}の中から訓練データに対して交差検証法を適用することによって、最適な値が選択される。また、特徴量計算部26及び34において用いられる時系列の長さを表すパラメータWについては、W=12と設定した。
 図3に示される実施結果は、上述した各種パラメータの設定に基づき取得されている。図3において、GCVAR, GCGAM, GCKERGは回帰モデルを事前に設定しているため、時系列の長さによって回帰モデルの当てはまりに違いが生じることから、時系列の長さT'によって分類ラベルの正答率に有意な違いが生じるが、Proposedは時系列の長さにかかわらず、高い正答率を得ており、因果関係の推定精度の点で優位性を示していることがわかる。
 上述した実施形態によると、各テストデータについて分類に用いる特徴量が計算され、訓練データに基づき学習された3値分類器を用いて、計算された特徴量が分類され、テストデータに対応する分類ラベルが推定される。このようにして、回帰モデルの事前設定を必要とすることなく、与えられた時系列データに対する変量間の因果関係を推定することが可能である。
 以上、本発明の実施例について詳述したが、本発明は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
100 分類装置
10 入力部
20 学習部
30 推論部
40 出力部

Claims (7)

  1.  時系列データの因果関係に関する3つ以上に分類された分類ラベルの正解ラベルと前記正解ラベルに対応する時系列データとを入力とし、前記時系列データの特徴量を計算する特徴量計算部と、
     前記特徴量と前記正解ラベルとの組を用いて、前記特徴量に対する分類器の出力が前記正解ラベルの出力値の最大値となるよう前記分類器を学習する分類器学習部と、
    を有する因果関係学習装置。
  2.  前記分類器は、2変量の場合は分類ラベル毎の推定値を出力値とし、3変量以上の場合は分類ラベル毎の推定値の平均値を出力値とする、請求項1記載の因果関係学習装置。
  3.  前記特徴量計算部は、2変量の場合は、
    Figure JPOXMLDOC01-appb-M000001
    によって特徴量を計算し、3変量以上の場合は、
    Figure JPOXMLDOC01-appb-M000002
    によって特徴量を計算する、請求項1又は2記載の因果関係学習装置。
  4.  入力された時系列データの特徴量を計算する特徴量計算部と、
     請求項1又は2記載の因果関係学習装置における学習済みの分類器を利用して、分類ラベル毎の出力値又は出力値の最大値となる分類ラベルを正解ラベルとして出力するラベル推定部と、
    を有する因果関係推定装置。
  5.  プロセッサが、時系列データの因果関係に関する3つ以上に分類された分類ラベルの正解ラベルと前記正解ラベルに対応する時系列データとを入力とし、前記時系列データの特徴量を計算するステップと、
     前記プロセッサが、前記特徴量と前記正解ラベルとの組を用いて、前記特徴量に対する分類器の出力が前記正解ラベルの出力値の最大値となるよう前記分類器を学習するステップと、
    を有する因果関係学習方法。
  6.  プロセッサが、入力された時系列データの特徴量を計算するステップと、
     前記プロセッサが、請求項5記載の因果関係学習方法によって学習済みの分類器を利用して、分類ラベル毎の出力値又は出力値の最大値となる分類ラベルを正解ラベルとして出力するステップと、
    を有する因果関係推定方法。
  7.  請求項1乃至3何れか一項記載の因果関係学習装置又は請求項4記載の因果関係推定装置の各部としてプロセッサを機能させるプログラム。
PCT/JP2019/014236 2018-04-03 2019-03-29 因果関係学習装置、因果関係推定装置、因果関係学習方法、因果関係推定方法及びプログラム WO2019194105A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/044,783 US20210117840A1 (en) 2018-04-03 2019-03-29 Causation learning apparatus, causation estimation apparatus, causation learning method, causation estimation method and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-071917 2018-04-03
JP2018071917A JP7253324B2 (ja) 2018-04-03 2018-04-03 因果関係学習装置、因果関係推定装置、因果関係学習方法、因果関係推定方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2019194105A1 true WO2019194105A1 (ja) 2019-10-10

Family

ID=68100407

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/014236 WO2019194105A1 (ja) 2018-04-03 2019-03-29 因果関係学習装置、因果関係推定装置、因果関係学習方法、因果関係推定方法及びプログラム

Country Status (3)

Country Link
US (1) US20210117840A1 (ja)
JP (1) JP7253324B2 (ja)
WO (1) WO2019194105A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113746841A (zh) * 2021-09-03 2021-12-03 天津芯海创科技有限公司 一种具备智能学习能力的高安全异构冗余结构
CN115270992B (zh) * 2022-08-19 2023-04-18 牡丹江师范学院 新型的材料物理数据分类方法及系统
JP7400064B1 (ja) 2022-11-18 2023-12-18 エヌ・ティ・ティ・コミュニケーションズ株式会社 学習装置、学習方法及び学習プログラム
CN117407796B (zh) * 2023-12-15 2024-03-01 合肥工业大学 一种跨部件小样本故障诊断方法、系统和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6629682B2 (ja) 2016-06-24 2020-01-15 日本電信電話株式会社 学習装置、分類装置、分類確率計算装置、及びプログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHIKAHARA, Y. ET AL.: "A Supervised Learning Approach to Causal Inference for Bivariate Time Series", IEICE TECHNICAL REPORT, vol. 116, no. 121, 27 June 2016 (2016-06-27), pages 189 - 194, ISSN: 0913-5685 *
LOPEZ-PAZ, D. ET AL.: "Towards a Learning Theory of Cause-Effect Inference", PROCEEDINGS OF MACHINE LEARNING RESEARCH, vol. 37, 9 July 2015 (2015-07-09), pages 1452 - 1461, XP055643081, ISSN: 2640-3498, Retrieved from the Internet <URL:http://proceedings.mlr.press/v37/lopez-paz15.pdf> [retrieved on 20190425] *
SUN, X.: "Assessing Nonlinear Granger Causality from Multivariate Time Series", PROCEEDINGS OF ECML PKDD 2008, vol. 5212, 2008, pages 440 - 455, XP019105903, ISBN: 978-3-540-87480-5, Retrieved from the Internet <URL:https://doi.org/10.1007/978-3-540-87481-2_29> [retrieved on 20190425] *
ZHU, P. ET AL.: "Learning Nonlinear Generative Models of Time Series With a Kalman Filter in RKHS", IEEE TRANSACTIONS ON SIGNAL PROCESSING, vol. 62, 27 September 2013 (2013-09-27), pages 141 - 155, XP011533602, ISSN: 1053-587X, DOI: 10.1109/TSP.2013.2283842 *

Also Published As

Publication number Publication date
JP7253324B2 (ja) 2023-04-06
US20210117840A1 (en) 2021-04-22
JP2019185194A (ja) 2019-10-24

Similar Documents

Publication Publication Date Title
WO2019194105A1 (ja) 因果関係学習装置、因果関係推定装置、因果関係学習方法、因果関係推定方法及びプログラム
TWI631518B (zh) 具有一或多個計算裝置的電腦伺服系統及訓練事件分類器模型的電腦實作方法
Czado et al. Bayesian risk analysis
Kaur et al. An empirical study of software entropy based bug prediction using machine learning
Bucci Cholesky–ANN models for predicting multivariate realized volatility
US11694165B2 (en) Key-value memory network for predicting time-series metrics of target entities
AU2021353828B2 (en) System and method of operationalizing automated feature engineering
US20210042820A1 (en) Extending finite rank deep kernel learning to forecasting over long time horizons
CN111461862B (zh) 为业务数据确定目标特征的方法及装置
Chodchuangnirun et al. A regime switching for dynamic conditional correlation and GARCH: application to agricultural commodity prices and market risks
US20220101187A1 (en) Identifying and quantifying confounding bias based on expert knowledge
Popkov et al. Introduction to the Theory of Randomized Machine Learning
JP6629682B2 (ja) 学習装置、分類装置、分類確率計算装置、及びプログラム
Lin et al. PRNN: Piecewise recurrent neural networks for predicting the tendency of services invocation
US11669898B2 (en) System for estimating distance-to-default credit risk
Aditya Shastry et al. Regression Based Data Pre-processing Technique for Predicting Missing Values
US20230334362A1 (en) Self-adaptive multi-model approach in representation feature space for propensity to action
WO2023021690A1 (ja) モデル生成装置、モデル生成方法、プログラム
Billio et al. Bayesian inference in dynamic models with latent factors
Hu Stock Price Prediction Based on Multiple Linear Regression Model
Dokuchaev On statistical indistinguishability of complete and incomplete discrete time market models
Sabnis et al. A Literature Survey on Optimization and Validation of Software Reliability Using Machine Learning
Abimbola et al. Predicting the Trend of Dollar/Naira Exchange Rate Using Regression Model and Support Vector Machine
Bhatnagar et al. Estimating Blockchain Using Time-Series Forecasting ARIMA
Hainaut Estimation of Continuous Time Processes by Markov Chain Monte Carlo

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19782449

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19782449

Country of ref document: EP

Kind code of ref document: A1