WO2019194105A1

WO2019194105A1 - 因果関係学習装置、因果関係推定装置、因果関係学習方法、因果関係推定方法及びプログラム

Info

Publication number: WO2019194105A1
Application number: PCT/JP2019/014236
Authority: WO
Inventors: 鷹一近原; 昭典藤野
Original assignee: 日本電信電話株式会社
Priority date: 2018-04-03
Filing date: 2019-03-29
Publication date: 2019-10-10
Also published as: JP7253324B2; US20210117840A1; JP2019185194A

Abstract

従来技術による問題点を解決可能な回帰モデルの事前設定が不要な因果関係を推定するための技術が開示される。本発明の一態様は、時系列データの因果関係に関する3つ以上に分類された分類ラベルの正解ラベルと前記正解ラベルに対応する時系列データとを入力とし、前記時系列データの特徴量を計算する特徴量計算部と、前記特徴量と前記正解ラベルとの組を用いて、前記特徴量に対する分類器の出力が前記正解ラベルの出力値の最大値となるよう前記分類器を学習する分類器学習部と、を有する因果関係学習装置に関する。

Description

因果関係学習装置、因果関係推定装置、因果関係学習方法、因果関係推定方法及びプログラム

　本発明は、時系列データの因果関係の学習及び推定技術に関する。

　一般に、変量Xと変量Yとの間に原因と結果の関係があるとき、変量X, Yの間に因果関係があるという。時系列における因果関係の定義の1つとして、Granger因果性がある。Granger因果性では、変量Xの過去の値が変量Yの未来の値を予測する上で有用であれば、XはYの原因であるとして因果関係を定義する。

　Granger因果性を推定する技術では、変量間の依存関係が特定の回帰モデルに従うか否かに基づいて因果関係の有無を推定する。例えば、非特許文献1の技術では、VAR(Vector Auto-Regressive)モデルという回帰モデルを用いて、非特許文献2の技術では、GAM (Generalized Additive Model)という回帰モデルを用いて、Granger因果性を推定する。

特開2017-228256

C. W. Granger, "Investigating causal relations by econometric models and cross-spectral methods", Econometrica: Journal of the Econometric Society, pages 424-438, 1969. D. Bell, J. Kay, and J. Malley, "A non-parametric approach to non-linear causality testing", Economics Letters, 51(1): 718, 1996. Pingping Zhu, Badong Chen, and Jose C. Principe, "Learning nonlinear generative models of time series with a Kalman filter in RKHS", Signal Processing, IEEE Transactions on, 62(1): pages 141-155, 2014. Ali Rahimi and Benjamin Recht, "Random features for large-scale kernel machines", In NIPS, pages 1177-1184, 2007. David Lopez-Paz, Krikamol Muandet, Bernhard Schoelkopf, and Ilya Tolstikhin, "Towards a learning theory of cause-effect inference", In ICML, JMLR, 2015. D. Marinazzo, M. Pellicor, and S. Stra-maglia, "Kernel-Granger causality and the analysis of dynamical networks", Physical Review E, 77(5): 056215, 2008. T. Schreiber, "Measuring information transfer", Physical review letters, 85(2): 461, 2000. B. Scholkopf and A. J. Smola, "Learning with kernels: support vector machines, regularization, optimization, and beyond, MIT press, 2001.

　しかしながら、このような技術を用いてGranger因果性を正しく推定するためには、与えられた時系列データを上手くフィッティングできるような回帰モデルを選択する必要がある。適切な回帰モデルを選択するためには、回帰手法に関する専門知識を要するため、このような技術を用いてGranger因果性を正しく推定することは容易でない。

　非特許文献1及び2の技術では、VARモデル及びGAMという回帰モデルを利用しているため、これらの回帰モデルが上手くフィッティングできるような時系列データでなければ、正しくGranger因果性を推定することはできない。このため、Granger因果性を推定する技術領域において、このような回帰モデルの事前設定を不要とする因果関係の推定技術が必要とされる。

　一方、特許文献1では、回帰モデルの事前設定が不要な2変量時系列に関する因果関係の推定技術が開示されている。当該技術は、回帰モデルでなく、分類装置を学習することによって時系列の因果関係を推定するアプローチによるものである。

　しかしながら、当該技術によると、(i)なぜ、分類装置によって時系列の因果関係を正しく推定することができるのか、その動作原理が不明瞭である点、(ii)2変量に関する時系列データのみに適用される技術であり、変量数が3以上の場合には適用できない点、(iii)2値分類器を学習するため、変量間の因果関係の方向・有無を同時に推定できない点、などのいくつかの問題点がある。

　本発明の課題は、従来技術による問題点を解決可能な回帰モデルの事前設定が不要な因果関係を推定するための技術を提供することである。

　上記課題を解決するため、本発明の一態様は、時系列データの因果関係に関する3つ以上に分類された分類ラベルの正解ラベルと前記正解ラベルに対応する時系列データとを入力とし、前記時系列データの特徴量を計算する特徴量計算部と、前記特徴量と前記正解ラベルとの組を用いて、前記特徴量に対する分類器の出力が前記正解ラベルの出力値の最大値となるよう前記分類器を学習する分類器学習部と、を有する因果関係学習装置に関する。

　本発明によると、従来技術による問題点を解消可能な回帰モデルの事前設定が不要な因果関係を推定するための技術を提供することができる。

本発明の一実施例による3値分類装置の機能的構成を示すブロック図である。本発明の一実施例による特徴量計算処理を示すフローチャートである。第1の実施形態による2値分類装置の実験結果を示す図である。

　以下の実施例では、2変量以上の時系列データの因果関係を学習及び推定する分類学習装置及び分類推定装置が開示される。後述される実施例による分類学習装置及び分類推定装置は、回帰モデルの事前設定を必要とすることなく時系列データの因果関係を学習及び推定可能である。また、当該分類学習装置及び分類推定装置は、従来の因果関係推定技術と比較して、その動作原理が明らかな形で構築されるため、Granger因果性の定義に即して分類の特徴量を計算し、また、多変量に関する時系列データに適用可能であり、さらに、因果関係の有無・方向を同時に推定するために3値分類器を学習することによって実現される。

　具体的には、以下の実施例では、3つの実施形態による時系列データの因果関係の分類学習装置が開示される。第1の実施形態による分類学習装置は、2変量X, Yに関する時系列データ（以下、2変量時系列データとして参照する）に対して適用される。第2の実施形態による分類学習装置は、2変量X, Y以外の第三の変量Zを含む時系列データ（以下、3変量時系列データとして参照する）に対して適用される。第3の実施形態による分類学習装置は、n変量（n>3）に関する時系列データに対して適用される。

　上述した何れの分類学習装置も、(i)因果関係がX→Y（すなわち、変量Xが変量Yの原因である）として表される時系列データであるか、(ii)因果関係がX←Y（すなわち、変量Yが変量Xの原因である）として表される時系列データであるか、あるいは、(iii)因果関係がNo Causation（すなわち、変量X, Yの間に因果関係がない）として表される時系列データであるか、が既知である時系列データ（以下、訓練データとして参照する）を用いて3値(X→Y, X←Y及び因果関係なし)分類器を学習し、因果関係が未知の時系列データ（以下、テストデータとして参照する）のラベルを予測する。

　図1を参照して、本発明の一実施例による3値分類装置を説明する。本実施例による3値分類装置は、データベースに含まれる2つの変量X, Yに関する連続値の時系列データに対して、訓練データを用いて分類器を学習し、テストデータに対して分類ラベルを割当て、変量X, Yの間の因果関係を推定する。例えば、円ドルの為替レートに関する時系列(X)と特定の企業の株価に関する時系列(Y)とから構成される2変量時系列データからなる分類ラベルなしのサンプルが与えられたとする。このとき、まず変量間の因果関係が既知である2変量時系列データの集合を人工的に生成するなどによって訓練データを用意し、当該訓練データを利用して分類器を学習させる。その後、学習済みの分類器を利用して、テストデータに対する分類ラベルを予測し、2つの変量X, Yの間の因果関係が(i) X→Y（すなわち、為替レートが原因で企業の株価が結果である）、(ii) X←Y（すなわち、企業の株価が原因で為替レートが結果である）、又は(iii)因果関係なし、の何れであるか、すなわち、因果関係の有無・方向を推定する。

　第1実施形態による3値分類装置では、変量X, Yの間の因果関係が未知である変量X, Yに関する2変量時系列データ（テストデータ）の分類ラベルを割り当てるため、因果関係がX→Yとして表される2変量時系列データ、因果関係がX←Yとして表される2変量時系列データ、及び因果関係がNo Causationとして表される2変量時系列データから構成される訓練データを用いて分類器を学習する。

　第2実施形態による3値分類装置では、変量X, Yの間の因果関係が未知である変量X, Y, Zに関する3変量時系列データ（テストデータ）の分類ラベルを割り当てるため、因果関係がX→Yとして表される3変量時系列データ、因果関係がX←Yとして表される3変量時系列データ、及び因果関係がNo Causationとして表される3変量時系列データから構成される訓練データを用いて分類器を学習する。

　第3実施形態による3値分類装置では、変量X, Yの間の因果関係が未知である変量X, Y, Z_v (v=1, ..., n-2; ただし、n>3)に関するn変量時系列データ（テストデータ）の分類ラベルを割り当てるため、第2の実施形態で学習した分類器を利用して、テストデータにおける各変量の3つ組（X, Y, Z_v）に対して、因果関係がX→Yである確率、因果関係がX←Yである確率、及び因果関係がNo Causationである確率をそれぞれ計算し、vに関して分類確率の平均値をとることで分類ラベルを割り当てる。

　第1～3実施形態による3値分類装置は何れも、因果関係が未知であるテストデータに対して推定された分類ラベルを出力する。また、第1～3実施形態による3値分類確率計算装置は何れも、因果関係が未知である分類ラベルなしのサンプルに対して、分類ラベルの推定確率（3値分類確率）を出力する。

　なお、第1～3実施形態による3値分類装置及び3値分類確率計算装置は、典型的には、サーバなどの計算装置により実現されてもよく、例えば、バスを介し相互接続されるドライブ装置、補助記憶装置、メモリ装置、プロセッサ、インタフェース装置及び通信装置から構成されてもよい。第1～3実施形態による3値分類装置及び3値分類確率計算装置における各種機能及び処理を実現するプログラムを含む各種コンピュータプログラムは、ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｋ－Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｋ）、フラッシュメモリなどの記録媒体によって提供されてもよい。プログラムを記憶した記録媒体がドライブ装置にセットされると、プログラムが記録媒体からドライブ装置を介して補助記憶装置にインストールされる。但し、プログラムのインストールは必ずしも記録媒体により行う必要はなく、ネットワークなどを介し何れかの外部装置からダウンロードするようにしてもよい。補助記憶装置は、インストールされたプログラムを格納すると共に、必要なファイルやデータなどを格納する。メモリ装置は、プログラムの起動指示があった場合に、補助記憶装置からプログラムやデータを読み出して格納する。プロセッサは、メモリ装置に格納されたプログラムやプログラムを実行するのに必要なパラメータなどの各種データに従って、後述される第1～3実施形態による3値分類装置及び3値分類確率計算装置の各種機能及び処理を実行する。インタフェース装置は、ネットワーク又は外部装置に接続するための通信インタフェースとして用いられる。通信装置は、インターネットなどのネットワークと通信するための各種通信処理を実行する。

　しかしながら、第1～3実施形態による3値分類装置及び3値分類確率計算装置は、上述したハードウェア構成に限定されるものでなく、他の何れか適切なハードウェア構成により実現されてもよい。
［第1実施形態による3値分類装置］
　まず、3値分類装置について説明する。図1は、本発明の一実施例による3値分類装置の機能的構成を示すブロック図である。なお、上述した第1～3実施形態による3値分類装置及び3値分類確率計算装置は何れも、後述されるように、各構成要素の処理内容に相違はあるが、図示された機能的構成を備えるよう構成される。

　図1に示されるように、3値分類装置100は、入力部10、学習部20、推論部30及び出力部90を有する。

　入力部10は、訓練データ、テストデータ、特徴量計算に用いられるパラメータなどの各種データを受け付ける。図示される実施例では、入力部10は、第1入力部12及び第2入力部14を有する。第1入力部12は、特徴量計算部26に用いられるパラメータ及び／又は訓練データを受け付ける。訓練データは、訓練データデータベース（DB）24に格納される。第2入力部14は、特徴量計算部34に用いられるパラメータ及び／又はテストデータを受け付ける。テストデータは、テストデータデータベース（DB）32に格納される。

　学習部20は、時系列データを3値分類する分類器を学習する。図示される実施例では、学習部20は、以下で詳細に説明される訓練データ生成部22、訓練データDB24、特徴量計算部26及び分類器学習部28を有する。

　推論部30は、学習済みの分類器を用いてテストデータを3値分類する。図示される実施例では、推論部30は、以下で詳細に説明されるテストデータDB32、特徴量計算部34及びラベル推定部36を有する。

　出力部90は、推論部30の推論結果を出力する。すなわち、出力部90は、分類ラベルが未知のテストデータに対して推定された分類ラベルを出力する。

　訓練データ生成部22は、第1入力部12において訓練データが入力されなかった場合、あるいは、訓練データDB24に格納されている訓練データが不足している場合、因果関係を表す分類ラベルが既知である2変量時系列データを訓練データとして生成する。

　一実施例では、訓練データ生成部22は、以下のようにして、2変量間の関係が線形関数として表される2変量時系列データ（以下、線形時系列データとして参照する）と、2変量間の関係が非線形関数として表される2変量時系列データ（以下、非線形時系列データとして参照する）とを含む訓練データを生成する。

　まず、訓練データ生成部22は、以下のVARモデルから線形時系列データを生成する。

ここで、τ=1, ..., P (P∈{1, 2, 3})、ノイズ

は標準正規分布N(0, 1)からサンプリングされる。

　因果関係X→Yの時系列データを取得するため、係数行列を以下のように与える。

ここで、係数a_τ, d_τは一様分布U(-1, 1)からサンプリングされ、係数c_τは{-1, 1}からランダムに与えられる。

　また、因果関係X←Yの時系列データは、

の係数行列を与えることによって生成される。

　さらに、因果関係No Causationの時系列データは、

の係数行列を与えることによって生成される。

　一方、訓練データ生成部22は、VARモデルと標準シグモイド関数g(x)=1/(1+exp(-x))を用いて、以下のモデルから非線形時系列データを生成する。

ここで、τ、ノイズ

及び係数行列A_τは、上述した線形時系列データと同様にして与えられる。

　そして、訓練データ生成部22は、生成した各時系列データを平均0及び分散1になるよう正規化する。このようにして、訓練データ生成部22は、因果関係を表す分類ラベルが既知である2変量時系列データを訓練データとして生成し、生成した訓練データを訓練データDB24に格納する。

　特徴量計算部26及び34はそれぞれ、訓練データ及びテストデータに対して、図2に示される処理フローに従って特徴量を計算する。本実施形態では、以下に限定することなく、各訓練データ及び各テストデータに対する分類の特徴量は、2つのカーネル平均と呼ばれる統計量の間で定義される距離（以下、MMDとして参照する）の推定値を用いて取得される。具体的には、特徴量計算部26及び34は、非特許文献3に開示されるKernel Kalman Filter based on Conditional Embedding Operator（以下、KKF-CEOとして参照する）に基づきMMDの推定値を取得可能である。

　S_Xを変量Xの観測値の集合{x₁, ..., x_t}とし、S_Yを変量Yの観測値の集合{y₁, ..., y_t}とする（t>4）。KKF-CEOを利用して、これらの観測値に基づき、以下の2つのカーネル平均を推定できる。

　ここで、Φ_Xは、正定値カーネルk_Xが定義する特徴写像と呼ばれる関数

であり、

はそれぞれ実数値の重みベクトルである。

　重みベクトルw^XY, w^Xを計算するには、上述したKKF-CEOを利用することによって実現可能である。なお、非特許文献3に開示されるKKF-CEOでは、1変数時系列の観測S_Xに対してカーネル平均

を推定するために、重みベクトルw^Xを計算する技術を提案している。重みベクトルw^XYに関しては積カーネルk_X・k_Yを用いて、KKF-CEOを利用することによって計算できる。

　式(1)及び(2)によって得られるカーネル平均を用いてMMDを計算すると、

として得られる。

　同様にして、2つのカーネル平均

に対してMMDを計算すると、

として得られる。ただし、Φ_Yは、正定値カーネルk_Yが定義する特徴写像と呼ばれる関数

であり、

は実数値の重みベクトルであり、同様にして、KKF-CEOによって推定可能である。

　長さTの2変量時系列の観測値

に対して分類の特徴量を計算するため、MMDのペア

を以下のように用いる。

　1. 系列長W（W<T）の時系列

に基づいて、式(3)及び(6)を用いることによって時刻tにおけるMMDのペアd_tを得る。

　2. 上記の1を時刻t=W,...,Tについて処理することによってMMDのペアの系列{d_W, ..., d_T}を得る。

　3．当該MMDのペアの系列を次のように用いることによって、時系列Sに対する分類の特徴量を得る。

ただし、Φ_Dは、正定値カーネルk_Dに対する特徴写像

である。

　ここで、式(7)において、カーネルk_Dとしてガウシアンカーネルと呼ばれる関数を利用してΦ_Dを近似計算するため、非特許文献4に開示されるRandom Fourier Features（以下、RFFとして参照される）が利用可能である。

　特徴量計算部26及び34は、図2に示されるようなフローに従って訓練データ及びテストデータに対して上述した具体的な演算を実行する。

　まず、ステップS101において、特徴量計算部26及び34は、訓練データDB24及びテストデータDB32からそれぞれ訓練データ及びテストデータを読み込む。

　ステップS102において、特徴量計算部26及び34は、読み込んだ時系列データに対して、上述したようにKKF-CEOを利用して重みベクトルを計算する。

　ステップS103において、特徴量計算部26及び34は、計算した重みベクトルを利用して、上述した式(1), (2), (4)及び(5)に従ってカーネル平均を計算する。

　ステップS104において、特徴量計算部26及び34は、計算したカーネル平均を利用して、上述した式(3)及び(6)に従ってMMDのペアを計算する。

　ステップS105において、特徴量計算部26及び34は、時刻t=W, ..., Tに対してステップS101～S104を繰り返すことによって、MMDのペアの系列を得る。

　ステップS106において、特徴量計算部26及び34は、取得したMMDのペアの系列を利用して、上述した式(7)に従って特徴量を計算する。

　分類器学習部28は、特徴量計算部26から取得した訓練データに対する特徴量と分類ラベル（以下、ラベル有り特徴量として参照する）に基づき分類器を学習し、学習済みの分類器をラベル推定部36に提供する。

　ラベル推定部36は、学習済みの分類器を利用して、特徴量計算部34から取得したテストデータに対する特徴量に基づき当該テストデータの分類ラベルを推定し、出力部90に提供する。
［第1実施形態による3値分類確率計算装置］
　次に、第1実施形態による3値分類確率計算装置について説明する。なお、本実施形態による3値分類確率計算装置は、出力部90を除き、上述した3値分類装置と同様の構成を備え、同様の構成要素については重複を避けるため説明を省く。

　本実施形態による3値分類確率計算装置では、出力部90は、ラベル推定部36が推定した分類ラベルの値でなく、ラベル推定部36が推定した分類ラベルの値（X→Y, X←Y, No Causation）を決定する際に用いられる、分類ラベルがX→Yである確率、分類ラベルがX←Yである確率、及び分類ラベルがNo Causationである確率を出力する。
［第2実施形態による3値分類装置］
　次に、第2実施形態による3値分類装置について説明する。なお、本実施形態による3値分類装置は、入力部10、訓練データ生成部22及び特徴量計算部26, 34を除き、第1実施形態による3値分類装置と同様の構成を備え、同様の構成要素については重複を避けるため説明を省く。

　本実施形態による入力部10は、3変量時系列データを訓練データ及びテストデータとして受け付ける。

　訓練データ生成部22は、第1入力部12において訓練データが入力されなかった場合、あるいは、訓練データDB24に格納されている訓練データが不足している場合、因果関係を表す分類ラベルが既知である3変量時系列データを訓練データとして生成する。第1実施形態では、2変量時系列データが訓練データとして生成されるが、本実施形態では、3変量時系列データが訓練データとして生成される。各種生成手法が可能であるが、第1実施形態と同様に、本実施形態による訓練データ生成部22は、線形時系列データ及び非線形時系列データを3変量時系列データとして生成する。具体的な生成処理は、第1実施形態による訓練データ生成部22の生成原理を単に3変量に拡張するだけであり、その具体的詳細について説明を省く。

　特徴量計算部26及び34は、後述されるようにして訓練データ及びテストデータに対して特徴量を計算する。第1実施形態では、MMDのペアを用いて特徴量が計算されたが、本実施形態では、MMDの4つ組を用いて特徴量が計算される。

　S_Xを変量Xの観測値の集合{x₁, ..., x_t}とし、S_Yを変量Yの観測値の集合{y₁, ..., y_t}とし、S_Zを変量Zの観測値の集合とする（t>4）。KKF-CEOを利用して、これらの観測値に基づき、以下の2つのカーネル平均を推定できる。

であり、

はそれぞれ実数値の重みベクトルである。

　重みベクトルw^XYZ, w^XZを計算するには、上述したKKF-CEOを利用することによって実現可能である。重みベクトルw^XYに関しては積カーネルk_X・k_Yを用いて、KKF-CEOを利用することによって計算できる。

　式(8)及び(9)によって得られるカーネル平均を用いてMMDを計算すると、

として得られる。

　同様にして、2つのカーネル平均

に対してMMDを計算すると、

であり、

　長さTの3変量時系列の観測値

に対して分類の特徴量を計算するため、MMDの4つ組

を以下のように用いる。

　1. 系列長W（W<T）の時系列

に基づいて、式(3), (6), (10)及び(13)を用いることによって時刻tにおけるMMDの4つ組d_tを得る。

　2. 上記の1を時刻t=W,...,Tについて処理することによってMMDの4つ組の系列{d_W, ..., d_T}を得る。

　3．当該MMDの4つ組の系列を次のように用いることによって、時系列Sに対する分類の特徴量を得る。

ただし、Φ_Dは、正定値カーネルk_Dに対する特徴写像

である。

　ここで、式(14)において、Φ_Dを近似計算するため、非特許文献4に開示されるRFFが利用可能である。
［第2実施形態による3値分類確率計算装置］
　次に、第2実施形態による3値分類確率計算装置について説明する。なお、本実施形態による3値分類確率計算装置は、出力部90を除き、上述した3値分類装置と同様の構成を備え、同様の構成要素については重複を避けるため説明を省く。

　本実施形態による3値分類確率計算装置では、出力部90は、ラベル推定部36が推定した分類ラベルの値でなく、ラベル推定部36が推定した分類ラベルの値（X→Y, X←Y, No Causation）を決定する際に用いられる、分類ラベルがX→Yである確率、分類ラベルがX←Yである確率、及び分類ラベルがNo Causationである確率を出力する。
［第3実施形態による3値分類装置］
　次に、第3実施形態による3値分類装置について説明する。なお、本実施形態による3値分類装置は、第2入力部14、特徴量計算部34及びラベル推定部36を除き、第2実施形態による3値分類装置と同様の構成を備え、同様の構成要素については重複を避けるため説明を省く。

　本実施形態による第2入力部14は、n変量X, Y, Z₁, ..., Z_n-2に関する時系列データ（n>3）を受け付ける。

　また、本実施形態による特徴量計算部34は、各変量の3つ組X, Y, Z_v (v∈{1, ..., n-2})に関する時系列データに対して、式(14)を用いて特徴量を計算する。

　さらに、本実施形態によるラベル推定部36は、分類器学習部26により学習済みの分類器を利用して、特徴量計算部34により取得された各特徴量に対して、分類ラベルがX→Yである確率、分類ラベルがX←Yである確率、及び分類ラベルがNo Causationである確率を計算し、その平均値を計算することによって、変量X, Yの間の因果関係がX→Yである確率、X←Yである確率、及びNo Causationである確率を計算する。そして、ラベル推定部36は、取得した3つの分類ラベルの確率値の平均値のうち最大となる分類ラベルを推定された分類ラベルとして出力する。
［第3実施形態による3値分類確率計算装置］
　次に、第3実施形態による3値分類確率計算装置について説明する。なお、本実施形態による3値分類確率計算装置は、出力部90を除き、上述した3値分類装置と同様の構成を備え、同様の構成要素については重複を避けるため説明を省く。

　本実施形態による3値分類確率計算装置では、出力部90は、ラベル推定部36が推定した分類ラベルの値でなく、ラベル推定部36が推定した分類ラベルの値（X→Y, X←Y, No Causation）を決定する際に用いられる、分類ラベルがX→Yである確率の平均値、分類ラベルがX←Yである確率の平均値、及び分類ラベルがNo Causationである確率の平均値を出力する。
［実験例］
　人工的に生成されたデータの集合を用意し、第1実施形態による分類装置を用いて実験を行った。テストデータは、300個のペアの非線形時系列データからなるデータセットを3種類用意し、データセット内の時系列の長さはそれぞれT'=50, 100, 250とした。ここで、因果関係がX→Y, X←Y及びNo Causationの時系列データの個数はそれぞれ100個のペアとなるよう用意した。

　因果関係がX→Yの非線形時系列データは、次のように生成した。

ここで、

は、それぞれ標準正規分布N(0, 1)により与えられる。X←Yについても同様に用意した。No Causationについては、単に式(16)内の第二項を無視することによって用意した。

　この人工データの集合に対して、第1実施形態による分類装置を適用した場合の実験結果を図3に示す。図3において、Proposedは第1実施形態を用いて得られた分類ラベルの正答率を示す。RCC, GC_VAR, GC_GAM, GC_KER及びTEは、それぞれ非特許文献5, 1, 2, 6及び7に開示された技術を用いて得られた分類ラベルの正答率を示す。

　以下、第1実施形態の実施結果を得るのに用いるパラメータの設定方法について述べる。

　訓練データの生成に用いるパラメータについては、変量間の関係が線形である2変量時系列データと、変量間の関係が非線形である2変量時系列データとをそれぞれ7500種類用意し、合計で15000種類用意し、各時系列データの長さが42になるようにした。

　特徴量の生成については、k_X, k_Y, k_Z, k_Dとしてガウシアンカーネルと呼ばれるカーネル関数を利用し、そのパラメータ値はmedian heuristicと呼ばれるヒューリスティックにより決定した（非特許文献8を参照されたい）。RFFで用いられるパラメータについては、n_rff=100と設定した。

　分類器学習部28で利用される分類器としては、ランダムフォレストが利用され、ランダムフォレストの木の数を表すパラメータは、候補集合{100, 200, 500, 1000, 2000}の中から訓練データに対して交差検証法を適用することによって、最適な値が選択される。また、特徴量計算部26及び34において用いられる時系列の長さを表すパラメータWについては、W=12と設定した。

　図3に示される実施結果は、上述した各種パラメータの設定に基づき取得されている。図3において、GC_VAR, GC_GAM, GC_KERGは回帰モデルを事前に設定しているため、時系列の長さによって回帰モデルの当てはまりに違いが生じることから、時系列の長さT'によって分類ラベルの正答率に有意な違いが生じるが、Proposedは時系列の長さにかかわらず、高い正答率を得ており、因果関係の推定精度の点で優位性を示していることがわかる。

　上述した実施形態によると、各テストデータについて分類に用いる特徴量が計算され、訓練データに基づき学習された3値分類器を用いて、計算された特徴量が分類され、テストデータに対応する分類ラベルが推定される。このようにして、回帰モデルの事前設定を必要とすることなく、与えられた時系列データに対する変量間の因果関係を推定することが可能である。

　以上、本発明の実施例について詳述したが、本発明は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１００　分類装置
１０　入力部
２０　学習部
３０　推論部
４０　出力部

Claims

　時系列データの因果関係に関する3つ以上に分類された分類ラベルの正解ラベルと前記正解ラベルに対応する時系列データとを入力とし、前記時系列データの特徴量を計算する特徴量計算部と、
　前記特徴量と前記正解ラベルとの組を用いて、前記特徴量に対する分類器の出力が前記正解ラベルの出力値の最大値となるよう前記分類器を学習する分類器学習部と、
を有する因果関係学習装置。
　前記分類器は、2変量の場合は分類ラベル毎の推定値を出力値とし、3変量以上の場合は分類ラベル毎の推定値の平均値を出力値とする、請求項１記載の因果関係学習装置。
　前記特徴量計算部は、2変量の場合は、

によって特徴量を計算し、3変量以上の場合は、

によって特徴量を計算する、請求項１又は２記載の因果関係学習装置。
　入力された時系列データの特徴量を計算する特徴量計算部と、
　請求項１又は２記載の因果関係学習装置における学習済みの分類器を利用して、分類ラベル毎の出力値又は出力値の最大値となる分類ラベルを正解ラベルとして出力するラベル推定部と、
を有する因果関係推定装置。
　プロセッサが、時系列データの因果関係に関する3つ以上に分類された分類ラベルの正解ラベルと前記正解ラベルに対応する時系列データとを入力とし、前記時系列データの特徴量を計算するステップと、
　前記プロセッサが、前記特徴量と前記正解ラベルとの組を用いて、前記特徴量に対する分類器の出力が前記正解ラベルの出力値の最大値となるよう前記分類器を学習するステップと、
を有する因果関係学習方法。
　プロセッサが、入力された時系列データの特徴量を計算するステップと、
　前記プロセッサが、請求項５記載の因果関係学習方法によって学習済みの分類器を利用して、分類ラベル毎の出力値又は出力値の最大値となる分類ラベルを正解ラベルとして出力するステップと、
を有する因果関係推定方法。
　請求項１乃至３何れか一項記載の因果関係学習装置又は請求項４記載の因果関係推定装置の各部としてプロセッサを機能させるプログラム。