WO2013069568A1

WO2013069568A1 - 時系列データ分析方法、システム及びコンピュータ・プログラム

Info

Publication number: WO2013069568A1
Application number: PCT/JP2012/078478
Authority: WO
Inventors: 将平比戸
Original assignee: インターナショナル・ビジネス・マシーンズ・コーポレーション; 日本アイ・ビー・エム株式会社
Priority date: 2011-11-08
Filing date: 2012-11-02
Publication date: 2013-05-16
Also published as: CN103930912A; US20130116991A1; US20130116992A1

Abstract

　多次元時系列予測問題において説明変数毎に異なるタイムラグとタイムウィンドウを効率的かつ正確に求める。　タイムラグとタイムウィンドウを決定するにあたり、説明変数時系列をそのまま正規化、最適化するのではなく、一旦、累積時系列に変換し、正規化、最適化することで、最適なタイムラグとタイムウィンドウを決定する。累積時系列に正規化項を導入することで、得られるモデルの複雑さを調整する。また、突出した二つの累積値（それらは互いに正負が逆）の重みを得ることで（そこまで正規化で単純化し）、それらからタイムラグとタイムウィンドウを求めることができる。

Description

時系列データ分析方法、システム及びコンピュータ・プログラム

　本発明は、時系列データの分析技術に関し、特に、時系列予測問題において各変数に適切なタイムラグとタイムウィンドウとを選択する技術に係る。

一般に、多次元時系列予測問題（回帰問題もクラス識別問題も含む）とは、D種類の説明変数時系列から、目的変数時系列の次の時刻の値を予測する問題である。具体例としては、例えば、様々な経済指標から株価を予測するもの、様々な気象データから気候変動や天候を予測するもの、様々なセンサデータから機械システムの故障を予測するもの等が挙げられる。このような多次元時系列予測問題を解く際に、各説明変数時系列に対して適切なタイムラグとタイムウィンドウを設定する必要がある。ここで、タイムラグLとは、あるオリジナル説明変数が目的変数に影響を与えるまでの時間遅れをいう。また、タイムウィンドウWは、あるオリジナル説明変数が目的変数に影響を与える期間の長さをいう。現実の対象システムは説明変数-目的変数間に複雑な因果性が存在する。すなわち、説明変数毎に異なる影響の大きさ、時間遅れ（＝タイムラグ）、影響幅（＝タイムウィンドウ）が存在する。例えば、日経平均に対しNYダウは即時（タイムラグが短い）かつ鋭敏（タイムウィンドウが短い）に影響するが、国内購買意欲低下は遅れて（タイムラグが長い）長く（タイムウィンドウが長い）影響する。

このような時系列予測問題に対して、従来から、統計的なアプローチが試みられている。統計学の分野では、一次元の場合はAR（自己回帰）モデルとして統計分野で長い研究の歴史があり、多次元の場合もVAR（ベクトル自己回帰）として研究されてきた。しかし、多次元の場合はモデルの良さを検定する手法が中心であり、数次元を超えると手法の信頼性が大きく低下する、という課題がある。その他に、機械学習のアプローチも試みられている。機械学習の分野では、タイムラグ・タイムウィンドウを考慮するためには滑走窓方式が主流である。そして、多くの場合は全ての説明変数を同一タイムラグ・タイムウィンドウで扱ってしまう。その結果、多様な影響の仕方をする説明変数が混在している場合（説明変数毎にタイムラグとタイムウィンドウが異なるような場合）には不適切となる。また、計算量削減のためにはラグかウィンドウを固定して片方を調節し、最適な組み合わせを見つけることが困難となる。さらに、関連する文献としては、以下の特許文献が挙げられる。

特開２００７－１８２１６号公報特開２００７－１９９８６２号公報

統計学のアプローチ、機械学習のアプローチのいずれも多次元時系列予測問題を効率的に、かつ正確に求めることは困難である。

本発明はこのような課題に鑑みてなされたものであり、その目的の一つは、多次元時系列予測問題において、説明変数毎に異なるタイムラグとタイムウィンドウを効率的、かつ正確に求めることで、より精度の高い予測モデルを構築することが可能な時系列データ解析方法、システム及びコンピュータ・プログラムを提供することにある。

　本発明を方法として把握すると、以下の通りとなる。すなわち、本発明は、コンピュータにより、説明変数時系列が目的変数時系列に影響を与えるまでの時間遅れであるタイムラグと、前記説明変数時系列が前記目的変数時系列に影響を与える時間であるタイムウィンドウとを選択する方法であり、前記説明変数時系列に基づいて、ある有限時間に対応する各時点からの各変数値の累積値で構成される累積値時系列に変換するステップと、前記累積値時系列を正規化項を導入した最適化問題として解き、得られた重みから前記タイムラグの値及び前記タイムウィンドウの値とを得るステップ
とを備える方法である。

　本発明をこれらコンピュータ・プログラム、コンピュータ・システムとして把握した場合にも、上述した本発明を方法として把握した場合と実質的に同一の技術的特徴を備える事ができるのは当然である。

　本発明によれば、多次元時系列予測問題において説明変数毎に異なるタイムラグとタイムウィンドウを効率的かつ正確に求めることができる。その結果、予測モデルの精度が向上する。

コンピュータ１の機能を示すブロック図コンピュータ１の動作を示すフローチャートオリジナル説明変数時系列と累積値系列とを説明する模式図真のモデルの係数と提案手法モデルの係数とを比較するものである提案手法モデルの係数と既存手法モデルの係数とを比較するものである提案手法モデルの係数と既存手法モデルの係数とを比較するものである提案手法と既存手法の予測エラー及びモデル構築時間を説明するものである

実施形態
図１は、本実施形態に係るコンピュータ１のハードウェア構成を示す機能ブロック図である。コンピュータ１のハードウェア構成は、（低速及び高速の）バス１０、バス１０に接続されるＣＰＵ（演算制御装置）１１、ＲＡＭ（ランダム・アクセス・メモリ：記憶装置）１２、ＲＯＭ（リード・オンリ・メモリ：記憶装置）１３、ＨＤＤ（ハード・ディスク・ドライブ：記憶装置）１４、通信インタフェース１５、入出力インタフェース１６を備えている。さらに、入出力インタフェース１６に接続されるマウス（ポインティング装置）１７、フラット・パネル・ディスプレイ（表示装置）１８、キーボード１９等を備えている。なお、コンピュータ１は一般的なパーソナル・コンピュータ・アーキテクチャを採用するものとして説明したが、例えば、より高いデータ処理能力や可用性を求めて、ＣＰＵ１１やＨＤＤ１４等を多重化することができる。また、デスクトップ型の他、ラップトップ型やタブレット型のパーソナル・コンピュータなど、様々なタイプのコンピュータ・システムを採用することができる。

　このコンピュータ１のソフトウェア構成は、基本的な機能を提供するオペレーティング・システム（ＯＳ）と、OSの機能を利用するアプリケーション・ソフトウェアと、入出力装置のドライバ・ソフトウェアとを備えている。これらの各ソフトウェアは、各種データと共にRAM１２上にロードされ、CPU１１等により実行され、コンピュータ１は全体として、図２に示す処理を実行する。

　図２は、このコンピュータ１が実行する処理を説明するフローチャートである。この処理は、大きく分けて、二つのステップから構成される。また、図３は、この処理の過程を模式的に示すものである。

次に、正則化の導入によって最適なラグとウィンドウ幅を同時に選択する（Ｓ２）。まず、D* (N+M)個の累積値系列説明変数と1つの目的関数からなる予測問題を、目的関数の最適化問題に帰着し、目的関数の中に正則化項を導入する（Ｓ２１）。ここで、正則化項には説明変数の重みをゼロに近づけ（スパース化）、モデル構築を安定化する効果がある。本実施形態では、必要無い変数の重みをゼロにする効果の大きいL1正則化項を導入する。具体的には、各説明変数ベクトルx_i、目的変数の値をy_i、モデルをβとした時に、モデルの出力をf(x_i, β)として、以下の目的関数を最小化するようなβを求めることが、最適化問題への帰着となる。これは予測誤差を最小にするモデルを求める、という意味である。
Σ(y_i - f(x_i, β))^2
そして、モデルが複雑化（この場合は非ゼロ成分の増加）を防ぐために正則化項（例えばL1正則化項）を入れると、目的関数が以下のようになる。なお、|β|をβの各要素の絶対値の和となっている。
Σ(y_i - f(x_i, β))^2 + λ|β|
次に、正則化パラメータを調節することにより、得られるモデルの複雑さを調節する（Ｓ２２）。ここで、予測に必要なオリジナル説明変数については数個の累積値系列説明変数の重みのみが非ゼロになると期待され、一方、予測に必要無いオリジナル説明変数については全ての重みがゼロになると期待される。
具体的には、上式において、λが正則化パラメータであり、その値（λ＞＝０）の大小を調整することにより、予測誤差とλ＊（|β|の非ゼロ要素の和）、の合計を最小化することができる。一般に、λを大きくすると予測誤差が上がる一方、|β|の非ゼロ要素の和が小さくなる（非ゼロ要素の数も大きさも減る）ことが知られている。
そして、重みが非ゼロの累積値系列説明変数が2個になるまでモデルの複雑さを調整し（Ｓ２３）、重みが非ゼロの累積値系列説明変数が2個になったとすると最適なLとWが同時に選択されていると解釈することができる（Ｓ２４）。なお、ここでは簡便のために、全ての説明変数について最適なタイムウィンドウとタイムラグが存在し、2個以上の非ゼロ累積値系列説明変数重みによって表現されうるという仮定を置いた。一方、現実のモデルにおいてはいかなるタイムウィンドウ・タイムラグにおいても予測に意味を持たないノイズ変数も存在し、それらの重みは全てゼロとなる。その場合は、図２のＳ２３において「重みが非ゼロの累積値系列説明変数が2個か、あるいは正則化パラメータを調節しても0個から変化しない」とすることにより、自然な拡張として組み込めることは自明である。

次に、正則化の導入によって最適なラグとウィンドウ幅を同時に選択する（Ｓ２）。まず、D*(N+M)個の累積値系列説明変数と1つの予測問題の最適化において正則化項を導入する（Ｓ２１）。ここで、正則化項には説明変数の重みをゼロに近づけ（スパース化）、モデル構築を安定化する効果がある。本実施形態では、必要無い変数の重みをゼロにする効果の大きいL1正則化項を導入する。次に、正則化パラメータを調節することにより、得られるモデルの複雑さを調節する（Ｓ２２）。ここで、予測に必要なオリジナル説明変数については数個の累積値系列説明変数の重みのみが非ゼロになると期待され、一方、予測に必要無いオリジナル説明変数については全ての重みがゼロになると期待される。さらに、重みが非ゼロの累積値系列説明変数が2個になるまでモデルの複雑さを調整し（Ｓ２３）、重みが非ゼロの累積値系列説明変数が2個になったとすると最適なLとWが同時に選択されていると解釈することができる（Ｓ２４）。

具体的には、重みが非ゼロの累積値系列説明変数c_t^g1とc_t^g2（g1<g2）が得られた場合、最適なL=g1、W=g2-g1である（図３（ａ）（ｂ）左側参照）。例えば、c_t^5（ギャップg=5）の重みが1.0、c_t^15（ギャップg=15）の重みが-1.0、N+M=20とする。これらの累積値系列を重み付きで足し合わせると、以下の値c'_tを得る。
c'_t = { x_(t-5) + x_(t-6) + ... + x_(t-20) } - { x_(t-15) +x_(t-16) + ... + x_(t-20) }
　 = { x_(t-5) + x_(t-6)+ ... + x_(t-14) }
これは、ラグL=5、ウィンドウ幅W=10の場合に等しく、この組み合わせが最適なものとして選択されていると解釈することができる。

このように多次元時系列問題を解くことにより、以下のようなメリットを挙げることができる。すなわち、異なるタイムラグと異なるタイムウィンドウの両方を単純に組み合わせてN*M種類の変換系列を各説明変数に対して用意する場合（D*M*N変数）と比べ、変換系列がD*(N+M)種類で済むため計算が効率化され、かつ求められるモデルが安定する。また、変数が多くなりすぎる、計算が不安定になるなどの理由で全説明変数が同じタイムラグ・同じタイムウィンドウに固定する場合に比べて表現力が高くなり、真のモデルに近い精度良いモデルが得られることが期待される。また、累積値系列変換のみだけではまだ多重共線性によるモデル計算の不安定化が残ってしまうことを正則化によってさらに緩和できる。また、正則化パラメータで正則化の効き具合を調節することで、予測に不要な変数の重みをゼロに抑えると同時に、累積値系列変数の重みにおける非ゼロ要素の割合を調節し、求める表現されるモデルの複雑さを変えることができる。

なお、ここでは、滑走窓方式で単一のラグとウィンドウ幅を選択する場合を考えたが、より複雑な時間的な影響の変動も累積系列変数に対する非ゼロ重みの数が3個以上となるように（Ｓ２３参照）正則化パラメータの調節する（Ｓ２２参照）ことにより表現可能である。例えば、c_t^5（ギャップg=5）の重みが2.0、c_t^10（ギャップg=10）の重みが-1.0、c_t^15（ギャップg=15）の重みが-1.0、N+M=20とする。これらの累積値系列を重み付きで足し合わせると、以下の値c'_tを得る。
c’_t = 2*{ x_(t-5) +... + x_(t-20) }
- { x_(t-10) +... + x_(t-20) }
- { x_(t-15) +... + x_(t-20) }
　 = { x_(t-5) +... +x_(t-9) } + { x_(t-5) +... + x_(t-14) }
= 2*{ x_(t-5) +... + x_(t-9) } + { x_(t-10)+... + x_(t-14) }
これは、ラグL=5、ウィンドウ幅W=10の場合に等しく、さらに、ウィンドウの前半は後半に比べて二倍の重みが付いていると解釈することができる。

　以下、図４乃至図７を用いて、本実施形態の効果を検証する実験の一例を説明する。

実験の設定　本実験の設定は以下の通りである。
１．オリジナル説明変数時系列：変数
x_a = sin(2x) + ε
x_b = cos(x) + ε
但し、（ε～N(0, 0.5^2)）
２．目的変数時系列：真のモデルで計算
真の回帰モデル：y = 1.3 * sw(x_a,5, 2) - 0.7 * sw(x_b, 2, 8) + ε
関数sw(x, l, w)：ラグl、ウィンドウwの滑走窓の移動平均
３．タイムラグとタイムウィンドウ幅の候補
ラグl = {0,1,2,3,4,5}
ウィンドウ幅w= {1,2,3,4,5,6,7,8,9,10}
４．手法
既存手法：
全ての候補ラグとウィンドウ幅の組合せに対して変換系列を計算
L1正則化付き線形回帰のLARS(Least-angle Regression)を適用
提案手法（実施形態）：
最大候補ラグ＋最大ウィンドウ幅に対して累積変換系列を計算
L1正則化付き線形回帰のLARS(Least-angle Regression)を適用
モデル選択：正則化パラメータはCp statistic最小を選択
訓練データ：50,000サンプル
５．評価方法
真のモデルと推定されたモデルの係数重みを比較
テストデータでの予測精度＆計算時間の削減効果を比較

　図４は、真のモデルのx_a係数、x_b係数と提案手法モデルのx_a係数、x_b係数とを比較するものである。x_a係数（図４（ａ）参照）、x_b係数（図４（ｂ）参照）ともに、提案手法モデルは真のモデルに近く、スパースであることが分かる。図５は、提案モデルのx_a係数（図５（ａ）参照）と既存モデルのx_a係数（図５（ｂ）参照）とを比較するものである。また、図６は、提案モデルのx_b係数（図６（ａ）参照）と既存モデルのx_b係数（図６（ｂ）参照）とを比較するものである。提案モデルではいずれの係数においても、スパースであるのに対し、既存モデルではいずれの係数においても多重共線性による過学習が生じ、不必要に多くの係数に大きな重みが付与されていることが分かる。

　図７は、訓練データ数を{50,100,200,300,400,500,1000}、テストデータ数：100　（ノイズのない真の回帰モデル：y= 1.3 * sw(x_a, 5, 2) - 0.7* sw(x_b, 2, 8)）としたときの、予測エラー（図７（ａ））とモデル構築時間（図７（ｂ））を示すものである。提案手法は、既存手法に比べて予測エラーの点でも、モデル構築時間の点でも優れていることが分かる。

1…パーソナル・コンピュータ（コンピュータ・システム）、
１１…ＣＰＵ（演算制御装置）、
１２…ＲＡＭ（ランダム・アクセス・メモリ：記憶装置）、
１３…ＲＯＭ（リード・オンリ・メモリ：記憶装置）、
１４…ＨＤＤ（ハード・ディスク・ドライブ：記憶装置）、
１７…マウス（ポインティング装置）、
１８…フラット・パネル・ディスプレイ、

Claims

　コンピュータにより、説明変数時系列が目的変数時系列に影響を与えるまでの時間遅れであるタイムラグと、前記説明変数時系列が前記目的変数時系列に影響を与える時間であるタイムウィンドウとを選択する方法であり、
前記説明変数時系列に基づいて、ある有限時間に対応する各時点からの各変数値の累積値で構成される累積値時系列に変換するステップと、
前記累積値時系列を正規化項を導入した最適化問題として解き、得られた重みから前記タイムラグの値及び前記タイムウィンドウの値とを得るステップ
とを備える方法。
　前記有限時間は、予め前記コンピュータに記憶されている請求項１に記載の方法。
　前記有限時間は、前記コンピュータに対してユーザが入力する請求項１に記載の方法。
　前記正規化項は、L1正則化項である請求項１に記載の方法。
　前記タイムラグの値及び前記タイムウィンドウの値とを得るステップは、
正則化パラメータを調節するステップを含む請求項１に記載の方法。
　前記正則化パラメータを調節するステップは、予測に必要なオリジナル説明変数については数個の累積値系列説明変数の重みのみが非ゼロになるまで継続される請求項５に記載の方法。
　前記正則化パラメータを調節するステップは、予測に必要なオリジナル説明変数については２個の累積値系列説明変数の重みのみが非ゼロになるまで継続される請求項５に記載の方法。
　前記２個の累積値系列説明変数は大きさが等しく、正負逆の関係にある請求項７に記載の方法。
　コンピュータに、請求項１乃至８の方法を実行させるコンピュータ・プログラム。
　説明変数時系列が目的変数時系列に影響を与えるまでの時間遅れであるタイムラグと、前記説明変数時系列が前記目的変数時系列に影響を与える時間であるタイムウィンドウとを選択するコンピュータであり、
前記説明変数時系列に基づいて、ある有限時間に対応する各時点からの各変数値の累積値で構成される累積値時系列に変換する手段と、
前記累積値時系列を正規化項を導入した最適化問題として解き、得られた重みから前記タイムラグの値及び前記タイムウィンドウの値とを得る手段
とを備えるコンピュータ。