WO2013069568A1 - 時系列データ分析方法、システム及びコンピュータ・プログラム - Google Patents
時系列データ分析方法、システム及びコンピュータ・プログラム Download PDFInfo
- Publication number
- WO2013069568A1 WO2013069568A1 PCT/JP2012/078478 JP2012078478W WO2013069568A1 WO 2013069568 A1 WO2013069568 A1 WO 2013069568A1 JP 2012078478 W JP2012078478 W JP 2012078478W WO 2013069568 A1 WO2013069568 A1 WO 2013069568A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- time
- series
- time series
- value
- explanatory
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Definitions
- the present invention relates to a technique for analyzing time series data, and more particularly to a technique for selecting an appropriate time lag and time window for each variable in a time series prediction problem.
- a multidimensional time series prediction problem (including a regression problem and a class identification problem) is a problem of predicting a value at the next time of an objective variable time series from D types of explanatory variable time series. Specific examples include those that predict stock prices from various economic indicators, those that predict climate change and weather from various weather data, and those that predict mechanical system failures from various sensor data.
- the time lag L refers to a time delay until an original explanatory variable affects the objective variable.
- the time window W refers to the length of a period during which an original explanatory variable affects the objective variable.
- the NY Dow affects the Nikkei average immediately (short time lag) and sensitive (short time window), but the decline in domestic purchasing motivation is delayed (long time lag) and long (long time window).
- the one-dimensional case has a long history in the statistical field as an AR (autoregressive) model, and the multidimensional case has also been studied as a VAR (vector autoregressive).
- AR autoregressive
- VAR vector autoregressive
- the method of examining the goodness of the model is the center, and the reliability of the method greatly decreases when the number of dimensions is exceeded.
- Other machine learning approaches are also being attempted.
- the sliding window method is the mainstream in order to consider time lag and time window. In many cases, all explanatory variables are handled with the same time lag and time window.
- the present invention has been made in view of such problems, and one of its purposes is to efficiently and accurately obtain different time lags and time windows for each explanatory variable in a multidimensional time series prediction problem.
- Another object of the present invention is to provide a time series data analysis method, system and computer program capable of constructing a prediction model with higher accuracy.
- the present invention When the present invention is grasped as a method, it is as follows. That is, the present invention provides a time lag that is a time delay until the explanatory variable time series affects the objective variable time series by the computer, and a time that is the time that the explanatory variable time series affects the objective variable time series.
- a method of selecting a window the step of converting into a cumulative value time series composed of cumulative values of variable values from each time point corresponding to a certain finite time based on the explanatory variable time series, and the cumulative Solving a value time series as an optimization problem introducing a normalization term, and obtaining the value of the time lag and the value of the time window from the obtained weights.
- the present invention it is possible to efficiently and accurately obtain different time lags and time windows for each explanatory variable in a multidimensional time series prediction problem. As a result, the accuracy of the prediction model is improved.
- Block diagram showing functions of computer 1 A flowchart showing the operation of the computer 1 Schematic diagram explaining original explanatory variable time series and cumulative value series Compares the coefficient of the true model with the coefficient of the proposed method model Compares the coefficient of the proposed method model with the coefficient of the existing method model Compares the coefficient of the proposed method model with the coefficient of the existing method model It explains the prediction error and model construction time of the proposed method and existing method
- FIG. 1 is a functional block diagram showing a hardware configuration of a computer 1 according to this embodiment.
- the hardware configuration of the computer 1 includes a (low-speed and high-speed) bus 10, a CPU (arithmetic control device) 11 connected to the bus 10, a RAM (random access memory: storage device) 12, a ROM (read-only memory).
- a memory (storage device) 13, an HDD (hard disk drive: storage device) 14, a communication interface 15, and an input / output interface 16 are provided.
- a mouse (pointing device) 17 connected to the input / output interface 16, a flat panel display (display device) 18, a keyboard 19 and the like are provided.
- the computer 1 has been described as adopting a general personal computer architecture, for example, the CPU 11 and the HDD 14 can be multiplexed in order to obtain higher data processing capability and availability.
- various types of computer systems such as a laptop type and a tablet type personal computer can be employed.
- the software configuration of the computer 1 includes an operating system (OS) that provides basic functions, application software that uses the functions of the OS, and driver software for input / output devices. These pieces of software are loaded onto the RAM 12 together with various data and executed by the CPU 11 or the like, and the computer 1 executes the processing shown in FIG. 2 as a whole.
- OS operating system
- driver software driver software for input / output devices.
- FIG. 2 is a flowchart for explaining processing executed by the computer 1. This process is roughly divided into two steps.
- FIG. 3 schematically shows the process.
- the optimum lag and window width are simultaneously selected by introducing regularization (S2).
- a prediction problem consisting of D * (N + M) cumulative value series explanatory variables and one objective function is reduced to an objective function optimization problem, and a regularization term is introduced into the objective function (S21).
- the regularization term has the effect of stabilizing the model construction by making the weight of the explanatory variable approach zero (sparse).
- an L1 regularization term having a large effect of making the weights of unnecessary variables zero is introduced.
- regularization S2
- regularization terms are introduced in the optimization of D * (N + M) cumulative value series explanatory variables and one prediction problem (S21).
- the regularization term has an effect of bringing the weight of the explanatory variable closer to zero (sparse) and stabilizing the model construction.
- an L1 regularization term having a large effect of making the weights of unnecessary variables zero is introduced.
- the complexity of the resulting model is adjusted by adjusting the regularization parameters (S22).
- the weight of the variable unnecessary for prediction is suppressed to zero, and at the same time, the ratio of the non-zero element in the weight of the cumulative value series variable is adjusted and expressed. Can change the complexity of the model.
- Method Existing method Calculate transformation series for all candidate lag and window width combinations Apply LRS (Least-angle Regression) of linear regression with L1 regularization
- Proposed method Calculate cumulative transformation series for maximum candidate lag + maximum window width
- Model selection Cp statistic minimum is selected as regularization parameter Training data: 50,000 samples Evaluation methods Compare the coefficient weights of the true model and the estimated model Compare the prediction accuracy and calculation time reduction effect in the test data
- FIG. 4 compares the x_a and x_b coefficients of the true model with the x_a and x_b coefficients of the proposed method model. It can be seen that both the x_a coefficient (see FIG. 4A) and the x_b coefficient (see FIG. 4B) are close to the true model and sparse.
- FIG. 5 compares the x_a coefficient of the proposed model (see FIG. 5A) with the x_a coefficient of the existing model (see FIG. 5B).
- FIG. 6 compares the x_b coefficient of the proposed model (see FIG. 6A) with the x_b coefficient of the existing model (see FIG. 6B). In the proposed model, all the coefficients are sparse, but in the existing model, over-learning due to multicollinearity occurs in any coefficient, and a large weight is given to many coefficients unnecessarily. .
- the prediction error (FIG. 7A) and the model construction time (FIG. 7B) are shown. It can be seen that the proposed method is superior to the existing method in terms of prediction error and model construction time.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
多次元時系列予測問題において説明変数毎に異なるタイムラグとタイムウィンドウを効率的かつ正確に求める。 タイムラグとタイムウィンドウを決定するにあたり、説明変数時系列をそのまま正規化、最適化するのではなく、一旦、累積時系列に変換し、正規化、最適化することで、最適なタイムラグとタイムウィンドウを決定する。累積時系列に正規化項を導入することで、得られるモデルの複雑さを調整する。また、突出した二つの累積値(それらは互いに正負が逆)の重みを得ることで(そこまで正規化で単純化し)、それらからタイムラグとタイムウィンドウを求めることができる。
Description
本発明は、時系列データの分析技術に関し、特に、時系列予測問題において各変数に適切なタイムラグとタイムウィンドウとを選択する技術に係る。
一般に、多次元時系列予測問題(回帰問題もクラス識別問題も含む)とは、D種類の説明変数時系列から、目的変数時系列の次の時刻の値を予測する問題である。具体例としては、例えば、様々な経済指標から株価を予測するもの、様々な気象データから気候変動や天候を予測するもの、様々なセンサデータから機械システムの故障を予測するもの等が挙げられる。このような多次元時系列予測問題を解く際に、各説明変数時系列に対して適切なタイムラグとタイムウィンドウを設定する必要がある。ここで、タイムラグLとは、あるオリジナル説明変数が目的変数に影響を与えるまでの時間遅れをいう。また、タイムウィンドウWは、あるオリジナル説明変数が目的変数に影響を与える期間の長さをいう。現実の対象システムは説明変数-目的変数間に複雑な因果性が存在する。すなわち、説明変数毎に異なる影響の大きさ、時間遅れ(=タイムラグ)、影響幅(=タイムウィンドウ)が存在する。例えば、日経平均に対しNYダウは即時(タイムラグが短い)かつ鋭敏(タイムウィンドウが短い)に影響するが、国内購買意欲低下は遅れて(タイムラグが長い)長く(タイムウィンドウが長い)影響する。
このような時系列予測問題に対して、従来から、統計的なアプローチが試みられている。統計学の分野では、一次元の場合はAR(自己回帰)モデルとして統計分野で長い研究の歴史があり、多次元の場合もVAR(ベクトル自己回帰)として研究されてきた。しかし、多次元の場合はモデルの良さを検定する手法が中心であり、数次元を超えると手法の信頼性が大きく低下する、という課題がある。その他に、機械学習のアプローチも試みられている。機械学習の分野では、タイムラグ・タイムウィンドウを考慮するためには滑走窓方式が主流である。そして、多くの場合は全ての説明変数を同一タイムラグ・タイムウィンドウで扱ってしまう。その結果、多様な影響の仕方をする説明変数が混在している場合(説明変数毎にタイムラグとタイムウィンドウが異なるような場合)には不適切となる。また、計算量削減のためにはラグかウィンドウを固定して片方を調節し、最適な組み合わせを見つけることが困難となる。さらに、関連する文献としては、以下の特許文献が挙げられる。
統計学のアプローチ、機械学習のアプローチのいずれも多次元時系列予測問題を効率的に、かつ正確に求めることは困難である。
本発明はこのような課題に鑑みてなされたものであり、その目的の一つは、多次元時系列予測問題において、説明変数毎に異なるタイムラグとタイムウィンドウを効率的、かつ正確に求めることで、より精度の高い予測モデルを構築することが可能な時系列データ解析方法、システム及びコンピュータ・プログラムを提供することにある。
本発明を方法として把握すると、以下の通りとなる。すなわち、本発明は、コンピュータにより、説明変数時系列が目的変数時系列に影響を与えるまでの時間遅れであるタイムラグと、前記説明変数時系列が前記目的変数時系列に影響を与える時間であるタイムウィンドウとを選択する方法であり、前記説明変数時系列に基づいて、ある有限時間に対応する各時点からの各変数値の累積値で構成される累積値時系列に変換するステップと、前記累積値時系列を正規化項を導入した最適化問題として解き、得られた重みから前記タイムラグの値及び前記タイムウィンドウの値とを得るステップ
とを備える方法である。
とを備える方法である。
本発明をこれらコンピュータ・プログラム、コンピュータ・システムとして把握した場合にも、上述した本発明を方法として把握した場合と実質的に同一の技術的特徴を備える事ができるのは当然である。
本発明によれば、多次元時系列予測問題において説明変数毎に異なるタイムラグとタイムウィンドウを効率的かつ正確に求めることができる。その結果、予測モデルの精度が向上する。
実施形態
図1は、本実施形態に係るコンピュータ1のハードウェア構成を示す機能ブロック図である。コンピュータ1のハードウェア構成は、(低速及び高速の)バス10、バス10に接続されるCPU(演算制御装置)11、RAM(ランダム・アクセス・メモリ:記憶装置)12、ROM(リード・オンリ・メモリ:記憶装置)13、HDD(ハード・ディスク・ドライブ:記憶装置)14、通信インタフェース15、入出力インタフェース16を備えている。さらに、入出力インタフェース16に接続されるマウス(ポインティング装置)17、フラット・パネル・ディスプレイ(表示装置)18、キーボード19等を備えている。なお、コンピュータ1は一般的なパーソナル・コンピュータ・アーキテクチャを採用するものとして説明したが、例えば、より高いデータ処理能力や可用性を求めて、CPU11やHDD14等を多重化することができる。また、デスクトップ型の他、ラップトップ型やタブレット型のパーソナル・コンピュータなど、様々なタイプのコンピュータ・システムを採用することができる。
図1は、本実施形態に係るコンピュータ1のハードウェア構成を示す機能ブロック図である。コンピュータ1のハードウェア構成は、(低速及び高速の)バス10、バス10に接続されるCPU(演算制御装置)11、RAM(ランダム・アクセス・メモリ:記憶装置)12、ROM(リード・オンリ・メモリ:記憶装置)13、HDD(ハード・ディスク・ドライブ:記憶装置)14、通信インタフェース15、入出力インタフェース16を備えている。さらに、入出力インタフェース16に接続されるマウス(ポインティング装置)17、フラット・パネル・ディスプレイ(表示装置)18、キーボード19等を備えている。なお、コンピュータ1は一般的なパーソナル・コンピュータ・アーキテクチャを採用するものとして説明したが、例えば、より高いデータ処理能力や可用性を求めて、CPU11やHDD14等を多重化することができる。また、デスクトップ型の他、ラップトップ型やタブレット型のパーソナル・コンピュータなど、様々なタイプのコンピュータ・システムを採用することができる。
このコンピュータ1のソフトウェア構成は、基本的な機能を提供するオペレーティング・システム(OS)と、OSの機能を利用するアプリケーション・ソフトウェアと、入出力装置のドライバ・ソフトウェアとを備えている。これらの各ソフトウェアは、各種データと共にRAM12上にロードされ、CPU11等により実行され、コンピュータ1は全体として、図2に示す処理を実行する。
図2は、このコンピュータ1が実行する処理を説明するフローチャートである。この処理は、大きく分けて、二つのステップから構成される。また、図3は、この処理の過程を模式的に示すものである。
次に、正則化の導入によって最適なラグとウィンドウ幅を同時に選択する(S2)。まず、D* (N+M)個の累積値系列説明変数と1つの目的関数からなる予測問題を、目的関数の最適化問題に帰着し、目的関数の中に正則化項を導入する(S21)。ここで、正則化項には説明変数の重みをゼロに近づけ (スパース化)、モデル構築を安定化する効果がある。本実施形態では、必要無い変数の重みをゼロにする効果の大きいL1正則化項を導入する。具体的には、各説明変数ベクトルx_i、目的変数の値をy_i、モデルをβとした時に、モデルの出力をf(x_i, β)として、以下の目的関数を最小化するようなβを求めることが、最適化問題への帰着となる。これは予測誤差を最小にするモデルを求める、という意味である。
Σ(y_i - f(x_i, β))^2
そして、モデルが複雑化(この場合は非ゼロ成分の増加)を防ぐために正則化項(例えばL1正則化項)を入れると、目的関数が以下のようになる。なお、|β|をβの各要素の絶対値の和となっている。
Σ(y_i - f(x_i, β))^2 + λ|β|
次に、正則化 パラメータを調節することにより、得られるモデルの複雑さを調節する(S22)。ここで、予測に必要なオリジナル説明変数については数個の累積値系列説明 変数の重みのみが非ゼロになると期待され、一方、予測に必要無いオリジナル説明変数については全ての重みがゼロになると期待される。
具体的には、上式において、λが正則化パラメータであり、その値(λ>=0)の大小を調整することにより、予測誤差とλ*(|β|の非ゼロ要素の和)、の合計を最小化することができる。一般に、λを大きくすると予測誤差が上がる一方、|β|の非ゼロ要素の和が小さくなる(非ゼロ要素の数も大きさも減る)ことが知られている。
そして、重みが非ゼロ の累積値系列説明変数が2個になるまでモデルの複雑さを調整し(S23)、重みが非ゼロの累積値系列説明変数が2個になったとすると最適なLとWが同時に 選択されていると解釈することができる(S24)。なお、ここでは簡便のために、全ての説明変数について最適なタイムウィンドウとタイムラグが存在し、2個以上の非ゼロ累積値系列説明変数重みによって表現されうるという仮定を置いた。一方、現実のモデルにおいてはいかなるタイムウィンドウ・タイムラグにおいても予測に意味を持たないノイズ変数も存在し、それらの重みは全てゼロとなる。その場合は、図2のS23において「重みが非ゼロの累積値系列説明変数が2個か、あるいは正則化パラメータを調節しても0個から変化しない」とすることにより、自然な拡張として組み込めることは自明である。
Σ(y_i - f(x_i, β))^2
そして、モデルが複雑化(この場合は非ゼロ成分の増加)を防ぐために正則化項(例えばL1正則化項)を入れると、目的関数が以下のようになる。なお、|β|をβの各要素の絶対値の和となっている。
Σ(y_i - f(x_i, β))^2 + λ|β|
次に、正則化 パラメータを調節することにより、得られるモデルの複雑さを調節する(S22)。ここで、予測に必要なオリジナル説明変数については数個の累積値系列説明 変数の重みのみが非ゼロになると期待され、一方、予測に必要無いオリジナル説明変数については全ての重みがゼロになると期待される。
具体的には、上式において、λが正則化パラメータであり、その値(λ>=0)の大小を調整することにより、予測誤差とλ*(|β|の非ゼロ要素の和)、の合計を最小化することができる。一般に、λを大きくすると予測誤差が上がる一方、|β|の非ゼロ要素の和が小さくなる(非ゼロ要素の数も大きさも減る)ことが知られている。
そして、重みが非ゼロ の累積値系列説明変数が2個になるまでモデルの複雑さを調整し(S23)、重みが非ゼロの累積値系列説明変数が2個になったとすると最適なLとWが同時に 選択されていると解釈することができる(S24)。なお、ここでは簡便のために、全ての説明変数について最適なタイムウィンドウとタイムラグが存在し、2個以上の非ゼロ累積値系列説明変数重みによって表現されうるという仮定を置いた。一方、現実のモデルにおいてはいかなるタイムウィンドウ・タイムラグにおいても予測に意味を持たないノイズ変数も存在し、それらの重みは全てゼロとなる。その場合は、図2のS23において「重みが非ゼロの累積値系列説明変数が2個か、あるいは正則化パラメータを調節しても0個から変化しない」とすることにより、自然な拡張として組み込めることは自明である。
次に、正則化の導入によって最適なラグとウィンドウ幅を同時に選択する(S2)。まず、D*(N+M)個の累積値系列説明変数と1つの予測問題の最適化において正則化項を導入する(S21)。ここで、正則化項には説明変数の重みをゼロに近づけ(スパース化)、モデル構築を安定化する効果がある。本実施形態では、必要無い変数の重みをゼロにする効果の大きいL1正則化項を導入する。次に、正則化パラメータを調節することにより、得られるモデルの複雑さを調節する(S22)。ここで、予測に必要なオリジナル説明変数については数個の累積値系列説明変数の重みのみが非ゼロになると期待され、一方、予測に必要無いオリジナル説明変数については全ての重みがゼロになると期待される。さらに、重みが非ゼロの累積値系列説明変数が2個になるまでモデルの複雑さを調整し(S23)、重みが非ゼロの累積値系列説明変数が2個になったとすると最適なLとWが同時に選択されていると解釈することができる(S24)。
具体的には、重みが非ゼロの累積値系列説明変数c_t^g1とc_t^g2(g1<g2)が得られた場合、最適なL=g1、W=g2-g1である(図3(a)(b)左側参照)。例えば、c_t^5(ギャップg=5)の重みが1.0、c_t^15(ギャップg=15)の重みが-1.0、N+M=20とする。これらの累積値系列を重み付きで足し合わせると、以下の値c'_tを得る。
c'_t = { x_(t-5) + x_(t-6) + ... + x_(t-20) } - { x_(t-15) +x_(t-16) + ... + x_(t-20) }
= { x_(t-5) + x_(t-6)+ ... + x_(t-14) }
これは、ラグL=5、ウィンドウ幅W=10の場合に等しく、この組み合わせが最適なものとして選択されていると解釈することができる。
c'_t = { x_(t-5) + x_(t-6) + ... + x_(t-20) } - { x_(t-15) +x_(t-16) + ... + x_(t-20) }
= { x_(t-5) + x_(t-6)+ ... + x_(t-14) }
これは、ラグL=5、ウィンドウ幅W=10の場合に等しく、この組み合わせが最適なものとして選択されていると解釈することができる。
このように多次元時系列問題を解くことにより、以下のようなメリットを挙げることができる。すなわち、異なるタイムラグと異なるタイムウィンドウの両方を単純に組み合わせてN*M種類の変換系列を各説明変数に対して用意する場合(D*M*N変数)と比べ、変換系列がD*(N+M)種類で済むため計算が効率化され、かつ求められるモデルが安定する。また、変数が多くなりすぎる、計算が不安定になるなどの理由で全説明変数が同じタイムラグ・同じタイムウィンドウに固定する場合に比べて表現力が高くなり、真のモデルに近い精度良いモデルが得られることが期待される。また、累積値系列変換のみだけではまだ多重共線性によるモデル計算の不安定化が残ってしまうことを正則化によってさらに緩和できる。また、正則化パラメータで正則化の効き具合を調節することで、予測に不要な変数の重みをゼロに抑えると同時に、累積値系列変数の重みにおける非ゼロ要素の割合を調節し、求める表現されるモデルの複雑さを変えることができる。
なお、ここでは、滑走窓方式で単一のラグとウィンドウ幅を選択する場合を考えたが、より複雑な時間的な影響の変動も累積系列変数に対する非ゼロ重みの数が3個以上となるように(S23参照)正則化パラメータの調節する(S22参照)ことにより表現可能である。例えば、c_t^5(ギャップg=5)の重みが2.0、c_t^10(ギャップg=10)の重みが-1.0、c_t^15(ギャップg=15)の重みが-1.0、N+M=20とする。これらの累積値系列を重み付きで足し合わせると、以下の値c'_tを得る。
c’_t = 2*{ x_(t-5) +... + x_(t-20) }
- { x_(t-10) +... + x_(t-20) }
- { x_(t-15) +... + x_(t-20) }
= { x_(t-5) +... +x_(t-9) } + { x_(t-5) +... + x_(t-14) }
= 2*{ x_(t-5) +... + x_(t-9) } + { x_(t-10)+... + x_(t-14) }
これは、ラグL=5、ウィンドウ幅W=10の場合に等しく、さらに、ウィンドウの前半は後半に比べて二倍の重みが付いていると解釈することができる。
c’_t = 2*{ x_(t-5) +... + x_(t-20) }
- { x_(t-10) +... + x_(t-20) }
- { x_(t-15) +... + x_(t-20) }
= { x_(t-5) +... +x_(t-9) } + { x_(t-5) +... + x_(t-14) }
= 2*{ x_(t-5) +... + x_(t-9) } + { x_(t-10)+... + x_(t-14) }
これは、ラグL=5、ウィンドウ幅W=10の場合に等しく、さらに、ウィンドウの前半は後半に比べて二倍の重みが付いていると解釈することができる。
以下、図4乃至図7を用いて、本実施形態の効果を検証する実験の一例を説明する。
実験の設定 本実験の設定は以下の通りである。
1.オリジナル説明変数時系列:変数
x_a = sin(2x) + ε
x_b = cos(x) + ε
但し、(ε~N(0, 0.5^2))
2.目的変数時系列:真のモデルで計算
真の回帰モデル:y = 1.3 * sw(x_a,5, 2) - 0.7 * sw(x_b, 2, 8) + ε
関数sw(x, l, w):ラグl、ウィンドウwの滑走窓の移動平均
3.タイムラグとタイムウィンドウ幅の候補
ラグl = {0,1,2,3,4,5}
ウィンドウ幅w= {1,2,3,4,5,6,7,8,9,10}
4. 手法
既存手法 :
全ての候補ラグとウィンドウ幅の組合せに対して変換系列を計算
L1正則化付き線形回帰のLARS(Least-angle Regression)を適用
提案手法 (実施形態):
最大候補ラグ+最大ウィンドウ幅に対して累積変換系列を計算
L1正則化付き線形回帰のLARS(Least-angle Regression)を適用
モデル選択:正則化パラメータはCp statistic最小を選択
訓練データ:50,000サンプル
5.評価方法
真のモデルと推定されたモデルの係数重みを比較
テストデータでの予測精度&計算時間の削減効果を比較
1.オリジナル説明変数時系列:変数
x_a = sin(2x) + ε
x_b = cos(x) + ε
但し、(ε~N(0, 0.5^2))
2.目的変数時系列:真のモデルで計算
真の回帰モデル:y = 1.3 * sw(x_a,5, 2) - 0.7 * sw(x_b, 2, 8) + ε
関数sw(x, l, w):ラグl、ウィンドウwの滑走窓の移動平均
3.タイムラグとタイムウィンドウ幅の候補
ラグl = {0,1,2,3,4,5}
ウィンドウ幅w= {1,2,3,4,5,6,7,8,9,10}
4. 手法
既存手法 :
全ての候補ラグとウィンドウ幅の組合せに対して変換系列を計算
L1正則化付き線形回帰のLARS(Least-angle Regression)を適用
提案手法 (実施形態):
最大候補ラグ+最大ウィンドウ幅に対して累積変換系列を計算
L1正則化付き線形回帰のLARS(Least-angle Regression)を適用
モデル選択:正則化パラメータはCp statistic最小を選択
訓練データ:50,000サンプル
5.評価方法
真のモデルと推定されたモデルの係数重みを比較
テストデータでの予測精度&計算時間の削減効果を比較
図4は、真のモデルのx_a係数、x_b係数と提案手法モデルのx_a係数、x_b係数とを比較するものである。x_a係数(図4(a)参照)、x_b係数(図4(b)参照)ともに、提案手法モデルは真のモデルに近く、スパースであることが分かる。図5は、提案モデルのx_a係数(図5(a)参照)と既存モデルのx_a係数(図5(b)参照)とを比較するものである。また、図6は、提案モデルのx_b係数(図6(a)参照)と既存モデルのx_b係数(図6(b)参照)とを比較するものである。提案モデルではいずれの係数においても、スパースであるのに対し、既存モデルではいずれの係数においても多重共線性による過学習が生じ、不必要に多くの係数に大きな重みが付与されていることが分かる。
図7は、訓練データ数を{50,100,200,300,400,500,1000}、テストデータ数:100 (ノイズのない真の回帰モデル:y= 1.3 * sw(x_a, 5, 2) - 0.7* sw(x_b, 2, 8))としたときの、予測エラー(図7(a))とモデル構築時間(図7(b))を示すものである。提案手法は、既存手法に比べて予測エラーの点でも、モデル構築時間の点でも優れていることが分かる。
1…パーソナル・コンピュータ(コンピュータ・システム)、
11…CPU(演算制御装置)、
12…RAM(ランダム・アクセス・メモリ:記憶装置)、
13…ROM(リード・オンリ・メモリ:記憶装置)、
14…HDD(ハード・ディスク・ドライブ:記憶装置)、
17…マウス(ポインティング装置)、
18…フラット・パネル・ディスプレイ、
11…CPU(演算制御装置)、
12…RAM(ランダム・アクセス・メモリ:記憶装置)、
13…ROM(リード・オンリ・メモリ:記憶装置)、
14…HDD(ハード・ディスク・ドライブ:記憶装置)、
17…マウス(ポインティング装置)、
18…フラット・パネル・ディスプレイ、
Claims (10)
- コンピュータにより、説明変数時系列が目的変数時系列に影響を与えるまでの時間遅れであるタイムラグと、前記説明変数時系列が前記目的変数時系列に影響を与える時間であるタイムウィンドウとを選択する方法であり、
前記説明変数時系列に基づいて、ある有限時間に対応する各時点からの各変数値の累積値で構成される累積値時系列に変換するステップと、
前記累積値時系列を正規化項を導入した最適化問題として解き、得られた重みから前記タイムラグの値及び前記タイムウィンドウの値とを得るステップ
とを備える方法。 - 前記有限時間は、予め前記コンピュータに記憶されている請求項1に記載の方法。
- 前記有限時間は、前記コンピュータに対してユーザが入力する請求項1に記載の方法。
- 前記正規化項は、L1正則化項である請求項1に記載の方法。
- 前記タイムラグの値及び前記タイムウィンドウの値とを得るステップは、
正則化パラメータを調節するステップを含む請求項1に記載の方法。 - 前記正則化パラメータを調節するステップは、予測に必要なオリジナル説明変数については数個の累積値系列説明変数の重みのみが非ゼロになるまで継続される請求項5に記載の方法。
- 前記正則化パラメータを調節するステップは、予測に必要なオリジナル説明変数については2個の累積値系列説明変数の重みのみが非ゼロになるまで継続される請求項5に記載の方法。
- 前記2個の累積値系列説明変数は大きさが等しく、正負逆の関係にある請求項7に記載の方法。
- コンピュータに、請求項1乃至8の方法を実行させるコンピュータ・プログラム。
- 説明変数時系列が目的変数時系列に影響を与えるまでの時間遅れであるタイムラグと、前記説明変数時系列が前記目的変数時系列に影響を与える時間であるタイムウィンドウとを選択するコンピュータであり、
前記説明変数時系列に基づいて、ある有限時間に対応する各時点からの各変数値の累積値で構成される累積値時系列に変換する手段と、
前記累積値時系列を正規化項を導入した最適化問題として解き、得られた重みから前記タイムラグの値及び前記タイムウィンドウの値とを得る手段
とを備えるコンピュータ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201280054792.XA CN103930912A (zh) | 2011-11-08 | 2012-11-02 | 时序数据分析方法、系统和计算机程序 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011-244834 | 2011-11-08 | ||
JP2011244834 | 2011-11-08 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2013069568A1 true WO2013069568A1 (ja) | 2013-05-16 |
Family
ID=48224298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2012/078478 WO2013069568A1 (ja) | 2011-11-08 | 2012-11-02 | 時系列データ分析方法、システム及びコンピュータ・プログラム |
Country Status (3)
Country | Link |
---|---|
US (2) | US20130116991A1 (ja) |
CN (1) | CN103930912A (ja) |
WO (1) | WO2013069568A1 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017183066A1 (ja) * | 2016-04-18 | 2017-10-26 | 株式会社日立製作所 | ウインドウ評価方法および分析装置 |
JP2020128013A (ja) * | 2019-02-07 | 2020-08-27 | ファナック株式会社 | 状態判定装置及び状態判定方法 |
JP2020166442A (ja) * | 2019-03-28 | 2020-10-08 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 情報処理装置、算出方法および算出プログラム |
US11092460B2 (en) | 2017-08-04 | 2021-08-17 | Kabushiki Kaisha Toshiba | Sensor control support apparatus, sensor control support method and non-transitory computer readable medium |
US11609969B2 (en) | 2020-09-15 | 2023-03-21 | Kabushiki Kaisha Toshiba | Information processing apparatus, information processing system, information processing method, and computer program product |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2928492A1 (en) * | 2013-09-04 | 2015-03-12 | Know Normal, Inc. | Systems and methods for deriving, storing, and visualizing a numeric baseline for time-series numeric data which considers the time, coincidental events, and relevance of the datapoints as part of the derivation and visualization |
US10552746B2 (en) * | 2014-09-25 | 2020-02-04 | International Business Machines Corporation | Identification of time lagged indicators for events with a window period |
CN105786823B (zh) * | 2014-12-19 | 2019-06-28 | 日本电气株式会社 | 用于多维时序数据分析的系统和方法 |
CN105025515B (zh) * | 2015-06-30 | 2018-03-30 | 电子科技大学 | 一种基于gm模型的无线传感器网络流量异常检测方法 |
CN104994539B (zh) * | 2015-06-30 | 2018-03-30 | 电子科技大学 | 一种基于arima模型的无线传感器网络流量异常检测方法 |
US10410113B2 (en) * | 2016-01-14 | 2019-09-10 | Preferred Networks, Inc. | Time series data adaptation and sensor fusion systems, methods, and apparatus |
JP6616791B2 (ja) | 2017-01-04 | 2019-12-04 | 株式会社東芝 | 情報処理装置、情報処理方法およびコンピュータプログラム |
CN107491830B (zh) * | 2017-07-03 | 2021-03-26 | 北京奇艺世纪科技有限公司 | 一种时间序列曲线的处理方法和装置 |
JP7028260B2 (ja) * | 2018-01-22 | 2022-03-02 | 日本電気株式会社 | 分析システム、分析方法、及び、プログラム |
US10891354B2 (en) | 2018-05-23 | 2021-01-12 | International Business Machines Corporation | Categorizing and processing time-series data |
CN112270473B (zh) * | 2020-10-27 | 2022-11-08 | 山东鼎滏软件科技有限公司 | 用于油气田时序数据的预警方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009510633A (ja) * | 2005-09-28 | 2009-03-12 | 本田技研工業株式会社 | 正則化最小二乗法の分類/回帰 |
JP2012079286A (ja) * | 2010-09-30 | 2012-04-19 | Nippon Telegr & Teleph Corp <Ntt> | 構造予測モデル学習装置、方法、プログラム、及び記録媒体 |
JP2012137813A (ja) * | 2010-12-24 | 2012-07-19 | Nippon Steel Corp | 品質予測装置、品質予測方法、プログラムおよびコンピュータ読み取り可能な記録媒体 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5532700A (en) * | 1995-03-16 | 1996-07-02 | The United States Of America As Represented By The Secretary Of The Navy | Preprocessor and adaptive beamformer for active signals of arbitrary waveform |
US7058617B1 (en) * | 1996-05-06 | 2006-06-06 | Pavilion Technologies, Inc. | Method and apparatus for training a system model with gain constraints |
US6125105A (en) * | 1997-06-05 | 2000-09-26 | Nortel Networks Corporation | Method and apparatus for forecasting future values of a time series |
JP2981193B2 (ja) * | 1997-09-02 | 1999-11-22 | エヌケイエス株式会社 | 時系列連続データの予測方法及び記録媒体 |
US6532449B1 (en) * | 1998-09-14 | 2003-03-11 | Ben Goertzel | Method of numerical times series prediction based on non-numerical time series |
US7054850B2 (en) * | 2000-06-16 | 2006-05-30 | Canon Kabushiki Kaisha | Apparatus and method for detecting or recognizing pattern by employing a plurality of feature detecting elements |
US6745150B1 (en) * | 2000-09-25 | 2004-06-01 | Group 1 Software, Inc. | Time series analysis and forecasting program |
AU2002214666A1 (en) * | 2000-10-27 | 2002-05-15 | Manugistics, Inc. | Supply chain demand forecasting and planning |
FR2832801B1 (fr) * | 2001-11-28 | 2004-02-27 | Peugeot Citroen Automobiles Sa | Procede pour evaluer la frequence instantanee d'une excitation mecanique exercee sur une roue d'un vehicule automobile, et applications |
US7263467B2 (en) * | 2002-09-30 | 2007-08-28 | University Of Florida Research Foundation Inc. | Multi-dimensional multi-parameter time series processing for seizure warning and prediction |
US7742940B1 (en) * | 2002-12-17 | 2010-06-22 | Hewlett-Packard Development Company, L.P. | Method and system for predicting revenue based on historical pattern indentification and modeling |
WO2005124718A2 (en) * | 2004-06-18 | 2005-12-29 | Cvidya Networks Ltd. | Methods, systems and computer readable code for forecasting time series and for forecasting commodity consumption |
US8180664B2 (en) * | 2004-12-01 | 2012-05-15 | Hewlett-Packard Development Company, L.P. | Methods and systems for forecasting with model-based PDF estimates |
US7987106B1 (en) * | 2006-06-05 | 2011-07-26 | Turgut Aykin | System and methods for forecasting time series with multiple seasonal patterns |
JP2008003920A (ja) * | 2006-06-23 | 2008-01-10 | Toshiba Corp | 時系列データの予測・診断装置およびそのプログラム |
US7599898B2 (en) * | 2006-10-17 | 2009-10-06 | International Business Machines Corporation | Method and apparatus for improved regression modeling |
CN101093445A (zh) * | 2007-07-27 | 2007-12-26 | 中国科学院软件研究所 | 基于软件过程时序数据自动挖掘的多步预测方法和系统 |
US7996342B2 (en) * | 2008-02-15 | 2011-08-09 | International Business Machines Corporation | Systems, methods and computer program products for supervised dimensionality reduction with mixed-type features and labels |
US8484069B2 (en) * | 2008-06-30 | 2013-07-09 | International Business Machines Corporation | Forecasting discovery costs based on complex and incomplete facts |
US8306886B2 (en) * | 2009-01-16 | 2012-11-06 | Future Beef Partners Inc. | System and method for predicting future prices of a cut meat |
US9020857B2 (en) * | 2009-02-11 | 2015-04-28 | Johnathan C. Mun | Integrated risk management process |
EP2239676A1 (de) * | 2009-04-09 | 2010-10-13 | Biotronik CRM Patent AG | Verfahren und Anordnung zur Vorhersage mindestens eines Systemereignisses sowie ein entsprechendes Computerprogramm und ein entsprechendes computerlesbares Speichermedium |
US8255346B2 (en) * | 2009-11-11 | 2012-08-28 | International Business Machines Corporation | Methods and systems for variable group selection and temporal causal modeling |
US8346688B2 (en) * | 2009-11-25 | 2013-01-01 | International Business Machines Corporation | Predicting states of subjects |
US20120004957A1 (en) * | 2010-07-02 | 2012-01-05 | Yahoo! Inc. | Forecasting supply for advertisements according to a non-parametric supply model |
US20120030137A1 (en) * | 2010-07-30 | 2012-02-02 | Technische Universitat Berlin | Method and device for valuation of a traded commodity |
-
2012
- 2012-11-02 US US13/667,672 patent/US20130116991A1/en not_active Abandoned
- 2012-11-02 WO PCT/JP2012/078478 patent/WO2013069568A1/ja active Application Filing
- 2012-11-02 CN CN201280054792.XA patent/CN103930912A/zh active Pending
- 2012-11-12 US US13/674,260 patent/US20130116992A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009510633A (ja) * | 2005-09-28 | 2009-03-12 | 本田技研工業株式会社 | 正則化最小二乗法の分類/回帰 |
JP2012079286A (ja) * | 2010-09-30 | 2012-04-19 | Nippon Telegr & Teleph Corp <Ntt> | 構造予測モデル学習装置、方法、プログラム、及び記録媒体 |
JP2012137813A (ja) * | 2010-12-24 | 2012-07-19 | Nippon Steel Corp | 品質予測装置、品質予測方法、プログラムおよびコンピュータ読み取り可能な記録媒体 |
Non-Patent Citations (1)
Title |
---|
GRIBOK, A. ET AL.: "Regularization of Body Core Temperature Prediction during Physical Activity, Engineering in Medicine and Biology Society, 2006.", EMBS '06. 28TH ANNUAL INTERNATIONAL CONFERENCE OF THE IEEE, 30 August 2006 (2006-08-30), pages 459 - 463 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017183066A1 (ja) * | 2016-04-18 | 2017-10-26 | 株式会社日立製作所 | ウインドウ評価方法および分析装置 |
JPWO2017183066A1 (ja) * | 2016-04-18 | 2019-02-14 | 株式会社日立製作所 | ウインドウ評価方法および分析装置 |
US11092460B2 (en) | 2017-08-04 | 2021-08-17 | Kabushiki Kaisha Toshiba | Sensor control support apparatus, sensor control support method and non-transitory computer readable medium |
JP2020128013A (ja) * | 2019-02-07 | 2020-08-27 | ファナック株式会社 | 状態判定装置及び状態判定方法 |
JP7010861B2 (ja) | 2019-02-07 | 2022-01-26 | ファナック株式会社 | 状態判定装置及び状態判定方法 |
JP2020166442A (ja) * | 2019-03-28 | 2020-10-08 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 情報処理装置、算出方法および算出プログラム |
US11609969B2 (en) | 2020-09-15 | 2023-03-21 | Kabushiki Kaisha Toshiba | Information processing apparatus, information processing system, information processing method, and computer program product |
Also Published As
Publication number | Publication date |
---|---|
CN103930912A (zh) | 2014-07-16 |
US20130116991A1 (en) | 2013-05-09 |
US20130116992A1 (en) | 2013-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2013069568A1 (ja) | 時系列データ分析方法、システム及びコンピュータ・プログラム | |
Kuhnle et al. | Reinforcement learning for opportunistic maintenance optimization | |
Nikravesh et al. | An autonomic prediction suite for cloud resource provisioning | |
US7415453B2 (en) | System, method and program product for forecasting the demand on computer resources | |
Patikirikorala et al. | Hammerstein–Wiener nonlinear model based predictive control for relative QoS performance and resource management of software systems | |
Xu et al. | Predictive control for dynamic resource allocation in enterprise data centers | |
US7444272B2 (en) | Self-modulation in a model-based automated management framework | |
US8494806B2 (en) | Method, program and apparatus for optimizing configuration parameter set of system | |
CN102043673A (zh) | 并行处理期间资源分配的校准 | |
Ma et al. | Several novel evaluation measures for rank-based ensemble pruning with applications to time series prediction | |
Singh et al. | Ensemble learning for large-scale workload prediction | |
Yang et al. | A pattern fusion model for multi-step-ahead CPU load prediction | |
Gunaratne et al. | Exponentially weighted control charts to monitor multivariate process variability for high dimensions | |
Hu et al. | CPU load prediction using support vector regression and Kalman smoother for cloud | |
Zhang et al. | Calculating Value-at-Risk for high-dimensional time series using a nonlinear random mapping model | |
Chen et al. | A regression-based calibration method for agent-based models | |
CN108897673B (zh) | 系统容量评估方法与装置 | |
Cerf et al. | Cost function based event triggered Model Predictive Controllers application to Big Data Cloud services | |
JP4843379B2 (ja) | 計算機システムの開発プログラム | |
CA3119351A1 (en) | Extending finite rank deep kernel learning to forecasting over long time horizons | |
Hani et al. | Support vector regression for service level agreement violation prediction | |
US11669762B2 (en) | Apparatus and method for forecasted performance level adjustment and modification | |
JP5636922B2 (ja) | 性能予測装置、性能予測方法およびプログラム | |
Maiyza et al. | VTGAN: hybrid generative adversarial networks for cloud workload prediction | |
Istin et al. | Decomposition based algorithm for state prediction in large scale distributed systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 12848350 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
NENP | Non-entry into the national phase |
Ref country code: JP |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 12848350 Country of ref document: EP Kind code of ref document: A1 |