WO2009107313A1

WO2009107313A1 - 確率モデル選択装置、確率モデル選択方法、およびプログラム

Info

Publication number: WO2009107313A1
Application number: PCT/JP2008/073567
Authority: WO
Inventors: 健司山西
Original assignee: 日本電気株式会社
Priority date: 2008-02-28
Filing date: 2008-12-25
Publication date: 2009-09-03

Abstract

　データが順次入力されるときに変化点の発生を逐次的に検出することができないとう問題を解決する確率モデル選択装置を提供する。　計算範囲指定部２は、時系列データの確率モデルを推定する範囲を指定する。制御部３は、計算範囲指定部２で指定された範囲内の時点ごとに、該時点での時系列データの確率モデルを、複数の確率モデルの中から、複数の確率モデルのそれぞれの該時点までの時系列データに対する尤度に基づいて選択する。制御部３は、その選択した確率モデルが全て同じか否かを判定する。確率モデルが全て同じではない場合、制御部３は、その選択した確率モデルが最初に変化した時点である変化点以前の各時点の確率モデルを示す情報を出力する。

Description

確率モデル選択装置、確率モデル選択方法、およびプログラム

　本発明は、時系列データの解析を行う確率モデル選択装置、確率モデル選択方法、およびその方法をコンピュータに実行させるためのプログラムに関する。

　特定の事象（例えば、サーバに対するコマンド）に関する観測データを観測順に配列した時系列データを解析する装置には、入力された時系列データにおいてデータの発生パターンが変化した時点である変化点を特定できる情報を出力するものが提案されている。このような技術は、例えば、特許文献１（特開２００５－１４１６０１号公報）に開示されている。

　特許文献１に記載の装置は、予測分布記憶手段と、予測分布更新手段と、モデル系列記憶手段と、モデル系列更新手段と、最適モデル系列計算手段とから構成されている。

　特許文献１に記載の装置では、まず、入力された時系列データが、予測分布更新手段およびモデル系列更新手段のそれぞれに格納される。予測分布更新手段は、時系列データを構成する各データがそれぞれ対応する時点（時刻）ｔ（ｔ＝１，…，ｎ）ごとに、時系列データの複数の確率モデルに対する尤度を計算する。具体的には、予測分布更新手段は、予測分布記憶手段に予め格納されている複数の確率モデルの時系列データに対する尤度を示す値をそれぞれ計算する。

　モデル系列更新手段は、予測分布更新手段が計算した尤度を示す値と時系列データと用いて、時系列データにおける最初の時点（ｔ=１）から最後の時点（ｔ＝ｎ）までの確率モデルの履歴の候補を決め、その履歴の候補をモデル系列記憶手段に格納する。最適モデル系列計算手段が、モデル系列記憶手段に格納された確率モデルの履歴の候補の中から尤度を示す値が最も高くなるものを選択し、その選択した確率モデルの履歴を示す情報であるモデルパスを出力する。

　特許文献１に記載の装置によれば、最適モデル系列計算手段が出力したモデルパスにおいて確率モデルが変化した時点を変化点と特定できる。そのため、例えば、あるユーザのコマンドの履歴を示す時系列データが入力される場合、装置から出力されたモデルパスに変化点が存在するか否か調べることで、ユーザの行動パターンに変化が生じたか否か知ることが可能となる。
特開２００５－１４１６０１号公報

　特許文献１に記載の装置では、モデルパスの出力範囲が、時系列データにおける最初の時点から最後の時点までとなっている。このため、時系列データを構成するデータが順次入力されても、データが全て入力されるまではモデルパスを出力することができない。従って、変化点を逐次的に検出することができないという問題がある。

　本発明の目的は、上記の課題である、データが順次入力されるときに変化点の発生を逐次的に検出することができないという問題を解決する確率モデル選択装置、確率モデル選択方法およびプログラムを提供することである。

　本発明による確率モデル選択装置は、時系列データが入力される確率モデル選択装置であって、前記時系列データを格納する記憶部と、前記時系列データの確率モデルを推定する範囲を指定する計算範囲指定部と、前記計算範囲指定部で指定された範囲内の時点ごとに、該時点での前記時系列データの確率モデルを、複数の確率モデルの中から、前記複数の確率モデルのそれぞれの該時点までの時系列データに対する尤度に基づいて選択し、該選択した確率モデルが全て同じか否かを判定し、前記選択した確率モデルが全て同じではない場合、前記選択した確率モデルが最初に変化した時点である変化点以前の各時点の確率モデルを示す情報を出力する制御部と、を有する。

　また、本発明による確率モデル選択方法は、時系列データが入力される確率モデル選択装置で行われる確率モデル選択方法であって、前記時系列データの確率モデルを推定する範囲を指定し、前記計算範囲指定部で指定された範囲内の時点ごとに、該時点での前記時系列データの確率モデルを、複数の確率モデルの中から、前記複数の確率モデルのそれぞれの該時点までの時系列データに対する尤度に基づいて選択し、前記選択した確率モデルが全て同じか否かを判定し、前記選択した確率モデルが全て同じではない場合、前記選択した確率モデルが最初に変化した時点である変化点以前の各時点の確率モデルを示す情報を出力する。

　また、本発明によるプログラムは、時系列データが入力されるコンピュータに、
　前記時系列データの確率モデルを推定する範囲を指定する処理と、前記計算範囲指定部で指定された範囲内の時点ごとに、該時点での前記時系列データの確率モデルを、複数の確率モデルの中から、前記複数の確率モデルのそれぞれの該時点までの時系列データに対する尤度に基づいて選択する処理と、前記選択した確率モデルが全て同じか否かを判定する処理と、前記選択した確率モデルが全て同じではない場合、前記選択した確率モデルが最初に変化した時点である変化点以前の各時点の確率モデルを示す情報を出力する処理と、を実行させる。

　本発明によれば、時系列データにおける指定された範囲で確率モデルの選択動作および変化点の有無の確認動作を行うため、時系列データを構成するデータが順次入力されるときに変化点の発生を逐次的に検出することが可能となる。

本発明の一実施形態の確率モデル選択装置の構成を示したブロック図である。確率モデル選択装置の動作例を説明するためのフローチャートである。

　本実施形態の確率モデル選択装置について、図面を参照しながら説明する。

　図１は、本発明の一実施形態の確率モデル選択装置の構成を示したブロック図である。

　図１に示すように、確率モデル選択装置１は、計算範囲指定部２と、制御部３と、記憶部４とを有する。

　計算範囲指定部２は、時系列データからモデルパスを求める範囲を指定する。なお、最初の範囲は、予め定められているものとする。

　制御部３は、予め定められた複数の確率モデルから、計算範囲指定部２が指定した範囲内の時点ごとに、その時点での時系列データの確率モデルを選択する。なお、時点での時系列データの確率モデルは、その時点以前の時系列データを表わす確率モデルである。

　具体的には、制御部３は、その時点ごとに、その複数の確率モデルの中から、その複数の確率モデルのそれぞれの該時点までの時系列データに対する尤度に基づいて選択する。

　その選択した確率モデルが全て同じではない場合、制御部３は、確率モデルが最初に変化した時点を変化点として特定し、その変化点以前の各時点の確率モデルを示す情報をモデルパスとして出力する。そして、制御部３は、その変化点を計算範囲指定部２に通知する。

　一方、その選択した確率モデルが全て同じ場合、変化点がない旨を計算範囲指定部２に通知する。

　制御部３は、より具体的には、複数の計算部３１と、選択部３２と、変化点検出部３３とを有し、各部が以下の処理を行う。

　各計算部３１は、計算範囲指定部２で指定された範囲内の時点ごとに、複数の確率モデルのうち予め割り当てられた確率モデルの該時点までの時系列データに対する尤度を示す推定値を計算する。

　選択部３２は、計算範囲指定部２で指定された範囲内の時点ごとに、複数の確率モデルの中から、各計算部３１で計算された尤度が最も高い確率モデルを、その時点での時系列データの確率モデルとして選択する。

　変化点検出部３３は、選択部３２が計算範囲指定部２で指定された範囲内の時点ごと選択した確率モデルが全て同じか否かを判定する。その確率モデルが全て同じではない場合、変化点検出部３３は、変化点を求め、その変化点を計算範囲指定部２へ通知するとともに、変化点以前の各時点での確率モデルを示すモデルパスを出力する。

　記憶部４は、時系列データや、計算部３１が計算した値などを格納する。

　次に、本実施形態の確率モデル選択装置の動作について説明する。

　図２は、本実施形態の確率モデル選択装置の動作例を説明するためのフローチャートである。

　まず、確率モデル選択装置１の外部に設けられたデータ入力装置から、時系列データが記憶部４に入力され、その時系列データが記憶部４に記憶される（ステップＳ１）。計算範囲指定部２は、記憶部４を監視して、最初のデータから指定範囲Ｔまでのデータが記憶部４に保存されたか否かを判断する。指定範囲Ｔまでのデータが記憶部４に保存されると、計算範囲指定部２は、その指定範囲Ｔまでの時系列データを、データ列として記憶部４から読み出し、そのデータ列を各計算部３１および選択部３２のそれぞれに出力する（ステップＳ２）。

　続いて、各計算部３１は、計算範囲指定部２からデータ列を受けると、そのデータ列に対する推定値を計算する（ステップＳ３）。

　ステップＳ３の動作について、詳しく説明する。

　まず、本発明で用いる確率モデルについて説明する。確率モデルは、複数あり、その全てがパラメトリック（確率分布の型が既知）な確率モデルである。

　なお、本実施形態では、ｋは、確率モデルの複雑さの指標を示す。ｋは、例えば確率分布におけるパラメータの数である。Ｘは、確率変数を示す。Ｐ_ｉ（Ｘ）（ｉ=１，…，ｋ）は、それぞれ異なる確率分布を示す。α_ｉ（ｉ=１，…，ｋ）は、Σ_ｉ＝１ ^ｋα_ｉ＝１となる正の数を示す。ξ_ｉは、ｉ番目の確率分布の実数値パラメータを示す。θ_ｋ=（α_１，…，α_k，ξ１，…，ξ_ｋ)は、確率モデルのパラメータを示す。すると、確率モデルは、数１で示される。

　次に、ステップＳ３における計算部３１の動作について説明する。

　計算部３１は、計算範囲指定部２から指定範囲Ｔのデータ列Ｘを受け取ると、データ列Ｘの各時点ｔ（ｔ＝１，…，Ｔ）において、時点１から時点ｔ－１までのデータ列Ｘ^ｔ－１＝ｘ_１，…，ｘ_ｔ－１の各々に対して、予め割り当てられた確率モデルについてパラメータθ_ｋの推定値θ_ｋ ^{（ｔ－１）}（尤度）を、数１より逐次的に計算する。そして、計算部３１のそれぞれは、計算したパラメータの推定値を選択部３２に出力するとともに、記憶部４へ格納する。これによりステップＳ３の動作が終了する。

　選択部３２は、計算部３１のそれぞれからパラメータの推定値を受け取ると、受け取ったパラメータの推定値と計算範囲指定部２から受け取ったデータ列とを用いて、指定範囲Ｔにおける最適な確率モデルを選択して変化点検出部３３へ出力する（ステップＳ４）。ここで、ステップＳ４の動作について、詳しく説明する。

　選択部３２は、下記の数２をモデルパスの選択基準として用いる。

　数２において、Ｐ（ｋ_t|k_t-1：β）は、βを実数値パラメータとして時点ｔ－１から時点ｔへの確率モデルの遷移確率を示す。また、ｌｏｇの底は全て２である。本実施形態では、選択部３２は、ＭＤＬ（Minimum　Description　Length）基準に基づき、数２の計算結果が最小となるモデルパス（k₁，…，k_T）を最適なモデルパスとして変化点検出部３３へ出力する。これによりステップＳ４の動作が終了する。

　なお、ＭＤＬ基準とは、時系列データをもとに、事象に対して最適な確率モデルを決める方法の一つである。ＭＤＬ基準によれば、時系列データに過度に合致した複雑な確率モデルや、単純すぎて時系列データを説明できない確率モデルは排除され、比較的単純で時系列データに適合した確率モデルが選択される。

　変化点検出部３３は、選択部３２からモデルパスを受け取ると、受け取ったモデルパスに変化点があるか否か判定する（ステップＳ５）。

　ステップＳ５でモデルパスに変化点があると判定された場合、変化点検出部３３は、変化点が生じた時点ｔ_＊とともに変化点を検出した旨を計算範囲指定部２へ通知する（ステップＳ６）。そして、変化点検出部３３は、変化点以前のモデルパスを出力する（ステップＳ７）。

　なお、ステップＳ６の動作において、モデルパスに複数の変化点がある場合、変化点検出部３３は、モデルパスにおいて確率モデルが最初に変化した時点を真の変化点として計算範囲指定部２へ通知する。

　また、ステップＳ７の動作において、モデルパスは、確率モデル選択装置１の外部に設けられた装置（例えば、コンピュータ）に提供される。

　計算範囲指定部２は、時点ｔ_＊とともに変化点を検出した旨の通知を変化点検出部３３より受け取ると、指定範囲Ｔのデータ列を、最初のデータが時点ｔ＝ｔ_＊に対応するデータで、最後のデータがｔ_＊から指定範囲Ｔの時点に対応するデータとするデータ列に変更する（ステップＳ８）。そして、ステップＳ２以降の動作が繰り返される。

　ステップＳ５でモデルパスに変化点がないと判定された場合、変化点検出部３３は、モデルパスに変化点がない旨を計算範囲指定部２へ通知する（ステップＳ９）。すると、計算範囲指定部２は、時系列データにおいて指定範囲をＴからＴ＋１に一つ広げる（ステップＳ１０）。すなわち、計算範囲指定部２は、指定範囲Ｔに、その指定範囲Ｔの直後の時点を加えて、データ列を構成するデータを一つ増やす。

　ステップＳ８またはＳ１０が終了すると、ステップＳ２に戻る。このとき、モデルパスに変化点がない場合、指定範囲は、Ｔ＋２、Ｔ＋３、…の順に一つずつ広がっていく。

　次に効果を説明する。

　本実施形態によれば、計算範囲指定部２は、時系列データの確率モデルを推定する範囲を指定する。制御部３は、計算範囲指定部２で指定された範囲内の時点ごとに、該時点での時系列データの確率モデルを、複数の確率モデルの中から、複数の確率モデルのそれぞれの該時点までの時系列データに対する尤度に基づいて選択する。制御部３は、その選択した確率モデルが全て同じか否かを判定する。確率モデルが全て同じではない場合、制御部３は、その選択した確率モデルが最初に変化した時点である変化点以前の各時点の確率モデルを示す情報を出力する。

　この場合、指定された範囲で確率モデルの選択が行われる。そして、確率モデルに変化点が存在すると、その変化点以前の各時点における確率モデルを示す情報が出力される。したがって、時系列データにおける指定された範囲で確率モデルの選択動作および変化点の有無の確認動作を行うため、時系列データを構成するデータが順次入力されるときに変化点の発生を逐次的に検出することが可能となる。

　また、時系列データにおいて指定範囲ごとに各時点における確率モデル（モデルパス）を求める計算を行うため、時系列データを構成する全てのデータを用いてモデルパスを求める場合に比べ、情報量および計算量を節約できる。これにより、装置の省資源化を図ることが可能となる
　なお、以上説明した確率モデル選択装置１の機能は、その機能を実現するためのプログラムを、コンピュータにて読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませ実行させることで、実現されてもよい。

　以上、実施形態を参照して本願発明を説明したが、本願発明は、上記実施形態に限定されたものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更を行うことができる。

　この出願は、２００８年２月２８日に出願された日本出願特願２００８－４７７１２号公報を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

　時系列データが入力される確率モデル選択装置であって、
　前記時系列データを格納する記憶部と、
　前記時系列データの確率モデルを推定する範囲を指定する計算範囲指定部と、
　前記計算範囲指定部で指定された範囲内の時点ごとに、該時点での前記時系列データの確率モデルを、複数の確率モデルの中から、前記複数の確率モデルのそれぞれの該時点までの時系列データに対する尤度に基づいて選択し、該選択した確率モデルが全て同じか否かを判定し、前記選択した確率モデルが全て同じではない場合、前記選択した確率モデルが最初に変化した時点である変化点以前の各時点の確率モデルを示す情報を出力する制御部と、を有する確率モデル選択装置。
　請求の範囲第１項に記載の確率モデル選択装置において、
　前記制御部は、前記選択した確率モデルが全て同じではない場合、前記変化点を前記計算範囲指定部に通知し、
　前記計算範囲指定部は、前記制御部から前記変化点を受けると、前記範囲を、前記変化点を最初の時点とする範囲に変更する、確率モデル選択装置。
　請求の範囲第１項または請求の範囲第２項に記載の確率モデル選択装置において、
　前記制御部は、前記選択した確率モデルが全て同じ場合、前記変化点がなかった旨を前記計算範囲指定部へ通知し、
　前記計算範囲指定部は、前記制御部から前記変化点がなかった旨を受けると、前記範囲に、該範囲の直後の時点を加える、確率モデル選択装置。
　請求の範囲第１項ないし請求の範囲３項のいずれか１項に記載の確率モデル選択装置において、
　前記制御部は、
　前記計算範囲指定部で指定された範囲内の時点ごとに、前記複数の確率モデルのそれぞれの該時点までの時系列データに対する尤度を計算する計算部と、
　前記計算範囲指定部で指定された範囲内の時点ごとに、前記複数の確率モデルの中から前記計算部が計算した尤度が最も高い確率モデルを、該時点での前記時系列データの確率モデルとして選択する選択部と、
　前記選択部で選択された確率モデルが全て同じか否かを判定し、前記確率モデルが全て同じではない場合、前記変化点以前の各時点での確率モデルを示す情報を出力する変化点検出部と、を有する、確率モデル選択装置。
　時系列データが入力される確率モデル選択装置で行われる確率モデル選択方法であって、
　前記時系列データの確率モデルを推定する範囲を指定し、
　前記計算範囲指定部で指定された範囲内の時点ごとに、該時点での前記時系列データの確率モデルを、複数の確率モデルの中から、前記複数の確率モデルのそれぞれの該時点までの時系列データに対する尤度に基づいて選択し、
　前記選択した確率モデルが全て同じか否かを判定し、
　前記選択した確率モデルが全て同じではない場合、前記選択した確率モデルが最初に変化した時点である変化点以前の各時点の確率モデルを示す情報を出力する、確率モデル選択方法。
　請求の範囲第５項に記載の確率モデル選択方法において、
　前記選択した確率モデルが全て同じではない場合、前記範囲を、前記変化点を最初の時点とする範囲に変更する、確率モデル選択方法。
　請求の範囲第５項または請求の範囲第６項に記載の確率モデル選択方法において、
　前記選択した確率モデルが全て同じ場合、前記範囲に、該範囲の直後の時点を加える、確率モデル選択方法。
　時系列データが入力されるコンピュータに、
　前記時系列データの確率モデルを推定する範囲を指定する処理と、
　前記計算範囲指定部で指定された範囲内の時点ごとに、該時点での前記時系列データの確率モデルを、複数の確率モデルの中から、前記複数の確率モデルのそれぞれの該時点までの時系列データに対する尤度に基づいて選択する処理と、
　前記選択した確率モデルが全て同じか否かを判定する処理と、
　前記選択した確率モデルが全て同じではない場合、前記選択した確率モデルが最初に変化した時点である変化点以前の各時点の確率モデルを示す情報を出力する処理と、を実行させるプログラム。
　請求の範囲第８項に記載のプログラムにおいて、
　前記選択した確率モデルが全て同じではない場合、前記範囲を、前記変化点を最初の時点とする範囲に変更する処理を前記コンピュータに実行させるプログラム。
　請求の範囲第８項または請求の範囲第９項に記載のプログラムにおいて、
　前記選択した確率モデルが全て同じ場合、前記範囲に、該範囲の直後の時点を加える処理を前記コンピュータに実行させるプログラム。