JPWO2008087968A1 - 変化点検出方法および装置 - Google Patents

変化点検出方法および装置 Download PDF

Info

Publication number
JPWO2008087968A1
JPWO2008087968A1 JP2008554052A JP2008554052A JPWO2008087968A1 JP WO2008087968 A1 JPWO2008087968 A1 JP WO2008087968A1 JP 2008554052 A JP2008554052 A JP 2008554052A JP 2008554052 A JP2008554052 A JP 2008554052A JP WO2008087968 A1 JPWO2008087968 A1 JP WO2008087968A1
Authority
JP
Japan
Prior art keywords
probability distribution
change point
change
point detection
statistical model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008554052A
Other languages
English (en)
Inventor
俊亮 広瀬
俊亮 広瀬
山西 健司
健司 山西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2008087968A1 publication Critical patent/JPWO2008087968A1/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

【課題】時系列データに現れる統計的な変化点を精度良く検出する。【解決手段】第1のモデル学習部102は、時系列データ111の発生確率分布を、隠れ変数を含む有限個の変数で規定される第1の統計モデル(例えば隠れマルコフモデル)として学習する。以降の処理では、第1の統計モデル全体の確率分布だけでなく、その一部の確率分布(隠れ変数の確率分布、隠れ変数の値を条件とする条件付確率分布)、およびこれら複数の確率分布を重みを付けて線形結合した確率分布の各々について、確率分布の時間的な変化度を算出し、この算出した変化度に基づいて時系列データ111の変化点を検出する。【選択図】図1

Description

本発明はデータマイニング技術に関し、特に時系列データに対して変化度スコアを計算して統計的な変化点を検出する方法と装置に関する。
汎用のこの種装置の一例が、特許文献1に記載されている。この技術では、以下のようにして統計的な変化点を検出する。
まず、順次入力されるデータ系列の発生確率分布を有限個の変数で規定される第1の統計モデルとして学習する。次に、この学習した第1の統計モデルから予測されるデータと実際のデータとのずれの程度を表す外れ値スコアをデータ系列中の個々のデータについて算出し、その外れ値スコアの移動平均を算出する。
次に、外れ値スコアの移動平均の系列の発生確率分布を有限個の変数で規定される第2の統計モデルとして学習し、この学習した第2の統計モデルと外れ値スコアの移動平均とに基づいて各移動平均の外れ値スコアを計算し、それをもとのデータの変化度スコアとして出力する。そして、この変化度スコアを閾値と比較して変化点を検出する。
特開2004-54370号公報
上述した技術は、外れ値検出と変化点検出とを同一の枠組みで統一的に扱うようにした点で有効な技術であるが、変化点検出精度の向上は主眼としていない。
多くの場合、第1の統計モデルの確率分布が比較的大きく変化した箇所が、検出すべき変化点となる。しかし、第1の統計モデルの確率分布がそれほど変化していない箇所が、検出すべき変化点となる場合があり、そのときには検出漏れが生じる。逆に、第1の統計モデルの確率分布が比較的大きく変化した箇所が、検出すべきでない変化点となる場合があり、そのときには誤検出が生じる。データマイニングの分野では、変化点検出はトレンド変化検出や行動モニタリングとの関連で注目されており、その検出精度の一層の向上が期待されている。
本発明の目的は、時系列データに現れる統計的な変化点を検出する方法および装置において、検出漏れおよび誤検出を防止することにある。
前記目的を達成するため、本発明に係る変化点検出装置は、データの統計的な変化点を検出する変化点検出装置であって、
データの発生確率分布を、隠れ変数を含む有限個の変形で規定される統計モデルとして学習し、前記統計モデルの確率分布、その一部である隠れ変数の確率分布及び条件付き確率分布を推定する第1のモデル学習部と、前記推定された確率分布毎に変化度を求める第2のモデル学習部と、前記求めた確率分布毎の変化度に基づいて前記データに現れる変化点を検出する変化点検出部とを有することを特徴とするものである。
本発明に係る変化点検出方法は、データの統計的な変化点を検出する変化点検出方法であって、
データの発生確率分布を、隠れ変数を含む有限個の変形で規定される統計モデルとして学習し、前記統計モデルの確率分布、その一部である隠れ変数の確率分布及び条件付き確率分布を推定し、前記推定された確率分布毎に変化度を求め、前記求めた確率分布毎の変化度に基づいて前記データに現れる変化点を検出することを特徴とするものである。
本発明に係る変化点検出プログラムは、データの統計的な変化点を検出する変化点検出プログラムであって、
コンピュータに、
データの発生確率分布を、隠れ変数を含む有限個の変形で規定される統計モデルとして学習し、前記統計モデルの確率分布、その一部である隠れ変数の確率分布及び条件付き確率分布を推定する機能と、前記推定された確率分布毎に変化度を求める機能と、前記求めた確率分布毎の変化度に基づいて前記データに現れる変化点を検出する機能とを実行させることを特徴とするものである。
『作用』
隠れ変数を含む有限個の変数で規定される第1の統計モデルとして学習された発生確率分布を表す関数は、隠れ変数に関する部分とそれ以外の部分とに分けられる。確率分布的には、隠れ変数に関する関数部分は隠れ変数の確率分布を表し、それ以外の関数部分は隠れ変数の値を条件とする条件付確率分布を表す。元の確率分布全体の変化度に加えて、隠れ変数の確率分布の変化度、条件付確率分布の変化度、およびそれら複数の確率分布を重みを付けて線形結合した確率分布の変化度を算出し、変化点の検出に用いると、確率分布全体の変化度のみに基づいて変化点を検出していた場合に比べて、検出条件をきめ細かく設定できるようになる。また、さらに前記第1の統計モデルから算出される確率分布として、事後確率分布を用いれば、検出条件をより一層きめ細かく設定できるようになる。
本発明によれば、時系列データに現れる統計的な変化点の検出精度を高めることができる。その理由は、確率分布全体の変化度に加えて、その構成成分となる一部の確率分布の変化度、およびそれら複数の確率分布を重みを付けて線形結合した確率分布の変化度を算出し、変化点の検出に用いることができるため、確率分布全体の変化度のみに基づいて変化点を検出していた場合に比べて、検出条件をきめ細かく設定できるようになり、その分、検出漏れを少なくでき、誤検出を減らすことができるためである。
特に隠れ変数の分布の変化度という直接観測されていない量を算出することで、確率分布全体の変化を見る場合や出現したデータの確率分布の中での発生確率を見る場合には見えない情報をユーザに提示することや、その情報を変化点の検出に使うことができる。ここでいう他の場合には見えない情報とは、確率分布の学習の際に用いる統計モデルに依るが、例えば観測値の遷移の仕方の変化(頻度の変化は見ない。言語で例えるならば用いる単語の種類の変化は見ずに文法の変化のみを見ることに対応する)などが挙げられる。
次に、本発明の実施の形態について図面を参照して詳細に説明する。
『第1の実施の形態』
図1を参照すると、本発明の第1の実施の形態にかかる変化点検出装置は、プログラム制御によって動作するデータ処理装置100と、磁気ディスクや半導体メモリなどで構成される入力データ記憶部110、条件記憶部120、第1学習結果記憶部130、距離記憶部140、第2学習結果記憶部150およびスコア記憶部160と、キーボードなどで構成される入力装置170と、液晶ディスプレイなどで構成される表示装置180とを備えている。
入力データ記憶部110は、変化点の検出対象となる時系列データ111を記憶する。時系列データ111は、離散値変量、連続値変量の何れでも良く、またそれらが混合したものであっても良い。
条件記憶部120は、変化点検出処理の条件121を記憶する。本実施の形態の場合、条件121には、(a)複数の確率分布を線形結合する際の各確率分布の重みを与える結合係数、(b)変化点の検出条件が含まれている。(b)の変化点の検出条件では、複数種類のスコア系列のどれをどのように組み合わせ、どのような閾値を用いるのかが設定される。
第1学習結果記憶部130、距離記憶部140、第2学習結果記憶部150およびスコア記憶部160は、データ処理装置100が実行する変化点検出処理の過程で生成される第1学習結果131、距離計算結果141〜144、第2学習結果151〜154およびスコア計算結果161〜164をそれぞれ一時的に記憶する。
入力装置170は、ユーザから各種の設定指示やデータを受け付けてデータ処理装置100に入力する。
表示装置180は、データ処理装置100から出力されるデータを可視化してユーザに表示する。ここでは、処理結果等をユーザに出力する装置の一例として表示装置180を使用しているが、他の種類の出力装置、たとえばプリンタ等であっても良い。
データ処理装置100は、入力装置170から入力される設定指示に従って、入力データ記憶部110に記憶された時系列データ111を解析して統計的な変化点の検出を行い、その検出結果および解析過程のデータを表示装置180に表示する。データ処理装置100は、データ入力部101、第1のモデル学習部102、分布間距離算出部103、第2のモデル学習部104、変化度スコア算出部105、分布変化出力部106、変化点検出部107および条件入力部108を有する。これらの手段は、それぞれ以下のような機能を有する。
データ入力部101は、入力データ記憶部110から時系列データ111を順に入力して、第1のモデル学習部102に伝達する。
第1のモデル学習部102は、時系列データ111の発生確率分布を、隠れ変数を含む有限個の変数で規定される第1の統計モデルとして学習し、その学習結果131を記憶部130に記憶する。第1学習結果131には、第1の統計モデルを規定する有限個の変数の値の時系列データが含まれる。
分布間距離算出部103は、第1学習結果記憶部130から第1の統計モデルの学習結果131を順に読み出し、第1の統計モデル全体の確率分布、その一部の確率分布、およびこれら複数の確率分布を線形結合した確率分布の各々について、異なる時刻での確率分布間の距離を算出し、各確率分布毎の距離のデータ系列として距離記憶部140に保存する。本実施の形態の場合、分布間距離算出部103は、以下の4つの距離のデータ系列を生成する。
(1)第1の統計モデル全体の確率分布について、異なる時刻での確率分布間の距離を計算した結果の時系列データ(距離計算結果141)。
(2)隠れ変数の確率分布について、異なる時刻での確率分布間の距離を計算した結果の時系列データ(距離計算結果142)。
(3)隠れ変数の値を条件とする観測値の条件付確率分布について、異なる時刻での確率分布間の距離を計算した結果の時系列データ(距離計算結果143)。
(4)第1の統計モデル全体の確率分布、隠れ変数の確率分布および観測値の条件付確率分布を線形結合した確率分布について、異なる時刻での確率分布間の距離を計算した結果の時系列データ(距離計算結果144)。各確率分布の重みを規定する結合係数は、条件記憶部120から読み出した結合係数を用いる。
第2のモデル学習部104は、距離記憶部140から距離計算結果141〜144を読み出し、各距離計算結果141〜144毎に、その距離のデータ系列の発生確率分布を、有限個の変数で規定される第2の統計モデルとして学習し、その学習結果151〜154を第2学習結果記憶部150に保存する。各第2学習結果151〜154には、第2の統計モデルを規定する有限個の変数の値の時系列データが含まれる。第2のモデル学習部104と第1のモデル学習部102は、共にモデル学習部であるが、第1のモデル学習部102が時系列データ111の確率分布を推定する学習部であるのに対し、第2のモデル学習部104はその推定された確率分布の変化度を求める学習部である点で相違する。
変化度スコア算出部105は、距離記憶部140から距離計算結果141〜144を読み出し、第2学習結果記憶部150から第2学習結果151〜154を読み出し、各確率分布の距離のデータ系列毎に、第2の統計モデルから期待される値と実際の距離の値とのずれの程度を表す変化度スコアを算出し、スコア計算結果161〜164としてスコア記憶部160に保存する。スコア計算結果161〜164には、変化度スコアの値の時系列データが含まれる。
分布変化出力部106は、距離記憶部140に記憶された距離計算結果141〜144およびスコア記憶部160に記憶されたスコア計算結果161〜164の少なくとも一方を読み出し、それらの値の時間的な変化が視覚的に認識できるようにグラフ化して表示装置180に表示する。
変化点検出部107は、スコア記憶部160からスコア計算結果161〜164を読み出し、条件記憶部120から変化点の検出条件121を読み出し、スコア計算結果161〜164の時系列データに現れる変化点を検出条件に基づいて検出し、検出結果を表示装置180に表示する。
条件入力部108は、入力装置170および表示装置180を通じてユーザから変化点検出処理の条件121を受け付けて、条件記憶部120に保存する。
次に本実施の形態にかかる変化点検出装置の動作を説明する。
ユーザが、入力装置170から変化点の検出指示を入力すると、データ処理装置100は図2に示される処理の実行を開始する。
まず、データ処理装置100の条件入力部108は、変化点検出処理の条件121をユーザから入力し、条件記憶部120に保存する(S101)。
条件入力部108が表示装置180に表示する条件設定画面の一例を図3に示す。図中、201〜203は複数の確率分布を線形結合する際の結合係数c,c,cの入力欄であり、cは第1の統計モデルの確率分布全体の重み、cは隠れ変数の確率分布の重み、cは条件付確率分布の重みである。また、204〜207は使用するスコア系列の選択欄、208〜211は選択したスコア系列のデータと比較する閾値の入力欄、212、213は選択した複数のスコア系列の組み合わせ方がAND(論理積)、OR(論理和)の何れであるかを選択する欄である。
例えば、第1の統計モデルの確率分布と隠れ変数の確率分布と観測値の条件付確率分布との線形結合による確率分布の変化に基づいて変化点の検出を行いたい場合、ユーザは、入力欄201〜203に結合係数c,c,cの値を入力し、選択欄207を選択して、判定に使用する閾値を入力欄211に入力し、ORの選択欄213を選択する。また、例えば第1の統計モデルの確率分布および隠れ変数の確率分布の何れかが閾値を超えた箇所を変化点として検出したい場合、ユーザは、選択欄204、205を選択して、それぞれの判定に使用する閾値を入力欄208、209に入力し、ORの選択欄213を選択する。さらに、例えば第1の統計モデルの確率分布および隠れ変数の確率分布の双方で共に閾値を超えた箇所を変化点として検出したい場合、ユーザは、選択欄204、205を選択して、それぞれの判定に使用する閾値を入力欄208、209に入力し、ANDの選択欄212を選択する。
条件設定画面を通じて入力されたデータは、条件入力部108により条件記憶部120に保存される。なお、条件入力部108による条件の設定は、変化点検出処理の開始時点だけでなく、その後の任意の時点でも行えるようになっている。既に条件121が条件記憶部120に保存されている場合、新たに入力された条件で更新される。
次にデータ処理装置100の第1のモデル学習部102は、データ入力部101を通じて入力データ記憶部110から時系列データ111を順に読み出し、時系列データ111の確率分布を有限個のパラメータで規定される統計モデルとして学習し、学習したパラメータの値を含む第1学習結果131を第1学習結果記憶部130に保存する(S102)。
第1のモデル学習部102が学習する統計モデルは、確率分布を規定する有限個のパラメータのうちに隠れ変数を含むモデルを用いる。例えば、隠れマルコフモデルや、混合分布などを用いることができる。
今、隠れ変数をx(複数有る場合は、x,x,…)、観測値(時系列データ)をy(複数有る場合は、y,y,…)、時刻tでの観測値yの確率分布をpt(y)、時刻tでの隠れ変数xの確率分布をrt(x)とすると、例えば隠れマルコフモデルの場合、時刻tでの観測値yの確率分布pt(y)は数1のように表される。ただし、γtは隠れ変数の初期確率、aは隠れ変数の遷移を表す行列、bは観測値の条件付確率分布である。この場合、隠れ変数は観測値yの遷移の仕方を表している。
Figure 2008087968
また混合分布の場合、時刻tでの観測値yの確率分布p(y)は数2のように表される。ただし、q(y|x)は互いに線形結合される個々の確率分布、γt(x)は結合の重みである。この場合、隠れ変数xは観測値yが複数の確率分布のうちのどの分布から発生したかを表す。
Figure 2008087968
第1のモデル学習部102は、各時刻t毎に学習結果を出力するので、学習結果131は学習されたパラメータの時系列データになる。
次に、分布間距離算出部103は、第1のモデル学習部102で学習されたパラメータを含む第1学習結果131を第1学習結果記憶部130から読み出し、確率分布pt(y)および確率分布pt(y)の構成成分となる1以上の確率分布ごと、ならびにそれらの線形結合ごとに、異なる時刻での確率分布間の距離の移動平均を算出し、算出した値の時系列を各確率分布別に距離記憶部140に記憶する(S103)。
本実施の形態の場合、分布間距離算出部103は、確率分布p(y)の構成成分となる確率分布として、隠れ変数の確率分布、隠れ変数の値を条件とする観測値の条件付確率分布の2つの確率分布を用いる。従って、本実施の形態は、確率分布pt(y)、隠れ変数の確率分布、観測値の条件付確率分布の3つの確率分布と、それらを線形結合した確率分布について、異なる時刻での確率分布間の距離の移動平均を算出し、算出した値の時系列を距離計算結果141〜144として距離記憶部140に記憶する。ここで、観測値の条件付確率分布間の距離は、隠れ変数の値が条件となるので、観測値の条件付確率分布間の距離の隠れ状態に関する期待値となる。
確率分布間の距離の尺度としては、ヘリンガー距離やKL情報量等といった確率分布間の差異を表す量(確率分布間の差異が大きいほど値が大きくなる量)を用いることができる。
例えば学習の際の統計モデルとして隠れマルコフモデルを用い、確率分布間の距離としてKL情報量を用いた場合、分布間距離算出部103は、以下の数3〜数6に示すようなデータを各時刻t毎に計算し、距離計算結果141〜144として出力する。ここで、数3は確率分布pt(y)間の距離、数4は隠れ変数の確率分布間の距離、数5は観測値の条件付確率分布間の距離の隠れ状態に関する期待値、数6はこれら複数の確率分布を結合係数c〜cで線形結合した確率分布間の距離をそれぞれ表す。なお、結合係数c〜cが条件記憶部120に保存されていない場合、デフォルトの値を使用するか、あるいは数6の距離の算出を省略する。
Figure 2008087968
Figure 2008087968
Figure 2008087968
[数6]
(t) = ctotal(t) +c(t) + c(t)
第2のモデル学習部104は、分布間距離算出部103の距離計算結果141〜144を距離記憶部140から読み出し、各距離計算結果141〜144に含まれる時系列データそれぞれの確率分布を有限個のパラメータで規定される第2の統計モデルとしてそれぞれ学習し、学習したパラメータの値を含む第2学習結果151〜154を第2学習結果記憶部150に記憶する(S104)。
学習する第2の統計モデルとしては、時系列の発展を記述するモデルを用いる。例えば、自己回帰モデル(ARモデル)を用いることができる。自己回帰モデルでは、時刻tでの時系列の値をftとすると、例えば数7のように時間展開をモデル化し、係数a,aを学習する。ただし、ξはランダムに発生する雑音である。
[数7]
= a*f−1 + a*f−2 + ξ
変化度スコア算出部105は、分布間距離算出部103が算出した距離計算結果141〜144を距離記憶部140から読み出すと共に、第2のモデル学習部104の第2学習結果151〜154を第2学習結果記憶部150から読み出し、第2のモデル学習部104が学習した確率分布ごとに、その確率分布の変化の度合いをスコアとして算出し、そのスコア計算結果161〜164をスコア記憶部160に保存する(S105)。
スコアとしては、時系列の値と学習した確率分布から期待される値とのずれを表す量を用いる。例えば、各時刻tでの時系列の値の、学習された確率分布の対数損失を用いることができる。この場合、時刻tで実際に観測された量(確率分布の変化量)をz、zt−1までの量から学習された、分布の変化量の時系列の確率分布をpt−1(z)とするとき、対数損失は数8のように表される。
[数8]
対数損失=−log pt−1(z
数8において、pt-1(zt)は一つ前の時刻のモデルから見た現在の時刻の量の発生確率であり、現在の時刻の量がそれまでのモデルから外れていなければ大きい値になり、それまでのモデルから外れた例外的な量であれば小さい値になる。その量の対数のマイナス1倍をとっているので、対数損失の値は、現在の時刻の量がそれまで学習されたモデルから外れているほど大きくなる。
分布変化出力部106は、距離記憶部140に記憶された距離計算結果141〜144およびスコア記憶部160に記憶されたスコア計算結果161〜164の少なくとも一方を読み出し、値の時間的な変化が視覚的に認識できるようにグラフ化して、表示装置180に表示する(S106)。その表示例を図4に示す。ここでは、数3〜数5で表される時系列データの変化度スコアを示し、数6のグラフは図示を省略している。
図4を参照すると、確率分布全体の変化では時刻t,t,tの3箇所でスコアが大きくなっており、隠れ変数の確率分布の変化では時刻t,tの2箇所でスコアが大きくなっており、条件付確率分布の変化では時刻tの1箇所でスコアが大きくなっている。このように図4のような表示例では、モデルの全体構造(確率分布)や部分的な構造が急激に変化したところを視覚的に容易に認識することができる。
上記では変化度スコアを表示したが、その算出の元となる距離計算結果141〜144の時系列データを同様にグラフ化して表示しても良い。その場合、距離計算結果141〜144の時系列データそのものを表示しても良い。また、分布間の距離の行列を或る時間内で求めてMDS(多次元尺度法)等を用いて各時刻での確率分布を低次元のベクトルで表現しても良く、例えば、学習の際のモデルとして混合分布を用い、分布間の距離としてヘリンガー距離を用い、分布全体の変化を見る場合、求める距離行列は数9のようになる。
Figure 2008087968
分布間距離算出部103が算出した確率分布の変化を示す時系列データそのものの変化をグラフ化した表示例を図5に、確率分布間の距離の行列を或る時間内で求めてMDS等を用いて各時刻での分布を低次元のベクトルで表現した表示例を図6にそれぞれ示す。なお、何れのグラフも、複数の確率分布のうちの何れか1つの確率分布に関するものである。図5のような表示例では、モデルの変化量そのものを表示することで、急激な変化が起こったかどうかということ以外にも、例えば、常に変化量が多いとか、その逆とかといった情報を視覚的に認識することができる。また図6のような表示例では、確率分布が各時点でどれだけ変化したかではなく、過去と比較してどの辺りにいるのかも含めて観察することができる。
次に、変化点検出部107は、変化度スコア算出部105が算出したスコア計算結果161〜164をスコア記憶部160から読み出し、条件記憶部120の条件121で指定されている検出方法に従って、変化点の検出を行い、検出結果を表示装置180に表示する(S107)。
上述した処理は時系列データ111が無くなるまで繰り返し実行される。
次に本実施の形態の効果を説明する。
ユーザは、表示装置180に表示された検出結果により、時系列データ111に現れる統計的な変化点を認識することができる。
またユーザは、時系列データ111の一部分に、検出すべき変化点かどうかの判断が既に付いているデータがある場合、その知識を用いて変化点検出処理のチューニング作業を行うことができる。すなわち、検出すべき変化点が漏れなく検出でき、また誤検出が無くなるように、条件記憶部120の条件121を変更することができる。
このようなチューニング作業は、第1の統計モデルの確率分布全体しか扱っていない場合には、その確率分布全体の変化度スコアと比較するための閾値を調整する程度のことしか行えない。しかし、本実施の形態の場合、第1の統計モデルの確率分布に加えて、その一部の確率分布である隠れ変数の確率分布と条件付確率分布、さらにそれらを線形結合した確率分布という、4種類の確率分布を扱っているため、きめ細かなチューニングが可能になる。
例えば、図4の時刻t,t,tの3箇所のうち、時刻t,tの2箇所の変化は異常な変化なので検出すべきであり、時刻tの箇所の変化は異常でないので検出すべきでないとする。このとき、確率分布全体の変化度を或る閾値と比較して変化点を検出する汎用の技術では、時刻tと時刻tの変化点を区別して検出することはできない。これに対して本実施の形態によれば、例えば、確率分布全体の変化度が或る閾値より大きく、かつ、隠れ変数の確率分布の変化度が或る閾値より大きい箇所を変化点と検出するように条件121を変更するか、あるいは結合係数cを0にして、実質的に確率分布全体と隠れ変数の確率分布との線形結合にした確率分布が或る閾値を超えた箇所を変化点として検出するように条件121を変更することで、時刻tと時刻tの変化点を区別して検出することができるようになる。
『第2の実施の形態』
図7を参照すると、本発明の第2の実施の形態にかかる変化点検出装置は、プログラム制御によって動作するデータ処理装置300と、磁気ディスクや半導体メモリなどで構成される入力データ記憶部310、条件記憶部320、第1学習結果記憶部330、距離記憶部340、第2学習結果記憶部350およびスコア記憶部360と、キーボードなどで構成される入力装置370と、液晶ディスプレイなどで構成される表示装置380とを備えている。
入力データ記憶部310は、変化点の検出対象となる時系列データ311を記憶する。時系列データ311は、離散値変量、連続値変量の何れでも良く、またそれらが混合したものであっても良い。
条件記憶部320は、変化点検出処理の条件321を記憶する。本実施の形態の場合、条件321には、(a)複数の確率分布を線形結合する際の各確率分布の重みを与える結合係数、(b)変化点の検出条件が含まれている。(b)の変化点の検出条件では、複数種類のスコア系列のどれをどのように組み合わせ、どのような閾値を用いるのかが設定される。
第1学習結果記憶部330、距離記憶部340、第2学習結果記憶部350およびスコア記憶部360は、データ処理装置300が実行する変化点検出処理の過程で生成される第1学習結果331、距離計算結果341〜345、第2学習結果351〜355およびスコア計算結果361〜365をそれぞれ一時的に記憶する。
入力装置370は、ユーザから各種の設定指示やデータを受け付けてデータ処理装置300に入力する。
表示装置380は、データ処理装置300から出力されるデータを、可視化してユーザに表示する。ここでは、処理結果等をユーザに出力する装置の一例として表示装置380を使用しているが、他の種類の出力装置、たとえばプリンタ等であっても良い。
データ処理装置300は、入力装置370から入力される設定指示に従って、入力データ記憶部310に記憶された時系列データ311を解析して統計的な変化点の検出を行い、その検出結果および解析過程のデータを表示装置380に表示する。データ処理装置300は、データ入力部301、第1のモデル学習部302、分布間距離算出部303、第2のモデル学習部304、変化度スコア算出部305、分布変化出力部306、変化点検出部307および条件入力部308を有する。これらの手段は、それぞれ以下のような機能を有する。
データ入力部301は、入力データ記憶部310から時系列データ311を順に入力して、第1のモデル学習部302に伝達する。
第1のモデル学習部302は、時系列データ311の発生確率分布を、隠れ変数を含む有限個の変数で規定される第1の統計モデルとして学習し、その学習結果331を記憶部330に記憶する。第1学習結果331には、第1の統計モデルを規定する有限個の変数の値の時系列データが含まれる。
分布間距離算出部303は、第1学習結果記憶部330から第1の統計モデルの学習結果331を順に読み出し、第1の統計モデル全体の確率分布、その一部の確率分布、前記第1の統計モデルから算出される確率モデル、およびこれら複数の確率分布を線形結合した確率分布の各々について、異なる時刻での確率分布間の距離を算出し、各確率分布毎の距離のデータ系列として距離記憶部340に保存する。本実施の形態の場合、分布間距離算出部303は、以下の5つの距離のデータ系列を生成する。
(1)第1の統計モデル全体の確率分布について、異なる時刻での確率分布間の距離を計算した結果の時系列データ(距離計算結果341)。
(2)隠れ変数の確率分布について、異なる時刻での確率分布間の距離を計算した結果の時系列データ(距離計算結果342)。
(3)隠れ変数の値を条件とする観測値の条件付確率分布について、異なる時刻での確率分布間の距離を計算した結果の時系列データ(距離計算結果343)。
(4)第1の統計モデルから算出される確率分布として事後確率分布を用い、この事後確率分布について、異なる時刻での確率分布間の距離を計算した結果の時系列データ(距離計算結果344)。
(5)第1の統計モデル全体の確率分布、隠れ変数の確率分布、観測値の条件付確率分布および事後確率分布を線形結合した確率分布について、異なる時刻での確率分布間の距離を計算した結果の時系列データ(距離計算結果345)。各確率分布の重みを規定する結合係数は、条件記憶部320から読み出した結合係数を用いる。
第2のモデル学習部304は、距離記憶部340から距離計算結果341〜345を読み出し、各距離計算結果341〜345毎に、その距離のデータ系列の発生確率分布を、有限個の変数で規定される第2の統計モデルとして学習し、その学習結果351〜355を第2学習結果記憶部350に保存する。各第2学習結果351〜355には、第2の統計モデルを規定する有限個の変数の値の時系列データが含まれる。第2のモデル学習部304と第1のモデル学習部302は、共にモデル学習部であるが、第1のモデル学習部302が時系列データ311の確率分布を推定する学習部であるのに対し、第2のモデル学習部304はその推定された確率分布の変化度を求める学習部である点で相違する。
変化度スコア算出部305は、距離記憶部340から距離計算結果341〜345を読み出し、第2学習結果記憶部350から第2学習結果351〜355を読み出し、各確率分布の距離のデータ系列毎に、第2の統計モデルから期待される値と実際の距離の値とのずれの程度を表す変化度スコアを算出し、スコア計算結果361〜365としてスコア記憶部360に保存する。スコア計算結果361〜365には、変化度スコアの値の時系列データが含まれる。
分布変化出力部306は、距離記憶部340に記憶された距離計算結果341〜345およびスコア記憶部360に記憶されたスコア計算結果361〜365の少なくとも一方を読み出し、それらの値の時間的な変化が視覚的に認識できるようにグラフ化して表示装置380に表示する。
変化点検出部307は、スコア記憶部360からスコア計算結果361〜365を読み出し、条件記憶部320から変化点の検出条件321を読み出し、スコア計算結果361〜365の時系列データに現れる変化点を検出条件に基づいて検出し、検出結果を表示装置380に表示する。
条件入力部308は、入力装置370および表示装置380を通じてユーザから変化点検出処理の条件321を受け付けて、条件記憶部320に保存する。
次に本実施の形態にかかる変化点検出装置の動作を説明する。
ユーザが、入力装置370から変化点の検出指示を入力すると、データ処理装置300は図2に示される第1の実施の形態における変化点検出装置の動作を示すフローチャートと同様の処理の実行を開始する。
まず、データ処理装置300の条件入力部308は、変化点検出処理の条件321をユーザから入力し、条件記憶部320に保存する(S101)。
条件入力部308が表示装置380に表示する条件設定画面の一例を図8に示す。図中、401〜404は複数の確率分布を線形結合する際の結合係数c,c,c,cの入力欄であり、cは第1の統計モデルの確率分布全体の重み、cは隠れ変数の確率分布の重み、cは条件付確率分布の重み、cは事後確率分布の重みである。また、405〜409は使用するスコア系列の選択欄、410〜414は選択したスコア系列のデータと比較する閾値の入力欄、415、416は選択した複数のスコア系列の組み合わせ方がAND(論理積)、OR(論理和)の何れであるかを選択する欄である。
例えば、第1の統計モデルの確率分布と隠れ変数の確率分布と観測値の条件付確率分布と事後確率分布との線形結合による確率分布の変化に基づいて変化点の検出を行いたい場合、ユーザは、入力欄401〜404に結合係数c,c,c,cの値を入力し、選択欄409を選択して、判定に使用する閾値を入力欄414に入力し、ORの選択欄416を選択する。また、例えば第1の統計モデルの確率分布および隠れ変数の確率分布の何れかが閾値を超えた箇所を変化点として検出したい場合、ユーザは、選択欄405、406を選択して、それぞれの判定に使用する閾値を入力欄410、411に入力し、ORの選択欄416を選択する。さらに、例えば第1の統計モデルの確率分布および隠れ変数の確率分布の双方で共に閾値を超えた箇所を変化点として検出したい場合、ユーザは、選択欄405、406を選択して、それぞれの判定に使用する閾値を入力欄410、411に入力し、ANDの選択欄415を選択する。
条件設定画面を通じて入力されたデータは、条件入力部308により条件記憶部320に保存される。なお、条件入力部308による条件の設定は、変化点検出処理の開始時点だけでなく、その後の任意の時点でも行えるようになっている。既に条件321が条件記憶部320に保存されている場合、新たに入力された条件で更新される。
次にデータ処理装置300の第1のモデル学習部302は、データ入力部301を通じて入力データ記憶部310から時系列データ311を順に読み出し、時系列データ311の確率分布を有限個のパラメータで規定される統計モデルとして学習し、学習したパラメータの値を含む第1学習結果331を第1学習結果記憶部330に保存する(S102)。
第1のモデル学習部302が学習する統計モデルは、確率分布を規定する有限個のパラメータのうちに隠れ変数を含むモデルを用いる。本実施の形態の場合、混合分布を用いる。第1の実施の形態で説明したように、混合分布の場合、時刻tでの観測値yの確率分布p(y)は数2のように表され、隠れ変数xは観測値yが複数の確率分布のうちのどの分布から発生したかを表す。また、事後確率分布p(x|y)は、yが観測されたことが判っているという条件の下でyがどのxから発生したかの確率を表し、学習されたモデルから数10のようにして算出される。
[数10]
(x|y)=γ(x)q(y|x)/(Σxγ(x)q(y|x))
第1のモデル学習部302は、各時刻t毎に学習結果を出力するので、学習結果331は学習されたパラメータの時系列データになる。
次に、分布間距離算出部303は、第1のモデル学習部302で学習されたパラメータを含む第1学習結果331を第1学習結果記憶部330から読み出し、確率分布pt(y)、確率分布pt(y)の構成成分となる1以上の確率分布および事後確率分布ごと、ならびにそれらの線形結合ごとに、異なる時刻での確率分布間の距離の移動平均を算出し、算出した値の時系列を各確率分布別に距離記憶部340に記憶する(S103)。
本実施の形態の場合、分布間距離算出部303は、確率分布p(y)の構成成分となる確率分布として、隠れ変数の確率分布、隠れ変数の値を条件とする観測値の条件付確率分布の2つの確率分布を用いる。従って、本実施の形態は、確率分布pt(y)、隠れ変数の確率分布、観測値の条件付確率分布、および事後確率分布の4つの確率分布と、それらを線形結合した確率分布について、異なる時刻での確率分布間の距離の移動平均を算出し、算出した値の時系列を距離計算結果341〜345として距離記憶部340に記憶する。ここで、観測値の条件付確率分布間の距離は、隠れ変数の値が条件となるので、観測値の条件付確率分布間の距離の隠れ状態に関する期待値となる。
確率分布間の距離の尺度としては、ヘリンガー距離やKL情報量等といった確率分布間の差異を表す量(確率分布間の差異が大きいほど値が大きくなる量)を用いることができる。
第2のモデル学習部304は、分布間距離算出部303の距離計算結果341〜345を距離記憶部340から読み出し、各距離計算結果341〜345に含まれる時系列データそれぞれの確率分布を有限個のパラメータで規定される第2の統計モデルとしてそれぞれ学習し、学習したパラメータの値を含む第2学習結果351〜355を第2学習結果記憶部350に記憶する(S104)。
学習する第2の統計モデルとしては、時系列の発展を記述するモデルを用いる。例えば、自己回帰モデル(ARモデル)を用いることができる。
変化度スコア算出部305は、分布間距離算出部303が算出した距離計算結果341〜345を距離記憶部340から読み出すと共に、第2のモデル学習部304の第2学習結果351〜355を第2学習結果記憶部350から読み出し、第2のモデル学習部304が学習した確率分布ごとに、その確率分布の変化の度合いをスコアとして算出し、そのスコア計算結果361〜365をスコア記憶部360に保存する(S105)。
スコアとしては、時系列の値と学習した確率分布から期待される値とのずれを表す量を用いる。例えば、各時刻tでの時系列の値の、学習された確率分布の対数損失を用いることができる。
分布変化出力部306は、距離記憶部340に記憶された距離計算結果341〜345およびスコア記憶部360に記憶されたスコア計算結果361〜365の少なくとも一方を読み出し、値の時間的な変化が視覚的に認識できるようにグラフ化して、表示装置380に表示する(S106)。また、変化度スコアを表示する代わりに、その算出の元となる距離計算結果341〜345の時系列データを同様にグラフ化して表示しても良い。その場合、距離計算結果341〜345の時系列データそのものを表示しても良い。また、分布間の距離の行列を或る時間内で求めてMDS(多次元尺度法)等を用いて各時刻での確率分布を低次元のベクトルで表現しても良い。
次に、変化点検出部307は、変化度スコア算出部305が算出したスコア計算結果361〜365をスコア記憶部360から読み出し、条件記憶部320の条件321で指定されている検出方法に従って、変化点の検出を行い、検出結果を表示装置380に表示する(S107)。
上述した処理は時系列データ311が無くなるまで繰り返し実行される。
次に本実施の形態の効果を説明する。
ユーザは、表示装置380に表示された検出結果により、時系列データ311に現れる統計的な変化点を認識することができる。
またユーザは、時系列データ311の一部分に、検出すべき変化点かどうかの判断が既に付いているデータがある場合、その知識を用いて変化点検出処理のチューニング作業を行うことができる。すなわち、検出すべき変化点が漏れなく検出でき、また誤検出が無くなるように、条件記憶部320の条件321を変更することができる。このようなチューニング作業は、第1の統計モデルの確率分布全体しか扱っていない場合には、その確率分布全体の変化度スコアと比較するための閾値を調整する程度のことしか行えない。しかし、本実施の形態の場合、第1の統計モデルの確率分布に加えて、その一部の確率分布である隠れ変数の確率分布と条件付確率分布、事後確率分布、さらにそれらを線形結合した確率分布という、5種類の確率分布を扱っているため、きめ細かなチューニングが可能になる。
次に、本発明の他の実施形態について説明する。本発明の他の実施形態に係る変化点検出装置は、順次入力されるデータ系列の発生確率分布を、隠れ変数を含む有限個の変数で規定される第1の統計モデルとして学習し、前記第1の統計モデル全体の確率分布、前記第1の統計モデルの一部の確率分布、およびこれら複数の確率分布を線形結合した確率分布の各々について、確率分布の時間的な変化度を算出し、該算出した変化度に基づいて前記データ系列の変化点を検出する構成としてもよいものである。
本発明の他の実施形態に係る変化点検出装置は、順次入力されるデータ系列の発生確率分布を、隠れ変数を含む有限個の変数で規定される第1の統計モデルとして学習し、前記第1の統計モデル全体の確率分布、前記第1の統計モデルの一部の確率分布、前記第1の統計モデルから算出される確率分布、およびこれら複数の確率分布を線形結合した確率分布の各々について、確率分布の時間的な変化度を算出し、該算出した変化度に基づいて前記データ系列の変化点を検出する構成としてもよいものである。
本発明の他の実施形態に係る変化点検出装置は、順次入力されるデータ系列の発生確率分布を、隠れ変数を含む有限個の変数で規定される第1の統計モデルとして学習し、その学習結果を保存する第1のモデル学習部と、該第1のモデル学習部の学習結果を読み込み、前記第1の統計モデル全体の確率分布、前記第1の統計モデルの一部の確率分布、およびこれら複数の確率分布を条件記憶部に記憶された結合係数を用いて線形結合した確率分布の各々について、異なる時刻での確率分布間の距離を算出し、各確率分布毎の距離のデータ系列として保存する分布間距離算出部と、該分布間距離算出部の算出結果を読み込み、各距離のデータ系列の発生確率分布を、有限個の変数で規定される第2の統計モデルとして学習し、その学習結果を保存する第2のモデル学習部と、該第2のモデル学習部の学習結果および前記分布間距離算出部の算出結果を読み込み、前記各距離のデータ系列毎に、第2の統計モデルから期待される値と実際の距離の値とのずれの程度を表す変化度スコアを算出して保存する変化度スコア算出部と、該変化度スコア算出部の算出結果および前記分布間距離算出部の算出結果の少なくとも一方を出力装置から出力する分布変化出力部と、前記変化度スコア算出部の算出結果と前記条件記憶部に記憶された検出条件とに基づいて変化点を検出し、検出結果を前記出力装置から出力する変化点検出部と、入力装置から入力された検出条件および結合係数を前記条件記憶部に保存する条件入力部とを備えた構成としてもよいものである。
本発明の他の実施形態に係る変化点検出装置は、順次入力されるデータ系列の発生確率分布を、隠れ変数を含む有限個の変数で規定される第1の統計モデルとして学習し、その学習結果を保存する第1のモデル学習部と、該第1のモデル学習部の学習結果を読み込み、前記第1の統計モデル全体の確率分布、前記第1の統計モデルの一部の確率分布、前記第1の統計モデルから算出される確率分布、およびこれら複数の確率分布を条件記憶部に記憶された結合係数を用いて線形結合した確率分布の各々について、異なる時刻での確率分布間の距離を算出し、各確率分布毎の距離のデータ系列として保存する分布間距離算出部と、該分布間距離算出部の算出結果を読み込み、各距離のデータ系列の発生確率分布を、有限個の変数で規定される第2の統計モデルとして学習し、その学習結果を保存する第2のモデル学習部と、該第2のモデル学習部の学習結果および前記分布間距離算出部の算出結果を読み込み、前記各距離のデータ系列毎に、第2の統計モデルから期待される値と実際の距離の値とのずれの程度を表す変化度スコアを算出して保存する変化度スコア算出部と、該変化度スコア算出部の算出結果および前記分布間距離算出部の算出結果の少なくとも一方を出力装置から出力する分布変化出力部と、前記変化度スコア算出部の算出結果と前記条件記憶部に記憶された検出条件とに基づいて変化点を検出し、検出結果を前記出力装置から出力する変化点検出部と、入力装置から入力された検出条件および結合係数を前記条件記憶部に保存する条件入力部とを備えた構成としてもよいものである。
前記第1の統計モデルの一部の確率分布として、隠れ変数の確率分布を用いてもよいものである。前記第1の統計モデルの一部の確率分布として、隠れ変数の値を条件とする観測値の条件付確率分布を用いてもよいものである。また、前記第1の統計モデルから算出される確率分布として、事後確率分布を用いてもよいものである。また、前記検出条件は、前記各距離のデータ系列毎に求められた複数種類の変化度スコアのどれをどのように組み合わせ、どのような閾値を用いるのかの指定を含むものであってもよいものである。
本発明の他の実施形態に係る変化点検出方法は、コンピュータを用いてデータ系列の統計的な変化点を検出する方法であって、前記コンピュータが、順次入力されるデータ系列の発生確率分布を、隠れ変数を含む有限個の変数で規定される第1の統計モデルとして学習し、その学習結果を第1の学習結果として保存する第1のステップと、前記コンピュータが、前記第1の学習結果を読み込み、前記第1の統計モデル全体の確率分布、前記第1の統計モデルの一部の確率分布、およびこれら複数の確率分布を条件記憶部に記憶された結合係数を用いて線形結合した確率分布の各々について、異なる時刻での確率分布間の距離を算出し、各確率分布毎の距離のデータ系列として保存する第2のステップと、前記コンピュータが、前記各確率分布毎の距離のデータ系列を読み込み、各距離のデータ系列の発生確率分布を、有限個の変数で規定される第2の統計モデルとして学習し、その学習結果を第2の学習結果として保存する第3のステップと、前記コンピュータが、前記第2の学習結果と前記各確率分布毎の距離のデータ系列とを読み込み、前記各距離のデータ系列毎に、第2の統計モデルから期待される値と実際の距離の値とのずれの程度を表す変化度スコアを算出してスコア計算結果として保存する第4のステップと、前記コンピュータが、前記スコア計算結果および前記各確率分布毎の距離のデータ系列の少なくとも一方を出力装置から出力する第5のステップと、前記コンピュータが、前記スコア計算結果および条件記憶部に記憶された検出条件に基づいて変化点を検出し、検出結果を前記出力装置から出力する第6のステップと、前記コンピュータが、入力装置から入力された検出条件および結合係数を前記条件記憶部に保存する第7のステップとを含む構成としてもよいものである。
本発明の他の実施形態に係る変化点検出方法は、コンピュータを用いてデータ系列の統計的な変化点を検出する方法であって、前記コンピュータが、順次入力されるデータ系列の発生確率分布を、隠れ変数を含む有限個の変数で規定される第1の統計モデルとして学習し、その学習結果を第1の学習結果として保存する第1のステップと、前記コンピュータが、前記第1の学習結果を読み込み、前記第1の統計モデル全体の確率分布、前記第1の統計モデルの一部の確率分布、前記第1の統計モデルから算出される確率分布、およびこれら複数の確率分布を条件記憶部に記憶された結合係数を用いて線形結合した確率分布の各々について、異なる時刻での確率分布間の距離を算出し、各確率分布毎の距離のデータ系列として保存する第2のステップと、前記コンピュータが、前記各確率分布毎の距離のデータ系列を読み込み、各距離のデータ系列の発生確率分布を、有限個の変数で規定される第2の統計モデルとして学習し、その学習結果を第2の学習結果として保存する第3のステップと、前記コンピュータが、前記第2の学習結果と前記各確率分布毎の距離のデータ系列とを読み込み、前記各距離のデータ系列毎に、第2の統計モデルから期待される値と実際の距離の値とのずれの程度を表す変化度スコアを算出してスコア計算結果として保存する第4のステップと、前記コンピュータが、前記スコア計算結果および前記各確率分布毎の距離のデータ系列の少なくとも一方を出力装置から出力する第5のステップと、前記コンピュータが、前記スコア計算結果および条件記憶部に記憶された検出条件に基づいて変化点を検出し、検出結果を前記出力装置に出力する第6のステップと、前記コンピュータが、入力装置から入力された検出条件および結合係数を前記条件記憶部に保存する第7のステップとを含む構成としてもよいものである。
また、前記変化点検出方法において、前記第1の統計モデルの一部の確率分布として、隠れ変数の確率分布を用いてもよいものである。また、前記第1の統計モデルの一部の確率分布として、隠れ変数の値を条件とする観測値の条件付確率分布を用いてもよいものである。また、前記第1の統計モデルから算出される確率分布として、事後確率分布を用いてもよいものである。
以上本発明の実施の形態について説明したが、本発明は以上の実施の形態にのみ限定されず、その他各種の付加変更が可能である。また、本発明の変化点検出装置は、その有する機能をハードウェア的に実現することは勿論、コンピュータとプログラムとで実現することができる。プログラムは、磁気ディスクや半導体メモリ等のコンピュータ可読記録媒体に記録されて提供され、コンピュータの立ち上げ時などにコンピュータに読み取られ、そのコンピュータの動作を制御することにより、そのコンピュータを前述した実施の形態におけるデータ入力部101、301、第1のモデル学習部102、302、分布間距離算出部103、303、第2のモデル学習部104、304、変化度スコア算出部105、305、分布変化出力部106、306、変化点検出部107、307および条件入力部108、308として機能させ、また前述した処理を行わせる。
以上、実施形態(及び実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は2007年1月17日に出願された日本出願特願2007−008027を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明の第1の実施の形態にかかる変化点検出装置のブロック図である。 本発明の第1の実施の形態にかかる変化点検出装置の動作を示すフローチャートである。 本発明の第1の実施の形態にかかる変化点検出装置における条件設定画面の一例を示す図である。 本発明の第1の実施の形態にかかる変化点検出装置における変化度スコアの表示例を示す図である。 本発明の第1の実施の形態にかかる変化点検出装置において、確率分布の変化を示す時系列データの表示例を示す図である。 本発明の第1の実施の形態にかかる変化点検出装置において、確率分布間の距離の行列を或る時間内で求めてMDS等を用いて各時刻での分布を低次元のベクトル で表現した表示例を示す図である。 本発明の第2の実施の形態にかかる変化点検出装置のブロック図である。 本発明の第2の実施の形態にかかる変化点検出装置における条件設定画面の一例を示す図である。
符号の説明
100、300…データ処理装置
101、301…データ入力部
102、302…第1のモデル学習部
103、303…分布間距離算出部
104、304…第2のモデル学習部
105、305…変化度スコア算出部
106、306…分布変化出力部
107、307…変化点検出部
108、308…条件入力部
110、310…入力データ記憶部
111、311…時系列データ
120、320…条件記憶部
121、321…条件
130、330…第1学習結果記憶部
131、331…第1学習結果
140、340…距離記憶部
141〜144、341〜345…距離計算結果
150、350…第2学習結果記憶部
151〜154、351〜355…第2学習結果
160、360…スコア記憶部
161〜164、361〜365…スコア計算結果
170、370…入力装置
180、380…表示装置
【0002】
では、変化点検出はトレンド変化検出や行動モニタリングとの関連で注目されており、その検出精度の一層の向上が期待されている。
[0008]
本発明の目的は、時系列データに現れる統計的な変化点を検出する方法および装置において、検出漏れおよび誤検出を防止することにある。
課題を解決するための手段
[0009]
前記目的を達成するため、本発明に係る変化点検出装置は、データの統計的な変化点を検出する変化点検出装置であって、
データの発生確率分布を、隠れ変数を含む有限個の分布の混合として規定される統計モデルとして学習し、前記統計モデルの確率分布、その一部である隠れ変数の確率分布及び条件付き確率分布を推定する第1のモデル学習部と、
各距離計算結果に含まれる時系列データそれぞれの確率分布を有限個のパラメータで規定される第2の統計モデルとしてそれぞれ学習する第2のモデル学習部と、
前記第2のモデル学習部が学習した確率分布ごとに、その確率分布の変化の度合いをスコアとして算出する変化度スコア算出部と、
前記求めた確率分布毎の変化度に基づいて前記データに現れる変化点を検出する変化点検出部とを有することを特徴とするものである。
[0010]
本発明に係る変化点検出方法は、データの統計的な変化点を検出する変化点検出方法であって、
データの発生確率分布を、隠れ変数を含む有限個の分布の混合として規定される統計モデルとして学習し、前記統計モデルの確率分布、その一部である隠れ変数の確率分布及び条件付き確率分布を推定し、
各距離計算結果に含まれる時系列データそれぞれの確率分布を有限個のパラメータで規定される第2の統計モデルとしてそれぞれ学習し、
前記学習した確率分布ごとに、その確率分布の変化の度合いをスコアとして算出し、
前記推定された確率分布毎に変化度を求め、
前記求めた確率分布毎の変化度に基づいて前記データに現れる変化点を検出することを特徴とするものである。
[0011]
本発明に係る変化点検出プログラムは、データの統計的な変化点を検出する変化点検出プログラムであって、
コンピュータに、
データの発生確率分布を、隠れ変数を含む有限個の分布の混合として規定される統計モデルとして学習し、前記統計モデルの確率分布、その一部である隠れ変数の確率分布及び条件付き確率分布を推定する機能と、
各距離計算結果に含まれる時系列データそれぞれの確率分布を有限個のパラメータで規定される第2の統計モデルとしてそれぞれ学習する機能と、
前記第2のモデル学習部が学習した確率分布ごとに、その確率分布の変化の度合いをスコアとして算出する機能と、
前記推定された確率分布毎に変化度を求める機能と、
前記求めた確率分布毎の変化度に基づいて前記データに現れる変化点を検出する機能とを実行させることを特徴とするものである。
【0003】
[0012]
『作用』
隠れ変数を含む有限個の分布の混合として規定される第1の統計モデルとして学習された発生確率分布を表す関数は、隠れ変数に関する部分とそれ以外の部分とに分けられる。確率分布的には、隠れ変数に関する関数部分は隠れ変数の確率分布を表し、それ以外の関数部分は隠れ変数の値を条件とする条件付確率分布を表す。元の確率分布全体の変化度に加えて、隠れ変数の確率分布の変化度、条件付確率分布の変化度、およびそれら複数の確率分布を重みを付けて線形結合した確率分布の変化度を算出し、変化点の検出に用いると、確率分布全体の変化度のみに基づいて変化点を検出していた場合に比べて、検出条件をきめ細かく設定できるようになる。また、さらに前記第1の統計モデルから算出される確率分布として、事後確率分布を用いれば、検出条件をより一層きめ細かく設定できるようになる。
発明の効果
[0013]
本発明によれば、時系列データに現れる統計的な変化点の検出精度を高めることができる。その理由は、確率分布全体の変化度に加えて、その構成成分となる一部の確率分布の変化度、およびそれら複数の確率分布を重みを付けて線形結合した確率分布の変化度を算出し、変化点の検出に用いることができるため、確率分布全体の変化度のみに基づいて変化点を検出していた場合に比べて、検出条件をきめ細かく設定できるようになり、その分、検出漏れを少なくでき、誤検出を減らすことができるためである。
[0014]
特に隠れ変数の分布の変化度という直接観測されていない量を算出することで、確率分布全体の変化を見る場合や出現したデータの確率分布の中での発生確率を見る場合には見えない情報をユーザに提示することや、その情報を変化点の検出に使うことができる。ここでいう他の場合には見えない情報とは、確率分布の学習の際に用いる統計モデルに依るが、例えば観測値の遷移の仕方の変化(頻度の変化は見ない。言語で例えるならば用いる単語の種類の変化は見ずに文法の変化のみを見ることに対応する)などが挙げられる。
発明を実施するための最良の形態
[0015]
次に、本発明の実施の形態について図面を参照して詳細に説明する。

Claims (18)

  1. データの統計的な変化点を検出する変化点検出装置であって、
    データの発生確率分布を、隠れ変数を含む有限個の変形で規定される統計モデルとして学習し、前記統計モデルの確率分布、その一部である隠れ変数の確率分布及び条件付き確率分布を推定する第1のモデル学習部と、
    前記推定された確率分布毎に変化度を求める第2のモデル学習部と、
    前記求めた確率分布毎の変化度に基づいて前記データに現れる変化点を検出する変化点検出部とを有することを特徴とする変化点検出装置。
  2. 前記第1のモデル学習部は、前記確率分布に加えて、前記確率分布を線形結合した確率分布を推定する請求項1に記載の変化点検出装置。
  3. 前記第1のモデル学習部は、前記確率分布に加えて、前記統計モデルの確率分布から算出する事後確率分布を推定する請求項1に記載の変化点検出装置。
  4. 前記第1のモデル学習部は、前記確率分布と、前記事後確率分布とを線形結合した確率分布を推定する請求項3に記載の変化点検出装置。
  5. 前記変化点検出部は、前記統計モデルの確率分布及び前記隠れ変数の確率分布のいずれかが閾値を越えた箇所を変化点として検出する請求項1に記載の変化点検出装置。
  6. 前記変化点検出部は、前記統計モデルの確率分布及び前記隠れ変数の確率分布の双方が閾値を越えた箇所を変化点として検出する請求項1に記載の変化点検出装置。
  7. データの統計的な変化点を検出する変化点検出方法であって、
    データの発生確率分布を、隠れ変数を含む有限個の変形で規定される統計モデルとして学習し、前記統計モデルの確率分布、その一部である隠れ変数の確率分布及び条件付き確率分布を推定し、
    前記推定された確率分布毎に変化度を求め、
    前記求めた確率分布毎の変化度に基づいて前記データに現れる変化点を検出することを特徴とする変化点検出方法。
  8. 前記確率分布に加えて、前記確率分布を線形結合した確率分布を推定する請求項7に記載の変化点検出方法。
  9. 前記確率分布に加えて、前記統計モデルの確率分布から算出する事後確率分布を推定する請求項7に記載の変化点検出方法。
  10. 前記確率分布と、前記事後確率分布とを線形結合した確率分布を推定する請求項9に記載の変化点検出方法。
  11. 前記統計モデルの確率分布及び前記隠れ変数の確率分布のいずれかが閾値を越えた箇所を変化点として検出する請求項7に記載の変化点検出方法。
  12. 前記統計モデルの確率分布及び前記隠れ変数の確率分布の双方が閾値を越えた箇所を変化点として検出する請求項7に記載の変化点検出方法。
  13. データの統計的な変化点を検出する変化点検出プログラムであって、
    コンピュータに、
    データの発生確率分布を、隠れ変数を含む有限個の変形で規定される統計モデルとして学習し、前記統計モデルの確率分布、その一部である隠れ変数の確率分布及び条件付き確率分布を推定する機能と、
    前記推定された確率分布毎に変化度を求める機能と、
    前記求めた確率分布毎の変化度に基づいて前記データに現れる変化点を検出する機能とを実行させることを特徴とする変化点検出プログラム。
  14. 前記コンピュータに、
    前記確率分布に加えて、前記確率分布を線形結合した確率分布を推定する機能を実行させる請求項13に記載の変化点検出プログラム。
  15. 前記コンピュータに、
    前記確率分布に加えて、前記統計モデルの確率分布から算出する事後確率分布を推定する機能を実行させる請求項13に記載の変化点検出プログラム。
  16. 前記コンピュータに、
    前記確率分布と、前記事後確率分布とを線形結合した確率分布を推定する機能を実行させる請求項15に記載の変化点検出プログラム。
  17. 前記コンピュータに、
    前記統計モデルの確率分布及び前記隠れ変数の確率分布のいずれかが閾値を越えた箇所を変化点として検出する機能を実行させる請求項13に記載の変化点検出プログラム。
  18. 前記コンピュータに、
    前記統計モデルの確率分布及び前記隠れ変数の確率分布の双方が閾値を越えた箇所を変化点として検出する機能を実行させる請求項13に記載の変化点検出プログラム。
JP2008554052A 2007-01-17 2008-01-16 変化点検出方法および装置 Withdrawn JPWO2008087968A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007008027 2007-01-17
JP2007008027 2007-01-17
PCT/JP2008/050423 WO2008087968A1 (ja) 2007-01-17 2008-01-16 変化点検出方法および装置

Publications (1)

Publication Number Publication Date
JPWO2008087968A1 true JPWO2008087968A1 (ja) 2010-05-06

Family

ID=39635972

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008554052A Withdrawn JPWO2008087968A1 (ja) 2007-01-17 2008-01-16 変化点検出方法および装置

Country Status (3)

Country Link
US (1) US8250005B2 (ja)
JP (1) JPWO2008087968A1 (ja)
WO (1) WO2008087968A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5276581B2 (ja) * 2009-12-25 2013-08-28 日本電信電話株式会社 トレンド分析装置、トレンド分析方法およびトレンド分析プログラム
US8639649B2 (en) * 2010-03-23 2014-01-28 Microsoft Corporation Probabilistic inference in differentially private systems
JP5028537B1 (ja) * 2011-10-07 2012-09-19 有限会社 杉浦技術士事務所 診察業務支援装置
US9981671B2 (en) * 2012-03-01 2018-05-29 Nordco Inc. Railway inspection system
JP5826892B1 (ja) * 2014-06-02 2015-12-02 ヤンマー株式会社 変化点検出装置、変化点検出方法、及びコンピュータプログラム
JP5826893B1 (ja) * 2014-06-02 2015-12-02 ヤンマー株式会社 変化点予測装置、変化点予測方法、及びコンピュータプログラム
JP5943358B2 (ja) * 2014-09-30 2016-07-05 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 学習装置、処理装置、予測システム、学習方法、処理方法、およびプログラム
US10108978B2 (en) * 2015-03-31 2018-10-23 Adobe Systems Incorporated Methods and systems for collaborated change point detection in time series
JP7031594B2 (ja) * 2016-09-08 2022-03-08 日本電気株式会社 異常検出装置、異常検出方法、及びプログラム
JP6947219B2 (ja) * 2017-09-06 2021-10-13 日本電信電話株式会社 異常音検知装置、異常モデル学習装置、異常検知装置、異常音検知方法、異常音生成装置、異常データ生成装置、異常音生成方法、およびプログラム
SE1851056A1 (en) * 2018-09-05 2020-03-06 Spotify Ab System and method for non-plagiaristic model-invariant training set cloning for content generation
TWI794583B (zh) 2019-03-25 2023-03-01 日商住友重機械工業股份有限公司 監視裝置、顯示裝置、監視方法及監視程式
KR20210142930A (ko) * 2020-05-19 2021-11-26 삼성에스디에스 주식회사 퓨 샷 학습 방법 및 이를 수행하기 위한 장치
JP6961126B1 (ja) * 2020-10-28 2021-11-05 三菱電機株式会社 劣化検知装置
WO2023140079A1 (ja) * 2022-01-20 2023-07-27 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11275437A (ja) * 1998-03-26 1999-10-08 Fuji Photo Optical Co Ltd リモコン雲台システム
JP3821225B2 (ja) 2002-07-17 2006-09-13 日本電気株式会社 時系列データに対する自己回帰モデル学習装置並びにそれを用いた外れ値および変化点の検出装置
JP2004309998A (ja) * 2003-02-18 2004-11-04 Nec Corp 確率分布推定装置および異常行動検出装置,ならびにその確率分布推定方法および異常行動検出方法
JP2005258599A (ja) * 2004-03-09 2005-09-22 Nippon Telegr & Teleph Corp <Ntt> データの可視化方法、データの可視化装置、データの可視化プログラム、及び記憶媒体
JP4254623B2 (ja) * 2004-06-09 2009-04-15 日本電気株式会社 トピック分析方法及びその装置並びにプログラム

Also Published As

Publication number Publication date
WO2008087968A1 (ja) 2008-07-24
US20100100511A1 (en) 2010-04-22
US8250005B2 (en) 2012-08-21

Similar Documents

Publication Publication Date Title
JPWO2008087968A1 (ja) 変化点検出方法および装置
JP6708204B2 (ja) 精度推定モデル生成システムおよび精度推定システム
US9576382B2 (en) Method and apparatus for visualizing and interactively manipulating profile data
Reynolds Jr et al. An evaluation of a GLR control chart for monitoring the process mean
US8301675B2 (en) Computer system for predicting the evolution of a chronological set of numerical values
JP7040851B2 (ja) 異常検知装置、異常検知方法及び異常検知プログラム
JP2019036061A (ja) 要因分析装置、要因分析方法、およびプログラム
WO2013187295A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2008003920A (ja) 時系列データの予測・診断装置およびそのプログラム
US8560492B2 (en) Robust filtering and prediction using switching models for machine condition monitoring
EP3767560A1 (en) Future state estimation device and future state estimation method
JP5320985B2 (ja) 予測システム、予測方法および予測プログラム
Mohanty et al. Gaussian process time series model for life prognosis of metallic structures
JP7393720B2 (ja) 技能評価装置、技能評価方法及び技能評価プログラム
JP4973952B2 (ja) プラント診断方法、プラント診断装置およびプラント診断用プログラム
JP5824959B2 (ja) 異常診断装置
WO2019012740A1 (en) DEVICE, SYSTEM AND METHOD FOR EXTRACTING OPERATING RULE
JP2010061323A (ja) 作業評価値予測方法、プログラム及びシステム
US20130169447A1 (en) Display processing system, display processing method, and program
JP2004078780A (ja) 予測方法、予測装置、予測プログラム、および予測プログラムを記録した記録媒体
JP2018190049A (ja) 表示装置、表示方法及びプログラム
JP6347771B2 (ja) 異常診断装置、異常診断方法及び異常診断プログラム
JP7065685B2 (ja) データ不足提示システムおよびデータ不足提示方法
KR20210139267A (ko) 지원장치, 표시장치, 지원방법 및 지원프로그램
WO2023181232A1 (ja) モデル分析装置、モデル分析方法、及び、記録媒体

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20110405