WO2018047655A1

WO2018047655A1 - 時系列データ特徴量抽出装置、時系列データ特徴量抽出方法及び時系列データ特徴量抽出プログラム

Info

Publication number: WO2018047655A1
Application number: PCT/JP2017/030743
Authority: WO
Inventors: 央倉沢; 勝義林; 昭典藤野; 小笠原　隆行; 真澄山口; 信吾塚田; 中島　寛
Original assignee: 日本電信電話株式会社
Priority date: 2016-09-06
Filing date: 2017-08-28
Publication date: 2018-03-15
Also published as: US11449732B2; US20190228291A1; EP3511871A4; JP6574527B2; CN109643397A; EP3511871A1; JPWO2018047655A1; CN109643397B

Abstract

時系列データ特徴量抽出装置は、受け付けた不等間隔時系列データ群を、受け付けた入力時系列データ長と受け付けた観測最小間隔に基づいて、欠損を含む等間隔時系列データ群と欠損の有無を表す欠損情報群に加工するデータ加工部と、モデルに対して、前記欠損を含む等間隔時系列データ群の行列の欠損していない要素と前記モデルの出力層の出力結果の要素との差異を誤差として、前記モデルの各層の重みベクトルを学習し、前記重みベクトルをモデルパラメータとして記憶部に保存するモデル学習部と、特徴量抽出対象の時系列データを受け付け、前記受け付けた特徴量抽出対象の時系列データを前記モデルへ入力することにより、前記記憶部に保存されていた前記モデルパラメータを用いて前記モデルの中間層の値を算出し、前記算出された中間層の値をデータの経時変化を表す特徴量として出力する特徴量抽出部とを備える。

Description

時系列データ特徴量抽出装置、時系列データ特徴量抽出方法及び時系列データ特徴量抽出プログラム

　本発明は、時系列データ特徴量抽出装置、時系列データ特徴量抽出方法及び時系列データ特徴量抽出プログラムに関する。
　本願は、２０１６年９月６日に出願された特願２０１６－１７４０６５号に基づき優先権を主張し、その内容をここに援用する。

　時系列データとは、センサで観測された値が時間的な順序を保ってデータ化されたデータである。時系列データが、何らかの都合で観測（計測）できなかったり、観測（計測）した値を失ったりして、一定の時間間隔で観測（計測）されていないことはたびたび起こりうる。このような時系列データを不等間隔時系列データと呼ぶ。

　不等間隔時系列データの一例を挙げると、「時刻」と「気温の観測値」で構成されたレコードの群において、時刻と観測値の対が、（１０時、２０度）、（１１時、２１度）、（１２時、２４度）、（１４時、２８度）、（１７時、１９度）であったとする。このとき、観測時間の間隔は１時間と２時間、３時間と３通り存在していて、一定でない。

　不等間隔時系列データが生成される状況の例を挙げると、ＩｏＴ（Internet of Things）／Ｍ２Ｍ（Machine to Machine）環境においては、以下のような事象が発生する。すなわち、センサ端末の故障やバッテリ切れで観測できなかったり、ネットワークで輻輳がおきてデータを失ったりすることがある。このような場合、一定な時間間隔ですべての観測データを得るのが難しい。また、人に常時装着して生体情報を観測するシステムにおいては、入浴時や睡眠時、着替えといった計測対象者の都合によって必ずしも常時観測機器を装着しない。このため、計測は断片的になりやすい。さらに、人の血液や尿を取り扱う検体検査のようなデータにおいては、計測対象者と計測実行者の都合や検査手段の空き状況の影響を受ける。このため、計測の時間間隔を一定にすることは難しい。

　不等間隔時系列データから機械学習による分類といった分析を行う場合、不等間隔時系列データからの特徴量抽出が必要となる。特徴量抽出に関しては、１つめの方式では、観測データの時間間隔を問わない特徴量を抽出する。２つめの方式では、時間間隔が一定となるように欠損推定処理（内挿や外挿）をしたうえで経時変化を表す特徴量を抽出する。３つめの方式では、状態空間モデルによって経時変化を変動成分の合成としてモデル化したうえでそれら変動成分のパラメータを特徴量として抽出する。このように、特徴量抽出に関しては、３つの方式が存在する。

　１つめの観測データの時間間隔を問わない特徴量を抽出する方式に関して、特徴量は、最大値や最小値、平均、分散値などが例として挙げられる。これらの特徴量はある期間の状態を大まかに表現することはできるが、経時変化を正しく表現することができない。

　２つめの方式に関して、欠損推定手法はスプライン補間などが例として挙げられる。また、経時変化を表す特徴量は、離散フーリエ変換やウェーブレット変換のような周波数成分への変換や、Symbolic Aggregate approximation (SAX)のような記号変換が例として挙げられる（非特許文献１）。上述した不等間隔時系列データの例では、１次関数による内挿処理後に離散フーリエ変換をした場合、欠損推定処理の内挿によって（１３時、２６度）、（１５時、２５度）、（１６時、２２度）の３つのレコードが追加されたうえで、離散フーリエ変換によって（１８５、－１５．７７８－４．１２１ｉ、２－１ｉ、０．２２２－０．１２１ｉ、３、０．２２２＋０．１２１ｉ、２＋１ｉ、－１５．７７８＋４．１２１ｉ）が得られる。この方式は、欠損推定処理と特徴量抽出がそれぞれ独立した処理であるがゆえ、欠損推定処理の精度に特徴量が大きく影響を受ける問題がある。例えば、観測データの時間間隔に大きな偏りがあると欠損推定処理の精度のばらつきも大きくなり、観測データの時間間隔や欠損推定処理に依存したノイズが加わった特徴量が抽出されてしまう。上述の例では、１４時から１７時の３時間の気温変化の経時変化が１次関数の内挿によって直線的な変化に解釈されてしまい、それがノイズとなってしまう。

　３つめの方式に関して、状態空間モデルは状態モデルと観測モデルから構成される。状態モデルはマルコフ性を仮定していて、現在の状態は過去の状態と説明変数とシステムノイズの関数で表される。観測モデルは現在の状態と説明変数と観測ノイズの関数で表される。状態モデルは線形独立を仮定した変動成分をもとに設計する。変動成分として、トレンド成分や、１週間周期の曜日変動成分、自己回帰過程、自己減衰過程などが例として挙げられる（非特許文献２）。この方式は、状態モデルとして設計した変動成分以外は特徴量として抽出することが難しく、ノイズとして扱われてしまう問題がある。

Lin, J., Keogh, E., Lonardi, S. and Chiu, B. A Symbolic Representation of Time Series, with Implications for Streaming Algorithms. In proceedings of the 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery. San Diego, CA. 2003. 村田眞哉，高屋典子，市川裕介，内山匡，"ECサイトにおけるセールシミュレーション",日本応用数理学会論文誌，Vol.23, Issue 2, 2013.

　前述したように、従来の技術では、欠損推定処理の精度や変動成分の設計によって、不等間隔で観測された時系列データからデータの経時変化を表す特徴量を正しく抽出できないという問題がある。

　本発明は上記事情に着目してなされた。本発明の目的の一例は、不等間隔で観測された時系列データから、データの経時変化を表す特徴量を抽出する時系列データ特徴量抽出装置、時系列データ特徴量抽出方法及び時系列データ特徴量抽出プログラムを提供することにある。

　上述の課題を解決するために、本発明の一態様に係る時系列データ特徴量抽出装置は、訓練用の不等間隔時系列データ群を受け付ける訓練データ受付部と、入力時系列データ長と観測最小間隔と特徴量抽出サイズを受け付けるモデル設計受付部と、前記受け付けた不等間隔時系列データ群を、前記受け付けた入力時系列データ長と前記受け付けた観測最小間隔に基づいて、欠損を含む等間隔時系列データ群と欠損の有無を表す欠損情報群に加工するデータ加工部と、入力層と出力層と中間層とを有するニューラルネットワークのモデルであって、前記欠損を含む等間隔時系列データ群と前記欠損の有無を表す欠損情報群を結合した行列が前記入力層へ入力され、入力時系列データ長の等間隔時系列データ群の行列が前記出力層から出力され、前記受け付けた特徴量抽出サイズが前記中間層である、前記モデルに対して、前記欠損を含む等間隔時系列データ群の行列の欠損していない要素と前記出力層の出力結果の要素との差異を誤差として、前記モデルの各層の重みベクトルを学習し、前記重みベクトルをモデルパラメータとして記憶部に保存するモデル学習部と、特徴量抽出対象の時系列データを受け付け、前記受け付けた特徴量抽出対象の時系列データを前記モデルへ入力することにより、前記記憶部に保存されていた前記モデルパラメータを用いて前記モデルの中間層の値を算出し、前記算出された中間層の値をデータの経時変化を表す特徴量として出力する特徴量抽出部とを備える。

　前記時系列データ特徴量抽出装置において、前記特徴量抽出部は、前記中間層の値を特徴量が抽出された時系列データとともに出力し、さらに、欠損を含む等間隔時系列データ群の行列の欠損していない要素と前記モデルの出力層の出力結果の要素との差異の情報も出力してもよい。

　本発明の一態様に係る時系列データ特徴量抽出方法は、時系列データの特徴量を抽出する時系列データ特徴量抽出装置が行う時系列データ特徴量抽出方法であって、訓練用の不等間隔時系列データ群を受け付け、入力時系列データ長と観測最小間隔と特徴量抽出サイズを受け付け、前記受け付けた不等間隔時系列データ群を、前記受け付けた入力時系列データ長と前記受け付けた観測最小間隔に基づいて、欠損を含む等間隔時系列データ群と欠損の有無を表す欠損情報群に加工し、入力層と出力層と中間層とを有するニューラルネットワークのモデルであって、前記欠損を含む等間隔時系列データ群と前記欠損の有無を表す欠損情報群を結合した行列が前記入力層へ入力され、入力時系列データ長の等間隔時系列データ群の行列が出力層から出力され、前記受け付けた特徴量抽出サイズが前記中間層である、前記モデルに対して、前記欠損を含む等間隔時系列データ群の行列の欠損していない要素と出力結果の要素との差異を誤差として、前記モデルの各層の重みベクトルを学習し、前記重みベクトルをモデルパラメータとして記憶部に保存し、特徴量抽出対象の時系列データを受け付け、前記受け付けた特徴量抽出対象の時系列データを前記モデルへ入力することにより、前記記憶部に保存されていた前記モデルパラメータを用いて前記モデルの中間層の値を算出し、前記算出された中間層の値をデータの経時変化を表す特徴量として出力することを含む。

　本発明の一態様に係る時系列データ特徴量抽出プログラムは、コンピュータを、前記時系列データ特徴量抽出装置として機能させる。

　本発明によれば、不等間隔で観測された時系列データから、データの経時変化を表す特徴量を抽出することができるという有利な効果が得られる。

本実施形態に係る時系列データ特徴量抽出装置の一例を示す構成図である。本実施形態における、時系列データ特徴量抽出方法における訓練ステップの一例を示すフローチャートである。本実施形態における、訓練用の時系列データ群の一例を示す説明図である。本実施形態における、入力時系列データ長と観測最小間隔と特徴量抽出サイズの一例を示す説明図である。本実施形態における、等間隔時系列データと欠損情報の一例を示す説明図である。本実施形態における、モデルの一例を示す説明図である。本実施形態における、時系列データ特徴量抽出方法における特徴量抽出ステップの一例を示すフローチャートである。本実施形態における、特徴量抽出対象の時系列データの一例を示す説明図である。本実施形態における、特徴量抽出対象の時系列データを加工した一例を示す説明図である。

　以下、本発明の実施の形態について図面を参照しながら説明する。本実施形態の時系列データ特徴量抽出装置は、不等間隔で観測された時系列データから等間隔時系列データを出力するモデルを学習し、特徴量としてモデルの中間層および特徴量抽出の正確性を表す値を出力する。

　図１は、本実施形態に係る時系列データ特徴量抽出装置１のブロック図である。図１に示すように、本発明の実施形態に係る時系列データ特徴量抽出装置１は、訓練データ受付部１１と、モデル設計受付部１２と、データ加工部１３と、モデル学習部１４と、メモリ１５と、特徴量抽出部１６とを備える。

　訓練データ受付部１１は、訓練用の不等間隔時系列データ群を受け付ける（入力する）。モデル設計受付部１２は、入力時系列データ長と観測最小間隔と特徴量抽出サイズを受け付ける（入力する）。データ加工部１３は、訓練データ受付部１１で受け付けた不等間隔時系列データ群を、モデル設計受付部１２で受け付けた入力時系列データ長と観測最小間隔に基づいて、欠損を含む等間隔時系列データ群と欠損の有無を表す欠損情報群に加工する。

　モデル学習部１４は、欠損を含む等間隔時系列データ群と欠損の有無を表す欠損情報群を結合した行列を入力層への入力とし、入力時系列データ長の等間隔時系列データ群の行列を出力層からの出力とする。そして、モデル学習部１４は、モデル設計受付部１２で受け付けた特徴量抽出サイズが中間層となるニューラルネットワークのモデルに対して、欠損を含む等間隔時系列データ群の行列の欠損していない要素と出力結果の要素との差異を誤差として、各層の重みベクトルを学習し、モデルパラメータを生成する。メモリ１５は、モデルパラメータを保存する。

　特徴量抽出部１６は、特徴量抽出対象の時系列データを受け付けて、受け付けた時系列データをモデルの入力とする。特徴量抽出部１６は、保存していたモデルパラメータを用いてモデルの中間層の値を算出し、データの経時変化を表す特徴量を出力する。

　本実施形態に係る時系列データ特徴量抽出装置１では、訓練ステップで、訓練用の不等間隔時系列データ群を受け付け、各層の重みベクトルを学習し、モデルパラメータを生成する。メモリ１５は、モデルパラメータを保存する。訓練ステップでは、図２に示すステップＳ１０１からＳ１０７の処理を実行する。

　訓練データ受付部１１は、訓練用の時系列データ群を受け付ける（ステップＳ１０１）。図３に訓練用の時系列データ群の一例を示す。この例では、訓練用の時系列データ群は合計Ｎ個の系列（系列「１」～系列「Ｎ」）で構成され、系列「１」の時刻と観測値の対が、（１０時、２０度）、（１１時、２１度）、（１２時、２４度）、（１４時、２８度）、（１７時、１９度）である。

　次に、モデル設計受付部１２は、入力時系列データ長と観測最小間隔と特徴量抽出サイズを受け付ける（ステップＳ１０２）。図４に入力時系列データ長と観測最小間隔と特徴量抽出サイズの一例を示す。この例では、入力時系列データ長は４時間、観測最小間隔は１時間、特徴量抽出サイズは「２」である。なお、入力時系列データ長と観測最小間隔と特徴量抽出サイズは任意に自由な値を設定できる。

　データ加工部１３は、訓練用の時系列データ群を、欠損を含む等間隔時系列データ群と、欠損の有無を表す欠損情報群に加工する（ステップＳ１０３）。図５に系列「１」の等間隔時系列データと欠損情報の一例を示す。図５の部分（Ａ）に示すように、系列「１」のデータが取得された場合について説明する。この場合、観測最小間隔が１時間であったため、系列「１」は７時と、８時、９時、１３時、１５時、１６時を欠損と解釈される。図５の部分（Ｂ）に示すように、入力時系列データ長が４時間であったため、７時から１０時、８時から１１時、９時から１２時、といったように４時間単位に時系列データが区切られ、等間隔時系列データに加工される。図５の部分（Ｃ）に示すように、等間隔時系列データへの加工と同時に、データが欠損していなければ「１」が示され、データが欠損していれば「０」が示される欠損情報も生成する。訓練用の時系列データ群の各系列について同様の処理を実行する。

　モデル学習部１４で取り扱うモデルはニューラルネットワークとする。このモデルは、入力層、出力層、中間層の３層を必ず持つ、３層以上の層から構成されるモデルとする。モデル学習部１４に対する入力は、欠損を含む等間隔時系列データ群（図５の部分（Ｂ）参照）と欠損の有無を表す欠損情報群（図５の部分（Ｃ）参照）を結合した情報とする。このため、入力層は入力時系列データ長の２倍の長さのサイズとする。図４の例では入力時系列データ長が４時間、観測最小間隔が１時間であったため、入力層のサイズは「８」となる。モデル学習部１４の出力層は、入力時系列データ長の等間隔時系列データとする。このため、出力層は入力時系列データ長のサイズとする。図４の例では出力層のサイズは「４」となる。中間層はモデル設計受付部１２で受け付けた特徴量抽出サイズとするため、図４の例では「２」とする。

　図６にモデル学習部１４で取り扱うモデルの一例を示す。このモデルは、入力層と出力層と４つの中間層から構成されるモデルである。入力層への値をＸ_１、中間層「１」への値をＸ_２、中間層「２」への値をＸ_３、中間層「３」への値をＸ_４、中間層「４」への値をＸ_５、及び出力層への値をＸ_６と称する。値Ｘ_１～Ｘ_６は、それぞれ、以下の式（１ａ）～（１ｆ）のように表される。

Ｘ_１＝ｘ_１，１，ｘ_１，２，．．．，ｘ_１，８　　　　　　…（１ａ）
Ｘ_２＝ｘ_２，１，ｘ_２，２，．．．，ｘ_２，８　　　　　　…（１ｂ）
Ｘ_３＝ｘ_３，１，ｘ_３，２，ｘ_３，３，ｘ_３，４　　　　　　…（１ｃ）
Ｘ_４＝ｘ_４，１，ｘ_４，２　　　　　　　　　　　　　　…（１ｄ）
Ｘ_５＝ｘ_５，１，ｘ_５，２，ｘ_５，３，ｘ_５，４　　　　　　…（１ｅ）
Ｘ_６＝ｘ_６，１，ｘ_６，２，ｘ_６，３，ｘ_６，４　　　　　　…（１ｆ）

　また、各層の値は、以下の（２）式の様な漸化式で表される。

Ｘ_ｉ＋１＝ｆ_ｉ（Ａ_ｉＸ_ｉ＋Ｂ_ｉ）　　　　…（２）
　ここで、Ａ_ｉは重みパラメータ、Ｂ_ｉはバイアスパラメータ、ｆ_ｉは活性化関数を表す。

　この例では、活性化関数は、線形結合（単純パーセプトロン）のｆ_１、ｆ_３、ｆ_４、ｆ_５と、ＲｅＬＵ（ランプ関数）のｆ_２とで構成する。ｆ_１、ｆ_３、ｆ_４の関係は、以下の式（３ａ）のように表される。ｆ_２は、以下の式（３ｂ）のように表される。

ｆ_１（ｘ）＝ｆ_３（ｘ）＝ｆ_４（ｘ）＝ｆ_５（ｘ）＝ｘ　　…（３ａ）
ｆ_２（ｘ）＝ｍａｘ（０，ｘ）　　　　　　　　　　　　…（３ｂ）

　出力層からの出力値Ｘ_６は、以下の（４）式のように表される。

Ｘ_６＝（ｆ_５（Ａ_５（ｆ_４（Ａ_４（ｆ_３（Ａ_３（ｆ_２（Ａ_２（ｆ_１（Ａ_１Ｘ_１＋Ｂ_１）
）＋Ｂ_２））＋Ｂ_３））＋Ｂ_４））＋Ｂ_５））　　　　…（４）

　本実施形態のモデルに関して、層の構成やサイズ、活性化関数は上述の例に限定されない。別の具体例として、活性化関数はステップ関数や、シグモイド関数、多項式、絶対値、ｍａｘｏｕｔ、ソフトサイン、ソフトプラス、などであっても良い。層の構成に関しては、Ｌｏｎｇ　ｓｈｏｒｔ－ｔｅｒｍ　ｍｅｍｏｒｙ（ＬＳＴＭ）に代表されるリカレントニューラルネットワークのように一時点前の中間層からの伝搬を設計に組み込んでも良い。

　次に、モデル学習部１４は、モデルパラメータを初期化する（ステップＳ１０４）。モデルパラメータの重みパラメータＡ_ｉとバイアスパラメータＢ_ｉ（ｉ＝１，２，３，４，５）にランダムな値を代入する。さらに、この等間隔時系列データの欠損値には「０」が代入される。本実施形態では「０」を欠損値に代入したがこの例に限定されない。平均値や中央値、欠損処理結果を欠損値に代入してもよい。

　次に、モデル学習部１４は、誤差が最小となるように、モデルを構成する各層の重みベクトルを学習する（ステップＳ１０５）。具体的には、等間隔時系列データをＰ、欠損情報をＱ、等間隔時系列データ群と欠損の有無を表す欠損情報群を結合したでデータをＲと称する。入力層への値Ｘ_１には、等間隔時系列データ群と欠損の有無を表す欠損情報群を結合したデータＲが入力される。出力層の出力値Ｘ_６（式（４）に示す）と等間隔時系列データＰとが欠損していない値に関して限りなく近づくように学習が行われる。誤差関数は、（５）式のように、等間隔時系列データＰの欠損していない値ＰＱと、出力層の欠損していない値Ｘ_６Ｑとの二乗誤差で算出する。

（Ｘ_６Ｑ－ＰＱ）^２　　　…（５）

　すなわち、等間隔時系列データＰの欠損している値に関しては出力層の値Ｘ_６ではいかなる値をとっても誤差には加味しない。そして、等間隔時系列データＰの欠損していない値については出力層の値Ｘ_６でも同一の値となるように学習することを目的とし、誤差関数を設計する。誤差が最小となるように勾配法でモデルパラメータを最適化する。勾配法としてはＡｄａｍを用いる。本実施形態における勾配法はこれに限定されない。勾配法として、ＳＧＤ、ＡｄａＤｅｌｔａなど、確率的勾配降下法のいかなる手法を用いてもよい。

　次に、モデル学習部１４は、誤差の勾配が収束したかを判定する。誤差の勾配が収束していない場合には（ステップＳ１０６：Ｎｏ）、処理をステップＳ１０５に戻る。誤差の勾配が収束している場合には（ステップＳ１０６：Ｙｅｓ）、最適化を終了する。

　次に、モデル学習部１４は、誤差の勾配が収束したときのモデルパラメータのＡ_ｉとＢ_ｉ（ｉ＝１，２，３，４，５）を保存する（ステップＳ１０７）。

　次に、特徴量抽出処理について説明する。図７は、特徴量抽出処理のフローチャートである。特徴量抽出処理では、ステップＳ２０１からＳ２０４を実行する。

　まず、特徴量抽出部１６は、メモリ１５からモデルパラメータのＡ_ｉとＢ_ｉ（ｉ＝１，２，３，４，５）を読み込む（ステップＳ２０１）。

　次に、特徴量抽出部１６は、特徴量抽出対象の時系列データを受け付ける（ステップＳ２０２）。図８に特徴量抽出対象の時系列データの一例を示す。

　次に、特徴量抽出部１６は、欠損を含む等間隔時系列データと欠損の有無を表す欠損情報に加工する（ステップＳ２０３）。図９に特徴量抽出対象の時系列データを加工した一例を示す。等間隔時系列データをＰ’、欠損の有無を表す欠損情報をＱ’、等間隔時系列データ群と欠損の有無を表す欠損情報群を結合した情報をＲ’と称する。

　次に、特徴量抽出部１６は、中間層の値と誤差の大きさを経時変化を表す特徴量として出力する（ステップＳ２０４）。中間層の値は、（６）式のようになる。

（ｆ_３（Ａ_３（ｆ_２（Ａ_２（ｆ_１（Ａ_１Ｒ’＋Ｂ_１））＋Ｂ_２））＋Ｂ_３））　　　…（６）

　また、欠損を含む等間隔時系列データ群の行列の欠損していない要素とモデルの出力層の出力結果の要素との誤差の大きさは、（７）式のようになる。

（（ｆ_５（Ａ_５（ｆ_４（Ａ_４（ｆ_３（Ａ_３（ｆ_２（Ａ_２（ｆ_１（Ａ_１Ｒ’＋Ｂ_１））＋Ｂ_２））＋Ｂ_３））＋Ｂ_４））＋Ｂ_５））Ｑ’－Ｐ’Ｑ’）^２　　　…（７）

　以上説明したように、本実施形態では、訓練用の不等間隔時系列データ群から欠損を含む等間隔時系列データ群と欠損の有無を表す欠損情報群の２つに変換し、それら２つを入力とし、欠損を含む等間隔時系列データ群が出力となるような自己符号化器として学習し、その中間層の値を経時変化を表す特徴量として出力することができる。つまり、不等間隔で観測された時系列データから欠損推定することなく経時変化を表す特徴量を抽出するため、欠損推定処理に依存したノイズの影響を緩和できる。また、自己符号化器によって表現学習をするため、モデル設計における変動成分の網羅性による影響も緩和できる。さらに、モデルの中間層のサイズが入力時系列データ長よりも小さいとき、低ランク表現された特徴量の抽出も可能とする。

　特徴量抽出部１６は、中間層の値を特徴量が抽出された時系列データとともに出力し、更に、欠損を含む等間隔時系列データ群の行列の欠損していない要素とモデルの出力層の出力結果の要素との差異の情報も出力しても良い。データの経時変化を表す特徴量から不等間隔で観測された時系列データを復元し、オリジナルの時系列データとの差分の大きさを新たな特徴量として出力することで、データの経時変化特徴量抽出の正確性を加味した不等間隔時系列データの分析ができる。また、経時変化を表す特徴量がオリジナルの時系列データを十分に表せているかを示す指標として分析に使える。

　この構成によれば、不等間隔で観測された時系列データからデータの経時変化を表す特徴量を抽出するにあたって、欠損推定処理と特徴量抽出を一括して処理することで、欠損推定処理の精度に特徴量が大きく影響を受けることを避け、機械学習による分類といった分析の精度が向上する。また、何らかの都合で観測（計測）できなかったり、観測（計測）した値を失ったりして、センサで観測された値か時間的な順序を保ってデータ化された時系列データが一定の時間間隔で観測（計測）されていない不等間隔時系列データからの精度の高い機械学習による分類といった分析を実現できる。

　時系列データ特徴量抽出装置１の全部または一部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。ここでいう「コンピュータシステム」は、ＯＳや周辺機器等のハードウェアを含む。
　「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含む。
　「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

　以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。

　本発明は、時系列データ特徴量抽出装置、時系列データ特徴量抽出方法及び時系列データ特徴量抽出プログラムに適用してもよい。

１１…訓練データ受付部
１２…モデル設計受付部
１３… データ加工部
１４…モデル学習部
１５…メモリ
１６…特徴量抽出部

Claims

　訓練用の不等間隔時系列データ群を受け付ける訓練データ受付部と、
　入力時系列データ長と観測最小間隔と特徴量抽出サイズを受け付けるモデル設計受付部と、
　前記受け付けた不等間隔時系列データ群を、前記受け付けた入力時系列データ長と前記受け付けた観測最小間隔に基づいて、欠損を含む等間隔時系列データ群と欠損の有無を表す欠損情報群に加工するデータ加工部と、
　入力層と出力層と中間層とを有するニューラルネットワークのモデルであって、前記欠損を含む等間隔時系列データ群と前記欠損の有無を表す欠損情報群を結合した行列が前記入力層へ入力され、入力時系列データ長の等間隔時系列データ群の行列が前記出力層から出力され、前記受け付けた特徴量抽出サイズが前記中間層である、前記モデルに対して、前記欠損を含む等間隔時系列データ群の行列の欠損していない要素と前記出力層の出力結果の要素との差異を誤差として、前記モデルの各層の重みベクトルを学習し、前記重みベクトルをモデルパラメータとして記憶部に保存するモデル学習部と、
　特徴量抽出対象の時系列データを受け付け、前記受け付けた特徴量抽出対象の時系列データを前記モデルへ入力することにより、前記記憶部に保存されていた前記モデルパラメータを用いて前記モデルの中間層の値を算出し、前記算出された中間層の値をデータの経時変化を表す特徴量として出力する特徴量抽出部と
　を備える時系列データ特徴量抽出装置。
　前記特徴量抽出部は、前記中間層の値を特徴量が抽出された時系列データとともに出力し、さらに、欠損を含む等間隔時系列データ群の行列の欠損していない要素と前記モデルの出力層の出力結果の要素との差異の情報を出力する請求項１に記載の時系列データ特徴量抽出装置。
　時系列データの特徴量を抽出する時系列データ特徴量抽出装置が行う時系列データ特徴量抽出方法であって、
　訓練用の不等間隔時系列データ群を受け付け、
　入力時系列データ長と観測最小間隔と特徴量抽出サイズを受け付け、
　前記受け付けた不等間隔時系列データ群を、前記受け付けた入力時系列データ長と前記受け付けた観測最小間隔に基づいて、欠損を含む等間隔時系列データ群と欠損の有無を表す欠損情報群に加工し、
　入力層と出力層と中間層とを有するニューラルネットワークのモデルであって、前記欠損を含む等間隔時系列データ群と前記欠損の有無を表す欠損情報群を結合した行列が前記入力層へ入力され、入力時系列データ長の等間隔時系列データ群の行列が出力層から出力され、前記受け付けた特徴量抽出サイズが前記中間層である、前記モデルに対して、前記欠損を含む等間隔時系列データ群の行列の欠損していない要素と出力結果の要素との差異を誤差として、前記モデルの各層の重みベクトルを学習し、前記重みベクトルをモデルパラメータとして記憶部に保存し、
　特徴量抽出対象の時系列データを受け付け、
　前記受け付けた特徴量抽出対象の時系列データを前記モデルへ入力することにより、前記記憶部に保存されていた前記モデルパラメータを用いて前記モデルの中間層の値を算出し、
　前記算出された中間層の値をデータの経時変化を表す特徴量として出力する
　ことを含む時系列データ特徴量抽出方法。
　コンピュータを、請求項１または２に記載の時系列データ特徴量抽出装置として機能させるための時系列データ特徴量抽出プログラム。