JPWO2020049666A1 - 時系列データ処理装置 - Google Patents

時系列データ処理装置 Download PDF

Info

Publication number
JPWO2020049666A1
JPWO2020049666A1 JP2020540929A JP2020540929A JPWO2020049666A1 JP WO2020049666 A1 JPWO2020049666 A1 JP WO2020049666A1 JP 2020540929 A JP2020540929 A JP 2020540929A JP 2020540929 A JP2020540929 A JP 2020540929A JP WO2020049666 A1 JPWO2020049666 A1 JP WO2020049666A1
Authority
JP
Japan
Prior art keywords
series data
time
conversion unit
partial time
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020540929A
Other languages
English (en)
Other versions
JP7131616B2 (ja
Inventor
毅彦 溝口
毅彦 溝口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2020049666A1 publication Critical patent/JPWO2020049666A1/ja
Application granted granted Critical
Publication of JP7131616B2 publication Critical patent/JP7131616B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

時系列データ処理装置は、データ変換部と記憶部と検索部とを有する。データ変換部は、複数の時系列データの集合である時系列データセットを所定の時間毎に区切った部分時系列データセットを、部分時系列データセットの特徴を示す特徴ベクトルに変換する。記憶部は、複数の第1の部分時系列データセットと、複数の第1の部分時系列データセットがデータ変換部によって変換された複数の第1の特徴ベクトルとを対応付けて記憶する。検索部は、記憶部に記憶された複数の第1の特徴ベクトルのうち、入力された第2の部分時系列データセットがデータ変換部によって変換された第2の特徴ベクトルに類似する少なくとも1つの第1の特徴ベクトルを選択し、選択した第1の特徴ベクトルに対応する第2の部分時系列データセットを出力する。

Description

本発明は、時系列データ処理装置、時系列データ処理方法、およびコンピュータ読み取り可能な記録媒体に関する。
温度センサなどのセンサによって一定周期で測定された観測データなどの数値データを時刻順に並べたデータは、一般に時系列データと呼ばれる。そのような時系列データを記憶する記憶部を有し、検索クエリに類似する時系列データを記憶部から検索する装置の一例が特許文献1に記載されている。
特許文献1に記載される装置は、センサと、ユーザ端末と、時系列ストア装置と、ストレージ装置とを有する。時系列ストア装置は、センサから入力した時系列データを処理した後、ストレージ装置に登録する。その際、時系列ストア装置は、時系列データを特徴量に変換し、さらに特徴区間に分割して特徴区間データを生成し、特徴区間どうしの類似度に応じて特徴区間を階層的にクラスタリングし、得られる特徴区間のクラスタ間の類似度を枝クラスタに、特徴区間を識別する識別子を葉クラスタに持つ木構造の特徴インデクスを構築することにより、時系列データを管理する。また、時系列ストア装置は、ユーザ端末から検索クエリとして時系列データを入力し、検索結果を返却する。検索の際、時系列ストア装置は、上記特徴インデクスと特徴区間データを利用することにより、検索クエリに類似する時系列データを検索する。
他方、時系列データ、およびその特徴量を扱う技術として、特許文献2及び特許文献3が知られている。
WO2013/051101 特開2014−32657号公報 特開2007−241866号公報
ところで、複数の時系列データを扱う装置において、複数の時系列データを1つにまとめた時系列データセットの単位で類似検索できると便利である。例えば、設備から収集した温度センサの時系列データ、圧力センサの時系列データ等を含む複数の時系列データを1つにまとめた時系列データセットに基づいて設備の異常を検知する装置において、異常を検知した時系列データセットに類似する過去の時系列データセットを検索できると、障害の早期復旧や対策に役立つ。しかるに、上述した特許文献1に記載される装置は、或る1つの時系列データに類似する時系列データを検索する。時系列データセットが有する複数の時系列データのそれぞれに対して、このような時系列データ単位の検索を行った場合、検索に多くの時間が費やされるおそれがある。そのため、特許文献1に記載される技術では、時系列データセットの全体に類似する過去の時系列データを高速に検索することが困難である。
本発明の目的は、上述した課題、すなわち、時系列データセットの全体に類似する過去の時系列データを高速に検索することは困難である、という課題を解決する時系列データ処理装置を提供することにある。
本発明の一形態に係る時系列データ処理装置は、
複数の時系列データの集合である時系列データセットを所定の時間毎に区切った部分時系列データセットを、前記部分時系列データセットの特徴を示す特徴ベクトルに変換するデータ変換部と、
複数の第1の部分時系列データセットと、前記複数の第1の部分時系列データセットが前記データ変換部によって変換された複数の第1の特徴ベクトルとを対応付けて記憶する記憶部と、
前記記憶部に記憶された前記複数の第1の特徴ベクトルのうち、入力された第2の部分時系列データセットが前記データ変換部によって変換された第2の特徴ベクトルに類似する少なくとも1つの前記第1の特徴ベクトルを選択し、前記選択した第1の特徴ベクトルに対応する前記第2の部分時系列データセットを出力する検索部と、
を備える。
また本発明の他の形態に係る時系列データ処理方法は、
複数の時系列データの集合である時系列データセットを所定の時間毎に区切った部分時系列データセットを、前記部分時系列データセットの特徴を示す特徴ベクトルに変換するデータ変換部を使用して、登録対象の複数の第1の部分時系列データセットを複数の第1の特徴ベクトルに変換し、前記複数の第1の部分時系列データセットと前記複数の第1の特徴ベクトルとを対応付けて記憶部に記憶し、
第2の部分時系列データセットを入力し、
前記データ変換部を使用して、前記第2の部分時系列データセットを第2の特徴ベクトルに変換し、
前記記憶部に記憶された前記複数の第1の特徴ベクトルのうち前記第2の特徴ベクトルに類似する少なくとも1つの前記第1の特徴ベクトルを選択し、前記選択した第1の特徴ベクトルに対応する前記第2の部分時系列データセットを出力する。
また本発明の他の形態に係るコンピュータ読み取り可能な記録媒体は、
コンピュータを、
複数の時系列データの集合である時系列データセットを所定の時間毎に区切った部分時系列データセットを、前記部分時系列データセットの特徴を示す特徴ベクトルに変換するデータ変換部と、
複数の第1の部分時系列データセットと、前記複数の第1の部分時系列データセットが前記データ変換部によって変換された複数の第1の特徴ベクトルとを対応付けて記憶する記憶部と、
前記記憶部に記憶された前記複数の第1の特徴ベクトルのうち、入力された第2の部分時系列データセットが前記データ変換部によって変換された第2の特徴ベクトルに類似する少なくとも1つの前記第1の特徴ベクトルを選択し、前記選択した第1の特徴ベクトルに対応する前記第2の部分時系列データセットを出力する検索部と、
して機能させるためのプログラムを記憶する。
本発明は上述した構成を有することにより、時系列データセットの全体に類似する過去の時系列データを高速に検索することができる。
本発明の第1の実施形態に係る時系列データ処理装置のブロック図である。 本発明の第1の実施形態に係る時系列データ処理装置の記憶部に記憶されているテーブルの内容例を示す図である。 本発明の第1の実施形態に係る時系列データ処理装置の記憶部に記憶されている他のテーブルの内容例を示す図である。 本発明の第1の実施形態に係る時系列データ処理装置の登録部の処理例を示すフローチャートである。 本発明の第1の実施形態に係る時系列データ処理装置の検索部の処理例を示すフローチャートである。 本発明の第1の実施形態に係る時系列データ処理装置の動作の概要を示すフローチャートである。 本発明の第1の実施形態に係る時系列データ処理装置のデータ変換部の構成の一例を示す図である。 本発明の第1の実施形態に係る時系列データ処理装置のデータ変換部で使用するLSTMの構造の一例を示す図である。 本発明の第1の実施形態に係る時系列データ処理装置のデータ変換部へ入力される部分時系列データセット(セグメント)のベクトルx1,x2,…,xTを説明するための模式図である。 本発明の第1の実施形態に係る時系列データ処理装置で使用する計算式を示す図である。 本発明の第1の実施形態に係る時系列データ処理装置の学習部が実施する前半部分の学習の概要を示す図である。 本発明の第1の実施形態に係る時系列データ処理装置の学習部が実施する後半部分の学習の概要を示す図である。 本発明の第1の実施形態に係る時系列データ処理装置の学習部が実施するPairwise loss最小化に基づくモデル学習方法を説明するためのフローチャートである。 本発明の第1の実施形態に係る時系列データ処理装置の学習部が実施するTriplet loss最小化に基づくモデル学習方法を説明するためのフローチャートである。 本発明の第2の実施形態に係る時系列データ処理装置のブロック図である。 本発明の時系列データ処理装置のハードウェア構成の一例を示すブロック図である。
先ず、本発明の実施形態を説明する前に、本明細書で使用する幾つかの用語を定義しておく。
本明細書において、時系列データとは、物理システム、IT(Information Technology)システム、構造物などに設置されたセンサ1個から観測された物理量などの実数値を、所定の時間間隔で時刻順に並べたデータである。例えば、温度センサによって一定時間間隔で測定した複数の温度データを時刻順に並べたデータは、時系列データの一例である。また、圧力センサによって一定時間間隔で測定した複数の圧力データを時刻順に並べてデータは、時系列データの他の例である。
また、時系列データセットとは、システム全体(或いは一部)に設置された複数のセンサから得られる時系列データを1つにまとめたものである。例えば、ITシステムや構造物全体(或いは一部)に合計100個のセンサが設置されている場合、100個のセンサで得られる時系列データを1つにまとめたものは、時系列データセットの一例である。
また、時系列データの時点数とは、時系列データを構成している観測値の個数(時間方向のデータ数)である。また、センサ数・属性数とは、システム全体(或いは一部)に設置されたセンサの総数(空間方向のデータ数)である。従って、時系列データセットは、(時点数)×(センサ数)の数だけ数値データを持つ。
また、セグメントとは、時系列データセットから所定の時間窓で抽出した時系列データセットの一部分である。セグメントは、部分時系列データセットと呼ぶことがある。また、部分時系列データとは、部分時系列データセットを構成する、センサ毎の時系列データの部分である。部分時系列データセットは、センサ数の数に等しい数だけ部分時系列データを持つ。また、部分時系列データセットの時点数とは、部分時系列データを構成している観測値の個数(時間方向のデータ数)である。従って、部分時系列データセットは、(部分時系列データセットの時点数)×(センサ数)の数だけ数値データを持つ。
また、セグメントセットとは、時間窓を所定の間隔で時系列データの開始時刻から終了時刻まで移動させたときに得られる全セグメントの集合(全部分時系列データセットの集合)である。
[第1の実施形態]
次に本発明の第1の実施形態について図面を参照して詳細に説明する。
図1は、本発明の第1の実施形態に係る時系列データ処理装置のブロック図である。図1を参照すると、本実施形態に係る時系列データ処理装置1は、入出力部10と、学習部11と、登録部12と、検索部13と、データ変換部14と、記憶部15とを備えている。
入出力部10は、時系列データや時系列データセットなどのデータおよび検索要求などのコマンドを図示しない記憶装置や端末装置などの外部装置から入力するように構成されている。また、入出力部10は、検索結果などのデータを図示しない表示装置や端末装置などの外部装置に出力するように構成されている。
データ変換部14は、部分時系列データセット(セグメント)を実数ベクトルに変換し、さらにその実数ベクトルを二値ベクトルに変換するように構成されている。実数ベクトルとは、各次元の値が実数をとるベクトルである。二値ベクトルとは、各次元の値が、例えば1と−1あるいは0と1のように二つの値の何れか一方の値をとるベクトルである。データ変換部14は、部分時系列データセットのセンサ数をS、部分時系列データセットの時点数をT、二値ベクトルの次元数をnとすると、S×T個の数値データをn次元の二値ベクトルに変換するように構成されている。ここで、好ましくは、n<S×Tである。
学習部11は、入出力部10を通じて外部から入力した、それぞれが部分時系列データセットである複数のトレーニングデータを用いて、データ変換部14の機械学習を行うように構成されている。トレーニングデータとは、学習のために使用するデータのことである。学習部11は、複数のトレーニングデータが、それら複数のトレーニングデータ間の相対的な類似性を維持する複数の実数ベクトルに変換されるように、データ変換部14の機械学習を行う。即ち、学習部11は、互いに類似するトレーニングデータは互いに類似する実数ベクトルに変換され、互いに類似しないトレーニングデータは互いに類似しない実数ベクトルに変換されるように、データ変換部14の機械学習を行う。
記憶部15は、複数の部分時系列データセットと当該複数の部分時系列データセットを学習後のデータ変換部14によって変換した後の複数の二値ベクトルとを対応付けて記憶するように構成されている。図2Aおよび図2Bは、記憶部15に記憶されているテーブルの一例を示す。
図2Aに示すテーブル15Aは、部分時系列データセット(セグメント)とその識別情報である時刻とを対応付けて記憶するように構成されている。例えば、テーブル15Aの1行目のエントリは、部分時系列データセットXt1と、この部分時系列データセットXt1を一意に識別する時刻t1との組が記憶されている。時刻t1は、部分時系列データセットXt1の開始時刻とすることができるが、それに限定されない。例えば、時刻t1は、部分時系列データセットXt1の終了時刻であってもよい。
図2Bに示すテーブル15Bは、二値ベクトルとこの二値ベクトルに対応する部分時系列データセットの識別情報である時刻とを対応付けて記憶するように構成されている。例えば、テーブル15Bの1行目のエントリは、二値ベクトルSt1と、この二値ベクトルSt1に対応する部分時系列データセットXt1の識別情報である時刻t1との組が記憶されている。
図2Aおよび図2Bでは、部分時系列データセットの識別情報に時刻を使用したが、それに限定されない。例えば、1つの部分時系列データセットを1つのファイルとして記憶部15に記憶する場合、ファイルの識別子を部分時系列データセットの識別情報に用いてもよい。また、図2Aおよび図2Bでは、複数の部分時系列データセットと複数の二値ベクトルとを2つのテーブル15A、15Bを使用して1対1に対応付けたが、それに限定されない。例えば、部分時系列データセットとそれに対応する二値ベクトルとを1つのテーブルの同じエントリに記憶するようにしてもよい。
登録部12は、入出力部10を通じて外部から入力した時系列データセットを構成する複数の部分時系列データセットと当該複数の部分時系列データセットを学習後のデータ変換部14を使用して変換した複数の二値ベクトルとを対応付けて記憶部15に登録するように構成されている。図3は、登録部12の処理の一例を示すフローチャートである。
図3を参照すると、登録部12は、入出力部10を通じて外部から登録対象となる時系列データセットを入力する(ステップS1)。次に登録部12は、入力した時系列データセットを部分時系列データセット(セグメント)に分割する(ステップS2)。個々の部分時系列データセットは、入力の時系列データセットと同じセンサ数を有する。また、複数の部分時系列データセットの時点数は同じである。次に登録部12は、1つの部分時系列データセット(セグメント)に注目する(ステップS3)。次に登録部12は、学習済みのデータ変換部14を使用して、注目中の部分時系列データセットを二値ベクトルに変換する(ステップS4)。即ち、登録部12は、注目中の部分時系列データセットを学習済みのデータ変換部14に入力し、学習済みのデータ変換部14から出力される二値ベクトルを取得する。次に登録部12は、注目中の部分時系列データセットとそれに対応する二値ベクトルとを対応付けて記憶部15に登録する。即ち、登録部12は、テーブル15Aの空きエントリに、注目中の部分時系列データセットと識別情報としての時刻との組を登録する。また登録部12は、テーブル15Bの空きエントリに、注目中の部分時系列データセットに対応する二値ベクトルと識別情報としての時刻との組を登録する。次に登録部12は、次の1つの部分時系列データセットに注目を移し(ステップS6)、ステップS4に戻って上述した処理と同様の処理を繰り返す。登録部12は、全ての部分時系列データセットに注目し終えると(ステップS7でYES)、図3の処理を終了する。
検索部13は、入出力部10を通じて外部から検索クエリとしての部分時系列データセットを入力し、検索クエリに類似する部分時系列データセットを記憶部15から検索し、検索結果を入出力部10経由で外部へ出力するように構成されている。図4は、検索部13の処理の一例を示すフローチャートである。
図4を参照すると、検索部13は、入出力部10を通じて外部から検索クエリとしての部分時系列データセットを入力する(ステップS11)。この検索クエリの部分時系列データセットのセンサ数及び時点数は、記憶部15のテーブル15Aに登録されている部分時系列データセットのセンサ数及び時点数と同じである。次に検索部13は、学習済みのデータ変換部14を使用して、検索クエリの部分時系列データセットをn次元の二値ベクトルに変換する(ステップS12)。即ち、検索部13は、検索クエリの部分時系列データセットを学習済みのデータ変換部14に入力し、データ変換部14から出力される二値ベクトルを取得する。次に検索部13は、記憶部15のテーブル15Bに登録されている1つのエントリに注目する(ステップS13)。次に検索部13は、検索クエリの二値ベクトルと注目中エントリに記憶されている二値ベクトルとが類似している程度を表す類似度を計算する(ステップS14)。
2つのn次元ベクトルa(a1,a2,…,an)、b(b1,b2,…,bn)間の類似度としては、例えば、図9に示す式11に示すようなユークリッド距離d(a,b)を使用することができる。この場合、類似度を表す数値は、2つのn次元ベクトルが似ていれば小さな値をとり、似ていなければ大きな値をとる。但し、n次元ベクトル間の類似度はユークリッド距離に限定されない。例えば、n次元ベクトル間の類似度は、ユークリッド距離の逆数であってもよいし、ハミング距離などとしてもよい。
次に検索部13は、ステップS13で計算した類似度と注目中エントリに記録されている時刻(対応する部分時系列データセットの識別情報)との組を一時的に記憶する(ステップS15)。次に検索部13は、記憶部15のテーブル15Bの次の1つのエントリに注目を移し(ステップS16)、ステップS14に戻って上述した処理と同様の処理を繰り返す。そして検索部13は、テーブル15Bの全てのエントリに注目し終えると(ステップS17でYES)、ステップS15で一時的に記憶した全ての類似度と時刻との組の中から、予め設定された閾値以下の類似度を有する組を選択する(ステップS18)。次に検索部13は、選択した組の時刻に対応する部分時系列データセットを記憶部15のテーブル15Aから取得し、検索結果として入出力部10を通じて外部へ出力する(ステップS19)。そして、検索部13は図4に示した処理を終了する。
図4に示した処理では、検索部13は、検索クエリの部分時系列データセットとの間の類似度を表す数値が閾値以下である部分時系列データセットを検索結果としたが、それに限定されない。例えば、検索部13は、検索クエリの部分時系列データセットとの間の類似度を表す数値が閾値以下である部分時系列データセットの上位m(mは予め設定された整数)個の部分時系列データセットを検索結果としてもよい。
図5は、本実施形態に係る時系列データ処理装置1の全体の動作の概要を示すフローチャートである。図5を参照すると、時系列データ処理装置1は、先ず学習部11によるデータ変換部14の学習を行う(ステップS21)。この学習により、データ変換部14は、複数の部分時系列データセットを、当該複数の部分時系列データセット間の相対的な類似性を保持する複数の二値ベクトルに変換するような特性を有するものとなる。
次に時系列データ処理装置1は、登録部12によるデータの記憶部15への登録を行う(ステップS22)。このとき登録部12は、登録対象となる複数の部分時系列データと、その複数の部分時系列データセットを学習済みのデータ変換部14によって変換した複数の二値ベクトルとを対応付けて記憶部15に登録する。
その後、時系列データ処理装置1は、検索部13による検索を行う(ステップS23)。検索部13は、入出力部10から検索クエリとして部分時系列データセットが入力されると、先ず、その時系列データセットを学習済みのデータ変換部14を使用して二値ベクトルに変換する。次に検索部13は、記憶部15のテーブル15Bに記憶された二値ベクトルのうち検索クエリの二値ベクトルに類似する少なくとも1つの二値ベクトルを選択し、それに対応する時刻を取得する。次に検索部13は、取得した時刻に対応する部分時系列データセットを記憶部15のテーブル15Aから取得し、その取得した部分時系列データセットを入出力部10へ出力する。検索部13は、入出力部10から検索クエリを入力する毎に同様の処理を繰り返し実行する。
続いて、データ変換部14の構成例について、図6および図7を参照して説明する。図6はデータ変換部14の構成の一例を示す図である。また、図7はLSTM(Long Short−Term Memory)の構造の一例を示す図である。図6および図7において、小文字の変数記号はベクトルを表し、大文字は行列を表す。また、演算子および関数は全て要素ごとに適用される。
図6に示すように、データ変換部14は、RNN層(Recurrent Neural Network Layer:再帰型ニューラルネットワークレイヤ)141と、2つの全結合層142、143と、二値化部145とから構成されている。またRNN層141は、合計T個のLSTM144−1〜144−Tを含んで構成されている。T個のLSTM144−1〜144−Tは、縦続接続されている。先頭からi番目のLSTM141−i(iは1以上、T以下の整数)は、部分時系列データセット(セグメント)からベクトルxiを入力として受け取り、ベクトルhiを次段のLSTM144−i+1に出力するように構成されている。但し、最終段のLSTM141−TはベクトルhTを全結合層142に出力するように構成されている。RNN層141と2つの全結合層142、143とは、特徴抽出器を構成している。
図8は、データ変換部14へ入力される部分時系列データセット(セグメント)のベクトルx1,x2,…,xTを説明するための模式図である。図8に示す部分時系列データセットは、説明の便宜上、センサ数を4、時点数を5として簡略化している。a1〜a5までの5つは、センサAで得られた観測値を時刻順に並べた部分時系列データである。同様に、b1〜b5、c1〜c5、d1〜d5は、センサB、C、Dで得られた観測値を時刻順に並べた部分時系列データである。図8に示す部分時系列データセットをRNN層141に入力する場合、最初に、各センサA〜Dの部分時系列データの先頭の4つの観測値a1、b1、c1、d1から成るベクトルx1を先頭のLSTM144−1へ入力する。次に、各センサA〜Dの部分時系列データの次の4つの観測値a2、b2、c2、d2からなるベクトルx2を、LSTM144−1からベクトルh1が出力されるタイミングに同期してLSTM144−2へ入力する。以下、観測値a3、b3、c3、d3からなるベクトルx3をLSTM144−3へ、観測値a4、b4、c4、d4からなるベクトルx4をLSTM144−4へ、観測値a5、b5、c5、d5からなるベクトルx5をLSTM144−5へ入力する。このように、RNN層141を構成するLSTMの個数は、部分時系列データセットの時点数Tに等しい。また、各LSTMの入力ベクトルxの次元数はセンサ数に等しい。
1つのLSTM144−i(i=1〜T)は、図7に示すような構造を有している。即ち、LSTM144−iは、忘却ゲート、入力ゲート、セル更新ゲート、出力ゲートという合計4つのゲートを有している。またLSTM144−iは、ベクトルの要素毎の乗算、加算を行う幾つかの演算子を有している。図7において、xtは時刻tにおけるセル(即ちLSTM144−i)の入力、ctは時刻tにおけるセルの状態、htは時刻tにおけるセルの出力である。
また、図7において、ftは時刻tにおける忘却ゲートの出力であり、図9に示す式2により計算される。式2において、Wfはxtに対する線形変換行列、Rfはht-1に対する線形変換行列、bfはバイアスであり、何れも忘却ゲートのために準備されたパラメータである。また、σはシグモイド関数であり、活性化関数として使用されている。
また、図7において、itは時刻tにおける入力ゲートの出力であり、図9に示す式3により計算される。式3において、Wiはxtに対する線形変換行列、Riはht-1に対する線形変換行列、biはバイアスであり、何れも入力ゲートのために準備されたパラメータである。
また、図7において、atは時刻tにおけるセル更新ゲートの出力であり、図9に示す式4により計算される。式4において、Waはxtに対する線形変換行列、Raはht-1に対する線形変換行列、baはバイアスであり、何れもセル更新ゲートのために準備されたパラメータである。また、tanhはハイパボリックタンジェント関数であり、活性化関数として使用されている。
また、図7において、otは時刻tにおける出力ゲートの出力であり、図9に示す式5により計算される。式5において、Woはxtに対する線形変換行列、Roはht-1に対する線形変換行列、boはバイアスであり、何れも出力ゲートのために準備されたパラメータである。
LSTM144−iは、上記4つのゲートの出力に基づいて、時刻tにおけるセルの状態ctを図9に示す式6により更新する。即ち、ctは、前の時刻におけるセルの状態ct-1と時刻tにおける忘却ゲートの出力ftとの要素毎の積と、時刻tにおける入力ゲートの出力itと時刻tにおけるセル更新ゲートの出力セルatとの要素毎の積とを要素毎に加算して求められる。
また、LSTM144−iは、時刻tにおける出力ゲートの出力otと時刻tにおけるセルの状態ctとに基づいて、時刻tにおけるセルの出力htを図9に示す式7により更新する。即ち、出力htは、時刻tにおける出力ゲートの出力otと、時刻tにおけるセルの状態ctに活性化関数としてtanhを適用して得た値との要素毎の積により求められる。
再び図6を参照すると、全結合層142は、最終段のLSTM141−Tの出力htを入力し、図9の式8で与えられるn1次元のベクトルf1を全結合層143に出力するように構成されている。式8において、W1は全結合層142の重みを表すn1×n0行列であり、全結合層142のために準備されたパラメータである。ここで、n0はLSTMの出力次元数である。
また、全結合層143は、全結合層142の出力f1を入力し、図9の式9で与えられるn2次元のベクトルf2を二値化部145に出力するように構成されている。式9において、W2は全結合層143の重みを表すn2×n1行列であり、全結合層143のために準備されたパラメータである。
二値化部145は、全結合層143の出力f2を入力し、f2の各次元を二値化した二値ベクトルをデータ変換部14の出力とするように構成されている。全結合層143の活性化関数はtanhなので、f2の各次元の値は必ず−1〜+1の値域になる。二値化部145は、f2の各次元の値を閾値(例えば0)と比較し、閾値以上であれば例えば+1に、閾値未満であれば−1に二値化する。或いは二値化部145は、f2の各次元の値の符号を参照し、−であれば−1に、−でなければ+1に二値化する。
上記では、二値化部145は、全結合層143の出力f2の各次元を二値化した二値ベクトルをデータ変換部14の出力とした。しかし、それに限定されない。二値化部145は、全結合層142の出力f1の各次元を二値化した二値ベクトルをデータ変換部14の出力とするように構成されていてもよい。或いは、二値化部145は、全結合層142の出力f1の各次元を二値化した二値ベクトルと、全結合層143の出力f2の各次元を二値化した二値ベクトルとの2種類の二値ベクトルをデータ変換部14の出力とするように構成されていてもよい。
次に、学習部11によるデータ変換部14の機械学習方法について詳細に説明する。
学習部11は、データ変換部14が図6に示されるような構成を有する場合、学習を前半と後半に分け、前半では図10Aに示すように、全結合層142に対して計算される誤差を最小化するように、誤差逆伝搬法によりモデルを学習する。また学習部11は、後半では図10Bに示すように、全結合層143に対して計算される誤差を最小化するように、誤差逆伝搬法によりモデルを学習する。
前半と後半の学習は、基本的に同じ機械学習方法を用いて実施される。以下では、機械学習方法の例として、Pairwise loss最小化に基づくモデル学習方法と、Triplet loss最小化に基づくモデル学習方法との2つの学習方法を説明する。
<Pairwise loss最小化に基づくモデル学習方法>
図11は、Pairwise loss最小化に基づくモデル学習方法を説明するためのフローチャートである。
図11を参照すると、学習部11は、先ず、学習のために準備した時系列データセット、即ちトレーニングデータを入出力部10経由で外部から入力する(ステップS31)。次に学習部11は、入力した時系列データセットをセグメントセットに分割する(ステップS32)。即ち、学習部11は、時系列データを複数のセグメントに分割する。このセグメントのセンサ数及び時点数は、記憶部15に登録される対象となる部分時系列データセットのセンサ数及び時点数と同じである。次に学習部11は、セグメントセットからランダムに2セットのバッチ(部分セット)を抽出する(ステップS33)。バッチに属するセグメントの数Nをバッチサイズと呼ぶ。また、一方のバッチをデータバッチ、他方のバッチをクエリバッチと呼ぶ。また、データバッチに属するセグメントをデータセグメント、クエリバッチに属するセグメントをクエリセグメントと呼ぶ。
次に学習部11は、データバッチおよびクエリバッチからそれぞれ1セグメントずつ選んだときの全ての組合せのセグメントペアを生成する(ステップS34)。1つのセグメントペアは、1つのデータセグメントiと1つのクエリセグメントjから成る。次に学習部11は、セグメントペア毎に、データセグメントiをデータ変換部14に入力したときの全結合層の出力ベクトルfiと、クエリセグメントjをデータ変換部14に入力したときの全結合層の出力ベクトルfjの内積Ωijを計算する(ステップS35)。ここで、前半の学習では全結合層142が計算の対象となり、後半の学習では全結合層143が計算の対象となる。全結合層142、143の活性化関数はtanhなので、出力ベクトルfi,fjの次元の値は−1〜+1の範囲であることが保証される。また、出力ベクトルの内積が大きいほどそのペアの出力は似ている。また学習部11は、セグメント毎に、データセグメントiとクエリセグメントjの類似度Sijを計算する(ステップS35)。類似度Sijは、1、0の何れかの値とする。例えば、データセグメントiとクエリセグメントjとの間のユークリッド距離を計算し、その値が閾値以下であれば類似度Sijを1、その値が閾値を超えていれば類似度Sijを0とする。
次に学習部11は、図9に示す式10で表される損失関数Lijが小さくなるようにデータ変換部14(RNNモデル)のパラメータを更新する(ステップS36)。式11において、R(W)は計算対象となる全結合層の重みパラメータに対する正則化項である。また、ηは学習率である。
損失関数Lijは、似ているセグメントについては出力を似せて、似ていないセグメントについては出力も似せないように損失を設計している。この結果、損失関数Lijが小さくなるようにデータ変換部14のパラメータを更新することにより、データ変換部14は、複数の部分時系列データセットを、それらの間の相対的な類似性を保持する複数の実数ベクトルに変換するように学習される。
<Triplet loss最小化に基づくモデル学習方法>
図12は、Triplet loss最小化に基づくモデル学習方法を説明するためのフローチャートである。
図12を参照すると、学習部11は、先ず、学習のために準備した時系列データセットを入出力部10経由で外部から入力し、複数のセグメントに分割する(ステップS41、S42)。この処理は図11のステップS31、S32と同じである。次に学習部11は、セグメントセットからランダムに3セットのバッチ(部分セット)を抽出する(ステップS43)。1つのバッチをアンカーバッチ、他の1つのバッチを正バッチ、残り1つのバッチを負バッチと呼ぶ。各バッチのバッチサイズはNである。また、アンカーバッチに属するセグメントをアンカーセグメント、正バッチに属するセグメントを正セグメント、負バッチに属するセグメントを負セグメントと呼ぶ。
次に学習部11は、アンカーセグメントをランダムに1つ選び、それに似ている正セグメントと、似ていない負セグメントをそれぞれ1つずつ選び、それら3つのセグメントを組み合わせたセグメントの三つ組を生成する(ステップS44)。これをバッチサイズN回分繰り返す。セグメント同士が似ている、似ていないは、セグメント間のユークリッド距離などを計算して判定する。次に学習部11は、セグメントの三つ組毎に以下の値を計算する(ステップS45)。1つは、アンカーセグメントをデータ変換部14に入力したときの全結合層の出力ベクトルfi aである。また他の1つは、正セグメントをデータ変換部14に入力したときの全結合層の出力ベクトルfi pである。最後の1つは、負セグメントをデータ変換部14に入力したときの全結合層の出力ベクトルfi nである。ここで、前半の学習では全結合層142が計算の対象となり、後半の学習では全結合層143が計算の対象となる。
次に学習部11は、図9に示す式11で表される損失関数Liが小さくなるようにデータ変換部14(RNNモデル)のパラメータを更新する(ステップS46)。式11において、αはマージンである。また、(・)+ =max(・,0)である。
上記損失関数Liを用いることにより、アンカーセグメントがデータ空間で正セグメントより負セグメントに近い場合、アンカーセグメントが特徴空間で正セグメントとの距離を縮め、負セグメントとの距離を広げるようにモデルを学習することができる。この結果、データ変換部14は、複数の部分時系列データセットを、それらの間の相対的な類似性を保持する複数の実数ベクトルに変換するように学習される。
上述したような構成を有する時系列データ処理装置1は、例えば図14に示すように、通信インタフェース部1001と、キーボードやマウスなどの操作入力部1002と、液晶ディスプレイ等の画面表示部1003と、メモリやハードディスク等の記憶部1004と、1以上のマイクロプロセッサ等の演算処理部1005とを有するパーソナルコンピュータ等の情報処理装置1000と、プログラム1100とで実現することができる。プログラム1100は、情報処理装置1000の立ち上げ時等に外部のコンピュータ読み取り可能な記憶媒体から記憶部1004に読み込まれ、演算処理部1005の動作を制御することにより、演算処理部1005上に、入出力部10、学習部11、登録部12、検索部13、データ変換部14、および記憶部15を実現する。
以上説明したように、本実施形態によれば、時系列データセット単位の類似検索が可能になる。その理由は、複数の部分時系列データセット間の相対的な類似性を保持する複数の二値ベクトルに変換するデータ変換部14を使用して、被検索対象となる部分時系列データセットを二値ベクトルに変換して変換前の部分時系列データセットと対応付けて記憶部15に登録しておき、検索クエリとしての部分時系列データセットを、データ変換部14を使用して二値ベクトルに変換し、変換クエリの二値ベクトルに類似する二値ベクトルを記憶部15から選択し、その選択した二値ベクトルに対応する部分時系列データセットを記憶部15から取得して出力するためである。
また、二値ベクトルは、実数ベクトルに比べてデータ量が削減されるため、コンピュータのメモリ量を削減することができる。また、二値ベクトル間の類似度の計算量は、実数ベクトル間の類似度の計算量に比べて少ないため、コンピュータの計算量・計算時間を短縮することができる。また、コンピュータの計算量・計算時間を短縮できるため、コンピュータの消費電力量を削減することができる。
[第2の実施形態]
図13は、本発明の第2の実施形態に係る時系列データ処理装置2のブロック図である。図13を参照すると、時系列データ処理装置2は、入出力部20と、記憶部25と、処理装置26とを含んで構成されている。また、処理装置26は、検索部23とデータ変換部24とを備えている。
データ変換部24は、複数の時系列データの集合である時系列データセットを所定の時間毎に区切った部分時系列データセットを、前記部分時系列データセットの特徴を示す特徴ベクトルに変換するように構成されている。このデータ変換部24は、例えば図1のデータ変換部14と同様に構成することができるが、それに限定されない。
記憶部25は、複数の部分時系列データセットと、前記複数の部分時系列データセットがデータ変換部24によって変換された複数の特徴ベクトルとを対応付けて記憶するように構成されている。記憶部25は、例えば図1の記憶部15と同様に構成することができるが、それに限定されない。
検索部23は、記憶部25に記憶された複数の特徴ベクトルのうち、入力された部分時系列データセットがデータ変換部24によって変換された特徴ベクトルに類似する少なくとも1つの特徴ベクトルを選択し、前記選択した特徴ベクトルに対応する前記部分時系列データセットを出力するように構成されている。検索部23は、例えば図1の検索部13と同様に構成することができるが、それに限定されない。
以上のような構成を有する時系列データ処理装置2は、例えば図14に示すように、通信インタフェース部1001と、キーボードやマウスなどの操作入力部1002と、液晶ディスプレイ等の画面表示部1003と、メモリやハードディスク等の記憶部1004と、1以上のマイクロプロセッサ等の演算処理部1005とを有するパーソナルコンピュータ等の情報処理装置1000と、プログラム1100とで実現することができる。プログラム1100は、情報処理装置1000の立ち上げ時等に外部のコンピュータ読み取り可能な記憶媒体から記憶部1004に読み込まれ、演算処理部1005の動作を制御することにより、演算処理部1005上に、入出力部20、検索部23、データ変換部24、および記憶部25を実現する。
以上のように構成された時系列データ処理装置2は、以下のように動作する。即ち、データ変換部24は、複数の時系列データの集合である時系列データセットを所定の時間毎に区切った部分時系列データセットを、前記部分時系列データセットの特徴を示す特徴ベクトルに変換する。次に記憶部25は、複数の部分時系列データセットと、前記複数の部分時系列データセットがデータ変換部24によって変換された複数の特徴ベクトルとを対応付けて記憶する。次に検索部23は、記憶部25に記憶された複数の特徴ベクトルのうち、入力された部分時系列データセットがデータ変換部24によって変換された特徴ベクトルに類似する少なくとも1つの特徴ベクトルを選択し、前記選択した特徴ベクトルに対応する前記部分時系列データセットを出力する。
このように構成され動作する時系列データ処理装置2によれば、時系列データセット単位の類似検索が可能になる。その理由は、複数の時系列データの集合である時系列データセットを所定の時間毎に区切った部分時系列データセットを、前記部分時系列データセットの特徴を示す特徴ベクトルに変換するデータ変換部24を備えているためである。また、複数の部分時系列データセットと、前記複数の部分時系列データセットから変換された複数の特徴ベクトルとを対応付けて記憶部25に記憶しておき、検索クエリとしての部分時系列データセットを、データ変換部24を使用して特徴ベクトルに変換し、変換クエリの特徴ベクトルに類似する特徴ベクトルを記憶部25から選択し、その選択した特徴ベクトルに対応する部分時系列データセットを記憶部25から取得して出力するためである。
以上、上記各実施形態を参照して本発明を説明したが、本発明は、上述した実施形態に限定されるものではない。本発明の構成や詳細には、本発明の範囲内で当業者が理解しうる様々な変更をすることができる。例えば、以下のような変更が可能である。
例えば、本発明は、検索クエリとして必要な部分時系列データセットが揃い次第、当該部分時系列データセットに対する類似検索を自動で行うよう、構成することが可能である。このように構成することで、時々刻々と部分時系列データセットに対する類似検索をリアルタイムで行うことができる。
また本発明は、記憶部15に記憶されているセグメントのうち、障害が発生したセグメントと障害が発生したセグメントの一定時間前のセグメント(障害前セグメント)とを把握しておき、現時点のセグメントが、障害前セグメントと一定条件以上類似する場合にアラート等を発生するよう、構成することが可能である。このように構成することで、過去に発生した障害と似たような障害が発生するおそれがある旨を、管理者等に知らせることができる。
また本発明は、例えば、現時点のセグメントと障害前のセグメントとの類似度に比べ、当該現時点から一定時間後におけるセグメントと障害前のセグメントとの類似度が、一定条件以上の割合で上昇(又は下降)した場合にアラート等を発生するよう、構成することが可能である。このように構成することで、過去に発生した障害と似たような障害が発生するおそれがある旨を、管理者等に知らせることができる。
また本発明は、現時点のセグメントが、記憶部15に記憶されているセグメントのいずれにも一定条件以上類似していない場合にアラート等を発生するよう、構成することが可能である。このように構成することで、記憶部15に記憶されていない、未知の異常を検出することができる。
なお、本発明は、検索クエリとして必要な部分時系列データセットが揃い次第、当該部分時系列データセットに対する類似検索を自動で行うよう、構成することが可能である。このように構成することで、時々刻々と部分時系列データセットに対する類似検索をリアルタイムで行うことができる。
また、本発明は、記憶部15に記憶されているセグメントのうち、障害が発生したセグメントと障害が発生したセグメントの一定時間前のセグメント(障害前セグメント)とを把握しておき、現時点のセグメントが、障害前セグメントと一定条件以上類似する場合にアラート等を発生するよう、構成することが可能である。このように構成することで、過去に発生した障害と似たような障害が発生するおそれがある旨を、管理者等に知らせることができる。
また、本発明は、例えば、現時点のセグメントと障害前のセグメントとの類似度に比べ、当該現時点から一定時間後におけるセグメントと障害前のセグメントとの類似度が、一定条件以上の割合で上昇(又は下降)した場合にアラート等を発生するよう、構成することが可能である。このように構成することで、過去に発生した障害と似たような障害が発生するおそれがある旨を、管理者等に知らせることができる。
なお、本発明は、現時点のセグメントが、記憶部15に記憶されているセグメントのいずれにも一定条件以上類似していない場合にアラート等を発生するよう、構成することが可能である。このように構成することで、記憶部15に記憶されていない、未知の異常を検出することができる。
本発明は、類似データを検索する分野に利用でき、特に複数の時系列データから構成される時系列データセットの単位で類似検索を行う分野に利用できる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
[付記1]
複数の時系列データの集合である時系列データセットを所定の時間毎に区切った部分時系列データセットを、前記部分時系列データセットの特徴を示す特徴ベクトルに変換するデータ変換部と、
複数の第1の部分時系列データセットと、前記複数の第1の部分時系列データセットが前記データ変換部によって変換された複数の第1の特徴ベクトルとを対応付けて記憶する記憶部と、
前記記憶部に記憶された前記複数の第1の特徴ベクトルのうち、入力された第2の部分時系列データセットが前記データ変換部によって変換された第2の特徴ベクトルに類似する少なくとも1つの第1の特徴ベクトルを選択し、前記選択した第1の特徴ベクトルに対応する前記第1の部分時系列データセットを出力する検索部と
を備える時系列データ処理装置。
[付記2]
前記第1の特徴ベクトル、および前記第2の特徴ベクトルは、次元数nの二値ベクトルである
付記1に記載の時系列データ処理装置。
[付記3]
前記次元数nは、前記第1の部分時系列データセット、および前記第2の部分時系列データセットに含まれる数値データの総数より少ない
付記2に記載の時系列データ処理装置。
[付記4]
前記データ変換部は、
前記第1の部分時系列データセットを入力し、次元数nの実数ベクトルを出力する特徴抽出部と、
前記実数ベクトルを入力し、前記二値ベクトルを出力する二値化部と、を含む
付記2または3に記載の時系列データ処理装置。
[付記5]
前記データ変換部は、
所定のパラメータを有する縦続接続されたT個のLSTMと、
最終段の前記LSTMの出力を入力とする、所定のパラメータを有する全結合層と、を含む
付記4に記載の時系列データ処理装置。
[付記6]
それぞれが部分時系列データセットである複数のトレーニングデータを使用して、前記データ変換部の機械学習を行う学習部を備える
付記5に記載の時系列データ処理装置。
[付記7]
前記学習部は、前記複数のトレーニングデータが、前記複数のトレーニングデータ間の相対的な類似性を維持する複数の特徴ベクトルに変換されるように、前記データ変換部の機械学習を行うように構成されている
付記6に記載の時系列データ処理装置。
[付記8]
前記学習部は、
前記複数のトレーニングデータから、複数のトレーニングデータのペアを生成し、
前記ペア毎に、
ペアの一方の前記トレーニングデータiを前記データ変換部に入力したときの前記全結合層の出力ベクトルとペアの他方の前記トレーニングデータjを前記データ変換部に入力したときの前記全結合層の出力ベクトルとの内積Ωijと、前記ペアの一方の前記トレーニングデータiと前記ペアの他方の前記トレーニングデータjとの間の類似度Sijとを計算し、損失関数Lij =−(Sij logΩij+(1‐Sij )log (1‐Ωij )+ηR(W)が小さくなるように前記データ変換部の前記パラメータを更新する
付記6または7に記載の時系列データ処理装置。
[付記9]
前記学習部は、
前記複数のトレーニングデータから、アンカーセグメントである1つの前記トレーニングデータと、前記アンカーセグメントに類似する正セグメントである1つの前記トレーニングデータと、前記アンカーセグメントに類似しない負セグメントである1つの前記トレーニングデータとから成る複数の三つ組を生成し、
前記三つ組毎に、
前記アンカーセグメントを前記データ変換部に入力したときの前記全結合層の出力ベクトルfi aと、前記正セグメントを前記データ変換部に入力したときの前記全結合層の出力ベクトルfi pと、前記負セグメントを前記データ変換部に入力したときの前記全結合層の出力ベクトルfi nとを計算し、損失関数Li =−Σi=1 N(||fi a‐fi p||2−||fi a‐fi n||2+α)+ +ηR(W)が小さくなるように前記データ変換部の前記パラメータを更新する
付記6または7に記載の時系列データ処理装置。
[付記10]
複数の時系列データの集合である時系列データセットを所定の時間毎に区切った部分時系列データセットを、前記部分時系列データセットの特徴を示す特徴ベクトルに変換するデータ変換部を使用して、登録対象の複数の第1の部分時系列データセットを複数の第1の特徴ベクトルに変換し、前記複数の第1の部分時系列データセットと前記複数の第1の特徴ベクトルとを対応付けて記憶部に記憶し、
第2の部分時系列データセットを入力し、
前記データ変換部を使用して、前記第2の部分時系列データセットを第2の特徴ベクトルに変換し、
前記記憶部に記憶された前記複数の第1の特徴ベクトルのうち前記第2の特徴ベクトルに類似する少なくとも1つの前記第1の特徴ベクトルを選択し、前記選択した第1の特徴ベクトルに対応する前記第2の部分時系列データセットを出力する
時系列データ処理方法。
[付記11]
前記第1の特徴ベクトル、および前記第2の特徴ベクトルは、次元数nの二値ベクトルである
付記10に記載の時系列データ処理方法。
[付記12]
前記次元数nは、前記第1の部分時系列データセット、および前記第2の部分時系列データセットに含まれる数値データの総数より少ない
付記11に記載の時系列データ処理方法。
[付記13]
前記第1の部分時系列データセットの前記二値ベクトルへの変換では、前記第1の部分時系列データセットを次元数nの実数ベクトルに変換し、次に前記実数ベクトルの各次元を二値化する
付記11または12に記載の時系列データ処理方法。
[付記14]
前記第2の部分時系列データセットの前記実数ベクトルへの変換では、所定のパラメータを有し縦続接続されたT個のLSTMと、最終段の前記LSTMの出力を入力とする、所定のパラメータを有する全結合層とを使用する
付記13に記載の時系列データ処理方法。
[付記15]
前記第1の部分時系列データセットを前記第1の特徴ベクトルに変換する前に、それぞれが部分時系列データセットである複数のトレーニングデータを使用して、前記データ変換部の機械学習を行う
付記14に記載の時系列データ処理方法。
[付記16]
前記学習では、前記複数のトレーニングデータが、前記複数のトレーニングデータ間の相対的な類似性を維持する複数の特徴ベクトルに変換されるように、前記データ変換部の機械学習を行う
付記14に記載の時系列データ処理方法。
[付記17]
前記機械学習では、
前記複数のトレーニングデータから、複数のトレーニングデータのペアを生成し、
前記ペア毎に、
ペアの一方の前記トレーニングデータiを前記データ変換部に入力したときの前記全結合層の出力ベクトルとペアの他方の前記トレーニングデータjを前記データ変換部に入力したときの前記全結合層の出力ベクトルとの内積Ωijと、前記ペアの一方の前記トレーニングデータiと前記ペアの他方の前記トレーニングデータjとの間の類似度Sijとを計算し、損失関数Lij =−(Sij logΩij+(1‐Sij )log (1‐Ωij )+ηR(W)が小さくなるように前記データ変換部の前記パラメータを更新する
付記15または16に記載の時系列データ処理方法。
[付記18]
前記学習では、
前記複数のトレーニングデータから、アンカーセグメントである1つの前記トレーニングデータと、前記アンカーセグメントに類似する正セグメントである1つの前記トレーニングデータと、前記アンカーセグメントに類似しない負セグメントである1つの前記トレーニングデータとから成る複数の三つ組を生成し、
前記三つ組毎に、
前記アンカーセグメントを前記データ変換部に入力したときの前記全結合層の出力ベクトルfi aと、前記正セグメントを前記データ変換部に入力したときの前記全結合層の出力ベクトルfi pと、前記負セグメントを前記データ変換部に入力したときの前記全結合層の出力ベクトルfi nとを計算し、損失関数Li =−Σi=1 N(||fi a‐fi p||2−||fi a‐fi n||2+α)+ +ηR(W)が小さくなるように前記データ変換部の前記パラメータを更新する
付記15または16に記載の時系列データ処理方法。
[付記19]
コンピュータを、
複数の時系列データの集合である時系列データセットを所定の時間毎に区切った部分時系列データセットを、前記部分時系列データセットの特徴を示す特徴ベクトルに変換するデータ変換部と、
複数の第1の部分時系列データセットと、前記複数の第1の部分時系列データセットが前記データ変換部によって変換された複数の第1の特徴ベクトルとを対応付けて記憶する記憶部と、
前記記憶部に記憶された前記複数の第1の特徴ベクトルのうち、入力された第2の部分時系列データセットが前記データ変換部によって変換された第2の特徴ベクトルに類似する少なくとも1つの前記第1の特徴ベクトルを選択し、前記選択した第1の特徴ベクトルに対応する前記第2の部分時系列データセットを出力する検索部と、
して機能させるためのプログラムを記憶するコンピュータ読み取り可能な記録媒体。
1…時系列データ処理装置
2…時系列データ処理装置
10…入出力部
11…学習部
12…登録部
13…検索部
14…データ変換部
15…記憶部
20…入出力部
23…検索部
24…データ変換部
25…記憶部
141…RNN層
142…全結合層
143…全結合層
144−1〜144−T…LSTM
145…二値化部
1000…情報処理装置
1001…通信インタフェース部
1002…操作入力部
1003…画面表示部
1004…記憶部
1005…演算処理部
1100…プログラム

Claims (19)

  1. 複数の時系列データの集合である時系列データセットを所定の時間毎に区切った部分時系列データセットを、前記部分時系列データセットの特徴を示す特徴ベクトルに変換するデータ変換部と、
    複数の第1の部分時系列データセットと、前記複数の第1の部分時系列データセットが前記データ変換部によって変換された複数の第1の特徴ベクトルとを対応付けて記憶する記憶部と、
    前記記憶部に記憶された前記複数の第1の特徴ベクトルのうち、入力された第2の部分時系列データセットが前記データ変換部によって変換された第2の特徴ベクトルに類似する少なくとも1つの第1の特徴ベクトルを選択し、前記選択した第1の特徴ベクトルに対応する前記第1の部分時系列データセットを出力する検索部と
    を備える時系列データ処理装置。
  2. 前記第1の特徴ベクトル、および前記第2の特徴ベクトルは、次元数nの二値ベクトルである
    請求項1に記載の時系列データ処理装置。
  3. 前記次元数nは、前記第1の部分時系列データセット、および前記第2の部分時系列データセットに含まれる数値データの総数より少ない
    請求項2に記載の時系列データ処理装置。
  4. 前記データ変換部は、
    前記第1の部分時系列データセットを入力し、次元数nの実数ベクトルを出力する特徴抽出部と、
    前記実数ベクトルを入力し、前記二値ベクトルを出力する二値化部と、を含む
    請求項2または3に記載の時系列データ処理装置。
  5. 前記データ変換部は、
    所定のパラメータを有する縦続接続されたT個のLSTMと、
    最終段の前記LSTMの出力を入力とする、所定のパラメータを有する全結合層と、を含む
    請求項4に記載の時系列データ処理装置。
  6. それぞれが部分時系列データセットである複数のトレーニングデータを使用して、前記データ変換部の機械学習を行う学習部を備える
    請求項5に記載の時系列データ処理装置。
  7. 前記学習部は、前記複数のトレーニングデータが、前記複数のトレーニングデータ間の相対的な類似性を維持する複数の特徴ベクトルに変換されるように、前記データ変換部の機械学習を行うように構成されている
    請求項6に記載の時系列データ処理装置。
  8. 前記学習部は、
    前記複数のトレーニングデータから、複数のトレーニングデータのペアを生成し、
    前記ペア毎に、
    ペアの一方の前記トレーニングデータiを前記データ変換部に入力したときの前記全結合層の出力ベクトルとペアの他方の前記トレーニングデータjを前記データ変換部に入力したときの前記全結合層の出力ベクトルとの内積Ωijと、前記ペアの一方の前記トレーニングデータiと前記ペアの他方の前記トレーニングデータjとの間の類似度Sijとを計算し、損失関数Lij =−(Sij logΩij+(1‐Sij )log (1‐Ωij )+ηR(W)が小さくなるように前記データ変換部の前記パラメータを更新する
    請求項6または7に記載の時系列データ処理装置。
  9. 前記学習部は、
    前記複数のトレーニングデータから、アンカーセグメントである1つの前記トレーニングデータと、前記アンカーセグメントに類似する正セグメントである1つの前記トレーニングデータと、前記アンカーセグメントに類似しない負セグメントである1つの前記トレーニングデータとから成る複数の三つ組を生成し、
    前記三つ組毎に、
    前記アンカーセグメントを前記データ変換部に入力したときの前記全結合層の出力ベクトルfi aと、前記正セグメントを前記データ変換部に入力したときの前記全結合層の出力ベクトルfi pと、前記負セグメントを前記データ変換部に入力したときの前記全結合層の出力ベクトルfi nとを計算し、損失関数Li =−Σi=1 N(||fi a‐fi p||2−||fi a‐fi n||2+α)+ +ηR(W)が小さくなるように前記データ変換部の前記パラメータを更新する
    請求項6または7に記載の時系列データ処理装置。
  10. 複数の時系列データの集合である時系列データセットを所定の時間毎に区切った部分時系列データセットを、前記部分時系列データセットの特徴を示す特徴ベクトルに変換するデータ変換部を使用して、登録対象の複数の第1の部分時系列データセットを複数の第1の特徴ベクトルに変換し、前記複数の第1の部分時系列データセットと前記複数の第1の特徴ベクトルとを対応付けて記憶部に記憶し、
    第2の部分時系列データセットを入力し、
    前記データ変換部を使用して、前記第2の部分時系列データセットを第2の特徴ベクトルに変換し、
    前記記憶部に記憶された前記複数の第1の特徴ベクトルのうち前記第2の特徴ベクトルに類似する少なくとも1つの前記第1の特徴ベクトルを選択し、前記選択した第1の特徴ベクトルに対応する前記第2の部分時系列データセットを出力する
    時系列データ処理方法。
  11. 前記第1の特徴ベクトル、および前記第2の特徴ベクトルは、次元数nの二値ベクトルである
    請求項10に記載の時系列データ処理方法。
  12. 前記次元数nは、前記第1の部分時系列データセット、および前記第2の部分時系列データセットに含まれる数値データの総数より少ない
    請求項11に記載の時系列データ処理方法。
  13. 前記第1の部分時系列データセットの前記二値ベクトルへの変換では、前記第1の部分時系列データセットを次元数nの実数ベクトルに変換し、次に前記実数ベクトルの各次元を二値化する
    請求項11または12に記載の時系列データ処理方法。
  14. 前記第2の部分時系列データセットの前記実数ベクトルへの変換では、所定のパラメータを有し縦続接続されたT個のLSTMと、最終段の前記LSTMの出力を入力とする、所定のパラメータを有する全結合層とを使用する
    請求項13に記載の時系列データ処理方法。
  15. 前記第1の部分時系列データセットを前記第1の特徴ベクトルに変換する前に、それぞれが部分時系列データセットである複数のトレーニングデータを使用して、前記データ変換部の機械学習を行う
    請求項14に記載の時系列データ処理方法。
  16. 前記学習では、前記複数のトレーニングデータが、前記複数のトレーニングデータ間の相対的な類似性を維持する複数の特徴ベクトルに変換されるように、前記データ変換部の機械学習を行う
    請求項14に記載の時系列データ処理方法。
  17. 前記機械学習では、
    前記複数のトレーニングデータから、複数のトレーニングデータのペアを生成し、
    前記ペア毎に、
    ペアの一方の前記トレーニングデータiを前記データ変換部に入力したときの前記全結合層の出力ベクトルとペアの他方の前記トレーニングデータjを前記データ変換部に入力したときの前記全結合層の出力ベクトルとの内積Ωijと、前記ペアの一方の前記トレーニングデータiと前記ペアの他方の前記トレーニングデータjとの間の類似度Sijとを計算し、損失関数Lij =−(Sij logΩij+(1‐Sij )log (1‐Ωij )+ηR(W)が小さくなるように前記データ変換部の前記パラメータを更新する
    請求項15または16に記載の時系列データ処理方法。
  18. 前記学習では、
    前記複数のトレーニングデータから、アンカーセグメントである1つの前記トレーニングデータと、前記アンカーセグメントに類似する正セグメントである1つの前記トレーニングデータと、前記アンカーセグメントに類似しない負セグメントである1つの前記トレーニングデータとから成る複数の三つ組を生成し、
    前記三つ組毎に、
    前記アンカーセグメントを前記データ変換部に入力したときの前記全結合層の出力ベクトルfi aと、前記正セグメントを前記データ変換部に入力したときの前記全結合層の出力ベクトルfi pと、前記負セグメントを前記データ変換部に入力したときの前記全結合層の出力ベクトルfi nとを計算し、損失関数Li =−Σi=1 N(||fi a‐fi p||2−||fi a‐fi n||2+α)+ +ηR(W)が小さくなるように前記データ変換部の前記パラメータを更新する
    請求項15または16に記載の時系列データ処理方法。
  19. コンピュータを、
    複数の時系列データの集合である時系列データセットを所定の時間毎に区切った部分時系列データセットを、前記部分時系列データセットの特徴を示す特徴ベクトルに変換するデータ変換部と、
    複数の第1の部分時系列データセットと、前記複数の第1の部分時系列データセットが前記データ変換部によって変換された複数の第1の特徴ベクトルとを対応付けて記憶する記憶部と、
    前記記憶部に記憶された前記複数の第1の特徴ベクトルのうち、入力された第2の部分時系列データセットが前記データ変換部によって変換された第2の特徴ベクトルに類似する少なくとも1つの前記第1の特徴ベクトルを選択し、前記選択した第1の特徴ベクトルに対応する前記第2の部分時系列データセットを出力する検索部と、
    して機能させるためのプログラムを記憶するコンピュータ読み取り可能な記録媒体。
JP2020540929A 2018-09-05 2018-09-05 時系列データ処理装置 Active JP7131616B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/032927 WO2020049666A1 (ja) 2018-09-05 2018-09-05 時系列データ処理装置

Publications (2)

Publication Number Publication Date
JPWO2020049666A1 true JPWO2020049666A1 (ja) 2021-05-13
JP7131616B2 JP7131616B2 (ja) 2022-09-06

Family

ID=69723062

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020540929A Active JP7131616B2 (ja) 2018-09-05 2018-09-05 時系列データ処理装置

Country Status (2)

Country Link
JP (1) JP7131616B2 (ja)
WO (1) WO2020049666A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022003983A1 (ja) * 2020-07-03 2022-01-06 日本電気株式会社 時系列データ処理方法、時系列データ処理装置、時系列データ処理システム、記録媒体
KR102621258B1 (ko) * 2022-11-22 2024-01-05 한국전자기술연구원 다중 시계열 데이터의 특징점 추출을 통한 시계열 데이터 검색 시스템 및 방법
CN117668762B (zh) * 2024-01-31 2024-05-17 新疆三联工程建设有限责任公司 用于住宅地下渗漏的监测预警系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104754413A (zh) * 2013-12-30 2015-07-01 北京三星通信技术研究有限公司 基于图像搜索识别电视信号并推荐信息的方法和设备
JP2021512437A (ja) * 2018-02-08 2021-05-13 エヌイーシー ラボラトリーズ アメリカ インクNEC Laboratories America, Inc. システム状態を解析及び修正するための時系列の検索

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104754413A (zh) * 2013-12-30 2015-07-01 北京三星通信技术研究有限公司 基于图像搜索识别电视信号并推荐信息的方法和设备
JP2021512437A (ja) * 2018-02-08 2021-05-13 エヌイーシー ラボラトリーズ アメリカ インクNEC Laboratories America, Inc. システム状態を解析及び修正するための時系列の検索

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SONG, DONGJIN ET AL.: "Deep r-th Root of Rank Supervised Joint Binary Embedding for Multivariate Time Series Retrieval", PROCEEDINGS OF THE 24TH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY & DATA MINING, JPN7018003903, 19 July 2018 (2018-07-19), pages 2229 - 2238, XP055691844, ISSN: 0004696955, DOI: 10.1145/3219819.3220108 *
柏野邦夫、外2名: "マルチモーダルアクティブ探索を用いた画像・音響時系列の高速探索", 電子情報通信学会技術研究報告, vol. 98, no. 274, JPN6018044962, 17 September 1998 (1998-09-17), pages 51 - 58, ISSN: 0004696956 *

Also Published As

Publication number Publication date
WO2020049666A1 (ja) 2020-03-12
JP7131616B2 (ja) 2022-09-06

Similar Documents

Publication Publication Date Title
US20200257543A1 (en) Aggregate Features For Machine Learning
US20190340533A1 (en) Systems and methods for preparing data for use by machine learning algorithms
Bernard et al. Dynamic random forests
Singh et al. A novel soft computing method for engine RUL prediction
Pan et al. Imputation of missing values in time series using an adaptive-learned median-filled deep autoencoder
CN113139600A (zh) 基于联邦学习的智能电网设备异常检测方法和系统
US11380301B2 (en) Learning apparatus, speech recognition rank estimating apparatus, methods thereof, and program
Aparna et al. Feature selection and extraction in data mining
JP7131616B2 (ja) 時系列データ処理装置
US11822544B1 (en) Retrieval of frequency asked questions using attentive matching
Kongsorot et al. Multi-label classification with extreme learning machine
CN113627471A (zh) 一种数据分类方法、系统、设备及信息数据处理终端
CN115080587B (zh) 一种基于知识图谱的电子元器件替代方法、装置及介质
Li et al. Sparsity learning formulations for mining time-varying data
CN112905809B (zh) 知识图谱学习方法和系统
Ul Rahman et al. Additive parameter for deep face recognition
CN110717116A (zh) 关系网络的链接预测方法及系统、设备、存储介质
CN116089731B (zh) 一种缓解灾难性遗忘的在线哈希检索方法及系统
Zhou et al. Online recommendation based on incremental-input self-organizing map
WO2021059527A1 (ja) 学習装置、学習方法、及び、記録媒体
CN116757280A (zh) 一种基于图变换网络的知识图谱多元关系链路预测方法
JP2023123247A (ja) 分類装置、分類方法およびプログラム
Xiao et al. Self-optimizing feature transformation
CN114036267A (zh) 对话方法及系统
Ko et al. Deep compression of sum-product networks on tensor networks

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201112

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220329

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220808

R151 Written notification of patent or utility model registration

Ref document number: 7131616

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151