WO2016111002A1

WO2016111002A1 - データ管理装置及びデータ管理方法

Info

Publication number: WO2016111002A1
Application number: PCT/JP2015/050475
Authority: WO
Inventors: 純入江; 松本　真人
Original assignee: 株式会社日立製作所
Priority date: 2015-01-09
Filing date: 2015-01-09
Publication date: 2016-07-14
Also published as: US20170212935A1

Abstract

【課題】時系列データの特徴量を圧縮単位とは異なる単位で算出することにより、データ蓄積容量を節約しつつ高精度なデータ検索機能を提供する。【解決手段】データ管理装置１００は、入力された時系列データから第１の単位でデータを取得するデータ受付部１１１と、前記第１の単位で取得したデータを圧縮するデータ圧縮部１１４と、前記第１の単位とは異なる第２の単位で取得したデータの特徴を示す特徴量を算出する特徴量算出部１１３と、を備える。

Description

データ管理装置及びデータ管理方法

　本発明は、データ管理装置及びデータ管理方法に関し、時系列データを管理するデータ管理装置及びデータ管理方法に適用して好適なるものである。

　昨今、時々刻々と発生する大量の時系列データが蓄積され、種々の業務に役立てられている。このような時系列データの蓄積量は膨大となってきており、蓄積容量の巨大化や検索処理の長時間化が問題となっている。そこで、膨大な時系列データの蓄積容量を節約するため、所定の時間幅毎にデータを圧縮して蓄積することが行われている。

　また、大量の時系列データを効率的に検索するため、データを蓄積する際に、圧縮されたデータ毎に特徴量を算出し、圧縮されたデータと算出した特徴量とを対応付けて、当該特徴量をもとに検索対象となる時系列データを絞り込むことが行われている。例えば、特許文献１には、利用者の検索範囲や検索期間に応じて圧縮単位であるデータブロックの大きさを変更して、当該データブロックに対して特徴量を算出することが記載されている。

特開２０１１－２２１７９９号公報

　通常、大量の時系列データは高圧縮で蓄積されるため、１時間毎や１日毎といった大きい単位でデータが圧縮される。この場合、１分毎など、より小さい単位でデータの内容を把握して、より詳細に高精度なデータ分析を効率よく行うことができないという問題があった。一方、小さい単位でデータを圧縮すると、圧縮効果が低減するため、時系列データの蓄積容量の節約を実現することができないという問題があった。上記した特許文献１に記載の技術を利用して、圧縮単位であるデータブロックを変更したとしても、１つのデータブロックに対して１つの特徴量が算出されるため、当該特徴量を利用して、データ蓄積容量の節約と高精度なデータ分析とを両立させることは困難であった。

　本発明は以上の点を考慮してなされたもので、時系列データの特徴量を圧縮単位とは異なる単位で算出することにより、データ蓄積容量を節約しつつ高精度なデータ検索機能を提供することが可能なデータ管理装置及びデータ管理方法を提案しようとするものである。

　かかる課題を解決するために本発明においては、入力された時系列データから第１の単位でデータを取得するデータ受付部と、前記第１の単位で取得したデータを圧縮するデータ圧縮部と、前記第１の単位とは異なる第２の単位で取得したデータの特徴を示す特徴量を算出する特徴量算出部と、を備えることを特徴とする、データ管理装置が提供される。

　また、かかる課題を解決するために本発明においては、データ受付部が、入力された時系列データから第１の単位でデータを取得するステップと、データ圧縮部が、前記第１の単位で取得したデータを圧縮するステップと、特徴量算出部が、前記第１の単位とは異なる第２の単位で取得したデータの特徴を示す特徴量を算出するステップと、を含むことを特徴とする、データ管理方法が提供される。

　本発明によれば、時系列データの特徴量を圧縮単位とは異なる単位で算出することにより、データ蓄積容量を節約しつつ高精度なデータ検索機能を提供することができる。

本発明の一実施形態に係る概要を説明する概念図である。同実施形態にかかるデータ管理装置の構成を示すブロック図である。同実施形態にかかる時系列データの一例を示す図表である。同実施形態にかかる検索クエリの一例を示す概念図である。同実施形態にかかる時系列データ情報の一例を示す図表である。同実施形態にかかる特徴量情報の一例を示す図表である。同実施形態にかかる特徴量参照情報の一例を示す図表である。同実施形態にかかる特徴量インデクス情報の一例を示す図表である。同実施形態にかかるインデクスデータの一例を示す概念図である。同実施形態にかかる検索履歴情報の一例を示す図表である。同実施形態にかかる特徴量算出情報の一例を示す図表である。同実施形態にかかる特徴量算出処理を示すフローチャートである。同実施形態にかかる特徴量圧縮単位決定処理を示すフローチャートである。同実施形態にかかる第２の特徴量算出処理を示すフローチャートである。同実施形態にかかる第２の特徴量算出単位決定処理を示すフローチャートである。同実施形態にかかる第３の特徴量算出処理を示すフローチャートである。同実施形態にかかる第３の特徴量算出方法決定処理を示すフローチャートである。同実施形態にかかる特徴量の圧縮処理を示すフローチャートである。同実施形態にかかる特徴量圧縮単位決定処理を示すフローチャートである。同実施形態にかかる特徴量インデクスの再編成処理を示すフローチャートである。同実施形態にかかる特徴量インデクスの再編成方法決定処理を示すフローチャートである。同実施形態にかかる特徴量算出単位の選択画面の一例を示す概念図である。同実施形態にかかる特徴量算出単位の選択画面の一例を示す概念図である。

　以下図面について、本発明の一実施の形態を詳述する。

（１）本実施の形態の概要
　まず、本実施の形態の概要について説明する。従来から、大量の時系列データを効率的に検索するため、データを蓄積する際に、データを圧縮し、圧縮単位となるデータブロックに対して特徴量を算出して対応付けることが行われている。通常、蓄積容量を節約するため、大量の時系列データは、１時間毎や１日毎といった大きい単位で圧縮される。この場合、１分毎など、圧縮単位より小さい単位でデータの内容を把握して、より詳細に高精度なデータ分析を効率よく行うことができないという問題があった。

　従来技術の一例として、圧縮単位が１時間単位のデータブロックに対して、１つの特徴量が対応付けられている場合について説明する。例えば、利用者は、１時間単位で圧縮されたデータブロックの中から、ある１５分間のデータの内容を把握したいとする。この場合、まず、複数のデータブロックに対応付けられた複数の特徴量の情報をもとに、所定の検索条件に合致するデータブロックを特定する。そして、圧縮されたデータブロックを解凍し、解凍されたデータブロックに対して、さらにある１５分間のデータの内容の特徴量を算出するなどしてデータの内容を把握する。

　このように、圧縮した時間単位（例えば１時間）以外の時間単位（例えば１５分）に関するデータ内容を把握する場合には、特徴量の情報をもとに特定したデータブロックを一旦解凍したうえで、再度特徴量を算出するなどする必要があり、検索の長時間化を招いてしまう。一方、圧縮する時間単位を短くすると、圧縮効果が低減してデータ蓄積容量を節約することができないという問題があった。

　そこで本実施の形態では、図１に示すように、従来と同様に、時系列データを１時間単位毎や１日毎といった大きい単位で取得して（ＳＴＥＰ０１）、特徴量については、時系列データの圧縮単位よりも小さい単位、例えば１分毎の時系列データに対して特徴量を算出する（ＳＴＥＰ０２）。そして、時系列データを大きい単位で圧縮して（ＳＴＥＰ０３）、圧縮後の時系列データを記憶装置に蓄積する（ＳＴＥＰ０４）。また、ＳＴＥＰ０２で算出した特徴量は、時系列データに対応付けて記憶装置に蓄積する（ＳＴＥＰ０５）。

　このように、圧縮した時間単位よりも小さい時間単位の特徴量を算出することにより、記憶されたデータから所望のデータを検索する際には、細かい時間幅で算出された特徴量の情報をインデクスとして時系列データまたは特徴量そのものを検索して（ＳＴＥＰ０６）、圧縮された時系列データを解凍する（ＳＴＥＰ０７）。

　すなわち、細かい時間幅の特徴量の情報を検索することにより、圧縮されたデータを解凍することなく、圧縮されたデータの時間単位よりも小さい時間単位に関するデータ内容を把握することが可能となる。このように、本実施の形態では、時系列データの特徴量を圧縮単位より小さい単位で算出することにより、データ蓄積容量を節約しつつ、効率よく高精度な検索を実現することを目的としている。

　また、上記ＳＴＥＰ０１～ＳＴＥＰ０７の処理が繰り返されると、図１に示すように、記憶装置に時系列データ情報、検索履歴情報、特徴量情報などが蓄積される。記憶装置に記憶される各種情報については、後で詳細に説明する。本実施の形態では、上記処理に加えて、検索履歴情報に含まれる特徴量や特徴量のインデクスの参照頻度をもとに、特徴量や特徴量のインデクスの再編成を行う。これにより、利用者の要求に応じて、より高速かつ柔軟な検索機能を提供することができる。

　具体的に、本実施の形態における時系列データのデータ管理は、時系列データを圧縮したり蓄積したりする第１の段階（上記ＳＴＥＰ０１～ＳＴＰＥ５）、時系列データや特徴量そのものを検索したり、時系列データを取得したりする第２の段階（上記ＳＴＥＰ０６～ＳＴＥＰ０７）、時系列データの検索履歴情報や特徴量の参照頻度から、特徴量や特徴量のインデクスの再算出や再編成などを行う第３の段階からなる。以下詳細に説明する。

（２）データ管理装置の構成
　図２を参照して、本実施の形態にかかるデータ管理装置１００の構成について説明する。以下では、時系列データの一例として、タクシーの速度情報や位置情報が所定間隔で蓄積される場合について説明する。

（２－１）データ管理装置のハードウェア構成
　データ管理装置１００は、ＣＰＵおよびメモリ等の情報処理資源を備えている。ＣＰＵは、演算処理装置として機能し、メモリに記憶されているプログラムや演算パラメータ等にしたがって、データ管理装置１００の動作を制御する。

　また、データ管理装置１００は、ネットワークに接続するための通信デバイス等で構成された通信インタフェースを備えている。通信装置は、無線ＬＡＮ（Local　Area　Network）対応通信装置であっても、ワイヤレスＵＳＢ対応通信装置であっても、有線による通信を行うワイヤー通信装置であってもよい。この通信装置は、ユーザ所有の情報処理端末との間で、ネットワークを介して各種データを送受信する。

　また、データ管理装置１００は、キーボード、スイッチやポインティングデバイス、マイクロフォン等の情報入力装置と、モニタディスプレイやスピーカ等の情報出力装置とを備えている。

　さらに、データ管理装置１００は、データ格納用の記憶装置１４０を備えている。記憶装置１４０は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含む。記憶装置１４０装置は、例えば、ＨＤＤ（Hard Disk Drive）で構成され、ハードディスクを駆動し、ＣＰＵが実行するプログラムや各種データを格納する。また、本実施の形態では、記憶装置１４０に大量の時系列データが蓄積されるため、記憶装置１４０を上記したハードウェア構成とは別体の外部記憶装置としてもよい。

（２－２）データ管理装置のソフトウェア構成
　次に、図２を参照して、データ管理装置１００のソフトウェア構成について説明する。なお、データ管理装置１００のソフトウェア構成を説明する際に、適宜、図３～図１１に示す各種データ内容を参照する。図２に示すように、データ管理装置１００は、データ蓄積部１１０、データ検索部１２０、データ再編成部１３０から構成される。

　データ蓄積部１１０は、上記した第１の段階の処理、すなわち、時系列データを圧縮したり蓄積したりする処理を制御し、データ受付部１１１、加工部１１２及び書込部１１５から構成される。

　データ受付部１１１は、ネットワークを介して外部のユーザ端末などから時系列データ５１０を受け付けて、加工部１１２に提供する。時系列データ５１０の一例を図３に示す。

　図３に示すように、時系列データ５１０は、データ名５１０１、タイムスタンプ５１０２、スピード５１０３、緯度５１０４及び経度５１０５から構成される。データ名５１０１は、時系列データの計測対象を示す情報であり、例えば、「タクシー１」、「タクシー２」などである。タイムスタンプ５１０２は、データが記憶された時刻を示す情報であり、「2014-09-25 10:00:00」のような日時の情報である。スピード５１０３は、当該時刻における計測対象「タクシー１」のスピードであり、例えば時速を示す「３２」などである。緯度５１０４及び経度５１０５は、当該時刻における計測対象「タクシー１」の緯度及び経度であり、例えば、緯度を示す「35.2612」、経度を示す「139.3801」などである。

　加工部１１２は、データ受付部１１１から提供された時系列データから、所定の圧縮単位でデータを取得して、特徴量算出部１１３が当該データの特徴量を算出し、データ圧縮部１１４が当該データを圧縮する。特徴量算出部１１３は、取得した圧縮単位よりも小さい単位のデータの特徴量を算出して、書込部１１５に提供する。

　具体的に、特徴量算出部１１３は、特徴量算出情報１４６を参照して、時系列データのデータ名及び属性名をもとに、特徴量の算出単位や算出方法を特定して、時系列データの特徴量を算出する。データ圧縮部１１４は、所定の圧縮単位でデータを圧縮して、圧縮データを書込部１１５に提供する。

　図１１に、特徴量算出情報１４６の一例を示す。特徴量算出情報１４６は、特徴量の算出単位を管理する情報であって、図１１に示すように、データ名１４６０、属性名１４６１、特徴名１４６２、特徴量算出単位１４６３及び特徴量算出方法１４６４から構成される。

　データ名１４６０には、時系列データの計測対象を示す情報が格納され、例えば、「タクシー１」、「タクシー２」などである。属性名１４６１には、時系列データの属性を示す情報が格納され、例えば、「スピード」、「緯度」、「経度」などである。特徴名１４６２には、特徴量の名称が格納され、例えば、データの最大値を示す「MAX」や、最小値を示す「MIN」などである。特徴量算出単位１４６３には、特徴量の算出単位の情報が格納される。特徴量の算出単位は、予め利用者により設定されるが、後述するように、検索履歴情報などに応じて特徴量の算出単位が変更される。特徴量算出方法１４６４には、特徴量を算出するための計算式が格納され、例えば最大値を算出する計算式「Max()」や最小値を算出する計算式「Min()」などである。

　書込部１１５は、加工部１１２から提供された特徴量を記憶装置１４０に格納する特徴量書込部１１６と、加工部１１２から提供された圧縮データを記憶装置１４０に格納するデータ書込部１１７から構成される。

　データ書込部１１７は、データ圧縮部１１４により圧縮された圧縮データを、データを特定する属性情報と対応付けて、時系列データ情報１４１として記憶装置１４０に格納する。時系列データ情報１４１の一例を図５に示す。

　図５に示すように、時系列データ情報１４１は、Ｎｏ１４１０、データ名１４１１、属性名１４１２、タイムスタンプ１４１３及び圧縮データ１４１４から構成される。Ｎｏ１４１０には、時系列データを識別する番号が格納される。データ名１４１１には、時系列データの計測対象を示す情報が格納され、例えば、「タクシー１」、「タクシー２」などである。属性名１４１２には、時系列データの属性を示す情報が格納され、例えば、「スピード」、「緯度」、「経度」などである。タイムスタンプ１４１３には、データが記憶された時刻を示す情報が格納され、「2014-09-25 10:00:00」のような日時の情報である。圧縮データ１４１４には、所定の圧縮単位で圧縮された圧縮データが格納される。

　特徴量書込部１１６は、特徴量算出部１１３により算出された特徴量を、データを特定する属性情報と対応付けて、特徴量情報１４２として記憶装置１４０に格納する。特徴量情報１４２の一例を図６に示す。さらに、特徴量書込部１１６は、特徴量情報１４２から特徴量インデクスを作成し、特徴量インデクス情報１４４として記憶装置１４０に格納する。特徴量インデクス情報１４４の一例を図８に示す。

　図６に示すように、特徴量情報１４２は、Ｎо１４２０、データ名１４２１、属性名１４２２、特徴名１４２３、タイムスタンプ１４２４及び特徴量１４２５から構成される。ＮＯ１４２０には、特徴量を識別する番号が格納される。データ名１４２１には、時系列データの計測対象を示す情報が格納され、例えば、「タクシー１」、「タクシー２」などである。属性名１４２２には、時系列データの属性を示す情報が格納され、例えば、「スピード」、「緯度」、「経度」などである。特徴名１４２３には、特徴量の名称が格納され、例えば、データの最大値を示す「MAX」や、最小値を示す「MIN」などである。タイムスタンプ１４２４には、データが記憶された時刻を示す情報が格納され、「2014-09-25 10:00:00」のような日時の情報である。特徴量１４２５には、上記した特徴量算出情報１４６の特徴量算出単位で特徴量算出方法によって算出された特徴量が格納される。

　図８に示すように、特徴量インデクス情報１４４は、Ｎｏ１４４０、データ名１４４１、属性名１４４２、特徴名１４４３及びインデクス参照１４４４から構成される。Ｎｏ１４４０には、特徴量インデクスを識別する番号が格納される。データ名１４４１には、時系列データの計測対象を示す情報が格納され、例えば、「タクシー１」、「タクシー２」などである。属性名１４４２には、時系列データの属性を示す情報が格納され、例えば、「スピード」、「緯度」、「経度」などである。特徴名１４４３には、特徴量の名称が格納され、例えば、データの最大値を示す「MAX」や、最小値を示す「MIN」などである。インデクス参照１４４４には、参照するインデクスデータの情報が格納される。

　図９に、インデクス参照１４４４で指定されたインデクスデータ１５０の一例について説明する。インデクスデータ１５０は、階層化された複数のインデクスノードから構成される。インデクスノード１５００は、例えば、ノードＩＤ１５０１、時刻範囲１５０２、特徴量の範囲１５０３、親ノード１５０４、子ノード１５０５、インデクス参照回数１５０６、インデクス更新時刻１５０７及びインデクス参照時刻１５０８から構成される。

　ノードＩＤ１５０１は、インデクスノードを識別する番号である。時刻範囲１５０２は、特徴量の時刻範囲を示す情報である。特徴量の範囲１５０３は、特徴量の範囲を示す情報である。親ノード１５０４は、当該ノードの親ノードを示す情報である。子ノード１５０５は、当該ノードの子ノードを示す情報である。インデクス参照回数１５０６は、当該インデクスの参照回数を示す情報である。インデクス更新時刻１５０７は、当該インデクスの更新時刻を示す情報である。インデクス参照時刻１５０８は、当該インデクスの参照時刻を示す情報である。

　データ検索部１２０は、上記した第２の段階の処理、すなわち、時系列データや特徴量そのものを検索したり時系列データを取得したりする処理を制御し、検索受付部１２１、検索評価部１２２、検索部１２３及び読込部１２６から構成される。

　検索受付部１２１は、ネットワークを介して外部のユーザ端末などから検索クエリ５２０を受け付けて、検索評価部１２２に提供する。検索クエリ５２０の一例を図４に示す。

　図４に示すように、検索クエリ５２０は、時系列データを検索するための問い合わせ情報であり、検索対象（select_items）、検索時間幅（where_timerange）、検索条件（where_condition）などが含まれる。例えば、検索クエリが、「select_items　タクシー１．スピード、where_timerange　2014-09-25 10:15:00-2014-09-25 10:45:00、where_condition　タクシー１．スピード．MAX>40」であった場合には、検索対象がタクシー１のスピード、検索時間幅が2014年9月25日10時15分から2014年9月25日10時45分、タクシー１のスピードの最大値が40キロ以上のデータの検索が要求されることを意味する。

　検索評価部１２２は、検索受付部１２１から提供された検索クエリ５２０を評価する。具体的に、上記した検索クエリ５２０から、検索対象のデータ名及び属性名と、検索対象期間と、検索条件を特定して、特定した項目を検索部１２３に提供する。また、検索評価部１２２は、検索クエリ５２０の評価結果を、検索履歴情報１４５として記憶装置１４０に記憶する。検索履歴情報１４５の一例を図１０に示す。

　図１０に示すように、検索履歴情報１４５は、検索ＩＤ１４５０、検索時刻１４５１、データ名１４５２、属性名１４５３、特徴名１４５４、検索単位１４５５及び検索条件１４５６から構成される。

　検索ＩＤ１４５０には、検索履歴を識別する番号が格納される。検索時刻１４５１には、検索した時刻が格納される。データ名１４５２には、検索対象のデータ名が格納される。属性名１４５３には、検索対象の属性名が格納される。特徴名１４５４には、検索対象の特徴量の名称が格納され、例えば、特徴量が最大値であることを示す「MAX」や、最小値を示す「MIN」などである。検索単位１４５５には、検索単位の情報が格納され、例えば検索対象の時刻幅が格納される。検索条件１４５６には、検索条件を示す情報が格納され、例えば、特徴量「MAX」（最大値）が40より大きい場合を検索することを示す「>40」や、特徴量「MIN」（最小値）が36より小さい場合を検索することを示す「<36」などである。

　検索部１２３は、特徴量を検索する特徴量検索部１２４と、時系列データを検索するデータ検索部１２５とから構成される。特徴量検索部１２４は、検索評価部１２２から特定された検索対象、検索対象期間及び検索条件をもとに、特徴量情報１４２から該当する特徴量を検索する。特徴量検索部１２４は、特徴量の検索結果を特徴量参照情報１４３及び特徴量インデクス情報１４４に反映させる。

　特徴量参照情報１４３の一例を図７に示す。図７に示すように、特徴量参照情報１４３は、Ｎо１４３０、データ名１４３１、属性名１４３２、特徴量参照回数１４３３、特徴量更新時刻１４３４及び特徴量参照時刻１４３５から構成される。

　Ｎо１４３０には、特徴量を識別する番号が格納され、当該番号により、上記した図６の特徴量情報１４２の特徴量と対応付けられる。データ名１４３１には、時系列データの計測対象を示す情報が格納される。属性名１４３２には、時系列データの属性を示す情報が格納される。特徴量参照回数１４３３には、当該特徴量の参照回数が格納される。特徴量更新時刻１４３４には、当該特徴量の更新時刻が格納される。特徴量参照時刻１４３５には、当該特徴量の参照時刻が格納される。

　なお、特徴量参照情報１４３は、上記した特徴量情報１４２とは別のテーブルとして記憶されているが、特徴量参照情報１４３の特徴量参照回数１４３３、特徴量更新時刻１４３４及び特徴量参照時刻１４３５を含む特徴量参照頻度を特徴量情報１４２に追加して１つのテーブルとしてもよい。

　また、特徴量検索部１２４は、図９に示すインデクスノード１５００のインデクス参照回数１５０６、インデクス更新時刻１５０７及びインデクス参照時刻１５０８を更新する。

　そして、データ検索部１２５は、時系列データ情報１４１から、特徴量検索部１２４で検索された特徴量に対応する時系列データを検索する。特徴量の検索処理及び時系列データの検索処理の詳細については、後で詳細に説明する。

　読込部１２６は、特徴量を読み込む特徴量読込部１２７と、時系列データを読み込むデータ読込部１２８とから構成される。特徴量読込部１２７は、記憶装置１４０に記憶されている特徴量情報１４２から特徴量検索部１２４により特定された特徴量のデータを読み込む。また、データ読込部１２８は、記憶装置１４０に記憶されている時系列データ情報１４１から、データ検索部１２５により特定された時系列データを読み込む。

　データ再編成部１３０は、上記した第３の段階の処理、すなわち、時系列データの検索履歴情報や特徴量の参照頻度から、特徴量や特徴量のインデクスの再算出や再編成などを行う処理を制御し、特徴量再編成部１３１及び特徴量インデクス再編成部１３２から構成される。

　特徴量再編成部１３１は、検索履歴情報１４５を参照して、検索履歴情報１４５の検索単位と、特徴量算出情報１４６により設定された特徴量算出単位とを比較して、特徴量の算出単位を変更して、第２の特徴量として算出する。具体的に、特徴量再編成部１３１は、第２の特徴量として、特徴量算出部１１３により算出された検索単位（例えば１分単位）とは異なる単位（例えば１５分単位）で特徴量を算出する。

　上記したように、利用者が検索クエリ５２０を利用して検索した結果は検索履歴情報１４５として記憶装置１４０に記憶されている。例えば、特徴量算出部１１３により、１分単位で特徴量が算出されたとする。一方、検索履歴情報１４５の検索単位１４５５は、１５分単位で頻繁に特徴量が検索されていたとする。この場合、１分単位ではなく１５分単位で特徴量を算出したり、１分単位に加えて１５分単位の特徴量も算出したりする。このように、検索履歴に応じて算出単位を動的に変更したり、複数の算出単位を保持したりすることにより、ユーザの検索やデータ内容に応じた最適な特徴量を提供することが可能となる。

　例えば、特徴量の算出単位が１分単位で、検索単位が１５分単位であった場合には、１５個分の特徴量に対応するデータを取得して、解凍し、再度特徴量を算出する必要がある。しかし、第２の特徴量として１５分単位の特徴量を算出しておくことにより、データの解凍や特徴量の再算出をすることなく、１５分単位に算出された特徴量のみを利用して、該当データを検索することが可能となる。

　また、時々刻々とデータ内容が変化したり、データ検索をするユーザのニーズが変化したりする場合などは、１分単位で算出した特徴量に加えて、１５分単位で算出した特徴量も保持するなど、異なる単位の特徴量を複数保持しておくことにより、多様な検索処理に柔軟に対応することが可能となる。

　また、特徴量再編成部１３１は、検索履歴情報１４５を参照して、複数の特徴量を用いて検索されている場合には、複数の特徴量を用いて検索した検索結果をもとに、新たな特徴量を第３の特徴量として算出する。具体的に、特徴量再編成部１３１は、複数の特徴量を用いて検索されている場合に、複数の特徴量を指定する条件を満たす場合を「１」、満たさない場合を「０」などのフラグを設定して、複数の特徴量とは異なる値を第３の特徴量として設定することにより、より高速に検索処理を実行することが可能となる。

　また、特徴量再編成部１３１は、特徴量の参照頻度に応じて、特徴量を圧縮して格納する。特徴量算出部１１３により算出された特徴量のうち、参照頻度が低い特徴量を圧縮して格納することにより、記憶容量を節約することができる。これにより、利用者の検索ニーズに応じた多様な特徴量を保持しつつ、データの蓄積容量を節約することが可能となる。

　特徴量インデクス再編成部１３２は、特徴量インデクス情報１４４のインデクス参照回数１５０６、インデクス更新時刻１５０７及びインデクス参照時刻１５０８などのインデクス参照頻度情報を参照して、特徴量のインデクスデータを再編成する。

（３）データ管理方法
　次に、図１２～図２２を参照して、上記した第１の段階の処理（圧縮・蓄積段階）、第２の段階の処理（検索・取得段階）及び、第３の段階の処理（再編成段階）のうち、特に、特徴量の算出処理及び特徴量の再編成処理について詳細に説明する。なお、以下においては、各種処理の処理主体を上記各機能部（プログラム）として説明するが、実際には、各機能部のプログラムに基づいてデータ管理装置１００のＣＰＵがその処理を実行することは言うまでもない。

　まず、図１２及び図１３を参照して、特徴量算出部１１３による特徴量算出処理について説明する。図１２に示すように、まず、特徴量算出部１１３は、圧縮単位のデータを取得する（Ｓ１０１）。そして、特徴量算出部１１３は、特徴量圧縮単位決定処理を実行する（Ｓ１０２）。

　図１３を参照して、ステップＳ１０２の特徴量圧縮単位決定処理について説明する。図１３に示すように、特徴量算出部１１３は、図１１に示す特徴量算出情報１４６を読み取る（Ｓ１１１）。そして、特徴量算出情報１４６から、特徴量算出単位を取得する（Ｓ１１２）。

　図１２に戻り、特徴量算出部１１３は、ステップＳ１０１で取得したデータから、ステップＳ１０２で決定した特徴量算出単位ごとにデータを切り出して取得する（Ｓ１０３）。そして、特徴量算出部１１３は、ステップＳ１０３で取得したデータから、ステップＳ１１２で取得した特徴量算出単位で特徴量を算出する（Ｓ１０４）。

　次に、図１４及び図１５を参照して、特徴量再編成部１３１による第２の特徴量算出処理について説明する。図１４に示すように、特徴量再編成部１３１は、第２の特徴量算出単位決定処理を実行する（Ｓ２０１）。

　図１５を参照して、ステップＳ２０１の第２の特徴量算出単位決定処理について説明する。図１５に示すように、特徴量再編成部１３１は、記憶装置１４０に記憶された検索履歴情報１４５を読み取る（Ｓ２１１）。

　そして、特徴量再編成部１３１は、検索履歴内の検索単位と、現在の特徴量算出単位とが異なるかを判定する（Ｓ２１２）。具体的に、特徴量再編成部１３１は、検索履歴情報１４５の検索単位１４５５と、対応する特徴量の現在の算出単位、すなわち、特徴量算出情報１４６で設定されている特徴量算出単位とを比較する。例えば、検索履歴情報１４５では、データ名「タクシー１」、属性名「スピード」、特徴名「MAX」の特徴量が１５分単位で頻繁に検索されており、特徴量算出情報１４６のデータ名「タクシー１」、属性名「スピード」、特徴名「MAX」の特徴量算出単位が１分である場合には、ステップＳ２１２の判定は否となる。

　ステップＳ２１２において、検索履歴内の検索単位と、現在の特徴量算出単位とが異なると判定された場合には、特徴量再編成部１３１は、検索履歴情報１４５内の検索単位を第２の特徴量算出単位として取得する（Ｓ２１３）。一方、ステップＳ２１２において、検索履歴内の検索単位と、現在の特徴量算出単位とが等しいと判定された場合には、特徴量再編成部１３１は、当該処理を終了する。

　図１４に戻り、特徴量再編成部１３１は、時系列データ５１０から、ステップＳ２０１で決定された第２の特徴量の算出単位で、データを取得する（Ｓ２０２）。そして、ステップＳ２０２で取得したデータから、ステップＳ２１３で取得した第２の特徴量算出単位で第２の特徴量を算出し（Ｓ２０３）、第２の特徴量を特徴量情報１４２の特徴量として保持する（Ｓ２０４）。

　次に、図１６及び図１７を参照して、特徴量再編成部１３１の第３の特徴量算出処理について説明する。図１６に示すように、特徴量再編成部１３１は、第３の特徴量算出方法決定処理を実行する（Ｓ３０１）。

　図１７を参照して、ステップＳ３０１の第３の特徴量算出方法決定処理について説明する。図１７に示すように、特徴量再編成部１３１は、記憶装置１４０に記憶された検索履歴情報１４５を読み取る（Ｓ３１１）。

　そして、特徴量再編成部１３１は、検索履歴情報１４５を参照して、複数の特徴量を用いた検索があるかを判定する（Ｓ３１２）。具体的に、特徴量再編成部１３１は、同一の検索ＩＤが複数存在するかを判定する。例えば、図１０の検索履歴情報１４５において、２つの検索ＩＤ「０００２」が存在する。２つの検索ＩＤ「０００２」より、緯度の最大値と、緯度の最小値の２つの特徴量を用いて、緯度の最大値が「３６より小さい」、緯度の最小値が「３５より大きい」という条件で検索していることを示す。

　ステップＳ３１２において、複数の特徴量を用いた検索があると判定された場合には、特徴量再編成部１３１は、当該検索ＩＤの検索単位を取得して、取得した検索単位を第３の特徴量算出単位とする（Ｓ３１３）。そして、特徴量再編成部１３１は、当該検索ＩＤの検索条件を満たす特徴量算出方法を作成して、第３の特徴量算出方法として保持する（Ｓ３１４）。

　具体的に、特徴量再編成部１３１は、２つ以上の特徴量を用いて検索されている場合に、複数の特徴量を指定する条件を満たす場合を「１」、満たさない場合を「０」などのフラグを設定して、複数の特徴量とは異なる値を第３の特徴量として設定する。第３の特徴量であるフラグは、該当する特徴量と対応付けて特徴量情報１４２に記憶される。

　次に、図１８及び図１９を参照して、特徴量再編成部１３１による特徴量の圧縮処理について説明する。図１８に示すように、特徴量再編成部１３１は、特徴量圧縮単位決定処理を実行する（Ｓ４０１）。

　図１９を参照して、ステップＳ４０１の特徴量圧縮単位決定処理について説明する。図１９に示すように、特徴量再編成部１３１は、すべての特徴量情報１４２の特徴量に対して、ステップＳ４１２～ステップＳ４１４の処理を実行する。特徴量再編成部１３１は、特徴量情報１４２から、特徴量参照頻度を読み取る（Ｓ４１２）。具体的に、特徴量再編成部１３１は、特徴量情報１４２の特徴量参照回数１４３３、特徴量更新時刻１４３４及び特徴量参照時刻１４３５を含む特徴量参照頻度を読み取る。

　そして、特徴量再編成部１３１は、特徴量参照頻度が閾値以下かを判定する（Ｓ４１３）。具体的に、特徴量参照頻度が閾値以下かについては以下のように判断する。例えば、特徴量再編成部１３１は、現在時刻と特徴量参照情報１４３の特徴量参照時刻１４３５との差が所定の閾値以上である場合に、当該特徴量の参照頻度が低いと判断してもよい。また、特徴量更新時刻１４３４から所定の期間経過後で、かつ、現在時刻と特徴量参照時刻１４３５との差が特徴量の下位５％に含まれる場合に、当該特徴量の参照頻度が低いと判断してもよい。特徴量更新時刻１４３４から所定の期間経過後で、かつ、特徴量参照回数１４３３が閾値以下である場合に、当該特徴量の参照頻度が低いと判断してもよい。また、特徴量更新時刻１４３４から所定の期間経過後で、かつ、特徴量参照回数１４３３が特徴量の下位５％に含まれる場合に、当該特徴量の参照頻度が低いと判断してもよい。

　ステップＳ４１３において、上記判断により、特徴量参照頻度が閾値以下であると判定された場合には、特徴量再編成部１３１は、当該特徴量を圧縮対象の特徴量として記憶する（Ｓ４１４）。一方、ステップＳ４１３において、特徴量参照頻度が閾値以下ではないと判定された場合には、ステップＳ４１２以降の処理を繰り返す。

　そして、特徴量再編成部１３１は、すべての特徴量に対してステップＳ４１１～ステップＳ４１４の処理を繰り返した後、圧縮対象の特徴量が連続する範囲を特徴量圧縮単位として取得する（Ｓ４１５）。

　図１８に戻り、特徴量再編成部１３１は、ステップＳ４０１で決定された単位の特徴量を取得する（Ｓ４０２）。そして、特徴量再編成部１３１は、ステップＳ４０２で取得した特徴量を圧縮して（Ｓ４０３）、圧縮した特徴量を保持する（Ｓ４０４）。そして、特徴量再編成部１３１は、圧縮前の特徴量を削除する（Ｓ４０５）。

　次に、図２０及び図２１を参照して、特徴量インデクス再編成部１３２による特徴量インデクスの再編成処理について説明する。特徴量インデクス再編成部１３２は、特徴量インデクスの再編成方法決定処理を実行する（Ｓ５０１）。

　図２１を参照して、ステップＳ５０１の特徴量インデクスの再編成方法決定処理について説明する。図２１に示すように、特徴量インデクス再編成部１３２は、すべてのインデクスノード１５００に対して、ステップＳ５１１～ステップＳ５１６の処理を繰り返す。

　特徴量インデクス再編成部１３２は、インデクスノード１５００のインデクス参照頻度を読み取る（Ｓ５１２）。具体的に、特徴量インデクス再編成部１３２は、インデクスノード１５００のインデクス参照回数１５０６、インデクス更新時刻１５０７及びインデクス参照時刻１５０８を含むインデクス参照頻度を読み取る。

　そして、特徴量再編成部１３１は、インデクス参照頻度が下限閾値以下かを判定する（Ｓ５１３）。ステップＳ５１３では、上記したステップＳ４１３における判定と同様に、インデクス参照回数１５０６、インデクス更新時刻１５０７及びインデクス参照時刻１５０８をもとにインデクス参照頻度と下限閾値とを比較する。下限閾値は、インデクス参照回数１５０６、インデクス更新時刻１５０７及びインデクス参照時刻１５０８をもとに、当該インデクスノードを削除対象とするか否かを判断する閾値である。

　ステップＳ５１３において、インデクス参照頻度が下限閾値以下であると判定された場合には、特徴量再編成部１３１は、当該インデクスノードを削除対象のインデクスノードとして記憶する（Ｓ５１４）。一方、ステップＳ５１３において、インデクス参照頻度が下限値以下ではないと判定された場合には、特徴量再編成部１３１は、ステップＳ５１５の処理を実行する。

　そして、特徴量再編成部１３１は、インデクス参照頻度が上限閾値以上かを判定する（Ｓ５１５）。ステップＳ５１５における上限閾値は、インデクス参照回数１５０６、インデクス更新時刻１５０７及びインデクス参照時刻１５０８をもとに、当該インデクスノードが頻繁に検索され、当該インデクスノードを分割対象とするか否かを判断する閾値である。

　図２０に戻り、特徴量再編成部１３１は、特徴量インデクス情報１４４から、再編成方法決定処理において削除対象または分割対象のインデクスノードを含み、再編成箇所として記憶されたインデクス参照を取得する（Ｓ５０２）。

　そして、特徴量再編成部１３１は、ステップＳ５０２で取得したインデクス参照に対応するインデクスデータのインデクスノードを変更する（Ｓ５０３）。具体的に、特徴量再編成部１３１は、上記したステップＳ５１４で削除対象として記憶したインデクスノードを削除したり、ステップＳ５１６で分割対象として記憶したインデクスノードを分割したりする。

　なお、特徴量再編成部１３１は、上記処理により、削除したり分割したりしたインデクスノードについて、インデクス参照頻度をもとに、削除したインデクスノードを復活させたり、分割したインデクスノードを統合させたりしてもよい。

　また、特徴量再編成部１３１による第２の特徴量算出処理、第３の特徴量算出処理及び特徴量圧縮処理、または特徴量インデクス再編成部１３２による特徴量インデクス再編成処理において、ユーザに算出した特徴量算出単位や特徴量の圧縮箇所やインデクスデータの再編成箇所を提示して、算出結果を利用するか否かを選択させてから新たな特徴量を算出したり特徴量インデクスを再編成したりするようにしてもよい。

　例えば、時系列データの内容や、ユーザの検索ニーズが変化した場合には、上記処理により算出された新たな特徴量算出単位を選択することにより、より効果的な検索を行うことが可能となる。また、一時的に時系列データの内容が変化したり、ユーザの検索方法が変化したりしただけの場合には、ユーザは、提示された新たな特徴量算出単位を選択せずに、現在の特徴量算出単位を利用することにより所望の検索を継続することができる。

　図２２及び図２３を参照して、ユーザによる特徴量算出単位の選択入力について説明する。図２２及び図２３は、特徴量算出単位の選択画面の一例である。

　図２２に示す表示画面例２１０及び２２０は、上記した特徴量再編成処理のうち、第２の特徴量算出処理により第２の特徴量として算出された新たな特徴量算出単位の選択画面である。例えば、表示画面例２１０には、特徴量に対応するクエリ（Query List）αについて特徴量算出単位が１分（1 minute）に設定されていることが示されている。また、表示画面例２２０には、現在の特徴量算出単位が１分（1 minute）であり、新たに算出された特徴量算出単位が５分（5 minutes）であることが示されている。ユーザは、表示画面例２２０の「OK」ボタンを押下することにより、５分単位で特徴量を算出させることを選択できる。また、ユーザは、「Cancel」ボタンを押下することにより、特徴量算出単位を変更せずに、現在の特徴量算出単位を継続利用して、所望の特徴量を算出させることができる。

　また、図２３に示す表示画面例２３０も、図２２と同様に、第２の特徴量算出処理により第２の特徴量として算出された新たな特徴量算出単位の選択画面である。ユーザは、コマンドプロンプト「[y/n]>」に続いて、「y」コマンドを入力することにより、新たな特徴量算出単位として５分（5 minutes）を選択することができる。また、特徴量算出単位を変更する必要がない場合には、「n」コマンドを入力することにより、特徴量算出単位を変更せずに、現在の特徴量算出単位を継続利用して、所望の特徴量を算出させることができる。

（４）他の実施の形態
　また、上記実施の形態では、時系列データの一例として、タクシーの速度情報や位置情報が所定間隔で蓄積され、所定の間隔（特徴量算出単位）でタクシーの最大速度や最小速度を特徴量として算出する場合について説明したが、かかる例に限定されない。例えば、特徴量として、データの欠損の有無を示す情報を算出して、データが欠損しているか否かを特徴量から判定するようにしてもよい。

　この場合も、上記実施形態と同様に、特徴量を算出する単位を圧縮単位より小さい単位で特徴量を算出する。これにより、圧縮単位を１日単位などの大きい単位とした場合でも、１分単位など細かい単位でデータが欠損しているかを判定することができるため、より詳細に高精度なデータ分析を効率よく行うことができる。

　また、上記実施の形態では、時系列データに含まれるタクシーの速度情報から、スピードを超過している時点などを検索しているが、かかる例に限定されず、時系列データに含まれる位置情報や方向情報などと、一方通行や一時停止など種々の交通情報を含む地図情報とを利用して、タクシーの交通違反状況を検索するようにしてもよい。

　１００　　データ管理装置
　１１０　　データ蓄積部
　１１１　　データ受付部
　１１２　　加工部
　１１３　　特徴量算出部
　１１４　　データ圧縮部
　１１５　　書込部
　１１６　　特徴量書込部
　１１７　　データ書込部
　１２０　　データ検索部
　１２１　　検索受付部
　１２２　　検索評価部
　１２３　　検索部
　１２４　　特徴量検索部
　１２５　　データ検索部
　１２６　　読込部
　１２７　　特徴量読込部
　１２８　　データ読込部
　１３０　　データ再編成部
　１３１　　特徴量再編成部
　１３２　　特徴量インデクス再編成部
　１４０　　記憶装置
　１４１　　時系列データ情報
　１４２　　特徴量情報
　１４３　　特徴量参照情報
　１４４　　特徴量インデクス情報
　１４５　　検索履歴情報
　１４６　　特徴量算出情報

Claims

　入力された時系列データから第１の単位でデータを取得するデータ受付部と、
　前記第１の単位で取得したデータを圧縮するデータ圧縮部と、
　前記第１の単位とは異なる第２の単位で取得したデータの特徴を示す特徴量を算出する特徴量算出部と、
　を備えることを特徴とする、データ管理装置。
　前記第２の単位は前記第１の単位よりも小さい単位であり、
　前記特徴量算出部は、前記第２の単位で取得したデータの特徴量を算出する
　ことを特徴とする、請求項１に記載のデータ管理装置。
　前記第２の単位で取得したデータのデータ情報と、前記特徴量算出部により算出された該データの特徴量とを対応付けて記憶装置に書き込む書込み部を備える、
　ことを特徴する、請求項２に記載のデータ管理装置。
　前記書込み部は、
　前記第２の単位で取得データのデータ情報と、前記特徴量を検索するためのインデクスデータとを対応付けて前記記憶装置に書き込む
　ことを特徴とする、請求項３に記載のデータ管理装置。
　前記時系列データの検索要求を受け付けるデータ検索部を備え、
　前記データ検索部は、前記検索要求に含まれる検索範囲及び検索条件に対応する前記特徴量を検索し、
　前記書込み部は、前記特徴量の検索結果を検索履歴情報として前記記憶装置に記憶する
　ことを特徴とする、請求項３に記載のデータ管理装置。
　前記特徴量算出部により算出された特徴量を再編成する特徴量再編成部を備え、
　前記検索履歴情報の前記検索範囲の時間幅と、前記第２の単位の時間幅とが異なる場合に、前記検索範囲の時間幅である第３の単位で取得したデータの第２の特徴量を算出する、
　ことを特徴とする、請求項４に記載のデータ管理装置。
　前記特徴量再編成部は、
　前記検索履歴情報の検索条件に複数の特徴量が含まれる場合に、該複数の特徴量を指定する条件を満たすか否かを示すフラグを第３の特徴量とする
　ことを特徴とする、請求項６に記載のデータ管理装置。
　前記書込み部は、
　前記検索履歴情報をもとに、前記特徴量と、該特徴量の参照回数、該特徴量の更新時刻または該特徴量の参照時刻を含む該特徴量の参照頻度情報とを対応付けて前記記憶装置に書き込む
　ことを特徴とする、請求項５に記載のデータ管理装置。
　前記特徴量再編成部は、
　前記特徴量の参照頻度情報が所定の閾値以下の場合に、該特徴量を圧縮対象の特徴量とする
　ことを特徴とする、請求項８に記載のデータ管理装置。
　前記インデクスデータは、検索範囲、前記特徴量の範囲、親ノード及び子ノードを含む複数のインデクスノードで複数階層構成され、
　前記書込み部は、前記検索履歴情報をもとに、各インデクスノードと、インデクスの参照回数、インデクスの更新時刻及びインデクスの参照時刻を含むインデクスの参照頻度情報とを対応付けて前記記憶装置に書き込む
　ことを特徴とする、請求項５に記載のデータ管理装置。
　前記インデクスデータを再編成するインデクスデータ再編成部を備え、
　前記インデクスデータ再編成部は、
　前記インデクスの参照頻度情報が所定の閾値以下の場合に該当インデクスノードを削除対象とし、前記インデクスの参照頻度情報が所定の閾値以上である場合に該当インデクスノードを分割対象とする、
　ことを特徴とする、請求項１０に記載のデータ管理装置。
　入力された時系列データを管理するデータ管理方法であって、
　データ受付部が、入力された時系列データから第１の単位でデータを取得するステップと、
　データ圧縮部が、前記第１の単位で取得したデータを圧縮するステップと、
　特徴量算出部が、前記第１の単位とは異なる第２の単位で取得したデータの特徴を示す特徴量を算出するステップと、
　を含むことを特徴とする、データ管理方法。