WO2013186831A1

WO2013186831A1 - ストリームデータ処理方法、ストリームデータ処理装置及びプログラム

Info

Publication number: WO2013186831A1
Application number: PCT/JP2012/064892
Authority: WO
Inventors: 俊太郎人見
Original assignee: 株式会社日立製作所
Priority date: 2012-06-11
Filing date: 2012-06-11
Publication date: 2013-12-19

Abstract

　プロセッサとメモリを備えた計算機で、受信したストリームデータをクエリで処理するストリームデータ処理方法であって、前記計算機が、ストリームデータのタプルを構成するデータを定義したストリーム定義とタプルを処理するクエリとタプルを構成するデータが欠損したときに当該データを補間するデータ補間定義とを受信し、ストリームデータを受信してストリーム定義に基づいてタプルを構成し、タプルを構成するデータに欠損があるか否かを判定し、欠損がある場合には当該データにデータがないことを示す所定の印を設定し、タプルを構成するデータに所定の印が設定されている場合には所定の印を前記データ補間定義に応じた値に置換し、タプルに対応するクエリで処理する。

Description

[規則37.2に基づきISAが決定した発明の名称]　ストリームデータ処理方法、ストリームデータ処理装置及びプログラム

　本発明は、ストリームデータを受信して即座に演算処理を実行するストリームデータの処理に関し、特に、ストリームデータの一部が欠損した場合の処理に関する。

　ストリームデータ処理では、多数のセンサなどのデータソースが出力した複数のデータをひとつの組としたタプルを単位としてリアルタイムで演算処理を実行している。ストリームデータ処理では、まずクエリ（問合せ）をシステムに登録しておき、データが到来するとクエリが継続的に実行される。このクエリの記述言語の好適な例として、ＣＱＬ（ＣｏｎｔｉｎｕｏｕｓＱｕｅｒｙＬａｎｇｕａｇｅ）が知られている（特許文献１、２、３）。そして、タプルを構成するデータは、ある時刻（または時間間隔）までに到着したデータをタプルとして扱う。なお、タプルとは特定の同一時刻ｔに発生した複数のデータをひとつの組にしたものである。

米国特許第７４０３９５９号米国特許第７９５８１０８号米国特許第８０２４３５０号

　上記従来例において、上記クエリとして、センサから出力されたデータの実測値と平均値から誤差の評価式で演算処理を行う場合、タプルのデータが全て揃っていることが前提となっており、データが一つでも欠損すると評価式の演算はできない。つまり、到着しないデータについて、ＮＵＬＬ（値が存在しないことを示す印）を設定すると、ＮＵＬＬに対して加減乗除の演算はできないので、上記評価式の演算も不能となる。したがって、欠損したデータにＮＵＬＬを挿入することができたとしても、タプルの演算結果は得られない、という問題があった。

　そこで本発明は、上記問題点に鑑みて成されたもので、タプルのデータが欠損しても演算処理を継続することが可能なストリームデータの処理方法及び装置を提供することを目的とする。

　本発明は、プロセッサとメモリを備えた計算機で、受信したストリームデータをクエリで処理するストリームデータ処理方法であって、前記計算機が、ストリームデータのタプルを構成するデータを定義したストリーム定義を受信し、前記タプルを構成するデータをストリーム管理情報に格納する第１のステップと、前記計算機が、前記タプルを処理するクエリを受信し、当該クエリをクエリ管理情報に格納する第２のステップと、前記計算機が、前記タプルを構成するデータが欠損したときに、当該データを補間するデータ補間定義を受信する第３のステップと、前記計算機が、前記データを受信し、前記ストリーム管理情報に基づいて前記タプルを構成する第４のステップと、前記計算機が、前記タプルを構成するデータに欠損があるか否かを判定し、欠損がある場合には当該データにデータがないことを示す所定の印を設定する第５のステップと、前記計算機が、前記タプルを構成するデータに所定の印が設定されている場合には、当該データの所定の印を前記データ補間定義に応じた値に置換する第６のステップと、前記計算機が、前記タプルに対応する前記クエリを前記クエリ管理情報から取得して、当該クエリで前記タプルを処理する第７のステップと、を含む。

　本発明によれば、ストリームデータが欠損したときに所定の印（例えば、ＮＵＬＬ）を設定し、当該所定の印を補間するデータまたは補間方法を予め設定しておき、ストリームデータ処理に投入されたタプルに所定の印が含まれるときには、クエリの演算処理を行う以前に所定のデータで所定の印を置換することで、タプルの演算を継続させることができる。

本発明の第１の実施例を示し、ストリームデータ処理システムの一例を示すブロック図である。本発明の第１の実施例を示し、サーバ計算機のストリームデータ処理部の一例を示すブロック図である。本発明の第１の実施例を示し、ストリーム定義の一例を示す図である。本発明の第１の実施例を示し、ストリーム管理テーブルの一例を示す図である。本発明の第１の実施例を示し、ストリームデータ処理部で行われる処理の一例を示すフローチャートである。本発明の第１の実施例を示し、データ補間処理部で行われる処理の一例を示すフローチャートである。本発明の第１の実施例を示し、データ補間処理部で行われる処理の一例を示す図である。本発明の第２の実施例を示し、データ補間処理部で行われる処理の一例を示す図である。本発明の第３の実施例を示し、ストリーム管理テーブルの一例を示す図である。本発明の第３の実施例を示し、データ補間処理部で行われる処理の一例を示すフローチャートである。本発明の第３の実施例を示し、データ補間処理部で行われる処理の一例を示す図である。本発明の第３の実施例を示し、データ補間処理部で行われる処理の他の例を示す図である。本発明の第４の実施例を示し、クエリ定義の一例を示す図である。本発明の第４の実施例を示し、クエリ定義テーブルの一例を示す図である。本発明の第４の実施例を示し、ストリームデータ処理部で行われる処理の一例を示すフローチャートである。本発明の第４の実施例を示し、クエリ定義の他の例を示す図である。本発明の第４の実施例を示し、クエリ定義テーブルの他の例を示す図である。

　以下、本発明の一実施例について添付図面を用いて説明する。

　図１は、本発明の第１の実施例のストリームデータ処理システムの一例を示すブロック図である。

　ストリームデータ処理システムは、アプリケーション４４を実行するクライアント計算機４が、ネットワーク２を介してストリームデータ処理部２０を機能させるサーバ計算機１に接続される。また、サーバ計算機１にはネットワーク３を介してストリームデータソース５－１～５－Ｎが接続される。ストリームデータソース５－１～５－Ｎは、サーバ計算機１へストリームデータを送信するセンサや計算機で構成される。

　ここで、クライアント計算機４は、演算を行うプロセッサ４１と、データやプログラムを保持する主記憶４２と、ネットワーク２に接続されるインターフェース（図中Ｉ／Ｆ）４５とを備える。主記憶４２には、アプリケーション４４がロードされてプロセッサ４１によって実行される。

　クライアント計算機４のアプリケーション４４は、サーバ計算機１のストリームデータ処理部２０に対して、クエリ１０５の登録と、ストリーム定義１０６の登録と、データ補間定義１０７の登録を、後述するコマンドにより実行する。サーバ計算機１は、クライアント計算機４から受け付けたコマンドからクエリ１０５定義と、ストリーム定義１０６と、データ補間定義１０７を登録し、ストリームデータソース５－１～５－Ｎから受信したデータのうち、登録されたストリームデータに該当するデータについてクエリを実行する。

　ここで、サーバ計算機１は、演算を行うプロセッサ１１と、データやプログラムを保持する主記憶１２と、ネットワーク２に接続されるインターフェース（図中Ｉ／Ｆ）１３と、ネットワーク３に接続されるインターフェース（図中Ｉ／Ｆ）１４と、キーボードやマウスなどで構成された入力装置１５と、ディスプレイ等で構成された出力装置１６と、不揮発性の記憶媒体で構成された補助記憶装置１７とを備える。

　主記憶１２には、ストリームデータ処理部２０がロードされてプロセッサ１１によって実行される。

　プロセッサ１１は、各機能部のプログラムに従って動作することによって、所定の機能を実現する機能部として動作する。例えば、プロセッサ１１は、ストリームデータ処理プログラムに従って動作することでストリームデータ処理部２０として機能する。他のプログラムについても同様である。さらに、プロセッサ１１は、各プログラムが実行する複数の処理のそれぞれを実現する機能部としても動作する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。

　ストリームデータ処理部２０の各機能を実現するプログラム、テーブル等の情報は、補助記憶装置１７や不揮発性半導体メモリ、ハードディスクドライブ、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の記憶デバイス、または、ＩＣカード、ＳＤカード、ＤＶＤ等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。

　図２は、ストリームデータ処理部２０の一例を示す機能ブロック図である。ストリームデータ処理部２０は、受け付けたコマンドを解析してクエリの登録またはストリームの登録を行うコマンドマネージャ２００と、登録されたクエリでストリームデータを処理するクエリ処理エンジン２２０と、クエリ管理テーブル３００を保持するクエリリポジトリ２１０と、ストリーム管理テーブル４００を保持するシステムディクショナリ２３０と、クエリ処理時のシステムのスケジューリングを行うスケジューリングマネージャ２８０と、システムの稼動に必要な主記憶１２をクエリ処理エンジン２２０あるいは他のマネージャに割り当てて、不要になった領域を回収するメモリマネージャ２９０と、システムディクショナリ２３０中のストリーム管理テーブル４００を参照し、必要に応じてストリームを複製し、クエリ処理エンジン２２０に配信するストリームデータフローマネージャ２４０と、を含む。

　クライアント計算機４のアプリケーション４４は、所定のクエリ登録コマンドを用いて、クエリをストリームデータ処理部２０のコマンドマネージャ２００に送信する。コマンドマネージャ２００は受け付けたコマンドを解析し、クエリ登録コマンド中のクエリ部分をクエリ解析部２０１へ送信する。クエリ解析部２０１で解析されたクエリは、続いてクエリ最適化部２０２に送られる。クエリ最適化部２０２では効率のよい実行方式を選択する最適化処理を実施し、クエリ生成部２０３で該最適化処理の結果に基づいてクエリの実行形式を生成する。そして、クエリ生成部２０３で実行形式に変換されたクエリは、クエリリポジトリ１１２に格納される。

　クライアント計算機４で稼動するアプリケーション４４は、図３に示すストリーム登録コマンドを用いてストリーム定義Ｓ１の指示をストリームデータ処理部２０に対して発行する。ストリーム登録コマンドを受け付けたコマンドマネージャ２００は、コマンドを解析し、システムディクショナリ２３０を参照して指定されたストリーム定義のスキーマをチェックし、ストリーム定義Ｓ１を図４に示すストリーム管理テーブル４００に登録する。ストリーム管理テーブル４００はシステムディクショナリ２３０内に保持される。

　ここで、図３は、ストリーム定義の一例を示す図である。ストリーム定義Ｓ１の例として、４つの温度センサの温度データＴ１、Ｔ２、Ｔ３、Ｔ４からタプルを構成し、各温度データＴ１～Ｔ４のデフォルト値が３０、３０、２５、４０（°Ｃ）に設定された例を示す。なお、同一時刻ｔに測定した温度Ｔ１、Ｔ２、Ｔ３、Ｔ４のデータを組にして、一つのタプルを構成する。

　図４は、ストリーム管理テーブル４００の一例を示す図である。ストリーム管理テーブル４００は、ストリーム定義の名称（または識別子）を格納する名称４０１と、ストリームデータの定義を格納するストリーム定義４０２、ストリームデータのデフォルト値を格納するデフォルト値４０３から一つのエントリが構成される。ストリーム定義４０２は、温度データＴ１～Ｔ４が「ｒｅａｌ」＝実測値であることを示し、４つのデータでひとつのタプルを構成することが定義される。デフォルト値４０３は、上述のストリーム定義Ｓ１で指定された値であり、各温度データＴ１～Ｔ４のデフォルト値は３０、３０、２５、４０（℃）に設定された例を示す。

　次に、クエリ処理エンジン２２０は、ストリームデータの一部を切り取るスライディングウィンドウを制御するウィンドウ管理部２５０と、ストリームデータに対して所定の演算を行うクエリ演算部２６０と、タプルのデータに欠損があった場合に、欠損したデータを補間するデータ補間処理部２７０と、から構成される。ウィンドウ管理部２５０及びクエリ演算部２６０は、前記従来例の特許文献１、２と同様であるので、ここでは詳述しない。

　本第１の実施例では、データに欠損があった場合、データ補間処理部２７０がストリーム定義Ｓ１で設定されたデフォルト値を用いる例を示す。なお、クエリについては、前記従来例と同様に、温度データの実測値と平均値から誤差の評価式を演算するものとする。

　図５は、ストリームデータ処理部２０で行われる処理の一例を示すフローチャートである。この処理は、ストリームデータを受け付けると繰り返して実行される。なお、本処理を開始する以前に、ストリームデータ処理部２０は、クライアント計算機４からストリームデータのタプルを定義するストリーム定義１０６と、タプルを処理するクエリ１０５と、タプルを構成するストリームデータに欠損があるときに補間するデータを定義したデータ補間定義１０７とを受信し、ストリーム管理テーブル４００とクエリ管理テーブル３００に各定義を格納している。

　まず、ステップＳ０１では、ストリームデータ処理部２０のストリームデータフローマネージャ２４０が、ストリームデータソース５－１～５－Ｎからデータを受信し、ストリーム定義１０６に従ってタプルを構成する。

　ステップＳ０２で、ストリームデータフローマネージャ２４０は、受信したデータの組からタプルを構成して、当該タプルをクエリ処理エンジン２２０のウィンドウ管理部２５０に登録する。ここで、ストリームデータフローマネージャ２４０は、タプルを構成するデータに欠損がある場合には、当該データにデータが無いことを示す印（マーク）としてのＮＵＬＬを設定する。

　次に、ステップＳ０３で、クエリ演算部２６０が、ウィンドウ管理部２５０内のタプルを参照する。ステップＳ０４では、クエリ演算部２６０が参照しているタプル内にＮＵＬＬが含まれているか否かを判定する。クエリ演算部２６０はＮＵＬＬが含まれている場合は、タプル内のデータ欠損したと判定してステップＳ０５へ進み、ＮＵＬＬがない場合にはデータの欠損はないと判定してステップＳ０６に進む。

　ステップＳ０５では、データ補間処理部２７０がタプル内のＮＵＬＬを、予め設定したデフォルト値に置き換える。つまり、データ補間処理部２７０は、タプル内のＮＵＬＬの位置から欠損したデータを特定する。そして、データ補間処理部２７０はストリーム管理テーブル４００を参照し、欠損したデータのデフォルト値４０３を取得する。データ補間処理部２７０は、欠損したデータのＮＵＬＬを、取得したデフォルト値４０３に置換する。ステップＳ０６では、クエリ演算部２６０がタプルに対応するクエリをクエリ管理テーブル３００から取得し、当該クエリで該タプルのデータを処理する。

　図６は、データ補間処理部２７０で行われる処理の一例を示すフローチャートである。この処理は、図５のステップＳ０５で行われる処理である。

　ステップＳ１１では、データ補間処理部２７０がＮＵＬＬを含むタプルの先頭要素（データ）を取得する。次に、データ補間処理部２７０は現在取得しているタプルの要素がＮＵＬＬであるか否かを判定する。データ補間処理部２７０は、現在取得している要素がＮＵＬＬであればステップＳ１３へ進み、そうでなければステップＳ１５に進む。

　ステップＳ１３では、データ補間処理部２７０が現在取得しているタプルの要素に対応するデフォルト値４０３を、ストリーム管理テーブル４００から取得する。ステップＳ１４で、データ補間処理部２７０は現在の要素のＮＵＬＬを、取得したデフォルト値４０３に置き換える。

　次に、ステップＳ１５で、データ補間処理部２７０は現在のタプルに次の要素があるか否かを判定する。次の要素があれば、データ補間処理部２７０はタプル内の次の要素を取得してステップＳ１２移行の処理を繰り返す。一方、次の要素がなければ、データ補間処理部２７０は処理を終了して図５の処理に復帰する。

　以上の処理により、タプルのデータに欠損がある場合には、ストリーム管理テーブル４００に予め設定したデフォルト値４０３を代用してクエリ演算部２６０がクエリを実行することができる。これにより、時系列的な統計処理を行うクエリを有するストリームデータ処理において、データの欠損を許容してクエリで定義された演算を継続することが可能となる。

　図７は、データ補間処理部２７０による欠損したデータの置換の一例を示す図である。温度データＴ１～Ｔ４で構成される時刻ｔのタプルは、温度データＴ３が欠損しておりＮＵＬＬ値が設定される。データ補間処理部２７０は、温度データＴ３に対応するデフォルト値４０３として「２５」（°Ｃ）をストリーム管理テーブル４００から取得し、ＮＵＬＬ値を「２５」に置換する。これにより、時刻ｔのタプル（Ｔ１～Ｔ４）は、クエリ演算部２６０で処理可能な値となって、ストリームデータ処理を継続することが可能となるのである。

　図８は、本発明の第２の実施例を示し、データ補間処理部２７０で行われる処理の一例を示す図である。第２の実施例は、前記第１の実施例のデフォルト値４０３に代わって、直前の値（前回値）を用いる例を示す。第２の実施例では、ストリーム管理テーブル４００のデフォルト値４０３を使用せず、その他の構成は前記第１の実施例と同様である。

　データ補間処理部２７０は、直前のタプルの要素の値を保持しており、タプルの要素にＮＵＬＬがある場合には、当該ＮＵＬＬを直前の値に置き換える。これにより、温度データのように時間の経過で急激に変動することが少ないと分かっているデータに対して、データが欠損した場合に精度よい推定値で置き換えることができ、ストリームデータ処理を継続することが可能になる。

　図８の例では、タプルの要素である温度データＴ１～Ｔ４のうち、時刻ｔ５の温度データＴ３がＮＵＬＬとなって欠損している。ここで、データ補間処理部２７０は、直前の時刻ｔ４のタプルの要素（Ｔ３）の値（２８）を保持しており、ＮＵＬＬを前回値の「２８」に置き換える。これにより、時刻ｔ５のタプルの要素はクエリ演算部２６０で演算可能な値となって、ストリームデータ処理を継続することが可能となるのである。

　図９～図１２は、本発明の第３の実施例を示す。第３の実施例では、前記第１の実施例のデフォルト値４０３に代わって、ストリームデータ処理部２０のユーザ（以下、単にユーザとする）が定義した補間処理によって算出した値でＮＵＬＬを置き換えるもので、その他の構成は前記第１の実施例と同様である。これにより、データ発生源の特性に対応したデータ補間処理定義をユーザが指定できるようになるので、データが欠損した場合にデータ発生源の特性に対応した精度のよい推定値でＮＵＬＬを置き換えて、ストリームデータ処理を継続することが可能になる。

　図９は、ストリーム管理テーブル４００の一例を示す図である。第３の実施例のストリーム管理テーブル４００では、前記第１の実施例のデフォルト値４０３に代わって、データ補間処理定義４０３Ａにユーザが定義した関数の呼び出し先と、引数の情報が格納される。ここで、ユーザは、クライアント計算機４や入力装置１５から関数の定義を行うことができる。

　図１０は、データ補間処理部２７０で行われる処理の一例を示すフローチャートである。この処理は、実施例１に示した図５のステップＳ０５で行われる処理である。

　ステップＳ２１では、データ補間処理部２７０がストリーム管理テーブル４００から、ストリーム定義の名称４０１に対応するデータ補間処理定義４０３Ａを参照する。そして、ステップＳ２２で、データ補間処理部２７０は、処理対象のタプルのデータを引数として、データ補間処理定義４０３Ａに登録されたユーザ定義の関数を呼び出す。データ補間処理部２７０は、ユーザ定義の関数に引数を代入して戻り値を演算する。そして、ステップＳ２３では、データ補間処理部２７０が取得した戻り値でＮＵＬＬの要素を置き換える。

　図１１は、データ補間処理部２７０で行われる処理の一例を示す図である。図１１では、データが欠損した要素の過去の値からＮＵＬＬを置き換える補間値を演算する例を示す。時刻ｔ５における温度データＴ３の補間値Ｔ３（ｔ５）は、
T3(t5) = a1*T3(t1) + a2*T3(t2) + a3*T3(t3) +a4*T3(t4) ………（１）
ただし、a1、a2、a3、a4は、所定の係数である。

　上記処理により、欠損した時刻ｔ５の温度データＴ３は、時刻ｔ１～ｔ４の過去の値から推定された補間値Ｔ３（ｔ５）が算出され、データ補間処理部２７０はＮＵＬＬを補間値Ｔ３（ｔ５）に置き換えて、クエリ演算部２６０でストリームデータ処理を継続することができる。

　上記補間値の推定については、ラグランジュの補間公式など周知または公知の手法を適用すれば良い。ラグランジュの補間公式としては、「Jean-Paul Berrut, Lloyd N. Trefethen (2004). "Barycentric Lagrange Interpolation". SIAM Review 46 (3): 501-517.」（http://dx.doi.org/10.1137/S0036144502417715）に開示される手法を用いることができる。

　図１２は、データ補間処理部２７０で行われる処理の他の例を示す図である。図１２では、データが欠損した時刻ｔ５の他の温度データＴ１、Ｔ２、Ｔ４の値からＮＵＬＬを置き換える補間値Ｔ３（ｔ５）を演算する例を示す。時刻ｔ５における温度データＴ３の補間値Ｔ３（ｔ５）は、
T3(t5) = b1*T1(t5) + b2*T2(t5) + b4*T4(t5)　………（２）
ただし、b1、b2、b3、b4は、所定の係数である。

　上記処理により、欠損した時刻ｔ５の温度データＴ３は、時刻ｔ５の他の温度データＴ１、Ｔ２、Ｔ４の値から推定された補間値Ｔ３（ｔ５）が算出され、データ補間処理部２７０はＮＵＬＬを補間値Ｔ３（ｔ５）に置き換えて、クエリ演算部２６０でストリームデータ処理を継続することができる。

　図１３～図１７は、本発明の第４の実施例を示す。第４の実施例では、前記実施例１～実施例３に示した補間の有無をクエリで定義するようにしたもので、その他の構成は前記第１の実施例と同様である。

　図１３は、ストリームデータ処理部２０がクライアント計算機４から受け付けるクエリＱ１の登録コマンドである。クエリＱ１の登録コマンドでは、図中最下行の「with no interpolation」によって、ストリームデータが欠損した場合のデータ補間を省略する指示が記述される。ストリームデータ処理部２０のコマンドマネージャ２００は、クエリＱ１の登録コマンドを受け付けると、前記実施例１と同様に解析を行ってクエリを生成し、クエリ管理テーブル３００に登録する。

　なお、クエリＱ１の登録コマンドは、クライアント計算機４や入力装置１５から入力することができる。

　図１４は、クエリ管理テーブル３００の一例を示す図である。クエリ管理テーブル３００は、コマンドマネージャ２００が、クエリ生成部２０３によって生成したクエリを格納する。クエリ管理テーブル３００は、クエリの名称または識別子を格納する名称３０１と、クエリ生成部２０３で生成されたクエリを格納するクエリ定義３０２と、ストリームデータが欠損した場合のデータ補間の有無を格納するデータ補間の指定３０３とからひとつのエントリが構成される。

　図示の例では、図１３に示したクエリＱ１の登録コマンドからクエリ生成部２０３で生成されたクエリ定義３０２と、データ補間の指定３０３が格納される。クエリ定義３０２は、ストリームデータ（タプル）Ｓ１の平均値と、時刻Ｔ１のストリームデータの差分を評価するクエリが格納される。データ補間の指定３０３の指定には、図１３のクエリＱ１の登録コマンドに示した図中最下行の「with no interpolation」に対応して、「補間なし」が設定される。

　図１５は、第４の実施例で、ストリームデータ処理部２０で行われる処理の一例を示すフローチャートである。この処理は、実施例１の図５に示した処理にステップＳ３５の処理を加えたものである。

　ステップＳ３１～Ｓ３４は、図５のステップＳ０１～Ｓ０４と同様であり、ストリームデータフローマネージャ２４０が、ストリームデータソース５－１～５－Ｎから受信したタプルをクエリ処理エンジン２２０のウィンドウ管理部２５０に登録し、クエリ演算部２６０が、ウィンドウ管理部２５０内のタプルを参照して、タプル内にＮＵＬＬが含まれているか否かを判定する。クエリ演算部２６０はＮＵＬＬが含まれている場合は、タプル内のデータ欠損したと判定してステップＳ３５へ進み、ＮＵＬＬがない場合にはデータの欠損はないと判定してステップＳ３７に進む。

　ステップＳ３５では、クエリ演算部２６０がクエリ管理テーブル３００を参照し、データの補間を省略する指示の有無を判定する。データの補間を省略する指示がある場合には、ステップＳ３７へ進み、データの補間を省略する指示がない場合には、ステップＳ３６へ進む。

　ステップＳ３６では、データ補間処理部２７０がタプル内のＮＵＬＬを、予め設定した値に置き換える。つまり、データ補間処理部２７０は、タプル内のＮＵＬＬの位置から欠損したデータを特定する。そして、データ補間処理部２７０はストリーム管理テーブル４００を参照し、実施例１～実施例３のように欠損したデータのデフォルト値４０３やデータ補間処理定義４０３Ａに応じた補間処理を実施し、算出または設定された値を欠損したデータのＮＵＬＬに代わって設定する。ステップＳ３７では、クエリ演算部２６０がタプルのデータを参照し、所定のクエリを実行する。

　以上の処理により、クエリの登録コマンドで、データ補間の有無を指定することができ、ユーザの意図に応じたストリームデータ処理を実現できる。

　図１６、図１７は、クエリ登録コマンドでデータの補間を実施させる例を示す。

　図１６は、ストリームデータ処理部２０がクライアント計算機４から受け付けるクエリＱ１の登録コマンドである。図１６のクエリＱ１の登録コマンドでは、図１３のクエリ登録コマンドに対して、図中最下行の「with interpolation」というデータ補間の指示と、「S1 using FUNC1（S1[ROWS 10]）」という補間の指令によって、ストリームデータが欠損した場合のデータ補間処理が記述される。ストリームデータ処理部２０のコマンドマネージャ２００は、クエリＱ１の登録コマンドを受け付けると、前記実施例１と同様に解析を行ってクエリを生成し、クエリ管理テーブル３００に登録する。

　図１７は、クエリ管理テーブル３００の一例を示す図である。クエリ管理テーブル３００は、図１４と同様であり、コマンドマネージャ２００が、クエリ生成部２０３によって生成したクエリを格納する。

　図示の例では、図１４に示したクエリに対して、「with interpolation」以降の補間処理がデータ補間の指定３０３に格納される。データ補間の指定３０３の「S1 using FUNC1（S1[ROWS 10]）」は、ストリームＳ１の最新のタプルにＮＵＬＬが含まれている場合、ウィンドウS1[ROWS 10]に格納されている全データを引数として、ユーザ定義関数FUNC1を呼び出すことが指示される。ユーザ定義関数FUNC1は、データの欠損箇所であるＮＵＬＬの値を、
引数から演算した補間値に置き換えた、新たなタプルを生成する。

　以上の処理により、ストリームデータ処理部２０のユーザは、クエリの登録コマンドで、ストリームデータが欠損したときのデータ補間の有無を指定することができ、ユーザの意図に応じたストリームデータ処理を実現できる。

Claims

　プロセッサとメモリを備えた計算機で、受信したストリームデータをクエリで処理するストリームデータ処理方法であって、
　前記計算機が、ストリームデータのタプルを構成するデータを定義したストリーム定義を受信し、前記タプルを構成するデータをストリーム管理情報に格納する第１のステップと、
　前記計算機が、前記タプルを処理するクエリを受信し、当該クエリをクエリ管理情報に格納する第２のステップと、
　前記計算機が、前記タプルを構成するデータが欠損したときに、当該データを補間するデータ補間定義を受信する第３のステップと、
　前記計算機が、前記データを受信し、前記ストリーム管理情報に基づいて前記タプルを構成する第４のステップと、
　前記計算機が、前記タプルを構成するデータに欠損があるか否かを判定し、欠損がある場合には当該データにデータがないことを示す所定の印を設定する第５のステップと、
　前記計算機が、前記タプルを構成するデータに所定の印が設定されている場合には、当該データの所定の印を前記データ補間定義に応じた値に置換する第６のステップと、
　前記計算機が、前記タプルに対応する前記クエリを前記クエリ管理情報から取得して、当該クエリで前記タプルを処理する第７のステップと、
を含むことを特徴とするストリームデータ処理方法。
　請求項１に記載のストリームデータ処理方法であって、
　前記データ補間定義は、
　前記タプルを構成するデータ毎に予め設定した値であることを特徴とするストリームデータ処理方法。
　請求項１に記載のストリームデータ処理方法であって、
　前記データ補間定義は、
　前記タプルを構成するデータの前回値であることを特徴とするストリームデータ処理方法。
　請求項１に記載のストリームデータ処理方法であって、
　前記データ補間定義は、
　前記タプルを構成するデータを補間する関数であって、
　前記第６のステップは、
　前記データの所定の印を前記関数で算出した値で置換することを特徴とするストリームデータ処理方法。
　請求項１に記載のストリームデータ処理方法であって、
　前記データ補間定義は、
　前記タプルを構成するデータを補間する多項式であって、
　前記第６のステップは、
　前記データの所定の印を前記多項式から算出した値で置換することを特徴とするストリームデータ処理方法。
　請求項１に記載のストリームデータ処理方法であって、
　前記データ補間定義は、
　前記タプルを構成するデータを推定する多項式であって、
　前記第６のステップは、
　前記データの所定の印を前記多項式から推定した値で置換することを特徴とするストリームデータ処理方法。
　請求項１に記載のストリームデータ処理方法であって、
　前記クエリは、
　前記タプルを構成するデータが欠損したときに、当該データを補間するか否かを指定する補間情報を含み、
　前記第６のステップは、
　前記補間情報が、データを補間しないことを示す場合には、前記データの所定の印を前記データ補間定義に応じた値に置換する処理を省略することを特徴とするストリームデータ処理方法。
　プロセッサとメモリを備えて、受信したストリームデータをクエリで処理するストリームデータ処理装置であって、
　前記ストリームデータのタプルを構成するデータを定義したストリーム定義を受信し、前記タプルを構成するデータを格納するストリーム管理情報と、
　前記タプルを処理するクエリを受信し、当該クエリを格納するクエリ管理情報と、
　前記データを受信し、前記ストリーム管理情報に基づいて前記タプルを構成するストリームデータフロー管理部と、
　前記タプルを構成するデータが欠損したときに当該データを補間するデータ補間定義を予め受け付けて、当該データ補間定義を前記欠損したデータに適用するデータ補間部と、
　前記タプルに対応する前記クエリを前記クエリ管理情報から取得して、当該クエリで前記タプルを処理するクエリ演算部と、を備え、
　前記ストリームデータフロー管理部は、
　前記タプルを構成するデータに欠損があるか否かを判定し、欠損がある場合には当該データにデータがないことを示す所定の印を設定し、
　前記データ補間部は、
　前記タプルを構成するデータに所定の印が設定されている場合には、当該データの所定の印を前記データ補間定義に応じた値に置換し、
　前記クエリ演算部は、
　前記置換されたデータを含むタプルを前記クエリで処理することを特徴とするストリームデータ処理装置。
　請求項８に記載のストリームデータ処理装置であって、
　前記データ補間定義は、
　前記タプルを構成するデータ毎に予め設定した値であることを特徴とするストリームデータ処理装置。
　請求項８に記載のストリームデータ処理装置であって、
　前記データ補間定義は、
　前記タプルを構成するデータの前回値であることを特徴とするストリームデータ処理装置。
　請求項８に記載のストリームデータ処理装置であって、
　前記データ補間定義は、
　前記タプルを構成するデータを補間する関数であって、
　前記データ補間部は、
　前記データの所定の印を前記関数で算出した値で置換することを特徴とするストリームデータ処理装置。
　請求項８に記載のストリームデータ処理装置であって、
　前記データ補間定義は、
　前記タプルを構成するデータを補間する多項式であって、
　前記データ補間部は、
　前記データの所定の印を前記多項式から算出した値で置換することを特徴とするストリームデータ処理装置。
　請求項８に記載のストリームデータ処理装置であって、
　前記データ補間定義は、
　前記タプルを構成するデータを推定する多項式であって、
　前記データ補間部は、
　前記データの所定の印を前記多項式から推定した値で置換することを特徴とするストリームデータ処理装置。
　請求項８に記載のストリームデータ処理装置であって、
　前記クエリは、
　前記タプルを構成するデータが欠損したときに、当該データを補間するか否かを指定する補間情報を含み、
　前記データ補間部は、
　前記補間情報が、データを補間しないことを示す場合には、前記データの所定の印を前記データ補間定義に応じた値に置換する処理を省略することを特徴とするストリームデータ処理装置。
　プロセッサとメモリを備えた計算機で、受信したストリームデータをクエリで処理するプログラムであって、
　前記ストリームデータのタプルを構成するデータを定義したストリーム定義を受信し、前記タプルを構成するデータをストリーム管理情報に格納する第１のステップと、
　前記タプルを処理するクエリを受信し、当該クエリをクエリ管理情報に格納する第２のステップと、
　前記タプルを構成するデータが欠損したときに、当該データを補間するデータ補間定義を受信する第３のステップと、
　前記データを受信し、前記ストリーム管理情報に基づいて前記タプルを構成する第４のステップと、
　前記タプルを構成するデータに欠損があるか否かを判定し、欠損がある場合には当該データにデータがないことを示す所定の印を設定する第５のステップと、
　前記タプルを構成するデータに所定の印が設定されている場合には、当該データの所定の印を前記データ補間定義に応じた値に置換する第６のステップと、
　前記タプルに対応する前記クエリを前記クエリ管理情報から取得して、当該クエリで前記タプルを処理する第７のステップと、
を前記計算機に実行させるプログラム。
　請求項１５に記載のプログラムであって、
　前記データ補間定義は、
　前記タプルを構成するデータ毎に予め設定した値であることを特徴とするプログラム。
　請求項１５に記載のプログラムであって、
　前記データ補間定義は、
　前記タプルを構成するデータの前回値であることを特徴とするプログラム。
　請求項１５に記載のプログラムであって、
　前記データ補間定義は、
　前記タプルを構成するデータを補間する関数であって、
　前記第６のステップは、
　前記データの所定の印を前記関数で算出した値で置換することを特徴とするプログラム。
　請求項１５に記載のプログラムであって、
　前記データ補間定義は、
　前記タプルを構成するデータを補間する多項式であって、
　前記第６のステップは、
　前記データの所定の印を前記多項式から算出した値で置換することを特徴とするプログラム。
　請求項１５に記載のプログラムであって、
　前記データ補間定義は、
　前記タプルを構成するデータを推定する多項式であって、
　前記第６のステップは、
　前記データの所定の印を前記多項式から推定した値で置換することを特徴とするプログラム。