WO2016170613A1

WO2016170613A1 - データ分析システムおよびデータ分析方法

Info

Publication number: WO2016170613A1
Application number: PCT/JP2015/062226
Authority: WO
Inventors: 巌田沼; ショウチュンペン; 眞見山崎
Original assignee: 株式会社日立製作所
Priority date: 2015-04-22
Filing date: 2015-04-22
Publication date: 2016-10-27

Abstract

広域分散した複数のデータ提供元から、各種制約を踏まえて効率的かつ確実に分析対象のデータを取得し、データ分析を実行可能とするものであって、データ分析システム１００において、クエリ解釈ＤＢ１２５とタスクＤＢ１２６を格納した記憶装置１０１と、データ分析のクエリをクエリ解釈ＤＢ１２５に照合し、該当クエリが示すデータ収集先に関して一致するパターンを特定し、該当パターンで定義されている該当タスクに関する負荷をタスクＤＢ１２６で特定し、特定した負荷を伴う該当タスクを制約条件下で実行する際に目的を達成する、分析対象データの収集および分析のスケジュールを所定アルゴリズムにて生成し、該当スケジュールに基づいて該当各タスクを実行して分析結果を生成し所定装置に送信する処理を実行する演算装置１０４を含む構成とする。

Description

データ分析システムおよびデータ分析方法

　本発明は、データ分析システムおよびデータ分析方法に関する。

　原油や天然ガスの掘削、生産等を行う資源事業では、生産量のモニタリングや経済性評価、坑井に取り付けられたセンサによる異常検知など、様々なデータ分析が行われている。また、このデータ分析では、坑井を保有するオペレータ、坑井の掘削や施工などを行うサービス会社、環境保護を目的にデータを収集する行政など、様々なステークホルダをまたがった大量のデータを取得し、分析対象として取り扱うことになる。

　そうしたデータ分析に関連する従来技術として、以下の技術が提案されている。すなわち、それぞれがプロセッサを備える複数のノードを格子状に接続させた格子型コンピュータシステムにおいて、格子型コンピュータシステムにおける複数のノードとノード間接続装置の接続形態にしたがって作成された論理ノードからなる格子モデルが、外部からなされる一つまたは複数のサービス要求に対応付けられた一つ以上の論理ノードを含む方形領域に分割されており、この方形領域内のいずれかの論理ノードにおいて実行されるスケジューラが、該方形領域に対応するサービス要求のジョブを構成するタスクの並列度および直列度に基づいて、方形領域内の他の論理ノードにタスクを処理するためのプログラムを割り当てることを特徴とする格子型コンピュータシステム（特許文献１参照）などが提案されている。

　加えて、複数の分析アプリ共通のメタモデルを挟むことにより、アプリ間の連携の実装が比較的容易になり、また他のアプリのデータにも直接アクセス可能となる技術（非特許文献１参照）なども提案されている。

特開２００７－２０６９８号公報Ｖａｄｉｍ　Ｖｅｙｂｅｒ，　Ａｎｔｏｎ　Ｋｕｄｉｎｏｖ，　Ｎｉｋｏｌａｙ　Ｍａｒｋｏｖ　"Ｍｏｄｅｌ－ｄｒｉｖｅｎ　Ｐｌａｔｆｏｒｍ　ｆｏｒ　Ｏｉｌ　ａｎｄ　Ｇａｓ　Ｅｎｔｅｒｐｒｉｓｅ　Ｉｎｔｅｇｒａｔｉｏｎ"．　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｊｏｕｒｎａｌ　ｏｆ　Ｃｏｍｐｕｔｅｒ　Ａｐｐｌｉｃａｔｉｏｎｓ　Ｖｏｌｕｍｅ　４９－Ｎｏ５，　ｊｕｌｙ　２０１２．

　しかしながら従来技術においては、データ取得先たる各ステークホルダが定めた各種制約（例：機器や通信の性能に基づくもの）を踏まえたデータ取得とその分析が出来ない。そのため、広域分散したステークホルダのそれぞれから分析用のデータを取得して分析を行おうとした場合、各ステークホルダのデータ提供サービスの制限や、分析環境たる分析装置やネットワークの処理能力の限界、を超えたデータ要求を行ってしまい、データの取得および分析が不可能となる事態が生じうる。

　そこで本発明の目的は、広域分散した複数のデータ提供元から、各種制約を踏まえて効率的かつ確実に分析対象のデータを取得し、データ分析を実行する技術を提供することにある。

　上記課題を解決する本発明のデータ分析システムは、分析対象データの収集および分析に伴うタスクの定義を、少なくとも分析対象データの収集先と対応付けてパターン分けした第１情報と、前記タスクの実行に伴う少なくともデータ通信に関する負荷を定義した第２情報と、を格納した記憶装置と、所定装置から得たデータ分析のクエリを前記第１情報に照合し、該当クエリが示す少なくとも分析対象データの収集先に関して一致するパターンを特定し、該当パターンで定義されている該当タスクに関する負荷を前記第２情報で特定する処理と、前記特定した負荷を伴う前記該当タスクを、所定の制約条件下で実行する際に、所定目的を達成する、前記分析対象データの収集および分析のスケジュールを所定アルゴリズムにて生成し、該当スケジュールに基づいて該当各タスクを実行して分析結果を生成し、当該分析結果を所定装置に送信する処理と、を実行する演算装置とを備えることを特徴とする。

　また、本発明のデータ分析方法は、分析対象データの収集および分析に伴うタスクの定義を、少なくとも分析対象データの収集先と対応付けてパターン分けした第１情報と、前記タスクの実行に伴う少なくともデータ通信に関する負荷を定義した第２情報と、を格納した記憶装置を備える情報処理システムが、所定装置から得たデータ分析のクエリを前記第１情報に照合し、該当クエリが示す少なくとも分析対象データの収集先に関して一致するパターンを特定し、該当パターンで定義されている該当タスクに関する負荷を前記第２情報で特定する処理と、前記特定した負荷を伴う前記該当タスクを、所定の制約条件下で実行する際に、所定目的を達成する、前記分析対象データの収集および分析のスケジュールを所定アルゴリズムにて生成し、該当スケジュールに基づいて該当各タスクを実行して分析結果を生成し、当該分析結果を所定装置に送信する処理とを実行することを特徴とする。

　本発明によれば、広域分散した複数のデータ提供元から、各種制約を踏まえて効率的かつ確実に分析対象のデータを取得し、データ分析を実行できる。

本実施形態におけるデータ分析システムを含むネットワーク構成図である。本実施形態におけるデータ分析システムのハードウェア構成例を示す図である。本実施形態のクエリ解釈データベースのデータ構造例を示す図である。本実施形態のタスクデータベースのデータ構造例を示す図である。本実施形態の実行タスクデータベースのデータ構造例を示す図である。本実施形態のタスク制約データベースのデータ構造例を示す図である。本実施形態のスケジュールデータベースのデータ構造例を示す図である。本実施形態のデータ分析方法の手順例１を示すフロー図である。本実施形態のデータ分析方法の手順例２を示すフロー図である。本実施形態における入力クエリの例を示す図である。本実施形態におけるクエリ解釈結果の例を示す図である。本実施形態における画面例を示す図である。本実施形態のデータ分析方法の手順例３を示すフロー図である。

－－－ネットワーク構成－－－

　以下に本発明の実施形態について図面を用いて詳細に説明する。図１は本実施形態のデータ分析システム１００を含むネットワーク構成例を示す図である。図１に示すデータ分析システム１００は、広域分散した複数のデータ提供元から、各種制約を踏まえて効率的かつ確実に分析対象のデータを取得し、データ分析を実行可能とするコンピュータシステムである。

　換言すれば、本実施形態のデータ分析システム１００は、（予め予定された定期的なものでない）突発的なデータ分析クエリをトリガーに、データ収集および分析に関するタスクのスケジューリングを実施し、分析環境やネットワークの処理能力の限界、各ステークホルダのデータ提供サービスの制限の中で、データ提供サービスを含む複数のデータソースの中から適切なものを選択することにより、効率的なデータ分析を可能とする。

　こうしたデータ分析システム１００は、一例として、原油生産に関するデータを各データソースから収集し、これを分析する分析環境を想定する。このため本実施形態のデータ分析システム１００は、ネットワーク１０に接続され、例えば、クライアント端末２００、行政のオープンデータを提供するオープンデータ提供システム３００、原油坑井の掘削・施工を行うサービス会社の坑井の掘削・施工に関わるデータを提供する掘削・施工サービス会社システム４００、稼働中の坑井における原油生産量や取り付けられた機器のセンサデータを提供するフィールドデータ提供システム５００、とデータ通信が可能となっている。

　このうち、上述のクライアント端末２００は、キーボードやマウスなどの入力インターフェースを介して、坑井採掘計画立案者、坑井管理者からのデータ入力を受け付ける処理や、データ分析システム１００から得たデータをディスプレイ等に表示するといった各種処理を担っている。なお、図１のネットワーク構成では、このクライアント端末２００を１つのみ例示しているが、ネットワーク１０に複数接続されているとしても良い。
－－－ハードウェア構成－－－

　図２は本実施形態におけるデータ分析システム１００のハードウェア構成例を示す図である。本実施形態におけるデータ分析システム１００のハードウェア構成例は以下の如くとなる。

　データ分析システム１００は、ハードディスクドライブなど適宜な不揮発性記憶素子で構成される記憶装置１０１、ＲＡＭなど揮発性記憶素子で構成されるメモリ１０３、記憶装置１０１に保持されるプログラム１０２をメモリ１０３に読み出すなどして実行しシステム自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうＣＰＵ１０４（演算装置）、ネットワーク１０と接続し他装置２００～５００との通信処理を担う通信装置１０５を備える。

　なお、上述のプログラム１０２を実行することで、分析結果管理部１１０、スケジューリング部１１１、およびタスク実行部１１２の各機能部が実装される。これら各機能部の詳細については後述する。

　また、記憶装置１０１には、上述のプログラム１０２の他に、クエリ解釈データベース１２５、タスクデータベース１２６、実行タスクデータベース１２７、タスク制約データベース１２８、スケジュールデータベース１２９、および分析データベース１３０、の各データベースが格納されている。これらデータベースは、上述したプログラム１０２やクライアント端末２００によって参照、編集される。

　また本実施形態におけるデータ分析システム１００では、クライアント端末２００との間でデータ入出力を行うことを想定した構成としたが、データ分析システム１００自体が入出力機能及びデバイス（ディスプレイやキーボード等）を有するとしもよい。
－－－機能構成－－－

　続いて、本実施形態のデータ分析システム１００が備える機能について説明する。上述したように、以下に説明する機能は、例えばデータ分析システム１００のＣＰＵ１０４がプログラム１０２を実行することで実装される機能と言える。なお、ここでの説明におけるデータベースの詳細については後述する。

　データ分析システム１００は、クライアント端末２００から受け取った分析クエリに応じて、分析データベース１３０やオープンデータ提供システム３００、掘削・施工サービス会社システム４００、フィールドデータ提供システム５００のうち１つまたは複数のデータソースからの必要なデータ収集と、取集したデータの加工（分析）などの実行すべきタスク案を１つまたは複数を分析結果生成部１０７に出力する機能を備えている。この機能は、分析結果管理部１１０の機能に対応している。

　また、データ分析システム１００は、分析対象たるデータの収集および加工において、データソースであるオープンデータ提供システム３００、掘削・施工サービス会社システム４００、およびフィールドデータ提供システム５００における各通信制限や、当該データ分析システム１００の処理能力（ＣＰＵ１０４の演算能力等）、クライアント端末２００が求める分析結果の必要時期を制約として、上述の分析結果管理部１１０から受け取った１つまたは複数のタスク案の中から当該制約を満たすスケジュールを生成する機能を備えている。この機能は、スケジューリング部１１１の機能に対応している。

　また、データ分析システム１００は、上述のスケジューリング部１１１が生成した当該スケジュールに基づき、必要な各タスクを実行して分析対象データの収集および分析を行う機能を備えている。なお、収集した分析対象データは分析データベース１３０に格納され、分析に際して参照されることとなる。従って分析データベース１３０は、オープンデータ提供システム３００、掘削・施工サービス会社システム４００、フィールドデータ提供システム５００から収集された各種データを格納するデータベースである。こうした機能は、タスク実行部１１２の機能に対応している。
－－－データ構造－－－

　続いて、本実施形態のデータ分析システム１００が用いるデータベース類について説明する。図３に、本実施形態におけるクエリ解釈データベース１２５のデータ構造例を示す。本実施形態におけるクエリ解釈データベース１２５は、クライアント端末２００から受け取った分析クエリの解釈ルールと、その分析クエリに対応するデータを取得するために必要なタスクの関係を定義した情報を格納するデータベースである。

　図３に例示するクエリ解釈データベース１２５において、そのレコード構造は、当該クエリ解釈データベース１２５のレコードを一意に特定するクエリＩＤをキーとして、優先度、クエリパターン、変数範囲、依存タスク、およびタスク変数といった値を対応付けた構成となっている。

　このうち優先度は、複数のタスク実行案が得られた際の優先順位づけに用いる数値である。例えば、該当タスクの実行により収集・分析する各データの必要度に応じて、予めユーザ（上述の坑井採掘計画立案者や坑井管理者など）が判断して設定した値となる。

　また、クエリパターンは、１または複数の変数を含んだ分析クエリのテンプレートを示す値である。具体的には、図３のクエリ解釈データベース１２５のうち、クリエＩＤ「３６」のレコードで示すように、「Select prod, date from production where (Operator = v1)」として示すように、オペレーター「v1」（“v1”は変数）の坑井における「prod」すなわち生産量データ（production volume data）を選択抽出する、といった各種のクエリパターンが設定されている。

　また変数範囲は、クエリパターンに含まれる変数各々の範囲を示す値である。上述のクリエＩＤ「３６」のクエリパターンの例であれば、「v1={Op1}」、つまり、オペレーター「Ｏｐ１」が変数の値として設定されている。

　また依存タスクは、分析クエリに対応するデータを生成するのに必要な１または複数のタスク各々に対応するタスクＩＤを示す値である。上述のクリエＩＤ「３６」のクエリパターンの例であれば、必要なタスクとして「３４」が設定されている。またタスク変数は、当該タスクの引数として用いられる１または複数の変数を示す値であり、例えば、分析対象のデータのファイル名や格納先のアドレスといった値が想定出来る。

　図４は本実施形態のタスクデータベース１２６のデータ構造例を示す図である。本実施形態におけるタスクデータベース１２６は、上述のクエリ解釈データベース１２５で規定された各タスクに応じた各種コマンド、および当該コマンドを実行したときにデータ分析システム１００やネットワーク１０、オープンデータ提供システム３００、掘削・施工サービス会社システム４００、フィールドデータ提供システム５００にかかる負荷の情報を格納するデータベースである。

　図４にて例示するタスクデータベース１２６のレコード構造は、当該タスクデータベース１２６のレコードを一意に特定するタスクＩＤをキーとして、該当タスクにおいて実行するコマンドと、該当コマンドを実行したときにデータ分析システム１００やネットワーク１０、オープンデータ提供システム３００、掘削・施工サービス会社システム４００、フィールドデータ提供システム５００にかかる負荷を表す負荷パラメータとから構成されている。このうち負荷パラメータは、当該コマンドの実行に伴って生じる、所要時間、データ分析システム１００のＣＰＵ負荷率、ネットワーク１０にかかる負荷率、といった各値を含むものとする。なお他にも、オープンデータ提供システム３００、掘削・施工サービス会社システム４００、フィールドデータ提供システム５００への負荷率を含むとしてもよい。

　例えば、図４のタスクデータベース１２６のうち、タスクＩＤ「１６３」のレコードでは、或るオペレータ（ｏｐ）の生産量データ（ｐｒｏｄ）をダウンロード（ｄｌ）するスクリプトを呼び出すコマンド「dl_prod_from_opendata(op)」が設定され、そのコマンドを実行した場合の所要時間は「５０」秒、ＣＰＵ負荷率は「５」、ネットワーク負荷率は「４０」と規定されている。このコマンドを実行した場合、当該データ分析システム１００のＣＰＵ負荷は高くないが、ネットワーク１０に相応の負荷をかける。一方、タスクＩＤ「２２３」のレコードでは、該当コマンドを実行した場合の所要時間は「９０」秒、ＣＰＵ負荷率は「９０」、ネットワーク負荷率は「０」と規定されており、このコマンドを実行した場合、ネットワーク１０への影響は無いが、当該データ分析システム１００のＣＰＵ負荷は高くなる。

　図５は本実施形態の実行タスクデータベース１２７のデータ構造例を示す図である。本実施形態における実行タスクデータベース１２７は、（候補も含めて）実行すべきタスクを格納するデータベースである。

　図５で例示する実行タスクデータベース１２７のレコード構造は、当該実行タスクデータベース１２７のレコードを一意に特定する実行タスクＩＤをキーとして、タスクＩＤ、クエリＩＤ、および変数の各値を対応付けた構成となっている。このうち、タスクＩＤは、クエリ解釈データベース１２５およびタスクデータベース１２６におけるタスクＩＤと共通する。また同様に、クエリＩＤは、クエリ解釈データベース１２５におけるクエリＩＤと共通する。また変数は、実行すべきタスクの引数と値が設定されている。

　こうした実行タスクデータベース１２７の各レコードは、クライアント端末２００または分析結果管理部１１０により入力される。なお、具体的なタスクの例としては、オープンデータ提供システム３００、掘削・施工サービス会社システム４００、フィールドデータ提供システム５００からネットワーク１０を通じてのデータ収集や、収集したデータに対して、センサ等の生データであれば解釈できるデータへの変換、ｈｔｍｌやｘｍｌのような構造化データであればパーシングなどのデータ加工（上述の変換も含めて分析の概念に該当）、収集および加工を行ったデータのデータ分析データベース１３０の書き込みや、書き込み済みのデータの読み込みが含まれる。

　図６は本実施形態のタスク制約データベース１２８のデータ構造例を示す図である。本実施形態におけるタスク制約データベース１２８は、データ収集、加工タスクを実施するにあたり、満たすべき制約や最小化、最大化する目的関数を格納するデータベースである。図６に例示するタスク制約データベース１２８のレコードは、当該タスク制約データベース１２８のレコードを一意に特定する制約ＩＤをキーとして、制約式を対応付けた構造となっている。格納される制約式は、既に上述したように、分析対象データの収集、分析の各タスクを実行するにあたり、満たすべき制約や最小化、最大化する目的関数の数式が該当する。

　こうした制約式は、知見を備えた適宜なユーザによって予め記述、設定されるものである。また、クライアント端末２００を操作するユーザによって、制約式の確認、変更が必要に応じて随時行われる。このユーザは、制約式の記述に際し、実行タスクデータベース１２７や、タスクデータベース１２６における各カラムを変数として扱い、タスク同士の順序関係、データ分析システム１００のＣＰＵ負荷、ネットワーク負荷やオープンデータ提供システム３００、掘削・施工サービス会社システム４００、フィールドデータ提供システム５００各々への負荷率の上限や、タスクを完遂する時間の上限などを表現することとなる。

　制約式の実例としては、図６のタスク制約データベース１２８における制約ＩＤ「３４２」、「３４３」の各レコードで示している。このうち、制約ＩＤ「３４２」の制約式「｜Start_time(task_a)-start_time(task_b)｜>40 for (task_a,task_b) in combinations(task) if Open_data_flag==1」は、「Ｏｐｅｎ＿ｄａｔａ＿ｆｌａｇ」というパラメータ（負荷パラメータの一つ）が「１」のタスク同士のすべて組み合わせで、開始時間の差を取ると４０（ここでは秒）以上になる制約を示している。なお、「Ｏｐｅｎ＿ｄａｔａ＿ｆｌａｇ」は、オープンデータ提供システム３００から分析対象データの収集を行うタスクに対して「１」が振られていることを想定する。こうした制約の意図は、オープンデータ提供システム３００からデータ収集をする各タスクが存在する条件下で、各タスクの実行間隔が一定間隔に維持されなければならない、ことを示している。

　一方、制約ＩＤ「３４３」の制約式「Sum(CPU_load) < 90」は、負荷パラメータにおけるＣＰＵ負荷率たる「ＣＰＵ＿Ｌｏａｄ」の総和が、常に９０％以下とする制約を示してる。

　図７は本実施形態のスケジュールデータベース１２９のデータ構造例を示す図である。本実施形態におけるスケジュールデータベース１２９は、分析対象データの収集、分析の各タスクを実行するスケジュールを格納するデータベースである。図７に例示するスケジュールデータベース１２９におけるレコードは、タスクを実行する時刻をキーとして、該当時刻に実行予定のタスクを一意に特定する実行タスクＩＤが対応付けた構成となっている。なお、このスケジュールデータベース１２９における実行タスクＩＤは、実行タスクデータベース１２７における実行タスクＩＤと共通する。
－－－フロー例－－－

　以下、本実施形態におけるデータ分析方法の実際手順について図に基づき説明する。以下で説明するデータ分析方法に対応する各種動作は、データ分析システム１００のＣＰＵ１０４がメモリ１０３に読み出して実行するプログラム１０２によって実現される。そして、これらのプログラムは、以下に説明される各種の動作を行うためのコードから構成されている。

　図８は、本実施形態におけるデータ分析方法の処理手順例１を示すフロー図であり、より具体的には、分析結果管理部１１０におけるフローを示す図である。なお、このフローは、データ分析システム１００の分析結果管理部１１０が、ネットワーク１０を通じてクライアント端末２００から分析クエリを受信したことをトリガーとして開始される。

　当該フローにおけるステップＳ２０１において、分析結果管理部１１０は、クライアント端末２００から受けた分析クエリを、クエリ解釈データベース１２５に照合し、当該クエリ解釈データベース１２５における各レコードのクエリパターンおよび変数の各値に関して、分析クエリとのパターンマッチングを行って、タスク候補を特定する。分析結果管理部１１０は、このパターンマッチによって特定した、クエリ解釈データベース１２５の１または複数のレコードをタスク候補としてスケジューリング部１１１に出力する。

　クライアント端末２００から受信した分析クエリの例を図１０に示す。図１０で例示する分析クエリ６０１は、「Select prod, date from production where (Operator = “Op1”)」となっており、これを図３で例示したクエリ解釈データベース１２５の各レコードとパターンマッチングした場合、生産量データを抽出する構文を含むレコードとして、図１１に示すようにクエリＩＤ「３６」、「７８」、「１２５」の３つレコードがタスク候補群６０２として特定されることになる。

　このように同一のパターンにマッチしたレコード、すなわちタスク候補は同種のデータを出力するものであるが、含まれる依存タスクは異なっている。例えば、クエリＩＤ「３６」のレコードにおける依存タスク「３４」はフィールドデータ提供システム５００からデータ収集し、クエリＩＤ「７８」のレコードにおける依存タスク「８０」は、オープンデータ提供システム３００からデータ収集し、クエリＩＤ「１６３」のレコードにおける依存タスク「１６３」は、以前他のデータ分析で収集した分析データベース１３０からデータを収集する、などとタスク内容は異なっている。。

　また、このタスク候補群６０２における各レコード、すなわちクエリにおける優先度は収集するデータの質に対応したものとなっている。例えば、フィールドデータ提供システム５００には詳細かつ最新のデータが、オープンデータ提供システム３００には詳細ではないが最新のデータが、分析データベース１３０には以前他のデータ分析のために収集した古いデータがそれぞれ含まれている場合、タスク候補群６０２における各レコードのような優先度づけがクライアント端末２００から事前に行われているものとする。

　続いてステップＳ２０２において、データ分析システム１００は、上述のステップＳ２０１において分析結果管理部１１０から出力された複数レコード、すなわちタスク候補群６０２を入力として、スケジューリング部１１１を呼び出し、スケジューリング部１１１によって、所定の制約条件下で所定目的を達成する際に実行可能な分析対象データの収集、分析のスケジュールを生成する。スケジューリング部１１１は、この際、生成したスケジュールをスケジュールデータベース１２９に出力し、実行可能なスケジュールの有無を分析結果管理部１１０に出力する。こうしたスケジューリング部１１１における処理の詳細は後述する。

　次に、ステップＳ２０３において、分析結果管理部１１０は、上述のスケジューリング部１１１から入力された実行可能なスケジュールの有無により、以後の処理を分岐させる。例えば、実行可能なスケジュールが存在する場合（Ｓ２０３：Ｙｅｓ）、分析結果管理部１１０は、処理をステップＳ２０４へ進める。一方、実行可能なスケジュールが存在しない場合（Ｓ２０３：Ｎｏ）、分析結果管理部１１０は、分析不可能である旨をクライアント端末２００に通知して処理を終了する。

　上述のステップＳ２０４においてデータ分析システム１００は、タスク実行部１１２を呼び出し、このタスク実行部１１２によって、スケジュールデータベース１２９に書き込まれているスケジュールに基づいてタスクを実行する。このステップＳ２０４におけるタスク実行部１１２は、実行タスクデータベース１２７における、クエリＩＤが同一のタスクを全て実行した際、実行したタスク実行結果を分析結果管理部１１０に出力する。タスク実行部１１２における処理の詳細は後述する。

　次にステップＳ２０５において、分析結果管理部１１０は、上述のステップＳ２０４でタスク実行部１１２により出力されたタスク実行結果を、データ分析結果としてクライアント端末２００に出力し、処理を終了する。
－－－スケジュール生成の処理－－－

　ここで、上述した図８のフローにおけるステップＳ２０２の詳細について説明する。図９は、本実施形態のデータ分析方法の手順例２を示すフロー図であり、具体的には、スケジューリング部１１１における処理フローを示す図である。なお、ここで例示するフローは、スケジューリング部１１１が、タスク公報補として、クエリ解釈データベース１２５の１または複数のレコードを分析結果管理部１１０から受け取ったことをトリガーとして開始される例を想定する。

　当該フローにおけるステップＳ２０２１において、スケジューリング部１１１は、入力となるタスク候補が存在するか判定する。この判定の結果、タスク候補が１つでも存在すれば（Ｓ２０２１：Ｙｅｓ）、スケジューリング部１１１は処理をステップＳ２０２２に進める。他方、上述の判定の結果、タスク候補が１つも存在しなかった場合（Ｓ２０２１：Ｎｏ）、スケジューリング部１１１は、実行可能スケジュールが存在しないことを分析結果管理部１１０に出力し、処理を終了する。

　次にステップＳ２０２２において、スケジューリング部１１１は、タスク候補が複数であるか判定する。この判定の結果、タスク候補が１つのみであった場合（Ｓ２０２２：Ｎｏ）、スケジューリング部１１１は、後述するステップＳ２０２６へ処理を進める。他方、上述の判定の結果、タスク候補が複数存在した場合（Ｓ２０２２：Ｙｅｓ）、スケジューリング部１１１は、処理をステップＳ２０２３に進める。

　ステップＳ２０２３において、スケジューリング部１１１は、各タスク候補における優先度の値を参照し、優先度設定があるか判定する。図１１で例示したタスク候補群６０２の例では、各タスク候補に対して優先度の値が設定されているため、当該判定では、「Ｙｅｓ」の結果となる。こうした判定の結果、各タスク候補に関して優先度の値が付与されていた場合（Ｓ２０２３：Ｙｅｓ）、ステップＳ２０２４において、スケジューリング部１１１は、優先度の値が最小、すなわち優先度最大のタスク候補をタスク候補群から選択する。図１１で例示したタスク候補群６０２の場合、優先度の値が「１」で最小の、クエリＩＤ「３６」のレコードを優先度最大のタスク候補として選択することとなる。この場合、スケジューリング部１１１は、当該ステップＳ２０２３で選択したタスク候補に加え、実行タスクデータベース１２７にて既に登録されている実行すべきタスク集合を更に特定するとしてもよい。

　一方、上述の判定の結果、各タスク候補に関して優先度の値が付与されていなかった場合（Ｓ２０２３：Ｎｏ）、ステップＳ２０２５において、スケジューリング部１１１は、タスク候補群６０２のうちどのタスク候補を選択するかをユーザに問うインターフェイスをクライアント端末２００に出力し、タスク候補の選択を受け付ける。このタスク候補の選択用のインターフェイスを含む画面例を図１２にて示す。図１２にて例示する画面６０３は、優先度の値が設定されていない各タスク候補の集合たるタスク候補群６０３１に対し、タスク候補を選択するためのチェックボックス６０３２が配置された構成となっている。この場合にクライアント端末２００を操作するユーザは、このチェックボックス６０３２で所望のタスク候補に関してチェックを入れた後、ＯＫボタン６０３３をクリックして、タスク候補の選択確定動作を実行する。データ分析システム１００のスケジューリング部１１１は、この動作を受けて、上述のチェックボックス６０３２でチェックの入ったタスク候補をユーザ選択対象のタスク候補として特定することとなる。

　続いてステップＳ２０２６において、スケジューリング部１１１は、上述のステップＳ２０２３またはステップＳ２０２５で選択された該当タスク候補の含む各タスクＩＤ（各依存タスク欄にセットされているＩＤ）をキーに、タスクデータベース１２６から負荷パラメータを特定する。

　またスケジューリング部１１１は、タスク制約データベース１２８から各制約式を読み取り、各制約式が規定する制約内容を、上述の該当タスク候補が含むタスク集合（依存タスクの集合）およびそれらに関して得た負荷パラメータらが満たしつつ、既に述べた所定の目的関数を最適化（最大化或いは最小化）する、タスク実行スケジュールを所定アルゴリズムにて探索する。

　こうしたスケジュール探索は、制約充足問題、および制約付き最適化問題として定式化可能であり、当該問題を解く汎用的なアルゴリズムにより、任意のタスク集合に対して、実行可能および最適な実行スケジュールを求めることができる。

　上述のステップＳ２０２６の結果、実行可能なタスク実行スケジュールを探索出来なかった、すなわち存在しなかった場合（Ｓ２０２６：Ｎｏ）、スケジューリング部１１１は、処理をステップＳ２０２７に進める。他方、実行可能なタスク実行スケジュールが存在した場合（Ｓ２０２６：Ｙｅｓ）、ステップＳ２０２８において、スケジューリング部１１１は、実行可能スケジュールをスケジュールデータベース１２９に出力し、処理を終了する。

　他方、ステップＳ２０２７において、スケジューリング部１１１は、当該フロー開始時に分析結果管理部１１０から受け取ったタスク候補群６０２（クエリ解釈データベース１２５の１または複数のレコード）から、ステップＳ２０２４またはステップＳ２０２５で選択したタスク候補を削除し、その差分となった新たなタスク候補群を入力としてステップＳ２０２１に処理を戻す。
－－－タスク実行部の処理－－－

　図１３は本実施形態のデータ分析方法の手順例３を示すフロー図であり、具体的にはタスク実行部１１２における処理フローを示す図である。データ分析システム１００のタスク実行部１１２は、上述のスケジューリング部１１１が生成したスケジュールデータベース１２９の格納情報、すなわちタスク実行スケジュールに従って、分析対象データの収集および分析のタスクを実行する。

　この場合、ステップＳ２５００において、タスク実行部１１２は、スケジュールデータベース１２９における各レコードの時刻欄の値と、コンピュータとして通常備わるクロック機能が示す現在時刻とを所定時間毎に照合するなどして、スケジュールデータベース１２９が規定する各実行タスクの実行時刻の到来を検知する。

　上述のステップＳ２５００の結果、実行タスクの実行時刻到来を検知した際、ステップＳ２５０１において、タスク実行部１１２は、実行時刻が到来した該当実行タスクの実行タスクＩＤをスケジュールデータベース１２９から抽出し、この実行タスクＩＤをキーに実行タスクデータベース１２７を参照して、対応するタスクＩＤおよび変数を特定する。　またステップＳ２５０２において、タスク実行部１１２は、上述で特定した当該タスクＩＤをキーにタスクデータベース１２６を参照してコマンドを特定し、当該コマンドを上述で特定した変数を引数として、上述の実行時刻に合わせて実行する。これにより、スケジュールに応じて各データソースから収集した分析対象データの分析がなされる。

　本実施形態によれば、広域分散した複数のデータ提供元から、各種制約を踏まえて効率的かつ確実に分析対象のデータを取得し、データ分析を実行可能となる。

　本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態のデータ分析システムにおいて、前記演算装置は、前記スケジュールを生成するに際し、前記特定した負荷である、該当タスクを実行する際の当該データ分析システムにおける演算時間および演算負荷と、前記収集先との間のネットワークにおける通信負荷の少なくともいずれかを伴う前記該当タスクを、前記制約条件である、前記収集先が規定しているデータ提供時の通信制限の下で実行する際に、所定目的を達成する、前記分析対象データの収集および分析のスケジュールを所定アルゴリズムにて生成するものであるとしてもよい。

　これによれば、当該システムから遠方に存在し、データ提供時の通信制限を課している各データ収集先との間で、各種の制約を踏まえた上で、的確なデータ収集およびその分析を可能とするスケジュール生成が出来ることとなり、ひいては、広域分散した複数のデータ提供元から、各種制約を踏まえて効率的かつ確実に分析対象のデータを取得し、データ分析を実行出来る。

　また、本実施形態のデータ分析システムにおいて、前記演算装置は、前記パターンを特定するに際し、該当クエリが示す少なくとも分析対象データの収集先に関して一致するパターンが複数特定できた場合、各パターンを候補情報として所定装置に出力して、前記所定装置のユーザからのパターン選択の指示を受け付け、当該指示に応じてパターンを特定するものであるとしてもよい。

　これによれば、当該システムから遠方に存在し、データ提供時の通信制限を課している各データ収集先との間で、各種の制約とユーザ意思も踏まえた的確なデータ収集およびその分析を可能とするスケジュール生成が出来ることとなり、ひいては、広域分散した複数のデータ提供元から、各種制約を踏まえて効率的かつ確実に分析対象のデータを取得し、データ分析を実行出来る。

　また、本実施形態のデータ分析システムにおいて、前記記憶装置は、前記第１情報において、分析対象データの収集および分析に伴うタスクの定義を、少なくとも分析対象データの収集先と共に、採用優先度にも対応付けてパターン分けして格納しており、前記演算装置は、前記パターンを特定するに際し、該当クエリが示す少なくとも分析対象データの収集先に関して一致するパターンが複数特定できた場合、当該特定した複数のパターンのうち採用優先度が最も高いものを特定するものであるとしてもよい。

　これによれば、当該システムから遠方に存在し、データ提供時の通信制限を課している各データ収集先との間で、各種の制約とユーザ意思も踏まえた的確で効率的なデータ収集およびその分析を可能とするスケジュール生成が出来ることとなり、ひいては、広域分散した複数のデータ提供元から、各種制約を踏まえて効率的かつ確実に分析対象のデータを取得し、データ分析を実行出来る。

　また、本実施形態のデータ分析方法において、前記情報処理システムは、前記スケジュールを生成するに際し、前記特定した負荷である、該当タスクを実行する際の当該データ分析システムにおける演算時間および演算負荷と、前記収集先との間のネットワークにおける通信負荷の少なくともいずれかを伴う前記該当タスクを、前記制約条件である、前記収集先が規定しているデータ提供時の通信制限の下で実行する際に、所定目的を達成する、前記分析対象データの収集および分析のスケジュールを所定アルゴリズムにて生成するとしてもよい。

　また、本実施形態のデータ分析方法において、前記情報処理システムは、前記パターンを特定するに際し、該当クエリが示す少なくとも分析対象データの収集先に関して一致するパターンが複数特定できた場合、各パターンを候補情報として所定装置に出力して、前記所定装置のユーザからのパターン選択の指示を受け付け、当該指示に応じてパターンを特定するとしてもよい。

　また、本実施形態のデータ分析方法において、前記情報処理システムは、前記記憶装置の前記第１情報において、分析対象データの収集および分析に伴うタスクの定義を、少なくとも分析対象データの収集先と共に、採用優先度にも対応付けてパターン分けして格納し、前記パターンを特定するに際し、該当クエリが示す少なくとも分析対象データの収集先に関して一致するパターンが複数特定できた場合、当該特定した複数のパターンのうち採用優先度が最も高いものを特定するとしてもよい。

１０　ネットワーク
１００　データ分析システム
１０１　記憶装置
１０２　プログラム
１０３　メモリ
１０４　ＣＰＵ（演算装置）
１０５　通信装置
１１０　分析結果管理部
１１１　スケジューリング部
１１２　タスク実行部
１２５　クエリ解釈データベース
１２６　タスクデータベース
１２７　実行タスクデータベース
１２８　タスク制約データベース
１２９　スケジュールデータベース
１３０　分析データベース
２００　クライアント端末
３００　オープンデータ提供システム
４００　掘削・施工サービス会社システム
５００　フィールドデータ提供システム

Claims

　分析対象データの収集および分析に伴うタスクの定義を、少なくとも分析対象データの収集先と対応付けてパターン分けした第１情報と、前記タスクの実行に伴う少なくともデータ通信に関する負荷を定義した第２情報と、を格納した記憶装置と、
　所定装置から得たデータ分析のクエリを前記第１情報に照合し、該当クエリが示す少なくとも分析対象データの収集先に関して一致するパターンを特定し、該当パターンで定義されている該当タスクに関する負荷を前記第２情報で特定する処理と、
　前記特定した負荷を伴う前記該当タスクを、所定の制約条件下で実行する際に、所定目的を達成する、前記分析対象データの収集および分析のスケジュールを所定アルゴリズムにて生成し、該当スケジュールに基づいて該当各タスクを実行して分析結果を生成し、当該分析結果を所定装置に送信する処理と、を実行する演算装置と、
　を備えることを特徴とするデータ分析システム。
　前記演算装置は、
　前記スケジュールを生成するに際し、前記特定した負荷である、該当タスクを実行する際の当該データ分析システムにおける演算時間および演算負荷と、前記収集先との間のネットワークにおける通信負荷の少なくともいずれかを伴う前記該当タスクを、前記制約条件である、前記収集先が規定しているデータ提供時の通信制限の下で実行する際に、所定目的を達成する、前記分析対象データの収集および分析のスケジュールを所定アルゴリズムにて生成するものである、
　ことを特徴とする請求項１に記載のデータ分析システム。
　前記演算装置は、
　前記パターンを特定するに際し、該当クエリが示す少なくとも分析対象データの収集先に関して一致するパターンが複数特定できた場合、各パターンを候補情報として所定装置に出力して、前記所定装置のユーザからのパターン選択の指示を受け付け、当該指示に応じてパターンを特定するものである、
　ことを特徴とする請求項１に記載のデータ分析システム。
　前記記憶装置は、
　前記第１情報において、分析対象データの収集および分析に伴うタスクの定義を、少なくとも分析対象データの収集先と共に、採用優先度にも対応付けてパターン分けして格納しており、
　前記演算装置は、
　前記パターンを特定するに際し、該当クエリが示す少なくとも分析対象データの収集先に関して一致するパターンが複数特定できた場合、当該特定した複数のパターンのうち採用優先度が最も高いものを特定するものである、
　ことを特徴とする請求項１に記載のデータ分析システム。
　分析対象データの収集および分析に伴うタスクの定義を、少なくとも分析対象データの収集先と対応付けてパターン分けした第１情報と、前記タスクの実行に伴う少なくともデータ通信に関する負荷を定義した第２情報と、を格納した記憶装置を備える情報処理システムが、
　所定装置から得たデータ分析のクエリを前記第１情報に照合し、該当クエリが示す少なくとも分析対象データの収集先に関して一致するパターンを特定し、該当パターンで定義されている該当タスクに関する負荷を前記第２情報で特定する処理と、
　前記特定した負荷を伴う前記該当タスクを、所定の制約条件下で実行する際に、所定目的を達成する、前記分析対象データの収集および分析のスケジュールを所定アルゴリズムにて生成し、該当スケジュールに基づいて該当各タスクを実行して分析結果を生成し、当該分析結果を所定装置に送信する処理と、
　を実行することを特徴とするデータ分析方法。
　前記情報処理システムは、
　前記スケジュールを生成するに際し、前記特定した負荷である、該当タスクを実行する際の当該データ分析システムにおける演算時間および演算負荷と、前記収集先との間のネットワークにおける通信負荷の少なくともいずれかを伴う前記該当タスクを、前記制約条件である、前記収集先が規定しているデータ提供時の通信制限の下で実行する際に、所定目的を達成する、前記分析対象データの収集および分析のスケジュールを所定アルゴリズムにて生成する、
　ことを特徴とする請求項５に記載のデータ分析方法。
　前記情報処理システムは、
　前記パターンを特定するに際し、該当クエリが示す少なくとも分析対象データの収集先に関して一致するパターンが複数特定できた場合、各パターンを候補情報として所定装置に出力して、前記所定装置のユーザからのパターン選択の指示を受け付け、当該指示に応じてパターンを特定する、
　ことを特徴とする請求項５に記載のデータ分析方法。
　前記情報処理システムは、
　前記記憶装置の前記第１情報において、分析対象データの収集および分析に伴うタスクの定義を、少なくとも分析対象データの収集先と共に、採用優先度にも対応付けてパターン分けして格納し、
　前記パターンを特定するに際し、該当クエリが示す少なくとも分析対象データの収集先に関して一致するパターンが複数特定できた場合、当該特定した複数のパターンのうち採用優先度が最も高いものを特定する、
　ことを特徴とする請求項５に記載のデータ分析方法。