WO2019202839A1

WO2019202839A1 - データ利活用に係るデータ準備方法及びデータ利活用システム

Info

Publication number: WO2019202839A1
Application number: PCT/JP2019/006352
Authority: WO
Inventors: 山本　秀典; 川崎　健治; 岳志半田; 高志津野
Original assignee: 株式会社日立製作所
Priority date: 2018-04-16
Filing date: 2019-02-20
Publication date: 2019-10-24
Also published as: US20210117886A1; KR102432126B1; JP2019185582A; KR20200129132A; JP7015725B2

Abstract

データ蓄積及びデータ準備、データ利活用に係る機能を提供するシステムにて、複数の業務システムからの多種多様データを用いての様々な目的でのデータ利活用を容易に行えるように、データ利活用を行うユーザ向けに、利活用の目的に対して、適切なデータ準備内容の提案を行い、前記システム向けに、様々なユーザの様々な目的に対して準備しておくべき、重要度の高いデータ準備内容を備えさせるために、(1)ユーザが指定する利活用目的とシステムにて用意するデータ情報との照合を行い、該利活用目的のために実施すべきデータ準備内容項目及び難易度を算出し提示する。(2)前記利活用目的に対するデータ準備内容項目を集計し、類似するデータ準備内容をカテゴリ化し、該カテゴリの重要度を算出し提示する。(3)前記データ準備内容カテゴリに対して、データ準備内容項目に該当する処理プログラム、データ定義等のリストを作成し、各項目の有用度を算出し提示する。

Description

データ利活用に係るデータ準備方法及びデータ利活用システム

　本発明は、データ利活用に係るデータ準備方法及びデータ利活用システムに関する。
　更に詳しくは、例えば、複数の業務システムからのデータを対象とした様々な目的・用途で利活用するデータを準備及び管理するデータ利活用に係るデータ準備方法及び利活用システムに関する。

　データ分析システムとして、特開２０１０－２７７５３４号公報（特許文献１）に記載された技術が提案されている。この公報には、「分析者にとって有益な知識の発見のために、データ分析を行なうとともに、データ分析に必要なデータの収集とデータの前処理とを行なうデータ分析システムにおいて、該データの収集と該データの前処理を行なうデータ収集装置と、該データ収集装置で前処理された該データを送信するデータ送信部とを備えたデータ収集側の装置と、該データ送信部から送信された該前処理されたデータを受信するデータ受信部と、該データ受信部で受信された該前処理されたデータをデータ分析するデータ分析装置とを備えたデータ分析側の装置とで構成されたことを特徴とするデータ分析システム」との記載がある。
　また、データ処理システムとして、特開２０１６－１８１１５０号公報に記載された技術が提案されている。この公報には、「入力されたデータを処理して分析用のデータを生成するデータ処理システムであって、データベースを格納する記憶部と、前記データベースに格納されるデータを処理する処理部と、分析用のデータを生成するために必要な条件を設定する設定部と、を有し、前記データベースは、入力されたすべての入力データを格納するデータウェアハウスと、前記処理部によって前記入力データを統合して統合データを生成した後、前記統合データを格納する統合レイヤと、前記処理部によって前記統合データを、不加算項目の１つ以上の組み合わせ毎に、少なくとも加算項目の数量又は不加算項目の数を集計して複数の集計データを生成した後、前記複数の集計データを格納する集計レイヤと、前記処理部によって、前記設定部で設定された条件に基づき、前記複数の集計データから１つの集計データを選択し、さらに当該１つの集計データから分析データを抽出した後、前記分析データを格納する分析レイヤと、を有することを特徴とする、データ処理システム」との記載がある。

特開２０１０－２７７５３４号公報特開２０１６－１８１１５０号公報

　複数の業務システムから収集したデータを蓄積・管理し、分析したデータを利活用する
アプリケーションに対して提供する場合、例えば、交通、電力、産業、その他分野の業務における様々な問題を解決するためには、部署や業務を跨いで横断的に業務データを大量に収集し、それらの分析実施が求められる。しかし、現状、大量の業務データの理解が必要であることや業務知識に基づく属人性が高いこと、等が分析実施の妨げとなっている。
　そこで、業務データの分析・加工の知識や業務知識が十分に無い人でも、迅速かつ容易に分析でき、かつ、各種の業務データに対する分析処理の作成及び実施に係る負荷を低減することが求められる。
　特許文献１に開示された発明は、分析目的に該当する分析処理と前処理とのプログラム対応表を事前に作成し、該プログラム対応表を参照し、分析目的に該当する前処理プログラムをデータ収集装置に配布し、個々の生データ向けに目的に合致した前処理を実施するものであり、当該技術では、事前に分析目的と対象生データを全て洗い出して、分析処理と前処理との対応表を作成することが必要であり、特定の種類のデータに対して、想定の範囲内の目的のみへの活用となる。つまり、複数のシステムからの多種多様なデータを対象とすると、前処理や分析との対応表の作成に負荷が増大する課題がある。
　また、特許文献２に開示された発明は、入力された全データを結合して結合データを生成し、また、様々な項目にて集計データを生成し、こられの結合データ及び集計データから必要なデータを抽出し、目的に応じた分析データを作成するものであり、当該技術では、活用可能なのは統合データの作成可能なデータに限られる。複数の業務システムからの多種多様なデータに対しては一様に統合データを作成できるとは限らない。また、統合データ、集計データから目的に合った分析データを作成するためには、元のデータを全て理解していることが必要となる。つまり、複数のシステムからの多種多様なデータに対して一様に統合データを作成することがでるとは限らない課題がある。
　以上のように、従来として、業務上の課題解決や異常原因究明等の目的でデータ利活用を促進するために、業務システムからのデータの蓄積及びデータ準備、データ利活用に係る機能等を提供するデータ利活用システムが導入されているが、ユーザの多種多様な利活用の目的に応えるためには、上述した特許文献１または特許文献２に開示された技術のように、事前に想定された限られた範囲内だけでの有効活用可能な機能の提供となるか、汎用的に使える標準的な機能の提供のみに限られる。このため、多種多様な利活用の目的を達成するためには、データ準備、データ利活用に係る作業においてユーザ自身による負担が大きくなり得る等の課題があった。

　そこで、本発明では、上述した課題に鑑み、データ蓄積及びデータ準備、データ利活用に係る機能を提供するシステムにおいて、複数の業務システムからの多種多様な利活用目的でのデータ利活用を容易に行える技術を目的とする。
　例えば、業務課題解決や異常原因究明、等に対して、データ分析やその課題解決立案、課題解決のための業務アプリケーションの作成、等に対応することができ、多種多様なデータを用いて、様々な目的でのデータ利活用を行うユーザに対して、適切な重要度の高いデータ準備内容（データ準備項目）を容易に提案することができる技術を目的とする。

　具体的には、例えば、データを利活用するユーザ（分析者や開発者）向けに対して、利活用の目的に対する適切なデータ準備内容（テーブル化、テーブル結合・データ抽出、データ構造化、データ加工の作業項目：データ準備項目）を提案し、本システムを管理するユーザ（管理者）向けに対して、様々なユーザの様々な目的に対するデータ準備内容（準備しておくべき、重要度の高いデータ準備内容）を提示する、データ利活用に係るデータ準備方法及びデータ利活用システムを提供することを目的とする。

　上記課題を解決するため、本発明の代表的なデータ利活用に係るデータ準備方法及びシステムの一つは、データを利活用するユーザが指定する利活用目的とデータ準備、データ利活用機能を有するシステムにて用意するデータ準備内容項目を含む情報とを照合し、該利活用目的のために実施すべきデータ準備内容項目及び難易度を算出して、データを利活用するユーザに提示する機能と、前記利活用目的に対するデータ準備内容項目を集計し、類似するデータ準備内容をカテゴリ化し、該カテゴリ化したカテゴリの重要度を算出して、前記システムを管理するユーザに提示する機能と、前記データ準備内容のカテゴリに対して、前記データ準備内容項目に該当する処理プログラム、データ関係定義を含むリストを作成し、前記データ準備内容項目の有用度を算出して、データを利活用するユーザに対して提示する機能と、を含む。

　本発明によれば、複数の業務システムからの多種多様なデータを用いた、分析をはじめとするデータ利活用の実施に要するコストを低減することができる。特に、複数のユーザ向けへのデータ利活用システムを構築する場合に、データ利活用のためのデータ準備に係るより有用な機能・サービスの提供に寄与できる。
　上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。

本発明のデータ利活用に係るデータ準備方法を適用したシステムの構成を示すブロック図。本発明によるデータ利活用に係るデータ準備方法を実施する場合におけるユースケースを示す図。本発明によるデータ利活用に係るデータ準備の前提を説明する図。本発明におけるデータ利活用基盤サーバのモジュール構成を示す図。本発明によるデータ利活用に係るデータ準備方法にて、ユーザが作成する利活用目的、データ利活用基盤サーバにて用意するデータ情報の構成を示す図であって、利活用目的の一例を示す図。データカタログの一例を示す図。処理プログラムリストの一例を示す図。データ関係情報の一例を示す図。本発明におけるデータ利活用基盤サーバにて管理する、データ利活用に係るデータ準備方法を実施するために使用するテーブルの構成を示す図であって、データ準備内容提案管理テーブルのデータ構成を示す図。データ準備内容カテゴリ管理テーブルのデータ構成を示す図。有用データ準備内容項目管理テーブルのデータ構成を示す図。本発明におけるデータ利活用に係るデータ準備方法を適用した場合におけるデータ利活用システムにて、ユーザが作成する利活用目的とシステムにて用意するデータ情報との照合を行い、実施すべきデータ準備内容及び難易度を算出するための処理の流れを示すフローチャート。本発明におけるデータ利活用に係るデータ準備方法を適用した場合におけるデータ利活用システムにて、データ準備提案実績からデータ準備内容の各項目での類似度を判定して、類似するデータ準備内容をカテゴリ化するための処理の流れを示すフローチャート。本発明におけるデータ準備内容のカテゴリに対して重要度を算出するための処理の流れを示すフローチャート。本発明におけるユーザによるデータ準備内容項目の登録の結果、データ準備内容項目に該当する処理プログラム、データ定義等のリストを作成するための処理の流れを示すフローチャート。本発明の適用先であるユーザ端末を用いるユーザに対して提供する画面のイメージを示す図。

　以下、本発明の実施形態について図面を用いて説明する。

　図１は、本発明のデータ利活用に係るデータ準備方法を適用したシステムの構成を示すブロック図である。

　データ利活用に係るデータ準備方法を適用したシステムは、データ利活用システムを構築するデータ利活用基盤サーバ１０１、管理者端末１０２、複数のユーザ端末１０３～１０５、複数の業務システム１０５～１０７を備えている。本例では、ユーザ端末、業務システムがそれぞれ３つの場合を示しているが、その数に制限はない。

　データ利活用基盤サーバ１０１は、ネットワーク１０８を介して管理者端末１０２と複数のユーザ端末１０３～１０４に接続され、また、ネットワーク１０９を介して複数の業務システム１０６～１０８に相互接続されている。

　本例では、業務システム１０６～１０８からデータ利活用基盤サーバ１０１へ利活用の対象となる業務データ（生データ）を、ネットワーク１０９を介して収集しているが、ネットワーク１０９を介さず、例えば、業務データ（生データ）を人手にてデータ利活用基盤サーバ１０１へ直接入力するようにしてもよい。
　また、ユーザとは、現場データの知識に乏しく、ＩＴリテラシーの高い分析者、開発者やシステム管理者、等を想定する。
　分析者とは、部署横断で様々なデータに対して、様々な分析手法や分析ツールを用いて、問題発見、解決策立案、等を行う者である。
　開発者とは、分析業務に必要な分析アプリケーションを開発する者である。システム管理者とは、データ利活用システムを管理、運用し、業務システムからの生データの蓄積・加工等の処理ロジックプログラムの登録、管理を行う者である。

　そして、データ利活用基盤サーバ１０１は、業務データ（生データ）であって、利活用の対象となるデータを蓄積し、利活用に向けた該データに対する準備処理の実行、データ準備及び利活用に係るデータ関係定義のためのデータ関係情報、処理プログラム等の管理及びデータ利活用を行うユーザ（分析者や開発者）と当該データ利活用システム（本システム）におけるデータ利活用基盤サーバ１０１を管理するユーザ（システム管理者）へのデータ準備内容や類似カテゴリ、重要度、有用度、等に関する提案を行う機能を有する。

　利活用に向けた該データに対する準備処理の実行とは、例えば、少なくとも、要求データ項目、入力データ構造を含む利活用目的とデータカタログ、データ関係情報、を含む本システムにて用意するデータ情報とを照合し、それらのギャップ評価を行い、生データより対象データ（データ／ファイル／システム）を選出し、対象データの実施すべきデータ準備（対象データ、テーブル化、データ結合・抽出、データ構造化、データ加工）のデータ準備内容項目（作業項目）及び難易度を算出し、データ準備の提案（アウトプット）を行うことである。
　ここで、難易度とは、ユーザにとって作業に要する負荷の大きさである。難易度が低い場合は、処理プログラムの再利用等により、作業負荷が小さいことが見込まれる。

　つまり、データ利活用基盤サーバ１０１は、データを利活用するユーザが指定する利活用目的と本システムにて用意するデータ準備内容項目を含むデータ情報とを照合する機能、該利活用目的のために実施すべきデータ準備内容項目及び難易度を算出して、利活用するユーザに提示する機能、利活用目的に対するデータ準備内容項目を集計し、類似するデータ準備内容をカテゴリ化する機能、該カテゴリ化したカテゴリの重要度を算出して、本システムを管理するユーザに提示する機能、データ準備内容のカテゴリに対して、データ準備内容項目に該当する処理プログラム、データ関係定義を含むリストを作成し、データ準備内容項目の有用度を算出して、利活用するユーザに対して提示する機能、を有する。

　データ準備内容項目を集計し、類似するデータ準備内容をカテゴリ化し、カテゴリの重要度を算出して、提示するとは、例えば、データ準備の提案実績及び／又は実施結果を集計して、データ準備内容の重要度（優先的に処理ロジックプログラムを用意しておくべき項目）をユーザに提示することである。

　更に詳しくは、（１）上述した利活用目的に対するデータ準備内容をユーザに提案する際にデータ準備内容の難易度を算出し、（２）難易度の算出結果をデータ準備提案実績として記録し、当該データ準備提案実績からデータ準備内容の各項目での類似度を判定して、類似するデータ準備内容をカテゴリ化、関連する利活用目的をリストアップし、また、（３）データ準備内容のグループ毎に平均難易度や総数、それらを基に重要度（利活用に必要とされる度合い）を算出し、データ準備内容、利活用目的（候補）、平均難易度、総数、重要度、等を含む表（図１１参照）を作成することである。表は利活用目的に対する提案が実施される度に更新される。

　管理者端末１０２は、データ利活用システム及びデータ利活用システムにおけるデータ利活用基盤サーバ１０１を管理する管理者のユーザが使用するための端末である。

　ユーザ端末１０３～１０５は、ユーザが利活用目的を示す情報（図５（Ａ）の５０１参照）の登録、データ準備内容の確認及びデータ準備に係る作業を実施する分析者や開発者のユーザ（データを利活用するユーザ）が使用する端末である。

　業務システム１０６～１０８は、利活用の対象となるデータの提供元であり、分析による問題解決の対象となる業務システムである。

　データ利活用基盤サーバ１０１の主なハードウェア構成は、記憶装置（メモリ、ハードディスク）１１１、処理装置（ＣＰＵ）１１２、通信装置１１３からなる。

　管理者端末１０２及びユーザ端末１０３～１０５もデータ利活用基盤サーバ１０１と同様に、主なハードウェア構成は、記憶装置（メモリ、ハードディスク）１２１、１３１、処理装置（ＣＰＵ）１２２、１３２、通信装置１２３、１３３からなる。

　図２は、本発明によるデータ利活用に係るデータ準備方法を実施する場合におけるユースケースを示す図であって、データ利活用基盤サーバ１０１、業務システム１０６、管理者端末１０２側のシステム管理者２０１、ユーザ端末１０３～１０５側の分析者２０２～２０４との間における処理手順を説明する図である。
　以下、図２においては、分析者２０２～２０４を分析者Ａ～Ｃと称して説明する。

　図２のシーケンスに基づく動作は以下のとおりである。
　業務システム１０６は、業務データをデータ利活用基盤サーバ１０１の記憶装置１１１に登録する(ステップ２１１)。

　データ利活用基盤サーバ１０１は、処理装置１１２にて、業務システム１０６からの業務データを受け、当該業務システムの業務データに関するデータカタログを作成する(ステップ２２１)。
　データカタログは、システム、つまり、データ項目（リスト）を含むファイルを備えたシステムを記述したものであり、詳しくは、例えば、図５（Ｂ）に示すとおりであり、後述する。

　分析者Ａは、ユーザ端末１０３を用いて、実施する分析等のデータ利活用に関して、利活用目的を本システム側のデータ利活用基盤サーバ１０１の記憶装置１１１に登録する(ステップ２４１)。
　利活用目的は、要求データ項目、入力データ構造、を含み、詳しくは、例えば、図５（Ａ）に示すとおりであり、後述する。

　データ利活用基盤サーバ１０１は、処理装置１１２にて、データ準備処理を実行し、その結果を、通信装置１１３を介して、分析者Ａに提案する。つまり、分析者Ａにて登録された利活用目的に対するデータ準備内容のデータ準備内容項目を分析者Ａに提案する(ステップ２２２)。

　分析者Ａは、データ利活用基盤サーバ１０１から提案されたデータ準備内容項目を参照して、利活用目的にあったデータ利活用処理を実施するための前処理としてデータ準備作業を実施する(ステップ２４２)。前処理のデータ準備作業については、図３を参照して後述する。

　また、分析者Ａは、データ準備作業を実施し（ステップ２４２）、その結果を活用してデータ利活用処理を実施する(ステップ２４３)。
　ここで、データ準備作業実施（ステップ２４２）及び利活用実施(２４３)は、データ利
活用基盤サーバ１０１に提供する機能等を活用して実施することもできる。

　データ利活用基盤サーバ１０１では、処理装置１１２にて、利活用目的に対するデータ準備内容項目提案（ステップ２２２）の実績を集計し、データ準備内容項目のカテゴリ化と重要度算出を行う(ステップ２２３)。

　次いで、データ利活用基盤サーバ１０１は、通信装置１１３を介して、データ準備内容項目のカテゴリ及び重要度を、システム管理者２０１及び他の分析者Ｂに対して提示する（ステップ２２４）。

　これにより、システム管理者２０１及び分析者Ｂは、管理者端末１０２及びユーザ端末１０４を用いて、データ利活用基盤サーバ１０１からのデータ準備内容のカテゴリ・重要度を閲覧することができる(ステップ２３１、２５１)。

　このとき、システム管理者２０１及び分析者Ｂは、データ準備内容項目のカテゴリに該当する関連の処理プログラム、データ関係情報、等があれば、本システム側のデータ利活用基盤サーバ１０１の記憶装置１１１に登録する（ステップ２３２、２５２）。処理プログラム、データ関係情報については図５（Ｃ）、図５（Ｄ）を参照して後述する。
　これはデータ利活用基盤サーバ１０１が提供するデータ利活用のための機能・サービスを拡充するために実施するためである。

　次に、データ利活用基盤サーバ１０１は、システム管理者２０１、分析者Ｂからの処理プログラム、データ関係情報、等の登録を受けると、これらを他のユーザ（分析者Ｃ）にも利用可能となるように公開する(ステップ２２５)。

　分析者Ｃは、分析者Ａと同様に、ユーザ端末１０５を用いて、実施する分析等のデータ利活用に関して、利活用目的をデータ利活用基盤サーバ１０１の記憶装置１１１に登録する(ステップ２６１)。

　また、データ利活用基盤サーバ１０１は、通信装置１１３を介して、分析者Ｃに対して、利活用目的に対するデータ準備内容項目の提案を行う(ステップ２２６)。
　このとき、システム側に登録された処理プログラム、データ関係情報等を用いることで、より精度の高い提案を実施することができる。

　分析者Ｃは、ステップ２２５にて、データ利活用基盤サーバ１０１から提案された関連の処理プログラム、データ関係情報（テータ関係定義）等の登録を反映した後のデータ準備内容項目提案を参照して、利活用目的にあったデータ利活用処理を実施するための前処理としてのデータ準備作業を実施する(ステップ２６２)。

　また、分析者Ｃは、データ準備作業実施（ステップ２６２）の結果を活用してデータ利活用処理を実施する(ステップ２６３)。

　図３は、本発明によるデータ利活用に係るデータ準備の前提を説明する図である。
　業務システム１０６から収集した業務データ（生データ）には、分析ツール等で良く用いられるＣＳＶ(Comma Separated Values)等の表形式データだけでなく、ＢＩＮ（バイナリ）、ＴＸＴ（テキスト）、ＩＭＧ（イメージ）、ＰＤＦ（Portable Document Format）、等の様々な形式のデータが含まれることが多い。

　故に、業務システム１０６からの業務データ(生データ)に対して、各種ツールの活用やアプリケーション開発・活用により分析等のデータ利活用を実施するためには、多くの場合、生データをそのまま活用できず、データ準備を実施する必要がある。

　そこで、データ準備として、データ利活用システムにおけるデータ利活用のために活用する分析ツール３２１にて、生データに対して、テーブル化３０１、データ結合・抽出３０２、データ構造化３０３、データ加工（クレンジング）３０４の各処理を順に実施する。そして、分析アプリケーション３２２、業務アプリケーション３２３にて利用可能なデータ構造・形式とする。

　すなわち、テーブル化３０１の処理としては、生データの個々のデータ内容を参照、扱いやすいように元のバイナリ形式データ等からＣＳＶ等のテーブル形式データの個別テーブル３１１へと変換する。

　データ結合・抽出３０２の処理としては、利活用のためにツール、アプリケーション等で活用するデータを抽出するために、生データから変換した個別テーブル３１を幾つか結合して、該活用データが含められる結合テーブル３１２を作成する。

　データ構造化３０３の処理としては、結合テーブル３１２から、データ利活用のために活用する分析ツール３２１、分析アプリケーション３２２、業務アプリケーション３２３が利用可能である構造化データ３１３へと変換する。
　本例では、目的に応じて各種分析ツールやアプリケーションで一般的に用いられる関係モデルテーブル形式、クロス集計等に用いられるピボットテーブル形式、また各アプリケーション向けの共通データモデル形式、等へと変換する。

　データ加工３０４の処理としては、構造化データ３１３から、データ利活用のために活用する分析ツール３２１、分析アプリケーション３２２、業務アプリケーション３２３のアプリ個別入力データ構造３１４となるように、データ値の加工を行う。
　ここでは、例えば、単位変換や、誤差補正、名寄せ等のデータクレンジング処理を行う。
　以上のとおり、処理されたデータ準備は、データ準備テーブル（図４参照）に格納する。

　図４は、本発明におけるデータ利活用基盤サーバ１０１のモジュール構成を示す図である。
　データ利活用基盤サーバ１０１は、データ利活用ミドルウェア４０１から構成される。

　データ利活用ミドルウェア４０１は、業務システム１０６～１０８から提供され、利活用の対象となる生データを生データ記憶部４１１に蓄積し、利活用に向けたデータに対する準備処理を実行する機能、データ準備及び利活用に係るデータ関係情報、処理プログラム記憶部６０３の処理プログラム等の管理及びデータ利活用を行うユーザやシステム管理者へのデータ準備内容に関する提案等の処理を実行する機能を有する。

　データ利活用ミドルウェア４０１は、データ準備処理実行管理部４２１、利活用処理実行管理部４２２、データ管理部４３１、処理プログラム管理部４３２、ユーザ・業務管理部４３３、データ準備内容提案部４３４、データ準備内容提案集計部４３５、データ準備内容登録集計部４３６、クライアント向けＩ／Ｆ提供部４３７、データ通信部４３８、等を含む。
　また、業務システム１０６～１０８からの生データを記憶する生データ記憶部４１１、データ利活用システム側にて用意するデータカタログ５０２（図５（Ｂ）参照）を記憶するデータカタログ記憶部６０２、処理プログラムリスト５０３（図５（Ｃ）参照）を記憶する処理プログラム記憶部６０３、データ関係情報５０４（図５（Ｄ）参照）を記憶するデータ関係定義記憶部６０４、データ準備に関係するデータ（図６（Ａ）～（Ｃ）参照）を記憶するデータ準備テーブル記憶部４４４、等を含む。
　生データとしては、業務システムからの業務システムデータの他にセンサデータ、オープンデータも含む。

　データ準備処理実行管理部４２１は、記憶装置１１１の生データ記憶部４１１に蓄積した生データ、処理プログラムリスト記憶部６０３に登録した処理プログラムリスト、等を用いて、データ利活用基盤サーバ１０１上でデータ準備処理の実行と管理を行う。

　すなわち、データ準備処理実行管理部４２１は、複数の業務システム１０６～１０８からの多種多様なデータを用いて様々な目的でのデータ利活用を可能とするデータ準備であって、
　データ利活用を行うユーザの利活用目的の要求データ項目や入力データ構造とデータ利活用システム側にて用意するデータ情報（例えば、生データのデータカタログ、データ関係情報、等）を照合し、
　実施すべきデータ準備内容（作業項目）及びその難易度を算出し、
　データ準備内容提案管理テーブル（図６（Ａ）の６０１１参照）を管理する機能を有する。

　データ準備とは、対象業務・システムに関する知識が十分に無い者でも、迅速かつ容易にデータ利活用でき、例えば、データ利活用を行うユーザにおいて、各種ツール、アプリケーションでの利用（分析実施、業務アプリケーション作成等の様々な目的・用途によるデータ利活用を可能とするために必要なデータを準備することである。
　また、データ準備内容とは、例えば、生データのテーブル化、テーブル化した個別テーブルのためのデータ結合・抽出、構造化データのためのデータ構造化、アプリ個別入力構造化のためのデータ加工（クレンジング）、等である。

　テーブル化とは、例えば、バイナリ―ＣＳＶ変換、ＣＳＶテーブル形式変換、等であり、データ結合・抽出とは、関係データ（線路マスタ等）、結合キー（キロ程、時刻、等）であり、データ構造化とは、関係モデルテーブル化、統合データモデル変換、等であり、データ加工とは、単位変換、名寄せ、等である。
　上述したデータ準備処理の手順については、図７を参照して後述する。

　利活用処理実行管理部４２２は、データ利活用基盤サーバ１０１上で利活用処理の実行と管理を行うものであって、データ準備の提案実績及びユーザによる実施結果を集計し、データ準備内容の重要度を算出する。重要度は、データ準備内容のカテゴリ毎に行う。

　すなわち、利活用処理実行管理部４２２は、データ準備処理実行管理部４２１にて算出したデータ準備内容の各項目での類似度を判定し、類似するデータ準備内容をカテゴリ化し、関連する利活用目的（候補）をリストアップし、
　データ準備内容のグループ毎の平均難易度や総数を基に重要度、つまり、利活用に必要とされる度合いを算出し、
　データ準備内容カテゴリテーブル（図６（Ｂ）の６０２１参照）を管理する機能を有する。

　利活用目的（候補）は、例えば、ユーザ種別（分析者、開発者、等）、アプリロジック（因果関係算出、線グラフ出力、等）である。総数は、データ準備内容提案集計部４３５やデータ準備内容登録集計部４３６にて求められたデータ準備内容のグループ毎の総数である。
　上述した重要度を算出する利活用処理の手順については、図８～図９を参照して後述する。

　また、利活用処理実行管理部４２２は、ユーザによりデータ準備内容項目を登録した結果、データ準備内容項目に該当する処理プログラム、データ定義等のリストを作成し、データ定義の有用度を算出する機能を有する。

　すなわち、ユーザにより処理プログラム、データ定義に該当するデータ準備内容を検索し、データ準備内容カテゴリの重要度を参照し、処理プログラム、データ定義の有用度を算出し、また、有用度を更新し、有用データ準備内容提案管理テーブル（図６（Ｃ）の６０３１参照）を管理する機能を有する。
　上述した有用度算出する利活用処理の手順については、図１０を参照して後述する。

　データ管理部４３１は、生データ及びデータカタログ、データ関係情報を生データ記憶部４１１及びデータカタログ記憶部６０２、データ関係定義記憶部６０４に格納する管理を行う。

　処理プログラム管理部４３２は、処理プログラム記憶部６０３の処理プログラムリストを管理し、ユーザによる処理プログラム、データ関係定義等の登録を受け付ける。

　ユーザ・業務管理部４３３は、本データ利活用ミドルウェア４０１にアクセスして利活用を行うユーザ（システム管理者や分析者、開発者）及び業務を管理する。

　データ準備内容提案部４３４は、ユーザの利活用目的に対して、データカタログ、データ関係情報、処理プログラムリスト及びデータ準備テーブルを参照してデータ準備内容（データ準備内容項目）の提案処理を行う。

　すなわち、データ準備内容提案部４３４は、データ準備処理実行管理部４２１や利活用処理実行管理部４２２で求めたデータ準備内容や重要度、有用度等をユーザに提案するものであって、例えば、データ利活用を行う分析者や開発者に対して、データ準備の作業項目、方法等を提案し、システム管理者に対して、様々なユーザの様々な目的に対して準備しておくべきデータ準備の重要度、必然性の高い準備内容の組合せを提案する機能を有する。

　データ準備内容提案集計部４３５は、データ準備テーブルを参照して、データ準備内容提案実績の集計及びデータ準備内容のカテゴリ化を行う。

　データ準備内容登録集計部４３６は、データ準備内容のカテゴリに対するユーザによる処理プログラム、データ関係定義等の登録を集計する。

　クライアント向けＩ／Ｆ提供部４３７は、データ準備内容登録集計部４３６、管理者端末１０２、ユーザ端末１０３～１０５に対して本データ利活用ミドルウェア４０１が提供する機能のインタフェースを提供する。

　データ通信部４３８は、ネットワーク１０９、１０９’を介して管理者端末１０２、ユーザ端末１０３～１０５や業務システム１０６～１０８との間でデータ準備内容項目提案等のデータ通信を行う。

　図５は、本発明によるデータ利活用に係るデータ準備方法にて、ユーザが作成する利活用目的５０１、データ利活用システムにおけるデータ利活用基盤サーバ１０１にて用意するデータカタログ５０２、処理プログラムリスト５０３及びデータ関係情報５０４、の構成を示す図であって、図５（Ａ）は、利活用目的５０１の一例を示す図、図５（Ｂ）は、データカタログ５０２の一例を示す図、図５（Ｃ）は、処理プログラムリスト５０３の一例を示す図、図５（Ｄ）は、データ関係情報５０４の一例を示す図である。

　データカタログ５０２、データ関係情報５０４、処理プログラムリスト５０３は、図４に示す各データカタログ記憶部６０２、データ関係定義記憶部６０４、処理プログラム記憶部６０３に格納される。
　ここで、利活用目的５０１及びデータカタログ５０２は、本発明によるデータ利活用に係るデータ準備方法を実施する上で必須である。

　一方、処理プログラムリスト５０３及びデータ関係情報５０４は、任意とする。
　すなわち、処理プログラムリスト５０３及びデータ関係情報５０４は、なくても、本発明によるデータ利活用に係るデータ準備方法は実施可能であるが、あれば、本発明によるデータ利活用に係るデータ準備方法におけるデータ準備内容提案等の精度がより向上する。

　利活用目的５０１は、ユーザが業務システム１０６からのデータを用いてデータ利活用を実施する際の目的に関する情報を記述するものであり、ユーザが実施するデータ利活用毎に作成する。

　利活用目的５０１は、例えば、「要求データ項目」、「入力データ構造」、「アプリロジック」、「ＫＰＩ」である。「要求データ項目」、「入力データ構造」は、必須であり、「アプリロジック」、「ＫＰＩ」は、任意である。

　「要求データ項目」は、本利活用のために活用する分析ツール３２１、分析アプリケーション３２２、業務アプリケーション３２３にて要求するデータの種別・項目、データ範囲(時刻、等)を示す。

　「入力データ構造」は、本利活用のために活用する分析ツール３２１、分析アプリケーション３２２、業務アプリケーション３２３にて要求する入力データの構造を示す。例えば、関係モデルテーブル（ＣＳＶ）、ピボットテーブル、各種の共通データモデル等のいずれかを指定する。

　「アプリロジック」は、本利活用のために活用する分析アプリケーション３２２、業務アプリケーション３２３にて用いる分析等のロジックの種別、業務種別等を指定するものである。

　「ＫＰＩ」は、本利活用の目的として達成したいＫＰＩを指定するものである。

　データカタログ５０２は、業務システム１０６からの生データに関する情報を記述するものであり、データ毎に提供元のシステム、ファイル構成が含まれるデータ項目リスト、作成時刻、ファイル形式、等の情報（カタログ情報）を含む。

　データカタログ５０２は、データ利活用基盤サーバ１０１にて業務システム１０６からのデータが登録される度に作成、更新される。

　処理プログラムリスト５０３は、データ利活用基盤サーバ１０１にて管理する、データ準備の各処理（図３のステップ３０１～３０４）のために利用可能な処理プログラムのリストである。

　データ利活用基盤サーバ１０１に当該プログラムが存在する場合に記載する。

　データ関係情報５０４は、業務システム１０６からのデータに関して、仕様書的データ項目関係の組合せ、業務的データ項目関係の組合せ、業務的レコード関係の組合せ、業務ノウハウ的関係の組合せ等を記述するものである。データ関係情報５０４は、作成する負荷は大きいが、該情報があればデータ準備内容提案の精度がより向上する。

　図６は、本発明におけるデータ利活用基盤サーバ１０１の記憶装置１１１にて管理する、データ利活用に係るデータ準備方法を実施するために使用するテーブルのデータ構成を示す図であって、図６（Ａ）は、データ準備内容提案管理テーブル６０１のデータ構成、図６（Ｂ）は、データ準備内容カテゴリ管理テーブル６０２のデータ構成、図６（Ｃ）は、有用データ準備内容項目管理テーブル６０３のデータ構成を示すテーブル図である。

　データ準備内容提案管理テーブル６０１１は、ユーザが指定する利活用目的に対するデータ準備内容提案に関する情報を格納する。主には、識別情報６１１、対象データ６１２、テーブル化６１３、データ結合・抽出６１４、データ構造化６１５、データ加工６１６、難易度６１７、ユーザ種別６１８、アプリロジック６１９、ＫＰＩ６１０、更新日時６４１、等の情報を示す各項目を含む。

　識別情報６１１は、データ準備内容提案を識別するための情報である。対象データ６１２は、識別情報６１１により特定されるデータ準備内容提案における対象データ６１２に関する情報である。

　テーブル化６１３は、識別情報６１１により特定されるデータ準備内容提案におけるテーブル化に関する情報である。

　データ結合・抽出６１４は、識別情報６１１により特定されるデータ準備内容提案におけるデータ結合・抽出に関する情報である。

　データ構造化６１５は、識別情報６１１により特定されるデータ準備内容提案におけるデータ構造化に関する情報である。

　データ加工６１６は、識別情報６１１により特定されるデータ準備内容提案におけるデータ加工に関する情報である。

　難易度６１７は、識別情報６１１により特定されるデータ準備内容提案における難易度に関する情報である。

　ユーザ種別６１８は、識別情報６１１により特定されるデータ準備内容提案の対象であるユーザの種別に関する情報である。

　アプリロジック６１９は、識別情報６１１により特定されるデータ準備内容提案の対象であるユーザの利活用目的からアプリロジックに関する情報であって、利活用目的にアプリロジックに関する情報が含まれていない場合は、本項目は空となる。

　ＫＰＩ６１０は、識別情報６１１により特定されるデータ準備内容提案の対象であるユーザの利活用目的からＫＰＩに関する情報であって、利活用目的にＫＰＩに関する情報が含まれていない場合は、本項目は空となる。更新日時６４１は、レコードが最後に更新された日時である。

　データ準備内容カテゴリ管理テーブル６０２１は、データ準備内容カテゴリに関する情報を格納する。主には、識別情報６２１、対象データ６２２、テーブル化６２３、データ結合・抽出６２４、データ構造化６２５、データ加工６２６、ユーザ種別６２７、アプリロジック６２８、ＫＰＩ６２９、平均難易度６２０、総数６４２、重要度６４３、更新日時６４４、等を示す各情報を示す各項目を含む。

　識別情報６２１は、データ準備内容カテゴリを識別するための情報である。

　対象データ６２２は、識別情報６２１により特定されるデータ準備内容カテゴリにおける対象データに関する情報である。

　テーブル化６２３は、識別情報６２１により特定されるデータ準備内容カテゴリにおけるテーブル化に関する情報である。

　データ結合・抽出６２４は、識別情報６２１により特定されるデータ準備内容カテゴリにおけるデータ結合・抽出に関する情報である。

　データ構造化６２５は、識別情報６２１により特定されるデータ準備内容カテゴリにおけるデータ構造化に関する情報である。

　データ加工６２６は、識別情報６２１により特定されるデータ準備内容カテゴリにおけるデータ加工に関する情報である。

　ユーザ種別６２７は、識別情報６２１により特定されるデータ準備内容カテゴリにおけるユーザ種別に関する情報である。

　アプリロジック６２８は、識別情報６２１により特定されるデータ準備内容カテゴリの基となるデータ準備内容提案に関連する利活用目的から抽出したアプリロジックに関する情報である。データ準備内容カテゴリに関連するアプリロジックは複数あり得て、複数のレコードが格納され得る。

　ＫＰＩ６２９は、識別情報６２１により特定されるデータ準備内容カテゴリの基となるデータ準備内容提案に関連する利活用目的から抽出したＫＰＩに関する情報である。データ準備内容カテゴリに関連するＫＰＩは複数あり得て、複数のレコードが格納され得る。

　平均難易度６２０は、識別情報６２１により特定されるデータ準備内容カテゴリにおける平均難易度に関する情報である。

　総数６４２は、識別情報６２１により特定されるデータ準備内容カテゴリにおける総数に関する情報である。

　重要度６４３は、識別情報６２１により特定されるデータ準備内容カテゴリにおける重要度に関する情報である。

　更新日時６４４は、各レコードが最後に更新された日時である。

　有用データ準備内容項目管理テーブル６０３１は、データ準備内容カテゴリに対する有用なデータ準備内容項目に関する情報を格納する。主には、識別情報６３１、処理プログラム／データ定義識別情報６３２、分類６３３、関連データ準備内容６３４、有用度６３５、更新日時６３６、等の各情報を示す各項目を含む。

　識別情報６３１は、データ準備内容項目を識別するための情報である。処理プログラム／データ定義識別情報６３２は、識別情報６３１により特定されるデータ準備内容項目における処理プログラムまたはデータ定義を識別する情報である。分類６３３は、識別情報６３１により特定されるデータ準備内容項目における分類に関する情報である。

　本例では、分類６３３に、「テーブル化」、「データ結合・抽出」、「データ構造化」、「データ加工」のいずれかが格納される。関連データ準備内容６３４は、識別情報６３１により特定されるデータ準備内容項目に関連するデータ準備内容提案を識別する情報である。有用度６３５は、識別情報６３１により特定されるデータ準備内容項目の有用度に関する情報である。更新日時６３６には、各レコードが最後に更新された日時である。

　図７は、本発明によるデータ利活用に係るデータ準備方法を適用した場合におけるデータ利活用システムにおけるデータ利活用基盤サーバ１０１（処理装置１１２）にて、ユーザが作成する利活用目的５０１と本システムにて用意するデータ情報（含データカタログ５０２）との照合を行い、実施すべきデータ準備の作業項目及び難易度を算出するための処理の流れを示すフローチャートである。

　図７のフローチャートに基づく動作は以下のとおりである。
　ステップ７０１：
　データ利活用基盤サーバ１０１は、ユーザが作成した利活用目的５０１の要求データ項目とデータ利活用基盤サーバ１０１にて用意したデータカタログ５０２のファイルのデータ項目との照合を行う。要求データ項目は、本例では、図５（Ａ）に示すように要求するデータの種別・項目、範囲（時刻、等）である。

　ステップ７０２：
　データ利活用基盤サーバ１０１は、ステップ７０１の照合結果より、業務システムにおける生データより対象となる対象データ（データ／ファイル／システムで指定）を選出する。対象データは、本例では、レール摩耗度、通トン、遅延時分、駅到着時刻、駅出発時刻、気温、等である。

　ステップ７０３：
　データ利活用基盤サーバ１０１は、ステップ７０１、７０２の結果より対象データ選出に関してデータ準備内容項目の難易度を判定する。つまり、ユーザが要求するデータの種別・項目・範囲に対するデータ準備内容項目（図６（Ａ）の対象データ６１２）の難易度を判定する。
　難易度は、本例では、要求データ項目に該当するデータとして抽出できたデータの数が多ければ難易度は高く、少なければ難易度は低いとする。

　ステップ７０４：
　データ利活用基盤サーバ１０１は、利活用目的５０１の入力データ構造とデータカタログ５０２における該当データのファイル形式とを照合する。入力データ構造とは、本例では、図５（Ａ）に示すように関係モデルテーブル（ＣＳＶ）、ピボットテーブル、各種共通データモデル、等である。

　ステップ７０５：
　データ利活用基盤サーバ１０１は、ステップ７０４の結果、テーブル化処理が必要と判定した場合（ＹＥＳ）は、次のステップ７０６に進み、不要と判定した場合（ＮＯ）は、ステップ７０７に進む。

　ステップ７０６：
　データ利活用基盤サーバ１０１は、データ準備内容項目のテーブル化処理内容を抽出する。また、該テーブル化処理内容に該当する処理プログラムがデータ利活用基盤サーバ１０１に登録されていれば処理プログラム候補リストを作成する。処理プログラム候補とは、例えば、バイナリ変換プログラム、モデル変換プログラム、等である。

　ステップ７０７：
　データ利活用基盤サーバ１０１は、ステップ７０４～７０６の結果よりテーブル化に関してデータ準備内容項目（図６（Ａ）のテーブル化６１３）の難易度を判定する。
　本例では、テーブル化処理が必要であれば難易度は高く、必要でなければ難易度は低いとする。また、テーブル化処理に該当する処理プログラム候補がデータ利活用基盤サーバ１０１に登録されていなければ難易度は高く、登録されていれば難易度は低いとする。

　ステップ７０８：
　データ利活用基盤サーバ１０１は、利活用目的５０１の要求データ項目とデータカタログ５０２の該当データのファイル・ファイル数とを照合し、またデータ関係情報５０４があれば参照する。

　ステップ７０９：
　データ利活用基盤サーバ１０１は、ステップ７０８の結果、データ結合処理が必要と判定した場合（ＹＥＳ）は、ステップ７１０に進み、不要と判定した場合（ＮＯ）は、ステップ７１２に進む。

　ステップ７１０：
　データ利活用基盤サーバ１０１は、ステップ７０８の結果から、データ関係情報５０４のデータ結合に用いる結合キー候補（データ結合・抽出における軸指定／キロ程、時刻、等）を選出する。例えば、結合対象の複数のテーブルに共通してあるデータが結合キーとなり得る。

　ステップ７１１：
　データ利活用基盤サーバ１０１は、ステップ７０８の結果から、データ関係情報５０４を基に関連データ候補（データ結合・抽出におけるマスタ指定／線路マスタ、等）を選出する。例えば、各種コードのマスタデータ等が該当する。

　ステップ７１２：
　データ利活用基盤サーバ１０１の処理装置１１２は、ステップ７０８～７１１の結果よりデータ結合・抽出に関してデータ準備内容項目（図６（Ａ）のデータ結合・抽出６１４）の難易度を判定する。
　難易度は、本例では、データ結合・抽出処理が必要であれば高く、必要でなければ低いとする。また選出した結合キー候補の数が少なければ難易度は高く、多ければ難易度は低いとする。さらに選出した関連キー候補の数が少なければ難易度は高く、多ければ難易度は低いとする。

　ステップ７１３：
　データ利活用基盤サーバ１０１は、利活用目的５０１の入力データ構造とデータカタログ５０２の該当データのファイル形式、また、ステップ７０８～７１１の結果として導出した結合テーブル構造とを照合する。

　ステップ７１４：
　データ利活用基盤サーバ１０１は、ステップ７１３の結果、データ構造化処理が必要と判定した場合（ＹＥＳ）は、ステップ７１５に進み、不要と判定した場合（ＮＯ）は、ステップ７１６に進む。

　ステップ７１５：
　データ利活用基盤サーバ１０１は、データ構造化処理内容を抽出する。また、データ構造化処理内容に該当する処理プログラムがデータ利活用基盤サーバ１０１に登録されていれば処理プログラム候補リストを作成する。

　ステップ７１６：
　データ利活用基盤サーバ１０１は、ステップ７１３～７１５の結果よりデータ構造化に関してデータ準備内容項目（図６（Ａ）のデータ構造化６１５）の難易度を判定する。
　本例では、データ構造化処理が必要であれば難易度は高く、必要でなければ難易度は低いとする。また、データ構造化処理に該当する処理プログラム候補がデータ利活用基盤サーバ１０１に登録されていなければ難易度は高く、登録されていれば難易度は低いとする。

　ステップ７１７：
　データ利活用基盤サーバ１０１は、利活用目的５０１の要求データ項目、入力データ構造とデータカタログ５０２のデータ項目、ステップ７１３～７１５の結果として導出したデータ構造とを照合する。

　ステップ７１８：
　データ利活用基盤サーバ１０１は、ステップ７１７の結果、データ加工処理が必要と判定した場合（ＹＥＳ）は、ステップ７１９に進み、不要と判定した場合（ＮＯ）は、ステップ７２１に進む。

　ステップ７１９：
　データ利活用基盤サーバ１０１は、データ加工処理内容を抽出する。また、データ構造化処理内容に該当する処理プログラムがデータ利活用基盤サーバ１０１に登録されていれば処理プログラム候補リストを作成する。

　ステップ７２０：
　データ利活用基盤サーバ１０１は、ステップ７１７の結果から不足データ候補を選出する。
　不足データ候補とは、本例では、利活用目的５０１の要求データ項目には含まれるが、データカタログ５０２には該当するものが存在しないデータである。

　ステップ７２１：
　データ利活用基盤サーバ１０１は、ステップ７１７～７２０の結果よりデータ加工に関してデータ準備内容項目（データ加工６１６）の難易度を判定する。
　難易度は、本例では、データ加工処理が必要であれば高く、必要でなければ低いとする。また、データ加工処理に該当する処理プログラム候補がデータ利活用基盤サーバ１０１に登録されていなければ難易度は高く、登録されていれば難易度は低いとする。さらに、選出した不足データ候補の数が多ければ難易度は高く、少なければ難易度は低いとする。

　ステップ７２２：
　データ利活用基盤サーバ１０１は、ステップ７０３、７０７、７１２、７１６、７２１の判定結果より、当該データ準備内容項目（対象データ、テーブル化、データ結合・抽出、データ構造化、データ加工）の各難易度を統合判定する。

　図８は、本発明によるデータ利活用に係るデータ準備方法を適用した場合におけるデータ利活用システムにおけるデータ利活用基盤サーバ１０１にて、データ準備提案実績からデータ準備内容の各項目での類似度を判定して、類似するデータ準備内容をカテゴリ化するための処理の流れを示すフローチャートである。

　図８のフローチャートに基づく動作は以下のとおりである。
　ステップ８０１：
　データ利活用基盤サーバ１０１は、データ準備提案内容とデータ準備内容提案実績（グループ化済みのカテゴリ）との比較を行う。

　ステップ８０２：
　データ利活用基盤サーバ１０１は、ステップ８０１の結果、対象データ項目が閾値以上一致するか否かの判定を行う。
　ここで、対象データ項目が閾値以上一致する場合（ＹＥＳ）は、ステップ８０３に進み、一致しない場合（ＮＯ）は、ステップ８１２に進み、ステップ８１２において、当該カテゴリとは非類似と判定する。

　ステップ８０３：
　データ利活用基盤サーバ１０１は、テーブル化処理内容が閾値以上一致するか否かを判定する。
　ここで、テーブル化処理内容が閾値以上一致する場合（ＹＥＳ）は、ステップ８０４に進み、一致しない場合（ＮＯ）は、ステップ８１２に進み、ステップ８１２に進む。

　ステップ８０４：
　データ利活用基盤サーバ１０１は、データ結合・抽出処理内容が閾値以上一致するか否かを判定する。
　ここで、データ結合・抽出処理内容が閾値以上一致する場合（ＹＥＳ）はステップ８０５に進み、一致しない場合（ＮＯ）は、ステップ８１２に進む。

　ステップ８０５：
　データ利活用基盤サーバ１０１は、結合キー候補が閾値以上一致か否かを判定する。
　ここで、一致する場合は、ステップ８０６に進み、一致しない場合は、ステップ８１２に進む。

　ステップ８０６：
　データ利活用基盤サーバ１０１は、関連データ候補が閾値以上一致するか否かを判定する。
　ここで、一致する場合（ＹＥＳ）は、ステップ８０７に進み、一致しない場合（ＮＯ）は、ステップ８１２に進む。

　ステップ８０７：
　データ利活用基盤サーバ１０１は、データ構造化処理内容が閾値以上一致するか否かを判定する。
　ここで、一致する場合（ＹＥＳ）は、ステップ８０８に進み、一致しない場合（ＮＯ）は、ステップ８１２に進む。

　ステップ８０８：
　データ利活用基盤サーバ１０１は、データ構造化処理内容が閾値以上一致するか否かを判定する。
　ここで、一致する場合（ＹＥＳ）はステップ８０９に進み、一致しない場合（ＮＯ）は、ステップ８１２に進む。

　ステップ８０９：
　データ利活用基盤サーバ１０１は、不足データ候補が閾値以上一致するか否かを判定する。
　ここで、一致する場合（ＹＥＳ）は、ステップ８０１に戻り、一致しない場合（ＮＯ）は、ステップ８１２に進む。

　ステップ８１０：
　データ利活用基盤サーバ１０１は、ステップ８０２～８０９の各ステップにて、それぞれ一致と判定した場合は、当該カテゴリと類似と判定し、ステップ８１０に進む。

　ステップ８１１：
　データ利活用基盤サーバ１０１は、該カテゴリに加算する。すなわち、カテゴリ毎における関連利活用目的（ユーザ種別、アプリロジック、ＫＰＩ）への追加及び該カテゴリの平均難易度、総数、重要度の更新を行う。
　カテゴリの難易度は、対象データの難易度、テーブル化の難易度、データ結合・抽出の難易度、データ構造化の難易度、データ加工の難易度、があり、これらは重み付けして算出する。重要度は、難易度：大、総数：多の場合は、重要度：大とし、難易度：小、総数：小の場合は、重要度：小とする。

　ステップ８１２：
　データ利活用基盤サーバ１０１は、ステップ８０２～８０９の各ステップにてそれぞれ不一致と判定した場合は、当該カテゴリとは非類似と判定し、ステップ８０３に進む。

　ステップ８１３：
　データ利活用基盤サーバ１０１は、全カテゴリとの比較を終了しているか否かを判定し、終了していない場合（ＮＯ）は、ステップ８０１～８１２の処理を繰り返す。全カテゴリとの比較を終了した場合（ＹＥＳ）、は、当該データ準備提案内容を新規のカテゴリとして登録する。

　なお、上述した各閾値は、予め設定した所定の閾値である。

　図９は、データ準備内容のカテゴリに対して重要度を算出するための処理の流れを示すフローチャートである。

　図９のフローチャートに基づく動作は以下のとおりである。
　ステップ９０１：
　データ利活用基盤サーバ１０１は、データ準備内容カテゴリ毎に集計の元となるデータ準備内容提案の各件に対する利活用目的５０１を参照する。

　ステップ９０２：
　データ利活用基盤サーバ１０１は、利活用目的５０１にアプリロジック情報が含まれていれば、該アプリロジック情報を抽出し、リストアップする。

　ステップ９０３：
　データ利活用基盤サーバ１０１は、利活用目的５０１にＫＰＩ情報が含まれていれば、該ＫＰＩ情報を抽出し、リストアップする。

　ステップ９０４：
　データ利活用基盤サーバ１０１は、データ準備内容カテゴリ毎に集計の元となるデータ準備内容提案の各件における難易度を抽出し、合算する。

　ステップ９０５：
　データ利活用基盤サーバ１０１は、データ準備内容カテゴリ毎に集計の元となるデータ準備内容提案の全件に対して終了しているか否かを判定し、終了していなければ、ステップ９０１に戻り、ステップ９０１～９０４の処理を繰り返す。
　ステップ９０５において、データ準備内容カテゴリ毎に集計の元となるデータ準備内容提案の全件に対して終了していれば、ステップ９０６に進む。

　ステップ９０６：
　データ利用基盤サーバ１０１は、ステップ９０４の難易度の合算結果から平均難易度を算出する。

　ステップ９０７：
　データ利活用基盤サーバ１０１は、データ準備内容カテゴリ毎の集計の元となる提案件数の総数を算出する。

　ステップ９０８：
　データ利活用基盤サーバ１０１は、ステップ９０６、９０７にて算出した平均難易度、総数より重要度を算出する。

　ここで、重要度は、例えば、以下のような式で算出する。
　(重要度) ＝ｗ_１×(平均難易度)+ ｗ_２×(総数)　：ｗ_１、ｗ_２は重み
　上記式より平均難易度が大きく、総数が多いほど、重要度は大きくなる。また平均難易度が小さく、総数が少ないほど、重要度は小さくなる。

　図１０は、ユーザによるデータ準備内容項目の登録の結果、データ準備内容項目に該当する処理プログラム、データ定義等のリストを作成するための処理の流れを示すフローチャートである。

　図１０のフローチャートに基づく動作は以下のとおりである。
　ステップ１００１：
　データ利活用基盤サーバ１０１は、ユーザ作成による処理プログラム、データ定義のデータ利活用基盤サーバ１０１への登録を検出する。

　ステップ１００２：
　データ利活用基盤サーバ１０１は、ステップ１００１にて登録された処理プログラム、データ定義に該当データ準備内容カテゴリを検索する。

　ステップ１００３：
　データ利活用基盤サーバ１０１は、該当データ準備内容カテゴリの重要度を参照して、当該処理プログラム、データ定義の有用度を算出する。

　ここで、有用度は、例えば、以下のような式で算出する。
　(有用度) ＝ｗ_１×(重要度)+ ｗ_２×(提案実績数)　：ｗ_１、ｗ_２は重み

　ステップ１００４：
　データ利活用基盤サーバ１０１は、新たにデータ準備内容提案が発生するまで待機する。
　ステップ１００４において、新たにデータ準備内容提案が発生した場合（ＹＥＳ）は、ステップ１００５に進み、発生しない場合（ＮＯ）は、発生するまで継続する。

　ステップ１００５：
　データ利活用基盤サーバ１０１は、当該提案実績数から有用度を更新する。そして、ステップ１００４に戻る。

　図１１は、本発明の適用先であるユーザ端末１０３～１０５を用いるユーザに対して提供する情報の内容を示す画面のイメージ例を示す図である。

　画面１１０１は、例えば、ユーザが登録する利活用目的５０１に対して提案するデータ準備内容における対象データ１１１１及び表形式１１１２を示す。

　表形式１１１２にて、例えば、ユーザの利活用目的５０１に対して提案するデータ準備内容における、分類（テーブル化、データ結合・抽出、データ構造化、データ加工）、作業項目（要否、作業内容案）、処理プログラム（バイナリ変換処理プログラム１、モデル変換プログラム２）、難易度（数値）を一覧表示する。なお、該当する情報が無い場合は空白箇所を含めて表示する。

　画面１１０２は、例えば、表形式１１２１にて、データ準備内容提案の実績集計結果によるデータ準備内容カテゴリとして、データ準備内容（対象データ、テーブル化、データ結合・抽出、データ構造化、データ加工）、関連する利活用目的（ユーザ種別、アプリロジック、ＫＰＩ）、平均難易度（数値）、総数（数値）、重要度（数値）を一覧表示する。なお、該当する情報が無い場合は空白箇所を含めて表示する。

　画面１１０３は、例えば、表形式１１３１にて、有用なデータ準備内容項目リストとして、分類、処理プログラム、データ定義、関連データ準備内容、有用度を一覧表示する。なお、該当する情報が無い場合は空白箇所を含めて表示する。

　以上述べた実施例によれば、部署・業務を跨いでの横断的なデータ利活用の促進、データ利活用・分析サービスに係る開発コストの低減が図れる。また、例えば、交通分野における様々な問題解決のために、部署・業務を跨いで横断的にデータを活用しての分析が求められる場合、多種多様の業務データの理解が十分でない者、つまり、対象業務システムに関する知識が十分に無い者でも、迅速、かつ、容易にデータ利活用することが可能となり、また、様々な目的・用途によるデータ利活用を行うためのデータ準備（データ抽出、テーブル・リスト構築、加工、等）に係る負担を軽減することが可能である。

１０１　データ利活用基盤サーバ、１０２　管理者端末、１０３～１０５　ユーザ端末、１０６～１０８　業務システム、１０９，１０９’　ネットワーク、１１１、１２１、１３１　記憶装置、１１２、１２２、１３２　処理装置、１１３、１２３、１３３　通信装置、４０１　データ利活用ミドルウェア、４２１　データ準備処理実行管理部、４２２　利活用処理実行管理部、４３１　データ管理部、４３２　処理プログラム管理部、４３３　ユーザ・業務管理部、４３４　データ準備内容提案部、４３５　データ準備内容提案集計部、４３６　データ準備内容登録集計部

Claims

　複数の業務システムから収集したデータを蓄積・管理し、該データの利活用のために、データ準備及びデータ利活用に係る機能を提供するデータ利活用システムにおけるデータ利活用に係るデータ準備方法において、
　ユーザが指定する利活用目的と前記データ利活用システムにて用意するデータ情報を照合し、前記データより前記利活用目的のために実施すべき対象データのデータ準備内容項目を選出し、当該データ準備内容項目の難易度を算出し、前記ユーザに提示する第１ステップと、
　前記利活用目的に対するデータ準備内容項目を集計し、類似するデータ準備内容をカテゴリ化し、該カテゴリ化したデータ準備内容の重要度を算出し、前記ユーザ及び前記データ利活用システムの管理者に提示する第２ステップと、
　前記類似するデータ準備内容のカテゴリに対して、前記データ準備内容項目に該当する処理プログラム、データ関係定義を含むリストを作成し、前記データ準備内容項目の有用度を算出し、前記ユーザに提示する第３ステップ、と、
　を有することを特徴とするデータ利活用に係るデータ準備方法。
　請求項１に記載されたデータ利活用に係るデータ準備方法おいて、
　前記複数の業務システムからの生データを用いて前記利活用目的を実施するためのデータ準備として、前記業務システムからの前記生データに対して、テーブル化、データ結合・抽出、データ構造化、データ加工の処理を順に実施する
　ことを特徴とするデータ利活用に係るデータ準備方法。
　請求項１に記載されたデータ利活用に係るデータ準備方法おいて、
　前記ユーザが指定する利活用目的は、要求データ項目、入力データ構造、アプリロジック、ＫＰＩを含み、
　前記データ利活用システムにて用意するデータ情報は、前記業務システムからのデータに関するデータカタログ、データ関係情報、処理プログラムリストを含み、
　前記第１ステップは、
　前記利活用目的と前記データカタログを含むデータ情報とを照合する照合ステップ、
　前記データ準備内容項目を算出するに際して、
　前記業務システムのデータより対象データを選出する対象データ選出ステップ、
　前記対象データ選出ステップにて抽出した対象データのテーブル化処理の要否を判定するテーブル化処理要否判定ステップ、
　前記テーブル化処理要否判定ステップにてテーブル化処理を要と判定した場合、前記対象データのテーブル化処理内容を抽出するテーブル化処理内容ステップ、
　データ結合・抽出処理の要否を判定するデータ結合処理判定ステップ、
　前記データ結合処理判定ステップにてデータ結合処理を要と判定した場合、前記テーブル化処理内容に結合する結合キー候補を選出するステップ、
　前記データ関係情報を基に関連データ候補を選出する関連データ候補選出ステップ、
　データ構造化処理の要否を判定するデータ構造化処理要否ステップ、
　前記データ構造化処理の内容を抽出するデータ構造化処理内容抽出ステップ、
　データ加工処理の要否を判定するデータ加工処理要否判定ステップ、
　前記データ構造化処理要否ステップにてデータ加工処理を要と判定した場合、前記データ加工処理の内容を抽出するデータ加工処理内容抽出ステップ、
　不足データ候補を選出する不足データ候補選出ステップ、を含む
　ことを特徴とするデータ利活用に係るデータ準備方法。
　請求項１または請求項３に記載されたデータ利活用に係るデータ準備方法おいて、
　ユーザが指定する前記利活用目的と前記データ利活用システムにて用意するデータ情報とを照合して前記データ準備内容項目を算出する際に、算出された準備内容項目毎に項目の実施のし易さとしての難易度を算出するステップ、
　前記データ準備内容項目の各項目の難易度を統合して、前記データ準備内容の難易度を算出するステップを含む、
　ことを特徴とするデータ利活用に係るデータ準備方法。
　請求項１に記載されたデータ利活用に係るデータ準備方法おいて、
　前記第１ステップにて、
　前記利活用目的に対するデータ準備内容の各項目提案内容とデータ準備内容提案実績から作成済みのカテゴリとを比較して、対象データ項目が閾値以上一致するか否か、テーブル化処理内容が閾値以上一致するか否か、データ結合・抽出処理内容が閾値以上一致するか否か、結合キー候補が閾値以上一致するか否か、関連データ候補が閾値以上一致するか否か、データ構造化処理内容が閾値以上一致するか否か、データ加工処理内容が閾値以上一致するか否か、不正データ候補が閾値以上一致するか否か、を順に判定し、
　当該データ準備内容が既存データ準備カテゴリに含まれるか、新規カテゴリとするかを判定する
　ことを特徴とするデータ利活用に係るデータ準備方法。
　請求項１または請求項５に記載されたデータ利活用に係るデータ準備方法おいて、
　データ準備内容カテゴリの重要度を算出するために、データ準備内容カテゴリの項目毎に集計の元となるデータ準備内容提案の各件から難易度を抽出し、
　前記難易度を合算して平均難易度を算出し、
　前記データ準備内容カテゴリの項目毎の集計の元となる提案件数の総数を算出し、
　前記平均難易度と総数から当該データ準備内容カテゴリの重要度を算出する
　ことを特徴とするデータ利活用に係るデータ準備方法。
　請求項１に記載されたデータ利活用に係るデータ準備方法おいて、
　前記データ準備内容のデータ準備内容カテゴリに対して、有用なデータ準備内容項目のリスト作成し、各項目の有用度を算出し提示するステップにて、ユーザが登録する処理プログラム、データ定義等のデータ準備内容項目に該当するデータ準備内容カテゴリを選出し、
　該データ準備内容カテゴリの重要度と提案実績数から当該データ準備内容項目の有用度を算出する
　ことを特徴とするデータ利活用に係るデータ準備方法。
　請求項１、請求項３、請求項５、請求項７の何れか１つに記載されたデータ利活用に係るデータ準備方法おいて、
　ユーザによる利活用目的の登録に対する、データ準備内容として対象データ、作業項目等に関する情報、またデータ準備内容提案の集計結果によるデータ準備内容カテゴリに関する情報、さらにデータ準備内容項目リストに関する情報を、ユーザに提示するために出力するステップ、
　を有することを特徴とする、データ利活用に係るデータ準備方法。
　複数の業務システムからより収集したデータを蓄積・管理し、当該データの利活用を可能とするデータ準備及びデータ準備のデータ準備項目内容をユーザに提供するデータ利活用システムにおけるデータ準備方法において、
　データ準備処理を実行するステップと、利活用処理を実行するステップ、を有し、
　前記データ準備処理を実行するステップは、
　ユーザが指定する利活用目的と前記データ利活用システムにて用意するデータ情報を照合し、前記データより前記利活用目的のために実施すべき対象データのデータ準備内容項目を求め、当該データ準備内容項目の難易度を算出し、
　前記利活用処理を実行するステップは、
　前記データ準備のデータ準備内容項目を集計し、類似するデータ準備内容をカテゴリ化し、当該カテゴリ化したデータ準備内容カテゴリの重要度を算出し、
　前記データ準備内容及び前記重要度の前記ユーザへの提案を可能とする
　ことを特徴とするデータ利活用システムにおけるデータ準備方法。
　請求項９に記載されたデータ利活用システムにおけるデータ準備方法において、
　前記利活用目的は、要求データ項目、入力データ構造、を含み、
　前記データ情報は、データカタログを含み、当該データカタログは、データ項目、時刻、ファイル形式を含み、
　前記データ準備内容項目は、テーブル化、データ結合・抽出、データ構造化、データ加工、であり、
　前記重要度は、前記データ準備内容の平均難易度や総数を基に算出する、
　ことを特徴とするデータ利活用システムにおけるデータ準備方法。
　請求項９に記載されたデータ利活用システムにおけるデータ準備方法おいて、
　前記データ準備処理を実行するステップは、さらに、
　前記データ準備内容のカテゴリ毎に対して、関連する利活用目的をリストアップし、前記データ準備内容項目の各項目の有用度を算出し、
　前記データ準備内容を提案するステップは、さらに、
　前記有用度を前記ユーザに提示する
　ことを特徴とするデータ利活用システムにおけるデータ準備方法。
　請求項１１に記載されたデータ利活用システムにおけるデータ準備方法において、
　前記関連する利活用目的をリストアップは、関連データ候補として、前記データ準備内容に該当する処理プログラム、データ関係情報のリストを作成することである、
　ことを特徴とするデータ利活用システムにおけるデータ準備方法。
　複数の業務システムからより収集したデータを蓄積・管理し、当該データの利活用を可能とするデータ準備及びデータ準備したデータ準備のデータ準備項目内容をユーザに提供するデータ利活用システムにおいて、
　前記データ準備の処理を実行するデータ準備処理実行部、前記データ準備の利活用処理を実行する利活用処理実行部、前記データ準備の内容を提案するデータ準備内容提案部、を有し、
　前記データ準備処理実行部は、
　前記ユーザが指定する利活用目的と前記データ利活用システムにて用意するデータ情報を照合する処理部、
　前記データより前記利活用目的のために実施すべき対象データのデータ準備内容項目を求め、かつ、当該データ準備内容項目の難易度を算出する処理部、を含み、
　前記利活用処理実行部は、
　前記データ準備のデータ準備内容項目を集計する処理部、
　類似する前記データ準備内容をカテゴリ化する処理部、
　カテゴリ化した前記データ準備内容項目のデータ準備内容の重要度を算出する処理部、を含み、
　前記データ準備内容提案部は、
　前記データ準備内容及び前記重要度を前記ユーザに提案する処理部、を含む、
　ことを特徴とするデータ利活用システム。
　請求項１３に記載されたデータ利活用システムにおいて、
　前記利活用目的は、要求データ項目、入力データ構造、を含み、
　前記データ情報は、データカタログを含み、当該データカタログは、データ項目、時刻、ファイル形式を含み、
　前記データ準備内容項目は、テーブル化、データ結合・抽出、データ構造化、データ加工、であり、
　前記重要度は、前記データ準備内容の平均難易度や総数を基に算出する、
　ことを特徴とするデータ利活用システム。
　請求項１３に記載されたデータ利活用システムにおいて、
　前記データ準備処理実行部は、さらに、
　前記データ準備内容のカテゴリ毎に対して、関連する利活用目的をリストアップする処理部、前記データ準備内容項目の各項目の有用度を算出する処理部、を有し、
　前記データ準備内容提案部は、さらに、
　前記有用度を前記ユーザに提示する処理部、を有する
　ことを特徴とするデータ利活用システム。