WO2019123732A1 - Analysis support method, analysis support server, and storage medium - Google Patents

Analysis support method, analysis support server, and storage medium Download PDF

Info

Publication number
WO2019123732A1
WO2019123732A1 PCT/JP2018/033417 JP2018033417W WO2019123732A1 WO 2019123732 A1 WO2019123732 A1 WO 2019123732A1 JP 2018033417 W JP2018033417 W JP 2018033417W WO 2019123732 A1 WO2019123732 A1 WO 2019123732A1
Authority
WO
WIPO (PCT)
Prior art keywords
analysis
data
column
catalog
difficulty
Prior art date
Application number
PCT/JP2018/033417
Other languages
French (fr)
Japanese (ja)
Inventor
俊彦 樫山
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to KR1020207003031A priority Critical patent/KR102309094B1/en
Publication of WO2019123732A1 publication Critical patent/WO2019123732A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis

Abstract

This analysis support method, in which a computer having a processor and a memory evaluates data to be analyzed, includes: a first step in which the computer reads a first data catalog that stores the definition of a column of the data to be analyzed and a second data catalog that defines a column of input data of an analysis software that executes an analysis process; a second step in which the computer calculates, as mapping accuracy, the similarity between a column of the first data catalog and a column of the second data catalog; and a third step in which the computer calculates the difficulty in analyzing the data to be analyzed with the analysis software on the basis of the mapping accuracy of the column of the second data catalog used in the analysis software.

Description

分析支援方法、分析支援サーバ及び記憶媒体Analysis support method, analysis support server and storage medium 参照による取り込みCapture by reference
 本出願は、平成29年(2017年)12月18日に出願された日本出願である特願2017-241859の優先権を主張し、その内容を参照することにより、本出願に取り込む。 This application claims priority to Japanese Patent Application No. 2017-241859, which is a Japanese application filed on Dec. 18, 2017 (2017), and is incorporated into the present application by referring to the contents thereof.
 本発明は、データを分析するソフトウェアを提案する技術に関する。 The present invention relates to a technique for proposing software for analyzing data.
 データを分析する工数を低減するために、過去のデータ分析で使用したアプリケーションやクエリなどのソフトウェアを再利用することが望まれている。過去のデータ分析で使用したソフトウェアを利用するためにスキーママッチングを適用する技術が知られている(例えば、非特許文献1)。非特許文献1では、過去に分析を実行したスキーマと、新たに分析するデータのスキーマの構成要素間の類似度を算出する技術が開示される。 In order to reduce the time required to analyze data, it is desirable to reuse software such as applications and queries used in past data analysis. There is known a technique of applying schema matching to use software used in past data analysis (for example, Non-Patent Document 1). Non-Patent Document 1 discloses a technique for calculating the degree of similarity between schemas for which analysis has been performed in the past and components of schemas of data to be newly analyzed.
 また、特許文献1では、過去のデータ分析で使用したソフトウェアを利用するのに必要なデータの要素を特定する技術が開示されている。 Further, Patent Document 1 discloses a technique for identifying elements of data necessary to use software used in past data analysis.
 また、計算機がユーザにソフトウェアを推奨する技術としては、例えば、特許文献2が知られている。特許文献2では、アプリケーションによる消費電力に応じてサーバがアプリケーションの推奨を行う技術が開示されている。 Moreover, as a technique for a computer to recommend software to a user, for example, Patent Document 2 is known. Patent Document 2 discloses a technology in which a server recommends an application according to the power consumption by the application.
米国特許第9110967明細書U.S. Patent No. 9110967 特開2012-63917号公報JP 2012-63917 A
 上記従来例では、データのスキーマの類似性や、データの構成要素間の関連性について特定することはできる。しかしながら、上記従来例では、新たな分析対象のデータについて、スキーマの類似性や構成要素間の関連性からどのソフトウェアを使用するのかについては、分析を行う担当者が過去の実績などから判断する必要が生じる。すなわち、従来例では、どのソフトウェアを使用するかについて分析の担当者が試行錯誤を行う場合が生じ、分析の工数を削減することはできなかった。 In the above-described conventional example, it is possible to specify the similarity of data schemas and the relationship between data components. However, in the above-mentioned conventional example, it is necessary for the person in charge of analysis to judge from the past results etc. about the software to be used from the similarity of schemas and the relationship between components for the new data to be analyzed Will occur. That is, in the conventional example, there is a case where a person in charge of analysis performs trial and error regarding which software to use, and the number of analysis steps can not be reduced.
 また、上記従来例では、新たな分析対象のデータのテーブルの数が多い場合、どのテーブルから分析を開始すれば良いかを提示することはできなかった。すなわち、上記従来例では、データのクレンジングなどの分析の前処理に工数(または労力)を要するデータと、そうでないデータの判別を行うことができず、少ない工数で分析を実施することができないという問題があった。 Further, in the above-described conventional example, when there are a large number of new analysis target data tables, it has not been possible to indicate from which table the analysis should be started. That is, in the above-described conventional example, it is not possible to distinguish between data requiring man-hours (or labor) for analysis preprocessing such as data cleansing and data not so, and analysis can not be performed with a small number of man-hours. There was a problem.
 そこで本発明は、上記問題点に鑑みてなされたもので、データの分析に要する工数を低減することを目的とする。 Then, this invention is made in view of the said problem, and it aims at reducing the man-hour which an analysis of data requires.
 本発明は、プロセッサとメモリを有する計算機が、分析対象データの評価を行う分析支援方法であって、前記計算機が、前記分析対象データのカラムの定義を格納した第1のデータカタログと、分析処理を実行する分析ソフトウェアの入力データのカラムを定義した第2のデータカタログを読み込む第1のステップと、前記計算機が、前記第1のデータカタログのカラムと前記第2のデータカタログのカラムの類似度をマッピング確度として算出する第2のステップと、前記計算機が、前記分析ソフトウェアで使用する前記第2のデータカタログのカラムのマッピング確度に基づいて当該分析ソフトウェアで前記分析対象データを分析する難易度を算出する第3のステップと、を含む。 The present invention is an analysis support method in which a computer having a processor and a memory evaluates data to be analyzed, wherein the computer stores a definition of a column of the data to be analyzed, and an analysis process. A second step of reading a second data catalog in which a column of input data of analysis software to execute is defined; and the similarity between the columns of the first data catalog and the columns of the second data catalog; A second step of calculating the mapping accuracy as the mapping accuracy, and the computer analyzes the analysis target data with the analysis software based on the mapping accuracy of the columns of the second data catalog used in the analysis software And a third step of calculating.
 したがって、本発明によれば、分析対象データを入力データ(共通データモデル)に変換する際の難易度に基づいて、分析対象データに適用する分析ソフトウェアを提案することが可能となって、分析の工数や分析にかかる労力を低減できる。 Therefore, according to the present invention, it is possible to propose analysis software to be applied to analysis target data based on the degree of difficulty in converting the analysis target data into input data (common data model), and Man-hours and labor for analysis can be reduced.
本発明の実施例1を示し、データ分析支援システムの一例を示すブロック図である。FIG. 1 is a block diagram illustrating an example of a data analysis support system according to a first embodiment of the present invention. 本発明の実施例1を示し、分析支援サーバの一例を示すブロック図である。It is a block diagram which shows Example 1 of this invention, and shows an example of an analysis assistance server. 本発明の実施例1を示し、分析支援プログラムの機能要素の一例を示すブロック図である。It is a block diagram which shows Example 1 of this invention, and shows an example of the functional element of an analysis assistance program. 本発明の実施例1を示し、分析カタログの一例を示す図である。It is a figure which shows Example 1 of this invention, and shows an example of an analysis catalog. 本発明の実施例1を示し、データソースカタログの一例を示す図である。FIG. 7 shows the first embodiment of the present invention, and shows an example of a data source catalog. 本発明の実施例1を示し、共通データモデルカタログの一例を示す図である。FIG. 7 shows the first embodiment of the present invention, and shows an example of a common data model catalog. 本発明の実施例1を示し、必要カラム管理テーブルの一例を示す図である。It is a figure which shows Example 1 of this invention, and shows an example of a required column management table. 本発明の実施例1を示し、カラムマッピング確度管理テーブルの一例を示す図である。FIG. 7 shows the first embodiment of the present invention, and shows an example of a column mapping probability management table. 本発明の実施例1を示し、分析難易度管理テーブルの一例を示す図である。It is a figure which shows Example 1 of this invention, and shows an example of an analysis difficulty level management table. 本発明の実施例1を示し、分析支援プログラムで行われる処理の一例を示すフローチャートである。It is a flowchart which shows Example 1 of this invention, and shows an example of the process performed with an analysis assistance program. 本発明の実施例1を示し、分析推薦結果確認画面の一例を示す図である。It is a figure which shows Example 1 of this invention, and shows an example of an analysis recommendation result confirmation screen. 本発明の実施例2を示し、データ分析支援システムの一例を示すブロック図である。It is a block diagram which shows Example 2 of this invention, and shows an example of a data analysis assistance system. 本発明の実施例2を示し、ETL処理部の生産計画期間変換で行われる処理の一例を示す図である。FIG. 14 shows the second embodiment of the present invention and is a diagram showing an example of processing performed in the production planning period conversion of the ETL processing unit. 本発明の実施例2を示し、分析支援プログラムの機能要素の一例を示すブロック図である。It is a block diagram which shows Example 2 of this invention, and shows an example of the functional element of an analysis assistance program. 本発明の実施例2を示し、分析カタログの一例を示す図である。It is a figure which shows Example 2 of this invention, and shows an example of an analysis catalog. 本発明の実施例2を示し、ETLカタログの一例を示す図である。FIG. 7 shows Example 2 of the present invention, and shows an example of an ETL catalog. 本発明の実施例2を示し、ETLカラムマッピング確度管理テーブルの一例を示す図である。FIG. 7 shows the second embodiment of the present invention, and shows an example of an ETL column mapping accuracy management table. 本発明の実施例2を示し、データ品質管理テーブルの一例を示す図である。It is a figure which shows Example 2 of this invention, and shows an example of a data quality management table. 本発明の実施例2を示し、分析難易度管理テーブルの一例を示す図である。It is a figure which shows Example 2 of this invention, and shows an example of an analysis difficulty level management table. 本発明の実施例2を示し、分析支援プログラムで行われる処理の一例を示すフローチャートである。It is a flowchart which shows Example 2 of this invention, and shows an example of the process performed by an analysis assistance program. 本発明の実施例2を示し、難易度の算出処理の一例を示すフローチャートである。It is a flowchart which shows Example 2 of this invention, and shows an example of a calculation process of a difficulty level. 本発明の実施例2を示し、分析難易度の根拠の一例を示す図である。It is a figure which shows Example 2 of this invention, and shows an example of the ground of analysis difficulty. 本発明の実施例2を示し、標準作業時間の補正処理の一例を示すフローチャートである。It is a flowchart which shows Example 2 of this invention, and shows an example of the correction | amendment process of standard working time. 本発明の実施例2を示し、推薦処理の一例を示すフローチャートである。It is a flowchart which shows Example 2 of this invention and shows an example of a recommendation process. 本発明の実施例2を示し、結果確認画面処理の一例を示すフローチャートである。It is a flowchart which shows Example 2 of this invention, and shows an example of a result confirmation screen process. 本発明の実施例2を示し、結果確認画面の一例を示す図である。It is a figure which shows Example 2 of this invention, and shows an example of a result confirmation screen. 本発明の実施例3を示し、データ分析支援システムの一例を示すブロック図である。It is a block diagram which shows Example 3 of this invention, and shows an example of a data analysis assistance system. 本発明の実施例3を示し、分析支援プログラムの機能要素の一例を示すブロック図である。It is a block diagram which shows Example 3 of this invention, and shows an example of the functional element of an analysis assistance program. 本発明の実施例3を示し、イベントログ形式の設備アラートデータの一例を示す図である。It is a figure which shows Example 3 of this invention, and shows an example of the installation alert data of an event log format. 本発明の実施例3を示し、アラートコードマスタの一例を示す図である。It is a figure which shows Example 3 of this invention, and shows an example of an alert code master. 本発明の実施例3を示し、テーブル形式の設備アラートの一例を示す図である。It is a figure which shows Example 3 of this invention, and shows an example of the equipment alert of a table format. 本発明の実施例3を示し、過去実績確認画面の一例を示す図である。It is a figure which shows Example 3 of this invention, and shows an example of the past performance confirmation screen. 本発明の実施例3を示し、他候補提示画面の一例を示す図である。It is a figure which shows Example 3 of this invention, and shows an example of another candidate presentation screen. 本発明の実施例3を示し、カラムマッピング確度算出部の処理の一例を示すフローチャートである。It is a flowchart which shows Example 3 of this invention, and shows an example of a process of a column mapping precision calculation part. 本発明の実施例3を示し、結果確認画面で行われる処理の一例を示すフローチャートである。It is a flowchart which shows Example 3 of this invention, and shows an example of the process performed by a result confirmation screen.
 以下、本発明の実施形態を添付図面に基づいて説明する。 Hereinafter, embodiments of the present invention will be described based on the attached drawings.
 図1は、本発明の実施例1を示し、データ分析支援システムの一例を示すブロック図である。データ分析支援システムは、生産設備からデータを収集する工場Aのデータ収集サーバ410と、生産設備からデータを収集する工場Bのデータ収集サーバ430と、工場A、工場Bのデータ収集サーバ410、430のデータをデータソースとし、分析に関するデータを蓄積するデータレイクサーバ2と、データレイクサーバ2の共通データモデルカタログ33に従って変換された入力データ(変換済みデータ)を分析する分析サーバ群300と、データソースの分析に適した分析サーバ群300の分析ソフトウェア(アプリケーションまたはクエリ)の提案を行う分析支援サーバ1を含む。 FIG. 1 shows a first embodiment of the present invention and is a block diagram showing an example of a data analysis support system. The data analysis support system includes a data collection server 410 of factory A that collects data from production facilities, a data collection server 430 of factory B that collects data from production facilities, and data collection servers 410 and 430 of factories A and B. Data as a data source, a data lake server 2 for storing data concerning analysis, an analysis server group 300 for analyzing input data (converted data) converted according to the common data model catalog 33 of the data lake server 2, and data It includes an analysis support server 1 which makes a proposal for analysis software (application or query) of the analysis server group 300 suitable for source analysis.
 データレイクサーバ2は、ネットワーク51を介して分析支援サーバ1と接続され、また、ネットワーク52を介して分析サーバ群300と接続され、また、ネットワーク53を介してデータ収集サーバ410、430と接続される。 The data lake server 2 is connected to the analysis support server 1 via the network 51, connected to the analysis server group 300 via the network 52, and connected to the data collection servers 410 and 430 via the network 53. Ru.
 工場Aのデータ収集サーバ410は、部品表421と、製造実績422と、設備アラート423と、工程及び設備マスタ424と、生産計画425と、在庫実績426のデータを格納する。工場Bのデータ収集サーバ430は、部品表441と、製造実績442と、生産計画443と、設備アラート444のデータを格納する。 The data collection server 410 of the factory A stores data of the parts list 421, the manufacturing results 422, the equipment alert 423, the process and equipment master 424, the production plan 425, and the inventory results 426. The data collection server 430 of the plant B stores data of the parts list 441, the production results 442, the production plan 443, and the equipment alert 444.
 部品表421、441は、製品を構成する部品のリストを含む。製造実績422、442は製品の製造実績に関する情報を格納する。生産計画425、443は、部品及び製品の生産スケジュールなどを格納する。設備アラート423、444は、生産設備からの警報やエラー等を格納する。工程及び設備マスタ424は、生産工程の情報や製造設備の情報を格納する。在庫実績426は、生産された製品の在庫状況が格納される。 The parts list 421, 441 includes a list of parts that constitute the product. The manufacturing results 422 and 442 store information on the product manufacturing results. The production plans 425 and 443 store parts and product production schedules and the like. The facility alert 423, 444 stores an alarm or an error from a production facility. The process and equipment master 424 stores information on production processes and information on manufacturing facilities. The inventory result 426 stores the inventory status of the manufactured product.
 データレイクサーバ2のストレージ20には、過去のデータ分析で利用した分析ソフトウェア(アプリケーションやクエリ)を収集した分析カタログ31と、分析対象データのカラムを設定したデータソースカタログ32と、共通化されたデータモデル(共通データモデル60)を定義した共通データモデルカタログ33が格納される。なお、分析カタログ31と、データソースカタログ32と、共通データモデルカタログ33は予め設定されたデータである。 The storage 20 of the data lake server 2 is shared with an analysis catalog 31 which collects analysis software (applications and queries) used in past data analysis, and a data source catalog 32 which sets columns of data to be analyzed. A common data model catalog 33 defining the data model (common data model 60) is stored. The analysis catalog 31, the data source catalog 32, and the common data model catalog 33 are data set in advance.
 また、データレイクサーバ2のストレージ20には、共通データモデル60として、工場Aの製品を構成する部品の情報を定義した部品表61と、工場Aの製品の生産計画62と、工場Aの製品の製造実績63と、工場Aの生産設備からの設備アラート64が格納される。 In addition, in the storage 20 of the data lake server 2, as a common data model 60, a parts list 61 defining information of parts constituting a product of plant A, a production plan 62 of a product of plant A, and a product of plant A And the facility alert 64 from the production facility of factory A are stored.
 部品表61は、工場Aの部品表421の定義が設定された共通データモデルである。生産計画62は、工場Aの生産計画425の定義が予め設定された共通データモデルである。製造実績63は、工場Aの製造実績422の定義が予め設定された共通データモデルである。設備アラート64は、工場Aの設備アラート423の定義が予め設定された共通データモデルである。 The parts list 61 is a common data model in which the definition of the parts list 421 of the factory A is set. The production plan 62 is a common data model in which the definition of the production plan 425 of the factory A is preset. The manufacturing record 63 is a common data model in which the definition of the manufacturing record 422 of the factory A is preset. The facility alert 64 is a common data model in which the definition of the facility alert 423 of the factory A is preset.
 これらの共通データモデル60は、生産計画や、製造設備や、設備のアラート等の管理業務で一般的なエンティティのデータベースを提供する定義を含む。分析支援サーバ1は、データソースとなるデータ収集サーバ410、430のテーブルを読み込んで、共通データモデルカタログ33に従ってカラムを変換してから分析サーバ群300で分析処理を実行させる。なお、データソースとなるテーブルを共通データモデル60の定義に従ったテーブルに変換する処理は、分析サーバ群300で行うようにしても良い。 These common data models 60 include definitions that provide a database of general entities in management operations such as production planning, manufacturing equipment, and equipment alerts. The analysis support server 1 reads the tables of the data collection servers 410 and 430 serving as data sources, converts the columns according to the common data model catalog 33, and then causes the analysis server group 300 to execute analysis processing. The process of converting a table serving as a data source into a table according to the definition of the common data model 60 may be performed by the analysis server group 300.
 本実施例1では、工場Aのデータ収集サーバ410をデータソースとしてデータ分析を行ったときに利用した分析ソフトウェア(分析処理)及び共通データモデル60を、工場Bのデータ収集サーバ430が収集したデータに適用する例を示す。 In the first embodiment, data collected by the data collection server 430 of the plant B is the analysis software (analysis process) and the common data model 60 used when data analysis is performed using the data collection server 410 of the plant A as a data source. An example applied to
 分析サーバ群300は、変換済みデータ(入力データ)を分析クエリによって分析を実施する分析クエリ発行サーバ301と、設備アラート64の定義に従って変換された変換済みデータを分析して生産設備の不良要因を抽出する不良要因分析サーバ302と、生産計画62と部品表61等の定義に従って変換された変換済みデータから生産に関するシミュレーションを実行する生産シミュレータサーバ303と、各工場間で生産設備を融通させるアセットシェアリングサーバ304を含む。 The analysis server group 300 analyzes the converted data (input data) by an analysis query, and the analysis query issuing server 301 analyzes the converted data converted according to the definition of the equipment alert 64 to analyze the converted data according to the definition of the equipment alert 64 Defect share analysis server 302 to extract, production simulator server 303 to execute simulation about production from converted data converted according to the definition of production plan 62 and parts list 61, etc., and asset share to allow production facilities to be interchanged between each plant The ring server 304 is included.
 すなわち、分析クエリ発行サーバ301は、入力データを格納したデータベースに分析クエリを発行して、分析を実施する。また、不良要因分析サーバ302では分析アプリケーションによって分析を実施する。生産シミュレータサーバ303では、シミュレーションソフトウェア(アプリケーション)によって生産のシミュレーションを実施する。 That is, the analysis query issuance server 301 issues an analysis query to the database storing the input data to carry out the analysis. Further, the defect factor analysis server 302 carries out analysis by an analysis application. The production simulator server 303 carries out production simulation by simulation software (application).
 なお、分析サーバ群300は、これらのサーバに限定されるものではなく、データレイクサーバ2やデータ収集サーバ410、430のデータを利用して、分析やシミュレーションや評価を実施する計算機であればよい。また、分析ソフトウェアについても、上述のアプリケーションやクエリに限定されるものではなく、分析に応じたアプリケーションやクエリを採用すれば良い。 The analysis server group 300 is not limited to these servers, and may be a computer that performs analysis, simulation, and evaluation using data of the data lake server 2 and the data collection servers 410 and 430. . Further, the analysis software is not limited to the above applications and queries, and applications and queries corresponding to the analysis may be adopted.
 また、ストレージ20には上記のデータに加えて、図3で示すように、必要カラム管理テーブル34と、カラムマッピング確度管理テーブル35と、分析難易度管理テーブル36と、推薦結果ファイル37を格納する。 In addition to the above data, the storage 20 stores the required column management table 34, the column mapping accuracy management table 35, the analysis difficulty management table 36, and the recommendation result file 37 as shown in FIG. .
 なお、変換済みデータは、工場A、Bのデータ収集サーバ410、430のテーブルデータのカラムを、共通データモデルカタログ33に従って共通データモデル60の定義に変換したデータであり、データレイクサーバ2のストレージ20に格納されても良いし、分析サーバ群300に格納されても良い。 The converted data is data obtained by converting the table data columns of the data collection servers 410 and 430 of the factories A and B into the definition of the common data model 60 according to the common data model catalog 33, and the storage of the data lake server 2 20, and may be stored in the analysis server group 300.
 分析支援サーバ1は、新たな分析対象データを含むデータソースカタログ32を受け付けて、当該分析対象データをデータレイクサーバ2の共通データモデル60に対応する変換済みデータへ変換する際の難易度を算出し、当該難易度に基づいて分析対象データの評価を行う分析支援プログラム10が稼働する。本実施例1では、分析支援プログラム10が実施する評価の一例として、分析対象データを分析する際に最適な分析ソフトウェアや分析の順序を提案する例を示す。また、分析支援サーバ1は、分析支援プログラム10が利用するカタログデータ40と、管理テーブル50を有する。 The analysis support server 1 receives the data source catalog 32 including new analysis target data, and calculates the degree of difficulty in converting the analysis target data into converted data corresponding to the common data model 60 of the data lake server 2 Then, the analysis support program 10 that evaluates the data to be analyzed based on the difficulty level is operated. In the first embodiment, as an example of the evaluation performed by the analysis support program 10, an example is proposed in which an analysis software and an analysis order that are optimal when analyzing data to be analyzed are proposed. Further, the analysis support server 1 has catalog data 40 used by the analysis support program 10 and a management table 50.
 なお、本実施例1における難易度は、後述するように、分析対象データのカラムを、共通データモデル60に対応するカラムに割り当てるマッピングの作業量を示す指標である。分析サーバ群300の分析ソフトウェアは、共通データモデル60のカラムのマッピングに対応する変換済みデータを入力データとして分析処理を実行することができる。このため、データソースのカラムを共通データモデル60のカラムに割り当てる作業が、分析処理の前処理となる。 The degree of difficulty in the first embodiment is an index indicating the amount of work of mapping that assigns a column of data to be analyzed to a column corresponding to the common data model 60, as described later. The analysis software of the analysis server group 300 can execute the analysis process with the converted data corresponding to the mapping of the columns of the common data model 60 as input data. For this reason, the operation of assigning the columns of the data source to the columns of the common data model 60 is the preprocessing of the analysis processing.
 本実施例1では、上記前処理に要する作業量を分析の難易度として分析支援サーバ1が算出することで、過去の分析で使用した分析ソフトウェアを利用する際の作業量の大小を判定できる。これにより、分析支援サーバ1は、膨大なデータに対する分析をどのような分析処理から始めれば良いか、あるいは、どのような分析処理が可能であるかを、過去の分析で使用した分析ソフトウェアから提案することができる。 In the first embodiment, the analysis support server 1 calculates the amount of work required for the pre-processing as the degree of difficulty of analysis, so that it is possible to determine the magnitude of the amount of work when using analysis software used in past analysis. In this way, the analysis support server 1 proposes from what analysis processing used in the past analysis what analysis processing should be started from what kind of analysis processing should be made for analysis of huge data, or what kind of analysis processing is possible. can do.
 図2は、分析支援サーバ1の一例を示すブロック図である。分析支援サーバ1は、CPU3と、メモリ4と、ストレージ5と、ネットワークインタフェース(図中NI/F)6と、ディスプレイ8、キーボード91、マウス92を接続するインタフェース7を含む計算機である。 FIG. 2 is a block diagram showing an example of the analysis support server 1. The analysis support server 1 is a computer including an interface 7 that connects a CPU 3, a memory 4, a storage 5, a network interface (NI / F in the drawing) 6, a display 8, a keyboard 91, and a mouse 92.
 メモリ4には分析支援プログラム10がロードされてCPU3によって実行される。ストレージ5には、カタログデータ40と管理テーブル50が格納される。 The analysis support program 10 is loaded into the memory 4 and executed by the CPU 3. The storage 5 stores catalog data 40 and a management table 50.
 図3は、分析支援プログラム10の機能要素の一例を示すブロック図である。分析支援プログラム10は機能要素として、必要カラム算出部11と、カラムマッピング確度算出部12と、分析難易度算出部13と、分析推薦部15を含む。 FIG. 3 is a block diagram showing an example of functional elements of the analysis support program 10. As shown in FIG. The analysis support program 10 includes, as functional elements, a required column calculation unit 11, a column mapping accuracy calculation unit 12, an analysis difficulty degree calculation unit 13, and an analysis recommendation unit 15.
 必要カラム算出部11は、データレイクサーバ2の分析カタログ31を読み込んで必要カラム管理テーブル34を生成または更新する。すなわち、必要カラム算出部11は、分析カタログ31から過去の分析で使用した分析ソフトウェア(アプリケーションやクエリ)と、データソースカタログ32から当該分析ソフトウェアが使用した共通データモデル60と、当該共通データモデル60の元になったデータソースの関係から、分析に必要なテーブル名とカラム名を算出して必要カラム管理テーブル34に蓄積する。 The required column calculation unit 11 reads the analysis catalog 31 of the data lake server 2 and generates or updates the required column management table 34. That is, the necessary column calculation unit 11 analyzes the analysis software (application or query) used in the past analysis from the analysis catalog 31, the common data model 60 used by the analysis software from the data source catalog 32, and the common data model 60 The table name and column name necessary for the analysis are calculated from the relationship of the data source that is the source of and stored in the required column management table 34.
 なお、必要カラム算出部11で行うデータソースのカラムから共通データモデル60のカラムの関係の抽出は、公知または周知の技術を用いることができ、例えば、特許文献1に開示されるデータリネージ等の手法を適用すれば良い。また、必要カラム管理テーブル34は、分析対象の共通データモデル60と、分析サーバ群300の分析ソフトウェアから、分析支援サーバ1の管理者や利用者が予め作成しておいても良い。 In addition, extraction of the relationship of the column of the common data model 60 from the column of the data source performed by the required column calculation part 11 can use a well-known or well-known technique, for example, the data lineage etc. disclosed by patent document 1 Apply the method. Also, the necessary column management table 34 may be created in advance by the administrator or user of the analysis support server 1 from the common data model 60 to be analyzed and the analysis software of the analysis server group 300.
 カラムマッピング確度算出部12は、新たな分析対象データを含むデータソースカタログ32と、共通データモデルカタログ33を読み込んで、カラムマッピング確度管理テーブル35を生成又は更新する。 The column mapping accuracy calculation unit 12 reads the data source catalog 32 including new analysis target data and the common data model catalog 33, and generates or updates the column mapping accuracy management table 35.
 カラムマッピング確度算出部12は、分析対象データの各カラムについて共通データモデルカタログ33のテーブルとカラムの類似度を、マッピング確度として算出し、カラムマッピング確度管理テーブル35に格納する。カラムマッピング確度算出部12は、分析対象データと共通データモデル60のテーブル名やカラム名やカラムの値や値の範囲やカラムのデータ形式などから類似度を算出し、マッピング確度とする。 The column mapping accuracy calculation unit 12 calculates, for each column of data to be analyzed, the table and column similarity as the mapping accuracy for each column of the analysis target data, and stores it in the column mapping accuracy management table 35. The column mapping accuracy calculator 12 calculates the similarity from the analysis target data and the common data model 60 table name, column name, column value, value range of the column, column data format, etc.
 マッピング確度は、データソースのテーブル名及びカラム名と、共通データモデル60のテーブル名とカラム名の類似度をカラム単位で示す。カラム毎の類似度は、例えば、非特許文献1に開示されるスキーママッチング及びマッピング等の公知または周知の技術を適用すればよい。なお、類似度の算出については、周知又は公知の手法を用いれば良いので本実施例では詳述しない。また、本実施例のマッピング確度は、1に近づくほど分析対象データのカラムと共通データモデル60のカラムの類似度が高いことを示す。 The mapping probability indicates the similarity between the table name and column name of the data source and the table name and column name of the common data model 60 in units of columns. For the column-by-column similarity, for example, known or known techniques such as schema matching and mapping disclosed in Non-Patent Document 1 may be applied. The calculation of the degree of similarity may be performed using a known method or a known method, and thus will not be described in detail in this embodiment. Further, the mapping accuracy in the present embodiment indicates that the closer to 1 the degree of similarity between the column of the data to be analyzed and the column of the common data model 60 is high.
 分析難易度算出部13は、カラムマッピング確度管理テーブル35と、必要カラム管理テーブル34を読み込んで、新たな分析対象データを、過去に実施した分析ソフトウェアで処理する際の難易度を分析処理毎に算出して分析難易度管理テーブル36に格納する。なお、分析難易度算出部13は、マッピング確度が更新される度に難易度の再計算を実施する分析難易度再計算部14を含む。 The analysis difficulty calculation unit 13 reads the column mapping accuracy management table 35 and the necessary column management table 34, and processes the new analysis target data with the analysis software implemented in the past with the analysis software for each analysis process. It is calculated and stored in the analysis difficulty level management table 36. The analysis difficulty level calculation unit 13 includes an analysis difficulty level recalculation unit 14 that performs recalculation of the difficulty level each time the mapping accuracy is updated.
 本実施例の難易度は、値が1に近づくほど分析作業の前処理(カラムマッピング処理)の作業量(時間又は労力)が小さく、0に近づくほど分析作業の前処理の作業量が多いことを示す。具体的には、難易度の値が1に近い場合には、分析対象データの各カラムを共通データモデル60へ容易に割り当てることが可能で、分析対象データの前処理としてのマッピング(カラムの割り当て)に要する時間又は労力が少ない。 As for the difficulty of this embodiment, the amount of work (time or effort) for preprocessing (column mapping processing) of analysis work decreases as the value approaches 1, and the amount of work for preprocessing of analysis work increases as it approaches 0. Indicates Specifically, when the value of difficulty is close to 1, it is possible to easily assign each column of data to be analyzed to common data model 60, and mapping (analysis of columns as preprocessing of data to be analyzed) Less time or effort).
 一方、難易度の値が0に近づく場合には、分析対象データの各カラムを共通データモデル60のカラムへ割り当てることが容易ではなく、分析対象データの前処理(カラムマッピング処理)に要する時間又は労力が大きくなる。 On the other hand, when the value of the difficulty level approaches 0, it is not easy to assign each column of the analysis target data to the column of the common data model 60, and the time required for preprocessing (column mapping processing) of the analysis target data Effort is increased.
 分析推薦部15は、分析難易度管理テーブル36に格納された分析対象データの難易度に基づいて、推薦する分析ソフトウェアをリストアップした結果確認画面81をディスプレイ8へ出力する。 The analysis / recommendation unit 15 outputs a result confirmation screen 81 in which the analysis software to be recommended is listed up based on the difficulty level of the analysis target data stored in the analysis difficulty level management table 36 to the display 8.
 さらに、分析推薦部15は、難易度を算出した根拠(分析対象データと共通データモデル60のカラムの関係)を表示する分析難易度根拠表示部16と、マッピング確度を調整するマッピング確定部17を含む。分析推薦部15は、分析対象データを処理する分析ソフトウェア(分析名)の推奨結果を推薦結果ファイル37へ格納する。また、分析推薦部15は、マッピング確度の調整結果をカラムマッピング確度管理テーブル35に書き込んで更新し、分析支援サーバ1の利用者の決定をカラムマッピング確度管理テーブル35に反映させる。 Furthermore, the analysis / recommendation unit 15 displays an analysis difficulty level basis display unit 16 that displays the basis (the relationship between the analysis target data and the column of the common data model 60) for which the difficulty level is calculated, and the mapping determination unit 17 that adjusts the mapping accuracy. Including. The analysis and recommendation unit 15 stores, in the recommendation result file 37, the recommendation result of the analysis software (analysis name) that processes the analysis target data. Further, the analysis and recommendation unit 15 writes and updates the adjustment result of the mapping accuracy in the column mapping accuracy management table 35, and reflects the determination of the user of the analysis support server 1 in the column mapping accuracy management table 35.
 上記の構成によって、分析対象データを共通データモデル60に従った変換済みデータへ変換する際の難易度に基づいて、分析対象データに適用する分析ソフトウェアを提案することが可能となって、分析の工数や分析にかかる労力を低減できる。 With the above configuration, it is possible to propose analysis software to be applied to the analysis target data based on the degree of difficulty in converting the analysis target data to converted data according to the common data model 60, and Man-hours and labor for analysis can be reduced.
 また、本実施例の分析支援プログラム10が難易度を算出する分析対象データは、テーブルに限定されるものではなく、スプレッドシートなどのデータを分析対象データとすることができる。 Further, the analysis target data for which the analysis support program 10 of the present embodiment calculates the difficulty level is not limited to the table, and data such as a spreadsheet can be used as the analysis target data.
 分析支援プログラム10の必要カラム算出部11と、カラムマッピング確度算出部12と、分析難易度算出部13と分析推薦部15の各機能部はプログラムとしてメモリ4にロードされる。 The necessary column calculation unit 11 of the analysis support program 10, the column mapping accuracy calculation unit 12, and the functional units of the analysis difficulty degree calculation unit 13 and the analysis recommendation unit 15 are loaded into the memory 4 as a program.
 CPU3は、各機能部のプログラムに従って処理することによって、所定の機能を提供する機能部として稼働する。例えば、CPU3は、分析難易度算出プログラムに従って処理することで分析難易度算出部13として機能する。他のプログラムについても同様である。さらに、CPU3は、各プログラムが実行する複数の処理のそれぞれの機能を提供する機能部としても稼働する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。 The CPU 3 operates as a functional unit that provides a predetermined function by performing processing according to the program of each functional unit. For example, the CPU 3 functions as the analysis difficulty level calculation unit 13 by processing according to the analysis difficulty level calculation program. The same is true for other programs. Furthermore, the CPU 3 also operates as a functional unit that provides each function of a plurality of processes executed by each program. A computer and a computer system are devices and systems including these functional units.
 図4は、分析カタログ31の一例を示す図である。分析カタログ31には、過去に実施した分析の概要が格納される。 FIG. 4 is a view showing an example of the analysis catalog 31. As shown in FIG. The analysis catalog 31 stores an overview of analyzes performed in the past.
 分析カタログ31は、分析ID311と、分析名312と、アプリ/クエリ313と、重要度314と、過去効果315と、標準所要時間316と、必要スキル317と、納期318と、完了フラグ319と、をひとつのエントリに含む。 The analysis catalog 31 includes an analysis ID 311, an analysis name 312, an application / query 313, an importance 314, a past effect 315, a standard duration 316, a required skill 317, a due date 318, and a completion flag 319 In one entry.
 分析ID311には、分析を実施する分析ソフトウェアの識別子が格納される。分析名312には、分析の名称が格納される。アプリ/クエリ313には、分析ソフトウェアの種別が格納される。本実施例では分析ソフトウェアがアプリケーションまたはクエリのいずれかの例を示す。アプリケーションの場合には、分析サーバ群300の不良要因分析サーバ302で実行される不良要因分析アプリケーションの名称等が格納される。クエリの場合には、分析クエリ発行サーバ301で発行されるクエリの名称等が格納される。 The analysis ID 311 stores an identifier of analysis software that performs analysis. The analysis name 312 stores the name of the analysis. The application / query 313 stores the type of analysis software. In this embodiment, analysis software is an example of either an application or a query. In the case of the application, the name of the defect factor analysis application executed by the defect factor analysis server 302 of the analysis server group 300 is stored. In the case of a query, the name of the query issued by the analysis query issuance server 301 is stored.
 重要度314には、当該分析ソフトウェアの重要度が格納される。重要度314は、「H」(高い)、「M」(中)、「L」(低い)のいずれかが格納される。過去効果315には、当該分析ソフトウェアの分析結果が与えた効果が格納される。過去効果315は、「H」(高い)、「M」(中)、「L」(低い)のいずれかが格納される。 The importance 314 stores the importance of the analysis software. The importance 314 stores “H” (high), “M” (medium), or “L” (low). The past effect 315 stores the effect given by the analysis result of the analysis software. The past effect 315 stores either “H” (high), “M” (medium), or “L” (low).
 標準所要時間316には、当該分析に要する標準的な所要時間が格納される。必要スキルID317には、当該分析ソフトウェアを利用する際に必要な分析担当者のスキルが格納される。本実施例では、必要スキルID317として、分析ソフトウェアの名称や、ソフトウェア言語の名称や、分析する分野などを格納する例を示す。 The standard duration 316 stores the standard duration required for the analysis. The necessary skill ID 317 stores the skills of the person in charge of analysis who are required to use the analysis software. In this embodiment, an example of storing the name of analysis software, the name of software language, the field to be analyzed, and the like as the necessary skill ID 317 is shown.
 納期318には、当該分析の結果を提示する期日が格納される。完了フラグ319には、当該分析が完了したか否かを識別する情報が格納される。 The due date 318 stores a due date for presenting the result of the analysis. The completion flag 319 stores information identifying whether or not the analysis has been completed.
 図5は、データソースカタログ32の一例を示す図である。データソースカタログ32には、分析を行うデータソースのカラムの情報が予め設定されたテーブルである。なお、本実施例1のデータソースカタログ32は、工場Bのデータ収集サーバ430の製造実績ログ442と、設備アラート444と、生産計画443のテーブルを含む。 FIG. 5 shows an example of the data source catalog 32. As shown in FIG. The data source catalog 32 is a table in which information on columns of data sources to be analyzed is set in advance. The data source catalog 32 according to the first embodiment includes a table of the manufacturing result log 442 of the data collection server 430 of the plant B, the equipment alert 444, and the production plan 443.
 データソースカタログ32は、カラムID321と、入力データソース名322と、テーブル名323と、カラム名324と、データ型325と、単位326と、データ範囲327と、その他属性328をひとつのエントリに含む。 Data source catalog 32 includes column ID 321, input data source name 322, table name 323, column name 324, data type 325, unit 326, data range 327, and other attribute 328 in one entry. .
 カラムID321には、当該データソースのカラムを特定するための識別子が格納される。入力データソース名322には、当該データソースを提供した計算機の名称が格納される。 The column ID 321 stores an identifier for specifying a column of the data source. The input data source name 322 stores the name of the computer that provided the data source.
 テーブル名323には、当該データソースのテーブルの名称が格納される。カラム名324には、当該カラムの名称が格納される。データ型325には、データの形式が格納される。単位326には、当該カラムのデータの単位が格納される。データ範囲327には、当該カラムの値の範囲が格納される。その他属性328には、当該カラムの属性が格納される。 The table name 323 stores the name of the table of the data source. The column name 324 stores the name of the column. The data type 325 stores the format of data. The unit 326 stores the unit of data of the column. The data range 327 stores the range of values of the column. The other attribute 328 stores the attribute of the column.
 データソースカタログ32は、データ収集サーバ410、430からの情報に基づいて、予め生成された情報である。 The data source catalog 32 is information generated in advance based on the information from the data collection servers 410 and 430.
 図6は、共通データモデルカタログ33の一例を示す図である。共通データモデルカタログ33は、共通データモデル60(部品表61~設備アラート64)のカラム毎の情報を格納したテーブルである。 FIG. 6 is a view showing an example of the common data model catalog 33. As shown in FIG. The common data model catalog 33 is a table storing information for each column of the common data model 60 (parts list 61 to equipment alert 64).
 共通データモデルカタログ33は、カラムID331と、テーブル名332と、カラム名333と、データ型334と、単位335と、データ範囲336と、その他属性337をひとつのエントリに含む。 The common data model catalog 33 includes a column ID 331, a table name 332, a column name 333, a data type 334, a unit 335, a data range 336, and other attributes 337 in one entry.
 カラムID331には、共通データモデル60のテーブルとカラムを特定するための識別子が格納される。テーブル名332には、当該カラムが属する共通データモデル60のテーブルの名称が格納される。 The column ID 331 stores a table of the common data model 60 and an identifier for specifying a column. The table name 332 stores the name of the table of the common data model 60 to which the column belongs.
 データ型334には当該カラムのデータ形式が格納される。単位335には、当該カラムのデータの単位が格納される。データ範囲336には、当該カラムの値の範囲が格納される。その他属性337には、当該カラムの属性が格納される。 The data type 334 stores the data format of the column. The unit 335 stores the unit of data of the column. The data range 336 stores the range of values of the column. The other attribute 337 stores the attribute of the column.
 図7は、必要カラム管理テーブル34の一例を示す図である。必要カラム管理テーブル34は、分析サーバ群300で実施された分析ソフトウェアが使用する共通データモデル60のカラムの情報を特定するためのテーブルである。 FIG. 7 shows an example of the required column management table 34. As shown in FIG. The necessary column management table 34 is a table for specifying the information of the column of the common data model 60 used by the analysis software implemented in the analysis server group 300.
 必要カラム管理テーブル34は、分析ID341と、分析名342と、テーブル名343と、カラム名344と、必須フラグ345をひとつのエントリに含む。 The required column management table 34 includes an analysis ID 341, an analysis name 342, a table name 343, a column name 344, and a required flag 345 in one entry.
 分析ID341には、分析サーバ群300で実施された分析ソフトウェアを特定する識別子が格納される。分析名342には、当該分析に付与された名称または分析ソフトウェアの名称が格納される。テーブル名343には、当該分析で使用した共通データモデル60のテーブル名が格納される。 The analysis ID 341 stores an identifier for specifying the analysis software implemented in the analysis server group 300. The analysis name 342 stores the name given to the analysis or the name of the analysis software. The table name 343 stores the table name of the common data model 60 used in the analysis.
 カラム名344には、変換済みデータを格納するカラムの名称が格納される。必須フラグ345には、当該カラムが分析処理のオプション項目か必須項目のいずれであるかが格納される。分析サーバ群300の分析処理で、必須項目であれば「Yes」が格納され、オプション項目であれば「No」が格納される。 The column name 344 stores the name of a column storing converted data. The mandatory flag 345 stores whether the column is an optional item or a mandatory item of analysis processing. In the analysis processing of the analysis server group 300, "Yes" is stored if it is a mandatory item, and "No" is stored if it is an optional item.
 図8は、カラムマッピング確度管理テーブル35の一例を示す図である。カラムマッピング確度管理テーブル35には、分析支援プログラム10が算出したデータソースのカラムと共通データモデル60のカラムのマッピング確度(類似度)が格納される。図8の例では、工場Bのデータ収集サーバ430のデータ(製造実績442、生産計画443、設備アラート444)を新たな分析対象データとして、分析支援プログラム10が共通データモデルカタログ33とのマッピング確度357を算出した例を示す。 FIG. 8 is a diagram showing an example of the column mapping accuracy management table 35. As shown in FIG. In the column mapping accuracy management table 35, the mapping accuracy (similarity) of the column of the data source calculated by the analysis support program 10 and the column of the common data model 60 is stored. In the example of FIG. 8, the analysis support program 10 maps the data with the common data model catalog 33 with the data of the data collection server 430 of the plant B (manufacturability 442, production plan 443, facility alert 444) as new analysis target data. The example which calculated 357 is shown.
 カラムマッピング確度管理テーブル35は、マッピングID351と、データソース名352と、マップ元テーブル名353と、マップ元カラム名354と、マップ先テーブル名355と、マップ先カラム名356と、マッピング確度357をひとつのエントリに含む。 The column mapping accuracy management table 35 includes a mapping ID 351, a data source name 352, a map source table name 353, a map source column name 354, a map destination table name 355, a map destination column name 356, and a mapping accuracy 357. Include in one entry.
 マッピングID351には、マッピング確度を特定するための識別子が格納される。データソース名352には、分析対象データを有するデータソースの名称が格納される。 The mapping ID 351 stores an identifier for identifying the mapping probability. The data source name 352 stores the name of a data source having data to be analyzed.
 マップ元テーブル名353には、データソース側の分析対象データのテーブルの名称が格納される。マップ元カラム名354には、データソース側の分析対象データのカラムの名称が格納される。 The map source table name 353 stores the name of the analysis target data table on the data source side. In the mapping source column name 354, the name of the column of analysis target data on the data source side is stored.
 マップ先テーブル名355には、共通データモデル60の定義に変換した後のテーブルの名称が格納される。マップ先カラム名356には、共通データモデル60の定義に変換した後のカラムの名称が格納される。マッピング確度357には、マップ元カラム名354のカラムと、マップ先カラム名356のカラムの類似度が格納される。 In the map destination table name 355, the name of the table after conversion into the definition of the common data model 60 is stored. In the mapping destination column name 356, the name of the column after conversion into the definition of the common data model 60 is stored. The mapping accuracy 357 stores the degree of similarity between the mapping source column name 354 column and the mapping destination column name 356 column.
 分析支援サーバ1は、マッピング確度357を参照することで、マップ元カラム名354のカラムと、マップ先カラム名356のカラムのスキーマレベルでの類似度を取得することができる。 The analysis support server 1 can acquire, by referring to the mapping accuracy 357, the similarity between the mapping source column name 354 column and the mapping destination column name 356 column at the schema level.
 図9は、分析難易度管理テーブル36の一例を示す図である。分析難易度管理テーブル36は、新たな分析対象データについて分析支援プログラム10の分析難易度算出部13が生成したテーブルである。 FIG. 9 is a diagram showing an example of the analysis difficulty level management table 36. As shown in FIG. The analysis difficulty level management table 36 is a table generated by the analysis difficulty level calculation unit 13 of the analysis support program 10 for new analysis target data.
 分析難易度管理テーブル36は、分析ID361と、分析名362と、アプリ/クエリ363と、難易度364をひとつのエントリに含む。分析ID361には、分析を行う分析ソフトウェアを特定するための識別子が格納される。分析名362には、分析の名称が格納される。 The analysis difficulty level management table 36 includes an analysis ID 361, an analysis name 362, an application / query 363, and a difficulty level 364 in one entry. The analysis ID 361 stores an identifier for specifying analysis software to be analyzed. The analysis name 362 stores the name of the analysis.
 アプリ/クエリ363には、分析サーバ群300で分析を実施する分析ソフトウェアの種別が格納される。難易度364には、分析支援プログラム10が算出した分析ソフトウェア毎の難易度が格納される。 The application / query 363 stores the type of analysis software that is to be analyzed by the analysis server group 300. The difficulty level 364 stores the level of difficulty of each analysis software calculated by the analysis support program 10.
 難易度364は、分析支援プログラム10が、必要カラム管理テーブル34の分析ID341毎にテーブル名343とカラム名344を選択して、カラムマッピング確度管理テーブル35のマップ先テーブル名355とマップ先カラム名356と一致するマッピング確度357を取得する。なお、分析支援プログラム10はカラム名344のうち、必須フラグ345が「Yes」のエントリを選択し、「No」のエントリを排除する。 For the difficulty level 364, the analysis support program 10 selects the table name 343 and the column name 344 for each analysis ID 341 of the required column management table 34, and the map destination table name 355 of the column mapping probability management table 35 and the map destination column name Get a mapping accuracy 357 that matches 356. The analysis support program 10 selects the entry whose mandatory flag 345 is “Yes” in the column name 344 and excludes the entry of “No”.
 そして、必要カラム管理テーブル34のひとつの分析ID341に複数のカラム名344が存在する場合には、カラム名344に対応するマップ先カラム名356のマッピング確度357の乗算値が難易度364として算出される。 Then, when a plurality of column names 344 exist in one analysis ID 341 of the required column management table 34, the multiplication value of the mapping accuracy 357 of the map destination column name 356 corresponding to the column name 344 is calculated as the difficulty 364 Ru.
 例えば、分析ID361=「1」の分析名362=「設備ごとの稼働時間実績集計」の分析ソフトウェアの場合、分析支援プログラム10は、必要カラム管理テーブル34の分析ID341=「1」のテーブル名343=「製造実績」とカラム名344=「設備ID」、「日時」、「稼働時間」を選択する。 For example, in the case of analysis software with an analysis name 362 = "total operation time actual value for each facility" of analysis ID 361 = "1", the analysis support program 10 compares the analysis ID 341 of the required column management table 34 with table name 343 "1". = "Manufacturing results" and column name 344 = "equipment ID", "date and time", "operating time" are selected.
 次に、分析支援プログラム10は、カラムマッピング確度管理テーブル35のマップ元テーブル353=「製造実績」でマップ先カラム名356=「設備ID」のマッピング確度357=0.9と、マップ先カラム名356=「日時」のマッピング確度357=0.85と、マップ先カラム名356=「稼働時間」のマッピング確度357=0.9を取得する。 Next, in the analysis support program 10, the mapping source table 353 of the column mapping accuracy management table 35 = "Manufacturing results", mapping destination column name 356 = mapping accuracy of "equipment ID" 357 = 0.9, mapping destination column name 356 = "Date and time" mapping accuracy 357 = 0.85 and map destination column name 356 = "Operation time" mapping accuracy 357 = 0.9 is acquired.
 そして、分析支援プログラム10は、上記取得した3つのカラムのマッピング確度を乗算し、0.9×0.85×0.9=0.69(0.6885≒0.69)として難易度364を算出する。 Then, the analysis support program 10 multiplies the mapping accuracies of the three acquired columns, and sets the difficulty level 364 as 0.9 × 0.85 × 0.9 = 0.69 (0.68850.60.69). calculate.
 図10は、分析支援サーバ1で実行される分析支援プログラム10の一例を示すフローチャートである。なお、以下の説明では分析支援プログラム10を処理の主体とするが、分析支援サーバ1やCPU3を処理の主体としても良い。この処理は、新たな分析対象データを含むデータソースカタログ32を受け付けると開始される。 FIG. 10 is a flowchart showing an example of the analysis support program 10 executed by the analysis support server 1. In the following description, although the analysis support program 10 is the subject of the processing, the analysis support server 1 or the CPU 3 may be the subject of the processing. This process is started when a data source catalog 32 including new analysis target data is received.
 まず、分析支援プログラム10は、必要カラム算出部11で分析カタログ31を読み込んで、分析を実行する分析サーバ群300の分析ソフトウェアの入力となる共通データモデル60のカラムを算出し、必要カラム管理テーブル34に書き込む(S1)。 First, the analysis support program 10 reads the analysis catalog 31 by the necessary column calculation unit 11, and calculates the column of the common data model 60 that is the input of the analysis software of the analysis server group 300 that executes the analysis, and the necessary column management table Write to 34 (S1).
 必要カラム算出部11は、分析サーバ群300が過去に使用した共通データモデル60のテーブル名とカラム名を取得して必要カラム管理テーブル34のテーブル名343、カラム名344に格納する。必要カラム算出部11は、分析サーバ群300のクエリやログなどから分析に必須のカラムか、オプションのカラムかを判定して必須フラグ345を設定する。 The necessary column calculation unit 11 acquires the table name and column name of the common data model 60 used by the analysis server group 300 in the past, and stores the table name 343 and column name 344 of the necessary column management table 34. The required column calculation unit 11 determines whether it is a column essential for analysis or an optional column based on a query or a log of the analysis server group 300, and sets a mandatory flag 345.
 次に、分析支援プログラム10のカラムマッピング確度算出部12は、データソースカタログ32、および共通データモデルカタログ33を読み込み、データソース(データ収集サーバ410、430のテーブル)のカラムと共通データモデル60(共通データモデルカタログ33)のカラムのマッピング確度357を算出し、カラムマッピング確度管理テーブル35に書き込む(S2)。 Next, the column mapping accuracy calculation unit 12 of the analysis support program 10 reads the data source catalog 32 and the common data model catalog 33, and the columns of the data sources (tables of the data collection servers 410 and 430) and the common data model 60 ( The mapping accuracy 357 of the column of the common data model catalog 33) is calculated and written in the column mapping accuracy management table 35 (S2).
 カラムマッピング確度算出部12は、上述したようにデータ収集サーバ410、430側のテーブルのデータスキーマと、共通データモデル60のデータスキーマをスキーママッチング&マッピングによってカラム毎の類似度を算出し、マッピング確度357に格納する。 The column mapping accuracy calculation unit 12 calculates the similarity for each column by schema matching & mapping of the data schema of the table on the side of the data collection servers 410 and 430 and the data schema of the common data model 60 as described above. Store in 357.
 次に、分析難易度算出部13が、必要カラム管理テーブル34、およびカラムマッピング確度管理テーブル35を読み込み、分析ID341毎に必要なカラムのマッピング確度357を取得して、上述したように難易度364を算出し、分析難易度管理テーブル36に書き込む(S3)。 Next, the analysis difficulty calculation unit 13 reads the necessary column management table 34 and the column mapping accuracy management table 35, acquires the mapping accuracy 357 of the necessary columns for each analysis ID 341, and as described above, the difficulty 364 Are calculated and written in the analysis difficulty management table 36 (S3).
 次に、分析支援プログラム10は、分析推薦部15において、分析難易度管理テーブル36を読み込み、難易度364の値が大きい分析IDを上位ランクとしてソートし、図11に示す結果確認画面81に表示する(S4)。 Next, the analysis support program 10 causes the analysis / recommendation unit 15 to read the analysis difficulty level management table 36, sorts the analysis ID with the large value of the difficulty 364 as the upper rank, and displays it on the result confirmation screen 81 shown in FIG. To do (S4).
 難易度364の値が大きいほど、データソースから共通データモデル60への変換が容易であり、分析の前処理であるデータソースから共通データモデル60への変換及びマッピング作業が容易となる。分析推薦部15は、前処理が容易な順で結果確認画面81の分析一覧811に分析のリストを表示する。 The larger the value of the difficulty level 364 is, the easier the conversion from the data source to the common data model 60 becomes, and the conversion and mapping operation from the data source to the common data model 60 which is the preprocessing of the analysis become easier. The analysis / recommendation unit 15 displays a list of analyzes in the analysis list 811 of the result confirmation screen 81 in the order of easy pre-processing.
 図11は、分析支援プログラム10の分析推薦部15が出力する結果確認画面81の一例を示す図である。結果確認画面81は、図中上部を分析一覧811の表示領域とし、図中下部を分析難易度根拠812の表示領域とする。なお、分析難易度根拠812は、分析一覧811の一行が選択された後に表示される。 FIG. 11 is a diagram showing an example of the result confirmation screen 81 output by the analysis and recommendation unit 15 of the analysis support program 10. As shown in FIG. In the result confirmation screen 81, the upper part in the drawing is a display area of the analysis list 811, and the lower part in the drawing is a display area of the analysis difficulty level basis 812. The analysis difficulty level basis 812 is displayed after one line of the analysis list 811 is selected.
 分析一覧811には、分析IDと、分析名と、アプリケーションまたはクエリの種別と、重要度と、過去効果と、難易度及び完了フラグをひとつの行に含むリストで構成され、分析の内容が表示される。なお、分析一覧811の難易度(364)を除く項目は、図4の分析カタログ31の内容である。 Analysis list 811 consists of a list that includes analysis ID, analysis name, application or query type, importance, past effects, difficulty level and completion flag in one row, and displays the contents of analysis Be done. The items other than the difficulty level (364) of the analysis list 811 are the contents of the analysis catalog 31 of FIG.
 分析支援サーバ1の利用者はマウス92を操作して、分析ID=4の行をクリックすると、分析難易度根拠812の表示領域に、共通データモデル60とデータソースのマッピング確度(図中「確度0.9」等)が表示される。 When the user of the analysis support server 1 operates the mouse 92 and clicks on the line of analysis ID = 4, the mapping accuracy of the common data model 60 and the data source is displayed in the display area of the analysis difficulty basis 812 (in FIG. "0.9 etc." is displayed.
 また、分析難易度根拠812の表示領域の確度の下には、共通データモデル60とデータソースのカラムの対応付けを決定する確定ボタン813が表示される。分析支援サーバ1の利用者は、共通データモデル60のカラムとデータソースのカラムの対応付けが妥当であれば当該カラムのマッピング確度は1.0(100%)に変更される。 Further, below the certainty of the display area of the analysis difficulty level basis 812, a determination button 813 for determining the correspondence between the common data model 60 and the data source column is displayed. The user of the analysis support server 1 changes the mapping probability of the column to 1.0 (100%) if the correspondence between the column of the common data model 60 and the column of the data source is valid.
 図10のステップS5では、分析支援プログラム10の分析推薦部15が、結果確認画面81の終了操作を受け付けたか否かを判定する。分析支援サーバ1の利用者が結果確認画面81に対してウィンドウを閉じる操作が行った場合には処理を終了する。分析推薦部15は、処理を終了する際に、推薦結果ファイル37に分析の推薦結果を格納する。一方、終了操作がなかった場合にはステップS6へ進む。 In step S5 of FIG. 10, the analysis / recommendation unit 15 of the analysis support program 10 determines whether an end operation of the result confirmation screen 81 has been received. When the user of the analysis support server 1 performs an operation of closing the window on the result confirmation screen 81, the process ends. The analysis and recommendation unit 15 stores the recommendation result of analysis in the recommendation result file 37 when the process is ended. On the other hand, when there is no end operation, the process proceeds to step S6.
 ステップS6では、分析推薦部15が結果確認画面81において利用者が操作するマウス92が分析一覧811の行を選択したか否かを判定する。分析一覧811の行を選択した場合にはステップS7へ進み、そうでない場合にはステップS5戻ってマウス92やキーボード91の操作を待つ。 In step S6, the analysis / recommendation unit 15 determines whether the mouse 92 operated by the user on the result confirmation screen 81 has selected a row of the analysis list 811. If the line of the analysis list 811 is selected, the process proceeds to step S7. If not, the process returns to step S5 and waits for the operation of the mouse 92 or the keyboard 91.
 ステップS7では、分析推薦部15が、難易度を算出した根拠となる共通データモデル60のカラムとデータソースのカラムのマッピング確度をカラムマッピング確度管理テーブル35から取得して、結果確認画面81の分析難易度根拠812に表示する。 In step S7, the analysis and recommendation unit 15 acquires from the column mapping probability management table 35 the mapping probabilities of the column of the common data model 60 and the column of the data source serving as the basis for calculating the difficulty level, and analyzes the result confirmation screen 81. Display on difficulty base 812
 次に、ステップS8では、分析推薦部15が、分析難易度根拠812において利用者が操作するマウス92で確定ボタン813をクリックしたか否かを判定する。確定ボタン813を操作した場合にはステップS9へ進み、そうでない場合にはステップS3に戻って上記処理を繰り返す。 Next, in step S8, the analysis / recommendation unit 15 determines whether the confirmation button 813 has been clicked by the mouse 92 operated by the user in the analysis difficulty level basis 812 or not. If the enter button 813 is operated, the process proceeds to step S9. If not, the process returns to step S3 and the above process is repeated.
 ステップS9では、分析推薦部15が、確定ボタン813で選択されたデータソースのカラムと共通データモデル60のカラムのマッピング確度357を1.0に設定し、カラムマッピング確度管理テーブル35の該当するエントリを更新する。 In step S9, the analysis / recommendation unit 15 sets the mapping probability 357 of the column of the data source and the column of the common data model 60 selected by the confirm button 813 to 1.0, and the corresponding entry of the column mapping probability management table 35 Update
 分析推薦部15は、カラムマッピング確度管理テーブル35を更新した後に、ステップS3に戻って難易度364を再計算して上記処理を繰り返す。 After updating the column mapping accuracy management table 35, the analysis and recommendation unit 15 returns to step S3 to recalculate the difficulty 364 and repeat the above process.
 以上の処理によって、分析支援サーバ1は、新たな分析対象データをデータソースカタログ32に設定してマッピング確度の算出と、難易度の算出を行うことで、どのような分析が容易に実施できるのかを結果確認画面81で知ることができる。 By the above processing, the analysis support server 1 sets new analysis target data in the data source catalog 32 to calculate the mapping accuracy and calculate the degree of difficulty. What kind of analysis can be easily performed? Can be known on the result confirmation screen 81.
 これにより、分析対象データを共通データモデル60に変換する際のマッピングの難易度に基づいて、容易に実施可能な分析の提案や、分析対象データに適用する分析ソフトウェアを提案することが可能となって、分析の工数や分析にかかる労力を低減できる。 This makes it possible to propose an analysis that can be easily implemented and analysis software to be applied to the analysis target data based on the mapping difficulty level when converting the analysis target data to the common data model 60. Therefore, it is possible to reduce the time and effort required for analysis.
 また、新たな分析対象データについて、カラムマッピング確度管理テーブル35のマッピングが妥当であれば、結果確認画面81において利用者が確定ボタン813を操作することで、マッピング確度357を1.0(100%)に設定してカラムマッピング確度管理テーブル35へフィードバックすることができる。 In addition, if the mapping of the column mapping accuracy management table 35 for the new data to be analyzed is valid, the user operates the confirmation button 813 on the result confirmation screen 81, whereby the mapping accuracy 357 is 1.0 (100% Can be fed back to the column mapping probability management table 35.
 また、カラムマッピング確度管理テーブル35へフィードバックした後に、分析支援サーバ1でマッピング確度357及び難易度364を再計算することで、新たな分析一覧811を表示することができる。 Also, after feedback to the column mapping accuracy management table 35, the analysis support server 1 can recalculate the mapping accuracy 357 and the difficulty 364 to display a new analysis list 811.
 以上のように、分析一覧811や分析難易度根拠812の表示によって、分析支援サーバ1の利用者は、分析の前処理に要する労力などを難易度として把握することができる。また、データソースから共通データモデル60への変換で手間のかかるカラムがどの程度存在するかを把握できる。 As described above, the display of the analysis list 811 and the analysis difficulty level ground 812 allows the user of the analysis support server 1 to grasp the effort required for the preprocessing of the analysis as the difficulty level. In addition, it is possible to grasp how much time-consuming columns exist in conversion from the data source to the common data model 60.
 このように、本実施例1によれば、分析処理の前処理となるカラムマッピングの作業量の大小を示す指標として難易度を算出し、データソースとなる分析対象データを評価することができる。 As described above, according to the first embodiment, the degree of difficulty can be calculated as an index indicating the magnitude of the amount of work of column mapping that is the preprocessing of the analysis processing, and the analysis target data that is the data source can be evaluated.
 これにより、分析支援サーバ1は、膨大なデータや多種のテーブルに対する分析をどのような分析処理から始めれば良いか、あるいは、どのような分析処理が実現可能であるかを、過去の分析で使用した分析ソフトウェアの中から提案することができる。また、過去に使用した分析ソフトウェアを利用することで、計算機資源を有効に利用して分析処理のリードタイムを大幅に短縮できる。 In this way, the analysis support server 1 uses, in the past analysis, what kind of analysis processing should be used to start analysis on a large amount of data and various tables, or what kind of analysis processing can be realized It is possible to propose from among the analysis software. In addition, by using analysis software used in the past, computer resources can be effectively used to significantly reduce the lead time of analysis processing.
 なお、上記実施例1では、共通データモデル60や各テーブルをデータレイクサーバ2に格納した例を示したが、これらのデータを分析支援サーバ1に格納するようにしても良い。 Although the example in which the common data model 60 and the respective tables are stored in the data lake server 2 has been described in the first embodiment, these data may be stored in the analysis support server 1.
 図12~図26は、本発明の実施例2を示す。実施例2では、ETL(Extract、Transform、Load)カタログと、データソースの品質を考慮してカラムマッピング確度及び難易度を算出し、作業効率の良い順序で分析を提案する例を示す。 12 to 26 show Embodiment 2 of the present invention. The second embodiment shows an example in which column mapping accuracy and difficulty are calculated in consideration of ETL (Extract, Transform, Load) catalog and data source quality, and analysis is proposed in order of work efficiency.
 本実施例2では、前記実施例1の構成に分析プロジェクト管理サーバ305と、ETLカタログ38と、ETLカラムマッピング確度管理テーブル39と、データ品質管理テーブル41と、スキルセット実績42と、ETL処理部70を加えたものである。その他の構成は前記実施例1と同様である。 In the second embodiment, the configuration of the first embodiment is the analysis project management server 305, the ETL catalog 38, the ETL column mapping accuracy management table 39, the data quality management table 41, the skill set record 42, and the ETL processing unit. 70 is added. The other configuration is the same as that of the first embodiment.
 図12Aは、データ分析支援システムの一例を示すブロック図である。本実施例2では、データレイクサーバ2にETL処理部70を追加し、分析プロジェクト管理サーバ305を追加し、図13で示すように、データレイクサーバ2のストレージ20に保持するデータを追加した。ETL処理部70は、設備アラート単位変換71と、生産計画期間変換72と、生産計画設備名分割73を含み、分析支援プログラム10が必要に応じて読み出して、分析支援サーバ1で実行させる。 FIG. 12A is a block diagram showing an example of a data analysis support system. In the second embodiment, the ETL processing unit 70 is added to the data lake server 2, the analysis project management server 305 is added, and the data held in the storage 20 of the data lake server 2 is added as shown in FIG. The ETL processing unit 70 includes an equipment alert unit conversion 71, a production planning period conversion 72, and a production planning equipment name division 73, and the analysis support program 10 reads out as needed and causes the analysis support server 1 to execute.
 図13は、分析支援プログラム10の機能要素の一例を示すブロック図である。本実施例2では、前記実施例1でしましたストレージ20に、ETLカタログ38と、ETLカラムマッピング確度管理テーブル39と、データ品質管理テーブル41と、スキルセット実績42を追加したものである。 FIG. 13 is a block diagram showing an example of functional elements of the analysis support program 10. As shown in FIG. In the second embodiment, the ETL catalog 38, the ETL column mapping accuracy management table 39, the data quality management table 41, and the skill set performance 42 are added to the storage 20 of the first embodiment.
 また、分析支援プログラム10は、カラムマッピング確度算出部12にETLカラムマッピング確度算出部121を追加し、分析難易度算出部13にデータ品質解析部131と、データ品質分析難易度補正部132を追加し、分析推薦部15に分析スケジューリング部151を追加し、連携インタフェース18を追加した。 In addition, the analysis support program 10 adds the ETL column mapping accuracy calculation unit 121 to the column mapping accuracy calculation unit 12, and adds the data quality analysis unit 131 and the data quality analysis difficulty correction unit 132 to the analysis difficulty calculation unit 13. Then, the analysis scheduling unit 151 is added to the analysis and recommendation unit 15, and the cooperation interface 18 is added.
 連携インタフェース18は、分析プロジェクト管理サーバ305に分析プロジェクトの内容をスプレッドシートの形式で出力する。分析プロジェクト管理サーバ305は、分析タスク取り込み部306でスプレッドシート形式の分析プロジェクトを受け付けて、分析プロジェクトの管理を行う。 The collaboration interface 18 outputs the contents of the analysis project to the analysis project management server 305 in the form of a spreadsheet. The analysis project management server 305 receives the analysis project in the spreadsheet format by the analysis task fetch unit 306, and manages the analysis project.
 本実施例2では、前記実施例1と同様にカラムマッピング確度算出部12でデータソースカタログ32と共通データモデルカタログ33からカラムマッピング確度管理テーブル35を算出するのに加えて、ETLカラムマッピング確度算出部121がデータソースカタログ32と、ETLカタログ38からETLカラムマッピング確度管理テーブル39を生成する。 In the second embodiment, in addition to the calculation of the column mapping accuracy management table 35 from the data source catalog 32 and the common data model catalog 33 in the column mapping accuracy calculating unit 12 as in the first embodiment, the ETL column mapping accuracy is calculated. A unit 121 generates an ETL column mapping accuracy management table 39 from the data source catalog 32 and the ETL catalog 38.
 そして、データソースのカラムについて、カラムマッピング確度管理テーブル35とETLカラムマッピング確度管理テーブル39のうちマッピング確度が高い方を難易度の算出に利用する。 Then, for the column of the data source, one of the column mapping accuracy management table 35 and the ETL column mapping accuracy management table 39 having the higher mapping accuracy is used to calculate the difficulty level.
 また、分析難易度算出部13では、データ品質解析部131がデータソースカタログ32の分析対象データを読み込んで、分析対象データの品質について解析を実行してデータ品質41のテーブルを生成する。 Further, in the analysis difficulty level calculation unit 13, the data quality analysis unit 131 reads the analysis target data of the data source catalog 32, performs analysis on the quality of the analysis target data, and generates a data quality 41 table.
 データ品質分析難易度補正部132は、分析対象データの品質に基づいてマッピング確度を補正する。その他の構成については、前記実施例1と同様である。 The data quality analysis difficulty correction unit 132 corrects the mapping accuracy based on the quality of the analysis target data. The other configuration is the same as that of the first embodiment.
 図14は、分析カタログ31の一例を示す図である。図14は、前記実施例1の図4に対して、重要度314と、過去効果315と、標準所要時間316と、必要スキル317と、納期318が設定されている点が相違する。重要度314~納期318の各カラムは分析支援サーバ1の利用者や管理者が設定することができる。 FIG. 14 shows an example of the analysis catalog 31. As shown in FIG. FIG. 14 is different from FIG. 4 of the first embodiment in that importance 314, past effect 315, standard required time 316, required skill 317, and due date 318 are set. Each column of importance 314 to delivery date 318 can be set by the user or administrator of the analysis support server 1.
 図15は、ETLカタログ38の一例を示す図である。ETLカタログ38は、ETL処理部70の要素の定義を予め設定したテーブルで、本実施例2では、設備アラート単位変換71と、生産計画期間変換72と、生産計画設備名分割73を要素とした例を示す。ETLカタログ38は、分析対象データに対応して、抽出するデータの定義と、データの変換の定義と、変換したデータを格納する共通データモデル60の定義が予め設定される。 FIG. 15 shows an example of the ETL catalog 38. As shown in FIG. The ETL catalog 38 is a table in which the definition of the elements of the ETL processing unit 70 is set in advance. In the second embodiment, the equipment alert unit conversion 71, the production planning period conversion 72, and the production planning equipment name division 73 are elements. An example is shown. In the ETL catalog 38, a definition of data to be extracted, a definition of conversion of data, and a definition of a common data model 60 storing the converted data are set in advance corresponding to analysis target data.
 ETLカタログ38は、ETLID381と、ETL名382と、入力テーブル名383と、入力カラム名384と、出力テーブル名385と、出力カラム名386をひとつのエントリに含む。 The ETL catalog 38 includes an ETL ID 381, an ETL name 382, an input table name 383, an input column name 384, an output table name 385, and an output column name 386 in one entry.
 ETLID381には、ETLを特定するための識別子が格納される。ETL名382には、ETL(ETL処理部70の各要素)の名称が格納される。入力テーブル名383には、データソースとなるデータ収集サーバ410、430のテーブルの名称が格納される。入力カラム名384には、データ収集サーバ410、430のテーブル内のカラムの名称が格納される。 The ETLID 381 stores an identifier for identifying an ETL. The ETL name 382 stores the name of the ETL (each element of the ETL processing unit 70). The input table name 383 stores the names of the tables of the data collection servers 410 and 430 serving as data sources. In the input column name 384, the names of the columns in the table of the data collection servers 410 and 430 are stored.
 出力テーブル名385には、共通データモデル60のテーブルの名称が格納される。出力カラム名386には、共通データモデル60のテーブル内のカラムの名称が格納される。 The output table name 385 stores the name of the common data model 60 table. In the output column name 386, the names of the columns in the table of the common data model 60 are stored.
 図示の例では、ETLID381=「3」のETL名382=「生産計画期間変換」では入力カラム名384=「開始時刻」と、ETLID381=「4」の入力カラム名384=「終了時刻」の2つの値が、共通データモデル60の生産計画62の出力カラム名386=「日時」のひとつの値に変換されることを示す。なお、変換の具体的な内容については、ETL処理部70の各要素に設定しておく。 In the illustrated example, ETL ID 382 = "3" ETL name 382 = "Production plan period conversion" Input column name 384 = "Start time" and ETL ID 381 = "4" input column name 384 = 2 "End time" It shows that one value is converted into one value of the output column name 386 = “date and time” of the production plan 62 of the common data model 60. The specific content of the conversion is set in each element of the ETL processing unit 70.
 ETLカタログ38は、1以上の入力カラム名384と出力カラム名386を対応付けて、値やデータ形式の変換の定義を設定することで、単純なマッピングでは変換済みデータのカラムへ割り当てできないカラムを、データソースとして利用することが可能となる。 The ETL catalog 38 associates one or more input column names 384 and output column names 386, and defines the conversion definition of value and data format, so that simple mapping can not assign columns to converted data columns. Can be used as a data source.
 図12Bは、ETL処理部70の一例として、ETL名382=「生産計画期間変換」=生産計画期間変換72で行われる処理の一例を示す。分析支援サーバ1は、生産計画期間変換72を読み込んで実行させる。生産計画期間変換72は、入力テーブル383で指定された生産計画443から入力カラム名384で指定された「開始時刻」と「終了時刻」を読み込む(S721)。この例では、工場Bの生産計画443を、新たに追加するデータソースとしている。 FIG. 12B shows an example of processing performed by ETL name 382 = “production planning period conversion” = production planning period conversion 72 as an example of the ETL processing unit 70. The analysis support server 1 reads and executes the production planning period conversion 72. The production planning period conversion 72 reads “start time” and “end time” designated by the input column name 384 from the production plan 443 designated by the input table 383 (S721). In this example, the production plan 443 of plant B is used as a data source to be newly added.
 生産計画期間変換72は、読み込んだデータソースに対して、所定の変換を実行する(S722)。この例では、出力カラム名386=「日時」=「終了時刻」-「開示時刻」として演算する。そして、生産計画期間変換72は出力テーブル名385で指定された共通データモデル60の生産計画62に変換したデータを格納する(S723)。なお、ETL処理部70の設備アラート単位変換71と、生産計画設備名分割73についても同様にデータソースを変換して共通データモデル60に格納する。 The production planning period conversion 72 executes a predetermined conversion on the read data source (S722). In this example, the output column name 386 is calculated as “date and time” = “end time” − “disclosure time”. Then, the production planning period conversion 72 stores the data converted into the production planning 62 of the common data model 60 specified by the output table name 385 (S723). The data source is similarly converted for the equipment alert unit conversion 71 of the ETL processing unit 70 and the production planning equipment name division 73 and stored in the common data model 60.
 図16は、ETLカラムマッピング確度管理テーブル39の一例を示す図である。ETLカラムマッピング確度管理テーブル39は、ETLカラムマッピング確度算出部121によって生成されるテーブルである。 FIG. 16 is a diagram showing an example of the ETL column mapping accuracy management table 39. As shown in FIG. The ETL column mapping accuracy management table 39 is a table generated by the ETL column mapping accuracy calculating unit 121.
 ETLカラムマッピング確度管理テーブル39は、ETLマッピングID391と、マップ元テーブル名392と、マップ元カラム名393と、マップ先ETL名394と、マップ先カラム名395と、マッピング確度396をひとつのエントリに含む。 ETL column mapping accuracy management table 39 includes ETL mapping ID 391, mapping source table name 392, mapping source column name 393, mapping destination ETL name 394, mapping destination column name 395, and mapping accuracy 396 in one entry. Including.
 ETLマッピングID391には、マッピング確度のエントリを特定するための識別子が格納される。マップ元テーブル名392には、データソースのデータ収集サーバ410、430のテーブル名が格納される。マップ元カラム名393には、データソースのデータ収集サーバ410、430のテーブル内のカラム名が格納される。 The ETL mapping ID 391 stores an identifier for identifying an entry of mapping accuracy. In the map source table name 392, the table names of the data collection servers 410 and 430 of the data source are stored. The mapping source column name 393 stores column names in the table of the data collection servers 410 and 430 of the data source.
 マップ先ETL名394には、ETLカタログ38のETL名382に対応する名称が格納される。マップ先カラム名395には、ETLカタログ38の出力カラム名386に対応する名称が格納される。マッピング確度396には、ETLカラムマッピング確度算出部121が算出したETLのマッピング確度が格納される。 In the map destination ETL name 394, a name corresponding to the ETL name 382 of the ETL catalog 38 is stored. In the mapping destination column name 395, a name corresponding to the output column name 386 of the ETL catalog 38 is stored. In the mapping accuracy 396, the mapping accuracy of the ETL calculated by the ETL column mapping accuracy calculation unit 121 is stored.
 図示の例では、ETLマッピングID391=「1」では、マップ元テーブル名392がデータ収集サーバ430の設備アラート444について、マップ元カラム名393の「日付時刻」の値を時間単位に変換することで、ETL処理部70の設備アラート単位変換71のマップ先カラム名395=「日時(時間単位)」にマップすることができ、が格納され、「日付時刻」と「日時」のマッピング確度396=「0.9」であることを示している。 In the illustrated example, in the ETL mapping ID 391 = “1”, the map source table name 392 converts the “date and time” value of the map source column name 393 for the facility alert 444 of the data collection server 430 into time units. , Map destination column name 395 of equipment alert unit conversion 71 of ETL processing unit 70 can be mapped to “date and time (time unit)”, and is stored, and “date and time” and “date and time” mapping accuracy 396 = “date and time” It shows that it is 0.9 ".
 図17は、データ品質管理テーブル41の一例を示す図である。データ品質管理テーブル41は、分析難易度算出部13のデータ品質解析部131が分析対象データを含むデータソースカタログ32を参照して生成するテーブルである。データ品質管理テーブル41は、データソースのカラム毎にデータの品質を格納する。 FIG. 17 shows an example of the data quality management table 41. As shown in FIG. The data quality management table 41 is a table generated by the data quality analysis unit 131 of the analysis difficulty level calculation unit 13 with reference to the data source catalog 32 including analysis target data. The data quality management table 41 stores data quality for each data source column.
 データ品質管理テーブル41は、カラムID411と、入力データソース名412と、テーブル名413と、カラム名414と、Null多数415と、重複416と、外れ値417と、文字数ずれ418と、総合スコア419をひとつのエントリに含む。 The data quality management table 41 includes a column ID 411, an input data source name 412, a table name 413, a column name 414, a number of nulls 415, an overlap 416, an outlier 417, a character deviation 418, and an overall score 419. In one entry.
 カラムID411には、データソースのカラムを特定するための識別子が格納される。入力データソース名412には、データソースとなるデータ収集サーバを特定する名称が格納される。テーブル名413には、データソースとなるデータ収集サーバのテーブルの名称が格納される。カラム名414には、データソースとなるテーブルに含まれるカラムの名称が格納される。 The column ID 411 stores an identifier for specifying a column of the data source. The input data source name 412 stores a name specifying a data collection server as a data source. In the table name 413, the name of the table of the data collection server as a data source is stored. The column name 414 stores the names of the columns included in the table serving as the data source.
 Null多数415には、当該カラムでNull値を含むレコードの比率が格納される。重複416には、当該カラムで値が重複するレコードの比率が格納される。外れ値417には、当該カラムで値が所定の閾値を超えたレコードの比率が格納される。文字数ずれ418には、当該カラムで文字数がずれたレコードの比率が格納される。総合スコア419には、Null多数415と重複416と外れ値417と文字数ずれ418の値に基づいてデータソースの品質として算出された総合スコア419が格納される。 The number of nulls 415 stores the ratio of records including null values in the column. The overlap 416 stores the ratio of records whose values overlap in the column. The outlier 417 stores the ratio of records whose values exceed a predetermined threshold in the column. The character number deviation 418 stores the ratio of records in which the character number deviates in the column. In the total score 419, the total score 419 calculated as the quality of the data source based on the values of the many nulls 415, the overlap 416, the outliers 417, and the character deviation 418 is stored.
 本実施例2では、データの品質を示す総合スコア=1-(Null多数415+重複416+外れ値417+文字数ずれ418)として算出する例を示す。なお、総合スコア419の算出方法は、これに限定されるものではなく、データ品質管理テーブル41でデータソースの品質を示すNull多数415~文字数ずれ418の各フィールドの値の乗算値や中央値等を用いてもよい。 In the second embodiment, an example is shown in which the total score representing the quality of the data is calculated as 1− (Null many 415 + duplication 416 + outlier 417 + number-of-characters 418). Note that the calculation method of the overall score 419 is not limited to this, and the value of each field of the null majority 415 to the number of characters shift 418 indicating the quality of the data source in the data quality management table 41 May be used.
 本実施例2では、総合スコア419の値が1.0に近いほど、そのまま分析が可能な高品質なデータであり、逆に0に近づく、データソースにクレンジングなどの前処理が必要な低品質のデータである。 In the second embodiment, the closer the value of the overall score 419 is to 1.0, the higher quality data that can be analyzed as it is, and the closer to 0, the lower the quality that requires pretreatment such as cleansing the data source. Data of
 すなわち、総合スコア419が示す品質は、データソースに対するクレンジングに要する処理量(時間又は労力)を示す指標である。なお、本実施例2のクレンジングは、例えば、データソースから重複や誤記、表記の揺れなどを検出して、削除や修正、正規化などを実施することを示す。 That is, the quality indicated by the overall score 419 is an index indicating the amount of processing (time or effort) required for cleansing the data source. In addition, the cleansing of the second embodiment indicates, for example, detection of duplication, an error, a sway of notation or the like from the data source, and performing deletion, correction, normalization and the like.
 本実施例2では、分析対象データについて分析を行う際の前処理として、分析対象データのカラムを共通データモデル60のカラムにマッピングする処理(カラムマッピング処理)と、分析対象データの内容についてクレンジングを行う処理の2つの処理を含む例を示す。なお、カラムマッピング処理には、ETLカタログ38に基づいて、マップ元カラム名354の値を、マップ先カラム名356の値に変換する処理を含むものとする。 In the second embodiment, processing for mapping a column of data to be analyzed to a column of the common data model 60 (column mapping processing) and cleansing for the content of data to be analyzed are pre-processed when analyzing data to be analyzed. An example including two processes of the process to be performed is shown. The column mapping process includes a process of converting the value of the map source column name 354 into the value of the map destination column name 356 based on the ETL catalog 38.
 なお、分析支援プログラム10は、データソースカタログ32を受け付けると、カラムマッピング確度算出部12がマッピング確度を算出する前に、分析難易度算出部13のデータ品質解析部131で、当該データ品質管理テーブル41を生成する。 The analysis support program 10 receives the data source catalog 32, and before the column mapping accuracy calculating unit 12 calculates the mapping accuracy, the data quality analyzing unit 131 of the analysis difficulty calculating unit 13 analyzes the data quality management table. Generate 41
 そして、後述するように、データ品質管理テーブル41の総合スコア419に基づいて、マッピング確度(357、386)が補正される。 Then, as described later, based on the total score 419 of the data quality management table 41, the mapping accuracy (357, 386) is corrected.
 図18は、分析難易度管理テーブル36の一例を示す図である。分析難易度管理テーブル36は、新たな分析対象データについて分析支援プログラム10の分析難易度算出部13が生成するテーブルである。本実施例2の分析難易度管理テーブル36は、前記実施例1の図9に示した分析難易度管理テーブル36に、標準所要時間365と、補正後所要時間366を追加したもので、その他の構成については前記実施例1と同様である。 FIG. 18 is a diagram showing an example of the analysis difficulty level management table 36. As shown in FIG. The analysis difficulty level management table 36 is a table generated by the analysis difficulty level calculation unit 13 of the analysis support program 10 for new analysis target data. The analysis difficulty level management table 36 of the second embodiment is obtained by adding the standard required time 365 and the corrected required time 366 to the analysis difficulty level management table 36 shown in FIG. 9 of the first embodiment. The configuration is the same as that of the first embodiment.
 分析難易度管理テーブル36は、分析ID361と、分析名362と、アプリ/クエリ363と、難易度364と、標準所要時間365と、補正後所要時間366をひとつのエントリに含む。 The analysis difficulty level management table 36 includes an analysis ID 361, an analysis name 362, an application / query 363, a difficulty level 364, a standard required time 365, and a corrected required time 366 in one entry.
 標準所要時間365は、当該分析が完了するまでに要する標準的な時間が格納される。本実施例2では、分析カタログ31のID311毎に予め設定された標準所要時間316を、分析難易度算出部13が当該標準所要時間365に設定した例を示す。補正後所要時間366には、データ品質分析難易度補正部132が、難易度364に応じて標準所要時間365を補正した値が格納される。 The standard duration 365 stores the standard time required to complete the analysis. In the second embodiment, an example is shown in which the analysis difficulty level calculator 13 sets the standard required time 316 preset for each ID 311 of the analysis catalog 31 to the standard required time 365. In the required time after correction 366, the data quality analysis difficulty level correction unit 132 stores a value obtained by correcting the standard required time 365 according to the difficulty level 364.
 図13のスキルセット実績42には、図示はしないが、分析作業を実施する人員と、各人員のスキルが予め設定される。なお、人員のスキルは分析カタログ31の必要スキル317に対応する値が格納される。 Although not illustrated, in the skill set results 42 of FIG. 13, the number of persons who perform analysis work and the skills of each person are set in advance. In addition, the skill of the staff stores a value corresponding to the necessary skill 317 in the analysis catalog 31.
 図19は、分析支援プログラム10で行われる処理の一例を示すフローチャートである。この処理は、前記実施例1と同様に、データソースカタログ32を受け付けてから開始される。なお、図19では、必要カラム管理テーブル34が既に生成されていることを前提とする。また、上述のように、分析難易度算出部13のデータ品質解析部131によってデータ品質管理テーブル41も既に生成されている。 FIG. 19 is a flowchart showing an example of processing performed by the analysis support program 10. This process is started after receiving the data source catalog 32, as in the first embodiment. In FIG. 19, it is assumed that the required column management table 34 has already been generated. Further, as described above, the data quality management table 41 has already been generated by the data quality analysis unit 131 of the analysis difficulty level calculation unit 13.
 分析支援プログラム10のカラムマッピング確度算出部12は、データソースカタログ32および共通データモデルカタログ33を読み込んで、それぞれのマッピング確度357を算出し、カラムマッピング確度管理テーブル35に書き込む(S11)。この処理は、前記実施例1の図10に示したステップS2と同様であり、データソースのカラムと共通データモデル60のカラムのマッピング確度が算出され、図8に示したカラムマッピング確度管理テーブル35が生成される。 The column mapping accuracy calculator 12 of the analysis support program 10 reads the data source catalog 32 and the common data model catalog 33, calculates the mapping accuracy 357, and writes the mapping accuracy 357 in the column mapping accuracy management table 35 (S11). This process is the same as step S2 shown in FIG. 10 of the first embodiment, and the mapping accuracy of the data source column and the column of the common data model 60 is calculated, and the column mapping accuracy management table 35 shown in FIG. Is generated.
 次に、分析支援プログラム10では、ETLカラムマッピング確度算出部121が、データソースカタログ32およびETLカタログ38を読み込んで、マッピング確度を算出し、ETLカラムマッピング確度管理テーブル39に書き込む(S12)。 Next, in the analysis support program 10, the ETL column mapping accuracy calculation unit 121 reads the data source catalog 32 and the ETL catalog 38, calculates the mapping accuracy, and writes it in the ETL column mapping accuracy management table 39 (S12).
 ETLカラムマッピング確度算出部121は、データソースカタログ32のテーブル名323とカラム名324を取得して、ETLカタログ38の入力テーブル名383と入力カラム名384を検索し、一致するエントリのETL名382と出力カラム名386を取得する。 The ETL column mapping accuracy calculation unit 121 obtains the table name 323 and the column name 324 of the data source catalog 32, and searches the input table name 383 and the input column name 384 of the ETL catalog 38, and the ETL name 382 of the matching entry. And get the output column name 386.
 そして、ETLカラムマッピング確度算出部121は、入力カラム名384と出力カラム名386のマッピング確度を算出する。ETLカラムマッピング確度算出部121は、ETLカラムマッピング確度管理テーブル39に新たなエントリを生成してからユニークなETLマッピングID391を付与する。 Then, the ETL column mapping accuracy calculation unit 121 calculates the mapping accuracy of the input column name 384 and the output column name 386. After generating a new entry in the ETL column mapping accuracy management table 39, the ETL column mapping accuracy calculating unit 121 assigns a unique ETL mapping ID 391.
 ETLカラムマッピング確度算出部121は、算出したマッピング確度をマッピング確度396に格納し、マップ元テーブル名392に入力テーブル名383を格納し、マップ元カラム名393に入力カラム名384を格納し、マップ先ETL名394にETL名382を格納し、マップ先カラム名395に出力カラム名386を格納して、ETLカラムマッピング確度管理テーブル39を生成する。 The ETL column mapping accuracy calculation unit 121 stores the calculated mapping accuracy in the mapping accuracy 396, stores the input table name 383 in the map source table name 392, stores the input column name 384 in the map source column name 393, and maps The ETL name 382 is stored in the destination ETL name 394, the output column name 386 is stored in the mapping destination column name 395, and the ETL column mapping probability management table 39 is generated.
 ETLカラムマッピング確度算出部121は、上記処理をデータソースカタログ32のすべてのエントリについて実行する。これにより、単純なマッピングでは利用できないデータソースのカラムを、マップ先カラム名395の単位やデータ形式に変換することが可能となる。ETLカタログ38では、1以上のデータソースのカラムを1つのマップ先カラム名356に集約したり、ひとつのデータソースのカラムを複数のマップ先カラム名356に分割する定義を設定することができる。 The ETL column mapping accuracy calculation unit 121 executes the above processing for all entries in the data source catalog 32. As a result, it becomes possible to convert a column of a data source which can not be used by simple mapping into a unit of the mapping destination column name 395 or a data format. In the ETL catalog 38, one or more data source columns can be consolidated into one mapped column name 356, or a definition can be set to divide one data source column into a plurality of mapped column names 356.
 次に、分析支援プログラム10の分析難易度算出部13は、分析カタログ31の各分析について、データソースカタログ32のデータで分析を行う場合の難易度をそれぞれ算出する(S13)。 Next, the analysis difficulty level calculation unit 13 of the analysis support program 10 calculates, for each analysis in the analysis catalog 31, the difficulty level in the case of performing analysis using the data of the data source catalog 32 (S13).
 分析難易度算出部13は、カラムマッピング確度管理テーブル35のマッピング確度357と、ETLカラムマッピング確度管理テーブル39のマッピング確度396から値の大きい方のマッピング確度を選択する。なお、分析難易度算出部13は、カラムマッピング確度管理テーブル35のマップ元カラム名354が、ETLカタログ38の入力カラム名384に該当するエントリが存在しない場合は、カラムマッピング確度管理テーブル35の値を選択する。 The analysis difficulty level calculation unit 13 selects the mapping accuracy of the larger value from the mapping accuracy 357 of the column mapping accuracy management table 35 and the mapping accuracy 396 of the ETL column mapping accuracy management table 39. If there is no entry where the mapping source column name 354 of the column mapping accuracy management table 35 corresponds to the input column name 384 of the ETL catalog 38, the analysis difficulty calculation unit 13 determines the value of the column mapping accuracy management table 35. Choose
 そして、分析難易度算出部13のデータ品質分析難易度補正部132は、選択されたマッピング確度をデータ品質管理テーブル41の総合スコア419で補正してから、分析対象データに対する分析処理の難易度を分析ID毎に算出する。 Then, the data quality analysis difficulty level correction unit 132 of the analysis difficulty level calculation unit 13 corrects the selected mapping accuracy with the overall score 419 of the data quality management table 41, and then the difficulty level of the analysis processing for the analysis target data. Calculated for each analysis ID.
 図20は、上記ステップS13で行われる難易度の算出処理の一例を示すフローチャートである。まず、ステップS31では、分析難易度算出部13が、データ品質管理テーブル41を読み込んで、カラム名414毎の総合スコア419を取得する。 FIG. 20 is a flowchart showing an example of the process of calculating the degree of difficulty performed in step S13. First, in step S31, the analysis difficulty level calculation unit 13 reads the data quality management table 41, and acquires the total score 419 for each column name 414.
 次に、ステップS32では、分析難易度算出部13が、カラムマッピング確度管理テーブル35と、ETLカラムマッピング確度管理テーブル39を読み込んで、データソースとETLのカラムの比較を行う。 Next, in step S32, the analysis difficulty calculation unit 13 reads the column mapping accuracy management table 35 and the ETL column mapping accuracy management table 39, and compares the data source and the ETL columns.
 すなわち、分析難易度算出部13は、カラムマッピング確度管理テーブル35のマップ元テーブル名353とマップ元カラム名354が、ETLカラムマッピング確度管理テーブル39のマップ元テーブル名392とマップ元カラム名393と一致する場合、マッピング確度357とETLカラムマッピング確度管理テーブル39のマッピング確度396のうち、値が大きい方を当該マップ元カラム名のマッピング確度として選択する。 That is, in the analysis difficulty level calculation unit 13, the map source table name 353 and the map source column name 354 of the column mapping accuracy management table 35, the map source table name 392 and the map source column name 393 of the ETL column mapping accuracy management table 39 If they match, the larger one of the mapping accuracy 357 and the mapping accuracy 396 of the ETL column mapping accuracy management table 39 is selected as the mapping accuracy of the map source column name.
 次に、ステップS33では、分析難易度算出部13が、上記ステップS32で選択したカラム毎のマッピング確度を分析ID311毎に取得し、ステップS31で取得したカラム名414毎の総合スコア419でマッピング確度を補正してから難易度を算出する。 Next, in step S33, the analysis difficulty calculation unit 13 acquires, for each analysis ID 311, the mapping accuracy for each column selected in step S32, and the mapping accuracy with the total score 419 for each column name 414 acquired in step S31. And calculate the difficulty.
 分析ID311に含まれるカラムの番号をn、選択したマッピング確度をS、データ品質管理テーブル41のスコアをTとすると、難易度Dは、
D=(S1×T1)×(S2×T2)………×(Sn×Tn)
で表される。
Assuming that the column number included in the analysis ID 311 is n, the selected mapping accuracy is S, and the score of the data quality management table 41 is T, the difficulty D is
D = (S1 x T1) x (S2 x T2) ......... x (Sn x Tn)
Is represented by
 選択したマッピング確度Sにデータ品質の総合スコアTを乗じて補正することで、データの品質が低いほど難易度Dの値は低くなり、データソースの前処理(クレンジング)に時間や労力を要することになる。 By correcting the selected mapping accuracy S by multiplying it by the overall score of data quality, the lower the data quality, the lower the value of difficulty D, and it takes time and effort to preprocess (cleanse) the data source. become.
 次に、ステップS34では、分析難易度算出部13のデータ品質分析難易度補正部132が、上記ステップS33で算出された難易度に基づいて、分析カタログ31の標準所要時間316の値を後述するように補正する。 Next, in step S34, the data quality analysis difficulty level correction unit 132 of the analysis difficulty level calculation unit 13 calculates the value of the standard required time 316 of the analysis catalog 31 based on the difficulty level calculated in step S33. To correct.
 次に、ステップS35では、分析難易度算出部13が分析難易度管理テーブル36を生成する。すなわち、分析難易度算出部13は、分析難易度管理テーブル36に新たなエントリを追加して、分析カタログ31の分析ID311と分析名312とアプリケーション/クエリ313を、分析ID361、分析名362とアプリケーション/クエリ363に格納する。 Next, in step S35, the analysis difficulty level calculation unit 13 generates an analysis difficulty level management table 36. That is, the analysis difficulty level calculation unit 13 adds a new entry to the analysis difficulty level management table 36, and the analysis ID 311, the analysis name 312, the application / query 313 of the analysis catalog 31, the analysis ID 361, the analysis name 362, and the application / Store in the query 363
 そして、分析難易度算出部13はステップS33で算出された難易度を難易度364に格納し、分析カタログ31の標準所要時間316を標準所要時間365に格納し、ステップS34で補正された標準所要時間を補正後所要時間366に格納して処理を終了する。 Then, the analysis difficulty level calculation unit 13 stores the difficulty level calculated in step S33 in the difficulty level 364 and stores the standard required time 316 of the analysis catalog 31 in the standard required time 365, and the standard required corrected in step S34. The time is stored in the required time after correction 366 and the process is ended.
 図21は、難易度の算出を説明する分析難易度根拠812の表示領域の一例を示す図である。図21では、分析ID311=「4」の「設備ごとのアラート回数集計」について分析対象データの難易度364を算出する例を示す。 FIG. 21 is a view showing an example of a display area of the analysis difficulty level basis 812 for explaining calculation of the difficulty level. FIG. 21 illustrates an example in which the difficulty level 364 of the analysis target data is calculated for the “total number of alerts per facility” analysis ID 311 = “4”.
 カラムマッピング確度算出部12は、必要カラム管理テーブル34から、共通データモデル60の設備アラート64からカラム名344=「設備ID」と「日時」を取得する。また、カラムマッピング確度算出部12は、データソースカタログ32からテーブル名323=「設備アラート」からカラム名324=「設備ID」と「日付時刻」を取得する。 The column mapping accuracy calculation unit 12 acquires the column name 344 = "equipment ID" and "date and time" from the equipment alert 64 of the common data model 60 from the necessary column management table 34. Further, the column mapping accuracy calculation unit 12 acquires the column name 324 = "equipment ID" and "date time" from the table name 323 = "equipment alert" from the data source catalog 32.
 カラムマッピング確度算出部12は、共通データモデル60とデータソースのマッピング確度を算出し、図8で示したように、「設備ID」のマッピング確度=0.95と「日付時刻」と「日時」のマッピング確度=0.9を得る。 The column mapping accuracy calculation unit 12 calculates the mapping accuracy of the common data model 60 and the data source, and as shown in FIG. 8, the mapping accuracy of “equipment ID” = 0.95, “date and time” and “date and time” The mapping accuracy of = 0.9 is obtained.
 ETLカラムマッピング確度算出部121は、ETLカタログ38から入力カラム名384に「日付時刻」を含む「設備アラート日時変換」を選択し、出力カラム名386=「日時(時間単位)」を取得してマッピング確度=0.9を算出する。 The ETL column mapping accuracy calculation unit 121 selects “equipment alert date and time conversion” including “date and time” in the input column name 384 from the ETL catalog 38, and acquires the output column name 386 = “date and time (time unit)” Calculate mapping accuracy = 0.9.
 カラムマッピング確度算出部12は、ETLによるマッピング確度と、共通データモデル60によるマッピング確度のうち値の大きい方を取得する。この結果、選択されたマッピング確度は、「設備ID」=0.95、「日時」=0.9となる。 The column mapping accuracy calculating unit 12 acquires the larger one of the mapping accuracy by the ETL and the mapping accuracy by the common data model 60. As a result, the selected mapping accuracy is “equipment ID” = 0.95 and “date and time” = 0.9.
 次に、分析難易度算出部13ではデータ品質分析難易度補正部132が、データ品質管理テーブル41から総合スコア419を読み込んで、「設備ID」=0.98と「日付時刻」=1.0を取得する。 Next, in the analysis difficulty level calculation unit 13, the data quality analysis difficulty level correction unit 132 reads the total score 419 from the data quality management table 41, and “equipment ID” = 0.98 and “date time” = 1.0 To get
 データ品質分析難易度補正部132は、マッピング確度を総合スコア419で補正して難易度364を算出する。すなわち、難易度=(0.95×0.98)×(1.0×0.9)=0.8379となる。 The data quality analysis difficulty correction unit 132 corrects the mapping accuracy with the overall score 419 to calculate the difficulty 364. That is, the degree of difficulty = (0.95 × 0.98) × (1.0 × 0.9) = 0.8379.
 図22は、標準所要時間の補正処理の一例を示すフローチャートである。この処理は、分析難易度算出部13が上記ステップS34で行う。 FIG. 22 is a flowchart showing an example of the standard required time correction process. This process is performed by the analysis difficulty level calculation unit 13 in step S34.
 ステップS41で分析難易度算出部13は、カラムマッピング確度管理テーブル35を読み込んで、難易度が0.8を超えていれば、ステップS47へ進んで、標準所要時間316をそのまま補正後所要時間366に格納する。 In step S41, the analysis difficulty level calculation unit 13 reads the column mapping accuracy management table 35, and if the difficulty level exceeds 0.8, the process proceeds to step S47, and the standard required time 316 is corrected as it is the required time 366 Store in
 ステップS42では分析難易度算出部13が、難易度が0.8以下で、かつ難易度が0.6以上であれば、ステップS46へ進んで補正係数を1.2とし、標準所要時間316に1.2を乗じた値を補正後所要時間366に格納する。 In step S42, if the analysis difficulty level calculation unit 13 determines that the difficulty level is 0.8 or less and the difficulty level is 0.6 or more, the process proceeds to step S46, the correction coefficient is set to 1.2, and the standard required time 316 is set. The value multiplied by 1.2 is stored in the corrected required time 366.
 ステップS43では分析難易度算出部13が0.6未満で、かつ難易度が0.4以上であれば、ステップS45へ進んで補正係数を1.5とし、標準所要時間316に1.5を乗じた値を補正後所要時間366に格納する。 In step S43, if the analysis difficulty calculation unit 13 is less than 0.6 and the difficulty is 0.4 or more, the process proceeds to step S45, the correction coefficient is set to 1.5, and the standard required time 316 is set to 1.5. The multiplied value is stored in the corrected required time 366.
 ステップS44では分析難易度算出部13が、難易度が0.4未満であるので補正係数を2とし、標準所要時間316に2を乗じた値を補正後所要時間366に格納する。 In step S44, since the difficulty level is less than 0.4, the analysis difficulty level calculation unit 13 sets the correction coefficient to 2 and stores a value obtained by multiplying the standard required time 316 by 2 in the corrected required time 366.
 上記処理によって、共通データモデル60とデータソースのマッピング確度と、ETLカタログ38とデータソースのマッピング確度のうち大きい方が選択されて、データ品質の総合スコア419で補正されたマッピング確度の乗算値から当該分析IDをデータソースで実施する場合の難易度364が算出される。 By the above processing, the higher one of the mapping accuracy of the common data model 60 and the data source and the mapping accuracy of the ETL catalog 38 and the data source is selected, and the multiplication value of the mapping accuracy corrected by the overall score 419 of data quality is selected. The degree of difficulty 364 in the case of performing the analysis ID in the data source is calculated.
 これにより、データ品質の総合スコア419が高いほど難易度364の値は大きくなって、データソースの前処理(クレンジング)に要する労力が低減される。逆に、データ品質の総合スコア419が低いほど難易度364の値は小さくなって、データソースの前処理に要する労力が増大する。 As a result, the higher the overall data quality score 419 is, the higher the value of the difficulty 364 is, and the effort required for preprocessing (cleansing) of the data source is reduced. Conversely, the lower the overall data quality score 419 is, the smaller the value of the difficulty 364 is, and the effort required to preprocess the data source increases.
 また、標準所要時間316は難易度364に応じて補正係数が設定され、難易度364の値が低いほど補正係数が大きくなるように補正される。これにより、難易度364の値が小さいほど、データのクレンジングなどの前処理に要する時間又は労力が増大するため、所要時間も増大するように補正される。 Further, a correction factor is set according to the difficulty level 364 in the standard required time 316, and the correction factor is corrected to be larger as the value of the difficulty level 364 is lower. As a result, as the value of the difficulty 364 decreases, the time or effort required for preprocessing such as data cleansing increases, and the time required is also corrected to increase.
 次に、図19のステップS14では、分析支援プログラム10の分析推薦部15が、分析難易度管理テーブル36で難易度の大きい順にソートしてから、後述するように納期318を考慮して上位の分析処理から順に推薦対象として選択する。 Next, in step S14 of FIG. 19, the analysis / recommendation unit 15 of the analysis support program 10 sorts the analysis difficulty level management table 36 in descending order of the degree of difficulty, and then considers the delivery date 318 as described later. It selects as recommendation object in order from analysis processing.
 ステップS15では、分析推薦部15が、上記ステップS14で選択された分析処理(分析名)を、ディスプレイ8に結果確認画面81として表示する。ステップS16では、分析推薦部15が、結果確認画面81でデータソースから共通データモデルへのマッピングが確定されたか否かを判定する。確定ボタン813がクリックされて、データソースから共通データモデルへのマッピングが確定した場合にはステップS17へ進み、確定していない場合にはステップS18へ進む。 In step S <b> 15, the analysis and recommendation unit 15 displays the analysis process (analysis name) selected in step S <b> 14 on the display 8 as a result confirmation screen 81. In step S16, the analysis and recommendation unit 15 determines whether the mapping from the data source to the common data model has been determined on the result confirmation screen 81. If the determination button 813 is clicked and the mapping from the data source to the common data model is determined, the process proceeds to step S17. If the mapping is not determined, the process proceeds to step S18.
 ステップS17では、分析推薦部15のマッピング確定部17が、確定ボタン813がクリックされたマッピングに対応するマッピング確度357を1.0に設定してカラムマッピング確度管理テーブル35を更新する。その後、ステップS13へ戻って難易度364の再計算が実行される。 In step S17, the mapping determination unit 17 of the analysis and recommendation unit 15 updates the column mapping accuracy management table 35 by setting the mapping accuracy 357 corresponding to the mapping for which the determination button 813 is clicked to 1.0. Thereafter, the process returns to step S13, and recalculation of the difficulty level 364 is performed.
 ステップS18では、分析推薦部15が結果確認画面81の表示の終了を検出すると、処理を終了し、そうでない場合にはステップS16へ戻って確定ボタン813の操作を受け付ける。 In step S18, when the analysis / recommendation unit 15 detects the end of the display of the result confirmation screen 81, the process ends. If not, the process returns to step S16 and the operation of the confirmation button 813 is accepted.
 上記処理によって、結果確認画面81には難易度364の値が高い分析から順に表示される。すなわち、前処理に要する時間や労力の少ない分析が上位に表示されるので、最上位の分析から実施していくことで、データの分析に要する工数を低減することが可能となる。 As a result of the above-described process, the results confirmation screen 81 displays the values of the difficulty 364 in descending order of analysis. That is, since an analysis with less time and labor required for preprocessing is displayed at the top, it is possible to reduce the number of man-hours required for data analysis by carrying out the analysis from the top.
 図23は、分析推薦部15で行われる推薦処理の一例を示すフローチャートである。この処理は図19のステップS14で行われる処理である。ステップS51では、分析推薦部15が、分析難易度管理テーブル36のエントリを難易度364の値が大きい順にソートする。 FIG. 23 is a flowchart showing an example of the recommendation process performed by the analysis and recommendation unit 15. This process is a process performed in step S14 of FIG. In step S51, the analysis and recommendation unit 15 sorts the entries of the analysis difficulty level management table 36 in descending order of the value of the difficulty level 364.
 次に、ステップS52では、分析推薦部15の分析スケジューリング部151が、分析カタログ31とスキルセット実績42と分析難易度管理テーブル36を参照して、フォワードスケジューリングにより分析に対して人員や分析ソフトウェアを割り当てる。 Next, in step S52, the analysis scheduling unit 151 of the analysis and recommendation unit 15 refers to the analysis catalog 31, the skill set record 42, and the analysis difficulty level management table 36 to forward personnel and analysis software against analysis by forward scheduling. assign.
 分析スケジューリング部151は、難易度364の値が大きい順に分析ID36を取得して、分析カタログ31から必要スキル317と納期318を取得する。分析スケジューリング部151は、分析難易度管理テーブル36から分析ID361に対応する補正後所要時間366を取得する。 The analysis scheduling unit 151 acquires the analysis ID 36 in the descending order of the value of the difficulty 364, and acquires the necessary skill 317 and the due date 318 from the analysis catalog 31. The analysis scheduling unit 151 acquires the post-correction required time 366 corresponding to the analysis ID 361 from the analysis difficulty level management table 36.
 分析スケジューリング部151は、スキルセット実績42から必要スキル317を満たす人員を選択し、補正後所要時間366と納期318を満たすようにフォワードスケジューリングを実施する。なお、フォワードスケジューリングについては公知または周知の技術を適用すれば良い。 The analysis scheduling unit 151 selects personnel who satisfy the necessary skill 317 from the skill set performance 42, and performs forward scheduling so as to satisfy the corrected required time 366 and the due date 318. A known or known technique may be applied to forward scheduling.
 次に、ステップS53では、分析スケジューリング部151が、スケジューリングの結果を参照して、分析難易度管理テーブル36の全ての分析が納期318以内に処理を完了しているか否かを判定する。全ての分析が納期318以内であれば処理を終了し、納期318を超える分析があれば、ステップS54へ進む。 Next, in step S53, the analysis scheduling unit 151 determines whether all the analyzes in the analysis difficulty level management table 36 have completed the processing within the due date 318 with reference to the scheduling result. If all the analyzes are within the delivery date 318, the process is ended, and if there is an analysis exceeding the delivery date 318, the process proceeds to step S54.
 ステップS54では、分析スケジューリング部151が、スケジューリングの再計算の回数(試行の回数)が所定の閾値以上になったか否かを判定する。再計算の回数が所定の閾値以上であれば、ステップS55へ進んで、分析スケジューリング部151は納期が遅延するエラーメッセージを出力する。 In step S54, the analysis scheduling unit 151 determines whether the number of scheduling recalculations (the number of trials) has reached a predetermined threshold or more. If the number of recalculations is equal to or greater than a predetermined threshold value, the process proceeds to step S55, and the analysis scheduling unit 151 outputs an error message for delaying the delivery date.
 一方、再計算の回数が閾値未満であれば、ステップS56へ進んで、分析スケジューリング部151が納期318を超えた分析ID361の順位を1つ上げて、推薦する順位を変更し、ステップS52へ戻って上記処理を繰り返す。 On the other hand, if the number of recalculations is less than the threshold, the process proceeds to step S56, the analysis scheduling unit 151 raises the rank of the analysis ID 361 exceeding the due date 318 by one, changes the recommendation rank, and returns to step S52. Repeat the above process.
 上記処理によって、分析難易度管理テーブル36の分析処理は、難易度364の値が大きい順で、かつ、納期318を満たすようにスケジューリングされる。 By the above process, the analysis process of the analysis difficulty level management table 36 is scheduled so that the value of the difficulty level 364 is in the descending order and the delivery date 318 is satisfied.
 図25は、分析推薦部15が生成する結果確認画面81の一例を示す図である。結果確認画面81は、図中上部を分析一覧811の表示領域とし、図中下部を分析難易度根拠812の表示領域とする。なお、分析難易度根拠812は、分析一覧811の一行が選択された後に表示される。 FIG. 25 is a view showing an example of the result confirmation screen 81 generated by the analysis and recommendation unit 15. In the result confirmation screen 81, the upper part in the drawing is a display area of the analysis list 811, and the lower part in the drawing is a display area of the analysis difficulty level basis 812. The analysis difficulty level basis 812 is displayed after one line of the analysis list 811 is selected.
 分析一覧811には、チェックボックスと、分析IDと、分析名と、アプリケーションまたはクエリの種別と、難易度と、補正後所要時間と、終了予定及び完了フラグをひとつの行に含むリストで構成され、分析の内容が表示される。なお、終了予定は、スケジューリングの結果に基づいて決定され、その他の項目は分析難易度管理テーブル36の値、または分析カタログ31の値が設定される。 The analysis list 811 is composed of a list including check boxes, analysis ID, analysis name, application or query type, difficulty, required time after correction, end schedule and completion flag in one line. , The contents of the analysis are displayed. The end schedule is determined based on the result of scheduling, and the other items are set to the values of the analysis difficulty level management table 36 or the values of the analysis catalog 31.
 分析一覧811の右上には、エクスポートボタン815と、再スケジュールボタン816が配置される。チェックボックスを選択してから、エクスポートボタン815をクリックすると、チェックボックスを選択した行の分析内容が連携インタフェース18を介して所定のファイル形式(例えば、CSV形式)で出力される。 At the upper right of the analysis list 811, an export button 815 and a reschedule button 816 are arranged. When a check box is selected and then the export button 815 is clicked, the analysis content of the line for which the check box is selected is output in a predetermined file format (for example, CSV format) via the cooperation interface 18.
 また、チェックボックスを選択してから再スケジュールボタン816をクリックすることで、選択された行について、再度スケジューリングを実施することができる。 In addition, by selecting a check box and clicking a reschedule button 816, it is possible to perform scheduling again for the selected row.
 なお、分析難易度根拠812は、前記実施例1の構成に加えて、ETLカタログ名814が追加される。分析難易度算出部13がETLカタログ38のマッピング確度を選択した場合には、ETLカタログ名814が表示される。 In addition to the configuration of the first embodiment, the analysis difficulty level basis 812 is added with an ETL catalog name 814. When the analysis difficulty calculation unit 13 selects the mapping accuracy of the ETL catalog 38, the ETL catalog name 814 is displayed.
 図示の分析難易度根拠812の最下段には、データソースのカラムのデータ品質スコアが表示された例を示す。データ品質スコアは、0~1の値の範囲で、1に近づくにつれて重複や欠損のないデータであることを示す。データ品質スコアの値が大きいほど、分析の前処理に要する労力が低いことを示す。 At the bottom of the illustrated analysis difficulty level ground 812, an example is shown in which the data quality score of the column of the data source is displayed. The data quality score indicates that it is data without duplication or loss as it approaches 1 within a value range of 0 to 1. The larger the value of the data quality score, the lower the effort required to preprocess the analysis.
 図24は、分析推薦部15で行われる結果確認画面処理の一例を示すフローチャートである。この処理は図19のステップS15で行われる処理である。 FIG. 24 is a flowchart showing an example of the result confirmation screen process performed by the analysis and recommendation unit 15. This process is a process performed in step S15 of FIG.
 ステップS61では、分析推薦部15が、分析難易度管理テーブル36を読み込んで、結果確認画面81を生成し、分析一覧811に上記図23でスケジューリングした順序で分析の内容を表示する。 In step S61, the analysis / recommendation unit 15 reads the analysis difficulty level management table 36, generates the result confirmation screen 81, and displays the contents of analysis in the order of scheduling in FIG.
 分析一覧811には、チェックボックスと、分析IDと、分析名と、アプリケーションまたはクエリと、難易度と、補正後所要時間と、終了予定(納期318)及び完了フラグをひとつの行に含むリストとして分析の内容が表示される。 The analysis list 811 contains a check box, an analysis ID, an analysis name, an application or query, a difficulty level, a corrected time required, an end schedule (delivery date 318), and a completion flag in one line. The contents of the analysis are displayed.
 ステップS62では、分析推薦部15が、分析支援サーバ1の利用者がマウス92を操作してひとつの行を選択したか否かを判定する。行が選択された場合には、ステップS63へ進み、そうでない場合にはステップS64へ進む。 In step S62, the analysis and recommendation unit 15 determines whether the user of the analysis support server 1 operates the mouse 92 to select one row. If a row is selected, the process proceeds to step S63. If not, the process proceeds to step S64.
 ステップS63では、分析推薦部15が、分析一覧811で選択された行のマッピング確度とマップ元とマップ先の情報を、カラムマッピング確度管理テーブル35またはETLカラムマッピング確度管理テーブル39から取得して、分析難易度根拠812の表示領域に出力する。 In step S63, the analysis / recommendation unit 15 acquires the mapping accuracy of the row selected in the analysis list 811 and the information of the map source and the map destination from the column mapping accuracy management table 35 or the ETL column mapping accuracy management table 39, Output to the display area of the analysis difficulty level basis 812.
 ステップS64では、分析推薦部15が、分析支援サーバ1の利用者がマウス92を操作してエクスポートボタン815を選択したか否かを判定する。エクスポートボタン815が選択された場合には、ステップS65へ進み、そうでない場合にはステップS66へ進む。 In step S64, the analysis and recommendation unit 15 determines whether the user of the analysis support server 1 operates the mouse 92 to select the export button 815. If the export button 815 is selected, the process proceeds to step S65. If not, the process proceeds to step S66.
 ステップS65では、分析推薦部15が、分析一覧811のチェックボックスで選択された分析の内容が、所定のファイル形式で出力される。 In step S65, the analysis and recommendation unit 15 outputs the content of the analysis selected by the check box of the analysis list 811 in a predetermined file format.
 ステップS66では、分析推薦部15が、分析支援サーバ1の利用者がマウス92を操作して再スケジュールボタン816を選択したか否かを判定する。再スケジュールボタン816が選択された場合には、ステップS67へ進み、そうでない場合にはステップS68へ進む。 In step S66, the analysis and recommendation unit 15 determines whether the user of the analysis support server 1 operates the mouse 92 to select the reschedule button 816 or not. If the re-scheduling button 816 is selected, the process proceeds to step S67. If not, the process proceeds to step S68.
 ステップS67では、分析推薦部15の分析スケジューリング部151が、分析一覧811のチェックボックスで選択された分析の内容について、再度スケジューリングを実施する。その後、ステップS61へ戻って、分析一覧811の内容を更新する。 In step S67, the analysis scheduling unit 151 of the analysis and recommendation unit 15 performs scheduling again for the content of the analysis selected by the check box of the analysis list 811. Thereafter, the process returns to step S61, and the contents of the analysis list 811 are updated.
 ステップS68では、分析推薦部15が、分析支援サーバ1の利用者がマウス92を操作して確定ボタン813を選択したか否かを判定する。確定ボタン813が選択された場合にはステップS69へ進み、そうでない場合にはステップS70へ進む。 In step S 68, the analysis and recommendation unit 15 determines whether the user of the analysis support server 1 operates the mouse 92 to select the confirmation button 813. If the confirmation button 813 is selected, the process proceeds to step S69, and if not, the process proceeds to step S70.
 ステップS69では、図19のステップS13へ戻って、難易度364の再計算を実施する。 In step S69, the process returns to step S13 of FIG.
 ステップS70では、分析推薦部15が、分析支援サーバ1の利用者がマウス92を操作して結果確認画面81のクローズボックスを選択したか否かを判定する。クローズボックスが選択された場合には処理を終了し、そうでない場合にはステップS61へ戻って上記処理を繰り返す。 In step S70, the analysis and recommendation unit 15 determines whether the user of the analysis support server 1 operates the mouse 92 and selects the close box of the result confirmation screen 81. If the close box is selected, the process ends. If not, the process returns to step S61 to repeat the above process.
 以上の処理によって、結果確認画面81で分析難易度根拠812の表示や、再スケジューリングや、マッピング確度の更新と難易度の再計算などを実施することができる。 By the above processing, it is possible to display the analysis difficulty level basis 812 on the result confirmation screen 81, re-scheduling, update of the mapping accuracy, recalculation of the difficulty level, and the like.
 このように、本実施例2では、ETLカタログ38と、データソースの品質を考慮してカラムマッピング確度及び難易度を算出し、作業効率の良い順序で分析ソフトウェアを提案することができる。 As described above, in the second embodiment, the column mapping accuracy and the difficulty level can be calculated in consideration of the ETL catalog 38 and the quality of the data source, and the analysis software can be proposed in the order of good work efficiency.
 図26、図27は、実施例3の一例を示す。本実施例3では、前記実施例2の構成に加えて、イベントログをデータソースとするデータ収集サーバ450、460を追加し、分析支援プログラム10のカラムマッピング確度算出部12にイベントログ-テーブル変換部を追加し、ストレージ20にアラートコードマスタ43を追加した例を示す。なお、その他の構成については、前記実施例2と同様である。 26 and 27 show an example of the third embodiment. In the third embodiment, in addition to the configuration of the second embodiment, data collection servers 450 and 460 having an event log as a data source are added, and event log-table conversion to the column mapping probability calculation unit 12 of the analysis support program 10 An example is shown in which a part is added and the alert code master 43 is added to the storage 20. The other configuration is the same as that of the second embodiment.
 図26は、データ分析支援システムの一例を示すブロック図である。地区Aのデータ収集サーバ450と、地区Bのデータ収集サーバ460は、交通関係のデータを収集する。地区Aのデータ収集サーバ450は、車両データ451と、運行データ452と、保線データ453と、設備保守実績454と、気象データ455と、設備アラート456を収集し、データソースとして分析サーバ群300へ提供する。 FIG. 26 is a block diagram showing an example of a data analysis support system. The data collection server 450 of the area A and the data collection server 460 of the area B collect traffic related data. The data collection server 450 of the area A collects vehicle data 451, operation data 452, track maintenance data 453, facility maintenance results 454, weather data 455 and facility alert 456, and sends it to the analysis server group 300 as a data source. provide.
 同様に地区Bのデータ収集サーバ460は、車両データ461と、運行データ462と、設備保守実績463と、設備アラート464を収集し、データソースとして分析サーバ群300へ提供する。 Similarly, the data collection server 460 of the area B collects the vehicle data 461, the operation data 462, the equipment maintenance result 463, and the equipment alert 464 and provides the data to the analysis server group 300 as a data source.
 データレイクサーバ2のストレージ20には、共通データモデル60に車両データ61Aと、運行データ62Aと、保守データ63Aと、設備アラート64Aが予め設定されている。 In the storage 20 of the data lake server 2, vehicle data 61A, operation data 62A, maintenance data 63A, and equipment alert 64A are preset to the common data model 60.
 図27は、分析支援プログラムの機能要素の一例を示すブロック図である。分析支援プログラム10のカラムマッピング確度算出部12には、データソースカタログ32とアラートコードマスタ43に基づいて、イベントログをテーブル形式に変換するイベントログ-テーブル変換部122が追加される。その他の構成については、前記実施例2と同様である。 FIG. 27 is a block diagram showing an example of functional elements of the analysis support program. The column mapping accuracy calculator 12 of the analysis support program 10 is added with an event log-table converter 122 which converts an event log into a table format based on the data source catalog 32 and the alert code master 43. The other configuration is the same as that of the second embodiment.
 図28は、イベントログ形式の設備アラート456、464の一例を示す図である。設備アラート456、464は、一行に日付、時刻、重要度、アラートID、設備名、車両番号、メッセージを含むデータで構成される。 FIG. 28 is a diagram showing an example of the facility alert 456, 464 in the event log format. The facility alerts 456 and 464 are composed of data including date, time, importance, alert ID, facility name, vehicle number, and message on one line.
 図29は、アラートコードマスタ43の一例を示す図である。アラートコードマスタ43は、アラートID431と、メッセージ432をひとつのエントリに含む。メッセージ432は、日付、時刻、重要度、アラートID、設備名、車両番号、メッセージを含む。 FIG. 29 shows an example of the alert code master 43. As shown in FIG. The alert code master 43 includes an alert ID 431 and a message 432 in one entry. The message 432 includes date, time, importance, alert ID, equipment name, vehicle number, and message.
 図30は、テーブル形式に変換した設備アラート456Tの一例を示す図である。設備アラート456Tは、イベントログ形式の設備アラート456を分析支援プログラム10のイベントログ-テーブル変換部122でテーブル形式に変換した結果である。 FIG. 30 is a diagram showing an example of the equipment alert 456T converted into the table format. The facility alert 456T is a result of converting the facility alert 456 in the event log format into a table format by the event log-table converter 122 of the analysis support program 10.
 設備アラート456Tは、日時4561と、重要度4562と、アラートID4563と、設備名4564と、車両番号4565と、メッセージ4566をひとつのエントリに含む。 The facility alert 456T includes the date and time 4561, the degree of importance 4562, the alert ID 4563, the facility name 4564, the vehicle number 4565, and the message 4566 in one entry.
 イベントログ-テーブル変換部122がイベントログ形式のデータをテーブル形式へ変換することで、共通データモデル60の設備アラート64Aを利用することが可能となる。 The facility log 64A of the common data model 60 can be used by the event log-table converter 122 converting data in the event log format into a table format.
 図31は、分析推薦部15が生成する過去実績確認画面83の一例を示す図である。分析推薦部15は、前記実施例2の図25に示した分析難易度根拠812の表示領域で所定の操作(例えば、ダブルクリックなど)が行われると過去実績確認画面83を出力する。 FIG. 31 is a view showing an example of the past result confirmation screen 83 generated by the analysis and recommendation unit 15. The analysis / recommendation unit 15 outputs the past results confirmation screen 83 when a predetermined operation (for example, a double click or the like) is performed in the display area of the analysis difficulty level ground 812 shown in FIG.
 過去実績確認画面83は、現在選択している分析のカラムマッピングを表示するウィンドウ84と、過去の実績を表示するウィンドウ85を含む。過去実績確認画面83には、過去実績関係表示ボタン831と、前実績ボタン834と、次実績ボタン833が配置される。 The past performance confirmation screen 83 includes a window 84 for displaying the column mapping of the currently selected analysis, and a window 85 for displaying past performance. In the past results confirmation screen 83, a past results relationship display button 831, a previous results button 834, and a next results button 833 are arranged.
 過去実績関係表示ボタン831をクリックすることで、分析推薦部15は、ウィンドウ84の分析IDで過去に表示した推薦結果を表示することができる。分析推薦部15は、推薦結果ファイル37を参照して、ウィンドウ84の分析IDの推薦結果を取得してウィンドウ85を生成する。 By clicking the past performance relationship display button 831, the analysis and recommendation unit 15 can display the recommendation result displayed in the past by the analysis ID of the window 84. The analysis and recommendation unit 15 refers to the recommendation result file 37, acquires the recommendation result of the analysis ID of the window 84, and generates the window 85.
 前実績ボタン834をクリックすることで、分析推薦部15は、ウィンドウ84の分析IDで過去に表示した推薦結果を過去に遡ることができる。次実績ボタン833をクリックすることで、分析推薦部15は、ウィンドウ84の分析IDで過去から前回に表示した推薦結果まで遷移することができる。 By clicking the previous result button 834, the analysis and recommendation unit 15 can trace back the recommendation result displayed in the past by the analysis ID of the window 84 in the past. By clicking the next result button 833, the analysis and recommendation unit 15 can transition from the past to the recommendation result displayed in the previous time using the analysis ID of the window 84.
 ウィンドウ84のマッピング確度の表示位置の近傍には、他候補ボタン832が配置される。他候補ボタン832をクリックすることで、分析推薦部15は図32に示す他候補提示画面86を出力する。図32は、分析推薦部15が生成する他候補提示画面86の一例を示す図である。 Another candidate button 832 is arranged near the display position of the mapping accuracy of the window 84. By clicking the other candidate button 832, the analysis and recommendation unit 15 outputs the other candidate presentation screen 86 shown in FIG. FIG. 32 is a view showing an example of the other candidate presentation screen 86 generated by the analysis and recommendation unit 15.
 他候補提示画面86は、カラムマッピング確度管理テーブル35と、ETLカラムマッピング確度管理テーブル39の内容と、各カラムマッピング確度が表示され、選択ボタンをクリックすることで、カラムマッピングの組み合わせを選択することが可能である。 The other candidate presentation screen 86 displays the column mapping accuracy management table 35, the contents of the ETL column mapping accuracy management table 39, and each column mapping accuracy, and selects a combination of column mapping by clicking the select button. Is possible.
 図33は、イベントログ-テーブル変換部122の処理の一例を示すフローチャートである。この処理は、カラムマッピング確度管理テーブル35を生成する際に実行する。 FIG. 33 is a flowchart showing an example of processing of the event log-table converter 122. This process is executed when generating the column mapping probability management table 35.
 まず、ステップS81では、イベントログ-テーブル変換部122がアラートコードマスタ43を読み込んでから、イベントログ形式の設備アラート456を読み込んで、テーブル形式の設備アラート456Tに変換する。 First, in step S81, the event log-table conversion unit 122 reads the alert code master 43, then reads the facility alert 456 in the event log format, and converts it into the facility alert 456T in the table format.
 ステップS82では、カラムマッピング確度算出部12が、データソースカタログ32と、共通データモデルカタログ33を読み込んで上述のようにカラムマッピング確度を算出してカラムマッピング確度管理テーブル35を生成する。 In step S82, the column mapping accuracy calculation unit 12 reads the data source catalog 32 and the common data model catalog 33, calculates the column mapping accuracy as described above, and generates the column mapping accuracy management table 35.
 図34は、分析推薦部15が生成する結果確認画面81の処理の一例を示すフローチャートである。この処理は、前記実施例2の図24のフローチャートにステップS101~S104を追加したもので、その他の構成は図24と同様である。 FIG. 34 is a flowchart showing an example of processing of the result confirmation screen 81 generated by the analysis and recommendation unit 15. This process is obtained by adding steps S101 to S104 to the flowchart of FIG. 24 of the second embodiment, and the other configuration is the same as that of FIG.
 ステップS61~S67までは前記実施例2と同様である。ステップS67の判定で、再スケジュールボタン816が選択されていない場合には、ステップS101へ進む。 Steps S61 to S67 are the same as in the second embodiment. If it is determined in step S67 that the reschedule button 816 is not selected, the process proceeds to step S101.
 ステップS101では、分析推薦部15が、過去実績表示の要求を受け付けたか否かを判定する。過去実績表示の要求は、上述のように分析難易度根拠812の表示領域でダブルクリックなどを受け付けたときである。当該過去実績表示の要求を受け付けると、分析推薦部15は、ステップS102へ進んで過去実績確認画面83を表示する。 In step S101, the analysis / recommendation unit 15 determines whether a request for display of past results has been received. The request for the past performance display is when a double click or the like is received in the display area of the analysis difficulty level 812 as described above. When receiving the request for displaying the past results, the analysis and recommendation unit 15 proceeds to step S102 and displays the past results confirmation screen 83.
 ステップS103では、分析推薦部15が、過去実績確認画面83で他候補ボタン832が選択されたか否かを判定する。他候補ボタン832が選択された場合には、ステップS104へ進んで分析推薦部15が他候補提示画面86を出力する。他候補ボタン832が選択されていない場合には、ステップS68へ進んで前記実施例2と同様の処理を繰り返す。 In step S103, the analysis and recommendation unit 15 determines whether or not the other candidate button 832 is selected on the past record confirmation screen 83. When the other candidate button 832 is selected, the process proceeds to step S104, and the analysis and recommendation unit 15 outputs the other candidate presentation screen 86. If the other candidate button 832 is not selected, the process proceeds to step S68, and the same process as that of the second embodiment is repeated.
 以上のように、本実施例3では、イベントログ形式のデータも前記実施例1、2のテーブル形式と同様に扱うことができ、分析の難易度に応じた分析ソフトウェアの推薦を行うことが可能となる。また、結果確認画面81では、過去の推薦結果や他の候補も参照することができ、分析処理の計画を円滑に推進することが可能となる。 As described above, in the third embodiment, data in the event log format can also be handled in the same manner as the table format of the first and second embodiments, and analysis software can be recommended according to the degree of difficulty of analysis. It becomes. In addition, in the result confirmation screen 81, past recommendation results and other candidates can be referred to, and it becomes possible to smoothly promote the analysis processing plan.
 なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に記載したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加、削除、又は置換のいずれもが、単独で、又は組み合わせても適用可能である。 The present invention is not limited to the embodiments described above, but includes various modifications. For example, the embodiments described above are described in detail in order to illustrate the present invention in an easy-to-understand manner, and are not necessarily limited to those having all the configurations described. Also, part of the configuration of one embodiment can be replaced with the configuration of another embodiment, and the configuration of another embodiment can be added to the configuration of one embodiment. In addition, addition, deletion, or replacement of other configurations may be applied singly or in combination with some of the configurations of the respective embodiments.
 また、上記の各構成、機能、処理部、及び処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、及び機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。 Further, each of the configurations, functions, processing units, processing means, and the like described above may be realized by hardware, for example, by designing part or all of them with an integrated circuit. In addition, each configuration, function, and the like described above may be realized by software by a processor interpreting and executing a program that realizes each function. Information such as programs, tables, and files for realizing each function can be placed in a memory, a hard disk, a recording device such as a solid state drive (SSD), or a recording medium such as an IC card, an SD card, or a DVD.
 また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。 Further, control lines and information lines indicate what is considered to be necessary for the description, and not all control lines and information lines in the product are necessarily shown. In practice, almost all configurations may be considered to be mutually connected.

Claims (15)

  1.  プロセッサとメモリを有する計算機が、分析対象データの評価を行う分析支援方法であって、
     前記計算機が、前記分析対象データのカラムの定義を格納した第1のデータカタログと、分析処理を実行する分析ソフトウェアの入力データのカラムを定義した第2のデータカタログを読み込む第1のステップと、
     前記計算機が、前記第1のデータカタログのカラムと前記第2のデータカタログのカラムの類似度をマッピング確度として算出する第2のステップと、
     前記計算機が、前記分析ソフトウェアで使用する前記第2のデータカタログのカラムのマッピング確度に基づいて当該分析ソフトウェアで前記分析対象データを分析する難易度を算出する第3のステップと、
    を含むことを特徴とする分析支援方法。
    A computer having a processor and a memory is an analysis support method for evaluating data to be analyzed,
    A first step of reading the first data catalog in which the definition of the columns of the analysis target data is stored, and the second data catalog in which the columns of the input data of analysis software for executing the analysis process are defined;
    A second step of calculating the similarity between the columns of the first data catalog and the columns of the second data catalog as a mapping probability;
    A third step of calculating the degree of difficulty of analyzing the data to be analyzed by the analysis software based on the mapping accuracy of the columns of the second data catalog used in the analysis software;
    An analysis support method characterized by including:
  2.  請求項1に記載の分析支援方法であって、
     前記計算機が、前記難易度に対応する前記分析ソフトウェアの情報を出力する第4のステップを、をさらに含み、
     前記第3のステップは、
     1以上の分析ソフトウェアの情報を格納した分析カタログを参照して、前記分析ソフトウェア毎に前記難易度を算出し、
     前記第4のステップは、
     前記算出された難易度を所定の順序でソートして、前記難易度に対応する前記分析ソフトウェアの情報を出力することを特徴とする分析支援方法。
    The analysis support method according to claim 1, wherein
    The computer further includes a fourth step of outputting information of the analysis software corresponding to the difficulty level,
    The third step is
    The degree of difficulty is calculated for each of the analysis software with reference to an analysis catalog storing information of one or more analysis software,
    The fourth step is
    An analysis support method comprising: sorting the calculated difficulty levels in a predetermined order; and outputting information of the analysis software corresponding to the difficulty levels.
  3.  請求項2に記載の分析支援方法であって、
     前記第3のステップは、
     前記分析ソフトウェアが使用する前記入力データのカラムを特定する必要カラム管理情報を参照して、前記分析ソフトウェアが使用するカラムを取得して、当該取得したカラムに対応する前記マッピング確度から前記難易度を算出することを特徴とする分析支援方法。
    The analysis support method according to claim 2,
    The third step is
    The required column management information for identifying the column of the input data used by the analysis software is referred to, the column used by the analysis software is acquired, and the difficulty level is calculated from the mapping accuracy corresponding to the acquired column. An analysis support method characterized by calculating.
  4.  請求項2に記載の分析支援方法であって、
     前記第2のステップは、
     前記分析対象データのカラムを前記入力データのカラムに変換する定義を格納した第3のデータカタログと、前記第1のデータカタログを読み込んで、前記第1のデータカタログのカラムと前記第3のデータカタログのカラムの類似度をETLマッピング確度として算出するステップを含み、
     前記第3のステップは、
     前記マッピング確度とETLカラムマッピング確度のうち大きい方を選択して前記難易度を算出することを特徴とする分析支援方法。
    The analysis support method according to claim 2,
    The second step is
    A third data catalog storing a definition for converting a column of the data to be analyzed into a column of the input data, and the first data catalog are read, and the columns of the first data catalog and the third data Calculating the similarity of catalog columns as ETL mapping accuracy,
    The third step is
    And calculating the difficulty level by selecting the larger one of the mapping accuracy and the ETL column mapping accuracy.
  5.  請求項1に記載の分析支援方法であって、
     前記第3のステップは、
     前記分析対象データの品質を示す指標を算出し、前記マッピング確度を前記指標で補正してから前記難易度を算出することを特徴とする分析支援方法。
    The analysis support method according to claim 1, wherein
    The third step is
    An analysis support method comprising: calculating an index indicating quality of the analysis target data; correcting the mapping accuracy with the index; and calculating the difficulty level.
  6.  請求項2に記載の分析支援方法であって、
     前記分析カタログは、
     前記分析ソフトウェア毎に処理に要する所要時間と、分析処理の納期を含み、
     前記第4のステップは、
     前記分析カタログを参照して前記所要時間から前記納期を満たすように前記分析ソフトウェア毎にスケジューリングを行うことを特徴とする分析支援方法。
    The analysis support method according to claim 2,
    The analysis catalog is
    The time required for processing for each analysis software and the due date of analysis processing,
    The fourth step is
    An analysis support method comprising: scheduling for each analysis software to satisfy the delivery date from the required time with reference to the analysis catalog.
  7.  請求項6に記載の分析支援方法であって、
     前記第4のステップは、
     前記難易度に基づいて前記所要時間を補正して、当該補正した所要時間に基づいて前記スケジューリングを行うことを特徴とする分析支援方法。
    The analysis support method according to claim 6, wherein
    The fourth step is
    3. An analysis support method comprising: correcting the required time based on the degree of difficulty; and performing the scheduling based on the corrected required time.
  8.  プロセッサとメモリを有して、分析対象データの評価を行う分析支援サーバであって、
     前記分析対象データのカラムの定義を格納した第1のデータカタログと、分析処理を実行する分析ソフトウェアの入力データのカラムを定義した第2のデータカタログを読み込んで、前記第1のデータカタログのカラムと前記第2のデータカタログのカラムの類似度をマッピング確度として算出するカラムマッピング確度算出部と、
     前記分析ソフトウェアが使用する前記第2のデータカタログのカラムのマッピング確度に基づいて当該分析ソフトウェアで前記分析対象データを分析する難易度を算出する難易度算出部と、
    を有することを特徴とする分析支援サーバ。
    An analysis support server that has a processor and a memory and evaluates data to be analyzed,
    The first data catalog storing the definition of the columns of the analysis target data and the second data catalog defining the columns of the input data of the analysis software for executing the analysis process are read, and the columns of the first data catalog are stored. A column mapping accuracy calculating unit that calculates the similarity of the columns of the second data catalog as the mapping accuracy;
    A degree of difficulty calculation unit that calculates the degree of difficulty of analyzing the data to be analyzed by the analysis software based on the mapping accuracy of the columns of the second data catalog used by the analysis software;
    An analysis support server characterized by having.
  9.  請求項8に記載の分析支援サーバであって、
     1以上の分析ソフトウェアの情報を格納した分析カタログと、
     前記難易度に対応する前記分析ソフトウェアの情報を出力する推薦部と、をさらに有し、
     前記難易度算出部は、
     前記分析カタログの分析ソフトウェア毎に前記難易度を算出し、
     前記推薦部は、
     前記算出された難易度を所定の順序でソートして、前記難易度に対応する前記分析ソフトウェアの情報を出力することを特徴とする分析支援サーバ。
    The analysis support server according to claim 8, wherein
    An analysis catalog that stores information of one or more analysis software, and
    And a recommendation unit that outputs information of the analysis software corresponding to the difficulty level,
    The difficulty level calculation unit
    The degree of difficulty is calculated for each analysis software of the analysis catalog,
    The recommendation unit
    An analysis support server characterized by sorting the calculated difficulty levels in a predetermined order and outputting information of the analysis software corresponding to the difficulty levels.
  10.  請求項9に記載の分析支援サーバであって、
     前記分析ソフトウェアが使用する前記入力データのカラムを特定する必要カラム管理情報を、さらに有し、
     前記難易度算出部は、
     前記必要カラム管理情報を参照して、前記分析ソフトウェアが使用するカラムを取得して、当該取得したカラムに対応する前記マッピング確度から前記難易度を算出することを特徴とする分析支援サーバ。
    The analysis support server according to claim 9, wherein
    It further has necessary column management information for specifying a column of the input data used by the analysis software,
    The difficulty level calculation unit
    An analysis support server, which acquires a column used by the analysis software with reference to the necessary column management information, and calculates the degree of difficulty from the mapping accuracy corresponding to the acquired column.
  11.  請求項9に記載の分析支援サーバであって、
     前記分析対象データのカラムを前記入力データのカラムに変換する定義を格納した第3のデータカタログと、
     前記第1のデータカタログと、前記第3のデータカタログを読み込んで、前記第1のデータカタログのカラムと前記第3のデータカタログのカラムの類似度をETLマッピング確度として算出するETLカラムマッピング確度算出部と、をさらに有し、
     前記難易度算出部は、
     前記マッピング確度とETLカラムマッピング確度のうち大きい方を選択して前記難易度を算出することを特徴とする分析支援サーバ。
    The analysis support server according to claim 9, wherein
    A third data catalog storing definitions for converting columns of the analysis target data into columns of the input data;
    ETL column mapping accuracy calculation which calculates the similarity between the columns of the first data catalog and the columns of the third data catalog as ETL mapping accuracy by reading the first data catalog and the third data catalog Have a part, and
    The difficulty level calculation unit
    An analysis support server, which selects the larger one of the mapping accuracy and the ETL column mapping accuracy to calculate the degree of difficulty.
  12.  請求項8に記載の分析支援サーバであって、
     前記難易度算出部は、
     前記分析対象データの品質を示す指標を算出し、前記マッピング確度を前記指標で補正してから前記難易度を算出することを特徴とする分析支援サーバ。
    The analysis support server according to claim 8, wherein
    The difficulty level calculation unit
    An analysis support server characterized by calculating an index indicating the quality of the analysis target data, correcting the mapping accuracy with the index, and calculating the difficulty level.
  13.  請求項9に記載の分析支援サーバであって、
     前記分析カタログは、
     前記分析ソフトウェア毎に処理に要する所要時間と、分析処理の納期を含み、
     前記推薦部は、
     前記分析カタログを参照して前記所要時間から前記納期を満たすように前記分析ソフトウェア毎にスケジューリングを行うことを特徴とする分析支援サーバ。
    The analysis support server according to claim 9, wherein
    The analysis catalog is
    The time required for processing for each analysis software and the due date of analysis processing,
    The recommendation unit
    An analysis support server characterized by performing scheduling for each analysis software to satisfy the delivery date from the required time with reference to the analysis catalog.
  14.  請求項13に記載の分析支援サーバであって、
     前記推薦部は、
     前記難易度に基づいて前記所要時間を補正して、当該補正した所要時間に基づいて前記スケジューリングを行うことを特徴とする分析支援サーバ。
    The analysis support server according to claim 13, wherein
    The recommendation unit
    An analysis support server characterized by correcting the required time based on the degree of difficulty and performing the scheduling based on the corrected required time.
  15.  プロセッサとメモリを有する計算機で、分析対象データの評価を行わせるためのプログラムを格納した記憶媒体であって、
     前記分析対象データのカラムの定義を格納した第1のデータカタログと、分析処理を実行する分析ソフトウェアの入力データのカラムを定義した第2のデータカタログを読み込む第1のステップと、
     前記第1のデータカタログのカラムと前記第2のデータカタログのカラムの類似度をマッピング確度として算出する第2のステップと、
     前記分析ソフトウェアで使用する前記第2のデータカタログのカラムのマッピング確度に基づいて当該分析ソフトウェアで前記分析対象データを分析する難易度を算出する第3のステップと、
    を前記計算機に実行させるためのプログラムを格納した非一時的な計算機読み取り可能な記憶媒体。
    A computer having a processor and a memory, which is a storage medium storing a program for evaluating data to be analyzed,
    A first data catalog storing the definition of columns of the data to be analyzed, and a first step of reading a second data catalog defining columns of input data of analysis software that executes analysis processing;
    Calculating a similarity between a column of the first data catalog and a column of the second data catalog as a mapping probability;
    A third step of calculating the degree of difficulty of analyzing the data to be analyzed by the analysis software based on the mapping accuracy of the columns of the second data catalog used in the analysis software;
    A non-transitory computer readable storage medium storing a program for causing the computer to execute.
PCT/JP2018/033417 2017-12-18 2018-09-10 Analysis support method, analysis support server, and storage medium WO2019123732A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020207003031A KR102309094B1 (en) 2017-12-18 2018-09-10 Analysis support method, analysis support server and storage medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017241859A JP6842405B2 (en) 2017-12-18 2017-12-18 Analysis support method, analysis support server and storage medium
JP2017-241859 2017-12-18

Publications (1)

Publication Number Publication Date
WO2019123732A1 true WO2019123732A1 (en) 2019-06-27

Family

ID=66993281

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/033417 WO2019123732A1 (en) 2017-12-18 2018-09-10 Analysis support method, analysis support server, and storage medium

Country Status (3)

Country Link
JP (1) JP6842405B2 (en)
KR (1) KR102309094B1 (en)
WO (1) WO2019123732A1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013145230A1 (en) * 2012-03-29 2013-10-03 富士通株式会社 Information analysis assistance device, information analysis assistance method, and information analysis assistance program
WO2015145540A1 (en) * 2014-03-24 2015-10-01 株式会社日立製作所 Apparatus for generating development information, and method for generating same
WO2017168967A1 (en) * 2016-03-28 2017-10-05 三菱電機株式会社 Device for determining data analysis method candidate

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9110967B2 (en) 2007-08-29 2015-08-18 International Business Machines Corporation Data lineage in data warehousing environments
JP5359389B2 (en) * 2009-03-06 2013-12-04 大日本印刷株式会社 Data analysis support device, data analysis support system, and program
US8548969B2 (en) * 2010-06-02 2013-10-01 Cbs Interactive Inc. System and method for clustering content according to similarity
JP2012063917A (en) 2010-09-15 2012-03-29 Ntt Docomo Inc Device for evaluating power consumption of application, distribution server and method
US8930303B2 (en) * 2012-03-30 2015-01-06 International Business Machines Corporation Discovering pivot type relationships between database objects
US20150347927A1 (en) * 2014-06-03 2015-12-03 Nec Laboratories America, Inc. Canonical co-clustering analysis
KR101720686B1 (en) * 2014-10-21 2017-03-28 한국전자통신연구원 Apparaus and method for detecting malcious application based on visualization similarity
KR101981075B1 (en) * 2015-03-31 2019-05-22 가부시키가이샤 프론테오 Data analysis system, data analysis method, data analysis program, and recording medium
KR20170034053A (en) * 2015-09-18 2017-03-28 삼성전자주식회사 Data collecting/processing system interworking with manufacture or analysis of products, and product manufacturing/analyzing system including the same
JP6327234B2 (en) * 2015-11-06 2018-05-23 横河電機株式会社 Event analysis device, event analysis system, event analysis method, and event analysis program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013145230A1 (en) * 2012-03-29 2013-10-03 富士通株式会社 Information analysis assistance device, information analysis assistance method, and information analysis assistance program
WO2015145540A1 (en) * 2014-03-24 2015-10-01 株式会社日立製作所 Apparatus for generating development information, and method for generating same
WO2017168967A1 (en) * 2016-03-28 2017-10-05 三菱電機株式会社 Device for determining data analysis method candidate

Also Published As

Publication number Publication date
KR102309094B1 (en) 2021-10-06
JP6842405B2 (en) 2021-03-17
KR20200020932A (en) 2020-02-26
JP2019109676A (en) 2019-07-04

Similar Documents

Publication Publication Date Title
US11481792B2 (en) Method of training machine learning models for making simulated estimations
Andrews et al. Quality-informed semi-automated event log generation for process mining
CN101111835B (en) Automated default dimension selection method within a multidimensional enterprise software system
CN101111838B (en) Automated relational schema generation within a multidimensional enterprise software system
US9466039B2 (en) Task assignment using ranking support vector machines
JP4287234B2 (en) Business process tracking device, business process tracking method, business process tracking program, and recording medium recording the business process tracking program
KR101066949B1 (en) Computer readable recording medium having task analysis program and task analyzer
CA2497742A1 (en) Real-time aggregation of data within an enterprise planning environment
US11037096B2 (en) Delivery prediction with degree of delivery reliability
JP6467264B2 (en) Plan creation support apparatus and plan creation support method
US11379466B2 (en) Data accuracy using natural language processing
US20240069967A1 (en) Pipeline task verification for a data processing platform
TWI818176B (en) Planning aids and planning aids
US8335759B2 (en) Work analysis device and recording medium recording work analysis program
JP6502816B2 (en) Planning support system and planning support method
WO2019123732A1 (en) Analysis support method, analysis support server, and storage medium
Anand ETL and its impact on Business Intelligence
CN111061733A (en) Data processing method and device, electronic equipment and computer readable storage medium
CN113176873A (en) Method and apparatus for information management, electronic device, and medium
US20240135332A1 (en) Rule-based design scheduling system for processing build project schedules
US20230029851A1 (en) Machine learning model generating system, machine learning model generating method
US20230070847A1 (en) System and method for planning a data warehouse migration
KR20230053881A (en) Big data construction and automatic processing system for order bidding and method thereof
Bhagawaty et al. Design, implementation and use of a simulation data archive for coastal science
CN116485169A (en) Method for supervising product production life cycle based on metadata and flow management

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 20207003031

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18893230

Country of ref document: EP

Kind code of ref document: A1