WO2016166878A1 - データ自動加工システム、データ自動加工方法、およびデータ自動解析システム - Google Patents

データ自動加工システム、データ自動加工方法、およびデータ自動解析システム Download PDF

Info

Publication number
WO2016166878A1
WO2016166878A1 PCT/JP2015/061778 JP2015061778W WO2016166878A1 WO 2016166878 A1 WO2016166878 A1 WO 2016166878A1 JP 2015061778 W JP2015061778 W JP 2015061778W WO 2016166878 A1 WO2016166878 A1 WO 2016166878A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
scale level
processing
value
automatic
Prior art date
Application number
PCT/JP2015/061778
Other languages
English (en)
French (fr)
Inventor
淳一 平山
竜治 嶺
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to PCT/JP2015/061778 priority Critical patent/WO2016166878A1/ja
Priority to JP2017512160A priority patent/JP6353975B2/ja
Priority to US15/566,523 priority patent/US20180095937A1/en
Publication of WO2016166878A1 publication Critical patent/WO2016166878A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/02Comparing digital values

Definitions

  • Steps 504 to 506 are processed by the scale level determination unit 1906. With these processes, it is determined which of the nominal scale, the order scale, the interval scale, and the proportional scale applies to each column.
  • step 603 it is determined whether the data in the column has smoothness.
  • Smoothness is a value indicating whether or not the change in the value on the vertical axis is moderate with respect to the increase in the value on the horizontal axis when a histogram is drawn. If the numerical value of the data in the column has a quantitative meaning, that is, if it is not a nominal measure, it is an index for judging the characteristic that the frequency of data adjacent to each other tends to be close.
  • the histograms 1304, 1307, and 1308 are examples having smoothness, and the others are examples having no smoothness. Examples of a method for determining whether or not smoothness is provided include the following methods.
  • any method for determining whether or not the shape of the histogram becomes smooth does not depend on this. If it is determined in step 603 that it has smoothness, it is determined as an interval scale, and if it is determined that it does not have smoothness, it is determined as a nominal scale (steps 605 and 606).
  • Steps 602 and 603 determine a column in which no gap exists between the values of the data in the column, but the data exists irregularly and the difference in frequency appears greatly between adjacent data. As a result, it can be determined that the column is a nominal measure. Furthermore, there is no gap between the values of the data in the column, but it is possible to determine a column in which the data exists irregularly and tends to have a frequency similar to data adjacent to each other. As a result, it can be determined that the column is an interval measure. As a result, it is possible to determine whether the data is a nominal scale or an interval scale for numeric data having continuity and no centrality or monotonic decrease.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

データ自動加工システムを、数字、文字、および符号に関するデータを受け付ける受付部と、データの型を判定するデータ型判定部と、データが数字型である場合に、データの分布に基づいてデータの尺度水準を判定する尺度水準判定部と、尺度水準に基づいてデータを加工するデータ加工部からなる構成とする。係る構成により、データの性質を定める指標である尺度水準を自動で判定し、データの自動加工を行うシステムを提供することができる。

Description

データ自動加工システム、データ自動加工方法、およびデータ自動解析システム
 本発明は、データ自動加工システム、データ自動加工方法、およびデータ自動解析システムに関する。
 近年、ビッグデータと呼ばれる大量のデータを分析し、今まで人が勘と経験で行ってきた意思決定を支援するシステムの開発が急速に発展してきている。例えば、ある目的変数を変動させる他の説明変数が何であるかと見つけ出すための相関分析や、説明変数群の値から目的変数の値を予測する回帰分析や、似た傾向を持つ変数同士をグルーピングするクラスタリングといった機械学習・統計分析を主なデータ分析の手法としているシステムが開発されている。
 データ分析を行う際、蓄積した生のデータそのままでは、分析に適さないことが多く、何らかの加工演算を施したデータを新たに分析用のデータとすることが多い。データ加工演算の例として、量子化や代表値などがある。量子化とは、例えば0.0~30.0で分布しているデータを、0.0~10.0⇒Low、10.0~20.0⇒Middle、20.0~30.0⇒Highのようにある区間に分け、その区間内に属する値に対して、新たにラベル化する作業である。代表値とは、あるカラム内のデータに対する平均や各値の頻度などにより、データをそのカラムを代表する1つの値にまとめた数値のことである。データ加工の例を、図1を用いて説明する。図1はRDB(リレーショナルデータベース)形式の入力テーブル100に蓄積されたデータを、出力テーブル110に圧縮している例である。入力テーブル100が”作業ID”(104)をキーとしているのに対し、圧縮後の出力テーブル110では、”作業者ID”(111)がキーとなっている。このとき、”作業者ID”(101)が同じレコードをグループとし、そのグループごとに代表値を求めている。この加工により、各カラムの値を、それぞれの作業者「700A」「700B」「700C」を代表する値に直すことができる。前述のデータ加工に関連する文献として、特許文献1がある。この公報では、テーブルに蓄積された変数を元に、事前に定めたルール・集計方法に従い、新たな変数を作成し、それを新たに説明変数として追加している。ルール・集計方法の例として、時系列を表す変数があれば1時間ごとに纏めて平均をとる集約演算などがある。このように説明変数を追加した後に、目的変数と説明変数の寄与度を計算することで、目的変数に寄与する説明変数を特定している。
 また、データの性質を定める指標である尺度水準というものが知られている。例えば特許文献2には、データの尺度水準によって散布度の計算式を変えて、計算した散布度によって自社の製品・サービスの独自性を判定し、ポジショニング・マップを作成している。更に、非特許文献1には、尺度水準についての記載が存在する。
特開2012-27880号公報 特開2011-243050号公報
S. S. Stevens, "On the Theory of Scales of Measurement," Science, vol.103, no.2684, pp.677-680, Jun. 1946
 しかしながら、データの加工演算に関して見かけ上は同様に数値に見えるデータであっても、そのデータの持つ性質は異なり、適用出来る加工演算も異なる。例えば、作業ごとの所要時間:[180[s], 240[s], …]のような数量を示すデータに対して平均を求める代表値化には意味があるが、作業者ID:[23513, 24512, …]のような符号や名前を示すデータに対して平均を求めてもその数値は意味を成さない。このように、意味を成さない演算を施してしまった場合には、適切な分析結果にはならず、誤った分析結果を招いてしまう恐れや、真に抽出したい分析結果が意味のない分析結果に埋もれてしまう恐れがある。
 前述の例のような、適用可能なデータ加工演算は、前処理としてデータ分析の知識を持つ専門家が、手作業で全てのカラムに対し適切に設定する必要があり、分析作業のコスト増大の原因となっていた。また、データ分析の知識を持たない非専門家が、これらの設定を行うことは困難であった。
 さらに、特許文献2では、データの尺度水準によって散布度の計算方法を変えているが、データの尺度水準をユーザが事前に指定する必要があり、尺度水準の判定を自動で行うことはできなかった。
 そこで、本発明はデータの性質を定める指標である尺度水準を自動で判定し、各データに適した方法によりデータ加工を行うシステムおよび方法、並びにデータの尺度水準を自動で判定する機能を有するデータ解析システムを提供することを目的とする。
 前記課題を解決するための手段のうち代表的なものを例示すれば、数字、文字、および符号に関するデータを受け付ける受付部と、データについてデータの型を判定するデータ型判定部と、データが数字型である場合にデータの分布に基づいてデータの尺度水準を判定する尺度水準判定部と、尺度水準に基づいてデータを加工するデータ加工部と、を有するデータ自動加工システムが挙げられる。
 また、数字、文字、および符号に関するデータを入力とするデータ自動加工方法であって、データを受け付ける受付ステップと、データについてデータの型を判定するデータ型判定ステップと、データが数字型である場合にデータの分布に基づいてデータの尺度水準を判定する尺度水準判定ステップと、尺度水準に基づいてデータを加工するデータ加工ステップと、を有することを特徴とするデータ自動加工方法が挙げられる。
 さらに、数字、文字、および符号に関するデータを受け付ける受付部と、データについてデータの型を判定するデータ型判定部と、データが数字型である場合にデータの分布に基づいてデータの尺度水準を判定する尺度水準判定部と、尺度水準に基づいてデータを加工するデータ加工部と、加工部によって加工されたデータを解析するデータ解析部と、解析部によって解析されたデータを出力する出力部と、を有するデータ解析システムが挙げられる。
 本発明によれば、データの性質を定める指標である尺度水準を自動で判定し、データの自動加工を行うシステムおよび方法、並びにデータの尺度水準を自動で判定する機能を有するデータ解析システムを提供することができる。
データ加工の一列を示す図。 各尺度水準の説明図。 入出力テーブルの一例を示す図。 データ自動加工システムの処理フローを示す図。 データ分布判定ステップの処理フローを示す図。 正規表現判定ステップの処理フローを示す図。 加工演算判定部の処理フローを示す図。 尺度水準ごとの適用可能加工演算を示すテーブルの一例を示す図。 加工演算選択部の処理フローを示す図。 演算ロバスト性判定ステップの処理フローを示す図。 データ自動加工システムのハードウェア構成図。 各尺度水準を持つデータの分布を示す図。 等分散性と非等分散性を持つデータの分布を示す図。 単調変化の特性を持つデータの分布を示す図。 データの等分散性の判定の流れの一例を示す図。 データ加工操作を行うためのGUIの一例を示す図。 データ自動解析システムの構成図。 データ自動加工システムの構成図。 加工演算データベースおよび加工演算判定部を有するデータ自動加工システムの構成図。 加工演算選択部を有するデータ自動加工システムの構成図。
 以下の実施の形態においては、便宜上その必要があるときは、複数のセクションまたは実施の形態に分割して説明するが、特に明示した場合を除き、それらは互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。また、以下の実施の形態において、要素の数等(個数、数値、量、範囲等を含む)に言及する場合、特に明示した場合および原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。
 さらに、以下の実施の形態において、その構成要素(要素ステップ等も含む)は、特に明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須のものではないことは言うまでもない。同様に、以下の実施の形態において、構成要素等の形状、位置関係等に言及するときは、特に明示した場合および原理的に明らかにそうでないと考えられる場合等を除き、実質的にその形状等に近似または類似するもの等を含むものとする。このことは、上記数値および範囲についても同様である。
 本実施例では、データの尺度水準を自動で決定するデータ自動加工システムの例を説明する。
 図18は、本実施例のデータ自動加工システムの構成図の例である。データ自動加工システム1901は、入力データ1902を受け付けて、データの尺度水準を判定しデータを加工して、出力データベース1903に加工データを出力する。データ自動加工システム1901は、データ受付部1904、データ型判定部1905、尺度水準判定部1906、尺度水準データベース1907、及びデータ加工部1908を備えている。
 データ受付部1904は、入力データ1902を受け付ける。その際、受け付けたデータをデータ自動加工システム1901中で取り扱うデータ形式に変換してもよい。入力データ1902は、数字、文字、または符号に関するデータである。入力データ1902の例として、例えば表形式のデータがある。表形式のデータを示した図3の入力テーブル400は、RDB(リレーショナルデータベース)の形式をしており、キー部404およびバリュー部405からなる。この他に、キー部404が省略されておりバリュー部405のみの形式であってもよい。ここでは、便宜上、表の形で表現しているが、CSV(Comma Separated Value;カンマ区切りデータ)でも、スペース区切りデータでも、タブ区切りデータでも本質的には同じである。データ受付部1904は、受け付けたデータをデータ型判定部1905に送信する。
 データ型判定部1905は、受付部1904から受信したデータについて各カラムに格納されたデータの型が、浮動小数点型、整数型、文字列型のいずれであるかを判定する。判定方法としては、例えば、代表的なデータベース言語であるSQLにて判定された結果を用いてsmallint、integer、bigint等ならば整数型、decimal、numeric、real等ならば浮動小数点型、それ以外ならば文字列型とする方法がある。
 データ型判定部1905は、データ自動加工システム1901に入力されたデータ及びデータの各カラムについて判定したデータの型についての情報を尺度水準判定部1906に送信する。
 図4は、入力データ1902を受け付けて尺度水準データベース1907に各カラムの尺度水準を格納する処理のフローの一例を示した図である。
 ステップ501にて、データ受付部1904により入力データ1902を受け付ける。次に、ステップ503、504、505、及び506を入力データ1902のカラムの数だけ繰り返す(ステップ502および507)。
 ステップ503では、データ型判定部1905により、各カラム内のデータの型を判定する。例えば、上述した代表的なデータベース言語であるSQLにて判定された結果を用いて各カラム内のデータの型を判定する。ステップ503の判定結果において、当該カラムのデータが浮動小数点型もしくは整数型(これらを以下では数字型とする)ならばステップ505へ遷移し、文字列型ならばステップ504へ遷移する。
 ステップ504では、所定の正規表現との合致有無の判定を行う。所定の正規表現とは、例えば、日付表現、時刻表現、時間表現、またはリスト表現などが挙げられる。
 ステップ505では、カラム内のデータの分布の判定を行う。データの分布とは、データの統計値を基に計算されるデータの統計的な性質である。例えば、連続性、中心性、単調減少性、平滑性、または等分散性等が挙げられる。
 ステップ506にて、ステップ504により判定された所定の正規表現との合致有無またはステップ505により判定されたデータの分布を基に各カラム内の尺度水準を判定する。
 ステップ504~506は、尺度水準判定部1906により処理が行われる。これらの処理により、各カラムについて名義尺度、順序尺度、間隔尺度、比例尺度のうち、どれにあてはまるかを判定する。
 ステップ507にて、尺度水準判定部1906により判定した尺度水準を各カラムと紐づけて尺度水準データベース1907に格納する。
<尺度水準の説明>
 次に、尺度水準の例を、図2を用いて説明する
 尺度水準とは、カラムに保存されているデータを、それらが表現する情報の性質に基づき数学・統計学的に分類する基準である。Stanley Stevensが提案した分類(非特許文献1)がよく用いられている。尺度には低い方から順に、図2に示す4つの水準があり、高い水準はより低い水準の性質を含む形になっている。
 名義尺度(Nominal scale)
数字・文字を単なる名前として個々のデータに割り振る。2つのデータに同じ名前がついていればそれらは同じカテゴリに属する。データ間の比較は等しいか異なるかでのみ可能である。順序はなく、加減などの算術演算もできない。代表値は最頻値で表される。データの例としては、ID、氏名、フラグなどがある。例えば作業ID=(00001,00002,00004,00007,…)は、作業ID=00001と作業ID=00002のデータは作業が違うことのみを表し、どちらが大きいかといった比較はできない。
 順序尺度(Ordinal scale)
データに割り振られた数字・文字は順序を表す。データ間の比較は等しいか異なるかに加え、その前後・大小関係にも意味がある。一方、順序の間隔は等しくないため、加減などの算術演算には意味がない。データの例としては、作業効率Gr.やオーダー順などがある。例えば、作業効率Gr. = (5, 4, 3,…)に対して、5よりも4の方が良いといった比較はできる。一方、5→4の間隔と、4→3の間隔は均一ではなく、単純に差をとった1という値は意味を成さない。
 間隔尺度(Interval scale)
データに割り振られた数字は順序尺度の性質を全て満たし、さらに差が等しいということは間隔が等しいということを意味する。2つデータ間の差を比較しても意味がある。加減算にも意味があるが、尺度上のゼロ点は任意で負の値も使える。代表値は最頻値、中央値、算術平均などで表される。データの例としては、時刻や日付などがある。例えば、日付 =(11/4, 11/6, 11/8….)に対して、11/4→11/6の差をとった2[日間]には定量的な意味があり、同様に11/6→11/8の2[日間]との大小の比較が可能である。
 比例尺度(Ratio scale)
データに割り振られた数字は間隔尺度の性質を全て満たし、さらに2つのデータの比にも、乗除算にも意味がある。尺度上のゼロ点は絶対的である。代表値は最頻値、中央値、算術平均、幾何平均などで表される。データの例としては、時間や数量などがある。例えば、作業数量 = (2,5,10,…)に対して、2[個]と5[個]の比をとって、2.5倍多いといった意味づけが可能である。
 尺度水準判定部1906は、データが格納されている各カラムが上記4つの尺度水準のどれにあてはまるかを判定する。尺度水準判定部1906は、データ型判定部1905が、当該カラム内のデータを数字型と判定した場合にはデータ分布の判定を行い、文字列型ならば正規表現合致有無の判定を行う。
 データ分布の判定では、尺度水準判定部1906は各カラムに格納されているデータの分布の判定を行い、そのデータの分布に基づいてカラムの尺度水準を判定する。データの分布は、データの値と当該データの値の出現頻度から計算してもよい。さらに、横軸にデータの値を、縦軸にデータの値の出現頻度を設定することでヒストグラムを作成し、その形状からデータの分布を求めてもよい。データの値とデータの値の出現頻度の組合せ以外にもデータの分布を判断できるものであれば組合せの種類は問わない。
 図5は、数字型のデータについて、図4のデータ分布判定505および尺度水準判定506の処理フローの一例を示した図である。
 ステップ601では、カラム内のデータが十分に連続性を持つか判定する。連続性とは、カラム内のデータが飛び飛びになっておらず十分に密になっているかを表す指標である。カラム内のデータの数字が等間隔で、数量的な意味があれば、すなわち、間隔尺度や比例尺度のデータであれば、データが不規則に飛び飛びにはなりにくいといった特性を判断するための指標である。図12は、様々なデータの分布を示す図であり、横軸がデータの値、縦軸がそのデータの出現頻度である。図12の例の場合、ヒストグラム1301、1302が連続性を持たない例、それ以外が連続性を持つ例である。連続性を持つかどうかの判定方法の例として、例えば、以下のような方法がある。
(1)カラム内のデータを昇順もしくは降順にソートし、データの値が重複するものを排除し、1つにする。
(2)(1)のデータ列の全ての値に対し、隣り合う2つの値の差分値を求める。
(3)求めた全ての差分値の標準偏差を求める。
(4)求めた標準偏差がある閾値以下になれば、連続性を持つと判定する。
より好ましくは、(2)にて差分値を求めた後に、最小の差分値で割ることで正規化することが望ましい。別の例として、データの標準偏差とレンジ(最大値-最小値)の比率がある閾値以下になるかどうかを判定する方法が考えられる。レンジに代わって、75%点-25%点や90%点-10%点を用いることもできる。このほか、データの値が連続的であるかどうかを計算する方法であれば、これらには依らない。ステップ601にて連続性を持つと判定された場合、ステップ602に遷移し、連続性を持つと判定されなかった場合、名義尺度であると判定される(ステップ605)。
 このステップ601によって、データの値の間にギャップが存在するカラムを判定することができ、その結果、当該カラムが名義尺度であると判定することができる。これにより、数字型のデータが名義尺度であるかその他の尺度水準であるかを判定することができる。
 ステップ602では、カラム内のデータが中心性もしくは単調減少性を持つか判定する。中心性とは、データの中央や平均付近のデータが多く存在し、ヒストグラムが山なりに分布するかを表す指標である。図12の例の場合、ヒストグラム1301、1304が中心性を持つ例、それ以外が中心性を持たない例である。単調減少性とは、ヒストグラムを描いた際に、横軸の値の増加に対し、縦軸の値が徐々に減少していくかを表す指標である。これらの指標は、数量データ、特に比例尺度のデータのヒストグラムによく見られる、正規分布形状、対数正規分布形状、及び指数分布形状を判断するためのものである。図12の例の場合、ヒストグラム1305、1306が単調減少性を持つ例、それ以外が単調減少性を持たない例である。中心性および単調減少性を持つかどうかの判定方法の例として、尖度および歪度がある閾値以上になるかどうかを判定する方法がある。尖度は式(1)で計算される値であり、歪度は式(2)で計算される値である。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
 式(1)(2)において、xi(i=1 to N)は各データの値、μは平均、σは標準偏差を示す。ここで、尖度とはデータの中心性を示すものであり、上記式(1)の値が大きいときに尖度が大きく、すなわち中心性があることを意味する。例えば、式(1)の値が3以上であるときに中心性を持つデータであると判断してもよい。また、歪度とはデータの単調減少性を示すものであり、上記式(2)の値が大きいときに歪度が大きく、すなわち、単調減少性があることを意味する。例えば、式(2)の値が0.5以上であるときに歪度を持つデータであると判断してもよい。このほか、ヒストグラムが大局的な山状もしくは単調減少するかを判定する方法であれば、これには依らない。ステップ602で中心性もしくは単調減少性を持つと判定された場合、ステップ604に遷移し、中心性および単調減少性を持たないと判定された場合、ステップ603に遷移する。
 このステップ602により、カラム内のデータが不規則に存在しているかどうか判定することができる。
 ステップ603では、カラム内のデータが平滑性を持つかどうか判定する。平滑性とは、ヒストグラムを描いた際に、横軸の値の増加に対し、縦軸の値の変化が緩やかであるかどうかを表す値である。カラム内のデータの数字に数量的な意味があれば、すなわち名義尺度でなければ、数字が隣り合うデータの頻度が近くなりやすいといった特性を判断するための指標である。図12の例の場合、ヒストグラム1304、1307、1308が平滑性を持つ例、それ以外が平滑性を持たない例である。平滑性を持つかどうかの判定方法の例として、例えば以下のような方法がある。
(1)カラム内のデータの最大値から最小値までを、いくつかの均等幅の区間に分ける。
(2)分けた区間ごとに、当該区間に属するデータ数を計算する。
(3)当該区間に属するデータ数と、隣り合う区間に属するデータ数の差分を、全ての区間に対して計算する。
(4)計算した全ての区間の差分値の平均を計算する。
(5)計算した平均がある閾値以下になれば、平滑性を持つと判定する。
 このほか、ヒストグラムの形状が平滑的になるかどうかを判定する方法であれば、これには依らない。ステップ603にて平滑性を持つと判定された場合、間隔尺度と判定され、平滑性を持たないと判定された場合、名義尺度と判定される(ステップ605及び606)。
 ステップ602および603により、カラム内のデータの値の間にギャップは存在しないが、不規則にデータが存在していて、値の隣り合うデータ同士に頻度の差が大きく表れるようなカラムを判定することができ、その結果、カラムが名義尺度であると判定することができる。さらに、カラム内のデータの値の間にギャップは存在しないが、不規則にデータが存在していて、値の隣り合うデータ同士に似たような頻度をもつ傾向があるカラムを判定することができ、その結果、カラムが間隔尺度であると判定することができる。これにより、連続性があり、かつ、中心性がないもしくは単調減少性がない数字型のデータについて、名義尺度か間隔尺度か判定をすることが出来る。
 ステップ604では、カラム内のデータが等分散性を持つかどうか判定する。等分散性とは、データの平均値の変化に対して、分散値が変化しないかどうかを表す指標である。図13は、等分散性を持つデータ分布の例と等分散性を持たないデータ分布の例を示した図である。図13の例の場合、上段のヒストグラム1410が等分散性を持つ例、下段のヒストグラム1420が等分散性を持たない例である。ヒストグラム1410では、分布1411、1412、1413、1414と分布の平均値が大きくなっても、分布の分散が不変である。一方、ヒストグラム1420では、分布1421、1422、1423、1424と分布の平均値が大きくなるにつれて、分布の分散が大きくなる。
 等分散性を持つかどうかの判定方法の例を、図15を用いて説明する。
(1)入力テーブル(1610)の着目しているカラム(例.”処理数”と”開始時刻[s]”)の値に対し、加工キー(例.”作業者ID”)が同じ行(点線内)ごとに平均と分散を求める。この加工キーは、ユーザが入力してもよいし、データ自動加工システムがランダムに選択してもよい。
(2)求めた平均と分散に着目し、平均が増加しても分散が大きく変化しないかどうかを判定する。図15の場合、”処理数”は平均が増加すると分散が増加しており、”開始時刻[s]”は平均が増加しても分散が大きく変化していない。例えば、各加工キーの分散/平均を計算して、その差を閾値と比較して上記判断を行ってもよい。等分散性を持つデータの場合、分散/平均の値は、各加工キー間で変動する。
(3)分散が大きく変化しないと判定されれば、等分散性を持つ、それ以外ならば、等分散性を持たないと判定する。
 ステップ604にて、等分散性を持つと判定された場合、間隔尺度と判定され、等分散性を持たないと判定された場合、比例尺度と判定される(ステップ606および607)。このように比例尺度と間隔尺度の判定をすることが出来ることを、発明者は新たに発見した。ステップ604によって、連続性があり、かつ、中心性を持つもしくは単調減少性を持つ数字型のデータについて、間隔尺度か比例尺度かを判定することが出来る。
 尺度水準判定部1906は、上述のように各カラムの尺度水準を判定した後、カラムに格納されているデータと尺度水準とを紐づけた情報を尺度水準データベース1907に格納する。例えば、図3の入力テーブル400が入力データ1902であるとすると、尺度水準データベース内の尺度水準テーブル410のバリュー部415に各カラムの尺度水準を格納する。また、尺度水準判定部1906は、データ加工部1908にデータの加工を行うトリガを送信する。
 データ加工部1908は、尺度水準判定部1906からトリガを受け付けた後に、各カラムの尺度水準を基にデータに適用可能な演算処理を施して各カラム内のデータを加工する。図8は、データ加工部1908が各データの加工をする際に用いる、尺度水準902及び演算タイプ903毎に適用可能加工演算904を格納したテーブル901の図である。データ加工部1908内にテーブル901が構築されていてもよいし、データ加工部1908の外からデータ加工の際に適用可能演算904を読みだしても構わない。データ加工部1908は、尺度水準データベース1907の尺度水準を読みだして、それぞれの尺度水準に適用可能演算904の処理を各カラムに行い、データを加工した結果を出力データベース1903に格納する。例えば、図3の加工データテーブル430のバリュー部435に演算を施したデータをカラムごとに格納する。加工データテーブル430は、出力データベース1903内に構築されている。
 ここまで、各カラムについてそれぞれ処理を行い、出力もテーブルにすると記述したが、必ずしもカラム形式やテーブル形式である必要はなく、一定のデータの集合を定義できるものであれば形式は問わない。例えば、カラム形式ではなく、リスト形式のデータ、またはデータの配列に対して処理を行っても構わない。
 図11は、実施例1におけるデータ自動加工システムを実現するハードウェア構成の一例を示す図である。
 実施例1におけるハードウェア構成は、コンピュータシステム(計算機)を用いて実現され、少なくとも1組の、CPU1201、ROM1202、RAM1203、キーボード1204、表示装置1205、HDD1206、プリンタ1207、マウス1208、バス1209、DB1210、およびネットワーク1211から構成される。
 ROM1202は、データ自動加工システムのOS(オペレーティングシステム)などを記憶する。RAM1203は、データ自動加工に関するコンピュータソフトウェアを格納する。キーボード1204は、CPU1201を操作する。HDD1206は、入力データや加工データを格納する。表示装置1205は、入力データ、加工データ、またはデータ加工の処理の過程などをユーザに示す。マウス1208は、CPU1201を操作する。バス1209は、各々のデータを通信するためのものである。DB1210は、各データを格納しておく。ネットワーク1211は、バス1209とDB1210を繋ぐ。
 データ自動加工システム1901において、CPU1201で、RAMに格納されたデータ自動加工に関するコンピュータソフトウェアを実行することで、図18に示した各機能を実現することができる。
 このように、実施例1に表すデータ自動加工システム1901は、数字、文字、および符号に関するデータを受け付ける受付部1904と、データについて、データの型を判定するデータ型判定部1905と、データが数字型である場合に、データの分布に基づいてデータの尺度水準を判定する尺度水準判定部1906と、尺度水準に基づいてデータを加工するデータ加工部1908と、を備えている。
 係る構成により、本実施例に係るデータ自動加工システム1901は、データの性質を定める指標である尺度水準を自動で判定し、各データに適した方法によりデータ加工を行うことが可能となる。
 <データが文字列型の場合の例>
尺度水準判定部1906は、データ型判定部1905が、当該カラムのデータを文字列型と判定した場合、正規表現合致有無の判定を行う。
 正規表現合致有無の判定では、尺度水準判定部1906は各カラムに格納されているデータと予め設定されている正規表現との合致の判定を行い、その合致の有無に基づいて尺度水準を判定する。
 図6は、図4の正規表現合致判定504および尺度水準判定506の処理のフローの一例を示した図である。
 ステップ701では、カラム内のデータが日付表現もしくは時刻表現であるかどうかを判定する。日付表現の例として、「2014/12/20」「2014-12-20」「14/12/20」「14-12-12」「Dec.20 2014」(2014年12月20日)などが挙げられる。時刻表現の例として、「15:47」「03:47 AM」(15時47分)、「16:01:42」「04:01:42」(16時01分42秒)などが挙げられる。日付表現もしくは時刻表現を持つかどうかの判定方法として、前述の表現例を正規表現で記述し、カラムに格納されているデータ内のすべての文字列が当該正規表現に合致するかを判定する方法がある。なお、時刻表現に関しては、後述の時間表現との差異を明確にするため、取りうる時刻の範囲に注意して、正規表現を記述する必要がある。また、時刻表現および時間表現のどちらにも該当するデータの場合、前述の等分散性の判定を用いて、等分散性を持つ場合に時刻表現であると判定し、等分散性を持たない場合に時間表現であると判定する方法もある。文字列型のデータの場合には、時刻表現若しくは時間表現のデータを数字型のデータに変換して等分散性の判定を行う。例えば、「12:30:00」の場合には「750」分のように変換する。ここでは、分単位の変換としているが、秒単位でも時間単位でも構わない。その後、そのデータの値と、その出現頻度から前述のデータの等分散性に関する分布を計算することにより、時刻表現と時間表現の判定を行う。ステップ701にて、日付表現もしくは時刻表現と判定された場合には、当該カラムは間隔尺度であると判定され(ステップ707)、日付表現および時刻表現と判定されなかった場合には、ステップ702に遷移する。ステップ701によって、文字列型のデータを格納するカラムが間隔尺度であるかその他の尺度水準であるかを判定することが出来る。
 ステップ702では、カラム内のデータが時間表現であるかどうかを判定する。時間表現を持つ文字列の例として、「9’’58」(9秒58)、「3’26’’00」「03:26」(3分26秒00)、「2:02’57」「02:02:57」(2時間02分57秒)などが挙げられる。時間表現であるかどうかの判定方法の例として、前述の表現例を正規表現で記述し、カラムに格納されているデータ内のすべての文字列が当該正規表現に合致するかを判定する方法がある。ステップ702にて、時間表現と判定された場合には、当該カラムは比例尺度であると判定され(ステップ706)、時間表現と判定されなかった場合には、ステップ703に遷移する。ステップ702によって、文字列型のデータを格納するカラムが比例尺度であるかその他の尺度水準を持つかの判定をすることができる。
 ステップ703では、カラム内のデータがリスト表現であり、かつ単調変化するかを判定する。リスト表現を持つ文字列の例として、「1.***, 2.***, …」「1:***, 2:***, …」「A.***, B.***, …」「I.***, II.***, …」などが挙げられる。リスト表現であるかどうかの判定方法の例として、前述の表現例を正規表現で記述し、カラムに格納されているデータ内のすべての文字列が当該正規表現に合致するかを判定する方法がある。
 図14は、単調変化をしているデータの分布を示す図である。
 ここでは、横軸を各リストの数値(文字の場合は数値に変換)、縦軸をその値の出現頻度としてヒストグラムを作成している。
 単調変化であるとは、ヒストグラム1510のように横軸の値の増加に対して、縦軸の値が規則的に徐々に減少する単調減少であるか、もしくはヒストグラム1520のように横軸の値の増加に対して、縦軸の値が規則的に徐々に増加する単調増加であるか、もしくはヒストグラム1530のように横軸の値の増加に対して、ただ一つのピークを持ち、ピークの前では単調増加、ピークの後では単調減少するか、の3つのいずれかに該当するかを言う。ステップ703にて、データがリスト表現を持ち、かつ単調変化であると判定された場合には、当該カラムは順序尺度であると判定され、判定されなかった場合には、当該カラムは名義尺度であると判定される(ステップ704及び705)。ステップ703によって、文字列型のデータが順序尺度であるか名義尺度であるかの判定を行うことができる。
 上記では、ステップ701~703を順番に適用して尺度水準を判定したが、このステップの順番は変わってもよい。またその際は、ステップ701~703すべてで当てはまらないと判定されたカラムが名義尺度であると判定する。
 このように、データ自動加工システム1901は、データが文字列型である場合に、データの所定の正規表現との合致有無に基づいてデータの尺度水準を判定する尺度水準判定部を備えている。係る構成により、データが文字列型の場合にもデータの性質を定める指標である尺度水準を自動で判定し、各データに適した方法によりデータ加工を行うことが可能となる。
 <加工演算の提示に関する変形例>
ここでは、判定された尺度水準に合わせたデータの加工演算の提示に関する内容を説明する。基本的なシステム構成は図18と同じであるが、以下の点が相違する。
 図19は、加工演算の提示を行うデータ自動加工システムを表した図である。
 データ自動加工システム1901は、入力データ1902を受け付け、データの尺度水準及びデータに適用可能な加工演算を判定し、表示装置1205に適用可能な加工演算を表示し、加工したデータを出力データベース1903に出力する。また、加工したデータを表示装置に表示してもよい。
 データ自動加工システム1901は、図18の構成に加えて、加工演算判定部2001、加工演算データベース2002、及び表示部2003を備えている。
 尺度水準判定部1906は、各カラムの尺度水準を判定して尺度水準データベースに格納した後に、加工演算判定部2001に加工演算を行うトリガを送信する。
 加工演算判定部2001は、尺度水準判定部1906からトリガを受け付けた後に尺度水準データベース1907から各カラムの尺度水準、および、加工演算データベース2002からそれぞれの尺度水準に適用可能な演算を受け付け、各カラムの尺度水準から該カラム内のデータに適用可能な加工演算を選択し、表示部2003に送信する。また、各カラムに適用可能な加工演算をデータ加工部1908に送信する。
 図7は、加工演算判定部2001による処理のフローを示した図である。
 尺度水準受付ステップ801にて、尺度水準データベース1907から各カラムに入力されたデータとカラムに紐づけられた尺度水準を受け付ける。受付の形式は、例えば、図3の尺度水準テーブルのようにバリュー部415に各カラムの尺度水準が格納されている情報を受け付ける。
 次の加工演算抽出ステップ803は、ステップ801にて受け付けたテーブルのカラムの数だけ繰り返し処理される(ステップ802及びステップ804)。加工演算抽出ステップ803では、演算タイプ指定ステップ810にてユーザが指定した演算タイプと、尺度水準受付ステップ801にて受け付けた尺度水準を基に、加工演算データベース2002から適用可能な演算を抽出する。
 演算タイプ指定ステップ810では、ユーザが任意の加工演算のタイプを指定する。指定は、キーボード1204やマウス1208から行うことが出来る。指定された加工演算のタイプはデータ自動加工システム1901内のタイプ受付部が受け付ける(図示せず)。加工演算のタイプは、例えば、正規化、量子化、代表値、または散布度などが挙げられる。図16の演算タイプ(選択)1702の表示がタイプの指定の際のユーザインターフェースの例である。
 加工演算データベース2002は、尺度水準と演算タイプごとにカラムに適用可能な加工演算が格納されている。図8は、各尺度水準と演算タイプについて、尺度水準902及び演算タイプ903毎に適用可能加工演算904を格納したテーブル901の図である。加工演算データベース2002は例えば、図8のようなテーブル901を有していいてもよい。
 ステップ803は、ステップ801で受け付けた各カラムに入力されているデータ並びに各カラムの尺度水準、ステップ810にて指定された演算タイプ、および加工演算データベース2002に格納されている適用可能加工演算を基に、各カラムのデータに適用可能な加工演算を抽出する。例えば、カラムの尺度水準が名義尺度であり、ユーザが指定した演算タイプが代表値であった場合には、最頻値の加工演算を抽出する。
 加工演算データベース2002に格納されている演算タイプ、適用可能加工演算は、図8に示したものに依らず、適宜、演算タイプおよび適用可能加工演算を追加・削除してもよい。また、尺度水準と各演算タイプに適用可能な加工演算が紐づけられていれば、901のようなテーブル形式に限らない。
 加工演算送信ステップ805では、加工演算判定部2001が抽出した適用可能な演算を表示部2003及びデータ加工部1908に送信する。送信の形式として、例えば図3の適用可能加工演算テーブル420が挙げられる。
 表示部2003は、加工演算判定部2001から受信した各カラムに適用可能な加工演算を表示装置1205に送信する。表示装置1205は、表示部2003から受信した適用可能な加工演算をユーザに表示する。例えば、図16の適用可能加工演算1708のように表示する。このように各カラムに適用が可能な加工演算をバリュー部1709に表示する。
 データ加工部1908は、加工演算判定部2001から各カラムに適用可能な加工演算を受け付けて、各カラムに適用可能な加工演算を適用する。その際、ユーザが指定した演算タイプに該当する適用可能加工演算904を適用してもよい。また、データ加工部1908が、表示装置1205に加工演算適用後のデータを送信し、表示装置1205がそのデータをユーザに表示してもよい。その際の表示例として、図16のデータ加工結果1710が挙げられる。
 このように、データ自動加工システム1901は、数字、文字、及び符号に関する各データに対して、各データの尺度水準と紐づけて各データに適用可能な加工演算を判定する加工演算判定部2001と、適用可能な加工演算を画面に表示する表示部2003とを備えている。
 係る構成により、データを機械学習や統計分析可能な形式へ適切に変換することができる加工演算を提示することができる。これにより、データマイニングや統計学の知識のない非専門家でもデータの加工演算を行うことができ、また、専門家の場合でも、入力データテーブルのカラム数が数百~となる場合には、1つ1つのカラムに対し適用可能な演算を考慮し、手動で設定するのは大きなコストとなっていたが、このコストを削減することが可能となる。さらに、意味のないデータ加工による分析の無駄、および分析結果の誤解を無くすことが可能となる。
 <最適な加工演算の選択に関する変形例>
あるカラム内のデータに対してあるデータ加工演算が適用できる場合でも、そのデータ加工演算の結果が不安定な場合があり、加工後の値が適切なものであるかどうかを分析者が手作業と直感により毎回判断する必要があった。
 ここでは、適用可能な加工演算の中からの最適な加工演算の選択に関する内容を説明する。基本的なシステム構成は図19と同様であるが、以下の点が相違する。
 図20は、最適な加工演算を選択するデータ自動加工システム1901を表した図である。
 データ自動加工システム1901は、入力データ1902を受け付け、カラムの尺度水準を判定し、各カラムに最適な加工演算を選択し、最適な加工演算により加工したデータを出力データベース1903に出力する。
 データ自動加工システム1901は、図19の構成に加えて加工演算選択部2101を備えている。
 加工演算選択部2101は、加工演算判定部2001が抽出した適用可能な加工演算の中から、各カラムに最も適用するのが適している加工演算を選択し、選択した加工演算をデータ加工部1908に送信する。
 図9は、加工演算選択部2101の処理のフローを示した図である。
 加工演算受付ステップ1001にて、加工演算選択部2101は、加工演算判定部2001から適用可能加工演算テーブル420を受け付ける。
 次の演算ロバスト性判定ステップ1003と最適加工演算選択ステップ1004は、適用可能加工演算テーブル420のカラムの数だけ繰り返し処理される(ステップ1002及び1005)。
 演算ロバスト性判定ステップ1003は、適用可能加工演算テーブル420のバリュー部425に格納された適用可能加工演算について、演算のロバスト性を判定する。
 最適加工演算選択ステップ1004は、演算ロバスト性判定ステップ1003にて判定されたロバスト性に関する値を基に各カラムに最適な加工演算を選択する。
 最後に、最適加工演算送信ステップ1006は、加工演算選択部2101により最適加工演算選択ステップ1004が選択した各カラムに最適な加工演算をデータ加工部1908に送信する。
 データ加工部1908は、受信した各カラムに最適な加工演算をカラム内の各データに施してデータを加工する。
 次に、図10を用いて、演算ロバスト性判定ステップ1003および最適加工演算選択ステップ1004の処理のフローを説明する。
 N分割ステップ1102、演算適用ステップ1104、及び分散計算ステップ1106は、は適用可能加工演算テーブルの各バリュー部に格納された適用可能加工演算の数だけ繰り返し処理される。
 まず、N分割ステップ1102にてデータをランダムにN個の集合に分割する。Nは、ユーザが指定してもよいし、任意の数でもよい。例えば、5~10個に分割することが考えられる。
 次の演算適用ステップ1104は、データの分割数Nだけ繰り返し処理される。
 演算適用ステップ1104は、分割後のデータに対して加工演算受付ステップ1001で受け付けた適用可能な加工演算を施し、加工後のデータの値を計算する。
 分散計算ステップ1106では、N個の加工後のデータの値について分散を計算する。分散の計算方法は、既存の方法で構わない。
 最後に、分割値最小演算選択ステップ1108にて、分散計算ステップ1106で計算した分散値が最小となる加工演算を、最もロバスト性の高い演算と判定し、最適な加工演算として選択する。ここで、演算ロバスト性とは、演算適用後の各データの値のばらつきの小ささを示す性質のことをいう。
 上記では、分散を基に演算ロバスト性の判定に利用しているが、これは標準偏差でも同様に判定をすることが出来る。
 ここまで、各カラムについてそれぞれ処理を行い、出力もテーブルにすると記述したが、必ずしもカラム形式やテーブル形式である必要はなく、一定のデータの集合を定義できるものであれば形式は問わない。例えば、カラム形式ではなく、リスト形式のデータ、またはデータの配列に対して処理を行っても構わない。
 このように、データ自動加工システム1901は、数字、文字、及び符号に関する各データに対して、各データの尺度水準と紐づけて各データに適用可能な加工演算を判定する加工演算判定部2001と、適用可能な加工演算のうち、演算適用後の各データの値のばらつきが最も小さい加工演算を選択する加工演算選択部2101と、各データの値のばらつきが最も小さい加工演算を適用することによりデータを加工するデータ加工部1908とを備えている。
 係る構成により、適用可能なデータ加工演算が複数ある場合に、最も演算適用後の値が安定している演算によりデータの加工をすることができる。これにより、データ分析の精度を高めることができる。さらに、データ加工の試行錯誤を行うことなく、精度の高いデータ分析を行うことができる。
 本発明のデータ自動加工システムの別の例を示す。
 実施例2は、データ自動加工システムについてのGUI(グラフィカルユーザインタフェース)に関する内容である。基本的な構成は図19及び図20と同様である。
 図16に示すように、表示装置1204上に、データ加工操作をユーザが行うためのGUIを表示し、ユーザからの入力を元に、ユーザからの入力があるごとに、データ加工結果を変えて表示装置1204に表示する。ユーザからの入力は、図11のキーボード1203やマウス1206を介して行われる。
 まず、ユーザが図3の入力テーブル400をデータ自動加工システムに入力すると、入力テーブル表示部1701に表示される。
 演算タイプ選択部1702では、図8の適用可能加工演算格納テーブル901に事前定義された演算タイプのうち、いずれか1つをユーザが選択することができる。ユーザが選択した演算タイプは図7の演算タイプ指定ステップ810に入力される。
 尺度水準判定部1906が、入力テーブル400の各カラムの尺度水準を判定すると、図3の尺度水準テーブル410を、尺度水準判定結果表示部1706に表示する。尺度水準選択部1707では、尺度水準判定部1906により自動判定された尺度水準が初期状態として設定されるが、ユーザが必要に応じて書き換えて尺度水準を再設定することもできる。
 演算タイプ選択部1702と、尺度水準選択部1707により、演算タイプと尺度水準が選択されると、加工演算判定部2001により、図3の適用可能加工演算テーブル420が作成され、適用可能演算表示部1708に表示される。各カラムの適用可能演算は、加工演算選択部2101にて、選択されたロバスト性の最も高い加工演算のみを表示しても良いし、ロバスト性の高い順に加工演算を表示してもよい。
 適用演算選択部1709では、適用可能な演算が複数ある場合に、いずれか1つの演算をユーザが選択することができる。
 適用演算選択部1709にて、演算が選択されると、データ加工結果表示部1710に、図3の加工テーブル430が表示される。
 係る構成により、各カラムの尺度水準を自動判定し、各カラムの尺度水準と、適用可能な演算をユーザに提示しながら、データ加工を進めることが可能となる。これにより、データ分析の知識のない非専門家でも、データの性質を把握しながら、容易にデータ分析を行うことができる。
 本発明のデータ自動加工システムを利用したデータ自動解析システムの例について説明する。
 図17は、本実施例のデータ自動解析システムの構成図を表した図である。データ自動解析システム1801は、センサなどで取得したビックデータである入力データ1802を受け付け、データについて解析を行い、出力データ1803を出力する。データ自動解析システム1801は、データ前処理部1804、加工データデータベース1805、およびデータ解析部1806を備えている。
 データ前処理部1804は、入力データ1802を受け付け、データ解析に適したデータに加工し、加工データベース1805に格納する。データ前処理部1804は、実施例1で説明したデータ自動加工システムを内部に有しており、入力データのカラムごとに尺度水準を判定し、適用可能演算を各カラムに施してデータを加工する。
 データ解析部1806は、加工データベース1805に格納されているデータを基に、相関分析、回帰分析、またはクラスタリングなど既知の機械学習や統計分析の処理を行い、データを解析する。そして解析して得た結果を出力データ1803として出力部(図示せず)により出力する。
 データ自動解析システム1801を実現するハードウェア構成については、実施例1と同様に、図11で示したものである。
 このように、実施例3に表すデータ自動解析システム1801は、数字、文字、および符号に関するデータを受け付ける受付部1904と、データについて、データの型を判定するデータ型判定部1905と、データが数字型である場合に、前データの分布に基づいてデータの尺度水準を判定する尺度水準判定部1906と、尺度水準に基づいてデータを加工するデータ加工部1908と、加工部によって加工されたデータを解析するデータ解析部1806と、解析部によって解析されたデータを出力する出力部と、を有するデータ自動解析システム。係る構成により、データの前処理に関するユーザの負担を軽減させることができ、データ自動解析システムの前処理を容易にすることができる。
 100 入力テーブル、 101 作業者ID、 102 処理数、
 103 商品ID、 104 作業ID、 111 作業者ID
 112 処理数、 113 商品ID、 400 入力テーブル
 401 処理数、 402 商品ID、 403 優先度
 404 キー部、405 バリュー部、 410 尺度水準テーブル
 411 処理数、 412 商品ID、 413 優先度
 414 キー部、 415 バリュー部
 420 適用可能加工演算テーブル、 421 処理数
 422 商品ID、 423 優先度、 424 キー部
 425 バリュー部、 430 加工データテーブル、 431 処理数
 432 商品ID、 433 優先度、 434 キー部
 435 バリュー部、 501 データ受付ステップ
 502、507 カラム数繰り返し、 503 データの型判定ステップ
 504 正規表現合致判定ステップ、 505 データ分布判定ステップ
 506 尺度水準判定ステップ、 508 尺度水準格納ステップ
 601 連続性判定ステップ
 602 中心性及び単調減少性判定ステップ
 603 平滑性判定ステップ、 604 等分散性判定ステップ
 605 名義尺度判定、 606 間隔尺度判定
 607 比例尺度判定、 701 日付表現及び時刻表現判定ステップ
 702 時間表現判定ステップ
 703 リスト表現及び単調変化判定ステップ、 704 名義尺度判定
 705 順序尺度判定、 706 比例尺度判定
 707 間隔尺度判定、 801 尺度水準受付ステップ
 802、804 カラム数繰り返し、 803 加工演算抽出ステップ
 805 加工演算送信ステップ、 810 演算タイプ指定ステップ
 901 適用可能加工演算格納テーブル、 902 尺度水準
 903 演算タイプ、 904 適用可能加工演算
 1001 加工演算受付ステップ
 1002、1005 カラム数繰り返し
 1003 演算ロバスト性判定ステップ
 1004 最適加工演算選択ステップ
 1006 最適加工演算送信ステップ
 1101、1107 適用可能演算数繰り返し
 1102 N分割ステップ、 1103、1105 分割データ数繰り返し
 1104 演算適用ステップ、 1106 分散計算ステップ
 1108 分散値最小演算選択ステップ、 1201 CPU
 1202 ROM、 1203 RAM、 1204 キーボード
 1205 表示装置、 1206 HDD、 1207 プリンタ
 1208 マウス、 1209 バス、 1210 DB、
 1211 ネットワーク
 1301~1303 名義尺度を持つデータ分布のヒストグラム例図
 1304~1306 比例尺度を持つデータ分布のヒストグラム例図
 1307、1308 間隔尺度を持つデータ分布のヒストグラム例図
 1410 等分散性を持つデータ分布のヒストグラム例図
 1420 等分散性を持たないデータ分布のヒストグラム例図
 1510、1520、1530 単調変化するデータ分布のヒストグラム例図
 1610 入力テーブル、 1620 平均と分散を求めた後のテーブル
 1701 入力テーブル表示部、 1702 演算タイプ選択部
 1706 尺度水準結果表示部、 1707 尺度水準選択部
 1708 適用可能演算表示部、 1709 適用演算選択部
 1710 データ加工結果表示部、 1801 データ自動解析システム
 1802 入力データ、 1803 出力データ
 1804 データ前処理部、 1805 加工データ
 1806 データ解析部、 1901 データ自動加工システム
 1902 入力データ、 1903 出力データベース
 1904 データ受付部、 1905 データ型判定部
 1906 尺度水準判定部、 1907 尺度水準データベース
 1908 データ加工部、 2001 加工演算判定部
 2002 加工演算データベース、 2003 表示部
 2101 加工演算選択部。

Claims (14)

  1.  数字、文字、および符号に関するデータを受け付ける受付部と、
     前記データについて、前記データの型を判定するデータ型判定部と、
     前記データが数字型である場合に、前記データの分布に基づいて前記データの尺度水準を判定する尺度水準判定部と、
     前記尺度水準に基づいて前記データを加工するデータ加工部と、を有するデータ自動加工システム。
  2.  請求項1に記載のデータ自動加工システムであって、
     前記データの分布は、前記データの値と前記データの値の出現頻度に基づいたデータの頻度分布であることを特徴とするデータ自動加工システム。
  3.  請求項2に記載のデータ自動加工システムであって、
     前記尺度水準判定部は、前記データの値と前記データの値の出現頻度からなるヒストグラムの形状を基に前記データの尺度水準を判定することを特徴とするデータ自動加工システム。
  4.  請求項2に記載のデータ自動加工システムであって、
     前記尺度水準判定部は、前記データの頻度分布について連続性を有しているか判定し、前記データの頻度分布が連続性を有していないと判定した場合に前記データを名義尺度と判定することを特徴とするデータ自動加工システム。
  5.  請求項2に記載のデータ自動加工システムであって、
     前記尺度水準判定部は、前記データの頻度分布について連続性、中心性、単調減少性、および等分散性を有しているか判定し、前記データの頻度分布が連続性を有しており、中心性を有する若しくは単調減少性を有しており、かつ等分散性を有していない場合に前記データを比例尺度と判定することを特徴とするデータ自動加工システム。
  6.  請求項1に記載のデータ自動加工システムであって、
     前記尺度水準判定部は、前記データが文字列型である場合に、前記データと所定の正規表現との合致有無に基づいて前記データの尺度水準を判定することを特徴とするデータ自動加工システム。
  7.  請求項6に記載のデータ自動加工システムであって、
     前記尺度水準判定部は、前記データがリスト表現の正規表現と合致し、かつ、前記データの値と前記データの値の出現頻度に基づいたデータの頻度分布が単調変化を示している場合に前記データを順序尺度と判定することを特徴とするデータ自動加工システム。
  8.  請求項6に記載のデータ自動加工システムであって、
     前記尺度水準判定部は、前記データが時刻表現の正規表現および時間表現の正規表現と合致した場合に、前記データの値と前記データの値の出現頻度に基づいたデータの頻度分布について等分散性を有していると判定された場合に前記データが時刻表現であると判定し、前記データの値と前記データの値の出現頻度に基づいたデータの頻度分布について等分散性を有していないと判定された場合に前記データが時間表現であると判定し、前記データの尺度水準を判定することを特徴とするデータ自動加工システム。
  9.  請求項1に記載のデータ自動加工システムであって、
     数字、文字、及び符号に関する各データに対して、前記各データの尺度水準と紐づけて前記各データに適用可能な加工演算を判定する加工演算判定部と、
     前記適用可能な加工演算を画面に表示する表示部と、を有することを特徴とするデータ自動加工システム。
  10.  請求項1に記載のデータ自動加工システムであって、
    数字、文字、及び符号に関する各データに対して、前記各データの尺度水準と紐づけて前記各データに適用可能な加工演算を判定する加工演算判定部と、
     前記適用可能な加工演算のうち、演算適用後の前記各データの値のばらつきが最も小さい加工演算を選択する最適加工演算選択部を有し、
     前記データ加工部は、前記各データの値のばらつきが最も小さい加工演算を適用することにより前記データを加工することを特徴とするデータ自動加工システム。
  11.  数字、文字、および符号に関するデータを入力とするデータ自動加工方法であって、
     前記データを受け付ける受付ステップと、
     前記データについて、前記データの型を判定するデータ型判定ステップと、
     前記データが数字型である場合に、前記データの分布に基づいて前記データの尺度水準を判定する尺度水準判定ステップと、
     前記尺度水準に基づいて前記データを加工するデータ加工ステップと、を有することを特徴とするデータ自動加工方法。
  12.  請求項11に記載のデータ自動加工方法であって、
     前記データの分布は、前記データの値と前記データの値の出現頻度に基づいたデータの頻度分布であることを特徴とするデータ自動加工方法。
  13.  数字、文字、および符号に関するデータを受け付ける受付部と、
     前記データについて、データの型を判定するデータ型判定部と、
     前記データが数字型である場合に、前記データの分布に基づいて前記データの尺度水準を判定する尺度水準判定部と、
     前記尺度水準に基づいて前記データを加工するデータ加工部と、
     前記加工部によって加工されたデータを解析するデータ解析部と、
     前記解析部によって解析されたデータを出力する出力部と、を有するデータ自動解析システム。
  14.  請求項13に記載のデータ自動解析システムであって、
     前記データの分布は、前記データの値と前記データの値の出現頻度に基づいたデータの頻度分布であることを特徴とするデータ自動解析システム。
PCT/JP2015/061778 2015-04-17 2015-04-17 データ自動加工システム、データ自動加工方法、およびデータ自動解析システム WO2016166878A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2015/061778 WO2016166878A1 (ja) 2015-04-17 2015-04-17 データ自動加工システム、データ自動加工方法、およびデータ自動解析システム
JP2017512160A JP6353975B2 (ja) 2015-04-17 2015-04-17 データ自動加工システム、データ自動加工方法、およびデータ自動解析システム
US15/566,523 US20180095937A1 (en) 2015-04-17 2015-04-17 Automatic Data Processing System, Automatic Data Processing Method, and Automatic Data Analysis System

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/061778 WO2016166878A1 (ja) 2015-04-17 2015-04-17 データ自動加工システム、データ自動加工方法、およびデータ自動解析システム

Publications (1)

Publication Number Publication Date
WO2016166878A1 true WO2016166878A1 (ja) 2016-10-20

Family

ID=57126469

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/061778 WO2016166878A1 (ja) 2015-04-17 2015-04-17 データ自動加工システム、データ自動加工方法、およびデータ自動解析システム

Country Status (3)

Country Link
US (1) US20180095937A1 (ja)
JP (1) JP6353975B2 (ja)
WO (1) WO2016166878A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018206074A (ja) * 2017-06-05 2018-12-27 Kddi株式会社 ヒストグラム生成方法、ヒストグラム生成装置及びヒストグラム生成プログラム
JP2019016173A (ja) * 2017-07-07 2019-01-31 株式会社日立製作所 データ処理方法、データ処理装置、及びデータ処理プログラム
JP2020166443A (ja) * 2019-03-28 2020-10-08 株式会社日立製作所 データ加工方法レコメンドシステム、データ加工方法レコメンド方法、及びデータ加工方法レコメンドプログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10492987B2 (en) * 2017-06-26 2019-12-03 Parata Systems, Llc Methods, systems, and computer program products for managing multiple drug product packaging systems using a common database management system
US11385874B2 (en) * 2020-02-03 2022-07-12 Sap Se Automatic type determination for database programming

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000353163A (ja) * 1999-06-11 2000-12-19 Just Syst Corp データベース処理装置、及びデータベース処理のためのプログラムが記憶された記憶媒体
JP2015032013A (ja) * 2013-07-31 2015-02-16 Kddi株式会社 数値データ解析装置及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11049349B2 (en) * 2004-06-01 2021-06-29 Daniel William Onischuk Computerized voting system
JP4782727B2 (ja) * 2007-05-17 2011-09-28 株式会社東芝 機器状態監視装置並びに機器状態監視のための方法およびプログラム
JP5372588B2 (ja) * 2009-04-24 2013-12-18 株式会社日立製作所 組織評価装置および組織評価システム
US8676937B2 (en) * 2011-05-12 2014-03-18 Jeffrey Alan Rapaport Social-topical adaptive networking (STAN) system allowing for group based contextual transaction offers and acceptances and hot topic watchdogging
US10389641B2 (en) * 2015-03-31 2019-08-20 British Telecommunications Public Limited Company Network operation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000353163A (ja) * 1999-06-11 2000-12-19 Just Syst Corp データベース処理装置、及びデータベース処理のためのプログラムが記憶された記憶媒体
JP2015032013A (ja) * 2013-07-31 2015-02-16 Kddi株式会社 数値データ解析装置及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BERRY, MICHAEL J.A. & ATSUSHI EHARA: "Mastering Data Mining Riron- hen", KAIBUNDO SHUPPAN KABUSHIKI KAISHA, 30 October 2002 (2002-10-30), pages 204 - 209 *
KELLY DIANE & HIDEO JOHO: "Methods for Evaluating Interactive Information Retrieval Systems with Users", MARUZEN PUBLISHING CO., LTD., 20 April 2013 (2013-04-20), pages 45 - 47 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018206074A (ja) * 2017-06-05 2018-12-27 Kddi株式会社 ヒストグラム生成方法、ヒストグラム生成装置及びヒストグラム生成プログラム
JP2019016173A (ja) * 2017-07-07 2019-01-31 株式会社日立製作所 データ処理方法、データ処理装置、及びデータ処理プログラム
JP2020166443A (ja) * 2019-03-28 2020-10-08 株式会社日立製作所 データ加工方法レコメンドシステム、データ加工方法レコメンド方法、及びデータ加工方法レコメンドプログラム

Also Published As

Publication number Publication date
US20180095937A1 (en) 2018-04-05
JP6353975B2 (ja) 2018-07-04
JPWO2016166878A1 (ja) 2017-06-29

Similar Documents

Publication Publication Date Title
JP6353975B2 (ja) データ自動加工システム、データ自動加工方法、およびデータ自動解析システム
US10191968B2 (en) Automated data analysis
US10074079B2 (en) Systems and methods for automated analysis, screening and reporting of group performance
US20030033263A1 (en) Automated learning system
EP3118750A1 (en) Factor analysis device, factor analysis method, and factor analysis program
CN108491991B (zh) 基于工业大数据产品工期的约束条件分析系统与方法
WO2018096683A1 (ja) 要因分析方法、要因分析装置および要因分析プログラム
CN113761334A (zh) 一种可视化推荐方法、装置、设备和存储介质
WO2018196538A1 (zh) 生产环境安全性的分析方法、装置和系统
US11243951B2 (en) Systems and methods for automated analysis, screening, and reporting of group performance
CN111242170B (zh) 食品检验检测项目预知方法及装置
CN109086299A (zh) 分析数据质量方法
WO2017073446A1 (ja) 説明変数値を算出する装置、方法及びプログラム
CN114430361A (zh) 一种异常带宽检测方法、装置、电子设备及存储介质
WO2018047256A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP6458157B2 (ja) データ分析装置および分析方法
CN109639283A (zh) 基于决策树的工件编码方法
CN114969169A (zh) 签收数据监控方法、装置、设备及存储介质
KR102265937B1 (ko) 시퀀스데이터의 분석 방법 및 그 장치
CN109284354B (zh) 脚本搜索方法、装置、计算机设备及存储介质
CN112418652A (zh) 一种风险识别方法及相关装置
JP7464351B2 (ja) メディア生成システムおよびそのシステムを実行する方法
US20220284061A1 (en) Search system and search method
JP2020166443A (ja) データ加工方法レコメンドシステム、データ加工方法レコメンド方法、及びデータ加工方法レコメンドプログラム
JP7526525B1 (ja) データ間の依存性判定システム、データ間の依存性判定プログラム、及び、データ間の依存性判定方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15889216

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017512160

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15566523

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15889216

Country of ref document: EP

Kind code of ref document: A1