JPWO2017158802A1

JPWO2017158802A1 - データ変換システム及びデータ変換方法

Info

Publication number: JPWO2017158802A1
Application number: JP2017511352A
Authority: JP
Inventors: 文也工藤; 知明秋富; 進芹田; 佑北野
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2016-03-17
Filing date: 2016-03-17
Publication date: 2018-03-22
Anticipated expiration: 2036-03-17
Also published as: WO2017158802A1; US20180253479A1; JP6242540B1; US10877989B2

Abstract

複数のデータ要素を含むカラムを保持する記憶部と、前記カラムの各データ要素の範囲を指定する範囲指定部と、前記カラムの指定された範囲のデータ要素の情報量を計算する情報量評価部と、前記指定された範囲の変化に応じた前記情報量の変化が所定の条件を満たす点を検出する変化点検出部と、を有することを特徴とするデータ変換システム。

Description

データ中の各要素から得られる統計情報を元に、分析に必要なデータ加工を自動化するシステムを提供する技術に関する。

近年、企業で蓄積されてきた業績に関するビッグデータを活用し、業績向上に繋がる要因を分析するシステムの開発が盛んに行われている。一般的に分析者は、様々な情報を含む大量のデータに対して、どのような条件が業績向上の要因となり得るか調べる。このとき分析者は、業績と関係する可能性のある項目を抽出するため、様々なデータ加工を行う。しかし、分析するデータのサイズが大きくなるにつれ、このようなデータの加工を分析者が人手で行うことは困難になってきた。そこで、大規模なデータを分析する際、データ加工を支援するシステムの開発が求められている。

大規模なデータを分析する際のデータ加工を支援するシステムとして、例えば特許文献１に記載のシステムが挙げられる。特許文献１には、「シンボル列生成部は、時系列に並ぶ複数のデータにより構成される時系列データに基づいて、複数のデータの属性をそれぞれ表すシンボルを時系列に並べたシンボル列を生成し、分割部は、シンボル列における各シンボルの分散に基づいて、時系列データを複数のセグメントに分割する。」と記載されている。

特許文献１：特開２０１３−２０６１０４号公報

従来、分析者が人手で行ってきた分析対象データの加工、その中でも特にＩＤ又は名前などのラベルデータから、所属及び入社年度などの上位概念情報の抽出を自動化するシステムを開発する。上記のように、特許文献１は、時系列データを対象として分散に基づいて複数のセグメントに分割する装置を提案している。しかし特許文献１では、扱えるデータが時系列データに限られており、また分散を使ってデータの分離を行っているため、連続性の仮定された数値データに利用が限定される。

上記課題を解決するための、本発明の代表的な一例を示すと、次の通りである。すなわち、本発明のデータ変換システムは、複数のデータ要素を含むカラムを保持する記憶部と、前記カラムの各データ要素の範囲を指定する範囲指定部と、前記カラムの指定された範囲のデータ要素の情報量を計算する情報量評価部と、前記指定された範囲の変化に応じた前記情報量の変化が所定の条件を満たす点を検出する変化点検出部と、を有することを特徴とする。

本発明の一態様によれば、入力した分析対象テーブルの各カラムから、例えば、上位概念関係にあるカラムを自動抽出できる。例えば、ＩＤ又は名前のようなラベルデータに対して、各桁（文字）に注目して上位概念データを抽出するため、数値データ、及び、文字列から成るラベルデータ共に本発明を適用可能である。抽出されたカラムを分析に使用することで、分析の速度と汎用性が向上する。上記した以外の課題、構成、および効果は、以下の実施形態の説明によって明らかにされる。

本発明の実施例１のデータ変換システムのハードウェア構成を示すブロック図である。本発明の実施例１のデータ変換システムが保持する入力テーブルの具体例の説明図である。本発明の実施例１のデータ変換システムが保持する出力テーブルの第１の具体例の説明図である。本発明の実施例１のデータ変換システムが保持する出力テーブルの第２の具体例の説明図である。本発明の実施例１の抽象化処理部の詳細を示すフロー図である。本発明の実施例１のユニーク性評価部の詳細を示すフロー図である。本発明の実施例１の変化点検出部の詳細を示すフロー図である。本発明の実施例１の分離点抽出部の詳細を示すフロー図である。本発明の実施例１のカラム分離処理部の詳細を示すフロー図である。本発明の実施例１の命名部の詳細を示すフロー図である。本発明の実施例１の抽象化処理部に入力される入力テーブル中の一つのカラムの具体例の説明図である。本発明の実施例１のユニーク性評価部の具体例の説明図である。本発明の実施例１の変化点検出部の具体例の説明図である。本発明の実施例１のカラム分離処理部の具体例の説明図である。本発明の実施例２の抽象化処理部の詳細を示すフロー図である。本発明の実施例２のクラスタリング部の詳細を示すフロー図である。

以下、本発明の一実施形態を、図面を参照して説明する。

図１は、本発明の実施例１のデータ変換システムのハードウェア構成を示すブロック図である。

本実施例のデータ変換システムは、中央処理装置００１、二次記憶装置００２、主記憶装置００３、入力装置００４及び出力装置００５を有し、中央処理装置００１、二次記憶装置００２、主記憶装置００３、入力装置００４及び出力装置００５がバス００６で接続された計算機０１１によって実現される。

中央処理装置００１は、二次記憶装置００２や主記憶装置００３に格納されたプログラムを実行するプロセッサである。

二次記憶装置００２は、例えば磁気記憶装置、フラッシュメモリ等の大容量かつ不揮発性の記憶装置であり、プログラム実行時に中央処理装置００１によって計算される抽象化処理部００７を格納する。抽象化処理部００７は、中央処理装置００１によって実行されるアプリケーションプログラムであり、その一部又は全部が必要に応じて主記憶装置００３にコピーされてもよい。以下の説明に置いて抽象化処理部００７又はそれに含まれる処理部が実行する処理は、実際には、中央処理装置００１が、抽象化処理部００７を実現するプログラム又はそれに含まれるサブプログラムに従って実行する。

主記憶装置００３は、例えばＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）のような高速かつ揮発性の記憶装置であり、オペレーティングシステム（ＯＳ）（図示省略）及びアプリケーションプログラムを格納する。中央処理装置００１がオペレーティングシステムを実行することによって、計算機０１１の基本機能が実現されアプリケーションプログラムを実行することによって、計算機０１１が提供する機能が実現される。具体的には主記憶装置００３は、入力テーブル００８、出力テーブル００９を格納する。

入力装置００４は、キーボード、マウスなどのユーザインターフェースである。出力装置００５は、ディスプレイ装置、プリンタなどのユーザインターフェースである。

なお、計算機０１１は、ネットワーク０１２に接続し、他の装置との通信を制御する通信インターフェース０１０を有してもよい。この場合、計算機０１１が通信インターフェース０１０を介して端末（図示省略）と接続されており、該端末が入力装置００４及び出力装置００５を有し、端末からの要求に従ってテーブルを処理し、処理結果を端末に出力する。

本実施例のデータ変換システムは、さらに、ネットワーク０１２に接続されたサーバ計算機０１３を含んでもよい。サーバ計算機０１３の通信インターフェース０１４、バス０１５、中央処理装置０１６、二次記憶装置０１７、主記憶装置０１８、入力装置０１９及び出力装置０２０は、それぞれ、計算機０１１の同名の各部と同様であってよいため、これらに関する説明を省略する。ただし、サーバ計算機０１３の二次記憶装置０１７には、データベース０２１が格納される。この例に置いて、データベース０２１に含まれるテーブルの一部が入力テーブル００８としてネットワーク０１２を介して計算機０１１に入力されてもよい。また、出力テーブル００９は、計算機０１１からネットワーク０１２を介してサーバ計算機０１３に出力され、データベース０２１の一部として二次記憶装置０１７に格納されてもよい。

本実施例のデータ変換システムは、物理的に一つの計算機上に構築されても、物理的には一つ又は複数の計算機上に構成された論理区画上に構築されてもよい。例えば、計算機０１１とサーバ計算機０１３が図１に示すようにネットワーク０１２に接続された複数の物理的な計算機によって構築されてもよいし、物理的に一つの計算機上に構築されてもよい。また、計算機０１１が保持する入力テーブル００８、出力テーブル００９及び抽象化処理部００７がネットワーク０１２を介して接続された複数の物理的な計算機に分散して配置され、それらの間でデータをやり取りすることによって抽象化処理部００７の機能が実現されてもよい。

次に、抽象化処理部００７に入力される入力テーブル００８ついて詳細を説明する。このシステムによって抽象化されたカラムを用いることで、分析者は大規模なデータに対して様々な分析を行うことができる。

図２は、本発明の実施例１のデータ変換システムが保持する入力テーブル００８の具体例の説明図である。

具体的には、図２に示すテーブル１０１は、図１に示した主記憶装置００３に保持され、抽象化処理部００７に入力される入力テーブル００８の具体例を示している。

テーブル１０１は、ある企業の倉庫に保管される在庫商品と、各商品の管理状況に関するデータを管理するテーブルである。テーブル１０１には、保管される商品の場所を一意に定める商品ロケＩＤ１０２、商品の種類を表す品目１０３、保管される商品の個数を表す個数１０４、商品を保管した社員を特定する担当社員ＩＤ１０５、及び、作業が実行された日時を表す処理時刻１０６、のカラムが格納されている。企業等の組織では一般的に、テーブル１０１のような形でシステムの運用状況及び在庫状況等が管理されている。本実施例は、テーブル１０１のようなリレーショナルデータベース形式のあらゆるテーブルを入力対象としている。テーブル１０１が入力され、抽象化処理部００７が実行されることで、出力テーブル００９が得られる。

図３は、本発明の実施例１のデータ変換システムが保持する出力テーブル００９の第１の具体例の説明図である。

図３に示すテーブル２０１は、図２のテーブル１０１が入力された抽象化処理部００７によって出力され、主記憶装置００３に保持される出力テーブル００９の具体例を示している。テーブル２０１は、テーブル１０１の各カラムが抽象化された上位概念カラムを含むカラムを持つテーブルである。

テーブル２０１における商品ロケＩＤ（１−２桁）２０２、商品ロケＩＤ（３−５桁）２０３、商品ロケＩＤ（６−７桁）２０４、商品ロケＩＤ（８−９桁）２０５、及び商品ロケＩＤ（１０−１１桁）２０６は、テーブル１０１における商品ロケＩＤ１０２カラムから抽出された上位概念カラムである。担当社員ＩＤ（１−４桁）２０９、担当社員ＩＤ（５−６桁）２１０、及び担当社員ＩＤ（７−１１桁）２１１は、テーブル１０１における担当社員ＩＤ１０５から抽出された上位概念カラムである。処理時刻（１−１０桁）２１２、処理時刻（１２−１３桁）２１３、及び処理時刻（１５−１６桁）２１４は、テーブル１０１における処理時刻１０６カラムから抽出された上位概念カラムである。品目２０７及び個数２０８は上位概念が存在しないカラムであると判定され、入力テーブル１０１中の品目１０３及び個数１０４カラムがそのまま出力されたカラムである。

図４は、本発明の実施例１のデータ変換システムが保持する出力テーブル００９の第２の具体例の説明図である。

図４は、図３に示した出力テーブル２０１の各カラムに対して、ユーザから入力された名前を付加した出力テーブル３０１の具体例を示している。

本システムによって、入力テーブル１０１における商品ロケＩＤ１０２は、商品が格納される建物の階を表す階３０２、エリア名を表すエリア名３０３、棚の列番号を示す列番号３０４、棚の行番号を示す行番号３０５、棚の段を表す棚番号３０６に分離される。なお、これらは、それぞれ、図３に示した出力テーブル２０１の商品ロケＩＤ（１−２桁）２０２〜商品ロケＩＤ（１０−１１桁）２０６に対応する。

同様に入力テーブル１０１における担当社員ＩＤ１０５は、社員の入社年度を表す入社年度３０９、社員の所属部署を表す所属部署ＩＤ３１０、同期入社の社員の中での五十音順を示す五十音番号３１１に分離される。これらは、それぞれ、図３に示した出力テーブル２０１の担当社員ＩＤ（１−４桁）２０９〜担当社員ＩＤ（７−１１桁）２１１に対応する。

また、ＩＤのようなラベル的に振る舞う情報を含むカラム以外にも、日時及び時刻を表現するカラムに対しても上記のような名前の付加が適用される。入力テーブル１０１における処理時刻１０６は、処理した日時を表す処理日３１２、処理した時刻を一時間単位で表す処理時３１３、及び処理した時間を分単位で表す処理分３１４に分離される。これらは、それぞれ、図３に示した出力テーブル２０１の処理時刻（１−１０桁）２１２〜処理時刻（１５−１６桁）２１４に対応する。

「品目」３０７及び「個数」３０８のように、上位概念となるカラムが存在しない場合は、入力したカラムがそのまま出力される。このように本実施形態のデータ変換システムは、入力したテーブルの各カラムについて、上位概念を持つカラムに自動変換して出力する。

図５は、本発明の実施例１の抽象化処理部００７の詳細を示すフロー図である。

抽象化処理部００７は、入力されたテーブルの各カラムについて、その要素を分離することで、元のカラムの上位概念となるカラムを抽出して出力する。抽象化処理部００７は、以下に説明するカラム選択部４０１、要素分離部４０２、ユニーク性評価部４０３、変化点検出部４０４、分離点抽出部４０５、カラム分離処理部４０６及び命名部４０７を含む。これらは、抽象化処理部００７を実現するためのプログラムに含まれるサブプログラムを中央処理装置００１が実行することによって実現される機能ブロックである。

抽象化処理部００７では、カラム選択部４０１が入力テーブル００８からカラムを選択し、要素分離部４０２が、選択されたカラム中の要素を文字ごとに分離する。ユニーク性評価部４０３は、文字ごとに分離された各カラムの要素に対して、ユニーク要素数を基本とするデータのユニーク性を表現する値を計算する。変化点検出部４０４は、各カラムに対して計算されたユニーク性に関する評価値を用いて、ユニーク性の値が変化する変化点となる文字数を抽出する。分離点抽出部４０５は、抽出されたユニーク性変化点を元に、対象カラムを分離する分離点を抽出する。カラム分離処理部４０６は、抽出されたカラムの分離点に従い、対象カラムを複数のカラムに分離する。命名部４０７は、対象カラムから分離して新しく生成された複数のカラムに対してカラム名を設定する。入力テーブル００８中の全てのカラムに対して処理が完了すると、各カラムを抽象化した上位概念となるカラムを含んだ出力テーブル００９が出力される。

図６は、本発明の実施例１のユニーク性評価部４０３の詳細を示すフロー図である。

ユニーク性評価部４０３は、選択されたカラム５０１を入力として、カラムのユニーク性を表現する値を計算する。具体的には、ユニーク性評価部４０３は、選択されたカラム５０１から分離された各要素を順次選択して（ステップ５０２）、選択した各要素に対して、ユニーク性を評価する値を計算する（ステップ５０３）。図６では例として、各要素の情報量を計算している。その他にも、ユニーク性を評価する値として、ユニーク要素数そのものを使うなど様々な値を当てはめることが想定できる。ユニーク要素数等のユニーク性を評価する値は、各要素の情報量を表す値であるといえる。すなわち、ユニーク性評価部４０３は、広義には、情報量評価部と言い換えることができる。ユニーク性評価部４０３は、分離した全ての要素について値を計算したのち、分離した要素ごとの平均情報量を計算する。結果として、分離した要素ごとの平均情報量５０４が出力される。

図７は、本発明の実施例１の変化点検出部４０４の詳細を示すフロー図である。

変化点検出部４０４は、選択されたカラム５０１と分離した要素ごとの平均情報量５０４とを入力として、カラムのユニーク性を示す値の変化点を検出する。図７の例では、変化点検出部４０４は、ユニーク性の値が変化する変化点となる文字数を、平均情報量の変化点として抽出する（ステップ６０１）。ユニーク性の値の変化点としては、カラム中の要素の文字数が変化した際の情報量の変化量を求めてもよいし、その変化量の変化量を求めてもよいし、その他の様々な変化量を求めることが想定できる。結果として、変化点検出部４０４は、検出した変化点情報６０２を出力する。

図８は、本発明の実施例１の分離点抽出部４０５の詳細を示すフロー図である。

分離点抽出部４０５は、選択されたカラム５０１と抽出された変化点情報６０２とを入力として、カラムの持つユニーク性の情報から、カラムを分離する分離点を抽出する。具体的には、分離点抽出部４０５は、カラム中の要素の持つユニーク性の変化点を元に、カラムを異なる概念の複数のカラムに分離する点を抽出し（ステップ７０１）、結果としてカラムの分離点情報７０２を出力する。

図９は、本発明の実施例１のカラム分離処理部４０６の詳細を示すフロー図である。

カラム分離処理部４０６は、選択されたカラム５０１とカラムの分離点情報７０２とを入力として、カラムを複数の上位概念カラムに分離する。具体的には、カラム分離処理部４０６は、カラムの分離点情報７０２から分離すべき文字数を抽出することによって、各分離点を選択する（ステップ８０１）。次に、カラム分離処理部４０６は、抽出された文字について、選択されたカラム５０１に対してカラムを分離する（ステップ８０２）。全ての分離点に対して分離したカラムが、分離したカラム８０３として出力される。

図１０は、本発明の実施例１の命名部４０７の詳細を示すフロー図である。

命名部４０７は、分離したカラム８０３とユーザから入力されたカラム名９０１とを入力として、分離した各カラムに名前を付加する。具体的には、命名部４０７は、分離した各カラムを選択し（ステップ９０２）、ユーザから入力されたカラム名９０１の情報を用いて、選択したカラムに名前を付加する（ステップ９０３）。ユーザから入力されたカラム名９０１の入力は任意であり、入力されなかった場合は、命名部４０７は、分離した各カラムに、分離元カラムの名前に識別記号を付加した名前を付ける。例えば「担当社員ＩＤ」カラムから２つのカラムが生成された場合、「担当社員ＩＤ（１−４桁目）」「担当社員ＩＤ（５−６桁目）」といった名前が自動的に付加される。命名部４０７は、全てのカラムに名前を付加したのち、分離したカラム’９０４を出力する。

次に、上記の図５〜図１０に示した処理の具体例として、図２に示す入力テーブル００８が入力された場合に実行される処理を、図１１〜図１４を参照して説明する。

図１１は、本発明の実施例１の抽象化処理部００７に入力される入力テーブル００８中の一つのカラムの具体例の説明図である。

図１１における社員ＩＤカラム１００２は、図２のテーブル１０１に含まれる担当社員ＩＤ１０５に相当する。この社員ＩＤカラム１００２に格納された各社員ＩＤは、表１００１に示されるように、社員の入社年度を数値で表す「入社年度」、社員の所属部署について数値を記号として表す「所属部署ＩＤ」、及び、同期入社した社員の中での名前の五十音番号を表す「五十音順番号」から構成される、社員一人一人に割り当てられるＩＤである。この具体例で示す社員ＩＤ１００２は、各要素が数値から成るカラムであるが、各要素を表す数値は文字列と同じように扱われている。つまり、例えばフィールド１００３の社員ＩＤ「２０１３５０００００４」とフィールド１００４の社員ＩＤ「２００１５００００２０」とを足し合わせて「４０１５０００００２４」という値を得ても意味をなさない。このように「２０１３５０００００４」に代表される各社員ＩＤの値は、現実の各物体又は事象に付けられたラベル（名前）である。このように具体例では、数値を記号とみなしたラベル値を挙げたが、「Ａ＿２３ＴＴ０−ａ」又は「日本」といった数値以外の記号を含むラベルや、単に対象を表す名前なども同様に扱うことができる。

社員ＩＤ１００２のようなカラムを含むテーブルが抽象化処理部００７に入力されると、要素分離部４０２によってカラム中の各要素が文字ごとに分解される。

なお、図１１は、図２の入力テーブル１０１から担当社員ＩＤ１０５のカラムが選択された例を示しているが、本実施例は、一つのカラムのみからなるテーブルにも適用可能である。また、本実施例は、テーブル形式以外の形式であっても、上記のように複数のデータ要素を含むカラムに相当する情報を含む任意の形式の構造化データに適用することができる。

図１２は、本発明の実施例１のユニーク性評価部４０３の具体例の説明図である。

図１２における分離したカラム１１０１は、図１１における社員ＩＤカラム１００２中の要素が文字数ごとに分離された様子の一部を示す具体例である。図１２のように、例えば社員ＩＤカラム１００２が「２０１３５０００００４」、「１９９８５００００２０」、「２０１２５１０００５０」及び「２００７５２０００３５」といった値を含んでいる場合に、社員ＩＤカラム１００２中の要素は、各要素の１桁目「２」及び「１」のみから成るカラム、各要素の１桁目から２桁目「２０」及び「１９」のみから成るカラム、各要素の１桁目から３桁目「２０１」、「２００」及び「１９９」のみから成るカラムといった具合に、要素分離部４０２によって複数のカラムに分離される。分離された複数のカラムに対して、ユニーク性評価部４０３によってユニーク性を評価する指標が計算される。

なお、上記のようにカラムを所定の桁数の範囲に分離する処理は、この後のユニーク性評価部４０３による情報量の計算の対象となる範囲を指定する処理の一例に過ぎない。実際には、要素分離部４０２は、カラムを分離する以外の方法で上記のような範囲を指定してもよい。要素分離部は、範囲指定部と言い換えてもよい。

ユニーク性を評価する指標の具体例として、カラムの持つ平均情報量が挙げられる。平均情報量は、例えば式（１）によって計算される。

ここで、ｘは対象カラムにおける各要素であり、ｐ（ｘ）は要素ｘがカラム中に出現する割合（確率）である。カラムのユニーク性を表現する値を求める手法としては、単純にユニーク要素数を求めるなど、様々な手法を用いることができる。図１２における社員ＩＤ１００２を分離した各カラム１１０１に対して単純にユニーク要素数を求めた場合、カラム「１桁目」は、ユニークな要素が「２」及び「１」の２個あるため、ユニーク数２、カラム「２桁目」は、ユニークな要素が「２０」及び「１９」の２個あるため、ユニーク数２、カラム「３桁目」は、ユニークな要素が「２０１」、「２００」及び「１９９」の３個あるため、ユニーク数３と計算される。上記のように、分離した各カラムのユニーク数を計算した結果を、要素のユニーク数１１０２に示している。

各カラムに対して計算されたユニーク性を表現する値に対して、変化点検出部４０４は、文字数の変化に応じたユニーク性の変化点を検出する。

図１３は、本発明の実施例１の変化点検出部４０４の具体例の説明図である。

図１３は、具体例として、図１２に示すように、社員ＩＤ１００２を分離するために区切った桁数（文字数）を横軸にとり、分離したカラムの持つ平均情報量Ｈ（Ｘ）を縦軸にとった場合の、ユニーク性を表現する値（この例では平均情報量）の変化の様子を示す。

図１３のグラフは、社員ＩＤカラム１００２の各要素について、左端から順に１桁目のみ、２桁目まで、３桁目まで、・・・のように区切って分離したカラムについて、そのカラムが持つ平均情報量をプロットしたグラフである。具体例から、社員ＩＤを示す各要素について、４桁目付近と６桁目付近において、平均情報量の値の変化量が変化している様子が分かる。このように変化点検出部４０４は、カラムのユニーク性を表現する値に関して、分離するカラム中の要素の文字数を変化させた場合に、ユニーク性の変化が所定の特徴を有する（すなわち所定の条件を満たす）地点を検出する。ユニーク性の変化に関する特徴としては、ユニーク性の値そのものの変化、ユニーク性の値の変化量の変化、又は、変化の勾配が最大もしくは０となる点など、様々な特徴が想定される。分離点抽出部４０５は、こうしたユニーク性の変化量に関する特徴を用いて、カラムの分離点を抽出する。

例えば、上記の例のように、１１桁の社員ＩＤが、社員の入社年度を示す先頭の４桁、社員の所属事業所を示す次の２桁、及び、社員の名前の五十音順の番号を示す最後の５桁、といった複数の部分を含む場合に、例えば１桁目から６桁目までのように複数の部分を含む分離したカラムの平均情報量は、一般に、上記のような複数の部分の値の組合せによって、例えば１桁目から４桁目までのように一つの部分のみを含む分離したカラムの平均情報量より著しく大きくなる。このように、分離したカラムに含まれる部分の数が多いほど平均情報量が大きくなる傾向があるため、図１３に示すように、分離したカラムに含まれる桁数を順次増やしていったときの平均情報量の変化に基づいて、カラムを構成する部分の境界の位置を推定することが可能になる。

この推定に従えば、カラムのデータ要素を、最上位の桁を起点として指定した長さだけ分離し、順次その長さを伸ばしながら情報量（例えば平均情報量又はユニーク要素数等）を計算した場合、その分離した範囲に新たに隣接する部分が含まれたときにその情報量が急激に増加すると考えられる。このため、例えば、情報量の変化が極大値を示したときに、その変化の直前の長さの範囲を分離するように分離点を抽出してもよい。

ただし、社員の入社年度及び社員の名前の五十音順の番号のように、それぞれの部分の中でも桁によって情報量が異なる場合がある。例えば、図１１に示すように、入社年度が西暦１９９６年から２０１５年までである場合、最下位の桁の値は０〜９の１０通りがあるが、その次の位の桁の値は９、０、１の３通りであり、さらにその次の位の桁の値は９、０の２通り、さらにその次の位の桁の値は１、２の２通りである。

したがって、上記のように分離する範囲の長さを伸ばしながら情報量を計算すると、その範囲に下位の桁が順次追加されるごとに増加し、特に最下位の桁が追加された時点で急激に増加し、その隣の部分の最上位の桁が追加された時点ではあまり増加せず、その下位の桁が順次追加されるに従って再び次第に増加する、といった変化が観察されることが考えられる。このため、例えば、図１３に示すように、情報量の変化が極小値を示したときに、その変化の直前の長さの範囲を分離するように分離点を抽出してもよいし、情報量の変化が極大値を示したときに、その変化の直後の長さの範囲を分離するように分離点を抽出してもよい。

あるいは、上記の極大値又は極小値の代わりに、最大値又は最小値を用いてもよいし、情報量の変化量が所定の値より大きい点、又は所定の値より小さい点を基準として、その直前又は直後の長さの範囲を分離してもよい。抽出の対象となるデータの性質によって最適な基準を選択することで、適切に上位概念データを抽出することができる。これらの方法は、指定した範囲の変化に応じたデータ要素の情報量の変化が所定の条件を満たす点を基準としてカラムの分離点を抽出する方法の一例であり、そのような方法に該当する限り、その他の任意の方法を採用することができる。

カラム分離処理部４０６は、上記のように抽出した分離点に基づいて、カラムの分離を行う。

図１４は、本発明の実施例１のカラム分離処理部４０６の具体例の説明図である。

図１４は、具体例として、社員ＩＤ１００２を分離した際の分離カラムを示す。図１４では社員ＩＤ１００２の各要素について、４桁目、６桁目で要素を分離することで、社員ＩＤ（１−４桁目）１２０１、社員ＩＤ（５−６桁目）１２０２、及び社員ＩＤ（７−１１桁目）１２０３の３つのカラムに分離されている。図１１の１００１に示されるように、それぞれ入社年度、所属部署ＩＤ、及び五十音順番号を意味するカラムに分離することができている。このように、それぞれに異なる意味を持った複数の部分からなるカラムをそれぞれの部分に自動的に分離することができる。

分離された各カラムは、ユーザからカラム名に関する入力があった場合、命名部４０７によって入社年度１２０４、事業所ＩＤ１２０５、五十音順番号１２０６といったカラム名が付加される。ただし、命名部４０７は必須ではなく、上記の社員ＩＤ（１−４桁目）１２０１〜社員ＩＤ（７−１１桁目）１２０３がそのまま出力されてもよい。

また、命名部４０７は、ユーザからの入力によらずに、他の情報に基づいて分離した各カラムの名前を推定して付加してもよい。例えば、社員ＩＤカラム１００２がデータベース０２１から抽出されたものであり、データベース０２１にさらに社員ＩＤに含まれる要素とその意味（例えば５−６桁目と社員の所属事業所）とを対応付ける定義ファイルが含まれる場合には、命名部４０７はその情報を参照して分離したカラムに名前を付加してもよい。

あるいは、データベース０２１に、社員ＩＤと各社員の属性とを対応付ける情報が含まれる場合、命名部４０７は、その情報に基づいて、分離した各カラムとそれぞれの属性との間の相互情報量に基づいて両者の類似度を計算し、類似度が所定の条件を満たす（例えば所定の値より高い）場合に、その属性を分離したカラムの名前として付加してもよい。例えば、データベース０２１に社員ＩＤと各社員の所属事業所の名前とを対応付ける情報が含まれ、命名部４０７がその情報に基づいて社員ＩＤの５−６桁目と所属事業所名との類似度が高いと判定した場合には、分離した５−６桁目のカラムに、「所属事業所名」に基づいて生成した名称（例えば「事業所ＩＤ」）を付加してもよい。これによって、命名を自動化することができる。このような処理を行うために必要なデータベース０２１の情報は、必要に応じて主記憶装置００３又は二次記憶装置００２にコピーされ、命名部４０７によって参照されてもよい。

以上のように、本実施例では、入力テーブル００８を抽象化処理部００７に入力することで、出力テーブル００９として、複数の上位概念カラムを得ることができる。このとき、上記のように、ＩＤ又は名前のようなラベルデータに対して、各桁（文字）に注目して上位概念データを抽出するため、数値データ、及び、文字列から成るラベルデータ共に適用可能である。

また、上記の例では、カラムのデータから上位概念データを抽出する処理を説明したが、概念の上下関係に関わらず、一つのカラムのデータ要素が異なる意味を持った複数の部分を含んでいる場合には、上記の処理によって、それぞれの部分を自動的に分離することができる。

次に、本発明の実施例２について説明する。以下に説明する相違点を除き、実施例２のシステムの各部は、図１〜図１４に示された実施例１の同一の符号を付された各部と同一の機能を有するため、それらの説明は省略する。

図１５は、本発明の実施例２の抽象化処理部００７の詳細を示すフロー図である。

実施例１との違いは、カラム選択部４０１によって選択された各カラムに対して、抽象化処理の適用妥当性を判定する尺度判定部１３０１〜クラスタ選択部１３０４の処理が含まれる点である。尺度判定部１３０１〜クラスタ選択部１３０４は、カラム選択部４０１と同様に、抽象化処理部００７を実現するためのプログラムに含まれるサブプログラムを中央処理装置００１が実行することによって実現される機能ブロックである。

尺度判定部１３０１では、カラム選択部４０１によって選択されたカラム中の要素の持つ尺度水準を判定する。尺度水準とは、収集されたデータに対して、そのデータが表現する情報の性質に基づき、数学・統計学的に分類する基準であり、尺度には一般的に比例尺度、間隔尺度、順序尺度、名義尺度の４種類がある。

名義尺度は、データ同士の一致を比較することのみ可能なデータであり、数字や記号を単なる名前として対象に割り振った尺度である。具体例として、”２０１３５０００００４”のように表現される社員ＩＤ１００２、及び、”田中太郎”という社員名（図示省略）などが該当する。

順序尺度は、データ同士の一致に加え、順序の比較が可能な尺度であり、例えばマラソンの順位カラム（図示省略）における”２”、”４”などが該当する。

間隔尺度は、データ同士の一致、順序の比較に加え、加減演算が適用可能な尺度であり、例えば処理時刻１０６カラムにおける”２０１６／０１／０７０９：１２”、”２０１６／０１／０８１２：５０”などが該当する。

比例尺度は、データの一致、順序の比較、加減演算に加え、比を取ることができる尺度であり、例えば年齢カラム（図示省略）における”２７”、”５４”などが該当する。

図１１の具体例で説明した通り、データを表現する記号が数値であっても名義尺度に分類されることがあるため、尺度情報を獲得するためには尺度の判定が必要である。

本発明で主に対象とするデータは、図１１で説明した社員ＩＤ１００２のような名義尺度カラムであるが、図２の入力テーブルで紹介した処理時刻１０６カラムのような時刻のカラムに対しても適用可能である。処理時刻１０６のような日付や時刻は間隔尺度に分類される。

要素文字数判定部１３０２は、選択されたカラム中の要素について、各要素の文字数を算出し、文字数が揃っているかどうか判定する。クラスタリング部１３０３は、判定された要素の文字数ごとに要素をクラスタに分類する。クラスタ選択部１３０４は、要素の文字数ごとにクラスタリングされた各クラスタを選択する。抽象化処理部００７は、尺度判定部１３０１で判定された尺度情報を使い、選択されたカラムが比例尺度であるか否かを判定し（ステップ１３０５）、比例尺度以外である場合はその先の抽象化処理（すなわち要素分離部４０２〜命名部４０７の処理）を適用する。

要素文字数判定部１３０２及びクラスタリング部１３０３は、対象カラムの要素について、全要素の多くが異なる文字数であるために異なるクラスタに分類される場合、抽象化処理部００７の処理を適用する代わりに正規表現を用いてカラムの要素を分離してもよい。その場合、要素文字数判定部１３０２等は、対象カラムの各要素を表現する正規表現を求め、正規表現が動的に変化する部分を分離する。

上記のような方法は、要素間の距離に基づいて要素をクラスタリングする方法の一例であり、要素間の距離として種々のものを利用することができる。例えば、上記の文字数の差は、要素間の距離の一例であるが、他の距離の例として、要素間のユークリッド距離又はレーベンシュタイン距離等が挙げられる。

尺度判定部１３０１、要素文字数判定部１３０２及びクラスタリング部１３０３によって、抽象化処理を適用すべきカラムを判定することが可能となる。

図１６は、本発明の実施例２のクラスタリング部１３０３の詳細を示すフロー図である。

クラスタリング部１３０３は、選択されたカラム５０１の各要素に対して、各要素の文字数１４０１から順に文字数を選択する（ステップ１４０２）。次に、クラスタリング部１３０３は、該当する文字数の要素を同一のクラスタにクラスタリングすることによって、文字数の一致するレコードを一つのクラスタに集計する（ステップ１４０３）。全ての文字数に対して処理が完了したのち、クラスタリング部１３０３は、要素のクラスタリング情報１４０４を出力する。

以上の本発明の実施例２によれば、様々な尺度のデータが含まれるテーブルに対しても、抽象化処理を適用できるカラムを自動的に判定してそれに対する抽象化処理を行うことができる。また、一つのカラムに文字数の異なる要素が含まれる場合であっても、クラスタリングによって、クラスタごとに抽象化処理を行うことができる。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明のより良い理解のために詳細に説明したのであり、必ずしも説明の全ての構成を備えるものに限定されものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることが可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によってハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによってソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、不揮発性半導体メモリ、ハードディスクドライブ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶デバイス、または、ＩＣカード、ＳＤカード、ＤＶＤ等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。

また、制御線及び情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線及び情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。

上記課題を解決するための、本発明の代表的な一例を示すと、次の通りである。すなわち、本発明のデータ変換システムは、複数のデータ要素を含むカラムを保持する記憶部と、前記カラムの各データ要素の先頭から指定された長さの範囲を前記カラムの各データ要素の範囲として指定する範囲指定部と、前記カラムの指定された範囲のデータ要素の情報量を計算する情報量評価部と、前記指定された範囲の長さを変化させたときの前記情報量の変化が所定の条件を満たす点を検出する変化点検出部と、を有することを特徴とする。

Claims

複数のデータ要素を含むカラムを保持する記憶部と、
前記カラムの各データ要素の範囲を指定する範囲指定部と、
前記カラムの指定された範囲のデータ要素の情報量を計算する情報量評価部と、
前記指定された範囲の変化に応じた前記情報量の変化が所定の条件を満たす点を検出する変化点検出部と、を有することを特徴とするデータ変換システム。
請求項１に記載のデータ変換システムであって、
前記情報量の変化が所定の条件を満たす点に基づいて、前記各データ要素を分離する点を抽出する分離点抽出部をさらに有し、前記分離点抽出部が抽出した点で分離したデータ要素を含む分離したカラムを出力することを特徴とするデータ変換システム。
請求項２に記載のデータ変換システムであって、
前記範囲指定部は、前記各データ要素の先頭から指定された長さの範囲を前記カラムの各データ要素の範囲として指定し、
前記変化点検出部は、前記指定された範囲の長さを変化させたときの前記情報量の変化が前記所定の条件を満たす点を検出することを特徴とするデータ変換システム。
請求項３に記載のデータ変換システムであって、
前記変化点検出部は、前記指定された範囲の長さに対する前記情報量の変化量が所定の値より大きい点又は小さい点を、前記情報量の変化が所定の条件を満たす点として検出し、
前記分離点抽出部は、前記所定の条件を満たす前記情報量の変化に対応する前記指定された範囲の長さの変化の直前又は直後の前記指定された範囲を分離するように、前記各データ要素を分離する点を抽出することを特徴とするデータ変換システム。
請求項３に記載のデータ変換システムであって、
前記変化点検出部は、前記指定された範囲の長さに対する前記情報量の勾配が極大又は極小となる点を、前記情報量の変化が所定の条件を満たす点として検出し、
前記分離点抽出部は、前記所定の条件を満たす前記情報量の変化に対応する前記指定された範囲の長さの変化の直前又は直後の前記指定された範囲を分離するように、前記各データ要素を分離する点を抽出することを特徴とするデータ変換システム。
請求項２に記載のデータ変換システムであって、
前記分離したカラムの名前を示す情報を生成して前記記憶部に記憶する命名部をさらに有し、
前記命名部は、
前記分離したカラムの名前を入力された場合、当該入力された名前の情報を前記記憶部に記憶し、
前記記憶部に前記カラムに対応づけられた他のカラムが格納されており、かつ、前記分離したカラムの複数のデータ要素と前記他のカラムの複数のデータ要素との類似度が所定の条件を満たす場合、前記他のカラムの名前に基づいて生成した名前を前記分離したカラムの名前として前記記憶部に記憶することを特徴とするデータ変換システム。
請求項１に記載のデータ変換システムであって、
前記記憶部は、リレーショナルデータベース形式のテーブルを保持し、
前記データ変換システムは、前記リレーショナルデータベース形式のテーブルのいずれかのカラムを選択するカラム選択部をさらに有し、
前記範囲指定部は、前記カラム選択部によって選択されたカラムの各データ要素の範囲を指定することを特徴とするデータ変換システム。
請求項１に記載のデータ変換システムであって、
前記情報量評価部は、前記指定された範囲のデータ要素の情報量として平均情報量又はユニーク要素数のいずれかを計算することを特徴とするデータ変換システム。
請求項１に記載のデータ変換システムであって、
前記カラムに含まれるデータ要素の尺度を判定する尺度判定部をさらに有し、
判定された尺度が所定の条件を満たす場合に、前記範囲指定部、前記情報量評価部及び前記変化点検出部の処理が実行されることを特徴とするデータ変換システム。
請求項９に記載のデータ変換システムであって、
前記判定された尺度が比例尺度である場合には、前記範囲指定部、前記情報量評価部及び前記変化点検出部の処理が実行されないことを特徴とするデータ変換システム。
請求項１に記載のデータ変換システムであって、
前記カラムに含まれる複数のデータ要素を、各データ要素間の距離に基づいて複数のクラスタに分類するクラスタリング部をさらに有し、
前記クラスタごとに前記範囲指定部、前記情報量評価部及び前記変化点検出部の処理が実行されることを特徴とするデータ変換システム。
請求項１１に記載のデータ変換システムであって、
前記各データ要素間の距離は、前記各データ要素の長さの差であり、
前記クラスタリング部は、長さが同一のデータ要素が同一のクラスタに含まれるように、前記カラムに含まれる複数のデータ要素を分類することを特徴とするデータ変換システム。
プロセッサと、前記プロセッサに接続される記憶装置と、を有するデータ変換システムであって、
前記記憶装置は、複数のデータ要素を含むカラムを保持し、
前記プロセッサは、
前記カラムの各データ要素の範囲を指定し、
前記カラムの指定された範囲のデータ要素の情報量を計算し、
前記指定された範囲の変化に応じた前記情報量の変化が所定の条件を満たす点を検出することを特徴とするデータ変換システム。
プロセッサと、前記プロセッサに接続される記憶装置と、を有する計算機が実行するデータ変換方法であって、
前記記憶装置は、複数のデータ要素を含むカラムを保持し、
前記データ変換方法は、
前記プロセッサが、前記カラムの各データ要素の範囲を指定する手順と、
前記プロセッサが、前記カラムの指定された範囲のデータ要素の情報量を計算する手順と、
前記プロセッサが、前記指定された範囲の変化に応じた前記情報量の変化が所定の条件を満たす点を検出する手順と、を含むことを特徴とするデータ変換方法。