WO2015029158A1

WO2015029158A1 - データ変換装置およびデータ変換方法ならびにデータ変換プログラム

Info

Publication number: WO2015029158A1
Application number: PCT/JP2013/072959
Authority: WO
Inventors: 竜治嶺; 淳一平山
Original assignee: 株式会社日立製作所
Priority date: 2013-08-28
Filing date: 2013-08-28
Publication date: 2015-03-05

Abstract

　列毎に、数値、文字列または符号から構成される表形式のデータを入力とするデータ変換装置であって、入力データを列単位に分割する第１の分割部と、この列単位に分割した入力データに含まれる要素が数値、文字列または符号のいずれで構成されるかを判定する第１の判定部と、この判定結果が数値の場合は、数値が取り得る値の範囲を複数の領域に分けて各々ラベルを生成する第１の生成部と、数値がどの領域に対応するかを判定して対応するラベルに振り分ける第１の振り分け部と、前記判定結果が文字列または符号の場合は、列単位に分割した入力データに含まれる要素から重複要素を除去してラベルを生成する第２の生成部と、文字列または符号がどのラベルに対応するかを判定して対応するラベルに振り分ける第２の振り分け部と、これらのラベルに振り分けたデータを列単位で結合する第１の結合部を有する。

Description

データ変換装置およびデータ変換方法ならびにデータ変換プログラム

　本発明は、蓄積されたデータを変換する装置および方法ならびにプログラムに関する。

　本技術分野の背景技術として、例えば特開平５－２０２７６号公報（特許文献１）がある。この公報には、入力されたデータを予め用意したコード変換表を用いて、数字および文字に分類し、０、１、２、３、４、５、６、７、８、９の数字と文字（数字以外）とのデータに判別し、文字の列と文字の列とで区切りを付ける。このことにより、入力データを数字と文字列に分類する手法が開示されている。

　また、例えば特開２００９－２６５９０５号公報（特許文献２）には、入力された数値データを、数値の大小に応じてｉｆ　ｔｈｅｎルールを用いてカテゴリデータに変換する手法と、ｉｆ　ｔｈｅｎルールで用いる閾値変数を学習サンプルから決定する手法が開示されている。

　また、例えば米国特許第５，８０２，５０９号公報（特許文献３）には、ラベル付与装置が数値データのそれぞれの値に“小”、“中”、“大”などのラベルを割り当て、数値データをラベルデータに変換する手法が開示されている。

　また、例えば国際公開ＷＯ２００７／１３９０３９号公報（特許文献４）には、入力されたテキストデータの中に、予め用意した辞書に含まれるキーワードと合致する文字列が見つかれば、その文字列を抽出する方法や、テキストデータの形態素解析を行い、固有名詞のうち氏名や地名など文字情報の種類が特定できるものを抽出する方法が開示されている。さらに、抽出したキーワードの種類を表すラベルに変換し、ラベル列内に繰り返し出現するラベルの出現パターンを推定するラベル出現パターン推定方法が開示されている。

特開平５－２０２７６号公報特開２００９－２６５９０５号公報米国特許第５，８０２，５０９号公報国際公開ＷＯ２００７／１３９０３９号公報

Y. Bengio、 "Learning Deep Architectures for AI"、Vol.2、 No. 1、 pp. 1-127、 Foundations and Trends in Machine Learning、 2009. G. E. Hinton、 S. Osindero and Y. Teh、 "A Fast Learning Algorithm for Deep Belief Nets"、NeuralComputation、 Vol. 18、 pp. 1527-1554、 2006.

　近年、ＩＣＴ（情報通信技術）の発達に伴って、膨大な量のデータが日々生成され、送信されたり、保管されたり、解析されるようになった。そして、このような膨大なデータの集まり、すなわちビッグデータ、を解析することで、犯罪の対策や、企業の経営、病気の予防などに役立てられるようになってきた。ビッグデータとは、具体的には、例えば、物流分野においては荷受情報、在庫情報、ＰＯＳデータ等、インフラ部門では家庭で使用される電気や水の量、天候、公表データ等である。これらの情報を、計算機を使って解析することで、人の経験や勘に頼って運用してきた経営資源をより適切に分配できるようになりつつある。

　計算機上でのデータの解析手法としては、近年、Ｄｅｅｐ　Ｌｅａｒｎｉｎｇ（非特許文献１）の枠組みに基づく機械学習手法が注目されるようになり、Ｄｅｅｐ　Ｌｅａｒｎｉｎｇの枠組みを用いて、音声や画像を高精度に認識できるようになりつつある。Ｄｅｅｐ　Ｌｅａｒｎｉｎｇとは、巨大なニューラルネットワークを用いて、特徴抽出から識別までやってしまう機械学習の一手法である。Ｄｅｅｐ　Ｌｅａｒｎｉｎｇが対象とするのは、図１６に示すような、多層のニューラルネットワークの構造である。図１６において、１３０１は入力層のノード、１３０２は第１層のノード、１３０３は第２層のノード、１３０４は第３層のノード、１３０５は第４層（出力層）のノード、１３０６は入力層のノードと第１層のノードの結合、１３０７は第１層のノードと第２層のノードの結合、１３０８は第２層のノードと第３層のノードの結合、１３０９は第３層のノードと第４層（出力層）のノードの結合、をそれぞれ示す。

　いま、ｋ層から構成されるニューラルネットワークを考え、入力データを、ｘ＝ｈ^０として、ｋ番目の層が、ｈ^ｋ－１の値を元に、出力ｈ^ｋの値を出力するとする。すなわち、ｈ^ｋ＝ｆ（ｂ^ｋ＋Ｗ^ｋｈ^ｋ－１）とする。ここで、ｂとＷはパラメータであり、確率的勾配降下法などの学習アルゴリズムによって決める。また、ｆ（●）は、何らかの非線形性を持つ関数が用いられ、例えばｈ^ｋ＝ｔａｎｈ（ｂ^ｋ＋Ｗ^ｋｈ^ｋ－１）が使われる。

　このような構成を持つニューラルネットワークの学習は、以前から行われてきたが、層の数ｋが大きくなるにつれ、そのニューラルネットワークはより深い（Ｄｅｅｐ）データ構造を表現できるようになるものの、ニューラルネットワークの学習、すなわち、パラメータｂとＷの推定は、局所解に陥り、必ずしも正しい値が推定できないことが分かっていた。

　しかしながら、２０００年代以降になって、隣接する２つの層の組を使って、第１層から第ｋ層まで順にプレトレーニング（非特許文献２）を行うことによって、この局所解の問題を解決する手法が提案された。このことにより、Ｄｅｅｐ　Ｌｅａｒｎｉｎｇで扱う、多層のニューラルネットワークを用いた機械学習が現実的になった。

　Ｄｅｅｐ　Ｌｅａｒｎｉｎｇの入力データの次元数は、原理上いくらでも大きくすることができるため、大規模なデータを扱いやすいという利点がある。

　また、Ｄｅｅｐ　Ｌｅａｒｎｉｎｇは、教師付き学習をしたり、ネットワークの出力ノードに別の識別器を結合したりすることで、パターン認識器として使うこともできる。あるいは、教師なし学習をすることで、特徴抽出器として使うこともできる。したがって、特に後者のように、データから特徴抽出法を機械で学習するので、事前知識に基づいて専門家が特徴抽出法を作り込む必要がなく、ビックデータの解析に適している。

　図１７は、Ｄｅｅｐ　Ｌｅａｒｎｉｎｇを含む、機械学習の構成を示す図である。学習サンプルＤＢ（データベース）１０１には、例えば学習サンプル１０２が多数格納されている。学習サンプルとは、画像データであったり、音声データであったり、テキストデータであったり、計算機上で表現可能なものであれば、形式は問わない。この学習サンプルは、一般的には計算機上ではベクトル形式の入力データ１０３で表現され、機械学習部１０４へと渡される。機械学習部１０４では、入力データ１０３を解析し、例えばパターン認識や相関分析などを行う。これにより、学習結果１０５が得られる。

　ところが、業務ビッグデータには、画像だけのデータや音声だけのデータとは異なり、ヘテロなデータ（定量／定性、連続／離散、ベクトル／時系列などの異なる種類のデータが混在したデータ）から構成されており、Ｄｅｅｐ　Ｌｅａｒｎｉｎｇをそのままビッグデータの解析に適用することができない。この課題を、図１７を用いて説明する。すなわち、ヘテロなデータの場合には、学習サンプルＤＢ１０６には、学習サンプル１０７，１０８，１０９が含まれる。例えば、学習サンプル１０７は画像データ、学習サンプル１０８は音声データ、学習サンプル１０９はテキストデータで表現されるとする。すると、入力データ１１０は、そのある部分は画像の画素値（ｘ１１、ｘ２１、ｘ３１、…）が、またある部分は音声データ（ｙ１、ｙ２、ｙ３、…）が、さらにある部分はテキストデータ（ｓ１、ｓ２、ｓ３、…）が含まれる。すなわち、入力データ１１０には、数値や文字列、符号など、異質なデータが含まれることが考えられる。

　このように異質なデータをそのまま機械学習部１１１に入力すると、データの値の大きなものに影響を受け、学習結果１１２が得られることが考えられる。例えば、画像データの画素値は０、１、２、…、２５５であり、音声データは－１０から＋１０、テキストデータは、Ａ、Ｂ、…、Ｚに対応するＡＳＣＩＩコードで表現されているとする。すると、負の値を持つデータは、音声データだけであり、また、テキストデータの取り得る値の範囲は、画像データの取り得る値の範囲よりも狭い。したがって、負のデータについては、音声のみから学習することになり、テキストデータは画像データに埋もれてしまい、適切に機械学習が行われない可能性があることを示している。

　従来は、これらの変換作業を人手で行っていた。すなわち、データの多様性を自動的に吸収することが課題であった。以下、ヘテロなデータを公知の技術では、どのようにして扱っていたか述べる。

　特許文献１に記載の方法は、数字と文字列で構成されるバイナリ形式の入力データを、数字と文字列の境界を検出して、数字と文字列に分割する方法である。したがって、分割後のデータは、数値と文字列が混在した形で表現されるため、このデータを機械学習の学習サンプルとすることが難しいという問題があった。

　特許文献２には、数値データをカテゴリデータに変換するための方法、および、変換の際の閾値を学習サンプルから決定する方法が開示されている。数値データの例として、店舗内の人の座標（Ｘ座標、Ｙ座標）を挙げ、この数値を場所の名前を表現するカテゴリ名（Ａ商品エリア、Ｂ商品エリア等）に変換する例が示されている。しかしながら、変換後のデータは文字列形式で表現されるため、データ同士の大小関係や順位の情報は失われ、機械学習で扱うことは困難である、という問題があった。

　特許文献３には、複数のサンプルデータに含まれるデータ間の関係を表す、ｉｆ　ｔｈｅｎ形式のルールを生成したり、ｉｆ　ｔｈｅｎ形式のルールの閾値を決定したりする方法が開示されている。しかしながら、この手法も入力データを、大、中、小などのラベルデータに変換するため、データ同士の大小関係や順位の情報は失われ、また、他の数値データと組み合わせて機械学習で扱うことは困難である、という問題があった。

　特許文献４には、入力されたデータから文字列を抽出し、抽出した各文字列を、文字列の分類を表すラベル列に変換する手法が開示されている。変換には、予め登録しておいたキーワードを用いる方法、正規表現や電話番号等の特定の表記規則を用いる方法が開示されている。そして、種類別のラベルに置き換え、隣り合うラベルが同じラベルであった場合に、それらを１つに纏めて、２つ以上の同じ種類のラベルが連続しないラベル列を作る方法が開示されている。この手法も、ラベルに変換するのみなので、データ同士の大小関係や順位の情報は失われ、他の数値データと組み合わせて機械学習を行うことは難しい、という問題があった。

　そこで、本発明は、このような問題点を解決するためになされたものであり、この発明の代表的な目的は、ヘテロ性を持つデータを使って機械学習を行う技術を提供することである。ここで、ヘテロ性を持つデータとは、異なる種類のデータが混在したデータである。この異なる種類のデータとは、画像データ、音声データ、テキストデータ、などの組で表現されるデータである。

　本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。

　本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、次のとおりである。

　すなわち、代表的なデータ変換装置は、列毎に、数値、文字列または符号から構成される表形式のデータを入力とするデータ変換装置である。前記データ変換装置は、入力データを列単位に分割する第１の分割部と、前記第１の分割部で列単位に分割した入力データに含まれる要素が数値、文字列または符号のいずれで構成されるかを判定する第１の判定部と、を有する。さらに、前記第１の判定部の判定結果が数値の場合は、前記数値が取り得る値の範囲を複数の領域に分けて各々ラベルを生成する第１の生成部と、前記数値がどの領域に対応するかを判定して対応するラベルに振り分ける第１の振り分け部と、を有する。また、前記第１の判定部の判定結果が文字列または符号の場合は、列単位に分割した入力データに含まれる要素から重複要素を除去してラベルを生成する第２の生成部と、前記文字列または符号がどのラベルに対応するかを判定して対応するラベルに振り分ける第２の振り分け部と、を有する。そして、前記第１の振り分け部および前記第２の振り分け部でラベルに振り分けたデータを列単位で結合する第１の結合部を有する。

　より好ましくは、前記データ変換装置は、前記第１の分割部の前段に接続され、前記入力データを列単位に分割する第２の分割部と、前記第２の分割部で列単位に分割した入力データのうち任意の少なくとも２つの列を選択し、それらの列の同一行に含まれるデータが対応付くかを判定する第２の判定部と、を有する。さらに、前記第２の判定部の判定結果が対応付く場合は、それらの列を１つのラベル列に変換する第１の変換部と、前記第１の変換部でラベル列に変換したデータを列単位で結合する第２の結合部と、を有する。そして、前記第２の結合部の出力側は前記第１の分割部の入力側に接続される。

　さらに、前記データ変換装置と同様の主旨に基づいたデータ変換方法やデータ変換プログラムにも適用するものである。

　本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。

　すなわち、代表的な効果は、ヘテロ性を持つ入力データを変換し、計算機で自動処理しやすくすることができる。この結果、ヘテロ性を持つデータを使って機械学習を行うことが可能となる。

本発明の実施の形態において、データ変換装置の位置付けの一例を説明する図である。本発明の実施の形態１におけるデータ変換装置の構成の一例を示す図である。本発明の実施の形態１において、入力データと出力データの構成の一例を示す図である。本発明の実施の形態１において、データ変換装置のハードウェア構成の一例を示す図である。本発明の実施の形態１において、データ変換方法の処理の一例を説明するフローチャートである。本発明の実施の形態１において、入力データと出力データの関係の一例を示す図である。本発明の実施の形態２において、データ変換方法の処理の一例を説明するフローチャートである。本発明の実施の形態２において、同一列テーブルと同一文字列テーブルの一例を示す図である。本発明の実施の形態２において、入力データと出力データの関係の一例を示す図である。本発明の実施の形態２において、高い相関を持つ列を纏める場合のデータ変換装置の構成の一例を示す図である。本発明の実施の形態２において、相関値の高低の一例を説明する図である。本発明の実施の形態２において、入力データと出力データの関係の一例を示す図である。本発明の実施の形態２において、分布歪度テーブルの一例を説明する図である。本発明の実施の形態３において、行を纏める場合の入力データと出力データの関係の一例を示す図である。本発明の実施の形態３において、列を纏める場合の入力データと出力データの関係の一例を示す図である。Ｄｅｅｐ　Ｌｅａｒｎｉｎｇで用いられる、多層のニューラルネットワークの構造を示す図である。Ｄｅｅｐ　Ｌｅａｒｎｉｎｇを含む、機械学習の構成を示す図である。

　以下の実施の形態においては、便宜上その必要があるときは、複数のセクションまたは実施の形態に分割して説明するが、特に明示した場合を除き、それらは互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。また、以下の実施の形態において、要素の数等（個数、数値、量、範囲等を含む）に言及する場合、特に明示した場合および原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。

　さらに、以下の実施の形態において、その構成要素（要素ステップ等も含む）は、特に明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須のものではないことは言うまでもない。同様に、以下の実施の形態において、構成要素等の形状、位置関係等に言及するときは、特に明示した場合および原理的に明らかにそうでないと考えられる場合等を除き、実質的にその形状等に近似または類似するもの等を含むものとする。このことは、上記数値および範囲についても同様である。

　［実施の形態の概要］
　まず、実施の形態の概要について説明する。本実施の形態の概要では、一例として、括弧内に実施の形態の対応する構成要素、符号等を付して説明する。

　すなわち、本実施の形態の代表的なデータ変換装置は、列毎に、数値、文字列または符号から構成される表形式のデータを入力とするデータ変換装置である。前記データ変換装置は、入力データを列単位に分割する第１の分割部（データ分割部３０７）と、前記第１の分割部で列単位に分割した入力データに含まれる要素が数値、文字列または符号のいずれで構成されるかを判定する第１の判定部（数値・文字列／符号判定部３０８）と、を有する。さらに、前記第１の判定部の判定結果が数値の場合は、前記数値が取り得る値の範囲を複数の領域に分けて各々ラベルを生成する第１の生成部（値域分割部３０９、値域ラベル追加部３１１）と、前記数値がどの領域に対応するかを判定して対応するラベルに振り分ける第１の振り分け部（数値振り分け部３１２）と、を有する。また、前記第１の判定部の判定結果が文字列または符号の場合は、列単位に分割した入力データに含まれる要素から重複要素を除去してラベルを生成する第２の生成部（文字列／符号パターン抽出部３１４、文字列ラベル追加部３１５）と、前記文字列または符号がどのラベルに対応するかを判定して対応するラベルに振り分ける第２の振り分け部（文字列振り分け部３１６）と、を有する。そして、前記第１の振り分け部および前記第２の振り分け部でラベルに振り分けたデータを列単位で結合する第１の結合部（列結合部３１３）を有する。

　より好ましくは、前記データ変換装置は、前記第１の分割部の前段に接続され、前記入力データを列単位に分割する第２の分割部（データ分割部３０７）と、前記第２の分割部で列単位に分割した入力データのうち任意の少なくとも２つの列を選択し、それらの列の同一行に含まれるデータが対応付くかを判定する第２の判定部（文字列／符号パターン抽出部３１４、値域分割部３０９）と、を有する。さらに、前記第２の判定部の判定結果が対応付く場合は、それらの列を１つのラベル列に変換する第１の変換部（文字列ラベル追加部３１５、値域ラベル追加部３１１）と、前記第１の変換部でラベル列に変換したデータを列単位で結合する第２の結合部（列結合部３１３）と、を有する。そして、前記第２の結合部の出力側は前記第１の分割部の入力側に接続される。

　以下、上述した実施の形態の概要に基づいた各実施の形態を図面に基づいて詳細に説明する。なお、各実施の形態を説明するための全図において、同一機能を有するものは原則として同一の符号を付し、その繰り返しの説明は省略する。

　［実施の形態の共通内容］
　本実施の形態の共通内容として、図１を用いて説明する。図１は、本実施の形態において、データ変換装置の位置付けの一例を説明する図である。

　学習サンプルＤＢ２０１には、学習サンプル２０２、学習サンプル２０３、学習サンプル２０４、…が格納されている。例えば、学習サンプル２０２は画像データ、学習サンプル２０３は音声データ、学習サンプル２０４はテキストデータであり、異質なデータが格納されている。これらを纏めたものが入力データ２０５であり、機械学習部２１０を経て、学習結果２１１を得る。前述した図１７の右側の図と異なるのは、入力データ２０５が機械学習部２１０に入力される前に、データ変換装置として機能するデータ変換部２０６が追加されていることである。図１では、３種類の学習サンプルの例が示してあるが、データの種類は３に限定されない。

　データ変換部２０６は、さらに、前処理部１（２０７）と、前処理部２（２０８）とから構成される。そして、入力データ２０５を、前処理部２（２０８）を経由せずに直接、前処理部１（２０７）で処理する構成（入力データの流れ２０９）と、入力データ２０５を前処理部２（２０８）で処理した後に、前処理部１（２０７）で処理する構成とが説明されている。以下では、前者を実施の形態１で説明し、後者を実施の形態２で説明する。

　［実施の形態１］
　本実施の形態１におけるデータ変換装置およびデータ変換方法ならびにデータ変換プログラムについて、図２～図６を用いて説明する。

　本実施の形態では、データ変換を行うデータ変換装置（図１の前処理部１（２０７）に相当）、このデータ変換装置によるデータ変換方法、さらにデータ変換プログラムの例を説明する。

　＜データ変換装置＞
　図２は、本実施の形態におけるデータ変換装置の構成の一例を示す図である。

　データ変換装置３０１は、入力データ３０２を入力すると、内部でデータの変換を行い、出力データ３０３を出力する。データ変換装置３０１は、データ読み込み部３０６、データ分割部３０７、数値・文字列／符号判定部３０８、値域分割部３０９、分布ＤＢ３１０、値域ラベル追加部３１１、数値振り分け部３１２、列結合部３１３、文字列／符号パターン抽出部３１４、文字列ラベル追加部３１５、文字列振り分け部３１６を有する。分布ＤＢ３１０には分布パラメータ入力部３０４が、値域分割部３０９には分割パラメータ入力部３０５がそれぞれ接続されている。

　まず、データ読み込み部３０６で入力データ３０２を読み込み、データ分割部３０７に送る。データ分割部３０７は、入力データを列単位に分割し、数値・文字列／符号判定部３０８に送る。数値・文字列／符号判定部３０８で、数値であるか文字列／符号であるかの判定を行い、数値と判定されたデータは、値域分割部３０９に送られる。数値と符号の判定には、アラビア数字や数値を表す記号（－（マイナス符号）、＋（プラス符号）、ｉ（虚数を示す符号）、．（小数点）、√（平方根）等）、文字が含まれているかどうかで、数値と符号を分ける方法を用いることができる。また、後述する、入力データと分布関数とを比較して、分布関数に近い場合は数値と判定する方法を用いることができる。

　値域分割部３０９では、分布ＤＢ３１０を参照し、複数の値域に分割する。分布ＤＢ３１０には、典型的な分布関数、すなわち、正規分布、ラプラス分布、ロジスティック分布などの分布形状を表現するパラメータが格納されている。分布形状のパラメータを入力するために、分布パラメータ入力部３０４が設けられている。分布パラメータとは、正規分布の場合は、平均値μと分散値σのことである。ポアソン分布の場合は、所定の区間で発生する事象の期待発生回数λである。また、いくつに分割するか等のパラメータは、分割パラメータ入力部３０５で入力する。具体的には、入力データが分割区間毎に含まれるデータ数が等しくなるように分割を行う、入力データの平均値と分散値を計算し、その平均値と分散値に基づいて分割を行う、ユーザが指定した値を区切り目として分割する、入力データの値域を等分割する、などの方法を採ることができる。

　続いて、値域ラベル追加部３１１では、値域ラベルを出力データに追加する。値域ラベルを追加する手順については、後述する。そして、数値振り分け部３１２では、入力データを該当する値域ラベルに割り振り、列結合部３１３に送る。列結合部３１３は、列単位で処理されたデータを横方向に結合し、出力データ３０３として出力する。

　また、数値・文字列／符号判定部３０８にて、文字列／符号と判定された入力データは、文字列／符号パターン抽出部３１４に送られる。文字列／符号パターン抽出部３１４では、入力データを縦方向に走査し、同じ表記の文字列／符号パターンを抽出する。さらに、文字列ラベル追加部３１５では、文字列／符号パターン抽出部３１４で抽出した文字列／符号パターンを出力データに追加する。この処理は後述する。そして、文字列振り分け部３１６では、入力データを該当する文字列／符号パターンに対応付け、列結合部３１３に送る。列結合部３１３では、列単位で処理されたデータを横方向に結合し、出力データ３０３として出力する。

　＜入力データと出力データ＞
　図３は、入力データと出力データの構成の一例を示す図である。

　学習サンプルから入力される入力データは、一般的に入力データ４０１のような表形式で表現される。１行が１つの学習サンプルを表わしており、それを縦方向にサンプルの数だけ並べた形になっている。この例では、サンプル１（４０６）、サンプル２（４０７）、サンプル３（４０８）、…、サンプルＭ（４０９）と、Ｍ個のサンプルから構成されている。また、横方向には、属性１（４０２）、属性２（４０２）、属性３（４０３）、…、属性Ｎ（４０５）とあり、各サンプルに対してＮ個の属性が付けられている。そして、属性１（４０２）の属性を持つ１つ目のサンプル（４０６）の要素Ｘ１１（４１０）、属性２（４０３）の属性を持つ１つ目のサンプル（４０６）の要素Ｘ２１（４１１）、属性３（４０４）の属性を持つ１つ目のサンプル（４０６）の要素Ｘ３１（４１２）、…、属性Ｎ（４０５）の属性を持つ１つ目のサンプル（４０６）の要素ＸＮ１（４１３）が格納されている。２つ目のサンプル（４０７）、３つ目のサンプル（４０８）、…、Ｍ個目のサンプル（４０９）についても同様である。

　入力データを、本実施の形態のデータ変換装置で変換して得られた出力データは、一般的に出力データ４２１のような表形式で表現される。１行が１つの学習サンプルを表しており、それを縦方向にサンプルの数だけ並べた形になっている。入力データの１行のデータが、出力データの１行に対応している。すなわち、出力データ４２１にも、サンプル１（４２６）、サンプル２（４２７）、サンプル３（４２８）、…、サンプルＭ（４２９）と、Ｍ個のサンプルから構成されており、各々の行は、入力データの各々の行に対応している。出力データ４２１には、横方向に、ラベル１（４２２）、ラベル２（４２３）、ラベル３（４２４）、…ラベルＮ’（４２５）とあり、各サンプルに対して、Ｎ’個のラベルが付けられている。そして、ラベル１（４２２）のラベルを持つ１つ目のサンプル（４２６）の要素Ｙ１１（４３０）、ラベル２（４２３）のラベルを持つ１つ目のサンプル（４２６）の要素Ｙ２１（４３１）、ラベル３（４２４）のラベルを持つ１つ目のサンプル（４２６）の要素Ｙ３１（４３２）、…、ラベルＮ’（４２５）のラベルを持つ１つ目のサンプル（４２６）の要素ＹＮ’１（４３３）が格納されている。２つ目のサンプル（４２７）、３つ目のサンプル（４２８）、…、Ｍ個目のサンプル（４２９）についても同様である。なお、出力データ４２１の１行目はラベルが格納されており、表構造になっているので、この出力データのことをラベルテーブルとも呼ぶ。

　また、上記の例では、ラベルが格納されているのは１行目だけであるが、類似した属性を持つラベルを１つのグループにした、出力データ’４４１のような２階層のラベル構成を採ることも可能である。すなわち、サンプル１（４４９）、サンプル２（４５０）、サンプル３（４５１）、…、サンプルＭ（４５２）のＭ個のサンプル構成において、ラベル１（４４５）、ラベル２（４４６）は、グループ１（４４２）に属し、ラベル３（４４７）はグループ２（４４３）に属し、ラベルＮ’（４４８）はグループＮ”（４４４）に属する。さらには、グループを纏め、３階層以上のラベルを持つ構成にすることも可能である。

　＜データ変換装置のハードウェア構成＞
　図４は、データ変換装置のハードウェア構成の一例を示す図である。

　データ変換装置のハードウェア構成は、コンピュータシステム（計算機）を用いて実現され、少なくとも１組のＣＰＵ５０１と、ＲＡＭ５０２、キーボード５０３、表示装置５０４、プリンタ５０５、マウス５０６、バス５０７、ＤＢ５０９、ネットワーク５０８から構成される。ＲＡＭ５０２は、データ変換に関するコンピュータソフトウェアを格納する。キーボード５０３は、ユーザの入力によりＣＰＵ５０１を操作する。表示装置５０４は、入力データや出力データ、データ変換の処理の過程をユーザに示す。プリンタ５０５は、入力データや出力データ、データ変換の処理の過程を紙に印刷する。マウス５０６は、ユーザの入力によりＣＰＵ５０１を操作する。バス５０７は、各々の間のデータを通信するために接続する。ＤＢ５０９は、学習サンプルＤＢが格納されている。ネットワーク５０８は、バス５０７とＤＢ５０９を繋ぐ。また、ＤＢ５０９には、学習サンプルＤＢだけではなく、データ変換結果や、データ変換の処理過程を格納する構成にしてもよい。

　このデータ変換装置のハードウェア構成において、ＲＡＭ５０２に格納されているデータ変換に関するコンピュータソフトウェアのプログラム（データ変換プログラム）をＣＰＵ５０１上で実行することにより、図２に示すようなソフトウェアによる各機能部（データ読み込み部３０６、データ分割部３０７、数値・文字列／符号判定部３０８、値域分割部３０９、分布ＤＢ３１０、値域ラベル追加部３１１、数値振り分け部３１２、列結合部３１３、文字列／符号パターン抽出部３１４、文字列ラベル追加部３１５、文字列振り分け部３１６）を実現することができる。

　＜データ変換方法＞
　図５は、データ変換方法の処理の一例を説明するフローチャートである。図６は、入力データと出力データの関係の一例を示す図である。これらの図を用いて、データ変換方法における処理の流れを説明する。このデータ変換方法における処理は、データ変換プログラムの実行により自動で行われる。

　図６に示すように、入力データ７０１は、複数の行・列から構成されるデータであり、入力データの属性７０２には“温度”という属性が付けられている。サンプル１の温度は１６、サンプル２の温度は８０、サンプル３の温度は５０となり、合計Ｍ個のサンプルが格納されている。一方、出力データ７０３には、ラベル７０４に“温度Ｌ”、ラベル７０５に“温度Ｍ”、ラベル７０６に“温度Ｈ”というラベルが付けられている。出力データの要素７０８には入力データの要素７０７が対応（７０９）し、出力データの要素７１１には入力データの要素７１０が対応（７１２）し、出力データの要素７１４には入力データの要素７１３が対応（７１５）し、データ変換装置３０１を使って、各々変換された結果が格納されている。

　以下では、図５に基づいて、データ変換装置３０１が、入力データ７０１から出力データ７０３を生成する過程について説明する。前処理部１（２０７）は、ステップ６０１の開始に続いて、ステップ６０２で、データ読み込み部３０６が、入力データ７０１をＲＡＭ５０２に読み込む。次に、ステップ６０３では、出力データ４２１をクリアする。すなわち、表形式のデータをＲＡＭ５０２上に用意し、行数＝０、列数＝０とする。次に、ステップ６０４では、データ分割部３０７が、入力データを列単位に分割する。すなわち、入力データ４０１を、４０２、４０３、４０４、…、４０５に分割する。そして、分割した列の数を変数Ｎに、１つの列の長さ（＝入力データの個数、行数）を変数Ｍに代入する。次に、ステップ６０５では、変数ｉを１で初期化する。

　続いて、ステップ６０６では、数値・文字列／符号判定部３０８が、列に分割した入力データのｉ番目の列を走査し、当該列に含まれる要素が全て数値から構成される列であるか、あるいは、文字列または符号で構成される列であるかを判定する。全ての要素が数値で構成される場合は、ステップ６０９にて、値域分割部３０９が、いくつかの値域に分割する。これは、数値の値が取り得る範囲（定義域）を所定の位置で区切っていくつかの区間に分割する。そして、ステップ６１０で、値域ラベル追加部３１１が、分割された各々の区間にラベルを割り当てて、元の数値データをその数値データが含まれる区間に対応するラベルデータに変換するようにする。

　具体的な区間の分割方法としては、各区間に含まれる要素の数が等しくなるように、定義域の分割を行う方法が挙げられる。また、定義域を等分割するように分割してもよい。また、列に分割した入力データの平均値と分散値を求め、その平均値と分散値に基づいて区間の分割を行うようにしてもよい。また、ユーザによって指示された位置で定義域の分割を行うようにしてもよい。ユーザによって分割位置を指定させる場合は、分割した列に含まれる要素の頻度分布を求め、表示装置５０４に頻度分布を表示し、マウス５０６やキーボード５０３を使って、ユーザが分割位置を指示できるようにするとよい。

　図６を用いて、上記の手順を説明する。まず、入力データ７０１で属性７０２の“温度”が付いている列が抽出されたとする。この列に含まれる要素は、“１６”、“８０”、“５０”、…であり、全て数値で構成されている。したがって、次に値域分割を行う。ここでは、予め、要素をＸとすると、０≦Ｘ＜３３、３３≦Ｘ＜６６、６６≦Ｘ≦１００の３区間に分割するようユーザから指示されているとし、また、各々の区間は“温度Ｌ”、“温度Ｍ”、“温度Ｈ”というラベル付けがユーザから指示されているとする。したがって、“１６”は“温度Ｌ”に、“８０”は“温度Ｈ”に、“５０”は“温度Ｍ”に対応する区間に含まれることになる。次に、“温度Ｌ”（７０４）、“温度Ｍ”（７０５）、“温度Ｌ”（７０６）の３つのラベル列を生成する。そして、各区間に対応するラベルを持つ列の、対応するサンプルのところ（対応する行）に、１を書き込み、それ以外の列には０を書き込む（７０８）。同様の処理を、２サンプル目、３サンプル目、…、Ｍサンプルと行う。すなわち、入力データ７０１の要素７０７は出力データ７０３の要素７０８に変換（対応７０９）され、入力データ７０１の要素７１０は出力データ７０３の要素７１１に変換（対応７１２）され、入力データ７０１の要素７１３は出力データ７０３の要素７１４に変換（対応７１５）される。

　また、図５に戻り、数値か文字列／符号かの判定（ステップ６０６）の結果、文字列／符号であると判定された場合は、ステップ６０７で、文字列／符号パターン抽出部３１４が、列に分割した要素から重複要素を取り除き、ステップ６０８で、文字列ラベル追加部３１５がラベルを生成する。図６を用いて、この手順を説明する。まず、入力データ７２１で属性７２２の“作業者”が付いている列が抽出されたとする。この列に含まれる要素は、“鈴木”、“田中”、“鈴木”であり、全て文字列で構成されている。したがって、次に、重複要素を取り除き、“鈴木”、“田中”のラベルが生成されることになる。次に、“作業者＝鈴木”（７２４）、“作業者＝田中”（７２５）の２つのラベルが付いた列を生成する。そして、各ラベルに対応する列の、対応するサンプルのところ（対応する行）に、１を書き込み、それ以外の列には０を書き込む（７２７）。同様の処理を、２サンプル目、３サンプル目、…、Ｍサンプルと行う。すなわち、入力データ７２１の要素７２６は出力データ７２３の要素７２７に変換（対応７２８）され、入力データ７２１の要素７２９は出力データ７２３の要素７３０に変換（対応７３１）され、入力データ７２１の要素７３２は出力データ７２３の要素７３３に変換（対応７３４）される。

　分割した列データに含まれる要素が符号の場合も、文字列の場合と同様の処理を行う。すなわち、入力データ７４１（属性７４２）の列データの要素を走査し、重複要素を取り除き、ラベル列を生成し、出力データ７４３（ラベル７４４、ラベル７４５）とする。入力データ７４１の要素７４６が出力データ７４３の要素７４７に変換（対応７４８）され、入力データ７４１の要素７４９が出力データ７４３の要素７５０に変換（対応７５１）され、入力データ７４１の要素７５２が出力データ７４３の要素７５３に変換（対応７５４）される。

　次に、図５に戻り、ステップ６１１で、数値振り分け部３１２、文字列振り分け部３１６が、入力データから抽出する列の番号ｉを１つ増やし、そして、ステップ６１２で、ｉの値が入力データ７０１の列数Ｎ以下かを判定する。ｉの値が入力データ７０１の列数Ｎ以下の場合は、再度、ステップ６０６からの処理を繰り返す。この繰り返しにより、入力データ７０１に含まれる全てのデータが、列単位で出力データ７０３に変換される。次に、ステップ６１３で、列結合部３１３が、このようにして生成したラベル列を横方向に順次結合し、出力データとする。最後に、ステップ６１４で、この出力データをＤＢ５０９へ書き出す。これにより、終了となる（ステップ６１５）。

　なお、ここでは、ステップ６０８および６１０ではラベル列を生成し、ステップ６１３で出力データにラベル列を結合する構成を説明したが、ラベル列を生成すると同時に、出力データにラベル列を結合して、出力データを横方向にラベルの数だけ拡張するような構成にしてもよい。

　＜実施の形態１の効果＞
　以上のように、本実施の形態におけるデータ変換装置およびデータ変換方法ならびにデータ変換プログラムによれば、前処理部１（２０７）のデータ変換装置３０１として、データ読み込み部３０６、データ分割部３０７、数値・文字列／符号判定部３０８、値域分割部３０９、分布ＤＢ３１０、値域ラベル追加部３１１、数値振り分け部３１２、列結合部３１３、文字列／符号パターン抽出部３１４、文字列ラベル追加部３１５、文字列振り分け部３１６などを有することで、画像データ、音声データ、テキストデータなどの異なる種類のデータが混在したヘテロ性を持つ入力データを変換し、コンピュータで自動処理しやすくすることができる。この結果、ヘテロ性を持つデータを使って機械学習を行うことが可能となる。より詳細には、以下のような効果を得ることができる。

　例えば、データ分割部３０７、数値・文字列／符号判定部３０８を有することで、入力データを列単位に分割し、この列単位に分割した入力データに含まれる要素が数値、文字列または符号のいずれで構成されるかを判定することができる。さらに、値域分割部３０９、値域ラベル追加部３１１、数値振り分け部３１２を有することで、判定結果が数値の場合は、この数値が取り得る値の範囲を複数の領域に分けて各々ラベルを生成し、数値がどの領域に対応するかを判定して対応するラベルに振り分けることができる。また、文字列／符号パターン抽出部３１４、文字列ラベル追加部３１５、文字列振り分け部３１６を有することで、判定結果が文字列または符号の場合は、列単位に分割した入力データに含まれる要素から重複要素を除去してラベルを生成し、文字列または符号がどのラベルに対応するかを判定して対応するラベルに振り分けることができる。そして、列結合部３１３を有することで、各々ラベルに振り分けたデータを列単位で結合して出力データを得ることができる。また、分布ＤＢ３１０を有することで、値域分割部３０９は、数値が取り得る値の範囲を複数の領域に分ける場合に分布ＤＢ３１０を参照することができる。

　［実施の形態２］
　本実施の形態２におけるデータ変換装置およびデータ変換方法ならびにデータ変換プログラムについて、図７～図１３を用いて説明する。

　本実施の形態におけるデータ変換装置では、データ変換部２０６の構成として、前処理部２（２０８）を行った後、前処理部１（２０７）を行う構成について説明する。前処理部１（２０７）の構成は前記実施の形態１と同一であるので、ここでは前処理部２（２０８）についてのみ説明する。すなわち、前処理部２（２０８）は、入力データ２０５を入力とし、前処理部１（２０７）の入力データを出力する。前処理部１（２０７）の出力データが、機械学習部２１０の入力データとなる。

　＜データ変換方法＞
　図７は、データ変換方法の処理の一例を説明するフローチャートである。図８は、同一列テーブルと同一文字列テーブルの一例を示す図である。図９は、入力データと出力データの関係の一例を示す図である。これらの図を用いて、データ変換方法における処理の流れを説明する。

　図８には、同一列テーブル９０１と同一文字列テーブル９０７，９０８，９０９が示されている。同一列テーブル９０１は、同一列ＩＤ（９０２）、列番号Ａ（９０３）、列番号Ｂ（９０４）、同一文字列テーブルへのポインタ（９０５）から構成されている。同一文字列テーブル９０７，９０８，９０９は、同一文字列ＩＤ（９１３）、文字列Ｓ（９１４）、文字列Ｔ（９１５）から構成されている。同一列テーブル９０１の同一列ＩＤ（９０２）の１において、列番号Ａ（９０３）の１行目の“３”と、列番号（９０４）の１行目の“６”は、入力データ１００１に含まれるｐ行目３列目の要素と、ｐ行目６列目の要素は１対１で対応していることを意味している。ただし、１≦ｐ≦Ｍであり、Ｍは入力データの行数である。そして、ポインタ９０５の関連付けリンク９１０により、対応する文字列が同一文字列テーブル９０７に格納されている。すなわち、ある行の３列目の要素に格納された文字列が、文字列Ｓ（９１４）に書き込まれ、同じ行の６列目の要素に格納された文字列が、文字列Ｔ（９１５）に格納されている。同様に、同一列テーブル９０１の同一列ＩＤ（９０２）の２については、ポインタ９０５の関連付けリンク９１１により、対応する文字列が同一文字列テーブル９０８に格納されている。同一列テーブル９０１の同一列ＩＤ（９０２）の３については、ポインタ９０５の関連付けリンク９１２により、対応する文字列が同一文字列テーブル９０９に格納されている。なお、ここでは、同一の文字列としたが、文字列でなくても、数値や符号でもよい。

　図９に示した入力データ１００１は、複数の行・列から構成されるデータであり、入力データの属性１００２には“名称”という属性が、属性１００３には“ＩＤ”という属性が、それぞれ付けられている。サンプル１の“名称”は“ＡＢＣ”、サンプル２の“名称”は“ＮＲＸ”、サンプル３の“名称”は“ＡＢＣ”、サンプル４の“名称”は“ＸＹＸ”、サンプル５の“名称”は“ＮＲＸ”となっている。また、サンプル１の“ＩＤ”は“Ａ１”、サンプル２の“ＩＤ”は“Ａ２”、サンプル３の“ＩＤ”は“Ａ１”、サンプル４の“ＩＤ”は“Ｂ３”、サンプル５の“ＩＤ”は“Ａ２”となっている。合計Ｍ個のサンプルが格納されている。一方、出力データ１０２１には、ラベル１０２２“名称”がある。出力データの要素１０２３は、入力データの要素１００４と要素１００９が、後述するデータ変換処理にて変換（対応１０３１）された値が格納されている。同様に、出力データの要素１０２４は入力データの要素１００５と要素１０１０をデータ変換（対応１０３２）した値が、出力データの要素１０２５は入力データの要素１００６と要素１０１１をデータ変換（対応１０３３）した値が、出力データの要素１０２６は入力データの要素１００７と要素１０１２をデータ変換（対応１０３４）した値が、出力データの要素１０２７は入力データの要素１００８と要素１０１３をデータ変換（対応１０３５）した値が、それぞれ格納されている。

　また、同一列テーブル１０４１は、同一列ＩＤ（１０４２）、列番号Ａ（１０４３）、列番号Ｂ（１０４４）、ポインタ（１０４５）から構成され、入力データ１００１の３列目と６列目が対応付いていることを示している。また、ポインタ１０４５は、同一文字列テーブル１０５１を指示しており、入力データ１００１の３列目と６列目で対応付いている文字列の組が格納されている。すなわち、同一文字列テーブル１０５１は、文字列Ｓ（１０５２）、文字列Ｔ（１０５３）から構成され、入力データ１００１の３列目のある行にＡＢＣという文字列があれば、入力データ１００１の６列目の同一行には必ずＡ１という文字列が存在することを示している。同様に、入力データ１００１の３列目のある行にＮＲＸという文字列があれば、入力データ１００１の６列目の同一行には必ずＡ２という文字列があり、入力データ１００１の３列目のある行にＸＹＸという文字列があれば、入力データ１００１の６列目の同一行には必ずＢ３という文字列がある、ということを示している。

　以下では、図８の同一列テーブル９０１および同一文字列テーブル９０７，９０８，９０９、図９の入力データ１００１および出力データ１０２１、を用いて、図７に示した処理の流れにしたがって、データ変換の流れを説明する。

　前処理部２（２０８）の構成は、前処理部１（２０７）と同じように、図２の構成を用いることができる。前処理部２（２０８）のデータ変換装置３０１における主な構成は、入力データを列単位に分割するデータ分割部３０７、列単位に分割した入力データのうち任意の少なくとも２つの列を選択し、それらの列の同一行に含まれるデータが対応付くかを判定する文字列／符号パターン抽出部３１４（値域分割部３０９）、判定結果が対応付く場合は、それらの列を１つのラベル列に変換する文字列ラベル追加部３１５（値域ラベル追加部３１１）、ラベル列に変換したデータを列単位で結合する列結合部３１３などを有する。

　以下では、データ変換装置３０１が、入力データ１００１から出力データ１０２１を生成する過程について説明する。前処理部２（２０８）は、ステップ８０１の開始に続いて、ステップ８０２で、入力データ１００１をＲＡＭ５０２に読み込む。次に、ステップ８０３では、出力データ１０２１をクリアする。すなわち、表形式のデータをＲＡＭ５０２上に用意し、行数＝０、列数＝０とする。次に、ステップ８０４では、入力データを列単位に分割する。そして、分割した列の数を変数Ｎに、１つの列の長さ（＝入力データの個数、行数）を変数Ｍに代入する。次に、変数ｉを１で初期化する（ステップ８０５）。次に、変数ｊをｉ＋１で初期化する（ステップ８０６）。次に、変数ｋを１で初期化する（ステップ８０７）。

　次に、ステップ８０８で、入力データ１００１のｋ行ｉ列目の要素と、ｋ行ｊ列目の要素とを比較して同一かを判定し、異なれば、変数ｊの値を１つ増やし（ステップ８０９）、ステップ８０７の前に戻る。もし、ｋ行ｉ列目の要素と、ｋ行ｊ列目の要素とが同一であれば、ｋの値を１つ増やす（ステップ８１０）。そして、ステップ８１１で、ｋの値がＭ以上かを判定し、ｋの値がＭ以上であれば、ステップ８１２に移行し、ｋの値がＭ未満であれば、ステップ８０８の前に戻る。ステップ８１２では、同一列テーブル９０１に１行を追加し、ｉ、ｊの組を列番号Ａ（９０３）、列番号Ｂ（９０４）にそれぞれ登録する。

　次に、ステップ８１３で、ｉ列目に含まれる全要素からユニークな要素を抽出し、集合Ｐに代入する。また、集合Ｐに含まれる要素の数をＱとする。次に、変数ｒを１で初期化する（ステップ８１４）。そして、集合Ｐのｒ番目の要素を同一文字列テーブル９０７の文字列Ｓ（９１４）に格納する（ステップ８１５）。さらに、集合Ｐのｒ番目の要素を入力データ１００１のｉ列目の要素から探し、見つかった行のｊ番目の列の要素を、同一文字列テーブル９０７の文字列Ｔ（９１５）に格納する（ステップ８１６）。

　次に、変数ｒの値を１つ増やし（ステップ８１７）、ステップ８１８で、変数ｒの値がＱよりも大きいかを判定し、変数ｒの値がＱよりも大きい場合は、ステップ８１９に移行し、そうでない場合は、ステップ８１５の直前に移行する。次に、出力データにｉ番目の列を結合し（ステップ８１９）、ｊの値を１増やす（ステップ８２０）。そして、ステップ８２１で、ｊの値がＮ以上かを判定し、ｊの値がＮ以上の場合はステップ８２２に移行し、そうでない場合はステップ８０７の直前に移行する。

　次に、変数ｉの値を１つ増やし（ステップ８２２）、ステップ８２３で、変数ｉの値がＮ－１以上かを判定し、変数ｉの値がＮ－１以上の場合は、ステップ８２４に移行する。そうでない場合は、ステップ８０６の直前に移行する。最後に、出力データを書き出す（ステップ８２４）。これにより、終了となる（ステップ８２５）。

　このような手順にて入力データを変換することにより、出力データに含まれる情報の冗長性を低くすることができる。また、出力データのサイズが必要以上に大きくなることを抑制することができる。

　＜高い相関を持つ列を纏める場合＞
　上記の説明では、複数の列の同一行に含まれる要素同士が完全に対応付く場合について説明したが、ある２つ以上の列を選択したときに、それらの列の要素を構成要素とするベクトルデータ同士が高い相関を持つ場合に、それらの列を１つの列に変換するようにしてもよい。

　図１０は、高い相関を持つ列を纏める場合のデータ変換装置の構成の一例を示す図である。図１０に示すデータ変換装置１１０１は、入力データ１１０２を入力すると、内部でデータの変換を行い、出力データ１１０３を出力する。データ変換装置１１０１は、データ読み込み部１１０６、データ分割部１１０７、数値・文字列／符号判定部１１０８、相関計算部１１０９、値域分割部１１１０、分布ＤＢ１１１１、値域ラベル追加部１１１２、数値振り分け部１１１３、列結合部１１１４、文字列／符号パターン抽出部１１１５、文字列ラベル追加部１１１６、文字列振り分け部１１１７を有する。分布ＤＢ１１１１には分布パラメータ入力部１１０４が、値域分割部１１１０には分割パラメータ入力部１１０５がそれぞれ接続されている。

　データ変換装置３０１の主な構成において、データ分割部１１０７は、入力データを列単位に分割する。相関計算部１１０９は、列単位に分割した入力データのうち任意の少なくとも２つの列を選択し、それらの列の同一行に含まれるデータの相関を計算する。値域分割部１１１０と値域ラベル追加部１１１２は、計算した相関値が所定の閾値よりも大きい場合は、それらの列を１つのラベル列に変換する。列結合部１１１４は、ラベル列に変換したデータを列単位で結合する。このデータ変換装置１１０１の図２との違いは、値域分割部１１１０の前に、相関計算部１１０９が追加されている点である。以下においては、この追加された相関計算部１１０９について説明する。

　例えば、２つの列の数値データ列｛（ｘ_ｉ，ｙ_ｉ）｝（ｉ＝１，２，…，Ｍ）が与えられたとき、相関値ｃは以下の式で求められる。

　ただし、／ｘ、／ｙは、データ列｛ｘ_ｉ｝、｛ｙ_ｉ｝の平均である。相関計算部１１０９は、数値・文字列／符号判定部１１０８にて、数値と判定された任意の２列のデータについて、この相関値ｃを計算し、相関値が高い場合には、それらの列を１つの列に変換するようにする。

　図１１は、相関値の高低の一例を説明する図である。散布図１４０１は、入力データ４０１から任意の列番号Ｓと任意の列番号Ｔのデータを抽出し、列番号Ｓのデータ１４０２をＸ座標値、列番号Ｔのデータ１４０３をＹ座標値として、２次元空間に、サンプル１（１４０４）、サンプル２（１４０５）、サンプル３（１４０６）などをプロットした図である。散布図１４１１も同様に、入力データ４０１から任意の列番号Ｓと任意の列番号Ｔのデータを抽出し、列番号Ｓのデータ１４１２をＸ座標値、列番号Ｔのデータ１４１３をＹ座標値として、２次元空間に、サンプル１（１４１４）、サンプル２（１４１５）、サンプル３（１４１６）などをプロットした図である。相関が高いとは、散布図１４０１に示したように、プロットしたデータのＸ座標値とＹ座標値の関係が強いことを意味する。すなわち、Ｘ座標値がｎ倍になれば、対応するＹ座標値もほぼｎ倍になり、Ｘ座標値が１／ｎになれば、Ｙ座標値も１／ｎになる。これに対し、相関が低いとは、散布図１４１１に示したように、プロットしたデータのＸ座標値とＹ座標値の大小関係が低いことを意味する。すなわち、Ｘ座標値がｎ倍になったとき、Ｙ座標値はｎ倍になるとは限らない。

　図１２は、入力データと出力データの関係の一例を示す図である。入力データ１５０１は、複数の行・列から構成されるデータであり、入力データの属性１５０２には“温度”という属性が、属性１５０３には“湿度”という属性が、各々付けられている。属性１５０２の列に含まれる要素の値と、属性１５０３の列に含まれる要素の値には、散布図１４０１に示したような高い相関がある。すなわち、サンプル１の“温度”は３０、サンプル２の温度は４５、サンプル３の温度は５２、サンプル４の温度は３５、サンプル５の温度は４６となっている。また、サンプル１の湿度は３０、サンプル２の湿度は４８、サンプル３の湿度は６０、サンプル４の湿度は３５、サンプル５の湿度は５５となっている。合計Ｍ個のサンプルが格納されている。一方、出力データ１５２１には、ラベル１５２２に“温度”がある。出力データの要素１５２３は、入力データの要素１５０４と要素１５０９が、データ変換処理にて変換（対応１５３１）された値が格納されている。同様に、出力データの要素１５２４は入力データの要素１５０５と要素１５１０をデータ変換（対応１５３２）した値が、出力データの要素１５２５は入力データの要素１５０６と要素１５１１をデータ変換（対応１５３３）した値が、出力データの要素１５２６は入力データの要素１５０７と要素１５１２をデータ変換（対応１５３４）した値が、出力データの要素１５２７は入力データの要素１５０８と要素１５１３をデータ変換（対応１５３５）した値が、各々格納されている。

　また、高相関列テーブル１５４１は、高相関列ＩＤ（１５４２）、列番号Ａ（１５４３）、列番号Ｂ（１５４４）、相関係数（１５４５）、高相関テーブルへのポインタ（１５４６）から構成され、入力データ１５０１の３列目のデータと、６列目のデータの相関が高いことを示している。高相関テーブル１５５１は、数値Ｓ（１５５２）、数値Ｔ（１５５３）から構成され、入力データ１５０１の３列目のある行に、３０、４５、５２、…という数値があれば、入力データ１５０１の６列目の対応する行に、３０、４８、６０、…という数値があることを示している。

　一般的に、ビッグデータは、膨大な欠損値を含んでおり、完全一致の代わりに相関値とすることで、欠損値を含む不完全な入力データに対しても、データの変換を行うことができる。

　＜分布を推定する場合＞
　上記の説明では、入力データの分布が予め分かっている場合について説明したが、予め分からない場合には、以下のようにして分布を推定して、データ変換を行うことができる。分布の推定は、予め分布ＤＢ１１１１に格納されている分布と、分布パラメータ入力部１１０４で入力されるパラメータの組から表現される関数に対して、入力データがどれだけ一致しているか、または、どれだけ異なっているかを求めることで実現できる。関数と入力データの一致度には、歪度を用いることができる。ここでは、入力データＸの期待値をμ、分散をσ^２、Ｚ＝（Ｘ－μ）／σとしたとき、Ｚ^３の期待値を歪度と呼ぶ。

　図１３は、分布歪度テーブルの一例を説明する図である。分布歪度テーブル１２０１は、分布ＩＤ（１２０２）と、分布名称１２０３、歪度１２０４から構成される。列単位に分割した入力データの分布から、期待値μ、分散σ^２を計算し、Ｚ^３の期待値を計算する。そして、分布歪度テーブル１２０１の歪度１２０４の値と比較し、最も近い歪度に対応する分布名称１２０３を、推定した分布とする。分布名称１２０３としては、例えばラプラス分布、双曲線正割分布、ロジスティック分布、正規分布、二乗余弦分布、ウィグナー半円分布、一様分布などがある。

　分布を推定した後は、前記実施の形態１で説明したように、入力データが分割区間毎に含まれるデータ数が等しくなるように分割を行う、入力データの平均値と分散値を計算し、その平均値と分散値に基づいて分割を行う、ユーザが指定した値を区切り目として分割する、入力データの値域を等分割する、などの方法を用いて、データを分割することができる。

　＜実施の形態２の効果＞
　以上のように、本実施の形態におけるデータ変換装置およびデータ変換方法ならびにデータ変換プログラムによれば、前処理部２（２０８）を行った後、前処理部１（２０７）を行う構成を有することで、上記実施の形態１と異なる効果として、以下のような効果を得ることができる。

　例えば、前処理部２（２０８）のデータ変換装置３０１として、文字列／符号パターン抽出部３１４（値域分割部３０９）、文字列ラベル追加部３１５（値域ラベル追加部３１１）、列結合部３１３などを有することで、分割した入力データの列の同一行に含まれるデータが対応付く場合に、それらの列を１つのラベル列に変換し、このラベル列に変換したデータを列単位で結合して出力データを得ることができる。この結果、出力データに含まれる情報の冗長性を低くすることができる。また、出力データのサイズが必要以上に大きくなることを抑制することができるので、コンピュータで扱いやすくなり、高速なデータ変換処理が可能になる。

　また、相関計算部１１０９、値域分割部１１１０、値域ラベル追加部１１１２、列結合部１１１４などを有することで、分割した入力データの列の同一行に含まれるデータの相関を計算し、この相関値が所定の閾値よりも大きい場合にそれらの列を１つのラベル列に変換し、このラベル列に変換したデータを列単位で結合して出力データを得ることができる。この結果、高い相関を持つ列を纏める場合に、欠損値を含む不完全な入力データに対してもデータ変換を行うことが可能になる。

　また、分布ＤＢ１１１１、分布パラメータ入力部１１０４などを有することで、入力データの分布が予め分からない場合にも、分布を推定してデータ変換を行うことが可能になる。

　［実施の形態３］
　本実施の形態３におけるデータ変換装置およびデータ変換方法ならびにデータ変換プログラムについて、図１４～図１５を用いて説明する。

　＜データ変換方法＞
　前記実施の形態２では、入力データ１００１を列方向に走査し、同一、もしくは、類似した要素を列の構成要素として持つ列１００２と列１００３を纏め、出力データ１０２１の列１０２２に変換する方法を説明した。

　同様に、入力データ１００１を行単位で走査し、同一、もしくは、類似した要素を行の構成要素として持つ複数の行を纏め、出力データ１０２１の行に変換することもできる。本実施の形態は、この例を説明する。

　データ変換装置における主な構成は、入力データを行単位に分割するデータ分割部３０７、行単位に分割した入力データのうち任意の少なくとも２つの行を選択し、それらの行の同一列に含まれるデータが対応付くかを判定する文字列／符号パターン抽出部３１４（値域分割部３０９）、判定結果が対応付く場合は、それらの行を１つのラベル行に変換する文字列ラベル追加部３１５（値域ラベル追加部３１１）、ラベル行に変換したデータを行単位で結合する列結合部３１３などを有する。

　また、高い相関を持つ場合のデータ変換装置における主な構成は、入力データを行単位に分割するデータ分割部１１０７、行単位に分割した入力データのうち任意の少なくとも２つの行を選択し、それらの行の同一列に含まれるデータの相関を計算する相関計算部１１０９、計算した相関値が所定の閾値よりも大きい場合は、それらの行を１つのラベル行に変換する値域分割部１１１０と値域ラベル追加部１１１２、ラベル行に変換したデータを行単位で結合する列結合部１１１４などを有する。

　図１４は、行を纏める場合の入力データと出力データの関係の一例を示す図である。まず、入力データ１６０１を、行方向に走査し、入力データの属性１６０２の行、および、入力データの属性１６０３の行に含まれる、要素が同一もしくは類似した行を探す。すなわち、この図１４の例では、入力データの属性１６０２の行の要素が“ＮＲＸ”の場合は、同じ列の入力データの属性１６０３の行の要素が“ＡＢＣ”となり、入力データの属性１６０２の行の要素が“Ａ２”の場合は、同じ列の入力データの属性１６０３の行の要素が“Ａ１”となるような２つの行を探す。そして、探した２つの行を１行に纏め、出力データ１６２１を得る。すなわち、入力データの属性１６０４，１６０５は、そのまま、出力データの属性１６２２，１６２３とし、入力データの属性１６０２の行と入力データの属性１６０３の行を纏めて出力データの属性１６２４の行にする。出力データの要素１６２５は入力データの要素１６０６と要素１６０８をデータ変換（対応１６３１）した値が、出力データの要素１６２６は入力データの要素１６０７と要素１６０９をデータ変換（対応１６３２）した値が、それぞれ格納されている。

　さらには、前記実施の形態２で説明した、入力データ内の複数の列を纏めて１列に変換して出力データに出力する方法と、上述した、入力データ内の複数の行を纏めて１行に変換して出力データに出力する方法を組み合わせることができる。すなわち、出力データ１６２１を入力データに、出力データの属性１６２２を入力データの属性、出力データの属性１６２３を入力データの属性と見なし、前記実施の形態２で説明した手順に従って、複数の列を纏めて１列に変換して出力するようにしてもよい。この場合には、出力データ１６４１において、入力データの属性１６２２の列と入力データの属性１６２３の列を纏めて出力データの属性１６４２とする。出力データの要素１６４４は、入力データの要素１６２５と要素１６２６をデータ変換（対応１６５１）した値が格納されている。さらには、これらの行方向に纏める処理と、列方向に纏める処理とを繰り返すようにしてもよい。

　あるいは、図１５に示すような手順で出力データを得るようにしてもよい。　図１５は、行を纏める場合の入力データと出力データの関係の一例を示す図である。まず、入力データ１７０１（属性１７０２～１７０５、要素１７０６～１７０９）を、前記実施の形態２で説明した手順に従って出力データ１７２１（属性１７２２～１７２４、要素１７２５～１７２６、要素の対応１７３１～１７３２）を得る。次に、出力データ１７２１を入力データ、出力データの属性１７２３を入力データの属性、出力データの属性１７２４を入力データの属性と見なし、複数の行を１行に纏める。すなわち、出力データ１７４１（属性１７４２～１７４３、要素１７４４、要素の対応１７５１）において、入力データの属性１７２３の行と入力データの属性１７２４の行を纏めて出力データの属性１７４３とする。あるいは、入力データ１００１を、列方向、行方向に纏めた際、出力行列の列数、行数が少なくなる変換を先に行って、出力データ１０２１を出力し、これを繰り返すようにしてもよい。

　＜実施の形態３の効果＞
　以上のように、本実施の形態におけるデータ変換装置およびデータ変換方法ならびにデータ変換プログラムによれば、入力データを行単位で走査し、同一、もしくは、類似した要素を行の構成要素として持つ複数の行を纏め、出力データの行に変換することで、上記実施の形態２と同様に、以下のような効果を得ることができる。

　例えば、データ変換装置３０１として、文字列／符号パターン抽出部３１４（値域分割部３０９）、文字列ラベル追加部３１５（値域ラベル追加部３１１）、列結合部３１３などを有することで、分割した入力データの行の同一列に含まれるデータが対応付く場合に、それらの行を１つのラベル行に変換し、このラベル行に変換したデータを行単位で結合して出力データを得ることができる。この結果、出力データに含まれる情報の冗長性を低くすることができる。また、出力データのサイズが必要以上に大きくなることを抑制することができるので、コンピュータで扱いやすくなり、高速なデータ変換処理が可能になる。

　また、相関計算部１１０９、値域分割部１１１０、値域ラベル追加部１１１２、列結合部１１１４などを有することで、分割した入力データの行の同一列に含まれるデータの相関を計算し、この相関値が所定の閾値よりも大きい場合にそれらの行を１つのラベル行に変換し、このラベル行に変換したデータを行単位で結合して出力データを得ることができる。この結果、高い相関を持つ行を纏める場合に、欠損値を含む不完全な入力データに対してもデータ変換を行うことが可能になる。

　さらに、上記実施の形態２と異なる効果として、入力データ内の複数の列を纏めて１列に変換して出力データに出力する方法と、入力データ内の複数の行を纏めて１行に変換して出力データに出力する方法を組み合わせることで、より一層、出力データに含まれる情報の冗長性を低くすることができ、また、出力データのサイズが必要以上に大きくなることを抑制することが可能になる。

　以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。たとえば、上記した実施の形態は、本発明を分かり易く説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施の形態の構成の一部を他の実施の形態の構成に置き換えることが可能であり、また、ある実施の形態の構成に他の実施の形態の構成を加えることも可能である。また、各実施の形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

１０１…学習サンプルＤＢ、１０２…学習サンプル、１０３…入力データ、１０４…機械学習部、１０５…学習結果、１０６…学習サンプルＤＢ、１０７～１０９…学習サンプル、１１０…入力データ、１１１…機械学習部、１１２…学習結果、
２０１…学習サンプルＤＢ、２０２～２０４…学習サンプル、２０５…入力データ、２０６…データ変換部、２０７…前処理部１、２０８…前処理部２、２０９…前処理部２を経由しない入力データの流れ、２１０…機械学習部、２１１…学習結果、
３０１…データ変換装置、３０２…入力データ、３０３…出力データ、３０４…分布パラメータ入力部、３０５…分割パラメータ入力部、３０６…データ読み込み部、３０７…データ分割部、３０８…数値・文字列／符号判定部、３０９…値域分割部、３１０…分布ＤＢ、３１１…値域ラベル追加部、３１２…数値振り分け部、３１３…列結合部、３１４…文字列／符号パターン抽出部、３１５…文字列ラベル追加部、３１６…文字列振り分け部、
４０１…入力データ、４０２～４０５…属性、４０６～４０９…サンプル番号、４１０～４１３…要素、４１４～４２０…サンプル番号、４２１…出力データ、４２２～４２５…ラベル、４２６～４２９…サンプル番号、４３０～４３３…要素、４４１…出力データ’、４４２～４４４…グループ番号、４４５～４４８…ラベル番号、４４９～４５２…サンプル番号、
５０１…ＣＰＵ、５０２…ＲＡＭ、５０３…キーボード、５０４…表示装置、５０５…プリンタ、５０６…マウス、５０７…バス、５０８…ネットワーク、５０９…ＤＢ、
６０１…開始、６０２…入力データ読み込み、６０３…出力データクリア、６０４…入力データを列データに分割、６０５…変数ｉ初期化、６０６…数値、文字列／符号判定、６０７…文字列パターン抽出、６０８…ラベル列生成、６０９…値域分割、６１０…ラベル列生成、６１１…変数ｉの値を更新、６１２…変数ｉとＮの比較、６１３…出力データにラベル列結合、６１４…出力データを書き出し、６１５…終了、
７０１…入力データ、７０２…入力データの属性、７０３…出力データ、７０４～７０６…出力データのラベル、７０７…入力データの要素、７０８…出力データの要素、７０９…入力データの要素と出力データの要素の対応、７１０…入力データの要素、７１１…出力データの要素、７１２…入力データの要素と出力データの要素の対応、７１３…入力データの要素、７１４…出力データの要素、７１５…入力データの要素と出力データの要素の対応、７２１…入力データ、７２２…入力データの属性、７２３…出力データ、７２４～７２５…出力データのラベル、７２６…入力データの要素、７２７…出力データの要素、７２８…入力データの要素と出力データの要素の対応、７２９…入力データの要素、７３０…出力データの要素、７３１…入力データの要素と出力データの要素の対応、７３２…入力データの要素、７３３…出力データの要素、７３４…入力データの要素と出力データの要素の対応、７４１…入力データ、７４２…入力データの属性、７４３…出力データ、７４４～７４５…出力データのラベル、７４６…入力データの要素、７４７…出力データの要素、７４８…入力データの要素と出力データの要素の対応、７４９…入力データの要素、７５０…出力データの要素、７５１…入力データの要素と出力データの要素の対応、７５２…入力データの要素、７５３…出力データの要素、７５４…入力データの要素と出力データの要素の対応、
８０１…開始、８０２…入力データ読み込み、８０３…出力データクリア、８０４…入力データを列単位に分割、８０５…変数ｉ初期化、８０６…変数ｊ初期化、８０７…変数ｋ初期化、８０８…要素Ｘｉｋと要素Ｘｊｋの比較、８０９…変数ｊの値を更新、８１０…変数ｋの値を更新、８１１…変数ｋとＭの比較、８１２…同一列テーブル更新、８１３…ユニーク要素抽出、８１４…変数ｒ初期化、８１５…同一文字列テーブル更新、８１６…同一文字列テーブル更新、８１７…変数ｒの値を更新、８１８…変数ｒとＱの比較、８１９…出力データに列を結合、８２０…変数ｊの値を更新、８２１…変数ｊとＮの比較、８２２…変数ｉの値を更新、８２３…変数ｉとＮ－１の比較、８２４…出力データを書き出し、８２５…終了、
９０１…同一列テーブル、９０２…同一列ＩＤ、９０３…列番号Ａ、９０４…列番号Ｂ、９０５…ポインタ、９０７～９０９…同一文字列テーブル、９１０～９１２…同一列テーブルと同一文字列テーブルを関係付けるリンク、９１３…同一文字列ＩＤ、９１４…文字列Ｓ、９１５…文字列Ｔ、
１００１…入力データ、１００２～１００３…入力データの属性、１００４～１０１３…入力データの要素、１０２１…出力データ、１０２２…出力データのラベル、１０２３～１０２７…出力データの要素、１０３１～１０３５…入力データの要素と出力データの要素の対応、１０４１…同一列テーブル、１０４２…同一列ＩＤ、１０４３…列番号Ａ、１０４４…列番号Ｂ、１０４５…同一文字列テーブルへのポインタ、１０５１…同一文字列テーブル、１０５２…文字列Ｓ、１０５３…文字列Ｔ、
１１０１…データ変換装置、１１０２…入力データ、１１０３…出力データ、１１０４…分布パラメータ入力部、１１０５…分割パラメータ入力部、１１０６…データ読み込み部、１１０７…データ分割部、１１０８…数値・文字列／符号判定部、１１０９…相関計算部、１１１０…値域分割部、１１１１…分布ＤＢ、１１１２…値域ラベル追加部、１１１３…数値振り分け部、１１１４…列結合部、１１１５…文字列／符号パターン抽出部、１１１６…文字列ラベル追加部、１１１７…文字列振り分け部、
１２０１…分布歪度テーブル、１２０２…分布ＩＤ、１２０３…分布名称、１２０４…歪度、
１３０１…入力層のノード、１３０２…第１層のノード、１３０３…第２層のノード、１３０４…第３層のノード、１３０５…第４層（出力層）のノード、１３０６…入力層のノードと第１層のノードの結合、１３０７…第１層のノードと第２層のノードの結合、１３０８…第２層のノードと第３層のノードの結合、１３０９…第３層のノードと第４層（出力層）のノードの結合、
１４０１…散布図、１４０２…列番号Ｓのデータ、１４０３…列番号Ｔのデータ、１４０４～１４０６…サンプル、１４１１…散布図、１４１２…列番号Ｓのデータ、１４１３…列番号Ｔのデータ、１４１４～１４１６…サンプル、
１５０１…入力データ、１５０２～１５０３…入力データの属性、１５０４～１５１３…入力データの要素、１５２１…出力データの要素、１５２２…出力データのラベル、１５２３～１５２７…出力データの要素、１５３１～１５３５…入力データの要素と出力データの要素の対応、１５４１…高相関列テーブル、１５４２…高相関列ＩＤ、１５４３…列番号Ａ、１５４４…列番号Ｂ、１５４５…相関係数、１５４６…高相関テーブルへのポインタ、１５５１…高相関テーブル、１５５２…数値Ｓ、１５５３…数値Ｔ、
１６０１…入力データ、１６０２～１６０５…入力データの属性、１６０６～１６０９…入力データの要素、１６２１…出力データ、１６２２～１６２４…出力データの属性、１６２５～１６２６…出力データの要素、１６３１～１６３２…入力データの要素と出力データの要素の対応、１６４１…出力データ、１６４２～１６４３…出力データの属性、１６４４…出力データの要素、１６５１…入力データの要素と出力データの要素の対応、
１７０１…入力データ、１７０２～１７０５…入力データの属性、１７０６～１７０９…入力データの要素、１７２１…出力データ、１７２２～１７２４…出力データの属性、１７２５～１７２６…出力データの要素、１７３１～１７３２…入力データの要素と出力データの要素の対応、１７４１…出力データ、１７４２～１７４３…出力データの属性、１７５１…入力データの要素と出力データの要素の対応。
　　　

Claims

　列毎に、数値、文字列または符号から構成される表形式のデータを入力とするデータ変換装置であって、
　入力データを列単位に分割する第１の分割部と、
　前記第１の分割部で列単位に分割した入力データに含まれる要素が数値、文字列または符号のいずれで構成されるかを判定する第１の判定部と、
　前記第１の判定部の判定結果が数値の場合は、前記数値が取り得る値の範囲を複数の領域に分けて各々ラベルを生成する第１の生成部と、
　前記数値がどの領域に対応するかを判定して対応するラベルに振り分ける第１の振り分け部と、
　前記第１の判定部の判定結果が文字列または符号の場合は、列単位に分割した入力データに含まれる要素から重複要素を除去してラベルを生成する第２の生成部と、
　前記文字列または符号がどのラベルに対応するかを判定して対応するラベルに振り分ける第２の振り分け部と、
　前記第１の振り分け部および前記第２の振り分け部でラベルに振り分けたデータを列単位で結合する第１の結合部と、
　を有する、データ変換装置。
　請求項１記載のデータ変換装置において、
　前記第１の分割部の前段に接続され、前記入力データを列単位に分割する第２の分割部と、
　前記第２の分割部で列単位に分割した入力データのうち任意の少なくとも２つの列を選択し、それらの列の同一行に含まれるデータが対応付くかを判定する第２の判定部と、
　前記第２の判定部の判定結果が対応付く場合は、それらの列を１つのラベル列に変換する第１の変換部と、
　前記第１の変換部でラベル列に変換したデータを列単位で結合する第２の結合部と、
　をさらに有し、
　前記第２の結合部の出力側は前記第１の分割部の入力側に接続される、データ変換装置。
　請求項１記載のデータ変換装置において、
　前記第１の分割部の前段に接続され、前記入力データを列単位に分割する第２の分割部と、
　前記第２の分割部で列単位に分割した入力データのうち任意の少なくとも２つの列を選択し、それらの列の同一行に含まれるデータの相関を計算する第１の計算部と、
　前記第１の計算部で計算した相関値が所定の閾値よりも大きい場合は、それらの列を１つのラベル列に変換する第１の変換部と、
　前記第１の変換部でラベル列に変換したデータを列単位で結合する第２の結合部と、
　をさらに有し、
　前記第２の結合部の出力側は前記第１の分割部の入力側に接続される、データ変換装置。
　請求項１記載のデータ変換装置において、
　前記第１の分割部の前段に接続され、前記入力データを行単位に分割する第２の分割部と、
　前記第２の分割部で行単位に分割した入力データのうち任意の少なくとも２つの行を選択し、それらの行の同一列に含まれるデータが対応付くかを判定する第２の判定部と、
　前記第２の判定部の判定結果が対応付く場合は、それらの行を１つのラベル行に変換する第１の変換部と、
　前記第１の変換部でラベル行に変換したデータを行単位で結合する第２の結合部と、
　をさらに有し、
　前記第２の結合部の出力側は前記第１の分割部の入力側に接続される、データ変換装置。
　請求項１記載のデータ変換装置において、
　前記第１の分割部の前段に接続され、前記入力データを行単位に分割する第２の分割部と、
　前記第２の分割部で行単位に分割した入力データのうち任意の少なくとも２つの行を選択し、それらの行の同一列に含まれるデータの相関を計算する第１の計算部と、
　前記第１の計算部で計算した相関値が所定の閾値よりも大きい場合は、それらの行を１つのラベル行に変換する第１の変換部と、
　前記第１の変換部でラベル行に変換したデータを行単位で結合する第２の結合部と、
　をさらに有し、
　前記第２の結合部の出力側は前記第１の分割部の入力側に接続される、データ変換装置。
　請求項１記載のデータ変換装置において、
　前記入力データの分布形状を表現するパラメータを格納するデータベースをさらに有し、
　前記第１の生成部は、前記数値が取り得る値の範囲を複数の領域に分ける場合に前記データベースを参照する、データ変換装置。
　請求項６記載のデータ変換装置において、
　前記データベースは、前記入力データの分布が予め分からない場合に分布を推定するための情報が入力される、データ変換装置。
　列毎に、数値、文字列または符号から構成される表形式のデータを入力とするデータ変換装置におけるデータ変換方法であって、
　第１の分割部により、入力データを列単位に分割する第１の分割工程と、
　第１の判定部により、前記第１の分割工程で列単位に分割した入力データに含まれる要素が数値、文字列または符号のいずれで構成されるかを判定する第１の判定工程と、
　第１の生成部により、前記第１の判定工程の判定結果が数値の場合は、前記数値が取り得る値の範囲を複数の領域に分けて各々ラベルを生成する第１の生成工程と、
　第１の振り分け部により、前記数値がどの領域に対応するかを判定して対応するラベルに振り分ける第１の振り分け工程と、
　第２の生成部により、前記第１の判定工程の判定結果が文字列または符号の場合は、列単位に分割した入力データに含まれる要素から重複要素を除去してラベルを生成する第２の生成工程と、
　第２の振り分け部により、前記文字列または符号がどのラベルに対応するかを判定して対応するラベルに振り分ける第２の振り分け工程と、
　第１の結合部により、前記第１の振り分け工程および前記第２の振り分け工程でラベルに振り分けたデータを列単位で結合する第１の結合工程と、
　を有する、データ変換方法。
　請求項８記載のデータ変換方法において、
　前記第１の分割工程の前段で行われ、第２の分割部により、前記入力データを列単位に分割する第２の分割工程と、
　第２の判定部により、前記第２の分割工程で列単位に分割した入力データのうち任意の少なくとも２つの列を選択し、それらの列の同一行に含まれるデータが対応付くかを判定する第２の判定工程と、
　第１の変換部により、前記第２の判定工程の判定結果が対応付く場合は、それらの列を１つのラベル列に変換する第１の変換工程と、
　第２の結合部により、前記第１の変換工程でラベル列に変換したデータを列単位で結合する第２の結合工程と、
　をさらに有し、
　前記第２の結合工程は前記第１の分割工程の前に行われる、データ変換方法。
　請求項８記載のデータ変換方法において、
　前記第１の分割工程の前段で行われ、第２の分割部により、前記入力データを列単位に分割する第２の分割工程と、
　第１の計算部により、前記第２の分割工程で列単位に分割した入力データのうち任意の少なくとも２つの列を選択し、それらの列の同一行に含まれるデータの相関を計算する第１の計算工程と、
　第１の変換部により、前記第１の計算工程で計算した相関値が所定の閾値よりも大きい場合は、それらの列を１つのラベル列に変換する第１の変換工程と、
　第２の結合部により、前記第１の変換程工程でラベル列に変換したデータを列単位で結合する第２の結合工程と、
　をさらに有し、
　前記第２の結合工程は前記第１の分割工程の前に行われる、データ変換方法。
　請求項８記載のデータ変換方法において、
　前記第１の分割工程の前段で行われ、第２の分割部により、前記入力データを行単位に分割する第２の分割工程と、
　第２の判定部により、前記第２の分割工程で行単位に分割した入力データのうち任意の少なくとも２つの行を選択し、それらの行の同一列に含まれるデータが対応付くかを判定する第２の判定工程と、
　第１の変換部により、前記第２の判定工程の判定結果が対応付く場合は、それらの行を１つのラベル行に変換する第１の変換工程と、
　第２の結合部により、前記第１の変換工程でラベル行に変換したデータを行単位で結合する第２の結合工程と、
　をさらに有し、
　前記第２の結合工程は前記第１の分割工程の前に行われる、データ変換方法。
　請求項８記載のデータ変換方法において、
　前記第１の分割工程の前段で行われ、第２の分割部により、前記入力データを行単位に分割する第２の分割工程と、
　第１の計算部により、前記第２の分割工程で行単位に分割した入力データのうち任意の少なくとも２つの行を選択し、それらの行の同一列に含まれるデータの相関を計算する第１の計算工程と、
　第１の変換部により、前記第１の計算工程で計算した相関値が所定の閾値よりも大きい場合は、それらの行を１つのラベル行に変換する第１の変換工程と、
　第２の結合部により、前記第１の変換工程でラベル行に変換したデータを行単位で結合する第２の結合工程と、
　をさらに有し、
　前記第２の結合工程は前記第１の分割工程の前に行われる、データ変換方法。
　請求項８記載のデータ変換方法において、
　前記第１の生成工程において、前記第１の生成部は、前記数値が取り得る値の範囲を複数の領域に分ける場合に、前記入力データの分布形状を表現するパラメータを格納するデータベースを参照する、データ変換方法。
　請求項１３記載のデータ変換方法において、
　前記データベースは、前記入力データの分布が予め分からない場合に分布を推定するための情報が入力される、データ変換方法。
　列毎に、数値、文字列または符号から構成される表形式のデータを入力とするデータ変換装置としてコンピュータを機能させるデータ変換プログラムであって、
　第１の分割部により、入力データを列単位に分割する第１の分割工程と、
　第１の判定部により、前記第１の分割工程で列単位に分割した入力データに含まれる要素が数値、文字列または符号のいずれで構成されるかを判定する第１の判定工程と、
　第１の生成部により、前記第１の判定工程の判定結果が数値の場合は、前記数値が取り得る値の範囲を複数の領域に分けて各々ラベルを生成する第１の生成工程と、
　第１の振り分け部により、前記数値がどの領域に対応するかを判定して対応するラベルに振り分ける第１の振り分け工程と、
　第２の生成部により、前記第１の判定工程の判定結果が文字列または符号の場合は、列単位に分割した入力データに含まれる要素から重複要素を除去してラベルを生成する第２の生成工程と、
　第２の振り分け部により、前記文字列または符号がどのラベルに対応するかを判定して対応するラベルに振り分ける第２の振り分け工程と、
　第１の結合部により、前記第１の振り分け工程および前記第２の振り分け工程でラベルに振り分けたデータを列単位で結合する第１の結合工程と、
　を前記コンピュータに実行させる、データ変換プログラム。