WO2023145052A1

WO2023145052A1 - データ変換装置、データ変換方法、およびデータ変換プログラム

Info

Publication number: WO2023145052A1
Application number: PCT/JP2022/003536
Authority: WO
Inventors: 元紀草野; 昌史小山田; 邦紘竹岡
Original assignee: 日本電気株式会社
Priority date: 2022-01-31
Filing date: 2022-01-31
Publication date: 2023-08-03

Abstract

変換の対象となる対象データの内容や性質等を把握することなく、当該対象データを扱いやすい形式に変換することを可能にするために、データ変換装置（１）は、半構造化データまたは構造化データを、テキストに変換する対象となる対象データとして取得するデータ取得部（１１）と、半構造化データをテキストに変換するための半構造化データ用テンプレートまたは構造化データをテキストに変換するための構造化データ用テンプレートを用いて、前記対象データをテキストに変換するデータ変換部（１２）と、を備える。

Description

データ変換装置、データ変換方法、およびデータ変換プログラム

　データの形式を変換するデータ変換装置等に関する。

　近時では、様々な内容のデータが大量に収集され、データレイク等に蓄積されるようになっている。一般に、データレイク等に蓄積されるデータには様々な形式のものが混在しており、このことが蓄積されたデータの利活用を妨げる要因の一つとなっている。

　このような観点から、様々な形式のデータを一括して取り扱うための技術の開発が進められている。例えば、下記の特許文献１には、データレイクに記憶されている様々な形式のデータを予測モデル作成向けのデータに変換して予測モデルを作成することが記載されている。また、特許文献１には、その予測モデルを用いた予測における各データの寄与度を求めることにより、各データの価値を定めることが記載されている。
　また、データレイク等に記憶されている様々な形式のデータを活用するための技術としては、下記の特許文献２や非特許文献１のような技術も存在する。特許文献２には、表の意味を推定する技術が開示されており、非特許文献１には画像の分類クラスを推定する技術が開示されている。これらの技術を用いれば、画像やテーブルが混在するデータレイクにおいて、タグという共通の枠組みを使ってデータを扱うことが可能になる。つまり、データレイクに含まれるテーブルすなわち表については特許文献２の技術を用いてその意味を推定し、推定した意味を示すタグを付与することができる。同様に、データレイクに含まれる画像については非特許文献１の技術を用いて分類クラスを推定し、推定した分類クラスを示すタグを付与することができる。

特開２０２１－１４０２９６号国際公開第２０１９／１７１５３７号

Yongqin Xian, Christoph H. Lampert, Bernt Schiele, and Zeynep Akata, "Zero-Shot Learning - A Comprehensive Evaluation of the Good, the Bad and the Ugly", IEEE Trans. Pattern Anal. Mach. Intell. 41(9):2251-2265 (2019)

　特許文献１の技術では、データを予測モデル作成向けのデータに変換する際に、材料組成の情報から特徴量ベクトルを生成する処理が行われる。このような処理を行うためには、価値評価の対象となるデータが、材料組成の情報を含んでいる必要がある。しかしながら、データレイクに記憶されているデータには、材料組成の情報を含んでいるものもあれば、材料組成の情報を含んでいないものもある。このため、特許文献１の技術を適用する場合、価値評価の対象となる各データの内容や性質等を確認し、材料組成の情報を含むデータを抽出するという手間を要する。

　また、特許文献２の技術は表を対象としたものであり、表以外の形式のデータについてはその意味を推定することができない。また、非特許文献１の技術は画像を対象としたものであり、画像以外のデータについて分類クラスを推定するためには、そのようなデータについて機械学習を行って新たな分類モデルを生成する必要がある。このように、データレイクに記憶されているデータのような様々な形式のデータを一括して取り扱うのは容易ではなく、対象となるデータの形式の確認や、その形式に応じた変換を行ったり、分類モデルを用意したりする必要が生じる。

　本発明の一態様は、このような問題に鑑みてなされたものであり、その目的の一例は、変換の対象となる対象データの内容や性質等を把握することなく、当該対象データをテキストに変換することが可能な技術を提供することにある。

　本発明の一側面に係るデータ変換装置は、半構造化データまたは構造化データを、テキストに変換する対象となる対象データとして取得するデータ取得手段と、半構造化データをテキストに変換するための半構造化データ用テンプレートまたは構造化データをテキストに変換するための構造化データ用テンプレートを用いて、前記対象データをテキストに変換するデータ変換手段と、を備える。

　本発明の一側面に係るデータ変換方法は、少なくとも１つのプロセッサが、半構造化データまたは構造化データを、テキストに変換する対象となる対象データとして取得することと、半構造化データをテキストに変換するための半構造化データ用テンプレートまたは構造化データをテキストに変換するための構造化データ用テンプレートを用いて、前記対象データをテキストに変換することと、を含む。

　本発明の一側面に係るデータ変換プログラムは、コンピュータを、半構造化データまたは構造化データを、テキストに変換する対象となる対象データとして取得するデータ取得手段、および半構造化データをテキストに変換するための半構造化データ用テンプレートまたは構造化データをテキストに変換するための構造化データ用テンプレートを用いて、前記対象データをテキストに変換するデータ変換手段、として機能させる。

　本発明の一態様によれば、変換の対象となる対象データの内容や性質等を把握することなく、当該対象データをテキストに変換することが可能になる。

本発明の例示的実施形態１に係るデータ変換装置の構成を示すブロック図である。本発明の例示的実施形態１に係るデータ変換方法の流れを示すフロー図である。様々な形式の対象データをテキストに変換した例を示す図である。本発明の例示的実施形態２に係るデータ変換装置の構成を示すブロック図である。対象データが構造化データである場合に適用する構造化データ用テンプレートの例を示す図である。対象データから生成したテキストに、メタデータから生成したテキストを追加した例を示す図である。対象データにＥＲで繋がったテーブルが存在する場合に適用される構造化データ用テンプレートの例を示す図である。階層構造を有する半構造化データに適用する半構造化データ用テンプレートの例を示す図である。グラフ形式の半構造化データに適用する半構造化データ用テンプレートの例を示す図である。上記データ変換装置が実行する処理の流れを示すフロー図である。本発明の各例示的実施形態に係る各装置の各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータの一例を示す図である。

　〔例示的実施形態１〕
　本発明の第１の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。

　（データ変換装置の構成）
　本例示的実施形態に係るデータ変換装置１の構成について、図１を参照して説明する。図１は、データ変換装置１の構成を示すブロック図である。図１に示すように、データ変換装置１は、データ取得部１１とデータ変換部１２とを備えている。

　データ取得部１１は、半構造化データまたは構造化データを、テキストに変換する対象となる対象データとして取得する。

　データ変換部１２は、半構造化データをテキストに変換するための半構造化データ用テンプレートまたは構造化データをテキストに変換するための構造化データ用テンプレートを用いて、上記対象データをテキストに変換する。

　以上のように、本例示的実施形態に係るデータ変換装置１においては、半構造化データまたは構造化データを、テキストに変換する対象となる対象データとして取得するデータ取得部（１１）と、半構造化データをテキストに変換するための半構造化データ用テンプレートまたは構造化データをテキストに変換するための構造化データ用テンプレートを用いて、上記対象データをテキストに変換するデータ変換部（１２）と、を備える、という構成が採用されている。この構成によれば、対象データの内容や性質等を把握することなく、当該対象データをテキストに変換することが可能になるという効果が得られる。

　（データ変換プログラム）
　上述のデータ変換装置１の機能は、プログラムによって実現することもできる。本例示的実施形態に係るデータ変換プログラムは、コンピュータを、半構造化データまたは構造化データを、テキストに変換する対象となる対象データとして取得するデータ取得手段、および半構造化データをテキストに変換するための半構造化データ用テンプレートまたは構造化データをテキストに変換するための構造化データ用テンプレートを用いて、上記対象データをテキストに変換するデータ変換手段、として機能させる。このデータ変換プログラムによれば、対象データの内容や性質等を把握することなく、当該対象データをテキストに変換することが可能になるという効果が得られる。

　（データ変換方法の流れ）
　本例示的実施形態に係るデータ変換方法の流れについて、図２を参照して説明する。図２は、データ変換方法の流れを示すフロー図である。なお、このデータ変換方法における各ステップの実行主体は、データ変換装置１が備えるプロセッサであってもよいし、他の装置が備えるプロセッサであってもよく、各ステップの実行主体がそれぞれ異なる装置に設けられたプロセッサであってもよい。

　Ｓ１１では、少なくとも１つのプロセッサが、半構造化データまたは構造化データを、テキストに変換する対象となる対象データとして取得する。

　Ｓ１２では、少なくとも１つのプロセッサが、半構造化データをテキストに変換するための半構造化データ用テンプレートまたは構造化データをテキストに変換するための構造化データ用テンプレートを用いて、上記対象データをテキストに変換する。

　以上のように、本例示的実施形態に係るデータ変換方法は、少なくとも１つのプロセッサが、半構造化データまたは構造化データを、テキストに変換する対象となる対象データとして取得することと、半構造化データをテキストに変換するための半構造化データ用テンプレートまたは構造化データをテキストに変換するための構造化データ用テンプレートを用いて、上記対象データをテキストに変換することと、を含む。このデータ変換方法によれば、対象データの内容や性質等を把握することなく、当該対象データをテキストに変換することが可能になるという効果が得られる。

　〔例示的実施形態２〕
　本発明の第２の例示的実施形態について、図面を参照して詳細に説明する。

　（推定方法の概要）
　本例示的実施形態に係るデータ変換方法（以下、本方法と呼ぶ）の概要を図３に基づいて説明する。図３は、様々な形式の対象データをテキストに変換した例を示す図である。具体的には、図３には、テキストに変換する対象となる対象データの例として、ＣＳＶ（Comma Separated Values）形式の対象データＤ、ＸＭＬ（eXtensible Markup Language）形式の対象データＤ’、および知識グラフである対象データＤ’’の３つを記載している。なお、知識グラフは、複数のノード間の関係がリンクにより示されたグラフ形式のデータである。

　本方法では、このような様々な形式の対象データを、所定のテンプレートによりテキストに変換する。テキストへの変換に用いるテンプレートは、対象データに含まれる要素からテキストを生成できるものであればよい。テキストへの変換に用いるテンプレートは、対象データに含まれるどのような要素をどのように配置してテキスト化するかを示す変換規則であるともいえる。
　詳細は後述するが、テキストへの変換に用いるテンプレートは、例えば、対象データに含まれる文字列を組み込めるように構成されたものであって、当該テンプレートに対象データに含まれる文字列を組み込むことにより対象データをテキストに変換するものであってもよい。また、対象データをテキストに変換する際には、対象データの所定の要素を所定の文字列に置き換える変換を行ってもよい。

　この変換により得られたテキストは、対象データの内容を示すものとなる。図３の例では、対象データＤはｄ_Ｄ＝“ｘｘｘｘｘ”というテキストに変換されている。同様に、Ｄ’はｄ_Ｄ’＝“ｙｙｙｙ”というテキストに変換されており、Ｄ’’はｄ_Ｄ’’＝“ｚｚｚｚｚ”というテキストに変換されている。

　このように、本方法ではテンプレートを用いて対象データを変換するため、対象データの性質や内容を把握するための解析や確認を行うことなく、様々な形式の対象データをテキストという扱いやすい単一の形式に変換することができる。また、上記のように、変換により得られたテキストは、対象データの内容を示すものとなるから、本方法は、対象データの説明文の生成方法であるともいえる。

　なお、データの説明文を生成する従来技術としては、例えばテーブル形式のデータの説明文を自動で生成するＴａｂｌｅ－ｔｏ－Ｔｅｘｔという技術が知られている。対象データがテーブル形式のデータであれば、このような技術を用いて説明文を生成することも可能である。ただし、Ｔａｂｌｅ－ｔｏ－Ｔｅｘｔでは、ＸＭＬ形式のデータや知識グラフの説明文を生成することはできない。また、Ｔａｂｌｅ－ｔｏ－Ｔｅｘｔでは、テーブル形式のデータとその説明文の組み合わせを教師データとした教師あり学習を事前に行う必要があり、そのような教師データを大量に用意する必要がある。この点、本方法では教師データを用意する必要もなく、事前に学習を行う必要もない。

　（変換により得られたテキストの利用について）
　本方法により生成されたテキストは様々な用途で利用することができる。例えば、対象データの代わりに当該対象データを変換したテキストを用いて、対象データに付与するラベルを決定すること、言い換えれば対象データを分類することもできる。このようなラベルの決定あるいは分類は、テキストに付与すべきラベルを推定するためのラベル推定モデルを用いて行うことができる。また、ラベル推定モデルとして、ゼロショットテキスト分類器等の公知のテキスト分類モデルを適用してもよい。

　ここで、ゼロショットテキスト分類器について説明する。ゼロショットテキスト分類とは、テキスト分類において、学習データに含まれないクラスへの分類を行う技術である。たとえば、学習データに含まれるテキストに対して「芸能」または「政治」というラベルが付与されていたと仮定する。この時、推定対象のテキストが、学習データに含まれない「経済」というクラスへ分類されるか否かを判定することがゼロショットテキスト分類である。

　ゼロショットテキスト分類器の一例としては、前提文が仮説文を含意するか否かを学習することにより構築された言語理解モデルを用いる方法がある。このようなゼロショットテキスト分類器を用いる場合、対象データを変換したテキストを前提文とするか、当該テキストから前提文を生成すればよい。そして、対象データに付与するラベルの候補から当該候補に関連する仮定文を生成し、上記の前提文と共にゼロショットテキスト分類器に入力すればよい。これにより、前提文が仮説文を含意する程度、すなわち対象データとラベルの候補との適合性を示す出力値が出力されるので、その出力値と閾値を比較する等の処理により対象データに当該候補のラベルを付与するか否かを決定することができる。例えば、複数のラベルの候補について上記出力値を算出し、算出された出力値が所定の閾値θ以上の候補を、当該対象データに付与すべきラベルと推定してもよい。また、例えば、算出された出力値が上位θ個の候補を、当該対象データに付与すべきラベルと推定してもよい。

　このように、本方法により生成したテキストを用いることにより、それぞれ形式の異なる複数の対象データについて、同一の基準で（つまり同一のゼロショットテキスト分類器を用いて）ラベルを付与することができる。例えば、ＣＳＶ形式の対象データＤ、ＸＭＬ形式の対象データＤ’、および知識グラフである対象データＤ’’について、１つのゼロショットテキスト分類器を用いて、それらに付与すべきラベルを推定することもできる。

　また、ＢＥＲＴ（Bidirectional Encoder Representations from Transformers）等の公知の言語モデルを用いれば、テキストをその特徴を示す埋め込みベクトルに変換することができる。そして、この変換により得られる埋め込みベクトルを用いれば、テキスト間の類似度すなわち対象データ間の類似度を算出することもできる。これにより、例えばＣＳＶ形式の対象データＤ、ＸＭＬ形式の対象データＤ’、および知識グラフである対象データＤ’’のように、それぞれ形式の異なる複数の対象データ間の類似度を算出することもできる。

　これにより、例えば形式の異なる複数のデータを含むデータ群の中から類似したデータを検出することも可能になる。例えば、企業Ａが、様々なデータが格納されたデータレイクＤ＝｛Ｄ_ｌ｜ｌ＝１，…，ｎ｝を保有していたとする。なお、Ｄ_ｌは１つのデータ（例えばＣＳＶ形式のテーブルやＸＭＬ形式のファイル）である。以下説明するように、本方法を用いれば、データレイクＤにアップロードしたテーブル形式のデータに類似した他の形式のデータ（例えばＸＭＬ形式のファイル）を検出することができる。

　この場合、本方法より、データレイクＤにアップロードしたテーブル形式のデータと、データレイクＤに含まれる各データＤ_ｌとをテキストに変換する。そして、これらのテキストを埋め込みベクトルに変換する。データＤを変換したテキストをｄ_Ｄと表し、埋め込みベクトルへの変換をＢＥＲＴで行う場合、生成される埋め込みベクトルは下記のように表される。なお、Ｎは、埋め込みベクトルの次元数である。

　ここで、アップロードしたテーブル形式のデータをデータＤ、データレイクＤに含まれるＸＭＬ形式のデータをデータＤ’とすれば、これらのデータのコサイン類似度は上記の埋め込みベクトルを用いてcos(Bert(d_D), BERT(d_D'))と表される。なお、埋め込みベクトル間の類似度の算出方法は任意であり、他の手法で類似度を算出してもよい。

　埋め込みベクトルを用いて算出した上記の類似度（具体的にはコサイン類似度）を、データＤとデータＤ’の類似度とみなすことにより、データレイクＤに含まれるデータＤ_ｌの中からデータＤに類似したデータを検出することができる。例えば、データレイクＤに含まれるデータＤ_ｌのうち、データＤとの類似度が最も高いＸＭＬ形式のファイルは、下記のように表される。

　また、本方法により生成されたテキストを用いて回帰モデルや機械学習モデル（以下、単にモデルと呼ぶ）を構築してもよい。ある形式の対象データから生成されたテキストを用いて構築したモデルは、他の形式のデータにも適用可能である。

　例えば、それぞれのデータとしての価値が既知のＣＳＶ形式のファイルが複数あったとする。この場合、それらのファイルを本方法でテキストに変換し、そのテキストをさらに埋め込みベクトルに変換すれば、ファイルの価値と埋め込みベクトルとの相関を示す回帰モデルを構築することができる。この回帰モデルに、ＸＭＬ形式のファイルを本方法で変換したテキストから生成された埋め込みベクトルを入力すれば、そのＸＭＬ形式のファイルの価値の推定値を出力させることができる。ＪＳＯＮ（JavaScript Object Notation：登録商標）等の他の形式のファイルについても同様である。

　近年では、上述したＢＥＲＴやＧＰＴ－３（Generative Pre-trained Transformer-3）のような高性能な言語処理モデルが利用可能になっている。本法は、このようなモデルに入力するテキストの生成に好適に利用できる。

　（データ変換装置の構成）
　本例示的実施形態に係るデータ変換装置２の構成を図４に基づいて説明する。図４は、データ変換装置２の構成を示すブロック図である。データ変換装置２は、対象データをテキストに変換する装置であり、図示のように、データ変換装置２の各部を統括して制御する制御部２０と、データ変換装置２が使用する各種データを記憶する記憶装置である記憶部２１を備えている。また、データ変換装置２は、データ変換装置２に対するユーザの入力操作を受け付ける入力部２２と、データ変換装置２がデータを出力するための出力部２３を備えている。なお、データ変換装置２は、テキスト変換専用の装置であってもよいし、他の用途にも使用できる汎用的な装置であってもよい。

　また、制御部２０には、データ取得部（データ取得手段）２０１およびデータ変換部（データ変換手段）２０２が含まれている。そして、記憶部２１には、対象データ２１１、半構造化データ用テンプレート２１２、構造化データ用テンプレート２１３、およびテキスト２１５が記憶されている。

　データ取得部２０１は、半構造化データまたは構造化データを、テキストに変換する対象となる対象データとして取得する。また、データ取得部２０１は、取得した対象データを対象データ２１１として記憶部２１に記憶させる。

　データ変換部２０２は、対象データ２１１をテキストに変換する。また、データ変換部２０２は、変換により生成されたテキストをテキスト２１４として記憶部２１に記憶させる。具体的には、データ変換部２０２は、対象データ２１１が半構造化データである場合には半構造化データ用テンプレート２１２を用いて対象データ２１１をテキストに変換する。また、データ変換部２０２は、対象データ２１１が構造化データである場合には構造化データ用テンプレート２１３を用いて対象データ２１１をテキストに変換する。

　この構成によれば、例示的実施形態１に係るデータ変換装置１の奏する効果に加えて、対象データ２１１が半構造化データおよび構造化データの何れであってもテキストに変換することが可能になるという効果が得られる。なお、半構造化データ用テンプレート２１２および構造化データ用テンプレート２１３の詳細は図５～図９に基づいて後述する。

　無論、データ変換部２０２は、半構造化データおよび構造化データの何れかについてのみテキストに変換するものであってもよい。また、データ変換部２０２は、半構造化データおよび構造化データの一方はテンプレートを用いてテキストに変換し、他方は他の手法を用いてテキストに変換するものであってもよい。他の手法としては、例えば、ある形式のデータと当該形式のデータの内容を示すテキストとの対応関係を学習することにより構築された変換モデルを用いて変換する方法が挙げられる。例えば、データ変換部２０２は、対象データ２１１がテーブル形式のデータであれば、上述したＴａｂｌｅ－ｔｏ－Ｔｅｘｔによりテキストに変換してもよい。

　なお、データ変換部２０２は、１つの半構造化データ用テンプレート２１２を用いて１つの対象データ２１１から１つのテキストを生成してもよいし、複数の半構造化データ用テンプレート２１２を用いて１つの対象データ２１１から複数のテキストを生成してもよい。また、データ変換装置２は、半構造化データ用テンプレート２１２および構造化データ用テンプレート２１３を生成するテンプレート生成部を備えていてもよい。

　以上のように、本例示的実施形態に係るデータ変換装置２においては、半構造化データまたは構造化データを、テキストに変換する対象となる対象データ２１１として取得するデータ取得部２０１と、半構造化データをテキストに変換するための半構造化データ用テンプレート２１２または構造化データをテキストに変換するための構造化データ用テンプレート２１３を用いて、対象データ２１１をテキストに変換するデータ変換部２０２と、を備える、という構成が採用されている。この構成によれば、対象データの内容や性質等を把握することなく、当該対象データをテキストに変換することが可能になるという効果が得られる。

　（構造化データ用テンプレートの例）
　図５は、対象データが構造化データである場合に適用する構造化データ用テンプレート２１３の例を示す図である。構造化データとは、データの構造が予め決まっているデータであり、関係データベース管理システム（ＲＤＢＭＳ：Relational Data Base Management System）で扱うことができるデータである。例えば、ＣＳＶ形式のデータのように、行と列で定義されたテーブルとして表されるデータは構造化データである。

　図５に示す対象データＤは、行名、会社名、人数、および場所の４つの列を含み、各行に行名、会社名、人数、および場所の情報（すなわち各行の要素）がそれぞれ示された構造化データである。図５には、このような形式の構造化データをテキストに変換する構造化データ用テンプレート２１３の例として、構造化データ用テンプレート１～３を示している。

　構造化データ用テンプレート１は、対象データの列名を繋げてテキストにするテンプレートであり、ｔ＝“｛列名｝…｛列名｝”と表される。ここでは、行ｅをテンプレートｔにより変換したテキストをｔ（ｅ）と表す。図５に示すように、構造化データ用テンプレート１を用いることにより、対象データＤからｔ（ｅ_１）＝“会社名　人数　場所”というテキストが生成される。

　構造化データ用テンプレート２は、各行の要素を繋げてテキストにするテンプレートであり、ｔ＝“｛要素｝…｛要素｝”と表される。ただし各要素は同じ行に含まれる要素である。図５に示すように、構造化データ用テンプレート２を用いることにより、対象データＤからｔ（ｅ_１）＝“森のパン屋　１０　Ａ県”というテキストが生成される。また、行名ｅ_２以降についても同様にしてテキストを生成することができる。このようにして生成したテキストを繋ぎ合わせれば、１つの対象データＤから１つのテキストｄ_Ｄ＝“ｔ（ｅ_１）ｔ（ｅ_２）…”が生成される。

　構造化データ用テンプレート３は、“｛列名｝は｛要素｝です。”というテンプレートである。図５に示すように、構造化データ用テンプレート３を用いることにより、対象データＤからｔ（ｅ_１）＝“会社名は森のパン屋です。人数は１０です。場所はＡ県です。”というテキストが生成される。また、行名ｅ_２以降についても同様にしてテキストを生成することができる。

　また、データ変換部２０２は、“｛列名｝は｛要素｝です。”の代わりに、単に列名と要素を並べた“｛列名｝｛要素｝”という構造化データ用テンプレート２１３を用いてもよい。また、データ変換部２０２は、“｛列名｝は｛要素｝に関する。”のように列名と要素に関する文言が図５の例とは異なる構造化データ用テンプレート２１３を用いてもよい。

　なお、データ変換部２０２は、必ずしも対象データＤに含まれる全ての列名および要素をテキスト化する必要はない。例えば、データ変換部２０２は、所定の条件を満たす要素はテキスト化しないようにしてもよい。所定の条件としては、例えば、数値データであること、欠損値を含むこと、識別番号（ＩＤ：IDentification）や記号のようにそれ単体では意味が不明なものであること、等が挙げられる。数値データである要素をテキスト化しない場合、対象データＤを構造化データ用テンプレート３でテキスト化すると、得られるテキストは“会社名は森のパン屋です。場所はＡ県です。”となる。

　また、対象データと構造化データ用テンプレート２１３の組み合わせや、変換の対象とした列や要素に応じて、生成されるテキストが対象データの内容を的確に表したものとなることも、そうならないこともある。例えば、数値のみの要素についてはテキスト化しても対象データの内容を的確に表したものとはならないことが多いことが経験的に分かっている。また、例えば、列名が空欄であったり、識別番号であったりする場合は、要素でテキスト化する方が対象データの内容を的確に表したものとなることが多いことが経験的に分かっている。

　このため、データ変換部２０２は、１つの対象データＤから複数のテキストを生成してもよい。例えば、データ変換部２０２は、構造化データ用テンプレート１を用いてテキストｄ_Ｄ ^１＝“会社名　人数　場所”を生成すると共に、構造化データ用テンプレート３を用いてテキストｄ_Ｄ ^２＝“会社名は森のパン屋です。人数は１０です。場所はＡ県です。”を生成してもよい。

　（メタデータの活用）
　対象データにその対象データに関連するメタデータが付随している場合、データ変換部２０２は、対象データから生成したテキストに、メタデータから生成したテキストを追加してもよい。これについて図６に基づいて説明する。図６は、対象データから生成したテキストに、メタデータから生成したテキストを追加した例を示す図である。

　図６には、Ａ～Ｄの列を含むテーブル形式の対象データと、これに付随するメタデータを示している。データ変換部２０２は、上述のような構造化データ用テンプレート２１３を用いることにより、テーブル形式の対象データからテキストｄ_Ｄを生成することができる。

　また、データ変換部２０２は、メタデータからテキストｄ_Ｄ’を生成する。メタデータが構造化データであれば、構造化データ用テンプレート２１３によりテキストｄ_Ｄ’を生成する。例えば、図６に示すメタデータの「追加情報」の部分は、“｛列名｝は、｛要素｝です。”という構造化データ用テンプレート２１３により、“組織はＤ市です。連絡先はxxxx-xx-xxxxです。作成者は健康保険課です。ウェブページはhttp://…です。”のようなテキストに変換することができる。また、メタデータの全部または一部が半構造化データであれば半構造化データ用テンプレート２１２によりテキストに変換することができる。

　そして、データ変換部２０２は、上記のようにして生成したテキストｄ_Ｄとテキストｄ_Ｄ’を繋ぎ合わせたテキスト｛ｄ_Ｄ，ｄ_Ｄ’｝を、対象データに対応するテキストとして生成すればよい。これにより、対象データのみではなく、メタデータについても加味したテキストを生成することが可能になる。

　（ＥＲで繋がったテーブルが存在する場合の変換の例）
　対象データにＥＲ（Entity Relationship）で繋がったテーブルが存在する場合の変換の例について図７に基づいて説明する。図７は、対象データにＥＲで繋がったテーブルが存在する場合に適用される構造化データ用テンプレート２１３の例を示す図である。

　図７には、行名、会社名、人数、および場所という３つの主キーを含むテーブルである対象データＤと、対象データにＥＲで繋がった、会社名、業種、および調理師免許という３つの外部キーを含むテーブルとを示している。また、図７には、このような対象データＤに適用可能な構造化データ用テンプレート４および５を示している。

　構造化データ用テンプレート４は、“｛列名｝は｛要素：主キー｝です。そして、｛列名：外部キー｝は｛要素：外部キー｝です。”というテンプレートである。なお、「｛列名｝は｛要素：主キー｝です。」の部分は主キーの数だけ繰り返す。「｛列名：外部キー｝は｛要素：外部キー｝です。」の部分も同様である。

　この構造化データ用テンプレート４をｅ_１の行に適用することにより、図示のように、ｔ（ｅ_１）＝“会社名は森のパン屋です。人数は１０です。場所はＡ県です。そして、業種は菓子製造です。調理師免許はありです。”とのテキストが生成される。

　構造化データ用テンプレート５は、主キーに関するテキストの途中に外部キーに関するテキストを組み込むものである。具体的には、構造化データ用テンプレート５は、“｛列名｝は｛要素：主キー｝で、｛列名：外部キー｝は｛要素：外部キー｝です。”というテンプレートである。なお、「｛列名：外部キー｝は｛要素：外部キー｝です。」の部分について、外部キーが複数存在する場合には、「｛列名：外部キー｝は｛要素：外部キー｝で、」の形で列挙する。

　この構造化データ用テンプレート５をｅ_１の行に適用することにより、図示のように、ｔ（ｅ_１）＝“会社名は森のパン屋で、業種は菓子製造で、調理師免許はありです。”とのテキストが生成される。なお、このテキストに、他の主キー（人数と場所）から生成したテキストを追加してもよい。

　以上のように、データ変換部２０２は、対象データにＥＲで繋がったテーブルが存在する場合には、そのテーブルの内容についても反映したテキストを生成してもよい。これにより、対象データを、ＥＲで繋がったテーブルの内容を加味したテキストに変換することができる。

　図６および図７に基づいて説明したように、対象データにＥＲで繋がるテーブルや、メタデータ等のような、対象データに関連する関連データを利用できる場合がある。このような関連データを利用できる場合、データ変換部２０２は、対象データを、関連データを半構造化データ用テンプレート２１２または構造化データ用テンプレート２１３を用いて変換することにより得られる文字列を含むテキストに変換してもよい。これにより、例示的実施形態１に係るデータ変換装置１の奏する効果に加えて、対象データを、関連データについても加味したテキストに変換することができるという効果が得られる。

　（階層構造を有する半構造化データに適用する半構造化データ用テンプレートの例）
　対象データ２１１は半構造化データであってもよい。半構造化データとは、構造化されている構造化データと全く構造化されていない非構造化データとの中間的なデータであり、データの構造が完全には決まっていないが、ある程度の構造が決まっているデータである。半構造化データは、構造化データのようにテーブル形式で表現することはできないが、半構造化データには、データを表現するための規則が備わっている。例えば、ＪＳＯＮ、ＨＴＭＬ、ＸＭＬ等の形式のデータは半構造化データである。

　ＪＳＯＮ形式等の階層構造を有する半構造化データについては、例えば図８に示すような半構造化データ用テンプレート２１２によりテキストに変換することができる。図８は、階層構造を有する半構造化データに適用する半構造化データ用テンプレート２１２の例を示す図である。図８には、ＪＳＯＮ形式の対象データＤを示している。ＪＳＯＮ形式では、括弧｛｝内にキー（key）とその値（value）が記述される。また、括弧｛｝内のキーについてさらに括弧｛｝を付した入れ子構造（階層構造あるいはネストとも呼ばれる）として、そのキーに関するデータを記述することができる。

　このような対象データＤについては、図８に示す半構造化データ用テンプレート１が適用可能である。半構造化データ用テンプレート１は、階層構造を有する半構造化データからテキストを生成するためのものである。具体的には、半構造化データ用テンプレート１は、“｛key｝は｛value｝です。｛key｝の｛入れ子になっているオブジェクトのkey｝は、｛入れ子になっているオブジェクトvalue｝です。”というテンプレートである。なお、対象データにkeyとvalueが複数組含まれている場合には、データ変換部２０２は、keyとvalueの各組を“｛key｝は｛value｝です。”というテキストに変換する。入れ子になっているオブジェクトについても同様である。

　この半構造化データ用テンプレート１を用いて図８に示す対象データＤに含まれる“ａａａ”に関する記述を変換すると、ｔ（ａａａ）＝“職業は社長です。副業はないです。扶養はあります。扶養者の年齢は２０で、職業は学生です。”とのテキストが生成される。

　なお、このテキストにおいては、対象データＤにおける「Ｆａｌｓｅ」は「ない」に、「Ｔｒｕｅ」は「あり」に変換している。このように、「Ｆａｌｓｅ」や「Ｔｒｕｅ」等のｂｏｏｌ値は適切な単語への置き換えを行うことが好ましい。また、上記テキストにおいては、入れ子になっている２つのオブジェクト（「扶養者」に関するもの）に対応するテキストを、「で」との接続語で繋いで一文にしている。このように、より文章として解釈しやすいテキストとするための変換を併用してもよい。このような変換規則、すなわち対象データに含まれる所定の要素（文字列）をそれに対応する単語（文字列）に変換する変換規則は、例えば要素と単語とを対応付けたテーブル等の形式で記憶部２１等に記憶させておけばよい。例えば、上述の置き換えであれば、｛Ｔｒｕｅ：ある、Ｆａｌｓｅ：ない｝のような対応表を記憶させておけばよい。

　また、ＨＴＭＬ形式やＸＭＬ形式の対象データについても同様の半構造化データ用テンプレート２１２によりテキストに変換することができる。例えば、データ変換部２０２は、“｛タグ：tag｝は｛コンテンツ：content｝です。”のような半構造化データ用テンプレート２１２により、ＨＴＭＬ形式やＸＭＬ形式の対象データをテキストに変換することが可能である。

　また、｛タグ｝を予め定めた変換規則により所定の文字列に変換してもよい。例えば、対象データに<title>XX<title>というタグが含まれているとする。この場合、データ変換部２０２は、「title」の部分を「タイトル」という当該タグの内容を示す文字列に変換してもよい。そして、データ変換部２０２は、“｛タグ｝は｛コンテンツ｝です。”とのテンプレートの｛タグ｝の部分に当該文字列を入力し、「<title>XX<title>」の部分を、“タイトルは｛XX｝です。”とのテキストに変換してもよい。

　また、例えば、対象データが下記のような記述を含むＨＴＭＬファイルであったとする。
<label>ｘｘｘ投票区</label>
<poolingPlace>ｙｙｙセンター</ poolingPlace>
　この場合、データ変換部２０２は、<label>というタグについてはそのタグの内容を示す「ラベル」という文字列に変換し、このタグに記述された「ｘｘｘ投票区」との文字列と共に上記テンプレートに入力する。また、データ変換部２０２は、<poolingPlace>というタグについてはそのタグの内容を示す「投票場所」という文字列に変換し、このタグに記述された「ｙｙｙセンター」との文字列と共に上記テンプレートに入力する。これにより、データ変換部２０２は、ＨＴＭＬファイルの上記の記述から“ラベルはｘｘｘ投票区。投票場所はｙｙｙセンター。”というテキストを生成することができる。

　このように、データ変換部２０２は、対象データ２１１が、タグを含む半構造化データである場合、タグの内容を示す文字列と当該タグに記述された文字列とを半構造化データ用テンプレート２１２に入力することにより対象データをテキストに変換してもよい。これにより、例示的実施形態１に係るデータ変換装置１の奏する効果に加えて、タグを含む半構造化データから可読性の高いテキストを生成することができるという効果が得られる。

　（グラフ形式の半構造化データに適用する半構造化データ用テンプレートの例）
　対象データ２１１は、複数のノード間の関係がリンクにより示されたグラフ形式の半構造化データであってもよい。グラフ形式の半構造化データについては、例えば図９に示す半構造化データ用テンプレート２によりテキストに変換することができる。図９は、グラフ形式の半構造化データに適用する半構造化データ用テンプレートの例を示す図である。図９にはグラフ形式の半構造化データである知識グラフと、これに適用可能な半構造化データ用テンプレート２を示している。

　ここでいう知識グラフとは、複数のノードと、ノード間を結ぶリンクとからなる構造を有するデータのことを指す。知識グラフによれば、ノード間の関係性をリンクにより表すことができる。例えば、図９に示す知識グラフでは、ＳＮＳ（Social Networking Service）の３人のユーザと、その一人が投稿したつぶやきがノードとして表されている。また、各ノードを結ぶ矢印すなわちリンクが、ユーザ間の関係とユーザとつぶやきとの関係を示している。この知識グラフから、アリスという名前の２５歳のユーザは、クラウスという名前の２０歳のユーザからフォローされていることや、「今東京にいます」というつぶやきを２０ｘｘ年６月２１日にスマートフォンで投稿したこと等が読み取れる。

　対象データが知識グラフである場合、図９に示す半構造化データ用テンプレート２のような、ノード間の関係性をテキストにする半構造化データ用テンプレート２を適用してもよい。具体的には、半構造化データ用テンプレート２は、“｛ノード｝と｛エッジ｝の関係にある。｛ノード｝を｛介在｝で｛エッジ｝した。”というテンプレートである。なお、「介在」とはエッジに付随する情報であり、エッジに示される行為に介在した手段を示す。

　この半構造化データ用テンプレート２を用いて図９に示す知識グラフに含まれるユーザ「アリス」に関する記述を変換すると、ｔ（アリス）＝“ビリーとフォローの関係にある。つぶやきをスマートフォンで投稿した。”とのテキストが生成される。なお、この例では、｛ノード｝の部分の文字列をそのノードに示されている「名前」としている。このように、知識グラフをテキストに変換する場合には、｛ノード｝の部分の文字列を、そのノードに関連する文字列としてもよい。
　また、知識グラフをテキストに変換する場合も、知識グラフに含まれる所定の要素（文字列）をそれに対応する単語（文字列）に変換する変換規則を併用してもよい。例えば、エッジに付随する情報が、上記の｛介在｝ではなく、｛device：smartphone｝というものであったとする。この場合、｛smartphone：スマートフォン、device：を使って｝のような対応表を記憶させておけばよい。この対応表と、例えば“｛ノード｝を｛エッジに付随する情報｝｛エッジ｝した。”というテンプレートとを用いれば、“つぶやきをスマートフォンを使って投稿した。”というテキストを生成することができる。

　また、データ変換部２０２は、｛ノード｝の部分はそのまま「ユーザ」とした上で、図７に示したＥＲの例のように、そのノードに関連する情報を示すテキストを追加してもよい。例えば、データ変換部２０２は、上記のテキストにおける“ビリーとフォローの関係にある。”の部分を“名前がビリーで年齢が１６のユーザとフォローの関係にある。”とのテキストに変換してもよい。

　このように、ノードやリンクに付与されている情報についてもテキストに変換してもよい。例えば、図９の例における「つぶやき」のノードには投稿内容を示すテキストと日付の情報が付与されている。データ変換部２０２は、これらの情報を用いて、“つぶやきをスマートフォンで投稿して、内容は「今東京にいる」であり、日付は２０ｘｘ年６月２１日である。”のようなテキストを生成してもよい。

　また、リンクの矢印の向きを考慮したテンプレートを用いてもよい。例えば、リンクの矢印の終点側のノードについては“｛ノード｝と｛エッジ｝の関係にある。”との半構造化データ用テンプレートを使用し、リンクの矢印の始点側のノードについては“｛ノード｝に｛エッジ｝される関係にある。”との半構造化データ用テンプレートを使用してもよい。これにより、図７に示す知識グラフに含まれるユーザ「アリス」に関する記述を変換すると、“ビリーとフォローの関係にある。クラウスにフォローされる関係にある。ビリーにフォローされる関係にある。”とのテキストが生成される。

　なお、図９に示したような半構造化データ用テンプレート２の適用対象は知識グラフに限られず、例えばＳＮＳの友達グラフ等についても同様の変換規則によりテキストに変換することができる。

　以上のように、対象データ２１１がグラフ形式の半構造化データである場合には、データ変換部２０２は、ノードの内容を示す文字列と、当該ノードに接続するリンクの内容を示す文字列とを半構造化データ用テンプレート２１２に入力することにより対象データをテキストに変換してもよい。この構成によれば、例示的実施形態１に係るデータ変換装置１の奏する効果に加えて、グラフ形式の半構造化データをテキスト化することが可能になるという効果が得られる。

　（サンプリングの工夫）
　データ変換部２０２は、対象データがどのような形式であったとしても、その全ての要素をテキスト化する必要はなく、対象データから一部の要素をサンプリングしてテキスト化してもよい。例えば、対象データが１つのテーブルである場合、データ変換部２０２は、対象データを構成する行の一部をランダムにサンプリングし、サンプリングした行からテキストを生成してもよい。

　また、例えば、データ変換部２０２は、欠損値が含まれていない等の所定の条件を満たす行をサンプリングしてもよい。さらに、例えば、データ変換部２０２は、列内のユニークな要素の数に応じてサンプリングを行ってもよい。ここで、ユニークな要素とはテーブルデータのある列において、重複がない要素を指す。例えば、１０００行のテーブル（対象データ）に含まれる「場所」という列に４７個しかユニークな要素が存在しなかったとする。例えば「場所」が日本の都道府県を示す列である場合にはこのような状態となり得る。この場合、何も工夫しなければ、同じ都道府県が重複して多数含まれるテキストが生成されてしまう。

　このような場合、データ変換部２０２は、ある「場所」を含む行をテキストに変換した後は、同じ「場所」を含む行はテキストに変換しない、つまりサンプリングしないようにしてもよい。また、データ変換部２０２は、「場所」を含む行が、予め定めた上限を超えないようにサンプリングしてもよい。

　このように、データ変換部２０２は、対象データがテーブル形式の構造化データであり、同じ要素を含む複数の行を含んでいる場合に、同じ要素を含む複数の行の一部をサンプリングして、サンプリングした行に含まれる文字列をテキストに変換してもよい。この構成によれば、例示的実施形態１に係るデータ変換装置１の奏する効果に加えて、生成されるテキストの冗長性を低減することができるという効果が得られる。

　また、例えば、１０００行のテーブル（対象データ）において、ある列に１０００個のユニークな要素が存在したとする。例えば、ＩＤや個人名等を示す列においてはこのような状態となり得る。ＩＤや個人名は、それら単体では対象データの内容に関する説明力が低く、テキストにそれらの情報を含める必要性は低い。

　このため、データ変換部２０２は、テーブル形式の構造化データに含まれる各列について、その列に含まれるユニークな要素数の、対象データの行数に対する比、つまり（ユニークな要素数）／（行数）の値を計算し、その値が閾値以上である列の要素はテキストに含めないようにしてもよい。これにより、例示的実施形態１に係るデータ変換装置１の奏する効果に加えて、生成されるテキストの冗長性を低減することができるという効果が得られる。

　（処理の流れ）
　データ変換装置２が実行する処理（データ変換方法）の流れを図１０に基づいて説明する。図１０は、データ変換装置２が実行する処理の流れを示すフロー図である。

　Ｓ２１では、データ取得部２０１が、対象データ２１１を取得する。Ｓ２１で取得される対象データ２１１は、例えばデータ変換装置２のユーザが入力部２２を介して入力したものであってもよい。ここでは、対象データ２１１が半構造化データおよび構造化データの何れかであるとする。なお、データ取得部２０１は、対象データ２１１に加えて、対象データ２１１の変換に用いるテンプレート、すなわち半構造化データ用テンプレート２１２または構造化データ用テンプレート２１３についても取得してもよい。

　Ｓ２２では、データ変換部２０２が、Ｓ２１で入力された対象データ２１１が半構造化データであるか否か、つまり対象データ２１１が半構造化データであるか構造化データであるかを判定する。Ｓ２２の判定方法は任意であり、例えば、データ変換部２０２は、対象データ２１１の拡張子から、対象データ２１１が半構造化データであるか構造化データであるかを判定してもよい。

　Ｓ２２でＹＥＳと判定された場合、つまり、Ｓ２１で入力された対象データ２１１が半構造化データである場合には、Ｓ２３に進む。Ｓ２３では、データ変換部２０２は、半構造化データ用テンプレート２１２を用いて、Ｓ２１で入力された対象データ２１１をテキストに変換する。また、データ変換部２０２は、変換により得られたテキストをテキスト２１４として記憶部２１に記憶させ、これにより図１０の処理は終了する。なお、データ変換部２０２は、テキスト２１４を出力部２３または他の装置に出力させてもよい。

　一方、Ｓ２２でＮＯと判定された場合、つまり、Ｓ２１で入力された対象データ２１１が構造化データである場合には、Ｓ２４に進む。Ｓ２４では、データ変換部２０２は、構造化データ用テンプレート２１３を用いて、Ｓ２１で入力された対象データ２１１をテキストに変換する。この際、データ変換部２０２は、「サンプリングの工夫」の項目で説明したようなサンプリングを行ってもよい。対象データ２１１の変換により得られたテキストの記憶と出力についてはＳ２３と同様である。

　なお、同じ半構造化データであっても、データ形式に応じて適切な半構造化データ用テンプレート２１２が異なる場合があるから、データ形式毎に半構造化データ用テンプレート２１２を用意しておいてもよい。これは構造化データについても同様である。この場合、データ変換部２０２は、対象データ２１１のデータ形式を判定して、そのデータ形式に応じたテンプレート（半構造化データ用テンプレート２１２または構造化データ用テンプレート２１３）を適用して変換を行えばよい。

　〔変形例〕
　データ変換装置２は、「変換により得られたテキストの利用について」で説明したような各種の処理についても実行するものであってもよい。例えば、データ変換装置２は、対象データを変換することにより生成されたテキストに付与すべきラベルを推定するラベル推定手段を備えていてもよい。また、ラベルの推定にはゼロショットテキスト分類器を用いてもよい。

　また、例えば、データ変換装置２は、複数の対象データを変換することにより生成された複数のテキスト間の類似度を算出する類似度算出手段を備えていてもよい。また、データ変換装置２は、類似度の算出にあたり、テキストを埋め込みベクトルに変換するベクトル変換手段を備えていてもよい。さらに、データ変換装置２は、算出された上記類似度に基づいて、対象データに類似する類似データを検出する類似データ検出手段を備えていてもよい。

　上述の実施形態で説明した各処理の実行主体は任意であり、上述の例に限られない。つまり、相互に通信可能な複数の装置により、データ変換装置２と同様の機能を有する推定システムを構築することができる。例えば、図４に示す各ブロックを複数の装置に分散して設けることにより、データ変換装置２と同様の機能を有する推定システムを構築することができる。

　〔ソフトウェアによる実現例〕
　データ変換装置２の一部又は全部の機能は、集積回路（ＩＣチップ）等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。後者の場合、データ変換装置２は、例えば、各機能を実現するソフトウェアであるプログラム（推定プログラム）の命令を実行するコンピュータによって実現される。このようなコンピュータの一例（以下、コンピュータＣと記載する）を図１１に示す。コンピュータＣは、少なくとも１つのプロセッサＣ１と、少なくとも１つのメモリＣ２と、を備えている。メモリＣ２には、コンピュータＣをデータ変換装置２として動作させるためのプログラムＰが記録されている。コンピュータＣにおいて、プロセッサＣ１は、プログラムＰをメモリＣ２から読み取って実行することにより、データ変換装置２の各機能が実現される。

　プロセッサＣ１としては、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＰＵ（Micro Processing Unit）、ＦＰＵ（Floating point number Processing Unit）、ＰＰＵ（Physics Processing Unit）、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリＣ２としては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、又は、これらの組み合わせなどを用いることができる。

　なお、コンピュータＣは、プログラムＰを実行時に展開したり、各種データを一時的に記憶したりするためのＲＡＭ（Random Access Memory）を更に備えていてもよい。また、コンピュータＣは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータＣは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。

　また、プログラムＰは、コンピュータＣが読み取り可能な、一時的でない有形の記録媒体Ｍに記録することができる。このような記録媒体Ｍとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータＣは、このような記録媒体Ｍを介してプログラムＰを取得することができる。また、プログラムＰは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータＣは、このような伝送媒体を介してプログラムＰを取得することもできる。

　〔付記事項１〕
　本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。

　〔付記事項２〕
　上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。

　（付記１）
　半構造化データまたは構造化データを、テキストに変換する対象となる対象データとして取得するデータ取得手段と、半構造化データをテキストに変換するための半構造化データ用テンプレートまたは構造化データをテキストに変換するための構造化データ用テンプレートを用いて、前記対象データをテキストに変換するデータ変換手段と、を備えるデータ変換装置。

　（付記２）
　前記データ変換手段は、前記対象データが半構造化データである場合には前記半構造化データ用テンプレートを用いて前記対象データをテキストに変換し、前記対象データが構造化データである場合には前記構造化データ用テンプレートを用いて前記対象データをテキストに変換する、付記１に記載のデータ変換装置。

　（付記３）
　前記データ変換手段は、前記対象データに関連する関連データが存在する場合に、前記対象データを、前記関連データを前記半構造化データ用テンプレートまたは前記構造化データ用テンプレートを用いて変換することにより得られる文字列を含むテキストに変換する、付記１または２に記載のデータ変換装置。

　（付記４）
　前記データ変換手段は、前記対象データが、タグを含む半構造化データである場合、前記タグの内容を示す文字列と当該タグに記述された文字列とを前記半構造化データ用テンプレートに入力することにより前記対象データをテキストに変換する、付記１から３の何れか１つに記載のデータ変換装置。

　（付記５）
　前記データ変換手段は、前記対象データが、複数のノード間の関係がリンクにより示されたグラフ形式のデータである場合、ノードの内容を示す文字列と、当該ノードに接続するリンクの内容を示す文字列とを前記半構造化データ用テンプレートに入力することにより前記対象データをテキストに変換する、付記１から４の何れか１つに記載のデータ変換装置。

　（付記６）
　前記データ変換手段は、前記対象データがテーブル形式の構造化データである場合に、同じ要素を含む複数の行の一部をサンプリングして、サンプリングした行に含まれる文字列をテキストに変換する、付記１から５の何れか１つに記載のデータ変換装置。

　（付記７）
　前記データ変換手段は、前記対象データがテーブル形式の構造化データである場合に、当該対象データに含まれる列のうち、当該列に含まれるユニークな要素数の、当該対象データの行数に対する比が閾値以上である列の要素を含めることなく当該対象データをテキストに変換する、付記１から６の何れか１つに記載のデータ変換装置。

　（付記８）
　少なくとも１つのプロセッサが、半構造化データまたは構造化データを、テキストに変換する対象となる対象データとして取得することと、半構造化データをテキストに変換するための半構造化データ用テンプレートまたは構造化データをテキストに変換するための構造化データ用テンプレートを用いて、前記対象データをテキストに変換することと、を含む、データ変換方法。

　（付記９）
　コンピュータを、半構造化データまたは構造化データを、テキストに変換する対象となる対象データとして取得するデータ取得手段、および半構造化データをテキストに変換するための半構造化データ用テンプレートまたは構造化データをテキストに変換するための構造化データ用テンプレートを用いて、前記対象データをテキストに変換するデータ変換手段、として機能させる、データ変換プログラム。

　〔付記事項３〕
　上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。少なくとも１つのプロセッサを備え、前記プロセッサは、半構造化データまたは構造化データを、テキストに変換する対象となる対象データとして取得するデータ取得処理と、半構造化データをテキストに変換するための半構造化データ用テンプレートまたは構造化データをテキストに変換するための構造化データ用テンプレートを用いて、前記対象データをテキストに変換するデータ変換処理と、を実行するデータ変換装置。

　なお、このデータ変換装置は、更にメモリを備えていてもよく、このメモリには、前記データ取得処理と、前記データ変換処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。

１、２　　　　データ変換装置
１１、２０１　データ取得部
１２、２０２　データ変換部
２１１　　　　対象データ
２１２　　　　半構造化データ用テンプレート
２１３　　　　構造化データ用テンプレート

Claims

　半構造化データまたは構造化データを、テキストに変換する対象となる対象データとして取得するデータ取得手段と、
　半構造化データをテキストに変換するための半構造化データ用テンプレートまたは構造化データをテキストに変換するための構造化データ用テンプレートを用いて、前記対象データをテキストに変換するデータ変換手段と、を備えるデータ変換装置。
　前記データ変換手段は、前記対象データが半構造化データである場合には前記半構造化データ用テンプレートを用いて前記対象データをテキストに変換し、前記対象データが構造化データである場合には前記構造化データ用テンプレートを用いて前記対象データをテキストに変換する、請求項１に記載のデータ変換装置。
　前記データ変換手段は、前記対象データに関連する関連データが存在する場合に、前記対象データを、前記関連データを前記半構造化データ用テンプレートまたは前記構造化データ用テンプレートを用いて変換することにより得られる文字列を含むテキストに変換する、請求項１または２に記載のデータ変換装置。
　前記データ変換手段は、前記対象データが、タグを含む半構造化データである場合、前記タグの内容を示す文字列と当該タグに記述された文字列とを前記半構造化データ用テンプレートに入力することにより前記対象データをテキストに変換する、請求項１から３の何れか１項に記載のデータ変換装置。
　前記データ変換手段は、前記対象データが、複数のノード間の関係がリンクにより示されたグラフ形式のデータである場合、ノードの内容を示す文字列と、当該ノードに接続するリンクの内容を示す文字列とを前記半構造化データ用テンプレートに入力することにより前記対象データをテキストに変換する、請求項１から４の何れか１項に記載のデータ変換装置。
　前記データ変換手段は、前記対象データがテーブル形式の構造化データである場合に、同じ要素を含む複数の行の一部をサンプリングして、サンプリングした行に含まれる文字列をテキストに変換する、請求項１から５の何れか１項に記載のデータ変換装置。
　前記データ変換手段は、前記対象データがテーブル形式の構造化データである場合に、当該対象データに含まれる列のうち、当該列に含まれるユニークな要素数の、当該対象データの行数に対する比が閾値以上である列の要素を含めることなく当該対象データをテキストに変換する、請求項１から６の何れか１項に記載のデータ変換装置。
　少なくとも１つのプロセッサが、
　半構造化データまたは構造化データを、テキストに変換する対象となる対象データとして取得することと、
　半構造化データをテキストに変換するための半構造化データ用テンプレートまたは構造化データをテキストに変換するための構造化データ用テンプレートを用いて、前記対象データをテキストに変換することと、を含む、データ変換方法。
　コンピュータを、
　半構造化データまたは構造化データを、テキストに変換する対象となる対象データとして取得するデータ取得手段、および
　半構造化データをテキストに変換するための半構造化データ用テンプレートまたは構造化データをテキストに変換するための構造化データ用テンプレートを用いて、前記対象データをテキストに変換するデータ変換手段、として機能させる、データ変換プログラム。