WO2020261344A1

WO2020261344A1 - データ処理装置、データ処理方法及びデータ処理プログラム

Info

Publication number: WO2020261344A1
Application number: PCT/JP2019/025001
Authority: WO
Inventors: 須永　聡; 幸司星野; 一宏菊間
Original assignee: 日本電信電話株式会社
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2020-12-30
Also published as: US20220245334A1; JPWO2020261344A1; US11900051B2; JP7192991B2

Abstract

データ処理装置（１０）は、表データの行及び列が交差するセルに対し、セルの行の見出し及びセルの列の見出しに使用される単語の出現数または出現頻度を求め、求めた出現数または出現頻度を要素の値としたベクトルを生成するベクトル生成部（１４１１，１４２１）を有する。

Description

データ処理装置、データ処理方法及びデータ処理プログラム

　本発明は、データ処理装置、データ処理方法及びデータ処理プログラムに関する。

　自然言語処理に機械学習を用いる場合、文、文章、単語の言語表現を、数学的に扱いやすい表現、例えばベクトルで表し、ベクトル間の類似度を、文書間の類似度として、計測することができる。

　従来、文書分類において自然言語記述をベクトル表現にするＢｏＷ（Bag　of　Words）法がある。この方法は、テキストにおける単語の出現数をベクトルの要素とし、ベクトルと、ベクトルが生成されたテキストが属するジャンルとの学習データを基に、ジャンルの予測を行う。

特開平０９－２９７７６６号公報

須永　他，"サポートベクトルマシンを用いた検証要否判定手法"，　信学技報，NS2018-147　(2018-11),　(2018).

　図１４は、従来のＢｏＷ法を用いたテキストのジャンル予測法について説明する図である。図１４に示すように、まず、従来の方法は、処理対象のテキストにおける単語の出現数によりベクトルを生成する（図１４の（１）参照）。従来の方法は、ベクトルと、ベクトルが生成されたテキストが属するジャンルとの過去の学習データを参照し、学習データ中の類似のベクトルから、処理対象のテキストのジャンルを予測し（図１４の（２）参照）、ジャンル予測結果を出力する（図１４の（３）参照）。

　しかしながら、表を用いて示されるような各行及び各列に見出しを含む表データに対し、従来のＢｏＷ法を適用することができず、機械学習及び予測処理が行なえなかった。また、表データを扱うことができる従来の低ランク行列補完、推薦システム、協調フィルタリングなどの技術では、自然言語記述の文・文章から文書の特徴が得られず、自然言語記述の文章は扱えないといった課題があった。

　本発明は、上記に鑑みてなされたものであって、表データにおける自然言語記述のベクトル化を可能にするデータ処理装置、データ処理方法及びデータ処理プログラムを提供することを目的とする。

　上述した課題を解決し、目的を達成するために、本発明に係るデータ処理装置は、表データの行及び列が交差するセルに対し、セルの行の見出し及びセルの列の見出しに使用される単語の出現数または出現頻度を求め、求めた出現数または出現頻度を要素の値としたベクトルを生成する生成部を有することを特徴とする。

　また、本発明に係るデータ処理方法は、データ処理装置が実行するデータ処理方法であって、表データの行及び列が交差するセルに対し、セルの行の見出し及びセルの列の見出しに使用される単語の出現数または出現頻度を求め、求めた出現数または出現頻度を要素の値としたベクトルを生成する工程を含んだことを特徴とする。

　また、本発明に係るデータ処理プログラムは、表データの行及び列が交差するセルに対し、セルの行の見出し及びセルの列の見出しに使用される単語の出現数または出現頻度を求め、求めた出現数または出現頻度を要素の値としたベクトルを生成するステップをコンピュータに実行させる。

　本発明によれば、表データにおける自然言語記述のベクトル化を可能にする。

図１は、実施の形態に係るデータ処理装置の構成の一例を模式的に示す図である。図２は、図１に示すデータ処理装置の処理の流れを説明する図である。図３は、観光スポットの論評と旅行の目的及び観点を示す表の一例を示す図である。図４は、図３に示す表に記載された単語の出現数のカウント表である。図５は、図１に示す学習部が生成したベクトルの一例を示す図である。図６は、図１に示す予測部が生成したベクトルの一例を示す図である。図７は、検証要否表の一例を示す図である。図８は、図７に示す表に記載された単語の出現数のカウント表である。図９は、実施の形態におけるデータ処理装置１０が実行する学習処理の処理手順を示す図である。図１０は、図９に示すベクトル生成処理の処理手順を示すフローチャートである。図１１は、実施の形態における予測処理の処理手順を示す図である。図１２は、図９に示すベクトル生成処理の他の処理手順を示すフローチャートである。図１３は、プログラムが実行されることにより、データ処理装置が実現されるコンピュータの一例を示す図である。図１４は、従来のＢｏＷ法を用いたテキストのジャンル予測法について説明する図である。

　以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［実施の形態］
　本発明の実施の形態について説明する。本実施の形態では、電子化されたテキスト文書データ（以降、文書データとする。）が対象であることを前提とする。本実施の形態では、行の見出しに使用される単語の出現数に、列の見出しに使われる単語の出現数を加えたものを、それらの行と列が交差するセルの特徴ベクトル（以降、ベクトルとする。）とする。これによって、本実施の形態では、従来の方法では行えなかった、表データに対する機械学習の実施及び記載内容の予測を可能にする。

［データ処理装置の構成］
　まず、実施の形態におけるデータ処理装置の構成について説明する。図１は、実施の形態に係るデータ処理装置の構成の一例を模式的に示す図である。図１に示すように、データ処理装置１０は、入力部１１、通信部１２、出力部１３、制御部１４及び記憶部１５を有する。

　入力部１１は、データ処理装置１０の操作者からの各種操作を受け付ける入力インタフェースである。例えば、入力部１１は、タッチパネル、音声入力デバイス、キーボードやマウス等の入力デバイスによって構成される。

　通信部１２は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースである。通信部１２は、ＮＩＣ（Network　Interface　Card）等で実現され、ＬＡＮ（Local　Area　Network）やインターネットなどの電気通信回線を介した他の装置と制御部１４（後述）との間の通信を行う。例えば、通信部１２は、ネットワークを介して、ベクトル生成対象の文書ファイルのデータを受け取り、制御部１４に出力する。ここで、文書ファイルは、行及び列によって構成される表データである。本実施の形態では、表を用いて示されるような行と列の見出しを組み合わせた表データを処理対象として説明する。これらの表データは、制御部１４によって、記憶部１５に格納される。また、通信部１２は、制御部１４によって生成されたベクトルの情報を、ネットワークを介して、外部の装置へ出力する。

　出力部１３は、例えば、液晶ディスプレイなどの表示装置、プリンタ等の印刷装置、情報通信装置等によって実現され、処理対象の文書ファイルや、制御部１４によって生成されたベクトルを示す情報等を出力する。

　制御部１４は、データ処理装置１０全体を制御する。制御部１４は、例えば、ＣＰＵ（Central　Processing　Unit）、ＭＰＵ（Micro　Processing　Unit）等の電子回路や、ＡＳＩＣ（Application　Specific　Integrated　Circuit）、ＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路である。また、制御部１４は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部１４は、各種のプログラムが動作することにより各種の処理部として機能する。制御部１４は、学習部１４１と、予測部１４２とを有する。

　学習部１４１は、ベクトル生成部１４１１及び学習処理部１４１２を有する。

　ベクトル生成部１４１１は、学習用の表データについてベクトルを生成する。具体的には、ベクトル生成部１４１１は、表データの行及び列が交差するセルに対し、セルの行の見出し及びセルの列の見出しに使用される単語の出現数または出現頻度を求める。そして、ベクトル生成部１４１１は、求めた出現数または出現頻度を要素の値としたベクトルを、セルの特徴を示すベクトルとして生成する。

　ベクトル生成部１４１１は、これらの処理を、表データの行及び列が交差する全てのセルに対して実行して、セルごとに、セルの特徴を示すベクトルを生成する。そして、ベクトル生成部１４１１は、各セルのベクトルを学習データ１５２として記憶部１５に格納する。ベクトル生成部１４１１は、単語の出現数または出現頻度に対し、セルの行またはセルの列に対応する重み値を乗じ、乗じた値をベクトルの要素の値としてもよい。

　学習処理部１４１２は、学習用の表データについてベクトル生成部１４１１が生成したセルのベクトルと、学習用の表データのセルのうち、ベクトルが生成されたセルにおける記載内容とを機械学習を用いて学習する。学習処理部１４１２は、学習用の表データの各セルのベクトルと、それぞれ対応する各セルの記載内容とを機械学習によって学習する。学習部１４１は、学習による学習結果１５３を記憶部１５に格納する。

　予測部１４２は、ベクトル生成部１４２１及び予測処理部１４２２を有する。

　ベクトル生成部１４２１は、予測対象の表データについて、ベクトル生成部１４１１と同じ処理を行う。ベクトル生成部１４２１は、予測対象の表データの行及び列が交差するセルに対し、セルの行の見出し及びセルの列の見出しに使用される単語の出現数または出現頻度を求める。そして、ベクトル生成部１４２１は、求めた出現数または出現頻度を要素の値としたベクトルを、セルの特徴を示すベクトルとして生成する。また、ベクトル生成部１４２１は、単語の出現数または出現頻度に対し、セルの行またはセルの列に対応する重み値を乗じ、乗じた値をベクトルの要素の値としてもよい。

　予測処理部１４２２は、ベクトル生成部１４２１が生成したベクトルと、学習部１４１による学習結果１５３とを基に、セルの記載内容を予測する。

　記憶部１５は、ＨＤＤ（Hard　Disk　Drive）、ＳＳＤ（Solid　State　Drive）、光ディスク等の記憶装置である。なお、記憶部１５は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ、ＮＶＳＲＡＭ（Non　Volatile　Static　Random　Access　Memory）等のデータを書き換え可能な半導体メモリであってもよい。記憶部１５は、データ処理装置１０で実行されるＯＳ（Operating　System）や各種プログラムを記憶する。さらに、記憶部１５は、プログラムの実行で用いられる各種情報を記憶する。記憶部１５は、処理対象となる表データ１５１、ベクトル生成部１４１１が生成した学習用の表データの各セルのベクトルを含む学習データ１５２、及び、学習部１４１の学習による学習結果１５３を記憶する。

［データ処理の流れ］
　次に、データ処理装置１０における処理の流れについて詳細に説明する。図２は、図１に示すデータ処理装置の１０処理の流れを説明する図である。図２では、単語の出現数をベクトルの要素の値として求める場合について説明する。

　まず、自然言語記述により表データの学習処理について説明する。データ処理装置１０は、学習用の表データについて、処理対象のセルに対し、行の見出し及び列の見出し（表側と表頭）の単語の出現数を合わせたベクトルを生成する（図２の（１）参照）。このように、行列を扱う従来の方法と異なり、データ処理装置１０は、各セルの表側及び表頭に記述されている言葉を基に、各セルのベクトルを生成する。言い換えると、データ処理装置１０は、表データのうち、各セルの行の見出し及び列の見出しに記述されている文や文章に出現する言葉から、各セルのベクトルを生成する。

　具体的には、データ処理装置１０は、セルの行（例えば、行Ｒ１）の見出し及びセルの列（例えば、列ＬＡ）が交差するセル（例えば、セルＣ１Ａ）については、その行及び列の見出しに使用される単語の出現数を要素の値としてベクトルを生成する（図２の（１）参照）。

　そして、データ処理装置１０は、生成したベクトルから学習データ１５２を作成する（図２の（２）参照）。この例では、ベクトルと、適合（○）または不適合（－）の組み合わせを、例えば機械学習ツールliblinearを用いて、学習する（図２の（３）参照）。

　次に、表データのセルの記載内容を予測する予測処理について説明する。データ処理装置１０は、表データのうち、処理対象のセルＣ３Ａに対し、このセルＣ３Ａの行Ｒ３の見出し及び列ＬＡの見出しの単語の出現数を合わせたベベクトルを生成する（図２の（４）参照）。データ処理装置１０は、学習データ１５２を参照し、類似のベクトルから適合する記載内容を予測し（図２の（５）参照）。予測結果を出力する（図２の（６）参照）。

［適用例１］
　本実施の形態に係るデータ処理方法を適用して、観光スポットの論評から旅行の目的に適合するか不適合かを機械学習によって予測する方法を示す。図３は、観光スポットの論評と旅行の目的及び観点を示す表の一例を示す図である。図４は、図３に示す表に記載された単語の出現数のカウント表である。

　具体的に、図３に示す表Ｔ１－１から機械学習により旅行の目的に適合するか不適合かを予測する場合について説明する。表Ｔ１－１は、表側に観光スポットの論評が見出しとして記載されており、表頭に旅行の目的・観点が見出しとして記載されている。各セルには、そのセルの行の見出しに記載された論評から、そのセルの列の見出しに記載された旅行の目的に適合（○）するか不適合（－）であるかが記載されている。なお、表Ｔ１－１では、丸（○）とハイフン（－）の二値で評価を示すが、評価点の数字（例えば、五段階評価なら１から５である。）で評価を示してもよい。

　まず、学習部１４１では、ベクトル生成部１４１１が、この表Ｔ１－１を学習データとして学習を行う。表Ｔ１－１の行の見出し及び列の見出しに出現する単語の全てを、形態素解析ツール（例えば、ＭｅＣａｂ）を用いて抽出する。そして、ベクトル生成部１４１１は、単語をソートし、重複した単語を削除して、各単語の出現数をカウントし、単語リストを取得する。

　ベクトル生成部１４１１は、図４に示す単語出現数カウント表Ｔ１－２に示すように、処理対象のセルの行及び列の見出しに出現した各単語の出現数を、セルごとに並べる。ベクトル生成部１４１１は、表Ｔ１－２に示すように、表Ｔ１－１の各行の見出し及び各列の見出しから、単語１として「地元」、単語２として「ブランド」、単語３として「牛」、単語ｎとして「街並み」を抽出する。

　そして、ベクトル生成部１４１１は、表Ｔ１－１のセルＣ１Ａについては、表Ｔ１－２の枠Ｆ１Ａに示すように、単語１については「１」、単語２については「１」、単語３については「１」、単語ｎについては「１」の出現数をカウントする。なお、ベクトル生成部１４１１は、単語の出現数に代えて、単語の出現頻度を表Ｔ１－２の各欄に記載してもよい。

　そして、ベクトル生成部１４１１は、表Ｔ１－１の、行及び列が交差するセルのベクトルの要素値を、そのセルの行の見出し及び列の見出しに出現した単語の出現数とする。例えば、表Ｔ１－１の行Ｒ１と列ＬＡが交差するセルＣ１Ａのベクトルは、行Ｒ１と列Ｌ１のそれぞれの見出しＤ１，ＤＡに使用された単語の出現数とする。

　図５は、図１に示す学習部１４１が生成したベクトルの一例を示す図である。図５では、セルＣ１Ａのベクトルは、ベクトル１Ａと表示される。なお、ベクトル１Ｂは、行Ｒ１と列ＬＢとが交差するセルＣ１Ｂのベクトルである。

　図５に示すように、ベクトル生成部１４１１は、表Ｔ１－１の行及び列がそれぞれ交差したセルごとに、一行の数値列をベクトルとして生成する。各数値列先頭の数値のうち、「＋１」は適合（○）であることを示し、「－１」は、不適合（－）を示すものとする。

　各行の２番目とそれ以降の数値については、コロン（：）の前後に数値を表記している。コロン（：）の左側の数値は、単語番号（インデックスであり、単語１の場合は「１」、単語２の場合は「２」、単語ｎの場合は「ｎ」である）である。コロン（：）の右側の数値は、それぞれの単語についての出現数である。

　そして、ベクトル生成部１４１１は、行または列に重みを持たせる場合には、重み付け対象の行または列の見出しに出現した単語の出現数に重み値を乗じ、乗じた値をベクトルの要素の値とする。例えば、列を重要視して、いずれの列についても重みを「２」とする場合には、ベクトル生成部１４１１は、列の見出しに出現した単語それぞれの出現回数に２を掛けた値を、行の見出しに出現した単語それぞれの出現回数に足し、この値を出現数とする。

　また、ベクトルの要素の値、すなわち、コロン（：）の右側の数値は、その単語の出現頻度の値であってもよい。この場合、ベクトル生成部１４１１は、各単語の出現数を、単語リストとして取得した、ベクトル化対象の単語総出現数で除することによって、出現頻度の値を計算する。

　そして、学習処理部１４１２は、図５のように生成したベクトルを学習データとし、機械学習ツール（例えば、liblinear）を用いて学習させる。学習処理部１４１２は、先頭の数値を除く各行の数値の並びが、先頭に示した適合（＋１）と不適合（－１）との二つのグループのうち、どちらに分類されるかを機械学習させた結果、すなわち、傾向を得る。言い方を換えると、学習処理部１４１２は、先頭の数値が適合（＋１）である数値の並びと不適合（－１）である数値の並びとを覚えさせる教師ありの機械学習を行っている。

　予測部１４２は、学習部１４１の処理によって得られた機械学習の学習結果１５３を用いて、適合（＋１）或いは不適合（－１）の予測処理を行う。例えば、予測部１４２は、機械学習に用いていない観光スポットの論評を表Ｔ１－１から１項目選ぶ。なお、複数選んでもよいが説明を簡単にするため１項目とし、それを予測用のセルＤ１１と呼ぶこととする。

　そして、予測部１４２では、ベクトル生成部１４２１が、表Ｔ１－２に示した単語出現数カウント表の作成要領によって、セルＤ１１の行の見出し及び列の見出しの単語の出現数を求め、求めた出現数を、ベクトルの要素の値とする。また、ベクトル生成部１４２１は、行または列の重みを用いる場合は、その重み値を乗じ、乗じた値を、ベクトルの要素の値とする。図６は、図１に示す予測部１４２が生成したベクトルの一例を示す図である。

　図６に示すベクトル例において、先頭の数字（この例では「－１」）は、後に予測結果に置き換わるため仮の値である。機械学習ツールは、例えばliblinearを用いる。予測部１４２では、予測処理部１４２２が、学習部１４１による学習結果１５３に基づき、この特徴ベクトルが適合（＋１）またか不適合（－１）であるか、どちらのグループのベクトルの類似度に近いかを計算する。

　予測処理部１４２２は、結果が「＋１」である場合、セルＤ１１は適合であると予測する。また、予測処理部１４２２は、結果が「－１」である場合、セルＤ１１は不適合であると予測する。予測処理部１４２２は、旅行の目的・観点Ａ，Ｂ，Ｃ，・・・ごとに予測する。

［適用例２］
　次に、本実施の形態に係るデータ処理方法を適用して、検証の要否を機械学習によって予測する方法を示す。図７は、学習対象となる検証要否表の一例を示す図である。図８は、図７に示す表に記載された単語の出現数のカウント表である。

　図７の表Ｔ２－１に示すように、検証要否表は、開発した機能の要件に関する記述（機能要件記述）と、記述された各機能についての検証（試験）の要否とが対応付けられたものである。表Ｔ２－１の各セルには、検証要（○）であるか検証否（－）であるかが記載されている。

　学習部１４１では、ベクトル生成部１４１１が、この表Ｔ２－１を学習データとして学習を行う。表Ｔ２－１の行の見出し及び列の見出しに出現する単語の全てを、形態素解析ツール（例えば、ＭｅＣａｂ）を用いて抽出する。そして、ベクトル生成部１４１１は、単語をソートし、重複した単語を削除して、各単語の出現数をカウントし、単語リストを取得する。

　ベクトル生成部１４１１は、図８に示す単語出現数カウント表Ｔ２－２に示すように、各単語の出現頻度を、セルごとに並べる。ベクトル生成部１４１１は、表Ｔ２－２に示すように、表Ｔ２－１の各行の見出し及び各列の見出しから、単語１として「トラヒック」、単語２として「収集」、単語３として「項目」、単語ｎとして「抑止」を抽出する。

　そして、ベクトル生成部１４１１は、表Ｔ２－１のセルＣ１Ａ´については、枠Ｆ１Ａ´に示すように、単語１については「１」、単語２については「１」、単語３については「１」、単語ｎについては「０」の出現数をカウントする。そして、ベクトル生成部１４１１は、表Ｔ２－１の、行及び列が交差するセルのベクトルの要素値を、そのセルの行の見出し及び列の見出しに出現した単語の出現数とする。例えば、表Ｔ２－１の行Ｒ１´と列ＬＡ´が交差するセルＣ１Ａ´のベクトルは、行Ｒ１´と列ＬＡ´のそれぞれの見出しＤ１´，ＤＡ´に使用された単語の出現数とする。なお、以降の学習処理及び予測処理は、適用例１と同様であるため、記載を省略する。

［学習処理の処理手順］
　次に、データ処理装置１０が実行する学習処理について説明する。図９は、実施の形態におけるデータ処理装置１０が実行する学習処理の処理手順を示す図である。

　図９に示すように、データ処理装置１０では、学習部１４１に学習用の表データが入力されると（ステップＳ１）、ベクトル生成部１４１１が、学習用の表データのうち、処理対象のセルについてベクトルを生成するベクトル生成処理を行う（ステップＳ２）。そして、学習処理部１４１２は、学習用の表データについてベクトル生成部１４１１が生成したセルのベクトルと、学習用の表データのセルのうち、ベクトルが生成されたセルにおける記載内容とを機械学習を用いて学習する学習処理を行い（ステップＳ３）、学習結果１５３を記憶部１５に格納する。

［ベクトル生成処理の処理手順］
　次に、図９に示すベクトル生成処理（ステップＳ２）の処理手順について説明する。図１０は、図９に示すベクトル生成処理の処理手順を示すフローチャートである。ベクトル生成部１４１１は、学習用の表データのうちの学習対象となるセルごとに、各セルに対応するベクトルを生成する。

　まず、ベクトル生成部１４１１は、学習用の表データの行の見出し及び列の見出しに出現する単語の全てを、形態素解析ツールを用いて取得する（ステップＳ１１）。そして、ベクトル生成部１４１１は、単語をソートし、重複した単語を削除した後に（ステップＳ１２）、各単語の出現数をカウントして、単語リストを取得する（ステップＳ１３）。

　続いて、ベクトル生成部１４１１は、表データにおける処理対象の最初のセルに進み（ステップＳ１４）、以降のステップＳ１５～ステップＳ１８の処理を行う。具体的には、ベクトル生成部１４１１は、処理対象のセルの行の見出し及び列の見出しに出現した単語の出現数をカウントする（ステップＳ１５）。そして、ベクトル生成部１４１１は、このセルの行または列が重み付け対象である場合、重み付け対象の行の見出しまたは列の見出しに出現した単語の出現数に重み値を乗じる（ステップＳ１６）。

　そして、ベクトル生成部１４１１は、各単語の出現数、或いは、各単語の出現数に重み値を乗じた値を、各要素の値としたベクトルを、処理対象のセルのベクトルとして生成する（ステップＳ１７）。

　ベクトル生成部１４１１は、処理対象の全てのセルについてベクトルを生成したか否かを判定する（ステップＳ１８）。処理対象の全てのセルについてベクトルを生成していない場合（ステップＳ１８：Ｎｏ）、ベクトル生成部１４１１は、次の処理対象のセルに進み（ステップＳ１９）、ステップＳ１５～ステップＳ１８の処理を行う。

　一方、処理対象の全てのセルについてベクトルを生成している場合（ステップＳ１８：Ｙｅｓ）、ベクトル生成部１４１１は、各セルについて生成したベクトルを、後段の処理部に出力する。学習部１４１によるベクトル生成処理の場合、ベクトル生成部１４１１は、学習処理部１４１２に、各セルのベクトルを出力する。

［予測処理の処理手順］
　次に、データ処理装置１０が実行する予測処理について説明する。図１１は、実施の形態における予測処理の処理手順を示す図である。

　図１１に示すように、データ処理装置１０では、予測部１４２に予測対象の表データが入力されると（ステップＳ２１）、ベクトル生成部１４２１が、予測対象の表データのうち、処理対象のセルについてベクトルを生成するベクトル生成処理を行う（ステップＳ２２）。ベクトル生成部１４２１は、予測対象の表データのセルを処理対象として、図１０のステップＳ１１～ステップＳ１９と同じ処理を行い、ベクトル生成処理（ステップＳ２２）を実行する。

　そして、予測処理部１４２２は、ベクトル生成部１４２１が生成したベクトルと、学習部１４１による学習結果１５３とを基に、セルの記載内容を予測する予測処理を行う（ステップＳ２３）。

［ベクトル生成処理の他の処理手順］
　次に、図９に示すベクトル生成処理（ステップＳ２）の他の処理手順について説明する。図１２は、図９に示すベクトル生成処理の他の処理手順を示すフローチャートである。図１２に示す例では、ベクトルの要素の値として、単語の出現頻度を求める処理について説明する。

　図１２に示すステップＳ３１～ステップＳ３５は、ステップＳ１０に示すステップＳ１１～ステップＳ１５と同じ処理である。ベクトル生成部１４１１は、各単語の出現数を、単語リストとして取得した、ベクトル化対象の単語総出現数で除することによって、出現頻度の値を計算する（ステップＳ３６）。

　そして、ベクトル生成部１４１１は、このセルの行または列が重み付け対象である場合、重み付け対象の行の見出しまたは列の見出しに出現した単語の出現頻度に重み値を乗じる（ステップＳ３７）。図１２に示すステップＳ３８～ステップＳ４０は、図１０に示すステップＳ１７～ステップＳ１９と同じ処理である。

［実施の形態の効果］
　このように、本実施の形態１に係るデータ処理装置１０は、表データの行及び列が交差するセルに対し、セルの行の見出し及びセルの列の見出しに使用される単語の出現数または出現頻度を求め、求めた出現数または出現頻度を要素の値としたベクトルを、セルの特徴を示すベクトルとして生成する。そして、データ処理装置１０は、表を用いて示されるような各行及び各列に見出しを含む表データにおける自然言語記述のベクトル化を可能にする。

　したがって、データ処理装置１０によれば、表を用いて示されるような各行及び各列に見出しを含む表データのセルについて、自然言語記述のベクトル化を可能にするため、表データに対する機械学習及び予測処理を実現することができる。

［システム構成等］
　図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　図１３は、プログラムが実行されることにより、データ処理装置１０が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ（Operating　System）１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、データ処理装置１０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、データ処理装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

　１０　データ処理装置
　１１　入力部
　１２　通信部
　１３　出力部
　１４　制御部
　１５　記憶部
　１４１　学習部
　１４２　予測部
　１５１　表データ
　１５２　学習データ
　１５３　学習結果
　１４１１，１４２１　ベクトル生成部
　１４１２　学習処理部
　１４２２　予測処理部

Claims

　表データの行及び列が交差するセルに対し、前記セルの行の見出し及び前記セルの列の見出しに使用される単語の出現数または出現頻度を求め、求めた出現数または出現頻度を要素の値としたベクトルを生成する生成部
　を有することを特徴とするデータ処理装置。
　前記生成部は、前記出現数または前記出現頻度に対し、前記セルの行または前記セルの列に対応する重み値を乗じ、乗じた値をベクトルの要素の値とすることを特徴とする請求項１に記載のデータ処理装置。
　前記生成部は、学習用の表データの行及び列が交差するセルについてベクトルを生成し、
　前記ベクトルが生成したベクトルと前記学習用の表データのセルの記載内容とを学習する学習処理部
　をさらに有することを特徴とする請求項１または２に記載のデータ処理装置。
　前記生成部は、予測対象の表データの行及び列が交差するセルについてベクトルを生成し、
　前記生成部が生成したベクトルと前記学習処理部による学習結果とを基に、前記セルの記載内容を予測する予測処理部
　をさらに有することを特徴とする請求項３に記載のデータ処理装置。
　データ処理装置が実行するデータ処理方法であって、
　表データの行及び列が交差するセルに対し、前記セルの行の見出し及び前記セルの列の見出しに使用される単語の出現数または出現頻度を求め、求めた出現数または出現頻度を要素の値としたベクトルを生成する工程
　を含んだことを特徴とするデータ処理方法。
　表データの行及び列が交差するセルに対し、前記セルの行の見出し及び前記セルの列の見出しに使用される単語の出現数または出現頻度を求め、求めた出現数または出現頻度を要素の値としたベクトルを生成するステップ
　をコンピュータに実行させるためのデータ処理プログラム。