WO2024147235A1

WO2024147235A1 - 情報処理プログラム、情報処理方法および情報処理装置

Info

Publication number: WO2024147235A1
Application number: PCT/JP2023/041703
Authority: WO
Inventors: 拓未赤▲崎▼
Original assignee: 富士通株式会社
Priority date: 2023-01-04
Filing date: 2023-11-21
Publication date: 2024-07-11
Also published as: JP2024096635A

Abstract

【課題】データ分析を支援する。【解決手段】実施形態の情報処理プログラムは、データテーブルに含まれるデータ項目の中から、データ項目の名称と、データ項目についての特徴を示す特徴量とに基づくデータ項目間の距離に基づいて１又は複数の第１のデータ項目を選択する処理と、選択された第１のデータ項目について、目的変数として適切か否かの指示を受け付ける処理と、指示に基づいて、データ項目の名称と、特徴量とに対するパラメータを更新する処理と、更新されたパラメータに基づくデータ項目間の距離に基づいて、データテーブルの含まれる、指示を受け付けたデータ項目以外のデータ項目の中から１又は複数の第２のデータ項目を選択する処理と、選択された第２のデータ項目について、目的変数として適切か否かの指示を受け付ける処理とをコンピュータに実行させる。

Description

情報処理プログラム、情報処理方法および情報処理装置

　本発明の実施形態は、情報処理プログラム、情報処理方法および情報処理装置に関する。

　近年、データサイエンティストにおけるデータ分析などの業務の自動化が進められており、データの理解、データの準備及びモデリングの工程の一部は、ＡｕｔｏＭＬ（Automated　Machine　Learning）などのツールによって自動化されつつある。

　このＡｕｔｏＭＬは、データテーブルと、このデータテーブルのカラム（データ項目）の中から目的変数とするカラムとが与えられたとき、学習器（予測モデル）を自動生成する従来技術である。

特開２０２０－１３５０５３号公報

　しかしながら、上記の従来技術では、ＡｕｔｏＭＬを実行する際に、多数のカラムの中からどのカラムを目的変数として用いるかの選択は人（ユーザ）が行う作業であり、作業コストを要していた。特に、ＡｕｔｏＭＬでは、予測モデルの精度と、幅広い統計的知見が得られること（網羅性）とが目的変数により影響を受けるため、目的変数の選択は手間のかかる作業となる。

　１つの側面では、データ分析を支援できる情報処理プログラム、情報処理方法および情報処理装置を提供することを目的とする。

　１つの案では、情報処理プログラムは、第１の選択処理と、第１の受付処理と、更新する処理と、第２の選択処理と、第２の受付処理とをコンピュータに実行させる。第１の選択処理は、データテーブルに含まれるデータ項目の中から、データ項目の名称と、データ項目についての特徴を示す特徴量とに基づくデータ項目間の距離に基づいて１又は複数の第１のデータ項目を選択する。第１の受付処理は、選択された第１のデータ項目について、目的変数として適切か否かの指示を受け付ける。更新する処理は、指示に基づいて、データ項目の名称と、特徴量とに対するパラメータを更新する。第２の選択処理は、更新されたパラメータに基づくデータ項目間の距離に基づいて、データテーブルの含まれる、指示を受け付けたデータ項目以外のデータ項目の中から１又は複数の第２のデータ項目を選択する。第２の受付処理は、選択された第２のデータ項目について、目的変数として適切か否かの指示を受け付ける。

　データ分析を支援できる。

図１は、実施形態にかかる目的変数推薦の概要を説明する説明図である。図２は、実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図３は、実施形態にかかる情報処理装置の動作例を示すフローチャートである。図４は、目的変数の提示画面例を説明する説明図である。図５は、コンピュータ構成の一例を説明する説明図である。

　以下、図面を参照して、実施形態にかかる情報処理プログラム、情報処理方法および情報処理装置を説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する情報処理プログラム、情報処理方法および情報処理装置は、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。

（実施形態の概要）
　実施形態にかかる情報処理装置は、データテーブルのデータ項目（カラムとも呼ぶ）の中からＡｕｔｏＭＬを実行する際に用いる目的変数を選択し、ユーザに推薦（提示）する装置である。

　目的変数を自動で決定・推薦する単純な方法としては、次の（１）～（４）が考えられるが、それぞれ問題がある。

（１）全実行（全てのカラムに対し、それを目的変数としてＡｕｔｏＭＯを実行する）
→ＡｕｔｏＭＬに必要な計算リソースの観点から現実的には不可能。
（２）ランダム推薦
→データ分析の観点で有用なカラムが目的変数として推薦されないおそれがある。
（３）カラムのメタ特徴量に基づく分類器による推薦
→特徴が似たようなカラムばかりが推薦されるおそれがある。
（４）カラムのメタ特徴量に基づいたクラスタリングによる列挙
→目的変数としてふさわしくないカラムが大量に列挙されるおそれがある。

　上記のとおり、（２）、（４）では、推薦されたカラムが目的変数として（実際に知見を得るのに）ふさわしいものであるとする精度の点で問題がある。また、（３）では、推薦されたカラムが似たものとなり、バリエーションに富んだものでないとする網羅性の点で問題がある。

　そこで、実施形態の情報処理装置では、ガウス過程回帰（確率過程）を用いたベイズ最適化を目的変数の推定に応用することで、単に目的変数を推薦するのではなく、精度と網羅性とを両立させるように目的変数を推薦する。

　確率過程の中でもガウス過程による回帰では、過去（１～ｎ）の入出力（ｘ_１：ｎ，ｙ_１：ｎ）から入力（ｘ）での出力（ｙ）を次の式（１）のように予測する。

　ここで、Ｋは、カーネル行列と呼ばれるものである。例えば、一般的に用いられるＲＢＦカーネルでは、ｉｊ成分は次の式（２）のように取られる。ここでｄは距離、ｌは正実数のパラメータである。

　よって、入力はデータの各カラム、出力は目的変数であるか否かの２値とすると、カラム間距離（ｄ）がわかれば、ベイズ最適化を適用して目的変数推定を行うことができる。

　そこで、実施形態の情報処理装置では、カラム名（データ項目の名称）と、カラム（データ項目）のメタ特徴量についてそれぞれ距離をとってパラメータ（α_ｗ，α_ｉ）で重み付けをすることで、カラム間距離を求める。具体的には、カラム（Ｃ_１，Ｃ_２）間の距離ｄ（Ｃ_１，Ｃ_２）を次の式（３）のように定義する。

　式（３）に示すように、カラム名（Ｃ_１のカラム名，Ｃ_２のカラム名）の距離は、文書埋め込みベクトルにおける距離（例えばＷｏｒｄ２Ｖｅｃ）にパラメータ（α_ｗ）をかけ合わせたものとする。

　なお、カラム名（データ項目の名称）は、データテーブルにおいて項目ごとに設定された名称である。例えば、表示画面上の広告媒体のクリック（選択）を収集したデータテーブルでは、「顧客名」、「広告主」、「広告カテゴリ」、「クリックの有無」、「クリック回数」などがデータ項目の名称に含まれる。

　また、カラム（Ｃ_１，Ｃ_２）のメタ特徴量の距離は、メタ特徴量（ｉ）のミンコフスキー距離等の総和にα_ｉをかけ合わせたものとする。

　なお、メタ特徴量は、データ項目についての特徴を示す特徴量であり、データ項目ごとの特徴を数値化したものである。例えば、メタ特徴量としては、カラムがデータテーブルの何列目であるか、空セル率、平均値、最頻値の占める割合などが含まれる。

　ついで、実施形態の情報処理装置は、ユーザに提示したカラム（データ項目）が目的変数として適切否かの指示（Ｙｅｓ／Ｎｏ）に基づき、パラメータ（α_ｗ，α_ｉ）を次の式（４）を満たすように最適化する。

　具体的には、ユーザに提示したカラム（データ項目）が目的変数として適切否かの指示（Ｙｅｓ／Ｎｏ）を過去（１～ｎ）の入出力とし、その確率過程ｐについて、（Ｙｅｓ／Ｎｏ）の指示が最尤となるように、パラメータ（α_ｗ，α_ｉ）を更新する。

　このように、実施形態の情報処理装置では、ガウス過程回帰（確率過程）を用いたベイズ最適化を目的変数の推定に応用することで、ユーザの指示を反映したカラムを提示することができ、目的変数となり得るデータ項目を提示する精度が向上する。また、実施形態の情報処理装置では、パラメータ更新によってユーザが目的変数として適切か否かの指示を行うカラムのバリエーションが増え、網羅性のある目的変数設定を支援できる。

　図１は、実施形態にかかる目的変数推薦の概要を説明する説明図である。図１に示すように、実施形態にかかる情報処理装置は、まず、初期の目的変数の候補とするデータ項目を選択し、ユーザＵ１に提示する（Ｓ１）。

　具体的には、実施形態にかかる情報処理装置は、データテーブルに含まれるデータ項目の中から、データ項目の名称と、データ項目のメタ特徴量とをデータ項目間で比較した距離に基づいて、初期の目的変数の候補とするデータ項目を選択し、ユーザＵ１に提示する。

　実施形態にかかる情報処理装置は、データ項目の名称については、Ｗｏｒｄ２Ｖｅｃ等の公知の距離計算手法を用いて、データ項目間で比較した名称の距離を求める。また、実施形態にかかる情報処理装置は、メタ特徴量については、ミンコフスキー距離等により、データ項目間で比較したメタ特徴量の距離を求める。

　ついで、実施形態にかかる情報処理装置は、データテーブルの中からユーザＵ１指定、または、ランダムに選んだ特定のデータ項目に対する、各データ項目の距離の統計値（平均、分散）を求める。実施形態にかかる情報処理装置は、このようにして各データ項目の距離をもとに得られた平均、分散を、目的変数らしさの指標値（平均±分散）とした推定結果Ｄ１を得る。

　ついで、実施形態にかかる情報処理装置は、推定結果Ｄ１をもとに、目的変数らしさの指標値の大きい順に選んだデータ項目を初期の目的変数の候補として提示する。具体的には、実施形態にかかる情報処理装置は、平均に分散を加えた値の大きい順に所定の閾値以上のデータ項目を１または複数提示する。図示例では、「広告カテゴリ」が０．７０＋０．３０＝１．００であり、最も目的変数らしいものとしてユーザＵ１に提示している。

　ついで、実施形態にかかる情報処理装置は、提示したデータ項目について、目的変数として適切か否か（Ｙｅｓ／Ｎｏ）の指示をユーザＵ１より受け付ける（Ｓ２）。

　ついで、実施形態にかかる情報処理装置は、ユーザＵ１による目的変数として適切か否か（Ｙｅｓ／Ｎｏ）の指示をもとに、他のデータ項目の目的変数らしさを確率過程として推定し、推定結果Ｄ１を更新する（Ｓ３）。

　具体的には、実施形態にかかる情報処理装置は、ユーザＵ１による目的変数として適切か否か（Ｙｅｓ／Ｎｏ）の指示に基づき、前出した式（３）、（４）をもとにデータ項目の名称と、データ項目のメタ特徴量とをデータ項目間で比較して距離を求める際のパラメータ（α_ｗ，α_ｉ）を更新する。

　ついで、実施形態にかかる情報処理装置は、更新したパラメータをもとに、ユーザＵ１が目的変数として適切か否か（Ｙｅｓ／Ｎｏ）を指示したデータ項目と、他のデータ項目それぞれとの距離を求める。具体的には、実施形態にかかる情報処理装置は、更新したパラメータを用いて、Ｓ１と同様に、データ項目の名称と、データ項目のメタ特徴量とをデータ項目間で比較した距離を求める。実施形態にかかる情報処理装置は、パラメータ更新後に求めた距離に基づき、確率過程全体、すなわち他のデータ項目の目的変数らしさの推定結果Ｄ１を更新する。

　ついで、実施形態にかかる情報処理装置は、更新後の推定結果Ｄ１をもとに、Ｓ１と同様、目的変数らしさの指標値の大きい順に選んだ１または複数のデータ項目を、次の目的変数の候補として提示する（Ｓ４）。

　実施形態にかかる情報処理装置は、以降、Ｓ２～Ｓ４の処理を所定の終了条件が成立するまで繰り返すことで、データテーブルに含まれる複数のデータ項目について目的変数の適否を設定する。なお、終了条件は、任意に設定したものであってよく、例えば、目的変数として適切なデータ項目が所定数となった場合、所定回数繰り返した場合などが含まれる。

（情報処理装置の構成について）
　図２は、実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図２に示すように、情報処理装置１は、通信部１０と、入力部２０と、表示部３０と、記憶部４０と、制御部５０とを有する。

　通信部１０は、ネットワークを介して外部装置から各種のデータを受信する。通信部１０は、通信装置の一例である。たとえば、通信部１０は、表データ４１、設定情報４２などを外部装置から受信してもよい。

　入力部２０は、情報処理装置１の制御部５０に各種の情報を入力する入力装置である。入力部２０は、キーボードやマウス、タッチパネル等に対応する。たとえば、入力部２０は、ユーザＵ１からの入力操作により、例えば、目的関数の適否の指示などを受け付ける。

　表示部３０は、制御部５０から出力される情報を表示する表示装置である。たとえば、表示部３０は、制御部５０の制御のもと、選択したデータ項目を提示して目的関数としての適否を受け付ける提示画面等を表示する。

　記憶部４０は、表データ４１、設定情報４２、パラメータ情報４３などのデータを格納する。記憶部４０は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）などの半導体メモリ素子や、ＨＤＤ（Hard　Disk　Drive）などの記憶装置に対応する。

　表データ４１は、処理対象となるテーブルデータの一例である。表データ４１は、例えば、テーブルデータに含まれるカラム名、カラムの生データの他、過去（１～ｎ）の入出力（ｘ_１：ｎ，ｙ_１：ｎ）においてカラムごとにユーザＵ１が指示した目的変数の適否（Ｙｅｓ／ＮＯ）の情報などが含まれる。設定情報４２は、演算に用いる計算式（例えば式（１）～（４））や、パラメータの初期値などの各種設定を示す情報である。パラメータ情報４３は、前述した式（１）～（４）などを用いて演算された各種パラメータの値である。

　制御部５０は、目的変数推定部５１と、目的変数提示部５２と、更新部５３とを有する。制御部５０は、例えばＣＰＵ（Central　Processing　Unit）やＧＰＵ（Graphics　Processing　Unit）、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）などのハードワイヤードロジック等によって実現される。

　目的変数推定部５１は、データテーブルに含まれるデータ項目（カラム）の中から、データ項目の名称と、データ項目のメタ特徴量とに基づくデータ項目間の距離に基づいて、目的変数の候補とするデータ項目を選択する処理部である。具体的には、目的変数推定部５１は、前述したＳ１における初期の目的変数の候補とするデータ項目の選択、Ｓ４における次の目的変数の候補とするデータ項目の選択を行う。

　目的変数提示部５２は、目的変数推定部５１が選択した目的変数の候補とするデータ項目をユーザＵ１に提示する処理部である。具体的には、目的変数提示部５２は、目的変数推定部５１が選択したデータ項目ごとの適否を受け付ける提示画面を表示部３０に表示する。ついで、目的変数提示部５２は、入力部２０における操作入力をもとに、データ項目ごとの適否の指示を受け付ける。

　更新部５３は、目的変数提示部５２が受け付けたユーザＵ１の指示をもとに、前述したパラメータ（α_ｗ，α_ｉ）の更新を行う処理部である。具体的には、更新部５３は、ユーザに提示したデータ項目が目的変数として適切否かの指示（Ｙｅｓ／Ｎｏ）に基づき、パラメータ（α_ｗ，α_ｉ）を式（４）を満たすように最適化する。

（情報処理装置の動作ついて）
　図３は、実施形態にかかる情報処理装置の動作例を示すフローチャートである。図３に示すように、処理が開始されると、情報処理装置１は、通信部１０または入力部２０を介して処理対象の表データ４１のデータ入力を受け付ける（Ｓ１０）。情報処理装置１は、受け付けた表データ４１を記憶部４０へ格納する。

　ついで、目的変数推定部５１は、前述したＳ１のとおり、表データ４１の各カラムに含まれるメタ特徴量をもとに、初期の目的変数の候補とするデータ項目を推薦（選択）する（Ｓ１１）。

　ついで、目的変数提示部５２は、目的変数推定部５１により推薦されたデータ項目を目的変数の候補とする提示画面を表示部３０に表示し、ユーザＵ１に提示する（Ｓ１２）。ついで、目的変数提示部５２は、入力部２０による操作入力を介し、ユーザＵ１より、目的変数としての適否の指示を受け付ける（Ｓ１３）。

　図４は、目的変数の提示画面例を説明する説明図である。図４に示すように、提示画面Ｇ１は、推薦度合い提示領域Ｇ１０、目的変数提示領域Ｇ１１、カラム情報提示領域Ｇ１２を有する。

　推薦度合い提示領域Ｇ１０は、目的変数提示領域Ｇ１１に提示したデータ項目（カラム）ごとの、目的変数らしさの指標値（平均±分散）の大きさに応じた推薦度合いを示す領域である。具体的には、推薦度合い提示領域Ｇ１０では、推薦度合いの高さ（指標値の大きさ）に応じた度合い別マーカーＧ１０ａでデータ項目ごと推薦度合いを表示している。

　目的変数提示領域Ｇ１１は、目的変数推定部５１により推薦されたデータ項目を列挙する領域である。目的変数提示領域Ｇ１１に列挙されたデータ項目それぞれには、適否を指示（たとえば適切である場合はチェックあり）するチェックボックスＧ１１ａが付与されている。

　カラム情報提示領域Ｇ１２は、目的変数提示領域Ｇ１１に列挙されたデータ項目（カラム）ごとに、カラムの内容（生データ）やカラムの値の統計情報などを表示する領域である。このような提示画面Ｇ１を参考にしてユーザＵ１は、推薦度合い提示領域Ｇ１０に列挙されたカラムの適否を指示する。

　ついで、目的変数提示部５２は、提示画面Ｇ１上のユーザに指示に基づき、目的変数／非目的変数受け付け済みのカラム集合を取得する（Ｓ１４）。

　ついで、目的変数推定部５１は、前述した所定の終了条件を満たすか否かを判定する（Ｓ１５）。終了条件を満たす場合（Ｓ１５：Ｙｅｓ）、目的変数推定部５１は、処理を終了する。

　終了条件を満たさない場合（Ｓ１５：Ｎｏ）、更新部５３は、目的変数提示部５２が受け付けたユーザＵ１の指示をもとに、カラム間距離のパラメータ（α_ｗ，α_ｉ）の更新を行う（Ｓ１６）。

　ついで、目的変数推定部５１は、前述したＳ３のとおり、ユーザＵ１による目的変数として適切か否か（Ｙｅｓ／Ｎｏ）の指示をもとに、他のデータ項目の目的変数らしさの確率過程の更新を行う（Ｓ１７）。ついで、目的変数推定部５１は、前述したＳ４のとおり、更新後の推定結果Ｄ１をもとに、次の目的変数の候補を選択（推薦）し（Ｓ１８）、Ｓ１２へ処理を戻す。

（効果について）
　以上のように、情報処理装置１は、表データ４１に含まれるデータ項目の中から、データ項目の名称と、データ項目のメタ特徴量とに基づくデータ項目間の距離に基づいて１又は複数の第１のデータ項目を選択する。情報処理装置１は、選択された第１のデータ項目について、目的変数として適切か否かの指示を受け付ける。情報処理装置１は、受け付けた指示に基づいて、データ項目の名称と、メタ特徴量とに対するパラメータを更新する。情報処理装置１は、更新されたパラメータに基づくデータ項目間の距離に基づいて、表データ４１の含まれる、指示を受け付けたデータ項目以外のデータ項目の中から１又は複数の第２のデータ項目を選択する。情報処理装置１は、選択された第２のデータ項目について、目的変数として適切か否かの指示を受け付ける。

　したがって、ユーザは、表データ４１に含まれるデータ項目の中から目的変数として用いるものを選ぶ際に、情報処理装置１が選択したデータ項目に対して目的変数として適切か否かの指示を行うだけでよい。このように、情報処理装置１は、ＡｕｔｏＭＬ等を用いる際の目的変数設定が容易となるように、データ分析を支援できる。

　また、情報処理装置１は、パラメータの更新、第２のデータ項目の選択、選択された第２のデータ項目について、目的変数として適切か否かの指示の受け付けを、所定の終了条件が成立するまで繰り返す。これにより、情報処理装置１は、データ項目の名称と、メタ特徴量とに対するパラメータを更新しつつ、選択したデータ項目について目的変数として適切か否かの指示を受け付けて、複数の目的変数の設定を行うことができる。

　また、情報処理装置１は、選択されたデータ項目に対する指示に応じた確率過程に基づいてパラメータを更新する。このように、情報処理装置１は、ユーザの指示に応じた確率過程に基づいてデータ項目の名称と、メタ特徴量とに対するパラメータをすることで、例えば、ユーザの指示を最尤とするようなデータ項目間の距離を得ることができる。このため、情報処理装置１では、ユーザの指示を反映した第２のデータ項目を選択することができ、目的変数となり得るデータ項目を提示する精度が向上する。

　また、情報処理装置１は、データ項目の選択において、データ項目間の距離に基づく選択の指標値に含まれる平均および分散をもとに、平均に分散を加えた値の大きい順にデータ項目を選択する。このように、情報処理装置１では、分散を考慮することで、分散が大きいデータ項目（例えば類似性のないデータ項目）を選択することができるようになり、似たデータ項目が選択されることを抑止できる。したがって、情報処理装置１では、ユーザが目的変数として適切か否かの指示を行うデータ項目のバリエーションが増え、網羅性のある目的変数設定を支援できる。

（その他）
　なお、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

　また、情報処理装置１の制御部５０で行われる目的変数推定部５１、目的変数提示部５２および更新部５３の各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ（Micro　Controller　Unit）等のマイクロ・コンピュータ）上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ等のマイクロ・コンピュータ）で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、情報処理装置１で行われる各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。

　ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施形態と同様の機能を有するプログラムを実行するコンピュータ構成（ハードウエア）の一例を説明する。図５は、コンピュータ構成の一例を説明する説明図である。

　図５に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０１と、データ入力を受け付ける入力装置２０２と、モニタ２０３と、スピーカー２０４とを有する。また、コンピュータ２００は、記憶媒体からプログラム等を読み取る媒体読取装置２０５と、各種装置と接続するためのインタフェース装置２０６と、有線または無線により外部機器と通信接続するための通信装置２０７とを有する。また、情報処理装置１は、各種情報を一時記憶するＲＡＭ２０８と、ハードディスク装置２０９とを有する。また、コンピュータ２００内の各部（２０１～２０９）は、バス２１０に接続される。

　ハードディスク装置２０９には、上記の実施形態で説明した機能構成（例えば目的変数推定部５１、目的変数提示部５２および更新部５３）における各種の処理を実行するためのプログラム２１１が記憶される。また、ハードディスク装置２０９には、プログラム２１１が参照する各種データ２１２が記憶される。入力装置２０２は、例えば、操作者から操作情報の入力を受け付ける。モニタ２０３は、例えば、操作者が操作する各種画面を表示する。インタフェース装置２０６は、例えば印刷装置等が接続される。通信装置２０７は、ＬＡＮ（Local　Area　Network）等の通信ネットワークと接続され、通信ネットワークを介した外部機器との間で各種情報をやりとりする。

　ＣＰＵ２０１は、ハードディスク装置２０９に記憶されたプログラム２１１を読み出して、ＲＡＭ２０８に展開して実行することで、上記の機能構成（例えば目的変数推定部５１、目的変数提示部５２および更新部５３）に関する各種の処理を行う。なお、プログラム２１１は、ハードディスク装置２０９に記憶されていなくてもよい。例えば、コンピュータ２００が読み取り可能な記憶媒体に記憶されたプログラム２１１を読み出して実行するようにしてもよい。コンピュータ２００が読み取り可能な記憶媒体は、例えば、ＣＤ－ＲＯＭやＤＶＤディスク、ＵＳＢ（Universal　Serial　Bus）メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、ＬＡＮ等に接続された装置にこのプログラム２１１を記憶させておき、コンピュータ２００がこれらからプログラム２１１を読み出して実行するようにしてもよい。

　以上の実施形態に関し、さらに以下の付記を開示する。

（付記１）データテーブルに含まれるデータ項目の中から、前記データ項目の名称と、前記データ項目についての特徴を示す特徴量とに基づくデータ項目間の距離に基づいて１又は複数の第１のデータ項目を選択する第１の選択処理と、
　選択された前記第１のデータ項目について、目的変数として適切か否かの指示を受け付ける第１の受付処理と、
　前記指示に基づいて、前記データ項目の名称と、前記特徴量とに対するパラメータを更新する処理と、
　更新された前記パラメータに基づく前記データ項目間の距離に基づいて、前記データテーブルの含まれる、前記指示を受け付けたデータ項目以外のデータ項目の中から１又は複数の第２のデータ項目を選択する第２の選択処理と、
　選択された前記第２のデータ項目について、目的変数として適切か否かの指示を受け付ける第２の受付処理と、
　をコンピュータに実行させることを特徴とする情報処理プログラム。

（付記２）前記更新する処理と、前記第２の選択処理と、前記第２の受付処理と、を所定の終了条件が成立するまで繰り返す処理をさらに前記コンピュータに実行させる、
　ことを特徴とする付記１に記載の情報処理プログラム。

（付記３）前記更新する処理は、選択されたデータ項目に対する前記指示に応じた確率過程に基づいて前記パラメータを更新する、
　ことを特徴とする付記２に記載の情報処理プログラム。

（付記４）前記第１の選択処理および前記第２の選択処理は、前記データ項目間の距離に基づく選択の指標値に含まれる平均および分散をもとに、前記平均に前記分散を加えた値の大きい順にデータ項目を選択する、
　ことを特徴とする付記１に記載の情報処理プログラム。

（付記５）データテーブルに含まれるデータ項目の中から、前記データ項目の名称と、前記データ項目についての特徴を示す特徴量とに基づくデータ項目間の距離に基づいて１又は複数の第１のデータ項目を選択する第１の選択処理と、
　選択された前記第１のデータ項目について、目的変数として適切か否かの指示を受け付ける第１の受付処理と、
　前記指示に基づいて、前記データ項目の名称と、前記特徴量とに対するパラメータを更新する処理と、
　更新された前記パラメータに基づく前記データ項目間の距離に基づいて、前記データテーブルの含まれる、前記指示を受け付けたデータ項目以外のデータ項目の中から１又は複数の第２のデータ項目を選択する第２の選択処理と、
　選択された前記第２のデータ項目について、目的変数として適切か否かの指示を受け付ける第２の受付処理と、
　をコンピュータが実行することを特徴とする情報処理方法。

（付記６）前記更新する処理と、前記第２の選択処理と、前記第２の受付処理と、を所定の終了条件が成立するまで繰り返す処理をさらに前記コンピュータが実行する、
　ことを特徴とする付記５に記載の情報処理方法。

（付記７）前記更新する処理は、選択されたデータ項目に対する前記指示に応じた確率過程に基づいて前記パラメータを更新する、
　ことを特徴とする付記６に記載の情報処理方法。

（付記８）前記第１の選択処理および前記第２の選択処理は、前記データ項目間の距離に基づく選択の指標値に含まれる平均および分散をもとに、前記平均に前記分散を加えた値の大きい順にデータ項目を選択する、
　ことを特徴とする付記５に記載の情報処理方法。

（付記９）データテーブルに含まれるデータ項目の中から、前記データ項目の名称と、前記データ項目についての特徴を示す特徴量とに基づくデータ項目間の距離に基づいて１又は複数の第１のデータ項目を選択する第１の選択処理と、
　選択された前記第１のデータ項目について、目的変数として適切か否かの指示を受け付ける第１の受付処理と、
　前記指示に基づいて、前記データ項目の名称と、前記メタ特徴量とに対するパラメータを更新する処理と、
　更新された前記パラメータに基づく前記データ項目間の距離に基づいて、前記データテーブルの含まれる、前記指示を受け付けたデータ項目以外のデータ項目の中から１又は複数の第２のデータ項目を選択する第２の選択処理と、
　選択された前記第２のデータ項目について、目的変数として適切か否かの指示を受け付ける第２の受付処理と、
　を実行する制御部を含むことを特徴とする情報処理装置。

（付記１０）前記更新する処理と、前記第２の選択処理と、前記第２の受付処理と、を所定の終了条件が成立するまで繰り返す処理をさらに前記制御部が実行する、
　ことを特徴とする付記９に記載の情報処理装置。

（付記１１）前記更新する処理は、選択されたデータ項目に対する前記指示に応じた確率過程に基づいて前記パラメータを更新する、
　ことを特徴とする付記１０に記載の情報処理装置。

（付記１２）前記第１の選択処理および前記第２の選択処理は、前記データ項目間の距離に基づく選択の指標値に含まれる平均および分散をもとに、前記平均に前記分散を加えた値の大きい順にデータ項目を選択する、
　ことを特徴とする付記９に記載の情報処理装置。

１…情報処理装置
１０…通信部
２０…入力部
３０…表示部
４０…記憶部
４１…表データ
４２…設定情報
４３…パラメータ情報
５０…制御部
５１…目的変数推定部
５２…目的変数提示部
５３…更新部
２００…コンピュータ
２０１…ＣＰＵ
２０２…入力装置
２０３…モニタ
２０４…スピーカー
２０５…媒体読取装置
２０６…インタフェース装置
２０７…通信装置
２０８…ＲＡＭ
２０９…ハードディスク装置
２１０…バス
２１１…プログラム
２１２…各種データ
Ｄ１…推定結果
Ｇ１…提示画面
Ｇ１０…推薦度合い提示領域
Ｇ１０ａ…度合い別マーカー
Ｇ１１…目的変数提示領域
Ｇ１１ａ…チェックボックス
Ｇ１２…カラム情報提示領域
Ｕ１…ユーザ

Claims

　データテーブルに含まれるデータ項目の中から、前記データ項目の名称と、前記データ項目についての特徴を示す特徴量とに基づくデータ項目間の距離に基づいて１又は複数の第１のデータ項目を選択する第１の選択処理と、
　選択された前記第１のデータ項目について、目的変数として適切か否かの指示を受け付ける第１の受付処理と、
　前記指示に基づいて、前記データ項目の名称と、前記特徴量とに対するパラメータを更新する処理と、
　更新された前記パラメータに基づく前記データ項目間の距離に基づいて、前記データテーブルの含まれる、前記指示を受け付けたデータ項目以外のデータ項目の中から１又は複数の第２のデータ項目を選択する第２の選択処理と、
　選択された前記第２のデータ項目について、目的変数として適切か否かの指示を受け付ける第２の受付処理と、
　をコンピュータに実行させることを特徴とする情報処理プログラム。
　前記更新する処理と、前記第２の選択処理と、前記第２の受付処理と、を所定の終了条件が成立するまで繰り返す処理をさらに前記コンピュータに実行させる、
　ことを特徴とする請求項１に記載の情報処理プログラム。
　前記更新する処理は、選択されたデータ項目に対する前記指示に応じた確率過程に基づいて前記パラメータを更新する、
　ことを特徴とする請求項２に記載の情報処理プログラム。
　前記第１の選択処理および前記第２の選択処理は、前記データ項目間の距離に基づく選択の指標値に含まれる平均および分散をもとに、前記平均に前記分散を加えた値の大きい順にデータ項目を選択する、
　ことを特徴とする請求項１に記載の情報処理プログラム。
　データテーブルに含まれるデータ項目の中から、前記データ項目の名称と、前記データ項目についての特徴を示す特徴量とに基づくデータ項目間の距離に基づいて１又は複数の第１のデータ項目を選択する第１の選択処理と、
　選択された前記第１のデータ項目について、目的変数として適切か否かの指示を受け付ける第１の受付処理と、
　前記指示に基づいて、前記データ項目の名称と、前記特徴量とに対するパラメータを更新する処理と、
　更新された前記パラメータに基づく前記データ項目間の距離に基づいて、前記データテーブルの含まれる、前記指示を受け付けたデータ項目以外のデータ項目の中から１又は複数の第２のデータ項目を選択する第２の選択処理と、
　選択された前記第２のデータ項目について、目的変数として適切か否かの指示を受け付ける第２の受付処理と、
　をコンピュータが実行することを特徴とする情報処理方法。
　前記更新する処理と、前記第２の選択処理と、前記第２の受付処理と、を所定の終了条件が成立するまで繰り返す処理をさらに前記コンピュータが実行する、
　ことを特徴とする請求項５に記載の情報処理方法。
　前記更新する処理は、選択されたデータ項目に対する前記指示に応じた確率過程に基づいて前記パラメータを更新する、
　ことを特徴とする請求項６に記載の情報処理方法。
　前記第１の選択処理および前記第２の選択処理は、前記データ項目間の距離に基づく選択の指標値に含まれる平均および分散をもとに、前記平均に前記分散を加えた値の大きい順にデータ項目を選択する、
　ことを特徴とする請求項５に記載の情報処理方法。
　データテーブルに含まれるデータ項目の中から、前記データ項目の名称と、前記データ項目についての特徴を示す特徴量とに基づくデータ項目間の距離に基づいて１又は複数の第１のデータ項目を選択する第１の選択処理と、
　選択された前記第１のデータ項目について、目的変数として適切か否かの指示を受け付ける第１の受付処理と、
　前記指示に基づいて、前記データ項目の名称と、前記メタ特徴量とに対するパラメータを更新する処理と、
　更新された前記パラメータに基づく前記データ項目間の距離に基づいて、前記データテーブルの含まれる、前記指示を受け付けたデータ項目以外のデータ項目の中から１又は複数の第２のデータ項目を選択する第２の選択処理と、
　選択された前記第２のデータ項目について、目的変数として適切か否かの指示を受け付ける第２の受付処理と、
　を実行する制御部を含むことを特徴とする情報処理装置。
　前記更新する処理と、前記第２の選択処理と、前記第２の受付処理と、を所定の終了条件が成立するまで繰り返す処理をさらに前記制御部が実行する、
　ことを特徴とする請求項９に記載の情報処理装置。
　前記更新する処理は、選択されたデータ項目に対する前記指示に応じた確率過程に基づいて前記パラメータを更新する、
　ことを特徴とする請求項１０に記載の情報処理装置。
　前記第１の選択処理および前記第２の選択処理は、前記データ項目間の距離に基づく選択の指標値に含まれる平均および分散をもとに、前記平均に前記分散を加えた値の大きい順にデータ項目を選択する、
　ことを特徴とする請求項９に記載の情報処理装置。