WO2024147235A1 - 情報処理プログラム、情報処理方法および情報処理装置 - Google Patents

情報処理プログラム、情報処理方法および情報処理装置 Download PDF

Info

Publication number
WO2024147235A1
WO2024147235A1 PCT/JP2023/041703 JP2023041703W WO2024147235A1 WO 2024147235 A1 WO2024147235 A1 WO 2024147235A1 JP 2023041703 W JP2023041703 W JP 2023041703W WO 2024147235 A1 WO2024147235 A1 WO 2024147235A1
Authority
WO
WIPO (PCT)
Prior art keywords
data items
data
information processing
instruction
selection process
Prior art date
Application number
PCT/JP2023/041703
Other languages
English (en)
French (fr)
Inventor
拓未 赤▲崎▼
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Publication of WO2024147235A1 publication Critical patent/WO2024147235A1/ja

Links

Definitions

  • Embodiments of the present invention relate to an information processing program, an information processing method, and an information processing device.
  • AutoML is a conventional technology that automatically generates a learning machine (prediction model) when a data table and a column (data item) from the data table that is to be used as the target variable are given.
  • the object is to provide an information processing program, an information processing method, and an information processing device that can support data analysis.
  • the information processing program causes the computer to execute a first selection process, a first reception process, an updating process, a second selection process, and a second reception process.
  • the first selection process selects one or more first data items from among the data items included in the data table based on the name of the data item and a distance between the data items based on a feature amount indicating the characteristics of the data item.
  • the first reception process receives an instruction as to whether the selected first data item is appropriate as a target variable.
  • the updating process updates parameters for the name and feature amount of the data item based on the instruction.
  • the second selection process selects one or more second data items from among the data items included in the data table other than the data item for which the instruction was received based on the distance between the data items based on the updated parameters.
  • the second reception process receives an instruction as to whether the selected second data item is appropriate as a target variable.
  • FIG. 1 is an explanatory diagram for explaining an overview of a target variable recommendation according to an embodiment.
  • FIG. 2 is a block diagram illustrating an example of a functional configuration of the information processing device according to the embodiment.
  • FIG. 3 is a flowchart illustrating an example of the operation of the information processing device according to the embodiment.
  • FIG. 4 is an explanatory diagram for explaining an example of a screen for presenting a response variable.
  • FIG. 5 is an explanatory diagram illustrating an example of a computer configuration.
  • the information processing device is a device that selects a target variable to be used when executing AutoML from among data items (also called columns) of a data table, and recommends (presents) the target variable to a user.
  • the following (1) to (4) are simple methods for automatically determining and recommending target variables, but each has its own problems.
  • (2) and (4) have problems with the accuracy of determining whether the recommended columns are suitable as target variables (to actually obtain knowledge). Also, (3) has problems with comprehensiveness in that the recommended columns tend to be similar and not rich in variation.
  • the information processing device applies Bayesian optimization using Gaussian process regression (stochastic process) to the estimation of the objective variables, so that the objective variables are not simply recommended, but are instead recommended in a way that achieves both accuracy and comprehensiveness.
  • Gaussian process regression stochastic process
  • K is called the kernel matrix.
  • the ij components are taken as shown in the following equation (2).
  • d is the distance
  • l is a positive real number parameter.
  • the distance between column names is calculated by multiplying the distance in the document embedding vector (eg, Word2Vec) by a parameter ( ⁇ w ).
  • column names are names set for each item in a data table. For example, in a data table that collects clicks (selections) of advertising media on a display screen, the names of data items include "customer name,” “advertiser,” “advertising category,” “whether or not a click occurred,” and “number of clicks.”
  • the distance of the meta-feature in column (C 1 , C 2 ) is calculated by multiplying the sum of the Minkowski distances of the meta-feature (i) by ⁇ i .
  • Meta features are features that indicate the characteristics of a data item, and are a numerical representation of the characteristics of each data item. For example, meta features include the row number of a column in a data table, the empty cell rate, the average value, the proportion of the most frequent value, etc.
  • the information processing apparatus of the embodiment optimizes the parameters ( ⁇ w , ⁇ i ) to satisfy the following formula (4) based on an instruction (Yes/No) as to whether the column (data item) presented to the user is appropriate as a target variable.
  • the past (1 to n) input and output is taken as the indication (Yes/No) of whether the column (data item) presented to the user is appropriate as the objective variable, and the parameters ( ⁇ w , ⁇ i ) are updated so that the indication (Yes/No) is the most likely for the stochastic process p.
  • FIG. 1 is an explanatory diagram outlining the overview of the target variable recommendation according to the embodiment.
  • the information processing device first selects data items to be candidates for the initial target variable and presents them to the user U1 (S1).
  • the information processing device selects data items to be candidates for the initial objective variable from among the data items included in the data table, based on the names of the data items and the distances obtained by comparing the meta-features of the data items between the data items, and presents the selected data items to the user U1.
  • the information processing device obtains the statistical values (average, variance) of the distance of each data item to a specific data item specified by the user U1 or selected randomly from the data table.
  • the information processing device obtains an estimation result D1 in which the average and variance obtained in this way based on the distance of each data item are used as an index value (average ⁇ variance) of the likelihood of the objective variable.
  • the information processing device presents data items selected in descending order of index value of objective variable resemblance as candidates for the initial objective variable. Specifically, the information processing device according to the embodiment presents one or more data items that are equal to or greater than a predetermined threshold in descending order of the value obtained by adding the variance to the mean.
  • the information processing device receives an instruction from the user U1 as to whether or not the presented data item is appropriate as a target variable (Yes/No) (S2).
  • the information processing device estimates the likelihood of other data items as objective variables as a stochastic process based on an instruction from user U1 as to whether or not the other data items are appropriate as objective variables (Yes/No), and updates the estimation result D1 (S3).
  • the information processing device of the embodiment updates the parameters ( ⁇ w , ⁇ i ) used when comparing the names of data items and the meta-features of the data items between data items to find distance based on the above-mentioned equations (3) and (4), based on an instruction from user U1 as to whether or not the data item is appropriate as a target variable ( Yes / No ).
  • the information processing device calculates the distance between the data item for which the user U1 has indicated whether it is appropriate as a target variable (Yes/No) and each of the other data items. Specifically, the information processing device according to the embodiment uses the updated parameters to calculate the distance between the data items by comparing the names of the data items and the meta-features of the data items, as in S1. Based on the distance calculated after updating the parameters, the information processing device according to the embodiment updates the entire stochastic process, i.e., the estimated result D1 of the likelihood of the other data items being a target variable.
  • the information processing device presents one or more data items selected in descending order of the index value of their object variable-likeness as candidates for the next object variable, similar to S1 (S4).
  • the information processing device then repeats the processes of S2 to S4 until a predetermined termination condition is met, thereby setting the suitability of the objective variable for the multiple data items included in the data table.
  • the termination condition may be set arbitrarily, and may include, for example, when a predetermined number of data items are suitable as the objective variable, when a predetermined number of repetitions have been performed, etc.
  • (Configuration of information processing device) 2 is a block diagram showing an example of a functional configuration of the information processing device 1 according to the embodiment.
  • the information processing device 1 includes a communication unit 10, an input unit 20, a display unit 30, a storage unit 40, and a control unit 50.
  • the communication unit 10 receives various data from an external device via a network.
  • the communication unit 10 is an example of a communication device.
  • the communication unit 10 may receive table data 41, setting information 42, etc. from an external device.
  • the memory unit 40 stores data such as table data 41, setting information 42, and parameter information 43.
  • the memory unit 40 corresponds to semiconductor memory elements such as RAM (Random Access Memory) and flash memory, and storage devices such as HDDs (Hard Disk Drives).
  • the objective variable estimation unit 51 is a processing unit that selects data items to be candidates for the objective variable from among the data items (columns) included in the data table, based on the names of the data items and the distance between the data items based on the meta-features of the data items. Specifically, the objective variable estimation unit 51 selects data items to be candidates for the initial objective variable in S1 described above, and selects data items to be candidates for the next objective variable in S4.
  • the update unit 53 is a processing unit that updates the above-mentioned parameters ( ⁇ w , ⁇ i ) based on the instruction of the user U1 received by the objective variable presentation unit 52. Specifically, the update unit 53 optimizes the parameters ( ⁇ w , ⁇ i ) to satisfy formula (4) based on an instruction (Yes/No) as to whether the data item presented to the user is appropriate as an objective variable.
  • the information processing device 1 selects one or more first data items from among the data items included in the table data 41, based on the names of the data items and the distances between the data items based on the meta-features of the data items.
  • the information processing device 1 receives an instruction as to whether the selected first data items are appropriate as a target variable.
  • the information processing device 1 updates parameters for the names of the data items and the meta-features based on the received instruction.
  • the information processing device 1 selects one or more second data items from among the data items included in the table data 41, other than the data item for which the instruction was received, based on the distances between the data items based on the updated parameters.
  • the information processing device 1 receives an instruction as to whether the selected second data items are appropriate as a target variable.
  • the information processing device 1 repeats updating parameters, selecting a second data item, and accepting an instruction as to whether the selected second data item is appropriate as a target variable until a predetermined termination condition is met. This allows the information processing device 1 to update parameters for the data item name and meta-feature, while accepting an instruction as to whether the selected data item is appropriate as a target variable, and set multiple target variables.
  • the information processing device 1 updates the parameters based on a stochastic process according to the instructions for the selected data item.
  • the information processing device 1 sets parameters for the names of the data items and the meta-features based on a stochastic process according to the user's instructions, and can, for example, obtain a distance between data items that maximizes the likelihood of the user's instructions.
  • the information processing device 1 can select a second data item that reflects the user's instructions, improving the accuracy of presenting data items that can become target variables.
  • FIG. 5 is an explanatory diagram that explains an example of a computer configuration.
  • the computer 200 has a CPU 201 that executes various arithmetic processes, an input device 202 that accepts data input, a monitor 203, and a speaker 204.
  • the computer 200 also has a medium reading device 205 that reads programs and the like from a storage medium, an interface device 206 for connecting to various devices, and a communication device 207 for connecting to external devices via wired or wireless communication.
  • the information processing device 1 also has a RAM 208 that temporarily stores various information, and a hard disk device 209. Each section (201 to 209) in the computer 200 is connected to a bus 210.
  • the computer further executes a process of repeating the updating process, the second selection process, and the second reception process until a predetermined end condition is met. 6.
  • An information processing apparatus comprising: a control unit that executes the above-mentioned steps.

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】データ分析を支援する。 【解決手段】実施形態の情報処理プログラムは、データテーブルに含まれるデータ項目の中から、データ項目の名称と、データ項目についての特徴を示す特徴量とに基づくデータ項目間の距離に基づいて1又は複数の第1のデータ項目を選択する処理と、選択された第1のデータ項目について、目的変数として適切か否かの指示を受け付ける処理と、指示に基づいて、データ項目の名称と、特徴量とに対するパラメータを更新する処理と、更新されたパラメータに基づくデータ項目間の距離に基づいて、データテーブルの含まれる、指示を受け付けたデータ項目以外のデータ項目の中から1又は複数の第2のデータ項目を選択する処理と、選択された第2のデータ項目について、目的変数として適切か否かの指示を受け付ける処理とをコンピュータに実行させる。

Description

情報処理プログラム、情報処理方法および情報処理装置
 本発明の実施形態は、情報処理プログラム、情報処理方法および情報処理装置に関する。
 近年、データサイエンティストにおけるデータ分析などの業務の自動化が進められており、データの理解、データの準備及びモデリングの工程の一部は、AutoML(Automated Machine Learning)などのツールによって自動化されつつある。
 このAutoMLは、データテーブルと、このデータテーブルのカラム(データ項目)の中から目的変数とするカラムとが与えられたとき、学習器(予測モデル)を自動生成する従来技術である。
特開2020-135053号公報
 しかしながら、上記の従来技術では、AutoMLを実行する際に、多数のカラムの中からどのカラムを目的変数として用いるかの選択は人(ユーザ)が行う作業であり、作業コストを要していた。特に、AutoMLでは、予測モデルの精度と、幅広い統計的知見が得られること(網羅性)とが目的変数により影響を受けるため、目的変数の選択は手間のかかる作業となる。
 1つの側面では、データ分析を支援できる情報処理プログラム、情報処理方法および情報処理装置を提供することを目的とする。
 1つの案では、情報処理プログラムは、第1の選択処理と、第1の受付処理と、更新する処理と、第2の選択処理と、第2の受付処理とをコンピュータに実行させる。第1の選択処理は、データテーブルに含まれるデータ項目の中から、データ項目の名称と、データ項目についての特徴を示す特徴量とに基づくデータ項目間の距離に基づいて1又は複数の第1のデータ項目を選択する。第1の受付処理は、選択された第1のデータ項目について、目的変数として適切か否かの指示を受け付ける。更新する処理は、指示に基づいて、データ項目の名称と、特徴量とに対するパラメータを更新する。第2の選択処理は、更新されたパラメータに基づくデータ項目間の距離に基づいて、データテーブルの含まれる、指示を受け付けたデータ項目以外のデータ項目の中から1又は複数の第2のデータ項目を選択する。第2の受付処理は、選択された第2のデータ項目について、目的変数として適切か否かの指示を受け付ける。
 データ分析を支援できる。
図1は、実施形態にかかる目的変数推薦の概要を説明する説明図である。 図2は、実施形態にかかる情報処理装置の機能構成例を示すブロック図である。 図3は、実施形態にかかる情報処理装置の動作例を示すフローチャートである。 図4は、目的変数の提示画面例を説明する説明図である。 図5は、コンピュータ構成の一例を説明する説明図である。
 以下、図面を参照して、実施形態にかかる情報処理プログラム、情報処理方法および情報処理装置を説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する情報処理プログラム、情報処理方法および情報処理装置は、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。
(実施形態の概要)
 実施形態にかかる情報処理装置は、データテーブルのデータ項目(カラムとも呼ぶ)の中からAutoMLを実行する際に用いる目的変数を選択し、ユーザに推薦(提示)する装置である。
 目的変数を自動で決定・推薦する単純な方法としては、次の(1)~(4)が考えられるが、それぞれ問題がある。
(1)全実行(全てのカラムに対し、それを目的変数としてAutoMOを実行する)
→AutoMLに必要な計算リソースの観点から現実的には不可能。
(2)ランダム推薦
→データ分析の観点で有用なカラムが目的変数として推薦されないおそれがある。
(3)カラムのメタ特徴量に基づく分類器による推薦
→特徴が似たようなカラムばかりが推薦されるおそれがある。
(4)カラムのメタ特徴量に基づいたクラスタリングによる列挙
→目的変数としてふさわしくないカラムが大量に列挙されるおそれがある。
 上記のとおり、(2)、(4)では、推薦されたカラムが目的変数として(実際に知見を得るのに)ふさわしいものであるとする精度の点で問題がある。また、(3)では、推薦されたカラムが似たものとなり、バリエーションに富んだものでないとする網羅性の点で問題がある。
 そこで、実施形態の情報処理装置では、ガウス過程回帰(確率過程)を用いたベイズ最適化を目的変数の推定に応用することで、単に目的変数を推薦するのではなく、精度と網羅性とを両立させるように目的変数を推薦する。
 確率過程の中でもガウス過程による回帰では、過去(1~n)の入出力(x1:n,y1:n)から入力(x)での出力(y)を次の式(1)のように予測する。
Figure JPOXMLDOC01-appb-M000001
 ここで、Kは、カーネル行列と呼ばれるものである。例えば、一般的に用いられるRBFカーネルでは、ij成分は次の式(2)のように取られる。ここでdは距離、lは正実数のパラメータである。
Figure JPOXMLDOC01-appb-M000002
 よって、入力はデータの各カラム、出力は目的変数であるか否かの2値とすると、カラム間距離(d)がわかれば、ベイズ最適化を適用して目的変数推定を行うことができる。
 そこで、実施形態の情報処理装置では、カラム名(データ項目の名称)と、カラム(データ項目)のメタ特徴量についてそれぞれ距離をとってパラメータ(α,α)で重み付けをすることで、カラム間距離を求める。具体的には、カラム(C,C)間の距離d(C,C)を次の式(3)のように定義する。
Figure JPOXMLDOC01-appb-M000003
 式(3)に示すように、カラム名(Cのカラム名,Cのカラム名)の距離は、文書埋め込みベクトルにおける距離(例えばWord2Vec)にパラメータ(α)をかけ合わせたものとする。
 なお、カラム名(データ項目の名称)は、データテーブルにおいて項目ごとに設定された名称である。例えば、表示画面上の広告媒体のクリック(選択)を収集したデータテーブルでは、「顧客名」、「広告主」、「広告カテゴリ」、「クリックの有無」、「クリック回数」などがデータ項目の名称に含まれる。
 また、カラム(C,C)のメタ特徴量の距離は、メタ特徴量(i)のミンコフスキー距離等の総和にαをかけ合わせたものとする。
 なお、メタ特徴量は、データ項目についての特徴を示す特徴量であり、データ項目ごとの特徴を数値化したものである。例えば、メタ特徴量としては、カラムがデータテーブルの何列目であるか、空セル率、平均値、最頻値の占める割合などが含まれる。
 ついで、実施形態の情報処理装置は、ユーザに提示したカラム(データ項目)が目的変数として適切否かの指示(Yes/No)に基づき、パラメータ(α,α)を次の式(4)を満たすように最適化する。
Figure JPOXMLDOC01-appb-M000004
 具体的には、ユーザに提示したカラム(データ項目)が目的変数として適切否かの指示(Yes/No)を過去(1~n)の入出力とし、その確率過程pについて、(Yes/No)の指示が最尤となるように、パラメータ(α,α)を更新する。
 このように、実施形態の情報処理装置では、ガウス過程回帰(確率過程)を用いたベイズ最適化を目的変数の推定に応用することで、ユーザの指示を反映したカラムを提示することができ、目的変数となり得るデータ項目を提示する精度が向上する。また、実施形態の情報処理装置では、パラメータ更新によってユーザが目的変数として適切か否かの指示を行うカラムのバリエーションが増え、網羅性のある目的変数設定を支援できる。
 図1は、実施形態にかかる目的変数推薦の概要を説明する説明図である。図1に示すように、実施形態にかかる情報処理装置は、まず、初期の目的変数の候補とするデータ項目を選択し、ユーザU1に提示する(S1)。
 具体的には、実施形態にかかる情報処理装置は、データテーブルに含まれるデータ項目の中から、データ項目の名称と、データ項目のメタ特徴量とをデータ項目間で比較した距離に基づいて、初期の目的変数の候補とするデータ項目を選択し、ユーザU1に提示する。
 実施形態にかかる情報処理装置は、データ項目の名称については、Word2Vec等の公知の距離計算手法を用いて、データ項目間で比較した名称の距離を求める。また、実施形態にかかる情報処理装置は、メタ特徴量については、ミンコフスキー距離等により、データ項目間で比較したメタ特徴量の距離を求める。
 ついで、実施形態にかかる情報処理装置は、データテーブルの中からユーザU1指定、または、ランダムに選んだ特定のデータ項目に対する、各データ項目の距離の統計値(平均、分散)を求める。実施形態にかかる情報処理装置は、このようにして各データ項目の距離をもとに得られた平均、分散を、目的変数らしさの指標値(平均±分散)とした推定結果D1を得る。
 ついで、実施形態にかかる情報処理装置は、推定結果D1をもとに、目的変数らしさの指標値の大きい順に選んだデータ項目を初期の目的変数の候補として提示する。具体的には、実施形態にかかる情報処理装置は、平均に分散を加えた値の大きい順に所定の閾値以上のデータ項目を1または複数提示する。図示例では、「広告カテゴリ」が0.70+0.30=1.00であり、最も目的変数らしいものとしてユーザU1に提示している。
 ついで、実施形態にかかる情報処理装置は、提示したデータ項目について、目的変数として適切か否か(Yes/No)の指示をユーザU1より受け付ける(S2)。
 ついで、実施形態にかかる情報処理装置は、ユーザU1による目的変数として適切か否か(Yes/No)の指示をもとに、他のデータ項目の目的変数らしさを確率過程として推定し、推定結果D1を更新する(S3)。
 具体的には、実施形態にかかる情報処理装置は、ユーザU1による目的変数として適切か否か(Yes/No)の指示に基づき、前出した式(3)、(4)をもとにデータ項目の名称と、データ項目のメタ特徴量とをデータ項目間で比較して距離を求める際のパラメータ(α,α)を更新する。
 ついで、実施形態にかかる情報処理装置は、更新したパラメータをもとに、ユーザU1が目的変数として適切か否か(Yes/No)を指示したデータ項目と、他のデータ項目それぞれとの距離を求める。具体的には、実施形態にかかる情報処理装置は、更新したパラメータを用いて、S1と同様に、データ項目の名称と、データ項目のメタ特徴量とをデータ項目間で比較した距離を求める。実施形態にかかる情報処理装置は、パラメータ更新後に求めた距離に基づき、確率過程全体、すなわち他のデータ項目の目的変数らしさの推定結果D1を更新する。
 ついで、実施形態にかかる情報処理装置は、更新後の推定結果D1をもとに、S1と同様、目的変数らしさの指標値の大きい順に選んだ1または複数のデータ項目を、次の目的変数の候補として提示する(S4)。
 実施形態にかかる情報処理装置は、以降、S2~S4の処理を所定の終了条件が成立するまで繰り返すことで、データテーブルに含まれる複数のデータ項目について目的変数の適否を設定する。なお、終了条件は、任意に設定したものであってよく、例えば、目的変数として適切なデータ項目が所定数となった場合、所定回数繰り返した場合などが含まれる。
(情報処理装置の構成について)
 図2は、実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図2に示すように、情報処理装置1は、通信部10と、入力部20と、表示部30と、記憶部40と、制御部50とを有する。
 通信部10は、ネットワークを介して外部装置から各種のデータを受信する。通信部10は、通信装置の一例である。たとえば、通信部10は、表データ41、設定情報42などを外部装置から受信してもよい。
 入力部20は、情報処理装置1の制御部50に各種の情報を入力する入力装置である。入力部20は、キーボードやマウス、タッチパネル等に対応する。たとえば、入力部20は、ユーザU1からの入力操作により、例えば、目的関数の適否の指示などを受け付ける。
 表示部30は、制御部50から出力される情報を表示する表示装置である。たとえば、表示部30は、制御部50の制御のもと、選択したデータ項目を提示して目的関数としての適否を受け付ける提示画面等を表示する。
 記憶部40は、表データ41、設定情報42、パラメータ情報43などのデータを格納する。記憶部40は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子や、HDD(Hard Disk Drive)などの記憶装置に対応する。
 表データ41は、処理対象となるテーブルデータの一例である。表データ41は、例えば、テーブルデータに含まれるカラム名、カラムの生データの他、過去(1~n)の入出力(x1:n,y1:n)においてカラムごとにユーザU1が指示した目的変数の適否(Yes/NO)の情報などが含まれる。設定情報42は、演算に用いる計算式(例えば式(1)~(4))や、パラメータの初期値などの各種設定を示す情報である。パラメータ情報43は、前述した式(1)~(4)などを用いて演算された各種パラメータの値である。
 制御部50は、目的変数推定部51と、目的変数提示部52と、更新部53とを有する。制御部50は、例えばCPU(Central Processing Unit)やGPU(Graphics Processing Unit)、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジック等によって実現される。
 目的変数推定部51は、データテーブルに含まれるデータ項目(カラム)の中から、データ項目の名称と、データ項目のメタ特徴量とに基づくデータ項目間の距離に基づいて、目的変数の候補とするデータ項目を選択する処理部である。具体的には、目的変数推定部51は、前述したS1における初期の目的変数の候補とするデータ項目の選択、S4における次の目的変数の候補とするデータ項目の選択を行う。
 目的変数提示部52は、目的変数推定部51が選択した目的変数の候補とするデータ項目をユーザU1に提示する処理部である。具体的には、目的変数提示部52は、目的変数推定部51が選択したデータ項目ごとの適否を受け付ける提示画面を表示部30に表示する。ついで、目的変数提示部52は、入力部20における操作入力をもとに、データ項目ごとの適否の指示を受け付ける。
 更新部53は、目的変数提示部52が受け付けたユーザU1の指示をもとに、前述したパラメータ(α,α)の更新を行う処理部である。具体的には、更新部53は、ユーザに提示したデータ項目が目的変数として適切否かの指示(Yes/No)に基づき、パラメータ(α,α)を式(4)を満たすように最適化する。
(情報処理装置の動作ついて)
 図3は、実施形態にかかる情報処理装置の動作例を示すフローチャートである。図3に示すように、処理が開始されると、情報処理装置1は、通信部10または入力部20を介して処理対象の表データ41のデータ入力を受け付ける(S10)。情報処理装置1は、受け付けた表データ41を記憶部40へ格納する。
 ついで、目的変数推定部51は、前述したS1のとおり、表データ41の各カラムに含まれるメタ特徴量をもとに、初期の目的変数の候補とするデータ項目を推薦(選択)する(S11)。
 ついで、目的変数提示部52は、目的変数推定部51により推薦されたデータ項目を目的変数の候補とする提示画面を表示部30に表示し、ユーザU1に提示する(S12)。ついで、目的変数提示部52は、入力部20による操作入力を介し、ユーザU1より、目的変数としての適否の指示を受け付ける(S13)。
 図4は、目的変数の提示画面例を説明する説明図である。図4に示すように、提示画面G1は、推薦度合い提示領域G10、目的変数提示領域G11、カラム情報提示領域G12を有する。
 推薦度合い提示領域G10は、目的変数提示領域G11に提示したデータ項目(カラム)ごとの、目的変数らしさの指標値(平均±分散)の大きさに応じた推薦度合いを示す領域である。具体的には、推薦度合い提示領域G10では、推薦度合いの高さ(指標値の大きさ)に応じた度合い別マーカーG10aでデータ項目ごと推薦度合いを表示している。
 目的変数提示領域G11は、目的変数推定部51により推薦されたデータ項目を列挙する領域である。目的変数提示領域G11に列挙されたデータ項目それぞれには、適否を指示(たとえば適切である場合はチェックあり)するチェックボックスG11aが付与されている。
 カラム情報提示領域G12は、目的変数提示領域G11に列挙されたデータ項目(カラム)ごとに、カラムの内容(生データ)やカラムの値の統計情報などを表示する領域である。このような提示画面G1を参考にしてユーザU1は、推薦度合い提示領域G10に列挙されたカラムの適否を指示する。
 ついで、目的変数提示部52は、提示画面G1上のユーザに指示に基づき、目的変数/非目的変数受け付け済みのカラム集合を取得する(S14)。
 ついで、目的変数推定部51は、前述した所定の終了条件を満たすか否かを判定する(S15)。終了条件を満たす場合(S15:Yes)、目的変数推定部51は、処理を終了する。
 終了条件を満たさない場合(S15:No)、更新部53は、目的変数提示部52が受け付けたユーザU1の指示をもとに、カラム間距離のパラメータ(α,α)の更新を行う(S16)。
 ついで、目的変数推定部51は、前述したS3のとおり、ユーザU1による目的変数として適切か否か(Yes/No)の指示をもとに、他のデータ項目の目的変数らしさの確率過程の更新を行う(S17)。ついで、目的変数推定部51は、前述したS4のとおり、更新後の推定結果D1をもとに、次の目的変数の候補を選択(推薦)し(S18)、S12へ処理を戻す。
(効果について)
 以上のように、情報処理装置1は、表データ41に含まれるデータ項目の中から、データ項目の名称と、データ項目のメタ特徴量とに基づくデータ項目間の距離に基づいて1又は複数の第1のデータ項目を選択する。情報処理装置1は、選択された第1のデータ項目について、目的変数として適切か否かの指示を受け付ける。情報処理装置1は、受け付けた指示に基づいて、データ項目の名称と、メタ特徴量とに対するパラメータを更新する。情報処理装置1は、更新されたパラメータに基づくデータ項目間の距離に基づいて、表データ41の含まれる、指示を受け付けたデータ項目以外のデータ項目の中から1又は複数の第2のデータ項目を選択する。情報処理装置1は、選択された第2のデータ項目について、目的変数として適切か否かの指示を受け付ける。
 したがって、ユーザは、表データ41に含まれるデータ項目の中から目的変数として用いるものを選ぶ際に、情報処理装置1が選択したデータ項目に対して目的変数として適切か否かの指示を行うだけでよい。このように、情報処理装置1は、AutoML等を用いる際の目的変数設定が容易となるように、データ分析を支援できる。
 また、情報処理装置1は、パラメータの更新、第2のデータ項目の選択、選択された第2のデータ項目について、目的変数として適切か否かの指示の受け付けを、所定の終了条件が成立するまで繰り返す。これにより、情報処理装置1は、データ項目の名称と、メタ特徴量とに対するパラメータを更新しつつ、選択したデータ項目について目的変数として適切か否かの指示を受け付けて、複数の目的変数の設定を行うことができる。
 また、情報処理装置1は、選択されたデータ項目に対する指示に応じた確率過程に基づいてパラメータを更新する。このように、情報処理装置1は、ユーザの指示に応じた確率過程に基づいてデータ項目の名称と、メタ特徴量とに対するパラメータをすることで、例えば、ユーザの指示を最尤とするようなデータ項目間の距離を得ることができる。このため、情報処理装置1では、ユーザの指示を反映した第2のデータ項目を選択することができ、目的変数となり得るデータ項目を提示する精度が向上する。
 また、情報処理装置1は、データ項目の選択において、データ項目間の距離に基づく選択の指標値に含まれる平均および分散をもとに、平均に分散を加えた値の大きい順にデータ項目を選択する。このように、情報処理装置1では、分散を考慮することで、分散が大きいデータ項目(例えば類似性のないデータ項目)を選択することができるようになり、似たデータ項目が選択されることを抑止できる。したがって、情報処理装置1では、ユーザが目的変数として適切か否かの指示を行うデータ項目のバリエーションが増え、網羅性のある目的変数設定を支援できる。
(その他)
 なお、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
 また、情報処理装置1の制御部50で行われる目的変数推定部51、目的変数提示部52および更新部53の各種処理機能は、CPU(またはMPU、MCU(Micro Controller Unit)等のマイクロ・コンピュータ)上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、CPU(またはMPU、MCU等のマイクロ・コンピュータ)で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、情報処理装置1で行われる各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。
 ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施形態と同様の機能を有するプログラムを実行するコンピュータ構成(ハードウエア)の一例を説明する。図5は、コンピュータ構成の一例を説明する説明図である。
 図5に示すように、コンピュータ200は、各種演算処理を実行するCPU201と、データ入力を受け付ける入力装置202と、モニタ203と、スピーカー204とを有する。また、コンピュータ200は、記憶媒体からプログラム等を読み取る媒体読取装置205と、各種装置と接続するためのインタフェース装置206と、有線または無線により外部機器と通信接続するための通信装置207とを有する。また、情報処理装置1は、各種情報を一時記憶するRAM208と、ハードディスク装置209とを有する。また、コンピュータ200内の各部(201~209)は、バス210に接続される。
 ハードディスク装置209には、上記の実施形態で説明した機能構成(例えば目的変数推定部51、目的変数提示部52および更新部53)における各種の処理を実行するためのプログラム211が記憶される。また、ハードディスク装置209には、プログラム211が参照する各種データ212が記憶される。入力装置202は、例えば、操作者から操作情報の入力を受け付ける。モニタ203は、例えば、操作者が操作する各種画面を表示する。インタフェース装置206は、例えば印刷装置等が接続される。通信装置207は、LAN(Local Area Network)等の通信ネットワークと接続され、通信ネットワークを介した外部機器との間で各種情報をやりとりする。
 CPU201は、ハードディスク装置209に記憶されたプログラム211を読み出して、RAM208に展開して実行することで、上記の機能構成(例えば目的変数推定部51、目的変数提示部52および更新部53)に関する各種の処理を行う。なお、プログラム211は、ハードディスク装置209に記憶されていなくてもよい。例えば、コンピュータ200が読み取り可能な記憶媒体に記憶されたプログラム211を読み出して実行するようにしてもよい。コンピュータ200が読み取り可能な記憶媒体は、例えば、CD-ROMやDVDディスク、USB(Universal Serial Bus)メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、LAN等に接続された装置にこのプログラム211を記憶させておき、コンピュータ200がこれらからプログラム211を読み出して実行するようにしてもよい。
 以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)データテーブルに含まれるデータ項目の中から、前記データ項目の名称と、前記データ項目についての特徴を示す特徴量とに基づくデータ項目間の距離に基づいて1又は複数の第1のデータ項目を選択する第1の選択処理と、
 選択された前記第1のデータ項目について、目的変数として適切か否かの指示を受け付ける第1の受付処理と、
 前記指示に基づいて、前記データ項目の名称と、前記特徴量とに対するパラメータを更新する処理と、
 更新された前記パラメータに基づく前記データ項目間の距離に基づいて、前記データテーブルの含まれる、前記指示を受け付けたデータ項目以外のデータ項目の中から1又は複数の第2のデータ項目を選択する第2の選択処理と、
 選択された前記第2のデータ項目について、目的変数として適切か否かの指示を受け付ける第2の受付処理と、
 をコンピュータに実行させることを特徴とする情報処理プログラム。
(付記2)前記更新する処理と、前記第2の選択処理と、前記第2の受付処理と、を所定の終了条件が成立するまで繰り返す処理をさらに前記コンピュータに実行させる、
 ことを特徴とする付記1に記載の情報処理プログラム。
(付記3)前記更新する処理は、選択されたデータ項目に対する前記指示に応じた確率過程に基づいて前記パラメータを更新する、
 ことを特徴とする付記2に記載の情報処理プログラム。
(付記4)前記第1の選択処理および前記第2の選択処理は、前記データ項目間の距離に基づく選択の指標値に含まれる平均および分散をもとに、前記平均に前記分散を加えた値の大きい順にデータ項目を選択する、
 ことを特徴とする付記1に記載の情報処理プログラム。
(付記5)データテーブルに含まれるデータ項目の中から、前記データ項目の名称と、前記データ項目についての特徴を示す特徴量とに基づくデータ項目間の距離に基づいて1又は複数の第1のデータ項目を選択する第1の選択処理と、
 選択された前記第1のデータ項目について、目的変数として適切か否かの指示を受け付ける第1の受付処理と、
 前記指示に基づいて、前記データ項目の名称と、前記特徴量とに対するパラメータを更新する処理と、
 更新された前記パラメータに基づく前記データ項目間の距離に基づいて、前記データテーブルの含まれる、前記指示を受け付けたデータ項目以外のデータ項目の中から1又は複数の第2のデータ項目を選択する第2の選択処理と、
 選択された前記第2のデータ項目について、目的変数として適切か否かの指示を受け付ける第2の受付処理と、
 をコンピュータが実行することを特徴とする情報処理方法。
(付記6)前記更新する処理と、前記第2の選択処理と、前記第2の受付処理と、を所定の終了条件が成立するまで繰り返す処理をさらに前記コンピュータが実行する、
 ことを特徴とする付記5に記載の情報処理方法。
(付記7)前記更新する処理は、選択されたデータ項目に対する前記指示に応じた確率過程に基づいて前記パラメータを更新する、
 ことを特徴とする付記6に記載の情報処理方法。
(付記8)前記第1の選択処理および前記第2の選択処理は、前記データ項目間の距離に基づく選択の指標値に含まれる平均および分散をもとに、前記平均に前記分散を加えた値の大きい順にデータ項目を選択する、
 ことを特徴とする付記5に記載の情報処理方法。
(付記9)データテーブルに含まれるデータ項目の中から、前記データ項目の名称と、前記データ項目についての特徴を示す特徴量とに基づくデータ項目間の距離に基づいて1又は複数の第1のデータ項目を選択する第1の選択処理と、
 選択された前記第1のデータ項目について、目的変数として適切か否かの指示を受け付ける第1の受付処理と、
 前記指示に基づいて、前記データ項目の名称と、前記メタ特徴量とに対するパラメータを更新する処理と、
 更新された前記パラメータに基づく前記データ項目間の距離に基づいて、前記データテーブルの含まれる、前記指示を受け付けたデータ項目以外のデータ項目の中から1又は複数の第2のデータ項目を選択する第2の選択処理と、
 選択された前記第2のデータ項目について、目的変数として適切か否かの指示を受け付ける第2の受付処理と、
 を実行する制御部を含むことを特徴とする情報処理装置。
(付記10)前記更新する処理と、前記第2の選択処理と、前記第2の受付処理と、を所定の終了条件が成立するまで繰り返す処理をさらに前記制御部が実行する、
 ことを特徴とする付記9に記載の情報処理装置。
(付記11)前記更新する処理は、選択されたデータ項目に対する前記指示に応じた確率過程に基づいて前記パラメータを更新する、
 ことを特徴とする付記10に記載の情報処理装置。
(付記12)前記第1の選択処理および前記第2の選択処理は、前記データ項目間の距離に基づく選択の指標値に含まれる平均および分散をもとに、前記平均に前記分散を加えた値の大きい順にデータ項目を選択する、
 ことを特徴とする付記9に記載の情報処理装置。
1…情報処理装置
10…通信部
20…入力部
30…表示部
40…記憶部
41…表データ
42…設定情報
43…パラメータ情報
50…制御部
51…目的変数推定部
52…目的変数提示部
53…更新部
200…コンピュータ
201…CPU
202…入力装置
203…モニタ
204…スピーカー
205…媒体読取装置
206…インタフェース装置
207…通信装置
208…RAM
209…ハードディスク装置
210…バス
211…プログラム
212…各種データ
D1…推定結果
G1…提示画面
G10…推薦度合い提示領域
G10a…度合い別マーカー
G11…目的変数提示領域
G11a…チェックボックス
G12…カラム情報提示領域
U1…ユーザ

Claims (12)

  1.  データテーブルに含まれるデータ項目の中から、前記データ項目の名称と、前記データ項目についての特徴を示す特徴量とに基づくデータ項目間の距離に基づいて1又は複数の第1のデータ項目を選択する第1の選択処理と、
     選択された前記第1のデータ項目について、目的変数として適切か否かの指示を受け付ける第1の受付処理と、
     前記指示に基づいて、前記データ項目の名称と、前記特徴量とに対するパラメータを更新する処理と、
     更新された前記パラメータに基づく前記データ項目間の距離に基づいて、前記データテーブルの含まれる、前記指示を受け付けたデータ項目以外のデータ項目の中から1又は複数の第2のデータ項目を選択する第2の選択処理と、
     選択された前記第2のデータ項目について、目的変数として適切か否かの指示を受け付ける第2の受付処理と、
     をコンピュータに実行させることを特徴とする情報処理プログラム。
  2.  前記更新する処理と、前記第2の選択処理と、前記第2の受付処理と、を所定の終了条件が成立するまで繰り返す処理をさらに前記コンピュータに実行させる、
     ことを特徴とする請求項1に記載の情報処理プログラム。
  3.  前記更新する処理は、選択されたデータ項目に対する前記指示に応じた確率過程に基づいて前記パラメータを更新する、
     ことを特徴とする請求項2に記載の情報処理プログラム。
  4.  前記第1の選択処理および前記第2の選択処理は、前記データ項目間の距離に基づく選択の指標値に含まれる平均および分散をもとに、前記平均に前記分散を加えた値の大きい順にデータ項目を選択する、
     ことを特徴とする請求項1に記載の情報処理プログラム。
  5.  データテーブルに含まれるデータ項目の中から、前記データ項目の名称と、前記データ項目についての特徴を示す特徴量とに基づくデータ項目間の距離に基づいて1又は複数の第1のデータ項目を選択する第1の選択処理と、
     選択された前記第1のデータ項目について、目的変数として適切か否かの指示を受け付ける第1の受付処理と、
     前記指示に基づいて、前記データ項目の名称と、前記特徴量とに対するパラメータを更新する処理と、
     更新された前記パラメータに基づく前記データ項目間の距離に基づいて、前記データテーブルの含まれる、前記指示を受け付けたデータ項目以外のデータ項目の中から1又は複数の第2のデータ項目を選択する第2の選択処理と、
     選択された前記第2のデータ項目について、目的変数として適切か否かの指示を受け付ける第2の受付処理と、
     をコンピュータが実行することを特徴とする情報処理方法。
  6.  前記更新する処理と、前記第2の選択処理と、前記第2の受付処理と、を所定の終了条件が成立するまで繰り返す処理をさらに前記コンピュータが実行する、
     ことを特徴とする請求項5に記載の情報処理方法。
  7.  前記更新する処理は、選択されたデータ項目に対する前記指示に応じた確率過程に基づいて前記パラメータを更新する、
     ことを特徴とする請求項6に記載の情報処理方法。
  8.  前記第1の選択処理および前記第2の選択処理は、前記データ項目間の距離に基づく選択の指標値に含まれる平均および分散をもとに、前記平均に前記分散を加えた値の大きい順にデータ項目を選択する、
     ことを特徴とする請求項5に記載の情報処理方法。
  9.  データテーブルに含まれるデータ項目の中から、前記データ項目の名称と、前記データ項目についての特徴を示す特徴量とに基づくデータ項目間の距離に基づいて1又は複数の第1のデータ項目を選択する第1の選択処理と、
     選択された前記第1のデータ項目について、目的変数として適切か否かの指示を受け付ける第1の受付処理と、
     前記指示に基づいて、前記データ項目の名称と、前記メタ特徴量とに対するパラメータを更新する処理と、
     更新された前記パラメータに基づく前記データ項目間の距離に基づいて、前記データテーブルの含まれる、前記指示を受け付けたデータ項目以外のデータ項目の中から1又は複数の第2のデータ項目を選択する第2の選択処理と、
     選択された前記第2のデータ項目について、目的変数として適切か否かの指示を受け付ける第2の受付処理と、
     を実行する制御部を含むことを特徴とする情報処理装置。
  10.  前記更新する処理と、前記第2の選択処理と、前記第2の受付処理と、を所定の終了条件が成立するまで繰り返す処理をさらに前記制御部が実行する、
     ことを特徴とする請求項9に記載の情報処理装置。
  11.  前記更新する処理は、選択されたデータ項目に対する前記指示に応じた確率過程に基づいて前記パラメータを更新する、
     ことを特徴とする請求項10に記載の情報処理装置。
  12.  前記第1の選択処理および前記第2の選択処理は、前記データ項目間の距離に基づく選択の指標値に含まれる平均および分散をもとに、前記平均に前記分散を加えた値の大きい順にデータ項目を選択する、
     ことを特徴とする請求項9に記載の情報処理装置。
PCT/JP2023/041703 2023-01-04 2023-11-21 情報処理プログラム、情報処理方法および情報処理装置 WO2024147235A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2023000277A JP2024096635A (ja) 2023-01-04 2023-01-04 情報処理プログラム、情報処理方法および情報処理装置
JP2023-000277 2023-01-04

Publications (1)

Publication Number Publication Date
WO2024147235A1 true WO2024147235A1 (ja) 2024-07-11

Family

ID=91803903

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/041703 WO2024147235A1 (ja) 2023-01-04 2023-11-21 情報処理プログラム、情報処理方法および情報処理装置

Country Status (2)

Country Link
JP (1) JP2024096635A (ja)
WO (1) WO2024147235A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021039523A (ja) * 2019-09-02 2021-03-11 株式会社日立製作所 データの利活用のためのデータ準備を支援するシステム、及び、その方法
WO2021075288A1 (ja) * 2019-10-15 2021-04-22 ソニー株式会社 情報処理装置、情報処理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021039523A (ja) * 2019-09-02 2021-03-11 株式会社日立製作所 データの利活用のためのデータ準備を支援するシステム、及び、その方法
WO2021075288A1 (ja) * 2019-10-15 2021-04-22 ソニー株式会社 情報処理装置、情報処理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ANANTH RANGANATHAN ; MING-HSUAN YANG ; JEFFREY HO: "Online Sparse Gaussian Process Regression and Its Applications", IEEE TRANSACTIONS ON IMAGE PROCESSING, IEEE, USA, vol. 20, no. 2, 1 February 2011 (2011-02-01), USA, pages 391 - 404, XP011342072, ISSN: 1057-7149, DOI: 10.1109/TIP.2010.2066984 *

Also Published As

Publication number Publication date
JP2024096635A (ja) 2024-07-17

Similar Documents

Publication Publication Date Title
EP2273448A1 (en) Apparatus and method for supporting cause analysis
WO2020166299A1 (ja) 材料特性予測装置および材料特性予測方法
US7350190B2 (en) Computer implemented modeling and analysis of an application user interface
US8015057B1 (en) Method and system for analyzing service outsourcing
JP2011191891A (ja) 情報処理装置、情報処理方法、及びプログラム
JP2004530967A (ja) 予測用モデルを展開する方法及び装置
JP2019109634A (ja) 学習プログラム、予測プログラム、学習方法、予測方法、学習装置および予測装置
JP2007233944A (ja) 商品販売予測システム
US11256996B2 (en) Method for recommending next user input using pattern analysis of user input
WO2017131669A1 (en) Recommendations based on the impact of code changes
US11222039B2 (en) Methods and systems for visual data manipulation
US20210182701A1 (en) Virtual data scientist with prescriptive analytics
JP3668642B2 (ja) データ予測方法、データ予測装置及び記録媒体
CN114580602A (zh) 模型训练、产品生命周期预测方法、装置、设备、介质
WO2024147235A1 (ja) 情報処理プログラム、情報処理方法および情報処理装置
CN111626789A (zh) 房屋价格预测方法、装置、设备及存储介质
JP4843379B2 (ja) 計算機システムの開発プログラム
WO2015163322A1 (ja) データ分析装置、データ分析方法およびプログラム
JP7396213B2 (ja) データ解析システム、データ解析方法及びデータ解析プログラム
US20110185167A1 (en) Change impact research support device and change impact research support method
JP2018195031A (ja) シミュレーションプログラム、シミュレーション方法及びシミュレーション装置
US20110313800A1 (en) Systems and Methods for Impact Analysis in a Computer Network
JP7479534B2 (ja) 情報処理装置、推定装置、分析装置、情報処理方法及びコンピュータープログラム
WO2020085374A1 (ja) 熟練指数提供装置、熟練指数提供方法、及びプログラム
WO2010074772A2 (en) Method for detecting and predicting performance trends in stock markets