WO2015045318A1

WO2015045318A1 - 情報処理システム、情報処理方法およびプログラムを記憶する記録媒体

Info

Publication number: WO2015045318A1
Application number: PCT/JP2014/004706
Authority: WO
Inventors: 森永　聡; 遼平藤巻
Original assignee: 日本電気株式会社
Priority date: 2013-09-27
Filing date: 2014-09-11
Publication date: 2015-04-02
Also published as: US20160232213A1; JP6662637B2; JPWO2015045318A1

Abstract

データマイニングの精度向上に寄与する。　情報処理システムは、複数の被演算子をとる演算を定義する関数に関し、入力された複数の属性の中から、前記複数の被演算子となる属性の組み合わせを選択し、前記属性の組み合わせに対して前記関数を適用することにより、属性の組み合わせに対して関数を適用した結果である新たな属性を生成する属性生成手段と、前記属性に基づき分析処理を実行する分析エンジンに、前記新たな属性を入力し、前記分析エンジンが出力する情報が所定の要件を満たすか否かを判定する検定手段と、を備える。

Description

情報処理システム、情報処理方法およびプログラムを記憶する記録媒体

本発明は、データマイニングを支援する技術に関する。

　データマイニングは、大量の情報の中から、これまで未知であった有用な知見を見つける技術である。データマイニングを用いて有用な知見が得られた実例として、大手スーパーマーケット・チェーンが所有する販売データを分析した例が知られている。販売データを分析した結果、「おむつを購入した顧客はビールも同時に購入する傾向がある」という知見が得られた。スーパーマーケット・チェーンは、当該知見を活かして、例えば、「おむつとビールとを同時に値下げしない」、などの措置をとることにより、売り上げの向上を図ることができる。

　データマイニングを上述したような具体例に適用するプロセスは、下記に示す３つの段階に大別できる。

　１つ目の段階（工程）は、「前処理段階」である。「前処理段階」は、データマイニングアルゴリズムが効果的に機能するようにするために、データマイニングアルゴリズムに従って動作する装置などに入力する属性（feature）を加工することにより、その属性を新たな属性に変換する。

　２つ目の段階は、「分析処理段階」である。「分析処理段階」は、データマイニングアルゴリズムに従って動作する装置などに属性を入力し、係るデータマイニングアルゴリズムに従って動作する装置などの出力である分析結果を得る。

　３つ目の段階は、「後処理段階」である。「後処理段階」は、分析結果を、見やすいグラフや他の機器に入力するための制御信号等に変換する。

　このようにデータマイニングにより有用な知見を得るためには、「前処理段階」が適切に行われる必要がある。「前処理段階」をどのような手順で実行すべきかを設計する作業は、分析技術の熟練技術者（データサイエンティスト）の知識に依存する。前処理段階の設計作業は、情報処理技術によって十分には支援されておらず、未だ熟練技術者の手作業による試行錯誤に依存する部分が大きい。

　非特許文献１は、データマイニングを実現するソフトウェアの一例を開示する。非特許文献１は、所望のタスク（分析処理）を実現するのに適した属性を選択することを支援する機能を提供する。この機能は、「属性選択（feature selection）」とも呼ばれる。

"WEKA"、［online］、［２０１３年９月５日検索］、インターネット＜URL: http://www.cs.waikato.ac.nz/ml/weka/＞

　オペレータが、非特許文献１が開示するソフトウェアを用いてデータマイニングを行う場合を想定する。この場合、オペレータは、必ずしも精度の良い分析結果を得ることができるとは限らない。なぜなら、非特許文献１が開示するソフトウェアは、精度の良い分析結果を得るための属性を、あらかじめ準備された属性のうちから選択するに過ぎないからである。このように、非特許文献１が開示するソフトウェアは、あらかじめ準備された属性の中から選択された解しか出力できないという制約がある。このため、あらかじめ準備された属性の中に精度の良い分析結果が得られる属性が含まれていないと、オペレータは、精度の良い分析結果を得ることができない。

　本発明は、分析処理の精度向上に寄与する情報処理システム等を提供することを目的の１つとする。

　本発明の第１の側面は、複数の被演算子をとる演算を定義する関数に関し、入力された複数の属性の中から、前記複数の被演算子となる属性の組み合わせを選択し、前記属性の組み合わせに対して前記関数を適用することにより、属性の組み合わせに対して関数を適用した結果である新たな属性を生成する属性生成手段と、前記属性に基づき分析処理を実行する分析エンジンに、前記新たな属性を入力し、前記分析エンジンが出力する情報が所定の要件を満たすか否かを判定する検定手段と、を備える情報処理システムである。

　本発明の第２の側面は、複数の被演算子をとる演算を定義する関数を記憶する関数記憶手段にアクセス可能なコンピュータが、前記関数記憶手段から前記関数を取得し、入力された複数の属性の中から、前記複数の被演算子となる属性の組み合わせを選択し、前記属性の組み合わせに対して前記関数を適用することにより、属性の組み合わせに対して関数を適用した結果である新たな属性を生成する属性生成手段と、前記属性に基づき分析処理を実行する分析エンジンに、前記新たな属性を入力し、前記分析エンジンが出力する情報が所定の要件を満たすか否かを判定する情報処理方法である。

　本発明の第３の側面は、複数の被演算子をとる演算を定義する関数を記憶する関数記憶手段にアクセス可能なコンピュータに、前記関数記憶手段から前記関数を取得する処理と、入力された複数の属性の中から、前記複数の被演算子となる属性の組み合わせを選択し、前記属性の組み合わせに対して前記関数を適用することにより、属性の組み合わせに対して関数を適用した結果である新たな属性を生成する処理と、前記属性に基づき分析処理を実行する分析エンジンに、前記新たな属性を入力し、前記分析エンジンが出力する情報が所定の要件を満たすか否かを判定する処理と、を実行させるプログラムである。

　また、本発明の目的は、上記のプログラムが格納されたコンピュータ読み取り可能な記憶媒体によっても達成される。

　本発明によれば、分析処理の精度向上に寄与する情報処理システム等を提供することができる。

図１は、本発明における第１の実施形態にかかる情報処理システム１０００の構成を説明するブロック図である。図２は、本発明における第１の実施形態にかかるデータセットの一例を示す図である。図３は、本発明における第１の実施形態にかかる関数記憶部１１０が記憶するデータの一例を示す図である。図４は、本発明における第１の実施形態にかかる属性生成部１２０の詳細を説明する図である。図５は、本発明における第１の実施形態にかかる検定部１３０の詳細を説明する図である。図６は、本発明における第１の実施形態にかかる検定部１３０の詳細を説明する図である。図７は、本発明における第１の実施形態にかかる検定部１３０の詳細を説明する図である。図８は、本発明における第１の実施形態にかかる情報処理システム１０００の動作を説明するフローチャートである。図９は、本発明における第２の実施形態にかかる情報処理システム１００１の構成を説明するブロック図である。図１０は、本発明における第２の実施形態にかかるデータセットの一例を示す図である。図１１は、本発明における第２の実施形態にかかる関数記憶部１１１が記憶するデータの一例を示す図である。図１２は、本発明における第２の実施形態にかかる属性生成部１２１の詳細を説明する図である。図１３は、本発明における第２の実施形態にかかる検定部１３１の詳細を説明する図である。図１４は、本発明における第３の実施形態にかかる情報処理システム１００２の構成を説明するブロック図である。図１５は、本発明の各実施形態にかかる情報処理システムを実現可能なハードウェア構成の一例を示す図である。

　はじめに、理解を容易にするため、本発明が適用され得る情報処理システム１０００の詳細な説明に際して用いる用語を定義する。

　（データセット）
　「データセット」とは、情報処理システム１０００に入力されるデータである。「データセット」は、１つまたは複数の属性を含む。「属性」は、「変量」と言い換えることもできる。

　（関数(function)）
　「関数」は、ある属性から新たな属性を生成(construct)する処理(processing)を定義する。「関数」は、データセットに含まれる属性に対して適用(apply)される。すなわち、「関数」をある属性に適用すると、ある属性に対して当該関数が定義する処理が実行され、その結果として新たな属性が生成される。

　言い換えると、「関数」は、属性に対して適用する演算を定義する。関数は、ある属性を他の属性に変換(transform)する処理を定義する、と言い換えてもよい。「関数」は、データセットに含まれる属性に対して適用する写像であってもよい。さらに言い換えると、関数は、その関数に関連付けられている上述の演算を表す。さらに言い換えると、関数は、その関数に関連付けられている上述の処理を表す。

　「関数」が定義する処理は、例えば、単項演算である。「関数」は、例えば、三角関数(sin(X), cos(X), tan(X))、自然対数、絶対値または符号反転などの演算を定義する。「関数」は例えば、log_nX、Xⁿなど、パラメータnを含む演算を定義してもよい。

　「関数」が定義する処理は、多項演算である。多項演算とは、複数の被演算子（オペランド）を持つ演算である。「関数」は、例えば、属性Ｘと属性Ｙとの算術演算（足し算、引き算、かけ算など）を定義する。属性Ｘ及び属性Ｙが論理値である場合、「関数」は、例えば、属性Ｘのビット値と属性Ｙのビット値とに適用する論理演算（論理積(AND)、論理和(OR)、排他的論理和(XOR)など）を定義する。

　「関数」が定義する処理は、データに応じて処理が決まる「データに依存する処理」であってもよい。データに依存する処理の１つの具体例は、標準化（normalization）処理である。

　「データに依存する処理」を、具体例を挙げて説明する。例えば、１００人分の名前の値と身長の値とが関連づけられた情報を含むデータセットが、データマイニング装置に入力された場合を想定する。この場合、当該データセットには、「名前」という属性と、「身長」という属性との、２つの属性が含まれる。この例において、係る「名前」という属性は、１００人分の名前の値を表す。「身長の値」という属性は、１００人分の身長の値を表す。

　データマイニング装置が、属性「身長」に対して、標準化処理を定義する関数を適用することにより、「標準化された身長」という新たな属性を生成する場合を想定する。この場合、データマイニング装置は、属性に含まれる１人分ずつのデータを、個別に標準化することはしない。たとえば、データマイニング装置が、まずは、１００人分の情報のうち１人目の情報「氏名：Ｎ、身長：１７４」のみを受け付けたとする。この場合、データマイニング装置は、１人目の情報に対する新たな属性「標準化された身長」を算出することはしない。なぜなら、データマイニング装置は、１００人分の情報が揃ってからでないと、標準化するパラメータとして必要な値（すなわち、１００人分の「身長」の値の平均値、および、１００人分の「身長」の標準偏差）を知り得ず、この結果、標準化するための関数が定まらないからである。

　このような「データに依存する処理」の他の具体例としては、例えば、ヒストグラム生成、クラスタリング、及び、主成分分析等が挙げられる。

　（分析エンジン）
　「分析エンジン」は、属性に基づく分析処理である。すなわち、分析エンジンは、入力として属性を受け付け、該属性に基づき分析を行い(execute)、分析した結果を出力する。分析エンジンは、データマイニング装置が実行する分析アルゴリズムなどとも呼ばれる。分析エンジンは、例えば、回帰分析（Regression Analysis）、因子分析(Factor Analysis)、共分散構造分析(Covariance Structure Analysis)、主成分分析(Principal Factor Analysis)、判別分析(Discriminant Analysis)、カーネル分析、クラスター分析(Cluster Analysis)または異常検出などの処理を実行する分析エンジンである。「分析エンジンの種類の指定」とは、このような分析エンジンの種類の指定を受け付けることをいう。「分析エンジン」は、例えば、上述の分析処理を実行する主体（例えば装置）、又は、プロセッサが分析処理を実行するよう制御するプログラムなどを指すこともある。

　（制約条件）
　制約条件は、分析エンジンが出力する情報が満たすべき要件である。言い換えれば、制約条件は、分析エンジンが出力する分析結果が満たすべき要件である。分析エンジンの種類が単回帰分析である場合、制約条件の１つの具体例は、「カイ二乗値が０．９以上」である。

　（情報を取得する）
　以降、情報を記憶装置から読み出すこと、情報を外部装置から受信すること、または、オペレータから情報の入力を受け付けることなどを、まとめて「情報を取得する」と記載する。

　（情報を出力する）
　以降、情報を記憶装置に書き込むこと、情報を外部装置へ送信すること、または、画面表示または音声などの形式でオペレータに対して情報を提示することなどを、まとめて「情報を出力する」と記載する。

　以下、上述した文言の定義を参酌しつつ、本発明の実施形態について図面を参照して詳細に説明する。

　＜第１の実施形態＞
　第１の実施形態は、分析エンジンの種類として単回帰分析が指定された場合の、本発明の１つの具体例である。

　図１は、第１の実施形態にかかる情報処理システム１０００の概要を説明するブロック図である。

　情報処理システム１０００は、関数記憶部１１０と、属性生成部１２０と、検定部１３０と、出力部１４０と、を備える。

　関数記憶部１１０は、１つまたは複数の関数を記憶することができる。関数記憶部１１０は、複数の被演算子をとる演算（多項演算）を定義する関数を、少なくとも１つ記憶している。

　関数記憶部１１０は、情報処理システム１０００の内部に実装されていても良いし、情報処理システム１０００がアクセス可能な図示しない外部の装置に実装されていてもよい。

　属性生成部１２０は、対象とするデータセットを取得する。属性生成部１２０は、オペレータからデータセットの入力を受け付けてもよいし、図示しない記憶部からデータセットを読み出してもよい。属性生成部１２０は、情報処理システム１０００の外部に備えられた図示しない装置から、データセットを受信してもよい。

　属性生成部１２０は、関数記憶部１１０から関数を取得する。属性生成部１２０は、データセットに含まれる属性に対して取得した関数を適用する。これにより属性生成部１２０は、属性に関数を適用した結果である新たな属性を生成する。

　属性生成部１２０が、多項演算を定義する関数を取得した場合を想定する。多項演算を定義する関数は、少なくとも２つの属性を入力とする。この場合、属性生成部１２０は、データセットに含まれる複数の属性データのうちから、前記関数が定義する演算の入力（被演算子）となる属性データの組み合わせを選択する。属性生成部１２０は、選択した属性データの組み合わせに関数を適用することによって、関数を適用した結果である新たな属性を生成する。

　検定部１３０は、分析エンジンの種類の指定および制約条件の指定を、例えばオペレータから、取得する。

　第１の実施形態においては、検定部１３０は、分析エンジンの種類として「単回帰分析」を取得する。また、検定部１３０は、データセットに含まれる複数の属性のうち、関数が予測する対象であるところの目的変数である属性の指定を取得する。

　検定部１３０は、単回帰分析エンジン（不図示）に、属性生成部１２０が生成する新たな属性を説明変数として入力する。検定部１３０は、単回帰分析エンジンが出力する回帰式を取得する。検定部１３０は、回帰式が制約条件を満たすか否かを判定する。

　出力部１４０は、例えば、要件を満たす回帰式を出力する。

　以下、図１から図７までを用いて、関数記憶部１１０、属性生成部１２０、検定部１３０および出力部１４０の詳細を説明する。

　図２は、図１に示す情報処理システム１０００に入力されるデータセットの一例を説明する図である。図２に示すように、データセットは、例えば、複数人の、識別子（ＩＤ；Identifier）と、身長の値と、体重の値と、腹囲の値と、ビールの年間消費量の値と、を関連付ける情報を含む。図２に示す、「身長」、「体重」、「腹囲」および「ビールの年間消費量」は、それぞれ「属性」に相当する。なお、図２に示すデータセットは、説明のために準備されたデータセットであり、被験者から得られた測定値ではない。

　図３は、図１に示す関数記憶部１１０が記憶するデータの一例を示す図である。図３に示すように、関数記憶部１１０には、複数の関数が記憶されている。

　図３に示すように、関数ＩＤ（識別子）が「関数１」である関数が定義する処理は、Ｘである。ここで、Ｘは、恒等写像を表す。関数ＩＤが「関数２」である関数が定義する処理は、第１の属性の値と第２の属性の値との積の値を算出する処理である。以下の説明において、関数を、その関数の関数ＩＤによって表す。例えば、「関数２」は、関数ＩＤが「関数２」である関数を表す。

　図１と図４とを用いて、図１に示す属性生成部１２０の詳細を説明する。図１に示すように、例えばオペレータ９００が、データセットを、属性生成部１２０に入力する。上述のように、複数の属性がデータセットに含まれる。オペレータ９００は、さらに、目的変数である属性の指定を、属性生成部１２０に入力してもよい。属性生成部１２０は、対象とするデータセットを取得する。属性生成部１２０は、さらに、目的変数である属性の指定を取得してもよい。属性生成部１２０は、図示されない記憶装置から、データセットを読み出してもよい。属性生成部１２０は、情報処理システム１０００と通信することができる、情報処理システム１０００に含まれない、図示されない装置から、データセットを受信してもよい。

　例えば、属性生成部１２０が、目的変数である属性として「ビールの年間消費量」という属性の指定を取得する場合を想定する。例えば、属性生成部１２０が、関数記憶部１１０から関数２（すなわち、積の値の算出）を読み出す場合を想定する。属性生成部１２０は、データセットに含まれる複数の属性のうち、目的変数以外の属性（すなわち、「身長」、「体重」、または、「腹囲」）のうちから、関数に入力(input)する属性を選択する。以下の説明において、関数に入力(input)する属性として選択される属性を、「n」および「m」と表記する。

　関数２が定義する演算である乗算は、演算の順番を入れ替えても出力される結果は変わらないことを考慮すると、nとmとの組み合わせは、_３Ｃ_２（＝３）通りが考えられる。すなわち、「身長」、「体重」、または、「腹囲」の３つの属性のうちから、nとmの２つの属性を選択するので_３Ｃ_２＝３通りである。下記に、３通りの組み合わせを列挙する。

　　　　ｎ　　　　　ｍ、
　　　　身長　　　　体重、
　　　　身長　　　　腹囲、
　　　　体重　　　　腹囲。

　属性生成部１２０は、選択した属性の組み合わせ（この場合、３通りの組み合わせ）のそれぞれの組み合わせについて、下記に示す（１）および（２）の動作を実行する。

　（１）属性生成部１２０は、選択した属性の組み合わせを、被演算子として関数２に入力する。

　（２）属性生成部１２０は、選択した属性の組み合わせに関数２を適用した結果を得て、当該結果を新たな属性とする。

　この結果、属性生成部１２０は、下記３つの属性を新たに生成する。

　・身長×体重、
　・身長×腹囲、
　・腹囲×体重。

　ただし、属性生成部１２０は、必ずしも上述した３個の新しい属性のうち全てを生成する必要はない。

　図４は、新たに生成された属性の１つの具体例を説明する図である。図４に示す「身長×腹囲」という属性は、属性生成部１２０が、「身長」という属性と「腹囲」という属性の組み合わせに関数２を適用した結果、生成された新たな属性である。

　図１に示す検定部１３０の詳細を、図１、図５、図６および図７を用いて説明する。以下の説明は、検定部１３０の動作の１つの具体例に過ぎず、検定部１３０の動作は限定的に解釈されない。

　ここでは、検定部１３０は、分析エンジンの種類として「単回帰分析」を取得し、目的変数である属性として「ビールの年間消費量」を取得し、制約条件として「カイ二乗値が０．９以上」という条件を取得したとする。

　すなわち、検定部１３０は、Y（ビールの年間消費量）=aX+b、という式に従い回帰分析を行う。ここで、Yは、目的変数である。Xは、説明変数である。aとbとは定数である。

　検定部１３０は、属性生成部１２０が出力する属性（説明変数）が、ビールの年間消費量（目的変数）をどの程度説明できるかについて分析する。

　検定部１３０は、属性生成部１２０から属性（「身長」、「体重」および「腹囲」）を取得する。また、検定部１３０は、属性生成部１２０が生成した属性（身長×体重、身長×腹囲、および、腹囲×体重）を取得する。

　検定部１３０は、取得した複数の属性のうちから、一つの属性を選択する。検定部１３０は、例えば、「身長」という属性を選択したとする。

　図５は、検定部１３０が、「身長」という属性を説明変数として選択し、該説明変数に基づき単回帰分析を行った結果を表すグラフである。図５に示すように、単回帰分析の結果、a=0.3276, b=11.724という結果が得られ、カイ二乗値は0.149であった。

　図６は、検定部１３０が、「身長×腹囲」という属性を説明変数として選択し、該説明変数に基づき単回帰分析を行った結果を表すグラフである。図６に示すように、単回帰分析の結果、a=0.005, b=4.637という結果が得られ、カイ二乗値は0.998であった。

　検定部１３０は、取得した属性のそれぞれに対して、分析エンジン（上記の例では、単回帰分析エンジン）に属性を入力する処理と、該分析エンジンが出力する分析結果（すなわち、回帰式とカイ二乗値）を取得する処理と、分析結果（すなわち、カイ二乗値）が制約条件を満たすか否かを判定する処理と、を実行する。

　図７は、検定部１３０が取得した６種類の属性について、それぞれ検定部１３０が処理を実行した結果を説明する図である。図７に示すように、制約条件「カイ二乗値が０．９以上」を満たす説明変数は、「身長×腹囲」のみである。

　説明変数として「身長×腹囲」が選択された場合に、カイ二乗値が制約条件を満たすことは、身長の値と腹囲の値との積の値に基づき、Ｙ＝ａＸ＋ｂという関係式に従い、個人のビールの年間消費量を説明することができる、ということを表す。

　これに対して、図７の他の例に示すように、説明変数として他の属性が選択される場合に、カイ二乗値は、検定閾値を満たさない。これは、他の属性の値に基づき、Ｙ＝ａＸ＋ｂという関係式に従う場合に、個人のビールの年間消費量を説明することができない、ということを表す。

　出力部１４０は、下記に示すように動作しても良い。例えば、以下に示すような属性Ａを分析エンジンに入力(input)して得られた分析結果が、制約条件を満たしているとする、
　属性Ａ：属性Ｂの値と属性Ｃの値との積の値。

　ここで、例えば属性Ｂは身長の値であり、例えば属性Ｃは体重の値であるとする。このとき出力部１４０は、「身長という属性の値と、体重という属性の値との、積を算出するような前処理を実行すべきである」という情報を出力しても良い。あるいは、出力部１４０は、「『身長という属性の値と体重という属性の値との積』という属性を指定された分析エンジンに入力すると、制約条件を満たす分析結果が得られる」という情報を出力しても良い。または、出力部１４０は、「身長という属性の値と体重という属性の値との積」という情報を出力しても良い。出力部１４０は、これらの情報を、指定された分析エンジンの種類や、データセットのファイル名と共に出力しても良い。

　次に、第１の実施形態に係る情報処理システム１０００の動作を説明する。

　図８は、第１の実施形態に係る情報処理システム１０００の動作を説明するフローチャートである。

　属性生成部１２０は、関数記憶部１１０から関数を１つ取得する（ステップＳ１０１）。属性生成部１２０は、データセットに含まれる複数の属性のうちから、該関数が定義する演算における被演算子である属性の組み合わせを選択する（ステップＳ１０２）。属性生成部１２０は、選択した属性の組み合わせを該関数に入力し、該関数に従い出力される値を新たな属性として算出する（ステップＳ１０３）。ステップＳ１０３に示す動作は、選択した属性の組み合わせに関数を適用し、選択した属性の組み合わせに関数を適用した結果である新しい属性を生成する、と言い換えることもできる。属性生成部１２０は、例えば、該関数における被演算子となり得る全ての属性の組み合わせに関して、新たな属性を生成する（ステップＳ１０４）。

　検定部１３０は、複数の新たな属性から、特定の属性を選択する（ステップＳ１０５）。検定部１３０は、指定された目的変数を、特定の属性（説明変数）に基づき、どれくらい説明できるかを分析する。この結果、検定部１３０は、分析結果（すなわち、回帰式及び、カイ二乗値）を得る（ステップＳ１０６）。検定部１３０は、属性生成部１２０が生成した全ての属性について、ステップＳ１０６に示す動作を繰り返す（ステップＳ１０７）。

　検定部１３０は、制約条件を満たす分析結果が得られるか否かを検定する（ステップＳ１０８）。なお、ステップＳ１０５からステップＳ１０７までの繰り返しの中においてステップＳ１０８に示す動作を実行してもよい。

　制約条件を満たす分析結果が得られた場合（ステップＳ１０８においてＹＥＳ）、出力部１４０は、制約条件を満たす分析結果を出力する（ステップＳ１０９）。制約条件を満たす分析結果が得られない場合（ステップＳ１０８においてＮＯ）、出力部１４０は、制約条件を満たす分析結果を出力しない。

　第１の実施形態にかかる情報処理システム１０００が奏する作用効果を説明する。第１の実施形態によれば、分析処理の精度向上に寄与する情報処理システム１０００を提供することができる。

　その理由は、第１の実施形態にかかる属性生成部１２０が、属性に対して関数を演算し、新たな属性を生成するからである。

　かかる構成により、情報処理システム１０００は、「説明変数の候補である属性の数を増やす」ことができる。これは「仮説を検証するための属性の候補を増やす」ことができると言い換えることもできる。かかる作用により、目的変数を十分に説明する説明変数が選択される可能性が高まり、データマイニングの精度が向上するという効果が実現する。

　上述した例において、オペレータ９００から入力された属性、すなわちデータセットに含まれる属性は、４種類（「身長」、「体重」、「腹囲」、および、「ビールの年間消費量」）である。上述した例においては、４種類の属性のうち１つ（すなわち、「ビールの年間消費量」）は、目的変数として指定された。この場合、実質的な説明変数の候補は、ビールの年間消費量以外の、３種類の属性（「身長」、「体重」および「腹囲」）である。

　情報処理システム１０００は、上述したように、データセットに含まれる３種類の属性と関数記憶部１１０が記憶する関数とに基づいて、新たな属性（すなわち、身長×体重、体重×腹囲、身長×腹囲）を生成する。

　このように、情報処理システム１０００は、説明変数の候補となる属性の数を増やすことにより、目的変数を十分に説明する属性を選択する可能性を高めるため、データマイニングの精度を向上することができる。

　また、第１の実施形態に係る情報処理システム１０００は、データマイニングの精度を向上させるために、属性に対して実施すべき前処理の手順を出力することができる。その理由は、第１の実施形態にかかる出力部１４０が、制約条件を満たす分析結果が得られた場合に、当該分析結果を得るために分析エンジンに入力した属性を出力するからである。または、出力部１４０が、制約条件を満たす分析結果を得るために、データセットに含まれる属性に対してどのような処理を行えばよいかを示す情報を出力するからである。

　また、第１の実施形態に係る情報処理システム１０００は、データ分析を行う分析技術者の工数を削減することができる。その理由は、第１の実施形態に係る情報処理システム１０００の属性生成部１２０が、複数の属性に基づいて、新たな属性を生成するからである。そして、その情報処理システム１０００の検定部１３０が、生成した新たな属性の中から、所定の基準を満たす属性を選択するからである。すなわち、検定部１３０は、例えば、生成した新たな属性を、入力された属性に基づき分析処理を実行する分析エンジンに入力する。そして、検定部１３０は、その分析エンジンが出力する情報が、所定の要件を満たすか否かを判定する。検定部１３０は、例えば、出力された情報が所定の要件を満たす場合、分析エンジンに入力された属性を選択する。前述の所定の要件（すなわち制約条件）は、例えば、目的変数に対する相関が、所定の基準より高いことである。すなわち、分析技術者が、複数の属性を情報分析システム１０００に入力すれば、情報処理システム１０００は、目的変数と相関の高い属性を自動的または半自動的に生成することができる。

　具体的には、例えば、第１の実施形態に係る情報処理システム１０００によれば、分析技術者は、「個人のビールの年間消費量」と「身長の値と腹囲の値との積の値」との間に強い相関があるということを知らなくても、精度の良い分析結果を得ることができる。その理由は、情報処理システム１０００が、「身長」という属性と「腹囲」という属性とに基づいて、「身長の値と腹囲の値との積の値」という新たな属性を生成するからである。言い換えると、分析技術者が、「身長」という属性と「腹囲」という属性とを情報処理システム１０００に入力すれば、情報処理システム１０００は、「身長の値と腹囲の値との積の値」という、目的変数と相関の高い属性を、ユーザにとって自動的または半自動的に生成することができる。

　また、第１の実施形態に係る情報処理システム１０００によれば、データ分析を行う分析技術者は、目的変数と、新たに生成される属性との間に、強い相関があることに気付くことができる。例えば、データ分析を行う分析技術者は、「個人のビールの年間消費量」と「身長の値と腹囲の値との積の値」との間に強い相関があるということに気が付くことができる。その理由は、出力部１４０が、新たに生成される属性と、その属性を入力することによって制約条件を満たす分析結果が得られることとを表す情報とを出力するからである。例えば、出力部１４０は、「"身長という属性の値と体重という属性の値との積"という属性を指定された分析エンジンに入力すると、制約条件を満たす分析結果が得られる」という情報を出力する。このように、情報処理システム１０００は、分析技術者が、目的変数と相関の強い説明変数を見つけることを支援する目的にも利用することができる。

　（第１の実施形態の変形例）
　検定部１３０は、分析エンジンの種類として、重回帰分析の指定を受け付けてもよい。例えば、検定部１３０が、重回帰分析（Ｚ＝ａＸ＋ｂＹ＋ｃ）の指定を受け付けるとする。ここで、Ｚは目的変数である。Ｘは第１の説明変数である。Ｙは第２の説明変数である。ａ、ｂおよびｃは、それぞれ定数である。

　検定部１３０は、例えば、属性生成部１２０から６個の属性を取得するとする。この場合、第１の説明変数Ｘと第２の説明変数Ｙの選択の仕方の組み合わせは、１５（＝（６×５）÷２）通りとなる。検定部１３０は、１５通りの説明変数の組み合わせについて、図８に示したステップＳ１０６の動作を繰り返す。

　また検定部１３０は、分析エンジンの種類として曲線回帰分析を受け付けてもよい。この場合、検定部１３０は、曲線の種類、例えば、指数関数またはガウス関数の指定を受け付ける。

　上述の変形例は、他の実施形態にも適用可能である。

　＜第２の実施形態＞
　第２の実施形態は、分析エンジンの種類として判別分析が指定された場合の、本発明の１つの具体例である。

　図９は、第２の実施形態にかかる情報処理システム１００１の構成を表わすブロック図である。図９に示すように、第２の実施形態にかかる情報処理システム１００１は、以下の構成を備え得る。

　・第１の実施形態にかかる関数記憶部１１０に代えて関数記憶部１１１を備える。

　・属性生成部１２０に代えて属性生成部１２１を備える。

　・検定部１３０に代えて検定部１３１を備える。

　第１の実施形態と第２の実施形態とは、扱うデータセット、および指定される分析エンジンの種類が異なる。

　図１０は、図９に示す情報処理システム１００１に入力されるデータセットの一例を説明する図である。図１０に示すデータセットは、多変量データと言い換えることもできる。図１０に示すように、データセットは、複数人の識別子の各々に対して、属性１ないし属性４を関連付ける情報を含む。図１１に示すデータセットは、例えば複数人分のアンケートの回答結果を表すデータである。各属性は、アンケートに含まれる質問事項に対する回答である。属性１ないし属性４の内容を、下記に示す。具体的には、各属性の、質問事項と、回答が表す値とを示す。

　属性１：犬と猫どちらが好き？　　　　（犬を０と表す、猫を１と表す）、
　属性２：年齢は？　　　　　　　　　　（４０歳以上を０と表す、４０歳未満を１と表す）、
　属性３：性別は？　　　　　　　　　　（男を０と表す、女を１と表す）、
　属性４：寿司と天麩羅どちらが好き？　（寿司を０と表す、天麩羅を１と表す）。

　図１１は、図９に示す関数記憶部１１１が記憶する情報の一例を示す図である。図１１に示すように、関数記憶部１１１は、関数１ないし４を記憶している。関数１は、恒等写像Ｘを定義する。関数２は、２つの属性の値に関する論理積（ＡＮＤ）演算を定義する。関数３は、２つの属性の値に関する論理和（ＯＲ）演算を定義する。関数４は、２つの属性の値に関する排他的論理和（ＸＯＲ）を定義する。

　図９に示す属性生成部１２１の詳細を、図１２に示す例を用いて説明する。図１２は、属性生成部１２１が生成する新しい属性に関する１つの具体例が描かれている図である。

　属性生成部１２１は、関数記憶部１１１が記憶する複数の関数のうちから、１つの関数を選択する。属性生成部１２１は、入力されたデータセットに含まれる複数の属性から、属性の組み合わせを選択する。たとえば、属性生成部１２１は、関数として「論理和（ＯＲ）」を選択し、加えて、属性として属性１および属性２を選択するとする。図１２は、この結果、属性生成部１２１が生成する新しい属性を表す。

　属性生成部１２１は、例えば、データセットに含まれる複数の属性の組み合わせのうち、該関数に対する被演算子となる全ての組み合わせに関して、新たな属性を生成する。属性生成部１２１は、必ずしも全ての組み合わせに関して、新たな属性を生成しなくてもよい。

　図９を参照する説明に戻る。ここでは、検定部１３１は、分析エンジンの種類に関する情報として、「判別分析」を指定されたとする。さらに、検定部１３１は、目的変数として属性４（すなわち、「寿司と天麩羅どちらが好きか」）を指定されたとする。

　検定部１３１は、制約条件（すなわち、分析エンジンが出力する情報が満たすべき要件）として、「一致率が９５％以上」という条件を受け取るとする。ここで、「一致率」とは、選択された属性の値と、予測対象として指定された属性の値とが、どの程度一致しているかを表す指標である。

　検定部１３１は、属性生成部１２１が生成した新たな属性に基づき、「寿司と天麩羅どちらが好きか」を十分に説明できるかを分析する。

　検定部１３１の詳細を説明する。検定部１３１は、属性生成部１２１が生成した新たな属性を取得する。検定部１３１は、取得した複数の属性から、一つの属性を選択する。たとえば、検定部１３１は、「属性３」という属性を選択したとする。

　検定部１３１は、選択された属性の値と、予測対象として指定された属性の値の一致率を算出する。

　図１０を参照すると、図示した１３人分のデータにおいて、属性３の値と属性４の値が一致するのは、５人分のデータである。よって、属性３の値と属性４の値の一致率は０．３８（＝５÷１３）である。何人分のデータに対して一致率を算出するかは、例えば、予め指定されていても良い。

　検定部１３１は、取得した全ての属性に対して、目的変数「寿司と天麩羅どちらが好きか」の値との一致率を算出する。

　図１３は、属性生成部１２１が生成した属性について、検定部１３１が処理を実行した結果を説明する図である。図１３に示すように、属性１と属性３とに排他的論理和（ＸＯＲ）とを施した値と、属性４の値との一致率が１００％であり、制約条件を満たす。これはつまり、"寿司"と"天麩羅"の好みは、アンケート結果における「属性１」と「属性３」との排他的論理和ＸＯＲの値に基づき、説明できることを表す。

　第２の実施形態にかかる情報処理システム１００１が奏する作用効果を説明する。第２の実施形態によれば、分析処理の精度向上に寄与する情報処理システム１００１を提供することができる。

　その理由は、第２の実施形態にかかる属性生成部１２１が、属性に対して関数を適用し、新たな属性を生成するからである。

　かかる構成により、情報処理システム１０００は、「説明変数の候補である属性の数を増やす」という作用を奏する。これは「仮説を検証するための属性の候補を増やす」と言い換えることもできる。かかる作用により、目的変数を十分に説明する説明変数が選択される可能性が高まり、データマイニングの精度が向上するという効果が実現する。

　また、第２の実施形態に係る情報処理システム１００１は、データマイニングの精度を向上するために、属性に対して実施すべき前処理の手順を出力することができる。その理由は、第２の実施形態にかかる出力部１４０が、制約条件を満たす分析結果が得られた場合に、当該分析結果を得るために分析エンジンに入力した属性を出力するからである。または、出力部１４０が、制約条件を満たす分析結果を得るために、データセットに含まれる属性に対してどのような処理を行えばよいかを示す情報を出力するからである。

　＜第３の実施形態＞
　図１４は、第３の実施形態にかかる情報処理システム１００２の構成を説明するブロック図である。図１４に示すように、情報処理システム１００２は、属性生成部１２２と、検定部１３２と、を備える。

　属性生成部１２２は、複数の被演算子をとる演算を定義する関数に関し、入力された複数の属性の中から、前記複数の被演算子となる属性の組み合わせを選択し、前記属性の組み合わせに対して前記関数を適用することにより、属性の組み合わせに対して関数を適用した結果である新たな属性を生成する。

　検定部１３２は、前記属性に基づき分析処理を実行する分析エンジンに、前記新たな属性を入力し、前記分析エンジンが出力する情報が所定の要件を満たすか否かを判定する。

　第３の実施形態によれば、分析処理の精度向上に寄与する情報処理システム１００２を提供することができる。

　＜情報処理システムのハードウェア構成＞
　図１５は、第１の実施形態に係る情報処理システム１０００を実現できるコンピュータのハードウェア構成を表す図である。図１５に示すコンピュータは、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１、メモリ２、記憶装置３、通信インターフェース（Ｉ／Ｆ）４を備える。図１５に示すコンピュータは、さらに、入力装置５または出力装置６を備えていてもよい。情報処理システム１０００の機能は、例えばＣＰＵ１が、メモリ２に読み出されたコンピュータプログラム（ソフトウェアプログラム、以下単に「プログラム」と記載する）を実行することにより実現される。実行に際して、ＣＰＵ１は、通信インターフェース４、入力装置５および出力装置６を適宜制御する。

　尚、前述の各実施形態を例として説明される本発明は、係るプログラムが格納されたコンパクトディスク等の不揮発性の記憶媒体８によっても構成される。記憶媒体８が格納するプログラムは、例えばドライブ装置７により読み出される。

　情報処理システム１０００が実行する通信は、例えばＯＳ（Ｏｐｅｒａｔｉｎｇ　Ｓｙｓｔｅｍ）が提供する機能を使ってアプリケーションプログラムが通信インターフェース４を制御することによって実現される。入力装置５は、例えばキーボード、マウスまたはタッチパネルである。出力装置６は、例えばディスプレイである。情報処理システム１０００は、２つ以上の物理的に分離された装置が、有線、無線、又はそれらの組み合わせにより、通信可能に接続されることによって構成されていてもよい。

　図１５に示すハードウェア構成の例は、前述した他の各実施形態にも適用可能である。なお、本発明の各実施形態に係る情報処理システムは専用の装置であってもよい。なお、本発明の各実施形態に係る情報処理システムおよびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。

　＜その他の変形例＞
　分析処理を実行する分析エンジンは、必ずしも情報処理システム１０００と同一の装置に実装される必要はない。分析エンジンは、情報処理システム１０００からアクセスすることが可能な装置に実装されていればよい。上述の変形例は、他の実施形態にも適用可能である。

　以上、分析エンジンの種類として単回帰分析、重回帰分析、および、判別分析を指定された場合を例に、本発明を説明した。

　本発明は上述した各実施の形態に限定されず、様々な態様で実施されることが可能である。本発明は、上記各実施形態に例示した種類以外の分析エンジンを用いるデータマイニングにも適用され得る。

　また、上述した各実施の形態は、適宜組み合わせて実施されることが可能である。また、本発明は、上述した各実施の形態に限定されず、様々な態様で実施されることが可能である。

　各ブロック図に示したブロック分けは、説明の便宜上から表された構成である。各実施形態を例に説明された本発明は、その実装に際して、各ブロック図に示した構成には限定されない。

　以上、本発明を実施するための形態について説明したが、上記実施の形態は本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明はその趣旨を逸脱することなく変更、改良され得ると共に、本発明にはその等価物も含まれる。

　この出願は、２０１３年９月２７日に出願された米国出願ＵＳ６１／８８３６７２を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　上述した実施形態を例に説明した本発明は、例えばデータマイニングを支援するツールに用いることができる。

　１　　ＣＰＵ
　２　　メモリ
　３　　記憶装置
　４　　通信インターフェース
　５　　入力装置
　６　　出力装置
　７　　ドライブ装置
　８　　記憶媒体
　１１０　　関数記憶部
　１１１　　関数記憶部
　１２０　　属性生成部
　１２１　　属性生成部
　１２２　　属性生成部
　１３０　　検定部
　１３１　　検定部
　１３２　　検定部
　１４０　　出力部
　９００　　オペレータ
　１０００　　情報処理システム
　１００１　　情報処理システム
　１００２　　情報処理システム

Claims

　複数の被演算子をとる演算を定義する関数に関し、入力された複数の属性の中から、前記複数の被演算子となる属性の組み合わせを選択し、前記属性の組み合わせに対して前記関数を適用することにより、属性の組み合わせに対して関数を適用した結果である新たな属性を生成する属性生成手段と、
　前記属性に基づき分析処理を実行する分析エンジンに、前記新たな属性を入力し、前記分析エンジンが出力する情報が所定の要件を満たすか否かを判定する検定手段と、
　を備える情報処理システム。
　前記検定手段は、分析エンジンの選択を受け付け、分析エンジンが出力する情報が満たす要件の入力を受け付け、前記選択された分析エンジンに前記新たな属性を入力する、
　請求項１に記載の情報処理システム。
　前記属性生成手段は、前記複数の属性から、前記属性の組み合わせを複数選択し、
　前記複数の属性の組み合わせのうちそれぞれの属性の組み合わせに対して前記関数を適用することにより、複数の前記新たな属性を生成する処理を実行し、
　前記検定手段は、前記複数の前記新たな属性データのそれぞれに対して、
　　前記選択された分析エンジンに前記複数の新たな属性データのうち特定の属性データを入力する処理と、
　　前記分析エンジンが出力する情報を取得する処理と、
　　前記取得した情報が前記要件を満たしているか否かを判定する処理と、
　を実行する、
　請求項１または２に記載の情報処理システム。
　前記分析エンジンが出力する情報のうち、前記要件を満たす情報を出力する、第１の出力手段を更に備える、請求項１から３のいずれかに記載の情報処理システム。
　前記分析エンジンが出力する情報が前記要件を満たした場合に、前記分析エンジンが出力する情報を得るために当該分析エンジンに入力された属性か、または、当該属性を生成するために、前記属性生成手段が適用した関数および前記関数を適用した属性の組み合わせを、出力する、第２の出力手段を更に備える、請求項１から３のいずれかに記載の情報処理システム。
　前記関数は、二項演算を定義する、
　請求項１から５のいずれかに記載の情報処理システム。
　前記関数は、前記属性に対する算術演算または論理演算を定義する、
　請求項１から６のいずれかに記載の情報処理システム。
　前記検定手段は、分析エンジンとして回帰分析が選択された場合に、更に、目的変数として前記属性のうちいずれかの属性の指定を受け付け、前記要件として説明変数の個数の指定を受け付ける、
　請求項１から７のいずれかに記載の情報処理システム。
　複数の被演算子をとる演算を定義する関数を記憶する関数記憶手段にアクセス可能なコンピュータが、
　前記関数記憶手段から前記関数を取得し、入力された複数の属性の中から、前記複数の被演算子となる属性の組み合わせを選択し、前記属性の組み合わせに対して前記関数を適用することにより、属性の組み合わせに対して関数を適用した結果である新たな属性を生成する属性生成手段と、
前記属性に基づき分析処理を実行する分析エンジンに、前記新たな属性を入力し、前記分析エンジンが出力する情報が所定の要件を満たすか否かを判定する
　情報処理方法。
　複数の被演算子をとる演算を定義する関数を記憶する関数記憶手段にアクセス可能なコンピュータに、
　前記関数記憶手段から前記関数を取得する処理と、
　入力された複数の属性の中から、前記複数の被演算子となる属性の組み合わせを選択し、前記属性の組み合わせに対して前記関数を適用することにより、属性の組み合わせに対して関数を適用した結果である新たな属性を生成する処理と、
前記属性に基づき分析処理を実行する分析エンジンに、前記新たな属性を入力し、前記分析エンジンが出力する情報が所定の要件を満たすか否かを判定する処理と、
　を実行させるプログラムを記憶するコンピュータ読み取り可能な記録媒体。