WO2022219685A1

WO2022219685A1 - 特徴選択装置、特徴選択方法および特徴選択プログラム

Info

Publication number: WO2022219685A1
Application number: PCT/JP2021/015223
Authority: WO
Inventors: 充敏熊谷
Original assignee: 日本電信電話株式会社
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2022-10-20
Also published as: JPWO2022219685A1

Abstract

学習データ入力部（１１）が、特徴選択の処理対象の目標データセットと特徴量の構成が同一であって目標データセットとは異なる関連データセットを取得する。特徴選択モデル学習部（１３）が、取得された関連データセットから選択した関連データを疑似学習データまたは疑似テストデータとして、該疑似学習データを特徴選択モデル（１４ａ）に入力した場合に、所定の条件を満たす特徴量を選択するように、該疑似学習データと疑似テストデータとを用いて、特徴選択モデル（１４ａ）を学習する。

Description

特徴選択装置、特徴選択方法および特徴選択プログラム

　本発明は、特徴選択装置、特徴選択方法および特徴選択プログラムに関する。

　近年、ラベルなしデータから重要な特徴量を抽出する教師なし特徴抽出の技術が開示されている（非特許文献１，２参照）。これにより、重要な特徴量を抽出することにより、データ分析において解釈性が向上したり、クラスタリングやクラスタリングの後処理において、抽出された特徴量のみを対象にすることにより処理を高速化したりすることが可能となる。

Abubakar　Abid,　Muhammed　Fatih　Balin,　James　Zou,　"Concrete　Autoencoders:　Differentiable　Feature　Selection　and　Reconstruction"　International　Conference　on　Machine　Learning.　PMLR,　2019年,　pp.444-453 Xiaofei　He,　Deng　Cai,　Partha　Niyogi,　"Laplacian　Score　for　Feature　Selection"　Advances　in　neural　information　processing　systems　18　(2005),　pp.507-514

　しかしながら、従来の技術は大量のラベルなしデータを必要とするものの、大量のデータを用意することが困難な場合がある。例えば、ユーザの購買行動等のデータから利用ユーザの行動を分析する場合に、新規ユーザや利用頻度の低いユーザのデータを大量に得ることは困難である。同様に、新しい機器のデータから機器の特性を分析したくても、新しい機器のデータを大量に得ることは困難である。

　本発明は、上記に鑑みてなされたものであって、少量のラベルなしデータから重要な特徴量を抽出することを目的とする。

　上述した課題を解決し、目的を達成するために、本発明に係る特徴選択装置は、特徴選択の処理対象のデータと特徴量の構成が同一であって該特徴量の値が異なる関連データを取得する取得部と、取得された前記関連データから選択した関連データを疑似学習データまたは疑似テストデータとして、該疑似学習データをモデルに入力した場合に、所定の条件を満たす特徴量を選択するように、該疑似学習データと疑似テストデータとを用いて、前記モデルを学習する学習部と、を有することを特徴とする。

　本発明によれば、少量のラベルなしデータから重要な特徴量を抽出することが可能となる。

図１は、特徴選択装置の概要を説明するための図である。図２は、特徴選択装置の概要を説明するための図である。図３は、特徴選択装置の概略構成を例示する模式図である。図４は、特徴選択モデルを説明するための図である。図５は、特徴選択モデル学習部の処理を説明するための図である。図６は、学習処理手順を示すフローチャートである。図７は、選択処理手順を示すフローチャートである。図８は、特徴選択プログラムを実行するコンピュータを例示する図である。

　以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［特徴選択装置の概要］
　まず、図１および図２は、特徴選択装置の概要を説明するための図である。図１に示すように、特徴選択装置は、教師なし機械学習により、ラベルなしデータの特徴量のうち、重要な特徴量のみを選択（以下、教師なし特徴選択とも記す）する。

　本実施形態の特徴選択装置は、少量のラベルなしデータを、特徴量を選択したい目標データセットとして、複数の関連するデータセットであるラベルなしデータを活用して、目標データセットから精度よく重要な特徴選択を行う。具体的には、図２に示すように、特徴選択装置は、学習フェーズにおいて、関連データセットのデータのみを用いて、少量のラベルなしデータから精度よく重要な特徴選択を行うモデルを学習する。すなわち、特徴選択装置は、各関連データセットについて、少量のサンプルから特徴選択を行った場合に、それ以外のサンプルで精度が明示的に向上するように学習を行う。

　また、特徴選択装置は、テスト（選択）フェーズにおいて、学習されたモデルに目標データセットを入力することにより、目標データセットの特徴選択を行う。

　なお、関連データセットとは、例えば、同一の被写体についての色味の異なる画像等、目標データセットと構成する特徴量（名）が同一であって、条件が異なり各特徴量の値の分布が異なるデータセットを意味する。

［特徴選択装置の構成］
　次に、図３は、特徴選択装置の概略構成を例示する模式図である。本実施形態に係る特徴選択装置１は、ワークステーションやパソコン等の汎用コンピュータで実現され、後述する特徴選択処理を実行する。

　本実施形態の特徴選択装置１は、図３に示すように、学習処理を行う学習部１０と、選択処理を行う選択部２０とを有する。学習部１０は、複数の関連データセット（ラベルなしデータ）を用いて、特徴選択モデル１４ａを学習する。選択部２０は、学習部１０により学習された特徴選択モデル１４ａを用いて目標データセットの重要な特徴量を選択する選択処理を行う。選択部２０は、学習部１０と同一のハードウェアに実装されてもよいし、異なるハードウェアに実装されてもよい。

［学習部］
　学習部１０は、学習データ入力部１１、特徴抽出部１２、特徴選択モデル学習部１３、および格納部１４を有する。

　学習データ入力部１１は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部に対して各種指示情報を入力する。本実施形態において、学習データ入力部１１は、取得部として機能して、特徴選択の処理対象の目標データセットと特徴量の構成が同一であって特徴量の値が異なる関連データセット(ラベルなしデータ）を取得する。

　なお、関連データセットは、ＮＩＣ（Network　Interface　Card）等で実現される図示しない通信制御部を介して、外部のサーバ装置等から学習部１０に入力されてもよい。

　制御部は、処理プログラムを実行するＣＰＵ（Central　Processing　Unit）等を用いて実現され、特徴抽出部１２、特徴選択モデル学習部１３として機能する。

　特徴抽出部１２は、後述する特徴選択モデル学習部１３における処理の準備として、取得された関連データセットの各サンプルを特徴ベクトルに変換する。ここで、特徴ベクトルとは、必要なデータの特徴をｎ次元の数ベクトルで表記したものである。特徴抽出部１２は、機械学習で一般的に用いられている手法を利用して、特徴ベクトルへの変換を行う。例えば、特徴抽出部１２は、データがテキストである場合には、形態素解析による手法、ｎ－ｇｒａｍによる手法、区切り文字による手法等を適用可能である。

　特徴選択モデル学習部１３は、学習部として機能する。つまり、特徴選択モデル学習部１３は、取得された関連データセットから選択した関連データを疑似学習データまたは疑似テストデータとして、該疑似学習データを特徴選択モデル１４ａに入力した場合に、所定の条件を満たす特徴量を選択するように、該疑似学習データと疑似テストデータを用いて、特徴選択モデル１４ａを学習する。

　具体的には、特徴選択モデル学習部１３は、特徴抽出部１２が特徴を抽出した後のデータを用いて、各データセットから、少量の疑似学習用サンプル（疑似学習データ）と、疑似テスト用サンプル（疑似テストデータ）とをランダムに選択する。そして、特徴選択モデル学習部１３は、疑似学習用サンプルで特徴選択を実行した際に、その選択特徴が疑似テスト用サンプルでも所定の条件を満たすように、明示的に学習を行う。

　ここで、所定の条件とは、例えば、元のサンプルを復元できる、あるいは元のサンプル間の関係性を復元できる等の、重要な特徴量を選択するための条件である。つまり、特徴選択モデル学習部１３は、疑似学習用サンプルから選択した特徴量を逆変換することにより、該疑似テスト用サンプルを復元できること、または該疑似テスト用サンプル間の関係性を復元できることを所定の条件として、特徴選択モデル１４ａを学習する。

　特徴選択モデル１４ａとしては、コンクリートオートエンコーダ等の任意のＮＮ（Neural　Networks）ベースのモデルが適用される。

　まず、Ｘ_ｄをｄ番目のラベルなしデータのデータセットとする。ここで、ｘ_ｎ∈Ｘ_ｄはｄ番目のデータセットのｎ番目のサンプルのＭ次元特徴ベクトルを表す。また、すべてのデータセットで特徴ベクトルの次元Ｍは同一と仮定する。

　特徴選択装置１は、学習フェーズにおいて、次式（１）に示すＤ個の関連データセットが与えられた場合に、テスト（選択）フェーズに与えられた次式（２）に示す目標データセットに適した高々Ｋ個の特徴を選択するように、特徴選択モデル１４ａの学習を行う。

　具体的には、特徴選択モデル１４ａは、データを入力した場合に特徴量を選択するセレクタ（ｓｅｌｅｃｔｏｒ）と、該特徴量が選択されたデータを入力した場合にしたセレクタに入力されたデータを復元するデコーダ（ｄｅｃｏｄｅｒ）とを有する。

　ここで、図４は、特徴選択モデルを説明するための図である。図４に示すように、特徴選択モデル１４ａは、Ｆｅａｔｕｒｅ　ｓｅｌｅｃｔｏｒとＤｅｃｏｄｅｒとの２つのコンポーネントで構成される。

　Ｆｅａｔｕｒｅ　ｓｅｌｅｃｔｏｒは、各データセットからランダムに選択された少量のラベルなしデータ（以下、サポートセットと記す）を入力として受け取り、特徴量を選択する。また、Ｄｅｃｏｄｅｒは、同じデータセットから選択された、特徴量が選択済みのテストサンプルｕを入力として受け取り、元のサンプルｘを復元するように学習される。

　この場合に、一部の特徴量から全体の特徴量を復元できるということは、選択されなかった特徴量は選択された特徴量の非線形変換により表現できることを意味する。すなわち、選択されなかった特徴量は、冗長な特徴量といえる。

　具体的には、Ｆｅａｔｕｒｅ　ｓｅｌｅｃｔｏｒにおいて、あるデータセットからサポートセット（少量のラベルなしデータ）Ｓが与えられた場合に、ｋ番目の選択された特徴量（以下、選択特徴とも記す）は、次式（３）で表される。

　ここで、Ｃｏｎｃｒｅｔｅ　ｒａｎｄｏｍ　ｖａｒｉａｂｌｅは、カテゴリカル分布からのサンプルの連続近似版であり、τ→０の極限では、カテゴリカル分布からのサンプルと一致する。また、τが大きい場合には、上記式（３）のｚ^（ｋ）（Ｓ）は、ベクトル中のすべての成分が同一の値をとる一様ベクトルに近づく。また、τが十分に小さい場合には、１つの成分のみが１でそれ以外が０であるｏｎｅ－ｈｏｔベクトルに近づく。つまり、τが十分に小さい場合には、ｕ^（ｋ）には１に対応するｘの値が入り、特徴量が１つ選択されることになる。

　このようにして、Ｆｅａｔｕｒｅ　ｓｅｌｅｃｔｏｒにより、各ｋに対応して、特徴量が選択される。したがって、重複して選択される場合を考慮して、Ｆｅａｔｕｒｅ　ｓｅｌｅｃｔｏｒにより、高々Ｋ個の特徴量が選択される。

　また、Ｆｅａｔｕｒｅ　ｓｅｌｅｃｔｏｒのｚ^（ｋ）（Ｓ）において、ベクトル中の大きい成分ほど選択されやすく、どの特徴量が選択されやすいかは、パラメタα^（ｋ）（Ｓ）に依存する。上記式（３）において、α^（ｋ）（Ｓ）は、サポートセットＳに依存しているため、適切な学習により、サポートセットＳに応じて、Ｓに適したパラメタα^（ｋ）（Ｓ）が出力されること、すなわち、適切な特徴が選択されることが期待される。

　そこで、パラメタα^（ｋ）（Ｓ）を次式（４）に示す置換不変ニューラルネットワークでモデル化する。ここで、ｆ、ｇは任意のフィードフォワードニューラルネットワークであり、π^（ｋ）∈Ｒ^Ｔは、ｋ毎に定義されるパラメタである。また、Ｒ^Ｔは次元数、Ｔはユーザが設定する任意の数である。

　π^（ｋ）がｋ毎に違う値をとる場合に、α^（ｋ）（Ｓ）の値をｋ毎に変えることができ、ｋ毎に異なる特徴量を選択することができる。上記式（４）では、途中のサンメンションΣにより、サポートセットＳ内のサンプルの順番に依らず、常に同じ値が出力される。なお、上記式（４）において、π^（ｋ）がない場合には、すべてのｋに対して同じ値が出力されるため、すべてのｋで同じ特徴量が選択されることになる。

　次に、Ｄｅｃｏｄｅｒは、次式（５）に示すように、選択特徴ｕ（ｘ；Ｓ）から元の全特徴ｘへの変換を非線形変換で近似する。

　ここで、ｒ（Ｓ）は、置換不変ニューラルネットワークでモデル化される量である。ｒ（Ｓ）はサポートセットＳに依存していることから、上記式（５）は、データセットに固有のデコーダを表現している。

　次に、図５は、特徴選択モデル学習部の処理を説明するための図である。図５には、特徴選択モデル学習部１３の処理の疑似コードが例示されている。ここで、特徴選択モデル１４ａの学習の際の目的関数は、次式（６）で表される。

　上記式（６）の目的関数では、各関連データセットで、少量のラベルなしデータＳを選択してモデルに入力した場合に、同一データセット内の別のサンプル集合Ｑに対して、Ｑ内の各サンプルがうまく復元できるように学習される。これは、少量のラベルなしデータＳからテストデータでうまく動作するような良い特徴選択を明示的に学習することを意味する。

　このように、目標データセットと関連がある様々な関連データセットに対して学習することにより、関連データセットの学習により得た有用な知識を転用して、目標データセットからも適切に重要な特徴選択を行えることが期待される。なお、関連データセットは１つであってもよい。

　図３の説明に戻る。格納部１４は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。本実施形態の格納部１４には、学習された特徴選択モデル１４ａが格納される。

［選択部］
　選択部２０は、データ入力部２１、特徴抽出部２２、特徴選択部２３、および結果出力部２４を有する。

　データ入力部２１は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部に対して各種指示情報を入力したり、特徴選択処理の対象の目標データセットを受け付けたりする。

　なお、目標データセットは、ＮＩＣ等で実現される図示しない通信制御部を介して、外部のサーバ装置等から選択部２０に入力されてもよい。また、データ入力部２１は、学習データ入力部１１と同一のハードウェアでもよい。

　制御部は、処理プログラムを実行するＣＰＵ等を用いて実現され、特徴抽出部２２と特徴選択部２３とを有する。

　特徴抽出部２２は、学習部１０の特徴抽出部１２と同様に、特徴選択部２３における処理の準備として、取得された目標データセットの各サンプルを特徴ベクトルに変換する。

　特徴選択部２３は、選択部として機能して、特徴選択の処理対象のデータである目標データセットから、学習された特徴選択モデル１４ａを用いて重要な特徴量を選択する。具体的には、特徴選択部２３は、次式（７）に示すように、目標データセットＸ_ｄ’からＫ番目の特徴量を選択する。

　結果出力部２４は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置、情報通信装置等によって実現され、特徴選択処理の結果を操作者に対して出力する。例えば、入力された目標データセットから選択された重要な特徴量を出力する。

［特徴選択処理］
　次に、図６および図７を参照して、特徴選択装置１による特徴選択処理について説明する。特徴選択装置１の特徴選択処理は、学習部１０による学習処理と、選択部２０による選択処理とを含む。

［学習処理］
　図６は、学習処理手順を例示するフローチャートである。図６のフローチャートは、例えば、ユーザによる学習処理の開始を指示する操作入力があったタイミングで開始される。

　まず、学習データ入力部１１が、特徴選択の処理対象の目標データセットと特徴量の構成が同一であって特徴量の値が異なる関連データセット(ラベルなしデータ）の入力を受け付ける（ステップＳ１）。次に、特徴抽出部１２が、受け付けた関連データセットの各サンプルを特徴ベクトルに変換する（ステップＳ２）。

　次に、特徴選択モデル学習部１３が、取得された関連データセットから選択した疑似学習用サンプルと疑似テスト用サンプルとを用いて、該疑似テスト用サンプルを特徴選択モデル１４ａに入力した場合に、所定の条件を満たす特徴量を選択するように、該疑似学習用サンプルを用いて、特徴選択モデル１４ａを学習する（ステップＳ３）。

　例えば、特徴選択モデル学習部１３は、疑似学習用サンプルから選択した特徴量を逆変換することにより、該疑似学習用サンプルを復元できること、または該疑似学習用サンプル間の関係性を復元できることを所定の条件として、特徴選択モデル１４ａを学習する。

　また、特徴選択モデル学習部１３は、学習した特徴選択モデル１４ａを格納部１４に格納する。

［選択処理］
　次に図７は、選択処理手順を例示するフローチャートである。図７のフローチャートは、例えば、ユーザによる選択処理の開始を指示する操作入力があったタイミングで開始される。

　まず、データ入力部２１が、処理対象の目標データセット（少量のラベルなしデータ）を受け付け（ステップＳ１１）、特徴抽出部２２が、受け付けた目標データセットの各サンプルを特徴ベクトルに変換する（ステップＳ１２）。

　次に、特徴選択部２３が、目標データセットから、学習された特徴選択モデル１４ａを用いて特徴量を選択する（ステップＳ１３）。そして、結果出力部２４が、特徴選択結果の出力すなわち選択された重要な特徴量の出力を行う（ステップＳ１４）。

　以上、説明したように、特徴選択装置１において、学習データ入力部１１が、特徴選択の処理対象の目標データセットと特徴量の構成が同一であって特徴量の値が異なる関連データセットを取得する。特徴選択モデル学習部１３が、取得された関連データセットから選択した関連データを疑似学習データまたは疑似テストデータとして、該疑似学習データを特徴選択モデル１４ａに入力した場合に、所定の条件を満たす特徴量を選択するように、該疑似学習データと疑似テストデータとを用いて、特徴選択モデル１４ａを学習する。

　このように、特徴選択装置１は、関連データセットを用いて学習することにより、任意の目標データセットに対して高コストな計算を要する再学習を行わなくても、高精度に重要な特徴量を選択することが可能となる。つまり、特徴選択装置１は、関連データセットの有用な情報を活用して、少ない目標データセットの重要な特徴量の選択を高精度に実現することが可能となる。したがって、ラベルなしデータセットが少量しか得られない場合にも、低コストに精度よく重要な特徴量の選択が可能となる。そのため、少量のラベルなしデータセットを対象としたデータ分析の性能が向上する。

　また、特徴選択モデル学習部１３は、疑似学習データから選択した特徴量を逆変換することにより、該疑似テストデータを復元できること、または該疑似テストデータ間の関係性を復元できることを所定の条件として、特徴選択モデル１４ａを学習する。これにより、特徴選択装置１は、冗長な特徴量を排除して重要な特徴量のみを選択することが可能となる。

　また、特徴選択モデル１４ａは、データを入力した場合に特徴量を選択するセレクタと、該特徴量が選択されたデータを入力した場合にした前記セレクタに入力されたデータを復元するデコーダとを有する。これにより、特徴選択装置１は、冗長な特徴量を排除して重要な特徴量のみを選択することが可能となる。

　また、特徴選択部２３が、特徴選択の処理対象の目標データセットから、学習された特徴選択モデル１４ａを用いて特徴量を選択する。これにより、ラベルなしデータセットが少量しか得られない場合にも、低コストに精度よく重要な特徴量の選択が可能となる。

［プログラム］
　上記実施形態に係る特徴選択装置１が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、特徴選択装置１は、パッケージソフトウェアやオンラインソフトウェアとして上記の特徴選択処理を実行する特徴選択プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の特徴選択プログラムを情報処理装置に実行させることにより、情報処理装置を特徴選択装置１として機能させることができる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）等のスレート端末等がその範疇に含まれる。また、特徴選択装置１の機能を、クラウドサーバに実装してもよい。

　図８は、特徴選択プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。ディスクドライブ１０４１には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１０５１およびキーボード１０５２が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１０６１が接続される。

　ここで、ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ１０３１やメモリ１０１０に記憶される。

　また、特徴選択プログラムは、例えば、コンピュータ１０００によって実行される指令が記述されたプログラムモジュール１０９３として、ハードディスクドライブ１０３１に記憶される。具体的には、上記実施形態で説明した特徴選択装置１が実行する各処理が記述されたプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。

　また、特徴選択プログラムによる情報処理に用いられるデータは、プログラムデータ１０９４として、例えば、ハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、ハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

　なお、特徴選択プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１０４１等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、特徴選択プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮ（Local　Area　Network）やＷＡＮ（Wide　Area　Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。

　１　特徴選択装置
　１０　学習部
　１１　学習データ入力部
　１２　特徴抽出部
　１３　特徴選択モデル学習部
　１４　格納部
　１４ａ　特徴選択モデル
　２０　選択部
　２１　データ入力部
　２２　特徴抽出部
　２３　特徴選択部
　２４　結果出力部

Claims

　特徴選択の処理対象のデータと特徴量の構成が同一であって該特徴量の値が異なる関連データを取得する取得部と、
　取得された前記関連データから選択した関連データを疑似学習データまたは疑似テストデータとして、該疑似学習データをモデルに入力した場合に、所定の条件を満たす特徴量を選択するように、該疑似学習データと疑似テストデータとを用いて、前記モデルを学習する学習部と、
　を有することを特徴とする特徴選択装置。
　前記学習部は、前記疑似学習データから選択した特徴量を逆変換することにより、該疑似テストデータを復元できること、または該疑似テストデータ間の関係性を復元できることを前記所定の条件として、前記モデルを学習することを特徴とする請求項１に記載の特徴選択装置。
　前記モデルは、データを入力した場合に特徴量を選択するセレクタと、該特徴量が選択されたデータを入力した場合にした前記セレクタに入力されたデータを復元するデコーダとを有することを特徴とする請求項１に記載の特徴選択装置。
　前記特徴選択の処理対象のデータから、学習された前記モデルを用いて特徴量を選択する選択部を、さらに有することを特徴とする請求項１に記載の特徴選択装置。
　特徴選択装置が実行する特徴選択方法であって、
　特徴選択の処理対象のデータと特徴量の構成が同一であって該特徴量の値が異なる関連データを取得する取得工程と、
　取得された前記関連データから選択した関連データを疑似学習データまたは疑似テストデータとして、該疑似学習データをモデルに入力した場合に、所定の条件を満たす特徴量を選択するように、該疑似学習データと疑似テストデータとを用いて、前記モデルを学習する学習工程と、
　を含んだことを特徴とする特徴選択方法。
　コンピュータに、
　特徴選択の処理対象のデータと特徴量の構成が同一であって該特徴量の値が異なる関連データを取得する取得ステップと、
　取得された前記関連データから選択した関連データを疑似学習データまたは疑似テストデータとして、該疑似学習データをモデルに入力した場合に、所定の条件を満たす特徴量を選択するように、該疑似学習データと疑似テストデータとを用いて、前記モデルを学習する学習ステップと、
　を実行させることを特徴とする特徴選択プログラム。