WO2023136118A1

WO2023136118A1 - 情報選択システム、情報選択方法及び情報選択プログラム

Info

Publication number: WO2023136118A1
Application number: PCT/JP2022/047953
Authority: WO
Inventors: 毅永田; 康亮竹田; 秀正前川; 千博世古; 拓小泉; 麻紀子水谷; 裕也根本; 大樹橋本; 悠史森; 勇樹玉垣; 耕平岩渕; 健太小永吉; 大志信夫
Original assignee: みずほリサーチ＆テクノロジーズ株式会社
Priority date: 2022-01-11
Filing date: 2022-12-26
Publication date: 2023-07-20
Also published as: JP7488391B2; JP2023102156A; JP2023102292A; JP7263567B1

Abstract

情報処理に用いる情報を効率的に的確に選択するための情報選択システム、情報選択方法及び情報選択プログラムが提供される。支援サーバ（２０）の制御部（２１）が、複数の教師データからなる情報において、一部の情報を用いて、複数の解析モデルを生成するとともに、各解析モデルの精度を算出する。制御部は、各精度に応じた分配値を、解析モデルの生成に用いた情報に割り当てることと、解析モデルの生成に用いた情報毎に、分配値の統計値を算出することと、統計値を用いて、解析モデルの生成に用いる情報を選択することと、を行なう。

Description

情報選択システム、情報選択方法及び情報選択プログラム

　本開示は、情報処理に用いる情報を選択するための情報選択システム、情報選択方法及び情報選択プログラムに関する。

　学習処理を行なう場合、学習に用いる変数を選択するためにステップワイズ法を利用することがある。ステップワイズ法は、逐次的に１つずつ、変数を追加あるいは削除していく手法である（例えば、特許文献１を参照。）。この文献に記載された技術は、プロセスの状態予測方法において、重回帰モデルを構成する説明変数を、時系列データベースから選定する。時系列データベースには、プロセスの操業状態を示す複数のプロセス変数の、時刻歴データが蓄積されている。この場合、ステップワイズ法により説明変数を絞り込んだ後、絞り込まれた説明変数の偏回帰係数の正負をチェックすることで、実現象とは逆の作用を示す説明変数を除外する。

特開２０１２－１２８８００号公報

　しかしながら、変数が多いと、試行回数が膨大になるため、計算時間が長くなる。

　本開示の一側面によって提供される情報選択システムは、解析モデルの生成に用いる情報を選択する制御部を備える。そして、前記制御部が、複数の教師データからなる情報において、一部の情報を用いて、複数の解析モデルを生成するとともに、前記各解析モデルの精度を算出する。前記制御部は、前記各精度に応じた分配値を、前記解析モデルの生成に用いた情報に割り当てることと、前記解析モデルの生成に用いた情報毎に、前記分配値の統計値を算出することと、前記統計値を用いて、解析モデルの生成に用いる情報を選択することと、を行なう。

第１実施形態の情報選択システムの説明図である。図１の情報選択システムにおける、第１実施形態のハードウェア構成の説明図である。図１の情報選択システムにおける、第１実施形態の処理手順の説明図である。図３の処理手順における、第１実施形態の変数テーブルの説明図である。図４に続く、第１実施形態の変数テーブルの説明図である。図３の処理手順の一部に置換される、第２実施形態の処理手順の説明図である。図６の処理手順における、第２実施形態の自己組織化マップ（ＳＯＭ：Self-Organizing Map）のノードの説明図である。図６の処理手順における、第２実施形態の変数テーブルの説明図である。図６の処理手順における、第２実施形態の処理手順の説明図である。図９の処理手順における、第２実施形態の処理手順の説明図である。図１０の処理手順における、第２実施形態の距離テーブルの説明図である。図９の処理手順における、第２実施形態の処理手順の説明図である。図１２の処理手順における、第２実施形態の処理手順の説明図である。図１２の処理手順における、第２実施形態の処理手順の説明図である。図９の処理手順における、第２実施形態の処理手順の説明図であって、（ａ）部分は入力データの配置、（ｂ）部分は新規ノードの追加、（ｃ）部分は既存ノードの更新、の説明図である。図９の処理手順とは異なる、第３実施形態の処理手順の説明図である。図１６の処理手順に関連する、別例の処理手順の説明図である。図９の処理手順とは異なる、別の別例の処理手順の説明図である。図１８の処理手順における、別例の処理手順の説明図であって、（ａ）部分は入力データの配置、（ｂ）部分は新規ノードの追加、（ｃ）部分は既存ノードの更新、の説明図である。図６の処理手順に関連する、別例のノード同士間距離の説明図である。比較例の処理手順の説明図である。図２１に関連する、比較例の処理手順の説明図である。図２２に続く、比較例の処理手順の説明図である。図２３に続く、比較例の処理手順の説明図である。

　本明細書における記述「Ａ及びＢのうちの少なくとも一つ」は、「Ａのみ」又は「Ｂのみ」又は「ＡとＢの両方」を意味するものとして理解されたい。
　（第１実施形態）
　図１～図５に従って、情報選択システム、情報選択方法及び情報選択プログラムを具体化した一実施形態を説明する。本実施形態では、変数（情報）をランダムに選択することで学習を繰り返しつつ、変数の有効性を求めて変数の追加・削除を逐次的に行なう。

　図１に示すように、本実施形態の情報選択システムは、ユーザ端末１０及び支援サーバ２０を用いる。
　（ハードウェア構成例）
　図２は、ユーザ端末１０又は支援サーバ２０等として機能する情報処理装置Ｈ１０のハードウェア構成例である。

　情報処理装置Ｈ１０は、通信装置Ｈ１１、入力装置Ｈ１２、表示装置Ｈ１３、記憶装置Ｈ１４、及びプロセッサＨ１５を有する。なお、このハードウェア構成は一例であるので、情報処理装置Ｈ１０は他のハードウェアを有していてもよい。

　通信装置Ｈ１１は、他の装置との間で通信経路を確立することで、データの送受信を実行するインタフェースであり、例えばネットワークインタフェースや無線インタフェース等である。

　入力装置Ｈ１２は、利用者等からの入力を受け付ける装置であり、例えばマウスやキーボード等である。表示装置Ｈ１３は、各種情報を表示するディスプレイやタッチパネル等である。

　記憶装置Ｈ１４は、ユーザ端末１０又は支援サーバ２０の各種機能を実行するためのデータや各種プログラムを格納する記憶装置である。記憶装置Ｈ１４の一例としては、ＲＯＭ、ＲＡＭ、又はハードディスク等がある。

　プロセッサＨ１５は、記憶装置Ｈ１４に記憶されるプログラムやデータを用いて、ユーザ端末１０又は支援サーバ２０における各処理（例えば、後述する制御部２１における処理）を制御する。プロセッサＨ１５の一例としては、例えばＣＰＵやＭＰＵ等がある。このプロセッサＨ１５は、ＲＯＭ等に記憶されるプログラムをＲＡＭに展開することで、各種処理に対応する各種プロセスを実行する。例えば、プロセッサＨ１５は、ユーザ端末１０又は支援サーバ２０のアプリケーションプログラムが起動された場合、後述する各処理を実行するプロセスを動作させる。

　プロセッサＨ１５は、自身が実行するすべての処理についてソフトウェア処理を行なうものに限られない。例えば、プロセッサＨ１５は、自身が実行する処理の少なくとも一部についてハードウェア処理を行なう専用のハードウェア回路（例えば、特定用途向け集積回路：ＡＳＩＣ）を備えてもよい。すなわち、プロセッサＨ１５は、以下で構成し得る。

　（１）コンピュータプログラム（ソフトウェア）に従って動作する１つ以上のプロセッサ、
　（２）各種処理のうち少なくとも一部の処理を実行する１つ以上の専用のハードウェア回路、或いは
　（３）それらの組み合わせ、を含む回路（circuitry）。

　プロセッサは、ＣＰＵと、ＲＡＭ及びＲＯＭ等のメモリと、を含む。メモリは、処理をＣＰＵに実行させるように構成されたプログラムコード又は指令を格納している。メモリすなわちコンピュータ可読媒体は、汎用又は専用のコンピュータでアクセスできるあらゆる利用可能な媒体を含む。

　（各情報処理装置の機能）
　図１を用いて、ユーザ端末１０及び支援サーバ２０の機能を説明する。
　ユーザ端末１０は、本システムを利用するユーザが用いるコンピュータ端末である。

　支援サーバ２０は、情報処理に用いる変数を選択するコンピュータシステムである。この支援サーバ２０は、制御部２１及び記憶部２２を備えている。ここでは、情報処理として機械学習を行なう。

　制御部２１は、後述する処理（選択段階及び評価段階等を含む処理）を行なう。このための情報選択プログラムを実行することにより、制御部２１は、選択部２１１及び評価部２１２等として機能する。

　選択部２１１は、情報処理に用いられる変数を選択する処理を実行する。
　評価部２１２は、選択された変数を用いた解析モデルの精度を算出する処理を実行する。具体的には、評価部２１２は、機械学習により解析モデルを生成するとともに、この解析モデルの予測誤差を精度として算出する。

　記憶部２２には、機械学習等の情報処理に用いられる情報（入力データ）が記録される。この入力データは、情報処理に用いられるデータが取得された場合に記憶部２２に記録される。入力データは、互いに異なる次元からなる複数の要素データを備えたベクトルである。例えば、複数種類の説明変数及び（１種類の）目的変数からなる教師データを、入力データとして用いることができる。

　（変数減少法）
　ここで、比較例として、図２１～図２４を用いて、ステップワイズ法の中で、全変数を選択した状態からスタートしつつ、１つずつ変数を削除していく変数減少法を説明する。

　図２１に示すように、まず、全変数を選択して精度の計算を行なう（ステップＳ０１）。例えば、変数ｐ１～ｐ４を用いる場合、すべての変数（ｐ１～ｐ４）を用いて、回帰式を算出する。そして、この回帰式の精度として、平均絶対誤差（ＭＡＥ：Mean Absolute Error）である予測誤差ｅ０を算出する。

　次に、一部の変数を削除した後に残った変数の組み合わせの精度の計算を行なう（ステップＳ０２）。
　図２２のテーブル７００に示すように、変数（ｐ１～ｐ４）を用いる場合、変数（ｐ１～ｐ４）の中から一つずつ削除した後に残った変数の組み合わせを用いて、回帰式を算出する。例えば、変数（ｐ１～ｐ４）の中から変数（ｐ１）を削除した後に残った変数（ｐ２～ｐ４）を用いた回帰式の精度として、予測誤差ｅ１１を算出する。また、変数（ｐ１～ｐ４）の中から変数（ｐ２）を削除した後に残った変数（ｐ１，ｐ３，ｐ４）を用いた回帰式の精度として、予測誤差ｅ１２を算出する。また、変数（ｐ１～ｐ４）の中から変数（ｐ３）を削除した後に残った変数（ｐ１，ｐ２，ｐ４）を用いた回帰式の精度として、予測誤差ｅ１３を算出する。変数（ｐ１～ｐ４）の中から変数（ｐ４）を削除した後に残った変数（ｐ１～ｐ３）を用いた回帰式の精度として、予測誤差ｅ１４を算出する。

　次に、精度に応じて変数の削除を行なう（ステップＳ０３）。ここでは、最も精度が良かった変数組み合わせに関する変数（平均絶対誤差が最も小さい変数）を削除する。すなわち、特定の変数を用いないときに用いた変数組み合わせの平均絶対誤差が小さくなる場合に、この特定の変数を削除する。図２２の予測誤差ｅ１１～ｅ１４の中で予測誤差ｅ１２が最も小さい場合、図２３のテーブル７０１にハッチングで示すように、予測誤差ｅ１２に対応する変数ｐ２を、変数（ｐ１～ｐ４）の中から削除する。

　次に、変数減少法の処理が終了かどうかについての判定を行なう（ステップＳ０４）。例えば、残っている変数が２つの場合には終了と判定する。終了と判定した場合（ステップＳ０４において「ＹＥＳ」の場合）、最も精度の良い変数の組み合わせを最終結果として特定する。

　一方、終了でないと判定した場合（ステップＳ０４において「ＮＯ」の場合）、ステップＳ０２以降の処理を繰り返す。
　図２３に示すように、変数（ｐ１，ｐ３，ｐ４）の中の一つを削除することで残った変数の組み合わせを用いて、回帰式を算出する。例えば、変数（ｐ１，ｐ３，ｐ４）の中から変数（ｐ１）を削除することで残った変数（ｐ３，ｐ４）の組み合わせを用いた回帰式の精度として、予測誤差ｅ２１を算出する。変数（ｐ１，ｐ３，ｐ４）の中から変数（ｐ３）を削除することで残った変数（ｐ１，ｐ４）の組み合わせを用いた回帰式の精度として、予測誤差ｅ２３を算出する。変数（ｐ１，ｐ３，ｐ４）の中から変数（ｐ４）を削除することで残った変数（ｐ１，ｐ３）を用いた回帰式の精度として、予測誤差ｅ２４を算出する。図２３の予測誤差ｅ２１，ｅ２３，ｅ２４の中で予測誤差ｅ２１が最も小さい場合、図２４のテーブル７０２にハッチングで示すように、予測誤差ｅ２１に対応する変数ｐ１を変数（ｐ１，ｐ３，ｐ４）の中から削除する。

　そして、最も精度の良い変数（平均絶対誤差が大きい変数）の組み合わせ（ここでは、変数ｐ３，ｐ４）を、最終結果として特定する。
　しかしながら、上述の変数減少法は変数を１つずつ検討していくので、複数の変数の組み合わせが考慮されない場合がある。この場合、局所解に陥りやすい。例えば、図２２～図２４の例では、最初に変数ｐ２を削除する。よって、変数ｐ２が入った変数組み合わせは、変数ｐ２を削除した以降は考慮されない。また、変数が多いと、試行回数が膨大になるので、計算時間が長くなる虞れがある。

　（変数選択処理）
　次に、図３を用いて、本実施形態における変数選択処理を説明する。ここでは、支援サーバ２０の制御部２１の選択部２１１は、ユーザ端末１０から入力データを取得する。そして、選択部２１１は、入力データを記憶部２２に記録する。

　まず、支援サーバ２０の制御部２１は、全変数で精度の計算処理を実行する（ステップＳ１０１）。具体的には、制御部２１の選択部２１１は、記憶部２２に記録された入力データにおいて、すべての変数値を含めてデータセット（教師データ群）を作成する。次に、選択部２１１は、評価部２１２に対して、作成されたデータセットを提供する。そして、評価部２１２は、データセットを用いた機械学習を行なうことにより、解析モデルを作成する。次に、評価部２１２は、作成された解析モデルの精度（予測誤差）を計算する。

　そして、支援サーバ２０の制御部２１は、以下の処理を、所定回数、繰り返す。
　ここでは、支援サーバ２０の制御部２１は、所定数の変数の削除処理を実行する（ステップＳ１０２）。具体的には、制御部２１の選択部２１１は、入力データを構成する変数から、ランダムに所定数の複数種類の変数（利用変数組）を、特定する。本実施形態では、削除される変数である削除対象として、２個の変数を特定する。削除されずに残った変数が、利用変数である。ここでは、利用変数組は、６個の変数を有する。

　次に、支援サーバ２０の制御部２１は、特定された利用変数組が、過去に選択された変数組に一致するかどうかについての判定処理を実行する（ステップＳ１０３）。具体的には、制御部２１の選択部２１１は、今回の利用変数組と、これまでに評価を行なった利用変数組と、を比較する。

　今回の利用変数組と、これまでに評価を行なった利用変数組と、が一致していることで、今回特定された利用変数組が、過去に選択した利用変数組に一致すると判定した場合（ステップＳ１０３において「ＹＥＳ」の場合）、所定数の変数の削除処理（ステップＳ１０２）を繰り返す。

　一方、今回特定された利用変数組が、過去に選択された利用変数組でないと判定された場合（ステップＳ１０３において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、予測誤差の算出処理を実行する（ステップＳ１０４）。具体的には、制御部２１の選択部２１１は、今回の利用変数組のデータセットを作成する。次に、選択部２１１は、評価部２１２に対して、作成されたデータセットを提供する。そして、評価部２１２は、データセットを用いた機械学習を行なうことにより、解析モデルを作成する。次に、評価部２１２は、作成された解析モデルの精度（予測誤差）を計算する。

　次に、支援サーバ２０の制御部２１は、利用変数組に対して、予測誤差の割当処理を実行する（ステップＳ１０５）。具体的には、制御部２１の選択部２１１は、利用変数組の各変数に対して、計算された予測誤差を分配値として割り当てる。

　図４に示すように、変数（ｐ１～ｐ８）を用いる場合、複数の変数ｐ２及びｐ７を削除したケースを想定する。ここで、変数テーブル１００に示すように、予測誤差の算出処理（ステップＳ１０４）において、予測誤差ｅ１を算出した場合を想定する。そして、利用変数組に対する予測誤差の割当処理（ステップＳ１０５）において、変数テーブル１０１に示すように、変数（ｐ１，ｐ３～ｐ６，ｐ８）の各々に、予測誤差ｅ１を割り当てる。

　以上の処理を、所定回数、繰り返す。
　図５に示すように、７回（ここでの所定回数）の処理を繰り返した後、変数テーブル１０２が生成される。ここでは、各利用変数組に対して予測誤差ｅ１～ｅ７が算出されるとともに、予測誤差ｅ１～ｅ７の各々は各利用変数に対して割り当てられている。

　次に、支援サーバ２０の制御部２１は、各変数について予測誤差の平均値の算出処理を実行する（ステップＳ１０６）。具体的には、制御部２１の選択部２１１は、各変数について割り当てられた予測誤差の統計値を、ここでは、平均値を、算出する。

　この場合、図５の平均値欄１０３に示すように、変数（ｐ１～ｐ８）に対して割り当てられた予測誤差（ｅ１～ｅ７）の平均値ａｖ１～ａｖ８を算出する。例えば、変数ｐ１について予測誤差の平均値ａｖ１は、予測誤差ｅ１及びｅ３～ｅ７の平均値である。

　次に、支援サーバ２０の制御部２１は、予測誤差が大きい変数に対する削除処理を実行する（ステップＳ１０７）。具体的には、制御部２１の選択部２１１は、予測誤差の平均値が大きい変数を特定する。そして、選択部２１１は、予測誤差の平均値が大きい変数を削除する。この場合、選択部２１１は、残っている変数組に関連付けて予測誤差をメモリに仮記憶する。

　次に、支援サーバ２０の制御部２１は、終了条件に到達かどうかについての判定処理を実行する（ステップＳ１０８）。具体的には、制御部２１の選択部２１１は、繰り返し回数Ｎが目標回数Ｎmax（終了条件）になっているかどうかを確認する。なお、終了条件は目標回数Nmaxに限らず、最大計算時間を予め定めておいて、この最大計算時間を終了条件としてもよい。

　繰り返し回数Ｎが目標回数Ｎmaxに達していないことで、終了条件に到達していないと判定された場合（ステップＳ１０８において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、繰り返し回数Ｎに「１」を加算する。そして、所定数の変数の削除処理（ステップＳ１０２）以降の処理を繰り返す。

　一方、繰り返し回数Ｎが目標回数Ｎmaxに一致していることで、終了条件に到達したと判定された場合（ステップＳ１０８において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、最も精度の良い変数の組み合わせの出力処理を実行する（ステップＳ１０９）。具体的には、制御部２１の選択部２１１は、メモリに仮記憶された変数組において、予測誤差が最も小さい変数組を特定する。そして、選択部２１１は、特定した変数組を、ユーザ端末１０に出力する。

　本実施形態によれば、以下のような効果を得ることができる。
　（１－１）本実施形態においては、支援サーバ２０の制御部２１は、所定数の変数の削除処理（ステップＳ１０２）と、予測誤差の算出処理（ステップＳ１０４）と、及び利用変数組に対する予測誤差の割当処理（ステップＳ１０５）と、を実行する。これにより、複数の変数の組み合わせを考慮するとともに、局所解の発生を抑制することができる。よって、情報処理に用いる情報を効率的に的確に選択することができる。

　（１－２）本実施形態においては、支援サーバ２０の制御部２１は、各変数について予測誤差の平均値の算出処理（ステップＳ１０６）と、及び予測誤差が大きい変数の削除処理（ステップＳ１０７）と、を実行する。これにより、統計的に誤差が大きい変数を削除することができる。すなわち、各変数の平均予測誤差には、各変数の有効性が反映されていると考えられる。Hebb則のように、学習を繰り返すことにより、有効な変数の組み合わせを強調させることができる。

　ここで、例えば、３２次元の学習データ（２クラス分類）を人工的に生成することで、上記実施形態を検証した。３２個の選択変数を用いたサポートベクターマシン（ＳＶＭ）の予測誤差は、「0.246」であった。また、ステップワイズ法及びＳＶＭを用いた場合、選択変数は１１個になるとともに、予測誤差は、「0.141」であった。更に、上記実施形態及びＳＶＭを用いた場合、選択変数は９個になるとともに、予測誤差は、「0.137」となった。よって、上記実施形態は、ステップワイズ法よりもよい精度を得ることができた。

　（第２実施形態）
　次に、図６に従って、情報選択システム、情報選択方法及び情報選択プログラムを具体化した第２実施形態を説明する。第１実施形態では、予測誤差をそのまま利用変数に割り当てる方法について説明した。第２実施形態は、各変数の有効性を反映させるように、予測誤差を利用変数に割り当てるように変更した構成である。第２実施形態のうち、上記第１実施形態と同様の部分については、第１実施形態と同一の符号を付し、その詳細な説明を省略する。

　図６に示すように、予測誤差の算出処理（ステップＳ１０４）の実行後に、支援サーバ２０の制御部２１は、利用変数の貢献度の算出処理を実行する（ステップＳ２０１）。ここでは、利用変数組を用いて算出した精度（予測誤差）に対する、各利用変数の貢献度を算出する。

　各変数の貢献度（有効性）を算出するために、自己組織化マップ（ＳＯＭ：Self-Organizing Map）を用いる。このため、支援サーバ２０の記憶部２２は、生成された自己組織化マップを記録する。この自己組織化マップは、学習処理の実行時に記録される。自己組織化マップは、複数次元空間に配置されたノードと、ノード同士間を繋ぐパスと、から構成される。そして、各パス及び各ノードは、年齢に関する情報を保持する。この年齢は、新たな入力データの取得時に「１」だけ増加される。更に、各パス及び各ノードは、活性値に関する情報を保持する。活性値は、各パス及び各ノードの有効性（存在意義）を表す指標である。

　図７を用いて、自己組織化マップを用いて、この貢献度の概念を説明する。この自己組織化マップでは、入力変数及び目的変数により、各ノードが構成されている。ここでは、入力データの５次元の説明変数に対して、目的変数を予測する自己組織化マップを想定する。入力データの説明変数を自己組織化マップに適用した場合、第１及び第２ノードｎ１，ｎ２が勝者ノードであると判定する。この場合、最も近いノードの目的変数値を予測値とする。ここで、第１ノードｎ１と入力データの各説明変数との間の距離D(1,j)と、第２ノードｎ２と入力データの各説明変数との間の距離D(2,j)と、の差分「D(1,j)-D(2,j)」を算出する。「ｊ」は説明変数の種類を示す。

　差分「D(1,j)-D(2,j)」により、第１ノードｎ１に近い説明変数と、第２ノードｎ２に近い説明変数と、が存在することがわかる。ここで、入力データの目的変数値に関して、第１ノードｎ１の説明変数値よりも第２ノードｎ２の説明変数値の方が好ましい場合、第２ノードｎ２の目的変数の方が近いことになる。すなわち、差分が正の説明変数は、予測に良い影響を与えていることを示す。一方、差分が負の説明変数は、予測に悪い影響を与えていることを示す。そこで、この差分を、説明変数の貢献度を表わす指標として用いる。

　図８のテーブル１１０に示すように、変数（ｐ１，ｐ３～ｐ６，ｐ８）が選択されるとともに、精度として予測誤差ｅ１が算出された場合を想定する。この場合、予測誤差ｅ１の算出における変数（ｐ１，ｐ３～ｐ６，ｐ８）の貢献度Ｖ(i,j)を算出する。

　この場合、貢献度Ｖ(i,j)を以下の式で計算する。

　次に、支援サーバ２０の制御部２１は、貢献度を考慮した予測誤差の割当処理を実行する（ステップＳ２０２）。

　図８に示すように、変数（ｐ１，ｐ３～ｐ６，ｐ８）の各貢献度と、予測誤差ｅ１と、を用いて、各変数の分配値（A₂(i,1)，A₂(i,3)～A₂(i,6)，A₂(i,8)）を各変数に割り当てる。

　各変数に設定する分配値Ａ₂を以下の式で算出する。

　（自己組織化マップの作成方法）
　次に、図９を用いて、利用変数の貢献度の算出処理（図６のステップＳ２０１）に用いる、自己組織化マップの作成処理を説明する。ここでは、ユーザ端末１０から入力データが取得される。そして、支援サーバ２０の制御部２１の選択部２１１は、入力データを記憶部２２に記録する。ここでは、説明変数及び目的変数からなる、入力データが用いられる。この場合、支援サーバ２０の制御部２１は、マップを作成しながら、学習の精度を検証する。そして、支援サーバ２０の制御部２１は、学習の精度が基準値に達していない場合には、学習のハイパーパラメータである調整係数において、学習の精度が基準値以上となる最適値を探す交差検証を実行する。これにより、目的変数の変数値に調整係数を乗算することで、目的変数の影響を調整する。

　（マップ生成処理）
　まず、支援サーバ２０の制御部２１は、入力データの解析処理を実行する（ステップＳ４０１）。具体的には、制御部２１の評価部２１２は、入力データＤ(i)からノードを作成する場合に用いられる、最大距離ｄmaxを算出する。ここでは、全データ数Ｎに対して、ノードの近傍データ数Ｎnと、考慮する勝者数Ｎwと、を予め設定しておく。

　図１０を用いて、入力データの解析処理（ステップＳ４０１）を説明する。
　ここでは、まず、支援サーバ２０の制御部２１は、各入力データＤ(i)同士間の距離の算出処理を実行する（ステップＳ５０１）。具体的には、制御部２１の評価部２１２は、すべての２つの入力データＤ(i)の組み合わせの距離を算出する。

　この場合、図１１に示すように、各入力データＤ(i)同士間の距離（ｄ12，ｄ13，…，ｄ23，…）を算出することで距離テーブル５００を作成する。例えばｄ12は、入力データＤ(1)と入力データＤ(2)との間の距離である。　　次に、支援サーバ２０の制御部２１は、各入力データＤ(i)について、近傍データとの距離の算出処理を実行する（ステップＳ５０２）。具体的には、制御部２１の評価部２１２は、距離テーブル５００において、距離を昇順に並び替えるとともに、長さがＮn番目までの距離を取得する。

　次に、支援サーバ２０の制御部２１は、平均値の算出処理を実行する（ステップＳ５０３）。具体的には、制御部２１の評価部２１２は、取得したＮn番目までの距離の、平均値（統計値）を算出する。そして、この平均値を、ノード同士間の最大距離ｄmaxとして記憶部２２に記録する。

　次に、図９に示すように、支援サーバ２０の制御部２１は、初期化処理を実行する（ステップＳ４０２）。ここでは、制御部２１の評価部２１２は、パラメータ及び初期ノードを決定する。

　図１２を用いて、初期化処理（ステップＳ４０２）を説明する。ここでは、すべての入力データＤ(i)をノードとして取り扱う。
　まず、支援サーバ２０の制御部２１は、ｉ＝１から、順次、入力データＤ(i)を処理対象として特定しつつ、以下の処理を繰り返す。

　まず、支援サーバ２０の制御部２１は、最大距離内の近傍データの特定処理を実行する（ステップＳ６０１）。具体的には、制御部２１の評価部２１２は、処理対象の入力データＤ(i)からの距離が最大距離ｄmax以内の、全ての近傍データを特定する。

　次に、支援サーバ２０の制御部２１は、ノード活性値の計算処理を実行する（ステップＳ６０２）。具体的には、制御部２１の評価部２１２は、以下の式により、各近傍データのノード活性値Ａw(ni)を計算する。

　次に、支援サーバ２０の制御部２１は、ノード活性度配列の生成処理を実行する（ステップＳ６０３）。具体的には、制御部２１の評価部２１２は、１次元の配列で、全ノードの活性値を並べた［Arate_W(i) i=1～N］を生成する。この［Arate_W(i) i=1～N］は、１次元の配列であり、［Arate_W(i) i=1～N］には全ノードの活性値が入る。次に、評価部２１２は、ノード活性度Arate_W(i)を算出する。このノード活性度Arate_W(i)は、ノードｎiから最大距離ｄmax内のデータのノード活性値の和を、年齢で割ったものである。

　次に、支援サーバ２０の制御部２１は、最大距離以上の近傍データの特定処理を実行する（ステップＳ６０４）。具体的には、制御部２１の評価部２１２は、処理対象の入力データＤ(i)からの距離が最大距離ｄmax以上である、他の入力データＤ(j)を特定する。

　次に、支援サーバ２０の制御部２１は、パス活性値の計算処理を実行する（ステップＳ６０５）。具体的には、制御部２１の評価部２１２は、以下の式により、各近傍データ（入力データＤ(j)）のパス活性値Ａs(n1,n2)を計算する。ここで、パスの両端のノードを第１ノードｎ1及び第２ノードｎ2とする。ｄ1は第１ノードｎ1とデータＤ(j)との間の距離であり、ｄ2は第２ノードｎ2とデータＤ(j)との間の距離である。

　次に、支援サーバ２０の制御部２１は、パス活性度配列の生成処理を実行する（ステップＳ６０６）。具体的には、制御部２１の評価部２１２は、２次元の配列で、全パスの活性値を並べた［Arate_S(i,j)i=1～N,j=1～N］を生成する。この［Arate_S(i,j) i=1～N, j=1～N］は、２次元の配列であり、［Arate_S(i,j) i=1～N, j=1～N］には全パスの活性値が入る。次に、評価部２１２は、パス活性度Arate_S(i,j)を算出する。このパス活性度Arate_S(i,j)は、パス（i，j）に属するデータのノード活性値の和を、年齢で割ったものである。

　以上の処理を、全ての入力データについて繰り返して実行する。
　次に、支援サーバ２０の制御部２１は、初期ノードの設定処理を実行する（ステップＳ６０７）。

　図１３を用いて、初期ノードの設定処理（ステップＳ６０７）を説明する。
　ここでは、まず、支援サーバ２０の制御部２１は、ノード活性度のソート処理を実行する（ステップＳ７０１）。具体的には、制御部２１の評価部２１２は、ノード活性度Arate_W(i)の高い順に、入力データＤ(i)を並び替える。

　次に、支援サーバ２０の制御部２１は、ノード候補の特定処理を実行する（ステップＳ７０２）。具体的には、制御部２１の評価部２１２は、活性度の高い入力データＤ(i)を、ノード候補として、順次、特定する。

　次に、支援サーバ２０の制御部２１は、最大距離未満かどうかについての判定処理を実行する（ステップＳ７０３）。具体的には、制御部２１の評価部２１２は、ノード候補と、既登録のノードと、の間の距離を算出するとともに、算出された距離を最大距離ｄmaxと比較する。

　ノード候補と、既登録のノードと、の間の距離が最大距離以上であると判定した場合（ステップＳ７０２において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、初期ノードの追加処理を実行する（ステップＳ７０４）。具体的には、制御部２１の評価部２１２は、ノード候補を新規ノードとして追加するとともに、記憶部２２に記録する。

　一方、ノード候補と、既登録のノードと、の間の距離が最大距離未満であると判定した場合（ステップＳ７０３において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、初期ノードの追加処理（ステップＳ７０４）をスキップする。

　次に、支援サーバ２０の制御部２１は、終了かどうかについての判定処理を実行する（ステップＳ７０５）。具体的には、制御部２１の評価部２１２は、活性度が最も低い入力データＤ(i)について処理を終了した場合、終了と判定する。

　終了でないと判定した場合（ステップＳ７０５において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、ノード候補の特定処理（ステップＳ７０２）以降の処理を繰り返す。

　一方、終了と判定した場合（ステップＳ７０５において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、初期ノードの設定処理（ステップＳ６０７）を終了する。
　次に、図１２に示すように、支援サーバ２０の制御部２１は、削除閾値の設定処理を実行する（ステップＳ６０８）。

　図１４を用いて、削除閾値の設定処理（ステップＳ６０８）を説明する。
　ここでは、支援サーバ２０の制御部２１は、ノード活性度のソート処理を実行する（ステップＳ８０１）。具体的には、制御部２１の評価部２１２は、ノード活性度Arate_W(i)を降順に並べ替える。

　次に、支援サーバ２０の制御部２１は、ノード削除閾値の特定処理を実行する（ステップＳ８０２）。具体的には、制御部２１の評価部２１２は、指定順位（Ndw）のノード活性度Arate_W(i)の値を、ノード削除閾値として特定するとともに、記憶部２２に記録する。

　次に、支援サーバ２０の制御部２１は、パス活性度のソート処理を実行する（ステップＳ８０３）。具体的には、制御部２１の評価部２１２は、パス活性度Arate_S(i,j)を、降順に並べ替える。

　次に、支援サーバ２０の制御部２１は、パス削除閾値の特定処理を実行する（ステップＳ８０４）。具体的には、制御部２１の評価部２１２は、指定順位（Nds）のパス活性度Arate_Ｓ(i,j)を、パス削除閾値として特定するとともに、記憶部２２に記録する。

　次に、図９に示すように、オンライン学習処理を実行する。この処理は、オンラインで新たな入力データＤ(i)を取得した場合に行なわれる。ここでは、「ｉ＝１～Ｍ」とする。

　まず、支援サーバ２０の制御部２１は、勝者ノードと距離との特定処理を実行する（ステップＳ４０３）。具体的には、制御部２１の評価部２１２は、記憶部２２に記録された自己組織化マップを構成するノード（既存ノード）の中で、近接ノードとして、Ｎ個のノード（第１勝者～第Ｎ勝者）を特定する。ここでは、評価部２１２は、新たに取得された入力データＤ(i)との位置が近い順番に、Ｎ個のノード（第１勝者～第Ｎ勝者）を特定する。そして、評価部２１２は、入力データＤ(i)と各勝者（第１勝者～第Ｎ勝者）との間の各距離（ｄ1～ｄn）を算出する。

　図１５の（ａ）部分では、2個の勝者（第１勝者ｎ1及び第２勝者ｎ2）を特定するとともに、入力データＤ(i)から各勝者（ｎ1,ｎ2）までの各距離ｄ1，ｄ2を算出する。
　次に、支援サーバ２０の制御部２１は、算出した距離が最大距離よりも遠いかどうかについての判定処理を実行する（ステップＳ４０４）。具体的には、制御部２１の評価部２１２は、新たに取得された入力データＤ(i)と最寄りのノード（ｎ1）との間の距離ｄ1と、最大距離ｄmaxと、を比較する。

　距離ｄ1が最大距離よりも遠い場合（ステップＳ４０４において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、新規ノードの追加処理を実行する（ステップＳ４０５）。具体的には、制御部２１の評価部２１２は、入力データＤ(i)を新規ノードとして記憶部２２に記録する。

　図１５の（ｂ）部分では、第１及び第２ノードｎ1，ｎ2をそれぞれ第２及び第３ノードｎ2，ｎ3とするとともに、入力データＤ(i)を第１ノードｎ1として追加している。
　次に、支援サーバ２０の制御部２１は、ノード及びパスの情報初期化処理を実行する（ステップＳ４０６）。具体的には、制御部２１の評価部２１２は、年齢（Age_w，Age_s）と活性値（Aw，As）とを初期化する。

　図１５の（ｂ）部分に示すように、以下の式により、各ノードの情報を初期化する。ここでは、第１ノードｎ1について、初期化する。

　ここで、ｄは、各ノードｎiと第１ノードｎ1との間の距離である。

　また、第１及び第２ノードｎ1，ｎ2のパスの情報を更新する。

　また、第１及び第３ノードｎ1，ｎ3のパスの情報を更新する。

　一方、距離ｄ1が最大距離ｄmax以下の場合（ステップＳ４０４において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、入力データと第Ｎ勝者までの勝者との活性値ａnの算出処理を実行する（ステップＳ４０７）。ここでは、新規ノード及び既存の第Ｎ勝者までの勝者の活性値ａn（n＝１～Ｎ）を求める。具体的には、制御部２１の評価部２１２は、以下の式を用いて、活性値を算出する。

　ここで、「ｄ」は各ノードｎiと入力データＤ(i)との間の距離である。

　次に、支援サーバ２０の制御部２１は、ノード位置とパス活性値との更新処理を実行する（ステップＳ４０８）。
　具体的には、図１５の（ｃ）部分に示すように、制御部２１の評価部２１２は、以下の式によりノード位置を更新する。

　ここで、「ｇ」は、学習率を表す係数である。

　更に、評価部２１２は、以下の式によりパス活性値Ａsを更新する。

　そして、制御部２１の評価部２１２は、以下の式によりノード活性値Awを更新する。

　また、制御部２１の評価部２１２は、以下の式によりパス活性値Asを更新する。

　次に、支援サーバ２０の制御部２１は、年齢の更新処理を実行する（ステップＳ４０９）。具体的には、制御部２１の評価部２１２は、ノード及びパス各々の年齢Age_w，Age_sにそれぞれ「１」を加算して更新する。

　次に、支援サーバ２０の制御部２１は、ノード活性度及びパス活性度の算出処理を実行する（ステップＳ４１０）。具体的には、制御部２１の評価部２１２は、以下の式によりノード活性度Ａrate_wを算出する。

　制御部２１の評価部２１２は、以下の式によりパス活性度Ａrate_sを算出する。

　次に、支援サーバ２０の制御部２１は、活性度が閾値を下回る、パス及びノードの削除処理を実行する（ステップＳ４１１）。具体的には、制御部２１の評価部２１２は、活性度が閾値を下回るノード及びパスを削除する。

　次に、支援サーバ２０の制御部２１は、終了かどうかについての判定処理を実行する（ステップＳ４１２）。具体的には、制御部２１の評価部２１２は、「ｉ＝Ｍ」の場合に、すべての入力データについて終了と判定する。

　この場合には、オンライン学習処理を終了する。
　一方、終了でないと判定した場合（ステップＳ４１２において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、「ｉ＝ｉ＋１」としてステップＳ４０３以降の処理を繰り返す。

　以上、本実施形態によれば、上記（１－１）、（１－２）と同様の効果に加えて、以下に示す効果を得ることができる。
　（２－１）本実施形態では、支援サーバ２０の制御部２１は、利用変数の貢献度の算出処理（ステップＳ２０１）と、貢献度を考慮した予測誤差の割当処理（ステップＳ２０２）と、を実行する。変数組から生じる予測誤差において、各変数の影響は異なるので、自己組織化マップの各ノードの貢献度で、変数の重み付けを行なうことができる。そして、この重み付けにより、予測誤差を各変数に割り当てることができる。

　（２－２）本実施形態では、支援サーバ２０の制御部２１は、入力データの解析処理を実行する（ステップＳ４０１）。これにより、目的変数と説明変数とを含めた入力データを用いて、自己組織化マップを作成することができる。そして、自己組織化マップを用いた距離の計算により予測を行なうことができるので、予測結果の説明性が高い。

　（２－３）本実施形態では、支援サーバ２０の制御部２１は、自己組織化マップの作成時に、説明変数と目的変数とを調整する。これにより、説明変数と目的変数とをバランスさせた、自己組織化マップを生成することができる。

　（第３実施形態）
　次に、図１６に従って、情報選択システム、情報選択方法及び情報選択プログラムを具体化した第３実施形態を説明する。第２実施形態では、教師あり学習について説明した。第３実施形態は、検証用データを用いて、ノード位置を調整するように変更した構成である。第３実施形態のうち、上記第２実施形態と同様の部分については、同一の符号を付し、その詳細な説明を省略する。第３実施形態は、学習時に、説明変数と目的変数とをカップリングすることで、自己組織化マップを作成する。

　例えば、検証用データの説明変数値を用いた予測結果において、第１ノードｎ1を予測した場合を想定する。そして、第１ノードｎ1の目的変数値よりも、第２ノードｎ2の目的変数値の方が、検証用データの目的変数値（正解）に近い場合を想定する。この場合、説明変数の各次元の距離ｄ（ノード寄与値）同士を比較することで、悪影響を与えている次元を特定することができる。

　図１６を用いて、マップ調整処理を説明する。
　ここでは、ノード毎、及び検証用データ毎、に以下の処理を繰り返す。
　まず、支援サーバ２０の制御部２１は、検証用データについて、予測値の算出処理を実行する（ステップＳ９０１）。具体的には、制御部２１の評価部２１２は、検証用データの説明変数値を、自己組織化マップに入力することで、最も近接するノード（最近接ノード）を特定する。そして、評価部２１２は、最近接ノードの目的変数値を、予測値として取得する。

　次に、支援サーバ２０の制御部２１は、ノード寄与値の算出処理を実行する（ステップＳ９０２）。具体的には、制御部２１の評価部２１２は、以下の差分を用いて、ノード寄与値dAi,jを算出する。

　次に、支援サーバ２０の制御部２１は、移動ベクトルの計算処理を実行する（ステップＳ９０３）。具体的には、制御部２１の評価部２１２は、以下の式を用いて移動ベクトルdVi,jを算出する。

　以上の処理を、すべての検証用データについて終了するまで繰り返す。

　次に、支援サーバ２０の制御部２１は、移動ベクトルの平均ベクトルの算出処理を実行する（ステップＳ９０４）。具体的には、制御部２１の評価部２１２は、以下の式を用いて移動ベクトル（平均ベクトル）dVi,meanを算出する。

　以上の処理を、すべてのノードについて終了するまで繰り返す。

　次に、支援サーバ２０の制御部２１は、移動ベクトルを用いてノード調整処理を実行する（ステップＳ９０５）。具体的には、制御部２１の評価部２１２は、調整係数を乗算した移動ベクトルdVi,meanを用いて、ノードを移動させる。

　次に、支援サーバ２０の制御部２１は、精度の算出処理を実行する（ステップＳ９０６）。具体的には、制御部２１の評価部２１２は、検証用データの説明変数を、調整した自己組織化マップに入力することで、目的変数値を予測する。そして、評価部２１２は、予測した目的変数値と、検証用データの目的変数と、を比較することで、正解の割合（精度）を算出する。

　次に、支援サーバ２０の制御部２１は、収束かどうかについての判定処理を実行する（ステップＳ９０７）。具体的には、制御部２１の予測部２１３は、先行作成のマップの精度と、今回作成のマップの精度と、を比較する。そして、精度が向上している場合には、すなわち今回作成のマップの精度が先行作成のマップの精度よりも良い場合には、収束していないと判定する。なお、収束判定は、精度向上の有無で判定することに限定されるものではない。例えば、精度向上が所定範囲内の場合に、収束と判定してもよい。

　精度が向上している、すなわち、収束でないと判定した場合（ステップＳ９０７において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、今回作成のマップの精度を初期精度として設定するとともに、ステップＳ９０１以降の処理を繰り返す。

　一方、精度が向上していない、すなわち、収束と判定した場合（ステップＳ９０７において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、マップ調整処理を終了する。
　以上、本実施形態によれば、上記（１－１）、（１－２）、及び（２－１）～（２－３）と同様の効果に加えて、以下に示す効果を得ることができる。

　（３－１）本実施形態では、支援サーバ２０の制御部２１は、ノード寄与値の算出処理を実行する（ステップＳ９０２）。これにより、ノード寄与値に応じて、予測失敗の原因を分析することができる。すなわち、各次元における「検証用データと正解ノードとの間の距離」と、「検証用データと不正解ノードとの間の距離」と、の大小関係により、予測に良い影響を与えるノードと、予測に悪影響を与えるノードと、を識別できる。

　（３－２）本実施形態では、支援サーバ２０の制御部２１は、移動ベクトルの計算処理を実行する（ステップＳ９０３）。これにより、予測失敗の原因となったノードを移動させることで、自己組織化マップを改善できる。

　本実施形態は、以下のように変更して実施することができる。本実施形態及び以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。
　・上記第１実施形態では、支援サーバ２０の制御部２１は、所定数の変数の削除処理を実行する（ステップＳ１０２）。削除対象として、２個の変数を特定するが、複数種類の変数を削除対象として特定すればよいので、削除対象の変数の数は２個に限定されない。

　・上記第１実施形態では、支援サーバ２０の制御部２１は、所定数の変数の削除処理（ステップＳ１０２）と、予測誤差の算出処理（ステップＳ１０４）と、を実行する。ここでは、複数の説明変数の中で、所定数の変数を削除することにより、削除されずに残った一部の変数からなる教師データを用いて、解析モデルを作成する。ここで、複数の教師データからなる情報において、順次、一部の情報を用いることで、複数の解析モデルを生成できればよいので、削除対象は変数に限定されない。例えば、所定数の教師データを削除することで生成したデータセット（複数の教師データの中の一部）を用いて、解析モデルを生成してもよい。

　・上記第１実施形態では、情報処理として機械学習を行なうが、情報処理は解析モデルを生成するものであればよいので、情報処理は機械学習に限定されない。
　・上記第１実施形態では、オンライン学習処理を実行する。しかし、自己組織化マップを生成できればよいので、オンライン処理に限定されるものではない。例えば、バッチ処理によって生成した自己組織化マップを用いることで、クラスタリングを行なうようにしてもよい。

　・上記第１実施形態では、支援サーバ２０の制御部２１は、入力データの解析処理の実行（ステップＳ４０１）において、最大距離ｄmaxを算出する。ここで、最大距離ｄmaxは、入力データを代表する統計値であればよいので、最大距離ｄmaxの算出方法は限定されない。また、最大距離ｄmaxの初期値を予め設定しておき、入力データ数の増加に応じて最大距離ｄmaxを再計算してもよい。

　・第２実施形態において、支援サーバ２０の制御部２１は、自己組織化マップを用いる（図６のステップＳ２０１）。具体的には、制御部２１の評価部２１２は、入力データの説明変数の変数値に最も近いノードを特定する。ここで、最も近い第１ノードｎ1に接続する複数のノードを用いて、回帰で目的変数を予測してもよい。

　この場合、最も近い第１ノードｎ1にパスによって接続している他のノードを利用して、複数のノードを特定してもよい。
　・上記第３実施形態では、ノード寄与値を用いてノード位置を調整する（図１６のステップＳ９０２）。ここで、代わりに又は追加して、パスの寄与値に基づいて、ノード位置を調整するようにしてもよい。例えば、検証用データの説明変数値を用いて予測した第１ノードｎ1の目的変数値よりも、第２ノードｎ2の目的変数値の方が、検証用データの目的変数値（正解）に近い場合を想定する。この場合、説明変数の各次元の距離Ｄ同士を比較することで、悪影響を与えている次元を特定する。

　図１７を用いて、マップ調整処理を説明する。
　ここでは、検証用データ毎に以下の処理を繰り返す。
　まず、支援サーバ２０の制御部２１は、ステップＳ９０１と同様に、検証用データについて、予測値の算出処理を実行する（ステップＳＸ０１）。

　次に、支援サーバ２０の制御部２１は、ステップＳ９０２と同様に、ノード寄与値の算出処理を実行する（ステップＳＸ０２）。
　次に、支援サーバ２０の制御部２１は、パス寄与値の算出処理を実行する（ステップＳＸ０３）。具体的には、制御部２１の評価部２１２は、以下の差分を用いてパス寄与値dAk,l（ここで、ｌは小文字のエル）を算出する。

　次に、支援サーバ２０の制御部２１は、ノードの寄与値の合計処理を実行する（ステップＳＸ０４）。具体的には、制御部２１の評価部２１２は、以下の式を用いてノードの寄与値の合計dASiを算出する。

　次に、支援サーバ２０の制御部２１は、パスの寄与値の合計処理を実行する（ステップＳＸ０５）。具体的には、制御部２１の評価部２１２は、以下の式を用いて、パスの寄与値の合計dASkを算出する。

　次に、支援サーバ２０の制御部２１は、悪影響ノード及び悪影響パスの特定処理を実行する（ステップＳＸ０６）。具体的には、制御部２１の評価部２１２は、ノードの寄与値の合計dASiと、パスの寄与値の合計dASkと、をそれぞれ降順で並べ替える。そして、評価部２１２は、上位所定数のdASi及びdASkに各々対応するノード及びパスを、悪影響ノード及び悪影響パスとして特定する。

　次に、支援サーバ２０の制御部２１は、悪影響ノード及び悪影響パスの削除処理を実行する（ステップＳＸ０７）。具体的には、制御部２１の評価部２１２は、特定した悪影響ノード及び悪影響パスを削除する。

　ノードの寄与値の合計dASiが正の場合や、パスの寄与値の合計dASkが正の場合、対応するノードやパスは予測に悪影響を与える可能性が高い。そこで、このマップ調整処理によれば、ノードの寄与値やパスの寄与値に応じて、影響を与えるノードやパスを削除することができる。

　・上記第２実施形態では、各パス及び各ノードは、年齢に関する情報を保持させた自己組織化マップを用いた。学習中に必要に応じてニューロンを増殖させる学習手法として、進化型自己組織化マップ（ESOM：Evolving SOM）を用いることも可能である。更に、自己増殖型ニューラルネットワーク（SOINN：Self-Organizing Incremental Neural Network）を用いることも可能である。このSOINNは、Growing Neural Gas（ＧＮＧ）と自己組織化マップ（ＳＯＭ）を拡張した、追加学習可能なオンライン教師なし学習手法である。具体的には、SOINNは、動的に形状が変化する非定常でかつ複雑な形状を持つ分布からオンラインで得られる入力に対して、ネットワークを自己組織的に形成することで、適切なクラス数と入力分布との位相構造を出力する。

　図１８を用いて、このESOMのオンライン学習処理を説明する。
　まず、支援サーバ２０の制御部２１は、初期ノードを設定する（ステップＳＸ１１）。具体的には、支援サーバ２０の制御部２１は、入力データＤ(i)（ｉ＝１～Ｍ）の中からランダムに２個を選択して初期ノードとして設定する。この場合、データインデックスｉ＝１とする。

　次に、支援サーバ２０の制御部２１は、勝者ノードを決定する（ステップＳＸ１２）。
　ここでは、図１９の（ａ）部分に示すように、入力データＤ(i)に最も近い第１ノードｎ1（第１勝者、入力データＤ（ｉ）に対する距離ｄ1）と、２番目に近い第２ノードｎ2（第２勝者、入力データＤ（ｉ）に対する距離ｄ2）と、を求める。

　次に、支援サーバ２０の制御部２１は、入力データＤ(i)から第１勝者（ｎ1）までの距離ｄ1が、基準距離よりも長いかどうかを判定する（ステップＳＸ１３）。
　距離ｄ１が基準距離よりも長い場合（ステップＳＸ１３において「ＹＥＳ」の場合）には、支援サーバ２０の制御部２１は、入力データＤ(i)をノードに更新する（ステップＳＸ１４）。そして、勝者ノードに基づいて、ｎ1をｎ2に、Ｄ(i)をｎ1に、ｎ2をｎ3に、更新する。更に、パスの活性値の初期化（As(n1,:)=0）を行なう。

　図１９の（ｂ）部分に示すように、新たな第１ノードｎ1を生成する。
　一方、距離ｄ1が基準距離以下の場合（ステップＳＸ１３において「ＮＯ」の場合）には、支援サーバ２０の制御部２１は、ノード位置及びパス活性値を更新する（ステップＳＸ１５）。

　具体的には、図１９の（ｃ）部分に示すように、入力データＤ(i)と、第１及び第２ノードｎ1,ｎ2の各々と、の間の距離に応じた活性値ａ1，ａ2を求める。

　また、ノード位置とパス活性値As(n1,n2)を、以下に示すように更新する（Hebb則）。

　そして、mod（ｉ，指定間隔）＝０の場合には、活性値が最小値となるパスを削除する（ステップＳＸ１６）。

　次に、支援サーバ２０の制御部２１は、終了かどうかを判定する（ステップＳＸ１７）。ここで、ｉ＝Ｍの場合（ステップＳＸ１７において「ＹＥＳ」の場合）には、支援サーバ２０の制御部２１は、オンライン学習処理を終了する。一方、ｉ≠Ｍの場合（ステップＳＸ１７において「ＮＯ」の場合）には、支援サーバ２０の制御部２１は、「ｉ＝ｉ＋１」として、ステップＳＸ１２以降の処理を繰り返す。

　・上記第２実施形態では、支援サーバ２０の制御部２１は、利用変数の貢献度の算出処理（ステップＳ２０１）と、貢献度を考慮した予測誤差の割当処理（ステップＳ２０２）と、を実行する。ここで、「dD_i,k(l,j)」の正と負の寄与値を等しくするため、「dD_i,k(l,j)」の符号で処理を分けてもよい。例えば、「dD_i,k(l,j)」が正の場合が少なく、負の場合が多い場合、「dD_i,k(l,j)」の正負で処理を分けずに計算すると、正データの寄与値が少なく見積もられる可能性がある。ここで、「dD_i,k(l,j)」の正負により処理を分けることにより、寄与値は等しく計算される。

　このため、「dD_i,k(i,j)>0」の場合には、第１ノードｎ1が第２ノードｎ2よりも正解から遠い変数の集計を行なうべく、以下の式を用いる。

　一方、「dD_i,k(i,j)＜0」の場合には、第１ノードｎ1が第２ノードｎ2よりも正解から遠い変数の集計を行なうべく、以下の式を用いる。

　以下では、dD_i,k(l,j)の符号で処理を分ける理由について説明する。

　図２０には、ｉ番目の試行、ｋ番目のデータ、における「－ddA_i,k(l)dD_i,k(l,j)」の一例を示す。ここで、「－ddA_i,k(l)dD_i,k(l,j)>0」となる次元ｌ（小文字のエル）の部分集合をｌ１（エルワン）、「－ddA_i,k(l)dD_i,k(l,j)＜0」となる次元ｌの部分集合をｌ２（エルツー）とする。

　部分集合ｌ１（エルワン）の数が、部分集合ｌ２に比べて極端に少ない場合を想定する。これは、有効な変数が、全体の変数に比べて非常に少ない場合に相当する。
　このような場合、抽出した有効な部分集合ｌ１の貢献度が、部分集合ｌ２が多いために、非常に小さくなってしまう。

　dD_i,k(l,j)の符号で正規化を分ければ、「部分集合ｌ１の貢献度の合計」＝－「部分集合ｌ２の貢献度の合計」となる。よって、抽出できた有効な変数ｌ１（エルワン）の貢献度を強調することができる。

Claims

　解析モデルの生成に用いる情報を選択する制御部を備えた、情報選択システムであって、
　前記制御部が、
　複数の教師データからなる情報において、一部の情報を用いて、複数の解析モデルを生成するとともに、前記各解析モデルの精度を算出することと、
　前記各精度に応じた分配値を、前記解析モデルの生成に用いた情報に割り当てることと、
　前記解析モデルの生成に用いた情報毎に、前記分配値の統計値を算出することと、
　前記統計値を用いて、前記解析モデルの生成に用いる情報を選択することと、
を行なうように構成されている、情報選択システム。
　前記制御部が、前記解析モデルの生成に用いる情報として、前記教師データを構成する説明変数の中で、前記解析モデルの生成に用いる変数を選択するように構成されている、
　請求項１に記載の情報選択システム。
　前記制御部が、
　前記教師データとして、説明変数値と目的変数値とを組み合わせたデータセットを用いて生成した自己組織化マップに対して、検証用データの説明変数値を入力することで、前記説明変数値を予測することと、
　前記検証用データの説明変数値と、前記予測した説明変数値と、を比較することで、前記各説明変数の寄与値を算出することと、
　前記寄与値を用いて、前記各精度に応じた分配値を算出することと、
を行なうように構成されている、請求項２に記載の情報選択システム。
　前記制御部が、
　前記教師データの前記説明変数を用いた予測において、目的変数の予測結果に対する寄与値を算出することと、
　前記寄与値に基づいて、前記各精度に応じた分配値を、前記各説明変数に割り当てることと、
を行なうように構成されている、請求項２又は３に記載の情報選択システム。
　前記制御部が、
　目的変数と説明変数とを含む教師データを用いて、前記解析モデルとして、ノードとパスとからなる自己組織化マップを生成することと、
　前記自己組織化マップにおいて、前記教師データの前記説明変数に対して予測された目的変数の前記予測結果から、各寄与値を算出することと、
を行なうように構成されている、請求項４に記載の情報選択システム。
　前記制御部が、前記解析モデルの生成に用いる情報として、前記複数の教師データの中で、前記解析モデルの生成に用いる教師データを選択するように構成されている、
　請求項１記載の情報選択システム。
　制御部を備えた情報選択システムを用いて、解析モデルの生成に用いる情報を選択する方法としての情報選択方法であって、前記情報選択方法は、
　前記制御部が、
　複数の教師データからなる情報において、一部の情報を用いて、複数の解析モデルを生成するとともに、前記各解析モデルの精度を算出することと、
　前記各精度に応じた分配値を、前記解析モデルの生成に用いた情報に割り当ることと、
　前記解析モデルの生成に用いた情報毎に、前記分配値の統計値を算出することと、
　前記統計値を用いて、前記解析モデルの生成に用いる情報を選択することと、
を備えている、情報選択方法。
　制御部を備えた情報選択システムを用いて、解析モデルの生成に用いる情報を選択するためのプログラムとしての情報選択プログラムであって、前記情報選択プログラムは
　前記制御部を、
　複数の教師データからなる情報において、一部の情報を用いて、複数の解析モデルを生成するとともに、前記各解析モデルの精度を算出することと、
　前記各精度に応じた分配値を、前記解析モデルの生成に用いた情報に割り当てることと、
　前記解析モデルの生成に用いた情報毎に、前記分配値の統計値を算出することと、
　前記統計値を用いて、前記解析モデルの生成に用いる情報を選択することと、
を行なう手段として機能させるための、情報選択プログラム。