WO2018142753A1

WO2018142753A1 - ディープラーニングを用いる情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: WO2018142753A1
Application number: PCT/JP2017/043565
Authority: WO
Inventors: 雄介大井
Original assignee: 日本電気株式会社
Priority date: 2017-02-02
Filing date: 2017-12-05
Publication date: 2018-08-09
Also published as: JPWO2018142753A1; US20190392295A1; JP7017149B2

Abstract

情報処理装置２０は、ディープラーニングのモデルにおける主要な説明変数を抽出できるようにするために、データベース３０に格納されているデータに基づいてディープラーニングモデルを用いて予測処理を実行するディープラーニング予測部２１と、ディープラーニング予測部２１による予測結果を目的変数とし、データを説明変数として重回帰分析を行い、重回帰分析の結果に基づいて、ディープラーニングモデルの予測結果を説明するための変数を決定する変数抽出部２２とを備えている。

Description

ディープラーニングを用いる情報処理装置、情報処理方法及び情報処理プログラム

　本発明は、ディープラーニングによる予測値を良く説明する変数を抽出する情報処理装置に関する。

　金融機関などの企業は、MCIF（Marketing Customer Information File ：顧客属性情報、顧客商品保有情報、顧客各種契約情報、顧客トランザクション情報、顧客利用チャネル情報、顧客コンタクト情報、顧客プロモーション結果情報、顧客アンケート情報、顧客収益情報、一部の外部情報などの多岐に渡る顧客情報が、顧客番号によって一元管理された膨大なシングルソースデータ）を、顧客の属性データとして保有している。一例として、顧客属性は、性別や年齢である。顧客商品保有情報として、普通預金の情報（金額情報を含む。）、総資産額の変動の情報、総資産に占める普通預金の割合の情報などがある。顧客利用チャネル情報として、ＡＴＭ（Automated Teller Machine）の年間利用回数の情報、手数料を伴うＡＴＭの年間利用回数の情報、窓口の年間利用回数の情報などがある。顧客プロモーション結果情報として、ダイレクトメールに応答したか否かを示す情報などがある。

　金融機関などの企業は、MCIFのデータを分析して、消費者が商品（一例として、金融機関が提供するカードローン）を購入する行動の背後にあるCustomer Insight（顧客深層心理）を抽出することがある。Customer Insightは、顧客の行動や態度の根底にある本音や核心である。例えば、カードローンを利用する顧客に関して、ボーナス月の前月に入出金回数が５０％増大する傾向がある。なお、顧客は消費者に含まれることがあるので、以下、Customer Insightを消費者深層心理（Consumer Insight）と表現することがある。また、顧客を、消費者と広く表現することがある。

　MCIFのデータの分析には、主として、ロジスティック回帰分析が使用されている。ロジスティック回帰分析の説明変数の選択には、例えば、ステップワイズ法が使用される。

　ロジスティック回帰分析を使用する場合、妥当な分析結果を得るための説明変数の数は１００未満程度である。ところが、一般に、分析対象のデータ（MCIFのデータなど）には、説明変数になり得る１０，０００程度のデータが含まれている。よって、分析者は、回帰分析に使用する説明変数を、暗黙知などに基づいて１００程度に絞り込む必要がある。

　また、ロジスティック回帰のモデル生成によく使用されるステップワイズ法は、説明変数を１個ずつ追加しながらモデル評価を繰り返す手法である。分析者は、目的変数を最も良く説明すると考える説明変数から順番に追加して、分析者は、所要の予測精度を達成するモデルを構築できたと判断したタイミングで説明変数の追加を打ち切る。従って、でき上がったモデルには、分析者の主観が強く反映されている可能性がある。なお、「良く目的変数を説明する」は、目的変数に対する影響度が高い（標準偏回帰係数が大きい）ことに対応する。

　すなわち、ロジスティック回帰分析をはじめとする、発見したルールを説明できるホワイトボックス型の機械学習技術（重回帰分析や決定木学習など）では、分析者の主観によって選択された限られた説明変数から予測が行われる。その結果、予測の際に説明変数の見逃しが発生する可能性が生ずる。

　ディープラーニング（深層学習）は、説明変数選択を自動化する分析フレームワークとして注目されている。ディープラーニングは、目的変数への影響度が高い特徴量を説明変数から自動抽出する機能を内包している。

　非特許文献１に、ディープラーニングを用いたMCIFのデータの分析が記載されている。非特許文献１には、従前の機械学習と比較して、ディープラーニングは、予測精度を１０ポイント以上改善できると記載されている。

　なお、非特許文献１には、MCIFから顧客の過去の１２ヶ月間のデータを入力とし、将来の３ヶ月間のカードローン新規保有者が予測されたことが記載されている。まず、過去の１２ヶ月間のデータと３ヶ月間の正解データとからなる学習データを用いて、従前の機械学習としてのロジスティック回帰モデルとディープラーニングモデルとが構築された。その後、１５ヶ月間に亘る別の検証データを用いて、双方のモデルが評価された。具体的には、各々のモデルに、検証データのうちの１２ヶ月間のデータが入力され、各々のモデルの予測結果と３ヶ月間の正解データとが比較されることによって、評価がなされた。

　ディープラーニングのモデルを使用すると、説明変数の絞込みを行わずに分析ができるので、説明変数を絞込むときに説明変数を見逃すことがあるという上述した課題が解決される。

「金融行動に対する人工知能の実証研究」，影井智宏（Tomohiro KAGEI）　友永康之（Yasuyuki TOMONAGA ）　松下伴理（Banri MATSUSHITA），日本マーケティング学会（Japan Marketing Academy ），Conference Proceedings vol.5 2016 197-208ページ，2016年10月12日発行

　しかし、ディープラーニングは、発見したルールを説明できないブラックボックス型の分析技術である。換言すれば、ディープラーニングでは、データから生成されたモデルの中身を知ることができない。よって、分析者は、どの説明変数が予測結果に影響を与えているか知ることができない。

　ディープラーニングがブラックボックス型の技術であることが、説明性が求められる分野でディープラーニングを使用する際のハードルになっている。説明性が求められる分野として、例えば、マーケティング業務がある。マーケティング業務では、消費者行動（カードローンの新規保有等）を説明するためのCustomer Insightを抽出することが望ましい。Customer Insightとして、例えば、消費者の一時的な所持金不足がある。

　本発明は、ディープラーニングのモデルにおける主要な説明変数を抽出できるようにすることを目的とする。

　本発明によるディープラーニングを用いる情報処理装置は、データベースに格納されているデータに基づいてディープラーニングモデルを用いて予測処理を実行するディープラーニング予測手段と、ディープラーニング予測手段による予測結果を目的変数とし、データベースに格納されているデータを説明変数として重回帰分析を行い、重回帰分析の結果に基づいて、ディープラーニングモデルの予測結果を説明するための変数を決定する変数抽出手段とを備えたことを特徴とする。

　本発明によるディープラーニングを用いる情報処理方法は、データベースに格納されているデータに基づいてディープラーニングモデルを用いて予測処理を実行し、予測処理の予測結果を目的変数とし、データベースに格納されているデータを説明変数として重回帰分析を行い、重回帰分析の結果に基づいて、ディープラーニングモデルの予測結果を説明するための変数を決定することを特徴とする。

　本発明によるディープラーニングを用いる情報処理プログラムは、コンピュータに、データベースに格納されているデータに基づいてディープラーニングモデルを用いて予測処理を実行する処理と、予測処理の予測結果を目的変数とし、データベースに格納されているデータを説明変数として重回帰分析を行い、重回帰分析の結果に基づいて、ディープラーニングモデルの予測結果を説明するための変数を決定する処理とを実行させることを特徴とする。

　本発明によれば、ディープラーニングのモデルにおける主要な説明変数（予測結果を良く説明する変数）を抽出できるようになる。

実施形態としてのCustomer Insight自動抽出装置の構成を示すブロック図である。事前学習処理を示すフローチャートである。ディープラーニング予測処理を示すフローチャートである。レコードのID（顧客ID）に対応付けられる予測結果（予測値）の例を示す説明図である。予測結果（予測値）及び属性データ＃２の一例を示す説明図である。説明変数抽出処理を示すフローチャートである。他の実施形態のCustomer Insight自動抽出装置の構成を示すブロック図である。予測結果集計部が作成する表の一例を示す説明図である。ロジスティック回帰モデルを用いた評価結果とディープラーニングモデルを用いた評価結果との比較の様子を示す説明図である。予測結果集計処理を示すフローチャートである。顧客に対するロジスティック回帰による予測スコアとディープラーニングによる予測スコアとの一例を示す説明図である。顧客IDに対応して、ロジスティック回帰による予測スコアとディープラーニングによる予測スコアとが設定された表の一例を示す説明図である。顧客IDに対応して、属性値及びディープラーニングによる予測スコアとが設定された表の一例を示す説明図である。ディープラーニングを用いる情報処理装置の主要部を示すブロック図である。ディープラーニングを用いる他の情報処理装置の主要部を示すブロック図である。

実施形態１．
　以下、本発明の実施形態を図面を参照して説明する。図１は、本発明の実施形態としてのCustomer Insight自動抽出装置１００の構成を示すブロック図である。図１に示すように、Customer Insight自動抽出装置１００は、MCIF記憶部１、第１属性データ抽出部２、ディープラーニング学習部３、ディープラーニングモデル記憶部４、第２属性データ抽出部５、ディープラーニング予測部６、予測結果記憶部７、及び説明変数抽出部８を含む。なお、図１において、破線で囲まれた各ブロックは、ディープラーニングに関連するブロックである。

　Customer Insight自動抽出装置１００は、パーソナルコンピュータやサーバなどの情報処理装置で実現される。すなわち、第１属性データ抽出部２、ディープラーニング学習部３、第２属性データ抽出部５、ディープラーニング予測部６、及び説明変数抽出部８は、ＲＯＭ（Read Only Memory）やハードディスクなどの記憶装置に格納されたプログラムに従って処理を実行するＣＰＵ（Central Processing Unit ）を有する情報処理装置で実現される。本実施形態では、Customer Insight自動抽出装置１００がサーバで実現される例を想定する。

　ただし、第１属性データ抽出部２、ディープラーニング学習部３、第２属性データ抽出部５、ディープラーニング予測部６、及び説明変数抽出部８は、個別のハードウェアでも実現可能である。

　MCIF記憶部１は、MCIFを記憶するデータベースである。MCIF記憶部１は、Customer Insight自動抽出装置１００の外に設置されていてもよく、通信ネットワークを介してアクセス可能であるように設置されていてもよい。第１属性データ抽出部２は、MCIFから、ディープラーニング学習部３が使用する属性データ及び正解データ（ハードターゲット）を抽出する。ディープラーニング学習部３は、第１属性データ抽出部２が抽出した学習用の属性データ及び正解データを用いて学習を実施し、ディープラーニングモデルを作成する。ディープラーニングモデル記憶部４は、ディープラーニング学習部３の学習結果（ディープラーニングモデル）を保持する。

　第２属性データ抽出部５は、MCIFから、ディープラーニング予測部６及び説明変数抽出部８が使用する属性データを抽出する。ディープラーニング予測部６は、ディープラーニングモデル記憶部４からディープラーニングモデルを入力し、第２属性データ抽出部５によって抽出された属性データに対して予測を実行し、スコア付けを行う。予測結果記憶部７は、第２属性データ抽出部５によって抽出された属性データとソフトターゲット（ディープラーニング予測部６によって、対応する属性データに付けされたスコア）とを、レコードごとに対（pair）にして保持する。

　説明変数抽出部８は、予測結果記憶部７から読み出した属性データとソフトターゲットとを用いて重回帰分析を実施し、属性データに対応する目的変数（ソフトターゲット）を良く説明する主要な説明変数（重回帰式において重み値又は標準偏回帰係数が大きいｋ件）を抽出する。

　なお、ｋの値は任意に設定可能な自然数であるが、例えば、全体の５％に相当する値である。

　次に、Customer Insight自動抽出装置１００の動作を説明する。Customer Insight自動抽出装置１００は、事前学習処理（pre-training：ディープラーニング学習処理）、ディープラーニング予測処理及び説明変数抽出処理を実行する。

　図２は、事前学習処理を示すフローチャートである。事前学習処理において、第１属性データ抽出部２は、MCIF記憶部１から、会員（顧客）の属性データ及び正解データ（ハードターゲット）を読み出し、それらを学習データとする（ステップＳ１０１）。

　第１属性データ抽出部２は、ステップＳ１０１の処理で、例えば、所定期間（学習用の期間）における全ての属性データ（属性データ＃１とする。）を説明変数として抽出する。ディープラーニング学習部３は、読み出された学習データを用いて学習を行う（ステップＳ１０２）。

　ディープラーニング学習部３は、学習によって作成したディープラーニングモデルをディープラーニングモデル記憶部４に保存する（ステップＳ１０３）。

　図３は、ディープラーニング予測処理を示すフローチャートである。ディープラーニング予測処理において、第２属性データ抽出部５は、MCIF記憶部１から、会員（顧客）の属性データを読み出す（ステップＳ２０１）。ディープラーニング予測部６は、ディープラーニングモデル記憶部４からディープラーニングモデルを読み出す（ステップＳ２０２）。

　ディープラーニング予測部６は、ステップＳ２０１の処理で、上記の属性データ＃１が属する期間とは異なる期間（未学習の期間）における属性データ（属性データ＃２とする。）を説明変数として抽出する。

　ディープラーニング予測部６は、属性データ＃２を入力データとして、ステップＳ２０２の処理で読み出したディープラーニングモデルで予測を実行し、予測スコア（予測値）を計算する（ステップＳ２０３）。図４に示すように、予測結果（予測値）は、レコードのID（顧客ID）に対応付けられる。

　ディープラーニング予測部６は、ステップＳ２０３の処理で得られた予測結果（予測値）及び属性データ＃２をレコードのIDと対（pair）にして、予測結果記憶部７に格納する（ステップＳ２０４）。図５は、予測結果記憶部７に格納された予測結果（予測値）及び属性データ＃２の一例を示す説明図である。図５に示す例では、属性データ＃２は、属性値＃１から属性値＃ＭのＭ種類の属性に関するデータを含む。

　なお、ステップＳ２０３の処理で得られた予測値は、目的変数の予測値（ソフトターゲット）に位置づけられる。予測値は、重回帰分析における目的変数とされる。

　図６は、説明変数抽出処理を示すフローチャートである。説明変数抽出処理において、説明変数抽出部８は、予測結果記憶部７から、属性データ＃２と、ソフトターゲットすなわちディープラーニングモデルから算出された予測値とを読み出す（ステップＳ３０１）。説明変数抽出部８は、読み出した属性データ＃２とソフトターゲットとを用いて重回帰分析を実行する（ステップＳ３０２）。説明変数抽出部８は、ステップＳ３０２の処理で、属性データ＃２を重回帰分析の説明変数とし、ステップＳ２０３の処理で得られた予測値を重回帰分析の目的変数とする。

　説明変数抽出部８は、ステップＳ３０２の重回帰分析で導かれる重回帰式において重み値（偏回帰係数）が大きいｋ件を主要な説明変数として抽出する（ステップＳ３０３）。

　抽出された説明変数は、ディープラーニングのモデルの主要な説明変数とされる。説明変数は、ホワイトボックス型の機械学習技術で得られた変数である。よって、本実施形態では、説明変数の見逃しが発生する可能性を低減できる上に、予測結果に影響を与えている変数を把握することが可能になる。換言すれば、分析者は、ディープラーニングを使用しても、予測結果に影響を与える変数を説明できる。

　以上のように、本実施形態では、学習用の期間の属性データ＃１から作成されたディープラーニングのモデルを用いて、未学習の期間のデータが予測され、予測結果のスコア（予測値）をソフトターゲットとして、未学習の期間の属性データ＃２とソフトターゲットとを使用して重回帰分析することによって、ディープラーニングモデルの主要な説明変数を抽出できる。

　また、本実施形態のCustomer Insight自動抽出装置１００は、予測結果に影響を与える説明可能な変数を特定することができるので、影響度（重回帰分析の偏回帰係数）から、Customer Insightを推測することも可能になる。

実施形態２.
　第１の実施形態では、ディープラーニングによる予測結果の全てが使用される重回帰分析が実行されることになるが、第２の実施形態では、重回帰分析における目的変数が絞り込まれる。

　図７は、第２の実施形態のCustomer Insight自動抽出装置１０１の構成を示すブロック図である。図７に示すように、Customer Insight自動抽出装置１０１は、図１に示されたCustomer Insight自動抽出装置１００が備える各ブロックに加えて、ロジスティック回帰モデル記憶部９、ロジスティック回帰予測部１０、及び予測結果集計部１１を備えている。

　なお、ロジスティック回帰予測部１０及び予測結果集計部１１は、例えば、サーバにおいて、ＲＯＭやハードディスクなどの記憶装置に格納されたプログラムに従って処理を実行するＣＰＵで実現される。しかし、ロジスティック回帰予測部１０及び予測結果集計部１１は、個別のハードウェアで実現されてもよい。

　ロジスティック回帰モデル記憶部９は、ロジスティック回帰を用いたモデル（ロジスティック回帰モデル）を保持する。ロジスティック回帰モデルは、あらかじめ作成され、ロジスティック回帰モデル記憶部９に格納される。ロジスティック回帰モデルの目的変数が例えばカードローン新規保有者である場合、ロジスティック回帰モデルの説明変数は、カードローン新規保有者に対する影響度が高いと考えられる顧客の属性データである。

　ロジスティック回帰予測部１０は、ロジスティック回帰モデル記憶部９からロジスティック回帰モデル（以下、既存モデルという。）を読み出し、MCIF記憶部１から第２属性データ抽出部５によって抽出された属性データ＃２に対して予測を実行し、スコア付けを行う。

　予測結果集計部１１は、ディープラーニング予測部６及びロジスティック回帰予測部１０によってスコア付けされたデータを、上位（すなわち、予測値が大きい。）Ｎ％を高いスコアのデータ、それ以外を低いスコアのデータとして２つに分ける。なお、Ｎの値は任意に設定可能であるが、一例として「５」である。予測結果集計部１１は、データの比較が容易になるように、図８に示すような表を作成する。表には、未知のペルソナが設定される。ここでは、「ペルソナ」は、Customer Insightを意味する。

　図９は、非特許文献１に記載されたロジスティック回帰モデルを用いた評価結果とディープラーニングモデルを用いた評価結果との比較の様子を示す説明図である。非特許文献１に記載された評価は、具体的には、カードローン新規保有者の予測（新規に保有する見込度（スコア）が高い顧客の抽出）である。図９（Ａ）には、ロジスティック回帰モデルによる評価結果とディープラーニングモデルによる評価結果とにおいて、上位のスコアを有する顧客を抽出した場合に重複する顧客の割合が示されている。図９（Ｂ）には、正解顧客のディープラーニングでのスコア及び正解顧客のロジスティック回帰分析でのスコアを％表示した場合、％に対応させて顧客がプロットされている説明図である。

　図９（Ａ）に示すように、ディープラーニングモデルを用いた評価結果に基づくスコアが高い順に５％の顧客が抽出され、ロジスティック回帰モデルに基づくスコアが高い順に５％の顧客が抽出されたときに、重複顧客の割合は、４０．８％である。また、図９（Ｂ）に示すように、正解顧客のうち高いスコアを有する者は、ロジスティック回帰モデルで評価された場合でもディープラーニングモデルで評価された場合でも集中して分布するが（図９（Ｂ）における丸囲み参照）、分布の集中エリアから離れて分布する正解顧客（ディープラーニングモデルで評価された場合の高いスコアを有する正解顧客）も存在する。このことから、ディープラーニングによって、ロジスティック回帰分析では抽出されなかった見込み度が高い顧客（この例では、カードローンを新規に保有する者）も抽出されたといえる。

　第２の実施形態では、ロジスティック回帰分析では抽出されなかった見込み度が高い顧客を対象として分析が行われる。なお、そのような顧客は、図８における「（２）未知のペルソナ」に対応する。

　第２の実施形態では、Customer Insight自動抽出装置１０１は、事前学習処理、予測結果集計処理及び説明変数抽出処理を実行する。第２の実施形態における事前学習処理及び説明変数抽出処理は、第１の実施形態における事前学習処理及び説明変数抽出処理と同様に実行される。

　図１０は、予測結果集計処理を示すフローチャートである。予測結果集計処理において、第２属性データ抽出部５は、MCIF記憶部１から、会員（顧客）の属性データ＃２を読み出す（ステップＳ４０１）。ディープラーニング予測部６は、ディープラーニングモデル記憶部４からディープラーニングモデルを読み出す（ステップＳ４０２）。

　ディープラーニング予測部６は、属性データ＃２を入力データとして、ステップＳ４０２の処理で読み出されたディープラーニングモデルで予測を実行し、予測スコア（予測値）を計算する（ステップＳ４０３）。

　ロジスティック回帰予測部１０は、ロジスティック回帰モデル記憶部９からロジスティック回帰モデルを読み出す（ステップＳ４０４）。ロジスティック回帰予測部１０は、属性データ＃２とロジスティック回帰モデルとを用いて予測を実行し、予測スコア（予測値）を計算する（ステップＳ４０５）。

　予測結果集計部１１は、ディープラーニングモデルによる予測スコアとロジスティック回帰による予測スコアとを集計し、図８に例示されたような表を作成する（ステップＳ４０６）。

　具体的には、予測結果集計部１１は、全ての予測スコアを２値に分類する。例えば、予測スコアの上位Ｎ％を「予測スコアが高い」とし、それ以外を「予測スコアが低い」とする。さらに、以下のようにグループ化する（図８参照）。

（１）ディープラーニングによる予測スコアが低く（例えば、下位の（１００－Ｎ）％に入っている。）、ロジスティック回帰による予測スコアが低い
（２）ディープラーニングによる予測スコアが高く（例えば、上位のＮ％に入っている。）、ロジスティック回帰による予測スコアが低い
（３）ディープラーニングによる予測スコアが低く、ロジスティック回帰による予測スコアが高い
（４）ディープラーニングによる予測スコアが高く、ロジスティック回帰による予測スコアが高い

　具体的には、予測結果集計部１１は、図１１に示すように、顧客に対するロジスティック回帰分析による予測スコアとディープラーニングによる予測スコアとを並べる。そして、予測結果集計部１１は、各予測スコアを、高いスコア又は低いスコアに分類し、図１２に示すような表を作成する。さらに、予測結果集計部１１は、予測スコアを集計することによって、図８に示された表を得る。

　その後、予測結果集計部１１は、ステップＳ４０６の処理による集計結果のうち、「ディープラーニングによる予測スコアが高く、ロジスティック回帰分析による予測スコアが低い」グループ（サンプル群）に属するデータ（サンプル）の属性データと予測スコアとを予測結果記憶部７に保存する（ステップＳ４０７）。具体的には、予測結果集計部１１は、図１２に例示された表において「ディープラーニングによる予測スコアが高く、ロジスティック回帰分析による予測スコアが低い」データに対応する顧客IDの属性データと予測スコアとを抽出し、図１３に示すように、顧客IDに対応させて、属性値及びディープラーニングによる予測スコア（予測値）を予測結果記憶部７に保存する。

　なお、保存された属性データと予測スコアとは、ソフトターゲットとして、説明変数抽出処理で使用される。また、属性値は、属性データ＃２から抽出されたデータ群（属性データ＃３）に相当する。ディープラーニングによる予測スコアが高く、ロジスティック回帰による予測スコアが低い顧客は、既存モデルでは考慮されなかった未知のCustomer Insightに従って行動する顧客である可能性が高い顧客であると判断され、その属性値が、属性データ＃２からセグメンテーションされて属性データ＃３とされる。

　そして、説明変数抽出部８は、予測結果記憶部７から、属性データ＃３と、ソフトターゲットすなわちディープラーニングモデルから算出された予測値とを読み出し、それらに基づいて重回帰分析を実行する（図６参照）。

　本実施形態では、第１の実施形態における効果に加えて、以下のような効果を得ることができる。すなわち、MCIFのデータから、既存のモデルとディープラーニングで作成したモデルとを用いて予測を行い、予測結果を比較することによって、既存のモデルでアプローチできる対象、両モデルでアプローチできる対象、及び既存のモデルではアプローチできていなかった対象を抽出できる。さらに、既存モデルでは予測スコアが低いためにアプローチしていなかったが、ディープラーニングモデルでは高い予測スコアになる顧客データのみを対象に重回帰分析を行うことによって、説明可能な説明変数を効率的に抽出できる。なお、本実施形態では、既存のモデルとしてロジスティック回帰モデルが用いられたが、すなわち既存の機械学習（当然、ディープラーニングは含まれない。）としてロジスティック回帰分析が用いられたが、ロジスティック回帰に代えて他のホワイトボックス型の機械学習のモデルが用いられてもよい。

　第２の実施形態では、第１の実施形態の場合と同様に、MCIFのデータを分析して、消費者が金融商品（例えば、カードローン）を購入する行動の背後にあるCustomer Insightを推測する場合を例にしたが、既存のモデルで予測されたスコアとディープラーニングモデルで予測されたスコアとを集計した後に比較し、未知のペルソナにアプローチするという手法は、MCIF記憶部１を別の利用者情報を記憶する記憶部に置き換えることによって、金融以外にも適用することができる。

　特に、ロジスティック回帰の分析モデルを用いている手法に幅広く適用できる。そのような手法として、一例としてば、EC（electronic commerce ）サイトの購入者予測、店舗での顧客の購買予測、保険の加入者予測などが考えられる。ECサイトの購入者予測については、MCIF記憶部１をECサイト利用者情報記憶部に置き換えることによって、上記の各実施形態を、ECサイト利用者の購入者予測に適用することができる。

　図１４は、本発明によるディープラーニングを用いる情報処理装置の主要部を示すブロック図である。図１４に示すように、情報処理装置２０（実施形態におけるCustomer Insight自動抽出装置１００に対応、ただし、MCIF記憶部１は除外される。）は、データベース３０（実施形態におけるMCIF記憶部１に対応）に格納されているデータに基づいてディープラーニングモデルを用いて予測処理を実行するディープラーニング予測部２１（実施形態では、ディープラーニング予測部６で実現される。）と、ディープラーニング予測部２１による予測結果を目的変数とし、データベース３０に格納されているデータを説明変数として重回帰分析を行い、重回帰分析の結果に基づいて、ディープラーニングモデルの予測結果を説明するための変数を決定する変数抽出部２２（実施形態では、説明変数抽出部８で実現される。）とを備えている。

　図１５は、本発明によるディープラーニングを用いる他の情報処理装置の主要部を示すブロック図である。図１５に示すように、情報処理装置２０（実施形態におけるCustomer Insight自動抽出装置１０１に対応、ただし、MCIF記憶部１は除外される。）は、さらに、データベース３０に格納されているデータを用いて機械学習を行う機械学習部２３（実施形態では、ロジスティック回帰予測部１０で実現される。）と、ディープラーニングモデルによる予測スコアが高い順に選定されたあらかじめ定められた第１割合（例えば、５％）のサンプル群（例えば、実施形態における「ディープラーニングモデルによる予測スコアが高い顧客」）に含まれ、かつ、機械学習による予測スコアが低い順に選定されたあらかじめ定められた第２割合（例えば、９５％）のサンプル群（例えば、実施形態における「ロジスティック回帰分析による予測スコアが低い顧客」）に含まれる複数のサンプル（例えば、顧客）を抽出する予測結果集計部２４（実施形態では、予測結果集計部１１で実現される。）とを備え、変数抽出部２２は、データベース３０に格納されているデータのうち上記の複数のサンプルのデータを説明変数として重回帰分析を行うように構成されていてもよい。

　なお、データベース３０は、情報処理装置２０から分離されているが、情報処理装置２０がデータベース３０を内蔵してもよい。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２０１７年２月２日に出願された日本出願特願２０１７－０１７４４０を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　１　　　MCIF記憶部
　２　　　第１属性データ抽出部
　３　　　ディープラーニング学習部
　４　　　ディープラーニングモデル記憶部
　５　　　第２属性データ抽出部
　６　　　ディープラーニング予測部
　７　　　予測結果記憶部
　８　　　説明変数抽出部
　９　　　ロジスティック回帰モデル記憶部
　１０　　ロジスティック回帰予測部
　１１　　予測結果集計部
　２０　　情報処理装置
　２１　　ディープラーニング予測部
　２２　　変数抽出部
　２３　　機械学習部
　２４　　予測結果集計部
　３０　　データベース
　１００，１０１　Customer Insight自動抽出装置

Claims

　データベースに格納されているデータに基づいてディープラーニングモデルを用いて予測処理を実行するディープラーニング予測手段と、
　前記ディープラーニング予測手段による予測結果を目的変数とし、前記データを説明変数として重回帰分析を行い、当該重回帰分析の結果に基づいて、前記ディープラーニングモデルの予測結果を説明するための変数を決定する変数抽出手段と
　を備えたことを特徴とするディープラーニングを用いる情報処理装置。
　変数抽出手段は、重回帰式における説明変数から、目的変数を良く説明する所定数の説明変数を、ディープラーニングモデルによる予測結果を説明するための変数として抽出する
　請求項１記載の情報処理装置。
　前記データベースに格納されているデータを用いて機械学習を行う機械学習手段と、
　ディープラーニングモデルによる予測スコアが高い順に選定されたあらかじめ定められた第１割合のサンプル群に含まれ、かつ、前記機械学習による予測スコアが低い順に選定されたあらかじめ定められた第２割合のサンプル群に含まれる複数のサンプルを抽出する予測結果集計手段とを備え、
　変数抽出手段は、データベースに格納されているデータのうち前記複数のサンプルのデータを説明変数として重回帰分析を行う
　請求項１または請求項２記載の情報処理装置。
　前記データベースは、金融機関の顧客の属性データを格納し、
　予測結果集計手段は、前記複数のサンプルを、機械学習では考慮されなかったCustomer Insightに従って行動する顧客に位置づける
　請求項３記載の情報処理装置。
　データベースに格納されているデータに基づいてディープラーニングモデルを用いて予測処理を実行し、
　前記予測処理の予測結果を目的変数とし、前記データを説明変数として重回帰分析を行い、当該重回帰分析の結果に基づいて、前記ディープラーニングモデルの予測結果を説明するための変数を決定する
　ことを特徴とするディープラーニングを用いる情報処理方法。
　重回帰式における説明変数から、目的変数を良く説明する所定数の説明変数を、ディープラーニングモデルによる予測結果を説明するための変数として抽出する
　請求項５記載の情報処理方法。
　前記データベースに格納されているデータを用いて機械学習を行い、
　ディープラーニングモデルによる予測スコアが高い順に選定されたあらかじめ定められた第１割合のサンプル群に含まれ、かつ、前記機械学習による予測スコアが低い順に選定されたあらかじめ定められた第２割合のサンプル群に含まれる複数のサンプルを抽出し、
　データベースに格納されているデータのうち前記複数のサンプルのデータを説明変数として重回帰分析を行う
　請求項５または請求項６記載の情報処理方法。
　コンピュータに、
　データベースに格納されているデータに基づいてディープラーニングモデルを用いて予測処理を実行する処理と、
　前記予測処理の予測結果を目的変数とし、前記データを説明変数として重回帰分析を行い、当該重回帰分析の結果に基づいて、前記ディープラーニングモデルの予測結果を説明するための変数を決定する処理と
　を実行させるためのディープラーニングを用いる情報処理プログラム。
　コンピュータに、
　重回帰式における説明変数から、目的変数を良く説明する所定数の説明変数を、ディープラーニングモデルによる予測結果を説明するための変数として抽出する処理を実行させるための請求項８記載の情報処理プログラム。
　コンピュータに、
　前記データベースに格納されているデータを用いて機械学習を行う処理と、
　ディープラーニングモデルによる予測スコアが高い順に選定されたあらかじめ定められた第１割合のサンプル群に含まれ、かつ、前記機械学習による予測スコアが低い順に選定されたあらかじめ定められた第２割合のサンプル群に含まれる複数のサンプルを抽出する処理と、
　データベースに格納されているデータのうち前記複数のサンプルのデータを説明変数として重回帰分析を行う処理と
　を実行させるための請求項８または請求項９記載の情報処理プログラム。