WO2020250810A1

WO2020250810A1 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: WO2020250810A1
Application number: PCT/JP2020/022183
Authority: WO
Inventors: 正典宮原; 慎吾高松; 紘士飯田; 健人中田; 裕士堀口; 元輝東出
Original assignee: ソニー株式会社
Priority date: 2019-06-11
Filing date: 2020-06-04
Publication date: 2020-12-17
Also published as: US20220230193A1; EP3985580A1; CN113950692A; EP3985580A4

Abstract

本開示に係る情報処理装置（１００）は、過去の予測対象と、当該予測対象の予測分析に用いた分析データセットと、を含む過去事例を取得し、予測分析に使用するデータを取得し、データおよび過去事例に基づき、データを用いて予測分析を行う場合の予測対象を抽出し、データに基づき、抽出した予測対象の予測分析に用いるデータセットを構築する制御部（１３０）を備える。

Description

情報処理装置、情報処理方法およびプログラム

　本開示は、情報処理装置、情報処理方法およびプログラムに関する。

　近年、ビジネスにおいて様々なデータが蓄積されるようになり、蓄積されたデータをビジネスに活用することの重要性が認識されるようになって久しい。データのビジネス活用の手法として、例えば機械学習を用いて過去のデータから将来の結果を予測する予測分析技術を利用した手法が知られている（例えば、特許文献１参照）。

特開２０１７－１６３２１号公報

　しかしながら、上記の従来技術では、何を予測するのか予め決められている。このように、従来はユーザが何を予測するか決定する必要があり、ユーザがより容易に情報を分析することについて改善の余地があった。

　そこで、本開示では、ユーザがより容易に情報を分析することができる情報処理装置、情報処理方法およびプログラムを提案する。

　本開示によれば、過去の予測対象と、当該予測対象の予測分析に用いた分析データセットと、を含む過去事例を取得し、予測分析に使用するデータを取得し、前記データおよび前記過去事例に基づき、前記データを用いて予測分析を行う場合の予測対象を抽出し、前記データに基づき、抽出した前記予測対象の予測分析に用いるデータセットを構築する制御部を備える情報処理装置が提供される。

予測分析のビジネス導入を説明する図である。本開示の実施形態に係る分析処理を模式的に示す図である。本開示の実施形態に係る過去事例の一例を説明する図である。本開示の実施形態に係るユーザデータの一例を説明する図である。ユーザに提示する画像の一例を示す図である。本開示の実施形態に係る情報処理システムの構成例を示す図である。本開示の実施形態に係る情報処理装置の構成例を示す図である。本開示の実施形態に係る過去事例記憶部の一例を示す図である。ユーザデータの取得先を指定する画像の一例を示す図である。予測処理時間の算出状況を示す画像の一例を示す図である。予測モデルの学習状況を示す画像の一例を示す図である。分析処理完了を示す画像の一例を示す図である。分析処理結果を示す画像の一例を示す図である。分析処理結果を示す画像の他の例を示す図（１）である。分析処理結果を示す画像の他の例を示す図（２）である。本開示の実施形態に係る情報処理の手順を示すフローチャートである。情報処理装置や端末装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

　以下に、本開示の各実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　また、以下に示す項目順序に従って本開示を説明する。
　　１．実施形態
　　　１－１．背景
　　　１－２．実施形態に係る情報処理の概要
　　　１－３．実施形態に係る情報処理システムの構成
　　　１－４．実施形態に係る情報処理装置の構成
　　　１－５．実施形態に係る情報処理の手順
　　２．その他の構成例
　　３．ハードウェア構成

（１．実施形態）
［１－１．背景］
　まず、本開示の実施の形態について詳細に説明する前に、本開示の実施形態の背景として、予測分析をビジネスに活用するためのワークフローについて説明する。

　予測分析をビジネス活用する場合、ユーザは、蓄積されたデータに基づいてどのような予測分析を行うかを決定する。さらにユーザは、決定した予測分析の実証実験を行うことで、予測分析を導入して得られるビジネス効果を評価する。このように、実証実験を行い予測分析によって得られるビジネス効果を評価することで、ユーザは効果が高い予測分析をビジネスに導入することができ、予測分析をビジネスにより活用することができる。

　実際に予測分析をビジネスに活用するためのワークフローとして、例えば図１に示すフローがあげられる。図１は、予測分析のビジネス導入を説明する図である。

　具体的に、図１に示す例では、まずユーザは、蓄積されたデータにおいてどのデータを利用して何を予測するか問題設定を行う（ステップＳ１）。例えば、問題設定には、「顧客の年収入や総資産などのデータを利用して、ローンの貸し倒れが起こるか否かを予測する」ことや、「過去の売り上げや顧客の年齢層などのデータを利用して、将来の売り上げを予測する」ことなどがある。このように、ビジネス分野やユーザによって適切な問題設定が異なる。そのため、ユーザは例えば自身の知識や経験に基づいて問題設定を行う。

　次に、ユーザは、蓄積されたデータから問題設定に応じたデータセットを構築する（ステップＳ２）。ユーザは、例えば蓄積されたデータから予測分析に用いるデータを抽出したり、予測分析に合わせてデータの解釈や構造化を行ったりして、データセットを構築する。データセットの構築にも例えばユーザの知識や経験が必要となる場合がある。

　続いて、ユーザは、問題設定およびデータセットに基づき、予測モデルを生成する（ステップＳ３）。予測モデルは一般的な機械学習を用いて生成する。この場合、ユーザは例えば既存の情報処理装置等を用いて予測モデルを生成することができる。

　ユーザは、生成した予測モデルの精度を評価する（ステップＳ４）。予測モデルの精度は、例えば曲線下面積（ＡＵＣ）やＡｃｃｕｒａｃｙなど、一般的な評価指標を用いて評価する。この場合、ユーザは例えば既存の情報処理装置等を用いて予測モデルの精度を評価することができる。

　予測モデルの精度評価を行ったユーザは、次に生成した予測モデルを用いた実証実験を行う（ステップＳ５）。例えばユーザは、期間や地域など範囲を限定してデータを収集し、生成した予測モデルを用いてデータの予測分析を行う。ユーザは、分析結果に応じて例えば商品の仕入れや営業先を変更するなど、試験的に予測分析をビジネスに導入する。

　続いて、ユーザは、実証実験の効果を測定する（ステップＳ６）。ユーザは、例えば予測分析を試験導入した場合の売り上げと導入する前の売り上げとを比較するなど、実験前後のデータを比較することで効果を測定する。その後、ユーザは、実証実験の結果や測定した効果に応じて、実際のビジネスに予測分析を導入する。

　以上のように、実際のビジネスに予測分析を導入する場合、問題設定やデータセットの構築においてユーザの知識や経験が必要となり、導入のボトルネックとなってしまう可能性がある。また、実証実験にはコストがかかるため、予測分析のビジネス導入によってある程度の効果が得られる確証がないと実証実験に移りにくい。このように、実証実験への移行もハードルが高い傾向がある。

［１－２．実施形態に係る情報処理の概要］
　本開示は、かかる点に着目し、情報処理装置が問題設定の抽出やデータセットの構築を含めた予測分析を行うようにしたものである。以下、図２～図４を用いて情報処理装置が行う分析処理の概要について説明する。

　図２は、本開示の実施形態に係る分析処理を模式的に示す図である。図３は、本開示の実施形態に係る過去事例の一例を説明する図である。図４は、本開示の実施形態に係るユーザデータの一例を説明する図である。

　本開示に係る分析処理は、図２に示す情報処理装置１００によって行われる。情報処理装置１００は、本開示に係る情報処理を実行する装置であり、例えばサーバ装置やＰＣ（Personal　Computer）等である。

　図２の例では、過去事例を参照してユーザデータを用いた予測分析を行う場合について説明する。ここで、ユーザデータとは例えばユーザが収集したデータである。ユーザデータには、例えば顧客情報や商品情報等の種々のデータが含まれる。ユーザはユーザデータを用いて例えば来月の売り上げ等、予測分析を行う。

　一般的に、ユーザデータを用いて予測分析を行う場合、「どのデータを用いて何を予測するか」という問題設定をユーザ自身が行う必要がある。予測分析の問題設定を行うにはユーザの知識と経験が求められる場合があり、ユーザにとって負担となる可能性がある。そこで、実施形態に係る分析処理では、過去事例を参照して予測分析の問題設定を自動で行い、ユーザの負担を軽減しようとするものである。

　まず、情報処理装置１００は、過去事例を取得する（ステップＳ１１）。ここで、過去事例には、過去に行った予測分析の問題設定が含まれる。具体的には、過去事例には、過去に何を予測したかという予測対象（以下、過去対象ともいう）と、過去の予測にどのデータを用いたかという過去対象の予測分析に用いた分析データセット（以下、過去データセットともいう）と、が含まれる。

　ここで、図３を用いて過去事例の一例を説明する。図３に示すように、過去事例には例えば過去データセット１２が含まれる。過去データセット１２には、例えば「顧客ＩＤ」、「ローン額」、「ローン種別」、「勤続年数」および「貸し倒れ」が含まれる。また、図３では、「貸し倒れ」が過去対象であることを斜線で示している。このように、過去事例には、過去データセット１２と過去対象（ここでは「貸し倒れ」）とが含まれる。

　図２に戻り、情報処理装置１００は、ユーザデータを取得する（ステップＳ１２）。ここで、図４を用いてユーザデータの一例を説明する。ユーザデータは、ユーザが生成、収集したデータであり、予測分析のモデル生成等に用いるデータである。図４に示すユーザデータ２２には、例えば「顧客ＩＤ」、「ローン額」、「ローン種別」、「勤続年数」、「年収入」、「全口座残高」および「貸し倒れ」が含まれる。

　図２に戻り、情報処理装置１００は、取得した過去事例およびユーザデータ２２に基づいて予測対象を抽出する（ステップＳ１３）。情報処理装置１００は、例えば、過去事例からユーザに関連する過去対象を選択する。情報処理装置１００は、例えば所属部署や過去にユーザが行った予測分析など、ユーザに関する情報を用いて推薦システムを利用することで、過去対象を選択する。ここでは、情報処理装置１００が過去事例から図３に示す過去データセット１２の「貸し倒れ」を過去対象として選択したものとする。

　情報処理装置１００は、選択した過去対象と同じ項目を、今回予測分析を行う予測対象（以下、抽出対象ともいう）としてユーザデータ２２から抽出する。図３の例では、情報処理装置１００が選択した過去対象は「貸し倒れ」である。したがって、情報処理装置１００は、図４に示すユーザデータ２２から「貸し倒れ」を予測対象として抽出する。図４では、抽出対象である「貸し倒れ」を斜線で示している。なお、抽出対象の抽出方法の詳細は、図７を用いて後述する。

　図２に戻り、情報処理装置１００は、ユーザデータ２２に基づいて抽出対象の予測分析に用いるデータセット（以下、構築データセットともいう）を構築する（ステップＳ１４）。情報処理装置１００は、例えば抽出対象に関連する項目を構築データセットとして抽出する。例えば、情報処理装置１００は、図４に示すユーザデータ２２から「顧客ＩＤ」、「ローン額」、「ローン種別」、「勤続年数」および「貸し倒れ」を抽出し構築データセットを生成する。

　なお、ここでは、情報処理装置１００が、図４に示すユーザデータ２２の一部を含むデータセットを構築するとしたが、これに限定されない。ユーザデータ２２全てを含むデータセットを構築してもよい。なお、データセットの構築方法の詳細は、図７を用いて後述する。

　図２に戻り、情報処理装置１００は、抽出対象および構築データセットに基づいて予測モデルを学習する（ステップＳ１５）。情報処理装置１００は、構築データセットのデータを特徴ベクトルに変換する。情報処理装置１００は、特徴ベクトルと抽出対象とに基づき、機械学習によって、分類または回帰問題を解くことで予測モデルを生成する。

　次に、情報処理装置１００は、生成した予測モデルを評価することで、予測分析の精度を評価する（ステップＳ１６）。情報処理装置１００は、予測モデルと構築データセットとを用いて、予測モデルを評価する。なお、評価指標は、例えば分類分析の場合はＡＵＣやＡｃｃｕｒａｃｙ、回帰分析の場合はＭＡＥ（Mean　Absolute　Error）など、分析手法に応じて選択される。

　情報処理装置１００は、抽出対象と評価結果とを含む抽出情報をユーザに提示する（ステップＳ１７）。ここで、図５を用いて抽出情報のユーザへの提示例について説明する。図５は、ユーザに提示する画像の一例を示す図である。

　図５に示すように、情報処理装置１００は、問題設定および評価結果の組み合わせをユーザに提示する。図５では、情報処理装置１００が複数の問題設定を抽出する場合の抽出結果を表示している。この場合、情報処理装置１００は画像ＩＭ１のように問題設定および評価結果の組み合わせを一覧にして表示する。

　これにより、ユーザは、例えば評価結果を参考にして情報処理装置１００が提示した問題設定で予測分析を行うか否かを決定することができる。

　なお、情報処理装置１００がユーザに提示する内容は、問題設定および評価結果に限定されない。情報処理装置１００が、構築データセット、抽出対象および評価結果の少なくとも１つをユーザに提示するようにしてもよい。あるいは、予測分析を行った場合に得られる効果等、ユーザが問題設定を選択する場合の参考情報を、情報処理装置１００が提示するようにしてもよい。情報処理装置１００による抽出結果の表示方法の詳細は、図１３を用いて後述する。

　以上のように、情報処理装置１００が問題設定を抽出することで、ユーザは、問題設定を行わなくてよく、より容易に予測分析を行うことができるようになる。また、情報処理装置１００が予測分析の精度評価を行うことで、ユーザは、精度評価に基づき、実行する予測分析を選択することができ、より容易に精度の高い予測分析を行うことができる。

［１－３．実施形態に係る情報処理システムの構成］
　図６に示す情報処理システム１について説明する。図６は、本開示の実施形態に係る情報処理システム１の構成例を示す図である。図６に示すように、情報処理システム１には、端末装置１０と、情報処理装置１００とが含まれる。端末装置１０と、情報処理装置１００とは所定の通信網（ネットワークＮ）を介して、有線または無線により通信可能に接続される。なお、図６に示した情報処理システム１には、複数台の端末装置１０や、複数台の情報処理装置１００が含まれてもよい。

　端末装置１０は、ユーザによって利用される情報処理装置である。端末装置１０は、予測分析に関するサービスの提供に用いられる。端末装置１０は、実施形態における処理を実現可能であれば、どのような装置であってもよい。端末装置１０は、ユーザに予測分析に関するサービスを提供し、情報を表示するディスプレイを有する構成であれば、どのような装置であってもよい。また、端末装置１０は、例えば、ノート型ＰＣや、デスクトップＰＣや、タブレット型端末や、スマートフォンや、携帯電話機や、ＰＤＡ（Personal　Digital　Assistant）等の装置であってもよい。

　情報処理装置１００は、予測分析に関するサービスをユーザに提供するために用いられる。情報処理装置１００は、ユーザデータに基づく問題設定および予測分析評価の結果に関する情報を、ユーザに表示するように制御する情報処理装置である。情報処理装置１００は、問題設定および予測分析評価の結果に関する情報を示す画像を生成し、画像を端末装置１０へ提供する。

　情報処理装置１００は、端末装置１０の表示を制御する。情報処理装置１００は、端末装置１０に表示する情報を提供するサーバ装置である。なお、情報処理装置１００は、提供する画像等を表示するアプリケーションを端末装置１０に提供してもよい。情報処理装置１００は、端末装置１０に制御情報を含む画像を送信することにより、端末装置１０の表示を制御する。ここで、制御情報は、例えば、ＪａｖａＳｃｒｉｐｔ（登録商標）等のスクリプト言語やＣＳＳ等により記述される。なお、情報処理装置１００から端末装置１０に提供されるアプリケーションそのものを制御情報とみなしてもよい。

［１－４．実施形態に係る情報処理装置の構成］
　次に、実施形態に係る分析処理を実行する情報処理装置の一例である情報処理装置１００の構成について説明する。図７は、本開示の実施形態に係る情報処理装置１００の構成例を示す図である。

　図７に示すように、情報処理装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。なお、情報処理装置１００は、情報処理装置１００の管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、各種情報を表示するための表示部（例えば、液晶ディスプレイ等）を有してもよい。

（通信部）
　通信部１１０は、例えば、ＮＩＣ（Network　Interface　Card）等によって実現される。そして、通信部１１０は、ネットワークＮ（図６参照）と有線または無線で接続され、端末装置１０や外部サーバ等の他の情報処理装置との間で情報の送受信を行う。

（記憶部）
　記憶部１２０は、例えば、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部１２０は、図７に示すように、過去事例記憶部１２１と、ユーザデータ記憶部１２２と、ユーザプロファイル記憶部１２３とを有する。なお、図示を省略するが、記憶部１２０は、端末装置１０に提供する画像の基となる画像等の種々の情報を記憶してもよい。

（過去事例記憶部）
　実施形態に係る過去事例記憶部１２１は、過去事例を記憶する。過去事例には、過去に行った予測分析に関する情報が含まれる。過去事例記憶部１２１は、例えば過去に予測分析をビジネス導入した際の事例を記憶する。なお、過去事例は、情報処理装置１００が保持せずに、外部サーバ等から適宜取得してもよい。

　図８に、実施形態に係る過去事例記憶部１２１の一例を示す。図８は、本開示の実施形態に係る過去事例記憶部１２１の一例を示す図である。図８に示した例では、過去事例記憶部１２１は、「問題設定」、「データセット」、「収集コスト」、「予測モデル」、「モデル評価結果」、「実証実験」、「ビジネス効果」等に関する情報を事例ごとに記憶する。過去事例記憶部１２１は、過去事例Ａ、Ｂ、・・・というように、複数の過去事例を記憶する。

　「問題設定」は、予測分析で何のデータを使用して何を予測したかを示す情報である。「問題設定」には、例えば、「何のデータを使用したか」という複数の「使用項目」（説明変数）と、「何を予測したか」という１つの「予測対象」（目的変数）が含まれる。例えば図３に示す例では、斜線で示す項目が予測対象であり、残りの項目が使用項目である。

　図８に戻る。「データセット」は、予測モデルの学習に用いた過去データセットである。例えば、「データセット」は、「入力データ」と「正解データ」とを含むデータセットである。例えば、図３に示す過去データセット１２が、かかる「データセット」に相当する。

　図８に示す「収集コスト」は、予測分析で使用したデータの収集にかかったコストである。「収集コスト」には、例えば項目ごとにデータの収集にかかった期間や費用などが含まれる。

　「予測モデル」は、記憶する「問題設定」および「データセット」を用いて生成した過去の予測モデル（以下、過去モデルともいう）である。「予測モデル」は、例えば機械学習によって、分類または回帰問題を解くことで生成されたモデルである。

　「モデル評価結果」は、記憶する「予測モデル」の精度評価の結果である。「モデル評価結果」には、ＡＵＣやＡｃｃｕｒａｃｙなどの評価指標による評価結果が含まれる。

　「実証実験」は、予測分析のビジネス導入のために行った実証実験の内容や結果に関する情報である。「実証実験」には、例えば、実験を行った期間や範囲、実験に使用したデータ、実験によって得られた効果や、実験にかかった費用などの情報が含まれる。

　「ビジネス効果」は、予測分析をビジネス導入した後に得られたビジネス効果に関する情報である。「ビジネス効果」には、例えば、向上した売上額などの利益額や、削減した人件費などの経費削減額といった情報が含まれる。

　このように、図８に示した例では、過去事例記憶部１２１は、過去に予測分析をビジネス導入した場合の種々の情報を、複数の過去事例ごとに記憶する。なお、上述した過去事例は一例であり、過去事例記憶部１２１は、「問題設定」および「データセット」を記憶していれば、例えば「収集コスト」や「モデル評価結果」、「実証実験」等、一部の情報を記憶していなくてもよく、あるいは上述した情報以外の情報を記憶してもよい。

（ユーザデータ記憶部）
　図７に戻り、ユーザデータ記憶部１２２について説明する。ユーザデータは、ユーザが作成または収集した種々のデータである。ユーザデータのデータ形式には、例えば下記に挙げるように多岐に渡る形式が想定される。
・テキスト－単語、文章、ＨＴＭＬ（HyperText　Markup　Language）など
・メディア－ＲＧＢ画像、深度画像、ベクタ画像、動画、音声など
・複合文書－オフィス文書、ＰＤＦ、Ｗｅｂページ、電子メールなど
・センサデータ－現在位置、加速度、心拍数など
・アプリケーションデータ－起動ログ、処理中のファイル情報など
・データベース－リレーショナルデータベース、キーバリューストアなど

　なお、ユーザデータは、情報処理装置１００が保持せずに、端末装置１０や外部サーバ等から適宜取得してもよい。また、ユーザデータは、カメラやセンサ等から直接取得した生データであってもよく、あるいは、生データに特徴量抽出等の処理を行った処理データであってもよい。あるいは、ユーザデータは、生データや処理データの認識処理を行った認識結果であるメタデータを含んでいてもよい。

（ユーザプロファイル記憶部）
　次に、ユーザプロファイル記憶部１２３について説明する。ユーザプロファイル記憶部１２３は、ユーザに関するプロファイル情報を記憶する。プロファイル情報は、例えばユーザ情報やユーザ事例情報を含む。

　ユーザ情報は、ユーザに関する情報であり、例えばユーザＩＤやユーザが所属する会社名、部署、業界等に関する情報を含む。ユーザ情報に、例えばウェブサイトやデータベースの検索履歴やウェブサイトの閲覧履歴、メールやオフィス文書に含まれるキーワードなど、ユーザの興味や関心に関連する情報を含めてもよい。

　また、ユーザ事例情報は、ユーザが行った過去の予測分析に関する情報を含む。ユーザ事例情報には、例えばユーザが過去に行った予測分析に関する情報やユーザが携わった過去事例に関する情報などが含まれる。なお、かかる予測分析はユーザ自身が行ったものであってもよく、ユーザが所属する部署や会社が行ったものであってもよい。

（制御部）
　制御部１３０は、例えば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）等によって、情報処理装置１００内部に記憶されたプログラム（例えば、本開示に係るプログラム）がＲＡＭ等を作業領域として実行されることにより実現される。また、制御部１３０は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現される。

　図７に示すように、制御部１３０は、取得部１３１と、時間予測部１４１と、解釈部１３２と、抽出部１３３と、学習部１３４と、評価部１３５と、予測部１３６と、収集決定部１３７と、寄与度算出部１４２と、表示制御部１３８と、を有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構造は、図７に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部１３０が有する各処理部の接続関係は、図７に示した接続関係に限られず、他の接続関係であってもよい。

（取得部）
　取得部１３１は、記憶部１２０から各種情報を取得する。取得部１３１は、過去事例記憶部１２１から複数の過去事例を取得する。取得部１３１は、ユーザデータ記憶部１２２からユーザデータを取得する。取得部１３１は、ユーザプロファイル記憶部１２３からプロファイル情報を取得する。取得部１３１は、過去事例記憶部１２１、ユーザデータ記憶部１２２およびユーザプロファイル記憶部１２３に代えて、外部サーバや端末装置１０等から各種情報を取得してもよい。

（時間予測部）
　時間予測部１４１は、取得部１３１がデータの取得を開始してから問題設定抽出等の処理結果をユーザに提示するまでに制御部１３０が行う分析処理にかかる時間を予測する。

　時間予測部１４１は、取得部１３１が所定時間（例えば１秒）に取得したユーザデータ（以下、一部データともいう）を用いて、問題設定の抽出や学習、評価等の分析処理を行う。分析処理は、取得部１３１がデータの取得を開始してから処理結果をユーザに提示するまでに制御部１３０の各部が行う処理であり、詳細は後述する。

　時間予測部１４１は、一部データを用いて行った分析処理の処理時間を計測する。時間予測部１４１は、計測した処理時間に基づき、分析処理にかかる時間（予測処理時間）を予測する。詳しくは、時間予測部１４１は、予測処理時間＝（計測した処理時間）＊（ユーザデータのサイズ／一部データのサイズ）として、予測処理時間を算出する。

　分析処理は、ユーザデータの種類やサイズによって数時間以上、場合によっては数日かかることもある。そのため、分析処理にかかる時間を知りたいというユーザの要望がある。そこで、時間予測部１４１は、一部データを用いて予測処理時間を算出する。これにより、分析処理にかかる時間の見積もりをユーザに提示することができる。このとき、予測処理時間の算出に使用するデータのサイズを、例えば１秒で取得できるサイズに限定することで、予測処理時間の算出にかかる時間を短時間に抑えることができる。

　また、時間予測部１４１は、単にユーザデータのサイズから予測処理時間を算出するのではなく、実際に一部データを用いた分析処理を実行して予測処理時間を算出する。ユーザデータのサイズは容易に取得できるが、予測分析にかかる時間はユーザデータのサイズだけでなく、データの性質に依存する。そのため、時間予測部１４１が、実際に処理を実行して予測処理時間を算出することで、予測処理時間の予測精度を向上させることができる。

　なお、ここでは、時間予測部１４１が、所定時間に取得した一部データを用いて予測処理時間を算出するとしたが、これに限定されない。例えば、時間予測部１４１が所定サイズ（例えば１００行～２０００行）の一部データを用いて予測処理時間を算出してもよい。

　あるいは、時間予測部１４１が、予め用意してある学習済みの処理時間予測モデルを用いて予測処理時間を予測するようにしてもよい。この場合、時間予測部１４１は、例えば、一部データから項目数（列数）、各項目の欠損率、各項目のデータ型（文字列／数値／日付等）、機械学習の種類（二値分類／多値分類／回帰等）などの情報を抽出する。時間予測部１４１は、抽出した情報を用いて、学習済みの処理時間予測モデルによって、予測処理時間を予測する。

　また、時間予測部１４１は、一定時間の経過や各部の処理が終了したタイミングなど、所定のタイミングで予測処理時間を更新してもよい。時間予測部１４１は、一部データを用い、所定のタイミングでまだ終了していない処理を実行する。時間予測部１４１は、実行した処理にかかった時間に基づき、予測処理時間を再度算出することで、予測処理時間を更新する。

　なお、予測処理時間の更新に用いる一部データは、更新前の予測処理時間の算出に用いた一部データと同じであってもよく、今回の更新時に改めて取得したユーザデータであってもよい。例えば、後述する解釈部１３２で、全てのユーザデータに対して構造化処理を行った場合、構造化処理を行った全てのユーザデータの中から所定サイズのユーザデータを取得して一部データとしてもよい。

（解釈部）
　解釈部１３２は、取得部１３１がユーザデータ記憶部１２２から取得したユーザデータを解析し、構造化する。まず、解釈部１３２が行うデータ解析について説明する。

　上述したように、ユーザデータには種々のデータ形式が含まれる。解釈部１３２は、例えばデータの種類ごとに認識器（図示省略）を用いてユーザデータを解析する。認識器は、例えば記憶部１２０に記憶されているものとする。

　具体的に、解釈部１３２は、例えばユーザデータに含まれる画像データに対して画像用の認識器を用いて画像の中から顔／文字列／一般物体などを検出する認識処理を行う。例えば、画像データが商品購入を示すレシートの画像であった場合、解釈部１３２は、画像に付与されたデータから、ユーザＩＤ（端末ＩＤ）、撮影場所、撮影時刻などを検出する。また、解釈部１３２は、画像から文字列を検出し、電話番号、会社名、購入商品、商品の値段、合計額、支払方法（現金／クレジット／電子マネー／ＱＲコード（登録商標）決済など）などを認識する。解釈部１３２は、認識結果をメタデータとして生データであるユーザデータに付与する。

　画像データ以外でも、解釈部１３２は、例えばユーザデータに含まれる音声データに対して音声用の認識器を用いて話者を認識し、発話内容をテキスト化する。あるいは、加速度データに対して、解釈部１３２は、時刻ごとにユーザの移動行動（徒歩／自転車／電車など）を認識する。また、テキストデータに対して、解釈部１３２は、表記ゆれの補正や類義語辞書を用いた類似表現の追加を行う。このように、解釈部１３２は、ユーザデータをデータの種類ごとに解析し、メタデータを付与する。

　上述した例では、解釈部１３２が１つの認識器を用いて１つのデータを認識する場合について説明したが、例えば解釈部１３２が１つのデータに対して複数の認識器を用いて認識を行うようにしてもよい。例えば音声データを認識する場合、解釈部１３２は、まず音声データをテキストデータに変換し、変換後のテキストデータを多言語に翻訳する。続いて、解釈部１３２は、翻訳したテキストデータの表記ゆれを補正したり、類似表現の追加を行ったりする。このように、解釈部１３２は認識器を多段に使用してユーザデータを認識してもよい。

　なお、上述したデータ認識は一例であり、解釈部１３２は、種々の既知の技術に基づき、ユーザデータを認識してもよい。

　続いて、解釈部１３２は、解析結果に基づいてユーザデータを構造化する。解釈部１３２は、テンプレートを用いてユーザデータに付与されたメタデータの構造化を行う。テンプレートは、予測分析に特化したものであり、例えば複数のテンプレートを記憶部１２０が予め記憶しているものとする。

　解釈部１３２は、メタデータが付与されたユーザデータが入力されると、データを最も適合するテンプレートに当てはめることでデータの構造化を行う。

　例えば、「ユーザ」という概念が「年齢」、「性別」という概念を持ち、「商品」という概念が「価格」という概念を持つとする。「ユーザ」と「商品」は「購入」という関係を持ち、「購入」という概念は「購入日時」という概念を持つとする。例えばこのようなデータ構造のテンプレートを用いて、解釈部１３２は非構造化データであるメタデータを構造化する。

　さらに、解釈部１３２が、メタデータを新たに付与してもよい。ここで付与したメタデータは、問題設定を抽出する際に利用される。例えば、解釈部１３２が、レシート画像に付与された「商品名」から「食費」や「生活雑費」のような上位カテゴリをメタデータとして付与してもよい。

　なお、上述した構造化は一例であり、解釈部１３２は、種々の既知の技術に基づき、ユーザデータの構造化を行ってもよい。また、上述したテンプレートや上位カテゴリは一例であり、解釈部１３２は、予測分析に特化した種々のテンプレートやカテゴリ、メタデータを用いてユーザデータの構造化を行ってもよい。また、ユーザデータ記憶部１２２が記憶するユーザデータがすでに構造化されている場合は、解釈部１３２の処理を省略してもよい。

　このように、解釈部１３２がユーザデータの解析、構造化を行うことで、ユーザの負担を軽減することができる。

（抽出部）
　続いて、抽出部１３３は、解釈部１３２が構造化したユーザデータ（以下、構造化データともいう）および取得部１３１が取得した過去事例に基づき、予測分析における問題設定を抽出する。問題設定は「何のデータ項目を使用するか」という複数の「使用項目」（説明変数）と、「何を予測するか」という１つの「予測対象」（目的変数）とを含む。

　抽出部１３３は、過去事例に基づき、構造化データから「予測対象」を抽出する。抽出部１３３は、例えば、過去事例に含まれる過去対象と同じ項目（変数）を構造化データから「予測対象」として抽出する。

　このとき、抽出部１３３は、例えばプロファイル情報に基づき、ユーザと関連がある、あるいはユーザの関心が高いと考えられる「予測対象」を抽出する。例えば、ユーザが商品販売に関するビジネスを行っている場合、「売り上げ」予測に対する関心が高いと考えられる。そこで、この場合、抽出部１３３は、「売り上げ」を予測対象として抽出する。

　具体的に、抽出部１３３は、例えばプロファイル情報に基づき、推薦システムを用いて過去事例の過去対象から候補を抽出する。抽出部１３３は、抽出した候補の中からユーザデータにも含まれる項目を問題設定の「予測対象」とする。推薦システムには、例えばランキング学習や内容ベースフィルタリング、協調フィルタリング、あるいはこれらを組み合わせたシステムが含まれる。

　なお、抽出部１３３が複数の「予測対象」を抽出してもよい。例えば、ランキング学習のように過去対象がランキング形式で複数抽出される場合、抽出部１３３は、ランキング上位から所定数の「予測対象」を抽出する。このように、抽出部１３３が複数の「予測対象」を抽出することで、抽出部１３３は、ユーザに関係する「予測対象」を幅広く抽出することができる。

　抽出部１３３は、抽出した「予測対象」（抽出対象）ごとに複数の「使用項目」を抽出する。抽出部１３３は、構造化データの中から抽出対象に関連する項目（変数）を「使用項目」（説明変数）に設定する。抽出部１３３は、抽出対象に少しでも関連する項目を「使用項目」に設定してもよい。この場合、情報処理装置１００は、抽出後の処理である予測モデル学習において学習の精度を向上させることができる。あるいは、抽出部１３３は、抽出対象に関連が高いものから順に所定数の項目を「使用項目」に設定してもよい。この場合、情報処理装置１００は、予測モデル学習における処理負荷を低減させることができる。

　抽出部１３３は、抽出した「使用項目」（以下、抽出項目ともいう）に基づいてデータセットを構築する。抽出部１３３は、構造化データから抽出項目に該当するデータを抽出することで、データセットを構築する。このように、抽出部１３３がデータセットを構築することで、ユーザが問題設定に応じたデータセットを構築する必要がなく、ユーザの負担を軽減することができる。

　上述したように、抽出部１３３が、例えば複数の問題設定を抽出するようにしてもよい。この場合、抽出部１３３は、「予測対象」と、「予測対象」に対応する複数の「使用項目」との組み合わせを複数抽出する。また、抽出部１３３は、抽出した問題設定に応じたデータセットを構築する。したがって、抽出部１３３は、複数の問題設定を抽出した場合、各問題設定に対応するデータセットを複数構築する。このように、抽出部１３３がデータセットを構築することで、問題設定が複数ある場合でもユーザは対応するデータセットをそれぞれ構築する必要がなく、ユーザの負担を低減することができる。

（学習部）
　学習部１３４は、抽出部１３３が抽出した問題設定および構築データセットに基づき、予測モデルを学習する。抽出部１３３が複数の問題設定を抽出する場合、学習部１３４は複数の問題設定それぞれに対応する予測モデルを学習する。

　学習部１３４は、構築データセットを学習用データとテスト用データに分割する。学習部１３４は、学習用データを特徴ベクトルに変換する。学習部１３４は、特徴ベクトルと予測対象に基づき、機械学習によって、例えば分類または回帰問題を解くことで、予測モデルを生成する。なお、上述した機械学習は一例であり、学習部１３４は、種々の既知の技術に基づき、予測モデルを学習してもよい。

　ここでは、学習部１３４が構築データセットを分割するとしたが、これは一例であり、例えば抽出部１３３が学習用データセットとテスト用データセットのそれぞれを構築するようにしてもよい。

（評価部）
　評価部１３５は、学習部１３４が生成した予測モデルを評価する。学習部１３４が複数の予測モデルを生成する場合、評価部１３５は複数の予測モデルそれぞれについて評価を行う。

　評価部１３５は、予測モデルおよびテスト用データに基づき、評価指標を用いて予測モデルを評価する。評価指標は、例えば二値分類であればＡＵＣ、多値分類であればＡｃｃｕｒａｃｙ、回帰であればＭＡＥなどである。なお、上述した評価指標は一例であり、評価部１３５は、種々の既知の技術に基づき、予測モデルの評価を行ってもよい。例えばユーザが評価指標を指定してもよい。

（予測部）
　予測部１３６は、予測モデルをビジネスに導入した場合のビジネス効果を予測する。学習部１３４が複数の予測モデルを生成する場合、予測部１３６は複数の予測モデルをビジネスに導入した場合のビジネス効果（以下、予測効果ともいう）をそれぞれ予測する。

　予測部１３６は、過去事例記憶部１２１から、抽出部１３３が抽出した抽出対象と同じ項目を過去対象とする過去事例を選択する。予測部１３６は、選択した過去事例に含まれる「ビジネス効果」を新たな「予測対象」（以下、効果予測対象ともいう）として予測分析を行う。

　具体的に、まず予測部１３６は、「ビジネス効果」を「効果予測対象」に設定する。次に、予測部１３６は、過去事例から「ビジネス効果」に関連する項目を「使用項目」に設定する。なお、予測部１３６は、例えば過去事例および構造化したユーザデータ（あるいは構築データセット）の両方に含まれる項目の中から「使用項目」を設定するようにしてもよい。

　予測部１３６は、過去事例から「使用項目」に該当するデータを抽出することで、データセット（以下、効果学習データセットともいう）を構築する。予測部１３６は、効果予測データセットおよび「効果予測対象」に基づき、機械学習によって、例えば回帰問題を解くことで、予測モデル（以下、効果予測モデルともいう）を生成する。

　続いて、予測部１３６は、構造化したユーザデータから「使用項目」に該当するデータを抽出してデータセット（以下、効果予測データセットともいう）を構築する。予測部１３６は、効果予測データセットおよび生成した効果予測モデルに基づき、学習部１３４が生成した予測モデルをビジネス導入した場合のビジネス効果を予測する。

　なお、上述した手法は一例であり、予測部１３６は、種々の既知の技術に基づき、ビジネス効果を予測してもよい。また、予測部１３６が行う効果予測データセットの構築や効果予測モデルの学習等を抽出部１３３や学習部１３４の一部の機能を用いて実行するようにしてもよい。

（収集決定部）
　収集決定部１３７は、抽出した問題設定ごとに、過去事例およびユーザデータに基づき、ユーザに収集を提案するデータ項目（以下、提案項目ともいう）を決定する。問題設定が複数ある場合、収集決定部１３７は複数の問題設定ごとに提案項目を決定する。なお、収集決定部１３７が１つの問題設定に対して複数の提案項目を決定してもよい。

　収集決定部１３７は、過去事例のデータセット（過去データセット）と抽出部１３３が構築したデータセット（構築データセット）とを比較する。収集決定部１３７は、過去データセットに含まれ、構築データセットに含まれない「使用項目」（以下、「未収集項目」ともいう）を抽出する。

　まず、収集決定部１３７は、過去事例において、「未収集項目」を使用しなかった場合のビジネス効果を予測する。具体的には、収集決定部１３７は、「未収集項目」を除く過去データセットを利用して予測モデルを学習し、予測モデルの精度を評価する。収集決定部１３７は、評価した予測精度でのビジネス効果を改めて算出する。なお、ここでの予測モデルの学習、評価およびビジネス効果の算出は、学習部１３４、評価部１３５および予測部１３６の処理と同様であるため、説明を省略する。

　収集決定部１３７は、算出したビジネス効果に基づき、効果が減少した「未収集項目」を提案項目に決定する。

　なお、収集決定部１３７が複数の「未収集項目」を抽出する場合、収集決定部１３７は、「未収集項目」ごとにビジネス効果を再算出する。そして、収集決定部１３７は、ビジネス効果の減少量が最も大きい「未収集項目」を提案項目に決定する。あるいは、収集決定部１３７は、ビジネス効果の減少量が閾値以上の「未収集項目」を提案項目に決定してもよく、あるいは所定数の「未収集項目」を提案項目に決定してもよい。

　また、データ収集にかかった「収集コスト」が過去事例に含まれる場合、収集決定部１３７は、改めて算出したビジネス効果と収集コストに基づき、提案項目を決定してもよい。この場合、収集決定部１３７は、予測部１３６が「未収集項目」を含めて算出したビジネス効果から収集コストを引いた導入効果と「未収集項目」を含めず算出したビジネス効果との差を算出する。収集決定部１３７は、算出した差が大きい「未収集項目」を提案項目に決定する。

　このように、収集決定部１３７がデータの「収集コスト」も含めて提案項目を決定することで、情報処理装置１００は、収集コストが低くデータの収集が容易である未収集項目を優先してユーザに提案することができる。あるいは、情報処理装置１００は、収集コストは高いが使用するとビジネス効果が大きい未収集項目のデータ収集をユーザに提案することができる。

　なお、ここでは、収集決定部１３７が「未収集項目」を使用しなかった場合の予測モデルの学習、精度評価およびビジネス効果の算出を行うとしたが、これに限定されない。例えば、学習部１３４、評価部１３５および予測部１３６がそれぞれ予測モデルの学習、精度評価およびビジネス効果の算出を行うようにしてもよい。この場合、収集決定部１３７は、各部の結果に基づき、提案項目を決定する。

　また、ここでは、収集決定部１３７がビジネス効果に基づいて提案項目を決定するとしたが、これに限定されない。収集決定部１３７が、例えば予測モデルの評価結果に基づいて提案項目を決定するようにしてもよい。この場合、収集決定部１３７は、「未収集項目」を使用せずに学習した予測モデルの精度を評価し、評価の減少量が少ない「未使用項目」を提案項目に決定する。

（寄与度算出部）
　寄与度算出部１４２は、学習部１３４で学習した予測モデルに入力されるテスト用データの特徴量のうち、どの特徴量がどれだけ予測結果に寄与するかを示す寄与度を算出する。具体的に、寄与度算出部１４２は、寄与度の算出対象とする特徴量を予測モデルの入力から除去して、除去する前後での予測結果の変化に基づいて寄与度を算出する。

　ここで、寄与度算出部１４２が算出する寄与度には、正の値と負の値とが含まれる。寄与度が正の値であることは、特徴量の集合が予測に対して正に寄与する、すなわち予測モデルによって予測される予測確率を向上させることを意味する。また、寄与度が負の値であることは、特徴量の集合が予測に対して負に寄与する、すなわち予測モデルによって予測される予測確率を低下させることを意味する。

　また、寄与度算出部１４２は、寄与度を算出した特徴量が、特徴量の集合（項目）に占める割合を算出する。算出した割合が低いと、寄与度が高くても滅多に発生しないケースであり、ユーザにとっての利用価値が低くなる。そこで、本開示の実施形態では、寄与度算出部１４２が寄与度を算出した特徴量の割合を算出し、図１４を用いて後述するようにかかる割合もユーザに提示する。これにより、ユーザは、発生度合いも考慮して、データの寄与度を確認することができる。

　なお、ここでは、予測部１３６、寄与度算出部１４２および収集決定部１３７がそれぞれビジネス効果、寄与度を算出し、提案項目を決定するとしたが、これら全てを算出／決定する必要はない。例えば、寄与度算出部１４２が寄与度を算出するようにし、予測部１３６によるビジネス効果の算出および収集決定部１３７による提案項目の決定を省略してもよい。あるいは、寄与度算出部１４２による寄与度の算出および予測部１３６によるビジネス効果の算出を行うようにし、収集決定部１３７による提案項目の決定を省略してもよい。また、算出／決定する処理をユーザが選択できるようにしてもよい。

（表示制御部）
　図７の表示制御部１３８は、各種情報の表示を制御する。表示制御部１３８は、端末装置１０における各種情報の表示を制御する。表示制御部１３８は、表示態様を制御する制御情報を含む画像を生成する。この制御情報は、例えば、ＪａｖａＳｃｒｉｐｔ（登録商標）やＣＳＳ等のスクリプト言語により記述される。表示制御部１３８は、上記のような制御情報を含む画像を端末装置１０に提供することにより、制御情報にしたがって端末装置１０に上述した表示処理を行わせる。なお、表示制御部１３８は、上記に限らず、種々の従来技術を適宜用いて、端末装置１０の表示を制御してもよい。

　図９～図１５を用いて、表示制御部１３８が端末装置１０に表示させる画面の一例について説明する。図９は、ユーザデータの取得先を指定する画像の一例を示す図である。図９に示す画像は、例えば取得部１３１がユーザデータを取得する場合に端末装置１０に表示される。

　図９の例では、表示制御部１３８は、端末装置１０に画像ＩＭ１１を表示させる。画像ＩＭ１１は、ユーザによるユーザデータの取得先の選択を受け付ける画像である。画像ＩＭ１１では、「ＰＣ内のファイルを自動スキャンする」または「データソースを手動で指定する」の２つの選択肢からユーザが択一的に取得先を選択する。

　画像ＩＭ１１では外部データベースのアイコンＤＢ１～ＤＢ９が表示される。ユーザは、「データソースを手動で指定する」を選択した場合、例えばドラッグ＆ドロップ操作によって任意のアイコンを選択領域Ｒ１１に移動させることで、データソースを指定する。ユーザが、ユーザデータの取得先を指定して「次へ」ボタンＢ１１を選択した場合、情報処理装置１００の取得部１３１は、指定された取得先からユーザデータを取得する。なお、データベースの指定はドラッグ＆ドロップ操作に限定されず、例えばアイコンＤＢ１～ＤＢ９をユーザがクリックすることで指定するようにしてもよい。

　なお、ここでは、表示制御部１３８が、取得先としてＰＣ内あるいは外部データソースをユーザに選択させる例を示したが、これに限定されない。例えば、表示制御部１３８は、情報処理装置１００の記憶部１２０を取得先としてユーザに選択させるようにしてもよい。あるいは、例えば、表示制御部１３８は、ハードディスク、磁気ディスク、光磁気ディスク、光ディスク、ＵＳＢメモリ、又はメモリカードなどの外部装着型の記憶媒体を取得先としてユーザに選択させるようにしてもよい。表示制御部１３８は、ユーザデータの保存先を示すアドレスの直接入力を受け付けるようにしてもよい。

　続いて、表示制御部１３８は、制御部１３０の各部による処理の進行状況を示す画面をユーザに提示する。図１０～図１３を用いて表示制御部１３８が提示する進行状況を示す画面の一例について説明する。図１０は、予測処理時間の算出状況を示す画像の一例を示す図である。図１０に示す画像ＩＭ３１は、例えば時間予測部１４１が予測処理時間を算出している間、端末装置１０に表示される。

　図１０の例では、表示制御部１３８は、端末装置１０に画像ＩＭ３１を表示させる。図１０に示すように、画像ＩＭ３１の左側領域Ｒ３１には処理の概要が表示される。処理の概要として、例えば学習部１３４で行われるモデル学習など、制御部１３０の各部が行う処理の概要が表示される。表示制御部１３８は、表示される概要のうち、実行完了および実行中の処理は濃い色で表示し、まだ実行していない処理は薄い色で表示する。図１０の画像ＩＭ３１は、データの読み込みを実行中であり、以降、データの前処理、モデル学習等が行われることを示している。

　また、図１０の画像ＩＭ３１の右側領域Ｒ３２には、実際に制御部１３０の各部が行う処理の詳細が表示される。図１０の例では、時間予測部１４１が予測処理時間を算出しているため、「データ読み込み・学習時間見積もり処理の開始」が表示されている。

　次に、図１１を用いて、分析処理が進み、制御部１３０の学習部１３４が予測モデルの学習を行っている場合に表示制御部１３８が提示する画面について説明する。図１１は、予測モデルの学習状況を示す画像の一例を示す図である。

　図１１の例では、表示制御部１３８は、端末装置１０に画像ＩＭ４１を表示させる。図１１に示すように、表示制御部１３８は、処理が完了した「データ読み込み」と「データ前処理」（解釈部１３２による構造化データ生成処理に相当）をチェックマークＭ４１とともに濃い表示色で表示する。

　また、表示制御部１３８は、処理を実行中の「モデル学習」（学習部１３４による予測モデルの学習処理に相当）を、アイコンＭ４２とともに濃い表示色で表示する。円形のアイコンＭ４２は、例えば学習処理の進行状況を示す円形状のインジケータである。

　図１１の例では、表示制御部１３８は、画像ＩＭ４１の下部に分析処理の残り所要時間Ｔ４３を表示する。また、表示制御部１３８は、残り所要時間Ｔ４３とともに、残り所要時間Ｔ４３に対応した進行状況を示す進行状況バーＢ４４を表示する。

　続いて、図１２を用いて分析処理が完了した場合に表示制御部１３８が提示する画面について説明する。図１２は、分析処理完了を示す画像の一例を示す図である。

　図１２の例では、表示制御部１３８は、端末装置１０に画像ＩＭ５１を表示させる。図１２に示すように、表示制御部１３８は、完了した全ての処理を、チェックマークとともに濃い表示色で表示する。また、例えば表示制御部１３８は、画像ＩＭ５１にＯＫボタンＢ５１を表示する。表示制御部１３８は、例えばユーザからのＯＫボタンＢ５１の押下操作を受け付けると、分析処理結果をユーザに提示する。

　次に、図１３を用いて、表示制御部１３８が、情報処理装置１００による分析処理結果を端末装置１０に表示させる例について説明する。図１３は、分析処理結果を示す画像の一例を示す図である。ここでは、抽出部１３３による抽出処理に加え、例えば評価部１３５、予測部１３６、収集決定部１３７で各処理が行われた場合に、図１３に示す画像が処理の結果を示す画像として端末装置１０に表示される。

　図１３の例では、表示制御部１３８は、端末装置１０に画像ＩＭ２１を表示させる。画像ＩＭ２１は、情報処理装置１００の処理結果をユーザに提示する画像である。表示制御部１３８は、抽出部１３３が抽出した複数の問題設定に関する情報をおすすめの問題設定として領域Ｒ２１、Ｒ２２、・・・にそれぞれ表示する。表示制御部１３８は、例えば予測部１３６が予測したビジネス効果が高い順に問題設定を表示する。

　なお、上述した表示制御部１３８による問題設定の表示順は一例である。例えば表示制御部１３８が、評価部１３５による予測モデルの評価値が高い順に問題設定を表示するようにしてもよい。あるいは、抽出部１３３がランキング学習を利用して問題設定を抽出した場合、表示制御部１３８は、ランキング順位に応じて問題設定を表示するなど、ユーザに関する情報に応じた順番で問題設定を表示してもよい。なお、各領域Ｒ２１、Ｒ２２、・・・の表示内容は同じであるため、以下、領域Ｒ２１について詳細に説明する。

　図１３に示すように、表示制御部１３８は、画面ＩＭ２１の領域Ｒ２１内に問題設定ＲＳ１１および評価結果ＲＳ１２を表示する。なお、図１３では、表示制御部１３８は、問題設定ＲＳ１１として、例えば「職種・年収などから貸し倒れするかを予測」のように「使用項目」の一部と「予測対象」を含む文章を表示するものとする。また、表示制御部１３８は、評価結果ＲＳ１２として予測モデルの精度を表示する。このとき、図１３では、表示制御部１３８は、「精度８２．６％でかなり良い」というように、精度に加え評価も付して表示する。このように、文章や評価を提示することでユーザに抽出結果をわかりやすく提示することができる。なお、図１３では、複数の問題設定および評価結果を区別するため、「問題設定１」、「評価結果１」と数字を付して表示している。

　また、表示制御部１３８は、問題設定ＲＳ１１の近くに問題設定ＲＳ１１が編集可能であることを示す編集アイコンＣ２１を表示する。このように、編集アイコンＣ２１を表示することで、ユーザが、例えば問題設定における「使用項目」の追加・削除や「予測対象」の変更等、問題設定の変更を直接行えるようにしてもよい。

　次に、図１３の例では、表示制御部１３８は、構築データセットＭ２１を予測に使用したデータとして表示する。表示制御部１３８は、例えば構築データセットＭ２１をマトリクスとして表示する。このとき、例えば表示制御部１３８は、「予測対象」に該当する項目の表示色を変更するなど、強調して表示してもよい。なお、「予測対象」の強調表示は、表示色の変更に限らず、「使用項目」と異なる表示態様であれば、種々の態様であってもよい。例えば、「予測対象」の強調表示は、「使用項目」よりも大きな文字サイズで表示したり、下線を付して表示したりすることであってもよい。また、「予測対象」の強調表示は、強調対象を点滅して表示させることであってもよい。

　また、表示制御部１３８は、構築データセットＭ２１の近くに構築データセットＭ２１が編集可能であることを示す編集アイコンＣ２２を表示する。編集アイコンＣ２２を選択することで、ユーザが、例えば問題設定における「使用項目」の追加・削除や「予測対象」の変更等、問題設定の変更を直接行えるようにしてもよい。あるいは、ユーザが、構築データセットに含まれるデータの追加、修正、削除等の編集を行えるようにしてもよい。

　このように、表示制御部１３８が構築データセットを画像ＩＭ２１に表示することで、予測分析にどのようなデータセットを利用したかユーザに提示することができる。なお、図１３に示す構築データセットの表示は一例であり、これに限定されない。例えば構築データセットが大きく画面に全てを表示させられない場合、表示制御部１３８が代表的な項目やデータなど構築データセットの一部を表示するようにしてもよい。あるいは、表示制御部１３８は、ユーザによる例えばスクロール操作を受け付けることで全ての構築データセットＭ２１を表示できるようにしてもよい。

　なお、例えば、ユーザが編集アイコンＣ２１、Ｃ２２を選択し、問題設定または構築データセットに変更を加えたとする。この場合、表示制御部１３８は、ユーザに対して、変更した内容で再度予測モデルの生成、評価およびビジネス効果の算出等の処理を行うか否かを選択させる画像を表示してもよい。ユーザが再度処理を行うことを選択した場合、情報処理装置１００は、ユーザが変更した内容に基づき、再度予測モデルの生成、評価およびビジネス効果の算出等の処理を行う。

　表示制御部１３８は、評価結果として各種グラフや表を表示する。図１３に示す例では、表示制御部１３８は、混同行列Ｍ２２および予測確率の分布を示すグラフＧ２１を表示する。

　なお、表示制御部１３８が表示する各種グラフや表は図１３に示す例に限定されない。表示制御部１３８が、例えば予測分析の結果を時系列に示すグラフなど、種々の各種グラフや表を表示するようにしてもよい。あるいは、表示するグラフや表をユーザが指定するようにしてもよい。なお、ここで表示制御部１３８が表示するグラフや表に用いるデータは例えば評価部１３５が算出するものとする。

　続いて、表示制御部１３８は、ビジネス効果Ｒ２３を表示する。表示制御部１３８は、予測部１３６によるビジネス効果の算出額を表示する。このとき、図１３に示すように、表示制御部１３８が、表示する算出額に所定の幅を持たせて表示したり、算出額を所定の桁に丸める端数処理を行って表示したりしてもよい。

　表示制御部１３８は、追加項目Ｒ２４を追加すべきデータとして表示することで、追加項目Ｒ２４に含まれる提案項目をユーザに提示する。追加項目Ｒ２４には、収集決定部１３７が決定した提案項目が含まれる。また、表示制御部１３８は、提案項目を追加した場合に増加するビジネス効果の額を表示するようにしてもよい。表示制御部１３８は、収集決定部１３７が算出するビジネス効果の減少量に基づき、かかる増加額を表示する。

　このとき、図１３に示すように、表示制御部１３８が、増加額を所定の桁に丸める端数処理を行って表示するようにしてもよい。あるいは、例えば増加額がそれぞれ異なる複数の提案項目を表示する場合などにおいて、表示制御部１３８が、表示する増加額に所定の幅を持たせて表示するようにしてもよい。

　また、表示制御部１３８は、提案した問題設定を用いた予測分析を採用する場合に選択する採用ボタンＢ２１を表示する。ユーザが採用ボタンＢ２１を選択すると、表示制御部１３８が、採用した予測分析を実際に行った場合の実証実験結果やビジネス効果等の入力を受け付ける画像を表示する。このように、実際にビジネス導入した場合のデータを受け付けることで、情報処理装置１００は、予測分析の過去事例を取得することができる。

　あるいは、表示制御部１３８が、例えば、期間や地域など実証実験の例を表示するようにしてもよい。実証実験の例は、例えば過去事例に含まれる実証実験に基づいて表示される。これにより、ユーザは過去事例を参考にして実証実験を行うことができる。

　上述した以外にも、表示制御部１３８は種々の情報を画像ＩＭ２１に表示する。例えば、表示制御部１３８は、画像ＩＭ２１に表示した情報の詳細情報へのリンクが設定された文章やアイコンを表示する。

　図１３では、例えば「もっと詳しく」と下線を付して記載された文章を選択するなど、ユーザによる詳細表示への切り替え操作を受け付けると、表示制御部１３８は、対応する内容の詳細を表示する。

　例えば評価結果の詳細表示操作を受け付けた場合、表示制御部１３８は混同行列Ｍ２２やグラフＧ２１を拡大したものを表示したり、画像ＩＭ２１では表示していない表やグラフを追加で表示したりしてもよい。

　また、ビジネス効果の詳細表示操作を受け付けた場合、表示制御部１３８は、例えば詳細な算出額を表示したり、具体的なビジネスへの導入例を表示したりしてもよい。また、追加すべきデータの詳細表示操作を受け付けた場合、表示制御部１３８は、詳細な算出額を表示したり、画像ＩＭ２１に表示している以外の提案項目を表示したりしてもよい。

　また、表示制御部１３８は、例えば問題設定ＲＳ１１の使用項目や追加項目Ｒ２４の提案項目、評価結果ＲＳ１２の精度値に下線を付して強調表示する。ユーザが強調表示箇所を選択することで、例えば使用項目の詳細や精度値の詳細を確認できるようにしてもよい。なお、強調対象の強調表示は、下線に限らず、強調表示の対象外の要素と異なる表示態様であれば、種々の態様であってもよい。例えば、強調対象の強調表示は、強調表示の対象外の要素よりも大きな文字サイズで表示したり、強調表示の対象外の要素とは異なる色で表示したりすることであってもよい。また、強調対象の強調表示は、強調対象を点滅して表示させることであってもよい。

　また、図１３の例では、表示制御部１３８は、情報処理装置１００の処理結果に加え、ユーザからの質問等を受け付けるテキストボックスＴＢ２１を表示する。このように、表示制御部１３８が処理結果に関する情報以外の情報を表示するようにしてもよい。

　次に、図１４、図１５を用いて、表示制御部１３８が端末装置１０に表示させる分析処理結果の他の例について説明する。図１４は、分析処理結果を示す画像の他の例を示す図（１）である。図１５は、分析処理結果を示す画像の他の例を示す図（２）である。ここでは、分析処理のうち寄与度算出部１４２の算出処理結果を示す場合について説明する。また、図１４、図１５では、工場で稼働する機械が故障するか否かを予測する予測分析を行った結果を例にとって説明する。

　図１４の例では、表示制御部１３８は、端末装置１０に画像ＩＭ６１を表示させる。図１４では、表示制御部１３８は、画像ＩＭ６１の左側領域Ｒ６１に、例えば「稼働月数」や、「生産工場」といった項目ごとの寄与度を棒グラフで表示する。上述したように、寄与度は正の値および負の値が含まれる。そこで、表示制御部１３８は、正の値の合計値と負の値の合計値とをそれぞれ合わせた値を棒グラフとして表示する。

　なお、ここでは、機械が故障するか否かを予測しているため、故障するという予測確率を向上させる特徴量が正の値となり、故障しない（＝正常である）という予測確率を向上させる特徴量が負の値となる。図１４では、予測結果が「故障」となる予測確率に対しても、「正常」となる予測確率に対しても「稼働月数」の寄与度が大きいことがわかる。このように、項目ごとに正および負の寄与度を表示することで、どの項目が予測分析に大きく寄与しているのかわかりやすく表示することができる。

　なお、寄与度の表示方法は棒グラフに限られず、円グラフや折れ線グラフ、その他のインジケータを用いて表示してもよく、また、寄与度の数値自体を表示するなど、種々の表示方法で表示するようにしてもよい。

　また、表示制御部１３８は、画像ＩＭ６１の右側領域Ｒ６２に特定の項目の寄与度の詳細を表示する。図１４の例では、表示制御部１３８は、「稼働月数」の寄与度の詳細として、「稼働月数」の特徴量（項目内容）ごとの寄与度と特徴量の項目に占める割合を表示している。かかる寄与度および割合は、寄与度算出部１４２が算出したものである。

　図１４では、表示制御部１３８は、寄与度の詳細として、例えば「故障」と予測する結果に寄与する特徴量（項目内容）と、「正常」と予測する結果に寄与する特徴量（項目内容）と、をそれぞれ寄与度が大きい順に所定数表示する。

　このとき、表示制御部１３８は、寄与度の数値を表示してもよく、あるいは図１４に示すように寄与度に対応するインジケータを表示してもよい。例えば、図１４では、複数のバーで構成されるインジケータが配置されており、表示制御部１３８は、寄与度が大きくなるほど左側から右側に向かって多くのバーを表示する。

　また、表示制御部１３８は、寄与度とともに、特徴量の項目に占める割合を表示する。図１４の例では、表示制御部１３８は、故障へ寄与する項目内容「９９．００～１１０．０」の寄与度に対応するインジケータＭ６３と、割合に対応する円グラフＭ６４と、を表示する。図１４では、「機械が稼働してから９９ヶ月から１１０ヶ月」のデータが「故障」と予測する予測分析への寄与度が最も高いことを示している。また「機械が稼動してから９９ヶ月から１１０ヶ月」のデータが、稼働月数に含まれるデータの９パーセントを占めることを示している。

　また、図１４の例では、故障へ寄与する項目内容「１１０．０～１１６．０」の寄与度は２番目に大きいが、項目に占める割合は３パーセントであり、稼働月数に含まれるデータに占める割合は小さいことがわかる。このように、項目内容ごとに寄与度および割合を表示することで、各項目内容の寄与度がどれくらい大きいか、また項目内容がどれくらいの頻度で起こるのかをユーザにわかりやすく提示することができる。

　また、特徴量（項目内容）が数値である場合、表示制御部１３８は、各項目内容の数値の範囲Ｒ６５を示すようにしてもよい。図１４の例では、表示制御部１３８は、稼働月数を横軸とし、各項目内容の数値範囲を１つのグラフを表示する。これにより、項目内容の数値範囲を視覚的にわかりやすくユーザに提示することができる。

　次に、図１５を用いて、分析処理結果を示す画像の他の例を説明する。図１５の例では、表示制御部１３８は、端末装置１０に画像ＩＭ７１を表示させる。例えば、ユーザが左側領域Ｒ６１に表示される項目の「生産工場」を選択したとする。この場合、表示制御部１３８は、図１５に示すように、右側領域Ｒ６２に「生産工場」の寄与度の詳細を表示する。図１５の例では、表示制御部１３８は、「生産工場」の特徴量（項目内容）である「鳥取県」や「新潟県」ごとに寄与度のインジケータと項目に占める割合を表示する。

　なお、寄与度や割合の表示方法は上述した例に限られず、各種グラフやインジケータを用いて表示してもよく、また、寄与度の数値自体を表示するなど、種々の表示方法で表示するようにしてもよい。

［１－５．実施形態に係る情報処理の手順］
　次に、図１６を用いて、実施形態に係る情報処理の手順について説明する。図１６は、本開示の実施形態に係る分析処理の手順を示すフローチャートである。

　図１６に示すように、情報処理装置１００は、記憶部１２０から過去事例およびユーザデータを取得する（ステップＳ１０１）。情報処理装置１００は、取得した一部のユーザデータを用いて分析処理にかかる処理時間（予測処理時間）を予測する（ステップＳ１１０）。情報処理装置１００は、ユーザデータを解析し、構造化することで構造化データを生成する（ステップＳ１０２）。

　情報処理装置１００は、構造化データおよび過去事例に基づき、問題設定を抽出する（ステップＳ１０３）。情報処理装置１００は、抽出した問題設定に応じたデータセットを構築する（ステップＳ１０４）。

　情報処理装置１００は、問題設定および構築データセットに基づき、予測モデルを学習する（ステップＳ１０５）。情報処理装置１００は、データセットを学習用データとテスト用データに分割し、学習用データを用いて予測モデルを生成する。

　続いて、情報処理装置１００は、テスト用データを用いて予測モデルを評価する（ステップＳ１０６）。情報処理装置１００は、予測モデルをビジネス導入した場合のビジネス効果を予測する（ステップＳ１０７）。

　情報処理装置１００は、過去事例に基づき、データセットに追加するとビジネス効果が増加する可能性がある項目を提案項目に決定する（ステップＳ１０８）。情報処理装置１００は、テスト用データの特徴量の寄与度を算出する（ステップＳ１１１）。情報処理装置１００は、処理結果をユーザに提示する（ステップＳ１０９）。

　なお、情報処理装置１００は、ユーザから問題設定やデータの修正を受け付けた場合、ステップＳ１０５に戻り、再度予測モデルの学習や評価を行ったり、ビジネス効果を算出したりしてもよい。また、情報処理装置１００は、各ステップの処理が終了したタイミングで処理時間を予測するようにしてもよい。また、抽出部１３３が問題設定を複数抽出する場合、１つの問題設定ごとにステップＳ１０４～ステップＳ１１１を繰り返し実行することで、全ての問題設定に対する分析処理を実行するようにしてもよい。

［２．その他の構成例］
　上記の各構成は一例であり、情報処理システム１は、過去事例およびユーザデータに基づき、問題設定の抽出およびデータセットの構築が可能であればどのようなシステム構成であってもよい。例えば、情報処理装置１００と端末装置１０とが一体であってもよい。

　また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

　また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

［３．ハードウェア構成］
　上述してきた各実施形態や変形例に係る情報処理装置１００や端末装置１０等の情報機器は、例えば図１７に示すような構成のコンピュータ１０００によって実現される。図１７は、情報処理装置１００や端末装置１０等の情報処理装置の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。以下、実施形態に係る情報処理装置１００を例に挙げて説明する。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read　Only　Memory）１３００、ＨＤＤ（Hard　Disk　Drive）１４００、通信インターフェイス１５００、および入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、および、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係るプログラムを記録する記録媒体である。

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（Digital　Versatile　Disc）、ＰＤ（Phase　change　rewritable　Disk）等の光学記録媒体、ＭＯ（Magneto-Optical　disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が実施形態に係る情報処理装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた情報処理プログラムを実行することにより、制御部１３０等の機能を実現する。また、ＨＤＤ１４００には、本開示に係るプログラムや、記憶部１２０内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　過去の予測対象と、当該予測対象の予測分析に用いた分析データセットと、を含む過去事例を取得し、
　予測分析に使用するデータを取得し、
　前記データおよび前記過去事例に基づき、前記データを用いて予測分析を行う場合の予測対象を抽出し、
　前記データに基づき、抽出した前記予測対象の予測分析に用いるデータセットを構築する制御部
　を備える情報処理装置。
（２）
　前記制御部は、ユーザに関する情報に基づいて前記過去事例から過去の前記予測対象を選択し、
　前記データに含まれる変数であって、選択した過去の前記予測対象に対応する変数を、前記予測対象として抽出する（１）に記載の情報処理装置。
（３）
　前記制御部は、
　抽出した前記予測対象および前記データに基づき、複数の説明変数を抽出し、
　抽出した前記予測対象および複数の前記説明変数に基づき、前記データセットを構築する（１）または（２）に記載の情報処理装置。
（４）
　前記制御部は、複数の前記予測対象を抽出し、抽出した複数の前記予測対象ごとに前記データセットを構築する（１）～（３）のいずれかに記載の情報処理装置。
（５）
　前記制御部は、前記過去事例に基づき、抽出した前記予測対象の予測分析をビジネスに導入した場合に得られる効果を予測する（１）～（４）のいずれかに記載の情報処理装置。
（６）
　前記過去事例は、過去の前記予測対象の予測分析をビジネスに導入した場合に得られた事例効果を含み、
　前記制御部は、前記分析データセットを用いて、前記過去事例に含まれる前記事例効果を予測対象とした効果用予測モデルを学習し、当該効果用予測モデルおよび構築した前記データセットを用いて予測分析を行うことで、前記効果を予測する（５）に記載の情報処理装置。
（７）
　前記制御部は、抽出した複数の前記予測対象を前記効果または／および前記ユーザに関する前記情報に応じた順番で前記ユーザに提示する（６）に記載の情報処理装置。
（８）
　前記制御部は、前記分析データセットに含まれ、構築した前記データセットに含まれない説明変数を、追加収集を提案するデータとして前記ユーザに提示する（１）～（７）のいずれかに記載の情報処理装置。
（９）
　過去の予測対象と、当該予測対象の予測分析に用いた分析データセットと、を含む過去事例を取得することと、
　予測分析に使用するデータを取得することと、
　前記データおよび前記過去事例に基づき、前記データを用いて予測分析を行う場合の予測対象を抽出することと、
　前記データに基づき、抽出した前記予測対象の予測分析に用いるデータセットを構築することと、
　を含む、プロセッサにより実行される情報処理方法。
（１０）
　コンピュータを、
　過去の予測対象と、当該予測対象の予測分析に用いた分析データセットと、を含む過去事例を取得し、
　予測分析に使用するデータを取得し、
　前記データおよび前記過去事例に基づき、前記データを用いて予測分析を行う場合の予測対象を抽出し、
　前記データに基づき、抽出した前記予測対象の予測分析に用いるデータセットを構築する制御部
　として機能させるプログラム。

１　情報処理システム
１００　情報処理装置
１１０　通信部
１２０　記憶部
１２１　過去事例記憶部
１２２　ユーザデータ記憶部
１２３　ユーザプロファイル記憶部
１３０　制御部
１３１　取得部
１３２　解釈部
１３３　抽出部
１３４　学習部
１３５　評価部
１３６　予測部
１３７　収集決定部
１３８　表示制御部
１０　端末装置

Claims

　過去の予測対象と、当該予測対象の予測分析に用いた分析データセットと、を含む過去事例を取得し、
　予測分析に使用するデータを取得し、
　前記データおよび前記過去事例に基づき、前記データを用いて予測分析を行う場合の予測対象を抽出し、
　前記データに基づき、抽出した前記予測対象の予測分析に用いるデータセットを構築する制御部
　を備える情報処理装置。
　前記制御部は、ユーザに関する情報に基づいて前記過去事例から過去の前記予測対象を選択し、
　前記データに含まれる変数であって、選択した過去の前記予測対象に対応する変数を、前記予測対象として抽出する請求項１に記載の情報処理装置。
　前記制御部は、
　抽出した前記予測対象および前記データに基づき、複数の説明変数を抽出し、
　抽出した前記予測対象および複数の前記説明変数に基づき、前記データセットを構築する請求項２に記載の情報処理装置。
　前記制御部は、複数の前記予測対象を抽出し、抽出した複数の前記予測対象ごとに前記データセットを構築する請求項３に記載の情報処理装置。
　前記制御部は、前記過去事例に基づき、抽出した前記予測対象の予測分析をビジネスに導入した場合に得られる効果を予測する請求項４に記載の情報処理装置。
　前記過去事例は、過去の前記予測対象の予測分析をビジネスに導入した場合に得られた事例効果を含み、
　前記制御部は、前記分析データセットを用いて、前記過去事例に含まれる前記事例効果を予測対象とした効果用予測モデルを学習し、当該効果用予測モデルおよび構築した前記データセットを用いて予測分析を行うことで、前記効果を予測する請求項５に記載の情報処理装置。
　前記制御部は、抽出した複数の前記予測対象を前記効果または／および前記ユーザに関する前記情報に応じた順番で前記ユーザに提示する請求項６に記載の情報処理装置。
　前記制御部は、前記分析データセットに含まれ、構築した前記データセットに含まれない前記説明変数を、追加収集を提案するデータとして前記ユーザに提示する請求項７に記載の情報処理装置。
　過去の予測対象と、当該予測対象の予測分析に用いた分析データセットと、を含む過去事例を取得することと、
　予測分析に使用するデータを取得することと、
　前記データおよび前記過去事例に基づき、前記データを用いて予測分析を行う場合の予測対象を抽出することと、
　前記データに基づき、抽出した前記予測対象の予測分析に用いるデータセットを構築することと、
　を含む、プロセッサにより実行される情報処理方法。
　コンピュータを、
　過去の予測対象と、当該予測対象の予測分析に用いた分析データセットと、を含む過去事例を取得し、
　予測分析に使用するデータを取得し、
　前記データおよび前記過去事例に基づき、前記データを用いて予測分析を行う場合の予測対象を抽出し、
　前記データに基づき、抽出した前記予測対象の予測分析に用いるデータセットを構築する制御部
　として機能させるプログラム。