WO2020246325A1

WO2020246325A1 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: WO2020246325A1
Application number: PCT/JP2020/020851
Authority: WO
Inventors: 慎吾高松
Original assignee: ソニー株式会社
Priority date: 2019-06-05
Filing date: 2020-05-27
Publication date: 2020-12-10
Also published as: JP7509139B2; JPWO2020246325A1

Abstract

本技術の一形態に係る情報処理装置は、データ取得部と、受付部と、データ生成部とを具備する。前記データ取得部は、元データセットを取得する。前記受付部は、ユーザが指定した指定情報を受け付ける。前記データ生成部は、前記ユーザが指定した前記指定情報に基づいて、前記取得された元データセットから、学習モデルを構築するためのデータセットを生成する。

Description

情報処理装置、情報処理方法、及びプログラム

　本技術は、機械学習用のデータセットを生成する情報処理装置、情報処理方法、及びプログラムに関する。

　従来、機械学習を用いて学習モデルを構築する技術が開発されている。学習モデルを適正に構築することで、様々な予測処理や推定処理を行うことが可能となる。

　例えば特許文献１には、不動産取引の成約確率を予測するシステムについて記載されている。このシステムは、成約確率予測モデルを学習して、対象物件の所定売出し期間における成約確率を予測する。モデルの学習には、例えば過去に成約に至った物件の売出し日から成約日までの日数や、当該物件の特徴量ベクトル等を含む学習データが用いられる。また学習データの特徴量ベクトルを、物件の売出し日からの直近一定期間の情報に基づいて生成された特徴量ベクトルに修正することで、成約確率の予測精度を向上することが可能となっている（特許文献１の明細書段落［００３０］［００４５］［００５１］図３、５等）。

特開２０１７－１６３２１号公報

　このように、学習モデルを構築する際には、適切なデータセットを用いることが重要であり、データセットの作成を支援することが可能な技術が求められている。

　以上のような事情に鑑み、本技術の目的は、データセットの作成を支援することが可能な情報処理装置、情報処理方法、及びプログラムを提供することにある。

　上記目的を達成するため、本技術の一形態に係る情報処理装置は、データ取得部と、受付部と、データ生成部とを具備する。
　前記データ取得部は、元データセットを取得する。
　前記受付部は、ユーザが指定した指定情報を受け付ける。
　前記データ生成部は、前記ユーザが指定した前記指定情報に基づいて、前記取得された元データセットから、学習モデルを構築するためのデータセットを生成する。

　この情報処理装置では、元データセットから学習モデルを構築するためのデータセットが生成される。このデータセットの生成は、ユーザが指定した指定情報に基づいて行われる。これにより、ユーザの指定に応じたデータセットを生成することが可能となり、データセットの作成を支援することが可能となる。

　前記元データセットは、各々が複数のデータ項目を含む複数のデータサンプルであってもよい。この場合、前記指定情報は、前記学習モデルの処理対象となるデータ項目である対象項目を含んでもよい。また前記学習モデルは、前記対象項目に関する予測処理又は推定処理を行ってもよい。
　これにより、予測処理や推定処理を行う学習モデルに必要なデータセットを適正に生成することが可能となる。

　前記データ生成部は、前記元データセットを所定の条件に基づいて評価し、当該評価結果に応じた評価情報、又は前記評価結果に対する対策案の少なくとも一方を生成してもよい。この場合、前記受付部は、前記評価情報又は前記対策案の少なくとも一方を提示してもよい。
　これにより、例えば元データセットの問題点を評価情報として提示することや、その問題点の対策案を提示することが可能となり、データセットの作成を十分に支援することが可能となる。

　前記受付部は、前記評価結果に対する前記対策案を選択可能に提示し、前記指定情報として前記ユーザによる前記対策案の選択結果を受け付けてもよい。この場合、前記データ生成部は、前記選択結果に基づいて前記データセットを生成してもよい。
　これにより、対策案に応じたデータの修正等を容易に行うことが可能となり、適切なデータセットを容易に作成することが可能となる。

　前記データ生成部は、前記評価結果に対する複数の対策案を生成し、前記複数の対策案のうち推奨される推奨案を選択してもよい。この場合、前記受付部は、前記推奨案が判別できるように、前記複数の対策案を提示してもよい。
　これにより、推奨案に応じたデータの修正等が可能となり、例えば経験の浅いユーザであっても、適切なデータセットを容易に作成することが可能となる。

　前記データ生成部は、前記推奨案に基づいて前記データセットを生成してもよい。この場合、前記受付部は、前記データセットの生成処理の開始後、前記複数の対策案のうち前記推奨案とは異なる他の対策案を選択可能に提示してもよい。
　これにより、例えば対策案の選択等に要する時間を抑制することが可能となる。

　前記受付部は、過去の前記選択結果に基づいて、前記推奨案を提示してもよい。
　これにより、例えば前回と同様の条件で新しいデータセットを作成することが可能となり、信頼性の高い学習処理を実現することが可能となる。

　前記所定の条件は、前記データサンプルの数、前記データ項目の数、前記データ項目間の関連度、前記データ項目の項目値の欠損率、又は前記対象項目の統計量の少なくとも１つに関する条件を含んでもよい。この場合、前記データ生成部は、前記所定の条件に基づいて前記元データセット全体を評価してもよい。
　これにより、元データセット全体の問題点やその対策案等を提示することが可能となり、例えばバランスのよいデータセット等を容易に作成することが可能となる。

　前記所定の条件は、対象となる前記データ項目の項目値のユニーク数、前記項目値の分布、前記項目値における外れ値の有無、前記項目値の欠損率、又は前記項目値の書式の少なくとも１つに関する条件を含んでもよい。この場合、前記データ生成部は、前記所定の条件に基づいて前記複数のデータ項目ごとに前記元データセットを評価してもよい。
　これにより、データ項目ごとの問題点やその対策案等を提示することが可能となる。この結果、学習モデルの過学習等が抑制され、処理精度を向上することが可能となる。

　前記対象項目は、対象事象の時間情報と関連付けられたデータ項目であってもよい。この場合、前記学習モデルは、前記対象事象が評価期間に発生する確率を予測するモデルであってもよい。また、前記データ生成部は、前記評価期間の長さの基準となる期間単位に基づいて、前記データセットを生成してもよい。
　これにより、例えば時間情報を伴うデータ項目が処理対象となる場合であっても、適正なデータセットを生成することが可能となる。

　前記データ生成部は、前記元データセット又は前記ユーザが指定した前記指定情報のいずれか一方に基づいて、前記期間単位を設定してもよい。
　これにより、例えばデータサンプルの数が変化した場合であっても、期間単位を適正に設定することが可能となる。

　前記データセットは、前記学習モデルを学習させるための学習データセットと、前記学習モデルを評価するための評価データセットとを含んでもよい。この場合、前記データ生成部は、前記期間単位に基づいて前記評価期間と前記評価期間よりも前の期間である仮想期間とを設定し、前記評価期間を基準として前記評価データセットを生成し、前記仮想期間を基準として前記学習データセットを生成してもよい。
　これにより、例えば評価データセットとして直近のデータを使用することが可能となり、実際の予測処理に近い状態で学習モデルを評価することが可能となる。

　前記データ生成部は、前記評価期間の開始時点で前記評価期間に前記対象事象が発生する可能性があった前記データサンプルに対して、前記評価期間での前記対象事象の発生の有無を表すラベルを付与することで前記評価データセットを生成してもよい。
　これにより、評価データセットを適正に生成することが可能となる。

　前記データ生成部は、前記仮想期間の開始時点で前記仮想期間に前記対象事象が発生する可能性があった前記データサンプルに対して、前記仮想期間での前記対象事象の発生の有無を表すラベルを付与することで前記学習データセットを生成してもよい。
　これにより、学習データセットを適正に生成することが可能となる。

　前記データ生成部は、前記期間単位を基準として前記仮想期間をずらすことで複数の部分学習データセットを生成し、前記複数の部分学習データセットを結合して前記学習データセットを生成してもよい。
　これにより、必要な分量の学習データセットを容易に生成することが可能となり、学習データセットの作成を十分に支援することが可能となる。

　前記データ取得部は、前記対象事象とは異なる他の事象の時間情報を表すデータ項目を有する追加データセットを取得してもよい。この場合、前記データ生成部は、前記他の事象の時間情報に基づいて、前記評価期間よりも前に設定された所定期間において前記他の事象のデータ項目を集計し、当該集計結果を前記データセットに追加してもよい。
　これにより、例えば時間情報に関連付けられた他の事象に関するデータを含むデータセットを容易に作成することが可能となる。

　前記受付部は、前記指定情報を入力するための入力画面を生成してもよい。
　これにより、ユーザは各種の指定を容易に行うことが可能となり、データセットの作成を十分に支援することが可能となる。

　本技術の一実施形態に係る情報処理方法は、コンピュータシステムにより実行される情報処理方法であって、元データセットを取得することを含む。
　ユーザが指定した指定情報が受け付けられる。
　前記ユーザが指定した前記指定情報に基づいて、前記取得された元データセットから、学習モデルを構築するためのデータセットが生成される。

　本技術の一実施形態に係るプログラムは、コンピュータシステムに以下のステップを実行させる。
　元データセットを取得するステップ。
　ユーザが指定した指定情報を受け付けるステップ。
　前記ユーザが指定した前記指定情報に基づいて、前記取得された元データセットから、学習モデルを構築するためのデータセットを生成するステップ。

本技術の一実施形態に係る情報処理装置の構成例を示すブロック図である。元データセットの一例として挙げる表形式データを示す表である。情報処理装置の基本的な動作の一例を示すフローチャートである。元データセットのチェック処理の一例を示すフローチャートである。チェック処理により生成されるＵＩ画面の一例を示す模式図である。ＵＩ画面の他の一例を示す模式図である。時間情報を伴う対象項目を含む元データセットの一例を示す表である。評価データセットの生成方法の一例を説明するための模式図である。学習データセットの生成方法の一例を説明するための模式図である。時間情報を伴う入力項目を含む追加データセットの一例を示す表である。追加データセットの集計処理の一例を説明するための模式図である。時間情報を伴うデータセットを入力するためのＵＩ画面の一例である。情報処理装置のハードウェア構成例を示すブロック図である。

　以下、本技術に係る実施形態を、図面を参照しながら説明する。

　［情報処理装置の構成］
　図１は、本技術の一実施形態に係る情報処理装置の構成例を示すブロック図である。情報処理装置１００は、機械学習を用いた学習モデルを構築するためのデータセットを作成する。情報処理装置１００としては、例えばＰＣ（Personal Computer）やサーバ装置が用いられる。この他、スマートフォンやタブレット端末等の携帯端末が情報処理装置１００として用いられてもよい。図１に示すように、情報処理装置１００は、操作部１０と、表示部１１と、通信部１２と、データベース１３と、制御部１４とを有する。

　操作部１０は、ユーザが各種の情報を入力するための操作装置を含む。操作部１０としては、例えばマウスやキーボード等の情報入力が可能な装置が用いられる。この他、操作部１０の具体的な構成は限定されない。例えば操作部１０として、タッチパネル等が用いられてもよい。また操作部１０として、ユーザを撮影するカメラ等が用いられ、視線やジェスチャによる入力が可能であってもよい。

　表示部１１は、各情報を表示するディスプレイであり、例えば上記したＵＩ画面等を表示する。表示部１１としては、例えば液晶ディスプレイ（ＬＣＤ：Liquid Cristal Display）や有機ＥＬ（Electro-Luminescence）ディスプレイ等が用いられる。表示部１１の具体的な構成は限定されず、例えば操作部１０として機能するタッチパネル等を搭載したディスプレイ等が用いられてもよい。また表示部１１としてＨＭＤ（Head Mount Display）が用いられてもよい。

　通信部１２は、他の装置と情報処理装置１００との通信処理を行うモジュールである。通信部１２は、例えばＷｉ－Ｆｉ等の無線ＬＡＮ（Local Area Network）モジュールや、有線ＬＡＮモジュールにより構成される。この他、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の近距離無線通信や、光通信等が可能な通信モジュールが用いられてよい。

　データベース１３は、不揮発性の記憶デバイスであり、例えばＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等が用いられる。データベース１３は、機械学習用のデータセットを生成するための元データセット２０（図２参照）や、情報処理装置１００を使用する際に設定された設定内容等を記憶する。またデータベース１３は、情報処理装置１００の記憶部として機能し、制御部１４が実行するプログラム等を記憶する。

　制御部１４は、情報処理装置１００が有する各ブロックの動作を制御する。制御部１４は、例えばＣＰＵやメモリ（ＲＡＭ、ＲＯＭ）等のコンピュータに必要なハードウェア構成を有する。ＣＰＵがデータベース１３（記憶部）に記憶されているプログラムをＲＡＭにロードして実行することにより、種々の処理が実行される。制御部１４としては、例えばＦＰＧＡ（Field Programmable Gate Array）等のＰＬＤ(Programmable Logic Device)、その他ＡＳＩＣ（Application Specific Integrated Circuit）等のデバイスが用いられてもよい。

　本実施形態では、制御部１４のＣＰＵが本実施形態に係るプログラムを実行することで、機能ブロックとして、データ取得部１５と、ＵＩ生成部１６と、データ処理部１７と、機械学習部１８とが実現される。そしてこれらの機能ブロックにより、本実施形態に係る情報処理方法が実行される。なお、各機能ブロックを実現するために、ＩＣ（集積回路）等の専用のハードウェアが適宜用いられてもよい。

　データ取得部１５は、元データセット２０を取得する。元データセット２０は、後述する機械学習用のデータセットの元となるデータセットである。例えばデータ取得部１５により、ユーザが指定した元データセット２０がデータベース１３から読み込まれる。本開示において、データセットとは、複数のデータのまとまりである。典型的には、データセットは、複数のデータサンプルをまとめたものであり、各データサンプルには、所定の項目ごとのデータ（項目値）が関連付けて記憶される。従って元データセット２０は、各々が複数のデータ項目を含む複数のデータサンプルであると言える。

　元データセット２０としては、例えば表形式のデータセット（以下、表形式データと記載する）が用いられる。表形式データとは、各行がデータサンプルに相当し、各列がデータサンプルの属性（データ項目）を表す。表形式データをファイルで保持する場合、最初の１行目に各データ項目の名称を保持することが多い。例えば、データサンプルのＩＤや、作成日、イベント名等の種々の項目がデータ項目となり得る。

　なお、表形式データの他に、画像や音声等のデータセットが用いられてもよい。この場合、画像データや音声データを主要なデータとするデータサンプルが構成される。各データサンプルには、その属性（画像や音声の内容等）を表す項目が記憶される。この他、株価等の時系列データや、数値の分布等を表す統計データ等のデータセットが用いられてもよい。データセットの形式等は限定されず、任意の形式のデータセットに対して本技術は適用可能である。

　ＵＩ生成部１６は、ユーザと情報処理装置１００との情報のやり取りを行うためのＵＩを生成する。典型的には、ＵＩ生成部１６は、機械学習用のデータセットを生成する際に表示部１１に表示されるＵＩ画面（図５等参照）等のＧＵＩ（Graphical User Interface）を生成する。ＵＩ画面には、例えばユーザに提示するための情報や、ユーザが情報を入力するための入力欄等が表示される。ユーザはＵＩ画面を見ながら、操作部（キーボード等）を操作して各種の設定や値等を指定することが可能である。

　またＵＩ生成部１６は、ＵＩ画面を介してユーザが指定した情報（以下、指定情報と記載する）を受け付ける。すなわち、ＵＩ生成部１６により、ＵＩ画面を介して入力された選択や値等の入力内容が読み込まれる。

　ユーザの指定情報には、学習モデルの処理対象となるデータ項目である対象項目が含まれる。例えばＵＩ画面を介して対象項目を指定する情報（項目名や項目番号等）が入力され指定情報として読み込まれる。また指定情報には、学習モデルの学習に用いられるデータ項目である入力項目や、機械学習が実行される前に設定されるパラメータ（所謂ハイパーパラメータ）等が含まれる。指定情報及びＵＩ画面については、後に詳しく説明する。本実施形態では、ＵＩ生成部１６は、ユーザが指定した指定情報を受け付ける受付部として機能する。またＵＩ画面は、指定情報を入力するための入力画面に相当する。

　データ処理部１７は、ユーザが指定した指定情報に基づいて、データ取得部１５により取得された元データセット２０から、学習モデルを構築するためのデータセットを生成する。ここで、学習モデルとは、機械学習のアルゴリズムを用いて構築されるモデル（学習済みモデル）である。例えば学習モデルは、アルゴリズムに応じた各種のパラメータを学習し、そのパラメータを評価することで構築される。

　データ処理部１７では、このような学習モデルの学習や評価に用いられるデータセットが、元データセット２０からユーザの指定情報に従って生成される。例えば元データセット２０のデータ項目やデータサンプルを削除する、あるいは項目値を編集するといった加工処理が行われる。また例えばデータサンプルを複製して新たなデータセットを生成するといった複製処理が行われる。元データセット２０からデータセットを生成する方法等は限定されない。以下では、データ処理部１７により生成されたデータセットを、入力データセット３０と記載する。図１にはデータ処理部１７により生成された入力データセット３０が模式的に図示されている。

　またデータ処理部１７は、元データセット２０を評価することで元データセット２０の問題点等を検出し、評価結果（問題点）を示す評価情報や、評価結果に対する対策案を生成する。生成された評価情報や対策案は、ＵＩ生成部１６に出力され、ＵＩ画面に表示される。なお、元データセット２０の評価、及び評価結果等をＵＩ画面に表示する処理は、入力データセット３０を生成する前に行われる。

　機械学習部１８は、機械学習を行う学習器として機能する。例えば機械学習部１８には、学習モデルが実装される。より詳しくは、機械学習部１８に入力データセット３０を入力して機械学習を行うことで、所定の処理を行う学習モデルが構築される。また、機械学習部１８には、元データセット２０を評価するための評価用の学習モデル（以下、評価モデルと記載する）が実装される。この点については、後に詳しく説明する。本実施形態では、データ処理部１７及び機械学習部１８が共動することで、データ生成部が実現される。

　本実施形態では、学習モデルは、対象項目に関する予測処理を行うモデルである。これにより、対象項目についての予測分析が可能となる。予測分析は、機械学習によって、過去の結果に基づき未来の事象を予測する手法である。予測分析により、例えば顧客の属性情報から対象商品の購入確率を予測するといったことが可能となる。この場合、例えば過去の顧客データ（元データセット２０）のうち、対象商品を購入するという事象に関する項目（購入日等）が、学習モデルの対象項目となる。また他の属性（顧客の年齢、性別、他の商品の購入履歴等）についての項目は、学習モデルを学習させるための入力項目となり得る。

　学習モデルに用いられる機械学習のアルゴリズム等は限定されず、例えば処理内容に応じた任意のアルゴリズムが適宜設定されてよい。アルゴリズムの種類等に係らず、本技術は適用可能である。

　図２は、元データセット２０の一例として挙げる表形式データを示す表である。以下では、元データセット２０として、表形式データが用いられる場合について説明する。図２に示す元データセット２０は、機器の故障に関連するデータであり、例えば機器の故障を予測する学習モデル（予測モデル）を構築する際に利用される。

　元データセット２０の１行目には、データ項目の名称が記録される。また２行目以降の各行には、データサンプルごとの項目値が記録される。図２に示す例では、元データセット２０のデータ項目として、"ＩＤ"、"稼働月数"、"故障"、"温度"、"観測日"、"チーム"、及び"担当者"の項目が設けられる。各データサンプルには、これらのデータ項目の項目値がそれぞれ記録される。

　"ＩＤ"は、データサンプルのＩＤを表す項目であり、項目値には文字列が用いられる。"稼働月数"は、機器の稼働月数を表す項目であり、項目値には数値が用いられる。"故障"は、機器が正常であるか故障しているかを表す項目であり、項目値には文字列が用いられる。"温度"は、測定された温度を表す項目であり、項目値には、数値が用いられる。"観測日"は、観測日を示す項目であり、項目値には、日付が用いられる。"チーム"及び"担当者"は、担当チーム及び担当者の名称を表す項目であり、項目値には、文字列が用いられる。

　機器の故障を予測する学習モデルでは、元データセット２０の"故障"の項目が、学習モデルの処理対象となる対象項目２１であり、教師有学習のラベル（教師ラベル）に対応している。従って、"故障"の項目は、教師ラベルとして入力データセット３０に含まれる項目となる。なお元データセット２０の"故障"以外の項目は、学習モデルに入力される入力項目２２の候補である。つまり、"故障"以外の項目は、入力データセット３０に含まれる場合もあれば、含まれない場合もあり得る。図２では一例として"稼働月数"及び"温度"の項目に入力項目２２の符号を付しているが、これらの項目が入力項目２２とならない場合や、他の項目が入力項目２２となる場合もあり得る。

［情報処理装置の基本的な動作］
　図３は、情報処理装置１００の基本的な動作の一例を示すフローチャートである。以下では、情報処理装置１００を用いて元データセット２０から入力データセット３０を生成するまでの基本的な流れについて説明する。

　まず、入力データセット３０を生成するための基本情報が読み込まれる（ステップ１０１）。基本情報は、元データセット２０のファイル名や、機械学習に関する設定等である。機械学習に関する設定には、機械学習のタスクを指定する情報や、対象項目２１（教師ラベル）を指定する情報（項目名や列番号等）が含まれる。例えば、ＵＩ生成部１６により、基本情報を入力するためのＵＩ画面が生成され表示部１１に表示される。ユーザによる基本情報の入力が完了すると、ＵＩ画面を介した入力内容が読み込まれる。本実施形態では、基本情報は、ユーザが指定した指定情報の一例である。

　データ処理部１７により、基本情報に基づいて元データセット２０のチェック処理が実行される（ステップ１０２）。チェック処理では、元データセット２０を評価して問題点が検出される。また評価結果に応じた評価情報、及び評価結果に対する対策案を提示するＵＩ画面（図５等参照）が生成される。生成されたＵＩ画面は、表示部１１に表示される。元データセット２０のチェック処理については、後に詳しく説明する。

　ステップ１０２で生成されたＵＩ画面から、ユーザにより入力された応答情報が取得される（ステップ１０３）。応答情報には、例えば入力データセット３０として用いるデータ項目（入力項目２２）や、対策案を指定する情報が含まれる。本実施形態では、応答情報は、ユーザが指定した指定情報の一例である。

　取得された応答情報に基づいて、入力データセット３０が生成される（ステップ１０４）。例えば応答情報により指定された対策案に従って、元データセット２０の編集・加工・複製等が実行され、入力データセット３０が生成される。これにより、元データセット２０の問題点が解消されたデータセットを容易に作成することが可能となる。このように、本実施形態では、予測分析等に用いられる適正なデータセットの作成を自動化・サポートするデータセット生成ツールが実現される。入力データセット３０が生成されると、例えば機械学習部１８により入力データセット３０に対する学習や予測の処理が実行され、その処理結果がユーザに提示される。

［元データセット２０のチェック処理］
　図４は、元データセット２０のチェック処理の一例を示すフローチャートである。図５は、チェック処理により生成されるＵＩ画面の一例を示す模式図である。図４に示す処理は、図３に示すステップ１０２の内部処理である。また図５に示すＵＩ画面４０は、図２に示す元データセット２０に対するチェック処理の処理結果である。以下では、図４及び図５を参照して、元データセット２０を評価し、評価結果等を提示するまでの基本的な流れについて説明する。

　まず、図５に示すＵＩ画面４０について簡単に説明する。ＵＩ画面４０は、チェック処理の後に、ユーザに提示される画面である。ＵＩ画面４０の上側の表には、元データセット２０全体のチェック結果（全体チェック結果４１ａ）が示されている。またＵＩ画面４０の下側の表には、元データセット２０のデータ項目ごとのチェック結果（項目チェック結果４１ｂ）が示されている。またＵＩ画面４０の右下には修正処理を実行するための実行ボタン４２が配置される。

　全体チェック結果４１ａ及び項目チェック結果４１ｂには、それぞれ複数の提示項目４３が含まれる。例えば全体チェック結果４１ａには、各問題点を説明する"問題点"の項目と、各問題点についての対策案を説明する"ツールで修正"の項目とが含まれる。また項目チェック結果４１ｂには、元データセット２０のデータ項目ごとに、"ターゲット"、"入力"、"項目名"、"データタイプ"、"チェック結果"、及び"ツールで修正"の各提示項目４３が含まれる。"ターゲット"及び"入力"の項目は、チェックボックスで表される。データ項目が対象項目２１である場合、"ターゲット"がチェックされ、入力項目２２である場合、"入力"がチェックされる。"項目名"はデータ項目の名称を示す項目であり、"データタイプ"はデータ項目の典型的な形式を示す項目である。また"チェック結果"は、データ項目の問題点を説明する項目であり、"ツールで修正"は、データ項目の問題点についての対策案を説明する項目である。

　本実施形態では、対策案を説明する"ツールで修正"の項目に、チェックボックスが表示される。このチェックボックスがチェックされた状態（図中の黒塗りの四角）は、その対策案が選択された状態となる。また、チェックボックスのチェックが外された状態（図中の白抜きの四角）は、その対策案が選択されていない状態となる。なお、対策案の選択／非選択を示す２つのチェックボックス等が用いられてもよい。この他、ＵＩ画面４０のレイアウトや各提示項目４３の表示方法や選択方法等は限定されない。例えば項目の説明にアイコン等が用いられてもよいし、ポップアップウィンドウ等を用いて詳細な説明が表示されてもよい。

　図４に示すように、チェック処理では、まず元データセット２０の問題点が検出される（ステップ２０１）。具体的には、データ処理部１７により、元データセット２０が所定の条件に基づいて評価される。所定の条件は、例えば複数の評価項目ごとに設定され、各評価項目における評価結果が問題点となるか否かを判定するための条件である。すなわち、データ処理部１７は、複数の評価項目のうち所定の条件を満たさなかった評価項目を問題点として検出する。

　以下では、複数の評価項目からなるリストを評価リストと記載する。本実施形態では、評価リストとして、元データセット２０全体を評価するための全体評価リスト、元データセット２０の各データ項目を評価するための個別評価リスト、及びデータ項目間の関連性を評価するための関連評価リスト等が設定される。これらの評価リストに従って、元データセット２０が評価され、元データセット２０の問題点が検出される。これにより、元データセット２０の詳細な評価が可能となる。各評価項目及び項目ごとに設定される条件については、後に具体的に説明する。

　またデータ処理部１７は、元データセット２０の評価結果に応じた評価情報４４を生成する。評価情報４４とは、例えば評価項目の評価結果を示す情報であり、典型的には評価することで判明した問題点を説明する情報である。評価情報４４は、例えば評価項目と対応づけられて予め記憶される。そして評価の結果、問題点が検出された場合、対応する評価情報４４が読み込まれる。また評価結果が、数値や特定のデータを指定する場合には、評価結果が指定する内容に応じた評価情報４４が適宜生成されてよい。

　例えば、サンプル数を評価する評価項目が設定され、その評価項目についての条件としてサンプル数に対する閾値が設定されるとする。この場合、元データセット２０のサンプル数が閾値よりも少ない場合、サンプル数が少ないという問題点（評価結果）が検出され、その問題点を説明する文章やアイコン等が評価情報４４として生成される。図５に示す例では、全体チェック結果４１ａの"問題点"の項目の内容、及び項目チェック結果４１ｂの"チェック結果"の項目の内容が、評価情報４４となる。なお、評価結果が問題点とならない場合（所定の条件が満たされている場合等）には、評価情報４４が生成されなくてもよい。

　図４に戻り、元データセット２０の問題点が検出されると、問題点の対策案４５がリストアップされる（ステップ２０２）。対策案４５は、問題点を解消するための対処方法を示した案であり、典型的には対象方法を説明する内容のテキスト情報等である。対策案４５は、例えばステップ２０１で検出された各問題点に対してそれぞれ生成される。対策案４５は、上記した問題点と同様に、評価項目と対応づけられて記憶される。あるいは問題点の内容に応じた対策案４５が適宜生成されてもよい。

　例えば、１つの問題点について１つの対策案４５が生成される。あるいは、１つの問題点について複数の対策案４５が生成されてもよい。このように、元データセット２０についての各問題点に対する対策案４５のリストが生成される。なお、問題点の内容によっては、対策案４５（対処方法）を生成できないものも存在する。このような場合には、対策案４５は生成されない。図５に示す例では、全体チェック結果４１ａ及び項目チェック結果４１ｂの"ツールで修正"の項目の内容が、対策案４５となる。

　このように、本実施形態では、データ処理部１７により、評価結果に応じた評価情報４４、又は評価結果に対する対策案４５の少なくとも一方が生成される。これにより、元データセット２０の問題点（評価情報４４）とその対処方法（対策案４５）とをリストアップすることが可能となる。

　対策案４５がリストアップされると、推奨される対策案４５が選択される（ステップ２０３）。以下では、推奨される対策案４５を推奨案４６と記載する。推奨案４６は、ユーザに対して推薦される対処方法である。例えば１つの評価項目に対して２以上の対策案４５が生成された場合、２以上の対策案４５のうち１つの対策案４５が推奨案４６として選択される。また１つの評価項目に対して１つの対策案４５が生成された場合であっても、その対策案４５を実施することが推奨される場合には、当該対策案４５が推奨案４６として選択される。このように、データ処理部１７は、評価結果に対する複数の対策案４５を生成し、複数の対策案４５のうち推奨される推奨案４６を選択する。

　推奨案４６の選択する方法として、例えば元データセット２０を評価するための評価モデルを用いる方法が挙げられる。評価モデルとしては、例えばユーザが予測処理を行うために設定した学習モデル等と比べ、学習時間が短い単純なモデル（線形モデル等）が用いられる。例えば、データ処理部１７により、元データセット２０に対して対象となる対策案４５が実行され、仮データセットが生成される。そして機械学習部１８により、仮データセットによる評価モデルの学習が行われ、当該評価モデルを用いた予測処理の精度が評価される。この予測精度に基づいて、推奨案４６が選択される。

　例えば１つの評価項目について複数の対策案４５が生成された場合、予測精度が最も高い仮データセットの生成に用いられた対策案４５が、推奨案４６として選択される。また例えば１つの評価項目について１つの対策案４５が生成されたとする。この場合、仮データセットを用いて構築された評価モデルの予想精度が、元データセット２０を用いた場合の予測精度に比べ向上した場合に、対策案４５が推奨案４６として選択される。この他、推奨案４６を選択する方法は限定されず、例えば複数の対策案４５のうち推奨案４６となるデフォルトの対策案４５が予め設定されていてもよい。

　またステップ２０３では、対策案４５を用いるか否かを判定されてもよい。すなわち、対策案４５自体をユーザに提示するか否かが判定される。例えば上記した評価モデルの予測精度が、対策案４５を実行した場合と実行しなかった場合とで大きく違わない場合や、予測精度が低下する場合等には、当該対策案４５を用いない旨の判定が実行される。このような対策案４５は、例えば図５に示すＵＩ画面４０等には提示されない。この他、対策案４５を用いるか否かを判定する方法は限定されない。

　推奨案４６が選択されると、元データセット２０の各問題点、対策案４５、及び推奨案４６が提示される（ステップ２０４）。具体的には、ＵＩ生成部１６により、元データセット２０の各問題点（評価情報４４）と、その対策案４５とが示されたＵＩ画面４０（図５参照）が生成される。これにより、ユーザは、元データセット２０の問題点とその対策を容易に把握することが可能となる。なお、問題点のみを表示するＵＩ画面４０や、対策案４５のみを表示するＵＩ画面４０等が生成されてもよい。このような場合であっても、ユーザは当該問題点を解消するように、あるいは対策案４５に従って元データセット２０を編集・加工することが可能となり、適正な入力データセット３０を生成可能である。このように、ＵＩ生成部１６は、評価情報４４又は対策案４５の少なくとも一方を提示する。

　ＵＩ画面４０では、評価結果に対する対策案４５が選択可能に提示される。図５に示すＵＩ画面では、"ツールで修正"の欄に、各対策案４５がチェックボックスとともに表示される。ユーザは、このチェックボックスをチェックすることで、各対策案４５を選択することが可能となる。例えば１つの問題点（評価結果）に対応して２つの対策案４５が表示されている場合、どちらかの対策案４５が選択可能となる。また１つの問題点に１つの対策案４５が表示されている場合、その対策案４５を実行するか否かを選択可能となる。

　また本実施形態では、推奨案４６が判別できるように、複数の対策案４５が提示される。図５に示す例では、複数の対策案４５のうち、推奨案４６として選択された対策案４５のチェックボックスが、予めチェックされた状態でＵＩ画面４０が表示される。このように、推薦する選択肢（推奨案４６）については、初期選択済状態でＧＵＩに提示しても良い。またテキストの強調やアイコンの付加等により推奨案４６が判別できるように提示されてもよい。この他、推奨案４６を判別可能に提示する方法は限定されない。これにより、ユーザは、推奨される対策案４５を容易に選択することが可能となる。

　図５に示すＵＩ画面４０では、ユーザが希望する処理にチェックをつけた後、ＵＩ画面４０の右下の実行ボタン４２を押すことでデータセットの改善処理が行われる。例えば、実行ボタン４２が押されると、図３のステップ１０３が実行され、ＵＩ生成部１６により対策案４５の選択結果（応答情報）が読み込まれる。ＵＩ画面４０を介して入力された対策案４５の選択結果は、ユーザが選択した対策案４５を示す指定情報となる。このように、本実施形態では、指定情報としてユーザによる対策案４５の選択結果が受け付けられる。そして対策案４５の選択結果に基づいて入力データセット３０が生成される。

　つまり、本ツールでは、ユーザがロードした元データセット２０に対し、所定のチェックが行われ、問題点の情報やそれに対処する方法がユーザに提示される。そしてユーザが選択した対処方法（対策案４５）に従って元データセット２０が自動で修正される。これにより、適正なデータセットを容易に作成することが可能となり、データセットの作成を十分に支援することが可能となる。

　図５に示すＵＩ画面４０では、全体チェック結果４１ａとして上から順に評価項目４７ａ～４７ｃについての問題点等が提示される。また項目チェック結果４１ｂとして上から順に評価項目４７ｄ～４７ｉについての問題点等が提示される。以下では、図５を参照して、元データセット２０全体の評価項目４７、及び元データセット２０に含まれる各データ項目の評価項目４７について具体的に説明する。

［元データセット２０全体のチェック］
　評価項目４７ａは、データサンプル数とデータ項目数とについての評価項目である。一般にデータサンプル数が少なく、かつデータサンプル数をデータ項目数で割った値（項目比率）が小さい場合、学習モデルが過学習を起こしやすいため問題となることがある。本実施形態では、評価項目４７ａを判定するために、データサンプル数及び項目比率に関する閾値がそれぞれ設定される。データサンプル数と、項目比率との両方が閾値以下であった場合、データサンプル数がデータ項目数に対して少ない旨が問題点として表示される。本実施形態では、データサンプル数及び項目比率に関する閾値は、データサンプルの数、及びデータ項目の数に関する条件の一例であり、評価項目４７ａについて設定された所定の条件である。

　評価項目４７ａについての対策案４５として、データ項目を絞り込むことで対処する方法が提示される。図５に示す例では、データ項目の一部（例えば５０％等）を削除する方法と、データ項目の大部分（例えば９０％等）を削除する方法とが選択可能に提示される。削除対象となるデータ項目は、例えば元データセット２０の教師ラベル（対象項目２１）との相互情報量（データ相関等）に基づいて設定される。例えば相互情報量が低いデータ項目から順番に削除対象が設定される。なおデータ項目を削除する割合等は適宜設定されてよい。

　図５に示す例では、データ項目の一部を削除する対策案４５が、推奨案４６として選択される。このようにＵＩ画面４０では、実行することが望ましい対策案４５を推薦して提示することが可能である。推奨案４６は、例えば学習時間が少ない単純な評価モデルを用いて、学習と予測精度評価を行い、最も評価値が高かった対策案４５が推薦される（図４のステップ２０３参照）。なお、各対策案４５についての予測精度評価が基準を満たさないような場合等には、推奨案４６を選択しない、あるいは対策案４５を提示せず何も処理を行わないといったことも可能である。

　評価項目４７ｂは、教師ラベル（対象項目２１）の項目値の偏りについての評価項目である。図５に示す例では、元データセット２０の"故障"の項目が教師ラベルであり、教師ラベルの項目値（ラベル値）は"正常"または"故障"のどちらかである（図２参照）。一般に、２値分類の一方のラベル値を持つデータサンプル数が少なすぎる場合、予測精度が出ないことが多い。本実施形態では、評価項目４７ｂを判定するために、教師ラベルの項目値の偏りに関する閾値が設定される。例えば"正常"または"故障"のどちらかのサンプル数が閾値以下であった場合、教師ラベルの値に偏りがある旨が問題点として表示される。図５では、"故障"のサンプル数を増やす必要がある旨を示すメッセージが表示される。本実施形態では、教師ラベルの項目値の偏りに関する閾値は、対象項目２１の統計量に関する条件の一例であり、評価項目４７ｂについて設定された所定の条件である。

　特定の項目値を持ったサンプル数を増やすといった処理は、データ処理部１７による自動処理では対処することが難しい処理である。このように、自動処理で対応できない場合は、問題点のみが提示される。これにより、他のデータを補充する必要があるか等を判断することが可能となる。なお、教師ラベルの値に偏りがある場合であっても、適正な学習が可能な場合もある。例えば未修正の元データセット２０を用いて、学習時間が少ない評価モデルで学習と予測精度評価が行われてもよい。この場合、予測精度がある閾値以上であれば、教師ラベルの偏り等は問題にはならないものとして、ユーザに表示しないといった処理も可能である。

　教師ラベルについて、項目値の偏りとは別の統計量等を用いた評価が行われてもよい。例えば学習モデルによる予測処理が、分類型の処理である場合、教師ラベルの項目値は、"故障"や"正常"といったラベル値となる。このラベル値のユニーク数（取り得る値の数）、ラベル値の分布、及びラベル値の絶対数等の統計量についての条件が設定され、各統計量に関連する問題点が検出される。また例えば学習モデルによる予測処理が、回帰型の処理である場合、教師ラベルの項目値は数値により表される。この場合、数値の分布、外れ値の有無等の統計量についての条件が設定され、各統計量に関連する問題点が検出される。教師ラベルについての評価項目や、評価用の条件を設定する方法は限定されない。例えば単一の統計量についての閾値判定が行われてもよいし、複数の統計量を組み合わせた条件等が設定されてもよい。

　評価項目４７ｃは、２つのデータ項目間の関連性についての評価項目である。例えば２つのデータ項目の関連が非常に大きい場合（相関値が一定の値以上である場合）等には、一方のデータ項目のみを利用すれば十分である。本実施形態では、評価項目４７ｃを判定するために、２つのデータ項目の相関値に関する閾値が設定される。例えば、全てのデータ項目の組み合わせについてそれぞれ相関値が算出される。そして各相関値が閾値以上となるデータ項目のペアが関連の大きいデータ項目として検出される。関連の大きいデータ項目が検出された場合、似たような情報を表すデータ項目がある旨が問題点として表示される。また、検出されたデータ項目の項目名とともに、どちらか１方を用いればよい旨が表示される。

　評価項目４７ｃについての対策案４５として、関連の大きいデータ項目を選択するための選択肢が提示される。図５に示す例では"チーム"の項目と"担当者"の項目とが関連の大きい項目として検出され、"ツールで修正"の欄には、"チーム"及び"担当者"がチェックボックスとともに表示される。本実施形態では、２つのデータ項目の相関値に関する閾値は、データ項目間の関連度に関する条件の一例であり、評価項目４７ｃについて設定された所定の条件である。

　また、２つのデータ項目について、一方が他方の抽象化になっている場合等には、いずれか一方のみを利用すれば十分であるケースがある。抽象化された関係にある状態とは、例えば、"国名"と"都市名"との関係のように、一方の項目の値によりもう一方の項目の値がほぼ一意に決定できる状態である。このような場合、抽象化になっている旨と項目名とが問題点として提示される。そして対策案４５として、いずれか一方か両方を選択することをユーザに提示し、ユーザに選択を促す。この際、データサンプル数とこの２つの項目のユニーク数や教師ラベルとの関連度（相互情報量等）に基づき、推薦する選択肢を決定しても良い。

　上記した評価項目４７ａ～４７ｃの他にも、各データ項目の項目値の欠損率を評価する評価項目等が設定されてもよい。この場合、欠損率が閾値よりも高い場合には、欠損率が高い旨と項目名とを提示し、そのデータ項目を使用するか否かの選択肢等が表示される。欠損率についての閾値は、データ項目の項目値の欠損率に関する条件の一例である。

　このように、本実施形態では、各評価項目についての所定の条件として、データサンプルの数、データ項目の数、データ項目間の関連度、データ項目の項目値の欠損率、又は対象項目２１の統計量の少なくとも１つに関する条件が設定される。そしてデータ処理部１７により、所定の条件に基づいて元データセット２０全体が評価される。これにより、元データセット２０全体の問題点やその対策案４５等を提示することが可能となり、バランスのよいデータセット等を容易に作成することが可能となる。なお、元データセット２０全体を評価するための評価項目や条件等は限定されず、データセット全体を評価することが可能な任意の評価項目４７が設定されてよい。

［項目ごとのチェック］
　以下では、元データセット２０に含まれる各データ項目（"ＩＤ"、"稼働月数"、"故障"、"温度"、"観測日"、"チーム"、及び"担当者"）についての評価項目について説明する。本実施形態では、データ処理部１７により各データ項目について問題点が検出される。１つの項目に対して複数の問題点が検出されるケースもある。

　また本実施形態では、各データ項目の項目値について、カテゴリカル値が多いのか、数値が多いのか、日付に関する文字列（あらかじめ決まった文字列フォーマットと一致するか否かで判定）なのか等が事前に判定される。すなわち、各データ項目の形式が判定され、項目チェック結果４１ｂの"データタイプ"の提示項目に表示される。

　評価項目４７ｄは、ユニーク数についての評価項目である。図５に示す例では、"ＩＤ"のデータ項目について、ユニーク数に関する問題点が検出される。例えばカテゴリカル値で表される項目について、ユニーク数がデータサンプル数に対して多いと過学習を起しやすいため問題となる場合がある。ここでカテゴリカル値とは、例えば項目内容をカテゴリーに分類する項目値である。例えば図２に示すデータ項目のうち"温度"の項目には、"温度"を"高い"、"低い"といったカテゴリーで表すカテゴリカル値が含まれる。また"ＩＤ"の項目では、各ＩＤの値（ＩＤ＝ｉｄ１～ｉｄ５１）がそれぞれのＩＤを分類するカテゴリカル値となる。このカテゴリカル値の取り得る値の数（種類）が、ユニーク数となる。例えば"ＩＤ"のデータ項目は、データサンプル数に対して、カテゴリカル値であるＩＤのユニーク数が多い項目となる。

　本実施形態では、評価項目４７ｄを判定するために、データサンプル数、及びデータサンプル数をユニーク数で割った値（ユニーク比率）に関する閾値がそれぞれ設定される。そしてデータサンプル数と、ユニーク比率との両方が閾値以下であった場合、データサンプル数に対してユニーク数が多い旨が問題点（"チェック結果"）として表示される。本実施形態では、データサンプル数及びユニーク比率に関する閾値は、対象となるデータ項目の項目値のユニーク数に関する条件の一例であり、評価項目４７ｄについて設定された所定の条件である。

　評価項目４７ｄについての対策案４５として、学習の入力項目２２から外す方法が提示される。図５に示す例では、"ＩＤ"の項目を入力項目２２から外すか否かを選択するためのチェックボックスが表示される。この際、入力項目２２から外す方法と外さない方法とのうち、望ましい方を推薦しても良い。例えば学習時間が少ない評価モデルで、学習と予測精度評価を行い、評価値が高かった方を推薦しても良い。後述するように、欠損率が高いデータ項目（カラム）についても同様の処理が行われる。またユニーク数についての評価は、例えばデータタイプが文字列である他のデータ項目（"チーム"、"担当者"等）についても行われる。

　評価項目４７ｅは、外れ値についての評価項目である。図５に示す例では、"稼働月数"のデータ項目について、外れ値に関する問題点が検出される。一般に、数値の項目について外れ値が含まれる場合、学習結果に悪い影響が出る場合がある。ここで外れ値とは、例えば正規分布を想定した場合に、出現確率が一定以下となる値である。すなわち項目値（数値）の分布から大きく外れた値が外れ値となる。

　本実施形態では、評価項目４７ｅを判定するために、項目値の出現確率に関する閾値が設定される。そして対象となる項目値の出現確率が閾値以下であった場合、その項目値が外れ値として検出され、データ項目に外れ値が含まれている旨が問題点として表示される。この時、外れ値となっているデータサンプルのＩＤや番号等が提示されてもよい。図５に示す例では、"稼働月数"が他のサンプルと比べて著しく高い上から１０番目のデータサンプル（ｉｄ１０）が外れ値を持ったサンプルとして提示される。本実施形態では、項目値の出現確率に関する閾値は、項目値における外れ値の有無に関する条件の一例であり、評価項目４７ｅについて設定された所定の条件である。

　評価項目４７ｅについての対策案４５として、外れ値を欠損値として扱う方法、及び外れ値を持つデータサンプルを除外する方法等が提示される。外れ値を欠損値とした場合、例えばデータサンプル（ｉｄ１０）の"稼働月数"の項目には、欠損値を表すシンボル等が書き込まれる。またデータサンプルを除外した場合、ｉｄ１０が削除される。この際、評価モデルで、学習と予測精度評価を行い、評価値が高かった方を推薦しても良い。

　なお、数値で表される項目値を評価する方法として、項目値の分布を評価する評価項目等が設定されてもよい。この場合、例えば項目値の分布幅等に関する閾値が設定され、データ項目が適切な分布をもったデータとなっているか否か等が判定される。これにより、極端な偏りのあるデータ項目等を除外することが可能となる。項目値の分布幅等に関する閾値は、項目値の分布に関する条件の一例である。

　評価項目４７ｆは、欠損値についての評価項目である。図５に示す例では、"稼働月数"のデータ項目について、欠損値に関する問題点が検出される。すなわち、"稼働月数"については、２つの評価項目４７ｅ及び４７ｆについての問題点が検出される。図２に示すように、元データセット２０には"稼働月数"の項目値に"なし"と記載されたサンプルが含まれる。評価項目４７ｆでは、このように項目値の欠損が文字列で書かれている旨が問題点として表示される。また対策案４５としては、"なし"と記載された文字列を欠損値として扱う方法が提示される。なお、評価項目４７ｆの対策案４５は、ユーザが選択することなく自動で実行される。このように、文字列等の簡単な修正等は、修正の内容だけを提示した上で、自動的に反映されるようにしてもよい。

　評価項目４７ｇは、種類の異なる項目値が含まれるデータについての評価項目である。図５に示す例では、"温度"のデータ項目について、項目値の種類に関する問題点が検出される。図２に示すように、"温度"の項目には、温度を表す数値と、温度の高低を表すカテゴリカル値（"高い"、"低い"等）とが含まれる。例えば数値とカテゴリカル値を同一項目の項目値として扱った場合、学習精度が低下する場合がある。このため本実施形態では、対象となる項目に、数値とカテゴリカル値の両方が含まれている旨が問題点として表示される。

　評価項目４７ｇについての対策案４５として、例えば文字列（カテゴリカル値）を欠損値として扱う方法、及び数値と文字列とを別項目として扱う方法とが提示される。文字列を欠損値とする場合、文字列が欠損値を表すシンボル等に書き変えられる。また、数値と文字列とを別項目とする場合、数値と欠損値から成る第１の項目と、カテゴリカル値と欠損値から成る第２の項目の２つが生成される。第１の項目では、カテゴリカル値（"高い"、"低い"等）のデータサンプルが欠損値に設定される。また第２の項目では、数値のデータサンプルが欠損値に設定される。この際、第１及び第２の項目の両方、あるいはいずれか一方を選択する選択肢がユーザに提示される。また各項目の統計量（欠損率やユニーク数）、教師ラベルとの関係に関する統計量（相互情報量等）に基づいて、推薦する選択肢（推奨案４６）を決定しても良い。これにより、例えばデータサンプル数を減らすことなく、適正なデータセットを構成することが可能となる。

　評価項目４７ｈは、項目値のフォーマットに関する評価項目である。図５に示す例では、"観測日"のデータ項目について、フォーマットに関する問題点が検出される。図２及び図５に示すように"観測日"の項目値のデータタイプは、"日付"である。このうち、８番目のデータサンプル（ｉｄ８）は、他の項目値とフォーマットが異なる。本実施形態では、例えばテータ項目の項目値として最も多く用いられているフォーマットが識別され、そのフォーマット以外の項目値が検出される。この基準となるフォーマットは、項目値の書式に関する条件として用いられるとも言える。なおユーザが指定したフォーマットを基準として、当該フォーマットから外れた項目値等が検出されてもよい。

　評価項目４７ｈでは、項目値にフォーマットの異なるデータサンプルが含まれている旨が、そのデータサンプルのＩＤとともに問題点として表示される。また評価項目４７ｈの対策案４５としては、対象となる項目値のフォーマットを自動で揃える方法が提示される。このように、フォーマットの修正等は、修正の内容だけを提示した上で、自動的に反映されるようにしてもよい。

　評価項目４７ｉは、項目値の欠損率に関する評価項目である。図５に示す例では、"チーム"のデータ項目について、欠損率に関する問題点が検出される。例えば欠損率が高いデータ項目は、項目数を減らす際の削減対象となり得る。このため、本実施形態では、評価項目４７ｉを判定するために、項目値の欠損率に関する閾値が設定される。例えばデータサンプル数に対する欠損値の数の割合が欠損率として算出される。この欠損率が閾値以下であって場合、項目値の欠損率が大きい旨が問題点として表示される。本実施形態では、項目値の欠損率に関する閾値は、項目値の欠損率に関する条件の一例であり、評価項目４７ｉについて設定された所定の条件である。評価項目４７ｉについての対策案４５として、対象となるデータ項目を入力項目２２から除外する方法が提示される。これにより、欠損値の多いデータ項目等を容易に削除することが可能となる。

　このように、本実施形態では、各評価項目についての所定の条件として、対象となるデータ項目の項目値のユニーク数、データサンプルの数、項目値の分布、項目値における外れ値の有無、項目値の欠損率、又は項目値の書式の少なくとも１つに関する条件が設定される。そしてデータ処理部１７により、所定の条件に基づいて複数のデータ項目ごとに元データセット２０が評価される。これにより、データ項目ごとの問題点やその対策案４５等を提示することが可能となる。この結果、学習モデルの過学習等が抑制され、処理精度を向上することが可能となる。なお、各データ項目を評価するための評価項目や条件等は限定されず、例えばデータ項目の種類やデータ形式等に応じて任意の評価項目が設定されてよい。

［過去の選択結果の利用］
　本実施形態では、ＵＩ画面４０を介して入力されたユーザの選択結果（指定情報）が、予測モデルと関連付けて保持される。例えば、選択結果を用いて生成された入力データセット３０に基づいて機械学習を実行し、予測モデルが構築される。この予測モデルと、データセットに対する処理内容である選択結果とが、互いに関連付けられてデータベース１３等に記憶される。これにより予測モデルの再学習や予測処理等を行う際に、過去に学習を行った時の処理内容と同じ処理を適用することが可能となる。

　例えば、過去に使用した元データセット２０や、入力データセット３０について、データ項目やデータサンプルを拡充して、新たな元データセット２０を構成する場合がある。新たな元データセット２０を用いて、予測モデルの再学習等を行うための新たな入力データセット３０を生成する際に、過去の選択結果が適用される。例えば新たな元データセット２０を評価して、過去の元データセット２０と同様の問題点（評価項目４７）が検出された場合には、過去の選択結果に基づいて、予め対策案４５が選択された状態でＵＩ画面４０を表示する。別の観点では、過去に選択した対策案４５を、推奨案４６として提示するとも言える。このように、ＵＩ生成部１６は、過去の選択結果に基づいて、推奨案４６を提示する。これにより、例えば前回と略同様の条件で新しいデータセットを作成することが可能となり、信頼性の高い学習処理を実現することが可能となる。

　また、過去にユーザが選択した対策案４５（あるいはユーザによる訂正が行われなかった対策案４５）についてのパラメータ等が記憶され、推奨案４６の選択処理に用いられてもよい。例えば、過去に提示された対策案４５（問題点）について、対応するデータ項目の項目名、統計量（取り得る値、平均、分散等）等がパラメータとして記憶される。また同じ元データセット２０に含まれる他のデータ項目についての項目名、統計量、元データセット２０のファイル名、利用ユーザ等の情報がパラメータとして記憶されてもよい。これらのパラメータに基づいて推薦する処理内容（推奨案４６）が選択される。

　一例として、新たな元データセット２０を評価した場合に、１つのデータ項目について過去に提示された対策案４５と同様の対策案４５が提示されたとする。この場合、対策案４５が提示されるデータ項目の統計量等が、過去のデータ項目の統計量と近い場合には、過去に選択された対策案４５が推奨案４６として提示される。また同じユーザがツールを利用している場合には、当該ユーザの過去の選択結果に基づいて、推奨案４６が提示される。また、新たな元データセット２０が、過去の元データセット２０と比較してデータサンプル数が異なっている場合であっても、各データセットに含まれる項目名（カラム名）の大半が同じであれば、過去に実行した処理方法を自動で実行しても良い。これにより、データサンプルを追加した元データセット２０を用いて、適正な入力データセット３０を容易に生成することが可能となる。

　またユーザが各対策案４５を選択する際の傾向を学習して、その学習結果に基づいて推奨案４６が提示されてもよい。この場合、ユーザごとの傾向（癖）として、例えばユニーク数が１０％以上ある項目は入力項目２２として選択しないといった傾向や、外れ値が５つ以下である場合には欠損値として扱うといった傾向が学習される。つまり、ユーザが対策案４５を選択する際に用いる閾値（ユニーク数の割合や外れ値の数等）が機械学習等で学習される。このように学習された閾値に従って、ユーザが過去に選択した選択肢が推奨されるように、推奨案４６が選択される。これにより、ユーザの選択傾向を学習して、推奨案４６が提示されるため、優れたユーザビリティを発揮することが可能となる。

［入力データセット３０の自動生成］
　上記では、ユーザがＵＩ画面を使用して各対策案４５を選択した後に、その選択結果に基づいて、入力データセット３０が生成される場合について説明した。例えば推奨案４６に基づいて入力データセット３０が生成されてもよい。すなわち、推奨案４６に従った入力データセット３０が自動的に生成される。また、入力データセット３０に対する、処理内容（対策案４５の選択等）を変更するためのＵＩ画面４０等が生成されてもよい。これにより、処理内容に対してユーザが修正と再実行を指定することが可能となる。

　図６は、ＵＩ画面の他の一例を示す模式図である。図６に示すＵＩ画面５０は、入力データセット３０の自動生成処理が開始された後に、自動生成処理の処理中又は処理後のタイミングで表示される画面である。入力データセット３０の自動生成処理では、まず推奨案４６に従って入力データセット３０を生成する処理が開始される。この時点では、推奨案４６以外の対策案４５は適用されない。

　このＵＩ画面５０では、推奨案４６以外の対策案４５を選択することが可能である。例えば"ＩＤ"のユニーク数が多いという問題点（評価情報４４）に対して、"ＩＤ"の項目を利用するか否かを選択する対策案４５が提示される。また"稼働月数"に数値とカテゴリカル値が混在しているという問題点に対して、数値の利用と、カテゴリカル値の利用と、両方の利用とを選択する対策案４５が提示される。これらの対策案４５は、入力データセット３０に反映されていない対策案４５である。

　またＵＩ画面５０の右下には、再実行ボタン５１と、進行ボタン５２とが表示される。再実行ボタン５１を押した場合、各問題点について選択された対策案４５が実行され入力データセット３０が修正される。また進行ボタン５２を押した場合、入力データセット３０を修正せずに次の処理が開始される。このように、ＵＩ生成部１６は、入力データセット３０の生成後、複数の対策案４５のうち推奨案４６とは異なる他の対策案４５を選択可能に提示する。これにより、例えば対策案４５の選択等に要する時間を抑制することが可能となり、データセットの作成を十分に支援することが可能となる。

［時間情報に基づくデータセットの生成］
　以下では、予測対象が時間情報に紐付く事象であるケースについて説明する。ここで、時間情報とは、例えば日時、日付、時刻、経過時間等を示す情報である。このようなケースとして、例えば定額音楽配信サービス等の退会という事象を予測する場合が挙げられる。この場合、顧客がサービスを退会するという事象が、予測対象となる事象（以下では対象事象と記載する）となる。また元データセット２０において、退会という事象は、退会した日付等を表す時間情報を項目値とする"退会日"の項目により記録される。

　サービスの退会を予測するケースでは、例えば"退会日"の項目のように時間情報が記録されたデータ項目を対象として、所定の評価期間内に退会（対象事象）が生じる確率が予測される。なお、時間情報を伴う対象事象の例として、例えばオプションサービスへの入会を予測するケースや、契約内容の変更を予測するケース等が挙げられる。この他、対象事象の種類等は限定されない。

　このように、対象項目２１は、対象事象の時間情報と関連付けられたデータ項目である。また学習モデルは、対象事象が評価期間に発生する確率を予測する予測モデルである。例えば、評価期間として評価開始日および評価終了日が設定される。予測モデルは、設定された評価開始日から評価終了日までに、対象事象（顧客の退会等）が生じる確率を予測する。例えば予測モデルを学習させる場合には、処理を行うタイミングよりも過去の評価期間が設定される、また実際の予測分析を行う場合には、処理を行うタイミングよりも未来の評価期間が設定される。以下では、顧客の退会を予測する予測モデルを例に説明する。

　図７は、時間情報を伴う対象項目２１を含む元データセット２０の一例を示す表である。図７に示す元データセット２０は、一定期間内にサービスに入会した顧客に関する情報を示す表形式データである。元データセット２０の１行目には、データ項目の名称が記録され、２行目以降の各行には、顧客（データサンプル）ごとの項目値が記録される。

　図７に示す例では、元データセット２０のデータ項目として、"ＩＤ"、"入会日"、"年齢"、"性別"、"住所"、及び"退会日"の項目が設けられる。各データサンプルには、これらのデータ項目の項目値がそれぞれ記録される。"ＩＤ"の項目は、顧客のＩＤを示す項目である。"入会日"の項目には、各顧客が入会した日付が記録される。図７に示す例では、２０１７年１月１日～２０１８年１２月３１日までの２４ヶ月の間にサービスに入会した顧客の情報が記録されている。"年齢"、"性別"、"住所"の項目は、各顧客の年齢、性別、住所を表す項目である。"退会日"は、顧客が退会した日付（時間情報）を記録した項目であり、予測対象となる対象項目２１（ラベル項目）である。なお、元データセット２０には、退会していない顧客（ｉｄ３、ｉｄ４）や、２４ヶ月の期間後に退会した顧客（ｉｄ２）等のデータが含まれる。また顧客が退会していない場合、"退会日"の項目に時間情報は入力されない。

　予測モデルの予測精度を評価する際には、学習データセットと、評価データセットとが用いられる。学習データセットは、予測モデルの学習処理（トレーニング）する際に用いるデータセットである。評価データセットは、学習データセットによるトレーニングを受けた予測モデルの予測精度等の評価に用いるデータセットである。本実施形態では、元データセット２０から、これら２つデータセットが入力データセット３０として生成される。すなわち、入力データセット３０には、予測モデルを学習させるための学習データセットと、予測モデルを評価するための評価データセットとが含まれる。

　学習データセット及び評価データセットを作成する方法として、単純に退会日が記載されているデータサンプルを退会扱いとして元データセット２０のデータを分割する方法が考えられる。この方法では、評価データセットのデータサンプルに対して未来の退会情報を持ったデータサンプルが学習時に利用されるといった場合が考えられる。

　例えば２０１８年１２月１日から１月以内の退会についての予測精度を評価するといった場合に、予測モデルが２０１８年１２月１日以降に退会した顧客のデータを学習しているといった事態が生じる。このため、現実に即した予測精度評価に失敗してしまう可能性がある。従って、学習データセット及び評価データセットを生成する場合には、対象事象（"退会日"）の時間的関係に矛盾等がないように、各データサンプル（元データセット２０）を工夫して分割する必要がある。

　本実施形態では、データ処理部１７により、評価期間の長さの基準となる期間単位に基づいて、入力データセット３０が生成される。すなわち、評価期間の長さ（期間単位）に応じて、評価データセットあるいは学習データセットに用いるデータサンプルが、元データセット２０から選択される。以下、元データセット２０から入力データセット３０（評価データセット及び学習データセット）を生成する方法について具体的に説明する。

［期間単位の設定］
　データ処理部１７は、元データセット２０に基づいて、期間単位を設定する。例えば、元データセット２０に記録された退会日が含まれる期間をＮ分割して期間単位が設定される。ここで、Ｎは自然数である。例えば元データセット２０に記録された最も新しい退会日と、最も古い退会日とが参照される。そして最も新しい退会日から最も古い退会日を差し引いた期間の長さをＮ分割（例えばＮ＝１０等）した値が期間単位に設定される。これにより、例えば退会日が記録された複数のデータサンプルをバランスよく含む入力データセット３０等を作成するといったことが可能となる。

　退会日が含まれる期間をＮ分割する方法では、期間単位が中途半端な値になる場合がある。例えば複数の期間単位の候補（例えば１週間、２週間、３０日間、６０日間等）のうち、Ｎ分割により算出された期間に最も近い期間が期間単位に設定されてもよい。これにより、取扱いやすい入力データセット３０等を作成することが可能となる。この他、元データセット２０から期間単位を設定する方法は限定されない。例えば退会日が含まれる期間に代えて、入会日が含まれる期間を分割することで、期間単位が設定されてもよい。

　またユーザが指定した指定情報に基づいて、期間単位が設定されてもよい。例えば期間単位を入力するＵＩ画面（図１２参照）を介してユーザにより入力された値（期間単位を指定する指定情報）が、期間単位に設定される。これにより、ユーザは所望の期間単位を設定することが可能となる。

［評価データセットの生成］
　図８は、評価データセットの生成方法の一例を説明するための模式図である。図８には、図７に示す元データセット２０に記録された顧客６０ａ～６０ｆの加入状態を表す線分が模式的に図示されている。各線分の左端は入会日を表し、右端は退会日を表す。なお顧客６０ｄ、６０ｅ、及び６０ｆは、元データセット２０が作成された時点では、退会していないものとする。

　以下では、２０１８年の１２月１日～１２月３１日を期間Ｓと記載し、１１月１日～１１月３０日を期間Ｔと記載し、１０月１日～１０月３１日を期間Ｕと記載する。また２０１７年１月１日～２０１８年９月３０日の期間を期間Ｖと記載する。図８に示すように、顧客６０ａは、期間Ｖに入会し期間Ｕに退会した顧客である。顧客６０ｂは、期間Ｖに入会し期間Ｔに退会した顧客である。顧客６０ｃは、期間Ｖに入会し期間Ｓに退会した顧客である。顧客６０ｄ～顧客６０ｆは、それぞれ期間Ｖ、Ｔ、Ｓに入会しその後退会していない顧客である。

　まず、データ処理部１７により、期間単位に基づいて評価期間６１が設定される。図８に示す例では、期間単位が３０日間に設定され、評価期間開始日が２０１８年１２月１日に設定される。ここで１２月の日数は３１日間であるため、評価期間終了日は２０１８年１２月３１日に設定される。すなわち、評価期間６１は期間Ｓに設定される。このように、本実施形態では、期間単位を基準として、対象となる月の日数（２８日、２９日、３０日、３１日等）に合わせて評価期間６１が設定される。もちろん、期間単位と等しい長さとなるように評価期間６１が設定されてもよい。また評価期間終了日を指定して、期間単位を基準に評価期間開始日が設定されてもよい。

　評価期間６１が設定されると、データ処理部１７により、評価期間６１を基準として評価データセット６２が生成される。評価データセット６２は、評価期間開始日より前に入会日が存在し、かつ退会日が存在しないデータサンプル（顧客）から構成される。図８に示す例では、評価期間６１（期間Ｓ）よりも前に入会しており、かつ退会していない顧客６０ｃ、６０ｄ、６０ｅが、評価データセット６２として抽出される。これらのデータサンプル（顧客６０ｃ、６０ｄ、６０ｅ）は、評価期間６１の開始時点で評価期間６１内に退会する可能性の合ったデータサンプルであると言える。なお図８では評価データセット６２となる顧客の線分が実線で図示されており、評価データセット６２にならない顧客の線分が点線で図示されている。

　抽出されたデータサンプルのうち、評価期間６１内に退会日が存在するデータサンプル（顧客６０ｃ）に対しては、退会を表すラベル（退会ラベル）が付与される。また評価期間６１内に退会日が存在しない他のデータサンプル（顧客６０ｅ及び６０ｆ）には退会ではないラベル（継続ラベル）が付与される。例えば退会又は継続の加入状態を表すデータ項目が新たに生成され、その項目に退会ラベルまたは継続ラベルが記録される。あるいは"退会日"の項目に、各ラベルが上書きされてもよい。これらのラベルは、予測モデルを学習させる際の教師ラベルとなる。ラベルが付与されたデータサンプルは、評価データセット６２として保存される。

　このように、本実施形態では、評価期間６１の開始時点で評価期間６１に対象事象が発生する可能性があったデータサンプルに対して、評価期間６１での対象事象の発生の有無を表すラベルを付与することで評価データセット６２が生成される。これにより、評価期間６１内に対象事象（退会）が発生するデータサンプルにより評価データセットを生成することが可能となる。

［学習データセットの生成］
　図９は、学習データセットの生成方法の一例を説明するための模式図である。図９Ａ及び図９Ｂには、図８に示す顧客６０ａ～６０ｆの加入状態を表す線分が模式的に図示されている。

　まず、データ処理部１７により、期間単位に基づいて評価期間６１よりも前の期間である仮想期間６３が設定される。仮想期間６３は、学習データセットを生成する基準となる期間であり、少なくとも評価期間開始日よりも過去の期間である。図９Ａには、評価期間６１の直近に設定された仮想期間６３が斜線の領域により図示されている。直近の仮想期間６３は、例えば評価期間開始日の前日（２０１８年１１月３０日）から期間単位を差し引いた日付（２０１８年１１月１日）までの期間である。従って直近の仮想期間６３は、期間Ｔとなる。

　仮想期間６３が設定されると、データ処理部１７により、仮想期間６３を基準として学習データセット６４が生成される。学習データセット６４は、評価期間開始日の前日から期間単位を引いた日付、すなわち仮想期間開始日（２０１８年１１月１日）より前に入会日が存在し、かつ退会日が存在しないデータサンプルから構成される。図９Ａに示す例では、仮想期間６３（期間Ｔ）よりも前に入会しており、かつ退会していない顧客６０ｂ、６０ｃ、６０ｄが、学習データセット６４として抽出される。これらのデータサンプル（顧客６０ｂ、６０ｃ、６０ｄ）は、仮想期間６３の開始時点で仮想期間６３内に退会する可能性の合ったデータサンプルであると言える。

　抽出されたデータサンプルのうち、仮想期間６３内に退会日が存在するデータサンプル（顧客６０ｂ）に対しては、退会ラベルが付与される。また仮想期間６３内に退会日が存在しない他のデータサンプル（顧客６０ｃ及び６０ｄ）には継続ラベルが付与される。ラベルが付与されたデータサンプルは、学習データセット６４として保存される。

　このように、本実施形態では、仮想期間６３の開始時点で仮想期間６３に対象事象が発生する可能性があったデータサンプルに対して、仮想期間６３での対象事象の発生の有無を表すラベルを付与することで学習データセット６４が生成される。評価期間６１より前の仮想期間６３を基準とすることで、評価期間６１より前に退会等の事象が発生したデータサンプルからなるデータセットを生成することが可能となる。これにより、未来のデータを元に予測モデルを評価するといった事態を確実に回避することが可能となる。

　またデータ処理部１７は、複数の仮想期間６３を設定し、各仮想期間６３を基準として複数の部分学習データセットを生成する。例えば図９Ａで生成された学習データセット６４は、部分学習データセットの一例である。また図９Ｂでは、図９Ａの仮想期間６３とは異なる仮想期間６３を基準として、新たな学習データセット６４（部分学習データセット）が生成される。以下では、図９Ａ及び図９Ｂに示す仮想期間６３を、それぞれ第１の仮想期間６３ａ及び第２の仮想期間６３ｂと記載する。また第１及び第２の仮想期間６３ａ及び６３ｂを基準として生成された学習データセット６４を第１の部分学習データセット６４ａ及び第２の部分学習データセット６４ｂと記載する。

　図９Ｂに示すように、第２の仮想期間６３ｂは、期間Ｕ（２０１８年１０月１日～２０１８年１０月３１日）に設定される。すなわち、第２の仮想期間６３ｂは、第１の仮想期間６３ａを期間単位だけ過去にずらし、該当する月の日数に合わせて設定されるとも言える。第２の仮想期間６３ｂが設定されると、第２の仮想期間６３ｂを基準として第２の部分学習データセット６４ｂが生成される。

　図９Ｂに示す例では、第２の仮想期間６３ｂ（期間Ｕ）よりも前に入会しており、かつ退会していない顧客６０ａ、６０ｂ、５０ｃ、６０ｄが、部分学習データセット６４ｂとして抽出される。抽出されたデータサンプルのうち、第２の仮想期間６３ｂ内に退会日が存在するデータサンプル（顧客６０ａ）に対しては、退会ラベルが付与される。また第２の仮想期間６３ｂ内に退会日が存在しない他のデータサンプル（顧客６０ｂ、６０ｃ、６０ｄ）には継続ラベルが付与される。ラベルが付与されたデータサンプルは、第２の部分学習データセット６４ｂとして保存される。

　データ処理部１７は、期間単位を基準として仮想期間６３をずらごとに、部分学習データセットを生成する。この処理を一定回数繰り返して複数の部分学習データセットが生成される。なお部分学習データセットを生成する回数等は限定されない。例えば元データセット２０のデータ量等に応じて、部分学習データセットの生成回数が適宜設定されてよい。このように、データ処理部１７は、仮想期間６３をずらすことで複数の部分学習データセットを生成し、複数の部分学習データセットを結合して学習データセット６４を生成する。

　これにより、必要な分量の学習データセット６４を容易に生成することが可能となり、学習データセット６４の作成を十分に支援することが可能となる。また、学習データセット６４は、評価データセット６２に含まれる事象（退会）に対して過去の事象を教師ラベルとするデータセットとなる。この結果、予測モデルについての適切な学習と予測評価とを行うことが可能となる。

　図８及び図９等を参照して説明した手法を用いた場合、評価データセット６２及び学習データセット６４には同じデータサンプル（例えば顧客２０ｃ及び２０ｄ）が含まれることになる。このようなデータサンプルの重複を避けるために、各データセットに同じデータサンプルが含まれないように分割処理が行われてもよい。また学習データセット６４内にも、同じデータサンプルが複数含まれる場合があり得る。このため、学習データセット６４内の重複データサンプルをランダムに取り除く処理が実行されてもよい。これにより、データサンプルの重複が抑制された高品質なデータセットを用意することが可能となる。

　予測モデルを構築する際には、１つの入力データセット３０（評価データセット６２及び学習データセット６４のペア）を用いて高い精度が得られたからと言って、他のデータセットを用いた場合にも高い精度が得られるとは限らない。例えば、複数のパターンのデータセットのペアを用いて、予測モデルの評価を複数回行うことで、予測精度評価値が統計的に安定することが知られている。このため、複数回分のデータセットペアを作成することが望ましい。

　本実施形態では、図８を参照して説明した評価期間６１をずらすことで、他のパターンの評価データセット６２が生成される。また評価期間６１に合わせて図９を参照して説明した仮想期間６３（第１及び第２の仮想期間６３ａ及び６３ｂ等）をずらすことで、他のパターンの学習データセット６４が生成される。このように、評価期間６１及び仮想期間６３を適宜ずらすことで、複数パターンのデータセットペアを容易に構成することが可能となる。

　実際に予測を行う際は、最も日付が新しいパターンを用いて予測モデルを構築する。すなわち最新のデータを使用して、予測モデルを調整する。そして予測を算出する際は、現時点で退会していないデータサンプル（顧客）に対し予測モデルを適用して予測結果を算出する。これにより、現在の状況に合わせた高精度な予測分析を実現することが可能となる。

［追加データセット］
　予測モデルに対する入力項目２２として、時間情報に基づく事象を利用する場合がある。この場合、例えば対象事象（退会等）とは異なる他の事象が時間情報とともに記録されたデータが用いられる。本実施形態では、データ取得部１５により、対象事象とは異なる他の事象の時間情報を表すデータ項目を有する追加データセットが取得される。以下では、追加データセットを用いて入力データセット３０を生成する方法について説明する。

　図１０は、時間情報を伴う入力項目２２を含む追加データセットの一例を示す表である。図１０に示す追加データセット７０は、図７に示す各顧客（データサンプル）のログイン状況を記録したデータである。追加データセット７０の１行目には、データ項目が記録され、２行目以降の各行にはデータエントリごとの項目値が記録される。

　図１０に示す例では、追加データセット７０のデータ項目として、"ＩＤ"、"時刻"、及び"イベント"の項目が設けられる。"ＩＤ"の項目は、図７に示す顧客（データサンプル）に対応するＩＤが記録される。"時刻"の項目には、"イベント"の項目に記載された事象（ログイン）が発生した時刻（時間情報）が記録される。例えばある顧客がログインを行うと、１つのデータエントリが生成される。このようなデータを集計して、新たな入力項目２２等が生成される。データの集計処理の一例としては、顧客ごとのログイン回数の総数をカウント、1カ月の平均ログイン回数を算出するといった処理等が挙げられる。

　このようなデータを入力項目２２として利用する方法として、単純にデータサンプル（顧客）ごとに集計処理を行う方法が考えられる。例えばログインの日時等を考慮することなく集計処理を行った場合、本来は予測時に利用できないはずの未来の情報を利用してしまうといった問題が生じる恐れがある。例えば、２０１８年１２月１日以降の退会を予測する際に、２０１８年１２月１日以降のログインの情報を学習した予測モデルを用いるといった事態が生じ得る。

　そこで、本実施形態では、上記した評価期間６１や仮想期間６３に基づいて集計処理を行い、その集計結果を入力項目２２として利用する。なお集計処理は、評価データセット６２、及び学習データセット６４（部分学習データセット６４）を生成する際にそれぞれ実行される。従って、集計処理では、データセットごとに異なる集計結果が算出される。

　図１１は、追加データセット７０の集計処理の一例を説明するための模式図である。図１１には、顧客６０ｇ及び顧客６０ｈがログインしたタイミングが丸印（黒丸及び白丸）を用いて図示されている。各丸印は、顧客６０ｇ及び６０ｈに関する各データエントリを表している。また評価期間は、図８と同様に期間Ｓ（２０１８年１２月１日～１２月３１日）に設定されているとする。以下では、図１１を参照して評価データセット６２を生成するための集計処理について説明する。

　評価データセット６２に対する集計処理では、評価期間６１よりも前に発生した事象（ログイン）を集計対象として、集計処理が行われる。すなわち、評価期間開始日の前日までの時間情報を持つデータエントリに対して集計処理が行われる。また集計処理は、評価期間より前に設定された所定の集計期間に合わせて行われる。集計期間は、評価期間よりも前であれば任意に設定可能である。図１１に示す例では、元データセット２０における最も古い入会日（２０１７年１月１日）から、評価期間開始日の前日（２０１８年１月１日）までの期間が集計期間に設定される。本実施形態では、集計期間は所定期間に相当する。

　例えば顧客６０ｇは、評価期間開始日より前に５回のログイン（黒丸）を行っており、評価期間中に２回のログイン（白丸）を行っている。この場合、集計処理では、顧客６０ｇのログイン総数は５回と集計され、評価期間６１中のログインはカウントされない。同様に、全体で５回のログインをしている顧客６０ｈは、評価期間６１に１度ログインしているため、集計処理によるログイン総数は４回と集計される。これにより、評価期間６１の開始時点からみて未来に生じる事象を集計することなく、適正な集計結果を算出することが可能となる。

　また集計期間を最新の一定期間に絞ることで、予測直前の事象の情報を抽出することができる。例えば、評価データセット６２に対しては、評価期間開始日の１カ月前から評価期間開始日の前日までを集計期間とする。これにより、最新の集計結果を入力項目２２として用いることが可能となり、予測分析の精度を十分に高めることが可能となる。

　また、部分学習データセットに対する集計処理では、対応する仮想期間６３の前日までの時間情報を持つデータエントリに対して集計が行われる。また評価データセット６２の場合と同様に、集計期間を仮想期間６３の直近の一定期間に絞ることで、最新の集計結果が算出される。他の部分学習データセットに対しても集計期間を適宜設定することで、追加データセット７０のデータエントリを適正に集計することが可能である。

　生成された評価データセット６２及び学習データセット６４（部分学習データセット６４）をペアとして、入力データセット３０が生成される。このように、本実施形態では、他の事象の時間情報に基づいて、評価期間よりも前に設定された集計期間において他の事象のデータ項目が集計され、当該集計結果が入力データセット３０に追加される。これにより、例えば時間情報に関連付けられた他の事象に関するデータを含む、充実した入力データセット３０を容易に作成することが可能となる。

　図１２は、時間情報を伴うデータセットを入力するためのＵＩ画面の一例である。ＵＩ画面８０には、元ファイル入力欄８１、パラメータ指定欄８２ａ～８２ｄ、追加ファイル入力欄８３、及び処理開始ボタン８４が表示される。ＵＩ画面８０において、各入力欄や指定欄に入力される情報は、いずれもユーザが指定した指定情報となる。

　元ファイル入力欄８１は、元データセット２０である表形式データ等のファイル名を入力する欄である。パラメータ指定欄８２ａは、元データセット２０の各データサンプルを区別するための項目（ＩＤ項目）を指定する欄である。パラメータ指定欄８２ｂは、ラベルとなる事象（退会）の時間情報を含む項目を指定する欄である。パラメータ指定欄８２ｃは、データサンプルの生成時間情報を含む項目を指定する欄である。パラメータ指定欄８２ｄは、期間単位を指定する欄である。この期間単位は、上記したように自動で決定されても良い。また自動で決定された期間単位が推奨値として提示されてもよい。

　追加ファイル入力欄８３は、追加データセット７０である表形式データ等のファイル名等を入力する欄である。入力項目２２としても時刻に基づく事象を利用する場合は、ファイル名、ＩＤ項目、時間情報の項目、内容項目を指定する。また追加ファイルについては複数の追加データセット７０を指定することが可能である。この場合、各ファイル独立に処理を行い、算出した入力項目２２を入力データセット３０と連結して利用しても良い。

　各欄の入力が完了した後、処理開始ボタン８４を押すことで、上記した入力データセット３０（評価データセット６２及び学習データセット６４）の生成処理が開始される。このように本ツールを用いることで、元データセット２０の各データサンプルを分割して、時間的に矛盾のない入力データセット３０を自動的に作成することが可能となる。この結果、例えば予測分析等の経験の浅いユーザであっても、適正なデータセットを容易に準備することが可能となり、データセットの作成を十分に支援することが可能となる。

　また生成処理の一環として元データセット２０を評価する評価処理等が行われてもよい。この場合、例えば図１２に示す処理開始ボタン８４を押した後に、図５に示すようなチェック結果を示すＵＩ画面４０等が表示される。これにより、各データ項目の問題点が解消されたデータセット等を容易に生成することが可能となる。

　以上、本実施形態に係る情報処理装置１００では、元データセット２０から学習モデルを構築するための入力データセット３０が生成される。この入力データセット３０の生成は、ユーザが指定した指定情報に基づいて行われる。これにより、ユーザの指定に応じた入力データセット３０を生成することが可能となり、データセットの作成を支援することが可能となる。

　予測モデル等の学習モデルを構築する場合、データセットを適切に作成することが重要である。例えばデータセットによっては、本来よりも予測精度が劣化する事態が生じる場合がある。また、本来予測時には手に入らない情報を利用してしまうといった現実ではありえない設定で予測モデルの評価を行ってしまう事態が生じる可能性がある。ところで、予測分析の経験が乏しいユーザにとっては、データセットが適切に作成されているかを判断することが難しい場合があった。

　本実施形態では、入力データセット３０の元となる元データセット２０が評価され、元データセット２０の問題点やその対策案４５が提示される。従ってユーザは提示された対策案４５を選択するだけで、各種の問題点が解消された入力データセット３０を容易に作成することが可能となる。また対策案４５のうち、実行が推奨されるものが推奨案４６として提示される。このため、高い予測精度を実現することが期待されるデータセット等を作成することが可能となる。

　また本実施形態では、時間情報に紐付く事象がターゲットである場合にも、時間的な矛盾等のない評価データセット６２及び学習データセット６４を作成することが可能である。このため、例えば表形式ファイルのデータサンプルを時間情報に従って並べ替えるといった作業や、矛盾のないようにデータサンプルを分割するといった作業を行うことなく、適正なデータセットを用意することが可能となる。これにより、データセットの作成作業に要する負担を大幅に軽減することが可能となる。

　このように、本実施形態に係る情報処理装置１００により、予測分析において元となるデータファイルから、予測分析に対して適切なデータセットの作成を自動化・サポートするデータセット生成ツールが実現される。これにより、予測分析の経験が浅くても、適切なデータセットを容易に作成することが可能となり、適正な予測分析を行うことが可能となる。

　図１３は、情報処理装置１００のハードウェア構成例を示すブロック図である。情報処理装置１００は、ＣＰＵ（Central　Processing　unit）９０１、ＲＯＭ（Read　Only　Memory）９０３、およびＲＡＭ（Random　Access　Memory）９０５を含む。また、情報処理装置１００は、ホストバス９０７、ブリッジ９０９、外部バス９１１、インターフェース９１３、入力装置９１５、出力装置９１７、ストレージ装置９１９、ドライブ９２１、接続ポート９２３、通信装置９２５を含んでもよい。情報処理装置１００は、ＣＰＵ９０１に代えて、またはこれとともに、ＤＳＰ（Digital　Signal　Processor）、ＡＳＩＣ（Application　Specific　Integrated　Circuit）、またはＦＰＧＡ（Field-Programmable　Gate　Array）などの処理回路を有してもよい。

　ＣＰＵ９０１は、演算処理装置および制御装置として機能し、ＲＯＭ９０３、ＲＡＭ９０５、ストレージ装置９１９、またはリムーバブル記録媒体９２７に記録された各種プログラムに従って、情報処理装置１００内の動作全般またはその一部を制御する。ＲＯＭ９０３は、ＣＰＵ９０１が使用するプログラムや演算パラメータなどを記憶する。ＲＡＭ９０５は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一次記憶する。ＣＰＵ９０１、ＲＯＭ９０３、およびＲＡＭ９０５は、ＣＰＵバスなどの内部バスにより構成されるホストバス９０７により相互に接続されている。さらに、ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（Peripheral　Component　Interconnect/Interface）バスなどの外部バス９１１に接続されている。

　入力装置９１５は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置９１５は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置１００の操作に対応した携帯電話などの外部接続機器９２９であってもよい。入力装置９１５は、ユーザが入力した情報に基づいて入力信号を生成してＣＰＵ９０１に出力する入力制御回路を含む。ユーザは、この入力装置９１５を操作することによって、情報処理装置１００に対して各種のデータを入力したり処理動作を指示したりする。

　出力装置９１７は、取得した情報をユーザに対して視覚や聴覚、触覚などの感覚を用いて通知することが可能な装置で構成される。出力装置９１７は、例えば、ＬＣＤ（Liquid　Crystal　Display）または有機ＥＬ（Electro-Luminescence）ディスプレイなどの表示装置、スピーカまたはヘッドフォンなどの音声出力装置、もしくはバイブレータなどでありうる。出力装置９１７は、情報処理装置１００の処理により得られた結果を、テキストもしくは画像などの映像、音声もしくは音響などの音声、またはバイブレーションなどとして出力する。

　ストレージ装置９１９は、情報処理装置１００の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９は、例えば、ＨＤＤ（Hard　Disk　Drive）などの磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。ストレージ装置９１９は、例えばＣＰＵ９０１が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。

　ドライブ９２１は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体９２７のためのリーダライタであり、情報処理装置１００に内蔵、あるいは外付けされる。ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録されている情報を読み出して、ＲＡＭ９０５に出力する。また、ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録を書き込む。

　接続ポート９２３は、機器を情報処理装置１００に接続するためのポートである。接続ポート９２３は、例えば、ＵＳＢ（Universal　Serial　Bus）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Small　Computer　System　Interface）ポートなどでありうる。また、接続ポート９２３は、ＲＳ－２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（High-Definition　Multimedia　Interface）ポートなどであってもよい。接続ポート９２３に外部接続機器９２９を接続することで、情報処理装置１００と外部接続機器９２９との間で各種のデータが交換されうる。

　通信装置９２５は、例えば、通信ネットワーク９３１に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置９２５は、例えば、ＬＡＮ（Local　Area　Network）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ－Ｆｉ、またはＷＵＳＢ（Wireless　USB）用の通信カードなどでありうる。また、通信装置９２５は、光通信用のルータ、ＡＤＳＬ（Asymmetric　Digital　Subscriber　Line）用のルータ、または、各種通信用のモデムなどであってもよい。通信装置９２５は、例えば、インターネットや他の通信機器との間で、ＴＣＰ／ＩＰなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置９２５に接続される通信ネットワーク９３１は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内ＬＡＮ、赤外線通
信、ラジオ波通信または衛星通信などを含みうる。

　例えば図１に示す操作部１０、表示部１１、通信部１２、及びデータベース１３は、図１３に示す、入力装置９０５、出力装置９１７、通信装置９２５、及びストレージ装置９１９により実現される。また図９に示すＣＰＵ９０１、ＲＯＭ９０３、ＲＡＭ９０５が本実施形態に係るプログラムに従って共動することで図１に示す制御部１４が実現される。

　以上、情報処理装置１００のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更されうる。

　＜その他の実施形態＞
　本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。

　上記では、主に対象項目２１に関する予測処理を行う学習モデル（予測モデル）について説明した。これに限定されず、例えば学習モデルは、対象項目２１に関する推定処理を行うモデル（推定モデル）であってもよい。推定処理とは、例えば顧客が興味を持ちそうな商品を推定するといった処理や、スパムメールを推定するといった処理が挙げられる。この場合、推定モデル用の元データにおいて、問題となるデータ項目等をチェックし、その対策案４５等を提示することで、適正なデータセットを生成することが可能となる。

　また元データセット２０には、音声や画像等が用いられてもよい。この場合、音声や画像等の内容を推定（認識）する学習モデル用のデータセットが生成される。例えば音声に関するパラメータ（波長域の分布、ボリューム、波形の特徴量等）や画像に関するパラメータ（明るさ、色の傾向）等をデータ項目として、各データ項目の問題点をチェックし対策案４５等を提示することで、データセットの作成を支援することが可能となる。

　図１に示す情報処理装置１００に設けられた機械学習部１８は、他の装置に設けられてもよい。すなわち、機械学習部１８を除いた構成が採用されてもよい。例えば、元データセット２０から入力データセット３０を生成する装置と、生成された入力データセット３０を使用して学習モデルを構築する装置とが別々の装置として構成される。このような場合であっても、入力データセット３０の作成を支援することが可能である。

　上記では、本技術に係る情報処理装置の一実施形態として、単体の情報処理装置１００を例に挙げた。しかしながら、情報処理装置１００とは別に構成され、有線又は無線を介して情報処理装置１００に接続される任意のコンピュータにより、本技術に係る情報処理装置が実現されてもよい。例えばクラウドサーバにより、本技術に係る情報処理方法が実行されてもよい。あるいは情報処理装置１００と他のコンピュータとが連動して、本技術に係る情報処理方法が実行されてもよい。

　すなわち本技術に係る情報処理方法、及びプログラムは、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。なお本開示において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれもシステムである。

　コンピュータシステムによる本技術に係る情報処理方法、及びプログラムの実行は、例えば元データセットの取得、指定情報の受け付け、データセットの生成等が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部または全部を他のコンピュータに実行させその結果を取得することを含む。

　すなわち本技術に係る情報処理方法及びプログラムは、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。

　以上説明した本技術に係る特徴部分のうち、少なくとも２つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。

　本開示において、「同じ」「等しい」等は、「実質的に同じ」「実質的に等しい」等を含む概念とする。例えば「完全に同じ」「完全に等しい」等を基準とした所定の範囲（例えば±１０％の範囲）に含まれる状態も含まれる。

　なお、本技術は以下のような構成も採ることができる。
（１）元データセットを取得するデータ取得部と、
　ユーザが指定した指定情報を受け付ける受付部と、
　前記ユーザが指定した前記指定情報に基づいて、前記取得された元データセットから、学習モデルを構築するためのデータセットを生成するデータ生成部と
　を具備する情報処理装置。
（２）（１）に記載の情報処理装置であって、
　前記元データセットは、各々が複数のデータ項目を含む複数のデータサンプルであり、
　前記指定情報は、前記学習モデルの処理対象となるデータ項目である対象項目を含み、
　前記学習モデルは、前記対象項目に関する予測処理又は推定処理を行う
　情報処理装置。
（３）（２）に記載の情報処理装置であって、
　前記データ生成部は、前記元データセットを所定の条件に基づいて評価し、当該評価結果に応じた評価情報、又は前記評価結果に対する対策案の少なくとも一方を生成し、
　前記受付部は、前記評価情報又は前記対策案の少なくとも一方を提示する
　情報処理装置。
（４）（３）に記載の情報処理装置であって、
　前記受付部は、前記評価結果に対する前記対策案を選択可能に提示し、前記指定情報として前記ユーザによる前記対策案の選択結果を受け付け、
　前記データ生成部は、前記選択結果に基づいて前記データセットを生成する
　情報処理装置。
（５）（３）又は（４）に記載の情報処理装置であって、
　前記データ生成部は、前記評価結果に対する複数の対策案を生成し、前記複数の対策案のうち推奨される推奨案を選択し、
　前記受付部は、前記推奨案が判別できるように、前記複数の対策案を提示する
　情報処理装置。
（６）（５）に記載の情報処理装置であって、
　前記データ生成部は、前記推奨案に基づいて前記データセットを生成し、
　前記受付部は、前記データセットの生成処理の開始後、前記複数の対策案のうち前記推奨案とは異なる他の対策案を選択可能に提示する
　情報処理装置。
（７）（５）又は（６）に記載の情報処理装置であって、
　前記受付部は、過去の前記選択結果に基づいて、前記推奨案を提示する
　情報処理装置。
（８）（３）から（７）のうちいずれか１つに記載の情報処理装置であって、
　前記所定の条件は、前記データサンプルの数、前記データ項目の数、前記データ項目間の関連度、前記データ項目の項目値の欠損率、又は前記対象項目の統計量の少なくとも１つに関する条件を含み、
　前記データ生成部は、前記所定の条件に基づいて前記元データセット全体を評価する
　情報処理装置。
（９）（３）から（８）のうちいずれか１つに記載の情報処理装置であって、
　前記所定の条件は、対象となる前記データ項目の項目値のユニーク数、前記項目値の分布、前記項目値における外れ値の有無、前記項目値の欠損率、又は前記項目値の書式の少なくとも１つに関する条件を含み、
　前記データ生成部は、前記所定の条件に基づいて前記複数のデータ項目ごとに前記元データセットを評価する
　情報処理装置。
（１０）（２）から（９）のうちいずれか１つに記載の情報処理装置であって、
　前記対象項目は、対象事象の時間情報と関連付けられたデータ項目であり、
　前記学習モデルは、前記対象事象が評価期間に発生する確率を予測するモデルであり、
　前記データ生成部は、前記評価期間の長さの基準となる期間単位に基づいて、前記データセットを生成する
　情報処理装置。
（１１）（１０）に記載の情報処理装置であって、
　前記データ生成部は、前記元データセット又は前記ユーザが指定した前記指定情報のいずれか一方に基づいて、前記期間単位を設定する
　情報処理装置。
（１２）（１０）又は（１１）に記載の情報処理装置であって、
　前記データセットは、前記学習モデルを学習させるための学習データセットと、前記学習モデルを評価するための評価データセットとを含み、
　前記データ生成部は、前記期間単位に基づいて前記評価期間と前記評価期間よりも前の期間である仮想期間とを設定し、前記評価期間を基準として前記評価データセットを生成し、前記仮想期間を基準として前記学習データセットを生成する
　情報処理装置。
（１３）（１２）に記載の情報処理装置であって、
　前記データ生成部は、前記評価期間の開始時点で前記評価期間に前記対象事象が発生する可能性があった前記データサンプルに対して、前記評価期間での前記対象事象の発生の有無を表すラベルを付与することで前記評価データセットを生成する
　情報処理装置。
（１４）（１２）又は（１３）に記載の情報処理装置であって、
　前記データ生成部は、前記仮想期間の開始時点で前記仮想期間に前記対象事象が発生する可能性があった前記データサンプルに対して、前記仮想期間での前記対象事象の発生の有無を表すラベルを付与することで前記学習データセットを生成する
　情報処理装置。
（１５）（１２）から（１４）のうちいずれか１つに記載の情報処理装置であって、
　前記データ生成部は、前記期間単位を基準として前記仮想期間をずらすことで複数の部分学習データセットを生成し、前記複数の部分学習データセットを結合して前記学習データセットを生成する。
　情報処理装置。
（１６）（１０）から（１５）のうちいずれか１つに記載の情報処理装置であって、
　前記データ取得部は、前記対象事象とは異なる他の事象の時間情報を表すデータ項目を有する追加データセットを取得し、
　前記データ生成部は、前記他の事象の時間情報に基づいて、前記評価期間よりも前に設定された所定期間において前記他の事象のデータ項目を集計し、当該集計結果を前記データセットに追加する
　情報処理装置。
（１７）（１）から（１６）のうちいずれか１つに記載の情報処理装置であって、
　前記受付部は、前記指定情報を入力するための入力画面を生成する
　情報処理装置。
（１８）元データセットを取得し、
　ユーザが指定した指定情報を受け付け、
　前記ユーザが指定した前記指定情報に基づいて、前記取得された元データセットから、学習モデルを構築するためのデータセットを生成する
　ことをコンピュータシステムが実行する情報処理方法。
（１９）元データセットを取得するステップと、
　ユーザが指定した指定情報を受け付けるステップと、
　前記ユーザが指定した前記指定情報に基づいて、前記取得された元データセットから、学習モデルを構築するためのデータセットを生成するステップと
　をコンピュータシステムに実行させるプログラム。

　１３…データベース
　１４…制御部
　１５…データ取得部
　１６…ＵＩ生成部
　１７…データ処理部
　１８…機械学習部
　２０…元データセット
　２１…対象項目
　２２…入力項目
　３０…入力データセット
　４０、５０、８０…ＵＩ画面
　４４…評価情報
　４５…対策案
　４６…推奨案
　６１…評価期間
　６２…評価データセット
　６３…仮想期間
　６４…学習データセット
　６４ａ、６４ｂ…部分学習データセット
　７０…追加データセット
　１００…情報処理装置

Claims

　元データセットを取得するデータ取得部と、
　ユーザが指定した指定情報を受け付ける受付部と、
　前記ユーザが指定した前記指定情報に基づいて、前記取得された元データセットから、学習モデルを構築するためのデータセットを生成するデータ生成部と
　を具備する情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記元データセットは、各々が複数のデータ項目を含む複数のデータサンプルであり、
　前記指定情報は、前記学習モデルの処理対象となるデータ項目である対象項目を含み、
　前記学習モデルは、前記対象項目に関する予測処理又は推定処理を行う
　情報処理装置。
　請求項２に記載の情報処理装置であって、
　前記データ生成部は、前記元データセットを所定の条件に基づいて評価し、当該評価結果に応じた評価情報、又は前記評価結果に対する対策案の少なくとも一方を生成し、
　前記受付部は、前記評価情報又は前記対策案の少なくとも一方を提示する
　情報処理装置。
　請求項３に記載の情報処理装置であって、
　前記受付部は、前記評価結果に対する前記対策案を選択可能に提示し、前記指定情報として前記ユーザによる前記対策案の選択結果を受け付け、
　前記データ生成部は、前記選択結果に基づいて前記データセットを生成する
　情報処理装置。
　請求項３に記載の情報処理装置であって、
　前記データ生成部は、前記評価結果に対する複数の対策案を生成し、前記複数の対策案のうち推奨される推奨案を選択し、
　前記受付部は、前記推奨案が判別できるように、前記複数の対策案を提示する
　情報処理装置。
　請求項５に記載の情報処理装置であって、
　前記データ生成部は、前記推奨案に基づいて前記データセットを生成し、
　前記受付部は、前記データセットの生成処理の開始後、前記複数の対策案のうち前記推奨案とは異なる他の対策案を選択可能に提示する
　情報処理装置。
　請求項５に記載の情報処理装置であって、
　前記受付部は、過去の前記選択結果に基づいて、前記推奨案を提示する
　情報処理装置。
　請求項３に記載の情報処理装置であって、
　前記所定の条件は、前記データサンプルの数、前記データ項目の数、前記データ項目間の関連度、前記データ項目の項目値の欠損率、又は前記対象項目の統計量の少なくとも１つに関する条件を含み、
　前記データ生成部は、前記所定の条件に基づいて前記元データセット全体を評価する
　情報処理装置。
　請求項３に記載の情報処理装置であって、
　前記所定の条件は、対象となる前記データ項目の項目値のユニーク数、前記項目値の分布、前記項目値における外れ値の有無、前記項目値の欠損率、又は前記項目値の書式の少なくとも１つに関する条件を含み、
　前記データ生成部は、前記所定の条件に基づいて前記複数のデータ項目ごとに前記元データセットを評価する
　情報処理装置。
　請求項２に記載の情報処理装置であって、
　前記対象項目は、対象事象の時間情報と関連付けられたデータ項目であり、
　前記学習モデルは、前記対象事象が評価期間に発生する確率を予測するモデルであり、
　前記データ生成部は、前記評価期間の長さの基準となる期間単位に基づいて、前記データセットを生成する
　情報処理装置。
　請求項１０に記載の情報処理装置であって、
　前記データ生成部は、前記元データセット又は前記ユーザが指定した前記指定情報のいずれか一方に基づいて、前記期間単位を設定する
　情報処理装置。
　請求項１０に記載の情報処理装置であって、
　前記データセットは、前記学習モデルを学習させるための学習データセットと、前記学習モデルを評価するための評価データセットとを含み、
　前記データ生成部は、前記期間単位に基づいて前記評価期間と前記評価期間よりも前の期間である仮想期間とを設定し、前記評価期間を基準として前記評価データセットを生成し、前記仮想期間を基準として前記学習データセットを生成する
　情報処理装置。
　請求項１２に記載の情報処理装置であって、
　前記データ生成部は、前記評価期間の開始時点で前記評価期間に前記対象事象が発生する可能性があった前記データサンプルに対して、前記評価期間での前記対象事象の発生の有無を表すラベルを付与することで前記評価データセットを生成する
　情報処理装置。
　請求項１２に記載の情報処理装置であって、
　前記データ生成部は、前記仮想期間の開始時点で前記仮想期間に前記対象事象が発生する可能性があった前記データサンプルに対して、前記仮想期間での前記対象事象の発生の有無を表すラベルを付与することで前記学習データセットを生成する
　情報処理装置。
　請求項１２に記載の情報処理装置であって、
　前記データ生成部は、前記期間単位を基準として前記仮想期間をずらすことで複数の部分学習データセットを生成し、前記複数の部分学習データセットを結合して前記学習データセットを生成する。
　情報処理装置。
　請求項１０に記載の情報処理装置であって、
　前記データ取得部は、前記対象事象とは異なる他の事象の時間情報を表すデータ項目を有する追加データセットを取得し、
　前記データ生成部は、前記他の事象の時間情報に基づいて、前記評価期間よりも前に設定された所定期間において前記他の事象のデータ項目を集計し、当該集計結果を前記データセットに追加する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記受付部は、前記指定情報を入力するための入力画面を生成する
　情報処理装置。
　元データセットを取得し、
　ユーザが指定した指定情報を受け付け、
　前記ユーザが指定した前記指定情報に基づいて、前記取得された元データセットから、学習モデルを構築するためのデータセットを生成する
　ことをコンピュータシステムが実行する情報処理方法。
　元データセットを取得するステップと、
　ユーザが指定した指定情報を受け付けるステップと、
　前記ユーザが指定した前記指定情報に基づいて、前記取得された元データセットから、学習モデルを構築するためのデータセットを生成するステップと
　をコンピュータシステムに実行させるプログラム。