WO2021161896A1

WO2021161896A1 - 情報処理装置、情報処理方法、プログラム

Info

Publication number: WO2021161896A1
Application number: PCT/JP2021/004146
Authority: WO
Inventors: 裕士堀口; 慎吾高松; 健人中田; 正典宮原; 紘士飯田
Original assignee: ソニーグループ株式会社
Priority date: 2020-02-14
Filing date: 2021-02-04
Publication date: 2021-08-19
Also published as: JPWO2021161896A1; US20230063311A1

Abstract

本技術の一形態に係る情報処理装置は、第１の学習部と、第２の学習部と、評価部と、調整部とを具備する。前記第１の学習部は、所定の学習モデルを学習させる。前記第２の学習部は、前記所定の学習モデルの出力をユーザが解釈可能な形式で記述されたルール群に変換する変換モデルを学習させる。前記評価部は、所定の基準に従って前記ルール群を評価した評価情報を取得する。前記調整部は、前記評価情報に基づいて前記所定の学習モデルの学習処理を調整する。

Description

情報処理装置、情報処理方法、プログラム

　本技術は、機械学習を用いた学習モデルの構築に適用可能な情報処理装置、情報処理方法、及びプログラムに関する。

　従来、コンピュータを用いた処理結果が、法令等に違反しているかどうかを確認するための技術が知られている。例えば特許文献１には、映像データの内容が倫理規定に違反するか否かの審査を支援する倫理審査支援システムについて記載されている。このシステムでは、例えば映像表現に関する各種のパラメータ（血の色や頻度等）のレベルを分析することで、映像データが倫理規定に抵触するか否かが判定される。このように、システムが自動的に映像表現を分析することで、客観的な審査結果を得ることが可能となる（特許文献１の明細書段落［００４６］［００５１］［００５６］等）。

　また近年では、機械学習を用いた学習モデルにより、様々な対象を予測する技術や、画像認識等を実現する技術が開発されている。学習モデルを用いることで、例えば会社に面接に来た人を採用するべきか否かを予測することや、面接に来た人に期待される勤続年数等を予測することが可能である。このような予測を行う場合には、モデルによる処理が法令等の必要な基準を満たしているかどうかを確認することが重要になる。

特開２００２－１４９８８４号公報

　機械学習を用いた学習モデルは、様々なシーンでの応用が期待されており、必要な基準を満たす学習モデルを容易に構築することが可能な技術が求められている。

　以上のような事情に鑑み、本技術の目的は、必要な基準を満たす学習モデルを容易に構築することが可能な情報処理装置、情報処理方法、及びプログラムを提供することにある。

　上記目的を達成するため、本技術の一形態に係る情報処理装置は、第１の学習部と、第２の学習部と、評価部と、調整部とを具備する。
　前記第１の学習部は、所定の学習モデルを学習させる。
　前記第２の学習部は、前記所定の学習モデルの出力をユーザが解釈可能な形式で記述されたルール群に変換する変換モデルを学習させる。
　前記評価部は、所定の基準に従って前記ルール群を評価した評価情報を取得する。
　前記調整部は、前記評価情報に基づいて前記所定の学習モデルの学習処理を調整する。

　この情報処理装置では、所定の学習モデルとその出力を変換する変換モデルとの学習処理が行われる。変換モデルは、学習モデルの出力をユーザが解釈可能な形式で記述されたルール群に変換する。このルール群を所定の基準に従って評価した評価情報を用いて、学習モデルの学習処理が調整される。これにより、必要な基準を満たす学習モデルを容易に構築することが可能となる。

　前記所定の基準は、法令の定める基準、又は前記ユーザの定める基準の少なくとも一方を含んでもよい。

　前記学習モデルは、対象項目を予測する予測モデルであってもよい。

　前記ルール群は、前記予測モデルの出力を説明する少なくとも１つの出力ルールを含んでもよい。この場合、前記評価部は、前記出力ルールの各々に関する説明文又は図表の少なくとも一方を生成してもよい。

　前記評価部は、前記出力ルールの各々について、前記所定の基準を満たしているか否かを前記ユーザにチェックさせるチェック項目を生成してもよい。

　前記評価部は、前記評価情報として、前記チェック項目に対する前記ユーザのチェック結果を読み込んでもよい。

　前記評価部は、前記予測モデルの学習データに含まれる複数のデータ項目のうち、前記ユーザが指定したデータ項目を対象とする前記チェック項目を生成してもよい。

　前記情報処理装置は、さらに、前記所定の基準に関するデータベースが記憶された記憶部を具備してもよい。この場合、前記評価部は、前記データベースに基づいて、前記出力ルールが前記所定の基準を満たしているか否かを判定してもよい。

　前記評価部は、前記所定の基準を満たさないと判定された前記出力ルールについて、当該出力ルールが前記所定の基準を満たしているか否かを前記ユーザにチェックさせるチェック項目を生成してもよい。

　前記評価部は、前記評価情報として、前記所定の基準を満たさないと判定された前記出力ルールに関する情報を生成してもよい。

　前記評価情報は、前記所定の基準を満たさない前記出力ルールである違反ルールに関する情報を含んでもよい。この場合、前記調整部は、前記違反ルールが指定するデータ範囲を基準として、前記予測モデルの学習データ、又は前記予測モデルの学習パラメータの少なくとも一方を調整してもよい。

　前記調整部は、前記違反ルールが指定するデータ範囲に含まれる前記学習データのうち前記違反ルールが前記所定の基準を満たさない原因となる前記学習データの数を削減する処理、又は、前記違反ルールが指定するデータ範囲に前記所定の基準を満たすように調整されたダミーデータを前記学習データとして追加する処理の少なくとも一方を行ってもよい。

　前記学習パラメータは、前記学習データに関する前記予測モデルの出力を調整するパラメータ、又は前記予測モデルの損失関数を調整するパラメータの少なくとも一方を含んでもよい。

　前記予測モデルは、前記対象項目に関する分類を予測値とする分類モデルであってもよい。この場合、前記調整部は、前記違反ルールが指定するデータ範囲における前記予測モデルの予測値が、前記所定の基準を満たす前記出力ルールが指定するデータ範囲における前記予測モデルの予測値と略一致するように、前記予測モデルの学習処理を調整してもよい。

　前記予測モデルは、前記対象項目の値を予測値とする回帰モデルであってもよい。この場合、前記調整部は、前記違反ルールが指定するデータ範囲における前記予測モデルの予測値の分布が、前記所定の基準を満たす前記出力ルールが指定するデータ範囲における前記予測モデルの予測値の分布と略一致するように、前記予測モデルの学習処理を調整してもよい。

　前記評価部は、前記予測モデルの出力に関する複数の調整方法を選択可能に提示してもよい。この場合、前記調整部は、前記複数の調整方法のうち、前記ユーザにより選択された方法に基づいて前記予測モデルの学習処理を調整してもよい。

　前記第２の学習部は、前記所定の基準に応じた前記変換モデルを学習させてもよい。

　前記変換モデルは、決定木、又はルールフィットの少なくとも一方のアルゴリズムを用いた学習モデルであってもよい。

　本技術の一実施形態に係る情報処理方法は、コンピュータシステムにより実行される情報処理方法であって、所定の学習モデルを学習させることを含む。
　前記所定の学習モデルの出力をユーザが解釈可能な形式で記述されたルール群に変換する変換モデルを学習させる。
　所定の基準に従って前記ルール群を評価した評価情報が取得される。
　前記評価情報に基づいて前記所定の学習モデルの学習処理が調整される。

　本技術の一実施形態に係るプログラムは、コンピュータシステムに以下のステップを実行させる。
　所定の学習モデルを学習させるステップ。
　前記所定の学習モデルの出力をユーザが解釈可能な形式で記述されたルール群に変換する変換モデルを学習させるステップ。
　所定の基準に従って前記ルール群を評価した評価情報を取得するステップ。
　前記評価情報に基づいて前記所定の学習モデルの学習処理を調整するステップ。

本技術の一実施形態に係るデータ分析装置の動作概要を説明するための模式図である。データ分析装置の構成例を示すブロック図である。学習データベースの一例を示す表である。ルールデータベースの一例を示す表である。要約モデルについて説明するための模式図である。データ分析装置の基本的な動作の一例を示すフローチャートである。予測モデルに用いる学習データを指定するＵＩ画面の一例である。予測モデルに関する各種の設定を入力するＵＩ画面の一例である。予測モデルの特性を表示する評価画面の一例である。予測モデルの特性を表示する評価画面の他の例である。出力ルールについてのチェック画面の一例である。出力ルールについてのチェック画面の他の例である。回帰モデルが用いられる場合に表示されるチェック画面の一例である。比較例として挙げる予測モデルの出力のマップである。認証モデルが用いられる場合に表示されるチェック画面の一例である。

　以下、本技術に係る実施形態を、図面を参照しながら説明する。

　［データ分析装置の構成］
　図１は、本技術の一実施形態に係るデータ分析装置１００の動作概要を説明するための模式図である。データ分析装置１００は、コンピュータ等を用いて構成され、予測分析等を行うための予測分析ツールを提供する装置である。
　ここで、予測分析とは、例えば機械学習によって、過去の事例に基づき未来の事象を予測する技術である。予測分析では、予測の対象に応じて構築された予測モデル１０が用いられる。予測分析（予測モデル１０）を用いることで、例えば過去の人事面接の結果を用いて新しく面接に来た人を採用するべきかを予測するといったことが可能である。もちろん、予測分析の対象は限定されず、任意に設定可能である。本実施形態では、予測モデル１０は、所定の学習モデルの一例である。
　データ分析装置１００を使用するユーザは、例えばディスプレイ（図示省略）等に表示されたＧＵＩ（Graphical User Interface）を介して、学習データ１、入力項目、モデルのパラメータ等を指定することで、所望の項目を予測する予測モデル１０を構築することが可能である。

　図１には、予測モデル１０を構築する際に、データ分析装置１００で行われる基本的な動作の流れが模式的に図示されている。
　図１に示すように、データ分析装置１００では、予測モデル１０を構築するステップと、要約モデル１１を構築するステップと、モデルの評価を行うステップと、予測モデル１０を調整するステップとが実行される。

　要約モデル１１とは、予測モデル１０の出力をユーザが解釈可能な形式に変換する学習モデルである。本実施形態では、要約モデル１１は、変換モデルに相当する。
　一般に、機械学習を用いた予測モデル１０の処理内容は複雑であるため、例えば予測モデル１０の出力から、その出力を表すルール（条件）等を抽出することは難しい場合が多い。例えば予測モデル１０の出力が示す予測結果の分布等を見ただけでは、その予測結果に当てはまるデータの条件等を解釈することは難しい。
　要約モデル１１は、このように複雑な出力を要約（近似）したルール群を生成する。ここで、ルール群とは、予測モデル１０の出力を説明する少なくとも１つのルールからなるルールの集合を意味する。これらのルールは、例えばユーザが解釈可能な条件等を用いて記述される。これにより、複雑な出力であっても、その内容を容易に解釈することが可能となる。以下では、予測モデル１０の出力を説明するルールを、出力ルールと記載する。

　モデルの評価を行うステップは、予測モデル１０による予測処理が、所定の基準を満たしているかどうかを確認するステップである。データ分析装置１００では、要約モデル１１により生成されたルール群、すなわち予測モデル１０の出力を要約したルール群に基づいて、予測モデル１０の出力についての評価が行われる。
　所定の基準には、法令の定める基準が含まれる。例えば会社に面接に来た人を採用するか否かを予測するといった場面では、予測モデル１０の出力（ルール群）が、雇用機会均等法等の定める基準に従ってルール群が評価される。
　また所定の基準には、ユーザの定める基準が含まれてもよい。例えば面接者の採用を予測する場面であっても、会社の状況（従業員の男女構成や年齢構成等）によっては、法令の定める基準をそのまま用いないほうが好ましい場合もあり得る。このような場合には、ユーザが状況に応じて設定した基準（ユーザの判断等）に従ってルール群が評価されてもよい。

　データ分析装置１００では、所定の基準に従ってルール群（出力ルール）を評価した情報が生成される。ルール群を評価した情報には、例えば各出力ルールが所定の基準を満たしているか否かの判定結果や、出力ルールが所定の基準から外れている度合等を示す情報が含まれる。
　また、各出力ルールが所定の基準を満たしているか否かの判定は、ユーザによって行われてもよいし、データ分析装置１００（後述する説明生成部２４）によって自動的に行われてもよい。
　以下では、所定の基準に従ってルール群を評価した情報を評価情報と記載する。評価情報は、予測モデル１０の出力が所定の基準を満たしているかどうかを示す情報であると言える。

　予測モデル１０を調整するステップでは、評価情報に基づいて予測モデル１０の学習処理が調整される。具体的には、予測モデル１０の出力が所定の基準を満たすように、すなわち予測モデル１０の出力から所定の基準を満たさない出力ルールが抽出されなくなるように、予測モデル１０の学習処理が調整される。このように学習処理の調整を繰り返すことで、所定の基準を満たす予測モデル１０を構築することが可能となる。学習処理を調整する方法については、後に詳しく説明する。

　例えば、予測モデル１０の出力が所定の基準を満たさない状態では、予測モデル１０による予測に倫理的な問題が存在する場合や、公平性を欠く場合がある。例えば性別や年齢によって採用率等の予測値が偏るような予測モデル１０は、倫理違反に該当する可能性がある。
　データ分析装置１００では、「予測モデル１０」と予測モデル１０を要約する「要約モデル１１」の二つの学習モデルが用意され、「要約モデル１１」を用いて「予測モデル１０」の出力に倫理的な問題があるかどうかがチェックされる。そしてチェック結果を用いて、「予測モデル１０」が調整される。従ってデータ分析装置１００を使用することで、予測モデル１０に倫理的な問題等がないかを確認し、問題があればそれを修正することが可能となる。

　これにより、予測モデル１０のアルゴリズムを理解していないユーザであっても、予測モデル１０の出力に倫理的な問題等がないかを容易に確認することが可能となる。
　また、予測モデル１０の出力の中で倫理的な問題等がある部分について、要約モデル１１を通じて予測モデル１０の出力を修正することが可能となる。
　さらに、予測モデル１０に倫理的な問題等が含まれていないかを自動的にチェックすることが可能となり、ユーザが気付かない問題点等も修正することが可能となる。
　この結果、必要な基準を満たす予測モデル１０を容易に構築することが可能となる。

　図２は、データ分析装置１００の構成例を示すブロック図である。データ分析装置１００は、表示部１２、操作部１３、通信部１４、記憶部１５、及び制御部１６を有する。

　表示部１２は、各情報を表示するディスプレイであり、例えば上記したＧＵＩ画面等を表示する。表示部１２としては、例えば液晶ディスプレイ（ＬＣＤ：Liquid Cristal Display）や有機ＥＬ（Electro-Luminescence）ディスプレイ等が用いられる。表示部１２の具体的な構成は限定されず、例えば操作部１３として機能するタッチパネル等を搭載したディスプレイ等が用いられてもよい。また表示部１２としてＨＭＤ（Head Mounted Display）が用いられてもよい。

　操作部１３は、ユーザが各種の情報を入力するための操作装置を含む。操作部１３としては、例えばマウス、キーボード、トラックパット等の情報入力が可能な装置が用いられる。この他、操作部１３の具体的な構成は限定されない。例えば操作部１３として、タッチパネル等が用いられてもよい。また操作部１３として、ユーザを撮影するカメラ等が用いられ、視線やジェスチャによる入力が可能であってもよい。

　通信部１４は、他の装置とデータ分析装置１００との通信処理を行うモジュールである。通信部１４は、例えばＷｉ－Ｆｉ等の無線ＬＡＮ（Local Area Network）モジュールや、有線ＬＡＮモジュールにより構成される。この他、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の近距離無線通信や、光通信等が可能な通信モジュールが用いられてよい。

　記憶部１５は、不揮発性の記憶デバイスであり、例えばＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等が用いられる。記憶部１５は、学習データベース１７と、ルールデータベース１８とを記憶する。また記憶部１５は、データ分析装置１００の記憶部として機能し、制御部１６が実行するプログラム等を記憶する。

　図３は、学習データベース１７の一例を示す表である。学習データベース１７は、予測モデル１０の学習（トレーニング）を行うための学習データ１が格納されたデータベースである。
　図３に示す例では、過去に採用判定を行った採用希望者に関する人事データが、学習データ１として用いられる。
　各学習データ１には、それぞれ、採用希望者のＩＤ、応募期間、年齢、性別、ランク、雇用タイプ、希望年収、転職回数、メール登録の有無、資格の有無、採用担当者、及び採用判定の結果の各項目が含まれる。
　例えば採用するか否かを判定する予測モデル１０を学習させる場合、採用判定の結果が、学習するべき対象項目となる。また、予測モデル１０の対象項目（採用判定の結果）以外の項目は、それぞれ予測モデル１０の学習に用いられるパラメータとなる。
　学習データベース１７は、このような学習データ１の集合であり、例えばＣＳＶ形式のデータとして記録される。この他、学習データ１の形式等は限定されない。

　図４は、ルールデータベース１８の一例を示す表である。ルールデータベース１８は、法令に関する情報や一般的な倫理観等の他のルール（以下、評価ルールと記載する）に関する情報が格納されたデータベースである。
　本実施形態では、法令や評価ルールは、所定の基準の一例である。またルールデータベースは、所定の基準に関するデータベースに相当する。

　図４に示すように、ルールデータベース１８には、ルール名、ルール分野、問題設定、注意する項目、比較方法、比較領域、領域の詳細(領域Ａ、領域Ｂ、・・・)等の項目が含まれる。ルールデータベース１８は、例えばＣＳＶ形式等の表データとして構成される。
　ルール名の項目には、法令や評価ルール等の名前、及びその説明等が入力される。
　ルール分野の項目には、ルールが適用される分野（例えば人事分野・販売分野・保険分野等）が入力される。
　問題設定の項目には、分類・回帰・物体認識等の予測モデル１０が解く問題のタイプが記録される。例えば、問題設定の項目に「全て」と入力されている場合、該当する法令等は、予測モデル１０のタイプに係わらず守るべきルールであることを意味する。また問題設定の項目に「分類」と入力されている場合、該当する法令等は、予測モデル１０が分類問題を解く場合に守るべきルールであることを意味する。
　注意する項目には、法令や評価ルールが規定する対象（例えば年齢、性別等）となる項目が入力される。すなわち、注意する項目は、法令が何に関する事柄を定めているかを指定する項目である。
　比較方法の項目には、注意する項目を比較する方法が入力される。例えば比較方法が「等しく」と入力されていた場合、注意する項目（性別や年齢）について等しく扱われるべきであることを意味する。この場合、性別や年齢ごとに、予測値に偏りがないかを比較することになる。
　比較領域の項目には、比較を行うべき領域が入力される。例えば、注意する項目が年齢であった場合、すべての年齢についての比較、あるいは一部の年齢についての比較を指定する情報が入力される。
　領域の詳細の項目には、注意する項目についてより細かく領域を分割して比較する場合に、領域を分割する情報が入力される。
　ルールデータベース１８は、このような法令や評価ルールの集合であり、例えばＣＳＶ形式のデータとして記録される。この他、ルールデータベース１８の形式等は限定されない。

　図２に戻り、制御部１６は、データ分析装置１００が有する各ブロックの動作を制御する。制御部１６は、例えばＣＰＵやメモリ（ＲＡＭ、ＲＯＭ）等のコンピュータに必要なハードウェア構成を有し、本実施形態に係る情報処理装置として機能する。ＣＰＵが記憶部１５に記憶されているプログラムをＲＡＭにロードして実行することにより、種々の処理が実行される。制御部１６としては、例えばＦＰＧＡ（Field Programmable Gate Array）等のＰＬＤ(Programmable Logic Device)、その他ＡＳＩＣ（Application Specific Integrated Circuit）等のデバイスが用いられてもよい。

　本実施形態では、制御部１６のＣＰＵが本実施形態に係るプログラムを実行することで、機能ブロックとして、ＵＩ生成部２０と、予測モデル学習部２１と、特性評価部２２と、要約モデル学習部２３と、説明生成部２４と、クエリ生成部２５と、調整処理部２６とが実現される。そしてこれらの機能ブロックにより、本実施形態に係る情報処理方法が実行される。なお、各機能ブロックを実現するために、ＩＣ（集積回路）等の専用のハードウェアが適宜用いられてもよい。

　ＵＩ生成部２０は、表示部１２に表示されるＵＩ画面（表示用インターフェース）を生成する。典型的には、ＵＩ生成部２０は、予測モデル１０を用いた予測分析を行う際に表示されるＵＩ画面等のＧＵＩを生成する。
　ＵＩ画面には、例えばユーザに提示するための情報や、ユーザが情報を入力するための入力欄等が表示される。ユーザはＵＩ画面を見ながら、操作部１３（キーボード等）を操作して各種の設定や値等を指定することが可能である。
　またＵＩ生成部２０は、ＵＩ画面を介してユーザが入力した情報や指定した情報を受け付ける。ＵＩ画面を介して入力される情報には、例えば、使用する学習データを指定する情報や、予測モデル１０を適用する分野（人事、販売、保業界等）、問題設定のタイプ（分類、回帰等）、注意する項目（年齢、性別等）等の情報が含まれる。予測モデル１０が生成された後に表示されるＵＩ画面には、後述するチェック項目等が表示される。このチェック項目等に対するチェック結果がＵＩ画面を介して受け付けられる。
　このようにＵＩ生成部２０は、画面入力を処理するＵＩ画面上の表示機能や、ＵＩ画面を介したデータの入出力機能を実現する。

　予測モデル学習部２１は、対象項目を予測する予測モデル１０を学習させる。予測モデル１０の学習処理は、例えばユーザが指定した対象項目を予測するように設計された学習モデルを、複数の学習データ１を用いて学習させる処理である。
　典型的には、予測モデル１０は、特徴項目（天気、曜日、性別、年齢等）と対象項目（予測したい値）とがペアとなった学習データ１を用いて学習を行う機械学習のアルゴリズム（決定木学習やニューラルネットワーク等）を用いて構成される。従って、予測モデル学習部２１は、学習データ１の予測値を教師データとして、モデルをトレーニングする教師あり学習を行うともいえる。
　対象項目、予測モデル１０に用いるアルゴリズム、使用する学習データ１等は、上記したＵＩ画面等を介して入力される。
　このように、予測モデル学習部２１は、予測モデル作成機能を実現する。本実施形態では、予測モデル学習部２１は、第１の学習部に相当する。

　本実施形態では、予測モデル１０として、対象項目に関する分類を予測値とする分類モデルが用いられる。例えば対象項目が対象者の採用の有無を示す項目である場合、対象者を採用するか否かが予測される。また例えば、対象項目が商品の購入の有無を示す項目である場合、顧客が商品を購入するか否かが予測される。この他、複数の選択肢を含む任意の分類問題を解くことが可能な予測モデル１０が用いられてよい。
　また予測モデル１０として、対象項目の値を予測値とする回帰モデルが用いられてもよい。例えば対象項目が対象者の勤続年数である場合、対象者に期待される勤続年数が予測される。また例えば対象項目がサービスの退会日である場合、顧客がサービスを退会すると想定される退会日等が予測される。
　なお、予測モデル１０に用いられる機械学習のアルゴリズム等は限定されず、例えば処理内容に応じた任意のアルゴリズムが適宜用いられてよい。アルゴリズムの種類等に係らず、本技術は適用可能である。

　予測モデル１０を初めて生成する場合や、予測モデル１０に倫理的な問題等がないと評価された場合には、予測モデル学習部２１は、学習データ１に記録された正解を当てるような予測モデル１０をトレーニングする通常の教師あり学習を実行する。
　また、予測モデル１０に倫理的な問題がある場合（例えばユーザがルール違反や倫理違反を指摘した場合等）には、予測モデル１０の学習処理が調整される。具体的には、予測モデル学習部２１は、後述する調整処理部２６により生成される調整指示に従って、学習処理に使用する学習データ１や、アルゴリズムごとに設定される学習パラメータ等を変更して、再度予測モデル１０を学習させる。
　予測モデル学習部２１には、予測モデル１０に渡す学習データ１や設定データ、調整処理部２６により生成される調整指示が入力される。また、予測モデル学習部２１からは、作成済みの予測モデル１０が出力される。

　特性評価部２２は、予測モデル１０の特性を評価する。具体的には、予測モデル１０の性能や予測の傾向等を示す評価指標を算出する。
　例えば、予測モデル１０が分類モデルである場合には、予測値の正解率や正確度等が評価指標として算出される。また予測モデル１０が回帰モデルである場合には、予測値の誤差平均、二乗誤差等が評価指標として算出される。評価指標の種類は限定されず、例えば予測モデル１０のアルゴリズムの種類に応じた評価指標が適宜算出されてもよい。
　特性評価部２２には、作成済みの予測モデル１０が入力される。また、特性評価部２２からは、各種の評価指標等が出力される。
　なお、予測モデル１０の評価指標は、例えばＵＩ画面に表示され、ユーザに提示される（図９及び図１０参照）。これにより、ユーザは予測モデル１０の性能を把握することが可能となる。

　要約モデル学習部２３は、予測モデル１０の出力をユーザが解釈可能な形式で記述されたルール群に変換する要約モデル１１を学習させる。
　図１を参照して説明したように、要約モデル１１は、ルール群として、予測モデル１０の出力を説明する少なくとも１つの出力ルールを出力する学習モデルである。
　要約モデル学習部２３には、作成済みの予測モデル１０が入力される。また要約モデル学習部２３からは、作成済みの要約モデル１１が出力される。
本実施形態では、要約モデル学習部２３は、第２の学習部に相当する。

　図５は、要約モデル１１について説明するための模式図である。ここでは、予測モデル１０として分類モデルが用いられるものとし、分類モデルの出力を要約する要約モデル１１について説明する。
　図５Ａは、予測モデル１０に入力されるデータ（学習データ１等）の真の正解の分布を示すマップである。このマップでは、分類するべき項目が、カテゴリーα（マップの下側の濃いグレーの領域）と、カテゴリーβ（マップの上側の薄いグレーの領域）とに分類される。またマップの横軸及び縦軸は、分類するべき項目に関連する第１のパラメータ及び第２のパラメータである。なお３以上のパラメータが設定されてもよい。

　一例として、対象者を採用するか否かを予測する予測モデル１０（分類モデル）が用いられる場合を例に説明する。この時、カテゴリーα及びβは、対象者を採用する場合及び採用しない場合を表すとする。また、マップの横軸（第１のパラメータ）は、対象者の年齢を表し、マップの縦軸（第２のパラメータ）は、対象者が希望する年収を表すとする。
　この場合、図５Ａに示すマップでは、例えば希望する年収が十分に高い場合には、年齢に係りなく、対象者は採用されない。また年齢が十分に高い場合には、希望する年収が比較的高くても、対象者が採用される。
　予測モデル１０は、例えばこのような真の正解が表す分布を、第１のパラメータや第２のパラメータ等に基づいて予測可能となるようにトレーニングされる。

　図５Ｂは、予測モデル１０の予測結果（出力）の分布を示すマップである。マップ上の矩形状に区切られた領域は、第１及び第２のパラメータに関する条件を用いて記述される条件領域２である。例えば第１及び第２のパラメータの範囲を指定することで、１つの条件領域２を指定することになる。
　図５Ｂに示すように、実際の予測モデル１０では、多数の条件領域２ごとに、カテゴリーα及びβに分類する予測処理が行われる。すなわち、各条件領域２は、カテゴリーα又はカテゴリーβのどちらかに分類される。従ってカテゴリーの異なる条件領域２の境界は、予測モデル１０が分類を行う際の決定境界となるともいえる。ここで、決定境界とは、予測を変化させる判断基準となる面である。例えば採用予測の場合ならば採用・不採用の分かれ目が決定境界となる。
　このように実際の予測モデル１０では、条件領域２が十分に細かいため、図５Ａに示す真の正解の分布を高精度に再現することが可能である。一方で、各パラメータに関する条件が複雑になりすぎて、どの領域のどのデータがどのカテゴリーに分類されるのかといった情報を解釈することが難しくなる。

　図５Ｃは、要約モデル１１の出力の分布を示すマップである。要約モデル１１は、予測モデルになるべく近い出力をするように学習される。この結果、要約モデル１１の出力は、予測モデル１０の条件領域２を近似した、より広い領域（データ範囲）をカバーする条件領域２となる。この近似された各条件領域２が、予測モデル１０の出力を解釈可能に説明する出力ルール４に対応する。
　例えば図５Ｃでは、カテゴリーαに分類される領域が、４つの条件領域２（出力ルール４）で表されている。これにより、例えば予測モデル１０の出力を、第１及び第２パラメータの範囲で記述された４種類の条件として記述することが可能となる。
　以下では、出力ルール４が指定する条件領域２のことを、単に出力ルールが指定する領域といった記載をする場合がある。本実施形態では、条件領域は、データ範囲に相当する。

　このような要約モデル１１を構成する方法としては、決定木やルールフィット（Rule Fit）等のアルゴリズムを用いる方法が挙げられる。すなわち要約モデル１１は、決定木、又はルールフィットの少なくとも一方のアルゴリズムを用いた学習モデルである。
　決定木やルールフィットを用いることで、複雑な予測モデル１０の出力を簡単な条件（出力ルール４）で記述することが可能となる。

　また要約モデル学習部２３は、予測モデル１０の出力を評価するための所定の基準に応じた要約モデル１１を学習させてもよい。例えば、所定の基準が年齢に関する基準を設けた法令等である場合、年齢をパラメータとして記述された出力ルール４を生成するように、要約モデル１１が構成される。この場合、例えば年齢の範囲を指定する条件と他のパラメータ（性別や希望年収等）で記述された条件とを組み合わせた出力ルール４等が生成される。
　これにより、予測モデル１０の出力が、所定の基準を満たしているか否かの判定等を容易に行うことが可能となる。
　この他、要約モデル１１の具体的な構成は限定されず、例えば予測モデル１０に用いられるアルゴリズム等に応じて、その出力を要約可能な任意のアルゴリズムが用いられてよい。

　図２に戻り、説明生成部２４は、要約モデル１１が生成した各出力ルール４（ルール群）を説明する情報を生成する。
　また、説明生成部２４は、所定の基準に従ってルール群を評価した評価情報を取得する。本実施形態では、説明生成部２４は、評価部に相当する。

　具体的には、説明生成部２４は、出力ルール４の各々に関する説明文を生成する。説明文は、ＵＩ生成部２０によりＵＩ画面に表示される。
　要約モデル１１として例えば決定木のアルゴリズム等を使用する場合、予測モデル１０の出力ルール４は複数の単純な規則の集合として記述可能となる。説明生成部２４は、このような規則の集合を表す説明文を生成する。
　例えば、出力ルール４として、性別の項目が「男性」であり、年齢の項目が「４５歳以上」であり、資格の項目が「資格保持」であるという条件を満たした場合に、対象者を採用するといった規則が生成されたとする。この場合、説明生成部２４は、「男性であり、かつ４５歳以上であり、かつ資格を持っている対象者を採用する」といった説明文を生成する。
　このような説明文が例えば出力ルール４ごとに生成される。

　また出力ルール４の各々に関する図表が生成されてもよい。例えば上記のような性別、年齢、資格等に関する条件の内容を、図３等を参照して説明したマップ上に画像として図示してもよい。これにより、直観的にわかりやすい出力ルール４の説明が可能となる。あるいは、各項目に関する条件を示す表等が生成されてもよい。これにより、例えば複数の出力ルール４の違いを容易に把握することが可能となる。
　この他、説明生成部２４は、予測モデル１０を要約した要約モデル１１で使用するアルゴリズムに応じて、様々な形式で出力ルール４を説明する情報を生成することが可能である。

　本実施形態では、説明生成部２４は、出力ルール４の各々について、所定の基準を満たしているか否かをユーザにチェックさせるチェック項目を生成する。チェック項目には、例えば、該当する出力ルール４が所定の基準を満たしているか否かをユーザが判断できるように生成された説明文等が用いられる。生成されたチェック項目は、ＵＩ生成部２０に出力され、ＵＩ画面に表示される。

　チェック項目は、例えばユーザが指定した注意するべき項目等を対象にして生成される。すなわちユーザが指定した項目が所定の基準を満たしているか否かを判断できるような説明文等を用いてチェック項目が生成される。
　またルールデータベースに基づいて各出力ルール４が所定の基準を満たしているか否かを判定した上で、チェック項目が生成されてもよい。この場合、例えば説明生成部２４が所定の基準を満たしていないと判定した出力ルール４について、ユーザに確認を求めるチェック項目が生成される。チェック項目を生成する方法については、後に詳しく説明する。

　また説明生成部２４は、チェック項目に対するユーザのチェック結果を読み込む。このチェック結果は、所定の基準に従ってルール群を評価した評価情報の一例である。
　例えば、ある出力ルール４について、ユーザが所定の基準を満たしていないと判断し、そのチェック項目５にチェックを入れたとする。この場合、チェックされた出力ルール４は、所定の基準を満たさない違反ルールとなる。従って、評価情報には、違反ルールであるとユーザが判断した出力ルール４を指定する情報が含まれる。
　この他、説明生成部２４は、評価情報として、違反ルールが満たしていない法令等を指定する情報や、違反ルールが基準から外れている度合等を示す情報を、違反ルールと関連付けて生成する。このように、評価情報には、所定の基準を満たさない出力ルール４である違反ルールに関する情報が含まれる。

　このように、説明生成部２４には、作成済みの要約モデル１１、ユーザが指定した注意すべき項目に関する情報、あるいは、ルールデータベースから取得した法令等に関する情報が入力される。また、説明生成部２４からは、ユーザに提示する出力ルール４の説明文（チェック項目）や、各出力ルールについての評価情報が出力される。

　クエリ生成部２５は、ルールデータベース１８に対して予測モデル１０を評価するために必要な法令等の情報を問い合わせるクエリを生成する。クエリは、予測モデル１０が守るべき法令等を集めるためのコマンドであるとも言える。
　例えば、ユーザがＵＩ画面を介して、予測モデル１０を適用する分野、問題設定のタイプ、注意する項目の情報に基づいて、クエリが生成される。あるいは、要約モデル１１が生成した出力ルール４等に応じて、参照するべき法令等を問い合わせるクエリが生成されてもよい。
　クエリ生成部２５には、作成済みの要約モデル１１、ユーザが指定した注意すべき項目等の情報が入力される。またクエリ生成部２５からは、法令等を問い合わせるクエリが出力される。

　例えば、採用を予測する予測モデル１０において、年齢・性別に関する法令等を調べる場合、以下のようなクエリが生成される。
　クエリ：（分野＝人事、問題設定＝分類、注意する項目＝（年齢、性別））
　もちろん、クエリの形式等は限定されない。
　このようなクエリが、ルールデータベース１８に入力されると、ルール分野の項目が「人事」であり、問題設定の項目が「分類」又は「全て」であり、注意する項目が「年齢」又は「性別」となっているルールが取得される。例えば図４では雇用機会均等法と女性活躍推進法に関する情報が取得される。
　このように、ルールデータベース１８には、法令等を問い合わせるクエリが入力される。また、ルールデータベース１８からは、クエリの指定に該当する法令等の情報が出力される。

　調整処理部２６は、評価情報に基づいて予測モデル１０の学習処理を調整する。より詳しくは、調整処理部２６は、評価情報に基づいて予測モデル１０を調整するための調整指示を生成することで、予測モデル１０の学習処理を調整する。本実施形態では、調整処理部２６は、調整部に相当する。
　予測モデル１０を調整する方法としては、例えば学習データ１や、学習パラメータを調整する方法が挙げられる。例えば学習データ１を調整する場合、対象となる学習データ１を指定する情報や、その学習データ１の扱い方法を示す情報等が調整指示として生成される。また例えば学習パラメータを調整する場合、対象となる学習パラメータを指定する情報や、その学習パラメータの調整量を示す情報等が調整指示として生成される。
　これらの調整指示は、例えば、評価情報が指定する違反ルールがなくなるように、違反の内容等に応じて設定される。
　このように、調整処理部２６には、説明生成部２４から出力された評価情報が入力される。また調整処理部２６からは、予測モデル１０を調整するための調整指示が出力される。
　なお、調整処理部２６は、例えば予測モデル学習部２１の一部として構成されてもよい。すなわち、予測モデル学習部２１が、評価情報に基づいて予測モデル１０の学習処理を調整するといった構成も可能である。

　図６は、データ分析装置１００の基本的な動作の一例を示すフローチャートである。図６に示す処理は、例えばユーザが予測モデル１０を完成させるまでに実行される処理である。
　以下では、予測モデル１０として、対象者を採用するか否かを予測する分類モデルを例に挙げて、データ分析装置１００の基本的な動作について説明する。もちろん、予測モデル１０の種類や対象等に係わらず、以下の説明は適用可能である。

　ＵＩ画面を介して入力された学習データ１及び設定項目に関する情報が読み込まれる（ステップ１０１）。
　図７は、予測モデル１０に用いる学習データ１を指定するＵＩ画面の一例である。図７に示すＵＩ画面は、例えばユーザが予測モデル１０の生成を開始する際に表示される開始画面である。
　開始画面には、作成する予測モデル１０の名称を入力するための「モデル名」の入力欄と、予測モデル１０についての説明を入力するための「説明」の入力欄が設けられる。
　また開始画面には、予測モデル１０の学習に用いられる学習データ１（学習データベース１７）を指定するための「学習データ設定」の入力欄が設けられる。ここでは、学習データ１として、ＣＳＶ形式か、ＴＳＶ形式のファイルを指定する旨が指示される。例えば、学習データ１として用いるファイルを開始画面上にドラッグする、あるいはフォルダツリーから選択することで、使用する学習データ１が指定される。
　各入力欄に必要な情報を入力した後で、決定ボタンを押すと、モデルの名称や、学習データ１が読み込まれる。

　図８は、予測モデル１０に関する各種の設定を入力するＵＩ画面の一例である。
また図８に示すＵＩ画面は、開始画面を介した入力操作の後に表示され、予測モデル１０の設定を行うための設定画面である。設定画面は、例えば開始画面を介して指定された学習データ１の項目等に基づいて生成される。
　図８に示すように、設定画面には、複数の設定欄が設けられる。
　「予測ターゲット」の設定欄では、予測モデル１０の予測対象（対象項目）を指定することが可能である。ここでは、学習データ１の「採用結果」（図３参照）の項目を対象項目とする「採用判定」が、予測ターゲットとして指定される。
　「予測タイプ」の設定欄では、予測モデル１０のタイプを指定可能である。ここでは、「二値分類」、「多値分類」、「数値予測」（回帰予測）の項目が選択可能に表示される。採用判定では、二値分類が予測モデル１０のタイプとして選択される。
　「予測モデルを使用する場面」の設定欄では、予測モデル１０が適用されるシーン等を指定可能である。ここでは、「需要予測」、「人事・採用」、「経済・金融」、「価格・販売価格」、「個人情報を含んでいる」等の項目が選択可能に表示される。採用判定では、「人事・採用」及び「個人情報を含んでいる」の項目が選択される。

　「入力項目」の設定欄では、学習データ１に含まれる項目のうち、予測モデル１０の学習に用いる項目を指定可能である。ここでは、図３に示す学習データ１の各データ項目が、選択可能に表示される。また各データ項目のデータタイプや、ユニーク数等が表示される。
　また、「入力項目」の設定欄には、「注意する項目」を指定する欄が設けられる。「注意する項目」とは、例えば法令等の規制の対象となっている項目や、倫理的に問題が生じやすいセンシティブな項目である。
　例えば「注意する項目」として指定されたデータ項目は、ルールデータベース１８に問い合わせを行うクエリを生成する場合、あるいは出力ルール４のチェック項目を生成する場合等に適宜参照される。採用判定では、「注意する項目」として、「年齢」及び「性別」の項目が選択される。
　なお、「予測モデルを使用する場面」や「注意する項目」は入力されなくてもよい。
　各設定欄に必要な情報を入力した後で、学習及び評価を実行する実行ボタンを押すと、予測モデル１０の学習処理等が開始される。

　ＵＩ画面を介したユーザの入力操作が完了すると、予測モデル１０を学習させる学習処理が実行される（ステップ１０２）。
　例えば「予測タイプ」の設定欄で指定された予測モデル１０のタイプに応じて、適切な機械学習のアルゴリズムが選択され、当該アルゴリズムを用いて学習モデルが構成される。そして「予測ターゲット」の設定欄で指定された対象項目を学習するように、ユーザが指定した学習データ１を用いた学習モデルのトレーニングが実行される。このトレーニングされた学習モデルが作成済みの予測モデル１０となる。

　本実施形態では、特性評価部２２により、作成済みの予測モデル１０の特性が評価される。この特性評価は、予測モデル１０が生成されたタイミングで行われてもよいし、後述する評価画面等を表示するタイミングで行われてもよい。
　図９は、予測モデル１０の特性を表示する評価画面の一例である。
　図９に示す評価画面には、作成済みの予測モデル１０の予測精度のレベルを示す「予測精度レベル」と、「項目の寄与度」とが表示される。
　「予測精度レベル」には、予測モデル１０の性能を示す評価指標として、例えばＲＯＣ（Receiver Operating Characteristic）曲線のＡＵＣ（Area Under the Curve）が表示される。ＡＵＣは、分類モデルの分類精度を示す指標である。
　また「項目の寄与度」には、分類に影響した項目ごとの寄与度を示す棒グラフが表示される。これにより、例えば採用するという分類に影響した項目や、採用しないという分類に影響した項目を、項目間で比較することが可能となる。

　図１０は、予測モデル１０の特性を表示する評価画面の他の例である。
　図１０には図９に示す寄与度の詳細を示す評価画面が示されている。
　この評価画面の左側には、図９と同様の棒グラフが項目ごとに表示される。この項目を選択すると、その項目の寄与度の構成が評価画面の右側に表示される。
　例えば「年齢」の項目が選択されたとする。この場合、採用するという分類（又は採用しないという分類）について、年齢の範囲ごとの寄与度が表示される。例えば図１０では、採用するという分類に対して、４５歳から５０歳までの年齢で指定される学習データ１が最も寄与度が高い。
　このように、寄与度の詳細等を分析してユーザに表示してもよい。

　図６に戻り、予測モデル１０の学習処理が完了すると、要約モデル１１を学習させる学習処理が実行される（ステップ１０３）。
　要約モデル１１は、例えば予測モデル１０による予測値を正解データとして、予測モデル１０に近い出力が得られるように学習される。
　例えば決定木やルールフィット等のアルゴリズムを用いて学習モデルが構成される。そして作成済みの予測モデル１０による予測値を正解データとして、学習モデルのトレーニングが実行される。このトレーニングされた学習モデルが作成済みの要約モデル１１となる。
　これにより、図５Ｃを参照して説明したように、予測モデル１０の複雑な出力を、ユーザが解釈可能な形式で記述されたルール群（出力ルール４）が生成される。

　要約モデル１１の学習処理が完了すると、予測モデル１０の出力に関するチェック項目５が表示される（ステップ１０４）。
　まず、要約モデル１１により生成された出力ルール４ごとに説明文が生成される。そして説明文を用いて、各出力ルール４をチェックするためのチェック項目が生成される。

　説明文を作成する方法の一例として、出力ルール４を構成するルール（条件）の集合から、ユーザが「注意する項目」に指定した項目を省いたルールが作成される。そして「注意する項目」を省いたルールがどのような出力になるのかを説明する説明文が作成される。
　例えば、「男性、かつ４５歳以上、かつ資格ありであるならば採用する」という出力ルール４が抽出されたとする。この時「注意する項目」として性別が指定されていた場合、出力ルールの説明文として、「４５歳以上かつ資格ありに該当する人で、男性はＸ％・女性はＹ％採用するべきという予測をするモデルです」といった説明文を生成する。

　これは、ユーザが注意するべき項目（性別）を対象として、出力ルール４を説明した説明文である。このような説明文を用いて、出力ルール４のチェック項目が生成される。
　このように、本実施形態では、予測モデル１０の学習データ１に含まれる複数のデータ項目のうち、ユーザが指定したデータ項目（「注意する項目」）を対象とするチェック項目が生成される。
　なお、図５Ｃを参照して説明したように、各出力ルール４は、予測モデル１０の出力の分布を分割する条件領域２に対応している。従って、このように説明文を作成することは、各条件領域２における注意するべき項目の分布（性別ごとの割合等）についての説明を出力する処理であるともいえる。
　これにより、例えば性別に注意するべき場合には、性別ごとに採用されている割合を説明した上で、このルールが法令等に違反していないかどうかといったことをユーザに確認させることが可能となる。

　図１１は、出力ルール４についてのチェック画面の一例である。
　図１１Ａは、出力ルール４に対応する条件領域２が描画されたマップの表示例である。図１１Ｂは、出力ルール４に関するチェック項目５の表示例である。図１１Ｃは、図１１Ｂに示すチェック項目５がチェックされた場合の表示例である。
　出力ルール４についてのチェック画面には、例えば図１１Ａに示すマップと、図１１Ｂに示すチェック項目５とが同時に表示される。なお、条件領域２が描画されたマップは、必ずしも表示されなくてもよい。

　図１１Ａに示すマップは、採用判定を行う予測モデル１０により出力された採用判定率を示すヒートマップである。マップの横軸は、転職回数であり、縦軸は年齢である。このマップでは、グレーが濃いほど、採用判定率が低い。
　また図１１Ａでは、予測モデル１０の出力を説明する出力ルール４（図中の条件１～３）が、条件領域２として図示されている。各出力ルール４は、転職回数の数値範囲及び年齢の数値範囲で示される条件として記述される。
　このように、各出力ルール４（条件１～３）を条件領域として図示することで、ユーザは、各出力ルール４と採用判定率との対応関係を容易に把握することが可能となる。

　図１１Ｂには、条件１～３と記載された出力ルール４についての説明文がチェック項目５として表示されている。条件１は、４５歳以上の応募者は８割がた採用すべきという条件であり、条件２は、転職回数が３回以上の３０～４５歳は採用すべきでないという条件であり、条件３は、３０歳以下は採用すべきという条件である。
　この画面では、これらの条件（出力ルール４）について、倫理的に問題があるか否かをチェックする旨の指示が記載される。
　またチェック項目５の下側には、問題がないことを確認する確認ボタン３０と、予測モデル１０の調整を開始するための調整開始ボタン３１とが設けられる。例えばチェックされた条件がない状態では、確認ボタン３０がハイライトされる。

　例えば、ユーザが、条件２で指定される対象者について過度に採用率を下げていると判断したとする。この場合、図１１Ｃに示すように、条件２のチェックボックスがチェックされ、条件２で示される出力ルール４は、所定の基準を満たしていない、すなわち倫理的に問題のあるルールとして指定される。またチェックボックスがチェックされると、調整開始ボタン３１がハイライトされる。
　調整開始ボタン３１を押すと、例えば採用判定率が均等となるように予測モデル１０を調整する処理が開始される。
　このように、ユーザが解釈可能なように出力ルール４を表示することで、予測モデル１０の出力が倫理違反している領域等を容易に確認することが可能である。
　なお、チェック画面に表示する内容等は限定されない。例えば、予測モデル１０の学習パラメータを調整するための調整値等が入力可能であってもよい。

　図１１に示す例では、各出力ルール４が所定の基準を満たしているか否かを判断する場合について説明した。説明生成部２４は、ルールデータベース１８に基づいて、出力ルール４が所定の基準を満たしているか否かを判定することも可能である。
　以下では、ルールデータベース１８にある法令等の確認を、ユーザに促す説明文（チェック項目５）を作成する方法について説明する。
　例えばクエリ生成部２５により生成されたクエリにより、予測モデル１０を評価するために必要な法令等の情報がルールデータベース１８から読み込まれたとする。この場合、説明生成部２４は、ルールデータベース１８から読み込まれた法令等のルールに関する比較方法と比較領域に従って予測モデル１０の出力（又は要約モデル１１の出力）を比較する。

　例えば、採用判定を行う予測モデル１０を評価する法令として、「雇用機会均等法」の定めるルールがルールデータベース１８から出力されたとする。また「注意する項目」として性別が設定されていたとする。
　「雇用機会均等法」の性別に関するルール（図４の表の１列目に記載されたルール）には、性別に関して、比較方法＝「等しく」、比較領域＝「全領域」とする旨が記載されている。説明生成部２４では、例えば、評価対象となる出力ルール４が指定する学習データ１について、男性及び女性ごとの採用判定率が比較される。すなわち、予測モデル１０の出力を男性の学習データ１の出力と女性の学習データ１の出力とに分けた時、男性・女性の採用すべき確率が「等しく」なっているかが確認される。

　確率が等しくない場合、対象となっている出力ルール４は、雇用機会均等法の定めるルール（基準）を満たしていないものと判定され、ユーザに確認を促す説明文が生成される。
　具体的には、「この条件では、男性はＸ％、女性はＹ％で採用しますが、[雇用機会均等法]の観点からこれは正しいですか？」といった説明文を含むチェック項目５が生成される。
　このように、説明生成部２４は、所定の基準を満たさないと判定された出力ルール４について、当該出力ルール４が所定の基準を満たしているか否かをユーザにチェックさせるチェック項目５を生成する

　図１２は、出力ルール４についてのチェック画面の他の例である。図１２には、法令や倫理的な問題の可能性を自動で検出した際のチェック画面が示されている。
　図１２Ａは、説明生成部２４により所定の基準を満たさないと判定された出力ルール４に対応する境界線６が描画されたマップの表示例である。図１２Ｂは、出力ルール４に関するチェック項目５の表示例である。図１２Ｃは、予測モデル１０の調整方法を選択するための選択画面の表示例である。
　出力ルール４についてのチェック画面には、例えば図１２Ａに示すマップと、図１２Ｂに示すチェック項目５とが同時に表示される。また図１２Ｃに示す選択画面は、ユーザが予測モデル１０の調整を選択した場合に表示される。

　例えば、採用判定を行う予測モデル１０は、人事関係の業務に利用することから、図８に示す設定画面から、「予測モデルを使用する場面」として、人事・採用の項目がチェックされる。この結果、ルールデータベース１８内の人事・採用分野の法令が確認され、予測モデル１０の出力が法令の定める基準を満たしているか否かが判定される。
　図１２に示すチェック画面は、３５歳を境にして採用判定率に不自然な分布の偏りが見られたために、ユーザに確認を促すための画面である。図１２Ａには、採用判定率が変化する境界線６が図示されている。この境界線６は、例えば出力ルール４を示す条件領域２等の境界として検出可能である。

　図１２Ｂには、この境界線６に関する説明文がチェック項目５として表示されている。この説明文には、年齢が３５歳以上かどうかで予測モデル１０の出力の結果が変化するという予測モデル１０の特性について記載される。また説明文には、この特性が、全年齢に均等に雇用機会を設けることを定めた「ＸＸＸ法」（人事・採用分野の法令）に違反していないかどうかの確認を促す説明が記載される。
　また説明文の下側には、問題がないことを確認する確認ボタン３０と、予測モデル１０の調整を開始するための調整開始ボタン３１とが設けられる。

　例えば、ユーザが、上記した予測モデル１０の特性について「ＸＸＸ法」を確認し、違反していると判断したとする。この場合、調整開始ボタン３１押すことで、採用判定率が年齢に係わらず均等となるように予測モデル１０を調整する処理が開始される。
　このように、ルールデータベース１８に基づいて、予測モデル１０の出力（出力ルール４）を判定することで、例えばユーザが気付いていない問題点等を指摘することが可能となる。

　調整開始ボタン３１を選択すると、図１２Ｃに示すような選択画面が表示される。選択画面には、採用判定率を均等に調整する方法として、３５歳以下の採用率を上げる調整方法と、３５歳以上の採用率を下げる調整方法とが選択可能に表示される。
　また調整方法の下側には、問題がないことを確認する確認ボタン３０と、予測モデル１０の調整を開始するための調整開始ボタン３１とが設けられる。

　例えば、３５歳以上の採用率を下げる調整方法が用いることで、全体の採用判定率を低く調整することが可能となる。逆に３５歳以下の採用率を上げる調整方法が用いることで、全体の採用判定率を高く調整することが可能となる。
　ユーザはいずれかの調整方法のチェックボックスをチェックして、調整開始ボタンを選択することで、選択した調整方法を用いた調整処理を開始することが可能である。
　このように、本実施形態では、予測モデル１０の出力に関する複数の調整方法が選択可能に提示される。そして、複数の調整方法のうち、ユーザにより選択された方法に基づいて予測モデル１０の学習処理が調整される。
　これにより、予測モデル１０を適用する状況等に合わせた調整を行うことが可能となる。

　図６に戻り、チェック画面を介したユーザの入力操作が完了すると、チェック項目５に対するチェック結果が読み込まれる（ステップ１０５）。そして、チェック結果に基づいて、予測モデル１０の出力に所定の基準を満たさない領域（データ範囲）、すなわち違反ルールが存在するか否かが判定される（ステップ１０６）。
　例えば図１１Ｂに示すチェック項目５（条件１～３）のいずれかがチェックされている場合や、図１２Ｂに示す調整開始ボタン３１が選択された場合には、所定の基準を満たさない領域が存在すると判定される（ステップ１０６のＹｅｓ）。
　また、例えば全てのチェック項目５がチェックされなかった場合、予測モデル１０の出力の全ての領域が法令等に違反していないとして、所定の基準を満たさない領域は存在しないと判定され（ステップ１０６のＮｏ）、予測モデル１０を作成する処理が完了する。

　所定の基準を満たさない領域が存在する場合、調整処理部２６により、その領域に対応する学習データ１が抽出される（ステップ１０７）。具体的には、ユーザが法令等に違反していると判断してチェックを入れた出力ルール４（違反ルール）に合致する学習データ１を指定する情報（学習データ１のＩＤ等）が抽出される。
　例えば、転職回数が３回以上であり、かつ年齢が３０歳～４５歳というルール（図１１Ｂに示す条件２）が違反ルールであると判断された場合には、この条件を満たす学習データ１のＩＤが読み込まれる。

　違反ルールに合致する学習データ１が抽出されると、調整処理部２６により、予測モデル１０についての調整指示が生成される（ステップ１０８）。
　まず、ルール違反している予測値（違反ルールに合致する学習データ１での予測モデル１０の出力）とルール違反していない予測値を比較して、ルール違反している予測値がどのようになればルール違反とならないかといったことを示す調整の方針が算出される。

　予測モデル１０として、分類モデルが用いられる場合、違反ルールが指定する領域における予測モデル１０の予測値が、所定の基準を満たす出力ルール４が指定する領域における予測モデル１０の予測値と略一致するように、予測モデル１０の学習処理が調整される。
　例えば、「採用する・採用しない」という分類を予測する予測モデル１０について、ルール違反している領域とルール違反していない領域のそれぞれに対して、「採用する」と予測した割合（予測値）が算出される。そしてルール違反している領域において「採用する」と予測した割合を、ルール違反していない領域において「採用する」と予測した割合に合わせるという方針が選択される。
　この時、「採用する」と予測した割合が各領域で略一致するように、予測モデル１０を調整する度合（調整量等）が算出される。

　次に、ルール違反とならないようにする方針や調整量に従って、予測モデル１０についての調整指示が生成される。具体的には、予測モデル１０の学習処理を調整する調整方法に応じた調整指示が適宜生成される。予測モデル１０（分類モデル）についての調整方法としては、複数の方法が挙げられる。

　予測モデル１０についての調整方法として、学習データ１の重み係数を調整する方法が用いられてもよい。
　例えば「採用しない」という予測をする割合が高い違反ルールについて、違反ルールが指定する領域に含まれる学習データ１の重み係数を大きくする。
　これにより、違反ルールが指定する領域において、「採用する」という予測が得られる割合が高くなり、結果的に違反ルール以外の出力ルール４が指定する領域と予測値を略一致させることが可能となる。このような重み係数が調整指示として生成される。
　本実施形態では、重み係数は、学習データに関する予測モデルの出力を調整するパラメータの一例である。

　また例えば、予測モデル１０についての調整方法として、予測を判定する際の判定閾値を調整する方法が用いられてもよい。
　例えば「採用する」という予測をする割合が高い違反ルールについて、違反ルールが指定する領域に含まれる学習データ１の各々に対して「採用する」確率を算出し、「採用する」と判定する判定閾値を他の領域よりも高くする。例えば、違反ルール以外の出力ルール４が指定する領域では、予測モデル１０が「５０％の確率で採用すべき」と出力した場合に「採用する」と判定する。これに対し、違反ルールが指定する領域では、判定閾値を高く設定し、「８０％以上の確率で採用すべき」と出力した時のみ「採用する」と判定する。
　これにより、違反ルールが「採用する」という予測をする割合を低くすることが可能となり、結果的に他の出力ルール４が「採用する」という予測をする割合に近づけることが可能となる。このような判定係数が調整指示として生成される。
　本実施形態では、判定閾値は、学習データに関する予測モデルの出力を調整するパラメータの一例である。

　また例えば、予測モデル１０についての調整方法として、学習データ１を間引きする方法が用いられてもよい。
　例えば「採用する」という予測をする割合が高い違反ルールについて、違反ルールが指定する領域において「採用する」というラベルが付いた学習データ１を間引きし、データ数が減らされた学習データ１を用いて学習処理が行われる。従って、この調整方法は、違反ルールが指定する領域に含まれる学習データ１のうち違反ルールが所定の基準を満たさない原因となる学習データの数を削減する処理であると言える。
　これにより、違反ルールが「採用する」という予測をする割合を低くすることが可能となり、結果的に他の出力ルール４が「採用する」という予測をする割合に近づけることが可能となる。この場合、間引きされる学習データ１のＩＤ等が調整指示として生成される。

　このように、本実施形態では、違反ルールが指定する領域（データ範囲）を基準として、予測モデル１０の学習データ１、又は予測モデル１０の学習パラメータの少なくとも一方が調整される。これにより、倫理違反等を生じている予測モデル１０の出力を適正に調整することが可能となる。

　調整指示が生成されると、ステップ１０１が再度実行され、予測モデル学習部２１により、ルール違反している予測を減らすように予測モデル１０を作成しなおす学習処理が改めて開始される。このような処理を繰り返すことで、最終的に法令等に違反しない予測モデル１０を構築することが可能となる。

　［回帰モデルの調整方法］
　図１３は、回帰モデルが用いられる場合に表示されるチェック画面の一例である。ここでは、予測モデル１０として、対象項目の項目値を予測する回帰モデルが用いられる場合の処理について説明する。
　回帰モデルを要約した要約モデル１１は、例えば予測モデル１０の出力である予測値のマップを複数の領域（データ範囲）に分割するような出力ルール４を生成する。データ分析装置１００では、これの出力ルール４が指定する領域ごとに、予測値の分布等が法令等を満たしているか否かが評価される。

　図１３には、対象者に期待される勤続年数の予測を行う予測モデル１０についてのチェック画面が図示されている。図中の上側に示したグラフは、性別ごとに予測された勤続年数のヒストグラムである。グラフの横軸は、予測された勤続年数であり、縦軸は各勤続年数が予測された人数である。このヒストグラムでは、男性の勤続年数の分布の中心が、女性の勤続年数の分布の中心よりも高い値となっている。
　図中の下側に示した説明文は、勤続年数の予測値の分布に関する確認を促すチェック項目である。

　勤続年数の予測を行う場合、例えば予測モデル１０の出力が、男性の学習データ１の出力と女性の学習データ１の出力とに分けて算出される。そして男性・女性の予測勤続年数が「等しく」なるかが確認される。
　勤続年数は数値で表現されるので確率で記述することができない。この場合、図１３に示すように、男性と女性の予測勤続年数の分布（ヒストグラム）を算出し、分布を比較するためのパラメータ（例えばHistogram Intersection、ＫＬダイバージェンス、ＪＳダイバージェンス等）を用いて各分布が比較される。
　例えば男性と女性の分布の違いが一定の閾値を超えている場合、そのような分布が算出される領域（出力ルール４）は倫理的に問題がある違反ルールである可能性が高い。このため、データ分析装置１００では、「男性と女性の予測値の出力に乖離があるが問題ないですか？」といったチェック項目５が出力される。
　なお、違反ルール以外の出力ルール４が指定する領域、すなわち違反していない領域では、例えば男性と女性の分布が略一致した予測結果が得られる。

　図１３に示す例では、「性別」について出力の分布が異なり、「雇用機会均等法」に違反していないかの確認を促す説明文（チェック項目５）が表示される。
　ユーザが分布の違いに問題があると判断した場合、調整開始ボタン３１を選択することで、予測モデル１０についての調整が開始される。

　予測モデル１０として、回帰モデルが用いられる場合、違反ルールが指定する領域における予測モデル１０の予測値の分布が、所定の基準を満たす出力ルール４が指定する領域における予測モデル１０の予測値の分布と略一致するように、予測モデル１０の学習処理が調整される。
　例えば、「勤続年数」を予測する予測モデル１０について、ルール違反している領域とルール違反していない領域のそれぞれに対して、予測した「勤続年数」の分布の形が等しくなるような調整が行われる。例えば、ルール違反している領域と、ルール違反していない領域との間の勤続年数に関するＫＬダイバージェンス（カルバックライブラー距離）等の比較パラメータが算出される。この比較パラメータが小さくなるように、予測モデル１０を調整する度合（調整量等）が算出される。

　次に、算出された調整量に従って、予測モデル１０についての調整指示が生成される。具体的には、予測モデル１０の学習処理を調整する調整方法に応じた調整指示が適宜生成される。予測モデル１０（回帰モデル）についての調整方法としては、複数の方法が挙げられる。

　予測モデル１０についての調整方法として、予測モデル１０の損失関数を調整するパラメータを調整する方法が用いられてもよい。
　一般に予測モデル１０は、損失関数の値が小さくなるように学習を行う。従って、例えば違反ルールが指定する領域について、ルールに違反するような予測値を予測した場合に損失関数が大きくなるといったペナルティを設定することで、結果的に、ルールに違反するような予測値が予測される割合を下げることが可能である。
　例えば、勤続年数を過度に長く予測する違反ルールについて、その領域のみ予測モデル１０の訓練に用いる損失関数に分位点回帰を設定し、損失関数をシフトさせる。この時、ルール違反する領域で勤続年数を長く予測したときのペナルティを大きくすることで、ルール違反する領域での予測をルール違反していない領域に近づけることが可能である。このような損失関数を調整するパラメータが調整指示として生成される。

　また例えば、予測モデル１０についての調整方法として、学習データ１を間引きする方法が用いられてもよい。具体的には、違反ルールが指定する領域に含まれる学習データ１のうち違反ルールが所定の基準を満たさない原因となる学習データ１が間引かれる。
　例えば勤続年数を長く予測をする割合が高い違反ルールについて、違反ルールが指定する領域において勤続年数が長い順に学習データ１を間引きし、データ数が減らされた学習データ１を用いて学習処理が行われる。この場合、間引きされる学習データ１のＩＤ等が調整指示として生成される。
　これにより、違反ルールが指定する領域において、勤続年数を過度に長く予測する割合を低下させることが可能となる。

　また例えば、予測モデル１０についての調整方法として、本来存在しないダミーの学習データ１（ダミーデータ）を追加する方法が用いられてもよい。
　例えば男性の勤続年数の予測が過度に長い違反ルールについて、男性の勤続年数が短いデータを生成して予測モデル１０の訓練に用いる。従って、この調整方法は、違反ルールが指定する領域に所定の基準を満たすように調整されたダミーデータを学習データ１として追加する処理であると言える。
　これにより、違反ルールにおいて予測される勤続年数が短くなり、結果的に他の出力ルール４において予測される勤続年数の分布に近づけることが可能となる。この場合、ダミーデータの情報とともに、ダミーデータを学習データ１に追加する旨の指示が調整指示として生成される。

　このように、予測モデル１０として回帰モデルが用いられる場合であっても、倫理違反や公平性に問題があると判定された出力について、容易に調整し、問題を解消することが可能である。
　なお、上記した分類モデルにおける調整方法が、回帰モデルにおける調整方法に適用されてもよいし、逆に回帰モデルにおける調整方法が、分類モデルにおける調整方法に適用されてもよい。また各調整方法は単体で用いられてもよいし、複数を組み合わせて用いられてもよい。また、各調整に用いられるパラメータ（重み係数等）は、違反内容等に応じて算出されてもよいし、あるいはユーザが入力してもよい。この他、予測モデル１０についての調整方法は限定されず、例えば違反内容を解消可能な任意の調整方法が用いられてよい。

　以下では、データ分析装置１００の適用例ごとに、予測モデル１０が構築されるまでの流れについて具体的に説明する。

　［適用例１］
　人事担当者（ユーザ）が、「性別」、「年齢」、「取得している資格」、「転職回数」から採用・不採用を予測する予測モデル１０を作成する事例。
　まず、開始画面及び設定画面等が表示され、使用する学習データ１や対象項目等がユーザによって指定される。
　指定された学習データ１等に基づいて学習モデル（例えばニューラルネットワーク）が訓練され予測モデル１０が作成される。
　予測モデル１０を要約するためのアルゴリズム（例えば複数のルールを組み合わせたモデルを作成するルールフィット等）を用いて要約モデル１１が作成され、予測モデル１０の出力が複数の出力ルール４の組み合わせとして要約される。

　ここで、要約モデル１１から、「年齢が５０歳～６０歳ならば採用するべき」という出力ルール４が作成されたとする。このとき、注意する項目として設定された性別について、性別ごとに採用すると予測した割合が算出される。
　例えば、上記の出力ルール４において、男性を採用する割合が女性を採用する割合に比べ高かった場合、「年齢が５０歳～６０歳の場合、男性を過剰に多く採用しているが問題ないか？」といった説明文とともにチェック項目５が生成され、チェック画面に表示される。
　なお、単純に男性及び女性の「採用する」割合を説明する説明文が用いられてもよい。

　ユーザが上記のチェック項目５を見て、出力ルール４が倫理的に違反していると判断した場合、チェック項目５がチェックされ、出力ルール４は違反ルールとなる。
　予測モデル１０の調整処理では、違反ルールに該当する学習データ１（年齢が５０歳～６０歳で、男性に該当するデータ）についての重み付け（重み係数）が軽く設定され、再度予測モデル１０の学習処理が実行される。これにより、年齢が５０歳～６０歳の男性が「採用する」と判定される割合を低くすることが可能となる。

　予測モデル１０の再学習が完了すると、要約モデル１１を用いて再訓練した予測モデル１０を近似する複数の出力ルール４が生成され、各出力ルール４が説明文とともにチェック項目５として表示される。
　全ての出力ルール４について倫理的な問題が無いことがユーザに確認された場合、その時点で最新の予測モデル１０が、今後の予測に用いるモデルとして決定される。

　［適用例２］
　人事担当者（ユーザ）が、「性別」、「年齢」、「取得している資格」、「転職回数」から採用・不採用を予測する予測モデル１０を作成し、法令等に違反していないかを確認する事例。
　まず、適用例１と同様に、予測モデル１０及び要約モデル１１が生成される。
　要約モデル１１から、「年齢が７５歳～９０歳の場合、かつ取得している資格に自動車免許が含まれる場合には採用するべきでない」という出力ルール４が作成されたとする。また、ユーザは、この出力ルール４について、倫理的な問題は存在しないと判断したとする。
　この場合、この出力ルール４は、違反ルールではない出力ルール４として読み込まれる。

　この時、データ分析装置１００では、以下のようなクエリを生成し、ルールデータベース１８に問い合わせを行う。
　クエリ：（分野＝人事、問題設定＝分類、注意する項目＝年齢）
　この結果、問い合わせの条件に該当するルールとして、条件Ａが参照され、条件Ａには（比較方法の項目＝等しく、比較領域＝全領域）と指定されていたとする。これは、予測モデル１０が扱う分野が、年齢にかかわらず等しく扱うべき分野であることを意味する。
　この場合、データベースに基づけが、６５歳以上のデータは等しく扱うべきであるのに、７５歳～９０歳にのみ異なる分布が存在するのは不自然であるとして、出力ルール４が条例Ａに違反している可能性がある旨をユーザに通知される。例えば「７５歳～９０歳の領域は、条例Ａに違反していないか？」といった確認を促すチェック項目５等が生成される。

　このように、データ分析装置１００では、倫理的な問題や公平性を欠く出力等を自動的に判定して、ユーザに注意を促すことが可能である。これにより、ユーザが見落としていたルール違反等を確実に確認することが可能となり、信頼性の高い予測モデル１０を容易に構築することが可能となる。

　［適用例３］
　スポーツの試合の観戦チケットのダイナミックプライシングを行う時に、チケットの価格を決定する予測モデル１０を作成する事例。
　ここでは、価格が変動する観戦チケットの適正な販売価格をリアルタイムに予測する回帰問題扱う予測モデル１０（回帰モデル）を調整する方法について説明する。
　まず、使用する学習データ１や対象項目（販売価格）等がユーザによって指定される。学習データ１は、例えば、チケットを購入する顧客の性別、年齢等の個人データ、及び、顧客が過去に購入したチケットの履歴、今から購入しようとしているチケットの試合の時間、対戦チーム等のチケットに関するデータである。
　このような学習データ１から、顧客がどのくらいの価格であればチケットを買ってくれるかを予測する、すなわち顧客が購入すると期待される価格を予測する予測モデル１０を作成する。

　例えば、「注意する項目」として対戦チームが指定して、予測モデル１０の作成が開始され、適用例１と同様に、予測モデル１０及び要約モデル１１が生成される。
　「注意する項目」として対戦チームを指定することで、対戦チームによるチケットの価格差、すなわち対戦チームに応じたチケットの価格の変動等を抑制するような調整が可能となる。
　要約モデル１１から、例えば「午後１８時以降のチケットは、チケット価格（円）＝５０００－（試合会場の収容人数）＋（個人データをもとにした補正）」という出力ルール４が得られたとする。

　上記したように、「注意する項目」としてチーム名が指定されているため、ここでは、チームＡとチームＢの「午後１８時以降のチケット」についての分布が比較される。具体的には、チームごとに価格のヒストグラムが作成され、ＫＬダイバージェンス等を用いて各分布間の距離が比較される。
　その結果、対戦チームがチームＡである場合とチームＢである場合とでは、予測したチケットの販売価格の分布に大きな差があることが判明したとする。この場合、チームＡ及びチームＢの間で販売価格が変動する旨のアラート（チェック項目５等）を出力する。
　アラートが表示されると、ユーザによりチームごとのチケット価格の分布が確認される。例えばユーザがチケット価格の分布が公平性を欠いていると判断した場合には、分布の偏りを修正する調整開始ボタン３１が選択される。

　例えば、チームＢが対戦チームである場合に過度に価格が高く予測されていたとする。この場合、午後１８時以降のチケットにおいて、チームＢのチケット価格に高すぎる予測をした場合は、損失が大きくなるように予測モデル１０の訓練に用いる損失関数が調整される。
　調整された損失関数を使って、再度予測モデル１０が作成される。新たに作成された予測モデル１０の出力の分布が表示され、問題がないことが確認された場合には、予測モデル１０の作成が完了する。
　このように、回帰問題を解くような予測モデル１０では、予測値が過度に大きくなる（あるいは小さくなる）ルールを、ユーザにチェックさせることが可能となる。これにより公平な価格予測を行う予測モデル１０を容易に構築することが可能となる。

　以上、本実施形態に係る制御部１６では、所定の学習モデル（予測モデル１０及び認証モデル）とその出力を変換する要約モデル１１との学習処理が行われる。要約モデル１１は、予測モデル１０の出力をユーザが解釈可能な形式で記述されたルール群に変換する。このルール群を所定の基準に従って評価した評価情報を用いて、学習モデルの学習処理が調整される。これにより、必要な基準を満たす学習モデルを容易に構築することが可能となる。

　近年、予測分析において、過去のデータの偏りやデータの取り方が原因で倫理的に問題がある出力をする予測モデルが問題になってきている。例えば、採用時に何年勤続してもらえるかを予測するモデルを使用するとする。この場合、過去に男性社員が多かったために、男性だけが過剰に長い勤続年数を予測してしまうといったことがあり得る。予測モデルの作成者はこのような問題に気付かない場合も考えられる。また作成者が問題に気付いたとしても、その問題を解決することが難しい場合が多い。

　図１４は、比較例として挙げる予測モデルの出力のマップである。マップの横軸は、転職回数であり、縦軸は年齢である。またマップのグレーの領域は、予測モデルが「採用する」と予測した領域であり、白色の領域は、予測モデルが「採用しない」と予測した領域である。各データ点は、個々の学習データに対応する。図１４に示すように、予測モデルの出力（採用、不採用の分布）は複雑になっている。
　このため、例えば特定の条件時に倫理違反等をするケースが無いかを確認することは難しく、また予測モデルによっては（例えばニューラルネット等）専門家であっても細かいケースを確認することが難しくなる場合が考えられる。
　またモデルの作成者が専門家でない場合等には、予測モデルのパラメータを調整する手法等がわからず、問題が修正されるように予測モデルを調整することが難しい。
　さらに、違反してはいけないルール（守るべき法令等）を事前にすべて用意する必要があり、違反のチェックに時間がかかることや、見落としが発生する可能性があった。

　本実施形態では、予測モデル１０を人間が理解できる決定木やルールの集合に置き換えるための要約モデル１１が用いられる。これにより、例えば「ＡかつＢならば、男性に偏りが見られる」といったユーザが解釈可能な出力ルール４の説明を表示することが可能となる。
　これにより、ユーザは予測モデルの出力を容易に理解することが可能となる。この結果、例えば、予測モデル１０のアルゴリズムを理解していないユーザであっても予測モデルの出力に問題がないかを確認することが可能となる。

　また出力ルール４の説明文は、ルール・倫理に違反しているか否かをユーザにチェックしてもらうチェック項目として表示される。このチェック項目５にチェックされた内容に基づいて予測モデル１０の調整が行われる。
　例えば、ユーザが問題ありと指摘した出力ルール４（違反ルール）と、問題がないとした出力ルール４に合致するデータが比較される。そして比較結果に応じて、違反ルールに合致するデータについて、他の出力ルール４の予測等に近づけるように自動的に調整が行われる。あるいは、各データを用いる際の学習パラメータが適宜調整される。
　このように本実施形態では、予測モデル１０の出力の中で倫理的に問題がある領域等について、要約モデル１１を通じて出力の修正を容易に実現することが可能である。

　また本実施形態では、予め、予測モデル１０の利用場面ごとに守るべき法律やルールの集合がルールデータベース１８として記憶される。そして、予測モデル１０及び要約モデル１１の決定境界の位置をルールデータベース１８に問い合わせるクエリが生成され、必要な基準（ルール）が適宜読み込まれる。これにより、倫理的に問題がないかを自動的にチェックすることが可能となる。この結果、違反のチェックにかかる時間が短縮されるとともに、ユーザによる見落としの発生等を十分に回避することが可能となる。これにより、必要な基準を満たす学習モデルを容易に構築することが可能となる。

　＜その他の実施形態＞
　本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。

　上記の実施形態では、主に予測モデルを調整する方法について説明した。本技術は、予測モデルに限定されず、任意の学習モデルに対して適用することが可能である。
　以下、適用例として、カメラを用いた認証システムの誤り率を補正する事例について説明する。ここでは、カメラを用いて生成された画像データを学習データとしてトレーニングされた認証モデルを例に挙げる。認証モデルは、所定の学習モデルの一例である。
　なお認証モデルでは、ＣＳＶのような表形式の学習データに替えて、画僧データが学習データとして用いられる。

　会社のゲートに設置されたカメラを用いて、人物認証等を行う認証モデルを生成する場合を想定する。以下では、会社の制服を着ている人物のみを認証する認証モデルを作成するものとする。
　まず、認証する人物のデータとして、会社の制服を着用した様々な人物の画像データを用意し、認証しない人のデータとして、私服を着用した様々な人物の画像データを用意する。これらの画像データを学習データとして、認証モデルを学習させる。

　認証モデルを要約する要約モデルとして、例えばＢｏＦ（Bag Of Features）を用いたランダムフォレストのモデルが挙げられる。ここでＢｏＦとは、画像に含まれる要素の断片を特徴量としてモデルを作成する手法である。複数の画像から抽出された特徴量をクラスタリングすることで、ＶＷ（Visual Words）と呼ばれる指標が生成される。例えば対象の画像から抽出された特徴量とＶＷとのマッチングを図ることで、人物認証等が可能となる。
　またランダムフォレストは、例えば決定木のアルゴリズムをランダムに組み合わせた学習モデルである。
　要約モデルとしては、ＢｏＦで作成したＶＷが画像内部に存在するかどうかを０又は１ベクトルで表現したものを生成し、それをランダムフォレストに入力することで、制服を着ているか来ていないかを分類させるモデルを作成する。この場合、各ＶＷを含むか含まないかという条件の集合として、認証モデルを要約することが可能である。

　図１５は、認証モデルが用いられる場合に表示されるチェック画面の一例である。
　上記した要約モデルを用いることで、認証における各特長の重要度（寄与度）を算出することが可能である。これにより、予測をする際に重要であったＶＷを検出可能である。
　図１５には、予測に寄与した画像特徴８（ＶＷ）ごとに、その画像特徴８が含まれる画像データにおける認証の正解率を示すチェック項目５（条件１及び２）が表示される。これらのチェック項目５は、認証モデルの出力を説明する出力ルールの一例である。
　例えば、条件１では、しわが少ない衣服の画像特徴８が含まれる画像において、９０％が制服を着ており、認証の正解率が９０％であったことが説明されている。また条件２では、しわが多い衣服の画像特徴８が含まれる画像において、８０％が制服を着ており、認証の正解率が４０％であったことが説明されている。
　ここから、「しわが多い制服」をもとに作成した画像特徴８が存在すると、認証する確率が低くなることが分かる。

　この場合、複数の学習データの中から、ＢｏＦを用いて作成した画像特徴の中に「しわが多い制服」に近い特徴が存在する学習データが抽出される。そして認証モデルの調整として、抽出された学習データを用いて学習を行う場合にのみ、パラメータ更新の幅を大きくする、すなわち他の学習データよりも慎重に分類を行うといった調整が行われる。
　調整された認証モデルとその要約モデルの作成後、要約結果等を説明する説明文が表示される。ここで、しわが多い制服を着用した人に対する分類精度が改善したとユーザが判断した場合、認証モデルの作成が完了する。
　これにより、検出精度の高い認証モデルを容易に構築することが可能となる。

　上記の実施形態では、主に、チェック項目に対するユーザのチェック結果を評価情報として、予測モデルの学習処理が調整された。これに限定されず、例えば説明生成部が自動的に生成した評価情報を用いて、予測モデルの学習処理が調整されてもよい。
　具体的には、説明生成部により、評価情報として、所定の基準を満たさないと判定された出力ルールに関する情報が生成されてもよい。この場合、例えばルールデータベースを参照して、法令等に違反していると判定された出力ルールを違反ルールとして、自動的に予測モデルの調整が行われる。これにより、法令等に違反しない予測モデルを自動的に構築することが可能となる。

　上記では、本技術に係る情報処理装置の一実施形態として、単体の制御部１６を例に挙げた。しかしながら、制御部１６とは別に構成され、有線又は無線を介して制御部１６に接続される任意のコンピュータにより、本技術に係る情報処理装置が実現されてもよい。例えばクラウドサーバにより、本技術に係る情報処理方法が実行されてもよい。あるいは制御部１６と他のコンピュータとが連動して、本技術に係る情報処理方法が実行されてもよい。

　すなわち本技術に係る情報処理方法、及びプログラムは、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。なお本開示において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれもシステムである。

　コンピュータシステムによる本技術に係る情報処理方法、及びプログラムの実行は、例えば所定の学習モデルを学習させる処理、及び要約モデルを学習させる処理、評価情報の取得、及び学習モデルの学習処理の調整等が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部または全部を他のコンピュータに実行させその結果を取得することを含む。

　すなわち本技術に係る情報処理方法及びプログラムは、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。

　以上説明した本技術に係る特徴部分のうち、少なくとも２つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。

　本開示において、「同じ」「等しい」「直交」等は、「実質的に同じ」「実質的に等しい」「実質的に直交」等を含む概念とする。例えば「完全に同じ」「完全に等しい」「完全に直交」等を基準とした所定の範囲（例えば±１０％の範囲）に含まれる状態も含まれる。

　なお、本技術は以下のような構成も採ることができる。
（１）所定の学習モデルを学習させる第１の学習部と、
　前記所定の学習モデルの出力をユーザが解釈可能な形式で記述されたルール群に変換する変換モデルを学習させる第２の学習部と、
　所定の基準に従って前記ルール群を評価した評価情報を取得する評価部と、
　前記評価情報に基づいて前記所定の学習モデルの学習処理を調整する調整部と
　を具備する情報処理装置。
（２）（１）に記載の情報処理装置であって、
　前記所定の基準は、法令の定める基準、又は前記ユーザの定める基準の少なくとも一方を含む
　情報処理装置。
（３）（１）又は（２）に記載の情報処理装置であって、
　前記学習モデルは、対象項目を予測する予測モデルである
　情報処理装置。
（４）（３）に記載の情報処理装置であって、
　前記ルール群は、前記予測モデルの出力を説明する少なくとも１つの出力ルールを含み、
　前記評価部は、前記出力ルールの各々に関する説明文又は図表の少なくとも一方を生成する
　情報処理装置。
（５）（４）に記載の情報処理装置であって、
　前記評価部は、前記出力ルールの各々について、前記所定の基準を満たしているか否かを前記ユーザにチェックさせるチェック項目を生成する
　情報処理装置。
（６）（５）に記載の情報処理装置であって、
　前記評価部は、前記評価情報として、前記チェック項目に対する前記ユーザのチェック結果を読み込む
　情報処理装置。
（７）（４）又は（５）に記載の情報処理装置であって、
　前記評価部は、前記予測モデルの学習データに含まれる複数のデータ項目のうち、前記ユーザが指定したデータ項目を対象とする前記チェック項目を生成する
　情報処理装置。
（８）（４）から（７）のうちいずれか１つに記載の情報処理装置であって、
　前記所定の基準に関するデータベースが記憶された記憶部を具備し、
　前記評価部は、前記データベースに基づいて、前記出力ルールが前記所定の基準を満たしているか否かを判定する
　情報処理装置。
（９）（８）に記載の情報処理装置であって、
　前記評価部は、前記所定の基準を満たさないと判定された前記出力ルールについて、当該出力ルールが前記所定の基準を満たしているか否かを前記ユーザにチェックさせるチェック項目を生成する
　情報処理装置。
（１０）（８）又は（９）に記載の情報処理装置であって、
　前記評価部は、前記評価情報として、前記所定の基準を満たさないと判定された前記出力ルールに関する情報を生成する
　情報処理装置。
（１１）（４）から（１０）のうちいずれか１つに記載の情報処理装置であって、
　前記評価情報は、前記所定の基準を満たさない前記出力ルールである違反ルールに関する情報を含み、
　前記調整部は、前記違反ルールが指定するデータ範囲を基準として、前記予測モデルの学習データ、又は前記予測モデルの学習パラメータの少なくとも一方を調整する
　情報処理装置。
（１２）（１１）に記載の情報処理装置であって、
　前記調整部は、前記違反ルールが指定するデータ範囲に含まれる前記学習データのうち前記違反ルールが前記所定の基準を満たさない原因となる前記学習データの数を削減する処理、又は、前記違反ルールが指定するデータ範囲に前記所定の基準を満たすように調整されたダミーデータを前記学習データとして追加する処理の少なくとも一方を行う
　情報処理装置。
（１３）（１１）又は（１２）に記載の情報処理装置であって、
　前記学習パラメータは、前記学習データに関する前記予測モデルの出力を調整するパラメータ、又は前記予測モデルの損失関数を調整するパラメータの少なくとも一方を含む
　情報処理装置。
（１４）（１１）から（１３）のうちいずれか１つに記載の情報処理装置であって、
　前記予測モデルは、前記対象項目に関する分類を予測値とする分類モデルであり、
　前記調整部は、前記違反ルールが指定するデータ範囲における前記予測モデルの予測値が、前記所定の基準を満たす前記出力ルールが指定するデータ範囲における前記予測モデルの予測値と略一致するように、前記予測モデルの学習処理を調整する
　情報処理装置。
（１５）（１１）から（１３）のうちいずれか１つに記載の情報処理装置であって、
　前記予測モデルは、前記対象項目の値を予測値とする回帰モデルであり、
　前記調整部は、前記違反ルールが指定するデータ範囲における前記予測モデルの予測値の分布が、前記所定の基準を満たす前記出力ルールが指定するデータ範囲における前記予測モデルの予測値の分布と略一致するように、前記予測モデルの学習処理を調整する
　情報処理装置。
（１６）（３）から（１５）のうちいずれか１つに記載の情報処理装置であって、
　前記評価部は、前記予測モデルの出力に関する複数の調整方法を選択可能に提示し、
　前記調整部は、前記複数の調整方法のうち、前記ユーザにより選択された方法に基づいて前記予測モデルの学習処理を調整する
　情報処理装置。
（１７）（１）から（１６）のうちいずれか１つに記載の情報処理装置であって、
　前記第２の学習部は、前記所定の基準に応じた前記変換モデルを学習させる
　情報処理装置。
（１８）（１）から（１７）のうちいずれか１つに記載の情報処理装置であって、
　前記変換モデルは、決定木、又はルールフィットの少なくとも一方のアルゴリズムを用いた学習モデルである
　情報処理装置。
（１９）所定の学習モデルを学習させ、
　前記所定の学習モデルの出力をユーザが解釈可能な形式で記述されたルール群に変換する変換モデルを学習させ、
　所定の基準に従って前記ルール群を評価した評価情報を取得し、
　前記評価情報に基づいて前記所定の学習モデルの学習処理を調整する
　ことをコンピュータシステムが実行する情報処理方法。
（２０）所定の学習モデルを学習させるステップと、
　前記所定の学習モデルの出力をユーザが解釈可能な形式で記述されたルール群に変換する変換モデルを学習させるステップと、
　所定の基準に従って前記ルール群を評価した評価情報を取得するステップと、
　前記評価情報に基づいて前記所定の学習モデルの学習処理を調整するステップと
　をコンピュータシステムに実行させるプログラム。

　１…学習データ
　２…条件領域
　４…出力ルール
　５…チェック項目
　１０…予測モデル
　１１…要約モデル
　１５…記憶部
　１６…制御部
　１７…学習データベース
　１８…ルールデータベース
　２０…ＵＩ生成部
　２１…予測モデル学習部
　２２…特性評価部
　２３…要約モデル学習部
　２４…説明生成部
　２５…クエリ生成部
　２６…調整処理部
　１００…データ分析装置

Claims

　所定の学習モデルを学習させる第１の学習部と、
　前記所定の学習モデルの出力をユーザが解釈可能な形式で記述されたルール群に変換する変換モデルを学習させる第２の学習部と、
　所定の基準に従って前記ルール群を評価した評価情報を取得する評価部と、
　前記評価情報に基づいて前記所定の学習モデルの学習処理を調整する調整部と
　を具備する情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記所定の基準は、法令の定める基準、又は前記ユーザの定める基準の少なくとも一方を含む
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記学習モデルは、対象項目を予測する予測モデルである
　情報処理装置。
　請求項３に記載の情報処理装置であって、
　前記ルール群は、前記予測モデルの出力を説明する少なくとも１つの出力ルールを含み、
　前記評価部は、前記出力ルールの各々に関する説明文又は図表の少なくとも一方を生成する
　情報処理装置。
　請求項４に記載の情報処理装置であって、
　前記評価部は、前記出力ルールの各々について、前記所定の基準を満たしているか否かを前記ユーザにチェックさせるチェック項目を生成する
　情報処理装置。
　請求項５に記載の情報処理装置であって、
　前記評価部は、前記評価情報として、前記チェック項目に対する前記ユーザのチェック結果を読み込む
　情報処理装置。
　請求項４に記載の情報処理装置であって、
　前記評価部は、前記予測モデルの学習データに含まれる複数のデータ項目のうち、前記ユーザが指定したデータ項目を対象とする前記チェック項目を生成する
　情報処理装置。
　請求項４に記載の情報処理装置であって、さらに、
　前記所定の基準に関するデータベースが記憶された記憶部を具備し、
　前記評価部は、前記データベースに基づいて、前記出力ルールが前記所定の基準を満たしているか否かを判定する
　情報処理装置。
　請求項８に記載の情報処理装置であって、
　前記評価部は、前記所定の基準を満たさないと判定された前記出力ルールについて、当該出力ルールが前記所定の基準を満たしているか否かを前記ユーザにチェックさせるチェック項目を生成する
　情報処理装置。
　請求項８に記載の情報処理装置であって、
　前記評価部は、前記評価情報として、前記所定の基準を満たさないと判定された前記出力ルールに関する情報を生成する
　情報処理装置。
　請求項４に記載の情報処理装置であって、
　前記評価情報は、前記所定の基準を満たさない前記出力ルールである違反ルールに関する情報を含み、
　前記調整部は、前記違反ルールが指定するデータ範囲を基準として、前記予測モデルの学習データ、又は前記予測モデルの学習パラメータの少なくとも一方を調整する
　情報処理装置。
　請求項１１に記載の情報処理装置であって、
　前記調整部は、前記違反ルールが指定するデータ範囲に含まれる前記学習データのうち前記違反ルールが前記所定の基準を満たさない原因となる前記学習データの数を削減する処理、又は、前記違反ルールが指定するデータ範囲に前記所定の基準を満たすように調整されたダミーデータを前記学習データとして追加する処理の少なくとも一方を行う
　情報処理装置。
　請求項１１に記載の情報処理装置であって、
　前記学習パラメータは、前記学習データに関する前記予測モデルの出力を調整するパラメータ、又は前記予測モデルの損失関数を調整するパラメータの少なくとも一方を含む
　情報処理装置。
　請求項１１に記載の情報処理装置であって、
　前記予測モデルは、前記対象項目に関する分類を予測値とする分類モデルであり、
　前記調整部は、前記違反ルールが指定するデータ範囲における前記予測モデルの予測値が、前記所定の基準を満たす前記出力ルールが指定するデータ範囲における前記予測モデルの予測値と略一致するように、前記予測モデルの学習処理を調整する
　情報処理装置。
　請求項１１に記載の情報処理装置であって、
　前記予測モデルは、前記対象項目の値を予測値とする回帰モデルであり、
　前記調整部は、前記違反ルールが指定するデータ範囲における前記予測モデルの予測値の分布が、前記所定の基準を満たす前記出力ルールが指定するデータ範囲における前記予測モデルの予測値の分布と略一致するように、前記予測モデルの学習処理を調整する
　情報処理装置。
　請求項３に記載の情報処理装置であって、
　前記評価部は、前記予測モデルの出力に関する複数の調整方法を選択可能に提示し、
　前記調整部は、前記複数の調整方法のうち、前記ユーザにより選択された方法に基づいて前記予測モデルの学習処理を調整する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記第２の学習部は、前記所定の基準に応じた前記変換モデルを学習させる
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記変換モデルは、決定木、又はルールフィットの少なくとも一方のアルゴリズムを用いた学習モデルである
　情報処理装置。
　所定の学習モデルを学習させ、
　前記所定の学習モデルの出力をユーザが解釈可能な形式で記述されたルール群に変換する変換モデルを学習させ、
　所定の基準に従って前記ルール群を評価した評価情報を取得し、
　前記評価情報に基づいて前記所定の学習モデルの学習処理を調整する
　ことをコンピュータシステムが実行する情報処理方法。
　所定の学習モデルを学習させるステップと、
　前記所定の学習モデルの出力をユーザが解釈可能な形式で記述されたルール群に変換する変換モデルを学習させるステップと、
　所定の基準に従って前記ルール群を評価した評価情報を取得するステップと、
　前記評価情報に基づいて前記所定の学習モデルの学習処理を調整するステップと
　をコンピュータシステムに実行させるプログラム。