WO2023238395A1

WO2023238395A1 - 情報処理装置、情報処理方法、プログラム

Info

Publication number: WO2023238395A1
Application number: PCT/JP2022/023497
Authority: WO
Inventors: 耀一佐々木; 穣岡嶋
Original assignee: 日本電気株式会社
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2023-12-14

Abstract

本発明の情報処理装置１００は、訓練データの入力に対して機械学習モデルが出力する予測値を説明する説明データを生成する説明生成部１２１と、訓練データの入力に対する機械学習モデルが出力する予測値と予め設定された正解値とが異なる度合いを表す予測損失と、説明データが予め設定された説明データが満たすべき基準を満たしていない度合いを表す説明損失と、が小さくなるよう機械学習モデルのパラメータを計算するパラメータ計算部１２２と、を備える。

Description

情報処理装置、情報処理方法、プログラム

　本開示は、情報処理装置、情報処理方法、プログラムに関する。

　機械学習分野において、機械学習モデルの説明性は、機械学習モデルの予測が信頼できるかを人間が判断するために重要となる。機械学習モデルの説明は、大域的な説明（ｇｌｏｂａｌ　ｅｘｐｌａｎａｔｉｏｎ）と局所的な説明（ｌｏｃａｌ　ｅｘｐｌａｎａｔｉｏｎ）の２種類に大別される。大域的な説明は、機械学習モデル全体の挙動を説明するものである。局所的な説明は、個々の事例に対して出される予測についてその予測の根拠を説明するものである。

　ここで、非特許文献１には、任意の機械学習モデルが与えられたときに、ある事例の近傍に存在する類似事例に対するそのモデルの予測を局所的に近似する簡易なモデルを生成し、この簡易なモデルをその事例の予測に関する局所的な説明として出力する技術が開示されている。

M. T. Ribeiro, S. Singh, and C. Guestrin, ""why should I trust you?": Explaining the predictions of any classifier," in Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016, pp. 1135-1144.

　非特許文献１に開示されている技術では、事例ごとに出力される説明が、人間が予期するような説明にならないという課題がある。何故なら、機械学習モデルは、人間が何を予期しているかと無関係に訓練されているため、人間が予期しているように予測するとは限らないためである。しかし、たとえ正しい予測を出力していたとしても、人間が予期する説明が出てこないと人間は機械学習モデルを信頼して使用することができない。

　そして、上述した課題は特に、機械学習モデルを再訓練したときに顕著になる。訓練事例を追加して機械学習モデルを再訓練した場合、人間は同じ事例への同じ予測に対しては同じ説明が出ることを予期するが、非特許文献１に記載の技術では、再訓練の前後で異なる説明が出力されてしまうおそれがある。その結果、再訓練するたびに説明が変わるモデルは人間が信頼して使うことができない。

　このため、本開示の目的は、上述した課題である、機械学習モデルによる予測値に対する説明が事例ごとに異なる、ことを解決することができる情報処理装置を提供することにある。

　本開示の一形態である情報処理装置は、
　訓練データの入力に対して機械学習モデルが出力する予測値を説明する説明データを生成する説明生成部と、
　前記訓練データの入力に対する前記機械学習モデルが出力する予測値と予め設定された正解値とが異なる度合いを表す予測損失と、前記説明データが予め設定された当該説明データが満たすべき基準を満たしていない度合いを表す説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算するパラメータ計算部と、
を備えた、
という構成をとる。

　また、本開示の一形態である情報処理方法は、
　訓練データの入力に対して機械学習モデルが出力する予測値を説明する説明データを生成し、
　前記訓練データの入力に対する前記機械学習モデルが出力する予測値と予め設定された正解値とが異なる度合いを表す予測損失と、前記説明データが予め設定された当該説明データが満たすべき基準を満たしていない度合いを表す説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算する、
という構成をとる。

　また、本開示の一形態であるプログラムは、
　訓練データの入力に対して機械学習モデルが出力する予測値を説明する説明データを生成し、
　前記訓練データの入力に対する前記機械学習モデルが出力する予測値と予め設定された正解値とが異なる度合いを表す予測損失と、前記説明データが予め設定された当該説明データが満たすべき基準を満たしていない度合いを表す説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算する、
処理をコンピュータに実行させる、
という構成をとる。

　本開示は、以上のように構成されることにより、機械学習モデルによる予測値に対する説明が事例ごとに異なる、ことを抑制することができ、信頼性の高い機械学習モデルを生成することができる。

本開示の概要を説明するための図である。本開示の実施形態１の概要を説明するための図である。本開示の実施形態１における情報処理装置の構成を示すブロック図である。図３に開示した情報処理装置の動作を示すフローチャートである。図３に開示した情報処理装置の動作を示すフローチャートである。図３に開示した情報処理装置の動作を示すフローチャートである。図３に開示した情報処理装置による処理の様子を示す図である。図３に開示した情報処理装置による処理の様子を示す図である。図３に開示した情報処理装置による処理の様子を示す図である。本開示の実施形態２における情報処理装置による処理の様子を示す図である。本開示の実施形態２における情報処理装置による処理の様子を示す図である。本開示の実施形態３における情報処理装置のハードウェア構成を示すブロック図である。本開示の実施形態３における情報処理装置の構成を示すブロック図である。

　＜実施形態１＞
　本開示の第１の実施形態を、図１乃至図９を参照して説明する。図１乃至図２は、本開示の概要を説明するための図である。図３は、情報処理装置の構成を説明するための図であり、図４乃至図９は、情報処理装置の処理動作を説明するための図である。

　［概要］
　まず、図１を参照して、本開示の概要について説明する。図１に示すように、本開示における情報処理装置は、訓練事例を用いて機械学習モデルを学習し、機械学習モデルのパラメータを更新するものである。このとき、訓練事例を入力した機械学習モデルから、予測と、予測に対する説明と、が出力される。このような状況において、本開示における情報処理装置は、機械学習モデルから出力された予測と予め設定された正解ラベルとの差を表す予測損失と、機械学習モデルから出力された説明と予め設定された正解説明との差を表す説明損失と、が小さくなるように、機械学習モデルのパラメータを更新するよう学習する、というものである。なお、説明損失は、機械学習モデルから出力される説明が、予め設定された基準を満たしていない度合いにて表わしてもよい。

　次に、図２を参照して、第１の実施形態の概要について説明する。図２に示すように、実施形態１では、訓練事例に対してランダムに摂動事例を生成し、摂動事例に対するモデルｆの予測を付与する。そして、訓練事例と摂動事例との近接度を重みとして、入出力を予測する簡易モデルｇを訓練し、かかる重みを説明として出力する。そして、出力された説明と、予め設定された説明と、の差を説明損失とし、上述同様に、予測損失と説明損失とが小さくなるようモデルｆのパラメータを更新する、というものである。このとき、簡易モデルｇが線形モデルであるとき、説明は微分可能なモデルｆの関数としてかける。このため、モデルｆのパラメータに関する説明損失の勾配が計算でき、かかる勾配を用いて説明損失が小さくなるようパラメータを更新することができる。なお、説明損失は、機械学習モデルから出力される説明が、予め設定された基準を満たしていない度合いにて表わしてもよい。

　＜実施形態１の詳細＞
　次に、実施形態１の詳細について説明する。実施形態１では、勾配を用いてパラメータを更新できる任意の機械学習モデルに対して、事例ごとの説明を出力する際に予期された説明が出力されるように、機械学習モデルのパラメータを更新する。本実施形態では、勾配を用いてパラメータを更新できる任意の機械学習モデルに適用可能である。本実施の形態における説明は、当該機械学習モデルの動作を局所的に近似する線形モデルの重みである。なお、本実施の形態の説明に用いる用語や記号は非特許文献１に準拠することとする。

　初めに、本実施の形態の説明で用いる基本的な概念を説明する。実施形態１で訓練する機械学習モデルをｆとする。ｆは、目的関数の勾配を用いてパラメータを更新できる機械学習モデルであれば何でもよい。そのようなモデルｆとしては、たとえばニューラルネットワークや、勾配ブースティングを用いることができる。さらに、モデルｆの挙動を決定するパラメータをベクトルθで表す。たとえば、モデルｆがニューラルネットワークであるとき、θはニューラルネットワークの重みからなるベクトルである。モデルｆが勾配ブースティングであるとき、θは弱学習器の数や弱学習器のパラメータである。モデルｆは、θの値に依存して出力が決定される。

　教師あり機械学習では、一般に訓練事例集合と、訓練事例集合に含まれる各訓練事例に関連付けられた正解ラベルと、が入力される。そして各訓練事例をモデルｆに入力した際にモデルｆが出力する予測と、その訓練事例に関連付けられた正解ラベルと、の差異が小さくなるようにパラメータを更新する。この予測と正解ラベルとの差異を予測損失と呼ぶ。

　しかし、ただ単に予測損失が小さくなるようにパラメータを更新するだけでは、予測に対する説明が、人間が予期した説明にならないという課題がある。そこで、本開示では、予測損失を小さくするだけでなく、説明に関する損失を考える。具体的には、本開示では、説明の適切さを評価する基準である説明評価基準を入力として受け付ける。そして、各訓練事例に対してモデルｆが出す予測について生成された説明が説明評価基準を満たしていない度合である説明損失を考える。そして、予測損失だけでなく説明損失も小さくなるようにモデルｆのパラメータθを更新する。特に、予測損失と説明損失の重みつき和を小さくするようにパラメータを更新することが有効である。これにより、予測損失と説明損失のバランスを取ることができる。

　説明評価基準としては、たとえば正解となる説明との一致度を用いることが考えられる。その場合、正解となる説明とできるだけ一致する説明が出るようにパラメータを更新することになる。正解となる説明としては、たとえば過去にすでに人間に提示した説明を用いることができる。そのような使い方が特に有用になるのは、運用中のモデルのパラメータを更新する場合である。ある訓練事例集合を用いて訓練したモデルを運用していたが、その後いくつかの訓練事例が追加で得られたため、これらを訓練事例集合に加えてモデルを再訓練したいという場合が存在する。このとき、再訓練の前後で同じ事例に対する予測と説明をできるだけ変えたくない、というニーズがある。説明が変わると、人間が過去の説明と何故違うのか理解しづらいためである。そのような場合、過去に人間に提示した説明を正解となる説明として用いることができる。その場合、本発明は、予測損失と説明損失のバランスを考慮して、予測が大きく外れずに、しかも説明が大きく変わらないようにパラメータを更新することができる。

　次に、図３乃至図９を参照して、実施形態１の具体的な構成及び動作を説明する。図３に示すように、実施形態１における情報処理システムは、機械学習を行う情報処理装置１０を備える。なお、図３では、機械学習に用いるデータを入力する情報処理装置で構成された正解説明付与部２０が装備されており、これについては後述するが、正解説明付与部２０は必ずしも設けられていなくてもよい。

　機械学習を行う情報処理装置１０は、演算装置と記憶装置とを備えた１台又は複数台の情報処理装置にて構成される。そして、情報処理装置１０は、図３に示すように、入力部１１、パラメータ計算部、予測損失計算部１３、説明損失計算部１４、説明生成部１５、を備える。入力部１１、パラメータ計算部１２、予測損失計算部１３、説明損失計算部１４、説明生成部１５の機能は、演算装置が記憶装置に格納された各機能を実現するためのプログラムを実行することにより、実現することができる。以下、各構成が有する機能による動作を説明する。

　実施形態１全体の動作を説明する前に、説明生成部１５の動作を図４のフローチャーを参照して説明する。

（ステップＳ１１）
　説明生成部１５は、訓練事例ｘ（訓練データ）を入力として受け付ける。訓練事例ｘは、モデルｆに入力する事例を表す長さｄの実数値ベクトルである。ｘは、表データを表すものでも、画像やテキストを表すものでもよい。図７に訓練事例ｘの一例を示す。

（ステップＳ１２）
　説明生成部１５は、訓練事例ｘの解釈可能な表現ｘ’を生成する。解釈可能な表現ｘ’は、長さｄ’のバイナリベクトルである。ｘ’は訓練事例ｘを人間に分かりやすい特徴の有無で表現したものである。ｘ’は、非特許文献１の３．１節で説明されているような様々な形態を取ることができる。たとえば、訓練事例ｘがテキストであれば、ｘ’は語の有無を表すバイナリベクトルを用いることができる。解釈可能な表現を生成する方法は、訓練事例ｘをバイナリベクトルに変換でき、結果を人間が解釈できる方法であれば任意のものが使える。もし訓練事例ｘが既にバイナリベクトルであれば、ｘをそのままｘ’として用いてもよい。

　ここでは一例として、訓練事例ｘが連続値のベクトルである場合について可能な方法を説明する（以下、閾値法と呼ぶ）。ｘを構成するｄ個の要素のそれぞれについて中央値を閾値として分割することで２つの条件を生成する。たとえば、ｘの１番目の要素ｘ１の中央値が３である場合、「ｘ１≧３」と「ｘ１＜３」の２つの条件を生成する。これを他の要素についても繰り返し行い、ｄ＊２個の条件を生成する。そして、最後にｘが満たす条件のみを抽出し、ｘ’を構成する特徴量として用いる。ただし各特徴量の値は条件を満たす場合１、それ以外の場合０とする。閾値法で生成したｘ’の一例を図８に示す。この図で示すように、この方法で作成した場合、ｘが満たす条件のみを抽出しているため、必然的にｘ’は全ての要素が１となる。閾値法は、中央値の代わりに四分位数を使って４つの条件に分割してもよい。非特許文献１の著者による実装（ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｍａｒｃｏｔｃｒ／ｌｉｍｅ）では四分位数を使った閾値法が実装されている。

（ステップＳ１３）
　ステップＳ１３では、説明生成部１５が、ｘ’を元に、摂動事例（ｐｅｒｔｕｒｂｅｄ　ｓａｍｐｌｅｓ）に関する集合Ｚを生成する。摂動事例は、人工的に生成する事例であり、ｘ周辺でのｆの局所的な予測を近似する第２の機械学習モデルを構築するための訓練事例として用いられる。集合Ｚの生成方法は、非特許文献１の３．３節やＡｌｇｏｒｉｔｈｍ　１に示されているアルゴリズムに基づく。

　集合Ｚを生成するためのパラメータを以下のように定める。生成する摂動事例の数をＮとする。ｘとの近接度を測る関数をπ_ｘとする。π_ｘ（ｚ）は、長さｄのベクトルｚがｘに近いほど大きな値を返し、ｘから遠いほど小さな値を返す任意の関数である。たとえば、ベクトルのコサイン類似度を用いることができる。

　ここで、図４のステップＳ１３における集合Ｚの生成方法を、図５のフローチャートに示す。初めに、集合Ｚを空集合として初期化する（ステップＳ２１）。変数ｉを１からＮに変化させて以下を実行する（ステップＳ２２）。

　ｉ番目の摂動事例ｚ’_ｉを生成する（ステップＳ２３）。摂動事例ｚ’_ｉは、ｘ’と同じく長さｄ’のバイナリベクトルである。摂動事例は、長さｄ’のバイナリベクトルが得られるのであればどのような方法で生成してもよい。たとえば、長さｄ’のバイナリベクトルを一様ランダムに生成することで得ることができる。図８に、生成された摂動事例ｚ’_ｉの一例を示す。ｘ’はすべての値が１であったことに対し、摂動事例ｚ’_ｉは１や０の値を取る。

　摂動事例ｚ’_ｉから変換元の空間における表現であるｚ_ｉを得る（ステップＳ２４）。ｚ_ｉはｘと同じ長さdのベクトルである。たとえばタスクが画像分類であれば、バイナリベクトルから対応する画像を得る。上記の閾値法の場合、たとえば以下の方法で摂動事例ｚ’_ｉからｚ_ｉを得ることができる。訓練事例集合においてｄ個の要素に関する平均と標準偏差を計算する。そしてこれらの平均と標準偏差をパラメータとするｄ個の正規分布からサンプリングし、ｚ’_ｉと同じ条件に当てはまるサンプルをｚ_ｉとする。たとえば、図８に示す例であれば、ｚ’_２は「ｘ１≧３」「ｘ２≧４」「ｘ３＜１」「ｘ４＜５」という４つの条件に当てはまるため、これらの条件に当てはまる値をランダムに生成してｚ_２とする。

　続いて、モデルｆを用いて予測ｆ（ｚ_ｉ）を得る（ステップＳ２５）。ｚ_ｉをｆに入力することで、ｆによる予測ｆ（ｚ_ｉ）を得る。続いて、近接度π_ｘ（ｚ_ｉ）を得る（ステップＳ２６）。そして、集合Ｚに、３つ組＜ｚ’_ｉ，ｆ（ｚ_ｉ），π_ｘ（ｚ_ｉ）＞を追加する（ステップＳ２７）。

　上記処理をＮ回繰り返し（ステップＳ２８）、最後に集合Ｚを出力する（ステップＳ２９）。以上がステップＳ１３の処理となる。

　（ステップＳ１４）
　続いて、説明生成部１５が、Ｚを入力として、ｘに対する説明ｗ（ベクトルｗ）を生成する。具体的には、ｚ’_ｉを訓練事例、ｆ（ｚ_ｉ）を正解ラベル、π_ｘ（ｚ_ｉ）を事例への重みとして、解釈可能モデルｇを訓練し、訓練で得られたｇのパラメータをｗとして出力する。

　説明ｗの計算方法として、解釈可能モデルｇが線形モデルである場合について説明する。解釈可能モデルｇが線形モデルであるとき、以下の数１式のように表すことができる。
なお、ここでは説明の簡略化のために切片を省略した線形モデルを用いているが、常に１になる要素をｚに追加するだけで切片を考慮した線形モデルにすることができる。

　このとき、Ｎ×ｄ’の計画行列（ｄｅｓｉｇｎ　ｍａｔｒｉｘ）Ｄを以下の数２式で定義する。
　ここでｚ’_ｉjは、ｚ’_ｉのj番目の要素をあらわす。

　また、Ｎ個の摂動事例に対するモデルｆの予測を表す長さＮのベクトルｆ_ｚを、以下の数３式で定義する。

　さらに事例重み行列Πを、以下の数４式で表すＮ×Ｎの対角行列として定義する。

　このとき説明ｗは、以下の数５式に示す損失関数Ｌｗを最小化するｗである。
数５式の第１項は、ｆによる予測ｆ_ｚとｇによる予測Ｄｗの二乗誤差に、近接度を重みとして付与したものである。第２項は正規化項である。係数λは任意の正の実数値である。

　上記の損失を最小化する説明ｗは、以下の数６式で計算できる。
Ｉはｄ’×ｄ’の単位行列である。ここで行列Ａを以下の数７式で定義する。
このとき、説明ｗは予測ｆ_ｚの線形変換として、以下の数８式のように書ける。
　上記数８式は、線形変換なので微分可能である。

　以上のように、説明ｗを、モデルfの予測の微分可能な関数の形で得ることができる。説明が微分可能であることにより、後述するように、モデルｆのパラメータθについて説明損失の勾配を計算でき、モデルｆのパラメータθを更新することができる。

　ここで非特許文献１との差異について述べる。本実施の形態の説明生成部による説明の生成方法は、基本的には非特許文献１のＡｌｇｏｒｉｔｈｍ１と類似している。しかし、非特許文献１ではｋ－Ｌａｓｓｏという微分困難なモデルを説明用のモデルｇとして採用している。何故なら非特許文献１では説明を生成することが最終的な目的であるため、微分を用いてモデルｆのパラメータを更新することはないためである。

　一方、本実施の形態では、生成された説明を用いてｆのパラメータを更新することが目的である。そのためＫ－Ｌａｓｓｏではなく線形モデルをｇとして用いることで、説明ｗをモデルｆの予測の微分可能な関数の形で表している。これにより勾配を用いてｆのパラメータを更新できるようになる。

　なお、本実施の形態では線形モデルを用いたが、説明ｗをモデルｆの予測の微分可能な関数の形で表せるのであれば、他のモデルを用いてもよい。以上で、説明生成部１５の動作の説明は終わる。

　続いて、図６を参照して、本実施の形態における情報処理装置１０の全体の動作について説明する。

　初めに、入力部１１への入力となる訓練事例集合、正解ラベル、説明評価基準について説明する。
　訓練事例集合Ｘは、数９式に示すように、Ｍ個の訓練事例からなる集合である。それぞれの事例は長さｄのベクトルである。

　正解ラベルｙは、数１０式に示すように、モデルｆが予測する対象となるラベルを表す長さＭのベクトルである。
　正解ラベルyの要素は、判別（ｃｌａｓｓｉｆｉｃａｔｉｏｎ）であればクラス、回帰（ｒｅｇｒｅｓｓｉｏｎ）であれば実数値である。以下では、説明のため、回帰を想定して正解ラベルｙは実数値であると仮定する。本発明は、判別にも回帰にも適用できる。
　なお、説明評価基準について後ほど説明する。

　次に、本実施の形態の目的関数について説明する。目的関数Ｌは、以下の数１１式のように、予測損失と説明損失の重み付き和の形で与えられる。
　ここでＰ_ｊはｊ番目の訓練事例に関する予測損失であり、訓練事例に対してモデルｆが出力する予測と正解ラベルが異なる度合いを表す値である。Ｅ_ｊはｊ番目の訓練事例に関する説明損失であり、生成した説明が説明評価基準を満たしていない度合を表す値である。λは二つの損失のバランスを取るための係数である。

　この目的関数に対してパラメータを更新するためには、Ｐ_ｊの勾配とＥ_ｊの勾配が計算できればよい。特に勾配降下法の更新式は以下の数１２式のようになる。
　ただし、θ^（ｔ）はｔ番目の更新におけるパラメータ、ηは学習率（ｌｅａｒｎｉｎｇ　ｒａｔｅ）である。ここで、数１３式であるため、θに関するＰ_ｊの勾配とＥ_ｊの勾配が分かればパラメータを更新できる。そこで、ステップＳ３２以下では、ｊ＝１，．．．，Ｍに関して、Ｐ_ｊの勾配とＥ_ｊの勾配を計算する。

（ステップＳ３１）
　入力部１１が、訓練事例集合と正解ラベルと説明評価基準を受け付ける。
（ステップＳ３２）
　ｊ＝１，．．．，Ｍに関して、以下を繰り返す。
（ステップＳ３３）
　予測損失計算部１３が、ｊ番目の訓練事例ｘ_ｊに関する予測損失の勾配を計算する。予測損失は、たとえば回帰であれば以下の数１４式のような二乗誤差を用いることができる。
このときｆに関する予測損失の勾配は、以下の数１５式のように計算できる。
ｆに関する予測損失の勾配が分かれば、θ_ｋに関する予測損失の勾配が、以下の数１６式のように計算できる。θ_ｋはθのｋ番目の要素である。
ニューラルネットワークであれば、数１６式中の数１７で示す項は、誤差逆伝搬法で計算できる。

（ステップＳ３４）
　説明生成部１５が、ｊ番目の訓練事例ｘ_ｊに関する説明ｗ_ｊを生成する。生成方法は上記で説明した通りである。

（ステップＳ３５）
　説明損失計算部１４が、ｊ番目の訓練事例ｘ_ｊに関する説明損失の勾配を計算する。ここで、説明損失は、説明評価基準に応じて定義される。説明評価基準は、訓練事例に対する機械学習モデルの予測の説明が満たすべき基準である。説明評価基準は、生成された説明を評価できるような基準であればなんでもよい。典型的には、説明評価基準として、訓練事例に対する予測の説明として出力されるべき説明そのものである、正解説明を用いることができる。以下では、ｊ番目の訓練事例に関連付けられた正解説明をｖ_ｊとする。ｖ_ｊは長さｄ’のベクトルである。

　説明損失Ｅ_ｊとしてはたとえば以下の数１８式で示す２乗誤差を用いることができる。この説明損失Ｅ_ｊは、ｊ番目の訓練事例に対して生成された説明ｗ_ｊが正解説明ｖ_ｊと乖離しているほど大きくなる。
ｇが線形モデルであるとき、説明生成部１５に関して定義した行列Ａを用いて、数１９式と書ける。
ここで、数１９式中の数２０式で示す項は、ｊ番目の訓練事例に関して生成されたＮ個の摂動事例に関するｆの予測を表す長さＮのベクトルである。

　数２０式に関する説明損失の勾配は、以下の数２１式のように計算できる。
パラメータベクトルθのｋ番目の要素θ_ｋに関する予測損失の勾配は、連鎖律により以下の数２２式のようにベクトルの内積として書ける。
ここで、数２２式中の数２３式で示す項は、上述のように計算できる。
数２２式中の数２４式で示す項については、数２０式の定義により、数２５式となるため、Ｎ個の摂動事例に対するＮ回の予測について、ｆの勾配を計算すればよい。この勾配は、たとえばニューラルネットワークであれば誤差逆伝搬法を用いて計算できる。

（ステップＳ３６）
　以上をＭ個の事例について繰り返して次のステップに移行する。
（ステップＳ３７）
　続いて、パラメータ計算部１２が、勾配を用いてパラメータθを計算する。ニューラルネットワークの場合は、勾配降下法によってパラメータθを更新できる。パラメータθに関するＰ_ｊとＥ_ｊの勾配は上記の通り既に計算されているため、これらを用いて勾配降下法の更新式によって更新すればよい。

（ステップＳ３８）
　その後、更新されたパラメータを出力する。
　なお、ステップＳ３２からＳ３７までの手順を複数回繰り返してもよい。これによりパラメータは複数回更新され、そのぶん損失が減少してより良いパラメータに近づくことが期待される。

　続いて、実施形態１においてさらに取り得るバリエーションについて説明する。
（勾配ブースティングの場合）
　モデルｆが勾配ブースティングの場合について説明する。勾配ブースティングにおいては、勾配降下法の更新式を用いる代わりに、疑似残差（ｐｓｅｕｄｏ－ｒｅｓｉｄｕａｌｓ）を目標値とするベース学習器（ｂａｓｅ　ｌｅａｒｎｅｒ）を追加することでパラメータの更新が行われる。勾配ブースティングにおいてはパラメータが一回の更新ごとに追加されていくと考えることができる。

　通常の勾配ブースティングでは、ｊ番目の訓練事例に関する目標値となる疑似残差ｒ_ｊを以下の数２６式ように計算する。

　そして、数２７式を訓練事例集合として、ベース学習器を訓練して追加する。

　本開示に適用する場合は、ベース学習器を訓練する際の訓練事例集合に、ひとつの訓練事例当たりさらに以下の数２８式に示すＮ個の摂動事例を追加する。
ただし、摂動事例に関する疑似残差ｓ_ｉは、以下の数２９式のように計算する。
すなわちｓ_ｉは、数２３式のｉ番目の要素に（－λ）をかけたものである。

　以上のように計算されたベース学習器を追加することで、予測損失だけでなく説明損失も減少するようにパラメータが更新される。

（説明評価基準の一例）
　上記では、説明評価基準として、訓練事例ごとに関連付けられた正解説明を用いる方法について説明した。ただし説明評価基準としては異なるものを用いてもよい。たとえば、説明評価基準は、説明に使用すべき訓練事例の要素を表す添字の集合でもよい。例としては以下のような集合である。
｛２，３，５｝

　上記のような集合が説明評価基準として与えられた場合、｛ｘ_２，ｘ_３，ｘ_５｝が関わる説明にはマイナスの説明損失を与える。そして説明損失が小さくなるようにパラメータを更新する。これにより、｛ｘ_２，ｘ_３，ｘ_５｝が関わる説明が優先して得られるようになる。たとえば、以下の数３０式に示すような説明損失を用いることができる。
　ここでｗ_ｊ，ｌは、ｊ番目の訓練事例に対して生成された説明ｗ_ｊのｌ番目の要素を表す。１_ｌは、説明のｌ番目の要素が上述した添字集合が示す変数に関する場合に１となり、それ以外の場合に０となる変数であるとする。このようにして計算される説明評価基準と説明損失の一例を図９に示す。

　ここで、図３に示すように、入力部１１の前に、正解説明付与部２０が存在してもよい。正解説明付与部２０は、訓練事例集合と、訓練事例に関連付けられた正解ラベルを受け付ける。正解説明付与部２０は、訓練事例に正解説明を関連付ける。正解説明付与部２０は、正解説明を説明評価基準として、訓練事例集合と正解ラベルとともに入力部１１に与える。

　正解説明として、たとえば更新前の初期パラメータθを用いたときの説明を用いることができる。訓練事例ごとに初期パラメータθを用いて予測を計算したときの説明を生成して、これを正解説明とし、この正解説明と乖離している度合いを説明損失として用いる。

　また、正解説明は、訓練事例集合に含まれる全ての訓練事例に関連付けられている必要はなく、たとえば、既に一度人間に説明が提示された訓練事例のみに正解説明が関連付けられ、新たに追加された訓練事例には正解説明が関連付けられていなくてもよい。つまり、正解説明は、既に訓練されたことで訓練事例の入力に対して機械学習モデルが出力する予測値が正解ラベルと一致している当該訓練事例のみに、正解説明が関連付けられていてもよい。これにより、既に一度人間に提示された説明と新たな説明とをできるだけ一致するようにしつつ、最近追加された訓練事例に対する予測も当たるようにモデルを再訓練することができる。すなわち、過去に提示された説明との一貫性を保ちつつ、新たな事例に含まれる情報をモデルに取り込むことができる。

　＜実施形態２＞
　次に、本開示の第２の実施形態を、図１０乃至図１１を参照して説明する。図１０乃至図１１は、実施形態２における処理動作を説明するための図である。

　本実施形態で対象とする機械学習モデルは、複数のルールを用いて予測を行うモデルｆであり、例えば、決定木や決定リストである。この場合、訓練データが決定木や決定リストにおいて該当するルールが予測の説明となる。つまり、本実施形態では、上述した説明生成部１５は、決定木や決定リストにて訓練事例の入力に対して予測を行う際に、決定木や決定リストが出力した予測値に至る決定されたルールを、説明データとして生成する。そして、本実施形態では、上述したパラメータ計算部１２は、上述同様に、出力された予測値と予め設定された正解値との差である予測損失と、決定されたルールである説明データと予め設定された正解ルールとの差である説明損失と、が小さくなるよう、決定木や決定リストのルール（パラメータ）を計算して学習する。

　ここで、図１０に決定木の一例を示す。この図に示すように、決定木は、根ノードから複数の葉ノードに枝分かれして構成されており、根ノードから各葉ノードまでのパスで表される複数のルールとして存在している。このうち、最終的に至った１つの葉ノードが予測値となるが、与えられた事例において根ノードから各ノードを順に辿っていき、予測値となった１つの葉ノードまでのパスが決定ルールとなり、かかる決定ルールが説明データとなる。このため、説明生成部１５は、図１０に示すような決定木に訓練事例を与えた場合に、白抜き矢印に示すようなパスが決定ルールとなった場合には、かかる決定ルールを示す点線の枠で囲った決定ルール「ｘ_０＞１．５　ＡＮＤ　ｘ_１≦３．０　ＡＮＤ　ｘ_２＞２．０」を説明データとして生成する。

　また、図１１に決定リストの一例を示す。この図に示すように、決定リストは、複数のルールが順番に並べられたリストであり、予測の際には上位より順にルールを見ていき、与えられた事例を満たす１つ又は複数のルールが決定ルールとなり、かかる決定ルールが説明データとなる。このため、説明生成部１５は、図１１に示すような決定リストに訓練事例を与えた場合に、点線の枠で囲った３つのルールが決定ルールとなった場合には、かかる決定ルール「（ｘ_０≦１．０　ＯＲ　Ｘ_２≧２．０）　ＡＮＤ　ｘ_１≦２．０　ＡＮＤ　ｘ_２＜３．０」を説明データとして生成する。

　そして、本実施形態におけるパラメータ計算部１２は、上述した実施形態１と同様に、予測値と正解値との差である予測損失と、決定されたルールである説明データと正解ルールとの差である説明損失の重み付き和と、からなる目的関数Ｌを最小とする予測モデルのパラメータであるルールを算出する。例えば、目的関数Ｌは、以下の数３１式で表せる。
　ここで、モデルｆに含まれるルール集合をＲ＝｛ｒ_１,・・・，ｒ_ｎ｝とする。訓練事例集合をＴ＝｛ｔ_１,・・・，ｔ_ｎ｝とする。また、訓練中の予測モデルをｆ、訓練前の予測モデルをｆｂとする。ここでは、訓練前の予測モデルｆｂによる予測値（ｆｂ（ｔ））を正解値とし、訓練前の予測モデルｆｂのルール（ｒｕｌｅ（ｆｂ，ｔ））を正解ルールとして用いることとする。

　上記Ｌ_ａｃｃは、予測値ｆ（ｔ）と正解値ｆ（ｆｂ（ｔ））との予測誤差を表す予測損失である。予測損失Ｌ_ａｃｃは、例えば、二乗誤差などの誤差関数で表すことができる。上記Ｌ_ｅｘｐは、予測時に用いたルールｒｕｌｅ（ｆ，ｔ）と、正解ルールｒｕｌｅ（ｆｂ，ｔ）との誤差を表す説明損失である。例えば、Ｌ_ｅｘｐは、数３２に示すような指標を用いることができる。

　ここで、例えば、上記目的関数Ｌを、損失関数の線形計画問題表現で表すことで、パラメータ計算部１２による計算を行うことができる。つまり、目的関数Ｌを構成する「Ｌ_ａｃｃ＋λＬ_ｅｘｐ」を線形計画問題表現で表す。このうち、Ｌ_ａｃｃの表現方法は、予測モデルにより異なり、決定木や決定リストの表現方法は既知である。また、Ｌ_ｅｘｐは、以下のように表せる。

　まず、２次元行列Ｓ＝｛ｓ_ｉｊ｝_{ｉ＝１，．．．，ｍ，ｊ＝１，．．．，ｎ}の各要素ｓ_ｉｊは、Ｌ_ｅｘｐ（ｒ_ｊ，ｒｕｌｅ（ｆ_ｂ，ｔ））とする。つまり、事例ｘ_ｉの予測に訓練前のモデルｆｂが用いたルールと、訓練中に出力されたルールｒ_ｉとの説明損失となる。また、２次元行列Ｄ＝｛ｄ_ｉｊ｝_{ｉ＝１，．．．，ｍ，ｊ＝１，．．．，ｎ}の各要素ｄ_ｉｊは、事例ｘ_ｅの予測に用いた説明にｒ_ｉを使用した場合に１となり、それ以外は０となる。上記を用いて、Ｌ_ｅｘｐは数３３式にて表すことができる。

　なお、本実施形態においても、訓練事例の入力に対して機械学習モデルが出力する予測値が正解ラベルと一致している当該訓練事例のみに正解説明を関連付けてもよい。これにより、例えば、目的関数Ｌを以下の数３４式にて表してもよい。このとき、第２項は正解している訓練事例に対しての予測損失であり、第３項は正解している訓練事例に対しての説明損失である。

　＜実施形態３＞
　次に、本開示の第３の実施形態を、図１２乃至図１３を参照して説明する。図１２乃至図１３は、実施形態３における情報処理装置の構成を示すブロック図である。なお、本実施形態では、上述した実施形態で説明した情報処理装置の構成の概略を示している。

　まず、図１２を参照して、本実施形態における情報処理装置１００のハードウェア構成を説明する。情報処理装置１００は、一般的な情報処理装置にて構成されており、一例として、以下のようなハードウェア構成を装備している。
　・ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１０１（演算装置）
　・ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１０２（記憶装置）
　・ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１０３（記憶装置）
　・ＲＡＭ１０３にロードされるプログラム群１０４
　・プログラム群１０４を格納する記憶装置１０５
　・情報処理装置外部の記憶媒体１１０の読み書きを行うドライブ装置１０６
　・情報処理装置外部の通信ネットワーク１１１と接続する通信インタフェース１０７
　・データの入出力を行う入出力インタフェース１０８
　・各構成要素を接続するバス１０９

　そして、情報処理装置１００は、プログラム群１０４をＣＰＵ１０１が取得して当該ＣＰＵ１０１が実行することで、図１３に示す説明生成部１２１とパラメータ計算部１２２とを構築して装備することができる。なお、プログラム群１０４は、例えば、予め記憶装置１０５やＲＯＭ１０２に格納されており、必要に応じてＣＰＵ１０１がＲＡＭ１０３にロードして実行する。また、プログラム群１０４は、通信ネットワーク１１１を介してＣＰＵ１０１に供給されてもよいし、予め記憶媒体１１０に格納されており、ドライブ装置１０６が該プログラムを読み出してＣＰＵ１０１に供給してもよい。但し、上述した説明生成部１２１とパラメータ計算部１２２とは、かかる手段を実現させるための専用の電子回路で構築されるものであってもよい。

　なお、図１２は、情報処理装置１００である情報処理装置のハードウェア構成の一例を示しており、情報処理装置のハードウェア構成は上述した場合に限定されない。例えば、情報処理装置は、ドライブ装置１０６を有さないなど、上述した構成の一部から構成されてもよい。また、情報処理装置は、上述したＣＰＵの代わりに、ＧＰＵ（Ｇｒａｐｈｉｃ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）、ＭＰＵ（Ｍｉｃｒｏ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＦＰＵ（Ｆｌｏａｔｉｎｇ　ｐｏｉｎｔ　ｎｕｍｂｅｒ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＰＰＵ（Ｐｈｙｓｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＴＰＵ（ＴｅｎｓｏｒＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、量子プロセッサ、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。

　上記説明生成部１２１は、訓練データの入力に対して機械学習モデルが出力する予測値を説明する説明データを生成する。一例として、機械学習モデルは、目的関数の勾配を用いてパラメータを更新できるモデルであり、訓練データの予測値に対する重要度に基づいて説明データを生成することができる。また、一例として、機械学習モデルは、複数のルールを用いて予測値を予測するモデルであり、訓練データが機械学習モデルにおいて該当するルールを説明データとして生成することができる。

　上記パラメータ計算部１２２は、訓練データの入力に対する機械学習モデルが出力する予測値と予め設定された正解値とが異なる度合いを表す予測損失と、説明データが予め設定された説明データが満たすべき基準を満たしていない度合いを表す説明損失と、が小さくなるよう機械学習モデルのパラメータを計算する。例えば、説明損失は、説明データに対する正解データが与えられている場合には、生成された説明データと正解データとの差異とする。

　本開示は、以上のように構成されることにより、予測損失と説明損失とが小さくなるよう機械学習モデルのパラメータを更新することで、機械学習モデルによる予測値に対する説明が事例ごとに異なることを抑制することができる。

　なお、上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

　以上、上記実施形態等を参照して本開示を説明したが、本開示は、上述した実施形態に限定されるものではない。本開示の構成や詳細には、本開示の範囲内で当業者が理解しうる様々な変更をすることができる。また、上述した説明生成部、パラメータ計算部の機能のうちの少なくとも一以上の機能は、ネットワーク上のいかなる場所に設置され接続された情報処理装置で実行されてもよく、つまり、いわゆるクラウドコンピューティングで実行されてもよい。

　＜付記＞
　上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本開示における情報処理装置、情報処理方法、プログラムの構成の概略を説明する。但し、本開示は、以下の構成に限定されない。
（付記１）
　訓練データの入力に対して機械学習モデルが出力する予測値を説明する説明データを生成する説明生成部と、
　前記訓練データの入力に対する前記機械学習モデルが出力する予測値と予め設定された正解値とが異なる度合いを表す予測損失と、前記説明データが予め設定された当該説明データが満たすべき基準を満たしていない度合いを表す説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算するパラメータ計算部と、
を備えた情報処理装置。
（付記２）
　付記１に記載の情報処理装置であって、
　前記パラメータ計算部は、前記予測損失と、前記説明データと予め設定された正解説明データとが異なる度合いを表す前記説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算する、
情報処理装置。
（付記３）
　付記１に記載の情報処理装置であって、
　前記パラメータ計算部は、前記予測損失と、複数の要素からなる前記説明データの重み付き和に基づく前記説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算する、
情報処理装置。
（付記４）
　付記１に記載の情報処理装置であって、
　前記説明生成部は、前記訓練データを構成する要素毎の前記機械学習モデルによる予測値に対する重要度に基づいて前記説明データを生成する、
情報処理装置。
（付記５）
　付記４に記載の情報処理装置であって、
　前記説明生成部は、前記機械学習モデルを用いた微分可能な関数を前記重要度として用いて前記説明データを生成し、
　前記パラメータ計算部は、前記関数の微分を利用して前記説明損失の勾配を計算することで前記機械学習モデルのパラメータを計算する、
情報処理装置。
（付記６）
　付記５に記載の情報処理装置であって、
　前記説明生成部は、前記訓練データに基づいて生成した第２の訓練データを用いて前記機械学習モデルに基づく第２の機械学習モデルを訓練した場合における当該第２の機械学習モデルのパラメータを前記関数として前記説明データを生成する、
て生成する、
情報処理装置。
（付記７）
　付記１に記載の情報処理装置であって、
　前記機械学習モデルが複数のルールを用いて予測値を予測するモデルであり、
　前記説明生成部は、前記訓練データが前記機械学習モデルにおいて該当するルールを前記説明データとして生成し、
　前記パラメータ計算部は、前記予測損失と、前記説明データと予め設定された正解ルールとが異なる度合いを表す前記説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算する、
情報処理装置。
（付記８）
　付記２に記載の情報処理装置であって、
　前記訓練データに前記正解説明データを関連付ける正解説明付与部を備え、
　前記正解説明付与部は、前記訓練データと、当該訓練データに対応する正解ラベルと、前記機械学習モデルの初期パラメータと、を取得して、前記初期パラメータを前記機械学習モデルのパラメータとして用いて当該機械学習モデルに前記訓練データを入力したときに生成された前記説明データを前記正解説明データとして当該訓練データに関連付ける、
情報処理装置。
（付記９）
　付記８に記載の情報処理装置であって、
　前記正解説明付与部は、前記訓練データの入力に対する前記機械学習モデルが出力する前記予測値が前記正解値と一致している場合における当該訓練データのみに、前記正解説明データを関連付ける、
情報処理装置。
（付記１０）
　訓練データの入力に対して機械学習モデルが出力する予測値を説明する説明データを生成し、
　前記訓練データの入力に対する前記機械学習モデルが出力する予測値と予め設定された正解値とが異なる度合いを表す予測損失と、前記説明データが予め設定された当該説明データが満たすべき基準を満たしていない度合いを表す説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算する、
情報処理方法。
（付記１１）
　訓練データの入力に対して機械学習モデルが出力する予測値を説明する説明データを生成し、
　前記訓練データの入力に対する前記機械学習モデルが出力する予測値と予め設定された正解値とが異なる度合いを表す予測損失と、前記説明データが予め設定された当該説明データが満たすべき基準を満たしていない度合いを表す説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算する、
処理をコンピュータに実行させるためのプログラムを記憶したコンピュータにて読み取り可能な記憶媒体。

１０　情報処理装置
１１　入力部
１２　パラメータ計算部
１３　予測損失計算部
１４　説明損失計算部
１５　説明生成部
２０　正解説明付与部
１００　情報処理装置
１０１　ＣＰＵ
１０２　ＲＯＭ
１０３　ＲＡＭ
１０４　プログラム群
１０５　記憶装置
１０６　ドライブ装置
１０７　通信インタフェース
１０８　入出力インタフェース
１０９　バス
１１０　記憶媒体
１１１　通信ネットワーク
１２１　説明生成部
１２２　パラメータ計算部

Claims

　訓練データの入力に対して機械学習モデルが出力する予測値を説明する説明データを生成する説明生成部と、
　前記訓練データの入力に対する前記機械学習モデルが出力する予測値と予め設定された正解値とが異なる度合いを表す予測損失と、前記説明データが予め設定された当該説明データが満たすべき基準を満たしていない度合いを表す説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算するパラメータ計算部と、
を備えた情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記パラメータ計算部は、前記予測損失と、前記説明データと予め設定された正解説明データとが異なる度合いを表す前記説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算する、
情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記パラメータ計算部は、前記予測損失と、複数の要素からなる前記説明データの重み付き和に基づく前記説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算する、
情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記説明生成部は、前記訓練データを構成する要素毎の前記機械学習モデルによる予測値に対する重要度に基づいて前記説明データを生成する、
情報処理装置。
　請求項４に記載の情報処理装置であって、
　前記説明生成部は、前記機械学習モデルを用いた微分可能な関数を前記重要度として用いて前記説明データを生成し、
　前記パラメータ計算部は、前記関数の微分を利用して前記説明損失の勾配を計算することで前記機械学習モデルのパラメータを計算する、
情報処理装置。
　請求項５に記載の情報処理装置であって、
　前記説明生成部は、前記訓練データに基づいて生成した第２の訓練データを用いて前記機械学習モデルに基づく第２の機械学習モデルを訓練した場合における当該第２の機械学習モデルのパラメータを前記関数として前記説明データを生成する、
て生成する、
情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記機械学習モデルが複数のルールを用いて予測値を予測するモデルであり、
　前記説明生成部は、前記訓練データが前記機械学習モデルにおいて該当するルールを前記説明データとして生成し、
　前記パラメータ計算部は、前記予測損失と、前記説明データと予め設定された正解ルールとが異なる度合いを表す前記説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算する、
情報処理装置。
　請求項２に記載の情報処理装置であって、
　前記訓練データに前記正解説明データを関連付ける正解説明付与部を備え、
　前記正解説明付与部は、前記訓練データと、当該訓練データに対応する正解ラベルと、前記機械学習モデルの初期パラメータと、を取得して、前記初期パラメータを前記機械学習モデルのパラメータとして用いて当該機械学習モデルに前記訓練データを入力したときに生成された前記説明データを前記正解説明データとして当該訓練データに関連付ける、
情報処理装置。
　請求項８に記載の情報処理装置であって、
　前記正解説明付与部は、前記訓練データの入力に対する前記機械学習モデルが出力する前記予測値が前記正解値と一致している場合における当該訓練データのみに、前記正解説明データを関連付ける、
情報処理装置。
　訓練データの入力に対して機械学習モデルが出力する予測値を説明する説明データを生成し、
　前記訓練データの入力に対する前記機械学習モデルが出力する予測値と予め設定された正解値とが異なる度合いを表す予測損失と、前記説明データが予め設定された当該説明データが満たすべき基準を満たしていない度合いを表す説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算する、
情報処理方法。
　訓練データの入力に対して機械学習モデルが出力する予測値を説明する説明データを生成し、
　前記訓練データの入力に対する前記機械学習モデルが出力する予測値と予め設定された正解値とが異なる度合いを表す予測損失と、前記説明データが予め設定された当該説明データが満たすべき基準を満たしていない度合いを表す説明損失と、が小さくなるよう前記機械学習モデルのパラメータを計算する、
処理をコンピュータに実行させるためのプログラムを記憶したコンピュータにて読み取り可能な記憶媒体。